R/Contents

R에서 text, csv, xlsx, rda 파일 불러오기

VTAOE 2020. 3. 18. 02:32

practice.xlt
0.02MB
practice.xlsx
0.01MB
practice.txt
0.00MB

 

practice.csv
0.00MB
practice.csv
0.00MB

데이터 분석을 할 때에 외부에 있는 데이터를 R 프로그램으로 불러와야 하는 경우를 대비해서 외부에 있는 데이터를 불러오는 방법에 대해서 살펴보고자 한다. 

1. 텍스트 파일 불어오기

먼저 텍스트 파일을 불러오는 법을 살펴보고자 한다. 명령어의 기본 형태는 다음과 같습니다. 

우선, 텍스트 파일을 불러올 때에는 read.table 이라는 명령어를 사용합니다. 그리고 파일위치, 첫번째 행에 변수명(컬럼명)이 있는지 여부, 결측값은 어떻게 처리할 것인지, 변수의 형태가 strings인 것을 factors로 인식하게 할 것인지에 대한 설정을 해주면 됩니다.  

위의 기본 형태에서 file = ".../.../...txt"는 파일이 위치한 위치정보와 파일명을 입력해주면 되고, header=TRUE or header=FALSE는 첫번째 행에 변수명(컬럼명)이 있는지에 대한 설정으로 변수명(컬럼명)이 있으면 TRUE, 없으면 FALSE라고 입력해주면 됩니다. TRUE 대신에 T 라고만 입력해줘도 되고, FALSE 대신에 F라고만 입력해줘도 됩니다. ns.strings="*"는 *로 입력되어 있는 값을 결측값으로 처리하라는 것입니다. stringsAsFactors=FALSE는 strings형태의 변수를 Factors로 인식할 것인가를 묻는 것으로 여기에서는 FALSE라고 입력하였습니다. 

options(prompt="Code: ")

p <- read.table(file="C:/Users/nspar/OneDrive/Desktop/R_Book/practice.txt", header = TRUE, na.strings="*",  stringsAsFactors=FALSE)

p

텍스트 파일 불러오기 실행결과

 

2. 엑셀파일 불러오기

엑셀파일을 불러오기 위해서는 readxl 패키지를 설치해야 합니다. 참고로 엑셀파일을 불러오기 위한 패키지는 다양합니다. readxl 패키지를 설치하려면 install.packages(“readxl”)을 입력한 후 실행하면 되고 패키지를 사용하기 위해서는 libray(readxl)을 입력 후 실행하면 됩니다. 한가지 더,  readxl에서 l은 소문자 엘 입니다.

엑셀파일을 불러오기 위해서는 read_excel(“../파일경로/파일명.xlsx”)을 활용하면 됩니다. 그리고  첫 번째 행에 변수명이 포함되어 있으면 col_names=T라고 입력하면 되고 만약 포함되어 있지 않다면 F를 입력하면 됩니다. 여기에서 T는 TRUE를 의미하고 F는 FALSE를 의미합니다. 또한 엑셀파일이 여러 개의 sheet으로 구성되어 있어 특정 sheet만 불러오고자 한다면 명령어에 sheet명령어를 사용하면 됩니다. 사용하고자 하는 데이터 파일이  두 번째 sheet에 있다고 가정할 경우 sheet=2라고 입력하면 됩니다.  엑셀파일을 불러오기 위한 명령어의 형태는 다음과 같습니다.

e  <-  read_excel("C:/Users/nspar/OneDrive/Desktop/R_Book/practice.xlsx", col_names = T)

엑셀파일 불러오기 결과

 

3. csv 파일 불러오기

csv 파일을 불러오기 위해서는 read.csv를 사용해야 하고 read.csv에는 콤마로 구분되어진다는 것이 고정값으로 설정되어 있기 때문에 sep=“ ”은 쓸 필요가 없습니다.  csv파일을 불러오기 위한 명령어는 텍스트 파일을 불러 올 때와 같습니다. 

csv 파일 불러오기 기본 형태

앞서 텍스트 파일 불러오기에서 살펴보았듯이 header = TRUE or header = FALSE는 변수명(컬러명)이 첫번째 줄에 위치하고 있는지를 물어보는 것이고 na.strings는 데이터에 결측값이 무엇인지를 나타내는 것으로 즉, 데이터 상에 입력되어 있는 값 중에 결측값을 의미하는 것을 입력하면 됩니다.  참고로, practice.csv 파일에는 #로 입력된 결측값이 있습니다. 

cs <- read.csv(file="C:/Users/nspar/OneDrive/Desktop/R_Book/practice.csv", header=TRUE, na.strings="#", 
                stringsAsFactors=FALSE)

아래 실행결과를 보면 ID가 10번인 경우 AGE가 NA이로 출력되었는데 이것은 na.strings="#" 명령어 때문입니다. 

csv 파일 불러오기 실행결과

4. RData 불러오기

앞서 우리는 csv 파일을 cs로 불러왔다. rdata 불러오기를 살펴보기 위해서 우리가 불러온 csv 파일을 rda 파일로 저장하였습니다. rda 파일을 불러올 때에는 간단하다. load("파일위치/파일명.rda")를 입력하면 됩니다. 

load("file=C:/Users/nspar/OneDrive/Desktop/R_Book/practice.rda") 

지금까지 우리는 데이터를 불러오는 법에 대해서 간략하게 살펴보았습니다. 추후 업데이트를 통해 다른 형태를 가진 데이터를 불러오는 법을 살펴보겠습니다.