data.table 패키지와 빅데이터

R에는 data.frame이라는 객체가 있습니다. 사용하기 편리하고 여러 장점이 있지만 문제도 많습니다. 일단 여러분이 아주 큰 데이터를 읽어오려면(상상보다 더 큰...) 아마 컴퓨터가 아주 좋지 않으면 실패할 가능성이 있습니다.
이럴 때 좋은 것이 data.table 패키지입니다.

data.table에 대한 설명은
data.table 메뉴얼
참고하세요.

큰 CSV 파일 읽기


> install.packages('data.table')
> library(data.table)
> data.my <- fread("mylargetextdata.csv")

이제 data.my는 data.table 객체입니다. 이를 data.frame 객체로 굳이 바꿀 필요가 있다면

> data.my2 <- as.data.frame(data.my)

이렇게 하면 됩니다.

키 값 정하기


데이터 베이스에서 데이터를 가져왔다면 primary key가 있겠죠?
> setkey(data.my,primary_key)





댓글

이 블로그의 인기 게시물

Bradley-Terry Model: paired comparison models

R에서 csv 파일 읽는 법

xlwings tutorial - 데이터 계산하여 붙여 넣기