data.frame을 factor별로, 함수 적용해서 요약하기

데이터 프레임에 여러 요인들이 있고, 이들 요인들을 묶어서 몇몇 함수로 정리하고 싶다면?

R의 패키지 중에 정말 훌륭한 plyr 패키지가 있다!

> library(plyr)

> dfx <- data.frame(

group = c(rep('A', 8), rep('B', 15), rep('C', 6)),

sex = sample(c("M", "F"), size = 29, replace = TRUE),

age = runif(n = 29, min = 18, max = 54)

)

데이터는 다음과 같다.

> dfx

group sex age

1 A M 19.61212

2 A M 26.71510

3 A M 42.92592

4 A F 49.54369

5 A M 44.80178

6 A M 18.67451

7 A M 25.66132

group와 sex별로 그룹을 만들어서, age의 평균과 분산을 가진 새로운 data.frame 객체를 만들자.

> dfx.summarized<-ddply(dfx, .(group, sex), summarize,

mean = round(mean(age), 2),

sd = round(sd(age), 2)

결과는

> dfx.summarized

group sex mean sd

1 A F 40.89 12.25

2 A M 29.73 11.42

3 B F 34.93 7.84

4 B M 34.05 12.04

5 C F 35.61 7.82

6 C M 21.59 NA

RMaster - Dr. Kim's Homepage