data.frame을 factor별로, 함수 적용해서 요약하기
데이터 프레임에 여러 요인들이 있고, 이들 요인들을 묶어서 몇몇 함수로 정리하고 싶다면?
R의 패키지 중에 정말 훌륭한 plyr 패키지가 있다!
> library(plyr)
> dfx <- data.frame(
group = c(rep('A', 8), rep('B', 15), rep('C', 6)),
sex = sample(c("M", "F"), size = 29, replace = TRUE),
age = runif(n = 29, min = 18, max = 54)
)
데이터는 다음과 같다.
> dfx
group sex age
1 A M 19.61212
2 A M 26.71510
3 A M 42.92592
4 A F 49.54369
5 A M 44.80178
6 A M 18.67451
7 A M 25.66132
group와 sex별로 그룹을 만들어서, age의 평균과 분산을 가진 새로운 data.frame 객체를 만들자.
> dfx.summarized<-ddply(dfx, .(group, sex), summarize,
mean = round(mean(age), 2),
sd = round(sd(age), 2)
결과는
> dfx.summarized
group sex mean sd
1 A F 40.89 12.25
2 A M 29.73 11.42
3 B F 34.93 7.84
4 B M 34.05 12.04
5 C F 35.61 7.82
6 C M 21.59 NA
댓글
댓글 쓰기