R로 분석하기 - 프로젝트

R을 계산기로 사용하는 것은 쉽다.
> 1+1
[1] 2

뭐 이런 느낌으로 함수들을 가져다가 평균도 구하고 분산도 구하고, 기분 내키면 회귀분석도 하고 그러면 된다. 그러나 이뿐? R은 더욱 더 복잡하고 반복적인 일도 처리하고, 어떻게 분석을 진행했나 그 과정도 보여준다. R로 사회과학 분야를 연구하는 사람들은 나름대로 R을 어떻게 사용할 지 생각해보자. 오늘은 나의 노하우를 조금 밝히려 한다.

나는 R 코드를 세 부분으로 나눈다.
[1] 데이터 관련 코드
[2] 연산 관련 함수
[3] 실행 코드

예를 들어 data_handling.r, my_functions.r, my_runner.r
이렇게 세 부분이다.
가장 먼저 작성하는 코드는 당연히 data_handling.r이다. 이 소스 스크립트는 원시 데이터를 받아 data.frame이나 list 등, 분석에 필요한 데이터 객체를 생성하는 과정이 모두 포함되어 있다.
다음으로 통계분석 과정을 담고 있는 my_functions.r이 있다. 이 함수는 다음과 같이 개별 통계 분석 시나리오를 담는다.

예를 들어 다음과 같은 분석 시나리오를 my_ttest_exam_score 함수로 만들었다.

# [1] 학생점수 벡터
# [2] 중간고사 기말고사 비교
#
my_ttest_exam_score <- function(x.vector,g.factor) {
  cat("This is sample.","\n",sep="")
  pairwise.t.test(x.vector,g.factor)
}

마지막으로 my_runner.r은 실행코드다.

# 2014년 중간고사 기말고사 비교
# 학생들이 중간고사보다 기말고사 때 공부를 더 열심히 했는가?
# 작성자:TagKim

source("my_functions") # 분석 시나리오 불러온다.
my_ttest_exam_score(test_result,test_division)

실행코드와 분석 시나리오를 분리시켜두면 나중에 다른 문제 해결에 분석 시나리오 조각들을 가져다 쓸 수 있어 유리하다.


댓글

이 블로그의 인기 게시물

R에서 csv 파일 읽는 법

xlwings tutorial - 데이터 계산하여 붙여 넣기