동기 세상에는 비교할 것이 많습니다. 여러분에게 3가지 옵션이 주어져 있다면 전부 세 번 비교를 할 수 있습니다. 예를 들어, 사과, 바나나, 파인애플 중에서 무엇을 더 좋아하는지 물어볼 수 있습니다. 사과를 A, 바나나를 B, 파인애플을 C라고 하면 A 와 B B 와 C A 와 C 이렇게 비교할 수 있습니다. 비교는 어렵지 않지만, 만약 여러분이 채식을 좋아하는지 육식을 좋아하는지에 따라 비교의 결과가 다른지 알아보려면 어떠한 방법을 써야 할까요? Bradley-Terry의 로그선형모델(Log-Linear Bradley-Terry model, LLBT Model)을 사용하면 답을 얻을 수 있습니다. Paired-comparison 분석 방법은 Categorical data analysis의 일종으로 연구에 응용할 수 있는 여지가 많은 분석 방법입니다. Worth Parameter 우선 worth parameter에 대해 설명을 해야겠습니다. 위의 식은 객체 j를 객체 k보다 좋아할 확률을 계산하는 함수를 보여줍니다. 이때 계산에 사용되는 파이를 worth parameter라고 합니다. worth parameter가 주어져 있다면 선호하는 확률을 계산할 수 있다는 의미입니다. 예를 들어 j의 worth parameter가 7이고, k의 worth parameter가 3이리면 j를 k보다 좋아하는 확률은 0.7(=7/(7+3))입니다. Design Structure LLBT에 관련된 자세한 연구는 Fienberg & Larntz (1976)이나 Dittrich et al. (1998)을 참조하시고... 여기서는 간단히 데이터를 정리해서 {prefmod} 패키지로 LLBT를 사용하는 방법에 초점을 맞추겠습니다. 우선 Response는 결과값을 기록하는 방법입니다. 비교의 앞쪽을 선호하면 1, 뒤쪽을 선호하면 -1이라고 기록했습니다. 미리 설명하지만 {prefmod}에서는 앞쪽을 선호하면 1,
R은 read.csv() 함수를 기본으로 제공합니다. 그러나 여러분이 이 함수를 쓰면 안되는 몇 가지 이유가 있습니다. 우선 느립니다! 다른 이유는 아실 필요 없겠습니다. 느립니다!!! 대안으로 readr 패키지의 read_csv() 함수를 추천합니다. 그런데, 이 함수는 기본적으로 UTF-8 인코딩된 CSV 파일에 맞춰 설계되었습니다. 대부분의 한국 데이터가 EUC-KR 형식의 CSV이기 때문에 호환이 안된다고 불평하십니다. 안되긴요... 여러분이 한글 Windows를 쓰고 있고, Excel에서 CSV로 뽑은(즉 EUC-KR 혹은 CP949) 형식일 때, > library(readr) > my_data = read_csv("myfile.csv",locale=locale('ko',encoding='euc-kr')) 이렇게 하시면 됩니다. 그냥 UTF-8 형식이었다면 > my_data = read_csv("myfile.csv") 이렇게 하면 됩니다.
댓글
댓글 쓰기