KoNLP - 한글 자연어 처리 툴킷
R에는 {tm}이 있어서 텍스트 마이닝을 손쉽게 할 수 있다. 그렇지만 각종 처리를 위해 단어를 분절하는 일 등을 할 때는 참 어렵다. 뿐만 아니라 collocation 혹은 concordance 문제를 처리하기도 쉽지 않다. 전희원씨가 만든 KoNLP는 이러한 문제를 좀 더 잘 해결할 수 있도록 여러 함수를 제공한다. 이 패키지를 쓰려면 {rJava} 패키지가 있어야 한다. 만약 이 패키지를 제대로 설치하지 못하면 KoNLP를 사용할 수 없으니 본 블로그의 다른 포스트를 참고하여 반드시 잘 설치하자. R> install.packages("KoNLP") R> library(KoNLP) 메모리에 문제가 있다면 다음을 추가한다. R> options(java.parameters = "-Xmx2G") #2GB할당 **임시 추가 2016-01-01** ignore.case()함수가 더 이상 사용되지 않아 KoNLP의 concordance_str()함수에 오류가 발생한다. 이 문제를 직접 해결해야 예제 코드가 정상 작동된다. 일단 다음과 같이 사용자 함수를 만들어 사용하자. concordance_str <- function (string, pattern, span = 5) { res <- str_match_all(string, regex(sprintf(".{0,%d}%s.{0,%d}", span, pattern, span),ignore_case=TRUE)) return(Filter(function(x) { length(x) != 0 }, res)) } concordance_file <- function (filename, pattern, encoding = getOption("encoding"),