Road to Data Scientists


좌절감을 느낍니다. 데이터 과학이 중요하다는 이야기를 반복하는 자리입니다. 교육을 위해 지금 빨리 노력해야 한다고 합니다. 그리고 데이터의 양이 충분하지 않다고 지적합니다. 데이터 과학에 접근하려면 산학협력이 중요하다고 합니다. 데이터의 본질에서 시작하지 않는 공허한 이야기만 듣고 있습니다. 매년 '데이터'가 붙은 학회에 기회가 있을 때마다 찾아가지만 데이터 그 자체에 기반한 논의는 없습니다.



물은 어떻게 모을 수 있을까? 깊이를 다르게 하면 물이 모입니다. 물은 낮은 곳으로 흐르니까요? 본질을 알면 데이터가 풍부하게 모입니다. 어떻게 데이터를 확보해야 할까라는 문제는 데이터는 어떻게 생겨먹었나를 관찰하고 디자인하는 문제에 연결됩니다. 데이터가 끊어졌다, 사생활 보호 때문에 안된다, 공공데이터의 품질이 떨어진다 이런 문제 이전에 어떤 데이터를 모으기 위해 어떤 디자인이 준비되어야 하는가에 대한 진지한 논의가 필요합니다.



데이터 모델링은 빅데이터의 핵심이라는 말은 바로 데이터 자체를 어떻게 인식하고 어떤 온톨로지에 기반하여 서비스 과학적 접근을 해야 할 것인가에 대한 진지한 논의가 필요하다는 말입니다. 데이터 모델링 자체에 대해서 아무도 언급하지 않는 이 현실에서 무슨 빅데이터, 데이터 과학에 대한 논의를 이어간다는 말입니까. 오늘도 시간 낭비했습니다.

댓글

이 블로그의 인기 게시물

Bradley-Terry Model: paired comparison models

R에서 csv 파일 읽는 법