어떤 세미나를 준비하며...
R을 좋아하는 사람들은 그래프 하면 ggplot을 떠올린다. 웹을 좀 써야 한다면 역시 python으로 그림을 그려보겠지. 데이터를 전공한 사람으로서 사실 그래프를 그리면 BI 툴을 써야 한다고 본다. 무엇보다 빠르고 쉬우니까 ㅎㅎㅎㅎㅎㅎ 그래서 강의에서나 평소나 MS Power BI를 애용했다. 그런데... 얼마전 알게 된 사실. 그냥 장난감이구나 생각했던 Tableau Public이 훌륭하게 커서... 많은 사람들이 즐겨 쓰게 되었다는 점. 아... 시간이 참으로도 많이 흘렀구나... 데이터를 다루는 사람들마다 관점에 차이는 있을 수 있다. 내 생각에는 (예나 지금이나) 데이터 사이즈를 두고 뭔가 특별하다라고 주장하는 일은 놀랍다. 기술의 발전은 큰 데이터를 잘 다루는 방향으로 이뤄졌다. 그것은 과거 30년 전이나 지금이나 마찬가지다. 잘 다룬다는 것은 데이터를 어떻게 다루는지 몰라도 된다는 뜻이다. 2년 전 경기도 어떤 대학에서 세미나를 할 때 한 교수님이 나에게 질문을 던졌다. "Hadoop의 MapReduce는 어떻게 하는 것인가?" 적지 않게 당황했는데 왜냐하면 학부에서 빅데이터 수업을 어떻게 가르칠 것인가를 다루는 시간이었기 때문이다. 4년 전 싱가포르 국립대학에서 데이터를 다룰 때 나는 Hadoop과 기타 프로그램을 빌드업했다. 서버를 설치하고 일일이 컴파일 수행하며 여러 작은 컴퓨터를 엮어(당시에 1TB HDD가 엄청 비쌌다!) 10TB 하둡을 구축했다. 그리고 쿼리를 디자인하고 각각 Java API를 만들어 JSON 형태로 데이터를 다운로드 받을 수 있도록 했다. 그로부터 몇 달 뒤, AWS로 Hadoop을 쓸 수 있게 되었고 Java API 대신 AWS의 API로 데이터를 받았고 또한 몇 달 뒤, IBM의 CouchDB를 쓰면서 Java는 빠이빠이 되었다. 그로부터 몇 달 뒤, Google의 Cloud API 플랫폼에 데이터를 적재하고 Big Query를 쓰면서 이제는 다시 SQL로 복귀했다. 지난