어떤 세미나를 준비하며...

R을 좋아하는 사람들은 그래프 하면 ggplot을 떠올린다. 웹을 좀 써야 한다면 역시 python으로 그림을 그려보겠지. 데이터를 전공한 사람으로서 사실 그래프를 그리면 BI 툴을 써야 한다고 본다. 무엇보다 빠르고 쉬우니까 ㅎㅎㅎㅎㅎㅎ

그래서 강의에서나 평소나 MS Power BI를 애용했다. 그런데... 얼마전 알게 된 사실. 그냥 장난감이구나 생각했던 Tableau Public이 훌륭하게 커서... 많은 사람들이 즐겨 쓰게 되었다는 점. 아... 시간이 참으로도 많이 흘렀구나...

데이터를 다루는 사람들마다 관점에 차이는 있을 수 있다. 내 생각에는 (예나 지금이나) 데이터 사이즈를 두고 뭔가 특별하다라고 주장하는 일은 놀랍다. 기술의 발전은 큰 데이터를 잘 다루는 방향으로 이뤄졌다. 그것은 과거 30년 전이나 지금이나 마찬가지다. 잘 다룬다는 것은 데이터를 어떻게 다루는지 몰라도 된다는 뜻이다.

2년 전 경기도 어떤 대학에서 세미나를 할 때 한 교수님이 나에게 질문을 던졌다.

"Hadoop의 MapReduce는 어떻게 하는 것인가?"

적지 않게 당황했는데 왜냐하면 학부에서 빅데이터 수업을 어떻게 가르칠 것인가를 다루는 시간이었기 때문이다. 4년 전 싱가포르 국립대학에서 데이터를 다룰 때 나는 Hadoop과 기타 프로그램을 빌드업했다. 서버를 설치하고 일일이 컴파일 수행하며 여러 작은 컴퓨터를 엮어(당시에 1TB HDD가 엄청 비쌌다!) 10TB 하둡을 구축했다. 그리고 쿼리를 디자인하고 각각 Java API를 만들어 JSON 형태로 데이터를 다운로드 받을 수 있도록 했다.

그로부터 몇 달 뒤, AWS로 Hadoop을 쓸 수 있게 되었고 Java API 대신 AWS의 API로 데이터를 받았고 또한 몇 달 뒤, IBM의 CouchDB를 쓰면서 Java는 빠이빠이 되었다. 그로부터 몇 달 뒤, Google의 Cloud API 플랫폼에 데이터를 적재하고 Big Query를 쓰면서 이제는 다시 SQL로 복귀했다.

지난 몇년간 연구를 위해 내가 사용한 빅데이터 기술은 점점 하둡에서 멀어지는 방향으로 바뀌었다. MapReduce는 코드 몇 줄에서 한 줄로, 이제는 하지 않는 방향으로 바뀌었다. 세미나 때의 교수님 질문이 나를 당황케 한 이유는 4년 전에 초점을 두라는 것인지 지금에 초점을 두라는 것인지 알 수 없었기 때문이었다.

Excel에 Azure를 바로 연결할 수 있다는 사실을 아는 사람이 몇이나 될까? Azure HDInsight에 접속하면 빅데이터를 엑셀로 쓸 수 있다. 말 그대로 엑셀로 쓴다. 지금도 흥미를 끌기 위해 학생들에게 수백 메가의 데이터 파일을 주고 열어보라고 농담삼아 이야기를 하고, Pandas로 데이터 다루는 법을 보여주지만, 사실 이런 과정도 점차 무의미해지고 있다.

빅데이터는 더 이상 커보이지 않는다.

Power Query(Excel 2016에 기본 탑재되어 있다)와 Power BI를 사용하면 빅데이터를 내 손안에 공처럼 쉽게 다룰 수 있다. 한국의 빅데이터 교육이 현실성이 떨어지는 이유는 지나치게 하드웨어, 코딩에 목숨을 걸기 때문이다. 클라우드를 가르쳐라. 기업이 실제 판매하고 있는 서비를 가르쳐야. 개발의 시대에서 사용의 시대로 가야 한다. 우리는 누군가가 만든 전기를 쓰고 있지 않은가? 전자제품을 쓰기 위해 발전기를 개발하는 방법부터 배운다면 누가 이해하겠는가.

댓글

이 블로그의 인기 게시물

Bradley-Terry Model: paired comparison models

R에서 csv 파일 읽는 법

xlwings tutorial - 데이터 계산하여 붙여 넣기