[데이터분석이야기①] 왜 배워야 하는가?
코딩이라는 것은 레퍼런스만 있으면 가능
[디지털비즈온 박종호 기자] 요즘에는 특히나 데이터 분석에 대해 관심이 가지고 있는 사람들이 많습니다. 특히 취업을 생각하고 있는 문과생들이나, 커리어 개발을 도모하려는 직장인들의 경우 그렇습니다.
하지만 다른 모든 것들이 그러하듯이, 제로(0)에서 시작해서 무언가 하나의 스킬(skill)을 연마하는 데에는 방대한 시간과 노력이 요구됩니다. 특히나 분석의 경우 '파이썬'이나 'R' 같은 분석 툴에 익숙해지는 것 이외에도, 분석에 필요한 이론을 빈틈없이 숙지해야 하기 때문에 나름대로의 고충이 상당합니다.
하지만 저는 이론을 배우는 것이 데이터 분석의 핵심이라고 생각합니다. 코딩이라는 것은 레퍼런스만 있으면 사실 누구나 몇 초 안에 해낼 수 있지요. 크게는 왜 이러한 분석 방법을 이용하는지, 작게는 각 코드가 의미하는 바를 이해하는 것이 중요합니다. 내가 무언가를 열심히는 하고 있는데, 무엇을 하고 있는지 몰라서는 곤란하겠지요.
분석이라는 것은 하나의 행위가 전체 결과값을 완전히 바꿔버릴 수 있기 때문에, 이론에 대한 중요성은 아무리 강조해도 지나치지 않습니다.
드물긴 하지만, 저는 이런 경우도 보았습니다. 동료가 어떤 현상을 분석했다고 결과물을 가져왔지만, 결과물이 영 신통치 않아 보여 이것 저것 구체적으로 꼬치꼬치 물었던 적이 있습니다. 아니나 다를까 분석 과정이 아주 엉망이었던 것입니다. 해당 상황에 자기 나름대로는 어떠한 분석기법을 야심차게 도입했지만, 그 분석 기법은 해당 상황에 전혀 어울리지 않은 방법이었죠.
제가 보기에는 과정은 전부 무시하고 통계적으로 그럴듯한 결과만 뽑아낸 '사기'와도 같은 행위였습니다. 반면 동료는 무엇이 잘못된 지 전혀 이해하지 못한 눈치였습니다. 동료는 자신이 무엇을 하고 있는 지도 모른 체 통계를 이용한 조작 행위를 저지르고 있던 셈이었죠. 그래서 이론이 중요한 것입니다.
이론이 중요한 또 하나의 이유는, '그것을 알아야 쉽고 빠르게 배운다'는 사실 떄문입니다. 내가 이것을 왜 배워야 하는지 인지하고 있어야 빨리 배울 수 있습니다. 목표 의식이 있고 없고는 행위의 결과 면에서 현격한 차이를 만들어내기 마련이니까요. 이 부분은 생각보다 매우 중요합니다.
조금 다른 예이지만, 외국어 교육을 예로 들겠습니다. 누구나 외국어를 잘 하고 있지만 누구나 외국어가 쑥쑥 느는 것은 아닙니다. 엄청난 반복 학습과 의지가 필요한 일이니까요. 하지만 어떠한 필요성 없이 그저 막연히 '외국어를 잘 하고싶다'라는 마음 하나로 뛰어든 사람의 실력이 갑자기 나아질 리 없습니다.
반면, 갑작스레 어떤 사정으로 외국에 건너가게 된 사람이나, 대학 졸업 등의 이유로 공인자격증을 따야하는 학생의 경우는 어떨까요. 전자의 경우에는 기본적인 회화 능력이나 비즈니스 언어, 후자의 경우에는 시험에 나오는 내용을 집중적으로 공부해야 할 필요가 있습니다. 이들의 경우 목표의식과 공부해야 할 내용 등이 명확하니 단기적으로 더 나은 퍼포먼스를 보일 가능성이 높습니다.
데이터 분석의 경우도 이와 같습니다. 어떤 분야의 데이터 분석이 왜 필요한지 이해하는 것이 중요합니다. 데이터 분석 내의 세부 분야는 생각보다 매우 다양하고, 대부분의 전문가들 역시 모든 분야를 다 알지는 못합니다. 다짜고짜 데이터 분석의 세계에 진입했다가는, 한 가지의 분석 기법도 마스터하지 못하고 중도하차할 가능성이 높습니다.
다시 한 번 반복합니다만, 내가 무엇을 왜 공부해야하는 지 이해하는 것이 중요합니다. 특히나 4년 간 죽자사자 해당 분야를 공부해야만 하는(?) 통계학과 전공생이 아닌 우리 같은 사람에게는 더더욱이요.
예나 지금이나 학생들이나 의료기관 종사자들, 기업인들의 경우 사건의 '인과관계'를 파악하는 일에 관심이 많습니다. 인과관계를 분석하는 기법으로는 회귀분석이 널리 이용됩니다만 (통계학의 꽃이라고도 합니다), 그 이야기는 다음 시간에 이어서 하도록 하겠습니다.