[데이터분석이야기⑤] 정규분포는 만능이 아니다 (上)

정규분포를 따르지 않는 경우들

2023-06-29     박종호
(사진=pixabay)

[디지털비즈온 박종호 기자] 세상에 존재하는 많은 데이터들의 분포가 종종 정규분포의 형태를 띄고 있습니다. 사람의 키, 몸무게 같은 유전적, 자연적인 성질에서부터, 학생들의 수능성적같은 사회적 지표까지 그 종류도 다양하지요. 그래서 우리는 종종 랜덤으로 뽑아낸 어떠한 데이터가 많이 쌓여져 있으면 그것이 자연스레 정규분포를 따를 것이라고 생각하기 쉽습니다. 

하지만 그렇지 않습니다. 그것은 중심극한정리를 오해한 것입니다. 제가 말하려는 부분은 '표본평균'의 분포가 아닌, 1차 데이터의 분포를 말하는 것이니까요. 

토익이나 토플, GRE같은 영어성적을 예로 들겠습니다. 특히 토플이나 GRE같은 경우 수험생들의 성적 분포가 정규분포를 따르고 있다고 가정합니다. 그래서 상위 50%의 성적을 거둔 학생에게는 일괄적으로 GRE는 150점, 토플은 100점이 주어집니다. 150점과 100점이 응시자들 성적의 평균이라는 이야기이지요. 수능에서 말하는 표준점수 역시 같은 방식으로 주어집니다.

반면 토익의 경우 그 기준이 아주 정확하게는 알려져 있지 않습니다. 무턱대고 토익 응시자들의 성적이 정규분포를 따른다고 가정할 수는 없거든요. 

왜냐고요? 예전에 비해 요즘 토익 응시생들의 실력이 몰라보게 늘었기 때문일 것입니다. 멀리 갈 것도 없이 제가 학교다닐 때만 해도 토익 성적이 800점만 넘어도 '우와' 하는 분위기였습니다. 원하는 기업에 취업하는 데 있어 부족한 점수도 아니었구요.

하지만 지금은 어떤가요? 여전히 무시받을 점수는 아니겠지만, 어디서 영어 좀 한다는 자랑하기에는 턱없이 부족할 것입니다. 그만큼 응시자들의 평균적인 실력이 향상되었으니까요. 아울러 데이터의 분산 역시 정규분포에 비해 줄어들었을 거라는 추측이 가능합니다. 

예전에 토익은 주로 비즈니스 영어로 씌였습니다. 회사원들이 비즈니스 영어실력 향상 혹은 승진을 위해 치르는 경우도 많았지요. 취준생들은 물론이고요. 따라서 응시자들의 성격이 좀 더 다양하고, 선택 편향의 우려로부터도 좀 더 자유로웠습니다.

요즘 응시자 대부분은 대학생이겠죠? 대부분의 목표는 취업을 위한 스팩쌓기일 것이고요. 거기에 학원 및 온라인강의 등 맞춤화된 교육을 받습니다. 따라서 응시자들의 데이터는 이전에 비해 좀 더 동질적인 성격을 띕니다. 요즘 대학생들이 대체로 영어를 좀 더 잘한다는 차이도 빼놓을 수 없겠네요.

이 경우 응시자들의 성적분포가 정규분포를 띈다는 가정에는 무리가 따르게 됩니다. 응시자들 모두가 다 같이 전반적으로 영어를 잘 하게 되었으니까요.

이번엔 20대 남학생들의 연애 횟수를 예로 들어보겠습니다. 예나 지금이나 젊은 남성들에게 연애 시장은 양극화입니다. 소수에게 많은 기회가 돌아가는 불공평한 시장이지요. 연애 횟수의 평균이 2번이라고 한다면, 2번 연애한 남학생들의 수가 가장 많을 것이라고 추측하기에는 어렵습니다. 아마도 최빈값이 평균보다 매우 낮은 형태의 그래프가 그려질 것 같습니다.

결론은 어떤 데이터의 분포를 두고, 정규분포가 아닌 나름의 형태를 그릴 수 있음을 고려해야 합니다. 세상에는 정규분포 이외에도 다른 형태의 분포가 참 많으니까요. 동전던지기로 익숙한 이항분포에서부터, T분포, 카이스퀘어 분포 등등....

그래서 내 데이터의 분포가 어떤 그래프를 그릴지 '잘' 가정하는 것이 매우 중요합니다. 그리고 그 가정에 따라 데이터 분석 시 취해야 할 모델이 결정됩니다. 그래서 모든 데이터 분석은 내 데이터가 어떤 분포를 그리고 있느냐에서 출발합니다.