상단영역

본문영역

[데이터분석이야기②] 중심극한정리란?

-'큰 수의 법칙'의 확장

  • Editor. 박종호
  • 입력 2023.06.19 14:04
  • 댓글 0
이 기사를 공유합니다
(사진=픽사베이)
(사진=픽사베이)

[디지털비즈온 박종호 기자] 우리 모두는 표본집단의 크기가 커질 때, 그 표본평균이 모평균과 가까워진다는 사실을 알고 있습니다. 이 말이 조금 어렵게 느껴지신다면, 조금 쉬운 예를 소개해 드리겠습니다. 이른바 '큰 수의 법칙'입니다. 

일반적인 주사위를 던질 경우 각자의 숫자가 나올 확률은 1/6입니다.  따라서 주사위를 6번 던진다고 하면, 1부터 6까지 각각의 숫자가 한번 쯤은 나올 것이라고 생각할 수 있겠죠. 하지만 주사위를 던져보기 전까지 우리는 아무것도 장담할 수 없습니다. 아닌 말로 숫자 1만 내리 6번이 나올 수도 있으니까요. 실제로 한 숫자만 내리 6번 나올 가능성은 생각보다 작지 않습니다. 

옛날에 즐겨보던 예능 프로그램에서도 비슷한 경우가 종종 있었습니다. 연예인들이 주사위를 던져서 6이 나오면 따뜻한 실내에서 잠을 자되, 1이 나오면 추운 실외에서 노숙을 해야 했던 것입니다. 하지만 모 연예인이 신들린 감각(?)을 발휘했고, 연속으로 던진 주사위가 스트레이트로 6을 기록한 결과 모두가 따뜻한 실내에서 잠을 잘 수 있었다는 이야기입니다. 

하지만 우리는 이것을 그렇게까지 이상하게 생각하지 않습니다. 연속으로 6번 던진 주사위가 모두 1을 나올 가능성이 크지는 않지만, 그렇다고 해서 불가능에 가까운 일은 아니니까요. 실제로 이 정도의 우연은 우리 일상에서 종종 접하는 수준입니다. 그렇기 때문에 우리는 주사위가 연속으로 1이나 6이 나오는 사실 자체에 그다지 신기함을 느끼지 않는 것일지도 모릅니다.

하지만 주사위를 백 번, 천 번, 만 번 던지면 어떻게 될까요? 주사위를 만 번 던졌을 때, 만 번 모두 1이 나올 가능성은 얼마나 될까요? 십만 번 던졌을 때, 십만 번 모두 1이 나올 가능성은요? 한 없이 0에 수렴할 것입니다. 만 번 던졌을 때 모두 1이 나왔다면 진짜로 이상한 상황이겠죠! 

주사위를 만 번 던졌을 때 1이 나온 횟수를 확률로 표시하면 1/6에 가까운 수가 나올 것입니다. 십만 번 던졌을 때 1이 나온 비율을 표시한다면, 1/6에 더욱 가까운 수가 나오겠죠. 표본집단(주사위를 던지는 횟수)의 크기가 커지면 표본평균(1이 나온 비율)이 모평균(1/6)에 가까워진다는 것입니다.

그렇다면 중심극한정리는 무엇일까요? 큰 차이는 없습니다. 둘 모두 표본의 크기가 커지면 결국 예외의 가능성은 줄어들고, 표본평균이 모평균에 가까워진다는 점을 강조하고 있습니다.

하지만 중심극한정리가 중요한 이유는, 표본평균의 분포가 정규분포에 가까워진다는 사실 떄문입니다. 반면 큰 수의 법칙 어디에서도 정규분포를 언급하고 있지 않습니다. 말하자면 큰 수의 법칙은 표본평균이 모평균으로 수렴한다는 사실 하나만을 알려준다면, 중심극한정리는 '어떤 모양으로, 어떻게' 수렴한다는 사실까지 추가적으로 전달합니다.

심지어 모평균의 분포와는 상관이 없습니다. 모평균이 어떻게 분포되어 있는지와는 상관없이, 그 모평균에서 뽑아낸 표본평균의 분포는 정규분포를 따른다는 것입니다.

예를 들어 모집단의 분포가 일자형이라고 하자. "주사위를 한 번 던져서 나오는 수" 라는 변수가 있다고 하면 이 변수의 분포는 평평할 것입니다. 어떤 특정한 수가 더 자주 나오는 게 아니라 1부터 6까지의 수가 모두 똑같은 확률로 나오니까요.

자 이제 표본을 채집해 보자. '주사위 한 번 던져서 나오는 수'를 50번 채집해서 표본 하나를 구성하겠습니다. 그리고 각 표본에서 평균값을 구한다. 그러면 예를들어 표본1 의 평균값은 3.21, 표본2 의 평균값은 3.56, 표본3 의 평균값은 3.40... 

표본을 5000개 정도 뽑아서 표본 평균의 분포를 그래프로 그려보면 그 형태는 정규분포와 비슷해집니다. 보통 표본의 갯수가 30개 이하를 '작다'라고 하는데요. 그 이유로는 실제로 표본평균의 갯수가 30개를 넘어갔을 때를 기점으로 그 분포가 정규분포와 비슷한 모양을 띄게 되더랍니다 (통계 프로그램을 이용하는 분들의 경우 실제로 한번 테스트를 해 보시길 권합니다!)

이는 주사위가 아니라 동전을 던졌을 떄에도 동일합니다. 주사위는 한 번 던졌을 때의 경우의 수가 1부터 6까지 있으나, 동전의 경우 앞면 아니면 뒷면으로 두 가지 뿐이죠. 따라서 동전과 주사위의 확률분포는 다른 모양을 띄고 있을 것입니다. 하지만 동전을 던졌을 때의 표본평균의 분포 역시 정규분포를 따른다는 점에서 차이가 없습니다.

어떤 분들은 정규분포가 뭐 그렇게 중요하냐고 주장하실 수 있습니다. 하지만 제 생각은 조금 다릅니다. 정규분포 그 자체가 중요하다기 보다는, 모든 경우의 표본평균이 예외 없이 정규분포를 따르고 있다는 사실 자체가 더 중요하다고 생각합니다. 


저작권자 © 디지털비즈온 무단전재 및 재배포 금지

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

하단영역