이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.
이번에는 포아송분포가 아닌 정규분포를 이용해서 이항분포 확률을 계산하는 원리에 대해 알아보고, 이를 통해 비율에 대한 통계적 추론의 이론적 근거를 마련해보자.
이전에 이항분포에서 n이 크고 p가 작거나 크면 포아송분포로 이항분포 확률을 계산할 수 있다고 했었다.
그러나 p가 0.5에 가까운 값이라면 어떻게 해야할까? 이 경우에는 정규분포로 계산해야 한다.
이제 직접 계산을 해보자. X~B(n,p)라고 할 때, Xi는 i번째 베르누이 확률변수이고 X는 이러한 Xi들의 합이다. 그리고 이 X를 n으로 나눈 것을 표본비율이라고 하며, 이는 n이 클 때 중심극한정리에 의해 정규분포로 근사한다.
이를 표준화해서 나타내면 다음과 같다. 표준화 수식을 통해 첫번째와 같이 나타낼 수 있는데, 이 때 분자 분모에 n을 곱하면 두번째처럼 나타나고, 이를 일반적인 표현으로 나타내면 결국 X는 B(n,p)이지만 n이 커지면 N(np, np(1-p))인 정규분포에 근사한다는 점을 알 수 있다.
ex) p가 작을 때와 0.5와 같을 때 비교 : X~B(100,0.04)와 X~B(100,0.4) 분포 비교
이항분포를 어떻게 근사시킬지 판별법
np 또는 n(1-p)의 값이 5보다 크거나 같으면 정규분포에 근사하면 된다.
왜냐하면 확률이 작거나 큰 경우 끝 값에 데이터가 몰려있을 것이고, 확률이 0.5에 가까우면 중간에 데이터가 몰려있을 것이기 때문이다. 또한 n 값이 커야 중심극한정리를 이용할 수 있으므로 확률에 n을 곱해서 비교해야 한다.
그러나 여기에서 문제점이 하나 있는데, 이항분포는 이산형 자료에 대한 분포인 반면, 정규분포는 연속형 자료에 대한 분포이다.
이항분포를 기준으로 했을 땐 P(X ≤ x-1) = P(X < x) ≠ P(X ≤ x)이지만,
정규분포를 기준으로 했을 땐 P(X ≤ x-1) ≠ P(X < x) = P(X ≤ x)으로 각각 다르게 나타나는 모순이 발생한다.
그래서 아래와 같은 그림을 통해 이를 해결했다. P(X < x)의 경우 초록색으로 칠해진 부분이고 P(X ≤ x-1)은 파란색으로 칠해진 부분인데 이 둘을 타협해서 P(X ≤ x-1)에는 1/2만큼 더해주고, P(X<x)는 1/2만큼 빼주는 것이다. 그래서 결론적으로는 같게 나오는 형태로 만들어준다. 마찬가지로 P(X > x)인 경우에도 이와 같은 방식으로 계산해준다.
이를 이항분포의 연속성 수정(continuity correction)이라고 부른다.
ex) 여론조사 결과, 전체 국민 중 60%가 A정책에 찬성한다고 주장했다. 150명을 무작위로 뽑아 찬성하는 사람의 비율을 알아보려고 할 때, 적극 찬성하는 사람이 78명 이하일 확률은? ⇔ X~B(150, 0.6)일 때 P(X ≤ 78)=?
X ∽ N(150*0.6, 150*0.6*0.4) = N(90, 36) → P(X ≤ 78) ∽ P(Z ≤ (78+1/2-90)/6)
'MATH & STATS > STATISTICS' 카테고리의 다른 글
[통계학] 13-1. 통계적 추론의 개요 - 통계적 추론의 종류 (0) | 2020.03.17 |
---|---|
[통계학] 12-4. 표본분표 - 기타통계량의 표집분포 (0) | 2020.03.11 |
[통계학] 12-2. 표집분포 - 중심극한정리 (0) | 2020.03.11 |
[통계학] 12-1. 표집분포 - 표본평균의 표집분포 (0) | 2020.03.11 |
[통계학] 11-3. 정규분포 - 확률표본과 통계량 (0) | 2020.03.10 |