이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.
이번에는 어떤 사건의 발생건수 같은 계수자료(counting data)를 모델링할 때 많이 쓰이는 포아송분포에 대해 알아보고자 한다.
포아송분포 (Poisson distribution)
이항분포 X~B(n,p)는 n이 커지면 계산할 때 n!이 무한대로 표시되어 어려움이 따르는데, 이를 해결해보고자 한다.
특히, p값이 매우 작으면, n에 비해 어느 정도 큰 x에 대한 확률은 무시할 정도로 작다.
이 때, E(X)=λ로 가정하고 n→∞일 때(n이 커질 때)의 식을 다음과 같이 정리해보자.
여기서 나온 f(x)의 정리된 식과 같은 구조의 확률질량함수를 가지는 것을 포아송분포라고 부른다.
즉, 발생가능성이 희박한 사건(p값이 매우 작은 사건)이 임의의 구간에서 평균적으로 λ번 발생하는 분포이다.
이항분포에서 각 시행이 독립이고 확률이 변하지 않았던 것처럼, 포아송분포도 구간을 나눴을 때 각 구간 발생 빈도는 서로 독립(independent increment)이고 구간 위치와 관계없이 동일 길이의 구간에서 평균 발생 빈도는 동일(stationary increment)하다. 이러한 상황에서 해당 사건이 일어날 횟수의 분포를 포아송분포라고 한다.
위의 식이 확률질량함수가 되기 위해서는 이 확률들을 다 더했을 때 1이 되어야 하는데, 이를 다음과 같이 증명할 수 있다.
이제 λ에 따라 확률질량함수를 그림으로 표현한 것을 살펴보자.
λ가 1인 경우 평균 1번밖에 발생하지 않아 앞쪽으로 확률이 몰려 있으며,
λ가 3인 경우 평균 3번 발생하므로 x=3 근처로 확률이 상대적으로 높은 것을 볼 수 있다.
즉, λ에 따라 확률분포의 모양이 결정되며 λ는 포아송분포의 모수(parameter)이다.
ex) 반도체 생산 공정에서 불량품일 확률 p = 1/500
제작된 1500개 반도체 중 불량품이 2개 이하일 확률은?
이를 다시 해석해보면, X~B(1500, 1/500)에서 P(X2)를 구하는 것이다.
이 때 n=1500이 크고 p=1/500이 상대적으로 작으므로 포아송 X~Pois(3)으로 근사시킬 수 있으며, 다음과 같이 계산할 수 있다.
이항분포를 포아송분포로 근사할 때의 주의점
n이 크다고 해도 p가 상대적으로 점점 커지면 포아송 근사는 잘 되지 않는다.
따라서 λ(=np) 값이 5보다 작을 때 포아송 근사를 사용한다.
포아송분포의 성질은 이항분포 성질을 통해 다음과 같이 유도할 수 있다.
또한, 포아송분포의 기댓값과 분산은 아래와 같이 유도된다.
결론적으로, 기댓값과 분산 모두 λ인데, 이는 포아송분포의 아주 큰 특징 중 하나이다.
이를 통해 데이터에 대한 모델링도 진행한다. 예를 들어 데이터를 얻을 때 E(X)는 표본평균으로, Var(X)는 표본분산으로 추정할 것인데 만약 포아송분포에서 뽑혔다면 표본평균과 표본분산은 비슷한 값을 가질 것이라고 예상할 수 있는 것이다.
팩토리얼 적률 (factorial moment)
확률질량함수의 분모에 x! 형태가 들어가 있다면 E(X(X-1))의 기댓값을 구하는데, 이를 팩토리얼 적률(factorial moment)이라고 부른다.
'MATH & STATS > STATISTICS' 카테고리의 다른 글
[통계학] 10-2-2. 주요 이산확률분포 - 음이항분포 (0) | 2020.03.10 |
---|---|
[통계학] 10-2-1. 주요 이산확률분포 - 기하분포 (0) | 2020.03.09 |
[통계학] 9-3. 주요 이산확률분포 - 초기하분포 (0) | 2020.03.08 |
[통계학] 9-2. 주요 이산확률분포 - 이항분포 (0) | 2020.03.08 |
[통계학] 9-1. 주요 이산확률분포 - 베르누이 시행과 확률변수 (0) | 2020.03.07 |