본문 바로가기

MATH & STATS/STATISTICS

[통계학] 10-1. 주요 이산확률분포 - 포아송분포

이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.

이번에는 어떤 사건의 발생건수 같은 계수자료(counting data)를 모델링할 때 많이 쓰이는 포아송분포에 대해 알아보고자 한다.

포아송분포 (Poisson distribution)

이항분포 X~B(n,p)는 n이 커지면 계산할 때 n!이 무한대로 표시되어 어려움이 따르는데, 이를 해결해보고자 한다.
특히, p값이 매우 작으면, n에 비해 어느 정도 큰 x에 대한 확률은 무시할 정도로 작다.
이 때, E(X)=λ로 가정하고 n→∞일 때(n이 커질 때)의 식을 다음과 같이 정리해보자.

포아송분포 확률질량함수 공식 유도

여기서 나온 f(x)의 정리된 식과 같은 구조의 확률질량함수를 가지는 것을 포아송분포라고 부른다.
즉, 발생가능성이 희박한 사건(p값이 매우 작은 사건)이 임의의 구간에서 평균적으로 λ번 발생하는 분포이다.
이항분포에서 각 시행이 독립이고 확률이 변하지 않았던 것처럼, 포아송분포도 구간을 나눴을 때 각 구간 발생 빈도는 서로 독립(independent increment)이고 구간 위치와 관계없이 동일 길이의 구간에서 평균 발생 빈도는 동일(stationary increment)하다. 이러한 상황에서 해당 사건이 일어날 횟수의 분포를 포아송분포라고 한다.

위의 식이 확률질량함수가 되기 위해서는 이 확률들을 다 더했을 때 1이 되어야 하는데, 이를 다음과 같이 증명할 수 있다.

포아송분포 확률질량함수의 합 = 1 증명

이제 λ에 따라 확률질량함수를 그림으로 표현한 것을 살펴보자.
λ가 1인 경우 평균 1번밖에 발생하지 않아 앞쪽으로 확률이 몰려 있으며, 
λ가 3인 경우 평균 3번 발생하므로 x=3 근처로 확률이 상대적으로 높은 것을 볼 수 있다.
즉, λ에 따라 확률분포의 모양이 결정되며 λ는 포아송분포의 모수(parameter)이다.

포아송분포 확률질량함수 그래프 예시

ex) 반도체 생산 공정에서 불량품일 확률 p = 1/500
제작된 1500개 반도체 중 불량품이 2개 이하일 확률은?
이를 다시 해석해보면, X~B(1500, 1/500)에서 P(X2)를 구하는 것이다.
이 때 n=1500이 크고 p=1/500이 상대적으로 작으므로 포아송 X~Pois(3)으로 근사시킬 수 있으며, 다음과 같이 계산할 수 있다.

포아송분포 근사 예시

이항분포를 포아송분포로 근사할 때의 주의점
n이 크다고 해도 p가 상대적으로 점점 커지면 포아송 근사는 잘 되지 않는다.
따라서 λ(=np) 값이 5보다 작을 때 포아송 근사를 사용한다.

 

포아송분포의 성질은 이항분포 성질을 통해 다음과 같이 유도할 수 있다.

포아송분포의 성질

또한, 포아송분포의 기댓값과 분산은 아래와 같이 유도된다.
결론적으로, 기댓값과 분산 모두 λ인데, 이는 포아송분포의 아주 큰 특징 중 하나이다.
이를 통해 데이터에 대한 모델링도 진행한다. 예를 들어 데이터를 얻을 때 E(X)는 표본평균으로, Var(X)는 표본분산으로 추정할 것인데 만약 포아송분포에서 뽑혔다면 표본평균과 표본분산은 비슷한 값을 가질 것이라고 예상할 수 있는 것이다.

포아송분포 기댓값 증명
포아송분포 분산 증명

팩토리얼 적률 (factorial moment)
확률질량함수의 분모에 x! 형태가 들어가 있다면 E(X(X-1))의 기댓값을 구하는데, 이를 팩토리얼 적률(factorial moment)이라고 부른다.
반응형