이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.
이번에는 두 그룹으로 나눠져 있는 유한모집단에서 표본을 비복원추출할 때 나오는 초기하분포에 대해 알아보고자 한다. (주의: 지금까지 배운 것 중 가장 까다로운 내용)
초기하분포 (Hypergeometric distribution)
크기가 N인 모집단이 크기 M짜리 부모집단(A)과 N-M짜리 부모집단(B)으로 나눠져있을 때
n개의 표본을 비복원추출할 때 부모집단 A에서 추출될 표본의 분포이다.
ex) 정상품 6개 + 불량품 4개 있는 상자에서 임의로 3개 제품을 비복원추출했을 때 3개 중 1개가 불량일 확률은?
정상품 6개 중 2개, 불량품 4개 중 1개를 비복원추출할 때의 확률 P(X=1) = 3*(6/10*5/9)*4/10 = 1/2
이를 확률질량함수의 형태로 나타내면 다음과 같다.
초기하함수의 확률질량함수 일반식은 다음과 같다.
(N: 전체 모집단 크기, M: 관심 가지는 모집단 크기, n: 뽑는 개수)
x 범위가 [0, n]이 아닌 [max(0, n-N+M), min(n, M)]인 이유
만약 n이 N-M보다 크다면 한 부모집단에 있는 표본 개수보다 더 많은 개수를 뽑아야하는 경우가 생길 수 있다.
예를 들어, N=10, M=6, n=5인 경우 x=0이 되면 N-M=4인 부모집단에서는 뽑을 수 없는 문제가 발생한다.
따라서 뽑아야하는 수 n에서 나머지 부모집단의 크기를 뺀 값인 n-(N-M)과 0을 비교하여 더 큰 값을 최솟값으로 정한다.
반대의 경우에도 마찬가지의 문제가 발생할 수 있어 뽑아야하는 수 n과 관심있는 부모집단의 크기 M을 비교하여 더 작은 값을 최댓값으로 정한다.
하지만 통상적으로 M과 N-M 값이 n보다 훨씬 크므로 사실상 [0, n]으로 표현해도 큰 문제는 없다.
만약 큰 N의 값에 비해 n이 상대적으로 작으면, 비복원효과가 적기 때문에 이항분포를 베르누이 실험으로 근사한다.
또한 초기하 분포의 경우에는 p=M/N의 이항분포로 근사하여 계산해도 된다.
ex) 10,000개 제품 중 3,000개가 불량이라면 3개를 비복원추출해서 불량품이 1개일 확률
이제 초기하분포의 기댓값과 분산에 대해 알아보자.
초기하분포의 경우 앞의 이항분포와 마찬가지로 각 시행에서 관심있는 부모집단에서 추출되면 1, 다른 부모집단에서 추출되면 0으로 표시하는 확률변수의 합으로 표현할 수 있다.
또한 비록 각 시행이 비복원이라 서로 독립은 아니지만, 확률은 아래 M/N과 1-M/N과 같이 동일하게 진행되는 것을 볼 수 있다.
초기하분포의 기댓값과 분산을 계산해보면 다음과 같다.
분산이 계산된 결과를 보면 이항분포의 분산에 유한모집단 수정계수가 곱해져 이항분포의 분산보다 작은 것을 알 수 있는데, 분산이 작을수록 퍼져있는 정도가 작아 변동성이 작다는 것을 의미하므로 초기하분포가 모수를 추정할 때 이항분포보다 더 안정적이라고 할 수 있다.
ex) 품질관리의 OC(Operating Characteristic) curve
전구 50개가 들어있는 상자에서 10개를 무작위로 검사하는데, 불량품 개수가 1개 이하면 이 회사의 전구를 구매한다.
만약 이 상자에 5개 불량품이 있을 때, 구매할 확률은? (X=10개 중 불량품의 수)
만약 k개 불량품이 있을 때, 구매할 확률에 대해서는 다음과 같은 곡선으로 나타낼 수 있다.
이렇게 OC curve 계산을 통해 몇 개의 표본을 추출할 것인지, 불량품이 몇 개일 때까지 구매할 것인지를 알 수 있다.
'MATH & STATS > STATISTICS' 카테고리의 다른 글
[통계학] 10-2-1. 주요 이산확률분포 - 기하분포 (0) | 2020.03.09 |
---|---|
[통계학] 10-1. 주요 이산확률분포 - 포아송분포 (0) | 2020.03.09 |
[통계학] 9-2. 주요 이산확률분포 - 이항분포 (0) | 2020.03.08 |
[통계학] 9-1. 주요 이산확률분포 - 베르누이 시행과 확률변수 (0) | 2020.03.07 |
[통계학] 8-3. 확률벡터 - 공분산과 상관계수 (0) | 2020.03.07 |