본문 바로가기

[통계학] 10-3. 주요 이산확률분포 - 다항분포 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 이항분포의 확장된 형태인 다항분포에 대해 알아보고자 한다. 이전에 범주화된 자료를 정리하는 도수분포표를 배울 때, 도수와 상대도수에 대해 배운 적이 있다. (링크 참고) 해당 범주에 속해 있는 자료의 비율을 나타내는 상대도수는 표본을 계속 뽑으면 해당 범주가 모집단에서 차지하는 비율, 즉 확률로 수렴하게 된다. 다항분포 (Multinomial Distribution) 지난번에 다룬 이항분포의 경우 발생 가능한 결과가 2가지(ex: 성공과 실패)만 나왔다. 이제는 발생 가능한 결과가 2가지 이상인 경우를 살펴보고자 한다. 다항분포란, 각 시행에서 발생 가능한 결과가 k가지로, 각 독립적인 시행에서 ..
[통계학] 10-2-2. 주요 이산확률분포 - 음이항분포 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 베르누이 실행의 또 다른 응용 형태인 음이항분포에 대해 알아보고자 한다. 음이항분포 (Negative Binomial Distribution) 성공할 확률이 p인 베르누이 시행을 r번 성공할 때까지 시행하는 경우 실패횟수(또는 시행횟수)의 분포 먼저 시행횟수를 기준으로 설명해보자. 실패횟수 X에 r을 더하면 시행횟수 Y(=X+r)가 되는데 이는 y-1번째까진 r-1번의 성공과 y-r번의 실패가 있었다는 것이다. Y~NB(r,p)로 나타내며, 확률질량함수는 아래와 같다. 이제 실패횟수를 기준으로 설명해보자면, r번 성공할 때까지 시행하는 것이기에 실패횟수가 x번일 때 성공횟수는 r-1번일 것이며, ..
[통계학] 10-2-1. 주요 이산확률분포 - 기하분포 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 베르누이 실행의 또 다른 응용 형태인 기하분포에 대해 알아보고자 한다. 기하분포 (Geometric Distribution) 성공 확률이 p인 베르누이 시행을 성공할 때까지 시행하는 경우 실패횟수(또는 시행횟수)에 대한 분포 표본공간 = {S, FS, FFS, FFFS, ... }이며, X~Geo(p)로 나타낸다. 확률질량함수는 다음과 같으며, 제 1항이 p이고 공비가 1-p인 등비급수 형태이다. 또한 분포 값에 1을 더하면(X+1) 시행횟수가 되며, 이에 대한 확률질량함수는 아래와 같다. 기하분포에서의 확률을 다루려면 우선 등비급수의 합에 대해 알아야 한다. 등비급수의 합은 다음과 같이 구할 수..
[통계학] 10-1. 주요 이산확률분포 - 포아송분포 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 어떤 사건의 발생건수 같은 계수자료(counting data)를 모델링할 때 많이 쓰이는 포아송분포에 대해 알아보고자 한다. 포아송분포 (Poisson distribution) 이항분포 X~B(n,p)는 n이 커지면 계산할 때 n!이 무한대로 표시되어 어려움이 따르는데, 이를 해결해보고자 한다. 특히, p값이 매우 작으면, n에 비해 어느 정도 큰 x에 대한 확률은 무시할 정도로 작다. 이 때, E(X)=λ로 가정하고 n→∞일 때(n이 커질 때)의 식을 다음과 같이 정리해보자. 여기서 나온 f(x)의 정리된 식과 같은 구조의 확률질량함수를 가지는 것을 포아송분포라고 부른다. 즉, 발생가능성이 희박..
[통계학] 9-3. 주요 이산확률분포 - 초기하분포 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 두 그룹으로 나눠져 있는 유한모집단에서 표본을 비복원추출할 때 나오는 초기하분포에 대해 알아보고자 한다. (주의: 지금까지 배운 것 중 가장 까다로운 내용) 초기하분포 (Hypergeometric distribution) 크기가 N인 모집단이 크기 M짜리 부모집단(A)과 N-M짜리 부모집단(B)으로 나눠져있을 때 n개의 표본을 비복원추출할 때 부모집단 A에서 추출될 표본의 분포이다. ex) 정상품 6개 + 불량품 4개 있는 상자에서 임의로 3개 제품을 비복원추출했을 때 3개 중 1개가 불량일 확률은? 정상품 6개 중 2개, 불량품 4개 중 1개를 비복원추출할 때의 확률 P(X=1) = 3*(6/1..
[통계학] 9-2. 주요 이산확률분포 - 이항분포 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번 시간에는 베르누이 확률분포를 이용해서 파생되는, 이산형분포의 대표적인 분포인 이항분포의 성질에 대해 알아보자. 이항분포 (Binomial distribution) 성공할 확률이 p인 베르누이 실험을 n번 반복했을 때, 성공 횟수(X)의 분포 Xi~B(p)라고 할 때, 성공 횟수 X는 n개의 베르누이 확률변수 합으로 표시한다. 이항분포의 기댓값과 분산을 나타내면 다음과 같다. 이 때 이항분포에서 베르누이 시행은 서로 독립적으로 일어난다는 성질을 기억해야 한다. ex) 주사위 세 번 던질 때(n=3), X=1이 나온 횟수 구하기 (1이면 S, 아니면 F) 위의 예제와 같이, 시행횟수가 n번이고 성공확률이..
[통계학] 9-1. 주요 이산확률분포 - 베르누이 시행과 확률변수 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번부터는 통계학에서 많이 사용되는 중요한 분포들에 대해 배워보고자 한다. 이번에는 그 중 베르누이 시행과 베르누이 확률변수에 대해 알아보자. 베르누이 시행 (Bernoulli trial) 베르누이 시행은 다음과 같은 세가지 조건을 항상 만족한다. 각 실험에서 발생 가능한 결과가 2가지밖에 없다. 각 실험이 독립적으로 수행된다. 모든 실험에서 결과 확률은 항상 동일하다. (예를 들어 성공할 확률과 실패할 확률은 항상 동일하다는 것이다.) 다음 예시 문제가 베르누이 시행인지 확인해보자. 10개의 제품 중 3개가 불량품일 때, 정상품을 뽑을 확률을 알아본다. case1) 2개를 복원추출하는 경우 : P(S1,..
[통계학] 8-3. 확률벡터 - 공분산과 상관계수 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 두 확률변수의 주변분포와 결합분포를 통해 두 개 이상의 확률변수의 기댓값을 계산하는 방법과 모집단에서의 직선 관계를 나타내는 공분산과 상관계수, 그리고 두 변수의 선형결합과 관련된 평균과 분산의 성질을 알아보고자 한다. 기댓값 우선 기본적으로 확률변수에 대한 기댓값은 다음과 같이 주변분포를 통해 나타낸다. 그렇다면 두 확률변수 X, Y에 대해 X+Y 또는 XY의 기댓값은 어떻게 나타낼까? 우선 두 변수를 고려한다는 것은, 두 변수에 대한 결합분포가 있다는 것을 전제로 한다. 따라서 결합확률질량함수나 결합확률밀도함수를 이용하여 다음과 같이 구하게 된다. 이 때 X, Y가 서로 독립이라면 f(x,y)..