본문 바로가기

MATH & STATS/STATISTICS

[통계학] 11-1. 정규분포 - 정규분포와 확률계산

이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.

이번에는 통계학 분야에서 가장 중요한 분포인 정규분포에서 확률과 분위수 등을 어떻게 계산하는지 알아보고자 한다.

수학과 통계학에 큰 기여를 한 가우스(C. F. Gauss)는 1809년 최소제곱법이라는 개념을 소개했다.
최소제곱법이란 퍼져 있는 정도를 나타내는 분산을 구할 때 나온 것으로, Σ(x_i-a)^2를 최소로 만드는 것이 산술평균이라는 것이다. 즉, 이 과정에서 위치모수의 추정값으로 산술평균이 적절하다는 오차의 정규법칙을 보이는데 이 때 아래와 같은 정규분포의 확률밀도함수를 유도했다. 이는 종모양으로 나타나져 있으며, 가우스가 발견했다고 하여 가우시안 분포(Gaussian distribution)이라고 부르기도 한다.

정규분포 확률밀도함수

라플라스의 비슷하지만 다른 접근
그런데 사실 이전에 라플라스(M. Laplace)가 비슷한 방식으로 자료를 병합하는 방식에 대해 고민을 한 적이 있었다. 그는 가우스와는 조금 다르게 제곱(^2) 대신 절댓값을 이용하여 Σ|x_i-a|에서 a값이 무엇인지 추정하는 문제를 다뤘다. 이를 통해 이중지수분포(라플라시안 분포)를 유도했으며, 종모양 대신 가운데가 뾰족한 모양으로 되어 있다.
이중지수분포 확률밀도함수

또한, 위 가우시안 분포 그림이 두 사람(가우스와 라플라스)의 업적에 의해 나왔다고 하여 라플라스-가우스 커브로 불리기도 했다.

그리고 피어슨(K. Pearson)이 이러한 분포가 정규(normal) 분포라고 하며 본격적으로 normal이라는 단어를 사용하기 시작하며 표준편차를 시그마(σ)를 통해 표현했다. 

정규분포는 X~N(μ, σ^2)으로 나타내는데 이는 μ와 σ에 따라 아래와 같이 모양이 변한다.
분포의 중심위치를 나타내는 μ에 의해서는 분포의 위치가 바뀌며(클수록 오른쪽으로),
분산을 나타내는 σ^2에 의해서는 퍼져있는 정도가 바뀌는(클수록 퍼짐) 것을 볼 수 있다.

 μ, σ에 따른 정규분포 위치 및 모양 변화

표준정규분포 (standard normal distribution)

이제 확률을 계산하는 방법을 알아보자. 우리는 연속형 변수일 때 적분을 통해 확률질량함수의 면적을 구해 확률을 알아보았다. 하지만 이번에 다룰 정규분포의 확률밀도함수는 적분으로 계산하기 쉽지 않다. 따라서 이를 좀 더 쉬운 형태로 바꿔 구하는데, 이를 표준정규분포(standard normal distribution)라고 한다.

표준정규분포의 확률밀도함수

표준정규분포는 Z~N(0,1) 형태이며 0을 중심으로 표준편차를 1로 만든 분포로, 아래와 같은 식이 나온다. 하지만 이를 통해서도 적분으로 확률을 구하기에는 어렵기에 수치해석학적으로 아래의 표준정규분포표를 통해 구하게 된다.

표준정규분포표를 이용한 확률 계산

이 표를 통해 표준정규분포의 확률을 계산할 때는 0을 중심으로 대칭이라는 사실을 통해 그림을 이용하여 생각해보고 구하면 보다 수월하게 구할 수 있다.

표준정규분포를 이용한 확률 계산 예시

또 다른 문제로, α가 주어지고 P(Z>z)=α를 만족하는 z, 즉 분위수를 계산하라는 문제가 있다. 이는 아래와 같이 P(Z≤z)로 나타낸 뒤 표준정규분포표를 이용하면 된다.

표준정규분포 확률을 통해 분위수 계산하기

 

반응형