이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.
이번에는 두 확률변수의 주변분포와 결합분포를 통해 두 개 이상의 확률변수의 기댓값을 계산하는 방법과
모집단에서의 직선 관계를 나타내는 공분산과 상관계수,
그리고 두 변수의 선형결합과 관련된 평균과 분산의 성질을 알아보고자 한다.
기댓값
우선 기본적으로 확률변수에 대한 기댓값은 다음과 같이 주변분포를 통해 나타낸다.
그렇다면 두 확률변수 X, Y에 대해 X+Y 또는 XY의 기댓값은 어떻게 나타낼까?
우선 두 변수를 고려한다는 것은, 두 변수에 대한 결합분포가 있다는 것을 전제로 한다.
따라서 결합확률질량함수나 결합확률밀도함수를 이용하여 다음과 같이 구하게 된다.
이 때 X, Y가 서로 독립이라면 f(x,y)가 x의 주변확률함수와 y의 주변확률함수의 곱으로 표현되기 때문에
다음과 같이 나타낼 수 있다.
공분산 (covariance)
앞에서 배웠던 관측값의 직선관계를 알아보는 측도, 표본공분산은 다음과 같이 정의했다.
이제 두 확률변수 X, Y의 공분산은 어떻게 구할 수 있는지 알아보자.
이 때 X와 Y가 독립이면 E(XY) = E(X)E(Y)이므로 Cov(X, Y) = 0이 된다.
참고로 역은 성립하지 않는데, 아래 예시를 통해 알아보자.
공분산의 연산에 대한 공식은 다음과 같다.
상수의 경우는 상관없으며, 변수에 곱해지는 계수는 그대로 곱해지는 것을 볼 수 있다.
다음은 분산과 공분산에 관한 공식인데,
두 확률변수가 독립일 경우에서 한 확률변수 앞에 붙는 부호와 상관 없이 두 분산이 더해진다는 것을 유의해야 한다.
상관계수 (coefficient of correlation)
상관계수는 앞에서 배웠듯이 표준화된 변수들의 공분산이다.
우선 표준화된 확률변수들의 공분산에 대해 나타내면 다음과 같다.
그리고 이를 통해 두 확률변수의 상관계수를 나타내면 다음과 같다.
다음으로 상관계수의 성질에 대해 알아보자.
- -1 ≤ ρ ≤ 1
- 어떤 직선을 중심으로 확률(or 밀도)이 모여 있을수록 는 ρ의 절댓값 |ρ|은 1에 근접해진다.
- 0이 아닌 상수 a에 대해 Y=aX+b이면 |ρ_XY|=1이다.
- Cor(aX+b, cY+d) = sign(a)*sign(b)*Cor(X,Y) -- 아래에 증명
'MATH & STATS > STATISTICS' 카테고리의 다른 글
[통계학] 9-2. 주요 이산확률분포 - 이항분포 (0) | 2020.03.08 |
---|---|
[통계학] 9-1. 주요 이산확률분포 - 베르누이 시행과 확률변수 (0) | 2020.03.07 |
[통계학] 8-2. 확률벡터 - 결합분포와 주변분포 (0) | 2020.03.07 |
[통계학] 8-1. 확률벡터 - 분산과 표준편차 (0) | 2020.03.07 |
[통계학] 7-4. 확률변수와 확률분포 - 확률변수의 기댓값 (0) | 2020.03.07 |