본문 바로가기

MATH & STATS/STATISTICS

[통계학] 8-3. 확률벡터 - 공분산과 상관계수

이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.

이번에는 두 확률변수의 주변분포와 결합분포를 통해 두 개 이상의 확률변수의 기댓값을 계산하는 방법과
모집단에서의 직선 관계를 나타내는 공분산과 상관계수,
그리고 두 변수의 선형결합과 관련된 평균과 분산의 성질을 알아보고자 한다.

기댓값 

우선 기본적으로 확률변수에 대한 기댓값은 다음과 같이 주변분포를 통해 나타낸다.

단일확률변수에 대한 기댓값

그렇다면 두 확률변수 X, Y에 대해 X+Y 또는 XY의 기댓값은 어떻게 나타낼까?
우선 두 변수를 고려한다는 것은, 두 변수에 대한 결합분포가 있다는 것을 전제로 한다.
따라서 결합확률질량함수나 결합확률밀도함수를 이용하여 다음과 같이 구하게 된다.

이산확률변수 X, Y에 대한 X+Y, XY의 기댓값

이 때 X, Y가 서로 독립이라면 f(x,y)가 x의 주변확률함수와 y의 주변확률함수의 곱으로 표현되기 때문에
다음과 같이 나타낼 수 있다.

X, Y가 서로 독립일 때 XY의 기댓값

공분산 (covariance)

앞에서 배웠던 관측값의 직선관계를 알아보는 측도, 표본공분산은 다음과 같이 정의했다.

표본공분산 정의

이제 두 확률변수 X, Y의 공분산은 어떻게 구할 수 있는지 알아보자.

이 때 X와 Y가 독립이면 E(XY) = E(X)E(Y)이므로 Cov(X, Y) = 0이 된다.
참고로 역은 성립하지 않는데, 아래 예시를 통해 알아보자.

'공분산=0이면 독립이다'의 반례

공분산의 연산에 대한 공식은 다음과 같다.
상수의 경우는 상관없으며, 변수에 곱해지는 계수는 그대로 곱해지는 것을 볼 수 있다.

공분산의 연산

다음은 분산과 공분산에 관한 공식인데,
두 확률변수가 독립일 경우에서 한 확률변수 앞에 붙는 부호와 상관 없이 두 분산이 더해진다는 것을 유의해야 한다.

분산과 공분산에 관한 공식

상관계수 (coefficient of correlation)

상관계수는 앞에서 배웠듯이 표준화된 변수들의 공분산이다.

우선 표준화된 확률변수들의 공분산에 대해 나타내면 다음과 같다.

표준화된 확률변수들의 공분산

그리고 이를 통해 두 확률변수의 상관계수를 나타내면 다음과 같다.

확률변수의 상관계수

다음으로 상관계수의 성질에 대해 알아보자.

  • -1 ≤ ρ ≤ 1
  • 어떤 직선을 중심으로 확률(or 밀도)이 모여 있을수록 는 ρ의 절댓값 |ρ|은 1에 근접해진다.
  • 0이 아닌 상수 a에 대해 Y=aX+b이면 |ρ_XY|=1이다.
  • Cor(aX+b, cY+d) = sign(a)*sign(b)*Cor(X,Y) -- 아래에 증명

Cor(aX+b, cY+d) = sign(a)*sign(b)*Cor(X,Y) 증명

반응형