본문 바로가기

MATH & STATS/STATISTICS

[통계학] 4-3. 다변량 자료 기술통계 - 공분산과 상관계수

이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.

공분산과 상관계수 : 두 수치변수 간 직선관계가 어느 정도 되는지 나타내는 통계값

평균에서 멀어질수록 직선관계가 잘 나타남

위와 같은 산점도에서 직선관계를 잘 표현해주는 식은 다음과 같다.

  • 표본 공분산 (sample covariance)
    두 변수의 선형관계 정도를 나타낸 수치
    양의 기울기 : c > 0 / 음의 기울기 : c < 0
    단점) 측정 단위에 영향을 받아 값 자체만으로는 선형관계 정도를 알 수 없음

분산과 의미가 다른 것 같은데, 왜 이름이 공분산인걸까?
y를 x로 바꿔 식을 작성해보면, 다음과 같이 분산의 형태를 띄게 된다.
따라서 일종의 분산 형태의 구조를 가지지만 한 변수가 아닌 두 개의 변수를 고려했다는 의미로 공(co)분산이라는 이름을 지니게 된 것이다.

표본공분산의 간편식
직선관계가 없는 산점도 (c ≒ 0)

  • 표본상관계수 (coefficient of correlation)
    표준화된 자료의 표분공분산
    상관관계가 높을수록 |r|의 값은 1에 근접해짐 (직선 : |r|=1)
    r < 0 : 음의 상관관계 / r > 0 : 양의 상관관계 / |r| ∽ 0 : 상관관계 없음

    주의) 두 변수 간 상관관계를 나타낼 뿐, 인과관계(원인&결과)를 나타내는 것은 아님
잠복변수 (lurking variable)
두 변수에 영향을 주는 변수로, 허위 상관(spurious correlation)을 나타내게 할 수 있다.
따라서 잠복변수의 영향력을 제거하고 상관관계를 파악해야 한다.
ex) 휴대전화 보급률과 기대수명은 연도라는 잠복변수에 의해 영향을 받으므로,
     연도의 영향력을 제거하고 상관관계를 유도해야 함

피어슨의 표본상관계수
표본상관계수의 간편식

표본상관계수 범위 증명
Cauchy-Schwartz 부등식에 의해, -1 ≤ r ≤ 1 이 성립된다.
Cauchy-Schwartz 부등식

그룹화 된 자료라면, 그룹으로 나누기 전후의 상관관계를 파악하는 것이 중요

반응형