이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.
공분산과 상관계수 : 두 수치변수 간 직선관계가 어느 정도 되는지 나타내는 통계값
위와 같은 산점도에서 직선관계를 잘 표현해주는 식은 다음과 같다.
- 표본 공분산 (sample covariance)
두 변수의 선형관계 정도를 나타낸 수치
양의 기울기 : c > 0 / 음의 기울기 : c < 0
단점) 측정 단위에 영향을 받아 값 자체만으로는 선형관계 정도를 알 수 없음
분산과 의미가 다른 것 같은데, 왜 이름이 공분산인걸까?
y를 x로 바꿔 식을 작성해보면, 다음과 같이 분산의 형태를 띄게 된다.
따라서 일종의 분산 형태의 구조를 가지지만 한 변수가 아닌 두 개의 변수를 고려했다는 의미로 공(co)분산이라는 이름을 지니게 된 것이다.
- 표본상관계수 (coefficient of correlation)
표준화된 자료의 표분공분산
상관관계가 높을수록 |r|의 값은 1에 근접해짐 (직선 : |r|=1)
r < 0 : 음의 상관관계 / r > 0 : 양의 상관관계 / |r| ∽ 0 : 상관관계 없음
주의) 두 변수 간 상관관계를 나타낼 뿐, 인과관계(원인&결과)를 나타내는 것은 아님
잠복변수 (lurking variable)
두 변수에 영향을 주는 변수로, 허위 상관(spurious correlation)을 나타내게 할 수 있다.
따라서 잠복변수의 영향력을 제거하고 상관관계를 파악해야 한다.
ex) 휴대전화 보급률과 기대수명은 연도라는 잠복변수에 의해 영향을 받으므로,
연도의 영향력을 제거하고 상관관계를 유도해야 함
표본상관계수 범위 증명
Cauchy-Schwartz 부등식에 의해, -1 ≤ r ≤ 1 이 성립된다.
반응형
'MATH & STATS > STATISTICS' 카테고리의 다른 글
[통계학] 5-2. 확률의 기본 개념과 원리 - 경우의 수 (0) | 2020.03.04 |
---|---|
[통계학] 5-1. 확률의 기본 개념과 원리 - 확률이란? (0) | 2020.03.04 |
[통계학] 4-2. 다변량 자료 기술통계 - 비교그림과 산점도 (0) | 2020.03.03 |
[통계학] 4-1. 다변량 자료 기술통계 - 분할표와 그래프 (0) | 2020.03.03 |
[통계학] 3-3. 일변량 자료에 대한 수치적 기술통계 - 수치자료 분포의 산포 (0) | 2020.03.02 |