[통계학] 8-3. 확률벡터 - 공분산과 상관계수 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 두 확률변수의 주변분포와 결합분포를 통해 두 개 이상의 확률변수의 기댓값을 계산하는 방법과 모집단에서의 직선 관계를 나타내는 공분산과 상관계수, 그리고 두 변수의 선형결합과 관련된 평균과 분산의 성질을 알아보고자 한다. 기댓값 우선 기본적으로 확률변수에 대한 기댓값은 다음과 같이 주변분포를 통해 나타낸다. 그렇다면 두 확률변수 X, Y에 대해 X+Y 또는 XY의 기댓값은 어떻게 나타낼까? 우선 두 변수를 고려한다는 것은, 두 변수에 대한 결합분포가 있다는 것을 전제로 한다. 따라서 결합확률질량함수나 결합확률밀도함수를 이용하여 다음과 같이 구하게 된다. 이 때 X, Y가 서로 독립이라면 f(x,y).. [통계학] 4-3. 다변량 자료 기술통계 - 공분산과 상관계수 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 공분산과 상관계수 : 두 수치변수 간 직선관계가 어느 정도 되는지 나타내는 통계값 위와 같은 산점도에서 직선관계를 잘 표현해주는 식은 다음과 같다. 표본 공분산 (sample covariance) 두 변수의 선형관계 정도를 나타낸 수치 양의 기울기 : c > 0 / 음의 기울기 : c < 0 단점) 측정 단위에 영향을 받아 값 자체만으로는 선형관계 정도를 알 수 없음 분산과 의미가 다른 것 같은데, 왜 이름이 공분산인걸까? y를 x로 바꿔 식을 작성해보면, 다음과 같이 분산의 형태를 띄게 된다. 따라서 일종의 분산 형태의 구조를 가지지만 한 변수가 아닌 두 개의 변수를 고려했다는 의미로 공(co)분산이라는.. 이전 1 다음