본문 바로가기

[통계학] 8-1. 확률벡터 - 분산과 표준편차 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 모집단의 분산과 표준편차를 계산하는 방법에 대해 알아보도록 한다. 우선 표본에서의 분산을 어떻게 구하는지 다시 살펴보자. 표본크기가 n이고 표본이 가질 수 있는 값 x_i와 그 값을 가지는 표본 수를 n_i이라고 하면 표본분산 s^2는 다음과 같이 나타낼 수 있다. 여기에서 n을 계속 크게 만들면 아래와 같이 값들이 변할 것이며, 표본분산은 모분산으로 될 것이다. 따라서 모분산은 다음과 같이 나타낼 수 있다. 또한 모표준편차의 경우 모분산에 루트를 씌워 다음과 같이 표현한다. 이제 확률변수의 분산 Var(X)에 대해 알아보자. 먼저 이산확률변수의 경우 다음과 같이 나타낼 수 있다. 연속확률변수의 ..
[통계학] 3-3. 일변량 자료에 대한 수치적 기술통계 - 수치자료 분포의 산포 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 산포 (dispersion) 자료들이 얼마나 퍼져있는지 나타내는 측도, 퍼짐의 정도 중심위치가 얼마나 안정적인지 나타내는 정보 조밀하게 모인 경우 : 변동성 작음 / 넓게 퍼진 경우 : 변동성 높음 범위 (range) 최대값 - 최소값 (자료 전체 퍼져 있는 정도 파악 불가) 사분위간 범위 (interquartile-range, IQR) 제 3 사분위수와 제 1 사분위수의 차이 (IQR = Q3 - Q1) 사분위수(quartile) : 자료를 4등분하는 위치 25% 지점 = 제 1 사분위수 (Q1) 50% 지점 = 제 2 사분위수 (Q2) = 표본중앙값 75% 지점 = 제 3 사분위수 (Q3) 사분위수 계..