이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.
산포 (dispersion) 자료들이 얼마나 퍼져있는지 나타내는 측도, 퍼짐의 정도 중심위치가 얼마나 안정적인지 나타내는 정보 조밀하게 모인 경우 : 변동성 작음 / 넓게 퍼진 경우 : 변동성 높음
범위 (range) 최대값 - 최소값 (자료 전체 퍼져 있는 정도 파악 불가)
사분위간 범위 (interquartile-range, IQR) 제 3 사분위수와 제 1 사분위수의 차이 (IQR = Q3 - Q1) 사분위수(quartile) : 자료를 4등분하는 위치 25% 지점 = 제 1 사분위수 (Q1) 50% 지점 = 제 2 사분위수 (Q2) = 표본중앙값 75% 지점 = 제 3 사분위수 (Q3) 사분위수 계산법 : 제 k 사분위수 = (n-1)p+1
상자 그림 (box plot) 자료 주요 위치 파악 및 이상치 검출에 사용됨
box plot 예시
모든 자료들 간 거리의 합을 이용하는 방법
거리의 조건
모든 관측값들 간 거리의 합을 이용할 경우, 데이터 개수(n)의 제곱만큼 더해야 하는 번거로움이 있음 --> 어떤 적절한 중심 위치 a를 잡고, 여기에서 떨어져 있는 정도를 계산해서 거리로 사용
적절한 중심 위치 a 고르는 방법 자료들 간 거리가 가능한 짧아야, 거리의 합이 최소가 되어야 함 ex1) L2의 경우 a에 대해 미분한 식이 0이 되도록 a 값을 고름 --> a = 표본평균 ex2) L1의 경우 중앙값 사용
표본분산 (sample variance) 자료들이 퍼져 있는 정도를 나타낸 값
표본분산 계산 방법
n으로 나누지 않고 n-1로 나누는 이유 편차의 합=0이라는 제약조건 하에, 편차 정보 중 하나는 자동으로 결정이 된다. 따라서 n-1개의 편차 정보를 사용하는 것이므로, n-1으로 나눠주며 이를 자유도(degree of freedom)라고 부른다. (자유롭게 가질 수 있는 개수)
표본표준편차 (sample standard deviation) 표본분산이 편차 제곱합을 이용해서 단위가 관측값 단위의 제곱이므로 단위 맞춰주기 위해 루트 취함
표준화 (standardization) 데이터의 척도, 위치에 영향받지 않도록 바꿔주는 역할 ex) 수능 원점수 --> 표준점수
표준화된 자료의 평균 & 분산
변동계수 (coefficient of variation) 표준편차가 평균에 영향을 받는 경우, 표준편차만 이용하면 산포를 비교하는 것이 부적절하므로 평균으로 표준편차를 보정시켜 줌 (평균에 비해 얼마나 퍼져있는지 나타냄) ex) 100kg인 사람과 50kg인 사람이 각각 10kg를 감량하는 경우, 감량률은 각각 10%, 20%로 차이 발생