이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.
산포 (dispersion)
자료들이 얼마나 퍼져있는지 나타내는 측도, 퍼짐의 정도
중심위치가 얼마나 안정적인지 나타내는 정보
조밀하게 모인 경우 : 변동성 작음 / 넓게 퍼진 경우 : 변동성 높음
- 범위 (range)
최대값 - 최소값 (자료 전체 퍼져 있는 정도 파악 불가) - 사분위간 범위 (interquartile-range, IQR)
제 3 사분위수와 제 1 사분위수의 차이 (IQR = Q3 - Q1)
사분위수(quartile) : 자료를 4등분하는 위치
25% 지점 = 제 1 사분위수 (Q1)
50% 지점 = 제 2 사분위수 (Q2) = 표본중앙값
75% 지점 = 제 3 사분위수 (Q3)
사분위수 계산법 : 제 k 사분위수 = (n-1)p+1
상자 그림 (box plot)
자료 주요 위치 파악 및 이상치 검출에 사용됨
모든 자료들 간 거리의 합을 이용하는 방법
모든 관측값들 간 거리의 합을 이용할 경우, 데이터 개수(n)의 제곱만큼 더해야 하는 번거로움이 있음
--> 어떤 적절한 중심 위치 a를 잡고, 여기에서 떨어져 있는 정도를 계산해서 거리로 사용
적절한 중심 위치 a 고르는 방법
자료들 간 거리가 가능한 짧아야, 거리의 합이 최소가 되어야 함
ex1) L2의 경우 a에 대해 미분한 식이 0이 되도록 a 값을 고름 --> a = 표본평균
ex2) L1의 경우 중앙값 사용
- 표본분산 (sample variance)
자료들이 퍼져 있는 정도를 나타낸 값
n으로 나누지 않고 n-1로 나누는 이유
편차의 합=0이라는 제약조건 하에, 편차 정보 중 하나는 자동으로 결정이 된다.
따라서 n-1개의 편차 정보를 사용하는 것이므로, n-1으로 나눠주며
이를 자유도(degree of freedom)라고 부른다. (자유롭게 가질 수 있는 개수)
- 표본표준편차 (sample standard deviation)
표본분산이 편차 제곱합을 이용해서 단위가 관측값 단위의 제곱이므로 단위 맞춰주기 위해 루트 취함
- 표준화 (standardization)
데이터의 척도, 위치에 영향받지 않도록 바꿔주는 역할
ex) 수능 원점수 --> 표준점수
표준화된 자료의 평균 & 분산
- 변동계수 (coefficient of variation)
표준편차가 평균에 영향을 받는 경우, 표준편차만 이용하면 산포를 비교하는 것이 부적절하므로
평균으로 표준편차를 보정시켜 줌 (평균에 비해 얼마나 퍼져있는지 나타냄)
ex) 100kg인 사람과 50kg인 사람이 각각 10kg를 감량하는 경우, 감량률은 각각 10%, 20%로 차이 발생
반응형
'MATH & STATS > STATISTICS' 카테고리의 다른 글
[통계학] 4-2. 다변량 자료 기술통계 - 비교그림과 산점도 (0) | 2020.03.03 |
---|---|
[통계학] 4-1. 다변량 자료 기술통계 - 분할표와 그래프 (0) | 2020.03.03 |
[통계학] 3-2. 일변량 자료에 대한 수치적 기술통계 - 수치자료의 대체중심위치 (0) | 2020.03.02 |
[통계학] 3-1. 일변량 자료에 대한 수치적 기술통계 - 수치자료 분포의 중심위치 : 평균 (0) | 2020.03.01 |
[통계학] 2-3. 일변량 자료 기술통계 - 수치형 자료 정리 (0) | 2020.03.01 |