본문 바로가기

MATH & STATS/STATISTICS

[통계학] 3-3. 일변량 자료에 대한 수치적 기술통계 - 수치자료 분포의 산포

이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.

산포 (dispersion)
자료들이 얼마나 퍼져있는지 나타내는 측도, 퍼짐의 정도
중심위치가 얼마나 안정적인지 나타내는 정보
조밀하게 모인 경우 : 변동성 작음 / 넓게 퍼진 경우 : 변동성 높음

  • 범위 (range)
    최대값 - 최소값 (자료 전체 퍼져 있는 정도 파악 불가)
  • 사분위간 범위 (interquartile-range, IQR)
    제 3 사분위수와 제 1 사분위수의 차이 (IQR = Q3 - Q1)
    사분위수(quartile) : 자료를 4등분하는 위치
    25% 지점 = 제 1 사분위수 (Q1)
    50% 지점 = 제 2 사분위수 (Q2) = 표본중앙값
    75% 지점 = 제 3 사분위수 (Q3)
    사분위수 계산법 : 제 k 사분위수 = (n-1)p+1

상자 그림 (box plot)
자료 주요 위치 파악 및 이상치 검출에 사용됨

box plot 예시

모든 자료들 간 거리의 합을 이용하는 방법

거리의 조건

모든 관측값들 간 거리의 합을 이용할 경우, 데이터 개수(n)의 제곱만큼 더해야 하는 번거로움이 있음
--> 어떤 적절한 중심 위치 a를 잡고, 여기에서 떨어져 있는 정도를 계산해서 거리로 사용

적절한 중심 위치 a 고르는 방법
자료들 간 거리가 가능한 짧아야, 거리의 합이 최소가 되어야 함
ex1) L2의 경우 a에 대해 미분한 식이 0이 되도록 a 값을 고름 --> a = 표본평균
ex2) L1의 경우 중앙값 사용

  • 표본분산 (sample variance)
    자료들이 퍼져 있는 정도를 나타낸 값

표본분산 계산 방법

n으로 나누지 않고 n-1로 나누는 이유
편차의 합=0이라는 제약조건 하에, 편차 정보 중 하나는 자동으로 결정이 된다.
따라서 n-1개의 편차 정보를 사용하는 것이므로, n-1으로 나눠주며
이를 자유도(degree of freedom)라고 부른다. (자유롭게 가질 수 있는 개수)

 

  • 표본표준편차 (sample standard deviation)
    표본분산이 편차 제곱합을 이용해서 단위가 관측값 단위의 제곱이므로 단위 맞춰주기 위해 루트 취함

  • 표준화 (standardization)
    데이터의 척도, 위치에 영향받지 않도록 바꿔주는 역할
    ex) 수능 원점수 --> 표준점수

표준화된 자료의 평균 & 분산

 

  • 변동계수 (coefficient of variation)
    표준편차가 평균에 영향을 받는 경우, 표준편차만 이용하면 산포를 비교하는 것이 부적절하므로
    평균으로 표준편차를 보정시켜 줌 (평균에 비해 얼마나 퍼져있는지 나타냄)
    ex) 100kg인 사람과 50kg인 사람이 각각 10kg를 감량하는 경우, 감량률은 각각 10%, 20%로 차이 발생

보통 100을 곱하여 평균에 비해 얼마나 표준편차가 큰지 % 개념으로 표시

 

반응형