본문 바로가기

MATH & STATS/STATISTICS

[통계학] 1-3. 통계학이란 - 가중치

이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.

이번에는 표본추출 과정에서 모집단의 구성과 표본이 다를 때 가중치 조절을 위해서 해결하는 방법을 알아보고자 한다.
ex) 선거결과에서 지역마다 득표율이 후보자마다 다른 경우

모집단 구성정보는 표본조사 결과 정확도를 높일 수 있는 핵심요소이다.
만약 모집단 구성비율과 표본 구성비율이 다르면 왜곡된 결과가 나올 수 있으므로 가중치를 적용한다.

즉, '가중치 = 한 표본이 몇 개를 대표하는가'를 의미한다.

추출법에 따른 가중치

  • 단순확률추출법, 계통추출법 : w = N/n (=k)
  • 군집추출 : 군집 크기와 해당 군집에서의 표본크기에 따라 다름
  • 층화확률추출법 : 층의 크기와 해당 층에서의 표본크기에 따라 다름
    - 등확률 추출인 경우
      표본으로 선택될 확률 = n/N
      표본에서 차지하는 비중 = 1/n (표본 1개가 N/n개를 대표함)
    - 등확률 추출이 아닌 경우
      추출확률에 따라 조정 (설계 가중치, 표본추출 가중치, 기초 가중치)

가중치의 종류

  • 설계 가중치 (w1)
    = 1 / 추출률
    (추출률 = 표본 크기 / 모집단 크기)
  • 무응답에 따른 가중치 (w2)
    = 1 / 응답률
    대체표본이 없거나 일부 항목에 답하지 않은 경우
  • 사후층화를 위한 가중치 (w3)
    = 모집단 비율 / 표본 비율
    분석을 하다 보니 나온 모집단에 대한 새로운 정보가 표본의 구성과 다를 경우
    표본추출이 모두 끝났는데 사후에 다시 층화를 해야하는 경우
  • 최종 가중치 (w)
    = w1 * w2 * w3
    위의 세 가중치 (설계 가중치, 무응답에 따른 가중치, 사후층화를 위한 가중치)를 곱하여 최종 가중치를 구함

가중치를 적용한 사례

반응형