본문 바로가기

MATH & STATS/STATISTICS

[통계학] 2-3. 일변량 자료 기술통계 - 수치형 자료 정리

이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.

수치자료 범주화하기

자료의 값이 한정되어 있는 개수(10개 미만)로 되어 있는 경우, 해당 값 자체를 범주로 처리한다.
하지만 대부분의 경우 그렇지 않으므로, 자료를 크게 범주화한 뒤 해당되는 빈도 수를 통해 도수분포표를 작성한다.
(순서자료 형태로 변환)

  • 계급(class)의 수 : 제곱근 방법, Sturges 공식, Rice 공식
  • 계급 경계 : 간격(크기)과 시작점과 끝점 지정 (기본적으로 동일간격)
  • 하지만 통상적으로 자료 구조, 특성 고려해 분석가가 직접 선택함

그래프를 이용한 자료 정리

  • 점도표 (dot plot)
    각 관측값 위치에 점 표시
    같은 관측값 있는 경우 위에 누적시킴

  • 히스토그램 (histogram)
    수치형 자료(연속 자료) 분포형태 표시
    계급 상대도수 = 사각형 면적 (전체 면적 = 1)
    높이 = 상대도수 / 계급구간길이 = 밀도(density)
    구간을 어떻게 설정하느냐에 따라 모양이 달라질 수 있음

  • 밀도추정 (density estimation)
    데이터 위치에 사각형을 하나씩 쌓아 올려 그려짐 (or 종모양으로 쌓아지게 함)
    사각형 가로 길이 : 1 / (구간길이 * 도수)

  • 줄기-잎 그림 (stem-and-leaf plot)
    관측값 정보 그대로 유지하면서 자료 분포 나타냄
    자료 순서대로 정렬 --> 줄기에는 기본단위의 10배 값 표시
    잎에는 관측값의 기본단위에 해당하는 값 표시
    줄기 옆에 (*) 표시로 중앙값 위치 나타냄

  • 상자그림 (box plot)
    통계학자 Tukey가 제안한 것으로, 사분위 수를 이용하여 산포도 분포 나타냄
    (3주차에서 자세히 설명될 예정)
반응형