이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.
수치자료 범주화하기
자료의 값이 한정되어 있는 개수(10개 미만)로 되어 있는 경우, 해당 값 자체를 범주로 처리한다.
하지만 대부분의 경우 그렇지 않으므로, 자료를 크게 범주화한 뒤 해당되는 빈도 수를 통해 도수분포표를 작성한다.
(순서자료 형태로 변환)
- 계급(class)의 수 : 제곱근 방법, Sturges 공식, Rice 공식
- 계급 경계 : 간격(크기)과 시작점과 끝점 지정 (기본적으로 동일간격)
- 하지만 통상적으로 자료 구조, 특성 고려해 분석가가 직접 선택함
그래프를 이용한 자료 정리
- 점도표 (dot plot)
각 관측값 위치에 점 표시
같은 관측값 있는 경우 위에 누적시킴
- 히스토그램 (histogram)
수치형 자료(연속 자료) 분포형태 표시
계급 상대도수 = 사각형 면적 (전체 면적 = 1)
높이 = 상대도수 / 계급구간길이 = 밀도(density)
구간을 어떻게 설정하느냐에 따라 모양이 달라질 수 있음
- 밀도추정 (density estimation)
데이터 위치에 사각형을 하나씩 쌓아 올려 그려짐 (or 종모양으로 쌓아지게 함)
사각형 가로 길이 : 1 / (구간길이 * 도수)
- 줄기-잎 그림 (stem-and-leaf plot)
관측값 정보 그대로 유지하면서 자료 분포 나타냄
자료 순서대로 정렬 --> 줄기에는 기본단위의 10배 값 표시
잎에는 관측값의 기본단위에 해당하는 값 표시
줄기 옆에 (*) 표시로 중앙값 위치 나타냄
- 상자그림 (box plot)
통계학자 Tukey가 제안한 것으로, 사분위 수를 이용하여 산포도 분포 나타냄
(3주차에서 자세히 설명될 예정)
반응형
'MATH & STATS > STATISTICS' 카테고리의 다른 글
[통계학] 3-2. 일변량 자료에 대한 수치적 기술통계 - 수치자료의 대체중심위치 (0) | 2020.03.02 |
---|---|
[통계학] 3-1. 일변량 자료에 대한 수치적 기술통계 - 수치자료 분포의 중심위치 : 평균 (0) | 2020.03.01 |
[통계학] 2-2. 일변량 자료 기술통계 - 범주형 자료 정리 (0) | 2020.03.01 |
[통계학] 2-1. 일변량 자료 기술통계 - 자료의 분류와 특성 (0) | 2020.03.01 |
[통계학] 1-3. 통계학이란 - 가중치 (0) | 2020.03.01 |