이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅱ 강의를 기반으로 작성되었습니다.
오늘은 귀무가설에서 표본이 얼마나 비정상적인지 보이는 방법인 검정통계량에 대해 알아보고, 가설검정을 통해 결론을 낼 때 나타나는 오류의 종류와 내용에 대해 배워보고자 한다.
검정통계량 (test statistic)
귀무가설에서 표본의 비정상성을 결정할 때 사용하는 통계량
통계량 : 미지의 모수를 포함하고 있지 않은 확률변수, 갖고 있는 확률표본들의 함수
→ 확률분포 갖고 있음 → 확률적으로 판정하는 부분에서 사용
* 통계량이 무엇인지 헷갈린다면 더보기를 클릭하세요 *
앞으로 배울 검정통계량은 확률분포를 쉽게 유도할 수 있지만, 실제 분석에서는 알 수 없는 경우 많음
분포를 알고 있는 경우, 통계값이 발생가능성이 희박한 곳에 있는 경우 H0를 기각하고 H1를 참이라고 할 수 있다.
검정통계량을 유도하는 방법에는 Most Powerful Test(최강력검정), Likelihood Ratio Test(가능도비 검정, LRT), Score Test 등이 있으나 여기에서는 점추정량을 기반으로 할 것이다.
그래서 기본적으로 관심을 가지는 모수인 평균, 분산, 비율을 대신해서 표본평균, 표본분산, 표본비율 등을 통해 점추정량을 유도하고 이러한 점추정량을 통해 검정통계량을 유도할 것이다.
방법은 귀무가설 하에서 검정통계량의 확률분포를 통해 표본의 정상 여부를 판정한다.
기각역(rejection region)은 비정상 영역이므로 기각역에 있다면 H0를 기각시키고 H1을 참이라고 하며,
채택역(acceptance region)은 정상 영역이므로 채택역에 있다면 H0을 유지하고 H1을 참이라고 하지 않는다.
ex1) 앞에서 봤던 예시인 '새로운 파이는 기존 파이의 칼로리(165kcal)보다 낮다'는 예시에서
H1: μ < 165, H0: μ ≥ 165이므로 표본평균 X_bar가 작을수록 비정상적 자료에 가깝다.
ex2) H1: θ ≠ 0.5, H0: θ = 0.5에서 표본비율 P가 0.5에서 멀어질수록, 즉 0 또는 1에 가까워질수록 비정상적 자료에 가깝다.
ex3) H1: θA-θB > 0, H0: θA-θB ≤ 0에서 표본비율 차이 P_A - P_B가 클수록 비정상적 자료에 가깝다.
위의 방법에서 어느정도 작을수록, 클수록인지 그 기준인 유의수준은 오류의 종류와 함께 설명하고자 한다.
이전 글의 가설검정의 원리에서 대우를 통해 증명하는 방법을 통해 '귀무가설 H0가 참이면 비정상적인 표본이다'를 증명해야 했다. 이 때 실제 데이터가 참인데 뽑다 보니 비정상적인 데이터 구간에서 나올 수도 있다. 확률적으로는 크거나 작을수도 있지만 표본을 뽑다보면 잘못된 부분이 나와 오류가 발생할 수 있는데, 그 오류의 종류에 대해 알아보자.
- 제 1종 오류 (Type Ⅰ Error)
H0이 참인데도 불구하고 H1이 참이라고 판정하는 오류 (= P(H1=참 | H0=참))
- 유의수준 (significant level) : α = max P (제 1종 오류의 최댓값) - 제 2종 오류 (Type Ⅱ Error)
H1이 참인데도 H0이 참이라고 판정하는 오류 (= P(H0=참 | H1=참))
- 검정력 (power) : 1 - β = 1 - P (1 - 제 2종 오류)
'MATH & STATS > STATISTICS' 카테고리의 다른 글
[통계학] 14-4. 통계적 추론의 개요 - 유의확률(p-value) (0) | 2020.03.28 |
---|---|
[통계학] 14-3. 통계적 추론의 개요 - 유의수준과 검정력 (0) | 2020.03.26 |
[통계학] 14-1. 통계적 추론의 개요 - 가설검정의 원리 (0) | 2020.03.18 |
[통계학] 13-3. 통계적 추론의 개요 - 구간추정과 신뢰구간 (0) | 2020.03.18 |
[통계학] 13-2. 통계적 추론의 개요 - 추정법과 점추정량 (0) | 2020.03.17 |