1. 통계
- 특정집단 대상으로 수행한 조사, 실험을 통해 나온 결과에 대한 요약된 형태의 표현
- 통계자료 획득 방법
- 총조사(census) : 대상 집단 모두 조사 - 많은 시간, 비용 소요
- 표본조사 : 대부분 조사
- 모집단(대상 집단 전체), 원소(모집단 구성 개체), 표본(추출한 모집단 일부 원소), 모수(구하고자 하는 모집단 대한 정보)
- 단순랜덤추출법 : 각 샘플 선택 확률 동일
- 계통추출법 : k개씩 n개 구간 나누어 k개마다 표본 선택
- 집략추출법 : 군집 구분하여 군집별로 단순랜덤추출 (=지역표본추출, 다단계표본추출)
- 층화추출법 : 유사 원소끼리 층으로 나누어 각 층에서 랜덤 추출 (=비례층화추출법, 불비례층화추출법) - 실험 : 특정 목적 하 실험대상에게 처리 가한 후 결과 관측하여 자료 수집
- 측정 : 추출된 원소, 실험 단위로부터 목적에 적합하도록 관측해 자료 얻는 것
- 명목척도 : 어느 집단 속하는지 분류
- 순서척도 : 서열관계 관측
- 구간척도 : 속성의 양 측정, 간격 유의미
- 비율척도 : 간격 대한 비율 유의미, 절대적 기준 0 존재, 사칙연산 가능
2. 통계분석
- 특정 집단, 불확실한 현상 대상으로 자료 수집, 대상 집단 대한 정보 구하고 적절 통계분석 방법 이용하여 의사결정
- 기술통계 : 주관(판단, 예측) 배제, 통계집단의 여러 특성 수량화하여 객관적 데이터로 나타냄
- 추측통계 (통계적 추론) : 모집단 대한 의사결정 (모수 추정, 가설 검정, 예측)
3. 확률 및 확률분포
- 확률 : 특정사건 일어날 가능성의 척도
- 표본공간(모든 결과들의 집합), 사건(표본공간의 부분집합), 원소(나타날 수 있는 개개의 결과들) - 확률변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수
- 정의역 = 표본공간 / 치역 = 실수값
- 이산형 확률변수
- 베르누이 확률분포 : 결과가 2개만
- 이항분포 : 베르누이 n번 반복
- 기하분포 : 성공확률 p인 베르누이 시행에서 첫번째 성공까지 x번 실패할 확률
- 다항분포 : 3가지 이상 결과 가지는 반복시행(이항분포 확장)
- 포아송분포 : 시공간 내 발생 사건의 발생횟수 대한 확률 - 연속형 확률변수
- 균일분포 : 모든 확률변수가 균일한 확률을 가짐
- 정규분포 : 평균 u, 표준편차 sigma
- 지수분포 : 다음 사건 일어날때까지의 대기시간 분포
- t분포 : 두 집단의 평균이 동일한지 알고자 할 때 활용
- 카이제곱분포 : 모평균, 모분산 모르는 모집단의 모분산에 대한 가설 검정
- F분포 : 두 집단의 분산 동일성 검정에 사용
4. 추정과 가설검정
- 추정 : 확률표본으로부터 미지의 모수 추측
- 점추정 : 모수가 특정한 값일 것이라고 추정
- 평균, 중위수, 최빈값 사용
- 조건 : 불편성(모든 가능한 표본에서 얻은 추정량의 기댓값), 효율성(분산 작을수록 좋음), 일치성(표본 커지면 추정값이 모수와 거의 일치), 충족성(추정량이 모수 대한 모든 정보 제공) - 구간추정 : 모수가 특정한 구간에 있을 것이라고 추정
- 추정량 분포에 대한 전제 및 신뢰수준 필요 - 가설검정 : 모집단 대한 가설 설정 뒤 표본관찰 통해 가설 채택여부 결정
- 귀무가설 옳다는 전제하에 검정통계량 값 구하고, 이 값이 나타날 가능성 크기 의해 귀무가설 채택여부 결정
> 유의수준 : 귀무가설 기각 확률 크기, 귀무가설이 옳은데도 이를 기각하는 확률의 크기
> 기각역 : 귀무가설 옳다는 전제 하에 구한 검정통계량 분포에서 확률이 유의수준인 부분
- 제1종 오류 : 귀무가설 옳은데 기각
- 제2종 오류 : 귀무가설 틀린데 채택
5. 비모수 검정
- 모수적 방법
- 모집단 분포 대한 가정 하에 검정통계량 및 분포 유도하여 검정 실시 - 비모수적 방법
- 모집단 분포 대한 아무 제약 가하지 않고 검정 실시
- 관측된 자료가 특정 분포 따른다고 가정할 수 없을 때 / 관측자료 수 적거나 개체간의 서열관계 나타내는 경우
ex) 부호검정, 윌콕슨의 순위합검정, 부호순위합검정, 만위트니의 U검정, 런검정, 스피어만의 순위상관계수 - 비모수 검정과 모수적 검정의 차이점
- 가설의 설정
> 모수적 검정 : 분포의 모수에 대한 가설 설정
> 비모수 검정 : 분포의 형태가 동일하다 / 동일하지 않다만 설정
- 검정 방법
> 모수적 검정 : 표본평균, 표본분산 등 이용
> 비모수 검정 : 관측값의 순위, 두 관측값 차이의 부호 등 이용
출처 : ADsP 데이터 분석 준전문가 (윤종식 저)
반응형
'DATA SCIENCE > ADSP' 카테고리의 다른 글
[ADsP] 3-4. 통계 분석 (3) 회귀 분석 (0) | 2020.06.06 |
---|---|
[ADsP] 3-4. 통계 분석 (2) 기초 통계 분석 (0) | 2020.06.06 |
[ADsP] 3-3. 데이터 마트 (0) | 2020.06.06 |
[ADsP] 3-2. R 프로그래밍 기초 (0) | 2020.06.06 |
[ADsP] 3-1. 데이터 분석 개요 (0) | 2020.06.06 |