1. 회귀분석의 개요
- 독립변수들이 종속변수에 미치는 영향 추정
- 영향을 받는 변수 : 반응변수, 종속변수, 결과변수
- 영향을 주는 변수 : 설명변수, 독립변수, 예측변수
- 검토사항
- 모형이 통계적으로 유의미한지 : F통계량 확인(유의수준 5% 하에서 F통계량 p값이 0.05보다 작아야)
- 회귀계수 유의미한지 : 계수 t통계량, p값, 신뢰구간 확인
- 모형이 얼마나 설명력을 갖는지 : 결정계수 확인 (높을수록 설명력 높음)
- 모형이 데이터를 잘 적합하고 있는지 : 잔차 그래프 그리고 회귀진단 - 회귀계수 추정 : 최소제곱법 식 편미분하여 계산
2. 회귀분석의 검정
- β1=0이면 x, y사이에 아무런 관계 없음
- 결정계수
- 전체제곱합 SST = 회귀제곱합 SSR + 오차제곱합 SSE
- R^2 = SSR/SST : 전체 데이터를 회귀모형이 설명할 수 있는 양 - 적합성 검토
- 결정계수 R^2 : 1에 가까울수록 자료를 잘 설명하고 있는 것
- F통계량 : F값 크면 귀무가설 β1=...=βn=0을 기각하며, 이는 모형이 유의함을 의미
3. 선형회귀분석
- 가정
- 선형성 : 입출력변수 관계가 선형
- 등분산성 : 오차 분산이 입력변수와 상관없이 일정
- 독립성 : 독립변인과 잔차 관련 X
- 비상관성 : 오차들끼리 상관 X
- 정상성(정규성) : 오차 분포가 정규분포 따름 - 다중 선형회귀분석
- 모형 통계적 유의미 여부 : F통계량으로 확인
- 회귀계수 유의미 여부 : t통계량으로 확인
- 모형 설명력 : 결정계수로 확인
- 모형 데이터 적합 정도 : 잔차 & 종속변수 산점도로 확인
- 데이터가 전제하는 가정 만족 여부 : 선형성, 독립성, 등분산성, 비상관성, 정규성으로 확인 - 다중공선성
- 설명변수 사이 선형관계 존재 시 회귀계수 정확 추정 어려움
- 검사방법 : 분산팽창요인(VIF) > 10이면 문제 → 선형관계 강한 변수 제거, 주성분회귀, 능형회귀로 활용
4. 회귀분석의 종류
- 단순회귀 : 설명변수 1개
- 다중회귀 : 설명변수 k개
- 로지스틱회귀 : 반응변수가 범주형(2진변수)
- 다항회귀 : 설명변수 k개 + 반응변수와의 관계가 1차함수 이상
- 곡선회귀 : 반응변수와의 관계가 곡선
- 비선형회귀 : 선형관계 X
5. 회귀분석 사례
- 선형 회귀분석
> summary(lm(Y~X, data=data)) - 로지스틱 회귀분석
> summary(glm(Y~X, data=data, family="binomial")
6. 최적회귀방정식의 선택
- 필요한 설명변수만 선택
- 모든 가능한 회귀모형 분석하여 가장 적합한 회귀모형 선택
- 단계적 변수선택
- 전진선택법 (forward selection) : 중요한 변수 추가
- 후진제거법 (backward elimination) : 적은 영향 주는 변수 제거
- 단계별방법 (stepwise) : 단계적 추가 or 제거 - 벌점화된 선택기준 : AIC, BIC 최소 되는 모형 선택
- 모형선택 일치성 : 자료 수 늘어날 때 참인 모형이 주어진 모형선택 기준의 최소값을 갖게되는 성질
- step(lm(Y~X, data=, scope=list(lower=~1, upper=~X), direction="변수선택방법", k=숫자))
- scope : 설정할 수 있는 가장 큰 모형 or 작은 모형 설정
- direction : backward, forward, both
- k=2이면 AIC, k=log(n)이면 BIC
출처 : ADsP 데이터 분석 준전문가 (윤종식 저)
반응형
'DATA SCIENCE > ADSP' 카테고리의 다른 글
[ADsP] 3-4. 통계 분석 (5) 다차원척도법 MDS (0) | 2020.06.06 |
---|---|
[ADsP] 3-4. 통계 분석 (4) 시계열 분석 (0) | 2020.06.06 |
[ADsP] 3-4. 통계 분석 (2) 기초 통계 분석 (0) | 2020.06.06 |
[ADsP] 3-4. 통계 분석 (1) 통계 분석의 이해 (0) | 2020.06.06 |
[ADsP] 3-3. 데이터 마트 (0) | 2020.06.06 |