본문 바로가기

DATA SCIENCE/ADSP

[ADsP] 3-4. 통계 분석 (3) 회귀 분석

1. 회귀분석의 개요

  • 독립변수들이 종속변수에 미치는 영향 추정
  • 영향을 받는 변수 : 반응변수, 종속변수, 결과변수
  • 영향을 주는 변수 : 설명변수, 독립변수, 예측변수
  • 검토사항
    - 모형이 통계적으로 유의미한지 : F통계량 확인(유의수준 5% 하에서 F통계량 p값이 0.05보다 작아야)
    - 회귀계수 유의미한지 : 계수 t통계량, p값, 신뢰구간 확인
    - 모형이 얼마나 설명력을 갖는지 : 결정계수 확인 (높을수록 설명력 높음)
    - 모형이 데이터를 잘 적합하고 있는지 : 잔차 그래프 그리고 회귀진단
  • 회귀계수 추정 : 최소제곱법 식 편미분하여 계산

2. 회귀분석의 검정

  • β1=0이면 x, y사이에 아무런 관계 없음
  • 결정계수
    - 전체제곱합 SST = 회귀제곱합 SSR + 오차제곱합 SSE
    - R^2 = SSR/SST : 전체 데이터를 회귀모형이 설명할 수 있는 양
  • 적합성 검토
    - 결정계수 R^2 : 1에 가까울수록 자료를 잘 설명하고 있는 것
    - F통계량 : F값 크면 귀무가설 β1=...=βn=0을 기각하며, 이는 모형이 유의함을 의미

3. 선형회귀분석

  • 가정
    - 선형성 : 입출력변수 관계가 선형
    - 등분산성 : 오차 분산이 입력변수와 상관없이 일정
    - 독립성 : 독립변인과 잔차 관련 X
    - 비상관성 : 오차들끼리 상관 X
    - 정상성(정규성) : 오차 분포가 정규분포 따름
  • 다중 선형회귀분석
    - 모형 통계적 유의미 여부 : F통계량으로 확인
    - 회귀계수 유의미 여부 : t통계량으로 확인
    - 모형 설명력 : 결정계수로 확인
    - 모형 데이터 적합 정도 : 잔차 & 종속변수 산점도로 확인
    - 데이터가 전제하는 가정 만족 여부 : 선형성, 독립성, 등분산성, 비상관성, 정규성으로 확인
  • 다중공선성
    - 설명변수 사이 선형관계 존재 시 회귀계수 정확 추정 어려움
    - 검사방법 : 분산팽창요인(VIF) > 10이면 문제 → 선형관계 강한 변수 제거, 주성분회귀, 능형회귀로 활용

4. 회귀분석의 종류

  • 단순회귀 : 설명변수 1개
  • 다중회귀 : 설명변수 k개
  • 로지스틱회귀 : 반응변수가 범주형(2진변수)
  • 다항회귀 : 설명변수 k개 + 반응변수와의 관계가 1차함수 이상
  • 곡선회귀 : 반응변수와의 관계가 곡선
  • 비선형회귀 : 선형관계 X

5. 회귀분석 사례

  • 선형 회귀분석
    > summary(lm(Y~X, data=data))
  • 로지스틱 회귀분석
    > summary(glm(Y~X, data=data, family="binomial")

6. 최적회귀방정식의 선택

  • 필요한 설명변수만 선택
  • 모든 가능한 회귀모형 분석하여 가장 적합한 회귀모형 선택
  • 단계적 변수선택
    - 전진선택법 (forward selection) : 중요한 변수 추가
    - 후진제거법 (backward elimination) : 적은 영향 주는 변수 제거
    - 단계별방법 (stepwise) : 단계적 추가 or 제거
  • 벌점화된 선택기준 : AIC, BIC 최소 되는 모형 선택
  • 모형선택 일치성 : 자료 수 늘어날 때 참인 모형이 주어진 모형선택 기준의 최소값을 갖게되는 성질
  • step(lm(Y~X, data=, scope=list(lower=~1, upper=~X), direction="변수선택방법", k=숫자))
    • scope : 설정할 수 있는 가장 큰 모형 or 작은 모형 설정
    • direction : backward, forward, both
    • k=2이면 AIC, k=log(n)이면 BIC

 

출처 : ADsP 데이터 분석 준전문가 (윤종식 저)

반응형