본문 바로가기

DATA SCIENCE/ADSP

[ADsP] 3-4. 통계 분석 (6) 주성분 분석

1. 주성분 분석

  • 서로 상관성 높은 변수들의 선형결합으로 만들어 기존 상관성 높은 변수들 요약, 축소

2. 주성분 분석의 목적

  • 데이터 이해하고 관리하기 쉽도록
  • 다중공선성 감소
  • 차원 축소 → 군집화 결과, 연관 속도 개선
  • 주성분 분석으로 차원 축소 후 시계열 분포나 추세 변화 분석하면 기계 고장 징후 등 사전 파악 가능

3. 주성분 분석 VS 요인 분석

  • 요인 분석 : 등간/비율척도로 측정한 변수들에 잠재되어 있는 공통인자 찾아내는 기법
  • 공통점 : 데이터 축소 시 활용
  • 차이점
  주성분 분석 요인 분석
생성된 변수 개수 보통 제3주성분까지 활용 개수 지정되어 있지 X
생성된 변수 이름 제#주성분 분석자가 명명
생성된 변수들간 중요도 제1주성분 > 제2주성분 > ... 대등 관계
분석방법 의미 목표변수를 잘 예측 및 분류하기 위함 비슷한 성격들로 변수 묶어 새로운 잠재변수 생성

4. 주성분의 선택법

  • 누적기여율이 85% 이상이면 주성분 수로 결정
  • scree plot 활용하여 elbow point로 주성분 수 선택

> pairs(data, panel=panel.smooth, main="title")  ## 산점도
> prin <- princomp(data, cor=TRUE)
> summary(prin)
> screeplot(prin, npcs=4, type="lines")
> loadings(prin)   # 주성분별 변수 가중치
> prin$scores

 

출처 : ADsP 데이터 분석 준전문가 (윤종식 저)

반응형