1. 주성분 분석
- 서로 상관성 높은 변수들의 선형결합으로 만들어 기존 상관성 높은 변수들 요약, 축소
2. 주성분 분석의 목적
- 데이터 이해하고 관리하기 쉽도록
- 다중공선성 감소
- 차원 축소 → 군집화 결과, 연관 속도 개선
- 주성분 분석으로 차원 축소 후 시계열 분포나 추세 변화 분석하면 기계 고장 징후 등 사전 파악 가능
3. 주성분 분석 VS 요인 분석
- 요인 분석 : 등간/비율척도로 측정한 변수들에 잠재되어 있는 공통인자 찾아내는 기법
- 공통점 : 데이터 축소 시 활용
- 차이점
주성분 분석 | 요인 분석 | |
생성된 변수 개수 | 보통 제3주성분까지 활용 | 개수 지정되어 있지 X |
생성된 변수 이름 | 제#주성분 | 분석자가 명명 |
생성된 변수들간 중요도 | 제1주성분 > 제2주성분 > ... | 대등 관계 |
분석방법 의미 | 목표변수를 잘 예측 및 분류하기 위함 | 비슷한 성격들로 변수 묶어 새로운 잠재변수 생성 |
4. 주성분의 선택법
- 누적기여율이 85% 이상이면 주성분 수로 결정
- scree plot 활용하여 elbow point로 주성분 수 선택
> pairs(data, panel=panel.smooth, main="title") ## 산점도
> prin <- princomp(data, cor=TRUE)
> summary(prin)
> screeplot(prin, npcs=4, type="lines")
> loadings(prin) # 주성분별 변수 가중치
> prin$scores
출처 : ADsP 데이터 분석 준전문가 (윤종식 저)
반응형
'DATA SCIENCE > ADSP' 카테고리의 다른 글
[ADsP] 3-5. 정형 데이터 마이닝 (2) 의사결정나무 분석 (0) | 2020.06.06 |
---|---|
[ADsP] 3-5. 정형 데이터 마이닝 (1) 개요 (0) | 2020.06.06 |
[ADsP] 3-4. 통계 분석 (5) 다차원척도법 MDS (0) | 2020.06.06 |
[ADsP] 3-4. 통계 분석 (4) 시계열 분석 (0) | 2020.06.06 |
[ADsP] 3-4. 통계 분석 (3) 회귀 분석 (0) | 2020.06.06 |