[ADsP] 3-5. 정형 데이터 마이닝 (2) 의사결정나무 분석

1. 분류 분석 (Classification)

레코드의 범주형 속성값 미리 알아 맞히는 기법
* 예측 분석 (Prediction) : 레코드의 연속형 속성값 미리 알아 맞히는 기법
데이터 실체가 어떤 그룹에 속하는지 예측하는데 사용하는 기법
각 그룹이 미리 정의되어 있는 supervised learning 기법 (clustering과의 차이점)
분류 모델링 예시 : 신용평가모형, 사기방지모형, 이탈모형, 고객 세분화

2. 의사결정나무 (Decision Tree)

분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법
- root node, child node, parent node, termial node, internal node, branch, depth로 구성
주어진 입력값 대해 출력값 예측 (분류나무, 회귀나무 모형 존재)
최종모형의 예측력 및 해석력 중요
활용
- 세분화 : 그룹별 특성 발견
- 분류 : 예측변수에 근거하여 목표변수 범주를 등급으로 분류
- 예측 : 자료에서 규칙 찾아내어 미래 사건 예측
- 차원축소 및 변수선택 : 목표변수에 큰 영향 미치는 변수 골라냄
- 교호작용효과 파악 : 여러 예측변수 결합하여 목표변수에 작용하는 규칙 파악
- 범주 병합 또는 연속형 변수 이산화 : 범주를 합치거나 연속형 변수를 여러 등급으로 범주화(이산화)
특징
- 설명 용이하며 모델이 계산적으로 덜 복잡함
- 비정상 잡음 데이터에 대해서도 민감하지 않게 분류 가능
- 변수끼리 상관성이 높아도 크게 영향받지 않음
분석 과정
1) 성장 단계 : 각 마디마다 최적 분리규칙 찾아 나무 성장시키는 과정
- 적절한 정지규칙(stopping rule)을 만족시키면 중단
- 최적 분할의 결정 : 불순도 감소량을 가장 크게 하는 분할
2) 가지치기 단계 : 오차가 높아질 확률이 높거나 부적절한 추론 규칙을 갖고 있는 가지, 불필요한 가지 제거
- 나무 크기 = 모형의 복잡도
- 마디에 속하는 자료가 일정 수 이하일 때, 분할을 정지하고 비용-복잡도 가지치기 이용하여 성장시킨 나무 가지치기 함
3) 타당성 평가 단계 : 이익도표, 위험도표, 시험자료 이용하여 의사결정나무 평가
4) 해석 및 예측 단계 : 구축된 나무모형 해석, 예측모형 설정

> tree(Y~X, data)

3. 불순도의 여러가지 측도

카이제곱 통계량 : 각 셀에 대한 (기대도수-실제도수)^2/기대도수 의 합
지니 지수 : 2{P(Good in Left)P(Bad in Left)P(Left)+P(Good in Right)P(Bad in Right)P(Right)}
엔트로피 지수 : Entropy(Left)P(Left)+Entropy(Right)P(Right)
* Entropy(Left) = -P(Good in Left)log2P(Good in Left) - P(Bad in Left)log2P(Bad in Left)

4. 여러 가지 의사결정나무 알고리즘

CART (Classification And Regression Tree)
- 가장 많이 활용되는 의사결정나무 알고리즘
- 범주형 : 지니지수 / 연속형 : 분산 이용한 이진분리
C4.5 & C5.0
- 각 마디에서 다지분리(multiple split) 가능
- 범주형 입력변수는 범주 수만큼 분리
- 불순도 측도 : 엔트로피지수
CHAID(CHi-squared Automatic Interaction Detection)
- 가지치기 하지 않고 적당한 크기에서 모형 성장 중지
- 입력변수 범주형만 가능
- 불순도 측도 : 카이제곱 통계량

5. 성과분석과 스코어링

party 패키지
- 의사결정나무 사용하기 편한 분류 패키지 중 하나
- 분실값 잘 처리하지 못하는 단점 존재

> model.tree <- ctree(Y~X, data=data)
> plot(model.tree)
> plot(model.tree, type="simple")
> table(predict(model.tree), data$Y)
> tree.pred <- predict(model.tree, newdata=test.data) # test data 적용
> table(tree.pred, test.data$Y)

출처 : ADsP 데이터 분석 준전문가 (윤종식 저)

저작자표시 비영리 변경금지 (새창열림)

'DATA SCIENCE > ADSP' 카테고리의 다른 글

[ADsP] 3-5. 정형 데이터 마이닝 (4) 인공신경망 분석 (0)	2020.06.06
[ADsP] 3-5. 정형 데이터 마이닝 (3) 앙상블 분석 (1)	2020.06.06
[ADsP] 3-5. 정형 데이터 마이닝 (1) 개요 (0)	2020.06.06
[ADsP] 3-4. 통계 분석 (6) 주성분 분석 (0)	2020.06.06
[ADsP] 3-4. 통계 분석 (5) 다차원척도법 MDS (0)	2020.06.06

heehehe.log

[ADsP] 3-5. 정형 데이터 마이닝 (2) 의사결정나무 분석

1. 분류 분석 (Classification)

2. 의사결정나무 (Decision Tree)

3. 불순도의 여러가지 측도

4. 여러 가지 의사결정나무 알고리즘

5. 성과분석과 스코어링

'DATA SCIENCE > ADSP' 카테고리의 다른 글

티스토리툴바

[ADsP] 3-5. 정형 데이터 마이닝 (2) 의사결정나무 분석

1. 분류 분석 (Classification)

2. 의사결정나무 (Decision Tree)

3. 불순도의 여러가지 측도

4. 여러 가지 의사결정나무 알고리즘

5. 성과분석과 스코어링

'DATA SCIENCE > ADSP' 카테고리의 다른 글

'DATA SCIENCE/ADSP' Related Articles

티스토리툴바