1. 데이터 마이닝
- 대용량 데이터에서 의미 있는 패턴 파악, 예측하여 의사결정에 활용하는 방법
* cf. 통계분석 : 가설, 가정 따른 분석, 검증 - 종류
- 정보 찾는 방법론에 따라 : 인공지능, 의사결정나무, k-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접이웃
- 분석대상, 활용 목적, 표현방법 따라 : 시각화분석, 분류, 군집화, 예측 - 발전단계
1) 데이터 수집 (1960s) : 정적 데이터 공급
2) 데이터 접근 (1970s) : 동적 데이터 공급
3) 데이터 웨어하우징 & 의사결정지원 (1980s) : 다양한 차원의 동적 데이터 공급
4) 데이터 마이닝 (1990s~) : 예측 정보의 공급 - 분석방법
- 지도 학습 : 의사결정나무, 인공신경망, 일반화 선형모형(회귀분석, 로지스틱 회귀분석), 사례기반추론, kNN
- 비지도 학습 : OLAP, 연관성 규칙발견, 군집분석, SOM - 목적에 따른 작업 유형
- 예측 모델링 : 분류규칙 (회귀분석, 판별분석, 신경망, 의사결정나무)
- 설명 모델링 : 연관규칙, 연속규칙, 데이터 군집화(kmeans)
2. 데이터마이닝 추진 단계
- 목적 설정
- 이해관계자가 모두 동의할 수 있는 명확한 목적 설정
- 목적에 따라 사용할 모델 및 필요 데이터 정의 - 데이터 준비
- IT 부서와 사전 협의 후 일정 조율하여 데이터 접근 부하에 유의하여야 함
- 데이터 정제 통해 데이터 품질 보장 및 보강하여 충분한 데이터 확보 - 가공
- 목적 따라 목적변수 정의 - 기법 적용
- 목적에 맞게 데이터 마이닝 기법 적용 - 검증
- 데이터 마이닝으로 추출된 정보 검증 - CRISP-DM
- https://heehehe-ds.tistory.com/entry/ADsP-2-1-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EA%B8%B0%ED%9A%8D%EC%9D%98-%EC%9D%B4%ED%95%B4-2-1-%EB%B6%84%EC%84%9D-%EB%B0%A9%EB%B2%95%EB%A1%A0 - SEMMA 프로세스
- Sample, Explore, Modify, Model, Assess
3. 데이터 마이닝을 위한 데이터 분할
- 구축용(training data) 50%
- 검정용(validation data) 30%
- 시험용(test data) 20%
4. 데이터 마이닝 모형 평가
- 오분류율 계산
- 오분류율 따라 모형 사용할지 여부 판단
- 오분류율 기준은 분석 목적 따라 다름
출처 : ADsP 데이터 분석 준전문가 (윤종식 저)
반응형
'DATA SCIENCE > ADSP' 카테고리의 다른 글
[ADsP] 3-5. 정형 데이터 마이닝 (3) 앙상블 분석 (0) | 2020.06.06 |
---|---|
[ADsP] 3-5. 정형 데이터 마이닝 (2) 의사결정나무 분석 (0) | 2020.06.06 |
[ADsP] 3-4. 통계 분석 (6) 주성분 분석 (0) | 2020.06.06 |
[ADsP] 3-4. 통계 분석 (5) 다차원척도법 MDS (0) | 2020.06.06 |
[ADsP] 3-4. 통계 분석 (4) 시계열 분석 (0) | 2020.06.06 |