본문 바로가기

DATA SCIENCE/ADSP

[ADsP] 3-5. 정형 데이터 마이닝 (1) 개요

1. 데이터 마이닝

  • 대용량 데이터에서 의미 있는 패턴 파악, 예측하여 의사결정에 활용하는 방법
    * cf. 통계분석 : 가설, 가정 따른 분석, 검증
  • 종류
    - 정보 찾는 방법론에 따라 : 인공지능, 의사결정나무, k-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접이웃
    - 분석대상, 활용 목적, 표현방법 따라 : 시각화분석, 분류, 군집화, 예측
  • 발전단계
    1) 데이터 수집 (1960s) : 정적 데이터 공급
    2) 데이터 접근 (1970s) : 동적 데이터 공급
    3) 데이터 웨어하우징 & 의사결정지원 (1980s) : 다양한 차원의 동적 데이터 공급
    4) 데이터 마이닝 (1990s~) : 예측 정보의 공급
  • 분석방법
    - 지도 학습 : 의사결정나무, 인공신경망, 일반화 선형모형(회귀분석, 로지스틱 회귀분석), 사례기반추론, kNN
    - 비지도 학습 : OLAP, 연관성 규칙발견, 군집분석, SOM
  • 목적에 따른 작업 유형
    - 예측 모델링 : 분류규칙 (회귀분석, 판별분석, 신경망, 의사결정나무)
    - 설명 모델링 : 연관규칙, 연속규칙, 데이터 군집화(kmeans)

2. 데이터마이닝 추진 단계

  1. 목적 설정
    - 이해관계자가 모두 동의할 수 있는 명확한 목적 설정
    - 목적에 따라 사용할 모델 및 필요 데이터 정의
  2. 데이터 준비
    - IT 부서와 사전 협의 후 일정 조율하여 데이터 접근 부하에 유의하여야 함
    - 데이터 정제 통해 데이터 품질 보장 및 보강하여 충분한 데이터 확보
  3. 가공
    - 목적 따라 목적변수 정의
  4. 기법 적용
    - 목적에 맞게 데이터 마이닝 기법 적용
  5. 검증
    - 데이터 마이닝으로 추출된 정보 검증
  6. CRISP-DM
    - https://heehehe-ds.tistory.com/entry/ADsP-2-1-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EA%B8%B0%ED%9A%8D%EC%9D%98-%EC%9D%B4%ED%95%B4-2-1-%EB%B6%84%EC%84%9D-%EB%B0%A9%EB%B2%95%EB%A1%A0
  7. SEMMA 프로세스
    - Sample, Explore, Modify, Model, Assess

3. 데이터 마이닝을 위한 데이터 분할

  • 구축용(training data) 50%
  • 검정용(validation data) 30%
  • 시험용(test data) 20%

4. 데이터 마이닝 모형 평가

  • 오분류율 계산
  • 오분류율 따라 모형 사용할지 여부 판단
  • 오분류율 기준은 분석 목적 따라 다름

 

출처 : ADsP 데이터 분석 준전문가 (윤종식 저)

반응형