본문 바로가기

DATA SCIENCE/ADSP

[ADsP] 2-1. 데이터 분석 기획의 이해 (2) 분석 방법론

1. 분석 방법론 개요

  • 데이터 분석 방법론
    • 데이터 분석이 효과적으로 정착하기 위해 체계화된 절차 및 방법인 분석 방법론이 필수적으로 필요
    • Procedure(절차), Method(방법), Tools&Technique(도구와 기법), Templates&Outputs(템플릿과 산출물)로 구성

방법론 생성 과정

  • 방법론의 적용 업무의 특성에 따른 모델
    • 폭포수 모델
      - 순차적 진행
      - 이전 단계 완료되어야 다음 단계로 진행, 문제 발견 시 피드백
    • 나선형 모델
      - 반복 통해 점증적 개발
      - 관리 체계 효과적으로 갖추지 못하면 복잡도 상승
    • 프로토타입 모델
      - 폭포수 모델 단점 보완 위해 점진적으로 시스템 개발해나가는 접근 방식
      - 완벽 요구 분석 어려움 해결 위해 개발 일부분만 우선 개발 → 사용자 시험 사용 → 요구 분석, 정당성 점검, 성능 평가 → 개선 작업에 반영
  • 방법론 구성
    • 일반적으로 계층적 프로세스 모델 형태로 구성
      1. 단계 (Phase)
        - 프로세스 그룹 통해 완성된 단계별 산출물 생성
      2. 태스크 (Task)
        - 단계를 구성하는 단위 활동
        - 물리적 or 논리적 단위로 품질검토의 항목이 됨
      3. 스텝 (Step)
        - 각 단계는 기준선으로 설정되어 관리되어야 함
        - 버전 관리 등을 통해 통제

2. KDD 분석 방법론

  • KDD (Knowledge Discovery in Databases)
    • 프로파일링 기술 기반으로 데이터로부터 통계적 패턴, 지식 찾기 위해 활용할 수 있는 데이터마이닝 프로세스
  • 데이터에서 패턴을 찾는 과정 9가지
    • 분석 대상 비즈니스 도메인 이해
    • 분석 대상 데이터셋 선택 및 생성
    • 노이즈, 이상값 제거하는 정제 작업 or 전처리 작업
    • 분석 목적에 맞는 변수 찾기 및 차원 축소
    • 분석 목적에 맞는 데이터마이닝 기법 선택
    • 분석 목적에 맞는 데이터마이닝 알고리즘 선택
    • 데이터마이닝 실행
    • 데이터마이닝 결과 해석
    • 데이터마이닝 통해 발견된 지식 활용
  • 분석 절차
    1. 데이터셋 선택
      - 비즈니스 도메인 이해, 프로젝트 목표 설정 필수
      - 데이터베이스 or 분석 필요한 데이터 선택 → 데이터마이닝에 필요한 목표데이터 구성
    2. 데이터 전처리
      - 잡음, 이상치, 결측치 식별 → 데이터 정제(제거 or 의미있는 데이터로 재처리)
      - 추가 데이터셋 필요하면 선택 프로세스 재실행
    3. 데이터 변환
      - 분석 목적 맞게 변수 생성, 선택, 차원 축소
      - train, test 분리
    4. 데이터마이닝
      - 분석 목적 맞는 데이터마이닝 기법 선택, 적절 알고리즘 적용
      - 필요 따라 데이터 전처리, 변환 프로세스 추가 실행 → 최적 결과 산출
    5. 데이터마이닝 결과 평가
      - 결과 대한 해석, 평가, 분석 목적과의 일치성 확인
      - 발견 지식 업무 활용 방안 마련
      - 필요 따라 데이터셋 선택 ~ 데이터마이닝 프로세스 반복 수행

3. CRISP-DM 분석 방법론

  • CRISP-DM (CRoss Industry Standard Process for Data Mining)
    • 단계 ⊃ 일반화 task ⊃ 세분화 task ⊃ 프로세스 실행
      - 단계 : 최상위 레벨
      - 일반화 task : 데이터마이닝의 단일 프로세스를 완전히 수행하는 단위
      - 세분화 task : 일반화 task를 구체적으로 수행하는 레벨
      - 프로세스 실행 : 데이터마이닝을 위한 구체적 실행
    • ex) 데이터 정제 (일반화 task) ⊃ 범주형 데이터 정제, 연속형 데이터 정제 (세분화 task)
  • 분석 절차
    1. 업무 이해
      - 업무 목적 파악, 상황 파악, 데이터마이닝 목표설정, 프로젝트 계획 수립
    2. 데이터 이해
      - 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
    3. 데이터 준비
      - 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅
    4. 모델링
      - 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
    5. 평가
      - 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
    6. 전개
      - 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰

 

출처 : ADsP 데이터 분석 준전문가 (윤종식 저)

 

반응형