1. 분석 방법론 개요
- 데이터 분석 방법론
- 데이터 분석이 효과적으로 정착하기 위해 체계화된 절차 및 방법인 분석 방법론이 필수적으로 필요
- Procedure(절차), Method(방법), Tools&Technique(도구와 기법), Templates&Outputs(템플릿과 산출물)로 구성
- 방법론의 적용 업무의 특성에 따른 모델
- 폭포수 모델
- 순차적 진행
- 이전 단계 완료되어야 다음 단계로 진행, 문제 발견 시 피드백 - 나선형 모델
- 반복 통해 점증적 개발
- 관리 체계 효과적으로 갖추지 못하면 복잡도 상승 - 프로토타입 모델
- 폭포수 모델 단점 보완 위해 점진적으로 시스템 개발해나가는 접근 방식
- 완벽 요구 분석 어려움 해결 위해 개발 일부분만 우선 개발 → 사용자 시험 사용 → 요구 분석, 정당성 점검, 성능 평가 → 개선 작업에 반영
- 폭포수 모델
- 방법론 구성
- 일반적으로 계층적 프로세스 모델 형태로 구성
- 단계 (Phase)
- 프로세스 그룹 통해 완성된 단계별 산출물 생성 - 태스크 (Task)
- 단계를 구성하는 단위 활동
- 물리적 or 논리적 단위로 품질검토의 항목이 됨 - 스텝 (Step)
- 각 단계는 기준선으로 설정되어 관리되어야 함
- 버전 관리 등을 통해 통제
- 단계 (Phase)
- 일반적으로 계층적 프로세스 모델 형태로 구성
2. KDD 분석 방법론
- KDD (Knowledge Discovery in Databases)
- 프로파일링 기술 기반으로 데이터로부터 통계적 패턴, 지식 찾기 위해 활용할 수 있는 데이터마이닝 프로세스
- 데이터에서 패턴을 찾는 과정 9가지
- 분석 대상 비즈니스 도메인 이해
- 분석 대상 데이터셋 선택 및 생성
- 노이즈, 이상값 제거하는 정제 작업 or 전처리 작업
- 분석 목적에 맞는 변수 찾기 및 차원 축소
- 분석 목적에 맞는 데이터마이닝 기법 선택
- 분석 목적에 맞는 데이터마이닝 알고리즘 선택
- 데이터마이닝 실행
- 데이터마이닝 결과 해석
- 데이터마이닝 통해 발견된 지식 활용
- 분석 절차
- 데이터셋 선택
- 비즈니스 도메인 이해, 프로젝트 목표 설정 필수
- 데이터베이스 or 분석 필요한 데이터 선택 → 데이터마이닝에 필요한 목표데이터 구성 - 데이터 전처리
- 잡음, 이상치, 결측치 식별 → 데이터 정제(제거 or 의미있는 데이터로 재처리)
- 추가 데이터셋 필요하면 선택 프로세스 재실행 - 데이터 변환
- 분석 목적 맞게 변수 생성, 선택, 차원 축소
- train, test 분리 - 데이터마이닝
- 분석 목적 맞는 데이터마이닝 기법 선택, 적절 알고리즘 적용
- 필요 따라 데이터 전처리, 변환 프로세스 추가 실행 → 최적 결과 산출 - 데이터마이닝 결과 평가
- 결과 대한 해석, 평가, 분석 목적과의 일치성 확인
- 발견 지식 업무 활용 방안 마련
- 필요 따라 데이터셋 선택 ~ 데이터마이닝 프로세스 반복 수행
- 데이터셋 선택
3. CRISP-DM 분석 방법론
- CRISP-DM (CRoss Industry Standard Process for Data Mining)
- 단계 ⊃ 일반화 task ⊃ 세분화 task ⊃ 프로세스 실행
- 단계 : 최상위 레벨
- 일반화 task : 데이터마이닝의 단일 프로세스를 완전히 수행하는 단위
- 세분화 task : 일반화 task를 구체적으로 수행하는 레벨
- 프로세스 실행 : 데이터마이닝을 위한 구체적 실행 - ex) 데이터 정제 (일반화 task) ⊃ 범주형 데이터 정제, 연속형 데이터 정제 (세분화 task)
- 단계 ⊃ 일반화 task ⊃ 세분화 task ⊃ 프로세스 실행
- 분석 절차
- 업무 이해
- 업무 목적 파악, 상황 파악, 데이터마이닝 목표설정, 프로젝트 계획 수립 - 데이터 이해
- 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 - 데이터 준비
- 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅 - 모델링
- 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 - 평가
- 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가 - 전개
- 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
- 업무 이해
출처 : ADsP 데이터 분석 준전문가 (윤종식 저)
반응형
'DATA SCIENCE > ADSP' 카테고리의 다른 글
[ADsP] 2-1. 데이터 분석 기획의 이해 (4) 분석 과제 발굴 및 관리 방안 (0) | 2020.06.06 |
---|---|
[ADsP] 2-1. 데이터 분석 기획의 이해 (3) 빅데이터 분석 방법론 (0) | 2020.06.06 |
[ADsP] 2-1. 데이터 분석 기획의 이해 (1) 분석 기획 방향성 도출 (0) | 2020.06.04 |
[ADsP] 1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2020.06.03 |
[ADsP] 1-2. 데이터의 가치와 미래 (2) 빅데이터 가치와 영향 (0) | 2020.06.03 |