본문 바로가기

DATA SCIENCE/ADSP

[ADsP] 2-1. 데이터 분석 기획의 이해 (3) 빅데이터 분석 방법론

  • 빅데이터 분석 방법론 : 계층적 프로세스 모델 (3계층)
    1. 단계 (Phase)
      - 프로세스 그룹 통해 완성된 단계별 산출물 생성
      - 기준선(baseline)으로 설정되어 관리되어야 함
      - 버전 관리 통해 통제가 이루어져야 함
    2. 태스크 (Task)
      - 단계를 구성하는 단위활동
      - 물리적, 논리적 단위 품질 검토 항목
    3. 스텝 (Step)
      - WBS(Work Breakdown Structure)의 Work Package 해당
      - 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
  • 분석 절차
    1. 분석 기획
      • 비즈니스 이해 및 범위 설정
        > 비즈니스 이해
        - 내부 업무 매뉴얼, 관련자료, 외부 관련 비즈니스 자료 조사, 향후 프로젝트 방향 설정

           - 중장기입력자료 : 업무 매뉴얼, 업무 전문가 지식, 빅데이터 분석 대상 도메인 관련 자료
           - 프로세스 및 도구 : 자료 수집, 비즈니스 이해
           - 출력 자료 : 비즈니스 이해, 도메인 문제점
        > 프로젝트 범위 설정 - 모든 관계자들 이해 일치 위해 구조화된 프로젝트 범위 정의서 SOW(Statement Of Work) 작성
           - 입력자료 : 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점
           - 프로세스 및 도구 : 자료 수집, 비즈니스 이해, 프로젝트 범위 정의서 작성 절차
           - 출력자료 : 프로젝트 범위 정의서 SOW
      • 프로젝트 정의 및 계획 수립
        > 데이터 분석 프로젝트 정의

           - 입력자료 : 프로젝트 범위 정의서, 빅데이터 분석 프로젝트 지시서
           - 프로세스 및 도구 : 프로젝트 목표 구체화, 모델 운영 이미지 설계
           - 출력자료 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
      • 프로젝트 위험계획 수립
        > 데이터 분석 위험 식별

           - 입력자료 : 프로젝트 범위 정의서, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료
           - 프로세스 및 도구 : 위험 식별 절차, 위험영향도 및 발생가능성 분석, 위험 우선순위 판단
           - 출력자료 : 식별된 위험 목록
        > 위험 대응 계획 수립 - 회피, 전이, 완화, 수용으로 구분하여 작성
           - 입력자료 : 식별된 위험 목록, 프로젝트 범위 정의서, 프로젝트 수행 계획서
           - 프로세스 및 도구 : 위험 정량적 분석, 위험 정성적 분석
           - 출력자료 : 위험관리 계획서
    2. 데이터 준비
      • 필요 데이터 정의
        > 데이터 정의
           - 입력자료 : 프로젝트 수행 계획서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료

           - 프로세스 및 도구 : 내외부 데이터 정의, 정형, 비정형, 반정형 데이터 정의
           - 출력자료 : 데이터 정의서
        > 데이터 획득방안 수립
           - 입력자료 : 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료, 데이터 구입
           - 프로세스 및 도구 : 데이터 획득 방안 수립
           - 출력자료 : 데이터 획득 계획서
      • 데이터 스토어 설계
        > 정형 데이터 스토어 설계
           - 입력자료 : 데이터 정의서, 데이터 획득 계획서

           - 프로세스 및 도구 : 데이터베이스 논리설계, 데이터베이스 물리설계, 데이터 매핑
           - 출력자료 : 정형 데이터 스토어 설계서, 데이터 매핑 정의서
        > 비정형 데이터 스토어 설계
           - 입력자료 : 데이터 정의서, 데이터 획득 계획서

           - 프로세스 및 도구 : 비정형, 반정형 데이터 논리설계, 비정형, 반정형 데이터 물리설계
           - 출력자료 : 비정형 데이터 스토어 설계서, 데이터 매핑 정의서
      • 데이터 수집 및 정합성 점검
        > 데이터 수집 및 저장
           - 입력자료 : 데이터정의서, 데이터 획득 계획서, 데이터 스토어 설계서

           - 프로세스 및 도구 : 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트
           - 출력자료 : 수집된 분석용 데이터
        > 데이터 정합성 점검
           - 입력자료 : 수집된 분석용 데이터
           - 프로세스 및 도구 : 데이터 품질 확인, 데이터 정합성 점검 리스트
           - 출력자료 : 데이터 정합성 점검 보고서
    3.  데이터 분석 
      • 분석용 데이터 준비
        > 비즈니스 룰 확인
           - 입력자료 : 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어

           - 프로세스 및 도구 : 프로젝트 목표 확인, 비즈니스 룰 확인
           - 출력자료 : 비즈니스 룰, 분석에 필요한 데이터 범위
        > 분석용 데이터셋 준비
           - 입력자료 : 데이터 정의서, 데이터 스토어

           - 프로세스 및 도구 : 데이터 선정, 데이터 변환, ETL 도구
           - 출력자료 : 분석용 데이터셋
      • 텍스트 분석
        > 텍스트 데이터 확인 및 추출
           - 입력자료 : 비정형 데이터 스토어

           - 프로세스 및 도구 : 분석용 텍스트 데이터 확인, 텍스트 데이터 추출
           - 출력자료 : 분석용 텍스트 데이터
        > 텍스트 데이터 분석
           - 입력자료 : 분석용 텍스트 데이터, 용어사전

           - 프로세스 및 도구 : 분류체계 설계, 형태소 분석, 키워드 도출, 토픽 분석, 감성 분석, 의견 분석, 네트워크 분석
           - 출력자료 : 텍스트 분석 보고서
      • 탐색적 분석
        > 탐색적 데이터 분석
           - 입력자료 : 분석용 데이터셋

           - 프로세스 및 도구 : EDA도구, 통계분석, 변수 간 연관성 분석, 데이터 분포 확인
           - 출력자료 : 데이터 탐색 보고서
        > 데이터 시각화
           - 입력자료 : 분석용 데이터셋

           - 프로세스 및 도구 : 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론
           - 출력자료 : 데이터 시각화 보고서
      • 모델링
        > 데이터 분할
           - 입력자료 : 분석용 데이터셋

           - 프로세스 및 도구 : 데이터 분할 패키지
           - 출력자료 : 훈련용 데이터, 테스트용 데이터
        > 데이터 모델링
           - 입력자료 : 분석용 데이터셋

           - 프로세스 및 도구 : 통계 모델링 기법, 기계학습, 모델 테스트
           - 출력자료 : 모델링 결과 보고서
        > 모델 적용 및 운영방안
           - 입력자료 : 모델링 결과 보고서

           - 프로세스 및 도구 : 모니터링 방안 수립, 알고리즘 설명서 작성
           - 출력자료 : 알고리즘 설명서, 모니터링 방안
      • 모델 평가 및 검증
        > 모델 평가
           - 입력자료 : 모델링 결과 보고서, 평가용 데이터

           - 프로세스 및 도구 : 모델 평가, 모델 품질관리, 모델 개선작업
           - 출력자료 : 모델 평가 보고서
        > 모델 검증
           - 입력자료 : 모델링 결과 보고서, 모델 평가 보고서, 검증용 데이터

           - 프로세스 및 도구 : 모델 검증
           - 출력자료 : 모델 검증 보고서
    4. 시스템 구현
      • 설계 및 구현
        > 시스템 분석 및 설계
           - 입력자료 : 알고리즘 설명서, 운영 중인 시스템 설계서

           - 프로세스 및 도구 : 정보시스템 개발방법론
           - 출력자료 : 시스템 분석 및 설계서
        > 시스템 구현
           - 입력자료 : 시스템 분석 및 설계서, 알고리즘 설명서

           - 프로세스 및 도구 : 시스템 통합 개발도구, 프로그램 언어, 패키지
           - 출력자료 : 구현 시스템
      • 시스템 테스트 및 운영
        > 시스템 테스트
           - 입력자료 : 구현 시스템, 시스템 테스트 계획서

           - 프로세스 및 도구 : 품질관리 활동
           - 출력자료 : 시스템 테스트 결과보고서
        > 시스템 운영 계획
           - 입력자료 : 시스템 분석 및 설계서, 구현 시스템

           - 프로세스 및 도구 : 운영계획 수립, 운영자 및 사용자 교육
           - 출력자료 : 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서
    5. 평가 및 전개
      • 모델 발전 계획 수립
        > 모델 발전 계획
           - 입력자료 : 구현 시스템, 프로젝트 산출물

           - 프로세스 및 도구 : 모델 발전 계획 수립
           - 출력자료 : 모델 발전 계획서
      • 프로젝트 평가 및 보고
        > 프로젝트 성과 평가
           - 입력자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서

           - 프로세스 및 도구 : 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가
           - 출력자료 : 프로젝트 성과 평가서
        > 프로젝트 종료
           - 입력자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 평가서

           - 프로세스 및 도구 : 프로젝트 지식자산화 작업, 프로젝트 종료
           - 출력자료 : 프로젝트 최종 보고서

 

출처 : ADsP 데이터 분석 준전문가 (윤종식 저)

반응형