1. 데이터 처리
- 데이터웨어하우스(DW), 데이터마트(DM) 통해 분석 데이터 가져와서 사용
- 신규 시스템 or DW에 포함되지 않은 자료 활용 방법
- 기존 운영시스템(legacy)에서 가져오기
- ODS(Operational Data Store)에서 정제된 데이터 가져와 결합 - 운영시스템(legacy)에 직접 접근 활용은 매우 위험
- 주로 ODS에서 가져옴
- 스테이징 영역(staging area)에서 가져오기도 함
스테이징 영역 (staging area)
- 운영시스템(legacy)에서 가져온 데이터를 임시 저장
- 스테이징 영역 데이터는 정제되어 있지 않으므로 전처리 한 뒤 DW, DM과 결합해야 함
- 최종 데이터 구조로 가공
- 시뮬레이션 모델링 : 단계별 처리시간 대한 분포 파악할 수 있는 내용, 유형, 특성을 속성으로
- 최적화 : 제약값 대한 내용, 목적함수, 제약조건 프로세스별 산출
- 데이터마이닝 분류 : 분류값, 입력변수와 연관시킨 뒤, 인구통계, 요약변수, 파생변수 산출 - 비정형, 소셜 데이터는 정형화 패턴으로 처리해야
- 비정형 : DBMS 저장 → 텍스트마이닝 → DM과 통합
- 관계형 : DBMS 저장 → 사회 신경망 분석 → 분석 결과 통계값과 DM 통합
2. 시각화
- 가장 낮은 수준의 분석이지만 효율적
- 빅데이터, 탐색적 분석에서는 필수
3. 공간분석
- 공간적 차원 관련 속성 시각화
- 크기, 모양, 선 굵기로 인사이트 얻기
4. 탐색적 자료 분석 (EDA)
- 다양한 차원, 값 조합 → 특이점, 의미있는 사실 도출 → 분석 최종 목적 달성 과정
- 데이터 특징, 내재하는 구조적 관계
- 4가지 주제 : 저항성 강조, 잔차 계산, 자료변수 재표현, 그래프 통한 현시성
- 유의미 여부 판단하여 변수 집단 구분
5. 통계분석
- 기술통계 : 모집단으로부터 표본 추출, 하나의 숫자 or 그래프로 표현
- 추측통계 : 모집단으로부터 추출된 표본의 표본통계량으로 모수에 관해 통계적으로 추론
6. 데이터마이닝
- 정보 요약, 미래 대한 예측 목표
- 자료 관계, 패턴, 규칙 탐색 → 모형화 → 이전에 알려지지 않은 유용한 지식 추출
- 방법론
- DB에서의 지식 탐색 : DW에서 DM 생성 → 사전분석 통해 각 데이터 속성 파악
- 기계학습 : 컴퓨터가 학습할 수 있도록 알고리즘 개발 (인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM)
- 패턴인식 : 원자료 이용하여 사전지식, 패턴 추출된 통계정보 기반으로 자료, 패턴 분류(장바구니분석, 연관규칙)
7. 시뮬레이션
- 복잡한 실제상황 단순화
- 컴퓨터상 모델로 만들어 재현, 변경
- 현상 잘 이해해고 미래 변화 따른 결과를 예측하는 데 사용
8. 최적화
- 목적함수 값 최대/최소화
- 제약조건 하 목표값 개선
- 목적함수, 제약조건 정의하여 문제 해결
출처 : ADsP 데이터 분석 준전문가 (윤종식 저)
반응형
'DATA SCIENCE > ADSP' 카테고리의 다른 글
[ADsP] 3-3. 데이터 마트 (0) | 2020.06.06 |
---|---|
[ADsP] 3-2. R 프로그래밍 기초 (0) | 2020.06.06 |
[ADsP] 2-2. 분석 마스터 플랜 (2) 분석 거버넌스 체계 수립 (0) | 2020.06.06 |
[ADsP] 2-2. 분석 마스터 플랜 (1) 마스터 플랜 수립 framework (0) | 2020.06.06 |
[ADsP] 2-1. 데이터 분석 기획의 이해 (4) 분석 과제 발굴 및 관리 방안 (0) | 2020.06.06 |