본문 바로가기

DATA SCIENCE/ADSP

[ADsP] 3-1. 데이터 분석 개요

1. 데이터 처리

  • 데이터웨어하우스(DW), 데이터마트(DM) 통해 분석 데이터 가져와서 사용
  • 신규 시스템 or DW에 포함되지 않은 자료 활용 방법
    - 기존 운영시스템(legacy)에서 가져오기
    - ODS(Operational Data Store)에서 정제된 데이터 가져와 결합
  • 운영시스템(legacy)에 직접 접근 활용은 매우 위험
    - 주로 ODS에서 가져옴
    - 스테이징 영역(staging area)에서 가져오기도 함
스테이징 영역 (staging area)
- 운영시스템(legacy)에서 가져온 데이터를 임시 저장
- 스테이징 영역 데이터는 정제되어 있지 않으므로 전처리 한 뒤 DW, DM과 결합해야 함

 

  • 최종 데이터 구조로 가공
    - 시뮬레이션 모델링 : 단계별 처리시간 대한 분포 파악할 수 있는 내용, 유형, 특성을 속성으로
    - 최적화 : 제약값 대한 내용, 목적함수, 제약조건 프로세스별 산출
    - 데이터마이닝 분류 : 분류값, 입력변수와 연관시킨 뒤, 인구통계, 요약변수, 파생변수 산출
  • 비정형, 소셜 데이터는 정형화 패턴으로 처리해야
    - 비정형 : DBMS 저장 → 텍스트마이닝 → DM과 통합
    - 관계형 : DBMS 저장 → 사회 신경망 분석 → 분석 결과 통계값과 DM 통합

2. 시각화

  • 가장 낮은 수준의 분석이지만 효율적
  • 빅데이터, 탐색적 분석에서는 필수

3. 공간분석

  • 공간적 차원 관련 속성 시각화
  • 크기, 모양, 선 굵기로 인사이트 얻기

4. 탐색적 자료 분석 (EDA)

  • 다양한 차원, 값 조합 → 특이점, 의미있는 사실 도출 → 분석 최종 목적 달성 과정
  • 데이터 특징, 내재하는 구조적 관계
  • 4가지 주제 : 저항성 강조, 잔차 계산, 자료변수 재표현, 그래프 통한 현시성
  • 유의미 여부 판단하여 변수 집단 구분

5. 통계분석

  • 기술통계 : 모집단으로부터 표본 추출, 하나의 숫자 or 그래프로 표현
  • 추측통계 : 모집단으로부터 추출된 표본의 표본통계량으로 모수에 관해 통계적으로 추론

6. 데이터마이닝

  • 정보 요약, 미래 대한 예측 목표
  • 자료 관계, 패턴, 규칙 탐색 → 모형화 → 이전에 알려지지 않은 유용한 지식 추출
  • 방법론
    • DB에서의 지식 탐색 : DW에서 DM 생성 → 사전분석 통해 각 데이터 속성 파악
    • 기계학습 : 컴퓨터가 학습할 수 있도록 알고리즘 개발 (인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM)
    • 패턴인식 : 원자료 이용하여 사전지식, 패턴 추출된 통계정보 기반으로 자료, 패턴 분류(장바구니분석, 연관규칙)

7. 시뮬레이션

  • 복잡한 실제상황 단순화
  • 컴퓨터상 모델로 만들어 재현, 변경
  • 현상 잘 이해해고 미래 변화 따른 결과를 예측하는 데 사용

8. 최적화

  • 목적함수 값 최대/최소화
  • 제약조건 하 목표값 개선
    • 목적함수, 제약조건 정의하여 문제 해결

 

출처 : ADsP 데이터 분석 준전문가 (윤종식 저)

반응형