본문 바로가기

[ADsP] 3-3. 데이터 마트 1. R reshape를 이용한 데이터 마트 개발 데이터 마트 데이터웨어하우스(DW)와 사용자 사이의 중간층 대부분 DW로부터 복제, but 자체 수집 가능, 관계형 DB나 다차원 DB 이용하여 구축 CRM 관련 업무 중 핵심 요약변수 - 수집된 정보 분석 맞게 종합 - 재활용성 높음 (공통 사용 多 : 합계, 횟수 등) - 기간별 구매 금액, 횟수여부, 위클리 쇼퍼, 상품별 구매 금액 등 파생변수 - 특정 함수 의해 값 만들어 의미 부여 (매우 주관적) - 상황 따라 대표성 나타나게 할 필요 있음 reshape 활용 - melt(data, id = ...) : 적당 형태로 만들어줌 - cast(data, formula = ...~variable, func) : 원하는 형태로 계산, 변형 sqldf를 이..
[ADsP] 3-2. R 프로그래밍 기초 1. R 소개 R : 통계, 데이터마이닝, 그래프를 위한 오픈소스 프로그램 SAS, SPSS R 비용 비쌈 무료 설치용량 대용량 모듈화 (간단) 모듈지원 별도 구매 오픈소스 최근 알고리즘/기술 반영 slow fast 학습자료 입수 편의성 유료 위주 공개 자료 질의 공개 커뮤니티 없음 있음 R 특징 - 오픈소스 프로그램 (커뮤니티, 5000개 패키지 수시 업데이트) - 그래픽 및 성능 월등 - 시스템 데이터 저장 방식 : 각 세션마다 저장하여 매번 로딩할 필요 X - 모든 운영체제 사용 가능 - 표준 플랫폼 : S 통계언어 기반(통계전문가들의 표준 플랫폼) - 객체지향언어 & 함수형 언어 > 객체지향 : 결과값 객체 반환 - 필요한 부분만 추출 가능 > 함수형 : 단축, 수행속도 빠름, 단순 코드로 디버깅..
[ADsP] 3-1. 데이터 분석 개요 1. 데이터 처리 데이터웨어하우스(DW), 데이터마트(DM) 통해 분석 데이터 가져와서 사용 신규 시스템 or DW에 포함되지 않은 자료 활용 방법 - 기존 운영시스템(legacy)에서 가져오기 - ODS(Operational Data Store)에서 정제된 데이터 가져와 결합 운영시스템(legacy)에 직접 접근 활용은 매우 위험 - 주로 ODS에서 가져옴 - 스테이징 영역(staging area)에서 가져오기도 함 스테이징 영역 (staging area) - 운영시스템(legacy)에서 가져온 데이터를 임시 저장 - 스테이징 영역 데이터는 정제되어 있지 않으므로 전처리 한 뒤 DW, DM과 결합해야 함 최종 데이터 구조로 가공 - 시뮬레이션 모델링 : 단계별 처리시간 대한 분포 파악할 수 있는 내용,..
[ADsP] 2-2. 분석 마스터 플랜 (2) 분석 거버넌스 체계 수립 1. 거버넌스 체계 개요 구성 요소 조직(분석 기획 및 관리) 과제 기획 및 운영 프로세스 분석 관련 시스템 데이터 분석 관련 교육 및 마인드 육성 체계 2. 데이터 분석 수준진단 목표 현재 분석수준 이해, 수준진단 결과 토대로 미래 목표수준 정의 데이터 분석 기반, 환경이 유사업종 비해 어느 정도 수준인지 파악 경쟁력 확보 위해 어떤 영역에 집중해야하는지, 어떤 관점 보완해야하는지 등 개선방안 도출 분석 준비도 (Readiness) 각 영영별 세부 항목 대한 수준 평가 일정 수준 이상 충족하면 분석 업무 도입, 충족하지 못하면 분석 환경 조성 분석업무파악 : 발생한 사실 분석, 예측 분석, 시뮬레이션 분석, 최적화 분석, 분석 업무 정기적 개선 인력 및 조직 : 분석 전문가 직무 존재, 분석 전문가 교..
[ADsP] 2-2. 분석 마스터 플랜 (1) 마스터 플랜 수립 framework 1. 분석 마스터 플랜 수립 framework 우선순위 고려요소 : 전략적 중요도(전략적 필요성, 시급성), 비즈니스 성과 및 ROI, 실행 용이성(투자, 기술 용이성) 적용범위 및 방식 고려요소 : 업무내재화 적용 수준, 분석데이터 적용 수준, 기술적용 수준 ISP(Information Strategy Planning) - 정보기술 전략적 활용 위한 중장기 마스터 플랜 수립 절차 - 조직 내외부 환경 분석 → 기회, 문제점 도출 → 사용자 요구사항 분석 → 시스템 구축 우선순위 결정 분석 마스터 플랜 - 일반적 ISP 방법론 활용 - 데이터 분석 기획 특성 고려하여 수행, 기업에 필요한 데이터 분석 과제 도출 - 과제 우선순위 결정 - 단기, 중, 장기 나눠 계획 수립 2. 우선순위 평가 방법 및 절차..
[ADsP] 2-1. 데이터 분석 기획의 이해 (4) 분석 과제 발굴 및 관리 방안 1. 하향식 접근 방식 기회 및 문제 탐색, 해당 문제를 데이터 문제로 정의, 해결방안 탐색, 타당성 평가의 과정을 통해 분석 과제 도출 문제 탐색 단계 비즈니스 모델 기반 문제 탐색 - 업무 : 제품, 서비스 생산 위해 운영하는 내부 프로세스 및 주요 자원 관련 주제 도출 - 제품 : 생산 및 제공하는 제품 및 서비스 개선 위한 관련 주제 도출 - 고객 : 제품, 서비스 제공받는 사용자 및 고객, 이를 제공하는 채널 관점에서 관련 주제 도출 - 규제와 감사 : 제품 생산, 전달 과정 프로세스 중 발생하는 규제 및 보안 관점에서 주제 도출 - 지원 인프라 : 분석 수행 시스템 영역 및 운영, 관리 인력 관점에서 주제 도출 * 거시적 관점 - STEEP(Social, Technology, Economic,..
[ADsP] 2-1. 데이터 분석 기획의 이해 (3) 빅데이터 분석 방법론 빅데이터 분석 방법론 : 계층적 프로세스 모델 (3계층) 단계 (Phase) - 프로세스 그룹 통해 완성된 단계별 산출물 생성 - 기준선(baseline)으로 설정되어 관리되어야 함 - 버전 관리 통해 통제가 이루어져야 함 태스크 (Task) - 단계를 구성하는 단위활동 - 물리적, 논리적 단위 품질 검토 항목 스텝 (Step) - WBS(Work Breakdown Structure)의 Work Package 해당 - 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 분석 절차 분석 기획 비즈니스 이해 및 범위 설정 > 비즈니스 이해 - 내부 업무 매뉴얼, 관련자료, 외부 관련 비즈니스 자료 조사, 향후 프로젝트 방향 설정 - 중장기입력자료 : 업무 매뉴얼, 업무 전문가 지식, 빅데이터 분석 대..
[ADsP] 2-1. 데이터 분석 기획의 이해 (2) 분석 방법론 1. 분석 방법론 개요 데이터 분석 방법론 데이터 분석이 효과적으로 정착하기 위해 체계화된 절차 및 방법인 분석 방법론이 필수적으로 필요 Procedure(절차), Method(방법), Tools&Technique(도구와 기법), Templates&Outputs(템플릿과 산출물)로 구성 방법론의 적용 업무의 특성에 따른 모델 폭포수 모델 - 순차적 진행 - 이전 단계 완료되어야 다음 단계로 진행, 문제 발견 시 피드백 나선형 모델 - 반복 통해 점증적 개발 - 관리 체계 효과적으로 갖추지 못하면 복잡도 상승 프로토타입 모델 - 폭포수 모델 단점 보완 위해 점진적으로 시스템 개발해나가는 접근 방식 - 완벽 요구 분석 어려움 해결 위해 개발 일부분만 우선 개발 → 사용자 시험 사용 → 요구 분석, 정당성 점..