본문 바로가기

[ADsP] 3-4. 통계 분석 (4) 시계열 분석 1. 시계열 자료 역사 : sin, cos 곡선 활용 → ARMA 개념, 모형 제시 및 추정 → 지수평활법 제시 → 계절성 지수평활법 제시 계량경제 : 시계열 데이터 대한 회귀분석 2. 정상성 평균 일정할 경우 : 모든 시점 대해 일정한 평균 지님 평균 일정하지 않을 경우 : 차분(=현시점-전시점) 통해 정상화 - 일반차분 : 바로 이전 시점 자료 빼기 - 계절차분 : 여러 시점 전의 자료 빼기, 주로 계절성 갖는 자료 정상화 시 사용 평균 일정하지 않고, 분산도 시점에 의존하지 않을 경우 : 변환 통해 정상화 - 공분산도 시차에만 의존, 실제 특정 시점 t,s에는 의존 X 정상시계열 특징 - 어떤 시점에서 평균, 분산, 특정 시차 길이 갖는 자기공분산 측정해도 동일값 가짐 - 항상 평균값으로 회귀하려는..
[ADsP] 3-4. 통계 분석 (3) 회귀 분석 1. 회귀분석의 개요 독립변수들이 종속변수에 미치는 영향 추정 영향을 받는 변수 : 반응변수, 종속변수, 결과변수 영향을 주는 변수 : 설명변수, 독립변수, 예측변수 검토사항 - 모형이 통계적으로 유의미한지 : F통계량 확인(유의수준 5% 하에서 F통계량 p값이 0.05보다 작아야) - 회귀계수 유의미한지 : 계수 t통계량, p값, 신뢰구간 확인 - 모형이 얼마나 설명력을 갖는지 : 결정계수 확인 (높을수록 설명력 높음) - 모형이 데이터를 잘 적합하고 있는지 : 잔차 그래프 그리고 회귀진단 회귀계수 추정 : 최소제곱법 식 편미분하여 계산 2. 회귀분석의 검정 β1=0이면 x, y사이에 아무런 관계 없음 결정계수 - 전체제곱합 SST = 회귀제곱합 SSR + 오차제곱합 SSE - R^2 = SSR/SST..
[ADsP] 3-4. 통계 분석 (2) 기초 통계 분석 1. 기술 통계 자료 특성 표, 그림, 통계량으로 정리, 요약 통계량 - 표본평균 - 중앙값 - 사분위수범위 (IQR=Q3-Q1, 25/50/75백분위수) - 백분위수((n-1)p/100+1) - 변동계수(v=s/x_bar) - 평균의 표준오차(SE(x_bar)=s/sqrt(n)) - 분포의 형태에 관한 측도 > 왜도 : 분포 비대칭정도 > 첨도 : 분포 중심에서 뾰족한 정도, 양수면 긴 꼬리 / 음수면 짧은 꼬리 / 0이면 정규분포 그래프 - 연속형 데이터 : 히스토그램(계급 수 k는 2^k >= n 만족, 계급간격=(M-m)/k), 상자그림(boxplot) - 범주형 데이터 : 막대그래프, 줄기-잎 그림 2. 인과관계의 이해 산점도(scatter plot) : 두 변수 사이 선형관계/함수관계 성립여부..
[ADsP] 3-4. 통계 분석 (1) 통계 분석의 이해 1. 통계 특정집단 대상으로 수행한 조사, 실험을 통해 나온 결과에 대한 요약된 형태의 표현 통계자료 획득 방법 총조사(census) : 대상 집단 모두 조사 - 많은 시간, 비용 소요 표본조사 : 대부분 조사 - 모집단(대상 집단 전체), 원소(모집단 구성 개체), 표본(추출한 모집단 일부 원소), 모수(구하고자 하는 모집단 대한 정보) - 단순랜덤추출법 : 각 샘플 선택 확률 동일 - 계통추출법 : k개씩 n개 구간 나누어 k개마다 표본 선택 - 집략추출법 : 군집 구분하여 군집별로 단순랜덤추출 (=지역표본추출, 다단계표본추출) - 층화추출법 : 유사 원소끼리 층으로 나누어 각 층에서 랜덤 추출 (=비례층화추출법, 불비례층화추출법) 실험 : 특정 목적 하 실험대상에게 처리 가한 후 결과 관측하여 자료..
[ADsP] 3-3. 데이터 마트 1. R reshape를 이용한 데이터 마트 개발 데이터 마트 데이터웨어하우스(DW)와 사용자 사이의 중간층 대부분 DW로부터 복제, but 자체 수집 가능, 관계형 DB나 다차원 DB 이용하여 구축 CRM 관련 업무 중 핵심 요약변수 - 수집된 정보 분석 맞게 종합 - 재활용성 높음 (공통 사용 多 : 합계, 횟수 등) - 기간별 구매 금액, 횟수여부, 위클리 쇼퍼, 상품별 구매 금액 등 파생변수 - 특정 함수 의해 값 만들어 의미 부여 (매우 주관적) - 상황 따라 대표성 나타나게 할 필요 있음 reshape 활용 - melt(data, id = ...) : 적당 형태로 만들어줌 - cast(data, formula = ...~variable, func) : 원하는 형태로 계산, 변형 sqldf를 이..
[ADsP] 3-2. R 프로그래밍 기초 1. R 소개 R : 통계, 데이터마이닝, 그래프를 위한 오픈소스 프로그램 SAS, SPSS R 비용 비쌈 무료 설치용량 대용량 모듈화 (간단) 모듈지원 별도 구매 오픈소스 최근 알고리즘/기술 반영 slow fast 학습자료 입수 편의성 유료 위주 공개 자료 질의 공개 커뮤니티 없음 있음 R 특징 - 오픈소스 프로그램 (커뮤니티, 5000개 패키지 수시 업데이트) - 그래픽 및 성능 월등 - 시스템 데이터 저장 방식 : 각 세션마다 저장하여 매번 로딩할 필요 X - 모든 운영체제 사용 가능 - 표준 플랫폼 : S 통계언어 기반(통계전문가들의 표준 플랫폼) - 객체지향언어 & 함수형 언어 > 객체지향 : 결과값 객체 반환 - 필요한 부분만 추출 가능 > 함수형 : 단축, 수행속도 빠름, 단순 코드로 디버깅..
[ADsP] 3-1. 데이터 분석 개요 1. 데이터 처리 데이터웨어하우스(DW), 데이터마트(DM) 통해 분석 데이터 가져와서 사용 신규 시스템 or DW에 포함되지 않은 자료 활용 방법 - 기존 운영시스템(legacy)에서 가져오기 - ODS(Operational Data Store)에서 정제된 데이터 가져와 결합 운영시스템(legacy)에 직접 접근 활용은 매우 위험 - 주로 ODS에서 가져옴 - 스테이징 영역(staging area)에서 가져오기도 함 스테이징 영역 (staging area) - 운영시스템(legacy)에서 가져온 데이터를 임시 저장 - 스테이징 영역 데이터는 정제되어 있지 않으므로 전처리 한 뒤 DW, DM과 결합해야 함 최종 데이터 구조로 가공 - 시뮬레이션 모델링 : 단계별 처리시간 대한 분포 파악할 수 있는 내용,..
[ADsP] 2-2. 분석 마스터 플랜 (2) 분석 거버넌스 체계 수립 1. 거버넌스 체계 개요 구성 요소 조직(분석 기획 및 관리) 과제 기획 및 운영 프로세스 분석 관련 시스템 데이터 분석 관련 교육 및 마인드 육성 체계 2. 데이터 분석 수준진단 목표 현재 분석수준 이해, 수준진단 결과 토대로 미래 목표수준 정의 데이터 분석 기반, 환경이 유사업종 비해 어느 정도 수준인지 파악 경쟁력 확보 위해 어떤 영역에 집중해야하는지, 어떤 관점 보완해야하는지 등 개선방안 도출 분석 준비도 (Readiness) 각 영영별 세부 항목 대한 수준 평가 일정 수준 이상 충족하면 분석 업무 도입, 충족하지 못하면 분석 환경 조성 분석업무파악 : 발생한 사실 분석, 예측 분석, 시뮬레이션 분석, 최적화 분석, 분석 업무 정기적 개선 인력 및 조직 : 분석 전문가 직무 존재, 분석 전문가 교..