본문 바로가기

[ADsP] 3-5. 정형 데이터 마이닝 (1) 개요 1. 데이터 마이닝 대용량 데이터에서 의미 있는 패턴 파악, 예측하여 의사결정에 활용하는 방법 * cf. 통계분석 : 가설, 가정 따른 분석, 검증 종류 - 정보 찾는 방법론에 따라 : 인공지능, 의사결정나무, k-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접이웃 - 분석대상, 활용 목적, 표현방법 따라 : 시각화분석, 분류, 군집화, 예측 발전단계 1) 데이터 수집 (1960s) : 정적 데이터 공급 2) 데이터 접근 (1970s) : 동적 데이터 공급 3) 데이터 웨어하우징 & 의사결정지원 (1980s) : 다양한 차원의 동적 데이터 공급 4) 데이터 마이닝 (1990s~) : 예측 정보의 공급 분석방법 - 지도 학습 : 의사결정나무, 인공신경망, 일반화 선형모형(회귀분석, 로지스틱 회귀분석),..
[ADsP] 3-4. 통계 분석 (6) 주성분 분석 1. 주성분 분석 서로 상관성 높은 변수들의 선형결합으로 만들어 기존 상관성 높은 변수들 요약, 축소 2. 주성분 분석의 목적 데이터 이해하고 관리하기 쉽도록 다중공선성 감소 차원 축소 → 군집화 결과, 연관 속도 개선 주성분 분석으로 차원 축소 후 시계열 분포나 추세 변화 분석하면 기계 고장 징후 등 사전 파악 가능 3. 주성분 분석 VS 요인 분석 요인 분석 : 등간/비율척도로 측정한 변수들에 잠재되어 있는 공통인자 찾아내는 기법 공통점 : 데이터 축소 시 활용 차이점 주성분 분석 요인 분석 생성된 변수 개수 보통 제3주성분까지 활용 개수 지정되어 있지 X 생성된 변수 이름 제#주성분 분석자가 명명 생성된 변수들간 중요도 제1주성분 > 제2주성분 > ... 대등 관계 분석방법 의미 목표변수를 잘 예측..
[ADsP] 3-4. 통계 분석 (5) 다차원척도법 MDS 1. 다차원척도법 (MDS, MultiDimensional Scaling) 객체간 근접성 시각화하는 통계기법 개체들 대상 변수들 측정 후 유사성/비유사성 측정하여 2, 3차원 공간 상에 표현 개체들 사이 집단화를 시각적으로 표현 2. 다차원척도법 목적 데이터 속 잠재되어 있는 패턴, 구조 찾아냄 → 소수 차원의 공간에 기하학적으로 표현 데이터 축소 목적 : 데이터에 포함된 정보 추출하기 위한 탐색 수단으로 사용 얻은 결과를 데이터가 만들어진 현상이나 과정에 고유 구조로서 의미 부여 3. 다차원척도법 방법 개체들의 거리 계산 : 유클리드 거리 적합도를 스트레스 값으로 나타냄 : 관측대상의 상대적 거리 정확도를 높이기 위함 부적합도 기준으로 STRESS 또는 S-STRESS 사용 : 각 개체들을 공간 상에 ..
[ADsP] 3-4. 통계 분석 (4) 시계열 분석 1. 시계열 자료 역사 : sin, cos 곡선 활용 → ARMA 개념, 모형 제시 및 추정 → 지수평활법 제시 → 계절성 지수평활법 제시 계량경제 : 시계열 데이터 대한 회귀분석 2. 정상성 평균 일정할 경우 : 모든 시점 대해 일정한 평균 지님 평균 일정하지 않을 경우 : 차분(=현시점-전시점) 통해 정상화 - 일반차분 : 바로 이전 시점 자료 빼기 - 계절차분 : 여러 시점 전의 자료 빼기, 주로 계절성 갖는 자료 정상화 시 사용 평균 일정하지 않고, 분산도 시점에 의존하지 않을 경우 : 변환 통해 정상화 - 공분산도 시차에만 의존, 실제 특정 시점 t,s에는 의존 X 정상시계열 특징 - 어떤 시점에서 평균, 분산, 특정 시차 길이 갖는 자기공분산 측정해도 동일값 가짐 - 항상 평균값으로 회귀하려는..
[ADsP] 3-4. 통계 분석 (3) 회귀 분석 1. 회귀분석의 개요 독립변수들이 종속변수에 미치는 영향 추정 영향을 받는 변수 : 반응변수, 종속변수, 결과변수 영향을 주는 변수 : 설명변수, 독립변수, 예측변수 검토사항 - 모형이 통계적으로 유의미한지 : F통계량 확인(유의수준 5% 하에서 F통계량 p값이 0.05보다 작아야) - 회귀계수 유의미한지 : 계수 t통계량, p값, 신뢰구간 확인 - 모형이 얼마나 설명력을 갖는지 : 결정계수 확인 (높을수록 설명력 높음) - 모형이 데이터를 잘 적합하고 있는지 : 잔차 그래프 그리고 회귀진단 회귀계수 추정 : 최소제곱법 식 편미분하여 계산 2. 회귀분석의 검정 β1=0이면 x, y사이에 아무런 관계 없음 결정계수 - 전체제곱합 SST = 회귀제곱합 SSR + 오차제곱합 SSE - R^2 = SSR/SST..
[ADsP] 3-4. 통계 분석 (2) 기초 통계 분석 1. 기술 통계 자료 특성 표, 그림, 통계량으로 정리, 요약 통계량 - 표본평균 - 중앙값 - 사분위수범위 (IQR=Q3-Q1, 25/50/75백분위수) - 백분위수((n-1)p/100+1) - 변동계수(v=s/x_bar) - 평균의 표준오차(SE(x_bar)=s/sqrt(n)) - 분포의 형태에 관한 측도 > 왜도 : 분포 비대칭정도 > 첨도 : 분포 중심에서 뾰족한 정도, 양수면 긴 꼬리 / 음수면 짧은 꼬리 / 0이면 정규분포 그래프 - 연속형 데이터 : 히스토그램(계급 수 k는 2^k >= n 만족, 계급간격=(M-m)/k), 상자그림(boxplot) - 범주형 데이터 : 막대그래프, 줄기-잎 그림 2. 인과관계의 이해 산점도(scatter plot) : 두 변수 사이 선형관계/함수관계 성립여부..
[ADsP] 3-4. 통계 분석 (1) 통계 분석의 이해 1. 통계 특정집단 대상으로 수행한 조사, 실험을 통해 나온 결과에 대한 요약된 형태의 표현 통계자료 획득 방법 총조사(census) : 대상 집단 모두 조사 - 많은 시간, 비용 소요 표본조사 : 대부분 조사 - 모집단(대상 집단 전체), 원소(모집단 구성 개체), 표본(추출한 모집단 일부 원소), 모수(구하고자 하는 모집단 대한 정보) - 단순랜덤추출법 : 각 샘플 선택 확률 동일 - 계통추출법 : k개씩 n개 구간 나누어 k개마다 표본 선택 - 집략추출법 : 군집 구분하여 군집별로 단순랜덤추출 (=지역표본추출, 다단계표본추출) - 층화추출법 : 유사 원소끼리 층으로 나누어 각 층에서 랜덤 추출 (=비례층화추출법, 불비례층화추출법) 실험 : 특정 목적 하 실험대상에게 처리 가한 후 결과 관측하여 자료..
[ADsP] 3-3. 데이터 마트 1. R reshape를 이용한 데이터 마트 개발 데이터 마트 데이터웨어하우스(DW)와 사용자 사이의 중간층 대부분 DW로부터 복제, but 자체 수집 가능, 관계형 DB나 다차원 DB 이용하여 구축 CRM 관련 업무 중 핵심 요약변수 - 수집된 정보 분석 맞게 종합 - 재활용성 높음 (공통 사용 多 : 합계, 횟수 등) - 기간별 구매 금액, 횟수여부, 위클리 쇼퍼, 상품별 구매 금액 등 파생변수 - 특정 함수 의해 값 만들어 의미 부여 (매우 주관적) - 상황 따라 대표성 나타나게 할 필요 있음 reshape 활용 - melt(data, id = ...) : 적당 형태로 만들어줌 - cast(data, formula = ...~variable, func) : 원하는 형태로 계산, 변형 sqldf를 이..