본문 바로가기

[ADsP] 3-5. 정형 데이터 마이닝 (5) 군집 분석 1. 군집분석 개요 각 객체 유사성 측정하여 유사성 높은 대상집단 분류 군집 속한 객체 유사성과 서로 다른 군집 속한 객체간 상이성 규명하는 분석 방법 거리 기준으로 군집화 유도 * 요인분석 : 유사한 변수 함께 묶어줌 * 판별분석 : 사전에 나눠진 집단 자료 통해 새로운 데이터를 기존 집단에 할당 2. 전통적 군집분석 통계적 기법 - clustering, k-means - 변수 선정하고 구간대로 나눈 뒤 격자형으로 단순히 나누고 집단 적으면 병합하기도 - 집단 간 프로파일 차이 나지 않을 때 존재 / 특성 변동 따라 고객 집단 이동할수도 목표기반 세분화 방법 - 고객가치, 특정상품 구매 고객 타겟으로 세분화 - 해당 집단 많이 존재하는 군집 구분 프로파일링 방법 - 격자 세분화 → 집단간 차이가 세분화..
[ADsP] 3-5. 정형 데이터 마이닝 (4) 인공신경망 분석 1. 인공신경망분석(ANN) 연구 과정 - '뇌=디지털 네트워크 모형'으로 간주하고 신경세포 신호처리 과정을 모형화하여 단순 패턴분류 모형 개발 - 뉴런 사이 연결강도 조정하여 학습규칙 개발 (Hebb) - 퍼셉트론 개발했었으나, XOR 문제 풀지 못함 (Rosenblatt, 1955) - 역전파 알고리즘 (backpropagation) 활용하여 비선형성 극복 (Hopfild, Rumelhart, McClelland) 가중치 반복적으로 조정하며 학습 뉴런이 링크로 연결되어 있으며, 각 링크별 수치적 가중치 존재 - 가중치 초기화한 뒤, 훈련 데이터 통해 갱신 입력 링크에서 여러 신호 받아 새로운 활성화 수준 계산하고 출력 링크로 출력 신호 보냄 - 입력 : 미가공 데이터 or 다른 뉴런의 출력 - 출력 ..
[ADsP] 3-5. 정형 데이터 마이닝 (3) 앙상블 분석 1. 앙상블 예측모형들 조합하여 하나의 최종 예측모형으로 만드는 방법 (combining multiple models) 학습방법의 불안정성 - 학습자료 작은 변화에 예측모형이 크게 변하는 경우 불안정한 학습방법임 - 가장 안정적 : 1-nearest neighbor (가장 가까운 자료만 안 변하면 예측모형 변하지 않음), 선형회귀 - 가장 불안정 : 의사결정나무 배깅 (Bagging : Bootstrap Aggregating) - 여러 bootstrap 자료 생성하여 예측 모형 만든 후 결합하여 최종 예측 - bootstrap : 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료 - voting : 다수결에 의해 최종 결과 산정 - 가지치기 하지 않고 최대 성장한 의사결정나무 활용 - 훈련자료를 모집단으로..
[ADsP] 3-5. 정형 데이터 마이닝 (2) 의사결정나무 분석 1. 분류 분석 (Classification) 레코드의 범주형 속성값 미리 알아 맞히는 기법 * 예측 분석 (Prediction) : 레코드의 연속형 속성값 미리 알아 맞히는 기법 데이터 실체가 어떤 그룹에 속하는지 예측하는데 사용하는 기법 각 그룹이 미리 정의되어 있는 supervised learning 기법 (clustering과의 차이점) 분류 모델링 예시 : 신용평가모형, 사기방지모형, 이탈모형, 고객 세분화 2. 의사결정나무 (Decision Tree) 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법 - root node, child node, parent node, termial node, internal node, branch, depth로 구성 주어진 입력값 대해 출력값 예측..
[ADsP] 3-5. 정형 데이터 마이닝 (1) 개요 1. 데이터 마이닝 대용량 데이터에서 의미 있는 패턴 파악, 예측하여 의사결정에 활용하는 방법 * cf. 통계분석 : 가설, 가정 따른 분석, 검증 종류 - 정보 찾는 방법론에 따라 : 인공지능, 의사결정나무, k-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접이웃 - 분석대상, 활용 목적, 표현방법 따라 : 시각화분석, 분류, 군집화, 예측 발전단계 1) 데이터 수집 (1960s) : 정적 데이터 공급 2) 데이터 접근 (1970s) : 동적 데이터 공급 3) 데이터 웨어하우징 & 의사결정지원 (1980s) : 다양한 차원의 동적 데이터 공급 4) 데이터 마이닝 (1990s~) : 예측 정보의 공급 분석방법 - 지도 학습 : 의사결정나무, 인공신경망, 일반화 선형모형(회귀분석, 로지스틱 회귀분석),..
[ADsP] 3-4. 통계 분석 (6) 주성분 분석 1. 주성분 분석 서로 상관성 높은 변수들의 선형결합으로 만들어 기존 상관성 높은 변수들 요약, 축소 2. 주성분 분석의 목적 데이터 이해하고 관리하기 쉽도록 다중공선성 감소 차원 축소 → 군집화 결과, 연관 속도 개선 주성분 분석으로 차원 축소 후 시계열 분포나 추세 변화 분석하면 기계 고장 징후 등 사전 파악 가능 3. 주성분 분석 VS 요인 분석 요인 분석 : 등간/비율척도로 측정한 변수들에 잠재되어 있는 공통인자 찾아내는 기법 공통점 : 데이터 축소 시 활용 차이점 주성분 분석 요인 분석 생성된 변수 개수 보통 제3주성분까지 활용 개수 지정되어 있지 X 생성된 변수 이름 제#주성분 분석자가 명명 생성된 변수들간 중요도 제1주성분 > 제2주성분 > ... 대등 관계 분석방법 의미 목표변수를 잘 예측..
[ADsP] 3-4. 통계 분석 (5) 다차원척도법 MDS 1. 다차원척도법 (MDS, MultiDimensional Scaling) 객체간 근접성 시각화하는 통계기법 개체들 대상 변수들 측정 후 유사성/비유사성 측정하여 2, 3차원 공간 상에 표현 개체들 사이 집단화를 시각적으로 표현 2. 다차원척도법 목적 데이터 속 잠재되어 있는 패턴, 구조 찾아냄 → 소수 차원의 공간에 기하학적으로 표현 데이터 축소 목적 : 데이터에 포함된 정보 추출하기 위한 탐색 수단으로 사용 얻은 결과를 데이터가 만들어진 현상이나 과정에 고유 구조로서 의미 부여 3. 다차원척도법 방법 개체들의 거리 계산 : 유클리드 거리 적합도를 스트레스 값으로 나타냄 : 관측대상의 상대적 거리 정확도를 높이기 위함 부적합도 기준으로 STRESS 또는 S-STRESS 사용 : 각 개체들을 공간 상에 ..
[ADsP] 3-4. 통계 분석 (4) 시계열 분석 1. 시계열 자료 역사 : sin, cos 곡선 활용 → ARMA 개념, 모형 제시 및 추정 → 지수평활법 제시 → 계절성 지수평활법 제시 계량경제 : 시계열 데이터 대한 회귀분석 2. 정상성 평균 일정할 경우 : 모든 시점 대해 일정한 평균 지님 평균 일정하지 않을 경우 : 차분(=현시점-전시점) 통해 정상화 - 일반차분 : 바로 이전 시점 자료 빼기 - 계절차분 : 여러 시점 전의 자료 빼기, 주로 계절성 갖는 자료 정상화 시 사용 평균 일정하지 않고, 분산도 시점에 의존하지 않을 경우 : 변환 통해 정상화 - 공분산도 시차에만 의존, 실제 특정 시점 t,s에는 의존 X 정상시계열 특징 - 어떤 시점에서 평균, 분산, 특정 시차 길이 갖는 자기공분산 측정해도 동일값 가짐 - 항상 평균값으로 회귀하려는..