본문 바로가기

[NLP] 잠재 디레클레 할당 (LDA) 이 포스트는 책 '한국어 임베딩(자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지, 이기창 저)'을 기반으로 작성되었습니다. 토픽 모델링 (Topic Modeling)이라고 불리기도 하는 LDA (Latent Dirichlet Allocation)란, 각 문서에 어떤 주제가 존재하는지 나타내는 확률 모형이다. LDA는 말뭉치 이면에 존재하는 정보를 추론하는, 잠재 정보를 알아내는 과정이므로 잠재(Latent)라는 단어가 붙으며, 변수 중 디레클레 분포를 따르는 변수가 있기 때문에 디레클레(Dirichlet)라는 단어로 명명되어 있다. http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf http://www.cs.columb..
[ADsP] 3-5. 정형 데이터 마이닝 (6) 연관 분석 1. 연관규칙 (Association Analysis) 상품 구매, 서비스 등 일련의 거래 또는 사건들 간 규칙 발견 위해 적용 (장바구니 분석, 서열분석) 개념 - if-then 형태 (Item set A → Item set B) 측도 - 지지도(support) = P(A∩B) - 신뢰도(confidence) = P(A∩B) / P(A) = 지지도(support) / P(A) - 향상도(lift) = P(B|A) / P(B) = P(A∩B) / P(A)*P(B) 절차 - 최소 지지도 결정 → 최소 지지도보다 넘는 품목 분류 → 2가지 품목 집합 생성 → 반복적 수행 통해 자주 나오는 품목 집합 찾기 - 처음에는 5% 정도로 잡고 규칙 충분히 도출되는지 확인 후 다양하게 조절하여 시도 장점 - 탐색적 기..
[ADsP] 3-5. 정형 데이터 마이닝 (5) 군집 분석 1. 군집분석 개요 각 객체 유사성 측정하여 유사성 높은 대상집단 분류 군집 속한 객체 유사성과 서로 다른 군집 속한 객체간 상이성 규명하는 분석 방법 거리 기준으로 군집화 유도 * 요인분석 : 유사한 변수 함께 묶어줌 * 판별분석 : 사전에 나눠진 집단 자료 통해 새로운 데이터를 기존 집단에 할당 2. 전통적 군집분석 통계적 기법 - clustering, k-means - 변수 선정하고 구간대로 나눈 뒤 격자형으로 단순히 나누고 집단 적으면 병합하기도 - 집단 간 프로파일 차이 나지 않을 때 존재 / 특성 변동 따라 고객 집단 이동할수도 목표기반 세분화 방법 - 고객가치, 특정상품 구매 고객 타겟으로 세분화 - 해당 집단 많이 존재하는 군집 구분 프로파일링 방법 - 격자 세분화 → 집단간 차이가 세분화..
[ADsP] 3-5. 정형 데이터 마이닝 (4) 인공신경망 분석 1. 인공신경망분석(ANN) 연구 과정 - '뇌=디지털 네트워크 모형'으로 간주하고 신경세포 신호처리 과정을 모형화하여 단순 패턴분류 모형 개발 - 뉴런 사이 연결강도 조정하여 학습규칙 개발 (Hebb) - 퍼셉트론 개발했었으나, XOR 문제 풀지 못함 (Rosenblatt, 1955) - 역전파 알고리즘 (backpropagation) 활용하여 비선형성 극복 (Hopfild, Rumelhart, McClelland) 가중치 반복적으로 조정하며 학습 뉴런이 링크로 연결되어 있으며, 각 링크별 수치적 가중치 존재 - 가중치 초기화한 뒤, 훈련 데이터 통해 갱신 입력 링크에서 여러 신호 받아 새로운 활성화 수준 계산하고 출력 링크로 출력 신호 보냄 - 입력 : 미가공 데이터 or 다른 뉴런의 출력 - 출력 ..
[ADsP] 3-5. 정형 데이터 마이닝 (3) 앙상블 분석 1. 앙상블 예측모형들 조합하여 하나의 최종 예측모형으로 만드는 방법 (combining multiple models) 학습방법의 불안정성 - 학습자료 작은 변화에 예측모형이 크게 변하는 경우 불안정한 학습방법임 - 가장 안정적 : 1-nearest neighbor (가장 가까운 자료만 안 변하면 예측모형 변하지 않음), 선형회귀 - 가장 불안정 : 의사결정나무 배깅 (Bagging : Bootstrap Aggregating) - 여러 bootstrap 자료 생성하여 예측 모형 만든 후 결합하여 최종 예측 - bootstrap : 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료 - voting : 다수결에 의해 최종 결과 산정 - 가지치기 하지 않고 최대 성장한 의사결정나무 활용 - 훈련자료를 모집단으로..
[ADsP] 3-5. 정형 데이터 마이닝 (2) 의사결정나무 분석 1. 분류 분석 (Classification) 레코드의 범주형 속성값 미리 알아 맞히는 기법 * 예측 분석 (Prediction) : 레코드의 연속형 속성값 미리 알아 맞히는 기법 데이터 실체가 어떤 그룹에 속하는지 예측하는데 사용하는 기법 각 그룹이 미리 정의되어 있는 supervised learning 기법 (clustering과의 차이점) 분류 모델링 예시 : 신용평가모형, 사기방지모형, 이탈모형, 고객 세분화 2. 의사결정나무 (Decision Tree) 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법 - root node, child node, parent node, termial node, internal node, branch, depth로 구성 주어진 입력값 대해 출력값 예측..
[ADsP] 3-5. 정형 데이터 마이닝 (1) 개요 1. 데이터 마이닝 대용량 데이터에서 의미 있는 패턴 파악, 예측하여 의사결정에 활용하는 방법 * cf. 통계분석 : 가설, 가정 따른 분석, 검증 종류 - 정보 찾는 방법론에 따라 : 인공지능, 의사결정나무, k-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접이웃 - 분석대상, 활용 목적, 표현방법 따라 : 시각화분석, 분류, 군집화, 예측 발전단계 1) 데이터 수집 (1960s) : 정적 데이터 공급 2) 데이터 접근 (1970s) : 동적 데이터 공급 3) 데이터 웨어하우징 & 의사결정지원 (1980s) : 다양한 차원의 동적 데이터 공급 4) 데이터 마이닝 (1990s~) : 예측 정보의 공급 분석방법 - 지도 학습 : 의사결정나무, 인공신경망, 일반화 선형모형(회귀분석, 로지스틱 회귀분석),..
[ADsP] 3-4. 통계 분석 (6) 주성분 분석 1. 주성분 분석 서로 상관성 높은 변수들의 선형결합으로 만들어 기존 상관성 높은 변수들 요약, 축소 2. 주성분 분석의 목적 데이터 이해하고 관리하기 쉽도록 다중공선성 감소 차원 축소 → 군집화 결과, 연관 속도 개선 주성분 분석으로 차원 축소 후 시계열 분포나 추세 변화 분석하면 기계 고장 징후 등 사전 파악 가능 3. 주성분 분석 VS 요인 분석 요인 분석 : 등간/비율척도로 측정한 변수들에 잠재되어 있는 공통인자 찾아내는 기법 공통점 : 데이터 축소 시 활용 차이점 주성분 분석 요인 분석 생성된 변수 개수 보통 제3주성분까지 활용 개수 지정되어 있지 X 생성된 변수 이름 제#주성분 분석자가 명명 생성된 변수들간 중요도 제1주성분 > 제2주성분 > ... 대등 관계 분석방법 의미 목표변수를 잘 예측..