본문 바로가기

[NLP] Transformer Network 이 포스트는 책 '한국어 임베딩(자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지, 이기창 저)'을 기반으로 작성되었습니다. 구글 NIPS에서 공개한 트랜스포머 네트워크는 자연어처리에 큰 획을 그었다. 이후 개발된 BERT, GPT 등의 모델은 모두 이 트랜스포머 블록을 기본 모델로 사용하고 있다. (논문 pdf : https://arxiv.org/pdf/1706.03762.pdf) Scaled Dot-Product Attention Transformer block의 주 요소 중 하나인 Scaled Dot-Product Attention은 아래 수식을 통해 계산된다. 행렬 형태인 입력 X는 (입력 문장 단어 수) * (입력 임베딩 차원 수) 크기를 가지고 있으며, 쿼..
[NLP] ELMo (Embeddings from Language Models) 이 포스트는 책 '한국어 임베딩(자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지, 이기창 저)'을 기반으로 작성되었습니다. ELMo는 문장 임베딩 기법 중 하나로, 전이 학습(transfer learning)을 NLP에 접목시킨 언어 모델이다. 단어 sequence가 얼마나 자연스러운지에 대해 확률값을 부여하며, 입력한 단어들 뒤에 어떤 단어가 올지 맞추는 방식으로 학습된다. ELMo가 등장한 이후, 모델을 pre-train시킨 뒤 각종 downstream task (classification 등 우리가 풀고 싶은 task들)에 적용하는 방식이 일반화되었으며, 이런 과정을 pre-train model을 downstream task에 맞게 fine tuning한다고 ..
[NLP] 잠재 디레클레 할당 (LDA) 이 포스트는 책 '한국어 임베딩(자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지, 이기창 저)'을 기반으로 작성되었습니다. 토픽 모델링 (Topic Modeling)이라고 불리기도 하는 LDA (Latent Dirichlet Allocation)란, 각 문서에 어떤 주제가 존재하는지 나타내는 확률 모형이다. LDA는 말뭉치 이면에 존재하는 정보를 추론하는, 잠재 정보를 알아내는 과정이므로 잠재(Latent)라는 단어가 붙으며, 변수 중 디레클레 분포를 따르는 변수가 있기 때문에 디레클레(Dirichlet)라는 단어로 명명되어 있다. http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf http://www.cs.columb..
[ADsP] 3-5. 정형 데이터 마이닝 (6) 연관 분석 1. 연관규칙 (Association Analysis) 상품 구매, 서비스 등 일련의 거래 또는 사건들 간 규칙 발견 위해 적용 (장바구니 분석, 서열분석) 개념 - if-then 형태 (Item set A → Item set B) 측도 - 지지도(support) = P(A∩B) - 신뢰도(confidence) = P(A∩B) / P(A) = 지지도(support) / P(A) - 향상도(lift) = P(B|A) / P(B) = P(A∩B) / P(A)*P(B) 절차 - 최소 지지도 결정 → 최소 지지도보다 넘는 품목 분류 → 2가지 품목 집합 생성 → 반복적 수행 통해 자주 나오는 품목 집합 찾기 - 처음에는 5% 정도로 잡고 규칙 충분히 도출되는지 확인 후 다양하게 조절하여 시도 장점 - 탐색적 기..
[ADsP] 3-5. 정형 데이터 마이닝 (5) 군집 분석 1. 군집분석 개요 각 객체 유사성 측정하여 유사성 높은 대상집단 분류 군집 속한 객체 유사성과 서로 다른 군집 속한 객체간 상이성 규명하는 분석 방법 거리 기준으로 군집화 유도 * 요인분석 : 유사한 변수 함께 묶어줌 * 판별분석 : 사전에 나눠진 집단 자료 통해 새로운 데이터를 기존 집단에 할당 2. 전통적 군집분석 통계적 기법 - clustering, k-means - 변수 선정하고 구간대로 나눈 뒤 격자형으로 단순히 나누고 집단 적으면 병합하기도 - 집단 간 프로파일 차이 나지 않을 때 존재 / 특성 변동 따라 고객 집단 이동할수도 목표기반 세분화 방법 - 고객가치, 특정상품 구매 고객 타겟으로 세분화 - 해당 집단 많이 존재하는 군집 구분 프로파일링 방법 - 격자 세분화 → 집단간 차이가 세분화..
[ADsP] 3-5. 정형 데이터 마이닝 (4) 인공신경망 분석 1. 인공신경망분석(ANN) 연구 과정 - '뇌=디지털 네트워크 모형'으로 간주하고 신경세포 신호처리 과정을 모형화하여 단순 패턴분류 모형 개발 - 뉴런 사이 연결강도 조정하여 학습규칙 개발 (Hebb) - 퍼셉트론 개발했었으나, XOR 문제 풀지 못함 (Rosenblatt, 1955) - 역전파 알고리즘 (backpropagation) 활용하여 비선형성 극복 (Hopfild, Rumelhart, McClelland) 가중치 반복적으로 조정하며 학습 뉴런이 링크로 연결되어 있으며, 각 링크별 수치적 가중치 존재 - 가중치 초기화한 뒤, 훈련 데이터 통해 갱신 입력 링크에서 여러 신호 받아 새로운 활성화 수준 계산하고 출력 링크로 출력 신호 보냄 - 입력 : 미가공 데이터 or 다른 뉴런의 출력 - 출력 ..
[ADsP] 3-5. 정형 데이터 마이닝 (3) 앙상블 분석 1. 앙상블 예측모형들 조합하여 하나의 최종 예측모형으로 만드는 방법 (combining multiple models) 학습방법의 불안정성 - 학습자료 작은 변화에 예측모형이 크게 변하는 경우 불안정한 학습방법임 - 가장 안정적 : 1-nearest neighbor (가장 가까운 자료만 안 변하면 예측모형 변하지 않음), 선형회귀 - 가장 불안정 : 의사결정나무 배깅 (Bagging : Bootstrap Aggregating) - 여러 bootstrap 자료 생성하여 예측 모형 만든 후 결합하여 최종 예측 - bootstrap : 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료 - voting : 다수결에 의해 최종 결과 산정 - 가지치기 하지 않고 최대 성장한 의사결정나무 활용 - 훈련자료를 모집단으로..
[ADsP] 3-5. 정형 데이터 마이닝 (2) 의사결정나무 분석 1. 분류 분석 (Classification) 레코드의 범주형 속성값 미리 알아 맞히는 기법 * 예측 분석 (Prediction) : 레코드의 연속형 속성값 미리 알아 맞히는 기법 데이터 실체가 어떤 그룹에 속하는지 예측하는데 사용하는 기법 각 그룹이 미리 정의되어 있는 supervised learning 기법 (clustering과의 차이점) 분류 모델링 예시 : 신용평가모형, 사기방지모형, 이탈모형, 고객 세분화 2. 의사결정나무 (Decision Tree) 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법 - root node, child node, parent node, termial node, internal node, branch, depth로 구성 주어진 입력값 대해 출력값 예측..