[NLP] 자연어처리 기초 (for 기술면접 대비)
Tokenization - corpus를 의미 있는 단위인 token으로 나누기 - 구두점, 특수문자 단순히 제외하면 안됨 Lemmatization & Stemming - Lemmatization : 표제어 추출 (뿌리 단어 찾기, am → be) - Stemming : 어간 추출 (going → go) Language Model - 단어 sequence에 확률을 부여하는 모델로, 이전 단어들 주어졌을 때 다음 단어 예측하는 모델 n-gram - 통계적 언어 모델에서 앞의 n개 단어 보고 확률 계산 BoW (Bag of Words) - 단어 순서를 고려하지 않고 출현 빈도만 고려 TF-IDF - DTM : 문서별 단어 빈도를 행렬로 표현 - tf(d,t) : 특정 문서 d에서 특정 단어 t가 나오는 횟수..