[NLP] 문서 유사도 (Document Similarity) 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. 이번에는 문서 유사도를 구하는 공식들인 코사인 유사도(cosine similarity), 유클리드 거리(euclidean distance), 자카드 유사도(Jaccard similarity)에 대해 알아보자. [NLP] 횟수(count) 기반 단어 표현 방법 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. 이번에는 단어를 표현하는 방법인 국소 표현(local representation)과 분산 표현(distributed, continuous representation)과 BoW(Bag of Words), DTM(Document Term Matrix) 그리고 TF-IDF를 계산하는 방법에 대해 알아보자. [NLP] 언어 모델 (Language Model) 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. 이번에는 어떤 단어들(문장)이 주어졌을 때 다음 단어를 예측하는 모델 중 통계에 기반한 기초적인 모델인 SLM, n-gram 등에 대해 알아보자. [NLP] 텍스트 마이닝 (Text Mining) 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. NLP의 가장 기본인 텍스트 마이닝에 대한 내용이다. 기본적으로 해주어야 하는 토큰화(tokenization), 정제(cleaning), 정규화(normalization), 불용어(stopwords)부터 어간 추출(stemming)과 표제어 추출(lemmatization)의 차이, 이를 실제로 보다 효율적으로 수행하기 위해 필요한 정규표현식(Python의 re), 그리고 단어 분리 토크나이저까지 텍스트마이닝에 대한 내용을 전반적으로 정리해보았다. [NLP/Python] 정규표현식 (re) . 임의의 문자 1개 (\n 제외) a? a가 최소 0개 최대 1개 존재 a* a가 최소 0개 이상 존재 a+ a가 최소 1개 이상 존재 ^a a로 문자열 시작 a$ a로 문자열 종료 ex1) 단어 사이 띄어쓰기 상관 없이 찾아서 대체하기 import re sentence = re.sub('불편.?사항', '불편', sentence) ex2) 여러 단어 한꺼번에 find할 때 import re for word in re.finditer('없음|없다|없고', sentence): print(word.start(), word.end()) 이전 1 2 3 다음