본문 바로가기

[Deep Learning] 딥러닝 기초 지식 (활성화 함수(activation function), 옵티마이저(optimizer), 역전파(back propagation) 등) 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. 이번에는 딥러닝을 배우기 전 꼭 알아야 하는 기초 지식인 퍼셉트론(perceptron)부터 Fully-Connected layer, 활성화 함수(Activation function), 순전파(Forward propagation)와 역전파(Back propagation) 과정, 손실함수(Loss function)와 옵티마이저(Optimizer) 종류, epoch, batch size, iteration, 그리고 과적합을 막는 방법 등에 대해 정리해보았다.
[NLP] 토픽 모델링 (Topic Modeling : LSA & LDA) 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. 이번에는 문서의 주제를 찾아주는 토픽 모델링(Topic Modeling) 기법인 잠재 의미 분석 (LSA: Latent Semantic Analysis)과 잠재 디레클레 할당 (LDA: Latent Dirichlet Allocation)에 대해 정리해보았다.
[NLP] 문서 유사도 (Document Similarity) 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. 이번에는 문서 유사도를 구하는 공식들인 코사인 유사도(cosine similarity), 유클리드 거리(euclidean distance), 자카드 유사도(Jaccard similarity)에 대해 알아보자.
[통계학] 14-4. 통계적 추론의 개요 - 유의확률(p-value) 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅱ 강의를 기반으로 작성되었습니다. 이번에는 p값, p-value라고 불리는 유의확률이 무엇인지, 그리고 지난번에 다룬 유의수준과 어떤 차이가 있는지 알아보고자 한다. 들어가기에 앞서, 모평균을 검정하는 한 예시를 살펴보자. n개의 확률표본이 어떤 정규분포를 X1, ... , Xn ~ iid N(μ, σ^2) 이렇게 따르고 있다. 이 때 제시하려는 대립가설은 1) H1: μ > μ0, 2) H1: μ α 이면 귀무가설을 유지한다.
[NLP] 횟수(count) 기반 단어 표현 방법 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. 이번에는 단어를 표현하는 방법인 국소 표현(local representation)과 분산 표현(distributed, continuous representation)과 BoW(Bag of Words), DTM(Document Term Matrix) 그리고 TF-IDF를 계산하는 방법에 대해 알아보자.
[NLP] 언어 모델 (Language Model) 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. 이번에는 어떤 단어들(문장)이 주어졌을 때 다음 단어를 예측하는 모델 중 통계에 기반한 기초적인 모델인 SLM, n-gram 등에 대해 알아보자.
[NLP] 텍스트 마이닝 (Text Mining) 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. NLP의 가장 기본인 텍스트 마이닝에 대한 내용이다. 기본적으로 해주어야 하는 토큰화(tokenization), 정제(cleaning), 정규화(normalization), 불용어(stopwords)부터 어간 추출(stemming)과 표제어 추출(lemmatization)의 차이, 이를 실제로 보다 효율적으로 수행하기 위해 필요한 정규표현식(Python의 re), 그리고 단어 분리 토크나이저까지 텍스트마이닝에 대한 내용을 전반적으로 정리해보았다.
[통계학] 14-3. 통계적 추론의 개요 - 유의수준과 검정력 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅱ 강의를 기반으로 작성되었습니다. 이번에는 지난 글에서 다룬 검정통계량과 오류에서 파생된 유의수준에 대해 다뤄보고자 한다. 우선 예시를 통해 제1, 2종의 오류와 그에 따른 유의수준 및 검정력에 대해 알아보자. 유의수준 유의수준(α) : 제 1종 오류 확률의 최대값 ex) 인구 데이터 X가 정규분포 N(μ, 4)를 따른다고 하자. 이 때 관심이 있는 값은 μ이다. 이 값을 알기 위해 X에서 16개의 표본 X1, ... , X16을 추출했다. 이 정규분포 X1, ... , X16 ~ iid N(μ, 4)를 통해 우리가 주장하는 대립가설은 H1 : μ > 0이며, 귀무가설은 H0 : μ ≤ 0이다. 검정 원칙으로는 'X의 표본평균 x̅ ≥ 0..