본문 바로가기

[통계학] 14-4. 통계적 추론의 개요 - 유의확률(p-value) 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅱ 강의를 기반으로 작성되었습니다. 이번에는 p값, p-value라고 불리는 유의확률이 무엇인지, 그리고 지난번에 다룬 유의수준과 어떤 차이가 있는지 알아보고자 한다. 들어가기에 앞서, 모평균을 검정하는 한 예시를 살펴보자. n개의 확률표본이 어떤 정규분포를 X1, ... , Xn ~ iid N(μ, σ^2) 이렇게 따르고 있다. 이 때 제시하려는 대립가설은 1) H1: μ > μ0, 2) H1: μ α 이면 귀무가설을 유지한다.
[NLP] 횟수(count) 기반 단어 표현 방법 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. 이번에는 단어를 표현하는 방법인 국소 표현(local representation)과 분산 표현(distributed, continuous representation)과 BoW(Bag of Words), DTM(Document Term Matrix) 그리고 TF-IDF를 계산하는 방법에 대해 알아보자.
[NLP] 언어 모델 (Language Model) 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. 이번에는 어떤 단어들(문장)이 주어졌을 때 다음 단어를 예측하는 모델 중 통계에 기반한 기초적인 모델인 SLM, n-gram 등에 대해 알아보자.
[NLP] 텍스트 마이닝 (Text Mining) 이 포스트는 위키독스의 딥러닝을 이용한 자연어 처리 입문을 기반으로 작성되었습니다. NLP의 가장 기본인 텍스트 마이닝에 대한 내용이다. 기본적으로 해주어야 하는 토큰화(tokenization), 정제(cleaning), 정규화(normalization), 불용어(stopwords)부터 어간 추출(stemming)과 표제어 추출(lemmatization)의 차이, 이를 실제로 보다 효율적으로 수행하기 위해 필요한 정규표현식(Python의 re), 그리고 단어 분리 토크나이저까지 텍스트마이닝에 대한 내용을 전반적으로 정리해보았다.
[통계학] 14-3. 통계적 추론의 개요 - 유의수준과 검정력 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅱ 강의를 기반으로 작성되었습니다. 이번에는 지난 글에서 다룬 검정통계량과 오류에서 파생된 유의수준에 대해 다뤄보고자 한다. 우선 예시를 통해 제1, 2종의 오류와 그에 따른 유의수준 및 검정력에 대해 알아보자. 유의수준 유의수준(α) : 제 1종 오류 확률의 최대값 ex) 인구 데이터 X가 정규분포 N(μ, 4)를 따른다고 하자. 이 때 관심이 있는 값은 μ이다. 이 값을 알기 위해 X에서 16개의 표본 X1, ... , X16을 추출했다. 이 정규분포 X1, ... , X16 ~ iid N(μ, 4)를 통해 우리가 주장하는 대립가설은 H1 : μ > 0이며, 귀무가설은 H0 : μ ≤ 0이다. 검정 원칙으로는 'X의 표본평균 x̅ ≥ 0..
[Tableau] 계기판(gague chart) 만들기 이번에는 자동차 앞 미터기나 냉장고 옆 스티커에서 흔히 봤을 계기판을 만들어보고자 한다. (계기판이라고 부르는게 맞는지 모르겠지만... 일단 그렇게 명명하도록 하겠다!) 우선 나타낼 변수는 BMI로, BMI 지수마다 범주화를 한 필드를 생성해주었다. 그리고 해당 계기판 그림은 파워포인트를 통해 직접 만들어주었다. (능력이 된다면 포토샵이나 일러스트를 쓰면 더욱 좋을듯하다.) 그리고 계기판을 배경으로 표시를 할 막대를 나타내기 위한 X축과 Y축 변수를 생성해준다. 사실 cos, sin 함수를 쓰는 것이 원칙이지만, 보다 쉽게 이해하기 위해 상수값을 할당해주었다. 이제 상단의 [맵 > 배경 이미지 > 해당 데이터]를 클릭해준 뒤, [이미지 추가]를 누른다. 생성했던 계기판 그림을 [파일 또는 URL]에 넣어..
[Tableau] Rounded bar chart 만들기 이번에는 막대 그래프 끝이 동글동글한 rounded bar chart를 만들어보고자 한다. 우선 열에 막대로 표현하고 싶은 변수를 넣고 옆에 더블클릭하여 AVG(0)을 생성해준다. 그리고 집계(AVG(0))을 시트의 막대로 표현하고 싶은 변수 쪽으로 드래그해서 놓으면 결합된 축이 만들어진다. 결합된 축이 만들어진 결과는 다음과 같다. 이제 마크를 [자동]에서 [라인]으로 변경하고 행에 있는 [측정값 이름]을 좌측 마크의 라인 아래의 [경로]에 넣어준다. 행에 표현하고자 하는 변수를 넣어준 뒤 측정값을 크기에 추가해준다. 그러면 우측으로 갈수록 커지는 야구방망이같이 생긴 rounded bar chart 그래프가 생성된다. 여기에서 색상을 측정값으로 하거나 측정값 크기 순서대로 정렬하는 등의 과정을 거치면 ..
[Tableau] 달력 차트 만들기 최근 인기를 끌고 있는 앱 중 매일 자신의 감정으로 일기를 쓰는 앱이 있다. 이번에는 그 앱처럼 달력에 모양을 표시하는 달력 차트를 만들어보고자 한다. 우선 날짜와 관련된 변수를 열에는 년월과 요일로, 행에는 주 단위로 놓는다. TIP! 변수 드래그한 동시에 범위 설정하는 방법 변수를 클릭해서 드래그하면 자동으로 범위가 생성되는 경우가 있다. 이 때 변수를 드래그할 때 마우스 우클릭을 하고 드래그하면 필드 놓기 창이 뜨면서 어떤 단위로 변수를 생성할지 설정할 수 있다. 굳이 좌클릭으로 드래그 한 뒤 다시 클릭해야 하는 번거로움을 덜 수 있으니 꼭! 기억하자. 이 때 여러 달이 한꺼번에 보이는 문제가 생긴다. 이를 위해 필터에 년/월 단위로 날짜를 넣고 필터 표시를 단일 값(목록)으로 설정하면 달력처럼 볼..