본문 바로가기

[통계학] 2-1. 일변량 자료 기술통계 - 자료의 분류와 특성 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 자료의 통계분석 방법은 분석하고자 하는 자료의 속성이나 분석 목적에 따라 달라진다. 변수 일변량 자료 : 변수 1개 다변량 자료 : 변수 여러개 (변수들 간 관련성 유무 파악해야 함) 관측개체 (관측값) 기본적으로 기초통계에서는 서로 관련성이 없다고 보지만, 시계열분석 등에서는 관측개체 간에 연관 있음 자료의 분류 범주형 자료 (categorical data) 명목 자료 (nominal data) 단순한 범주 표시 (숫자로 표시되어 있더라도 값이 크고 작음을 나타내는 것이 아님) ex) 혈액형, 성별(주민번호 뒷자리 시작) 순서 자료 (ordinal data) 범주의 순서가 상대적으로 비교가 가능한 경우 ..
[통계학] 1-3. 통계학이란 - 가중치 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 표본추출 과정에서 모집단의 구성과 표본이 다를 때 가중치 조절을 위해서 해결하는 방법을 알아보고자 한다. ex) 선거결과에서 지역마다 득표율이 후보자마다 다른 경우 모집단 구성정보는 표본조사 결과 정확도를 높일 수 있는 핵심요소이다. 만약 모집단 구성비율과 표본 구성비율이 다르면 왜곡된 결과가 나올 수 있으므로 가중치를 적용한다. 즉, '가중치 = 한 표본이 몇 개를 대표하는가'를 의미한다. 추출법에 따른 가중치 단순확률추출법, 계통추출법 : w = N/n (=k) 군집추출 : 군집 크기와 해당 군집에서의 표본크기에 따라 다름 층화확률추출법 : 층의 크기와 해당 층에서의 표본크기에 따라 다름 - ..
[통계학] 1-2. 통계학이란 - 표본추출 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 표본추출의 종류 확률표본추출 (probability sampling) 모집단 구성요소에 대해 표본으로 추출될 확률을 알 수 있는 추출법 ex) 모집단이 총 10개로 구성되어 있을 때 3개의 표본을 뽑는 경우, 어떤 개체가 표본으로 뽑힐 확률 = 3/10 - 단순확률추출 - 계통추출 - 집락추출 - 층화추출 비확률표본추출 (non-probability sampling) 모집단 구성요소에 대해 표본으로 추출될 확률을 알 수 없는 추출법 - 편의추출 : 자발적 참여, 길거리에서 조사, 인터넷 설문조사 - 유의추출 : 전문가들 섭외해서 조사 - 할당추출 : 조사할 대상을 보고 분류별로 차이가 있을 것 같으면 잘라..
[통계학] 1-1. 통계학이란 - 모집단과 표본 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 통계학이란? 연구대상인 모집단 특성을 파악하기 위해 모집단으로부터 일부의 자료(표본)을 수집하고 수집된 표본을 정리, 요약, 분석해서 표본 특성을 파악한 후 이를 통해 모집단의 특성을 추론하는 원리와 방법에 대한 학문 통계학적 관점 - 잘 정의된 연구목적과 연계된 명확한 연구대상 설정해야 함 모집단(population): 연구대상이 되는 모든 개체의 집합 전수조사: 모집단 전체를 대상으로 조사 (BUT 모집단 너무 커서 전수조사 어려움) 표본(sample): 모집단으로부터 선택된 일부의 개체 - 추출된 표본이 모집단을 대표할 수 있는지, 몇 개의 표본을 어떻게 뽑아야 하는지 주의 - 표본선정방식: 할당추출..
[INTERVIEW] 네이버 NLP 직군 인턴 면접 후기 보호되어 있는 글입니다.
[R] 색상 이름 https://www.r-graph-gallery.com/42-colors-names.html
[Python] kmeans clustering 인턴하는 중 새로운 아이디어를 제안해주셔서 급하게 하게 된 군집분석. 까먹기 전에 기록해두기 위해 적어둔다. 우선 필요한 패키지를 불러온다. # 항상 불러와주는 기본 패키지들 import pandas as pd import numpy as np # plotting 용 패키지들 import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline # KMeans 알고리즘 from sklearn.cluster import KMeans 데이터를 정리하고 (보안상 생략) 모델링에 들어간다. inertia = [] for i in range(1,11): kmeans = KMeans(n_clusters=i) kmeans.fit(Xs) inertia.app..
[R] Clustering Algorithms (kmeans, PAM, CLARA) 1) kmeans 가장 통상적으로 알려진 클러스터링 기법이다. k개 클러스터 중심(centeroid)를 데이터 내에서 랜덤하게 잡은 뒤, 거리 기반으로 분류를 진행한다. 그리고 각 클러스터에 속한 데이터 평균을 클러스터 중심(centeroid)로 재설정한다. 이러한 알고리즘을 기반으로 진행되는 것이 kmeans 알고리즘이다. 하지만 데이터 '평균'을 이용하므로 이상치에 민감하다는 단점이 있다. 코드) https://heehehe-ds.tistory.com/17 2) PAM(Partitioning Around Medoids) kmeans의 단점을 보완한 기법으로, 데이터 평균 대신 medoid를 이용한다. medoid란 클러스터 내에서 가장 중심에 위치한 데이터, 즉 중앙값으로 보면 된다. 이를 통해 클러..