본문 바로가기

[통계학] 3-3. 일변량 자료에 대한 수치적 기술통계 - 수치자료 분포의 산포 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 산포 (dispersion) 자료들이 얼마나 퍼져있는지 나타내는 측도, 퍼짐의 정도 중심위치가 얼마나 안정적인지 나타내는 정보 조밀하게 모인 경우 : 변동성 작음 / 넓게 퍼진 경우 : 변동성 높음 범위 (range) 최대값 - 최소값 (자료 전체 퍼져 있는 정도 파악 불가) 사분위간 범위 (interquartile-range, IQR) 제 3 사분위수와 제 1 사분위수의 차이 (IQR = Q3 - Q1) 사분위수(quartile) : 자료를 4등분하는 위치 25% 지점 = 제 1 사분위수 (Q1) 50% 지점 = 제 2 사분위수 (Q2) = 표본중앙값 75% 지점 = 제 3 사분위수 (Q3) 사분위수 계..
[통계학] 3-2. 일변량 자료에 대한 수치적 기술통계 - 수치자료의 대체중심위치 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 표본중앙값 (sample median, 표본중위수) 자료를 크기 순서로 나열했을 때 중앙에 있는 값 순서통계량(order statistics) : 표본을 오름차순으로 정렬한 것 표본절사평균 (sample trimmed mean) robust하지 않은 평균의 단점과 자료의 정보를 다 활용하지 못하는 중앙값의 단점을 보완 순서통계량에서 하위 α%까지의 자료를 이용하여 표본평균 계산 α백분위수 : 하위 α%에 해당하는 값 (α = 0 : 표본평균 / α = 50 : 표본중앙값) 실제 사용하는 데이터 수 : n-2k (k=상위/하위 α%에 해당하는 데이터 수) ex) 체조, 피겨스케이팅 등 채점 표본최빈값 (sa..
[통계학] 3-1. 일변량 자료에 대한 수치적 기술통계 - 수치자료 분포의 중심위치 : 평균 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 표본 평균 (sample mean) 표본의 합을 표본 크기로 나눈 값 표본 평균 = 무게중심 편차의 합 = 0 표본 비율 (sample proportion) 일종의 표본 평균 i번째 관측값이 관심 범주에 속하면 1, 아니면 0으로 표시한 후 y = x값들의 합 (해당 범주에 포함된 표본 수) 으로 나타냄 이상치(outlier) - 평균이 항상 중심 위치로 적절한가? 대부분의 관측값으로부터 멀리 떨어져 있는 관측값의 일부로, 이상치 포함 여부에 따라 표본평균 값에 차이가 커짐 (평균은 이상치에 robust하지 않음) 대체 통계값으로 중앙값, 절사평균, 최빈값 등 이용 가중 평균 (weighted mean) ..
[통계학] 2-3. 일변량 자료 기술통계 - 수치형 자료 정리 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 수치자료 범주화하기 자료의 값이 한정되어 있는 개수(10개 미만)로 되어 있는 경우, 해당 값 자체를 범주로 처리한다. 하지만 대부분의 경우 그렇지 않으므로, 자료를 크게 범주화한 뒤 해당되는 빈도 수를 통해 도수분포표를 작성한다. (순서자료 형태로 변환) 계급(class)의 수 : 제곱근 방법, Sturges 공식, Rice 공식 계급 경계 : 간격(크기)과 시작점과 끝점 지정 (기본적으로 동일간격) 하지만 통상적으로 자료 구조, 특성 고려해 분석가가 직접 선택함 그래프를 이용한 자료 정리 점도표 (dot plot) 각 관측값 위치에 점 표시 같은 관측값 있는 경우 위에 누적시킴 히스토그램 (histog..
[통계학] 2-2. 일변량 자료 기술통계 - 범주형 자료 정리 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 범주형 자료 중 일변량 자료에 대해 나타내는 방법을 알아보고자 한다. 도수분포표 (Frequency table) 각 범주에 몇 개의 관측 개체가 있는지 나타냄 - 도수 : 범주에 속한 개체 수 (빈도 수) - 상대도수 : 전체자료 중 해당 범주에 속한 개체 비율 순서자료의 경우 범주가 한 방향으로 진행되기 때문에 누적시켜 표시할 수 있다. 그래프를 이용한 자료정리 막대 그래프 (bar chart) 비교를 목적으로 할 때 사용 Cleveland에 의하면 사람들이 동일 척도에서의 위치, 길이, 각도, 기울기, 면적, 부피, 색상, 밀도 순으로 차이에 대해 인지하기 때문에 비교를 할 때는 원 도표보다는..
[통계학] 2-1. 일변량 자료 기술통계 - 자료의 분류와 특성 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 자료의 통계분석 방법은 분석하고자 하는 자료의 속성이나 분석 목적에 따라 달라진다. 변수 일변량 자료 : 변수 1개 다변량 자료 : 변수 여러개 (변수들 간 관련성 유무 파악해야 함) 관측개체 (관측값) 기본적으로 기초통계에서는 서로 관련성이 없다고 보지만, 시계열분석 등에서는 관측개체 간에 연관 있음 자료의 분류 범주형 자료 (categorical data) 명목 자료 (nominal data) 단순한 범주 표시 (숫자로 표시되어 있더라도 값이 크고 작음을 나타내는 것이 아님) ex) 혈액형, 성별(주민번호 뒷자리 시작) 순서 자료 (ordinal data) 범주의 순서가 상대적으로 비교가 가능한 경우 ..
[통계학] 1-3. 통계학이란 - 가중치 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 표본추출 과정에서 모집단의 구성과 표본이 다를 때 가중치 조절을 위해서 해결하는 방법을 알아보고자 한다. ex) 선거결과에서 지역마다 득표율이 후보자마다 다른 경우 모집단 구성정보는 표본조사 결과 정확도를 높일 수 있는 핵심요소이다. 만약 모집단 구성비율과 표본 구성비율이 다르면 왜곡된 결과가 나올 수 있으므로 가중치를 적용한다. 즉, '가중치 = 한 표본이 몇 개를 대표하는가'를 의미한다. 추출법에 따른 가중치 단순확률추출법, 계통추출법 : w = N/n (=k) 군집추출 : 군집 크기와 해당 군집에서의 표본크기에 따라 다름 층화확률추출법 : 층의 크기와 해당 층에서의 표본크기에 따라 다름 - ..
[통계학] 1-2. 통계학이란 - 표본추출 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 표본추출의 종류 확률표본추출 (probability sampling) 모집단 구성요소에 대해 표본으로 추출될 확률을 알 수 있는 추출법 ex) 모집단이 총 10개로 구성되어 있을 때 3개의 표본을 뽑는 경우, 어떤 개체가 표본으로 뽑힐 확률 = 3/10 - 단순확률추출 - 계통추출 - 집락추출 - 층화추출 비확률표본추출 (non-probability sampling) 모집단 구성요소에 대해 표본으로 추출될 확률을 알 수 없는 추출법 - 편의추출 : 자발적 참여, 길거리에서 조사, 인터넷 설문조사 - 유의추출 : 전문가들 섭외해서 조사 - 할당추출 : 조사할 대상을 보고 분류별로 차이가 있을 것 같으면 잘라..