본문 바로가기

[통계학] 5-1. 확률의 기본 개념과 원리 - 확률이란? 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 뽑는 절차에 따라, 즉 어떻게 뽑느냐에 따라 표본이 달라진다. 이 표본이 어떻게 바뀌는지를 설명하기 위해 확률을 배운다. 표본이 바뀌는지의 여부를 확인하기 위해서는 모집단에 대해 알고있어야 한다. 그러면 나온 결과값이 모집단하고 얼마나 차이가 나는지, 어떤 변동성을 가지고 있는지 확인해볼 수 있다. 모집단에 대해 알고 있다고 할 때, 표본을 뽑으면 어떤 성질을 가지고 있는지에 대해 알아보기 위해 확률을 알아보자. 확률의 성질 실험 시행 전, 발생할 수 있는 모든 결과를 알 수 있음 실험 시행 전, 이들 결과 중 어떤 것이 발생할지에 대해 확실하게 예측할 수 없음 (불확실성) 확률의 3가지 표현 - prob..
[통계학] 4-3. 다변량 자료 기술통계 - 공분산과 상관계수 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 공분산과 상관계수 : 두 수치변수 간 직선관계가 어느 정도 되는지 나타내는 통계값 위와 같은 산점도에서 직선관계를 잘 표현해주는 식은 다음과 같다. 표본 공분산 (sample covariance) 두 변수의 선형관계 정도를 나타낸 수치 양의 기울기 : c > 0 / 음의 기울기 : c < 0 단점) 측정 단위에 영향을 받아 값 자체만으로는 선형관계 정도를 알 수 없음 분산과 의미가 다른 것 같은데, 왜 이름이 공분산인걸까? y를 x로 바꿔 식을 작성해보면, 다음과 같이 분산의 형태를 띄게 된다. 따라서 일종의 분산 형태의 구조를 가지지만 한 변수가 아닌 두 개의 변수를 고려했다는 의미로 공(co)분산이라는..
[통계학] 4-2. 다변량 자료 기술통계 - 비교그림과 산점도 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번 시간에는 범주형과 수치형 자료가 섞여있는 경우 또는 모두 수치형 자료인 경우에 대해 어떻게 정리하고 관계를 표현할지 알아보고자 한다. 표를 이용한 그룹별 수치자료 정리 범주형(일종의 그룹을 나타내는 분류 자료) + 수치형일 때 그룹 간 비교가 목적인 경우 수치자료 특성을 나타내는 값을 그룹별로 정리 표본크기, 평균, 표준편차 이용 그래프를 이용한 비교 점도표, 히스토그램(막대그래프) 등 중첩 or 병렬 비교 상자그림(box plot) 그룹별 비교 산점도 수치자료들을 순서쌍으로 표현하여 수치 변수들 간 관계 유도 산점도 행렬 3개 이상의 수치변수를 두 변수씩 쌍으로 조합해서 산점도를 행렬 형태로 표시 ..
[통계학] 4-1. 다변량 자료 기술통계 - 분할표와 그래프 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.두 변수가 있다고 하면 모두 범주형이거나 수치형일수도 있고, 둘 중 하나는 범주형이고 나머지는 수치형일수도 있다. 분석 목적 또한 두 변수 간 차이가 있는지 비교하거나, 서로 관련이 있어 영향을 주는지 관계를 알아보거나, 비슷한 변수끼리 묶어 분류할 수 있는지 등으로 나눠질 수 있다.이번에는 두 변수가 범주형 자료일 때 차이를 비교하는 방법에 대해 알아본다.분할표 2개 이상의 변수를 동시에 고려하여 각 범주에 개체 빈도수를 정리한 교차표 그래프를 이용한 자료 정리원도표 (pie chart) 비교 그룹별 파이차트 작성 막대그래프 (bar chart) 분석목적/자료형태 맞게 빈도 or 비율 중 선택
[통계학] 3-3. 일변량 자료에 대한 수치적 기술통계 - 수치자료 분포의 산포 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 산포 (dispersion) 자료들이 얼마나 퍼져있는지 나타내는 측도, 퍼짐의 정도 중심위치가 얼마나 안정적인지 나타내는 정보 조밀하게 모인 경우 : 변동성 작음 / 넓게 퍼진 경우 : 변동성 높음 범위 (range) 최대값 - 최소값 (자료 전체 퍼져 있는 정도 파악 불가) 사분위간 범위 (interquartile-range, IQR) 제 3 사분위수와 제 1 사분위수의 차이 (IQR = Q3 - Q1) 사분위수(quartile) : 자료를 4등분하는 위치 25% 지점 = 제 1 사분위수 (Q1) 50% 지점 = 제 2 사분위수 (Q2) = 표본중앙값 75% 지점 = 제 3 사분위수 (Q3) 사분위수 계..
[통계학] 3-2. 일변량 자료에 대한 수치적 기술통계 - 수치자료의 대체중심위치 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 표본중앙값 (sample median, 표본중위수) 자료를 크기 순서로 나열했을 때 중앙에 있는 값 순서통계량(order statistics) : 표본을 오름차순으로 정렬한 것 표본절사평균 (sample trimmed mean) robust하지 않은 평균의 단점과 자료의 정보를 다 활용하지 못하는 중앙값의 단점을 보완 순서통계량에서 하위 α%까지의 자료를 이용하여 표본평균 계산 α백분위수 : 하위 α%에 해당하는 값 (α = 0 : 표본평균 / α = 50 : 표본중앙값) 실제 사용하는 데이터 수 : n-2k (k=상위/하위 α%에 해당하는 데이터 수) ex) 체조, 피겨스케이팅 등 채점 표본최빈값 (sa..
[통계학] 3-1. 일변량 자료에 대한 수치적 기술통계 - 수치자료 분포의 중심위치 : 평균 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 표본 평균 (sample mean) 표본의 합을 표본 크기로 나눈 값 표본 평균 = 무게중심 편차의 합 = 0 표본 비율 (sample proportion) 일종의 표본 평균 i번째 관측값이 관심 범주에 속하면 1, 아니면 0으로 표시한 후 y = x값들의 합 (해당 범주에 포함된 표본 수) 으로 나타냄 이상치(outlier) - 평균이 항상 중심 위치로 적절한가? 대부분의 관측값으로부터 멀리 떨어져 있는 관측값의 일부로, 이상치 포함 여부에 따라 표본평균 값에 차이가 커짐 (평균은 이상치에 robust하지 않음) 대체 통계값으로 중앙값, 절사평균, 최빈값 등 이용 가중 평균 (weighted mean) ..
[통계학] 2-3. 일변량 자료 기술통계 - 수치형 자료 정리 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 수치자료 범주화하기 자료의 값이 한정되어 있는 개수(10개 미만)로 되어 있는 경우, 해당 값 자체를 범주로 처리한다. 하지만 대부분의 경우 그렇지 않으므로, 자료를 크게 범주화한 뒤 해당되는 빈도 수를 통해 도수분포표를 작성한다. (순서자료 형태로 변환) 계급(class)의 수 : 제곱근 방법, Sturges 공식, Rice 공식 계급 경계 : 간격(크기)과 시작점과 끝점 지정 (기본적으로 동일간격) 하지만 통상적으로 자료 구조, 특성 고려해 분석가가 직접 선택함 그래프를 이용한 자료 정리 점도표 (dot plot) 각 관측값 위치에 점 표시 같은 관측값 있는 경우 위에 누적시킴 히스토그램 (histog..