본문 바로가기

[통계학] 6-2. 조건부 확률 - 조건부 확률 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 동전 두 개를 던졌을 때, 모두 앞면이 나올 확률은 어떻게 될까? 쉽게 1/4을 떠올릴 수 있을 것이다. 그렇다면 어떤 한 동전을 먼저 던져 앞면이 나왔을 때, 두 동전 모두 앞면일 확률은 어떻게 될까? 이번에는 이와 같이 한 조건이 미리 주어져있을 때의 확률인 조건부 확률에 대해 알아보고자 한다. 조건부 확률 (conditional probability) 확률 실험에서 새로운 정보 or 조건(A)이 추가됐을 때 사건 B의 확률 사건 A가 발생했다면 A가 새로운 표본공간이 되므로 B가 발생한다는 것은 A와 B의 교집합 원소가 발생한다는 것을 의미한다. ex) 사망률 (mortality rate) 2019년..
[통계학] 6-1. 조건부 확률 - 확률의 정리 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 지난번에 다룬 고전적 확률, 상대도수 극한의 개념으로서의 확률 등은 실제 계산 시 도움이 되지만, 발생 가능성이 동일하지 않은 경우도 있는 등 확률의 이론을 정립하기에는 어려움이 있다. 따라서 확률에 대한 이론을 도출 시 확률의 공통적인 특징을 가지고 핵심적인 이론으로 출발하게 되는데 그 핵심적인 이론인 확률의 공리 등에 대해 알아보자. 공리 : 너무나 당연해서 증명할 수 없는 정리 공리적 확률 (Probability Axioms) 1933년 콜모고르프(A. N. Kolmogorov)가 제안 확률의 기본정리 공리에 기반한 확률의 4가지 핵심 이론 각 이론을 증명해보자. 기본정리 4에서 나온 부울의 부등식(..
[통계학] 5-3. 확률의 기본 개념과 원리 - 통계적 확률 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 상대도수 극한의 개념으로서의 확률을 알아보고, 이를 통해 확률이 표본이 아니라 모집단에 대한 것임을 이해하고자 한다. 칼 피어슨(Karl Pearson, 왜도, 첨도, 상관계수 등을 소개한 통계학자)이 직접 동전던지기 실험을 했더니, 다음과 같은 결과가 나왔다. 만약 이 실험을 계속 진행했다면, 상대도수는 0.5로 수렴했을 것이다. 이처럼, 실험을 무한히 반복하면 확률은 어떤 값으로 수렴할 것이다. 여기에서 각 실험에서 발생한 결과는 표본이고 실험을 무한히 반복한다는 것은 표본이 결국 모집단이 된다. 즉, 확률은 모집단이 어떤 형태로 구성되어 있는지 보여주며, 이러한 것을 통계적 확률(statis..
[통계학] 5-2. 확률의 기본 개념과 원리 - 경우의 수 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 지난 번에 다룬 고전적 확률에서는 표본공간 원소 개수, 사건 원소 개수 알아보는게 필요한데, 이를 효율적으로 계산하는 경우의 수(the number of cases)와 관련된 몇 가지 공식에 대해 알아보자. 곱의 법칙 (multiplication rule) m개 연속 단계로 이뤄질 때 전체 실험에서 발생 가능한 경우의 수 추출 방법(with/without replacement)과 순서(order)에 따른 경우의 수 분류 경우의 수는 추출 방법(복원/비복원)과 뽑힌 순서(순서 고려 O/X)에 따라 다음과 같이 (중복)순열과 (중복)조합으로 나뉜다. 통상적으로 추출이 복원일 때는 중복이 붙으며, 순서가 고려되..
[통계학] 5-1. 확률의 기본 개념과 원리 - 확률이란? 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 뽑는 절차에 따라, 즉 어떻게 뽑느냐에 따라 표본이 달라진다. 이 표본이 어떻게 바뀌는지를 설명하기 위해 확률을 배운다. 표본이 바뀌는지의 여부를 확인하기 위해서는 모집단에 대해 알고있어야 한다. 그러면 나온 결과값이 모집단하고 얼마나 차이가 나는지, 어떤 변동성을 가지고 있는지 확인해볼 수 있다. 모집단에 대해 알고 있다고 할 때, 표본을 뽑으면 어떤 성질을 가지고 있는지에 대해 알아보기 위해 확률을 알아보자. 확률의 성질 실험 시행 전, 발생할 수 있는 모든 결과를 알 수 있음 실험 시행 전, 이들 결과 중 어떤 것이 발생할지에 대해 확실하게 예측할 수 없음 (불확실성) 확률의 3가지 표현 - prob..
[통계학] 4-3. 다변량 자료 기술통계 - 공분산과 상관계수 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 공분산과 상관계수 : 두 수치변수 간 직선관계가 어느 정도 되는지 나타내는 통계값 위와 같은 산점도에서 직선관계를 잘 표현해주는 식은 다음과 같다. 표본 공분산 (sample covariance) 두 변수의 선형관계 정도를 나타낸 수치 양의 기울기 : c > 0 / 음의 기울기 : c < 0 단점) 측정 단위에 영향을 받아 값 자체만으로는 선형관계 정도를 알 수 없음 분산과 의미가 다른 것 같은데, 왜 이름이 공분산인걸까? y를 x로 바꿔 식을 작성해보면, 다음과 같이 분산의 형태를 띄게 된다. 따라서 일종의 분산 형태의 구조를 가지지만 한 변수가 아닌 두 개의 변수를 고려했다는 의미로 공(co)분산이라는..
[통계학] 4-2. 다변량 자료 기술통계 - 비교그림과 산점도 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번 시간에는 범주형과 수치형 자료가 섞여있는 경우 또는 모두 수치형 자료인 경우에 대해 어떻게 정리하고 관계를 표현할지 알아보고자 한다. 표를 이용한 그룹별 수치자료 정리 범주형(일종의 그룹을 나타내는 분류 자료) + 수치형일 때 그룹 간 비교가 목적인 경우 수치자료 특성을 나타내는 값을 그룹별로 정리 표본크기, 평균, 표준편차 이용 그래프를 이용한 비교 점도표, 히스토그램(막대그래프) 등 중첩 or 병렬 비교 상자그림(box plot) 그룹별 비교 산점도 수치자료들을 순서쌍으로 표현하여 수치 변수들 간 관계 유도 산점도 행렬 3개 이상의 수치변수를 두 변수씩 쌍으로 조합해서 산점도를 행렬 형태로 표시 ..
[통계학] 4-1. 다변량 자료 기술통계 - 분할표와 그래프 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다.두 변수가 있다고 하면 모두 범주형이거나 수치형일수도 있고, 둘 중 하나는 범주형이고 나머지는 수치형일수도 있다. 분석 목적 또한 두 변수 간 차이가 있는지 비교하거나, 서로 관련이 있어 영향을 주는지 관계를 알아보거나, 비슷한 변수끼리 묶어 분류할 수 있는지 등으로 나눠질 수 있다.이번에는 두 변수가 범주형 자료일 때 차이를 비교하는 방법에 대해 알아본다.분할표 2개 이상의 변수를 동시에 고려하여 각 범주에 개체 빈도수를 정리한 교차표 그래프를 이용한 자료 정리원도표 (pie chart) 비교 그룹별 파이차트 작성 막대그래프 (bar chart) 분석목적/자료형태 맞게 빈도 or 비율 중 선택