본문 바로가기

[통계학] 9-2. 주요 이산확률분포 - 이항분포 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번 시간에는 베르누이 확률분포를 이용해서 파생되는, 이산형분포의 대표적인 분포인 이항분포의 성질에 대해 알아보자. 이항분포 (Binomial distribution) 성공할 확률이 p인 베르누이 실험을 n번 반복했을 때, 성공 횟수(X)의 분포 Xi~B(p)라고 할 때, 성공 횟수 X는 n개의 베르누이 확률변수 합으로 표시한다. 이항분포의 기댓값과 분산을 나타내면 다음과 같다. 이 때 이항분포에서 베르누이 시행은 서로 독립적으로 일어난다는 성질을 기억해야 한다. ex) 주사위 세 번 던질 때(n=3), X=1이 나온 횟수 구하기 (1이면 S, 아니면 F) 위의 예제와 같이, 시행횟수가 n번이고 성공확률이..
[통계학] 9-1. 주요 이산확률분포 - 베르누이 시행과 확률변수 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번부터는 통계학에서 많이 사용되는 중요한 분포들에 대해 배워보고자 한다. 이번에는 그 중 베르누이 시행과 베르누이 확률변수에 대해 알아보자. 베르누이 시행 (Bernoulli trial) 베르누이 시행은 다음과 같은 세가지 조건을 항상 만족한다. 각 실험에서 발생 가능한 결과가 2가지밖에 없다. 각 실험이 독립적으로 수행된다. 모든 실험에서 결과 확률은 항상 동일하다. (예를 들어 성공할 확률과 실패할 확률은 항상 동일하다는 것이다.) 다음 예시 문제가 베르누이 시행인지 확인해보자. 10개의 제품 중 3개가 불량품일 때, 정상품을 뽑을 확률을 알아본다. case1) 2개를 복원추출하는 경우 : P(S1,..
[통계학] 8-3. 확률벡터 - 공분산과 상관계수 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 두 확률변수의 주변분포와 결합분포를 통해 두 개 이상의 확률변수의 기댓값을 계산하는 방법과 모집단에서의 직선 관계를 나타내는 공분산과 상관계수, 그리고 두 변수의 선형결합과 관련된 평균과 분산의 성질을 알아보고자 한다. 기댓값 우선 기본적으로 확률변수에 대한 기댓값은 다음과 같이 주변분포를 통해 나타낸다. 그렇다면 두 확률변수 X, Y에 대해 X+Y 또는 XY의 기댓값은 어떻게 나타낼까? 우선 두 변수를 고려한다는 것은, 두 변수에 대한 결합분포가 있다는 것을 전제로 한다. 따라서 결합확률질량함수나 결합확률밀도함수를 이용하여 다음과 같이 구하게 된다. 이 때 X, Y가 서로 독립이라면 f(x,y)..
[통계학] 8-2. 확률벡터 - 결합분포와 주변분포 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이제 우리가 다룰 확률변수가 2개 있다고 가정을 하고, 두 확률변수의 확률구조를 알아볼 것이다. 결합분포 (joint distribution) 두 개 이상의 확률변수들을 동시에 고려한 확률분포 확률변수 사이의 , 는 교집합을 의미 연속확률변수의 경우, 결합확률밀도함수 f(x, y)는 x, y에서의 밀도를 나타낸다. 예를 들어, X와 Y가 균일분포라면 다음과 같이 결합확률밀도함수가 구해진다. 주변분포 (marginal distribution) 표본공간(Ω)이 사건 B1, ... , Bn으로 분할될 때 사건 A의 확률은 다음과 같이 나타낼 수 있다. 이산확률변수의 주변확률질량함수는 다음과 같다. 연속확률변수의..
[통계학] 8-1. 확률벡터 - 분산과 표준편차 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 모집단의 분산과 표준편차를 계산하는 방법에 대해 알아보도록 한다. 우선 표본에서의 분산을 어떻게 구하는지 다시 살펴보자. 표본크기가 n이고 표본이 가질 수 있는 값 x_i와 그 값을 가지는 표본 수를 n_i이라고 하면 표본분산 s^2는 다음과 같이 나타낼 수 있다. 여기에서 n을 계속 크게 만들면 아래와 같이 값들이 변할 것이며, 표본분산은 모분산으로 될 것이다. 따라서 모분산은 다음과 같이 나타낼 수 있다. 또한 모표준편차의 경우 모분산에 루트를 씌워 다음과 같이 표현한다. 이제 확률변수의 분산 Var(X)에 대해 알아보자. 먼저 이산확률변수의 경우 다음과 같이 나타낼 수 있다. 연속확률변수의 ..
[통계학] 7-4. 확률변수와 확률분포 - 확률변수의 기댓값 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 이번에는 확률변수의 대표값이며 다양한 확률 및 통계 문제와 관련있는 기댓값에 대해 알아보고자 한다. 우리는 지금까지 표본평균을 구할 때 관측값에 그 값이 차지하는 비율을 곱해서 더하는 식으로 구했다. 이 때 표본 크기가 무한대로 커지면 표본은 모집단이 되고, 표본평균은 모평균이 된다. 이 모평균(population mean)은 확률변수의 기댓값(expectation, expected value)을 의미하는데, 확률변수에 대해 평균적으로 기대하는 값이며, 확률분포(or 모집단)의 무게중심이다. 앞에서 본 변환된 확률변수의 기댓값은 다음과 같이 나타낼 수 있다. 예를 들어 2X의 기댓값은 기존의 xf(x) 위..
[Python] Pycharm에서 import 패키지 에러 해결 이전부터 jupyter notebook을 위주로 써오던 나에게는 Pycharm이 익숙하지가 않아 적응하는데 시간이 좀 걸리는 것 같다. (아직도 적응중이다) 그래서 오늘은 어떻게 패키지를 불러오는지 끄적여보도록 하겠다. 먼저, pandas라는 패키지를 import하려고 해보니 아래와 같이 뜨며 import가 되지 않는다. 상단바에서 File > Settings를 누르거나 Ctrl+Alt+S를 누르면 Settings 화면이 뜨게 된다. 이제 Settings 화면에 나오는 Project: [프로젝트이름] 옆에 > 화살표를 눌러 Project Interpreter를 클릭한다. 그리고 우측의 + 버튼을 누른다. 그러면 Available Packages라는 창이 뜨고, 검색창에 원하는 패키지 이름을 검색한 뒤 클..
[통계학] 7-3. 확률변수와 확률분포 - 연속확률변수와 확률밀도함수 이 포스트는 K-MOOC 숙명여대 여인권 교수님의 통계학의 이해 Ⅰ 강의를 기반으로 작성되었습니다. 확률밀도함수 (probability density function) 확률을 함수 형태를 표시한 것으로, 연속확률변수에 대해 확률 구조를 나타낸다. (확률변수의 치역이 실수로 표현된다.) 우리는 히스토그램을 다룰 때 밀도에 대해 얘기를 한 적이 있었다. 히스토그램에서의 밀도란 히스토그램의 높이를 의미하며, 이 밀도들이 모여 전체 면적이 1이 된다. 이와 같은 히스토그램을 연속자료로 이뤄진 모집단에서 n을 무한대로 추출한 표본에 대해 그릴 때, 즉, 모집단에 대해서 히스토그램을 그릴 때 x에서의 높이(밀도)를 f(x)라고 하고 이를 확률밀도함수라고 부른다. 확률밀도에서의 확률 = 확률밀도함수의 면적 (해당 구..