1. 기술 통계
- 자료 특성 표, 그림, 통계량으로 정리, 요약
- 통계량
- 표본평균
- 중앙값
- 사분위수범위 (IQR=Q3-Q1, 25/50/75백분위수)
- 백분위수((n-1)p/100+1)
- 변동계수(v=s/x_bar)
- 평균의 표준오차(SE(x_bar)=s/sqrt(n))
- 분포의 형태에 관한 측도
> 왜도 : 분포 비대칭정도
> 첨도 : 분포 중심에서 뾰족한 정도, 양수면 긴 꼬리 / 음수면 짧은 꼬리 / 0이면 정규분포 - 그래프
- 연속형 데이터 : 히스토그램(계급 수 k는 2^k >= n 만족, 계급간격=(M-m)/k), 상자그림(boxplot)
- 범주형 데이터 : 막대그래프, 줄기-잎 그림
2. 인과관계의 이해
- 산점도(scatter plot) : 두 변수 사이 선형관계/함수관계 성립여부, 이상값 존재여부, 집단 구분여부
- 공분산 : 두 확률변수의 방향 조합(선형성)
- Cov(X, Y) = E(XY) - E(X)E(Y)
- X, Y가 서로 독립이면 Cov(X, Y) = 0
- cov(x, y=NULL, use="everything", method=c("pearson","kendall","spearman"))
3. 상관 분석
- 두 변수 관계 알아보기 위한 방법으로 상관계수 이용
- 상관계수가 1에 가까울수록 양의 상관관계 / -1에 가까울수록 음의 상관관계 / 0이면 상관관계 X
- cor(x, y=NULL, use="everything", method=c("pearson","kendall","spearman"))
- rcorr(matrix(data명), type=c("pearson","kendall","spearman")) <- Hmisc 패키지
피어슨 | 스피어만 | |
개념 | 등간척도 이상 | 서열척도 |
특징 | 연속형 변수, 정규성 가정 |
순서형 변수, 비모수적 가정 순위 기준으로 상관관계 측정 |
상관계수 | 피어슨 γ (적률상관계수) | 순위상관계수 (ρ) |
출처 : ADsP 데이터 분석 준전문가 (윤종식 저)
반응형
'DATA SCIENCE > ADSP' 카테고리의 다른 글
[ADsP] 3-4. 통계 분석 (4) 시계열 분석 (0) | 2020.06.06 |
---|---|
[ADsP] 3-4. 통계 분석 (3) 회귀 분석 (0) | 2020.06.06 |
[ADsP] 3-4. 통계 분석 (1) 통계 분석의 이해 (0) | 2020.06.06 |
[ADsP] 3-3. 데이터 마트 (0) | 2020.06.06 |
[ADsP] 3-2. R 프로그래밍 기초 (0) | 2020.06.06 |