본문 바로가기

DATA SCIENCE/ADSP

[ADsP] 3-4. 통계 분석 (2) 기초 통계 분석

1. 기술 통계

  • 자료 특성 표, 그림, 통계량으로 정리, 요약
  • 통계량
    - 표본평균
    - 중앙값
    - 사분위수범위 (IQR=Q3-Q1, 25/50/75백분위수)
    - 백분위수((n-1)p/100+1)
    - 변동계수(v=s/x_bar)
    - 평균의 표준오차(SE(x_bar)=s/sqrt(n))
    - 분포의 형태에 관한 측도
      > 왜도 : 분포 비대칭정도
      > 첨도 : 분포 중심에서 뾰족한 정도, 양수면 긴 꼬리 / 음수면 짧은 꼬리 / 0이면 정규분포
  • 그래프
    - 연속형 데이터 : 히스토그램(계급 수 k는 2^k >= n 만족, 계급간격=(M-m)/k), 상자그림(boxplot)
    - 범주형 데이터 : 막대그래프, 줄기-잎 그림

2. 인과관계의 이해

  • 산점도(scatter plot) : 두 변수 사이 선형관계/함수관계 성립여부, 이상값 존재여부, 집단 구분여부
  • 공분산 : 두 확률변수의 방향 조합(선형성)
    • Cov(X, Y) = E(XY) - E(X)E(Y)
    • X, Y가 서로 독립이면 Cov(X, Y) = 0
    • cov(x, y=NULL, use="everything", method=c("pearson","kendall","spearman"))

3. 상관 분석

  • 두 변수 관계 알아보기 위한 방법으로 상관계수 이용
  • 상관계수가 1에 가까울수록 양의 상관관계 / -1에 가까울수록 음의 상관관계 / 0이면 상관관계 X
  • cor(x, y=NULL, use="everything", method=c("pearson","kendall","spearman"))
  • rcorr(matrix(data명), type=c("pearson","kendall","spearman")) <- Hmisc 패키지
  피어슨 스피어만
개념 등간척도 이상 서열척도
특징 연속형 변수, 정규성 가정

순서형 변수, 비모수적 가정
순위 기준으로 상관관계 측정
상관계수 피어슨 γ (적률상관계수) 순위상관계수 (ρ)

 

출처 : ADsP 데이터 분석 준전문가 (윤종식 저)

반응형