본문 바로가기

DATA SCIENCE/ADSP

[ADsP] 3-4. 통계 분석 (4) 시계열 분석

1. 시계열 자료

  • 역사 : sin, cos 곡선 활용 → ARMA 개념, 모형 제시 및 추정 → 지수평활법 제시 → 계절성 지수평활법 제시
  • 계량경제 : 시계열 데이터 대한 회귀분석

2. 정상성

  • 평균 일정할 경우 : 모든 시점 대해 일정한 평균 지님
  • 평균 일정하지 않을 경우 : 차분(=현시점-전시점) 통해 정상화
    - 일반차분 : 바로 이전 시점 자료 빼기
    - 계절차분 : 여러 시점 전의 자료 빼기, 주로 계절성 갖는 자료 정상화 시 사용
  • 평균 일정하지 않고, 분산도 시점에 의존하지 않을 경우 : 변환 통해 정상화
    - 공분산도 시차에만 의존, 실제 특정 시점 t,s에는 의존 X
  • 정상시계열 특징
    - 어떤 시점에서 평균, 분산, 특정 시차 길이 갖는 자기공분산 측정해도 동일값 가짐
    - 항상 평균값으로 회귀하려는 경향, 평균값 주변 변동은 대체로 일정한 폭 지님
    - 정상시계열 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화할 수 X

3. 시계열 자료 분석 방법

  • 수학적 이론모형 : 회귀분석(계량경제)방법, Box-Jenkins 방법
  • 직관적 방법 : 지수평활법, 시계열 분해법 - 시간 따른 변동 느린 데이터 분석에 활용
  • 장기 예측 : 회귀분석방법 활용
  • 단기 예측 : Box-Jenkins 방법, 지수평활법, 시계열 분해법 활용

4. 시계열 모형

  • 자기회귀 모형 (AR 모형, autoregressive model)
    • p 시점 전의 자료가 현재 자료에 영향을 줌
    • Zt = Φ1Zt-1 + Φ2Zt-2 + ... + ΦpZt-p + αt
      - Φp : p 시점이 현재 어느 정도 영향을 주는지 나타내는 모수
      - αt : 백색잡음과정(오차항)
        > 평균 0, 분산 sigma^2, 자기공분산 0
        > 정규분포 따를 경우 가우시안 백색잡음과정
    • 자기상관계수(ACF) : k 기간 떨어진 값들의 상관계수
    • 부분자기상관계수(Partial ACF) : 서로 다른 두 시점 사이 관계 분석 시 중간에 있는 값들의 영향 제외
    • ACF는 빠르게 감소 / PACF는 어느 시점에서 절단점 가짐
  • 이동평균 모형 (MA 모형, moving average model)
    • 유한한 개수의 백색잡음의 결합 => 항상 정상성 만족
    • Zt = αt - θ1αt-1 - θ2αt-2 - .... - θpαt-p
    • AR 모형과 반대로 ACF에서 절단점 갖고, PACF가 빠르게 감소
  • 자기회귀누적이동평균 모형 (ARIMA(p,d,q) 모형, autoregressive integrated moving average model)
    • 비정상 시계열 모형
    • 차분, 변환 통해 AR 모형, MA 모형, ARMA 모형으로 정상화할 수 있음
    • p : AR모형 관련 계수 / q : MA모형 관련 계수 / d : 차분해서 ARMA 모형 되는 횟수
      - d=0 : ARMA(p,q) - 정상성 만족
      - p=0 : IMA(d,q) - d번 차분하면 MA(q) 모형
      - q=0 : ARI(p,d) - d번 차분하면 AR(p) 모형
  • 분해 시계열
    • 시계열에 영향 주는 일반적 요인을 시계열에서 분리해 분석
    • 회귀분석적 방법 주로 사용
    • Zt = f(Tt, St, Ct, It)
      - 경향(추세)요인 Tt : 형태 오르거나 내리는 추세 따르는 경우
      - 계절요인 St : 고정된 주기 따라 자료 변하는 경우
      - 순환요인 Ct : 알려지지 않은 주기 가지고 변하는 경우
      - 불규칙요인 It : 세가지 요인으로 설명할 수 없는 경우 (회귀분석에서의 오차)
  • ARIMA 모델 결정 실습
    • plot.ts(diff(ts(data), differences=d)) : 몇 번 차분해야 하는지 확인
    • ACF 절단점 lag n → MA(n-1) 모형
    • PACF 절단점 lag n → AR(n-1) 모형
    • forecast.Arima() 함수로 미래 예측

 

출처 : ADsP 데이터 분석 준전문가 (윤종식 저)

반응형