시계열 데이터
시계열 데이터 개요
시계열 데이터라는 것은 무엇인가?
" 시계열 데이터란, 시간에 따라 순차적으로 생성되는 데이터의 집합이다. "
이러한 시계열 데이터는 이산적(discrete)이거나 연속적(continuous)일 수 있으며, 현재 관측치와 이전 관측치 사이에 상관관계가 있다는 것이 시계열의 가장 큰 특징이라고 설명한다.
-> 이러한 점이 시계열을 분석하는 과정에서 가장 큰 이점으로 작용한다.
물론 시계열 데이터의 분석 목표는 시계열 데이터에 관련된 가설을 예측, 해석 및 테스트할 수 있는 간단한 모델을 개발해 미래의 데이터를 예측하는 것이다.
이러한 시계열 데이터를 식으로 만들어 보자면 다음과 같다.
$$ X_{t} = Trend + Seasonality + Irregular $$
1. Trend : 시계열이 장기적으로 증가하거나 감소하는 경향
2. Seasonality : 일정 기간별(분기별, 월별, 요일별)로 나타나는 규칙적인 패턴
3. Irregular : 추세(Trend)와 계절성(Seasonality)를 제거한 불규칙적인 요소로 AR, MA, ARMA 모델 등을 이용하여 단기적으로 예측 가능한 값
여기에서 정통적인(Classical) 접근과 현대적인(Modern) 접근 방식이 달라지는데
- 정통적인 접근 방식 : 추세와 계절성은 결정론적 함수로 취급한다.
- 현대적인 접근 방식 : 추세와 계절성은 확률론적 요소를 포함하고 있다.
이에 관련된 것은 뒷 chapter에서 공부해볼 예정이다.
기본 용어 및 수식 정리
- Lag : 시차라고 하며 데이터 사이의 시간 차이를 lag operator을 이용해서 표현한다.
$$ LX_{t} = X_{t-1} $$
$$ L^{2}X_{t} = X_{t-2} $$
- Difference : 시차를 가진 두 시계열 데이터 값 사이 차이를 의미하며 difference operator을 이용해서 표현한다.
$$ \Delta X_{t} = X_{t} - X_{t-1} = (1-L)X_{t} $$
$$ \Delta^{2}X_{t} = \Delta (X_{t} - X_{t-1}) = (1-L)^{2}X_{t} = X_{t} - 2X_{t-1} + X_{t-2} $$
- Expeced Value : 기댓값이라고도 하며 사건이 일어날 확률과 사건이 일어날 시 얻을 수 있는 값을 곱한 값
$$ Discrete(이산 확률) : E(X) = \sum x_{i}P_{r}(X = x_{i}) = \mu $$
$$ Continuous(연속 확률) : E(X) = \int x_{i}f(x)dx = \mu $$
- Variance : 분산이라고 하며 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지 수치적으로 나타낸 값
$$ Discrete(이산 확률) : Var(X) = E(X^{2}) - E(X)^{2} = \sigma^{2} $$
$$ Continuous(연속 확률) : Var(X) = E(X^{2}) - E(X)^{2} = \int (x_{i} - \mu)^{2}f(x)dx = \sigma^{2} $$
- Covariance : 공분산이라고 하며 2개의 확률 변수의 선형 관계를 나타냄
$$ Cov(X,Y) = E(XY) - E(X)E(Y) $$
$ Cov(X,Y) > 0 $ 면 동일한 경향을 보이고,
$ Cov(X,Y) < 0 $ 면 반대의 경향을 보인다.
- Correlation : 상관 계수라 하며 두 변수 사이의 선형적 연관성을 나타내는 수치(척도)
$$ Corr(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} $$
상관 계수의 가장 큰 세가지 성질은
1. $ -1 \leq Corr(X,Y) \leq 1 $
2. 두 확률 변수(X,Y)가 독립일 경우 $ Corr(X,Y) = 0 $
3. $ Corr(X,Y) = \pm 1 $인 경우, $ y = ax + b $를 만족
- IID(Identical Normal Distribution) : 변수 $e_{t}$가 각각 정규 분포를 만족하여 모든 t에 대해서 $E(e_{t}) = 0, Var(e_{t}) = \sigma^{2}$를 만족한다면, 우리는 $e_{t}$가 "IID"(독립항등분포)를 따른다고 한다.
$$ e_{t} ~ N(0,\sigma^{2}) $$
$$ E(e_{t}) = 0 $$
$$ Var(e_{t}) = E(e_{t}^{2}) - E(e_{t})^{2} = E(e_{t}^{2}) $$
$$ Cov(e_{t}, e_{j \pm t}) = 0 $$
$$ Corr(e_{t}, e_{j \pm t}) = 0 $$
이는 자기 상관이 없는 백색 잡음(White Noise) 프로세스에 적용되는 분포이다.