Data

시계열 데이터

monapanda 2022. 12. 2. 10:56

시계열 데이터 개요

시계열 데이터라는 것은 무엇인가?

 

" 시계열 데이터란, 시간에 따라 순차적으로 생성되는 데이터의 집합이다. "

 

이러한 시계열 데이터는 이산적(discrete)이거나 연속적(continuous)일 수 있으며, 현재 관측치와 이전 관측치 사이에 상관관계가 있다는 것이 시계열의 가장 큰 특징이라고 설명한다.

-> 이러한 점이 시계열을 분석하는 과정에서 가장 큰 이점으로 작용한다.

 

물론 시계열 데이터의 분석 목표는 시계열 데이터에 관련된 가설을 예측, 해석 및 테스트할 수 있는 간단한 모델을 개발해 미래의 데이터를 예측하는 것이다. 

이러한 시계열 데이터를 식으로 만들어 보자면 다음과 같다.

 

$$ X_{t} = Trend + Seasonality + Irregular $$

 

1. Trend : 시계열이 장기적으로 증가하거나 감소하는 경향

2. Seasonality : 일정 기간별(분기별, 월별, 요일별)로 나타나는 규칙적인 패턴

3. Irregular : 추세(Trend)와 계절성(Seasonality)를 제거한 불규칙적인 요소로 AR, MA, ARMA 모델 등을 이용하여 단기적으로 예측 가능한 값

 

여기에서 정통적인(Classical) 접근과 현대적인(Modern) 접근 방식이 달라지는데

 

- 정통적인 접근 방식 : 추세와 계절성은 결정론적 함수로 취급한다.

- 현대적인 접근 방식 : 추세와 계절성은 확률론적 요소를 포함하고 있다.

 

이에 관련된 것은 뒷 chapter에서 공부해볼 예정이다.

 

 

기본 용어 및 수식 정리

 

- Lag : 시차라고 하며 데이터 사이의 시간 차이를 lag operator을 이용해서 표현한다.

$$ LX_{t} = X_{t-1} $$

$$ L^{2}X_{t} = X_{t-2} $$

 

- Difference : 시차를 가진 두 시계열 데이터 값 사이 차이를 의미하며 difference operator을 이용해서 표현한다.

$$ \Delta X_{t} = X_{t} - X_{t-1} = (1-L)X_{t} $$

$$ \Delta^{2}X_{t} = \Delta (X_{t} - X_{t-1}) = (1-L)^{2}X_{t} = X_{t} - 2X_{t-1} + X_{t-2} $$

 

- Expeced Value : 기댓값이라고도 하며 사건이 일어날 확률과 사건이 일어날 시 얻을 수 있는 값을 곱한 값

$$ Discrete(이산 확률) : E(X) = \sum x_{i}P_{r}(X = x_{i}) = \mu $$

$$ Continuous(연속 확률) : E(X) = \int x_{i}f(x)dx = \mu $$

 

- Variance : 분산이라고 하며 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지 수치적으로 나타낸 값

$$ Discrete(이산 확률) : Var(X) = E(X^{2}) - E(X)^{2} = \sigma^{2} $$

$$ Continuous(연속 확률) : Var(X) = E(X^{2}) - E(X)^{2} = \int (x_{i} - \mu)^{2}f(x)dx = \sigma^{2} $$

 

- Covariance : 공분산이라고 하며 2개의 확률 변수의 선형 관계를 나타냄

$$ Cov(X,Y) = E(XY) - E(X)E(Y) $$

$ Cov(X,Y) > 0 $ 면 동일한 경향을 보이고,

$ Cov(X,Y) < 0 $ 면 반대의 경향을 보인다.

 

- Correlation : 상관 계수라 하며 두 변수 사이의 선형적 연관성을 나타내는 수치(척도)

$$ Corr(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} $$

 

상관 계수의 가장 큰 세가지 성질

 

1. $ -1 \leq Corr(X,Y) \leq 1 $

2. 두 확률 변수(X,Y)가 독립일 경우 $ Corr(X,Y) = 0 $

3. $ Corr(X,Y) = \pm 1 $인 경우, $ y = ax + b $를 만족

 

- IID(Identical Normal Distribution) : 변수 $e_{t}$가 각각 정규 분포를 만족하여 모든 t에 대해서 $E(e_{t}) = 0, Var(e_{t}) = \sigma^{2}$를 만족한다면, 우리는 $e_{t}$가 "IID"(독립항등분포)를 따른다고 한다.

$$ e_{t} ~ N(0,\sigma^{2}) $$

$$ E(e_{t}) = 0 $$

$$ Var(e_{t}) = E(e_{t}^{2}) - E(e_{t})^{2} = E(e_{t}^{2}) $$

$$ Cov(e_{t}, e_{j \pm t}) = 0 $$

$$ Corr(e_{t},  e_{j \pm t}) = 0 $$

 

이는 자기 상관이 없는 백색 잡음(White Noise) 프로세스에 적용되는 분포이다.