Прогнозирование временных рядов методом SSA (пример)

Материал из MachineLearning.

(Различия между версиями)

Версия 15:46, 5 мая 2010

SSA (Singular Spectrum Analysis, "Гусеница") - метод анализа и прогноза временных рядов. Базовый вариант метода состоит в преобразовании одномерного ряда в многомерный с помощью однопараметрической сдвиговой процедуры (отсюда и название "Гусеница"), исследовании полученной многомерной траектории с помощью анализа главных компонент (сингулярного разложения) и восстановлении (аппроксимации) ряда по выбранным главным компонентам. Таким образом, результатом применения метода является разложение временного ряда на простые компоненты: медленные тренды, сезонные и другие периодические или колебательные составляющие, а также шумовые компоненты. Полученное разложение может служить основой прогнозирования как самого ряда, так и его отдельных составляющих. "Гусеница" допускает естественное обобщение на многомерные временные ряды, а также на случай анализа изображений. В данной статье рассмотрим вариант алгоритма, предназначенный для анализа многомерного временного ряда.

Постановка задачи

Наблюдается система функций дискретного аргумента { $(f_i^{(k)})_{i=1}^N$ , где k = 1, ..., s}. Параметр s, таким образом, имеет смысл размерности многомерной числовой последовательности, а N - количество элементов в последовательности. Требуется разложить ряд в сумму компонент (используя метод главных компонент, см. описание алгоритма), интерпретировать каждую компоненту, и построить продолжение ряда $(f_i^{(k)})_{i=1}^{N+M}$ по выбранным компонентам.

Описание алгоритма

Выберем n такое, что $0 < n \le N - 1$ - время жизни многомерной гусеницы. Пусть $\sigma = N - n + 1$ - длина гусеницы. Построим последовательность из n векторов в $R^{\tau}$ , $\tau = s*\sigma$ , следующего вида:

$Y^{(l)} \in R^\tau, Y^{(l)} = (X^{(l,1)}, \ldots, X^{(l,s)})^T,$

где $X^{(l,k)} = (f_{i+l-1}^{(k)})_{i=1}^{\sigma}$ . Обозначим

$Z = (Y^{(1)}, \ldots, Y^{(n)}).$

Будем называть $Z$ нецентрированной матрицей наблюдений, порождённой гусеницей со временем жизни n. Проводимый в дальнейшем анализ главных компонент может проводиться как по центрированной, так и по нецентрированной выборкам. Для упрощения выкладок рассмотрим простейший нецентрированный вариант.

Рассмотрим ковариационную матрицу полученной многомерной выборки

$C = \frac1n ZZ^T.$

Выполним её svd-разложение:

$C = V\Lambda V^T,$

где $\Lambda = diag(\lambda_1, \ldots, \lambda_{\tau})$ - диагональная матрица собственных чисел, $V = (v^{(1)}, \ldots, v^{(\tau)}), (v^{(i)})^T v^{(j)} = \delta_{ij}$ - ортогональная матрица собственных векторов.

Далее рассмотрим систему главных компонент:

$U = V^T Z, U = (U^{(1)}, \ldots, U^{(\tau)})^T.$

После проведения анализа главных компонент обычно предполагается проведение операции восстановления исходной матрицы наблюдений по некоторому поднабору главных компонент, т. е. для $V' = (v^{(i_1)}, \ldots, v^{(i_r)})$ и $U' = V'^T Z$ вычисляется матрица $Z' = V'U'$ . Далее восстанавливаются исходные последовательности:

$f'_m^{(k)} = \left\{ \begin{array}{ll} \frac1m \sum_{i=1}^m x_i^{(m-i+1,k)}&1\le m\le \sigma,\\ \frac{1}{\sigma} \sum_{i=1}^{\sigma} x_i^{(m-i+1,k)}&\sigma \le m \le n,\\ \frac{1}{N-m+1} \sum_{i=1}^{N-m+1} x_{i+m-n}^{(n-i+1,k)}&n \le m \le N.\end{array} \right$

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D0%B3%D0%BD%D0%BE%D0%B7%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D1%80%D1%8F%D0%B4%D0%BE%D0%B2_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D0%BE%D0%BC_SSA_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29»

@@ Строка 27: / Строка 27: @@
 Выполним её svd-разложение:
-<tex>$$C = V\LambdaV^T,$$</tex>
+<tex>$$C = V\Lambda V^T,$$</tex>
 где <tex>$\Lambda = diag(\lambda_1, \ldots, \lambda_{\tau})$</tex> - диагональная матрица собственных чисел, <tex>$V = (v^{(1)}, \ldots, v^{(\tau)}), (v^{(i)})^T v^{(j)} = \delta_{ij}$</tex> - ортогональная матрица собственных векторов.
@@ Строка 37: / Строка 37: @@
 После проведения анализа главных компонент обычно предполагается проведение операции восстановления исходной матрицы наблюдений по некоторому поднабору главных компонент, т. е. для <tex>$V' = (v^{(i_1)}, \ldots, v^{(i_r)})$</tex> и <tex>$U' = V'^T Z$</tex> вычисляется матрица <tex>$Z' = V'U'$</tex>. Далее восстанавливаются исходные последовательности:
-<tex>$$f'_m^{(k)} = \left\{ \begin{array}{ll} \frac1m \sum_{i=1}^m x_i^{(m-i+1,k)}&1\le m\le \sigma,\\ \frac{1}{\sigma} \sum_{i=1}^{\sigma} x_i^{(m-i+1,k)}&\sigma \le m \le n,\\ \frac{1}{N-m+1} \sum_{i=1}^{N-m+1} x_{i+m-n}^{n-i+1,k)&n \le m \le N.\end{array} \right$$</tex>
+<tex>$$f'_m^{(k)} = \left\{ \begin{array}{ll} \frac1m \sum_{i=1}^m x_i^{(m-i+1,k)}&1\le m\le \sigma,\\ \frac{1}{\sigma} \sum_{i=1}^{\sigma} x_i^{(m-i+1,k)}&\sigma \le m \le n,\\ \frac{1}{N-m+1} \sum_{i=1}^{N-m+1} x_{i+m-n}^{(n-i+1,k)}&n \le m \le N.\end{array} \right$$</tex>

Прогнозирование временных рядов методом SSA (пример)

Материал из MachineLearning.

Версия 15:46, 5 мая 2010

Постановка задачи

Описание алгоритма

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты