Коррелограмма
Материал из MachineLearning.
Строка 70: | Строка 70: | ||
==Литература== | ==Литература== | ||
- | + | * Hanke, John E./Reitsch, Arthur G./Wichern, Dean W. (2001). Business forecasting (7th edition ed.). Prentice Hall. | |
- | + | * Box, G. E. P., and Jenkins, G. (1976). Time Series Analysis: Forecasting and Control. Holden-Day. | |
- | + | * Chatfield, C. (1989). The Analysis of Time Series: An Introduction (Fourth Edition ed.). Chapman & Hall. |
Версия 06:29, 10 января 2009
В анализе временных рядов коррелограмма, также известная как график автокорреляции, является графиком автокорреляций выборки , от h (временная задержка).
Если используется кросс-корреляция , то ее называют кросс-коррелограммой. Коррелограмма - обычно используемый инструмент для того, чтобы проверить хаотичность в наборе данных. Эта хаотичность проверяется вычислением автокорреляций значений данных с переменными временными задержками. Если данные действительно случайны, такие автокорреляции должны быть близки к нулю для любого и каждого значения сдвига по времени. Если неслучайны (имеется скрытая осциллирующая зависимость), то одна или больше автокорреляций будут значительно отличаться от нуля. Кроме того, используются на стадии идентификации моделей в методе Box-Jenkins для авторегрессивных моделей временных рядов со скользящим средним значением. Значение коэффициентов автокорреляции должно быть почти равно нулю для хаотических процессов; если аналитик не проверяет выборку на хаотичность, то законность многих его статистических заключений ставится под подозрение. Коррелограммы - превосходный способ проверки хаотичности (или напротив – взаимосвязанности измерений).
Содержание |
Вопросы
Коррелограммы предназначены для того . чтобы обеспечить ответы на следующие вопросы:
- Действительно ли данные случайны?
- Yаблюдение связано со смежным наблюдением? наблюдение связано с вдвое удаленным наблюдением? (и т.д).
- Имеет ли наблюдаемый временной ряд белый шум?
- Действительно ли наблюдаемый временной ряд является синусоидальным?
- Действительно ли наблюдаемыйвременной ряд авторегрессивен?
- Какова соответствующая модель для наблюдаемого временного ряда?
- Является ли модель надежной и достаточной?
- Является ли формула правильной?
Важность
Хаотичность (наряду с неподвижной моделью, установленным изменением, и установленным распределением) является одним из четырех предположений, которые типично лежат в основе всех процессов измерения. Предположение хаотичности критически важно по следующим трем причинам: 1.Большинство стандартных статистических тестов зависит от хаотичности. Законность испытательных заключений непосредственно связана с законностью предположения хаотичности. 2.Многие обычно используемые статистические формулы зависят от предположения хаотичности. Самая общая формула стандартного отклонения серии измерений есть где s - стандартное отклонение единичного измерения данных. Хотя следствия из этой формулы повсеместно используются, проведенный анализ не будет представлять никакой ценности, если предположение о хаотичности не доказано. 3.Для одномерных данных модель «по умолчанию» - . Если данные не случайны, эта модель является неправильной и недействительной, и оценки для параметров (таких как константа) тоже становятся бессмысленными и недействительными.
Оценка автокорреляций
Коэффициент автокорреляции для временной задержки h дается формулой:
где ch - функция автоковариации
и c0 – функция вариации
Примечания:
- Коэффициент автокорреляции rh всегда находится между -1 и +1.
- Некоторые источники могут использовать следующую формулу для функции автоковариации:
Хотя в формуле этого определения вычисляется меньший наклон (или как еще говорят - покатость), (1/N) формулировка имеет некоторые желательные статистические свойства и является формой, обычно используемой в статистической литературе.
Статистический вывод коррелограмм
На одном и том же графике можно «покачать» верхнюю и нижнюю границы автокорреляции с помощью параметра уровня значимости где есть оценка автокорреляции для временного лага .
Если автокорреляция оказывается выше (ниже) чем это верхнее (нижнее) граничное значение, нуль-гипотеза, что якобы нет никакой автокорреляции для данной временной задержки и вне ее, такая гипотеза должна быть отклонена на уровне значимости .
Этот тест - приблизительный и предполагает, что временной ряд является Гауссовским. В вышеупомянутом случае z1-α/2 - квантиль нормального распределения; SE - стандартная ошибка, которая может быть вычислена по формуле Bartlett’а:
- for
На вышеприведенных графиках мы можем отклонить нуль-гипотезу, что нет никакой автокорреляции между соседними по времени точками (для смежных точек lag=1). В течение других периодов нельзя отклонить нуль-гипотезу об отсутствии автокорреляции.
Отметим, что есть две отличных формулы для вычисления доверительных интервалов: 1.Если коррелограмма используется для проверки на хаотичность (то есть, нет никакой временной зависимости в данных), рекомендуется следующая формула:
где N – размер выборки, z - функция квантиля стандартного нормального распределения, и α - уровень значимости. В этом случае, доверительный интервал имеет фиксированную ширину, которая зависит от размера выборки.
2.Коррелограммы также используются на стадии идентификации моделей при подгонке с использованием метода скользящего среднего (например, модель ARIMA). В этом случае доверительный интервал увеличивается по мере увеличения задержки (лага) k:
Внешние ссылки
Литература
- Hanke, John E./Reitsch, Arthur G./Wichern, Dean W. (2001). Business forecasting (7th edition ed.). Prentice Hall.
- Box, G. E. P., and Jenkins, G. (1976). Time Series Analysis: Forecasting and Control. Holden-Day.
- Chatfield, C. (1989). The Analysis of Time Series: An Introduction (Fourth Edition ed.). Chapman & Hall.