Анализ регрессионных остатков (пример)

Материал из MachineLearning.

(Различия между версиями)

Версия 08:03, 17 июня 2010

Для получения информации об адекватности построенной модели многомерной линейной регрессии используется анализ регрессионных остатков.

Содержание

1 Постановка задачи
2 Описание алгоритма
- 2.1 Анализ регрессионных остатков
- 2.2 Оценка значимости признаков
3 Гетероскедастичность
- 3.1 Визуальный анализ
- 3.2 Статистические методы детекции
  - 3.2.1 Тест Уайта
  - 3.2.2 Тест Голдфелда-Кванта

Постановка задачи

Задана выборка $D = \{ y_i,\mathbf{x}_i\}_{i=1}^n$ откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:

$y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n$ . Требуется создать инструмент анализа адекватности модели используя анализ регрессионных остатков и исследовать значимость признаков и поведение остатков в случае гетероскедастичности.

Описание алгоритма

Анализ регрессионных остатков

Анализ регрессионных остатков заключается в проверке нескольких гипотез:

$E \varepsilon_i = 0,i= 1,\dots,n$
(1)
$D \varepsilon_i = \sigma^2,i= 1,\dots,n$
(2)
$\varepsilon_i \sim N(0,\sigma), i= 1,\dots,n$
(3)
$\varepsilon_i, i= 1,\dots,n$
(4)
— независимы

где $\varepsilon_i=y_i-\hat{y_i}$ , $i= 1,\dots,n$ — регрессионные остатки конкретной модели.

Для проверки первой гипотезы воспользуемся критерием знаков. Проверка второй гипотезы по сути является проверкой на гомоскедастичность, то есть на постоянство дисперсии, случай гетероскедастичности будет рассмотрен ниже. Для этого воспользуемся двумя статистическими тестами: тестом Ансари-Брэдли и критерием Голдфелда-Кванта. Так как тест Ансари-Брэдли фактически осуществляет проверку гипотезы, что у двух предоставленных выборок дисперсии одинаковы, а мы фактически имеем только один вектор остатков, то произведем несколько тестов, сравнивая в каждом две случайные выборки из нашего вектора остатков. Проверку нормальности распределения осуществим с помощью критерия согласия хи-квадрат, модифицированного для проверки на нормальность, то есть сравнивая данное нам распределение в остатках с нормальным распределением, имеющим моментные характеристики, вычисленные из вектора остатков. Наконец, проверку последнего условия реализуем с помощью статистики Дарбина-Уотсона.

Оценка значимости признаков

Задача состоит в проверке для каждого из признаков, дает ли нам учет этого признака в модели более хорошие результаты, нежели его отсутствие. Оценивать результаты будем с помощью коэффициента детерминации:

$R^2 \equiv 1 - {\sum_i (y_i - {f}_i)^2\over \sum_i (y_i-\bar{y})^2\,$

где $y_i$ — эмпирический отклик, $f_i$ — отклик, посчитанный по модели, и $\bar{y}$ — математическое ожидание $y_i$ .

Гетероскедастичность

Термин гетероскедастичность применяется в ситуации, когда ошибки в различных наблюдениях некоррелированы, но их дисперсии — разные. Соответственно термин гомоскедастичность применяется в случае постоянных дисперсий.

Визуальный анализ

Одним из основных методов предварительного исследования на гетероскедастичность является визуальный анализ графика остатков. Целью данного анализа является нахождение факторов влияющих на изменение дисперсии, номер измерения или значение одного из признаков. Для сравнения приведем несколько примеров.

Выше представлена госмоскедастичноая модель. Действительно, используя визуальный анализ, не получается найти какие-то признаки непостоянства дисперсии и тем более какие-то зависимости.

В данном случае визуально можно констатировать факт непостоянства дисперсии и даже связать это изменение с номером эксперимента (или возможно с одним из признаков, если он монотонно изменялся по номеру эксперимента).

Еще один пример визуально определимой гетероскедастичности.

Статистические методы детекции

Опишем суть нескольких общеупотребительных статистических тестов на гетероскедастичность. Во всех этих тестах основной гипотезой $H_0$ является равенство $\sigma_1^2=\sigma_2^2=\dots=\sigma_n^2$ против альтернативной гипотезы $H_1$ : не $H_0$ .

Тест Уайта

Содержательный смысл теста в том, что часто гетероскедастичность модели вызвана зависимостью (возможно довольно сложной) дисперсий ошибок от признаков. Реализуя эту идею, Уайт предложил метод тестирования гипотезы $H_0$ без каких-либо предположений о структуре гетероскедастичности. Сначала к исходной модели применяется обычный метод наименьших квадратов и находятся остатки регрессии $e_t, t=1,\dots\,n$ . Затем осуществляется регрессия квадратов этих остатков $e_t^2$ на все признаки, их квадраты, попарные произведения и константу. Тогда при гипотезе $H_0$ величина $nR^2$ асимптотически имеет распределение $\chi^2(N-1)$ , где $R^2$ — коэффициент детерминации, а $N$ — число регрессоров второй регрессии. Плюс данного теста — его универсальность. Минус — если гипотеза $H_0$ отвергается, то никаких указаний на функциональную форму гетероскедастичности мы не получаем.

Тест Голдфелда-Кванта

Этот тест применяется, когда есть предположение о прямой зависимости дисперсии ошибок от некоторого признака. Алгоритм метода:

упорядочить данные ппо убыванию того признака, относительно которого сделано предположение;
исключить $d$ средних наблюдений ( $d$ должно быть порядка четверти от общего количества наблюдений);
провести две независимые регрессии для первых $n/2 - d/2$ наблюдений и последних $n/2 - d/2$ наблюдений и построить соответствующие остатки $e_1$ и $e_2$ ;
составить статистику $F = e_1'e_1/e_2'e_2$ . Если верна гипотеза $H_0$ , то $F$ имеет распределение Фишера с $(n/2 - d/2 - k, n/2 - d/2 - k)$ степенями свободы. Большая величина этой статистики означает, что гипотезу $H_0$ стоит отвергнуть.

Остальные тесты , такие как тесты Бреуша-Пагана, Брауна-Форсайта, Левена, и более подробно об описанных тестах можно почитать на Wikipedia.org

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D1%85_%D0%BE%D1%81%D1%82%D0%B0%D1%82%D0%BA%D0%BE%D0%B2_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29»

@@ Строка 62: / Строка 62: @@
 # провести две независимые регрессии для первых <tex>n/2 - d/2</tex> наблюдений и последних <tex>n/2 - d/2</tex> наблюдений и построить соответствующие остатки <tex>e_1</tex> и <tex>e_2</tex>;
 # составить статистику <tex>F = e_1'e_1/e_2'e_2</tex>. Если верна гипотеза <tex>H_0</tex>, то <tex>F</tex> имеет распределение Фишера с <tex>(n/2 - d/2 - k, n/2 - d/2 - k)</tex> степенями свободы. Большая величина этой статистики означает, что гипотезу <tex>H_0</tex> стоит отвергнуть.
+Остальные тесты , такие как тесты Бреуша-Пагана, Брауна-Форсайта, Левена, и более подробно об описанных тестах можно почитать на [http://en.wikipedia.org/wiki/Heteroscedasticity Wikipedia.org]