Шаговая регрессия

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (категория)
 
(5 промежуточных версий не показаны.)
Строка 1: Строка 1:
== Шаговая регрессия (stepwise regression) ==
== Шаговая регрессия (stepwise regression) ==
-
Цель пошаговой [[регрессии|Регрессия]] состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной. Обычно этот процесс выполняет автоматизированная процедура, которая вводит или выводит предикаты из уравнения регрессии по очереди.
+
Цель пошаговой [[Регрессия|регрессии]] состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной. Обычно этот процесс выполняет автоматизированная процедура, которая вводит или выводит предикаты из уравнения регрессии по очереди, основываясь на серии [[F-тест Фишера|F-тестов]], [[Критерий Стьюдента|t-тестов]] или других подходах.
== Основные подходы ==
== Основные подходы ==
-
=== Прямое включение (прямая пошаговая регрессия) ===
+
====прямое включение (прямая пошаговая регрессия) ====
Вначале уравнение регрессии не содержит предикатов. Они вводятся по одному, если удовлетворяют определенному критерию. В основе порядка введения включаемых переменных лежит вклад переменной в объясняемую вариацию.
Вначале уравнение регрессии не содержит предикатов. Они вводятся по одному, если удовлетворяют определенному критерию. В основе порядка введения включаемых переменных лежит вклад переменной в объясняемую вариацию.
-
=== Исключение переменной (обратная пошаговая регрессия) ===
+
====исключение переменной (обратная пошаговая регрессия) ====
Вначале все предикаты входят в уравнение регрессии. Затем по очереди выводятся из уравнения исходя из их соответствия критерию.
Вначале все предикаты входят в уравнение регрессии. Затем по очереди выводятся из уравнения исходя из их соответствия критерию.
-
=== Пошаговый подход ===
+
====пошаговый подход ====
На каждой стадии прямое включение осуществляют одновременно с исключением переменных, которые больше не удовлетворяют конкретному критерию.
На каждой стадии прямое включение осуществляют одновременно с исключением переменных, которые больше не удовлетворяют конкретному критерию.
 +
 +
== Алгоритмы ==
 +
 +
Часто применяют пошаговый подход, когда последовательно включаются факторы в уравнение
 +
регрессии и после проверяется их значимость. Факторы поочередно вводятся
 +
в уравнение так называемым "прямым методом". При проверке значимости
 +
введенного фактора определяется, насколько уменьшается сумма квадратов
 +
остатков и увеличивается величина множественного коэффициента корреляции.
 +
Одновременно используется и обратный метод, т.е. исключение факторов,
 +
ставших незначимыми на основе t-критерия Стьюдента. Фактор является
 +
незначимым, если его включение в уравнение регрессии только изменяет
 +
значение коэффициентов регрессии, не уменьшая значительно суммы квадратов остатков и не
 +
увеличивая их значения. Если при включении в модель соответствующего
 +
факторного признака величина множественного коэффициента корреляции
 +
увеличивается, а коэффициент регрессии не изменяется (или меняется
 +
несущественно), то данный признак существен и его включение в уравнение
 +
регрессии необходимо.
== Недостатки ==
== Недостатки ==
 +
 +
* Метод пошаговой регрессии не позволяет выводить оптимальные уравнения регрессии с точки зрения получения наибольшего коэффициента детерминации <tex>R^2</tex> для данного количества предикатов. Из-за корреляций между предикатами важная переменная может никогда не быть включена в уравнение, а второстепенные переменные будут введены в уравнение. Чтобы определить оптимальное уравнение регрессии, желательно просчитать варианты, в которых анализируются все возможные комбинации. Несмотря на это, пошаговая регрессия полезна в ситуации, когда размер выборки велик по сравнению с количеством предикатов.
 +
 +
* Часто для выбора добавляемой или удаляемой переменной используется последовательность [[F-тест Фишера|F-тестов Фишера]], который проводятся на одних и тех же данных, что приводит к проблеме [[Проблема множественных сравнений|проблеме множественных сравнений]]. Для борьбы с этим явлением разработано достаточно большое количество корректирующих критериев.
 +
 +
* [[P-Value]] зависит от результата предшествующих тестов, что усложняет их интерпретацию.
 +
 +
* Тесты являются смещенными, так как проводятся на одних и тех же данных (Rencher and Pun, 1980, Copas, 1983)
 +
 +
== Внешние ресурсы ==
 +
 +
* [http://www.mathworks.com/access/helpdesk/help/toolbox/stats/index.html?/access/helpdesk/help/toolbox/stats/stepwise.html&http://www.google.ru/search?hl=ru&lr=&client=firefox-a&rls=org.mozilla:ru:official&q=regression+stepwise&start=10&sa=N Реализация в Matlab]
 +
 +
* [http://www.mngt.ru/rus/gathering_preparation_analysis/correlation_regress/step_by_step_regress/ Энциклопедия методов маркетинговых исследований]
 +
 +
* [http://en.wikipedia.org/wiki/Stepwise_regression Wikipedia (en)]
 +
 +
* [http://eric.ed.gov/ERICWebPortal/custom/portlets/recordDetails/detailmini.jsp?_nfpb=true&_&ERICExtSearch_SearchValue_0=ED393890&ERICExtSearch_SearchType_0=no&accno=ED393890 Статья "Stepwise Regression Is a Problem, Not a Solution" (en)]
 +
 +
* [http://www.sfu.ca/sasdoc/sashtml/stat/chap49/sect33.htm Пример исследования с применением пошаговой регрессии]
 +
 +
[[Категория:Регрессионный анализ]]
 +
[[Категория:Методы отбора признаков]]

Текущая версия

Содержание

Шаговая регрессия (stepwise regression)

Цель пошаговой регрессии состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной. Обычно этот процесс выполняет автоматизированная процедура, которая вводит или выводит предикаты из уравнения регрессии по очереди, основываясь на серии F-тестов, t-тестов или других подходах.

Основные подходы

прямое включение (прямая пошаговая регрессия)

Вначале уравнение регрессии не содержит предикатов. Они вводятся по одному, если удовлетворяют определенному критерию. В основе порядка введения включаемых переменных лежит вклад переменной в объясняемую вариацию.

исключение переменной (обратная пошаговая регрессия)

Вначале все предикаты входят в уравнение регрессии. Затем по очереди выводятся из уравнения исходя из их соответствия критерию.

пошаговый подход

На каждой стадии прямое включение осуществляют одновременно с исключением переменных, которые больше не удовлетворяют конкретному критерию.

Алгоритмы

Часто применяют пошаговый подход, когда последовательно включаются факторы в уравнение регрессии и после проверяется их значимость. Факторы поочередно вводятся в уравнение так называемым "прямым методом". При проверке значимости введенного фактора определяется, насколько уменьшается сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции. Одновременно используется и обратный метод, т.е. исключение факторов, ставших незначимыми на основе t-критерия Стьюдента. Фактор является незначимым, если его включение в уравнение регрессии только изменяет значение коэффициентов регрессии, не уменьшая значительно суммы квадратов остатков и не увеличивая их значения. Если при включении в модель соответствующего факторного признака величина множественного коэффициента корреляции увеличивается, а коэффициент регрессии не изменяется (или меняется несущественно), то данный признак существен и его включение в уравнение регрессии необходимо.

Недостатки

  • Метод пошаговой регрессии не позволяет выводить оптимальные уравнения регрессии с точки зрения получения наибольшего коэффициента детерминации R^2 для данного количества предикатов. Из-за корреляций между предикатами важная переменная может никогда не быть включена в уравнение, а второстепенные переменные будут введены в уравнение. Чтобы определить оптимальное уравнение регрессии, желательно просчитать варианты, в которых анализируются все возможные комбинации. Несмотря на это, пошаговая регрессия полезна в ситуации, когда размер выборки велик по сравнению с количеством предикатов.
  • Часто для выбора добавляемой или удаляемой переменной используется последовательность F-тестов Фишера, который проводятся на одних и тех же данных, что приводит к проблеме проблеме множественных сравнений. Для борьбы с этим явлением разработано достаточно большое количество корректирующих критериев.
  • P-Value зависит от результата предшествующих тестов, что усложняет их интерпретацию.
  • Тесты являются смещенными, так как проводятся на одних и тех же данных (Rencher and Pun, 1980, Copas, 1983)

Внешние ресурсы

Личные инструменты