Шаговая регрессия

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Шаговая регрессия (stepwise regression)

Цель пошаговой регрессии состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной. Обычно этот процесс выполняет автоматизированная процедура, которая вводит или выводит предикаты из уравнения регрессии по очереди.

Основные подходы

Прямое включение (прямая пошаговая регрессия)

Вначале уравнение регрессии не содержит предикатов. Они вводятся по одному, если удовлетворяют определенному критерию. В основе порядка введения включаемых переменных лежит вклад переменной в объясняемую вариацию.

Исключение переменной (обратная пошаговая регрессия)

Вначале все предикаты входят в уравнение регрессии. Затем по очереди выводятся из уравнения исходя из их соответствия критерию.

 Пошаговый подход

На каждой стадии прямое включение осуществляют одновременно с исключением переменных, которые больше не удовлетворяют конкретному критерию.

Алгоритмы

Широко используемый алгоритм был предложен Эфроимсоном М.А. (1960). Это автоматизированная процедура для статистического выделения в случаях, когда есть большое число потенциально значащих переменных, и нет никакой модели, на которой можно было бы обосновать схему выделения. Хотя процедура в основном используется в регрессионном анализе, предложенных подход может быть применен во многих ситуациях выбора модели. Это вариация на прямое включение. На каждом этапе, после добавления новой переменной, проводится тест, чтобы определить могут ли быть выкинуты некоторые переменные без заметного увеличения [Остаточная сумма квадратов|остаточной суммы квадратов (RSS)].

Недостатки

  • Часто для выбора добавляемой или удаляемой переменной используется последовательность [F-тест Фишера|F-тестов Фишера], который проводятся на одних и тех же данных, что приводит к проблеме преблеме множественных сравнений. Для борьбы с этим явлением разработано достаточно большое количество корректирующих критериев.
  • [P-Value] зависит от результата предшествующих тестов, что усложняет их интерпретацию.
  • Тесты являеются смещенными, так как проводятся на одних и тех же данных (Rencher and Pun, 1980, Copas, 1983)
Личные инструменты