МЛР
Материал из MachineLearning.
![]() | Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |
Многомерная линейная регрессия — это линейная регрессия в n-мерном пространстве.
Содержание[убрать] |
Многомерная линейная регрессия
Имеется множество объектов и множество ответов
. Также имеется набор
вещественнозначных признаков
. Введём матричные обозначения: матрицу информации
, целевой вектор
, вектор параметров
и диагональную матрицу весов:
Алгоритм:
.
Оценим качество его работы на выборке методом наименьших квадратов:
, или, в матричных обозначениях,
.
Задача с произвольной матрицей весов легко приводится к единичной матрице весов заменой :
.
Таким образом, в дальнейшем будем рассматривать только задачу с единичными весами.
Найдём минимум по α:
.
Если , то можно обращать матрицу
, где введено обозначение
.
В таком случае функционал качества записывается в более удобной форме:
, где
— проекционная матрица:
— вектор, являющийся проекцией
на
.
как нарисовать значок проекционной матрицы, чтобы его можно было отличить от того, на что матрица умножается?!
Теперь рассмотрим сингулярное разложение матрицы F:
.
В таких обозначениях:
, а так как
, то
в силу диагональности матрицы D.
А решение метода наименьших квадратов запишется в следующем виде:
А так как , то
Проблемы
Мультиколлинеарность
Основной проблемой многомерной линейной регресии является вырожденность, или, в более общем случае, мультиколлинеарность матрицы FTF, которую приходится обращать. Подобные проблемы возникают, когда среди признаков fj(x) есть почти линейно зависимые.
Мультиколлинеарность матрицы определяется её числом обусловленности:
, где λ — собственные значения матрицы FTF.
Чем больше число обусловленности, тем ближе матрица FTF к вырожденной и тем неустойчивее обратная к ней матрица. Плохая обусловленность матрицы: λmin << λmax. Матрицу принято считать плохо обусловленной, если её число обусловленности превышает 103...106.
Последствия:
- Разброс значений αj. Появляются большие положительные и большие отрицательные коэффициенты αj. По абсолютной величине коэффициента становится невозможно судить о степени важности признака fj . Коэффициенты утрачивают интерпретируемость.
- Неустойчивость решения α* при (кажущейся) устойчивости Fα*. Малые изменения данных, например, шум или добавление нового объекта, могут сильно изменить вектор коэффициентов.
- Отсюда следует опасность переобучения, так как снижается обобщающая способность алгоритма.
Для борьбы с мультиколлинеарностью применяются существуют методы:
- Регуляризация. Накладываются дополнительные ограничения на норму вектора коэффициентов α. Примером могут служить гребневая регрессия или L1-регуляризация)
- Преобразование признаков. Исходные n признаков с помощью некоторых преобразований переводятся в меньшее число m новых признаков. В частности, линейные преобразования приводят к методу главных компонент.
Разный масштаб признаков
Другой важной, но существенно более простой в плане решения проблемой является разнородность признаков. Если машстабы измерений признаков существенно (на несколько порядков) различаются, то появляется опасноcть, что будут учитываться только "крупномасштабные" признаки. Чтобы этого избежать, делается стандартизация матрицы F:
,
где — выборочное среднее, а
— выборочная дисперсия. При этом после стандартизации исходных данных то же самое преобразование необходимо будет применять ко всем объектам, подаваемым на вход алгоритма α*(x) = f(x, α*). Также следует отметить, что ковариационная матрица FTF после стандартизации становится корреляционной матрицей.