Метод наименьших квадратов
Материал из MachineLearning.
Метод наименьших квадратов — метод нахождения оптимальных параметров линейной регрессии, таких, что сумма квадратов ошибок (регрессионных остатков) минимальна. Метод заключается в минимизации евклидова расстояния между двумя векторами — вектором восстановленных значений зависимой переменной и вектором фактических значений зависимой переменной.
Содержание[убрать] |
Постановка задачи
Задача метода наименьших квадратов состоит в выборе вектора , минимизирующего ошибку
.
Эта ошибка есть расстояние от вектора
до вектора
.
Вектор
лежит в простанстве столбцов матрицы
,
так как
есть линейная комбинация столбцов этой матрицы с коэффициентами
.
Отыскание решения
по методу наименьших квадратов эквивалентно задаче отыскания такой точки
,
которая лежит ближе всего к
и находится при этом в пространстве столбцов матрицы
.
Таким образом, вектор
должен быть проекцией
на пространство столбцов и вектор невязки
должен быть ортогонален этому пространству. Ортогональность состоит в том, что каждый вектор в пространстве столбцов
есть линейная комбинация столбцов с некоторыми коэффициентами
, то есть это вектор
.
Для всех
в пространстве
, эти векторы должны быть перпендикулярны невязке
:
Так как это равенство должно быть справедливо для произвольного вектора , то
Решение по методу наименьших квадратов несовместной системы ,
состоящей из
уравнений с
неизвестными, есть уравнение
которое называется нормальным уравнением.
Если столбцы матрицы линейно независимы, то матрица
обратима
и единственное решение
Проекция вектора на пространство столбцов матрицы имеет вид
Матрица называется матрицей проектирования вектора
на пространство столбцов матрицы
.
Эта матрица имеет два основных свойства: она идемпотентна,
, и симметрична,
.
Обратное также верно: матрица, обладающая этими двумя свойствами есть матрица проектирования на свое пространство столбцов.
Пример построения линейной регрессии
Задана выборка — таблица
Задана регрессионная модель — квадратичный полином
Назначенная модель является линейной. Для нахождения оптимального
значения вектора параметров выполняется следующая подстановка:
Тогда матрица значений подстановок свободной переменной
будет иметь вид
Задан критерий качества модели: функция ошибки
Здесь вектор . Требуется найти такие параметры
, которые бы доставляли
минимум этому функционалу,
Требуется найти такие параметры , которые доставляют минимум
— норме вектора
невязок
.
Для того, чтобы найти минимум функции невязки, требуется
приравнять ее производные к нулю. Производные данной функции
по составляют
Это выражение совпадает с нормальным уравнением. Решение этой задачи должно удовлетворять системе линейных уравнений
После получения весов можно построить график найденной функции.
При обращении матрицы предполагается, что эта
матрица невырождена и не плохо обусловлена. О том, как работать с плохо обусловленными матрицами см. в статье Сингулярное разложение.
Смотри также
- Линейная регрессия (пример)
- Нелинейная регрессия и метод наименьших квадратов
- Регрессионный анализ
- Анализ регрессионных остатков
- Сингулярное разложение
Литература
- Стренг Г. Линейная алгебра и ее применения. М.: Мир. 1980.
- Каханер Д., Моулер К., Нэш С. Численные методы и программное обеспечение. М.: Мир. 1998.
- Стрижов В. В. Методы индуктивного порождения регрессионных моделей. М.: ВЦ РАН. 2008. 55 с. Брошюра, PDF.