Обсуждение участника:Agor153
Материал из MachineLearning.
Содержание |
Категория "Метод главных компонент"
Уважаемый Agor153, статья Метод главных компонент получается довольно большой, неудобно читать и сложно хранить. Предлагаю использовать подкатегорию и разбить статью на несколько частей, каждая из которых будет статьей. Надеюсь, это будет удобно. --Strijov 17:32, 2 июля 2008 (MSD)
Agor153, поздравляем с успешной регистрацией на MachineLearning.ru
Перед началом работы рекомендуем ознакомиться с двумя основными документами:
- Концепция Ресурса — короткий документ, в котором объясняется, чем наш Ресурс отличается от Википедии, как его можно использовать для совместной научной и учебной работы, и каким он должен стать в перспективе;
- Инструктаж — длинный документ, в котором мы постарались собрать все сведения, необходимые для работы с Ресурсом, включая правила вики-разметки и сведения об основных категориях Ресурса.
Ссылки на эти и другие справочные материалы собраны на странице Справка.
В нашем сообществе принято представляться. Поэтому, прежде чем приступить к созданию или редактированию страниц, заполните, пожалуйста, свою страницу участника. Сделать это очень просто — достаточно кликнуть на Ваше имя Участника (оно показывается в самой верхней строке на любой странице Ресурса). Желательно, чтобы кроме обычных формальностей (фамилии, имени, отчества, места работы или учёбы, степени, звания, и т.д.) Вы указали свои научные интересы. Удобнее всего сделать это в виде списка ссылок на интересные Вам статьи или категории нашего Ресурса. Не беда, если некоторые из них окажутся «красными ссылками» — это означает, что таких статей пока нет, и у Вас есть шанс их написать. Кстати, вики-движок собирает все «красные ссылки» в список требуемых статей — в него тоже стоит заглянуть. Для создания новой статьи достаточно кликнуть по «красной ссылке» или набрать её название в строке поиска.
По любым вопросам, связанным с работой нашего Ресурса, обращайтесь к Администраторам (см. список администраторов).
С уважением,
ваш M.L.Ru
Перенёс сюда старую версию Метод главных компонент для удобства дальнейшей работы
Метод главных компонент способ снижения размерности пространства данных. Он заключается в нахождении линейного ортогонального преобразования исходной матрицы данных в пространство меньшей размерности. При этом выбираются такая ортогональная система координат, которая обеспечивает наименьшую потерю информации в исходных данных. Последнее подразуменает минимальную среднеквадратичную ошибку при проекции данных в пространство заданной размерности.
Определение метода главных компонент
![Векторы-строки матрицы исходных данных показаны звездочками. Красным крестом отмечен первый вектор-столбец матрицы вращения . Точками отмечены проекции векторов на новую систему координат. Сумма квадратов длин синих линий есть ошибка количество информации, утраченной при снижении размерности пространства.](/wiki/images/6/68/Principal_Component_Analysis.gif)
Одной из задач аппроксимации является задача приближения множества векторов-строк матрицы
их проекциями на некоторую новую ортогональную систему координат.
Эта система отыскивается на множестве преобразований вращений
начальной системы координат.
При этом множество аппроксимируемых векторов
,
, отображается в новое множество векторов
, где
.
Оператором отображения
является ортонормальная матрица , то есть
единичная матрица.
Столбцы
называются главными компонентами матрицы
.
Матрица
строится таким образом, что среднеквадратическая
разность между векторами
и проекцией этих векторов на
ортогональную систему координат, заданных
минимальна.
Наиболее удобным способом получения матрицы
является сингулярное разложение матрицы
:
Метод главных компонент позволяет с помощью первых главных компонент можно восстановить исходную матрицу с минимальной ошибкой.
Критерий минимального значения суммы квадратов расстояния от векторов-столбцов матрицы данных до их проекций на
первую главную компоненту называется критерием наибольшей информативности C.Р. Рао.
Кроме того, матрица
выполняет декоррелирующее преобразование, называемое также преобразованием Карунена-Лоэва.
В результате этого преобразования исчезает возможная корреляция между векторами-столбцами исходной матрицы
.
где матрица центрирована из каждого ее столбца вычтено среднее значение по этому столбцу.
Понятие наибольшей информативности
Рассмотрим -мерную случайную величину
с ковариационной
матрицей
. Обозначим
соответствующие собственные числа и
собственные
векторы матрицы
.
Заметим, что собственные числа и элементы собственных векторов
матрицы
всегда действительны. Тогда по теореме о собственных числах
Случайная величина называется
-й главной
компонентой случайной величины
. Матрица вращения
составлена из векторов-столбцов
. Матрица
главных компонент
имеет следующие свойства.
Смотри также
Литература
- Рао С.Р. Линейные статистические методы и их применения. М.: Наука. 1968. С. 530-533.
- Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика. 1989.
- Jolliffe I.T. Principal Component Analysis, Springer Series in Statistics. Springer. 2002.
- Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space". Philosophical Magazine 2 (6): 559–572. [1]