Байесовский информационный критерий

Материал из MachineLearning.

Перейти к: навигация, поиск
Данная статья является непроверенным учебным заданием.
Студент: Участник:Mordasova
Преподаватель: Участник:Константин Воронцов
Срок: 15 февраля 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Байесовский информационный критерий (Bayesian information criterion, BIC, иногда - Schwarz Criterion) - критерий выбора модели из класса параметризованных моделей, зависящих от разного числа параметров. Для оценивания модели обычно используется метод нахождения максимума функции правдоподобия, значение которого можно увеличить добавлением дополнительных параметров. Однако, это может вызвать переобучение. Байесовский критерий устраняет проблему переобучения, штрафуя увеличение числа параметров модели. Тесно связан с критерием Акаике, но в случае байесовского критерия увеличение параметров штрафуется строже.

Содержание

Описание критерия

Байесовский критерий получается при допущении того, что распределение выборки принадлежит к семейству экспоненциальных распределений.
Пусть:

  • X = \{x_i\}^{n}_{i=1} - наблюдаемая часть выборки, где каждый объект характеризуется набором параметров x_i=(x_{i_1},...,x_{i_k}).
  • L - максимальное значение функции правдоподобия наблюдаемой выборки с известным числом параметров.

Тогда байесовский информационный критерий определяется формулой:

BIC = -2\ln(L)+k\ln(n)
Таким образом байесовский критерий является аналогом критерия Акаике с более строгой функцией штрафа (функция штрафа зависит также от размерности модели).
В случае линейной регрессионной модели критерий выражается через SSE (Sum of Squared Errors) - сумму квадратов остатков:
BIC=n\ln\frac{SSE}{n}+k\ln n.
В данном случае логарифмируется смещенная оценка дисперсии регрессионных остатков.

Особенности примения

  • Из двух моделей предпочтительно выбрать с меньшим значением байесовского критерия.
  • Байесовский критерий представляет собой возрастающую функцию от числа параметров модели и от остаточной суммы квадратов ошибок модели.
  • Изменение зависимых переменных и увеличение числа наблюдаемых увеличивает байесовский критерий,в то же время уменьшение критерия означает уменьшение размерности модели.
  • Используется при длинных выборках данных.

Области применения

Широко применяется для анализа временных рядов и решения задач линейной регрессии. В большинстве случаев применение байесовского критерия сводится к максимизации функции правдоподобия, поскольку, как правило, в этих исследованиях число параметров моделей совпадает с числом рассматриваемых моделей.
К таким исследованиям можно отнести, например, задачи астрофизики: поиск модели абсолютно черного тела и нахождение модели спектра излучения.

См. также

Литература

  1. Bayesian information criterion on Wikipedia
  2. Schwarz, G. Estimating the dimension of a model. — Annals of Statistics. — 1978 T. 6. — 461--464 с.
  3. Liddle A. R. Information criteria for astrophysical model selection. — Advances in Neural Information Processing Systems. — Astronomy Centre, University of Sussex, 2008.
  4. Burnham K. P., Anderson D.R. Model selection and multimodel inference: a practical information-theoretic approach. — 2-е изд. — Springer, 2002. — 488 с. — ISBN 0387953647
  5. McQuarrie A. D. R., Tsai C. L. Regression and time series model selection. — World Scientific, 1998. — 455 с. — ISBN 981023242X
  6. Бидюк П.И., Зворыгина Т.Ф. Cтруктурный анализ методик построения регрессионных моделей по временным рядам наблюдений.