Уровень значимости

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (уточнение)
(дополнение, уточнение)
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
-
'''Уровень значимости''' [[Статистический тест|статистического теста]] — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить [[нулевая гипотеза|нулевую гипотезу]], если на самом деле она верна.
+
'''Уровень значимости''' [[Статистический тест|статистического теста]] — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить [[нулевая гипотеза|нулевую гипотезу]], когда на самом деле она верна.
-
Другая интерпретация: ''уровень значимости'' — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.
+
Другая интерпретация:
 +
''уровень значимости'' — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.
Уровень значимости обычно обозначают греческой буквой&nbsp;<tex>\alpha</tex> (альфа).
Уровень значимости обычно обозначают греческой буквой&nbsp;<tex>\alpha</tex> (альфа).
Строка 11: Строка 12:
<tex>x^m=(x_1,\ldots,x_m)</tex>.
<tex>x^m=(x_1,\ldots,x_m)</tex>.
-
Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода)&nbsp;<tex>\alpha</tex> может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, если на самом деле она не верна (это называется также ложноотрицательным решением, false negative).
+
Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода)&nbsp;<tex>\alpha</tex> может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative).
Вероятность ошибки второго рода&nbsp;<tex>\beta</tex> связана с [[мощность критерия|мощностью критерия]]&nbsp;<tex>\gamma</tex> простым соотношением &nbsp;<tex>\gamma = 1-\beta</tex>.
Вероятность ошибки второго рода&nbsp;<tex>\beta</tex> связана с [[мощность критерия|мощностью критерия]]&nbsp;<tex>\gamma</tex> простым соотношением &nbsp;<tex>\gamma = 1-\beta</tex>.
Выбор уровня значимости требует компромисса между значимостью и мощностью или
Выбор уровня значимости требует компромисса между значимостью и мощностью или
Строка 17: Строка 18:
между вероятностями ошибок первого и второго рода.
между вероятностями ошибок первого и второго рода.
-
Обычно уровень значимости рекомендуется выбирать из априорных соображений.
+
Обычно рекомендуется выбирать уровень значимости из априорных соображений.
Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться,
Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться,
и выбор часто сводится к назначению одного из популярных вариантов
и выбор часто сводится к назначению одного из популярных вариантов
-
<tex>\alpha=0.001,\; 0.05,\; 0.1</tex>.
+
<tex>\alpha=0.005,\; 0.01,\; 0.05,\; 0.1</tex>.
 +
В&nbsp;докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц.
 +
Теперь нет никаких специальных причин для выбора именно этих значений.
-
Существует две альтернативные методики, не связанные с априорным назначением&nbsp;<tex>\alpha</tex>.
+
Существует две альтернативные методики, не требующие априорного назначения&nbsp;<tex>\alpha</tex>.
-
== Вычисление пи-величины (альфа-метод по Цейтлину) ==
+
== Вычисление пи-величины ==
'''Пи-величина''' (p-value) — это наименьшая величина уровня значимости,
'''Пи-величина''' (p-value) — это наименьшая величина уровня значимости,
Строка 32: Строка 35:
<tex>\Omega_\alpha</tex> — критическая область критерия.
<tex>\Omega_\alpha</tex> — критическая область критерия.
-
Фактически, пи-величина — это функция, которая пересчитывает значение статистики критерия&nbsp;<tex>T</tex> в значение вероятности ошибки первого рода.
+
Другая интерпретация:
 +
''пи-величина''&nbsp;<tex>\pi(T)</tex> — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики&nbsp;<tex>T</tex>.
-
Методика предполагает, что, вычислив значение <tex>\pi(T(x^m))</tex> на заданной выборке <tex>x^m</tex>,
+
Случайная величина <tex>\pi(T(x^m))</tex> имеет равномерное распределение.
-
статистик сам решит, является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу.
+
Фактически, функция <tex>\pi(T)</tex> приводит значение статистики критерия&nbsp;<tex>T</tex> к шкале вероятности.
-
Данная методика является более гибкой.
+
Маловероятным значениям (хвостам распределения) статистики&nbsp;<tex>T</tex> соотвествуют значения <tex>\pi(T)</tex>, близкие к нулю или к единице.
-
В&nbsp;частности, она допускает «нестандартное решение» — продолжить наблюдения (увеличить объём выборки), если оценка вероятности ошибки первого рода попадает в зону неуверенности.
+
 
 +
Вычислив значение <tex>\pi(T(x^m))</tex> на заданной выборке <tex>x^m</tex>,
 +
статистик имеет возможность решить,
 +
является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу.
 +
Данная методика является более гибкой, чем стандартная.
 +
В&nbsp;частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок <tex>[0.01,\,0.1]</tex>.
 +
 
 +
Некоторые типичные заблуждения, связанные со значением пи-величины:
 +
* пи-величина не равна вероятности истинности нулевой гипотезы; частотная статистика вообще не имеет права приписывать вероятности гипотезам;
 +
* 1&nbsp;–&nbsp;(пи-величина) не равно вероятности истинности альтернативной гипотезы;
 +
* пи-величина не равна вероятности ошибки первого рода;
 +
* 1&nbsp;–&nbsp;(пи-величина) не равно вероятности ошибки второго рода;
 +
* пи-величина не есть вероятность того, что повторный эксперимент не приведёт к тому же решению;
== Вычисление ROC-кривой (зависимости мощности от уровня значимости) ==
== Вычисление ROC-кривой (зависимости мощности от уровня значимости) ==
Строка 43: Строка 59:
'''ROC-кривая''' (receiver operating characteristic) — это зависимость мощности&nbsp;<tex>(1-\beta)</tex> от уровня значимости или вероятности ошибки первого рода&nbsp;<tex>\alpha</tex>.
'''ROC-кривая''' (receiver operating characteristic) — это зависимость мощности&nbsp;<tex>(1-\beta)</tex> от уровня значимости или вероятности ошибки первого рода&nbsp;<tex>\alpha</tex>.
-
Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соотвествует приемлемому компромиссу между вероятностями ошибки I и II рода.
+
Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.
{{Stub}}
{{Stub}}

Версия 22:50, 11 августа 2008

Содержание

Уровень значимости статистического теста — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, когда на самом деле она верна.

Другая интерпретация: уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.

Уровень значимости обычно обозначают греческой буквой \alpha (альфа).

Стандартная методика проверки статистических гипотез

В стандартной методике проверки статистических гипотез уровень значимости фиксируется заранее, до того, как становится известной выборка x^m=(x_1,\ldots,x_m).

Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода) \alpha может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative). Вероятность ошибки второго рода \beta связана с мощностью критерия \gamma простым соотношением  \gamma = 1-\beta. Выбор уровня значимости требует компромисса между значимостью и мощностью или (что то же самое, но другими словами) между вероятностями ошибок первого и второго рода.

Обычно рекомендуется выбирать уровень значимости из априорных соображений. Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться, и выбор часто сводится к назначению одного из популярных вариантов \alpha=0.005,\; 0.01,\; 0.05,\; 0.1. В докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц. Теперь нет никаких специальных причин для выбора именно этих значений.

Существует две альтернативные методики, не требующие априорного назначения \alpha.

Вычисление пи-величины

Пи-величина (p-value) — это наименьшая величина уровня значимости, при которой нулевая гипотеза отвергается для данного значения статистики критерия T.

\pi(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},

где \Omega_\alpha — критическая область критерия.

Другая интерпретация: пи-величина \pi(T) — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики T.

Случайная величина \pi(T(x^m)) имеет равномерное распределение. Фактически, функция \pi(T) приводит значение статистики критерия T к шкале вероятности. Маловероятным значениям (хвостам распределения) статистики T соотвествуют значения \pi(T), близкие к нулю или к единице.

Вычислив значение \pi(T(x^m)) на заданной выборке x^m, статистик имеет возможность решить, является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу. Данная методика является более гибкой, чем стандартная. В частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок [0.01,\,0.1].

Некоторые типичные заблуждения, связанные со значением пи-величины:

  • пи-величина не равна вероятности истинности нулевой гипотезы; частотная статистика вообще не имеет права приписывать вероятности гипотезам;
  • 1 – (пи-величина) не равно вероятности истинности альтернативной гипотезы;
  • пи-величина не равна вероятности ошибки первого рода;
  • 1 – (пи-величина) не равно вероятности ошибки второго рода;
  • пи-величина не есть вероятность того, что повторный эксперимент не приведёт к тому же решению;

Вычисление ROC-кривой (зависимости мощности от уровня значимости)

ROC-кривая (receiver operating characteristic) — это зависимость мощности (1-\beta) от уровня значимости или вероятности ошибки первого рода \alpha.

Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.


Литература

  1. Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006.
  2. Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
  3. Алимов Ю. И. Альтернатива методу математической статистики. — М.: Знание, 1980.

Ссылки

Личные инструменты