Уровень значимости
Материал из MachineLearning.
м (уточнение) |
(дополнение, уточнение) |
||
Строка 1: | Строка 1: | ||
{{TOCright}} | {{TOCright}} | ||
- | '''Уровень значимости''' [[Статистический тест|статистического теста]] — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить [[нулевая гипотеза|нулевую гипотезу]], | + | '''Уровень значимости''' [[Статистический тест|статистического теста]] — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить [[нулевая гипотеза|нулевую гипотезу]], когда на самом деле она верна. |
- | Другая интерпретация: ''уровень значимости'' — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным. | + | Другая интерпретация: |
+ | ''уровень значимости'' — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным. | ||
Уровень значимости обычно обозначают греческой буквой <tex>\alpha</tex> (альфа). | Уровень значимости обычно обозначают греческой буквой <tex>\alpha</tex> (альфа). | ||
Строка 11: | Строка 12: | ||
<tex>x^m=(x_1,\ldots,x_m)</tex>. | <tex>x^m=(x_1,\ldots,x_m)</tex>. | ||
- | Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода) <tex>\alpha</tex> может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, | + | Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода) <tex>\alpha</tex> может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative). |
Вероятность ошибки второго рода <tex>\beta</tex> связана с [[мощность критерия|мощностью критерия]] <tex>\gamma</tex> простым соотношением <tex>\gamma = 1-\beta</tex>. | Вероятность ошибки второго рода <tex>\beta</tex> связана с [[мощность критерия|мощностью критерия]] <tex>\gamma</tex> простым соотношением <tex>\gamma = 1-\beta</tex>. | ||
Выбор уровня значимости требует компромисса между значимостью и мощностью или | Выбор уровня значимости требует компромисса между значимостью и мощностью или | ||
Строка 17: | Строка 18: | ||
между вероятностями ошибок первого и второго рода. | между вероятностями ошибок первого и второго рода. | ||
- | Обычно | + | Обычно рекомендуется выбирать уровень значимости из априорных соображений. |
Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться, | Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться, | ||
и выбор часто сводится к назначению одного из популярных вариантов | и выбор часто сводится к назначению одного из популярных вариантов | ||
- | <tex>\alpha=0. | + | <tex>\alpha=0.005,\; 0.01,\; 0.05,\; 0.1</tex>. |
+ | В докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц. | ||
+ | Теперь нет никаких специальных причин для выбора именно этих значений. | ||
- | Существует две альтернативные методики, не | + | Существует две альтернативные методики, не требующие априорного назначения <tex>\alpha</tex>. |
- | == Вычисление пи-величины | + | == Вычисление пи-величины == |
'''Пи-величина''' (p-value) — это наименьшая величина уровня значимости, | '''Пи-величина''' (p-value) — это наименьшая величина уровня значимости, | ||
Строка 32: | Строка 35: | ||
<tex>\Omega_\alpha</tex> — критическая область критерия. | <tex>\Omega_\alpha</tex> — критическая область критерия. | ||
- | + | Другая интерпретация: | |
+ | ''пи-величина'' <tex>\pi(T)</tex> — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики <tex>T</tex>. | ||
- | + | Случайная величина <tex>\pi(T(x^m))</tex> имеет равномерное распределение. | |
- | статистик | + | Фактически, функция <tex>\pi(T)</tex> приводит значение статистики критерия <tex>T</tex> к шкале вероятности. |
- | Данная методика является более гибкой. | + | Маловероятным значениям (хвостам распределения) статистики <tex>T</tex> соотвествуют значения <tex>\pi(T)</tex>, близкие к нулю или к единице. |
- | В частности, она допускает «нестандартное решение» — продолжить наблюдения | + | |
+ | Вычислив значение <tex>\pi(T(x^m))</tex> на заданной выборке <tex>x^m</tex>, | ||
+ | статистик имеет возможность решить, | ||
+ | является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу. | ||
+ | Данная методика является более гибкой, чем стандартная. | ||
+ | В частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок <tex>[0.01,\,0.1]</tex>. | ||
+ | |||
+ | Некоторые типичные заблуждения, связанные со значением пи-величины: | ||
+ | * пи-величина не равна вероятности истинности нулевой гипотезы; частотная статистика вообще не имеет права приписывать вероятности гипотезам; | ||
+ | * 1 – (пи-величина) не равно вероятности истинности альтернативной гипотезы; | ||
+ | * пи-величина не равна вероятности ошибки первого рода; | ||
+ | * 1 – (пи-величина) не равно вероятности ошибки второго рода; | ||
+ | * пи-величина не есть вероятность того, что повторный эксперимент не приведёт к тому же решению; | ||
== Вычисление ROC-кривой (зависимости мощности от уровня значимости) == | == Вычисление ROC-кривой (зависимости мощности от уровня значимости) == | ||
Строка 43: | Строка 59: | ||
'''ROC-кривая''' (receiver operating characteristic) — это зависимость мощности <tex>(1-\beta)</tex> от уровня значимости или вероятности ошибки первого рода <tex>\alpha</tex>. | '''ROC-кривая''' (receiver operating characteristic) — это зависимость мощности <tex>(1-\beta)</tex> от уровня значимости или вероятности ошибки первого рода <tex>\alpha</tex>. | ||
- | Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая | + | Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода. |
{{Stub}} | {{Stub}} |
Версия 22:50, 11 августа 2008
|
Уровень значимости статистического теста — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, когда на самом деле она верна.
Другая интерпретация: уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.
Уровень значимости обычно обозначают греческой буквой (альфа).
Стандартная методика проверки статистических гипотез
В стандартной методике проверки статистических гипотез уровень значимости фиксируется заранее, до того, как становится известной выборка .
Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода) может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative). Вероятность ошибки второго рода связана с мощностью критерия простым соотношением . Выбор уровня значимости требует компромисса между значимостью и мощностью или (что то же самое, но другими словами) между вероятностями ошибок первого и второго рода.
Обычно рекомендуется выбирать уровень значимости из априорных соображений. Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться, и выбор часто сводится к назначению одного из популярных вариантов . В докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц. Теперь нет никаких специальных причин для выбора именно этих значений.
Существует две альтернативные методики, не требующие априорного назначения .
Вычисление пи-величины
Пи-величина (p-value) — это наименьшая величина уровня значимости, при которой нулевая гипотеза отвергается для данного значения статистики критерия .
где — критическая область критерия.
Другая интерпретация: пи-величина — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики .
Случайная величина имеет равномерное распределение. Фактически, функция приводит значение статистики критерия к шкале вероятности. Маловероятным значениям (хвостам распределения) статистики соотвествуют значения , близкие к нулю или к единице.
Вычислив значение на заданной выборке , статистик имеет возможность решить, является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу. Данная методика является более гибкой, чем стандартная. В частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок .
Некоторые типичные заблуждения, связанные со значением пи-величины:
- пи-величина не равна вероятности истинности нулевой гипотезы; частотная статистика вообще не имеет права приписывать вероятности гипотезам;
- 1 – (пи-величина) не равно вероятности истинности альтернативной гипотезы;
- пи-величина не равна вероятности ошибки первого рода;
- 1 – (пи-величина) не равно вероятности ошибки второго рода;
- пи-величина не есть вероятность того, что повторный эксперимент не приведёт к тому же решению;
Вычисление ROC-кривой (зависимости мощности от уровня значимости)
ROC-кривая (receiver operating characteristic) — это зависимость мощности от уровня значимости или вероятности ошибки первого рода .
Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.
Литература
- Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006.
- Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
- Алимов Ю. И. Альтернатива методу математической статистики. — М.: Знание, 1980.
Ссылки
- Проверка статистических гипотез — о стандартной методике проверки статистических гипотез.
- P-value — статья в англоязычной Википедии.
- ROC curve — статья в англоязычной Википедии.