Участник:Riabenko/Песочница
Материал из MachineLearning.
Задание 2. Исследование свойств многомерного статистического метода на модельных данных
Пример
Исследуем чувствительность однофакторного дисперсионного анализа к расстояниям между выборками и дисперсиям выборок.
Посмотрим, как от расстояний между выборками и дисперсий зависят средний достигаемый уровень значимости и мощность используемого по умолчанию критерия Фишера:
Для каждой пары значений параметров мощность оценивается как доля выборок, на которых нулевая гипотеза о равенстве всех средних была отвергнута.
Зависимость выглядит естественно: мощность растёт при увеличении расстояний между выборками и уменьшении их дисперсий. Для данного размера выборок средний достигаемый уровень значимости не превосходит 0.05 для всех значений , мощность при этом не опускается ниже 0.7.
Для сгенерированных выборок проведём сравнение средних при помощи метода LSD. Для каждой пары средних метод даёт точечную оценку разности между ними и 95% доверительный интервал для этой разности. Так как , для оценки параметра можно использовать среднее между оценками и .
Рассмотрим усреднённые оценки и границы доверительных интервалов:
Заметим, что усреднённая точечная оценка расстояния между выборками является точной и не зависит от дисперсии выборок, а ширина доверительного интервала для , напротив, зависит только от :
Можно считать, что метод детектирует значимую на уровне разность между средними значениями выборок, если соответствующий 95% доверительный интервал для неё не содержит нуля. Рассмотрим для каждой пары значений параметров долю выборок, на которых была детектирована разница в между средними пар выборок и и разница в между средними выборок :