Участник:Riabenko/Песочница

Материал из MachineLearning.

Версия от 06:08, 26 октября 2012; Riabenko (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Задание 2. Исследование свойств многомерного статистического метода на модельных данных

Пример

Исследуем чувствительность однофакторного дисперсионного анализа к расстояниям между выборками и дисперсиям выборок.
$x_i^{n_i}, \;\; x_i \sim N(\mu_i, \sigma_i), \;\; i=1,\ldots,3,$
$\mu_2 = 0, \;\; -\mu_1=\mu_3 = \mu = 0\,:\,0.01\,:\,1,$
$\sigma_1=\sigma_2=\sigma_3 = 0.01\,:\,0.01\,:\,1,$
$n_1=n_2=n_3=20.$
Посмотрим, как от расстояний между выборками и дисперсий зависят средний достигаемый уровень значимости и мощность используемого по умолчанию критерия Фишера:

Значения достигаемого уровня значимости, усрёднённого по 3000 экспериментам.

Значения эмпирических оценок мощности критерия при проведении 3000 экспериментов $(\alpha=0.05).$

Для каждой пары значений параметров $\mu, \sigma$ мощность оценивается как доля выборок, на которых нулевая гипотеза о равенстве всех средних была отвергнута.

Зависимость выглядит естественно: мощность растёт при увеличении расстояний между выборками и уменьшении их дисперсий. Для данного размера выборок средний достигаемый уровень значимости не превосходит 0.05 для всех значений $\mu\geq \sigma/2$ , мощность при этом не опускается ниже 0.7.

Для сгенерированных выборок проведём сравнение средних при помощи метода LSD. Для каждой пары средних $X_1,X_2, \; X_2,X_3, \; X_1,X_3$ метод даёт точечную оценку разности между ними и 95% доверительный интервал для этой разности. Так как $X_2-X_1=X_3-X_2=\mu$ , для оценки параметра $\mu$ можно использовать среднее между оценками $X_2-X_1$ и $X_3-X_2$ .

Рассмотрим усреднённые оценки и границы доверительных интервалов:

Полученные при помощи метода LSD точечные и интервальные оценки параметра $\mu$ .

Заметим, что усреднённая точечная оценка расстояния между выборками $\mu$ является точной и не зависит от дисперсии выборок, а ширина доверительного интервала для $\mu$ , напротив, зависит только от $\sigma$ :

Точность оценки параметра $\mu$ и ширина доверительного интервала для неё.

Можно считать, что метод детектирует значимую на уровне $\alpha=0.05$ разность между средними значениями выборок, если соответствующий 95% доверительный интервал для неё не содержит нуля. Рассмотрим для каждой пары значений параметров $\mu, \sigma$ долю выборок, на которых была детектирована разница в $\mu$ между средними пар выборок $X_1, X_2$ и $X_2, X_3$ и разница в $2\mu$ между средними выборок $X_1, X_3$ :

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Riabenko/%D0%9F%D0%B5%D1%81%D0%BE%D1%87%D0%BD%D0%B8%D1%86%D0%B0»

Участник:Riabenko/Песочница

Материал из MachineLearning.

Задание 2. Исследование свойств многомерного статистического метода на модельных данных

Пример

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты