Участник:Riabenko/Песочница

Материал из MachineLearning.

< Участник:Riabenko(Различия между версиями)
Перейти к: навигация, поиск
м
Текущая версия (23:34, 29 октября 2012) (править) (отменить)
м (Полностью удалено содержимое страницы)
 
(3 промежуточные версии не показаны)
Строка 1: Строка 1:
-
= Задание 2. Исследование свойств многомерного статистического метода на модельных данных =
 
-
== Пример ==
 
-
Исследуем чувствительность однофакторного дисперсионного анализа к расстояниям между выборками и дисперсиям выборок. <br>
 
-
<tex>x_i^{n_i}, \;\; x_i \sim N(\mu_i, \sigma_i), \;\; i=1,\ldots,3,</tex> <br>
 
-
<tex>\mu_2 = 0, \;\; -\mu_1=\mu_3 = \mu = 0\,:\,0.01\,:\,1,</tex> <br>
 
-
<tex>\sigma_1=\sigma_2=\sigma_3 = 0.01\,:\,0.01\,:\,1,</tex> <br>
 
-
<tex>n_1=n_2=n_3=20.</tex> <br>
 
-
Посмотрим, как от расстояний между выборками и дисперсий зависят средний достигаемый уровень значимости и мощность используемого по умолчанию критерия Фишера:
 
-
<gallery widths="250px" heights="250px">
 
-
Изображение:Anova_p_3000.png|Значения достигаемого уровня значимости, усрёднённого по 3000 экспериментам.
 
-
Изображение:Anova_power_3000.png|Значения эмпирических оценок мощности критерия при проведении 3000 экспериментов <tex>(\alpha=0.05).</tex>
 
-
</gallery>
 
-
Для каждой пары значений параметров <tex>\mu, \sigma</tex> мощность оценивается как доля выборок, на которых нулевая гипотеза о равенстве всех средних была отвергнута.
 
-
Зависимость выглядит естественно: мощность растёт при увеличении расстояний между выборками и уменьшении их дисперсий. Для данного размера выборок средний достигаемый уровень значимости не превосходит 0.05 для всех значений <tex>\mu\geq \sigma/2</tex>, мощность при этом не опускается ниже 0.7.
 
-
 
-
Для сгенерированных выборок проведём сравнение средних при помощи метода LSD. Для каждой пары средних <tex>X_1,X_2, \; X_2,X_3, \; X_1,X_3</tex> метод даёт точечную оценку разности между ними и 95% доверительный интервал для этой разности. Так как <tex>X_2-X_1=X_3-X_2=\mu</tex>, для оценки параметра <tex>\mu</tex> можно использовать среднее между оценками <tex>X_2-X_1</tex> и <tex>X_3-X_2</tex>.
 
-
 
-
Рассмотрим усреднённые оценки и границы доверительных интервалов:
 
-
<gallery widths="750px" heights="250px">
 
-
Изображение:LSD_mu.png|Полученные при помощи метода LSD точечные и интервальные оценки параметра <tex>\mu</tex>.
 
-
</gallery>
 
-
Заметим, что усреднённая точечная оценка расстояния между выборками <tex>\mu</tex> является точной и не зависит от дисперсии выборок, а ширина доверительного интервала для <tex>\mu</tex>, напротив, зависит только от <tex>\sigma</tex>:
 
-
<gallery widths="500px" heights="250px">
 
-
Изображение:LSD_mu2.png|Точность оценки параметра <tex>\mu</tex> и ширина доверительного интервала для неё.
 
-
</gallery>
 
-
Можно считать, что метод детектирует значимую на уровне <tex>\alpha=0.05</tex> разность между средними значениями выборок, если соответствующий 95% доверительный интервал для неё не содержит нуля. Рассмотрим для каждой пары значений параметров <tex>\mu, \sigma</tex> доли выборок, на которых разница в <tex>\mu</tex> между средними пар выборок <tex>X_1, X_2</tex> и <tex>X_2, X_3</tex> и разница в <tex>2\mu</tex> между средними выборок <tex>X_1, X_3</tex> была детектирована.
 
-
<gallery widths="500px" heights="250px">
 
-
Изображение:LSD_3.png|Доля выборок с детектитуемыми различиями при различных значениях <tex>\mu</tex> и <tex>\sigma</tex>.
 
-
</gallery>
 
-
Сравнивая последний график с построенными оценками мощности критерия Фишера, можно заметить, что метод ЛСД обладает большей чувствительностью к разнице между средними значениями выборок. Различия заметны в области <tex>\sigma/10\leq\mu\leq\sigma/2</tex>, где мощность критерия Фишера может быть ниже более, чем на 0.12:
 
-
<gallery widths="250px" heights="250px">
 
-
Изображение:Fpow-LSD3.png|Разность эмпирических оценок мощностей критерия Фишера и метода ЛСД для детекции различия между средними выборок <tex>X_1, X_3</tex>.
 
-
</gallery>
 

Текущая версия

Личные инструменты