Статистический анализ данных (курс лекций, К.В.Воронцов)/2010

Материал из MachineLearning.

Версия от 13:28, 12 сентября 2010; Riabenko (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Задание 1. Исследование свойств одномерных статистических критериев на модельных данных
- 1.1 Пример задания
- 1.2 Задания

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:

график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
график зависимости достигаемого уровня значимости от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 100, 500, 1000 повторений);
график с эмпирическими оценками мощности критерия для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся $k$ раз для каждого набора значений параметра, и в $m$ из $k$ случаев гипотеза была отвергнута на некотором фиксированном уровне значимости $\alpha$ (примем $\alpha=0.05$ ), оценкой мощности будет отношение $m/k$ .

Необходимо сдать: выполненный в LaTex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.), а также *.m-файл.

Пример задания

Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при разных значениях параметров.

$x^n = (x_1,\ldots,x_n)\sim N(\mu_1,\sigma),\;\; y^n = (y_1,\ldots,y_n)\sim N(\mu_2,\sigma);$

$H_0\,:\; \mu_1=\mu_2,$

$H_1\,:\; \mu_1\neq\mu_2.$

$\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0.05\,:\,3; \;\;\; n=5\,:\,1\,:\,50.$

При каждом значении $\mu_2$ выборки для разных значений $n$ генерируются независимо.

График 1: значения достигаемого уровня значимости при однократной генерации выборок.

График 2: значения достигаемого уровня значимости, усрёднённые по 100 экспериментам.

График 3: значения эмпирических оценок мощности критерия при проведении 100 экспериментов ( $\alpha=0.05$ ).

Задания

Анализ устойчивости критериев к нарушению предположений

Исследовать устойчивость одновыборочного критерия Стьюдента к нарушению предположения о нормальности данных. $x^n$ — смесь распределений $N(\mu,1)$ и $U[-a+\mu,a+\mu]$ с весами $p$ и $1-p$ соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит $p$ , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного). Для разных значений параметров выборки генерируются независимо.
$H_0\,:\; \mu=0, \;\; H_1\,:\; \mu\neq 0;$
$p=0\,:\,0.02\,:\,1; \;\; \mu=-1\,:\,0.05\,:\,1; \;\; n=100.$
Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению выборки.

Студент 1: $a=1.$

Студент 2: $a=5.$

Студент 3: $a=10.$

Исследовать устойчивость двухвыборочного критерия Стьюдента для независимых выборок к нарушению предположения о нормальности данных. $x^n \sim N(\mu_1,1),$ $y^n$ — смесь распределений $N(\mu_2,1)$ и $U[-a+\mu_2,a+\mu_2]$ с весами $p$ и $1-p$ соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит $p$ , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного). Для разных значений параметров выборки генерируются независимо.
$H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;$
$\mu_1=0; \;\; p=0\,:\,0.02\,:\,1; \;\; \mu_2=-1\,:\,0.05\,:\,1; \;\; n=100.$
Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению одной из выборок.

Студент 8: $a=1.$

Студент 9: $a=5.$

Студент 10: $a=10.$

Анализ чувствительности критериев к редактированию выборки

Известно, что исключение из выборки определённых наблюдений зачастую может достаточно сильно повлиять на результат анализа. Необходимо исследовать чувствительность одновыборочного критерия критерия Стьюдента к редактированию выборки.
$x^n \sim N(\mu,\sigma);$
$H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu>0.$
При каждом значении параметра $\mu$ генерируется выборка размера $n$ , проводится проверка гипотезы $H_0$ , затем по некоторому правилу из выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и т.д. Обозначим за $K$ максимальное число исключённых в таком процессе элементов. Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к редактированию выборки.

Студент 4: $n=100;\;\;K=50;\;\;\sigma=1;\;\;\mu=-1\,:\,0.01\,:\,1;\;\;$ на каждом шаге исключается максимальный элемент.

Студент 5: $n=200;\;\;K=100;\;\;\sigma=5;\;\;\mu=-2\,:\,0.02\,:\,2;\;\;$ на каждом шаге исключается максимальный элемент.

Студент 6: $n=100;\;\;K=50;\;\;\sigma=2;\;\;\mu=-2\,:\,0.02\,:\,2;\;\;$ на каждом шаге исключается минимальный элемент.

Студент 7: $n=200;\;\;K=100;\;\;\sigma=5;\;\;\mu=-3\,:\,0.03\,:\,3;\;\;$ на каждом шаге исключается минимальный элемент.

Анализ поведения схожих критериев

Требуется исследовать поведение пары статистических критериев, решающих одну и ту же задачу, и сделать выводы о границах их применимости. Необходимо сделать вывод о том, в каких областях изменения параметров предпочтительнее использовать тот или иной критерий.

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29/2010»

Статистический анализ данных (курс лекций, К.В.Воронцов)/2010

Материал из MachineLearning.

Содержание

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Пример задания

Задания

Анализ устойчивости критериев к нарушению предположений

Анализ чувствительности критериев к редактированию выборки

Анализ поведения схожих критериев

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты