Статистический анализ данных (курс лекций, К.В.Воронцов)/2014

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Оценки)
Текущая версия (09:19, 20 февраля 2015) (править) (отменить)
м (Оценки)
 
(107 промежуточных версий не показаны.)
Строка 2: Строка 2:
= Оценки =
= Оценки =
{|class = "wide sortable"
{|class = "wide sortable"
-
! | Студент || №1 (1) || №2 (1) || №3 (2) || Рецензирование №3 (1) || №4 (2) || Рецензирование №4 (1) || Дополнительно (2)|| Сумма за семестр (10)|| Оценка
+
! | Студент || №1 (1) || №2 (1) || №3 (2.1) || Рецензирование №3 (1) || №4 (2.1) || Рецензирование №4 (1) || Дополнительно (1.8)|| Сумма за семестр (10)|| Оценка
|-
|-
-
|| Алешин Илья || || || || || || || || ||
+
|| Алешин Илья || 0 || || 1.3 || 1 (Подоприхин) || 1.4 || 0 (Шабашев) || 1.8 || 5.5 || 3
|-
|-
-
|| Антипов Алексей || || || || || || || || ||
+
|| Антипов Алексей || 0 || || 2 || || 2 || 1 (Алешин) || 1.8 || 6.8 || 4
|-
|-
-
|| Арбузова Дарья || 1 || || || || || || || 1 ||
+
|| Арбузова Дарья || 1 || 1 || 2.1 || 1 (Петров) || 2.1 || 1 (Ломов) ||1.8 || 10 || 5
|-
|-
-
|| Горелов Алексей || 0.9 || || || || || || || 0.9 ||
+
|| Горелов Алексей || 0.9 || 0.5 || 2.1 || 1 (Найдин) || || || || 4.5 || 3
|-
|-
-
|| Зиннурова Эльвира || 0.9 || || || || || || || ||
+
|| Зиннурова Эльвира || 0.9 || 0.9 || 2.1 || 1 (Ульянов) || 2.1 || 1 (Шадриков) || 1.8 || 9.8 || 5
|-
|-
-
|| Исмагилов Тимур || || || || || || || || ||
+
|| Исмагилов Тимур || 0.2 || || 2.1 || 1 (Львов) || || || 1.8 || 5.1 || 3
|-
|-
-
|| Калиновский Илья || || || || || || || || ||
+
|| Ломов Никита || 0.6 || 0.7 || 2.1 || 1 (Горелов) || 1.2 || 1 (Никифоров) || 1.8 || 8.4 || 5
|-
|-
-
|| Корольков Михаил || || || || || || || || ||
+
|| Львов Сергей || 0 || || 1.9 || 1 (Сокурский) || 1.1 || 1 (Подоприхин) || 1.8 || 6.8 || 4
|-
|-
-
|| Ломов Никита || || || || || || || || ||
+
|| Найдин Олег || 1 || 1 || 2.1 || 1 (Зиннурова) || 2.1 || 1 (Харациди) || 1.8 || 10 || 5
|-
|-
-
|| Львов Сергей || || || || || || || || ||
+
|| Никифоров Андрей || 1 || 0.8 || 2.1 || 0 (Харациди) || 2.1 || 1 (Арбузова) || 1.8 || 8.8 || 5
|-
|-
-
|| Найдин Олег || || || || || || || || ||
+
|| Новиков Александр || 0.2 || 0.6 || 1.7 || || 1.5 || 1 (Найдин) || 3.3 || 8.3 || 5
|-
|-
-
|| Никифоров Андрей || 1 || || || || || || || 1 ||
+
|| Петров Григорий || 0.9 || 0.8 || 1.4 || 1 (Алешин) || 1.7 || 1 (Рыжков) || 1.8 || 8.6 || 5
|-
|-
-
|| Новиков Александр || || || || || || || || ||
+
|| Подоприхин Дмитрий || 1 || 1 || 2.1 || 1 (Исмагилов) || 2.1 || (Сокурский) || 1.8 || 9 || 5
|-
|-
-
|| Петров Григорий || || || || || || || || ||
+
|| Рыжков Александр || 1 || 1 || 2.1 || 1 (Арбузова) || 2.1 || 1 (Львов) || 1.8 || 10 || 5
|-
|-
-
|| Подоприхин Дмитрий || 1 || || || || || || || 1 ||
+
|| Сокурский Юрий || || 0.5 || 1.575 || 1 (Ломов) || 1.05 || 0 (Ульянов) || || 4.125 ||
|-
|-
-
|| Рыжков Александр || 1 || || || || || || || 1 ||
+
|| Ульянов Дмитрий || 0.4 || 1 || 1.8 || 1 (Шадриков) || 2 || 1 (Зиннурова) || 1.8 || 9 || 5
|-
|-
-
|| Сокурский Юрий || || || || || || || || ||
+
|| Харациди Олег || 0 || || 1.1 || 1 (Никифоров) || 1.6 || 1 (Петров) || 1.8 || 6.5 || 4
|-
|-
-
|| Ульянов Дмитрий || || || || || || || || ||
+
|| Шабашев Федор || 0.5 || || || || 1.6 || 1 (Антипов) || 1.8 || 4.9 || 3
|-
|-
-
|| Харациди Олег || || || || || || || || ||
+
|| Шадриков Андрей || 0.9 || || 2.1 || 0 (Рыжков) || 2 || 0 (Новиков) || 3.3 || 8.3 || 5
-
|-
+
-
|| Шабашев Федор || || || || || || || || ||
+
-
|-
+
-
|| Шадриков Андрей || 0.9 || || || || || || || 0.9 ||
+
|}
|}
* Задание считается сданным на момент получения проверяющим письма с отчётом (и кодом, если это указано в задании), при условии отсутствия необходимости внесения дополнений и исправлений.
* Задание считается сданным на момент получения проверяющим письма с отчётом (и кодом, если это указано в задании), при условии отсутствия необходимости внесения дополнений и исправлений.
Строка 50: Строка 46:
* Для допуска к экзамену необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух.
* Для допуска к экзамену необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух.
* Балл за рецензирование можно получить только при условии сдачи соответствующего задания.
* Балл за рецензирование можно получить только при условии сдачи соответствующего задания.
-
* Дополнительные два балла можно получить, предъявив сертификат по курсу Data Analysis and Statistical Inference: https://www.coursera.org/course/statistics.
+
* Дополнительные баллы можно получить, предъявив сертификат по курсу Data Analysis and Statistical Inference: https://www.coursera.org/course/statistics.
-
* Итоговая оценка по курсу рассчитывается по формуле <tex>\min\left(\left(0.99+Homework\right)/2, Exam\right)</tex>, где <tex>Homework</tex>&nbsp;— сумма баллов, заработанных в течение семестра, <tex>Exam</tex> — оценка на устном экзамене. Округление делается по стандартным правилам.
+
* Итоговая оценка по курсу рассчитывается по формуле <tex>\min\left(\left(0.8+Homework\right)/2, Exam\right)</tex>, где <tex>Homework</tex>&nbsp;— сумма баллов, заработанных в течение семестра, <tex>Exam</tex> — оценка на устном экзамене. Округление делается по стандартным правилам.
 +
* Студенты, не набравшие баллов достаточно для получения положительной оценки, к экзамену не допускаются. На каждой следующей итерации сдачи экзамена максимальный балл каждой задачи уменьшается вдвое. При этом можно брать по несколько задач каждого задания, но не больше <tex>2^{n-1}</tex>, где <tex>n</tex>—&nbsp; номер итерации сдачи экзамена. Баллы за рецензирование можно получить только на первой итерации.
= Задание 1. Исследование свойств одномерных статистических критериев на модельных данных =
= Задание 1. Исследование свойств одномерных статистических критериев на модельных данных =
Строка 83: Строка 80:
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014/2|Постановки задач]].
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014/2|Постановки задач]].
-
<!---Задание принимается до '''23:59 2.04'''.--->
+
Задание принимается до '''23:59 18.10'''.
== Задание 3. Регрессия ==
== Задание 3. Регрессия ==
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014/3|Постановки задач]].
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014/3|Постановки задач]].
-
<!---Предварительные версии отчётов принимаются до '''23:59 20.04''', финальные, по результатам работы с рецензентом — до '''23:59 28.04'''.--->
+
Предварительные версии отчётов принимаются до '''23:59 20.11''', финальные, по результатам работы с рецензентом — до '''23:59 27.11'''.
 +
 
 +
С 29.11 по 7.12 проверки заданий не будет.
== Задание 4. Прогнозирование ==
== Задание 4. Прогнозирование ==
-
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014/4|Постановки задач]].
+
Для прогнозирования необходимо самостоятельно выбрать уникальный временной ряд из любого источника, например:
 +
* Time Series Data Library на https://datamarket.com/data/list/?q=provider:tsdl; регистрация в настоящий момент закрыта, для скачивания можно использовать логин goolars@gmail.com, пароль PSADACC;
 +
* http://www.comp-engine.org/timeseries/browse-data-by-category из категории real-world.
 +
Рекомендуется выбирать ряд от нескольких сотен до нескольких тысяч отсчётов с целым периодом сезонности не больше 20 отсчётов.
 +
Выбранный ряд нужно занести в таблицу https://docs.google.com/spreadsheets/d/1CyqcJ21rbJ-SUZBGDPazwGNv4wPbPSVpXZ5uPRlO6_w/edit?usp=sharing
-
<!---Предварительные версии отчётов принимаются до '''23:59 5.05''', финальные, по результатам работы с рецензентом — до '''23:59 14.05'''.--->
+
Предварительные версии отчётов принимаются до '''23:59 13.12''', финальные, по результатам работы с рецензентом — до '''23:59 20.12'''.
= Ссылки =
= Ссылки =

Текущая версия

Содержание

Оценки

Студент №1 (1) №2 (1) №3 (2.1) Рецензирование №3 (1) №4 (2.1) Рецензирование №4 (1) Дополнительно (1.8) Сумма за семестр (10) Оценка
Алешин Илья 0 1.3 1 (Подоприхин) 1.4 0 (Шабашев) 1.8 5.5 3
Антипов Алексей 0 2 2 1 (Алешин) 1.8 6.8 4
Арбузова Дарья 1 1 2.1 1 (Петров) 2.1 1 (Ломов) 1.8 10 5
Горелов Алексей 0.9 0.5 2.1 1 (Найдин) 4.5 3
Зиннурова Эльвира 0.9 0.9 2.1 1 (Ульянов) 2.1 1 (Шадриков) 1.8 9.8 5
Исмагилов Тимур 0.2 2.1 1 (Львов) 1.8 5.1 3
Ломов Никита 0.6 0.7 2.1 1 (Горелов) 1.2 1 (Никифоров) 1.8 8.4 5
Львов Сергей 0 1.9 1 (Сокурский) 1.1 1 (Подоприхин) 1.8 6.8 4
Найдин Олег 1 1 2.1 1 (Зиннурова) 2.1 1 (Харациди) 1.8 10 5
Никифоров Андрей 1 0.8 2.1 0 (Харациди) 2.1 1 (Арбузова) 1.8 8.8 5
Новиков Александр 0.2 0.6 1.7 1.5 1 (Найдин) 3.3 8.3 5
Петров Григорий 0.9 0.8 1.4 1 (Алешин) 1.7 1 (Рыжков) 1.8 8.6 5
Подоприхин Дмитрий 1 1 2.1 1 (Исмагилов) 2.1 (Сокурский) 1.8 9 5
Рыжков Александр 1 1 2.1 1 (Арбузова) 2.1 1 (Львов) 1.8 10 5
Сокурский Юрий 0.5 1.575 1 (Ломов) 1.05 0 (Ульянов) 4.125
Ульянов Дмитрий 0.4 1 1.8 1 (Шадриков) 2 1 (Зиннурова) 1.8 9 5
Харациди Олег 0 1.1 1 (Никифоров) 1.6 1 (Петров) 1.8 6.5 4
Шабашев Федор 0.5 1.6 1 (Антипов) 1.8 4.9 3
Шадриков Андрей 0.9 2.1 0 (Рыжков) 2 0 (Новиков) 3.3 8.3 5
  • Задание считается сданным на момент получения проверяющим письма с отчётом (и кодом, если это указано в задании), при условии отсутствия необходимости внесения дополнений и исправлений.
  • Штраф за просрочку сдачи заданий начисляется из расчета 0.1 балла за сутки.
  • Для допуска к экзамену необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух.
  • Балл за рецензирование можно получить только при условии сдачи соответствующего задания.
  • Дополнительные баллы можно получить, предъявив сертификат по курсу Data Analysis and Statistical Inference: https://www.coursera.org/course/statistics.
  • Итоговая оценка по курсу рассчитывается по формуле \min\left(\left(0.8+Homework\right)/2, Exam\right), где Homework — сумма баллов, заработанных в течение семестра, Exam — оценка на устном экзамене. Округление делается по стандартным правилам.
  • Студенты, не набравшие баллов достаточно для получения положительной оценки, к экзамену не допускаются. На каждой следующей итерации сдачи экзамена максимальный балл каждой задачи уменьшается вдвое. При этом можно брать по несколько задач каждого задания, но не больше 2^{n-1}, где n—  номер итерации сдачи экзамена. Баллы за рецензирование можно получить только на первой итерации.

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:

  1. график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
  2. график зависимости достигаемого уровня значимости одного или двух критериев от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 1000 повторений);
  3. график с эмпирическими оценками мощности одного или двух критериев для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся k раз для каждого набора значений параметров, и в m из k случаев гипотеза была отвергнута на некотором фиксированном уровне значимости \alpha (примем \alpha=0.05), оценкой мощности будет отношение m/k.

Необходимо сдать: отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т. д.), а также код на R, Матлабе или Питоне, при запуске которого на экран выводятся графики, соответствующие имеющимся в отчёте.

Постановки задач.

Пример решения: чувствительность двухвыборочного критерия Стьюдента.

Задание принимается до 23:59 28.09.

Задания 2-4. Работа с реальными данными

Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Необходимо сдать: подробный отчёт по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики.

По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает балл, если:

  • его собственная работа засчитана;
  • либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось.

Задание 2. Проверка гипотез

Постановки задач.

Задание принимается до 23:59 18.10.

Задание 3. Регрессия

Постановки задач.

Предварительные версии отчётов принимаются до 23:59 20.11, финальные, по результатам работы с рецензентом — до 23:59 27.11.

С 29.11 по 7.12 проверки заданий не будет.

Задание 4. Прогнозирование

Для прогнозирования необходимо самостоятельно выбрать уникальный временной ряд из любого источника, например:

Рекомендуется выбирать ряд от нескольких сотен до нескольких тысяч отсчётов с целым периодом сезонности не больше 20 отсчётов. Выбранный ряд нужно занести в таблицу https://docs.google.com/spreadsheets/d/1CyqcJ21rbJ-SUZBGDPazwGNv4wPbPSVpXZ5uPRlO6_w/edit?usp=sharing

Предварительные версии отчётов принимаются до 23:59 13.12, финальные, по результатам работы с рецензентом — до 23:59 20.12.

Ссылки