Прикладной статистический анализ данных (ФУПМ, курс лекций, 2017)
Материал из MachineLearning.
Лекторы: К. Воронцов, М. Хальман, Ш. Ишкина, А. Романенко, П. Швечиков.
Почта для практических заданий и вопросов по курсу: psad.homework@gmail.com Убедительная просьба в начале темы письма писать [ФУПМ], а также номер присланного задания или "Вопрос", если у письмо с вопросом по курсу.
Содержание |
Расписание занятий
Занятия проходят в 10:30 в аудитории 206. Адрес: Климентовский переулок, д. 1.
Дата | Тема | Лекция | Семинар |
---|---|---|---|
13.02.2017 | Базовые распределения, статистики и их свойства; Оценка параметров | Слайды | |
20.02.2017 | Проверка параметрических гипотез | Слайды | Задания на семинар Решения |
27.02.2017 | Проверка непараметрических гипотез | Слайды | Задания на семинар, Статья про boostrap, Решения |
6.03.2017 | Множественная проверка гипотез | Слайды | Задания на семинар, Решения |
13.03.2017 | Анализ зависимостей | Слайды | Задания на семинар, Решения |
20.03.2017 | Дисперсионный анализ | Слайды | Задания на семинар, |
27.03.2017 | Линейная регрессия | Слайды | Задания на семинар |
3.04.2017 | Дополнения и обобщения регрессии | Слайды | Задания на семинар, Решения |
10.04.2017 | Прогнозирование временных рядов, часть 1 | Слайды | Задания на семинар, Решения |
17.04.2017 | Прогнозирование временных рядов, часть 2 | Слайды | Задания на семинар, Решения |
24.04.2017 | Причинно-следственные связи | Слайды | Задания на семинар, Решения, Видео про CausalImpact |
Система выставления оценок по курсу
По курсу запланировано 4 практических заданий.
Итоговая оценка по курсу вычисляется по следующей формуле: <ОЦЕНКА> = round(2 * <НАКОПЛЕННАЯ> – 2), где round осуществляет округление к ближайшему целому: round(7.5)=8; round(7.4)=7
Практическая работа
Основные ссылки
- Для работы на семинарах вам понадобятся ноутбуки с установленными на них R и RStudio.
- Инструкция по установке и запуску swirl
- Некоторые основные опции Rmarkdown
- Advanced R – для тех, кто хочет разобраться в том, как работает R изнутри
Для того, чтобы успешно выполнять практические задания и работать на семинаре, вам необходимо приобрести минимальные навыки работы в R.
Для этого скачайте R, RStudio, и установите swirl (ссылки приведены выше).
До семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R" пакета swirl (инструкция по установке и запуску swirl) следующие уроки:
- 1: Basic Building Blocks
- 4: Vectors
- 7: Matrices and Data Frames
- 10: lapply and sapply
- 13: Simulation
- 15: Base Graphics
В противном случае на семинаре вы не сможете полноценно влиться в работу и получите дополнительные сложности при выполнении практических заданий.
Практические задания
Дедлайн по заданию мягкий, за каждый день просрочки снимается 0.05 баллов.
Просрочка считается исходя из чистого времени, которое студент выполняет задание (при подсчете просрочки не учитывается время, которое задание находилось на проверке). Проверяющий может вернуть работу (с разъяснящими комментариями) на доработку (без потери баллов) не более одного раза.
В случае доработки задания проверяющий выставляет оценку исходя из выполнения условий задачи и требованных доработок. Отправлять задание можно не более двух раз. После второй отправки задание будет оценено окончательно.
Номер задания | Дата выдачи | Дедлайн | Название работы | Максимальный балл |
---|---|---|---|---|
1 | 4.03 | 18.03 23:59 | Основы проверки гипотез | 1 |
2 | 21.03 | 4.04 23:59 | Проверка статгипотез | 1.5 |
3 | 12.04 | 26.04 23:59 | Линейная и обобщенная линейная регрессия | 2 |
4 | 26.04 | 10.05 23:59 | Прогнозирование временных рядов | 1.5 |
Литература
1. Основная литература
- Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
- Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Лагутин, М.Б. Наглядная математическая статистика. — М.: П-центр, 2003.
- Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
- Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. — Boca Raton: Chapman and Hall/CRC, 2013.
- Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
- Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
- Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.
- Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. — OpenIntro, 2015.
- Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp
- Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
- Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
- Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
- Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
- Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
- Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
2. Дополнительная литература
- Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
- Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
- Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
- Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
- Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
- Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. — New York: Springer, 2013.