Обучение с подкреплением (курс лекций) / 2024

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.

Отдельная благодарность Дмитрию Кропотову за создание и организацию курса.

Читается для студентов 617-й группы, а также для студентов других кафедр в качестве спецкурса.

Преподаватели: Темирчев Павел, Илья Синильщиков, Алексей Медведев, Дмитрий Медведев, Алексей Панков, Тингир Бадмаев.

Расписание: Занятия проводятся в офлайн формате (за редкими исключениями, о чем будет объявлено специально).

лекции: по пятницам в 14-35, ауд. 510
семинары: по пятницам в 16:20, ауд. 510

Канал в Telegram: ссылка

Чат в Telegram: ссылка

Видеозаписи занятий: TBA

Репозиторий с домашними заданиями: ссылка

Критерии оценки

В курсе предусмотрено шесть лабораторных работ в формате ноутбуков. Для студентов кафедры ММП также предусмотрен устный экзамен. Для студентов, сдающих курс как спецкурс, итоговая оценка выставляется на основе только лабораторных работ.

Балл за лабораторные работы вычисляется по формуле:

Лаб = 10 * сумма_набранных_баллов / максимальный_балл_за_лабораторные

Оценка за курс в десятибалльной шкале для студентов, сдающих его как спецкурс:

Итоговая_оценка_спецкурс = Округл.вверх (Лаб)

Оценка за курс в десятибалльной шкале для студентов кафедры ММП:

Итоговая_оценка_ммп = Округл.вверх (0.3 * Экз + 0.7 * Лаб)

Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6).

Помимо баллов необходимо также выполнить следующие условия (условие на оценку за экзамен касается только студентов кафедры ММП):

Итог	Необходимые условия
5	сдано не менее 5 заданий, оценка за экзамен >= 6
4	сдано не менее 4 заданий, оценка за экзамен >= 4
3	сдано не менее 3 заданий, оценка за экзамен >= 4

Домашние задания

Максимальный балл за лабораторные - 89 баллов. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания.

Сдавать лабораторные можно в течение недели после мягкого дедлайна (работы сданные в этот период облагаются штрафом: см. таблицу ниже). Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).

Лабораторная	Ориентировочная дата выдачи (может быть изменена!)	Срок	Баллы	Штраф за день опоздания
Deep Crossentropy Method	22 сентября	1 неделя	12	-0.3
Policy Iteration + Theory	27 сентября	1 неделя	10	-0.3
DQN	11 октября	2 недели	17	-0.6
A2C	1 ноября	2 недели	20	-0.6
PPO	15 ноября	1 неделя	10	-0.3
SAC/TD3	29 ноября	1 неделя	10	-0.3

Расписание занятий

Дата	Формат	Занятие	Материалы	Дополнительные материалы
Лекция 20 сентября	Очно	Введение в курс. Кросс-энтропийный метод (CEM).	Слайды занятия CEM for optimization Tetris with CEM	OpenAI ES Обзор эволюционных стратегий WANN
Семинар 20 сентября	Очно	Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода.	Знакомство с GYM Табличный CEM
Лекция 27 сентября	Очно	Динамическое программирование. Value Iteration, Policy Iteration.	Sutton, Barto, ch.3-4	A (Long) Peek into Reinforcement Learning
Семинар 27 сентября	Онлайн	Реализация Value Iteration.
Лекция 4 октября	Очно	Табличные методы. TD-обучение, Q-обучение.	Слайды занятия Sutton, Barto, ch.5-6	Визуализация TD-обучения (distill)
Семинар 4 октября	Онлайн	Табличное Q-обучение.
Лекция 11 октября	Очно	Deep Q-Network (DQN) и его модификации.	Слайды занятия DQN Double DQN Prioritized Experience Replay Noisy Networks Dueling DQN	R2D2 Agent57
Лекция 18 октября	Очно	Distributional RL. Quantile Regression DQN (QR-DQN).	Categorical DQN QR-DQN	Implicit Quantile Networks (IQN) Rainbow DQN
Лекция 25 октября	Очно	Многорукие бандиты, внутренняя мотивация для исследования среды.	полезный ресурс по бандитам Слайды занятия Sutton, Barto, ch.2 Random Network Distillation (RND) Intrinsic Curiosity Module (ICM)	Обзор модулей внутренней мотивации Variational Information Maximizing Exploration (VIME) Never Give Up (NGU)
Семинар 25 октября	Очно	Бернулиевские бандиты, ICM, RND.
Лекция 1 ноября	Очно	Policy gradient подход. Advantage Actor-Critic (A2C).	Sutton, Barto, ch.13 A2C	Обзор Policy Gradient алгоритмов Комикс про A2C
Семинар 1 ноября	Очно	Реализация policy gradient
Лекция 8 ноября	Очно	Proximal Policy Optimization (PPO) и Generalized Advantage Estimation (GAE).	Слайды занятия TRPO PPO GAE	Implementation matters in RL Sutton, Barto, ch.12
Лекция 15 ноября	Очно	DDPG, Soft Actor Critic.	Deep Deterministic Policy Gradient (DDPG) Twin-Delayed DDPG (TD3) Soft Actor-Critic (SAC)	Truncated Quantile Critics (TQC) RL as probabilistic inference
Лекция 22 ноября	Очно	Имитационное обучение. Обратное обучение с подкреплением.	Guided Cost Learning Generative Adversarial Imitation Learning (GAIL)
Лекция 29 ноября	Очно	Monte Carlo Tree Search. AlphaZero, MuZero.	AlphaZero MuZero	AlphaZero in one picture
Лекция 6 декабря	Очно	Linear Quadratic Regulator (LQR). Model-based RL. Dreamer.	Презентация по MCTS и LQR Презентация по Model-based RL Dreamer v1 Dreamer v2	World Models
Лекция 13 декабря	Очно	LLM Alignment, RL from human feedback.
Лекция 20 декабря	Очно	Partially observable MDPs (POMDPs).

Страницы курса прошлых лет

2020-й год
2021-й год
2022-й год
2023-й год

Материалы

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%29_/_2024»

Категории: Учебные курсы | Обучение с подкреплением

@@ Строка 86: / Строка 86: @@
 | Введение в курс. Кросс-энтропийный метод (CEM).
 |
+* [https://disk.yandex.ru/i/5n3CXZM6FuHheQ Слайды занятия]
 * [https://people.smp.uq.edu.au/DirkKroese/ps/CEopt.pdf CEM for optimization]<br>
 * [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.81.6579&rep=rep1&type=pdf Tetris with CEM]

Обучение с подкреплением (курс лекций) / 2024

Материал из MachineLearning.

Текущая версия

Содержание

Критерии оценки

Домашние задания

Расписание занятий

Страницы курса прошлых лет

Материалы

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты