Обучение с подкреплением (курс лекций) / 2021

Материал из MachineLearning.

Версия от 19:19, 15 сентября 2021; Sergey Ivanov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.

Читается в 3-м семестре для магистров каф. ММП.

Преподаватели: Кропотов Дмитрий, Бобров Евгений, Иванов Сергей, Темирчев Павел

Расписание: по вторникам в 12-15, ауд. 507

Канал в Telegram: ссылка

Критерии оценки

В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:

Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)

Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:

Итог	Необходимые условия
5	сдано не менее 5 заданий, оценка за экзамен >= 6
4	сдано не менее 4 заданий, оценка за экзамен >= 4
3	сдано не менее 3 заданий, оценка за экзамен >= 4

Домашние задания

Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.

Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).

Лабораторная	Ориентировочная дата выдачи (может быть изменена!)	Срок	Баллы	Штраф за день опоздания
CEM	14 сентября	1 неделя	10	-0.3
Dyn. prog.	21 сентября	1 неделя	10	-0.3
DQN	5 октября	2 недели	20	-0.6
A2C	19 октября	2 недели	20	-0.6
PPO	2 ноября	2 недели	20	-0.6
MCTS	23 ноября	2 недели	20	-0.6

Экзамен

На экзамене все студенты берут случайный билет. В течение часа студент самостоятельно пишет ответ на экзаменационный вопрос. При этом можно пользоваться любыми материалами. Далее студент устно отвечает билет экзаменатору.

Список вопросов к экзамену: TBA

Расписание занятий

	Занятие	Материалы	Дополнительные материалы
Лекция 7 сентября	Введение в курс. Кросс-энтропийный метод (CEM).	CEM for optimization Tetris with CEM	OpenAI ES Обзор эволюционных стратегий WANN
Лекция 14 сентября	Динамическое программирование. Value Iteration, Policy Iteration.	Sutton, Barto, ch.3-4	A (Long) Peek into Reinforcement Learning
Семинар 14 сентября	Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода.
Лекция 21 сентября	Табличные методы	Sutton, Barto, ch.6	Визуализация TD-обучения (distill)
Семинар 28 сентября	Q-обучение.
Лекция 5 октября	DQN и его модификации	DQN Double DQN Prioritized Experience Replay	R2D2 Agent57
Лекция 12 октября	Distributional RL. Categorical DQN (c51), Quantile Regression DQN (QR-DQN).	Видеолекция Categorical DQN QR-DQN	Implicit Quantile Networks (IQN) Rainbow DQN
Лекция 19 октября	Policy gradient подход. Advantage Actor-Critic (A2C).	Sutton, Barto, ch.13 A2C	Обзор Policy Gradient алгоритмов Комикс про A2C
Семинар 19 октября	REINFORCE
Лекция 26 октября	Trust-Region Policy Optimization (TRPO).	TRPO
Лекция 2 ноября	Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO).	GAE PPO	Implementation matters in RL Sutton, Barto, ch.12
Лекция 9 ноября	Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC).	DDPG SAC	Twin-Delayed DDPG (TD3)
Лекция 16 ноября	Имитационное обучение. Обратное обучение с подкреплением.	Guided Cost Learning GAIL	RL as probabilistic inference
Лекция 23 ноября	Monte-Carlo Tree Search. AlphaZero, MuZero.	AlphaZero MuZero	AlphaZero in one picture
Лекция 30 ноября	Linear Quadratic Regulator (LQR). Model-based RL.	Презентация по MCTS и LQR Презентация по Model-based RL	World Models Dreamer v.2

Страницы курса прошлых лет

2020й год

Материалы

Полунеофициальный конспект (возможны ошибки! Просьба всем собирать баги и опечатки!)
Курс Practical RL (ШАД)
Курс Deep Reinforcement Learning (CS 285), UC Berkeley

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%29_/_2021»

Категории: Учебные курсы | Обучение с подкреплением

Обучение с подкреплением (курс лекций) / 2021

Материал из MachineLearning.

Содержание

Критерии оценки

Домашние задания

Экзамен

Расписание занятий

Страницы курса прошлых лет

Материалы

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты