Обучение с подкреплением (курс лекций) / 2021

Материал из MachineLearning.

(Различия между версиями)

Версия 07:44, 15 сентября 2021

В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.

Читается в 3-м семестре для магистров каф. ММП.

Преподаватели: Кропотов Дмитрий, Бобров Евгений, Иванов Сергей, Темирчев Павел

Расписание: по вторникам в 12-15, ауд. 507

Канал в Telegram: ссылка

Критерии оценки

В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:

Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)

Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:

Итог	Необходимые условия
5	сдано не менее 5 заданий, оценка за экзамен >= 6
4	сдано не менее 4 заданий, оценка за экзамен >= 4
3	сдано не менее 3 заданий, оценка за экзамен >= 4

Домашние задания

Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.

Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).

Лабораторная	Ориентировочная дата выдачи (может быть изменена!)	Срок	Баллы	Штраф за день опоздания
CEM	14 сентября	1 неделя	10 (+5 бонусных)	-0.3
Dyn. prog.	28 сентября	1 неделя	10	-0.3
DQN	12 октября	2 недели	20	-0.6
A2C	2 ноября	2 недели	20	-0.6
PPO	23 ноября	2 недели	20	-0.6
MCTS	14 декабря	2 недели	20	-0.6

Экзамен

На экзамене все студенты берут случайный билет. В течение часа студент самостоятельно пишет ответ на экзаменационный вопрос. При этом можно пользоваться любыми материалами. Далее студент устно отвечает билет экзаменатору.

Список вопросов к экзамену: TBA

Расписание занятий

	Занятие	Материалы	Дополнительные материалы
Лекция 7 сентября	Введение в курс. Кросс-энтропийный метод (CEM).	CEM for optimization Tetris with CEM	OpenAI ES Обзор эволюционных стратегий WANN
Лекция 14 сентября	Динамическое программирование. Value Iteration, Policy Iteration.	Sutton, Barto, ch.3-4	A (Long) Peek into Reinforcement Learning
Семинар 14 сентября	Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода.
Лекция 21 сентября	TD-обучение. Deep Q-Network (DQN).	Sutton, Barto, ch.6 DQN	Визуализация TD-обучения (distill) Double DQN Prioritized Experience Replay R2D2 Agent57
Семинар 21 сентября	Q-обучение.

Страницы курса прошлых лет

2020й год

Материалы

Полунеофициальный конспект (возможны ошибки! Просьба всем собирать баги и опечатки!)
Курс Practical RL (ШАД)
Курс Deep Reinforcement Learning (CS 285), UC Berkeley

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%29_/_2021»

Категории: Учебные курсы | Обучение с подкреплением

@@ Строка 9: / Строка 9: @@
 '''Расписание:''' по вторникам в 12-15, ауд. 507
-'''Канал в Telegram группе:''' [https://t.me/joinchat/VkEFFxdonGFlMzAy ссылка]
+'''Канал в Telegram:''' [https://t.me/joinchat/VkEFFxdonGFlMzAy ссылка]
 ==Критерии оценки==
-В курсе предусмотрено пять лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
+В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
 '''Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)'''
@@ Строка 38: / Строка 38: @@
  !Лабораторная !! Ориентировочная дата выдачи<br>(может быть изменена!) !! Срок !! Баллы !! Штраф<br> за день опоздания
  |-
- | CEM || 14 сентября || 1 неделя || 10 || -0.5
+ | CEM || 14 сентября || 1 неделя || 10 (+5 бонусных) || -0.3
  |-
- | Dyn. prog. || 28 сентября || 1 неделя || 10 || -0.5
+ | Dyn. prog. || 28 сентября || 1 неделя || 10 || -0.3
  |-
- | DQN || 12 октября || 2 недели || 20 || -1
+ | DQN || 12 октября || 2 недели || 20 || -0.6
  |-
- | A2C || 2 ноября || 2 недели || 20 || -1
+ | A2C || 2 ноября || 2 недели || 20 || -0.6
  |-
- | PPO || 23 ноября || 2 недели || 20 || -1
+ | PPO || 23 ноября || 2 недели || 20 || -0.6
  |-
- | MCTS || 14 декабря || 2 недели || 20 || -1
+ | MCTS || 14 декабря || 2 недели || 20 || -0.6
  |}
@@ Строка 98: / Строка 98: @@
 * [https://openreview.net/pdf?id=r1lyTjAqYX R2D2]
 * [https://arxiv.org/abs/2003.13350 Agent57]
+|-
+| Семинар<br>
+''21 сентября''
+| Q-обучение.
+|
+|
 |-
 |}

Обучение с подкреплением (курс лекций) / 2021

Материал из MachineLearning.

Версия 07:44, 15 сентября 2021

Содержание

Критерии оценки

Домашние задания

Экзамен

Расписание занятий

Страницы курса прошлых лет

Материалы

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты