Математические методы анализа текстов (МФТИ) / 2021

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Правила сдачи курса)
(Программа курса)
Строка 43: Строка 43:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 1
| 1
-
| 02.09
+
| 09.09
| Организация курса, правила игры.
| Организация курса, правила игры.
Строка 55: Строка 55:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 2
| 2
-
| 09.09
+
| 16.09
| Векторные представления слов
| Векторные представления слов
|
|
Строка 62: Строка 62:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 3
| 3
-
| 15.09
+
| 23.09
 +
| Библиотека pytorch.
 +
 
 +
Pytorch при работе с представлениями слов.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 4
 +
| 30.09
| Задача разметки последовательностей (tagging). Примеры задач.
| Задача разметки последовательностей (tagging). Примеры задач.
Строка 70: Строка 79:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 4
+
| 5
-
| 23.09
+
| 07.10
|
|
Модели рекуррентных нейронных сетей: RNN, LSTM.
Модели рекуррентных нейронных сетей: RNN, LSTM.
Строка 80: Строка 89:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 5
+
| 6
-
| 30.09
+
| 14.10
 +
|
 +
Pytorch для работы с последовательностями.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 7
 +
| 21.10
| Машинный перевод. Подход Sequence-to-sequence.
| Машинный перевод. Подход Sequence-to-sequence.
Строка 91: Строка 108:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 6
+
| 8
-
| 13.10
+
| 28.10
| Задача языкового моделирования.
| Задача языкового моделирования.
Строка 103: Строка 120:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 7
+
| 9
-
| 20.10
+
| 11.11
| Контекстуальные векторные представления слов.
| Контекстуальные векторные представления слов.
Строка 114: Строка 131:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 8
+
| 10
-
| 28.10
+
| 18.11
| Задача классификации текстов.
| Задача классификации текстов.
Строка 123: Строка 140:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 9
+
| 11
-
| 03.11
+
| 25.11
-
| Тематическое моделирование и его приложения.
+
| Тематическое моделирование и его приложения.
|
|
Строка 131: Строка 148:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 10
+
| 12
-
| 11.11
+
| 02.12
|
|
-
Диалоговые и вопросно-ответные системы.
+
Различные приложения DL в NLP.
|
|
Строка 140: Строка 157:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 11
+
| 13
-
| 17.11
+
| 09.12
-
| Синтаксический разбор и его применение в практических задачах.
+
| TBA
|
|
Строка 148: Строка 165:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 12
+
| 14
-
| 24.11
+
| 16.12
-
| Информационный поиск.
+
| TBA
-
 
+
-
NLP в рекомендательных системах.
+
|
|
|
|
-
<!-- Конец занятия -->
 
-
|- <!-- Новое занятие -->
 
-
| 13
 
-
| 01.12
 
-
| Автоматическая суммаризация текстов.
 
-
 
-
|
 
-
|
 
<!-- Конец занятия -->
<!-- Конец занятия -->
|}
|}

Версия 19:34, 5 сентября 2021

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Содержание

Объявления

Нет

Контакты

  • В этом семестре занятия будут проводиться онлайн в zoom
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Видеозаписи лекций 2020 года: ссылка
  • Короткая ссылка на страницу курса: TBA

Правила сдачи курса

Правила выставления итоговой оценки

В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.

Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:

TBA

Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.

Программа курса

Дата Тема Материалы Д/З
1 09.09 Организация курса, правила игры.

Введение в обработку текстов (Natural Language Processing).

Предобработка, выделение признаков и классификация .

2 16.09 Векторные представления слов
3 23.09 Библиотека pytorch.

Pytorch при работе с представлениями слов.

4 30.09 Задача разметки последовательностей (tagging). Примеры задач.

Модель Linear-CRF, её упрощения и обобщения.

5 07.10

Модели рекуррентных нейронных сетей: RNN, LSTM.

Применение LSTM для разметки последовательности.

6 14.10

Pytorch для работы с последовательностями.

7 21.10 Машинный перевод. Подход Sequence-to-sequence.

Механизм внимания в подходе sequence-to-sequence.

Архитектура transformer.

8 28.10 Задача языкового моделирования.

Статистические и нейросетевые языковые модели.

Задача генерации естественного языка.

9 11.11 Контекстуальные векторные представления слов.

Transfer learning в NLP.

Модель BERT и её модификации.

10 18.11 Задача классификации текстов.

Дизайн индустриальной ML-системы.

11 25.11 Тематическое моделирование и его приложения.
12 02.12

Различные приложения DL в NLP.

13 09.12 TBA
14 16.12 TBA
Личные инструменты