Математические методы анализа текстов (МФТИ) / 2021
Материал из MachineLearning.
(→Программа курса) |
|||
(15 промежуточных версий не показаны.) | |||
Строка 19: | Строка 19: | ||
* По всем конструктивным вопросам пишите в telegram-чат | * По всем конструктивным вопросам пишите в telegram-чат | ||
- | * Репозиторий со всеми материалами: [https://github.com/mmta-team/ | + | * Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_2021_fall ссылка] |
- | * Видеозаписи лекций | + | * Видеозаписи лекций 2021 года: [https://youtube.com/playlist?list=PLk4h7dmY2eYFEuGx1mabR4Eo2RFklU_Us ссылка] |
- | * Короткая ссылка на страницу курса: | + | * Короткая ссылка на страницу курса: [https://clck.ru/XJbNw ссылка] |
+ | |||
+ | * Родственный курс на ВМК МГУ: [[Математические методы анализа текстов (ВМК МГУ) / 2021 |ссылка]] | ||
+ | |||
+ | ==Правила сдачи курса== | ||
+ | ===Правила выставления итоговой оценки=== | ||
+ | |||
+ | В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3. | ||
+ | |||
+ | Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку. | ||
+ | Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле: | ||
+ | |||
+ | <tex>round(0.7 \times D / 4 + 0.3 \times E) \times \mathbb{I}[E >= 3] </tex>, где | ||
+ | |||
+ | <tex>D</tex> — оценка за дз, <tex>E</tex> — оценка за экзамен, <tex>round</tex> — математическое округление. | ||
+ | |||
+ | Есть дополнительные условия для получения каждой из оценок: | ||
+ | * удовлетворительно (3, 4) — 2 сданных задания на положительную оценку | ||
+ | * хорошо (5, 6, 7) — 3 сданных задания на положительную оценку | ||
+ | * отлично (8, 9, 10) — 4 сданных задания на положительную оценку | ||
+ | |||
+ | Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа. | ||
+ | |||
+ | ===Правила сдачи экзамена=== | ||
+ | |||
+ | Экзаменационная программа: [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/exam_program.pdf ссылка] | ||
+ | |||
+ | Экзамен проходит онлайн. Каждому студенту высылается два вопроса из списка для подготовки. Студент готовится к ответу, пользуясь любыми материалами. | ||
+ | В назначенное время студент приглашается в индивидуальную зум-конференцию с преподавателем. Ориентировочное время ответа 40-60 минут. | ||
+ | |||
+ | ==Программа курса== | ||
+ | |||
+ | {|class = "standard" | ||
+ | ! № !! Дата !! Тема !! Материалы !! Д/З | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 1 | ||
+ | | 08.09 | ||
+ | | Организация курса, правила игры. | ||
+ | |||
+ | Введение в обработку текстов (Natural Language Processing). | ||
+ | |||
+ | Предобработка, выделение признаков и классификация . | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/01_intro.pdf слайды] | ||
+ | | | ||
+ | |||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 2 | ||
+ | | 15.09 | ||
+ | | Векторные представления слов | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/02_word_embeddings.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 3 | ||
+ | | 22.09 | ||
+ | | Библиотека pytorch. | ||
+ | |||
+ | Pytorch при работе с представлениями слов. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/03_word_embeddings_seminar.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 4 | ||
+ | | 29.09 | ||
+ | | Задача разметки последовательностей (tagging). Примеры задач. | ||
+ | |||
+ | Модель Linear-CRF, её упрощения и обобщения. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/04_tagging_crf.pdf слайды] | ||
+ | |||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 5 | ||
+ | | 06.10 | ||
+ | | | ||
+ | Модели рекуррентных нейронных сетей: RNN, LSTM. | ||
+ | |||
+ | Применение LSTM для разметки последовательности. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/05_tagging_rnn.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 6 | ||
+ | | 13.10 | ||
+ | | | ||
+ | Pytorch для работы с последовательностями. | ||
+ | | | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 7 | ||
+ | | 20.10 | ||
+ | | Машинный перевод. Подход Sequence-to-sequence. | ||
+ | |||
+ | Механизм внимания в подходе sequence-to-sequence. | ||
+ | |||
+ | Архитектура transformer. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/07_machine_translation_transformers_old.pdf слайды (прошлый год)] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 8 | ||
+ | | 27.10 | ||
+ | | Задача языкового моделирования. | ||
+ | |||
+ | Статистические и нейросетевые языковые модели. | ||
+ | |||
+ | Задача генерации естественного языка. | ||
+ | |||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/08_language_modeling.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 9 | ||
+ | | 10.11 | ||
+ | | Контекстуальные векторные представления слов. | ||
+ | |||
+ | Transfer learning в NLP. | ||
+ | |||
+ | Модель BERT и её модификации. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/09_bert.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 10 | ||
+ | | 17.11 | ||
+ | | Задача классификации текстов. | ||
+ | |||
+ | Дизайн индустриальной ML-системы. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/10_classification.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 11 | ||
+ | | 24.11 | ||
+ | | Различные приложения DL в NLP. | ||
+ | |||
+ | Рекомендательные системы. | ||
+ | |||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/11_ir_recsys.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 13 | ||
+ | | 01.12 | ||
+ | | Автоматическая суммаризация текстов. | ||
+ | |||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/12_summarization.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |- <!-- Новое занятие --> | ||
+ | | 14 | ||
+ | | 08.12 | ||
+ | | Диалоговые и вопросно-ответные системы. | ||
+ | | [https://github.com/mmta-team/mmta_2021_fall/blob/main/mipt/slides/13_dialog_qa_slides.pdf слайды] | ||
+ | | | ||
+ | <!-- Конец занятия --> | ||
+ | |} | ||
+ | |||
+ | ==Страницы прошлых лет== | ||
+ | |||
+ | * [[Математические методы анализа текстов (курс лекций) / осень 2020]] ВМК & МФТИ | ||
+ | * [[Математические методы анализа текстов (курс лекций) / осень 2019]] ВМК & МФТИ | ||
+ | * [[Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко)]] — 2018 (ФУПМ МФТИ) | ||
+ | * [[Математические методы анализа текстов (ВМиК МГУ) / 2018]] — 2018 (ВМК МГУ) | ||
+ | * [[Математические методы анализа текстов (ВМиК МГУ) / 2017]] — 2017 (ВМК МГУ) | ||
+ | |||
+ | ==Дополнительные материалы== | ||
+ | |||
+ | '''Литература''' | ||
+ | |||
+ | * ''Dan Jurafsky and James H. Martin'' [https://web.stanford.edu/~jurafsky/slp3/ Speech and Language Processing] (3rd ed. draft) | ||
+ | * ''Stewen Bird'' et. al. [http://www.nltk.org/book/ Natural Language Processing with Python]. 2-nd edition. 2016. | ||
+ | * ''Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С.'' [[media:bolshakova17hse-summer-school.pdf|Автоматическая обработка текстов на естественном языке и анализ данных]]. НИУ ВШЭ, 2017. | ||
+ | * ''Yoav Goldberg '' et. al. Neural Network Methods in Natural Language Processing | ||
+ | * LxMLS summer school [http://lxmls.it.pt/2018/LxMLS_guide_2018.pdf Practical guide on NLP in Python] | ||
+ | |||
+ | '''Другие курсы по NLP''' | ||
+ | |||
+ | * [https://web.stanford.edu/class/cs224n/ CS224N: Natural Language Processing with Deep Learning] | ||
+ | * [https://github.com/yandexdataschool/nlp_course YSDA Natural Language Processing course] | ||
+ | * [http://web.stanford.edu/class/cs224u/ CS224U: Natural Language Understanding] | ||
+ | * [https://www.coursera.org/learn/language-processing Natural Language Processing (coursera, HSE)] | ||
+ | |||
+ | [[Категория:Учебные курсы]] |
Текущая версия
В курсе рассматриваются основные задачи и математические методы обработки естественного языка.
Курс читается:
- студентам кафедры «Математические методы прогнозирования» ВМК МГУ с 2016 года
- студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года
От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
Содержание |
Объявления
Нет
Контакты
- Преподаватели курса: Попов А.С., Апишев М.А., Хрыльченко К.Я., Воронцов К.В.
- В этом семестре занятия будут проводиться онлайн в zoom
- По всем конструктивным вопросам пишите в telegram-чат
- Репозиторий со всеми материалами: ссылка
- Видеозаписи лекций 2021 года: ссылка
- Короткая ссылка на страницу курса: ссылка
- Родственный курс на ВМК МГУ: ссылка
Правила сдачи курса
Правила выставления итоговой оценки
В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
, где
— оценка за дз, — оценка за экзамен, — математическое округление.
Есть дополнительные условия для получения каждой из оценок:
- удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
- хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
- отлично (8, 9, 10) — 4 сданных задания на положительную оценку
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
Правила сдачи экзамена
Экзаменационная программа: ссылка
Экзамен проходит онлайн. Каждому студенту высылается два вопроса из списка для подготовки. Студент готовится к ответу, пользуясь любыми материалами. В назначенное время студент приглашается в индивидуальную зум-конференцию с преподавателем. Ориентировочное время ответа 40-60 минут.
Программа курса
№ | Дата | Тема | Материалы | Д/З |
---|---|---|---|---|
1 | 08.09 | Организация курса, правила игры.
Введение в обработку текстов (Natural Language Processing). Предобработка, выделение признаков и классификация . | слайды | |
2 | 15.09 | Векторные представления слов | слайды | |
3 | 22.09 | Библиотека pytorch.
Pytorch при работе с представлениями слов. | слайды | |
4 | 29.09 | Задача разметки последовательностей (tagging). Примеры задач.
Модель Linear-CRF, её упрощения и обобщения. | слайды | |
5 | 06.10 |
Модели рекуррентных нейронных сетей: RNN, LSTM. Применение LSTM для разметки последовательности. | слайды | |
6 | 13.10 |
Pytorch для работы с последовательностями. | ||
7 | 20.10 | Машинный перевод. Подход Sequence-to-sequence.
Механизм внимания в подходе sequence-to-sequence. Архитектура transformer. | слайды (прошлый год) | |
8 | 27.10 | Задача языкового моделирования.
Статистические и нейросетевые языковые модели. Задача генерации естественного языка. | слайды | |
9 | 10.11 | Контекстуальные векторные представления слов.
Transfer learning в NLP. Модель BERT и её модификации. | слайды | |
10 | 17.11 | Задача классификации текстов.
Дизайн индустриальной ML-системы. | слайды | |
11 | 24.11 | Различные приложения DL в NLP.
Рекомендательные системы. | слайды | |
13 | 01.12 | Автоматическая суммаризация текстов. | слайды | |
14 | 08.12 | Диалоговые и вопросно-ответные системы. | слайды |
Страницы прошлых лет
- Математические методы анализа текстов (курс лекций) / осень 2020 ВМК & МФТИ
- Математические методы анализа текстов (курс лекций) / осень 2019 ВМК & МФТИ
- Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко) — 2018 (ФУПМ МФТИ)
- Математические методы анализа текстов (ВМиК МГУ) / 2018 — 2018 (ВМК МГУ)
- Математические методы анализа текстов (ВМиК МГУ) / 2017 — 2017 (ВМК МГУ)
Дополнительные материалы
Литература
- Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
- Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
- Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
- Yoav Goldberg et. al. Neural Network Methods in Natural Language Processing
- LxMLS summer school Practical guide on NLP in Python
Другие курсы по NLP