Математические методы анализа текстов (ВМиК МГУ) / 2018
Материал из MachineLearning.
(→Задания) |
(→Результаты проверки) |
||
Строка 123: | Строка 123: | ||
|- | |- | ||
| Амир Мирас | | Амир Мирас | ||
- | | | + | | 8.5 |
| | | | ||
| | | | ||
Строка 131: | Строка 131: | ||
|- | |- | ||
| Белобородов Дмитрий | | Белобородов Дмитрий | ||
- | | 9 | + | | 9.5 |
| | | | ||
| | | | ||
Строка 147: | Строка 147: | ||
|- | |- | ||
| Бобров Роман | | Бобров Роман | ||
- | | | + | | 5 |
| | | | ||
| | | | ||
Строка 155: | Строка 155: | ||
|- | |- | ||
| Гарипов Тимур | | Гарипов Тимур | ||
- | | | + | | 9 |
| | | | ||
| | | | ||
Строка 163: | Строка 163: | ||
|- | |- | ||
| Драпак Степан | | Драпак Степан | ||
- | | 8 | + | | 8.5 |
| | | | ||
| | | | ||
Строка 171: | Строка 171: | ||
|- | |- | ||
| Каюмов Эмиль | | Каюмов Эмиль | ||
- | | | + | | 9.3 |
| | | | ||
| | | | ||
Строка 179: | Строка 179: | ||
|- | |- | ||
| Коваленко Павел | | Коваленко Павел | ||
- | | | + | | 8 |
| | | | ||
| | | | ||
Строка 187: | Строка 187: | ||
|- | |- | ||
| Лунин Дмитрий | | Лунин Дмитрий | ||
- | | | + | | 8.4 |
| | | | ||
| | | | ||
Строка 195: | Строка 195: | ||
|- | |- | ||
| Николаев Владимир | | Николаев Владимир | ||
- | | 4 | + | | 7.4 |
| | | | ||
| | | | ||
Строка 203: | Строка 203: | ||
|- | |- | ||
| Пиджакова Анна | | Пиджакова Анна | ||
- | | | + | | 5.7 |
| | | | ||
| | | | ||
Строка 211: | Строка 211: | ||
|- | |- | ||
| Полыковский Даниил | | Полыковский Даниил | ||
- | | 8 | + | | 8.5 |
| | | | ||
| | | | ||
Строка 219: | Строка 219: | ||
|- | |- | ||
| Попов Артём | | Попов Артём | ||
- | | 9 | + | | 9.5 |
| | | | ||
| | | | ||
Строка 227: | Строка 227: | ||
|- | |- | ||
| Таскынов Ануар | | Таскынов Ануар | ||
- | | 5 | + | | 5.5 |
| | | | ||
| | | | ||
Строка 235: | Строка 235: | ||
|- | |- | ||
| Трубицын Юрий | | Трубицын Юрий | ||
- | | | + | | 3.5 |
| | | | ||
| | | | ||
Строка 243: | Строка 243: | ||
|- | |- | ||
| Ходырева Виктория | | Ходырева Виктория | ||
- | | | + | | 9 |
| | | | ||
| | | | ||
Строка 251: | Строка 251: | ||
|- | |- | ||
| Шолохова Татьяна | | Шолохова Татьяна | ||
- | | | + | | 9 |
| | | | ||
| | | | ||
Строка 259: | Строка 259: | ||
|- | |- | ||
|} | |} | ||
+ | |||
+ | [https://docs.google.com/spreadsheets/d/16lEUvPGW-V00Rz3IuYvJ4zX3da38uslOw67r-j3ANJw/edit?usp=sharing Результаты проверки] | ||
== Литература == | == Литература == |
Версия 17:11, 1 апреля 2018
|
Курс посвящен методам анализа текстов на основе статистики и машинного обучения.
Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ.
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
Контакты
- Лекции и семинары проходят по пятницам 12-50 - 14-25, 14-35 - 16-10 в ауд.505.
- Лектор: Виктор Китов
- Семинарист: Мурат Апишев
- Почта курса (семинары, задания): nlp.msu@gmail.com.
- Здесь вы в любой момент можете оставить анонимный отзыв или предложение.
Программа курса
- Токенизация, коллокации, регулярные выражения, языковые модели
- Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла.
- Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности.
- Тематические модели.
- Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove.
- Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами
- Детали обучения нейросетей: дропаут, батч-нормализация, рекуррентные нейронные сети; задача NER.
- RNN, LSTM, GRU; CNN
- Вопросно-ответные системы, автоматическая суммаризация, PageRank
- WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии
Лекции
Токенизация, коллокации, регулярные выражения.
Скрытая марковская модель для дискретных признаков.
Семинары
Дата | Тема | Материалы | ||
---|---|---|---|---|
Семинар 1 | 9.02.2018 | Правила курса, получение данных, предобработка текста, извлечение коллокаций. | Слайды | |
Семинар 2 | 17.02.2018 | Языковые модели, статистический машинный перевод, задача выравнивания. | Слайды | |
Семинар 3 | 12.03.2018 | Классификация текстов, инструменты (Vowpal Wabbit, FastText), задача анализа тональности. | Слайды | |
Семинар 4 | 23.03.2018 | Тематическое моделирование. | Слайды | |
Семинар 5 | 30.03.2018 | Векторные представления слов + доклады | Слайды |
Задания
Дедлайн | Баллы | Тема | Материалы | |
---|---|---|---|---|
Лабораторная 1 | 21:00 8 марта 2018 | 10 баллов | Языковое моделирование и распознавание языка. | Ipython-ноутбук с заданием + данные. |
Лабораторная 2 | 21:00 29 марта 2018 | 10 баллов | Определение частей речи и
выделение именованных сущностей. | Ipython-ноутбук с заданием. |
Лабораторная 3 | 21:00 15 апреля 2018 | 15 баллов | Задача выравнивания в машинном переводе. | Материалы задания. |
Результаты проверки
Студенты | Лабораторная № 1 | Лабораторная № 2 | Лабораторная № 3 | Лабораторная № 4 | Доклад + выступление | Итог |
---|---|---|---|---|---|---|
Амир Мирас | 8.5 | |||||
Белобородов Дмитрий | 9.5 | |||||
Бобров Евгений | 7 | |||||
Бобров Роман | 5 | |||||
Гарипов Тимур | 9 | |||||
Драпак Степан | 8.5 | |||||
Каюмов Эмиль | 9.3 | |||||
Коваленко Павел | 8 | |||||
Лунин Дмитрий | 8.4 | |||||
Николаев Владимир | 7.4 | |||||
Пиджакова Анна | 5.7 | |||||
Полыковский Даниил | 8.5 | 5 + 5 | ||||
Попов Артём | 9.5 | |||||
Таскынов Ануар | 5.5 | |||||
Трубицын Юрий | 3.5 | |||||
Ходырева Виктория | 9 | |||||
Шолохова Татьяна | 9 |
Литература
Stanford: Deep learning in natural language processing. Spring 2016.
Stanford: Deep learning in natural language processing. Winter 2017.
Juravsky, Manning - Video lectures on natural language processing.
Speech and Language Processing. Dan Jurafsky and James H. Martin. 3-rd edition, draft.
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.
Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.
Питон и библиотеки
- Anaconda - дистрибутив питона с предустановленными научными библиотеками
- A Crash Course in Python for Scientists
- Numpy
- Matplotlib
- Scipy Lecture Notes
- Pandas
- Scikit-learn