Математические методы анализа текстов (ВМиК МГУ) / 2017
Материал из MachineLearning.
|
Курс посвящен методам анализа текстов на основе статистики и машинного обучения.
Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
Контакты
- Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
- Лектор: Виктор Китов
- Семинаристы: Анна Потапенко, Мурат Апишев
- Почта курса: nlp.hse@gmail.com. По всем вопросам туда.
- Здесь вы в любой момент можете оставить анонимный отзыв или предложение.
Темы курса
- Предварительная обработка текста
- Токенизация, лемматизация, выделение коллокаций, регулярные выражения
- Модели для работы с последовательностями
- Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
- Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
- Синтаксический анализ
- Классификация текстов
- Вероятностные модели
- Модель языка, N-граммы, сглаживание, концепция шумного канала
- Применение в задачах исправления опечаток и машинного перевода
- Тематические модели, дистрибутивная семантика, векторные представления слов.
- Глубокие нейронные сети в анализе текстов.
- Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
- Определение тональности текстов.
Материалы лекций
Токенизация. Коллокации. Регулярные выражения.
Материалы
Учебники
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.
Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.
Juravsky, Manning - Video lectures on natural language processing.
Питон и необходимые библиотеки
- Anaconda - дистрибутив питона с предустановленными научными библиотеками
- библиотека NLTK по работе с текстами
- A Crash Course in Python for Scientists
- Numpy
- Matplotlib
- Scipy Lecture Notes
- Pandas
- Scikit-learn