Введение в машинное обучение (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Курс Введение в машинное обучение является сокращённым обзорным вариантом годового курса машинного обучения для студентов 3 курса МФТИ, начинающих обучение на кафедре Интеллектуальные системы по специализации «Интеллектуальный анализ данных».

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, языка программирования Python желательно, но не обязательно.

Программа курса

Лекция 1. Научный метод и основы машинного обучения

Слайды: (PDF 2.0 МБ) — обновление 20.02.2025.

Домашинная история машинного обучения

  • принцип эмпирической индукции Фрэнсиса Бэкона (1620)
  • научный метод: наблюдения, гипотезы, модели, теории; принципы верифицируемости, фальсифицируемости, соответствия, минимальной достаточности, воспроизводимости, научной честности
  • восстановление зависимостей по эмпирическим данным — основная задача естествознания
  • принцип наименьших квадратов Гаусса—Лежандра (1795); построение эллипса по точкам; линейные и нелинейные параметрические модели
  • принцип регрессии (и не только к посредственности) Фрэнсиса Гальтона (1886)
  • принцип классификации (и не только цветков ириса) Рональда Фишера (1936)

Базовые определения и обозначения

  • постановка задачи: дано—найти—критерий (ДНК задачи)
  • объекты и признаки; вычисление и генерация признаков; типы признаков и типы задач обучения с учителем
  • модель, функция потерь, критерий
  • обучение — это оптимизация параметров модели по выборке данных
  • переобучение; эксперимент с полиномиальной регрессией
  • эмпирическое оценивание обобщающей способности
  • машинное обучение как автоматизация научного метода

Примеры прикладных задач

  • медицинская диагностика
  • классификация текстов
  • прогнозирование объёмов продаж
  • ранжирование поисковой выдачи

Лекция 2. Градиентная оптимизация и линейные модели

Слайды: (PDF 1.8 МБ) — обновление 20.02.2025.

Градиентные методы оптимизации

  • оптимизационная постановка задачи обучения
  • метод стохастического градиента
  • ускорение сходимости и другие эвристики

Основные типы задач обучения с учителем

  • задача регрессии: функции потерь, робастная регрессия, вероятностная интерпретация
  • задача классификации: понятие отступа, функции потерь, многоклассовая классификация, ROC-кривая и площадь AUC-ROC
  • задача ранжирования: понятие парного отступа, парная функция потерь

Линейные модели

  • линейный классификатор, логистическая регрессия
  • проблема мультиколлинеарности
  • регуляризация L2, L1, L0, Lp; отбор признаков в линейных моделях
  • негладкость регуляризатора и негладкость функции потерь
  • пример прикладной задачи: банковский кредитный скоринг

Лекция 3. Нейронные сети

Слайды: (PDF 2.6 МБ) — обновление 27.02.2025.

Многослойные нейронные сети

  • нейрон как линейный классификатор, модель МакКаллока—Питтса (1943)
  • первый нейрокомпьютер Mark-1 Фрэнка Розенблатта (1960)
  • многослойные нейронные сети
  • двух слоёв достаточно!(?) Теоремы об универсальных аппроксиматорах

Метод обратного распространения ошибок

  • постановка задачи оптимизации
  • быстрое дифференцирование суперпозиции функций
  • метод стохастического градиента
  • эвристики для ускорения сходимости: Dropout, ResNet, BatchNorm

Глубокие нейронные сети

  • зимы искусственного интеллекта
  • преимущества и обоснования глубоких сетей
  • обучаемая векторизация данных

Лекция 4. Эволюция идей машинного обучения

Слайды: (PDF 4.1 МБ) — обновление 5.03.2025.

Вектор → вектор → скаляр

  • задачи с векторными признаковыми описаниями объектов
  • методы преобразования признаков: ослабление и усиление шкал, нормализация, стандартизация
  • конструирование признаков, примеры прикладных задач

Структура → вектор → скаляр

  • свёрточные сети для классификации изображений — прорыв векторизации
  • конкурс ImageNet, сеть AlexNet — прорыв больших данных
  • сеть ResNet — прорыв глубины
  • векторизация сложно структурированных данных, примеры прикладных задач
  • перенос обучения, самостоятельное обучение — прорыв предобучения

Структура → вектор → структура

  • автокодировщики, вариационный автокодировщик
  • многозадачное обучение
  • фундаментальные модели
  • генеративная состязательная сеть

Лекция 5. Обучаемая векторизация данных

Слайды: (PDF 1.9 МБ) — обновление 13.03.2025.

Матричные разложения

  • метод главных компонент
  • неотрицательные матричные разложения
  • стохастические матричные разложения
  • вероятностное тематическое моделирование
  • рекомендательные системы

Векторные представления текстов и графов

  • модели дистрибутивной семантики, word2vec
  • многомерное шкалирование, tSNE
  • графовые разложения

Трансформеры и большие языковые модели

  • модель внимания
  • трансформер для машинного перевода
  • трансформер-кодировщик BERT, критерии обучения
  • трансформер-декодировщик GPT, критерии обучения
  • будущее промптинга: лингвистическая теория коммуникации человека и машины

Лекция 6. Методология машинного обучения

Слайды: (PDF 1.9 МБ) — обновление 20.03.2025.

Методология решения практических задач

  • межотраслевой стандарт CRISP-DM
  • свойства реальных данных: сырые, неполные, неточные, неудобные, разнородные, «грязные»
  • предобработка данных: преобразование признаков, детекция выбросов, заполнение пропусков, векторизация сырых данных
  • оценивание качества и выбор моделей: внешние и внутренние критерии, кросс-проверка, AB-тестирование, анализ ошибок
  • автоматизация подбора моделей AutoML и мета-обучение

Типология задач машинного обучения

  • обучение с учителем: регрессия, классификация, ранжирование
  • обучение без учителя: восстановление плотности распределения, разделение смеси распределений, кластеризация, векторизация, генерация
  • частичное обучение, трансдуктивное обучение
  • суррогатное обучение и дистилляция
  • обучение с привилегированной информацией
  • шесть школ машинного обучения по П.Домингосу: символизм, коннекционизм, эволюционизм, байесионизм, аналогизм, композиционизм
  • нужно ли искать «мастер-алгоритм»?

Задачи и методы с фактором времени

  • инкрементное и онлайновое обучение, прогнозирование
  • активное обучение и краудсорсинг
  • обучение с подкреплением

Лекция 7. Вероятностные модели

Слайды: (PDF 1.4 МБ) — обновление 27.03.2025.

Принцип максимума правдоподобия

  • восстановление плотности распределения
  • разделение смеси распределений, EM-алгоритм, гауссовские смеси
  • обучение регрессии
  • обучение классификации
  • вероятностный смысл регуляризации

Обобщённые линейные модели и логистическая регрессия

  • экспоненциальное семейство распределений
  • обобщённые линейные модели
  • двухклассовая логистическая регрессия

Байесовская теория классификации

  • дискриминативный и генеративный подходы
  • оптимальный байесовский классификатор
  • наивный байесовский классификатор

Лекция 8. Метрические методы

Слайды: (PDF 4.8 МБ) — обновление 03.04.2025.

Метрические методы классификации

  • школа М.А.Айзермана: гипотеза компактности и потенциальные функции
  • общая формула метрического классификатора
  • беспризнаковое распознавание, генерация признаков по эталонным объектам

Метрические методы регрессии

  • ядерное сглаживание Надарайя-Ватсона
  • проблемы выбора ядра, ширины окна и эталонных объектов

Метрические методы обучения без учителя

  • восстановление плотности распределения, оценка Парзена-Розенблатта
  • методы кластеризации: k-Means, DBscan

Лекция 9. Логические методы

Слайды: (PDF 2.2 МБ) — обновление 10.04.2025.

Задача поиска логических закономерностей в данных

  • школа М.М.Бонгарда: ранние программы «Открой закон» и «Арифметика»
  • тесты М.М.Бонгарда («Проблемы узнавания», 1967)
  • проблема переобучения (предрассудков по М.М.Бонгарду)

Алгоритмы поиска информативных закономерностей

  • поиск правил в PN-пространстве
  • критерии информативности
  • алгоритм КОРА, и почему именно тройки признаков — обоснование Закревского
  • правила — это новые бинарные признаки
  • голосование — это линейный классификатор

Решающие деревья

  • Алгоритм ID3, алгоритм CART
  • критерии ветвления
  • преобразование дерева в конъюнктивные правила

Лекция 10. Эволюционные методы

Комбинаторный отбор признаков

  • задача выбора модели
  • внутренние и внешние критерии
  • полный перебор
  • жадные методы: add, del, add-del
  • поиск в глубину

Метод группового учёта аргументов

  • школа А.Г.Ивахненко
  • поиск в ширину — многорядный алгоритм МГУА

Эволюционные алгоритмы и метаэвристики

  • эволюционный алгоритм отбора признаков
  • случайный поиск с адаптацией
  • символьная регрессия

Лекция 11. Композиционные методы

Бэггинг и бустинг

  • простое голосование
  • случайные леса
  • градиентный бустинг

Обобщающая способность композиций

  • эксперименты с бустингом и бэггингом — прорыв сложности
  • теоретические обоснования обобщающей способности

Алгоритмы вычисления оценок

  • школа Ю.И.Журавлёва: анализ малых данных и ансамблирование
  • тупиковые тесты и тупиковые представительные наборы
  • пример: поиск золотоносных месторождений редкого типа

Лекция 12. Теория обобщающей способности

Комбинаторные оценки переобучения

  • школа В.Н.Вапника и А.Я.Червоненкиса
  • вероятность переобучения и полный скользящий контроль
  • вероятность большого отклонения частот в двух выборках
  • гипергеометрическое распределение
  • функция роста и размерность Вапника-Червоненкиса (ёмкость)
  • почему мы делаем неверные выводы из верных данных?
  • проблема завышенности оценок и пути её устранения

Эксперименты с переобучением простых семейств

  • матрица ошибок семейства алгоритмов
  • эксперименты с монотонной цепью алгоритмов
  • эксперименты с парой алгоритмов

Эффекты расслоения и связности

  • многодольный граф семейства алгоритмов
  • метод порождающих и запрещающих множеств
  • оценка расслоения-связности
  • что влияет на переобучение: размерность, сложность, непрерывность, разнообразность
  • переобучение исследователя: чем плох многократный поиск лучшего эксперимента
  • переобучение человека: предвзятость и когнитивные искажения

Лекция 13. Комбинаторная теория переобучения

Оценка переобучения метода ближайшего соседа

  • метод порождающих и запрещающих множеств для объектов
  • профиль компактности выборки
  • минимизация переобучения при отборе эталонных объектов

Оценка переобучения монотонного классификатора

  • профиль монотонности выборки
  • минимизация переобучения при построении монотонной композиции

Другие применения комбинаторных оценок

  • слабая вероятностная аксиоматика
  • проверка статистических гипотез
  • критерий знаков
  • двухвыборочный критерий Смирнова и усечённый треугольник Паскаля

См. также

Литература

Учебники

  1. Онлайн-учебник по машинному обучению от ШАД.
  2. Николенко С. Машинное обучение: основы, 2025. — 608 c.
  3. Николенко С., Кадурин А., Архангельская Е. Глубокое обучение: основы, 2024. — 480 c.
  4. Кэвин П. Мэрфи. Вероятностное машинное обучение. Дополнительные темы: основания, вывод, 2024. – 810 с.
  5. Дайзенрот М. П, Альдо Фейзал А, Чен Сунь Он Питер. Математика в машинном обучении, 2024. – 512 с.
  6. Шай Шалев-Шварц, Шай Бен-Давид. Идеи машинного обучения. От теории к алгоритмам, 2019. — 436 c.
  7. Мерков А. Б. Распознавание образов. Введение в методы статистического обучения. 2011. 256 с.
  8. Мерков А. Б. Распознавание образов. Построение и обучение вероятностных моделей. 2014. 238 с.
  9. Коэльо Л.П., Ричарт В. Построение систем машинного обучения на языке Python. 2016. 302 с.
  10. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. Springer, 2014. — 739 p.
  11. Bishop C. M. Pattern Recognition and Machine Learning. — Springer, 2006. — 738 p.

Науч-поп

  1. Марков С. Охота на электроовец. Большая книга искусственного интеллекта. Том 1. 2024. — 568 с.
  2. Марков С. Охота на электроовец. Большая книга искусственного интеллекта. Том 2. 2024. — 784 с.
  3. Педро Домингос. Верховный алгоритм. Как машинное обучение изменит наш мир, 2016. — 336 c.
Личные инструменты