Участник:Vokov/Некоторые задачи интеллектуального анализа данных (лекция)
Материал из MachineLearning.
м |
м |
||
(1 промежуточная версия не показана) | |||
Строка 95: | Строка 95: | ||
* [http://citeseer.ist.psu.edu CiteSeer] | * [http://citeseer.ist.psu.edu CiteSeer] | ||
- | Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и '''[ | + | Рефераты подаются на [[Математические методы прогнозирования (кафедра ВМиК МГУ)|кафедру ММП]] в бумажном виде и '''[mailto:vokov@forecsys.ru присылаются лектору] в электронном виде для проверки в системе [[Антиплагиат]]'''. |
{{S|В теме}} письма укажите: <code>Реферат ВМиК: Фамилия, группа, тема реферата</code>. | {{S|В теме}} письма укажите: <code>Реферат ВМиК: Фамилия, группа, тема реферата</code>. | ||
Строка 141: | Строка 141: | ||
* Либо у учёного секретаря кафедры Дьяконова Александра Геннадьевича, почти в любое время (информация о хороших рефератах передаётся ему по тайным каналам). | * Либо у учёного секретаря кафедры Дьяконова Александра Геннадьевича, почти в любое время (информация о хороших рефератах передаётся ему по тайным каналам). | ||
}} | }} | ||
+ | |||
+ | '''[[Служебная:EmailUser/Vokov|Задать вопрос лектору]]'''. |
Текущая версия
|
Лекция прочитана в рамках курса «Современные проблемы прикладной математики» студентам 5 курса ВМиК МГУ, 28 апреля 2008 года.
План-конспект лекции
Задачи обучения по прецедентам
Общая постановка, основные понятия: объекты, признаки, выборка, алгоритм обучения.
Типы задач: классификация, регрессия, прогнозирование.
Свойства реальных данных: многомерность, разнородность, неполнота, неточность, противоречивость, огромный объём.
Задачи и методы классификации
Примеры прикладных задач: медицинская диагностика, кредитный скоринг (credit scoring), предсказание ухода клиентов (churn prediction).
Методы классификации (минутный обзор).
Логические методы классификации. Требования интерпретируемости, информативности и покрытия. Критерии закономерности и неслучайности.
Методы поиска логических закономерностей в форме конъюнкций (rule induction). Локальный поиск, случайный поиск с адаптацией, генетические алгоритмы.
Поиск закономерностей в сверхбольших данных. Самплинг (sampling).
Оценивание вероятности (probabilistic output, probabilistic calibration) и риска. Контрольная выборка, нечеткие правила.
Ссылки:
- J. Platt Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Advances in Large Margin Classiers, MIT Press, 1999.
Схожая задача: анализ рыночных корзин (market basket analysis). Методы поиска ассоциативных правил (association rule induction).
Ссылки:
- Toivonen H. Sampling large databases for association rules // In Proc. 1996 Int. Conf. Very Large Data Bases / Ed. by T. M. Vijayaraman, A. P. Buchmann, C. Mohan, N. L. Sarda. — Morgan Kaufman, 1996. — Pp. 134–145.
Прогнозирование временных рядов
Примеры прикладных задач: прогнозирование цен и объемов потребления электроэнергии; прогнозирование спроса на товары в супермаркетах (sales forecast).
Проблема 1: как прогнозировать каждый день объёмы продаж 40 тысяч товаров в 200 магазинах, не покупая суперкомпьютер?
Проблема 2: как прогнозировать, если функционал потерь неквадратичен, несимметричен?
Прогнозирование плотности распределения (density forecast).
Ссылки:
- Yong Bao, Tae-Hwy Lee, Burak Saltoğlu Comparing Density Forecast Models, 2006.
- Stephen G. Hall, James Mitchell Density Forecast Combination. 2004.
Анализ клиентских сред
Примеры прикладных задач: персонализация предложения в интернет-магазинах, видеопрокате, электронных библиотеках. Задача Netflix.
Постановка задачи коллаборативной фильтрации (collaborative filtering, CF). Матрица users–items.
Методы коллаборативной фильтрации. Анализ пользователей (user-based CF). Анализ айтемов (item-based CF). Байесовские генеративные модели и восстановление скрытых интересов пользователей.
Ссылки:
- Лидеры конкурса Netflix
- Collaborative Filtering Resources — софт, данные, статьи по CF.
Анализ текстов
Пример задачи: обнаружение заимствований (плагиата). Система Антиплагиат.
Постановки задач распознавания при обнаружении заимствований: различение плагиата и цитирования.
Ссылки:
- www.antiplagiat.ru
- Патент iParadigms
- Интернет-математика отчёты по конкурсам Яндекс.
Темы рефератов
Рефераты должны носить обзорный характер, в основном по материалам в Интернете. Допустимый объём реферата — от 5 до 500 страниц. Цениться будет полезность и небанальность собранной и представленной информации. Рекомендуемые сайты для поиска (ключевые слова для поиска приведены на этой странице и в тексте презентации):
Рефераты подаются на кафедру ММП в бумажном виде и присылаются лектору в электронном виде для проверки в системе Антиплагиат.
В теме письма укажите: Не принимаются рефераты, написанные по материалам наших сайтов: Пожалуйста, не забывайте в конце привести список использованных источников: статей, сайтов, и т.д. |
- Методы классификации, применяемые для предсказания ухода клиентов (churn prediction).
- Логистическая регрессия, решающие деревья, нейронные сети... что ещё? что лучше и почему?
- Для чего и как используются оценки вероятности ухода?
- Как планируются маркетинговые акции на основе сделанных предсказаний?
- Применение мета-обучения для выбора оптимальных эвристик в методах индукции правил.
- Что ещё можно мета-обучать?
- Параметры поисковых процедур: ширина поиска, количество поколений, критерии останова, темп адаптации, и т.п.
- Способ построения покрытия (используется ли жадный алгоритм или перевзвешивание объектов? Если второе, то функцию весов объектов логично подбирать мета-обучением. Есть ли работы в этом направлении?
- Что ещё можно мета-обучать?
- Методы индукции правил на сверхбольших выборках
- Как работать со сверх-большими выборками — есть ли ещё идеи кроме самплинга?
- Делают ли самплинг по двум, трём и т.д. подвыборкам?
- Тойвонен применял самплинг для поиска ассоциативных правил. Это очень похоже но конъюнктивные правила, но немного не то. Найдите работы, посвящённые самплингу именно для правил.
- Оценивание апостериорных вероятностей классов в логических алгоритмах классификации (probabilistic output, probabilistic calibration).
- Оценивание для SVM, логистической регрессии и прочих не-логических методов не предлагать!
- Логит-анализ, пробит-анализ... что ещё?
- Используется ли непараметрическое оценивание (сглаживание, kernel smoothing)?
- Обзор методов, применяемых для прогнозирования объёмов продаж (sales forecast).
- Нейросеть не предлагать!
- Обзор методов, дающих прогнозы в виде плотности распределения возможных значений (density forecast).
- Как учитываются взаимозависимости товаров при прогнозировании?
- Внешние факторы, учитываемые при прогнозировании цен и объемов потребления электроэнергии.
- Погода и её прогноз, фьючерсы, что ещё?
- Обзор методов коллаборативной фильтрации, применяемых лучшими участниками конкурса Netflix.
- Метод главных компонент, что ещё?
- Обзор методов коллаборативной фильтрации, использующих восстановление скрытой информации.
- Ключевые слова: generative model for collaborative filtering, latent class models for collaborative filtering.
- Предупреждение: скрытая информация не обязательно называется «тематическими профилями»
- Обзор методов, применяемых для поиска заимствований.
- Обзор методов, применяемых для оценивания сходства (релевантности) текстов.