Вероятностный латентный семантический анализ
Материал из MachineLearning.
Вероятностный латентный семантический анализ (англ. Probabilistic Latent Semantic Analysis, PLSA) - вероятностная тематическая модель представления текста на естественном языке. Модель называется латентной, так как предполагает введение скрытого (латентного) параметра - темы. Модель предложена Томасом Хофманном в 1999 году[1]. Применяется в задаче тематического моделирования.
Содержание |
Формальная постановка задачи
Пусть — множество (коллекция) текстовых документов,
— множество (словарь) всех употребляемых в них терминов (слов или словосочетаний). Каждый документ
представляет собой последовательность
терминов (
) из словаря W. Термин может повторяться в документе много раз.
Пусть существует конечное множество тем , и каждое употребление термина
в каждом документе
связано с некоторой темой
, которая не известна. Формально тема определяется как дискретное (мультиномиальное) вероятностное распределение в пространстве слов заданного словаря
[1].
Введем дискретное вероятностное пространство . Тогда коллекция документов может быть рассмотрена как множество троек
, выбранных случайно и независимо из дискретного распределения
.
При этом документы
и термины
являются наблюдаемыми переменными, тема
является латентной (скрытой) переменной.
Требуется найти распределения терминов в темах для всех тем
и распределения тем в документах
для всех документов
. При этом делается ряд допущений.
С учетом гипотезы условной независимости по формуле полной вероятности получаем вероятностную модель порождения документа
:
Максимизация правдоподобия
Алгоритм
Недостатки
Примечания