Оценивание дискретных распределений при дополнительных ограничениях на вероятности некоторых событий (виртуальный семинар)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (/* Проблема выбора функции и параметризации для маргинальных плотностей (декомпозиция) и подгонка совместной плотности для удовлетворе)
(категория)
 
(29 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
== Общая постановка задачи ==
+
Этот [[:Категория:Виртуальные семинары|виртуальный семинар]] посвящён осбуждению некоторых обобщений классической задачи [[Восстановление плотности распределения|восстановления плотности распределения]] по конечной выборке данных.
-
Задача состоит в восстановлении дискретной функции плотности вероятности <tex>f(\omega_t)</tex> (где <tex>\omega_t</tex> - элементарные исходы, зависящие от времени <tex>t \in [0, T], T < \infty</tex>, <tex>\omega_t = ( \delta_D(t-t^{(1)}_1)) * 1 + \delta_D(t-t^{(1)}_2)) * 1 + ... , \delta_D(t-t^{(2)}_1)) * 1 + \delta_D(t-t^{(2)}_2)) * 1 + ... , ) \in ( (0|1) , (0|1) , ..., (0|1) )</tex>, где <tex>\delta_D(.)</tex> - дельта-функция Дирака. То есть, проще говоря, события разного вида <tex>j</tex> происходят в случайные моменты времени <tex>t^{(j)}_k</tex>) ) при условии, что заданы условия на <tex>P(\omega_{A_i}) = X_{A_i}</tex> (где <tex>\omega_{A_i}</tex> - суперпозиция финальных исходов (интегрированных по времени: <tex>\omega = \int_{0}^{T} {w_t dt} = (i_1, ...,i_D);\; i_k \in Z_{0,+} \; ( k=1,D )</tex>)), <tex>P(.)</tex> - функция распределения вероятностей, <tex>X_{A_i}</tex> - заданные вероятности, <tex>i = 1,...,K</tex>).
+
== Общие постановки задач ==
 +
Основные особенности рассматриваемых здесь постановок задачи:
 +
* имеется точная априорная информация о вероятности некоторых событий; это приводит к появлению дополнительных ограничений типа равенств в задаче [[Принцип максимума правдоподобия|максимизации правдоподобия]];
 +
* выборка может быть «немного» неоднородной;
 +
* рассматривается несколько разновидностей задачи: объектами выборки могут быть как элементарные исходы, так и последовательности ([[временной ряд|временные ряды]]) элементарных исходов;
 +
* рассматриваются только дискретные распределения (множество элементарных исходов конечно);
-
Эмпирические частоты для <tex>\omega_t</tex> заданы.
+
=== Стационарный однородный случай ===
 +
Задано конечное множество элементарных исходов <tex>\Omega</tex>.
 +
Для каждого <tex>\omega\in\Omega</tex> вероятность исхода <tex>p(\omega)</tex> неизвестна.
 +
Имеется информация двух типов:
 +
# ''эмпирические данные'': выборка наблюдений <tex>\{\omega_1,\ldots,\omega_m\},\; \omega_i\in\Omega</tex>, случайных, независимых из распределения <tex>\{p(\omega):\: \omega\in\Omega\}</tex>;
 +
# ''априорные ограничения'': известны точные значения <tex>P_j</tex> вероятностей событий <tex>A_j\subseteq\Omega,\; j=1,\ldots,J</tex>:
-
В качестве функционала качества предлагается использовать: <tex>q(Pr^*)=(1/n \sum_ {X \in \Omega_X} {Pr\{ X \} / Pr^*\{ X \} } - 1)^2</tex>, где <tex>Pr^*</tex> - оценки на вероятности исходов, которые строятся из элементарных исходов интегрированием по времени и суперпозицией получившихся исходов; сумма берется по полному набору исходов (n - полное число исходов в <tex>\Omega_X</tex>), <tex>Pr\{ X \}</tex> - истинные значения вероятностей.
+
::<tex>P(A_j) = \sum_{\omega\in A_j} p(\omega_j) = P_j.</tex>
-
== Частная постановка задачи ==
+
Требуется найти оценки вероятностей исходов <tex>\hat p(\omega)</tex>.
 +
Эти оценки должны вычисляться достаточно эффективно — за доли секунды при <tex>m\sim 10^4,\; |\Omega|\sim 10^2</tex>.
-
В частном случае: D=2, <tex>P(\omega_{A_1}) = \sum_{i>j; i,j \in Z_{0,+}} {Pr\{(i,j)\}} = Q_1, \; P(\omega_{A_2}) = \sum_{i<j; i,j \in Z_{0,+}} {Pr\{(i,j)\}} = Q_2, \; P(\omega_{A_3}) = \sum_{i+j \le T; i,j \in Z_{0,+}} {Pr\{(i,j)\}} = Q_3</tex>
+
Предполагается, что число априорных ограничений много меньше числа элементарных исходов,
 +
поэтому однозначно определить вероятности исходов из априорной информации невозможно.
-
В качестве функционала качества можно принять среднее среди функционалов качества для интегральных по времени исходов для деления всего времени на M одинаковых интервалов:
+
Обозначим через <tex>\nu(\omega)</tex> частоту исхода <tex>\omega</tex> в выборке:
-
<tex>q(Pr^*)= 1/M \sum_{l=1,M}(1/n_l \sum_ {X_l \in \Omega_{X_l}} {Pr_l\{ X \} / Pr_l^*\{ X_l \} } - 1)^2</tex>, где
+
-
<tex>X_l = \int_{M/T*(l-1) + \delta_+}^{M/T * l} { ( \omega^(1)_t }, \omega^(2)_t ) dt }</tex> (<tex>\delta_+</tex> - положительное бесконечно малое число введено, чтобы не учитывать два раза события на границе интервала). Для M=2 и D=2 множество <tex>X_l</tex> превращается в множество типа <tex>(i_1,j_1)</tex>, а множество функции плотности вероятности для двух интервалов превращается в <tex>((i_1,j_1),(i_2,j_2))</tex>, где <tex>(i_1,j_1)</tex> - количества событий типа i и j, соответственно, которые произошли в интервале [0,T].
+
-
: Известны результаты реализации этого случайного процесса, из которых можно построить эмпирическую плотность распределения <tex>f*(\omega_t)</tex>.
+
-
== Проблема выбора функции и параметризации для маргинальных плотностей (декомпозиция) и подгонка совместной плотности для удовлетворения связям (обратная композиция) ==
+
::<tex>\nu(\omega) = \frac1m \sum_{i=1}^m \left[ \omega_i=\omega \right].</tex>
 +
 
 +
==== Непараметрическая оценка максимума правдоподобия ====
 +
Найти ''[[Принцип максимума правдоподобия|оценку максимума правдоподобия]]'', решив оптимизационную задачу
 +
 
 +
::<tex>\sum_{\omega\in\Omega} \nu(\omega) \ln \hat p(\omega) \to \max</tex>
 +
 
 +
при ограничениях нормировки
 +
 
 +
::<tex>\sum_{\omega\in\Omega}\hat p(\omega) = 1, \quad \hat p(\omega)\ge 0,</tex>
 +
 
 +
и априорных ограничениях-равенствах
 +
 
 +
::<tex>\sum_{\omega\in A_j} \hat p(\omega) = P_j,\quad j=1,\ldots,J.</tex>
 +
 
 +
Вопросы:
 +
* Решается ли данная задача аналитически? (предположительно, да)
 +
* Обладают ли эти оценки свойствами [[несмещённость|несмещённости]], [[состоятельность|состоятельности]], [[эффективность|эффективности]]? (предположительно, да)
 +
* Какие свойста этих оценок «испортятся», и насколько сильно, если априорная информация <tex>P(A_j)=P_j</tex> будет не согласована с неизвестным истинным распределением, то есть с эмпирическими данными? (предположительно, возникнет смещение)
 +
* Как число априорных ограничений влияет на дисперсию оценок? (предположительно, дисперсия уменьшается с ростом ''J'')
 +
 
 +
==== Параметрическая оценка максимума правдоподобия ====
 +
Эмпирических данных может оказаться не достаточно для получения надёжных оценок, особенно для маловероятных исходов.
 +
Тогда вводится ещё один тип информации — параметрическая модель распределения
 +
<tex>\hat p(\omega) = \phi(\omega,\theta)</tex>,
 +
где <tex>\phi</tex> — фиксированная функция, <tex>\theta</tex> — вектор параметров модели.
 +
Постановка задачи остаётся той же, только теперь решением задачи является вектор параметров <tex>\theta</tex>.
 +
 
 +
Возможен также полупараметрический подход, когда
 +
вероятности часто встречающихся исходов (скажем, при <tex>\nu(\omega)>\nu_0</tex>) оцениваются непараметрически,
 +
а маловероятные исходы оцениваются согласно параметрической модели.
 +
 
 +
Вопросы:
 +
* Для каких параметрических моделей возможно получить эффективное численное решение?
 +
* Как определить порог <tex>\nu_0</tex> при полупараметрическом оценивании?
 +
* Как ввести «размытый» порог, чтобы решение определялось моделью в тем большей степени, чем меньше <tex>\nu(\omega)</tex>, без резкого перехода от параметрического оценивания к непараметрическому?
 +
 
 +
==== Двухэтапное решение ====
 +
Для получения вычислительно эффективного метода оценивания предлагается разделить решение задачи на два этапа.
 +
 
 +
'''Этап 1.'''
 +
Оценить вероятности исходов <tex>\hat p(\omega)</tex>, параметрически или непараметрически, не учитывая априорные ограничения <tex>P(A_j) = P_j</tex>.
 +
Эта задача решается стандартными методами.
 +
Например, при непараметрическом подходе оценка максимума правдоподобия есть просто
 +
 
 +
::<tex>\hat p(\omega) = \nu(\omega).</tex>
 +
 
 +
'''Этап 2.'''
 +
Согласовать полученное на этапе 1 решение с априорными ограничениями.
 +
При параметрическом подходе согласование сводится к поиску таких оценок
 +
<tex>\hat p(\omega)</tex>,
 +
которые в точности удовлетворяют априорным ограничениям
 +
и как можно лучше приближают модель.
 +
Например, можно воспользоваться приближением в среднеквадратичном:
 +
 
 +
::<tex>\sum_{\omega\in\Omega} \left( \phi(\omega,\theta) - \hat p(\omega) \right)^2 \to \min</tex>,
 +
 
 +
при ограничениях нормировки
 +
<tex>\textstyle\sum_{\omega\in\Omega}\hat p(\omega) = 1,\; \hat p(\omega)\ge 0</tex>
 +
и априорных ограничениях
 +
<tex>\textstyle\sum_{\omega\in A_j} \hat p(\omega) = P_j,\; j=1,\ldots,J</tex>.
 +
 
 +
Вопросы:
 +
* Обосновано ли применение метода наименьших квадратов (или какого-либо другого функционала) на втором этапе, если на первом этапе применяется принцип максимума правдоподобия?
 +
* Эквивалентно ли двухэтапное решение исходной постановке задачи? (предположительно, нет)
 +
* Хотя бы асимптотически? (предположительно, да)
 +
* Что нужно сделать, чтобы они стали эквивалентными?
 +
 
 +
=== Стационарный неоднородный случай ===
 +
Предположим, что объекты выборки
 +
<tex>\omega_i</tex>
 +
взяты по-прежнему случайно и независимо, но теперь из разных (неизвестных) распределений
 +
<tex>\{p_i(\omega):\: \omega\in\Omega\}</tex>.
 +
Для каждого объекта известны ''априорные ограничения'' — точные значения <tex>P_{ij}</tex> вероятностей событий
 +
<tex>A_j\subseteq\Omega,\; j=1,\ldots,J</tex>.
 +
Для некоторого нового объекта <tex>\omega\in\Omega</tex>,
 +
взятого из неизвестного распределения
 +
<tex>\{p(\omega):\: \omega\in\Omega\}</tex>,
 +
также заданы ''априорные ограничения'' — точные значения <tex>P_j</tex> вероятностей событий
 +
<tex>A_j\subseteq\Omega,\; j=1,\ldots,J</tex>.
 +
 
 +
Требуется найти оценки вероятностей исходов <tex>\hat p(\omega)</tex>.
 +
Эти оценки должны вычисляться достаточно эффективно.
 +
 
 +
Чтобы учесть неоднородность выборки, предлагается ввести веса объектов.
 +
Вес объекта <tex>\omega_i</tex> тем меньше, чем сильнее отличаются
 +
априорные вероятности <tex>P_{ij}</tex> для объекта <tex>\omega_i</tex> от
 +
априорных вероятностей <tex>P_{j}</tex> для объекта <tex>\omega</tex>.
 +
Далее вся методика, разработанная для однородного случая,
 +
переносится на неоднородный, с тем отличием, что теперь выборка взвешенная.
 +
 
 +
Функцию веса можно задать, опираясь на идею [[ядерное сглаживание|ядерного сглаживания]]:
 +
 
 +
::<tex>w_i = K \left( \frac{1}{h} \textstyle \sum_{j=1}^J |P_{ij}-P_{j}| \right),</tex>
 +
 
 +
где ''K'' — неотрицательная невозростающая функция, называемая ''[[ядро]]м'';
 +
''h'' — [[ширина окна]] сглаживания.
 +
 
 +
Вопросы:
 +
* Каким должно быть ядро?
 +
* Как подобрать ширину окна, иными словами, как быстро должен убывать вес с возростанием различия априорных вероятностей?
 +
* Какую метрику использовать для оценивания различия априорных вероятностей?
 +
* Будет ли оценка состоятельной, несмещённой, эффективной? Как эти свойства зависят от ширины окна?
 +
* Верна ли догадка, что ядерное сглаживание эквивалентно тихоновской регуляризации — введению штрафа за различия между неизвестными распределениями? Например так:
 +
::<tex>\sum_{i\neq k}\sum_{\omega}\left(p_i(\omega)-p_k(\omega)\right)^2 \to \min</tex>
 +
 
 +
=== Нестационарный неоднородный случай ===
 +
Нестационарная (динамическая) задача является дальнейшим обобщением стационарной (статической).
 +
 
 +
Теперь объектами являются не элементарные исходы, а последовательности элементарных исходов
 +
<tex>x_i = \{\omega^1_i,\ldots,\omega^t_i,\ldots,\omega^T_i\}\in\Omega^T</tex>.
 +
Индекс <tex>t=1,\ldots,T</tex> будем называть ''временем''.
 +
Время считается дискретным.
-
Проблемы:
 
-
* допустимость перехода к маргинальных плотностям;
 
-
* выбор класса функции плотности вероятностей;
 
-
* выбор метода оценки параметров. Хорош ли метод максимального правдоподобия для оценки параметров функции плотности распределения, если при оценивании используются только интегральные по времени величины (интегральные эмпирическая функция и интегральная функция распределения вероятностей)).
 
-
* метод подгонки совместной плотности для удовлетворения связям. (1) Для случая одного интервала разбиения: <tex>\min_{[ Pr**\{(i,j)\}; \lambda_k ; \sum_{i,j=0,N} {Pr**\{(i,j)\} < 1]}}{\; \; \sum_{i,j = 0,N} {( (Pr_i*\{(i)\} \, Pr_j*\{(j)\}) - Pr**\{(i,j)}\} ) ^2 + \sum_{k=1,3} { \lambda_k \, ( Pr*\{\omega_{A_k}\} - Q_k)} } </tex>, <tex>Pr**\{(i,j)\} = \int_{0}^{T}{f**(\omega_t) dt}</tex>. (2) Для случая двух интервалов разбиения: <tex>\min_{[ Pr**\{((i_1,j_1),(i_2,j_2))\}; \lambda_k ; \sum_{i1,j1,i2,j2=0,N} {Pr**\{((i1,j1),(i2,j2))\}} < 1 ]}{\; \; \sum_{i1,i2,j1,j2 = 0,N} {( (Pr_{i_1}*\{(i_1)\} \, Pr_{j_1}*\{(j_1)\} \, Pr_{i_2}*\{(i_2)\} \, Pr_{j_2}*\{(j_2)\}) - Pr**\{((i_1,j_1),(i_2,j_2))}\} ) ^2 + \sum_{k=1,3} { \lambda_k \, ( Pr*\{\omega_{A_k}\} - Q_k)} } </tex>.
 
-
*# статистические свойства метода подгонки;
 
-
*# возможность введения в квадратичное выражение констант <tex>С_{i,j}</tex>, зависящих от эмпирических данных.
 
-
* статистические свойства и свойства функционала качества итоговой оценки плотности.
 
-
== Сглаживание и подгонка совместной плотности (без декомпозии к маргинальны плотностям) ==
 
== Ссылки ==
== Ссылки ==
Строка 33: Строка 145:
== Литература ==
== Литература ==
-
{{Stub}}
+
[[Категория:Оценивание вероятностных распределений]]
-
[[Категория:Прикладная статистика]]
+
-
[[Категория:Виртуальные семинары]]
+

Текущая версия

Этот виртуальный семинар посвящён осбуждению некоторых обобщений классической задачи восстановления плотности распределения по конечной выборке данных.

Содержание

Общие постановки задач

Основные особенности рассматриваемых здесь постановок задачи:

  • имеется точная априорная информация о вероятности некоторых событий; это приводит к появлению дополнительных ограничений типа равенств в задаче максимизации правдоподобия;
  • выборка может быть «немного» неоднородной;
  • рассматривается несколько разновидностей задачи: объектами выборки могут быть как элементарные исходы, так и последовательности (временные ряды) элементарных исходов;
  • рассматриваются только дискретные распределения (множество элементарных исходов конечно);

Стационарный однородный случай

Задано конечное множество элементарных исходов \Omega. Для каждого \omega\in\Omega вероятность исхода p(\omega) неизвестна. Имеется информация двух типов:

  1. эмпирические данные: выборка наблюдений \{\omega_1,\ldots,\omega_m\},\; \omega_i\in\Omega, случайных, независимых из распределения \{p(\omega):\: \omega\in\Omega\};
  2. априорные ограничения: известны точные значения P_j вероятностей событий A_j\subseteq\Omega,\; j=1,\ldots,J:
P(A_j) = \sum_{\omega\in A_j} p(\omega_j) = P_j.

Требуется найти оценки вероятностей исходов \hat p(\omega). Эти оценки должны вычисляться достаточно эффективно — за доли секунды при m\sim 10^4,\; |\Omega|\sim 10^2.

Предполагается, что число априорных ограничений много меньше числа элементарных исходов, поэтому однозначно определить вероятности исходов из априорной информации невозможно.

Обозначим через \nu(\omega) частоту исхода \omega в выборке:

\nu(\omega) = \frac1m \sum_{i=1}^m \left[ \omega_i=\omega \right].

Непараметрическая оценка максимума правдоподобия

Найти оценку максимума правдоподобия, решив оптимизационную задачу

\sum_{\omega\in\Omega} \nu(\omega) \ln \hat p(\omega) \to \max

при ограничениях нормировки

\sum_{\omega\in\Omega}\hat p(\omega) = 1, \quad \hat p(\omega)\ge 0,

и априорных ограничениях-равенствах

\sum_{\omega\in A_j} \hat p(\omega) = P_j,\quad j=1,\ldots,J.

Вопросы:

  • Решается ли данная задача аналитически? (предположительно, да)
  • Обладают ли эти оценки свойствами несмещённости, состоятельности, эффективности? (предположительно, да)
  • Какие свойста этих оценок «испортятся», и насколько сильно, если априорная информация P(A_j)=P_j будет не согласована с неизвестным истинным распределением, то есть с эмпирическими данными? (предположительно, возникнет смещение)
  • Как число априорных ограничений влияет на дисперсию оценок? (предположительно, дисперсия уменьшается с ростом J)

Параметрическая оценка максимума правдоподобия

Эмпирических данных может оказаться не достаточно для получения надёжных оценок, особенно для маловероятных исходов. Тогда вводится ещё один тип информации — параметрическая модель распределения \hat p(\omega) = \phi(\omega,\theta), где \phi — фиксированная функция, \theta — вектор параметров модели. Постановка задачи остаётся той же, только теперь решением задачи является вектор параметров \theta.

Возможен также полупараметрический подход, когда вероятности часто встречающихся исходов (скажем, при \nu(\omega)>\nu_0) оцениваются непараметрически, а маловероятные исходы оцениваются согласно параметрической модели.

Вопросы:

  • Для каких параметрических моделей возможно получить эффективное численное решение?
  • Как определить порог \nu_0 при полупараметрическом оценивании?
  • Как ввести «размытый» порог, чтобы решение определялось моделью в тем большей степени, чем меньше \nu(\omega), без резкого перехода от параметрического оценивания к непараметрическому?

Двухэтапное решение

Для получения вычислительно эффективного метода оценивания предлагается разделить решение задачи на два этапа.

Этап 1. Оценить вероятности исходов \hat p(\omega), параметрически или непараметрически, не учитывая априорные ограничения P(A_j) = P_j. Эта задача решается стандартными методами. Например, при непараметрическом подходе оценка максимума правдоподобия есть просто

\hat p(\omega) = \nu(\omega).

Этап 2. Согласовать полученное на этапе 1 решение с априорными ограничениями. При параметрическом подходе согласование сводится к поиску таких оценок \hat p(\omega), которые в точности удовлетворяют априорным ограничениям и как можно лучше приближают модель. Например, можно воспользоваться приближением в среднеквадратичном:

\sum_{\omega\in\Omega} \left( \phi(\omega,\theta) - \hat p(\omega) \right)^2 \to \min,

при ограничениях нормировки \textstyle\sum_{\omega\in\Omega}\hat p(\omega) = 1,\; \hat p(\omega)\ge 0 и априорных ограничениях \textstyle\sum_{\omega\in A_j} \hat p(\omega) = P_j,\; j=1,\ldots,J.

Вопросы:

  • Обосновано ли применение метода наименьших квадратов (или какого-либо другого функционала) на втором этапе, если на первом этапе применяется принцип максимума правдоподобия?
  • Эквивалентно ли двухэтапное решение исходной постановке задачи? (предположительно, нет)
  • Хотя бы асимптотически? (предположительно, да)
  • Что нужно сделать, чтобы они стали эквивалентными?

Стационарный неоднородный случай

Предположим, что объекты выборки \omega_i взяты по-прежнему случайно и независимо, но теперь из разных (неизвестных) распределений \{p_i(\omega):\: \omega\in\Omega\}. Для каждого объекта известны априорные ограничения — точные значения P_{ij} вероятностей событий A_j\subseteq\Omega,\; j=1,\ldots,J. Для некоторого нового объекта \omega\in\Omega, взятого из неизвестного распределения \{p(\omega):\: \omega\in\Omega\}, также заданы априорные ограничения — точные значения P_j вероятностей событий A_j\subseteq\Omega,\; j=1,\ldots,J.

Требуется найти оценки вероятностей исходов \hat p(\omega). Эти оценки должны вычисляться достаточно эффективно.

Чтобы учесть неоднородность выборки, предлагается ввести веса объектов. Вес объекта \omega_i тем меньше, чем сильнее отличаются априорные вероятности P_{ij} для объекта \omega_i от априорных вероятностей P_{j} для объекта \omega. Далее вся методика, разработанная для однородного случая, переносится на неоднородный, с тем отличием, что теперь выборка взвешенная.

Функцию веса можно задать, опираясь на идею ядерного сглаживания:

w_i = K \left( \frac{1}{h} \textstyle \sum_{j=1}^J |P_{ij}-P_{j}| \right),

где K — неотрицательная невозростающая функция, называемая ядром; hширина окна сглаживания.

Вопросы:

  • Каким должно быть ядро?
  • Как подобрать ширину окна, иными словами, как быстро должен убывать вес с возростанием различия априорных вероятностей?
  • Какую метрику использовать для оценивания различия априорных вероятностей?
  • Будет ли оценка состоятельной, несмещённой, эффективной? Как эти свойства зависят от ширины окна?
  • Верна ли догадка, что ядерное сглаживание эквивалентно тихоновской регуляризации — введению штрафа за различия между неизвестными распределениями? Например так:
\sum_{i\neq k}\sum_{\omega}\left(p_i(\omega)-p_k(\omega)\right)^2 \to \min

Нестационарный неоднородный случай

Нестационарная (динамическая) задача является дальнейшим обобщением стационарной (статической).

Теперь объектами являются не элементарные исходы, а последовательности элементарных исходов x_i = \{\omega^1_i,\ldots,\omega^t_i,\ldots,\omega^T_i\}\in\Omega^T. Индекс t=1,\ldots,T будем называть временем. Время считается дискретным.


Ссылки

Литература

Личные инструменты