Обсуждение участника:ADY

Материал из MachineLearning.

(Различия между версиями)

Версия 09:20, 30 июля 2008

Содержание

1 Вниманию участников
2 О правилах хорошего тона и некоторых отличиях машинного обучения от философии
3 Статья RapidMiner
4 Статья про RapidMiner уже приведена в божеский вид
5 Возник вот форумный вопрос...
6 Статьи GATE, Joone и LinguaStream
7 Обсуждение задачи о восстановлении дискретной функции плотности вероятности
8 Как оценить качество эмпирической ф.п.в.?
9 Где можно почитать об оценивании с функцией штрафа?
10 Достаточно общая аппроксимация для плотности (для рассматриваемой задачи)
11 Идея разработки базы знаний по статистике: справочник по статистике

Вниманию участников

Появилась страница Вниманию участников предназначенная для общения участников по проекту. Предлагаю все идеи и проблемы вносить туда. --Yury Chekhovich 13:56, 29 февраля 2008 (MSK)

О правилах хорошего тона и некоторых отличиях машинного обучения от философии

Уважаемый участник! 1. На персональной странице неплохо бы первым делом представиться. Нам нечего скрывать друг от друга. 2. А вот за этими словами про машинное обучение стоит ли конкретное знание, опыт, десятки раздавленных граблей? Если это просто философствования, то я не рекомендовал бы это держать даже на личной страничке. Пока этот текст абсолютно непонятен. — К.В.Воронцов 13:45, 5 апреля 2008 (MSD)

Статья RapidMiner

Правильнее будет дать описание системы на русском языке и своими словами.

В качестве примера описания системы рекомендую использовать статью WEKA.

Andrew 15:35, 15 апреля 2008 (MSD)

Статья про RapidMiner уже приведена в божеский вид

Андрей, не зевай — я за тебя доделал RapidMiner! Но остальные три статьи за тобой! ;) Давай будем стараться не плодить столь неотёсанных заготовок. Признаться, я и сам грешен, но стараюсь хотя бы наметить структуру, поставить шаблончик {{stub}}) или {{UnderConstruction|Подпись=~~~~}}. Ещё рекомендую заглядывать в англоязычную Википедию и другие непредвзятые источники. На страницах производителей некоторые высказывания носят рекламный характер. Ещё, по RapidMiner-у проверь пож-ста факты: я не слишком глубоко в нём разбираюсь. Например, он все или только многие операторы WEKA поддерживает? — К.В.Воронцов 23:40, 15 апреля 2008 (MSD)

>он все или только многие операторы WEKA поддерживает

Я два года назад его изучал... Тогда в документации было написано, что по счастливому совпадению WEKA оказалась полностью совместима с YALE(RapidMiner) :). | ADY 23:55, 21 апреля 2008 (MSD)

Возник вот форумный вопрос...

Допустим требуется выбрать одну лучшую из двух дискретных функций распределения вероятностей $P1_i$ и $P2_i$ согласно функционалу качества: $V(f, P) = \sum{P_i/f_i}$ , где $P_i$ — истинные значения вероятностей.

Насколько я понимаю, если верно соотношение: $|P_i-P^*_i| < \epsilon_\alpha$ (для всех i), при уровне справедливости $1-\alpha$ , где $P*_i$ — оценка вероятностей на конкретных данных (то есть, другими словами, есть доверительный интервал для оценок вероятностей), то: $|V(P1, P)-V*(P1, P*)| < \delta1_\alpha$ и $|V(P2, P)-V^*(P2, P^*)| < \delta2_\alpha$ , а значит: P1 лучше P2 в смысле функционала V на уровне справедливости $1-\alpha$ , если $\sup_{P: \alpha}{V(P1, P)} < \inf_{P: \alpha}{V(P2, P)}$ . И, аналогично, P2 лучше P1 в смысле функционала V на уровне справедливости $1-\alpha$ , если $sup_{P: \alpha}{V(P2, P)} < \inf_{P: \alpha}{V(P1, P)}$ . Верно ли такое утверждение и как построить доверительные интервалы для вероятности для частотной оценки вероятностей? | ADY 14:45, 23 мая 2008 (MSD)

Ответ

Понять вопрос затруднительно: не ясно, что такое $V^*$ , $P:\alpha$ , $\epsilon_\alpha$ , $\delta1_\alpha$ , $\delta2_\alpha$ .
Уровень значимости, а не справедливости.
Почему именно такая функция качества, а не какая-либо стандартная: Колмогорова-Смирнова, Кульбака-Лейблера, хи-квадрат?
Кажется, в формуле $|V(P2, P)-V^*(P1, P^*)| < \delta2_\alpha$ имелось в виду $V^*(P2, P^*)$ ?
Этому вопросу здесь не место (см. шапку этой страницы). Лучше написать мне письмо — К.В.Воронцов 15:43, 25 мая 2008 (MSD).

Ответ[2]

$V^*$ - функция V, в которую входят значения с *; $P:\alpha$ - множество допустимых значений вероятностей на уровне $\alpha$ ; $\epsilon_\alpha$ - максимальное допустимое отклонение от оценки вероятности на уровне $\alpha$ ; $\delta1_\alpha$ , $\delta2_\alpha$ - максимальное допустимое отклонение функционалов на уровне $\alpha$ .
Всегда путаю, что обзывается этим уровнем - мощность критического множества или дополнительного к критическому - посему использовал "уровень справедливости" (мощность множества: множество = все_множество - критическое_множество).
Такая функция напрямую следует из задачи.
Да, там действительно была очепятка (должна быть такая же формула, что и для $P1$ ).
А где место?... :) — Сейчас веду работы по подключению к ресурсу ML форума. Одно из предназначений — вопросы/ответы. Пока лучше обращаться к конкретному участнику по почте или в обсуждении, или кратко задавать вопрос на странице Вниманию участников (Другие вопросы) и давать ссылку на свою страницу обсуждения с полной постановкой. Andrew 17:05, 26 мая 2008 (MSD)
Спасибо за комментарий. | ADY 13:41, 26 мая 2008 (MSD)

Статьи GATE, Joone и LinguaStream

Андрей, созданные Вами страницы (см. заголовок) уже полтора месяца висят без изменений, хотя очень в них нуждаются. Необходимо привести их в порядок (переписать на русском языке в рекомендованном виде). Иначе придется их удалить, чего делать не хотелось бы. Если в чем то могу помочь, обращайтесь. --Yury Chekhovich 16:33, 30 мая 2008 (MSD)

Ответ

Есть несколько причин, из-за которых я не могу выполнить Вашу просьбу: 1) в ближайшем месяце - нет времени на то, чтобы выполнить эти работы; 2) z не работал с этими системами и знаю о них только то, что написано в документации; 3) плохо знаю теги для оформления вики-страниц. На самом деле, я просто хотел поделиться ссылками на бесплатные системы, которые считаю интересными и актуальными. В итоге, я не возражаю против удаления недоделанных статей о них. -- ADY 13:39, 7 июня 2008 (MSD)

Обсуждение задачи о восстановлении дискретной функции плотности вероятности

Ищу литературу (покупаю и готов покупать дальше необходимые книжки на английском), но еще не совсем уверен в точной постановке задачи, которую решаю.

Задача состоит в восстановлении дискретной функции плотности вероятности.

Есть большой набор данных:

{ Real: x, Real: y, X(x,y) }, где X - точка-множество в дискретном вероятностном пространстве (например, {{0,0},{1,2}). x, y - экспертные оценки на некоторые общие вероятностные характеристики события, реализация которого есть X(x,y) (в первом приближении это можно не учитывать).

Стоит задача для заданных (x0, y0) найти лучшую оценку фпв Pr*{ X(x,y) }(x0, y0) в смысле функционала качества: $\sum_ {X} {Pr\{ X \}(x0, y0) / Pr^*\{ X \}(x0, y0) } - 1$ , где $Pr\{ X \}(x0, y0)$ - истинные значения вероятностей.

Первое, что приходит в голову - это разбить данные на группы по интервалам для x и y, и построить фпв для каждой группы - частотные функции. Но возникают как минимум две проблемы: 1) Как сглаживать фпв для малых выборок? 2) Как комбинировать функционалы от частотные функции фпв, чтобы результаты оставались в рамках выбранного уровня значимости?

Может ли кто-нибудь что-нибудь подсказать/посоветовать?

Как оценить качество эмпирической ф.п.в.?

Не до конца понимаю, как оценить качество эмпирической функции плотности вероятностей $Pr^*\{ X \}$ , для выборки *конечного* объема N, для заданного функционала качества: $q(Pr^*)=1/n \sum_ {X} {Pr\{ X \} / Pr^*\{ X \} } - 1$ , где $Pr\{ X \}$ - истинные значения вероятностей. Хочется иметь строгую оценку в терминах уровня значимости. Пока в голову приходит лишь мысль разбить выборку на случайные подвыборки одинакового объема $n > \min_{X} {\: 1/Pr\{ X \} * K1}$ (K1 ~ 10) и попробовать что-то сделать с последовательностью функционалов q(...) для этих подвыборок, считая за истинные вероятности эмпирические вероятности от оставшихся данных...

Вообще, про выборки конечного объема почему-то нигде не пишут :(...

Где можно почитать об оценивании с функцией штрафа?

Где можно почитать об оценивании параметров известного распределения Pr*( {t} ), c функцией штрафа: $W[Pr^*] = (\sum_ {x} { Pr\{ x \} / Pr^*\{ x; {t} \} } / n - 1)^2$ , $(Pr\{ x \}$ - эмпирические частоты, n - число исходов ), для конечной выборки объема N (то есть нужна состоятельная оценка параметров {t'}, у которой E{W({t'})} минимально)? Похоже нужно как-то "исправить" оценку методом $\chi^2$ , чтобы она осталась состоятельной и при этом удовлетворяла условию задачи.

Ответ на всё скопом. По поводу последних трёх разделов. Что-то я опять не могу продраться сквозь твои обозначения и самовыдуманные термины. Что такое «точка-множество»? Чем не устраивают стандартные методы непараметрического оценивания плотности? Чем не устраивает критерий Колмогорова-Смирнова и иже с ними? Видимо, пора встречаться ;). — К.В.Воронцов 00:38, 12 июля 2008 (MSD)

>Что такое «точка-множество»?

Вектор значений (пример данных указан в условии) из множества значений векторов.

>Чем не устраивают стандартные методы непараметрического оценивания плотности?

Может и устраивают, только, к своему стыду, я не смог продраться через обозначения и как-то введенные объекты. К счастью, из самой задачи удалось построить вполне хорошую апроксимация плотности (практически с любой точностью).

>Чем не устраивает критерий Колмогорова-Смирнова и иже с ними?

Критерий тоже следует из задачи.

>Видимо, пора встречаться ;).

Я только за :). | ADY 18:19, 12 июля 2008 (MSD)

Достаточно общая аппроксимация для плотности (для рассматриваемой задачи)

Стоит задача построить достаточно общую аппроксимацию для плотности вероятностей для рассматриваемой задачи и построить быстрый алгоритм для оценки параметров. В рассматриваемом процессе, в течении некоторого заданного времени, происходит несколько 0-4 событий (в среднем 2-3). Есть основания считать, что чем больше прошло времени, тем вероятность того, что событие не произойдет слабо растет. Пуассоновская плотность не устраивает по точности.

Достаточно общей аппроксимацией выглядит следующая. Все время разбивается на достаточно большое число равных интервалов и принимается, что вероятность того, что событие произойдет в одной элементарном интервале два раза (q=2) мала (и всеми следующими вероятностями для q>2 можно пренебречь). Вероятности для интервала (для q=(0,1,2)): (p0(n), (1-p0(n)) * (1 - beta(n)), (1-p0(n)) * beta(n)).

Число интервалов нужно взять таким, чтобы величина beta(n) показывала ошибку такой аппроксимации. Теперь, подбирая последовательности p0(n) и beta(n) можно достаточно хорошо аппроксимировать общую плотность.

Принимаем: beta(n) = const(n) = beta, p0(n) = p0 * Exp(n * tau). Тогда общая плотность (для принятой гипотезы о p0(n) и beta(n)) будет выражаться в виде ( $Q=\sum_{i=1,N}{q_i}$ - полное число событий во всех интервалах):

$P\{Q=0\} = p0^N Exp( (N*(N+1)/2) tau )$

$P\{Q=1\} = p0^{(N-1)} \sum_{ n = 1,N } { Exp( (N*(N+1)/2) - n ) * tau ) (1-beta) * ( 1 - p0 * Exp( n * tau ) ) }$

$P\{Q=2\} = p0^{(N-2)} ( \sum_{ n1 = 1,N; n2>n1 } { Exp( (N*(N+1)/2) - n1 - n2 ) * tau ) (1-beta) * ( 1 - p0 * Exp( n1 * tau ) ) (1-beta) * ( 1 - p0 * Exp( n2 * tau ) )} +$ $+ \sum_{ n1 = 1,N } { Exp( (N*(N+1)/2) - n1 ) * tau ) * beta * ( 1 - p0 * Exp( n1 * tau ) * p0 )}$

$P\{Q>q,Q<N\}=...$

В идеале хотелось бы построить некоторое достаточное разложение функции правдоподобия: $log(L) = \sum_{Q=0;\infty} {\nu_q * log(P\{Q=q\})} = log( P\{Q=0\}) + \sum_{Q=0;\infty} {\nu_q * log(P\{Q=q\} / P\{Q=0\})}$

, чтобы было возможно найти ее максимальное значение.

На первый взгляд, начальные члены разложения не должны быть слишком сложными (напрашиваются какие-то рекурсивные последовательности). Может быть где-то эта задача, так или иначе, уже исследовалась?

После встречи и обсуждения всё стало понятно. Есть предложение всё-таки записать постановку задачи в абстракных терминах, не упоминая о предметных областях. А то я уже опять начинаю выходить из темы. Предлагаю сделать страницу виртуального семинара Идентификация вероятностных моделей при ограничениях на вероятности некоторых событий (виртуальный семинар). Варианты названия обсуждаемы — К.В.Воронцов 01:26, 30 июля 2008 (MSD)

Предлагаю также название: "Восстановление функции плотности вероятностей для двумерного дискретного процесса, с линейными связями на функцию распределения вероятностей и заданным функционалом качества (виртуальный семинар)". | ADY 12:41, 30 июля 2008 (MSD)

Идея разработки базы знаний по статистике: справочник по статистике

Для теоретической и прикладной работы в области матстатистики нужен продвинутый справочник.
Есть общее представление о том, каким он должен быть. Под базой знаний предлагается понимать базу данных + язык мета-данных (то есть язык описания данных) + машина поиска по мета-данным. Таким образом, должны быть следующие возможности:
1. Поиск математических выражений, теорем и др. сущностей - по названию (например, "формула оценки по максимальному правдоподобию").
2. Поиск сущностей справочника - по описанию входных данных (например, формулы точечных оценок для дискретных входных данных).
3. Поиск сущностей справочника, имеющих отношение к заданной задаче (например, формулы точечных оценок для дискретных входных данных задачи).
Для эффективного применения информации из справочника предлагается представлять информацию на языке компьютерной алгебры. Предлагается использовать для этих целей Mathematica.
Для хранения информации предлагается использовать XML базу данных (с разработанной структурой XML-элементов).
Особенности справочника:
- Хранение таких сущностей как "теорема", с описанием входных и выходных данных.
- Структура мета данных справочника должна позволять решать такие задачи (для которых, конечно, будут нужны соответствующие обработчики) как проверка удовлетворения условиям теоремы.
От Mathematica можно будет отказываться постепенно: [1]
В принципе, реально сделать возможность ввода доказательства теоремы и затем повтор вывода теоремы при изменении условий теоремы.
Такой справочник нужен для реализации такого подхода к статистическим вычислениям, когда, определив входные и выходные данные, можно было бы достаточно быстро построить процедуру получения математического результата. В таком подходе работу нужно было бы прикладывать не к построению математических объектов, а к оптимизации процедуры вычисления (аппроксимация, раскладывание в ряд, упрощение выражений и т.п.) и настройка вычислительных процедур.
В практических вычислениях для быстрой разработки приложений стандартных средств Mathematica не хватает: нужны еще специальные средства для анализа погрешностей (ошибок) от учета/неучета большого числа факторов и анализа сходимости рядов разложения.

Не верю! Для принятия решений, какими статистическими методами пользоваться, надо иметь хорошего спеца по прикладной статистике (или постепенно становиться им путём самообразования). На практике одним методом дело не обходится. Специалист должен выстроить грамотную цепочку процедур обработки и анализа данных, адекватную данной задаче. Выстраивание этой цепочки — это циклический процесс «гипотеза → модель → эксперимент → интерпретация результата → новая гипотеза». Выработка и интерпретация гипотез — это творческая человеческая работа, требующая общей сёки и знания мира. С остальной работой хороший спец справляется, имея под рукой известные средства, от EXCEL до SPSS или SAS (менее или более удобные — другой вопрос). Автоматизировать деятельность спецов ещё более высокого уровня — тех математиков, которые выводят новые критерии и методы — дело вообще безнадёжное. Это ещё более человеческая работа. Сотни тысяч статей по статистике насыщены математическими идеями, порой довольно оригинальными. Задача научиться делать весь этот вывод автоматически (хотя бы полуавтоматически) сродни созданию Искусственного Интеллекта. От Mathematica польза будет, спору нет, но сначала надо стать спецом. Никакой справочник, даже интеллектуальный, не способен компенсировать человеческое невежество — К.В.Воронцов 01:26, 30 июля 2008 (MSD)

Искусственный Интеллект создавать не предлагаю. Речь идет только о повышении производительности работы. Какому именно тезису не веришь :)? | ADY 10:42, 30 июля 2008 (MSD)

В затею эту не верю. Не понятно, зачем совмещать две разные вещи: электронный справочник по статистике и систему функционального программирования. Математики и так используют Mathematica для автоматизации некоторой части своего труда. Однако для Mathematica нужна очень чёткая, вплоть до буковки, постановка задачи. Я не верю в то, что возможно автоматизировать формулирование строгой постановки задачи, всего лишь «определив входные и выходные данные». Язык описания постановки задачи разрастётся до такой сложности, что научиться им пользоваться будет не проще, чем стать хорошим спецом в статистике. А электронные учебники по статистике и так имеются, например, от фирмы StatSoft (их качество — это другой вопрос; кстати, давно руки чешутся попереносить оттуда к нам всю инфу и начать её дополнять и дорабатывать):

| К.В.Воронцов

>Не понятно, зачем совмещать две разные вещи: электронный справочник по статистике и систему функционального программирования.

Потому что, это было бы удобно для работы.

>Я не верю в то, что возможно автоматизировать формулирование строгой постановки задачи, всего лишь «определив входные и выходные данные».

Вопрос, как определять входные и выходные данные. Если выходные данные определяются через входные - это и есть ответ :).

>Язык описания постановки задачи разрастётся до такой сложности, что научиться им пользоваться будет не проще, чем стать хорошим спецом в статистике.

То что язык разрастется - это правда. Но есть готовые технологии, которые можно использовать, чтобы не потеряться в этом "зоопарке" (например, pattern matching в Mathematica). | ADY 13:20, 30 июля 2008 (MSD)

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5_%D1%83%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA%D0%B0:ADY»

@@ Строка 159: / Строка 159: @@
 :: Искусственный Интеллект создавать не предлагаю. Речь идет только о повышении производительности работы. Какому именно тезису не веришь :)? | [[Участник:ADY|ADY]] 10:42, 30 июля 2008 (MSD)
 ::: В затею эту не верю. Не понятно, зачем совмещать две разные вещи: электронный справочник по статистике и систему функционального программирования. Математики и так используют Mathematica для автоматизации некоторой части своего труда. Однако для Mathematica нужна очень чёткая, вплоть до буковки, постановка задачи. Я не верю в то, что возможно автоматизировать формулирование строгой постановки задачи, всего лишь «определив входные и выходные данные». Язык описания постановки задачи разрастётся до такой сложности, что научиться им пользоваться будет не проще, чем стать хорошим спецом в статистике. А электронные учебники по статистике и так имеются, например, от фирмы StatSoft (их качество — это другой вопрос; кстати, давно руки чешутся попереносить оттуда к нам всю инфу и начать её дополнять и дорабатывать):
 :::* [http://www.statsoft.ru/home/textbook/default.htm На русском]
-:::* [http://www.statsoft.com/textbook/stathome.html На английском] | ''[[Участник:Vokov|К.В.Воронцов]]''
+:::* [http://www.statsoft.com/textbook/stathome.html На английском]
+| ''[[Участник:Vokov|К.В.Воронцов]]''
 :::: >Не понятно, зачем совмещать две разные вещи: электронный справочник по статистике и систему функционального программирования.
 :::: Потому что, это было бы удобно для работы.
@@ Строка 168: / Строка 168: @@
 :::: Вопрос, как определять входные и выходные данные. Если выходные данные определяются через входные - это и есть ответ :).
 :::: >Язык описания постановки задачи разрастётся до такой сложности, что научиться им пользоваться будет не проще, чем стать хорошим спецом в статистике.
-:::: То что язык разрастется - это правда. Но есть готовые технологии, которые можно использовать, чтобы не потеряться в этом "зоопарке" (например, pattern matching в Mathematica).
+:::: То что язык разрастется - это правда. Но есть готовые технологии, которые можно использовать, чтобы не потеряться в этом "зоопарке" (например, pattern matching в Mathematica). | [[Участник:ADY|ADY]] 13:20, 30 июля 2008 (MSD)