Робастное оценивание
Материал из MachineLearning.
(→Ссылки) |
|||
(36 промежуточных версий не показаны.) | |||
Строка 11: | Строка 11: | ||
Особое значение имеют <tex>M-</tex>оценки, это наиболее гибкие оценки - они допускают прямое обобщение на многопараметрический случай. | Особое значение имеют <tex>M-</tex>оценки, это наиболее гибкие оценки - они допускают прямое обобщение на многопараметрический случай. | ||
- | === Оценки типа максимального правдоподобия ( | + | === Оценки типа максимального правдоподобия (M-оценки)=== |
Всякая оценка <tex>T_n</tex>, определяемая как решение экстремальной задачи на минимум вида | Всякая оценка <tex>T_n</tex>, определяемая как решение экстремальной задачи на минимум вида | ||
- | <tex>\sum_{i=1}^n \rho (x_i\,;\,T_n) \rightarrow \min</tex> | + | ::<tex>\sum_{i=1}^n \rho (x_i\,;\,T_n) \rightarrow \min</tex> |
или как решение неявного уравнения | или как решение неявного уравнения | ||
- | <tex>\sum_{i=1}^n \psi (x_i\,;\,T_n) = 0</tex>, | + | ::<tex>\sum_{i=1}^n \psi (x_i\,;\,T_n) = 0</tex>, |
где <tex>\rho</tex> - произвольная функция, <tex>\psi(x\,;\,\theta)= (\frac {\partial}{\partial{\theta}})\rho(x\,;\,\theta)</tex>, называется <tex>M-</tex>оценкой (или оценкой типа максимального правдоподобия); заметим, что если выбрать в качестве функции <tex>\rho(x\,;\,\theta)</tex> <tex>-\log f(x\,;\,\theta)</tex>, то мы получим обычную оценку максимального правдоподобия. | где <tex>\rho</tex> - произвольная функция, <tex>\psi(x\,;\,\theta)= (\frac {\partial}{\partial{\theta}})\rho(x\,;\,\theta)</tex>, называется <tex>M-</tex>оценкой (или оценкой типа максимального правдоподобия); заметим, что если выбрать в качестве функции <tex>\rho(x\,;\,\theta)</tex> <tex>-\log f(x\,;\,\theta)</tex>, то мы получим обычную оценку максимального правдоподобия. | ||
- | + | В частности, нас будут интересовать оценки сдвига | |
+ | ::<tex>\sum_{i=1}^n \rho (x_i - T_n) \rightarrow \min</tex> | ||
+ | |||
+ | или | ||
+ | |||
+ | ::<tex>\sum_{i=1}^n \psi (x_i - T_n) = 0</tex>. | ||
+ | |||
+ | Последнее уравнение можно записать в эквивалентном виде | ||
+ | |||
+ | ::<tex>\sum_{i=1}^n \omega_i (x_i - T_n) = 0</tex>, | ||
+ | |||
+ | где | ||
+ | |||
+ | ::<tex>\omega_i=\frac{\psi (x_i -Y_n)}{x_i - T_n}</tex> | ||
+ | |||
+ | Тогда мы можем представить оценку <tex>T_n</tex> в форме взвешенного среднего | ||
+ | |||
+ | ::<tex>T_n=\frac{\sum_{i=1}^n\omega_i x_i}{\sum_{i=1}^n w_i}</tex> | ||
+ | |||
+ | с весовыми коэффициентами <tex>\omega_i</tex>, зависящими от выборки. | ||
+ | |||
+ | === Линейные комбинации порядковых статистик (L-оценки)=== | ||
+ | Рассмотрим статистику, которая представляет собой линейную комбинацию порядковых статистик или, в более общей постановке, значений на некоторой функции <tex>h</tex>: | ||
+ | |||
+ | :: <tex> T_n = \sum_{i=1}^n a_{ni}h(x_{(i)}) </tex> | ||
+ | |||
+ | Предположим, что весовые коэффициенты порождаются при помощи (знакопеременной) меры <tex>M</tex> на интервале (0,1): | ||
+ | |||
+ | :: <tex>a_{ni}=\frac{1}{2} M \left{ \left(\frac{i-n}{n}\,,\,\frac{i}{n}\right)\right} + \frac{1}{2} M \left{ \left[\frac{i-n}{n}\,,\,\frac{i}{n}\right]\right} </tex> | ||
+ | |||
+ | (Такой выбор коэффициентов оставляет общую массу без изменений, т.е. <tex>\sum_{i=1}^n a_{in}=M\{(0,1)\}</tex>, и обеспечивает симметричность коэффициентов, если мера <tex>M</tex> симметрична относительно точки <tex>t=1/2</tex>.) | ||
+ | |||
+ | В рассматриваевом случае оценка <tex>T_n=T(F_n)</tex> получается при помощи функционала | ||
+ | |||
+ | ::<tex>T(F)=\int {h(F^{-1}(s))M(ds)}</tex>. | ||
+ | |||
+ | Здесь под функцией, обратной к ффункции распределения <tex>F</tex>, понимается функция | ||
+ | |||
+ | ::<tex>F^{-1}(s)=inf\{x|F(x) \ge s\}\,,\;\; 0<s<1</tex> | ||
+ | |||
+ | '''Примеры''' | ||
+ | # Самым простым примером служит медиана выборки. | ||
+ | # ''Винзоризованное среднее (Winsorized mean)''. Для его вычисления значения исходную выборку упорядочивают в определенном порядке (например, возрастания), затем с каждой стороны отсекается какой-то процент данных (обычно, берут по 10% или 25% с каждой стороны одинаково),а убранные специально подобранным образом заменяются на значения из оставшихся чисел, затем выисляется среднее по всей выборке. | ||
+ | # ''Усеченное среднее (Truncated mean)''. Для его вычисления усредняются данные вариационного ряда выборки после удаления с обеих сторон определенной доли объектов (она находится в пределах от 5 до 25%). | ||
+ | # ''Обрезанное среднее (Trimean)''. Величина <tex>TM</tex> вычисляется по следующей формуле <tex>TM=\frac{Q_1+2Q_2+Q_3}{4}</tex>, где <tex>Q_i</tex> - квартили i-го порядка. | ||
+ | |||
+ | '''Замечание''' | ||
+ | |||
+ | Далеко не все порядковые статистики являются робастными. Максимум, минимум, среднее и полусумма максимума и минимума не являются робастными, их характеристика, показывающая сколько наблюдения можно изменить, чтобы это не повлияло на конечный результат, равна 0. У робастных оценок эта характеристика равна 50% в случае медианы, а в остальных меньше и зависит от процента, используемого для отсечения данных. | ||
+ | |||
+ | === Оценки, получаемые в ранговых критериях (R-оценки)=== | ||
+ | Рассмотрим двухвыборочный ранговый критерий для определения параметра сдвига: пусть <tex>x_1,\;\;\dots, x_m</tex> и <tex>y_1,\;\;\dots, y_n</tex> суть две независимые выборки с распределениями <tex>F(x)</tex> и <tex>G(x)=F(x-\Delta)</tex>соответственно.Объединим эти выборку в одну выборку объема <tex>m+n</tex>.Пусть <tex>R_i</tex> есть ранг наблюдения <tex>x_i</tex> в объединенной выборке. Зададим веса <tex>a_i=a(i)\,,\;\; 1 \le i \le m+n</tex>. Критерий для проверки гипотезы <tex>\Delta=0</tex> при альтернативе <tex>\Delta > 0</tex> построим на основе статистики | ||
+ | |||
+ | ::<tex>S_{m,n}=\frac1m\sum_{i=1}^m a(R_i)</tex> | ||
+ | |||
+ | Как правило, мы полагаем, что весовые коэффициенты <tex>a_i</tex> получаются при помощи некоторой функции <tex>J</tex> по формуле | ||
+ | |||
+ | ::<tex>a_i=J\left(\frac{i}{m+n+i}\right)</tex> | ||
+ | |||
+ | В действительности предпочитают работать со следующим вариантов вычисления | ||
+ | |||
+ | ::<tex>a_i=(m+n)\;\int_{(i-1)/(m+n)}^{i/(m+n)}\; {J(s)ds}</tex>. | ||
+ | |||
+ | Для упрощения с этого момента полагаем, что <tex>m=n</tex>. Запишем статистику <tex>S</tex> в виде функционала | ||
+ | |||
+ | ::<tex>S(F\,,\,G)=\int J\left[\frac12F(x)+\frac12G(x)\right]F(dx)</tex>, | ||
+ | |||
+ | который при подстановке <tex>F(x)=s</tex> примет вид | ||
+ | |||
+ | ::<tex>S(F\,,\,G)=\int J\left[\frac12s+\frac12G(F^{-1}(s))\right]ds</tex>. | ||
+ | |||
+ | На практике работают с последним. Кроме того, работаем с условием того, что | ||
+ | |||
+ | ::<tex>\int {J(s)ds} = 0 </tex>, | ||
+ | |||
+ | соответсвующее равенству | ||
+ | |||
+ | ::<tex>\sum a_i=0</tex> | ||
+ | |||
+ | В этих предположениях математическое ожидание статистики <tex>S</tex> при нулевой гипотезе равно 0. | ||
+ | |||
+ | Оценки сдвига <tex>\Delta_n</tex> в двухвыборочной постановке и сдвига <tex>T_n</tex> в случае одной выборки можно получить при помощи следующих ранговых критериев. | ||
+ | #В случае двух выборок получить <tex>\Delta_n</tex> из приближенного уравнения <tex>S_{n,n} \approx 0</tex> полученного для выборок <tex>(x_1,\;\;\dots, x_n)</tex> и <tex>(y_1 - \Delta_n,\;\;\dots, y_n - \Delta_n)</tex> | ||
+ | #В случае одной выборки получить <tex>T_n</tex> из условия <tex>S_{n,n} \approx 0</tex>,вычисленного для выборок <tex>(x_1,\;\;\dots, x_n)</tex> и <tex>(2T_n - x_1 ,\;\;\dots, 2T_n-x_n)</tex>. В этом случае отсутствующей второй выборкой служит зеркальное отражение исходной выборки. | ||
+ | |||
+ | Иными словами, вторая выборка смещается до тех пор, пока критерий не перстает чувствовать различие в сдвиге. Заметим, что нулевое значение в точности может и не достигаться, поскольку <tex>S_{n,n}</tex> - разрывная функция. | ||
+ | |||
+ | Таким образом, наша оценка сдвига <tex>T_n</tex>, полученная при помощи функционала <tex>T(F)</tex>, определяется неявным уравнением | ||
+ | |||
+ | ::<tex>\int J\left{\frac12\left[s+1 - F(2T(F) - F^{-1}(s))\right]\right}ds=0</tex>. | ||
+ | |||
+ | '''Пример''' | ||
+ | |||
+ | Критерий Уилкоксона, в котором <tex>J(t)=t - \frac12</tex>, приводит к оценкам Ходжеса-Лемана, а именно к оценкам <tex>\Delta_n = med \{ y_i -x_i\}</tex> и <tex>T_n = med \{ \frac12 (x_i + x_j) \}</tex>. Заметим, что наши указания во втором случае приводят к медиане набора их всех <tex>n^2</tex> пар; в более традиционных вариантах используются только те пары, у которых <tex>i<j</tex> или <tex>i \le j</tex>, но асимптотически все три варианта эквивалентны. Эти оценки являются робастными. | ||
+ | |||
+ | == Вычисление робастных оценок == | ||
+ | Робастность, связанная с регрессией, носит особый характер, и здесь возникают довольно сложные задачи. | ||
+ | В случае линейной регрессии используется метод наименьших квадратов. Здесь мы работаем с М-оценками. | ||
+ | |||
Рассмотрим пример. Для оценки <tex>p</tex> неизвестных параметров <tex>\theta_1,\; \dots ,\theta_p</tex> используется <tex>n</tex> наблюдений <tex>y_1,\; \dots,y_n</tex>, причем они связаны между собой следующим неравенством <tex>\mathbf{y}=X\mathbf{\theta}+\mathbf{u}</tex>, где элементы матрицы <tex>X</tex> суть известные коэффициенты, а <tex>\mathbf{u}</tex> - вектор независимых случайных величин,имеющих (приблизительное)одинаковые функции распределения. | Рассмотрим пример. Для оценки <tex>p</tex> неизвестных параметров <tex>\theta_1,\; \dots ,\theta_p</tex> используется <tex>n</tex> наблюдений <tex>y_1,\; \dots,y_n</tex>, причем они связаны между собой следующим неравенством <tex>\mathbf{y}=X\mathbf{\theta}+\mathbf{u}</tex>, где элементы матрицы <tex>X</tex> суть известные коэффициенты, а <tex>\mathbf{u}</tex> - вектор независимых случайных величин,имеющих (приблизительное)одинаковые функции распределения. | ||
Строка 64: | Строка 162: | ||
Очевидно, что эта процедура сводит на нет влияние выделяющихся наблюдений. | Очевидно, что эта процедура сводит на нет влияние выделяющихся наблюдений. | ||
+ | Таким способом можно получить робастный вариант любой процедуры. Сначала данные "редактируются" - выделяющиеся наблюдения замещаются значениями, полученными при подгонке, а затем последовательно проводят переподгонку до тех пор, пока не появится сходимость. После этого к псевдонаблюдениям применяется нужная процедура. | ||
Строка 72: | Строка 171: | ||
== Ссылки == | == Ссылки == | ||
+ | * [http://www.ami.nstu.ru/~headrd/seminar/L_EST_HTML/l_est_1.htm Построение оптимальных L-оценок параметров сдвига и масштаба по выборочным асимптотически оптимальным квантилям] | ||
* [http://ru.wikipedia.org/wiki/Робастность_в_статистике#cite_ref-huber_1-0 Робастность в статистике]. | * [http://ru.wikipedia.org/wiki/Робастность_в_статистике#cite_ref-huber_1-0 Робастность в статистике]. | ||
* [http://www.aup.ru/books/m153/10_2.htm Робастность статистических процедур]. | * [http://www.aup.ru/books/m153/10_2.htm Робастность статистических процедур]. | ||
Строка 83: | Строка 183: | ||
[[Категория:Математическая статистика]] | [[Категория:Математическая статистика]] | ||
+ | [[Категория:Робастная регрессия]] | ||
{{Задание|Джумабекова Айнагуль|Vokov|6 января 2010}} | {{Задание|Джумабекова Айнагуль|Vokov|6 января 2010}} |
Текущая версия
Содержание |
Введение
На протяжении последних десятилетий росло понимание того факта, что некоторые наиболее распространенные статистические процедуры (в том числе те, которые оптимальны в предположении о нормальности распределения) весьма чувствительны к довольно малым отклонениям от предположений. Вот почему теперь появились иные процедуры - "робастные" (от англ. robust - крепкий,здоровый, дюжий).
Мы будем понимать под термином робастность нечувствительность к малым отклонениям от предположений. Процедура робастна, если малые отклонения от предположенной модели должны ухудшать качество процедуры (например, асимптотика дисперсии или уровень значимости и мощность критерия) должны быть близки к номинальным величинам, вычисленным для принятой модели.
Рассмотрим робастность по распределению, т.е. ситуации, в которых истинная функция распределения незначительно отличается от предполагаемой в модели (как правило, гауссовской функции распределения). Это не только наиболее важный случай, но и наиболее полно изученный. Гораздо меньше известно о том, что происходит в тех ситуациях, когда несколько нарушаются прочие стандартные допущения статистики, и том, какие меры защиты должны предусматриваться в подобных случаях.
Основные типы оценок
Введем оценки трех основных типов (),буквы
отвечают соответственно оценкам типа максимального правдоподобия, линейным комбинациям порядковых статистик и оценкам, получаемых в ранговых критериях.
Особое значение имеют оценки, это наиболее гибкие оценки - они допускают прямое обобщение на многопараметрический случай.
Оценки типа максимального правдоподобия (M-оценки)
Всякая оценка , определяемая как решение экстремальной задачи на минимум вида
или как решение неявного уравнения
,
где - произвольная функция,
, называется
оценкой (или оценкой типа максимального правдоподобия); заметим, что если выбрать в качестве функции
, то мы получим обычную оценку максимального правдоподобия.
В частности, нас будут интересовать оценки сдвига
или
.
Последнее уравнение можно записать в эквивалентном виде
,
где
Тогда мы можем представить оценку в форме взвешенного среднего
с весовыми коэффициентами , зависящими от выборки.
Линейные комбинации порядковых статистик (L-оценки)
Рассмотрим статистику, которая представляет собой линейную комбинацию порядковых статистик или, в более общей постановке, значений на некоторой функции :
Предположим, что весовые коэффициенты порождаются при помощи (знакопеременной) меры на интервале (0,1):
(Такой выбор коэффициентов оставляет общую массу без изменений, т.е. , и обеспечивает симметричность коэффициентов, если мера
симметрична относительно точки
.)
В рассматриваевом случае оценка получается при помощи функционала
.
Здесь под функцией, обратной к ффункции распределения , понимается функция
Примеры
- Самым простым примером служит медиана выборки.
- Винзоризованное среднее (Winsorized mean). Для его вычисления значения исходную выборку упорядочивают в определенном порядке (например, возрастания), затем с каждой стороны отсекается какой-то процент данных (обычно, берут по 10% или 25% с каждой стороны одинаково),а убранные специально подобранным образом заменяются на значения из оставшихся чисел, затем выисляется среднее по всей выборке.
- Усеченное среднее (Truncated mean). Для его вычисления усредняются данные вариационного ряда выборки после удаления с обеих сторон определенной доли объектов (она находится в пределах от 5 до 25%).
- Обрезанное среднее (Trimean). Величина
вычисляется по следующей формуле
, где
- квартили i-го порядка.
Замечание
Далеко не все порядковые статистики являются робастными. Максимум, минимум, среднее и полусумма максимума и минимума не являются робастными, их характеристика, показывающая сколько наблюдения можно изменить, чтобы это не повлияло на конечный результат, равна 0. У робастных оценок эта характеристика равна 50% в случае медианы, а в остальных меньше и зависит от процента, используемого для отсечения данных.
Оценки, получаемые в ранговых критериях (R-оценки)
Рассмотрим двухвыборочный ранговый критерий для определения параметра сдвига: пусть и
суть две независимые выборки с распределениями
и
соответственно.Объединим эти выборку в одну выборку объема
.Пусть
есть ранг наблюдения
в объединенной выборке. Зададим веса
. Критерий для проверки гипотезы
при альтернативе
построим на основе статистики
Как правило, мы полагаем, что весовые коэффициенты получаются при помощи некоторой функции
по формуле
В действительности предпочитают работать со следующим вариантов вычисления
.
Для упрощения с этого момента полагаем, что . Запишем статистику
в виде функционала
,
который при подстановке примет вид
.
На практике работают с последним. Кроме того, работаем с условием того, что
,
соответсвующее равенству
В этих предположениях математическое ожидание статистики при нулевой гипотезе равно 0.
Оценки сдвига в двухвыборочной постановке и сдвига
в случае одной выборки можно получить при помощи следующих ранговых критериев.
- В случае двух выборок получить
из приближенного уравнения
полученного для выборок
и
- В случае одной выборки получить
из условия
,вычисленного для выборок
и
. В этом случае отсутствующей второй выборкой служит зеркальное отражение исходной выборки.
Иными словами, вторая выборка смещается до тех пор, пока критерий не перстает чувствовать различие в сдвиге. Заметим, что нулевое значение в точности может и не достигаться, поскольку - разрывная функция.
Таким образом, наша оценка сдвига , полученная при помощи функционала
, определяется неявным уравнением
.
Пример
Критерий Уилкоксона, в котором , приводит к оценкам Ходжеса-Лемана, а именно к оценкам
и
. Заметим, что наши указания во втором случае приводят к медиане набора их всех
пар; в более традиционных вариантах используются только те пары, у которых
или
, но асимптотически все три варианта эквивалентны. Эти оценки являются робастными.
Вычисление робастных оценок
Робастность, связанная с регрессией, носит особый характер, и здесь возникают довольно сложные задачи. В случае линейной регрессии используется метод наименьших квадратов. Здесь мы работаем с М-оценками.
Рассмотрим пример. Для оценки неизвестных параметров
используется
наблюдений
, причем они связаны между собой следующим неравенством
, где элементы матрицы
суть известные коэффициенты, а
- вектор независимых случайных величин,имеющих (приблизительное)одинаковые функции распределения.
Тогда решение сводится к следующему:
Если матрица - матрица полного ранга
, то
,
а оценки
будут высиляться по следующей формуле
,
где
, далее
- матрица подгонки.
Допустим, что мы получили значения и остатки
.
Пусть - некоторая оценка стандартной ошибки наблюдений
(или стандартной ошибки остатков
)
Метрически винзоризуем наблюдения , заменяя их псевдонаблюдениями
:
Константа регулирует степень робастности, её значения хорошо выбирать из промежутка от 1 до 2, например, чаще всего
.
Затем по псевдонаблюдениям вычисляются новые значения
подгонки (и новые
).
Действия повторяются до достижения сходимости.
Если все наблюдения совершенно точны, то классическая оценка дисперсии отдельного наблюдения имеет вид
,
и стандартную ошибку остатка
можно в этом случае оценивать величиной
, где
есть
-й диагональный элемент матрицы
.
При использовании вместо остатков модифицированных остатков
, как нетрудно видеть, получается заниженная оценка масштаба. Появившееся смещение можно ликвидировать, полагая (в первом приближении)
,
где - число наблюдений без числа параметров,
- число неизменных наблюдений (
).
Очевидно, что эта процедура сводит на нет влияние выделяющихся наблюдений.
Таким способом можно получить робастный вариант любой процедуры. Сначала данные "редактируются" - выделяющиеся наблюдения замещаются значениями, полученными при подгонке, а затем последовательно проводят переподгонку до тех пор, пока не появится сходимость. После этого к псевдонаблюдениям применяется нужная процедура.
Литература
- Хьюбер П. Робастность в статистике. — М.: Мир, 1984.
Ссылки
- Построение оптимальных L-оценок параметров сдвига и масштаба по выборочным асимптотически оптимальным квантилям
- Робастность в статистике.
- Робастность статистических процедур.
- Публикации по робастным методам оценивания параметров и проверке статистических гипотез на сайте профессора НГТУ Лемешко Б.Ю..
- Robust statistics.
См. также
![]() | Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |