Критерий Колмогорова-Смирнова

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Примеры задач)
м
 
(23 промежуточные версии не показаны)
Строка 1: Строка 1:
'''Критерий Колмогорова-Смирнова''' используется для проверки гипотезы <tex>H_0</tex>: "случайная величина <tex>X</tex> имеет распределение <tex>F(x)</tex>".
'''Критерий Колмогорова-Смирнова''' используется для проверки гипотезы <tex>H_0</tex>: "случайная величина <tex>X</tex> имеет распределение <tex>F(x)</tex>".
-
==Примеры задач==
+
 
-
Критерий Колмогорова-Смирнова уместно применять в тех случаях, когда нужно проверить, подчиняется ли наблюдаемая случайная величина некоторому закону распределения,
+
-
известному с точностью до параметров.
+
-
Например, все исходы, выдаваемые рулеткой казино, должны быть равновероятны.
+
-
Для того, чтобы выяснить, можно ли считать некоторую рулетку "честной", следует составить достаточно большую выборку из исходов этой рулетки и применить к выборке критерий,
+
-
сравнивая её распределение с равномерным.
+
==Описание критерия==
==Описание критерия==
 +
Классический критерий Колмогорова (иногда говорят Колмогорова-Смирнова) предназначен для проверки простых гипотез о принадлежности анализируемой выборки некоторому полностью известному закону распределения.
 +
Пусть <tex>X_n</tex> - выборка независимых одинаково распределённых случайных величин,
Пусть <tex>X_n</tex> - выборка независимых одинаково распределённых случайных величин,
-
<tex>F_n(x)</tex> - [[эмпирическая функция распределения]], <tex>\Phi(x)</tex> - некоторая фиксированная "истинная" [[функция распределения]].
+
<tex>F_n(x)</tex> - [[эмпирическая функция распределения]], <tex>F(x)</tex> - некоторая "истинная" [[функция распределения]] с известными параметрами.
-
Тогда статистика критерия определяется следующим образом:
+
Статистика критерия определяется выражением:
-
::<tex>D_n=\sup_x |F_n(x)-\Phi(x)|.</tex>
+
::<tex>D_n=\sup_x |F_n(x)-F(x)|.</tex>
-
Обозначим через <tex>H_0</tex> гипотезу о том, что выборка подчиняется распределению <tex>\Phi(X)\in \mathrm{C}^1(\mathbb{X})</tex>.
+
Обозначим через <tex>H_0</tex> гипотезу о том, что выборка подчиняется распределению <tex>F(x)\in \mathrm{C}^1(\mathbb{X})</tex>.
-
Тогда по теореме Колмогорова для введённой статистики справедливо:
+
Тогда по теореме Колмогорова при справедливости проверяемой гипотезы:
::<tex>\forall t>0: \quad \lim_{n \to \infty}P(\sqrt{n} D_n \leq t)=K(t)=\sum_{j=-\infty}^{+\infty}(-1)^j \mathrm{e}^{-2j^2t^2}.</tex>
::<tex>\forall t>0: \quad \lim_{n \to \infty}P(\sqrt{n} D_n \leq t)=K(t)=\sum_{j=-\infty}^{+\infty}(-1)^j \mathrm{e}^{-2j^2t^2}.</tex>
Гипотеза <tex>H_0</tex> отвергается, если статистика <tex>\sqrt{n}D_n\!</tex> превышает квантиль распределения <tex>K_\alpha</tex> заданного уровня значимости <tex>\alpha</tex>,
Гипотеза <tex>H_0</tex> отвергается, если статистика <tex>\sqrt{n}D_n\!</tex> превышает квантиль распределения <tex>K_\alpha</tex> заданного уровня значимости <tex>\alpha</tex>,
и принимается в противном случае.
и принимается в противном случае.
 +
 +
 +
''Примечание:'' В критерии Колмогорова целесообразно использовать статистику с поправкой Большева: <tex>\sqrt{n}D_n+1/(6\sqrt{n})</tex>. Распределение этой статистики при справедливости проверяемой гипотезы быстро сходится к распределению Колмогорова и при <tex> n>25 </tex> зависимостью от объема выборки можно пренебречь.
 +
==Использование критерия для проверки нормальности==
==Использование критерия для проверки нормальности==
-
При помощи критерия Колмогорова-Смирнова определяется, описывает ли заданная функция наблюдаемое распределение <tex>X</tex>,
+
В данном случае критерий Колмогорова используется для проверки гипотезы о принадлежности наблюдаемой выборки нормальному закону, параметры которого оцениваются по этой самой выборке методом максимального правдоподобия.
-
в то время как для проверки нормальности требуется выяснить, принадлежит ли функция распределения величины <tex>X</tex> параметрическому семейству функций.
+
То есть, проверяется ''сложная гипотеза'' и в качестве оценок параметров нормального закона используются выборочные оценки среднего и дисперсии.
-
Один из возможных способов решения этой проблемы
+
 
-
заключается в вычислении выборочного среднего и выборочной дисперсии и последующем применении критерия к нормализованной выборке
+
В этом случае (Lilliefors) использовались модифицированные статистики вида:
-
::<tex>y_i=\frac{x_i-\bar{x}}{\sqr{\sigma_{\bar{x}}^2}}.</tex>
+
::<tex>D_n^*=D_n(\sqrt{n} - 0.01 + \frac{0.85}{\sqrt{n}})</tex>.
-
Если эта нормализованная выборка имеет распределение <tex>N(0, 1)</tex>, то считается,
+
Критические значения для статистики <tex>D_n^*</tex> приведены в следующей таблице (Lilliefors):
-
что исходная выборка также распределена нормально с параметрами <tex>(\bar{x}, \sigma_{\bar{x}})</tex>.
+
::{|class="standard"
 +
|<tex>\alpha</tex>
 +
|0,15
 +
|0,10
 +
|0,05
 +
|0,03
 +
|0,01
 +
|-
 +
|<tex>D_n^*(\alpha)</tex>
 +
|0,775
 +
|0,819
 +
|0,895
 +
|0,955
 +
|1,035
 +
|}
 +
 
 +
== Проверка сложных гипотез ==
 +
При проверке сложных гипотез, когда по выборке оцениваются параметры закона, с которым проверяется согласие, непараметрические критерии согласия теряют свойство свободы от распределения (Kac, Kiefer, Wolfowitz).
 +
При проверке сложных гипотез условные распределения статистик непараметрических критериев согласия (и критерия Колмогорова) зависят от ряда факторов: от вида наблюдаемого закона, соответствующего справедливой проверяемой гипотезе; от типа оцениваемого параметра и числа оцениваемых параметров; в некоторых случаях от конкретного значения параметра (например, в случае семейств гамма- и бета-распределений); от метода оценивания параметров.
 +
 
 +
Различия в предельных распределениях той же самой статистики при проверке простых и сложных гипотез настолько существенны, что пренебрегать этим ни коем случае нельзя.
 +
 
 +
О применении критерия Колмогорова для проверки различных сложных гипотез см. на сайте Новосибирского государственного технического университета:
 +
 
 +
* [http://ami.nstu.ru/~headrd/seminar/publik_html/Statistical_Data_Analysis.pdf Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход : монография. – Новосибирск : Изд-во НГТУ, 2011. – 888 с. (главы 3 и 4)]
 +
* [http://ami.nstu.ru/~headrd/seminar/publik_html/Models_Part_I.pdf Модели распределений статистик непараметрических критериев согласия при проверке сложных гипотез с использованием оценок максимального правдоподобия. Ч.I // Измерительная техника. 2009. № 6. – С.3-11.]
 +
* [http://ami.nstu.ru/~headrd/seminar/publik_html/Models_Part_II.pdf Модели распределений статистик непараметрических критериев согласия при проверке сложных гипотез с использованием оценок максимального правдоподобия. Ч.II // Измерительная техника. 2009. № 8. – С.17-26.]
 +
 
==Литература==
==Литература==
-
#''Кобзарь А. И.'' Прикладная математическая статистика. М.: Физматлит, 2006. — 816 с.
+
#''Kolmogoroff A.N.'' Sulla determinazione empirica di una legge di distribuzione // Giornale dell` Istituto Italiano degly Attuari. 1933. – Vol. 4. – № 1. – P. 83-91.
-
#''Kolmogorov А. N.'' Confidence limits for an unknown distribution function // AMS. 1941. V. 12. P. 461-463.
+
#''Большев Л.Н., Смирнов Н.В.'' Таблицы математической статитики. М.: Наука, 1983.
-
#''Смирнов Н. В.'' Оценка расхождения между эмпирическими кривыми распределений в двух независимых выборках // Бюллетень МГУ. Сер. А. Вып. 2. 1939. С. 13—14.
+
#''Lilliefors H.W.'' On the Kolmogorov-Smirnov test for normality with mean and variance unknown // J. Am. Statist. Assoc., 1967. V.62. P.399-402.
 +
#''Kac M., Kiefer J., Wolfowitz J.'' On Tests of Normality and Other Tests of Goodness of Fit Based on Distance Methods // Ann. Math. Stat., 1955. V.26. – P.189-211.
 +
# Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. – М.: Изд-во стандартов. 2002. – 64 с.[http://ami.nstu.ru/~headrd/seminar/nonparametric/start2.htm]]
==См. также==
==См. также==
Строка 39: Строка 69:
[[Категория:Прикладная статистика]]
[[Категория:Прикладная статистика]]
 +
[[Категория:Параметрические статистические тесты]]

Текущая версия

Критерий Колмогорова-Смирнова используется для проверки гипотезы H_0: "случайная величина X имеет распределение F(x)".


Содержание

Описание критерия

Классический критерий Колмогорова (иногда говорят Колмогорова-Смирнова) предназначен для проверки простых гипотез о принадлежности анализируемой выборки некоторому полностью известному закону распределения.

Пусть X_n - выборка независимых одинаково распределённых случайных величин, F_n(x) - эмпирическая функция распределения, F(x) - некоторая "истинная" функция распределения с известными параметрами. Статистика критерия определяется выражением:

D_n=\sup_x |F_n(x)-F(x)|.

Обозначим через H_0 гипотезу о том, что выборка подчиняется распределению F(x)\in \mathrm{C}^1(\mathbb{X}). Тогда по теореме Колмогорова при справедливости проверяемой гипотезы:

\forall t>0: \quad \lim_{n \to \infty}P(\sqrt{n} D_n \leq t)=K(t)=\sum_{j=-\infty}^{+\infty}(-1)^j \mathrm{e}^{-2j^2t^2}.

Гипотеза H_0 отвергается, если статистика \sqrt{n}D_n\! превышает квантиль распределения K_\alpha заданного уровня значимости \alpha, и принимается в противном случае.


Примечание: В критерии Колмогорова целесообразно использовать статистику с поправкой Большева: \sqrt{n}D_n+1/(6\sqrt{n}). Распределение этой статистики при справедливости проверяемой гипотезы быстро сходится к распределению Колмогорова и при  n>25  зависимостью от объема выборки можно пренебречь.

Использование критерия для проверки нормальности

В данном случае критерий Колмогорова используется для проверки гипотезы о принадлежности наблюдаемой выборки нормальному закону, параметры которого оцениваются по этой самой выборке методом максимального правдоподобия. То есть, проверяется сложная гипотеза и в качестве оценок параметров нормального закона используются выборочные оценки среднего и дисперсии.

В этом случае (Lilliefors) использовались модифицированные статистики вида:

D_n^*=D_n(\sqrt{n} - 0.01 + \frac{0.85}{\sqrt{n}}).

Критические значения для статистики D_n^* приведены в следующей таблице (Lilliefors):

\alpha 0,15 0,10 0,05 0,03 0,01
D_n^*(\alpha) 0,775 0,819 0,895 0,955 1,035

Проверка сложных гипотез

При проверке сложных гипотез, когда по выборке оцениваются параметры закона, с которым проверяется согласие, непараметрические критерии согласия теряют свойство свободы от распределения (Kac, Kiefer, Wolfowitz). При проверке сложных гипотез условные распределения статистик непараметрических критериев согласия (и критерия Колмогорова) зависят от ряда факторов: от вида наблюдаемого закона, соответствующего справедливой проверяемой гипотезе; от типа оцениваемого параметра и числа оцениваемых параметров; в некоторых случаях от конкретного значения параметра (например, в случае семейств гамма- и бета-распределений); от метода оценивания параметров.

Различия в предельных распределениях той же самой статистики при проверке простых и сложных гипотез настолько существенны, что пренебрегать этим ни коем случае нельзя.

О применении критерия Колмогорова для проверки различных сложных гипотез см. на сайте Новосибирского государственного технического университета:

Литература

  1. Kolmogoroff A.N. Sulla determinazione empirica di una legge di distribuzione // Giornale dell` Istituto Italiano degly Attuari. 1933. – Vol. 4. – № 1. – P. 83-91.
  2. Большев Л.Н., Смирнов Н.В. Таблицы математической статитики. М.: Наука, 1983.
  3. Lilliefors H.W. On the Kolmogorov-Smirnov test for normality with mean and variance unknown // J. Am. Statist. Assoc., 1967. V.62. – P.399-402.
  4. Kac M., Kiefer J., Wolfowitz J. On Tests of Normality and Other Tests of Goodness of Fit Based on Distance Methods // Ann. Math. Stat., 1955. V.26. – P.189-211.
  5. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. – М.: Изд-во стандартов. 2002. – 64 с.[1]]

См. также

Ссылки