Математическая статистика
Критерии согласия и однородность выборок
Проверка гипотез о виде распределения. Критерий Колмогорова
Статистические методы, изложенные в предыдущих главах, опираются на различные априорные допущения о виде исследуемой статистической модели. Например, основные формулы расчёта доверительных интервалов и статистик критерия для проверки статистических гипотез о параметрах распределений выведены в предположениях о нормальности распределения генеральной совокупности и независимости элементов наблюдаемой случайной выборки.
В практических приложениях может возникнуть вопрос о соответствии выборочных наблюдений предполагаемой статистической модели. Эти предположения могут быть сформулированы как статистические гипотезы и проверены с помощью статистических критериев.
Критериями согласия (goodness of fit tests) называют статистические критерии, предназначенные для проверки гипотез о виде распределения наблюдаемой генеральной совокупности. Критерии согласия отвечают на вопрос, насколько хорошо экспериментальные данные согласуются с предполагаемой статистической моделью генеральной совокупности.
Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей неизвестное распределение FX(x, θ) с вектором неизвестных параметров $\theta =({{\theta }_{1}},...,{{\theta }_{r}})$ размерности r. Рассмотрим задачу проверки статистической гипотезы о том, что функция распределения FX(x, θ) совпадает с некоторой известной функцией G(x). Сформулируем основную и альтернативную гипотезы:
${{H}_{0}}:{{F}_{X}}(x,\theta )=G(x)$,
$H':{{F}_{X}}(x,\theta )\ne G(x)$.
Оценкой неизвестной функции распределения FX(x, θ), рассчитанной по выборке x1,…,xn, является эмпирическая функция распределения $F_{n}^{*}(x)$. ЭФР $F_{n}^{*}(x)$ выборки x1,…,xn является реализацией случайной эмпирической функции распределения $\mathcal{F}_{n}^{*}(x)$ соответствующей случайной выборки X1,…, Xn. В то же время, $\mathcal{F}_{n}^{*}(x)$ является состоятельной оценкой функции распределения FX(x, θ). Это означает, что при $n\to \infty $ при каждом фиксированном x случайная величина $\mathcal{F}_{n}^{*}(x)$ стремится по вероятности к значению функции распределения FX(x, θ) в точке x. Следовательно, при условии истинности основной гипотезы вероятность того, что рассогласование $\Delta \left( F_{n}^{*}(x),G(x) \right)$ между $F_{n}^{*}(x)$ и G(x) примет достаточно большие значения, стремится к нулю с ростом объёма выборки n. Меру рассогласования между двумя распределениями можно выбрать многими способами и в зависимости от этого выбора получаем различные статистики критерия для проверки интересующей нас гипотезы.
Критерий Колмогорова (one-sample KS-test), называемый также критерием Колмогорова-Смирнова (A.N. Kolmogorov, N.V. Smirnov, 1933), основан на результатах сравнения ЭФР $F_{n}^{*}(x)$ с предполагаемой функцией распределения G(x) с помощью метрики
$\Delta \left( F_{n}^{*}(x),G(x) \right)={{D}_{n}}=\underset{x}{\mathop{\sup }}\,\left| F_{n}^{*}(x)-G(x) \right|$. |
Если функции $F_{n}^{*}(x)$ и G(x) близки с точки зрения указанной метрики, то оснований отклонять основную гипотезу H0 нет. Если расхождение между этими функциями велико, то распределение случайной величины X значимо отлично от предполагаемого распределения G(x), следовательно, основная гипотеза H0 должна быть отвергнута в пользу альтернативной.
А.Н. Колмогоровым предложена статистика критерия
${{Z}_{n}}=\sqrt{n}{{D}_{n}}$,
для которой показано, что при условии истинности основной гипотезы H0 при $n\to \infty $ её закон распределения не зависит от вида функции G(x), причём её функция распределения стремится к предельной (функции распределения Колмогорова):
$K(z)=\sum\limits_{k=-\infty }^{\infty }{{{(-1)}^{k}}{{e}^{-2{{k}^{2}}{{z}^{2}}}}}$. |
Приближённо полагая при больших n (n > 40), что статистика критерия Zn имеет распределение Колмогорова, для неё может быть рассчитана любая квантиль, используя формулу (2) или таблицу квантилей распределения Колмогорова. Некоторые критические точки распределения Колмогорова и соответствующие им уровни значимости приведены в табл. 5.1.
Таблица 5.1
Таблица квантилей распределения Колмогорова
α |
0,005 |
0,01 |
0,025 |
0,05 |
0,10 |
0,15 |
0,20 |
0,25 |
z1–α |
1,73 |
1,63 |
1,48 |
1,36 |
1,22 |
1,14 |
1,07 |
1,02 |
В случае истинности альтернативной гипотезы H’ рассогласование Dn между ЭФР $F_{n}^{*}(x)$ и G(x) при $n\to \infty $ будет отлично от нуля, причём с увеличением Dn статистика критерия Zn более вероятно будет принимать большие значения. Следовательно, основная гипотеза H0 должна отвергаться в области больших значений Zn, т.е. критическая область должна выбираться правосторонней.
На практике для вычисления рассогласования Dn между ЭФР $F_{n}^{*}(x)$ и G(x) по выборке x1,…,xn удобно использовать формулу
${{D}_{n}}=\underset{i=\overline{1,n}}{\mathop{\max }}\,\left\{ \frac{i}{n}-G({{x}_{(i)}}),G({{x}_{(i)}})-\frac{i-1}{n} \right\}$,
которую также можно записать в виде
${{D}_{n}}=\underset{i=\overline{1,n}}{\mathop{\max }}\,\left\{ \left| G({{x}_{(i)}})-\frac{2i-1}{2n} \right|+\frac{1}{2n} \right\}$,
где ${{x}_{(1)}},...,{{x}_{(n)}}$ – вариационный ряд выборки.
Если требуется проверить принадлежность функции распределения FX(x, θ) заданному параметрическому множеству распределений G(x, θ), θ∈Θ, то проверяется согласие эмпирической функции распределения $F_{n}^{*}(x)$ лишь с максимально правдоподобным для данной выборки распределением $G(x,\tilde{\theta })$, где $\tilde{\theta }$ – МП-оценка параметра θ.