Математическая статистика

Критерии согласия и однородность выборок

Проверка гипотез о виде распределения. Критерий Колмогорова




Статистические методы, изложенные в предыдущих главах, опираются на различные априорные допущения о виде исследуемой статистической модели. Например, основные формулы расчёта доверительных интервалов и статистик критерия для проверки статистических гипотез о параметрах распределений выведены в предположениях о нормальности распределения генеральной совокупности и независимости элементов наблюдаемой случайной выборки.

В практических приложениях может возникнуть вопрос о соответствии выборочных наблюдений предполагаемой статистической модели. Эти предположения могут быть сформулированы как статистические гипотезы и проверены с помощью статистических критериев.

Критериями согласия (goodness of fit tests) называют статистические критерии, предназначенные для проверки гипотез о виде распределения наблюдаемой генеральной совокупности. Критерии согласия отвечают на вопрос, насколько хорошо экспериментальные данные согласуются с предполагаемой статистической моделью генеральной совокупности.

Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей неизвестное распределение FX(x, θ) с вектором неизвестных параметров $\theta =({{\theta }_{1}},...,{{\theta }_{r}})$ размерности r. Рассмотрим задачу проверки статистической гипотезы о том, что функция распределения FX(x, θ) совпадает с некоторой известной функцией G(x). Сформулируем основную и альтернативную гипотезы:

${{H}_{0}}:{{F}_{X}}(x,\theta )=G(x)$,

$H':{{F}_{X}}(x,\theta )\ne G(x)$.

Оценкой неизвестной функции распределения FX(x, θ), рассчитанной по выборке x1,…,xn, является эмпирическая функция распределения $F_{n}^{*}(x)$. ЭФР $F_{n}^{*}(x)$ выборки x1,…,xn является реализацией случайной эмпирической функции распределения $\mathcal{F}_{n}^{*}(x)$ соответствующей случайной выборки X1,…, Xn. В то же время, $\mathcal{F}_{n}^{*}(x)$ является состоятельной оценкой функции распределения FX(x, θ). Это означает, что при $n\to \infty $ при каждом фиксированном x случайная величина $\mathcal{F}_{n}^{*}(x)$ стремится по вероятности к значению функции распределения FX(x, θ) в точке x. Следовательно, при условии истинности основной гипотезы вероятность того, что рассогласование $\Delta \left( F_{n}^{*}(x),G(x) \right)$ между $F_{n}^{*}(x)$ и G(x) примет достаточно большие значения, стремится к нулю с ростом объёма выборки n. Меру рассогласования между двумя распределениями можно выбрать многими способами и в зависимости от этого выбора получаем различные статистики критерия для проверки интересующей нас гипотезы.

Критерий Колмогорова (one-sample KS-test), называемый также критерием Колмогорова-Смирнова (A.N. Kolmogorov, N.V. Smirnov, 1933), основан на результатах сравнения ЭФР $F_{n}^{*}(x)$ с предполагаемой функцией распределения G(x) с помощью метрики

$\Delta \left( F_{n}^{*}(x),G(x) \right)={{D}_{n}}=\underset{x}{\mathop{\sup }}\,\left| F_{n}^{*}(x)-G(x) \right|$.

(1)

Если функции $F_{n}^{*}(x)$ и G(x) близки с точки зрения указанной метрики, то оснований отклонять основную гипотезу H0 нет. Если расхождение между этими функциями велико, то распределение случайной величины X значимо отлично от предполагаемого распределения G(x), следовательно, основная гипотеза H0 должна быть отвергнута в пользу альтернативной.

А.Н. Колмогоровым предложена статистика критерия

${{Z}_{n}}=\sqrt{n}{{D}_{n}}$,

для которой показано, что при условии истинности основной гипотезы H0 при $n\to \infty $ её закон распределения не зависит от вида функции G(x), причём её функция распределения стремится к предельной (функции распределения Колмогорова):

$K(z)=\sum\limits_{k=-\infty }^{\infty }{{{(-1)}^{k}}{{e}^{-2{{k}^{2}}{{z}^{2}}}}}$.

(2)

Приближённо полагая при больших n (n > 40), что статистика критерия Zn имеет распределение Колмогорова, для неё может быть рассчитана любая квантиль, используя формулу (2) или таблицу квантилей распределения Колмогорова. Некоторые критические точки распределения Колмогорова и соответствующие им уровни значимости приведены в табл. 5.1.

Таблица 5.1

Таблица квантилей распределения Колмогорова

α

0,005

0,01

0,025

0,05

0,10

0,15

0,20

0,25

z1–α

1,73

1,63

1,48

1,36

1,22

1,14

1,07

1,02

В случае истинности альтернативной гипотезы H’ рассогласование Dn между ЭФР $F_{n}^{*}(x)$ и G(x) при $n\to \infty $ будет отлично от нуля, причём с увеличением Dn статистика критерия Zn более вероятно будет принимать большие значения. Следовательно, основная гипотеза H0 должна отвергаться в области больших значений Zn, т.е. критическая область должна выбираться правосторонней.

На практике для вычисления рассогласования Dn между ЭФР $F_{n}^{*}(x)$ и G(x) по выборке x1,…,xn удобно использовать формулу

${{D}_{n}}=\underset{i=\overline{1,n}}{\mathop{\max }}\,\left\{ \frac{i}{n}-G({{x}_{(i)}}),G({{x}_{(i)}})-\frac{i-1}{n} \right\}$,

которую также можно записать в виде

${{D}_{n}}=\underset{i=\overline{1,n}}{\mathop{\max }}\,\left\{ \left| G({{x}_{(i)}})-\frac{2i-1}{2n} \right|+\frac{1}{2n} \right\}$,

где ${{x}_{(1)}},...,{{x}_{(n)}}$ – вариационный ряд выборки.

Пример 1

Если требуется проверить принадлежность функции распределения FX(x, θ) заданному параметрическому множеству распределений G(x, θ), θ∈Θ, то проверяется согласие эмпирической функции распределения $F_{n}^{*}(x)$ лишь с максимально правдоподобным для данной выборки распределением $G(x,\tilde{\theta })$, где $\tilde{\theta }$ – МП-оценка параметра θ.

Пример 2