Математическая статистика

Критерии согласия и однородность выборок

Проверка гипотез о виде распределения. Критерий Колмогорова

Статистические методы, изложенные в предыдущих главах, опираются на различные априорные допущения о виде исследуемой статистической модели. Например, основные формулы расчёта доверительных интервалов и статистик критерия для проверки статистических гипотез о параметрах распределений выведены в предположениях о нормальности распределения генеральной совокупности и независимости элементов наблюдаемой случайной выборки.

В практических приложениях может возникнуть вопрос о соответствии выборочных наблюдений предполагаемой статистической модели. Эти предположения могут быть сформулированы как статистические гипотезы и проверены с помощью статистических критериев.

Критериями согласия (goodness of fit tests) называют статистические критерии, предназначенные для проверки гипотез о виде распределения наблюдаемой генеральной совокупности. Критерии согласия отвечают на вопрос, насколько хорошо экспериментальные данные согласуются с предполагаемой статистической моделью генеральной совокупности.

Пусть x₁,…,x_n – выборка наблюдений случайной величины X, имеющей неизвестное распределение F_X(x, θ) с вектором неизвестных параметров $\theta =({{\theta }_{1}},...,{{\theta }_{r}})$ размерности r. Рассмотрим задачу проверки статистической гипотезы о том, что функция распределения F_X(x, θ) совпадает с некоторой известной функцией G(x). Сформулируем основную и альтернативную гипотезы:

${{H}_{0}}:{{F}_{X}}(x,\theta )=G(x)$,

$H':{{F}_{X}}(x,\theta )\ne G(x)$.

Оценкой неизвестной функции распределения F_X(x, θ), рассчитанной по выборке x₁,…,x_n, является эмпирическая функция распределения $F_{n}^{*}(x)$. ЭФР $F_{n}^{*}(x)$ выборки x₁,…,x_n является реализацией случайной эмпирической функции распределения $\mathcal{F}_{n}^{*}(x)$ соответствующей случайной выборки X₁,…, X_n. В то же время, $\mathcal{F}_{n}^{*}(x)$ является состоятельной оценкой функции распределения F_X(x, θ). Это означает, что при $n\to \infty $ при каждом фиксированном x случайная величина $\mathcal{F}_{n}^{*}(x)$ стремится по вероятности к значению функции распределения F_X(x, θ) в точке x. Следовательно, при условии истинности основной гипотезы вероятность того, что рассогласование $\Delta \left( F_{n}^{*}(x),G(x) \right)$ между $F_{n}^{*}(x)$ и G(x) примет достаточно большие значения, стремится к нулю с ростом объёма выборки n. Меру рассогласования между двумя распределениями можно выбрать многими способами и в зависимости от этого выбора получаем различные статистики критерия для проверки интересующей нас гипотезы.

Критерий Колмогорова (one-sample KS-test), называемый также критерием Колмогорова-Смирнова (A.N. Kolmogorov, N.V. Smirnov, 1933), основан на результатах сравнения ЭФР $F_{n}^{*}(x)$ с предполагаемой функцией распределения G(x) с помощью метрики

$\Delta \left( F_{n}^{*}(x),G(x) \right)={{D}_{n}}=\underset{x}{\mathop{\sup }}\,\left| F_{n}^{*}(x)-G(x) \right|$.

(1)

Если функции $F_{n}^{*}(x)$ и G(x) близки с точки зрения указанной метрики, то оснований отклонять основную гипотезу H₀ нет. Если расхождение между этими функциями велико, то распределение случайной величины X значимо отлично от предполагаемого распределения G(x), следовательно, основная гипотеза H₀ должна быть отвергнута в пользу альтернативной.

А.Н. Колмогоровым предложена статистика критерия

${{Z}_{n}}=\sqrt{n}{{D}_{n}}$,

для которой показано, что при условии истинности основной гипотезы H₀ при $n\to \infty $ её закон распределения не зависит от вида функции G(x), причём её функция распределения стремится к предельной (функции распределения Колмогорова):

$K(z)=\sum\limits_{k=-\infty }^{\infty }{{{(-1)}^{k}}{{e}^{-2{{k}^{2}}{{z}^{2}}}}}$.

(2)

Приближённо полагая при больших n (n > 40), что статистика критерия Z_n имеет распределение Колмогорова, для неё может быть рассчитана любая квантиль, используя формулу (2) или таблицу квантилей распределения Колмогорова. Некоторые критические точки распределения Колмогорова и соответствующие им уровни значимости приведены в табл. 5.1.

Таблица 5.1

Таблица квантилей распределения Колмогорова

α	0,005	0,01	0,025	0,05	0,10	0,15	0,20	0,25
z_1–_α	1,73	1,63	1,48	1,36	1,22	1,14	1,07	1,02

В случае истинности альтернативной гипотезы H’ рассогласование D_n между ЭФР $F_{n}^{*}(x)$ и G(x) при $n\to \infty $ будет отлично от нуля, причём с увеличением D_n статистика критерия Z_n более вероятно будет принимать большие значения. Следовательно, основная гипотеза H₀ должна отвергаться в области больших значений Z_n, т.е. критическая область должна выбираться правосторонней.

На практике для вычисления рассогласования D_n между ЭФР $F_{n}^{*}(x)$ и G(x) по выборке x₁,…,x_n удобно использовать формулу

${{D}_{n}}=\underset{i=\overline{1,n}}{\mathop{\max }}\,\left\{ \frac{i}{n}-G({{x}_{(i)}}),G({{x}_{(i)}})-\frac{i-1}{n} \right\}$,

которую также можно записать в виде

${{D}_{n}}=\underset{i=\overline{1,n}}{\mathop{\max }}\,\left\{ \left| G({{x}_{(i)}})-\frac{2i-1}{2n} \right|+\frac{1}{2n} \right\}$,

где ${{x}_{(1)}},...,{{x}_{(n)}}$ – вариационный ряд выборки.

Пример 1

Если требуется проверить принадлежность функции распределения F_X(x, θ) заданному параметрическому множеству распределений G(x, θ), θ∈Θ, то проверяется согласие эмпирической функции распределения $F_{n}^{*}(x)$ лишь с максимально правдоподобным для данной выборки распределением $G(x,\tilde{\theta })$, где $\tilde{\theta }$ – МП-оценка параметра θ.

Пример 2

Бесплатный шаблон для joomla здесь

Теория вероятностей	Математическая статистика	Машинное обучение	Теория нейронных сетей	Статистический анализ временных рядов	Программирование в Python

Математическая статистика

Критерии согласия и однородность выборок

Проверка гипотез о виде распределения. Критерий Колмогорова

Вход в систему