Математическая статистика

Критерии согласия и однородность выборок

Критерий "хи-квадрат"




Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей неизвестное распределение FX(x, θ) с вектором неизвестных параметров $\theta =({{\theta }_{1}},...,{{\theta }_{r}})$ размерности r. Наряду с критерием Колмогорова и критерием «омега-квадрат» для проверки гипотезы о совпадении функции распределения FX(x, θ) с некоторой известной функцией G(x):

${{H}_{0}}:{{F}_{X}}(x,\theta )=G(x)$,

$H':{{F}_{X}}(x,\theta )\ne G(x)$;

может быть также использован критерий Пирсона.

Критерий Пирсона (Karl Pearson, 1900), или критерий «хи-квадрат» (Pearsons chi-squared test), основан на оценке степени близости гистограммы относительных частот выборки и известной плотности распределения $g(x)=\frac{dG(x)}{dx}$. Для построения гистограммы проводят группировку выборочных значений на k интервалов J1,…,Jk, где J1 = [α0 = x(1); α1), J2 = [α1; α2),…, Jk = [αk-1; αk = x(n)]. Все интервалы выбираются, как правило, одинаковой ширины h.

Пусть ni – число элементов выборки, принадлежащих интервалу Ji, $i=\overline{1,k}$. Очевидно, что для частот выполняется равенство $\sum\limits_{i=1}^{k}{{{n}_{i}}}=n$.

На основе известной функции плотности распределения g(x) рассчитываются вероятности попадания в каждый интервал:

${{p}_{i}}=P(X\in {{J}_{i}})=\int\limits_{{{\alpha }_{i-1}}}^{{{\alpha }_{i}}}{g(x)dx}$, $i=\overline{1,k}$.

Полученные результаты представлены в виде таблицы.

Число наблюдений

Всего

J1

...

Jk

Наблюдаемое

n1

...

nk

n

Ожидаемое

np1

...

npk

n

Относительная частота ${{\tilde{p}}_{i}}={{{n}_{i}}}/{n}\;$ является состоятельной оценкой вероятности pi, $i=\overline{1,k}$. Это означает, что для каждого интервала Ji, $i=\overline{1,k}$, при условии истинности основной гипотезы вероятность того, что рассогласование между ${{\tilde{p}}_{i}}$ и pi примет достаточно большие значения, стремится к нулю при $n\to \infty $.

В качестве меры рассогласования между ${{\tilde{p}}_{i}}$ и pi используется статистика

$Z=n\sum\limits_{i=1}^{k}{\frac{(\tilde p_i-p_i)^2}{p_i}=\sum\limits_{i=1}^{k}{\frac{(n_i-np_i)^2}{np_i}$.

для которой показано, что при условии истинности основной гипотезы H0 при $n\to \infty $ её закон распределения не зависит от вида функции G(x) и стремится к распределению «хи-квадрат» с kr–1 степенями свободы, где r – число неизвестных параметров распределения FX(x, θ) (теорема Пирсона).

Использование статистики Z возможно также для проверки согласия выборочных данных с дискретным распределением генеральной совокупности. В этом случае в качестве вероятностей p1,…,pk следует брать вероятности дискретных значений генеральной совокупности ( $\sum\limits_{i=1}^{k}{{{p}_{i}}}=1$ ), а в качестве частот ${{\tilde{p}}_{1}},...,{{\tilde{p}}_{k}}$ – относительные частоты этих значений в выборке. При необходимости близкие дискретные значения могут быть сгруппированы.

Если требуется проверить принадлежность функции распределения FX(x, θ) заданному параметрическому множеству распределений G(x, θ), θ∈Θ, то проверяется согласие лишь с максимально правдоподобным для данной выборки распределением $G(x,\tilde{\theta })$, где $\tilde{\theta }$ – МП-оценка параметра θ.

Аппроксимация закона распределения статистики Z при условии истинности основной гипотезы H0 законом ${{\chi }^{2}}(k-r-1)$ с высокой точностью возможна лишь при больших значениях ожидаемых абсолютных частот npi, $i=\overline{1,k}$. В случае если для некоторых интервалов npi < 5, то такие интервалы рекомендуется объединить с соседними.

Аналогично критериям Колмогорова и «омега-квадрат», в критерии Пирсона критическая область выбирается правосторонней.

Пример 1