Математическая статистика

Критерии согласия и однородность выборок

Модифицированные критерии Колмогорова, "омега-квадрат", "хи-квадрат"




Пусть ${{x}_{1}},...,{{x}_{{{n}_{X}}}}$ – выборка объёма nX наблюдений случайной величины X, имеющей неизвестное распределение FX(x), ${{y}_{1}},...,{{y}_{{{n}_{Y}}}}$ – выборка объёма nY наблюдений случайной величины Y, имеющей неизвестное распределение FY(y).

Параметрические критерии проверки статистической гипотезы об однородности

${{H}_{0}}:{{F}_{X}}(\xi )={{F}_{Y}}(\xi )$,

$H':{{F}_{X}}(\xi )\ne {{F}_{Y}}(\xi )$;

основаны на оценке рассогласования между эмпирическими функциями распределения $F_{X}^{*}(\xi )$ и $F_{Y}^{*}(\xi )$. Здесь могут быть использованы те же самые метрики, что и в критериях Колмогорова, «омега-квадрат» и Пирсона. Такие критерии, модифицированные для случая двух выборок, называются двухвыборочными (two-sample tests).

1. Двухвыборочный критерий Колмогорова (two-sample KS-test).

В критерии Колмогорова используется статистика критерия

${{Z}_{{{n}_{X}},{{n}_{Y}}}}=\sqrt{\frac{{{n}_{X}}{{n}_{Y}}}{{{n}_{X}}+{{n}_{Y}}}}{{D}_{{{n}_{X}},{{n}_{Y}}}}$,

где ${{D}_{{{n}_{X}},{{n}_{Y}}}}$ – расстояние по Колмогорову между эмпирическими функциям распределения $F_{{{n}_{X}}}^{*}(\xi )$ и $G_{{{n}_{Y}}}^{*}(\xi )$ случайных величин X и Y соответственно:

${{D}_{{{n}_{X}},{{n}_{Y}}}}=\underset{\xi }{\mathop{\max }}\,\left| F_{{{n}_{X}}}^{*}(\xi )-G_{{{n}_{Y}}}^{*}(\xi ) \right|$.

Для статистики ${{Z}_{{{n}_{X}},{{n}_{Y}}}}$ показано, что при условии истинности основной гипотезы H0 при ${{n}_{X}}\to \infty $, ${{n}_{Y}}\to \infty $ её закон распределения не зависит от вида функций FX(x) и FY(y), причём её распределение стремится к распределению Колмогорова. Аппроксимация распределения статистики ${{Z}_{{{n}_{X}},{{n}_{Y}}}}$ распределением Колмогорова даёт хорошие результаты уже при nX > 40, nY > 40.

Так же, как и в критерии согласия Колмогорова, здесь основная гипотеза H0 должна отклоняться в области больших значений ${{Z}_{{{n}_{X}},{{n}_{Y}}}}$, т.е. критическая область должна выбираться правосторонней.

На практике для вычисления рассогласования ${{D}_{{{n}_{X}},{{n}_{Y}}}}$ между ЭФР $F_{{{n}_{X}}}^{*}(\xi )$ и $G_{{{n}_{Y}}}^{*}(\xi )$ удобно использовать формулу:

${{D}_{{{n}_{X}},{{n}_{Y}}}}=\underset{i=\overline{1,N}}{\mathop{\max }}\,\left| F_{{{n}_{X}}}^{*}({{z}_{(i)}})-G_{{{n}_{Y}}}^{*}({{z}_{(i)}}) \right|$,

где ${{z}_{(1)}},...,{{z}_{(N)}}$ – вариационный ряд объединённой выборки ${{x}_{1}},...,{{x}_{{{n}_{X}}}},{{y}_{1}},...,{{y}_{{{n}_{Y}}}}$, $N={{n}_{X}}+{{n}_{Y}}$ – суммарный объём выборок.

Пример 1

2. Двухвыборочный критерий «омега-квадрат» (two-sample omega-squared test).

Метрика «омега-квадрат» для расчёта рассогласования между функциями FX(x) и FY(y) на основе результатов наблюдений ${{x}_{1}},...,{{x}_{{{n}_{X}}}}$ и ${{y}_{1}},...,{{y}_{{{n}_{Y}}}}$ имеет вид:

$\omega_{n_X,n_Y}^2=\frac{1}{N}\sum\limits_{i=1}^{N}{{{\left| F_{n_X}^*(z_i)-G_{n_X}^{*}(z_i) \right|}^2}}$,

где ${{z}_{1}},...,{{z}_{N}}$ – объединённая выборка ${{x}_{1}},...,{{x}_{{{n}_{X}}}},{{y}_{1}},...,{{y}_{{{n}_{Y}}}}$, $N={{n}_{X}}+{{n}_{Y}}$ – суммарный объём выборок.

В двухвыборочном критерии «омега-квадрат» (критерии Крамера-Мизеса) используется статистика

${{Z}_{{{n}_{X}},{{n}_{Y}}}}=\frac{{{n}_{X}}{{n}_{Y}}}{{{n}_{X}}+{{n}_{Y}}}\omega _{{{n}_{X}},{{n}_{Y}}}^{2}$,

для которой показано, что при условии истинности основной гипотезы H0 при ${{n}_{X}}\to \infty $, ${{n}_{Y}}\to \infty $ её закон распределения не зависит от вида функций FX(x) и FY(y), причём её распределение стремится к распределению «омега-квадрат».

Аналогично критерию согласия «омега-квадрат», основная гипотеза H0 должна отклоняться в области больших значений ${{Z}_{{{n}_{X}},{{n}_{Y}}}}$, т.е. критическая область должна выбираться правосторонней.

На практике для вычисления выборочного значения статистики Крамера-Мизеса удобно использовать формулу:

$z=\frac{W}{{{n}_{X}}{{n}_{Y}}({{n}_{X}}+{{n}_{Y}})}-\frac{4{{n}_{X}}{{n}_{Y}}-1}{6({{n}_{X}}+{{n}_{Y}})}$,

где

$W={{n}_{X}}\sum\limits_{i=1}^{{{n}_{X}}}{{{({{r}_{i}}-i)}^{2}}}+{{n}_{Y}}\sum\limits_{j=1}^{{{n}_{Y}}}{{{({{s}_{j}}-j)}^{2}}}$,

а ri и sj – ранги элемента xi в выборке ${{x}_{1}},...,{{x}_{{{n}_{X}}}}$ и элемента yj в выборке ${{y}_{1}},...,{{y}_{{{n}_{Y}}}}$ соответственно, $i=\overline{1,{{n}_{X}}}$, $j=\overline{1,{{n}_{Y}}}$.

3. Двухвыборочный критерий Пирсона (two-sample chi-squared test) .

Двухвыборочный критерий Пирсона, или критерий «хи-квадрат», основан на оценке степени близости гистограмм относительных частот выборок ${{x}_{1}},...,{{x}_{{{n}_{X}}}}$ и ${{y}_{1}},...,{{y}_{{{n}_{Y}}}}$. Для построения гистограмм проводят группировку выборочных значений обеих выборок на k интервалов J1,…, Jk, где J1 = [α0 = x(1); α1), J2 = [α1; α2),…,Jk = [αk-1; αk = x(n)], как правило, одинаковой ширины h (см. §2). Полученные результаты представлены в виде таблицы.

Число наблюдений

Всего

J1

...

Jk

Наблюдаемых в выборке X

$m_{1}^{(X)}$

...

$m_{k}^{(X)}$

nX

Наблюдаемых в выборке Y

$m_{1}^{(Y)}$

...

$m_{k}^{(Y)}$

nY

В качестве меры рассогласования между относительными частотами ${m_{i}^{(X)}}/{{{n}_{X}}}\;$ и ${m_{i}^{(Y)}}/{{{n}_{Y}}}\;$ используется статистика:

$Z_{n_X,n_Y}=n_Xn_Y\sum\limits_{i=1}^{k}{\frac{1}{m_i^{(X)}+m_i^{(Y)}}{{\left(\frac{m_i^{(X)}}{n_X}-\frac{m_i^{(Y)}}{n_Y} \right)}^2}}$.

(1)

для которой показано, что при условии истинности основной гипотезы H0 при ${{n}_{X}}\to \infty $, ${{n}_{Y}}\to \infty $ её закон распределения не зависит от вида функций FX(x) и FY(y), причём её распределение стремится к распределению «хи-квадрат» с k–1 степенью свободы.

Аналогично критерию согласия Пирсона, основная гипотеза H0 должна отклоняться в области больших значений ${{Z}_{{{n}_{X}},{{n}_{Y}}}}$, т.е. критическая область должна выбираться правосторонней.

Аппроксимация закона распределения статистики ${{Z}_{{{n}_{X}},{{n}_{Y}}}}$ при условии истинности основной гипотезы H0 законом ${{\chi }^{2}}(k-1)$ с высокой точностью возможна лишь при больших значениях частот $m_{i}^{(X)}$ и $m_{i}^{(Y)}$, $i=\overline{1,k}$. В случае если для некоторых интервалов $m_{i}^{(X)}<3$ или $m_{i}^{(Y)}<3$, то такие интервалы рекомендуется объединить с соседними.

Пример 2