Математическая статистика

Критерии согласия и однородность выборок

Проверка гипотез об однородности выборок. Критерий знаков




В практических приложениях наряду с задачей о соответствии выборочных наблюдений предполагаемому закону распределения может возникнуть задача о проверке соответствия распределений двух генеральных совокупностей по результатам выборочных наблюдений.

Пусть ${{x}_{1}},...,{{x}_{{{n}_{X}}}}$ – выборка объёма nX наблюдений случайной величины X, имеющей неизвестное распределение FX(x), ${{y}_{1}},...,{{y}_{{{n}_{Y}}}}$ – выборка объёма nY наблюдений случайной величины Y, имеющей неизвестное распределение FY(y). Выборки ${{x}_{1}},...,{{x}_{{{n}_{X}}}}$ и ${{y}_{1}},...,{{y}_{{{n}_{Y}}}}$ называются однородными, если FX(ξ) = FY(ξ). Иными словами, выборки однородные, если они получены из одной и той же генеральной совокупности, или являются наблюдениями одной и той же случайной величины.

Сформулируем основную и альтернативную гипотезы однородности:

${{H}_{0}}:{{F}_{X}}(\xi )={{F}_{Y}}(\xi )$,

$H':{{F}_{X}}(\xi )\ne {{F}_{Y}}(\xi )$.

(1)

Одним из наиболее простых и грубых критериев проверки гипотезы об однородности распределения случайных величин Х и Y является критерий знаков. Критерий знаков (sign test) используется для проверки однородности двух связанных выборок (paired samples). Такие выборки получаются в результате наблюдений двумерного случайного вектора (X, Y). Объёмы связанных выборок всегда равны.

Критерий знаков является примером непараметрического критерия математической статистики, т.е. критерия, использующего не сами численные значения элементов выборки, а структурные свойства выборки (например, отношения порядка между её элементами, знаки и пр.). Мощность непараметрических критериев, как правило, меньше, чем мощность их параметрических аналогов. Причина этого связана с неизбежной потерей части информации, содержащейся в выборке. Однако непараметрические методы могут применяться при менее строгих предположениях о свойствах наблюдаемых случайных величин и, как правило, более просты с вычислительной точки зрения.

Если выборки получены из одной и той же генеральной совокупности, то значения xi и yi, $i=\overline{1,n}$, взаимозаменяемы, и, следовательно, вероятности появления положительных и отрицательных разностей xi и yi равны, т.е.

$P({{X}_{i}}-{{Y}_{i}}>0)=P({{X}_{i}}-{{Y}_{i}}<0)={1}/{2}\;$.

(2)

Пусть K – число знаков «+» в последовательности знаков разностей x1y1,…,xnyn. Если в этой последовательности разностей содержатся нулевые элементы, то они исключаются из рассмотрения. Далее для простоты будем считать, что в последовательности x1y1,…,xnyn нулевых элементов нет. При условии, что основная гипотеза H0 верна, а пары наблюдений (Xi,Yi), $i=\overline{1,n}$, и, следовательно, знаки разностей XiYi независимы, число K знаков «+» имеет биномиальное распределение B(n, 1/2). Таким образом, проверка гипотезы однородности (1) сводится к проверке гипотезы о параметре p биномиального распределения:

${{H}_{0}}:p={1}/{2}\;$,

$H':p\ne {1}/{2}\;$.

Несложно показать, что эта гипотеза эквивалентна гипотезе о равенстве медиан распределений FX(x) и FY(y).

Математическое ожидание ${{m}_{K}}=np$ и дисперсия ${{d}_{K}}=np(1-p)$. В соответствии с предельной теоремой Муавра-Лапласа при большом числе испытаний n статистика K имеет закон распределения, близкий к нормальному:

$K\sim N\left( np,\sqrt{np(1-p)} \right)$.

Частота «успеха» $H=K/n$ также имеет нормальное распределение $H\sim N\left( p,\sqrt{{p(1-p)}/{n}\;} \right)$.

В качестве статистики критерия используется стандартизованная частота:

$Z=\frac{H-{1}/{2}\;}{\sqrt{{1}/{4n}\;}}=2\sqrt{n}(H-{1}/{2}\;)$,

(3)

которая при условии истинности H0 имеет распределение ${{f}_{Z}}(z|{{H}_{0}})\sim N(0,1)$.

Основная гипотеза H0 должна отклоняться при больших отличиях частоты знаков «+» от значения 1/2 как в меньшую, так и в большую сторону, т.е. в области больших абсолютных значений статистики критерия Z. Таким образом, критическая область для статистики Z должна выбираться двусторонней.

Условие (2) является необходимым, но не достаточным условием однородности выборок ${{x}_{1}},...,{{x}_{{{n}_{X}}}}$ и ${{y}_{1}},...,{{y}_{{{n}_{Y}}}}$. Это означает, что из принятия основной гипотезы критерия знаков не следует однородность выборок, а следует лишь возможность однородности. Если же основная гипотеза критерия знаков отклоняется, то отклоняется и гипотеза однородности выборок.

Пример 1