Математическая статистика

Проверка статистических гипотез

Проверка гипотез о вероятности «успеха» в схеме Бернулли


Insert title here

При статистическом анализе данных, связанных с повторными независимыми испытаниями (схемой Бернулли), обычно рассматривают два вида задач: сравнение вероятности «успеха» p в одном испытании с заданным значением p0 и сравнение вероятности «успеха» в двух сериях испытаний.

Пусть проводится серия из n испытаний по схеме Бернулли и случайная величина K – число «успехов». Тогда K имеет биномиальное распределение $K\sim{\ }B(n,p)$. Математическое ожидание ${{m}_{K}}=np$ и дисперсия ${{d}_{K}}=np(1-p)$. В соответствии с предельной теоремой Муавра-Лапласа при большом числе испытаний n статистика K имеет закон распределения, близкий к нормальному:

$K\sim{\ }N(np,\sqrt{np(1-p)})$.

Частота «успеха» $H=K/n$ также имеет нормальное распределение $H\sim{\ }N(p,\sqrt{{p(1-p)}/{n}\;})$.

Для проверки статистической гипотезы (one-proportion z-test)

${{H}_{0}}:p={{p}_{0}}$

в качестве статистики критерия используем стандартизованную частоту

$Z=\frac{H-{{p}_{0}}}{\sqrt{{{{p}_{0}}(1-{{p}_{0}})}/{n}\;}}$,

которая при условии истинности H0 имеет распределение ${{f}_{Z}}(z|{{H}_{0}})\sim{\ }N(0;\ 1)$.

Если альтернативная гипотеза $H':p\ne {{p}_{0}}$, то критическая область для статистики критерия выбирается двусторонней, если $H':p<{{p}_{0}}$ или $H':p>{{p}_{0}}$, то левосторонней или правосторонней соответственно.

Пусть теперь проводятся две серии испытаний и требуется проверить гипотезу о равенстве вероятностей «успехов» p1 и p2 в этих сериях (two-proportion z-test):

${{H}_{0}}:{{p}_{1}}={{p}_{2}}$ .

Частота «успеха» в первой серии $H_1\sim N(p_1,\sqrt{p_1(1-p_1)/n_1})$, во второй серии – $H_2\sim N(p_2,\sqrt{p_2(1-p_2)/n_2})$, где n1 и n2 – число испытаний в первой и второй сериях соответственно. В силу композиционной устойчивости нормального распределения разность частот $H={{H}_{1}}-{{H}_{2}}$ также будет иметь нормальное распределение $H\sim{\ }N({{m}_{H}},{{\sigma }_{H}})$, где

${{m}_{H}}={{p}_{1}}-{{p}_{2}}$,

$\sigma _{H}^{2}=\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}$.

При условии истинности H0 (т.е. при ${{p}_{1}}={{p}_{2}}=p$) стандартизованная разность частот

$Z=\frac{{{H}_{1}}-{{H}_{2}}}{\sqrt{p(1-p)}\sqrt{{1}/{{{n}_{1}}}\;+{1}/{{{n}_{2}}}\;}}$

имеет стандартизованное нормальное распределение N(0; 1).

Заменяя в знаменателе неизвестную истинную вероятность p на её эффективную оценку – агрегированную частоту

$H=\frac{{{n}_{1}}{{H}_{1}}+{{n}_{2}}{{H}_{2}}}{{{n}_{1}}+{{n}_{2}}}$,

получим приближённое выражение для статистики критерия

$Z=\frac{{{H}_{1}}-{{H}_{2}}}{\sqrt{H(1-H)}\sqrt{{1}/{{{n}_{1}}}\;+{1}/{{{n}_{2}}}\;}}$.

Подчеркнём, что указанная статистика может использоваться лишь при достаточно больших объёмах наблюдений n1 и n2.

Если альтернативная гипотеза $H':{{p}_{1}}\ne {{p}_{2}}$, то критическая область для статистики критерия выбирается двусторонней, если $H':{{p}_{1}}<{{p}_{2}}$ или $H':{{p}_{1}}>{{p}_{2}}$, то левосторонней или правосторонней соответственно.

Пример 1