Математическая статистика

Проверка статистических гипотез

Проверка гипотез о параметрах нормально распределённой генеральной совокупности


Insert title here

Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей нормальное распределение N(m, σ). Ниже приводятся наилучшие по мощности статистики критерия для различных вариантов гипотез относительно параметров m и s. Как правило, эти статистики связаны с эффективными оценками параметров, относительно которых выдвигаются гипотезы.

1) Гипотеза о значении математического ожидания при известной дисперсии (one-sampled z-test).

${{H}_{0}}:m={{m}_{0}}$.

В качестве статистики критерия используется статистика

$Z=\frac{\bar{X}-{{m}_{0}}}{{\sigma }/{\sqrt{n}}\;}$.

(1)

При условии истинности H0 случайная величина

$\bar{X}\sim N\left( {{m}_{0}},{\sigma }/{\sqrt{n}}\; \right)$,

следовательно, $Z{{|}_{{{H}_{0}}}}\sim N\left( 0,1 \right)$.

2) Гипотеза о значении математического ожидания при неизвестной дисперсии (one-sample t-test).

В связи с тем, что σ не известно, статистику (1) здесь использовать нельзя. Вместо σ в (1) подставляется оценка S среднеквадратичного отклонения:

$Z=\frac{\bar{X}-{{m}_{0}}}{{S}/{\sqrt{n}}\;}$,

при этом в условиях истинности гипотезы H0 статистика Z будет иметь распределение Стьюдента с n–1 степенью свободы.

3) Гипотеза о значении дисперсии при известном математическом ожидании (chi-squared test).

${{H}_{0}}:\sigma ={{\sigma }_{0}}$.

Эффективной оценкой дисперсии при известном математическом ожидании является статистика $S_{0}^{2}\sim \frac{{{\sigma }^{2}}}{n}{{\chi }^{2}}(n)$. В качестве статистики критерия выберем статистику

$Z=\frac{nS_{0}^{2}}{\sigma _{0}^{2}}$.

Очевидно, что при условии истинности H0 статистика

$Z{{|}_{{{H}_{0}}}}\sim{{\chi }^{2}}(n)$.

4) Гипотеза о значении дисперсии при неизвестном математическом ожидании (chi-squared test).

${{H}_{0}}:\sigma ={{\sigma }_{0}}$.

Эффективной оценкой дисперсии при неизвестном математическом ожидании является статистика $S_{{}}^{2}\sim\frac{{{\sigma }^{2}}}{n-1}{{\chi }^{2}}(n-1)$. В качестве статистики критерия выберем статистику

$Z=\frac{(n-1)S_{{}}^{2}}{\sigma _{0}^{2}}$.

Очевидно, что при условии истинности H0 статистика

$Z{{|}_{{{H}_{0}}}}\sim {{\chi }^{2}}(n-1)$.

Запишем теперь статистики критерия для гипотез, связанных с параметрами двух генеральных совокупностей. Пусть ${{x}_{11}},...,{{x}_{1,{{n}_{1}}}}$ и ${{x}_{21}},...,{{x}_{2,{{n}_{2}}}}$ – выборки объёмов n1 и n2 из нормально распределённых генеральных совокупностей N(m1, σ1) и N(m2, σ2) соответственно.

5) Гипотеза о равенстве математических ожиданий при известных дисперсиях (two-sample z-test).

${{H}_{0}}:{{m}_{1}}={{m}_{2}}$.

Статистики ${{\bar{X}}_{1}}\sim N\left( {{m}_{1}},{{{\sigma }_{1}}}/{\sqrt{{{n}_{1}}}}\; \right)$, ${{\bar{X}}_{2}}\sim N\left( {{m}_{2}},{{{\sigma }_{2}}}/{\sqrt{{{n}_{2}}}}\; \right)$.

Несложно показать, что при условии истинности H0 статистика

$Z=\frac{{{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}}}{\sqrt{{\sigma _{1}^{2}}/{{{n}_{1}}}\;+{\sigma _{2}^{2}}/{{{n}_{2}}}\;}}$

имеет стандартизованное нормальное распределение N(0; 1).

6) Гипотеза о равенстве дисперсий при известных математических ожиданиях (two-sample F-test).

${{H}_{0}}:{{\sigma }_{1}}={{\sigma }_{2}}$.

Статистика ${{F}_{0}}=\frac{S_{01}^{2}/\sigma _{1}^{2}}{S_{02}^{2}/\sigma _{2}^{2}}\sim F({{n}_{1}},{{n}_{2}})$.

В качестве статистики критерия используется отношение оценок дисперсий при известных математических ожиданиях

$Z={{F}_{0}}{{|}_{{{H}_{0}}}}=\frac{S_{01}^{2}}{S_{02}^{2}}$,

которое при условии истинности H0 распределено по закону Фишера $F({{n}_{1}},{{n}_{2}})$.

7) Гипотеза о равенстве дисперсий при неизвестных математических ожиданиях (two-sample F-test).

${{H}_{0}}:{{\sigma }_{1}}={{\sigma }_{2}}$.

Статистика $F=\frac{S_{1}^{2}/\sigma _{1}^{2}}{S_{2}^{2}/\sigma _{2}^{2}}\sim F({{n}_{1}}-1,{{n}_{2}}-1)$.

В качестве статистики критерия используется отношение оценок дисперсий при неизвестных математических ожиданиях

$Z=F{{|}_{{{H}_{0}}}}=\frac{S_{1}^{2}}{S_{2}^{2}}$,

которое при условии истинности H0 распределено по закону Фишера $F({{n}_{1}}-1,{{n}_{2}}-1)$.

8) Гипотеза о равенстве математических ожиданий при неизвестных дисперсиях (two-sample unpooled t-test).

${{H}_{0}}:{{m}_{1}}={{m}_{2}}$.

а) Дисперсии генеральных совокупностей равны $\sigma _{1}^{2}=\sigma _{1}^{2}=\sigma _{{}}^{2}$ (это может быть известно априорно, исходя из условия задачи, или в случае, если гипотеза ${{H}_{0}}:{{\sigma }_{1}}={{\sigma }_{2}}$ при неизвестных математических ожиданиях принимается).

Объединённая оценка дисперсии σ2 по двум выборкам имеет вид:

${{S}^{2}}=\frac{({{n}_{1}}-1)S_{1}^{2}+({{n}_{2}}-1)S_{2}^{2}}{{{n}_{1}}+{{n}_{2}}-2}$.

При условии истинности H0 статистика S2 имеет распределение

${{S}^{2}}\sim \frac{{{\sigma }^{2}}}{{{n}_{1}}+{{n}_{2}}-2}{{\chi }^{2}}({{n}_{1}}+{{n}_{2}}-2)$.

Несложно показать, что статистика

$Z=\frac{{{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}}}{S\sqrt{{1}/{{{n}_{1}}}\;+{1}/{{{n}_{2}}}\;}}$

при условии истинности H0 имеет распределение Стьюдента с n1+n2–2 степенями свободы.

б) Оснований считать, что дисперсии генеральных совокупностей равны, нет (Welch’s t-test).

Для каждой из дисперсий вычисляются свои оценки $S_{1}^{2}$ и $S_{2}^{2}$. Статистика критерия имеет вид:

$Z=\frac{{{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}}}{\sqrt{{S_{1}^{2}}/{{{n}_{1}}}\;+{S_{2}^{2}}/{{{n}_{2}}}\;}}$.

Показано, что при условии истинности H0 статистика Z имеет распределение Стьюдента с числом степеней свободы, равным целой части от величины 1 / k, где

$k=\frac{{{\left( \frac{S_1^2/n_1}{S_1^2/{n_1}+{S_2^2}/{n_2}} \right)}^2}}{n_1-1}+\frac{{{\left( \frac{{S_2^2}/{n_2}}{{S_1^2}/{n_1}+{S_2^2}/{n_2}} \right)}^2}}{n_2-1}$.

Основные статистики критерия при проверке статистических гипотез о параметрах нормально распределённой генеральной совокупности и их законы распределения приведены в табл. 4.1.


Таблица 4.1

Статистики критерия при проверке статистических гипотез о параметрах нормально распределённой генеральной совокупности

Основная гипотеза, H0

Мат. ожидание

Дисперсия

Статистика критерия, Z

Закон распределения, ${{f}_{Z}}(z|{{H}_{0}})$

${{H}_{0}}:m={{m}_{0}}$

не изв.

изв.

$\frac{\bar{X}-{{m}_{0}}}{{\sigma }/{\sqrt{n}}\;}$

$N\left( 0,1 \right)$

${{H}_{0}}:m={{m}_{0}}$

не изв.

не изв.

$\frac{\bar{X}-{{m}_{0}}}{{S}/{\sqrt{n}}\;}$

$T\left( n-1 \right)$

${{H}_{0}}:\sigma ={{\sigma }_{0}}$

изв.

не изв.

$\frac{nS_{0}^{2}}{\sigma _{0}^{2}}$

${{\chi }^{2}}(n)$

${{H}_{0}}:\sigma ={{\sigma }_{0}}$

не изв.

не изв.

$\frac{(n-1)S_{{}}^{2}}{\sigma _{0}^{2}}$

${{\chi }^{2}}(n-1)$

${{H}_{0}}:{{m}_{1}}={{m}_{2}}$

не изв.

изв.

$\frac{{{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}}}{\sqrt{{\sigma _{1}^{2}}/{{{n}_{1}}}\;+{\sigma _{2}^{2}}/{{{n}_{2}}}\;}}$

$N\left( 0,1 \right)$

${{H}_{0}}:{{m}_{1}}={{m}_{2}}$

не изв.

не изв.,

равные

$\frac{{{{\bar{X}}}_{1}}-{{{\bar{X}}}_{2}}}{S\sqrt{{1}/{{{n}_{1}}}\;+{1}/{{{n}_{2}}}\;}}$

$T\left( {{n}_{1}}+{{n}_{2}}-2 \right)$

${{H}_{0}}:{{\sigma }_{1}}={{\sigma }_{2}}$

изв.

не изв.

$\frac{S_{01}^{2}}{S_{02}^{2}}$

$F({{n}_{1}},{{n}_{2}})$

${{H}_{0}}:{{\sigma }_{1}}={{\sigma }_{2}}$

не изв.

не изв.

$\frac{S_{1}^{2}}{S_{2}^{2}}$

$F({{n}_{1}}-1,{{n}_{2}}-1)$


Все приведённые выше выражения для статистик критерия и их законов распределения справедливы, если случайная выборка X1,…, Xn (или выборки ${{X}_{11}},...,{{X}_{1,{{n}_{1}}}}$ и ${{X}_{21}},...,{{X}_{2,{{n}_{2}}}}$) получены из нормально распределённой генеральной совокупности. Однако поскольку все статистики основаны на оценках $\bar{X}$и S2, представляющих собой суммы случайных величин, то согласно центральной предельной теоремы теории вероятностей распределение этих статистик при больших объёмах выборок будет близко нормальному, даже если распределение каждого слагаемого отлично от нормального. В то же время, если генеральная совокупность распределена нормально, то статистика S2 имеет распределение хи-квадрат, которое при больших объёмах выборки также может быть аппроксимировано нормальным распределением. Это означает, что законы распределения статистик критерия остаются справедливыми при больших объёмах выборки в случае распределения генеральной совокупности, отличного от нормального.

Пример 1

Пример 2

В некоторых случаях для проверки параметрических статистических гипотез может быть использован метод доверительных интервалов. Пусть основная гипотеза ${{H}_{0}}:\theta ={{\theta }_{0}}$, альтернативная гипотеза $H':\theta \ne {{\theta }_{0}}$. Если для неизвестного параметра θ может быть построен доверительный интервал (θ1; θ2), то проверка статистической гипотезы H0 сводится к проверке попадания значения θ0 в доверительный интервал (θ1; θ2). Критерий проверки гипотез при использовании метода доверительных интервалов состоит в следующем: если θ0 ∈ (θ1; θ2), то основная гипотеза H0 должна приниматься, в противном случае – отклоняться. Если альтернативная гипотеза H’ имеет вид $H':\theta <{{\theta }_{0}}$ или $H':\theta >{{\theta }_{0}}$, то строится соответствующий односторонний доверительный интервал (–∞; θ2) или (θ1; +∞).

При проверке статистической гипотезы о равенстве математических ожиданий ${{H}_{0}}:{{m}_{1}}={{m}_{2}}$ строится доверительный интервал для разности m1m2. Если интервал накрывает 0, то основная гипотеза принимается, в противном случае – отклоняется.

При проверке статистической гипотезы о равенстве дисперсий ${{H}_{0}}:{{\sigma }_{1}}={{\sigma }_{2}}$ строится доверительный интервал для отношения $\sigma _{1}^{2}/\sigma _{2}^{2}$. Если интервал накрывает 1, то основная гипотеза принимается, в противном случае – отклоняется.

Пример 3