Математическая статистика

Анализ статистических взаимосвязей

Однофакторный дисперсионный анализ




При исследовании влияния номинального группировочного признака G на количественный результативный признак X задача проверки значимости статистической связи между этими признаками может быть сведена к задаче проверки статистической гипотезы о равенстве математических ожиданий случайных величин X1,…, XK, соответствующих каждому варианту группировочного признака G. Для проверки такой гипотезы используется дисперсионный анализ (Analysis of Variance, ANOVA).

Поскольку рассматривается единственный группировочный признак G (фактор), то дисперсионный анализ называется однофакторным (one-way ANOVA).

Пусть $x_{1}^{(k)},...,x_{{{n}_{k}}}^{(k)}$ – выборка объёма nk из k-ой группы, т.е. результаты наблюдений случайной величины Xk, $k=\overline{1,K}$. В дисперсионном анализе выдвигаются следующие предположения:

1) все случайные величины X1,…, XK имеют нормальное распределение;

2) выборки из каждой группы являются независимыми;

3) дисперсии случайных величин X1,…,XK равны (такие случайные величины называются гомоскедастичными).

Учитывая эти предположения, гипотеза об отсутствии статистической связи между группировочным и результативным признаками

${{H}_{0}}:{{F}_{{{X}_{1}}}}(x)=...={{F}_{{{X}_{K}}}}(x)={{F}_{X}}(x)$

эквивалентна гипотезе о математических ожиданиях

${{H}_{0}}:{{m}_{1}}=...={{m}_{K}}$,

$H':\neg{{H}_{0}}$.

Для проверки этой гипотезы используется статистика:

$F=\frac{{{{D}_{b}^*}}/{(K-1)}\;}{{{{D}_{w}^*}}/{(n-K)}\;}$.

которая при условии истинности основной гипотезы H0 имеет распределение Фишера F(K–1, nK). Фактически, статистика F представляет собой отношение несмещённых оценок межгрупповой и внутригрупповой дисперсий. При наличии статистической связи между группировочным и исследуемым признаками (случай отклонения гипотезы H0) межгрупповая дисперсия много больше внутригрупповой дисперсии, из чего следует, что критическая область должна выбираться правосторонней.

Дисперсионный анализ является слабо чувствительным (робастным) к требованию о нормальности распределения наблюдаемых случайных величин при больших и сбалансированных объёмах выборок, а при нарушении требования их гомоскедастичности наблюдается рост вероятности ошибки второго рода.

Пример 1

В частном случае число вариантов K группировочного признака может быть равно 2. Тогда гипотеза дисперсионного анализа имеет вид:

${{H}_{0}}:{{m}_{1}}={{m}_{2}}$,

$H':{{m}_{1}}\ne {{m}_{2}}$.

Эта гипотеза является двухвыборочной параметрической гипотезой и для её проверки может быть использована статистика критерия Стьюдента.

Основная гипотеза H0 дисперсионного анализа состоит в том, что математические ожидания в каждой из K групп равны против альтернативной гипотезы, состоящей в том, что математические ожидания хотя бы в двух группах окажутся различными. Такая альтернатива включает множество вариантов. Основная гипотеза дисперсионного анализа будет отклонена как в случае значимого различия математических ожиданий лишь в двух группах, так и в случае значимого различия математических ожиданий всех групп.

В случае, когда основная гипотеза H0 в результате дисперсионного анализа отклоняется, нередко бывает необходимо узнать, какие именно математические ожидания значимо отличаются, а какие равны. Возможным способом такой проверки является проведение попарных сравнений математических ожиданий для каждой пары групп, т.е. проверка множества статистических гипотез вида:

${{H}_{0}}:{{m}_{i}}={{m}_{j}}$,

$H':{{m}_{i}}\ne {{m}_{j}}$.

где $i=\overline{1,K}$, $j=\overline{1,K}$.

Однако такой способ проверки имеет существенный недостаток. При проверке одной параметрической гипотезы задаётся некоторый уровень значимости α, определяющий вероятность ошибки первого рода, т.е. отклонения основной гипотезы при условии её истинности. При проверке множества параметрических гипотез, каждую на уровне значимости α, с использованием статистики критерия Стьюдента, вероятность ошибочно обнаружить различие в математических ожиданиях будет расти с числом проверяемых гипотез.

Вероятность ошибки первого рода при проверке K независимых статистических гипотез будет равна

$\tilde{\alpha }=1-{{\left( 1-\alpha \right)}^{K}}$.

В случае зависимых гипотез может быть рассчитана оценка эффективной вероятности $\tilde{\alpha }$ ошибки первого рода, используя различные корректирующие поправки (например, поправку Бонферрони).

Для того, чтобы обеспечить заданную вероятность ошибки первого рода при проверке множества параметрических гипотез вида ${{H}_{0}}:{{m}_{i}}={{m}_{j}}$, $i=\overline{1,K}$,$j=\overline{1,K}$, на практике используются методы множественного сравнения (multiple comparison tests).

Одним из методов множественного сравнения является метод Шеффе (Henry Scheffe, 1953), называемый также методом линейных контрастов. С помощью метода Шеффе проверяется основная гипотеза вида:

${{H}_{0}}:\sum\limits_{k=1}^{K}{{{c}_{k}}{{m}_{k}}}=0$,

$H':\sum\limits_{k=1}^{K}{{{c}_{k}}{{m}_{k}}}\ne 0$,

где c1,…,cK – весовые коэффициенты, причём $\sum\limits_{k=1}^{K}{{{c}_{k}}}=0$. Величина $C=\sum\limits_{k=1}^{K}{{{c}_{k}}{{m}_{k}}}$ называется линейным контрастом. В частном случае, при ${{c}_{i}}=-{{c}_{j}}$, $i\in\{1,...,K\}$, $j\in \{1,...,K\}$, и остальных нулевых коэффициентах, линейный контраст $C={{m}_{i}}-{{m}_{j}}$, а проверяемая гипотеза имеет вид:

${{H}_{0}}:{{m}_{i}}={{m}_{j}}$,

$H':{{m}_{i}}\ne {{m}_{j}}$.

Для проверки гипотезы H0 используем метод доверительных интервалов. Точечной оценкой линейного контраста является линейная комбинация групповых средних

$\tilde{C}=\sum\limits_{k=1}^{K}{{{c}_{k}}{{{\bar{X}}}_{k}}}$,

которая для конкретной выборки примет выборочное значение

$\tilde{c}=\sum\limits_{k=1}^{K}{{{c}_{k}}{{{\bar{x}}}_{k}}}$.

Можно показать, что оценка дисперсии линейного контраста равна

$\tilde{\sigma}_{C}^{2}=\frac{n{{D}_{w}^*}}{n-K}\sum\limits_{k=1}^{K}{\frac{c_{k}^{2}}{{{n}_{k}}}}$,

а границы доверительного интервала имеют вид:

$\tilde{C}\pm \tilde{\sigma }_{C}^{{}}\sqrt{(K-1){{f}_{1-\alpha }}(K-1;n-K)}$,

где ${{f}_{1-\alpha }}(K-1;n-K)$ – квантиль распределения Фишера с K–1 и nK степенями свободы на уровне значимости 1–α.

В случае, если доверительный интервал накрывает нулевое значение, то нет оснований отвергать основную гипотезу о равенстве нулю линейного контраста.

Пример 2