Математическая статистика
Анализ статистических взаимосвязей
Анализ статистической связи между номинальными величинами. Таблицы сопряженности
Исследуется эффект от действия прививки против гриппа на факт заболеваемости в возрастной категории 20-40 лет. По результатам выборочного наблюдения 850-и участников исследования получены следующие данные.
заболеваемость прививка |
не заболели |
заболели |
не прививались |
240 |
150 |
прививались |
375 |
85 |
Определить, является ли статистически значимым эффект от прививки на уровне значимости α = 0,01.
Решение
Фактически, требуется проверить, имеется ли статистическая связь между факторным признаком X – «прививка» и результативным признаком Y – «факт заболевания». Сформулируем основную гипотезу об отсутствии статистической связи между этими признаками:
${{H}_{0}}:{{F}_{Y}}(y|X=yes)={{F}_{Y}}(y|X=no)={{F}_{Y}}(y)$.
Построим теоретическую таблицу сопряжённости.
заболеваемость прививка |
не заболели |
заболели |
Σ |
не прививались |
282,2 |
107,8 |
390 |
прививались |
332,8 |
127,2 |
460 |
Σ |
615 |
235 |
850 |
При расчёте частот в теоретической таблице сопряжённости достаточно рассчитать лишь одно значение теоретической частоты, например, ${{m}_{11}}=\frac{390\cdot 615}{850}\approx 282,2$, остальные частоты могут быть восстановлены из условия сохранения суммарных частот в последней строке и в последнем столбце таблицы.
Выборочное значение статистики критерия Z:
$z=\frac{{{(240-282,2)}^{2}}}{282,2}+...+\frac{{{(85-127,2)}^{2}}}{127,2}\approx 42,1$.
При условии истинности основной гипотезы статистика $Z\sim{\ }{{\chi }^{2}}\left( (2-1)\cdot (2-1) \right)={{\chi }^{2}}(1)$.
По таблице распределения «хи-квадрат» с одной степенью свободы находим квантиль на уровне 1–α:
${{z}_{0,99}}=6,63$.
Таким образом, критическая область $\Omega '=(6,63;+\infty )$. Поскольку $z=42,1\in {\Omega }'$, то гипотеза H0 не согласуется с экспериментальными данными и должна быть отклонена. Следовательно, фактор «прививка» оказывает влияние на распределение результативного признака «факт заболевания», т.е. между этими признаками имеется значимая статистическая связь на выбранном уровне значимости.