Математическая статистика

Анализ статистических взаимосвязей

Анализ статистической связи между номинальными величинами. Таблицы сопряженности


Пример 1

Исследуется эффект от действия прививки против гриппа на факт заболеваемости в возрастной категории 20-40 лет. По результатам выборочного наблюдения 850-и участников исследования получены следующие данные.

заболеваемость

прививка

не заболели

заболели

не прививались

240

150

прививались

375

85

Определить, является ли статистически значимым эффект от прививки на уровне значимости α = 0,01.

Решение

Фактически, требуется проверить, имеется ли статистическая связь между факторным признаком X – «прививка» и результативным признаком Y – «факт заболевания». Сформулируем основную гипотезу об отсутствии статистической связи между этими признаками:

${{H}_{0}}:{{F}_{Y}}(y|X=yes)={{F}_{Y}}(y|X=no)={{F}_{Y}}(y)$.

Построим теоретическую таблицу сопряжённости.

заболеваемость

прививка

не заболели

заболели

Σ

не прививались

282,2

107,8

390

прививались

332,8

127,2

460

Σ

615

235

850

При расчёте частот в теоретической таблице сопряжённости достаточно рассчитать лишь одно значение теоретической частоты, например, ${{m}_{11}}=\frac{390\cdot 615}{850}\approx 282,2$, остальные частоты могут быть восстановлены из условия сохранения суммарных частот в последней строке и в последнем столбце таблицы.

Выборочное значение статистики критерия Z:

$z=\frac{{{(240-282,2)}^{2}}}{282,2}+...+\frac{{{(85-127,2)}^{2}}}{127,2}\approx 42,1$.

При условии истинности основной гипотезы статистика $Z\sim{\ }{{\chi }^{2}}\left( (2-1)\cdot (2-1) \right)={{\chi }^{2}}(1)$.

По таблице распределения «хи-квадрат» с одной степенью свободы находим квантиль на уровне 1–α:

${{z}_{0,99}}=6,63$.

Таким образом, критическая область $\Omega '=(6,63;+\infty )$. Поскольку $z=42,1\in {\Omega }'$, то гипотеза H0 не согласуется с экспериментальными данными и должна быть отклонена. Следовательно, фактор «прививка» оказывает влияние на распределение результативного признака «факт заболевания», т.е. между этими признаками имеется значимая статистическая связь на выбранном уровне значимости.