Математическая статистика
Анализ статистических взаимосвязей
Анализ статистической связи между номинальными величинами. Таблицы сопряженности
Пусть (X, Y) – вектор номинальных случайных величин X и Y, т.е. величин, значения которых нельзя выразить количественно (например, это может быть имя, город, национальность и т.п.). Номинальные случайные величины обязательно являются случайными величинами дискретного типа. Обозначим k – число вариантов случайной величины X, l – число вариантов случайной величины Y. Пусть распределение случайного вектора (X, Y) описывается таблицей:
Варианты |
y1 |
... |
yj |
... |
yl |
Σ |
x1 |
p11 |
... |
p1j |
... |
p1l |
$\sum\limits_{j=1}^{l}{{{p}_{1j}}}$ |
... |
... |
... |
... |
... |
... |
... |
xi |
pi1 |
... |
pij |
... |
pil |
$\sum\limits_{j=1}^{l}{{{p}_{ij}}}$ |
... |
... |
... |
... |
... |
... |
... |
xk |
pk1 |
... |
pkj |
... |
pkl |
$\sum\limits_{j=1}^{l}{{{p}_{kj}}}$ |
Σ |
$\sum\limits_{i=1}^{k}{{{p}_{i1}}}$ |
... |
$\sum\limits_{i=1}^{k}{{{p}_{ij}}}$ |
... |
$\sum\limits_{i=1}^{k}{{{p}_{il}}}$ |
1 |
В последнем столбце и последней строке приведены маргинальные распределения случайных величин X и Y соответственно, вероятности ${{p}_{ij}}=P(X={{x}_{i}},Y={{y}_{j}})$, $i=\overline{1,k}$, $j=\overline{1,l}$.
Будем считать, что признак x является факторным, а признак y – результативным. При каждом фиксированном варианте xi случайной величины X, $i=\overline{1,k}$, случайная величина Y имеет распределение вероятностей, представленное в i‑ой строке таблицы. При отсутствии статистической связи между случайными величинами X и Y распределение вероятностей случайной величины Y не зависит от значений случайной величины X и совпадает с её маргинальным распределением, т.е. $\forall j=\overline{1,l}$ должно выполняться равенство:
$P(Y={{y}_{j}}|X={{x}_{1}})=...=P(Y={{y}_{j}}|X={{x}_{k}})=P(Y={{y}_{j}})$. |
Используя определение условной вероятности, запишем эквивалентное равенству (1) условие:
$\frac{{{p}_{ij}}}{\sum\limits_{j=1}^{l}{{{p}_{ij}}}}=\sum\limits_{i=1}^{k}{{{p}_{ij}}}$, $\forall i=\overline{1,k}$, $\forall j=\overline{1,l}$. |
Пусть $({{x}_{1}},{{y}_{1}}),...,({{x}_{n}},{{y}_{n}})$ – выборка наблюдений случайного вектора (X, Y) объёма n. Обозначим через nij частоту пары $({{x}_{i}},{{y}_{j}})$ в этой выборке, $i=\overline{1,k}$, $j=\overline{1,l}$. Таблица, составленная из этих частот, называется (эмпирической) таблицей сопряжённости (contingency table, crosstab) (табл. 6.2).
Таблица 6.2
Таблица сопряжённости
Варианты |
y1 |
... |
yj |
... |
yl |
Σ |
x1 |
n11 |
... |
n1j |
... |
n1l |
$\sum\limits_{j=1}^{l}{{{n}_{1j}}}$ |
... |
... |
... |
... |
... |
... |
... |
xi |
ni1 |
... |
nij |
... |
nil |
$\sum\limits_{j=1}^{l}{{{n}_{ij}}}$ |
... |
... |
... |
... |
... |
... |
... |
xk |
nk1 |
... |
nkj |
... |
nkl |
$\sum\limits_{j=1}^{l}{{{n}_{kj}}}$ |
Σ |
$\sum\limits_{i=1}^{k}{{{n}_{i1}}}$ |
... |
$\sum\limits_{i=1}^{k}{{{n}_{ij}}}$ |
... |
$\sum\limits_{i=1}^{k}{{{n}_{il}}}$ |
n |
Сформулируем статистическую гипотезу об отсутствии статистической связи между случайными величинами X и Y:
${{H}_{0}}:{{F}_{Y}}(y|X={{x}_{1}})=...={{F}_{Y}}(y|X={{x}_{k}})={{F}_{Y}}(y)$, $H':\neg{{H}_{0}}$. |
В случае если основная гипотеза H0 верна, т.е. справедливы равенства (2), в таблице сопряжённости вместо наблюдаемых частот nij, $i=\overline{1,k}$, $j=\overline{1,l}$, будут стоять теоретические частоты ${{m}_{ij}}=n{{p}_{ij}}$:
${{m}_{ij}}=n{{p}_{ij}}=n\sum\limits_{j=1}^{l}{{{p}_{ij}}}\sum\limits_{i=1}^{k}{{{p}_{ij}}}=\frac{1}{n}\sum\limits_{j=1}^{l}{{{n}_{ij}}}\sum\limits_{i=1}^{k}{{{n}_{ij}}}$,
из которых можно составить теоретическую таблицу сопряжённости.
Для проверки статистической гипотезы (3) используется критерий, основанный на оценке степени близости между частотами в эмпирической и теоретической таблицах сопряжённости. В качестве меры рассогласования используется статистика
$Z=\sum\limits_{i=1}^{k}{\sum\limits_{j=1}^{l}\frac{(n_{ij}-m_{ij})^2}{m_{ij}}}$, |
для которой показано, что при условии истинности основной гипотезы H0 при $n\to \infty $ её закон распределения стремится к распределению «хи-квадрат» с (k–1)*(l–1) степенями свободы. На практике закон распределения статистики критерия Z может быть аппроксимирован с высокой точностью законом ${{\chi }^{2}}\left( (k-1)(l-1) \right)$, если выполняется условие mij > 5 для всех $i=\overline{1,k}$, $j=\overline{1,l}$.
В связи с тем, что основная гипотеза H0 должна отвергаться при больших рассогласованиях между частотами в эмпирической и теоретической таблицах сопряжённости, то критическая область для статистики критерия Z должна выбираться правосторонней.
Статистика критерия (4) может быть применена для анализа значимости статистической связи между двумя количественными признаками. В этом случае признаки должны быть предварительно группированы, а результаты группировки представлены в виде корреляционной таблицы.