Математическая статистика

Анализ статистических взаимосвязей

Анализ статистической связи между номинальными величинами. Таблицы сопряженности




Пусть (X, Y) – вектор номинальных случайных величин X и Y, т.е. величин, значения которых нельзя выразить количественно (например, это может быть имя, город, национальность и т.п.). Номинальные случайные величины обязательно являются случайными величинами дискретного типа. Обозначим k – число вариантов случайной величины X, l – число вариантов случайной величины Y. Пусть распределение случайного вектора (X, Y) описывается таблицей:

Варианты

y1

...

yj

...

yl

Σ

x1

p11

...

p1j

...

p1l

$\sum\limits_{j=1}^{l}{{{p}_{1j}}}$

...

...

...

...

...

...

...

xi

pi1

...

pij

...

pil

$\sum\limits_{j=1}^{l}{{{p}_{ij}}}$

...

...

...

...

...

...

...

xk

pk1

...

pkj

...

pkl

$\sum\limits_{j=1}^{l}{{{p}_{kj}}}$

Σ

$\sum\limits_{i=1}^{k}{{{p}_{i1}}}$

...

$\sum\limits_{i=1}^{k}{{{p}_{ij}}}$

...

$\sum\limits_{i=1}^{k}{{{p}_{il}}}$

1

В последнем столбце и последней строке приведены маргинальные распределения случайных величин X и Y соответственно, вероятности ${{p}_{ij}}=P(X={{x}_{i}},Y={{y}_{j}})$, $i=\overline{1,k}$, $j=\overline{1,l}$.

Будем считать, что признак x является факторным, а признак y – результативным. При каждом фиксированном варианте xi случайной величины X, $i=\overline{1,k}$, случайная величина Y имеет распределение вероятностей, представленное в i‑ой строке таблицы. При отсутствии статистической связи между случайными величинами X и Y распределение вероятностей случайной величины Y не зависит от значений случайной величины X и совпадает с её маргинальным распределением, т.е. $\forall j=\overline{1,l}$ должно выполняться равенство:

$P(Y={{y}_{j}}|X={{x}_{1}})=...=P(Y={{y}_{j}}|X={{x}_{k}})=P(Y={{y}_{j}})$.

(1)

Используя определение условной вероятности, запишем эквивалентное равенству (1) условие:

$\frac{{{p}_{ij}}}{\sum\limits_{j=1}^{l}{{{p}_{ij}}}}=\sum\limits_{i=1}^{k}{{{p}_{ij}}}$, $\forall i=\overline{1,k}$, $\forall j=\overline{1,l}$.

(2)

Пусть $({{x}_{1}},{{y}_{1}}),...,({{x}_{n}},{{y}_{n}})$ – выборка наблюдений случайного вектора (X, Y) объёма n. Обозначим через nij частоту пары $({{x}_{i}},{{y}_{j}})$ в этой выборке, $i=\overline{1,k}$, $j=\overline{1,l}$. Таблица, составленная из этих частот, называется (эмпирической) таблицей сопряжённости (contingency table, crosstab) (табл. 6.2).

Таблица 6.2

Таблица сопряжённости

Варианты

y1

...

yj

...

yl

Σ

x1

n11

...

n1j

...

n1l

$\sum\limits_{j=1}^{l}{{{n}_{1j}}}$

...

...

...

...

...

...

...

xi

ni1

...

nij

...

nil

$\sum\limits_{j=1}^{l}{{{n}_{ij}}}$

...

...

...

...

...

...

...

xk

nk1

...

nkj

...

nkl

$\sum\limits_{j=1}^{l}{{{n}_{kj}}}$

Σ

$\sum\limits_{i=1}^{k}{{{n}_{i1}}}$

...

$\sum\limits_{i=1}^{k}{{{n}_{ij}}}$

...

$\sum\limits_{i=1}^{k}{{{n}_{il}}}$

n

Сформулируем статистическую гипотезу об отсутствии статистической связи между случайными величинами X и Y:

${{H}_{0}}:{{F}_{Y}}(y|X={{x}_{1}})=...={{F}_{Y}}(y|X={{x}_{k}})={{F}_{Y}}(y)$,

$H':\neg{{H}_{0}}$.

(3)

В случае если основная гипотеза H0 верна, т.е. справедливы равенства (2), в таблице сопряжённости вместо наблюдаемых частот nij, $i=\overline{1,k}$, $j=\overline{1,l}$, будут стоять теоретические частоты ${{m}_{ij}}=n{{p}_{ij}}$:

${{m}_{ij}}=n{{p}_{ij}}=n\sum\limits_{j=1}^{l}{{{p}_{ij}}}\sum\limits_{i=1}^{k}{{{p}_{ij}}}=\frac{1}{n}\sum\limits_{j=1}^{l}{{{n}_{ij}}}\sum\limits_{i=1}^{k}{{{n}_{ij}}}$,

из которых можно составить теоретическую таблицу сопряжённости.

Для проверки статистической гипотезы (3) используется критерий, основанный на оценке степени близости между частотами в эмпирической и теоретической таблицах сопряжённости. В качестве меры рассогласования используется статистика

$Z=\sum\limits_{i=1}^{k}{\sum\limits_{j=1}^{l}\frac{(n_{ij}-m_{ij})^2}{m_{ij}}}$,

(4)

для которой показано, что при условии истинности основной гипотезы H0 при $n\to \infty $ её закон распределения стремится к распределению «хи-квадрат» с (k–1)*(l–1) степенями свободы. На практике закон распределения статистики критерия Z может быть аппроксимирован с высокой точностью законом ${{\chi }^{2}}\left( (k-1)(l-1) \right)$, если выполняется условие mij > 5 для всех $i=\overline{1,k}$, $j=\overline{1,l}$.

В связи с тем, что основная гипотеза H0 должна отвергаться при больших рассогласованиях между частотами в эмпирической и теоретической таблицах сопряжённости, то критическая область для статистики критерия Z должна выбираться правосторонней.

Статистика критерия (4) может быть применена для анализа значимости статистической связи между двумя количественными признаками. В этом случае признаки должны быть предварительно группированы, а результаты группировки представлены в виде корреляционной таблицы.

Пример 1