Математическая статистика

Анализ статистических взаимосвязей

Анализ статистической связи между номинальными величинами. Таблицы сопряженности

Пусть (X, Y) – вектор номинальных случайных величин X и Y, т.е. величин, значения которых нельзя выразить количественно (например, это может быть имя, город, национальность и т.п.). Номинальные случайные величины обязательно являются случайными величинами дискретного типа. Обозначим k – число вариантов случайной величины X, l – число вариантов случайной величины Y. Пусть распределение случайного вектора (X, Y) описывается таблицей:

Варианты	y₁	...	y_j	...	y_l	Σ
x₁	p₁₁	...	p_1j	...	p_1l	$\sum\limits_{j=1}^{l}{{{p}_{1j}}}$
...	...	...	...	...	...	...
x_i	p_i₁	...	p_ij	...	p_il	$\sum\limits_{j=1}^{l}{{{p}_{ij}}}$
...	...	...	...	...	...	...
x_k	p_k₁	...	p_kj	...	p_kl	$\sum\limits_{j=1}^{l}{{{p}_{kj}}}$
Σ	$\sum\limits_{i=1}^{k}{{{p}_{i1}}}$	...	$\sum\limits_{i=1}^{k}{{{p}_{ij}}}$	...	$\sum\limits_{i=1}^{k}{{{p}_{il}}}$	1

В последнем столбце и последней строке приведены маргинальные распределения случайных величин X и Y соответственно, вероятности ${{p}_{ij}}=P(X={{x}_{i}},Y={{y}_{j}})$, $i=\overline{1,k}$, $j=\overline{1,l}$.

Будем считать, что признак x является факторным, а признак y – результативным. При каждом фиксированном варианте x_i случайной величины X, $i=\overline{1,k}$, случайная величина Y имеет распределение вероятностей, представленное в i‑ой строке таблицы. При отсутствии статистической связи между случайными величинами X и Y распределение вероятностей случайной величины Y не зависит от значений случайной величины X и совпадает с её маргинальным распределением, т.е. $\forall j=\overline{1,l}$ должно выполняться равенство:

$P(Y={{y}_{j}}|X={{x}_{1}})=...=P(Y={{y}_{j}}|X={{x}_{k}})=P(Y={{y}_{j}})$.

(1)

Используя определение условной вероятности, запишем эквивалентное равенству (1) условие:

$\frac{{{p}_{ij}}}{\sum\limits_{j=1}^{l}{{{p}_{ij}}}}=\sum\limits_{i=1}^{k}{{{p}_{ij}}}$, $\forall i=\overline{1,k}$, $\forall j=\overline{1,l}$.

(2)

Пусть $({{x}_{1}},{{y}_{1}}),...,({{x}_{n}},{{y}_{n}})$ – выборка наблюдений случайного вектора (X, Y) объёма n. Обозначим через n_ij частоту пары $({{x}_{i}},{{y}_{j}})$ в этой выборке, $i=\overline{1,k}$, $j=\overline{1,l}$. Таблица, составленная из этих частот, называется (эмпирической) таблицей сопряжённости (contingency table, crosstab) (табл. 6.2).

Таблица 6.2

Таблица сопряжённости

Варианты	y₁	...	y_j	...	y_l	Σ
x₁	n₁₁	...	n_1j	...	n_1l	$\sum\limits_{j=1}^{l}{{{n}_{1j}}}$
...	...	...	...	...	...	...
x_i	n_i₁	...	n_ij	...	n_il	$\sum\limits_{j=1}^{l}{{{n}_{ij}}}$
...	...	...	...	...	...	...
x_k	n_k₁	...	n_kj	...	n_kl	$\sum\limits_{j=1}^{l}{{{n}_{kj}}}$
Σ	$\sum\limits_{i=1}^{k}{{{n}_{i1}}}$	...	$\sum\limits_{i=1}^{k}{{{n}_{ij}}}$	...	$\sum\limits_{i=1}^{k}{{{n}_{il}}}$	n

Сформулируем статистическую гипотезу об отсутствии статистической связи между случайными величинами X и Y:

${{H}_{0}}:{{F}_{Y}}(y|X={{x}_{1}})=...={{F}_{Y}}(y|X={{x}_{k}})={{F}_{Y}}(y)$,

$H':\neg{{H}_{0}}$.

(3)

В случае если основная гипотеза H₀ верна, т.е. справедливы равенства (2), в таблице сопряжённости вместо наблюдаемых частот n_ij, $i=\overline{1,k}$, $j=\overline{1,l}$, будут стоять теоретические частоты ${{m}_{ij}}=n{{p}_{ij}}$:

${{m}_{ij}}=n{{p}_{ij}}=n\sum\limits_{j=1}^{l}{{{p}_{ij}}}\sum\limits_{i=1}^{k}{{{p}_{ij}}}=\frac{1}{n}\sum\limits_{j=1}^{l}{{{n}_{ij}}}\sum\limits_{i=1}^{k}{{{n}_{ij}}}$,

из которых можно составить теоретическую таблицу сопряжённости.

Для проверки статистической гипотезы (3) используется критерий, основанный на оценке степени близости между частотами в эмпирической и теоретической таблицах сопряжённости. В качестве меры рассогласования используется статистика

$Z=\sum\limits_{i=1}^{k}{\sum\limits_{j=1}^{l}\frac{(n_{ij}-m_{ij})^2}{m_{ij}}}$,

(4)

для которой показано, что при условии истинности основной гипотезы H₀ при $n\to \infty $ её закон распределения стремится к распределению «хи-квадрат» с (k–1)*(l–1) степенями свободы. На практике закон распределения статистики критерия Z может быть аппроксимирован с высокой точностью законом ${{\chi }^{2}}\left( (k-1)(l-1) \right)$, если выполняется условие m_ij > 5 для всех $i=\overline{1,k}$, $j=\overline{1,l}$.

В связи с тем, что основная гипотеза H₀ должна отвергаться при больших рассогласованиях между частотами в эмпирической и теоретической таблицах сопряжённости, то критическая область для статистики критерия Z должна выбираться правосторонней.

Статистика критерия (4) может быть применена для анализа значимости статистической связи между двумя количественными признаками. В этом случае признаки должны быть предварительно группированы, а результаты группировки представлены в виде корреляционной таблицы.

Пример 1

Бесплатный шаблон для joomla здесь

Теория вероятностей	Математическая статистика	Машинное обучение	Теория нейронных сетей	Статистический анализ временных рядов	Программирование в Python

Математическая статистика

Анализ статистических взаимосвязей

Анализ статистической связи между номинальными величинами. Таблицы сопряженности

Вход в систему