Математическая статистика

Анализ статистических взаимосвязей

Виды дисперсий в совокупности, разделённой на части




Пусть исследуемая генеральная совокупность разделена по некоторому номинальному признаку на группы. Например, при исследовании доходов предприятий в различных регионах страны множество предприятий разделено на группы по признаку «территориальное расположение», при исследовании качества продукции различных производителей генеральная совокупность разделена на группы по признаку «производитель» и т.п. Пусть в каждой группе проведено выборочное наблюдение, в результате которого получена выборка значений интересующего количественного признака.

Ставится задача определить, есть ли значимая статистическая связь между группировочным признаком (фактором) и интересующим результативным признаком.

Введём следующие обозначения: G – номинальный группировочный признак, имеющий K вариантов, X – количественный результативный признак, $x_{1}^{(k)},...,x_{{{n}_{k}}}^{(k)}$ – выборка наблюдений случайной величины X объёма nk, соответствующая k-му варианту групппировочного признака, $k=\overline{1,K}$. Для выборки из каждой группы могут быть рассчитаны выборочные характеристики:

${{\bar{x}}_{k}}=\frac{1}{{{n}_{k}}}\sum\limits_{i=1}^{{{n}_{k}}}{x_{i}^{(k)}}$ – частное (групповое) среднее, $k=\overline{1,K}$;

$\tilde\sigma_k^2=\frac{1}{n_k}\sum\limits_{i=1}^{n_k}{{{(x_i^{(k)}-{\bar{x}_k})}^2}}$ – частная (групповая) дисперсия, $k=\overline{1,K}$.

Выборочные характеристики объединённой выборки $x_{1}^{(1)},...,x_{{{n}_{1}}}^{(1)},...,x_{1}^{(K)},...,x_{{{n}_{K}}}^{(K)}$:

$\bar{x}=\frac{1}{n}\sum\limits_{k=1}^{K}{\sum\limits_{i=1}^{{{n}_{k}}}{x_{i}^{(k)}}}$ – общее среднее;

${{D}_{X}^*}=\frac{1}{n}\sum\limits_{k=1}^{K}{\sum\limits_{i=1}^{{{n}_{k}}}{{{(x_{i}^{(k)}-\bar{x})}^{2}}}}$ – общая дисперсия;

где $n=\sum\limits_{k=1}^{K}{{{n}_{k}}}$ – общий объём выборки.

Несложно показать, что общее среднее представляет собой среднее арифметическое групповых средних, взвешенное объёмами выборок:

$\bar{x}=\frac{1}{n}\sum\limits_{k=1}^{K}{{{n}_{k}}{{{\bar{x}}}_{k}}}$.

Аналогично, введём среднее арифметическое групповых дисперсий, взвешенное объёмами выборок:

${{D}_{w}^*}=\frac{1}{n}\sum\limits_{k=1}^{K}{{{n}_{k}}\tilde\sigma _{k}^{2}}$.

Величина, рассчитываемая по этой формуле, называется внутригрупповой дисперсией (within-group variance) выборок $x_{1}^{(k)},...,x_{{{n}_{k}}}^{(k)}$, $k=\overline{1,K}$.

Общая дисперсия $D_X^*$ является мерой разброса (вариации) выборочных данных объединённой выборки, внутригрупповая дисперсия $D_w^*$ – мерой разброса данных внутри каждой группы. Мерой разброса групповых средних является межгрупповая дисперсия (between-group variance), определяемая выражением:

${D_b^*}=\frac{1}{n}\sum\limits_{k=1}^{K}{{n_k}{{({\bar{x}_{k}}-\bar{x})}^2}}$.

Можно показать, что для внутригрупповой, межгрупповой и общей дисперсий справедливо правило сложения дисперсий:

${{D}_{X}^*}={{D}_{w}^*}+{{D}_{b}^*}$.

Правило сложения дисперсий имеет следующую интерпретацию: общая вариация результативного признака X складывается из его вариации внутри каждой группы (при каждом фиксированном значении группировочного признака G) и вариации групповых средних. Вариация значений признака X внутри каждой группы не может быть обусловлена признаком G (поскольку внутри каждой группы он имеет фиксированное значение) и связана с действием других факторов, называемых остаточными. В то же время, вариация групповых средних связана именно с действием фактора G. Таким образом, может быть предложна ещё одна интерпретация правила сложения дисперсий: вариация результативного признака X складывается из вариации, обусловленной действием остаточных факторов, и вариации, связанной с группировочным признаком G.

Отношение межгрупповой дисперсии к общей дисперсии называется эмпирическим коэффициентом детерминации (ЭКД):

$\eta^{2}=\frac{{{D}_{b}^*}}{{{D}_{X}^*}}$.

(1)

Возможные значения ЭКД $ 0\le \eta^{2}\le 1$. ЭКД показывает, какая доля в общей вариации результативного признака X связана с действием группировочного признака G. ЭКД нередко называют также показателем «эта-квадрат» (eta-squared).

Отношение межгруппового среднеквадратического отклонения к общему среднеквадратическому отклонению называется эмпирическим корреляционным отношением (ЭКО):

$\eta=\sqrt{\frac{{{D}_{b}^*}}{{{D}_{X}^*}}}$.

Возможные значения ЭКО $ 0\le \eta\le 1$. На основе ЭКО судят о степени тесноты статистической связи между факторным признаком G и результативным признаком X. Для характеристики степени тесноты связи может быть использована шкала Чеддока (R. E. Chaddock, 1925) (табл. 6.3).

Таблица 6.3

Шкала Чеддока

η

Степень тесноты связи

0,1–0,3

слабая

0,3–0,5

умеренная

0,5–0,7

заметная

0,7–0,9

высокая

0,9–0,99

сильная

0,99–1

функциональная

Пример 1

При расчётах внутригрупповой, межгрупповой и общей дисперсий, а также ЭКД и ЭКО по результатам выборочного наблюдения необходимо иметь в виду, что все получаемые значения являются смещёнными оценками соответствующих теоретических значений, характеризующих генеральную совокупность. Показатели вариации, а также их несмещённые оценки сведены в таблицу, называемую таблицей дисперсионного анализа (табл. 6.4).

Таблица 6.4

Таблица дисперсионного анализа

Источник вариации

Показатель вариации

Число степеней свободы

Несмещённая оценка

Группировочный признак

${{D}_{b}^*}$

K–1

$\frac{n}{K-1}{{D}_{b}^*}$

Остаточные признаки

${{D}_{w}^*}$

nK

$\frac{n}{n-K}{{D}_{w}^*}$

Все признаки

${{D}_{X}^*}$

n–1

$\frac{n}{n-1}{{D}_{X}^*}$

Смещение оценки ЭКД, рассчитываемой по формуле (1), является положительным, т.е. такая оценка в среднем даёт завышенную долю объяснённой дисперсии. Однако с ростом объёма выборки величина смещения уменьшается. При малом объёме выборки вместо оценки ЭКД (1) рекомендуется использовать другую оценку, обладающую меньшим смещением:

$\omega^{2}=\frac{{{D}_{b}^*}-\frac{K-1}{n-K}{{D}_{w}^*}}{{{D}_{X}^*}+\frac{K-1}{n-K}{{D}_{w}^*}}$.

(2)

Оценка ЭКД, рассчитываемая по формуле (2), всегда меньше оценки, рассчитываемой по формуле (1).