Математическая статистика
Анализ статистических взаимосвязей
Виды дисперсий в совокупности, разделённой на части
Пусть исследуемая генеральная совокупность разделена по некоторому номинальному признаку на группы. Например, при исследовании доходов предприятий в различных регионах страны множество предприятий разделено на группы по признаку «территориальное расположение», при исследовании качества продукции различных производителей генеральная совокупность разделена на группы по признаку «производитель» и т.п. Пусть в каждой группе проведено выборочное наблюдение, в результате которого получена выборка значений интересующего количественного признака.
Ставится задача определить, есть ли значимая статистическая связь между группировочным признаком (фактором) и интересующим результативным признаком.
Введём следующие обозначения: G – номинальный группировочный признак, имеющий K вариантов, X – количественный результативный признак, $x_{1}^{(k)},...,x_{{{n}_{k}}}^{(k)}$ – выборка наблюдений случайной величины X объёма nk, соответствующая k-му варианту групппировочного признака, $k=\overline{1,K}$. Для выборки из каждой группы могут быть рассчитаны выборочные характеристики:
${{\bar{x}}_{k}}=\frac{1}{{{n}_{k}}}\sum\limits_{i=1}^{{{n}_{k}}}{x_{i}^{(k)}}$ – частное (групповое) среднее, $k=\overline{1,K}$;
$\tilde\sigma_k^2=\frac{1}{n_k}\sum\limits_{i=1}^{n_k}{{{(x_i^{(k)}-{\bar{x}_k})}^2}}$ – частная (групповая) дисперсия, $k=\overline{1,K}$.
Выборочные характеристики объединённой выборки $x_{1}^{(1)},...,x_{{{n}_{1}}}^{(1)},...,x_{1}^{(K)},...,x_{{{n}_{K}}}^{(K)}$:
$\bar{x}=\frac{1}{n}\sum\limits_{k=1}^{K}{\sum\limits_{i=1}^{{{n}_{k}}}{x_{i}^{(k)}}}$ – общее среднее;
${{D}_{X}^*}=\frac{1}{n}\sum\limits_{k=1}^{K}{\sum\limits_{i=1}^{{{n}_{k}}}{{{(x_{i}^{(k)}-\bar{x})}^{2}}}}$ – общая дисперсия;
где $n=\sum\limits_{k=1}^{K}{{{n}_{k}}}$ – общий объём выборки.
Несложно показать, что общее среднее представляет собой среднее арифметическое групповых средних, взвешенное объёмами выборок:
$\bar{x}=\frac{1}{n}\sum\limits_{k=1}^{K}{{{n}_{k}}{{{\bar{x}}}_{k}}}$.
Аналогично, введём среднее арифметическое групповых дисперсий, взвешенное объёмами выборок:
${{D}_{w}^*}=\frac{1}{n}\sum\limits_{k=1}^{K}{{{n}_{k}}\tilde\sigma _{k}^{2}}$.
Величина, рассчитываемая по этой формуле, называется внутригрупповой дисперсией (within-group variance) выборок $x_{1}^{(k)},...,x_{{{n}_{k}}}^{(k)}$, $k=\overline{1,K}$.
Общая дисперсия $D_X^*$ является мерой разброса (вариации) выборочных данных объединённой выборки, внутригрупповая дисперсия $D_w^*$ – мерой разброса данных внутри каждой группы. Мерой разброса групповых средних является межгрупповая дисперсия (between-group variance), определяемая выражением:
${D_b^*}=\frac{1}{n}\sum\limits_{k=1}^{K}{{n_k}{{({\bar{x}_{k}}-\bar{x})}^2}}$.
Можно показать, что для внутригрупповой, межгрупповой и общей дисперсий справедливо правило сложения дисперсий:
${{D}_{X}^*}={{D}_{w}^*}+{{D}_{b}^*}$.
Правило сложения дисперсий имеет следующую интерпретацию: общая вариация результативного признака X складывается из его вариации внутри каждой группы (при каждом фиксированном значении группировочного признака G) и вариации групповых средних. Вариация значений признака X внутри каждой группы не может быть обусловлена признаком G (поскольку внутри каждой группы он имеет фиксированное значение) и связана с действием других факторов, называемых остаточными. В то же время, вариация групповых средних связана именно с действием фактора G. Таким образом, может быть предложна ещё одна интерпретация правила сложения дисперсий: вариация результативного признака X складывается из вариации, обусловленной действием остаточных факторов, и вариации, связанной с группировочным признаком G.
Отношение межгрупповой дисперсии к общей дисперсии называется эмпирическим коэффициентом детерминации (ЭКД):
$\eta^{2}=\frac{{{D}_{b}^*}}{{{D}_{X}^*}}$. |
Возможные значения ЭКД $ 0\le \eta^{2}\le 1$. ЭКД показывает, какая доля в общей вариации результативного признака X связана с действием группировочного признака G. ЭКД нередко называют также показателем «эта-квадрат» (eta-squared).
Отношение межгруппового среднеквадратического отклонения к общему среднеквадратическому отклонению называется эмпирическим корреляционным отношением (ЭКО):
$\eta=\sqrt{\frac{{{D}_{b}^*}}{{{D}_{X}^*}}}$.
Возможные значения ЭКО $ 0\le \eta\le 1$. На основе ЭКО судят о степени тесноты статистической связи между факторным признаком G и результативным признаком X. Для характеристики степени тесноты связи может быть использована шкала Чеддока (R. E. Chaddock, 1925) (табл. 6.3).
Таблица 6.3
Шкала Чеддока
η |
Степень тесноты связи |
0,1–0,3 |
слабая |
0,3–0,5 |
умеренная |
0,5–0,7 |
заметная |
0,7–0,9 |
высокая |
0,9–0,99 |
сильная |
0,99–1 |
функциональная |
При расчётах внутригрупповой, межгрупповой и общей дисперсий, а также ЭКД и ЭКО по результатам выборочного наблюдения необходимо иметь в виду, что все получаемые значения являются смещёнными оценками соответствующих теоретических значений, характеризующих генеральную совокупность. Показатели вариации, а также их несмещённые оценки сведены в таблицу, называемую таблицей дисперсионного анализа (табл. 6.4).
Таблица 6.4
Таблица дисперсионного анализа
Источник вариации |
Показатель вариации |
Число степеней свободы |
Несмещённая оценка |
Группировочный признак |
${{D}_{b}^*}$ |
K–1 |
$\frac{n}{K-1}{{D}_{b}^*}$ |
Остаточные признаки |
${{D}_{w}^*}$ |
n–K |
$\frac{n}{n-K}{{D}_{w}^*}$ |
Все признаки |
${{D}_{X}^*}$ |
n–1 |
$\frac{n}{n-1}{{D}_{X}^*}$ |
Смещение оценки ЭКД, рассчитываемой по формуле (1), является положительным, т.е. такая оценка в среднем даёт завышенную долю объяснённой дисперсии. Однако с ростом объёма выборки величина смещения уменьшается. При малом объёме выборки вместо оценки ЭКД (1) рекомендуется использовать другую оценку, обладающую меньшим смещением:
$\omega^{2}=\frac{{{D}_{b}^*}-\frac{K-1}{n-K}{{D}_{w}^*}}{{{D}_{X}^*}+\frac{K-1}{n-K}{{D}_{w}^*}}$. |
Оценка ЭКД, рассчитываемая по формуле (2), всегда меньше оценки, рассчитываемой по формуле (1).