Математическая статистика
Анализ статистических взаимосвязей
Виды связей между величинами
При изучении объектов и явлений исследователю, как правило, приходится иметь дело с несколькими некоторым образом связанными статистическими признаками. Например, объём продукции предприятия связан с численностью работников, мощностью оборудования, стоимостью производственных фондов и еще многими признаками. Признаки «пол» и «число лейкоцитов в крови» могли бы рассматриваться как зависимые, если бы большинство мужчин имело высокий уровень лейкоцитов, а большинство женщин – низкий, или наоборот. Рост связан с весом, потому что обычно высокие индивиды тяжелее низких; IQ (коэффициент интеллекта) связан с количеством ошибок в тесте, т.к. люди высоким значением IQ делают меньше ошибок и т.д.
Невозможно управлять явлениями, предсказывать их развитие без изучения характера, силы и других особенностей связей. Поэтому методы исследования, направленные на измерение связей, составляют чрезвычайно важную часть методологии научного исследования, в том числе и статистического.
При исследовании причинно-следственных связей статистические признаки разделяют на факторные и результативные. Факторные признаки, или факторы, – это признаки, обуславливающие изменение других, связанных с ними, признаков. Результативными называются признаки, изменяющиеся под воздействием факторных признаков.
Различают два типа связей между факторными и результативными признаками: функциональную и статистическую. Функциональной называют такую связь, при которой каждому определённому значению x факторного признака соответствует одно и только одно значение y результативного признака:
$y=f(x)$.
Функциональная связь двух величин возможна лишь при условии, что вторая из них зависит только от первой и ни от чего более. Такие связи являются абстракциями, в реальной жизни они встречаются редко, но находят широкое применение в точных науках и в первую очередь, в математике. Например, зависимость площади круга от радиуса $S(R)=\pi {{R}^{2}}$.
Функциональная зависимость результативного признака y от многих факторов x1,…,xk возможна только в том случае, если признак y всегда зависит от перечисленного набора факторов и ни от чего более. Такие связи также являются абстракциями, поскольку большинство явлений и процессов безграничного реального мира связаны между собой, и нет такого конечного числа переменных, которые абсолютно полно определяли бы собою зависимую величину. Тем не менее, на практике нередко используют представление реальных связей как функциональных. Например, длина года (период обращения Земли вокруг Солнца) почти функционально зависит только от массы Солнца и расстояния Земли от него. На самом деле она зависит в очень слабой степени и от масс, и от расстояний других планет от Земли, но вносимые ими (и тем более в миллионы раз более далекими звездами) искажения функциональной связи для всех практических целей, кроме космонавтики, пренебрежимо малы.
Статистической связью между результативным и факторным признаками называется связь, при которой каждому определённому значению x факторного признака соответствует некоторое распределение ${{F}_{Y}}(y|x)$ вероятностей значений результативного признака.
Такие связи имеют место, например, если на результативный признак действуют несколько факторных признаков, а для описания связи используется один или несколько определяющих (учтённых) факторов.
Частным случаем статистической связи между результативным и факторным признаками y и x является корреляционная связь. При корреляционной связи от значения x факторного признака зависит не всё распределение вероятностей FY(y), а лишь математическое ожидание величины Y. Математическое ожидание случайной величины Y при фиксированном значении случайной величины X = x называется условным математическим ожиданием и обозначается M[Y|x], а уравнение
$\text{M}[Y|x]=f(x)$
называется уравнением регрессии Y на X.
В зависимости от типа рассматриваемых статистических признаков для анализа статистических связей между ними используют различные статистические методы (табл. 6.1).
Для анализа степени тесноты связи между количественными факторным и результативным признаками, т.е. признаками, варианты которых имеют числовое выражение, используются методы корреляционного анализа, для анализа уравнения регрессии – методы регрессионного анализа. Корреляционный и регрессионный анализы также могут быть применены для случая качественных порядковых, или ординальных, признаков, т.е. признаков, значения которых могут быть некоторым образом упорядочены. Для таких признаков можно сказать, какие значения больше или меньше, но нельзя сказать насколько.
В случае если факторный признак является номинальным (категориальным, или атрибутивным), т.е. признаком, варианты которого могут быть измерены только в терминах принадлежности к некоторым категориям, а результативный – количественным, то для анализа статистической связи между ними используются методы дисперсионного анализа.
Если же оба признака – и факторный, и результативный – являются номинальными, то для анализа статистической связи между ними используют метод таблиц сопряжённости.
Если факторный признак является количественным, а результативный – номинальным, то задачу, как правило, сводят к случаю двух номинальных признаков путём группировки значений факторного признака.
Таблица 6.1
Методы исследования статистических связей
факторный результативный |
номинальный |
количественный |
номинальный |
таблицы сопряжённости |
таблицы сопряжённости |
количественный |
дисперсионный анализ |
корреляционный, |