Математическая статистика

Регрессионный анализ

Множественная линейная регрессия




Если на систему действует множество входных воздействий ${{X}_{1}},...,{{X}_{m}}$, то её регрессионная модель имеет вид:

$Y=f(x,{{\beta }_{0}},...,{{\beta }_{k}})+\varepsilon (x)$,

(1)

где $f(x,{{\beta }_{0}},...,{{\beta }_{k}})$ – функция регрессии, $\varepsilon(x)$ – случайная ошибка модели, $x=({{x}_{1}},...,{{x}_{m}})$ – вектор входных воздействий. Пусть функция регрессии является линейной (по параметрам):

$f(x,{{\beta }_{0}},...,{{\beta }_{k}})={{\beta }_{0}}{{\varphi }_{0}}(x)+...+{{\beta }_{k-1}}{{\varphi }_{k-1}}(x)$,

(2)

где ${{\varphi }_{0}}(x),...,{{\varphi }_{k-1}}(x)$ – некоторая система скалярных функций (не обязательно линейных) m переменных.

Матрица плана регрессионной модели (1) аналогична матрице плана (5*) линейной регрессионной модели общего вида. МНК-оценки параметров ${{\beta }_{0}},...,{{\beta }_{k}}$ функции регрессии (2) рассчитываются по формуле (6*).

Для расчёта доверительных интервалов параметров модели и проверки значимости модели используются те же формулы, что и для линейной регрессионной модели (2*).

Рассмотрим частный случай функции регрессии (2). Пусть $k-1=m$, а функции ${{\varphi }_{0}}(x),...,{{\varphi }_{k-1}}(x)$ заданы следующим образом:

${{\varphi }_{0}}({{x}_{1}},...,{{x}_{m}})\equiv 1,$

${{\varphi }_{i}}({{x}_{1}},...,{{x}_{m}})={{x}_{i}},\ \ \ i=\overline{1,m}.$

Тогда функция регрессии (2) представляет собой гиперплоскость в пространстве признаков $({{x}_{1}},...,{{x}_{m}},y)$:

$f(x,{{\beta }_{0}},...,{{\beta }_{m}})={{\beta }_{0}}+{{\beta }_{1}}{{x}_{1}}+...+{{\beta }_{m}}{{x}_{m}}$.

(3)

Пусть $({{x}_{11}},...,{{x}_{m1}},{{y}_{1}}),...,({{x}_{1n}},...,{{x}_{mn}},{{y}_{n}})$ – выборка наблюдений случайного вектора $({{X}_{1}},...,{{X}_{m}},Y)$. По этим данным может быть рассчитан показатель «эр-квадрат» (1*):

$R_{Y|{{X}_{1}},...,{{X}_{m}}}^{2*}=\frac{D_{Y|{{X}_{1}},...,{{X}_{m}}}^{*}}{D_{Y}^{*}}=1-\frac{D_{resY}^{*}}{D_{Y}^{*}}$.

(4)

Этот показатель следует интерпретировать как долю вариации выборочных данных, объяснённую линейной функцией регрессии (2). Величина остаточной дисперсии $D_{resY}^{*}$ характеризует разброс выборочных значений относительно гиперплоскости регрессии.

При анализе линейного уравнения регрессии (3) выборочное корреляционное отношение $R_{Y|{{X}_{1}},...,{{X}_{m}}}^{*}$ (4) называют также множественным коэффициентом корреляции (multiple correlation). Отметим, что множественный коэффициент корреляции, в отличие от линейного коэффициента корреляции Пирсона, принимает значения в диапазоне от 0 до 1.

Можно показать, что множественный коэффициент корреляции $R_{Y|{{X}_{1}},...,{{X}_{m}}}^{*}$ выражается через парные коэффициенты корреляции следующим образом:

$R_{Y|{{X}_{1}},...,{{X}_{m}}}^{*}=\sqrt{{{c}^{T}}R_{XX}^{-1}c}$,

(5)

где RXX – корреляционная матрица регрессоров ${{X}_{1}},...,{{X}_{m}}$ размерности $m\times m$, c – вектор-столбец корреляций отклика Y с регрессорами ${{X}_{1}},...,{{X}_{m}}$.

В частном случае, при m = 2 формула (5) имеет вид:

$R_{Y|X_1,X_2}^{*}=\sqrt{\frac{{{(\rho _{YX_1}^{*})}^{2}}+{{(\rho _{YX_2}^{*})}^{2}}-2\rho _{YX_1}^{*}\rho_{YX_2}^{*}\rho _{X_1X_2}^{*}}{1-{{(\rho _{X_1X_2}^{*})}^2}}}$.

Добавление в регрессионную модель новых регрессоров всегда увеличивает значение показателя «эр-квадрат». Связано это с тем, что с увеличением размерности пространства признаков ошибка линейной аппроксимации n точек может только уменьшиться либо остаться неизменной (при нулевом коэффициенте перед добавляемым признаком). Эта особенность является недостатком показателя «эр-квадрат», поскольку подобное увеличение его значения может быть не связано с наличием статистической связи между рассматриваемым откликом Y модели и переменными ${{X}_{1}},...,{{X}_{m}}$.

Показателем, компенсирующим этот эффект, является скорректированное корреляционное отношение:

$\bar{R}_{Y|{{X}_{1}},...,{{X}_{m}}}^{{}}=\sqrt{1-\frac{{D_{resY}^{*}}/{(n-k)}\;}{{D_{Y}^{*}}/{(n-1)}\;}}=\sqrt{1-\left(1-R_{Y|{{X}_{1}},...,{{X}_{m}}}^{2*} \right)\frac{n-1}{n-k}}$,

при анализе линейного уравнения регрессии (3) называемое также скорректированным множественным коэффициентом корреляции (adjusted multiple correlation).

Пример 1