Математическая статистика

Регрессионный анализ

Простейшая линейная регрессионная модель




Пусть функция регрессии Y на X имеет вид:

$f(x,{{\beta }_{0}},{{\beta }_{1}})={{\beta }_{0}}+{{\beta }_{1}}x$.

(1)

Тогда регрессионная модель (1*) отклика Y выглядит следующим образом:

$Y={{\beta }_{0}}+{{\beta }_{1}}x+\varepsilon (x)$.

(2)

Такая модель называется простейшей линейной регрессионной моделью (simple linear regression).

Используя метод наименьших квадратов, найдём оценки параметров модели ${{\beta }_{0}},{{\beta }_{1}}$. Запишем систему уравнений (6*):

$\begin{cases} {{\beta }_{0}}n+{{\beta }_{1}}\sum\limits_{i=1}^{n}{{{x}_{i}}}=\sum\limits_{i=1}^{n}{{{y}_{i}}}, \\ {{\beta }_{0}}\sum\limits_{i=1}^{n}{{{x}_{i}}}+{{\beta }_{1}}\sum\limits_{i=1}^{n}{x_{i}^{2}}=\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}}; \end{cases}$

решением которой являются оценки ${{\tilde{\beta }}_{0}},{{\tilde{\beta }}_{1}}$:

$\begin{cases} {{{\tilde{\beta }}}_{0}}=\bar{y}-\rho _{XY}^{*}\frac{\sigma _{Y}^{*}}{\sigma _{X}^{*}}\bar{x}, \\ {{{\tilde{\beta }}}_{1}}=\rho _{XY}^{*}\frac{\sigma _{Y}^{*}}{\sigma _{X}^{*}}.\end{cases}$

(3)

Таким образом, МНК-оценка значения простейшей линейной функции регрессии Y на X (1) в точке x имеет вид:

$\tilde{f}(x)=f(x,{{\tilde{\beta }}_{0}},{{\tilde{\beta }}_{1}})=\bar{y}+\rho _{XY}^{*}\frac{\sigma _{Y}^{*}}{\sigma _{X}^{*}}(x-\bar{x})$.

Заметим, что найденные МНК-оценки параметров простейшей линейной регрессии являются выборочными оценками теоретических значений (9*), рассчитанных для функции регрессии нормально распределённых случайных величин.

Оценки ${{\tilde{\beta }}_{0}},{{\tilde{\beta }}_{1}}$ имеют следующие свойства:

1. они являются линейными функциями результатов наблюдений ${{y}_{1}},...,{{y}_{n}}$;

2. состоятельность, т.е ${{\tilde{\beta }}_{i}}\overset{P}{\mathop{\to }}\,{{\beta }_{i}}$ при $n\to \infty $, $i=0,1$;

3. несмещённость, т.е. $\text{M}\left[ {{{\tilde{\beta }}}_{i}} \right]={{\beta }_{i}}$, $i=0,1$.

Пусть к регрессионной модели (2) наряду с требованиями 1° и 2° налагаются следующие дополнительные требования (условия Гаусса-Маркова).

3°. Неизменность дисперсии ошибок $\varepsilon(x)$ для всех x из рассматриваемой области определения:

$\text{D}\left[ \varepsilon (x) \right]={{\sigma }^{2}}$.

(4)

Требование постоянства дисперсии произвольных случайных величин ${{\xi }_{1}},...,{{\xi }_{n}}$ называется требованием их гомоскедастичности. Если дисперсии случайных величин ${{\xi }_{1}},...,{{\xi }_{n}}$ различны, то такие величины называются гетероскедастичными.

Регрессионная модель называется гомоскедастичной, если гомоскедастичны её ошибки, т.е. если выполнено условие (4) для всех x из рассматриваемой области определения.

Наличие свойства гомоскедастичности ошибок простейшей линейной регрессионной модели связано с гомоскедастичностью наблюдаемой случайной величины Y при различных значениях x. Так, если при различных x дисперсии случайной величины Y различны, то регрессионная модель будет гетероскедастичной.

Иногда гетероскедастичность данных можно обнаружить визуально (например, на рисунке справа). Если диаграммы рассеяния не дают явной информации, тогда применяются статистические тесты на гомоскедастичность.

Пример гомоскедастичных (слева) и гетероскедастичных (справа) данных

Наличие гетероскедастичности в наблюдениях случайной величины Y приводит к неэффективности оценок ${{\tilde{\beta }}_{0}},{{\tilde{\beta}}_{1}}$ и $\tilde{f}(x)$.

4°. Независимость ошибок $\varepsilon(x)$ и $\varepsilon (x')$ модели для всех x и x' из рассматриваемой области определения.

Если известно, что ошибки модели имеют нормальное распределение $\varepsilon (x)\sim{\ }N(0,{{\sigma }^{2}})$ при всех x, то требование независимости эквивалентно требованию некоррелированности:

$\operatorname{cov}\left[ \varepsilon (x),\varepsilon (x') \right]=0$.

Наличие свойства независимости остатков простейшей линейной регрессионной модели связано с независимостью наблюдаемых значений случайной величины Y при различных значениях x. Иными словами, выборка наблюдений ${{y}_{1}},...,{{y}_{n}}$ должна быть реализацией независимой случайной выборки ${{Y}_{1}},...,{{Y}_{n}}$. Если это требование не выполняется, то МНК-оценки ${{\tilde{\beta }}_{0}},{{\tilde{\beta }}_{1}}$и $\tilde{f}(x)$ являются неэффективными (теорема Гаусса-Маркова).

Свойства 3° и 4° эквивалентны выполнению условия

$V_\varepsilon={{\sigma }^{2}}I$,

где Vε – ковариационная матрица ошибок регрессионной модели, I – единичная матрица.

При соблюдении требований 1°–4° оценки ${{\tilde{\beta }}_{0}},{{\tilde{\beta }}_{1}}$ и $\tilde{f}(x)$являются эффективными, т.е. оценками с наименьшей дисперсией в классе всех линейных несмещённых оценок. Эти дисперсии равны:

$D\left[ {{{\tilde{\beta }}}_{0}} \right]=\frac{{{\sigma }^{2}}\sum\limits_{i=1}^{n}{x_{i}^{2}}}{nD_{X}^{*}},$

$D\left[ {{{\tilde{\beta }}}_{1}} \right]=\frac{{{\sigma }^{2}}}{nD_{X}^{*}}.$

Доверительные интервалы на уровне значимости α для параметров ${{\beta }_{0}},{{\beta }_{1}}$ регрессионной модели рассчитываются по следующим формулам:

$\left( {{{\tilde{\beta }}}_{0}}-{{t}_{1-\alpha /2}}(n-2)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{\frac{\sum\limits_{i=1}^{n}{x_{i}^{2}}}{{{n}^{2}}D_{X}^{*}}}\right.;$

$\left. \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ {{{\tilde{\beta }}}_{0}}+{{t}_{1-\alpha /2}}(n-2)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{\frac{\sum\limits_{i=1}^{n}{x_{i}^{2}}}{{{n}^{2}}D_{X}^{*}}} \right),$

(5)

$\left( {{{\tilde{\beta }}}_{1}}-{{t}_{1-\alpha /2}}(n-2)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{\frac{1}{nD_{X}^{*}}} \right.;$

$\left. \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ {{{\tilde{\beta }}}_{1}}+{{t}_{1-\alpha /2}}(n-2)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{\frac{1}{nD_{X}^{*}}}\right),$

(6)

где ${{t}_{1-\alpha /2}}(n-2)$ – квантиль распределения Стьюдента с n–2 степенями свободы на уровне 1–α/2, $D_{X}^{*}$ – выборочная дисперсия случайной величины X, $\tilde{D}_{resY}^{{}}$ – несмещённая оценка остаточной дисперсии случайной величины Y:

$\tilde{D}_{resY}^{{}}=\frac{1}{n-2}\sum\limits_{i=1}^{n}{{{\left( \tilde{f}({{x}_{i}})-{{y}_{i}} \right)}^{2}}}$,

Доверительный интервал на уровне значимости α для функции регрессии $f(x)=\text{M}\left[ Y|x \right]$ в точке x имеет вид:

$\left( \tilde{f}(x)-{{t}_{1-\alpha /2}}(n-2)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{\frac{1}{n}+\frac{{{(x-\bar{x})}^{2}}}{nD_{X}^{*}}} \right.;$

$\left. \ \ \ \ \ \ \ \ \ \ \ \ \ \tilde{f}(x)+{{t}_{1-\alpha /2}}(n-2)\sqrt{\tilde{D}_{resY}^{{}}}\sqrt{\frac{1}{n}+\frac{{{(x-\bar{x})}^{2}}}{nD_{X}^{*}}} \right).$

Отметим, что границы доверительного интервала для функции регрессии f(x) нелинейно зависят от x.

Простейшая линейная регрессия

На рисунке сплошной линией изображена оцененная функция регрессии $\tilde{f}(x)$, пунктирными линиями – границы доверительного интервала для f(x) на уровне значимости α = 0,1.

Простейшая регрессионная модель (2) называется значимой, если ${{\beta }_{1}}\ne 0$.

Для проверки значимости простейшей регрессионной модели сформулируем основную и альтернативную гипотезы:

${{H}_{0}}:{{\beta }_{1}}=0,$

$H':{{\beta }_{1}}\ne 0.$

В качестве статистики критерия используется статистика:

$Z=\frac{R_{Y|X}^{2*}}{{\left( 1-R_{Y|X}^{2*} \right)}/{(n-2)}\;}$,

(7)

которая при условии истинности H0 имеет распределение Фишера с 1 и n–2 степенями свободы в числителе и знаменателе соответственно: ${{f}_{Z}}(z|{{H}_{0}})\sim{\ }F(1,n-2)$.

Критическая область для статистики критерия выбирается правосторонней.

Заметим, что статистика критерия (7), используемая при проверке значимости простейшей линейной регрессионной модели, представляет собой статистику (6*), используемую при проверке гипотезы о равенстве нулю коэффициента детерминации Y на X при числе неизвестных параметров функции регрессии k = 2. Фактически проверка гипотезы о значимости регрессионной модели – это проверка гипотезы о равенстве нулю коэффициента детерминации при функции регрессии (1).

Пример 1