Математическая статистика

Регрессионный анализ

Линейная регрессионная модель общего вида


Пример 1

По выборочным данным Примера 2* построить линейную регрессионную модель вида

$Y={{\beta }_{0}}+{{\beta }_{1}}x+{{\beta }_{2}}{{x}^{2}}+{{\beta }_{3}}{{x}^{3}}+\varepsilon (x)$,

где Y – среднее время решения вербальных заданий тестов, а регрессор – среднее время решения наглядно-образных заданий (случайная величина X), и проверить её значимость на уровне α = 0,1.

Решение

Из заданного вида регрессионной модели получаем, что вектор значений системы функций ${{\varphi }_{0}}(x),...,{{\varphi }_{k-1}}(x)$ в точке x имеет вид $\varphi (x)={{\left( 1,x,{{x}^{2}},{{x}^{3}} \right)}^{T}}$, число неизвестных параметров модели k = 4.

Запишем регрессионную матрицу F:

1

x

x2

x3

1

19

361

6859

1

12

144

1728

1

32

1024

32768

1

17

289

4913

1

14

196

2744

1

25

625

15625

1

15

225

3375

1

35

1225

42875

1

29

841

24389

1

27

729

19683

Дисперсионная матрица Фишера ${{({{F}^{T}}F)}^{-1}}$ имеет размерность 4*4 и равна

${{({{F}^{T}}F)}^{-1}}\approx \left( \begin{matrix} 150,5 & -21,0 & 0,91 & -0,01 \\ -21,0 & 2,96 & -0,13 & 0,002 \\ 0,91 & -0,13 & 0,006 & 0 \\ -0,01 & 0,002 & 0 & 0 \\ \end{matrix} \right)$.

По формуле (6) получаем точечную оценку вектора параметров модели:

$\tilde{\beta }={{\left( {\tilde\beta_0},{\tilde\beta_1},{\tilde\beta_2},{\tilde\beta_3} \right)}^{T}}\approx {{\left(-34,1;5,2;-0,18;0,0021 \right)}^{T}}$.

Таким образом, оценка функции регрессии имеет вид:

$\tilde{f}(x)=-34,1+5,2x-0,18{{x}^{2}}+0,0021{{x}^{3}}$.

Рассчитаем значения функции регрессии $\tilde{f}({{x}_{i}})$ в выборочных точках ${{x}_{1}},...,{{x}_{n}}$:

i

xi

yi

$\tilde{f}({{x}_{i}})$

1

19

15

13,83

2

12

7

5,85

3

32

17

14,45

4

17

14

12,34

5

14

8

8,99

6

25

15

15,85

7

15

8

10,27

8

35

17

17,16

9

29

16

16,17

10

27

16

16,04

Показатели «эр-квадрат» и «эр-бар-квадрат» рассчитываем по формулам (1*) и (5*):

$R_{Y|X}^{2*}\approx 0,91$,

$\bar{R}_{Y|X}^{2}\approx 0,87$.

Сравнивая эти показатели с полученными в Примере 1*, делаем вывод, что рассматриваемая линейная модель обладает лучшими «объяснительными» возможностями, чем простейшая линейная регрессионная модель.

Визуальное представление выборочной функции регрессии и доверительных интервалов приведено на рис. 7.7.

Рис. 7.7. Функция регрессии $\tilde{f}(x)=-34,1+5,2x-0,18{{x}^{2}}+0,0021{{x}^{3}}$

Для проверки гипотезы ${{H}_{0}}:{{\beta }_{1}}={{\beta }_{2}}={{\beta }_{3}}=0$ о незначимости регрессионной модели рассчитаем выборочное значение статистики Фишера (8):

$z=\frac{0,91/3}{{0,09}/{6}\;}\approx 20,2$,

которому соответствует значение p-value

$p=1-{{F}_{F(3,6)}}(20,2)\approx 0,0014$.

Согласно критерию проверки статистических гипотез, делаем вывод, что основная гипотеза должна быть отклонена, т.е. рассматриваемая линейная регрессионная модель значима.