Математическая статистика

Регрессионный анализ

Множественная линейная регрессия


Пример 1

Используя выборочные данные Примера 2*, построить линейную регрессионную модель вида

$Y={{\beta }_{0}}+{{\beta }_{1}}x+{{\beta }_{2}}z+\varepsilon (x)$,

где Y – среднее время решения вербальных заданий тестов, а регрессоры: X – среднее время решения наглядно-образных заданий, Z – рост школьника, и проверить её значимость на уровне α = 0,1.

Выборочные значения признака Z представлены в таблице.

№ школьника

Рост Z, см

1

156

2

160

3

159

4

158

5

154

6

157

7

151

8

156

9

156

10

154

Решение

Запишем регрессионную матрицу F:

1

x

z

1

19

156

1

12

160

1

32

159

1

17

158

1

14

154

1

25

157

1

15

151

1

35

156

1

29

156

1

27

154

Дисперсионная матрица Фишера ${{({{F}^{T}}F)}^{-1}}$ имеет размерность 3*3 и равна

${{({{F}^{T}}F)}^{-1}}\approx \left( \begin{matrix} 389,7 & 0,06 & -2,5 \\ 0,06 & 0,002 & -0,001 \\ -2,5 & -0,001 & 0,016 \\ \end{matrix} \right)$.

По формуле получаем (6*) точечную оценку вектора параметров модели:

$\tilde{\beta }={{\left( {\tilde\beta_0},{\tilde\beta_1},{\tilde\beta_2} \right)}^{T}}\approx {{\left( -22,9;0,42;0,17\right)}^{T}}$.

Таким образом, оценка функции регрессии имеет вид:

$\tilde{f}(x)=-22,9+0,42x+0,17z$.

Показатели «эр-квадрат» и «эр-бар-квадрат» рассчитываем по формулам (1*) и (5*):

$R_{Y|{{X}_{1}}{{X}_{2}}}^{2*}\approx 0,78$,

$\bar{R}_{Y|{{X}_{1}}{{X}_{2}}}^{2}\approx 0,71$.

Сравнивая эти показатели с полученными в Примере 1* ( $R_{Y|X}^{2*}\approx 0,77$, $\bar{R}_{Y|X}^{2}\approx 0,74$ ), делаем вывод, что рассматриваемая плоскость регрессии в пространстве признаков (y, x, z) немного лучше аппроксимирует выборочные данные, чем прямая регрессии на плоскости признаков (y, x), однако её «объяснительные» возможности хуже. Этот результат говорит о том, что увеличение показателя «эр-квадрат» является ложным и не связано с наличием статистической зависимости между признаками y и z.

Для проверки гипотезы ${{H}_{0}}:{{\beta }_{1}}={{\beta }_{2}}=0$ о незначимости регрессионной модели рассчитаем выборочное значение статистики Фишера (8*):

$z\approx 12,3$,

которому соответствует значение p-value

$p=1-{{F}_{F(2,7)}}(12,3)\approx 0,005$.

Согласно критерию проверки статистических гипотез, делаем вывод, что основная гипотеза должна быть отклонена, т.е. рассматриваемая линейная регрессионная модель значима.