Математическая статистика
Регрессионный анализ
Множественная линейная регрессия
Используя выборочные данные Примера 2*, построить линейную регрессионную модель вида
$Y={{\beta }_{0}}+{{\beta }_{1}}x+{{\beta }_{2}}z+\varepsilon (x)$,
где Y – среднее время решения вербальных заданий тестов, а регрессоры: X – среднее время решения наглядно-образных заданий, Z – рост школьника, и проверить её значимость на уровне α = 0,1.
Выборочные значения признака Z представлены в таблице.
№ школьника |
Рост Z, см |
1 |
156 |
2 |
160 |
3 |
159 |
4 |
158 |
5 |
154 |
6 |
157 |
7 |
151 |
8 |
156 |
9 |
156 |
10 |
154 |
Решение
Запишем регрессионную матрицу F:
1 |
x |
z |
1 |
19 |
156 |
1 |
12 |
160 |
1 |
32 |
159 |
1 |
17 |
158 |
1 |
14 |
154 |
1 |
25 |
157 |
1 |
15 |
151 |
1 |
35 |
156 |
1 |
29 |
156 |
1 |
27 |
154 |
Дисперсионная матрица Фишера ${{({{F}^{T}}F)}^{-1}}$ имеет размерность 3*3 и равна
${{({{F}^{T}}F)}^{-1}}\approx \left( \begin{matrix} 389,7 & 0,06 & -2,5 \\ 0,06 & 0,002 & -0,001 \\ -2,5 & -0,001 & 0,016 \\ \end{matrix} \right)$.
По формуле получаем (6*) точечную оценку вектора параметров модели:
$\tilde{\beta }={{\left( {\tilde\beta_0},{\tilde\beta_1},{\tilde\beta_2} \right)}^{T}}\approx {{\left( -22,9;0,42;0,17\right)}^{T}}$.
Таким образом, оценка функции регрессии имеет вид:
$\tilde{f}(x)=-22,9+0,42x+0,17z$.
Показатели «эр-квадрат» и «эр-бар-квадрат» рассчитываем по формулам (1*) и (5*):
$R_{Y|{{X}_{1}}{{X}_{2}}}^{2*}\approx 0,78$,
$\bar{R}_{Y|{{X}_{1}}{{X}_{2}}}^{2}\approx 0,71$.
Сравнивая эти показатели с полученными в Примере 1* ( $R_{Y|X}^{2*}\approx 0,77$, $\bar{R}_{Y|X}^{2}\approx 0,74$ ), делаем вывод, что рассматриваемая плоскость регрессии в пространстве признаков (y, x, z) немного лучше аппроксимирует выборочные данные, чем прямая регрессии на плоскости признаков (y, x), однако её «объяснительные» возможности хуже. Этот результат говорит о том, что увеличение показателя «эр-квадрат» является ложным и не связано с наличием статистической зависимости между признаками y и z.
Для проверки гипотезы ${{H}_{0}}:{{\beta }_{1}}={{\beta }_{2}}=0$ о незначимости регрессионной модели рассчитаем выборочное значение статистики Фишера (8*):
$z\approx 12,3$,
которому соответствует значение p-value
$p=1-{{F}_{F(2,7)}}(12,3)\approx 0,005$.
Согласно критерию проверки статистических гипотез, делаем вывод, что основная гипотеза должна быть отклонена, т.е. рассматриваемая линейная регрессионная модель значима.