Математическая статистика
Регрессионный анализ
Простейшая линейная регрессионная модель
По выборочным данным Примера 2* построить простейшую линейную регрессионную модель среднего времени решения вербальных заданий тестов и проверить её значимость на уровне α = 0,1.
Решение
По условию задачи зависимой переменной модели является случайная величина Y – среднее время решения вербальных заданий тестов, регрессор модели – среднее время решения наглядно-образных заданий (случайная величина X).
Запишем простейшую линейную регрессионную модель:
$Y={{\beta }_{0}}+{{\beta }_{1}}x+\varepsilon (x)$.
Точечные оценки ${{\tilde{\beta }}_{0}},{{\tilde{\beta }}_{1}}$ параметров ${{\beta }_{0}},{{\beta }_{1}}$ находим по методу наименьших квадратов (3):
$\bar{x}=22,5,\ \ \ \ \ \bar{y}=13,3$;
$D_{X}^{*}\approx 59,6,\ \ \ \ \ D_{Y}^{*}\approx 14,4$;
$\rho _{XY}^{*}\approx 0,87$;
${{{\tilde{\beta }}}_{0}}=13,3-0,87\cdot \sqrt{\frac{14,4}{59,6}}\cdot 22,5\approx 3,62;$
${{{\tilde{\beta }}}_{1}}=0,87\cdot \sqrt{\frac{14,4}{59,6}}\approx 0,43.$
Таким образом, оценка функции регрессии имеет вид:
$\tilde{f}(x)=3,62+0,43x$.
Рассчитаем значения функции регрессии $\tilde{f}({{x}_{i}})$ в выборочных точках ${{x}_{1}},...,{{x}_{n}}$:
i |
xi |
yi |
$\tilde{f}({{x}_{i}})$ |
1 |
19 |
15 |
11,80 |
2 |
12 |
7 |
8,79 |
3 |
32 |
17 |
17,39 |
4 |
17 |
14 |
10,94 |
5 |
14 |
8 |
9,65 |
6 |
25 |
15 |
14,38 |
7 |
15 |
8 |
10,08 |
8 |
35 |
17 |
18,68 |
9 |
29 |
16 |
16,10 |
10 |
27 |
16 |
15,24 |
По формулам (5), (6) находим интервальные оценки:
$D_{resY}^{*}=\frac{1}{10}\left( {{(15-11,8)}^{2}}+...+{{(16-15,24)}^{2}} \right)\approx 3,38;$
$\tilde{D}_{resY}^{{}}=\frac{10}{8}\cdot 3,38\approx 4,23;$
$ 3,62-1,86\sqrt{4,23}\sqrt{5659/(100\cdot 59,6)}\approx -0,11;$
$ 3,62+1,86\sqrt{4,23}\sqrt{5659/(100\cdot 59,6)}\approx 7,34;$
${{\beta }_{0}}\in \left( -0,11;7,34 \right)$;
$ 0,43-1,86\sqrt{4,23}\sqrt{1/(10\cdot 59,6)}\approx 0,27;$
$ 0,43+1,86\sqrt{4,23}\sqrt{1/(10\cdot 59,6)}\approx 0,59;$
${{\beta }_{1}}\in \left( 0,27;0,59 \right)$.
Визуальное представление выборочной функции регрессии и границ доверительных интервалов приведено на рис. 7.5.
Рис. 7.5. Функция регрессии $\tilde{f}(x)=3,62+0,43x$ и границы доверительных интервалов
Рассчитаем показатель «эр-квадрат» по формуле (1*):
$R_{Y|X}^{2*}=1-\frac{3,38}{14,4}\approx 0,77$.
В силу линейности функции регрессии убеждаемся, что
$R_{Y|X}^{2*}=\rho _{XY}^{*\ 2}={{0,87}^{2}}\approx 0,77$.
Скорректированный показатель «эр-квадрат» находим по формуле (5*):
$\bar{R}_{Y|X}^{2}=1-(1-0,77)\frac{9}{8}\approx 0,74$.
Для проверки гипотезы о незначимости регрессионной модели ${{H}_{0}}:{{\beta }_{1}}=0$ рассчитаем выборочное значение статистики Фишера :
$z=\frac{0,77}{{0,23}/{8}\;}\approx 26,1$,
которому соответствует значение p-value
$p=1-{{F}_{F(1,8)}}(26,1)\approx 0,0009$.
Согласно критерию проверки статистических гипотез, делаем вывод, что основная гипотеза должна быть отклонена, т.е. рассматриваемая линейная регрессионная модель среднего времени решения вербальных заданий тестов значима.