Математическая статистика

Регрессионный анализ

Простейшая линейная регрессионная модель


Пример 1

По выборочным данным Примера 2* построить простейшую линейную регрессионную модель среднего времени решения вербальных заданий тестов и проверить её значимость на уровне α = 0,1.

Решение

По условию задачи зависимой переменной модели является случайная величина Y – среднее время решения вербальных заданий тестов, регрессор модели – среднее время решения наглядно-образных заданий (случайная величина X).

Запишем простейшую линейную регрессионную модель:

$Y={{\beta }_{0}}+{{\beta }_{1}}x+\varepsilon (x)$.

Точечные оценки ${{\tilde{\beta }}_{0}},{{\tilde{\beta }}_{1}}$ параметров ${{\beta }_{0}},{{\beta }_{1}}$ находим по методу наименьших квадратов (3):

$\bar{x}=22,5,\ \ \ \ \ \bar{y}=13,3$;

$D_{X}^{*}\approx 59,6,\ \ \ \ \ D_{Y}^{*}\approx 14,4$;

$\rho _{XY}^{*}\approx 0,87$;

${{{\tilde{\beta }}}_{0}}=13,3-0,87\cdot \sqrt{\frac{14,4}{59,6}}\cdot 22,5\approx 3,62;$

${{{\tilde{\beta }}}_{1}}=0,87\cdot \sqrt{\frac{14,4}{59,6}}\approx 0,43.$

Таким образом, оценка функции регрессии имеет вид:

$\tilde{f}(x)=3,62+0,43x$.

Рассчитаем значения функции регрессии $\tilde{f}({{x}_{i}})$ в выборочных точках ${{x}_{1}},...,{{x}_{n}}$:

i

xi

yi

$\tilde{f}({{x}_{i}})$

1

19

15

11,80

2

12

7

8,79

3

32

17

17,39

4

17

14

10,94

5

14

8

9,65

6

25

15

14,38

7

15

8

10,08

8

35

17

18,68

9

29

16

16,10

10

27

16

15,24

По формулам (5), (6) находим интервальные оценки:

$D_{resY}^{*}=\frac{1}{10}\left( {{(15-11,8)}^{2}}+...+{{(16-15,24)}^{2}} \right)\approx 3,38;$

$\tilde{D}_{resY}^{{}}=\frac{10}{8}\cdot 3,38\approx 4,23;$

$ 3,62-1,86\sqrt{4,23}\sqrt{5659/(100\cdot 59,6)}\approx -0,11;$

$ 3,62+1,86\sqrt{4,23}\sqrt{5659/(100\cdot 59,6)}\approx 7,34;$

${{\beta }_{0}}\in \left( -0,11;7,34 \right)$;

$ 0,43-1,86\sqrt{4,23}\sqrt{1/(10\cdot 59,6)}\approx 0,27;$

$ 0,43+1,86\sqrt{4,23}\sqrt{1/(10\cdot 59,6)}\approx 0,59;$

${{\beta }_{1}}\in \left( 0,27;0,59 \right)$.

Визуальное представление выборочной функции регрессии и границ доверительных интервалов приведено на рис. 7.5.

Рис. 7.5. Функция регрессии $\tilde{f}(x)=3,62+0,43x$ и границы доверительных интервалов

Рассчитаем показатель «эр-квадрат» по формуле (1*):

$R_{Y|X}^{2*}=1-\frac{3,38}{14,4}\approx 0,77$.

В силу линейности функции регрессии убеждаемся, что

$R_{Y|X}^{2*}=\rho _{XY}^{*\ 2}={{0,87}^{2}}\approx 0,77$.

Скорректированный показатель «эр-квадрат» находим по формуле (5*):

$\bar{R}_{Y|X}^{2}=1-(1-0,77)\frac{9}{8}\approx 0,74$.

Для проверки гипотезы о незначимости регрессионной модели ${{H}_{0}}:{{\beta }_{1}}=0$ рассчитаем выборочное значение статистики Фишера :

$z=\frac{0,77}{{0,23}/{8}\;}\approx 26,1$,

которому соответствует значение p-value

$p=1-{{F}_{F(1,8)}}(26,1)\approx 0,0009$.

Согласно критерию проверки статистических гипотез, делаем вывод, что основная гипотеза должна быть отклонена, т.е. рассматриваемая линейная регрессионная модель среднего времени решения вербальных заданий тестов значима.