Математическая статистика

Анализ статистических взаимосвязей

Оценивание коэффициента детерминации и корреляционного отношения по выборочным данным


Пример 1

Сравниваются баллы, полученные в результате тестирования школьников по математике (по 10-и балльной системе), и годовые оценки по алгебре за прошлый год. В результате статистического наблюдения получены следующие данные.

№ п/п

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

оценки

4

5

4

3

3

5

4

2

2

4

5

3

3

5

4

3

баллы

7

9

8

7

5

9

10

6

5

9

8

7

5

8

9

6

Определить степень влияния годовых оценок школьников по алгебре на баллы, полученные ими при тестировании. Можно ли утверждать, что между этими признаками имеется значимая (α = 0,1) линейная корреляционная связь?

Решение

Обозначим X – годовые оценки по алгебре, Y – баллы, полученные в результате тестирования. Для предварительного анализа построим диаграмму рассеяния имеющихся наблюдений (рис. 6.6).

Рис. 6.6. Диаграмма рассеяния. Окружностями отмечены средние значения признака Y при каждом фиксированном значении признака X

Рассчитаем оценки корреляционного отношения Y на X и коэффициент корреляции между X и Y.

В связи с тем, что уравнение регрессии изначально неизвестно, оценим его на основе выборочных значений. Для этого сгруппируем результаты наблюдений по оценкам. Число групп k выберем равным числу вариантов признака X, т.е. k = 4. Объём выборки n = 16.

оценки

2

3

4

5

баллы

6; 5

7; 5; 7; 5; 6

7; 8; 10; 9; 9

9; 9; 8; 8

ni

2

5

5

4

${{\bar{y}}_{i}}$

5,5

6

8,6

8,5

Средние баллы ${{\bar{y}}_{i}}$, $i=\overline{1,k}$, на рис. 6.6 отмечены окружностями. Из рисунка видно, что зависимость между групповыми средними скорее нелинейная, однако она может быть аппроксимирована прямой с высокой степенью точности. Это говорит о том, что корреляционное отношение Y на X и коэффициент корреляции между X и Y должны быть достаточно близки.

Рассчитаем общий средний балл:

$\bar{y}=\frac{1}{n}\sum\limits_{i=1}^{k}{{{n}_{i}}{{{\bar{y}}}_{i}}}=\frac{1}{16}\left( 2\cdot 5,5+...+4\cdot 8,5 \right)\approx 7,38$.

Рассчитаем оценку дисперсии, обусловленной регрессией Y на X, и оценку общей дисперсии признака Y:

$D_{Y|X}^{*}=\frac{1}{16}\left( 2\cdot {{(5,5-7,38)}^{2}}+...+4\cdot {{(8,5-7,38)}^{2}} \right)\approx 1,82$,

$D_{Y}^{*}=\frac{1}{16}\left( {{(7-7,38)}^{2}}+...+{{(6-7,38)}^{2}} \right)\approx 2,65$.

Показатель «эр-квадрат» и корреляционное отношение:

$R_{Y|X}^{2*}=\frac{1,82}{2,65}\approx 0,69$,

$R_{Y|X}^{*}=\sqrt{0,69}\approx 0,83$.

Показатель «эр-бар-квадрат»:

$\bar{R}_{Y|X}^{2}=1-(1-0,69)\frac{15}{12}\approx 0,61$.

По шкале Чеддока (§ 27) определяем, что имеется заметное влияние годовых оценок школьников по алгебре на баллы, полученные ими при тестировании.

Рассчитаем коэффициент корреляции:

$\rho _{XY}^{*}\approx 0,76$.

Полученное значение $\rho _{XY}^{*}\approx R_{Y|X}^{*}$, что говорит о возможности аппроксимации оценённой нелинейной линии регрессии прямой с высокой степенью точности.

Рассчитаем доверительный интервал для $R_{Y|X}^{2}$:

${{s}^{2}}\left[ R_{Y|X}^{2*} \right]=\frac{4\cdot 0,69\cdot {{0,31}^{2}}\cdot {{11}^{2}}}{255\cdot 19}\approx 0,0066$,

$\left( 0,69-1,8\sqrt{0,0066};0,69+1,8\sqrt{0,0066} \right)\approx \left( 0,54;0,84 \right)$,

где ${{t}_{0,95}}(11)=1,8$ – квантиль распределения Стьюдента с nk–1 степенями свободы на уровне 1–α/2.

Для проверки гипотезы о значимости КО ${{H}_{0}}:R_{Y|X}^{{}}=0$ против альтернативной гипотезы ${{H}_{0}}:R_{Y|X}^{{}}>0$ рассчитаем выборочное значение статистики критерия по формуле (6):

$z=\frac{0,69/3}{0,31/12}\approx 8,9$,

которому соответствует значение p-value

$p={{F}_{F(3,12)}}(8,9)\approx 0,002$.

Согласно критерию проверки статистических гипотез, делаем вывод, что основная гипотеза должна быть отклонена, т.е. корреляционная связь между рассматриваемыми признаками значима.