Математическая статистика
Анализ статистических взаимосвязей
Оценивание коэффициента детерминации и корреляционного отношения по выборочным данным
Сравниваются баллы, полученные в результате тестирования школьников по математике (по 10-и балльной системе), и годовые оценки по алгебре за прошлый год. В результате статистического наблюдения получены следующие данные.
№ п/п |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
оценки |
4 |
5 |
4 |
3 |
3 |
5 |
4 |
2 |
2 |
4 |
5 |
3 |
3 |
5 |
4 |
3 |
баллы |
7 |
9 |
8 |
7 |
5 |
9 |
10 |
6 |
5 |
9 |
8 |
7 |
5 |
8 |
9 |
6 |
Определить степень влияния годовых оценок школьников по алгебре на баллы, полученные ими при тестировании. Можно ли утверждать, что между этими признаками имеется значимая (α = 0,1) линейная корреляционная связь?
Решение
Обозначим X – годовые оценки по алгебре, Y – баллы, полученные в результате тестирования. Для предварительного анализа построим диаграмму рассеяния имеющихся наблюдений (рис. 6.6).
Рис. 6.6. Диаграмма рассеяния. Окружностями отмечены средние значения признака Y при каждом фиксированном значении признака X
Рассчитаем оценки корреляционного отношения Y на X и коэффициент корреляции между X и Y.
В связи с тем, что уравнение регрессии изначально неизвестно, оценим его на основе выборочных значений. Для этого сгруппируем результаты наблюдений по оценкам. Число групп k выберем равным числу вариантов признака X, т.е. k = 4. Объём выборки n = 16.
оценки |
2 |
3 |
4 |
5 |
баллы |
6; 5 |
7; 5; 7; 5; 6 |
7; 8; 10; 9; 9 |
9; 9; 8; 8 |
ni |
2 |
5 |
5 |
4 |
${{\bar{y}}_{i}}$ |
5,5 |
6 |
8,6 |
8,5 |
Средние баллы ${{\bar{y}}_{i}}$, $i=\overline{1,k}$, на рис. 6.6 отмечены окружностями. Из рисунка видно, что зависимость между групповыми средними скорее нелинейная, однако она может быть аппроксимирована прямой с высокой степенью точности. Это говорит о том, что корреляционное отношение Y на X и коэффициент корреляции между X и Y должны быть достаточно близки.
Рассчитаем общий средний балл:
$\bar{y}=\frac{1}{n}\sum\limits_{i=1}^{k}{{{n}_{i}}{{{\bar{y}}}_{i}}}=\frac{1}{16}\left( 2\cdot 5,5+...+4\cdot 8,5 \right)\approx 7,38$.
Рассчитаем оценку дисперсии, обусловленной регрессией Y на X, и оценку общей дисперсии признака Y:
$D_{Y|X}^{*}=\frac{1}{16}\left( 2\cdot {{(5,5-7,38)}^{2}}+...+4\cdot {{(8,5-7,38)}^{2}} \right)\approx 1,82$,
$D_{Y}^{*}=\frac{1}{16}\left( {{(7-7,38)}^{2}}+...+{{(6-7,38)}^{2}} \right)\approx 2,65$.
Показатель «эр-квадрат» и корреляционное отношение:
$R_{Y|X}^{2*}=\frac{1,82}{2,65}\approx 0,69$,
$R_{Y|X}^{*}=\sqrt{0,69}\approx 0,83$.
Показатель «эр-бар-квадрат»:
$\bar{R}_{Y|X}^{2}=1-(1-0,69)\frac{15}{12}\approx 0,61$.
По шкале Чеддока (§ 27) определяем, что имеется заметное влияние годовых оценок школьников по алгебре на баллы, полученные ими при тестировании.
Рассчитаем коэффициент корреляции:
$\rho _{XY}^{*}\approx 0,76$.
Полученное значение $\rho _{XY}^{*}\approx R_{Y|X}^{*}$, что говорит о возможности аппроксимации оценённой нелинейной линии регрессии прямой с высокой степенью точности.
Рассчитаем доверительный интервал для $R_{Y|X}^{2}$:
${{s}^{2}}\left[ R_{Y|X}^{2*} \right]=\frac{4\cdot 0,69\cdot {{0,31}^{2}}\cdot {{11}^{2}}}{255\cdot 19}\approx 0,0066$,
$\left( 0,69-1,8\sqrt{0,0066};0,69+1,8\sqrt{0,0066} \right)\approx \left( 0,54;0,84 \right)$,
где ${{t}_{0,95}}(11)=1,8$ – квантиль распределения Стьюдента с n–k–1 степенями свободы на уровне 1–α/2.
Для проверки гипотезы о значимости КО ${{H}_{0}}:R_{Y|X}^{{}}=0$ против альтернативной гипотезы ${{H}_{0}}:R_{Y|X}^{{}}>0$ рассчитаем выборочное значение статистики критерия по формуле (6):
$z=\frac{0,69/3}{0,31/12}\approx 8,9$,
которому соответствует значение p-value
$p={{F}_{F(3,12)}}(8,9)\approx 0,002$.
Согласно критерию проверки статистических гипотез, делаем вывод, что основная гипотеза должна быть отклонена, т.е. корреляционная связь между рассматриваемыми признаками значима.