Математическая статистика

Анализ статистических взаимосвязей

Оценивание коэффициента корреляции по выборочным данным




Пусть (x1, y1),…,(xn, yn) – выборка наблюдений двумерного случайного вектора (X, Y), имеющего неизвестное распределение FXY(x, y).

1. Точечная оценка коэффициента корреляции

На практике в качестве точечной оценки коэффициента корреляции ρXY используется выборочный коэффициент корреляции:

$\rho _{XY}^{*}=\frac{k_{XY}^{*}}{\sigma _{X}^{*}\sigma _{Y}^{*}}$,

(1)

где $k_{XY}^{*}$ – выборочный ковариационный момент:

$k_{XY}^{*}=\frac{1}{n}\sum\limits_{i}{({{x}_{i}}-\bar{x})({{y}_{i}}-\bar{y})}$.

Выборочный коэффициент корреляции $\rho _{XY}^{*}$ является состоятельной смещённой оценкой коэффициента корреляции ρXY со смещением, равным $-\frac{\rho _{XY}^{{}}(1-\rho _{XY}^{2})}{2n}$. Величина смещения убывает с увеличением объёма выборки и при n > 30 уже становится практически пренебрежимой.

2. Интервальная оценка коэффициента корреляции

Пусть распределение FXY(x, y) является двумерным нормальным распределением. В этом случае точечная оценка коэффициента корреляции $\rho _{XY}^{*}$ имеет асимптотически нормальный закон распределения с математическим ожиданием

$\text{M}\left[ \rho _{XY}^{*} \right]\approx \rho _{XY}^{{}}-\frac{\rho _{XY}^{{}}\left( 1-\rho _{XY}^{2} \right)}{2n}$

и дисперсией

$\text{D}\left[ \rho _{XY}^{*} \right]\approx \frac{{{\left( 1-\rho _{XY}^{2} \right)}^{2}}}{n}$.

В качестве центральной статистики при построении доверительного интервала выберем стандартизованную оценку коэффициента корреляции:

$U=\frac{\rho _{XY}^{*}-\text{M}\left[ \rho _{XY}^{*} \right]}{\sqrt{\text{D}\left[ \rho _{XY}^{*} \right]}}=\frac{\rho _{XY}^{*}-\left( \rho_{XY}^{{}}-{\rho _{XY}^{{}}\left( 1-\rho _{XY}^{2} \right)}/{2n}\; \right)}{{\left( 1-\rho _{XY}^{2} \right)}/{\sqrt{n}}\;}\sim N(0,1)$.

Запишем тождество для статистики U:

$P\left( {{u}_{\alpha /2}}<\frac{\left( \rho _{XY}^{*}-{\rho _{XY}^{{}}\left( 1-\rho _{XY}^{2} \right)}/{2n}\; \right)-\rho _{XY}^{{}}}{{\left( 1-\rho_{XY}^{2} \right)}/{\sqrt{n}}\;}<{{u}_{1-\alpha /2}} \right)=1-\alpha $,

где ${{u}_{\alpha /2}}$ и ${{u}_{1-\alpha /2}}$ – квантили стандартизованного нормального распределения на уровнях α/2 и 1–α/2 соответственно. Преобразуя неравенство под знаком вероятности, получим:

$P\left( \rho _{XY}^{*}+\frac{\rho _{XY}^{{}}\left( 1-\rho _{XY}^{2} \right)}{2n}-{{u}_{1-\alpha /2}}\frac{1-\rho _{XY}^{2}}{\sqrt{n}}<\rho_{XY}^{{}}< \right.$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \left. <\rho _{XY}^{*}+\frac{\rho _{XY}^{{}}\left( 1-\rho _{XY}^{2} \right)}{2n}+{{u}_{1-\alpha/2}}\frac{1-\rho _{XY}^{2}}{\sqrt{n}} \right)=1-\alpha$.

Это выражение ещё не даёт интервальной оценки коэффициента корреляции ρXY, так как левая и правая части неравенства под знаком вероятности содержат этот параметр. На практике в указанные части неравенств подставляют вместо неизвестного точного значения ρXY его оценку $\rho _{XY}^{*}$. В результате получается следующий интервал для ρXY:

$\left( \rho _{XY}^{*}+\frac{\rho _{XY}^{*}\left( 1-{{(\rho _{XY}^{*})}^{2}} \right)}{2n}-{{u}_{1-\alpha /2}}\frac{1-{{(\rho_{XY}^{*})}^{2}}}{\sqrt{n}}; \right.$

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \left. \rho _{XY}^{*}+\frac{\rho _{XY}^{*}\left( 1-{{(\rho _{XY}^{*})}^{2}} \right)}{2n}+{{u}_{1-\alpha/2}}\frac{1-{{(\rho _{XY}^{*})}^{2}}}{\sqrt{n}} \right)$,

являющийся доверительным для ρXY на уровне значимости α.

Подчеркнём, что указанные границы доверительного интервала являются приближёнными и могут использоваться лишь при достаточно больших объёмах выборки (n > 500).

При малых объёмах выборки границы доверительного интервала для ρXY могут быть рассчитаны по следующим приближённым формулам:

$\left( \tanh \left( \frac{1}{2}\ln \frac{1+\rho _{XY}^{*}}{1-\rho _{XY}^{*}}+\frac{\rho _{XY}^{*}}{2(n-1)}-\frac{{{u}_{1-\alpha /2}}}{\sqrt{n-3}}\right); \right.$

(2)

$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \left. \tanh \left( \frac{1}{2}\ln \frac{1+\rho _{XY}^{*}}{1-\rho _{XY}^{*}}+\frac{\rho_{XY}^{*}}{2(n-1)}+\frac{{{u}_{1-\alpha /2}}}{\sqrt{n-3}} \right) \right)$,

где $\tanh x=\frac{{{e}^{x}}-{{e}^{-x}}}{{{e}^{x}}+{{e}^{-x}}}$ – функция гиперболического тангенса.

Приведённые формулы расчёта границ доверительного интервала для коэффициента корреляции выведены в условиях нормальности распределения генеральной совокупности. Однако в случае отклонения от нормальности уже при объёмах выборки n > 30 возникающая неточность расчёта практически пренебрежима.

3. Проверка значимости коэффициента корреляции

Для проверки статистической гипотезы

${{H}_{0}}:{{\rho }_{XY}}=0$

в качестве статистики критерия используется статистика

$Z=\frac{\rho _{XY}^{*}}{\sqrt{1-{{(\rho _{XY}^{*})}^{2}}}}\sqrt{n-2}$,

(3)

которая при условии истинности H0 имеет распределение Стьюдента с n2 степенями свободы ${{f}_{Z}}(z|{{H}_{0}})\sim T(n-2)$.

Если альтернативная гипотеза $H':{{\rho }_{XY}}\ne 0$, то критическая область для статистики критерия выбирается двусторонней, если $H':{{\rho}_{XY}}<0$ или $H':{{\rho }_{XY}}>0$, то левосторонней или правосторонней соответственно.

Пример 1