Математическая статистика

Анализ статистических взаимосвязей

Ранговый коэффициент корреляции по Спирмену




Пусть x1,…,xn – выборка наблюдений случайной величины X, имеющей распределение ${{F}_{X}}(x)$, ${{x}_{(1)}},...,{{x}_{(n)}}$ – её вариационный ряд.

Рангом ri элемента xi выборки x1,…,xn называется его порядковый номер в вариационном ряду выборки, т.е.

${{x}_{({{r}_{i}})}}={{x}_{i}}$, $i=\overline{1,n}$.

Ранг ri элемента xi можно рассматривать как реализацию случайной величины ${{R}_{i}}={{R}_{i}}({{X}_{1}},...,{{X}_{n}})$, определяемой как ранг случайной величины Xi в случайной выборке X1,…,Xn.

Ранговой статистикой Z называется произвольная функция от рангов R1,…, Rn:

$Z=\varphi ({{R}_{1}},...,{{R}_{n}})$.

В связи с тем, что статистика Z является функцией случайных аргументов, Z является случайной величиной. Для каждой реализации x1,…,xn случайной выборки X1,…,Xn получим соответствующие ей реализацию рангов r1,…,rn и реализацию z ранговой статистики Z:

$z=\varphi ({{r}_{1}},...,{{r}_{n}})$.

Примечание. В случае если выборка x1,…,xn содержит одинаковые элементы, то им, как правило, приписывают одинаковый ранг, равный среднему из порядковых номеров этих элементов в вариационном ряду.

Пример 1

Пусть (x1, y1),…,(xn, yn) – выборка наблюдений двумерного случайного вектора (X, Y), имеющего распределение FXY(x, y); r1,…,rn – ранги элементов выборки x1,…,xn; s1,…,sn – ранги элементов выборки y1,…,yn.

Ранговым коэффициентом корреляции по Спирмену (Charles Spearman, 1904) называется ранговая статистика, определяемая следующим выражением:

$\rho_{XY}^{(sp)}=\frac{\sum\limits_{i=1}^{n}{({{R}_{i}}-\bar{r})({{S}_{i}}-\bar{s})}}{\sqrt{\sum\limits_{i=1}^{n}{({R_i}-\bar{r})^2}\sum\limits_{i=1}^{n}{(S_i-\bar{s})^2}}}$,

(1)

где $\bar{r}$ и $\bar{s}$ – средние значения рангов:

$\bar{r}=\bar{s}=\frac{1}{n}\sum\limits_{i=1}^{n}{i}=\frac{n+1}{2}$.

(2)

Выборочное значение этой статистики для выборки (x1, y1),…,(xn, yn) равно:

$\tilde{\rho}_{XY}^{(sp)}=\frac{\sum\limits_{i=1}^n{(r_i-\bar{r})(s_i-\bar{s})}}{\sqrt{\sum\limits_{i=1}^{n}{(r_i-\bar{r})^2}\sum\limits_{i=1}^n(s_i-\bar{s})^2}}=\frac{\mu_{RS}^{*}}{\sigma _{S}^{*}\sigma _{R}^{*}}$.

(3)

Фактически, значение рангового коэффициента корреляции по Спирмену для выборки (x1, y1),…,(xn, yn) – это значение линейного коэффициента корреляции для соответствующей выборки рангов (r1, s1),…,(rn, sn).

Учитывая (2), выражение (3) можно упростить:

$\tilde{\rho }_{XY}^{(sp)}=1-\frac{6}{n({{n}^{2}}-1)}\sum\limits_{i=1}^{n}{{{({{r}_{i}}-{{s}_{i}})}^{2}}}$.

(4)

Известно, что линейный коэффициент корреляции ρXY используется для обнаружения линейной корреляционной связи между величинами X и Y. Так, если $|\rho _{XY}^{{}}|\ =1$, то между X и Y имеется линейная функциональная связь. Если ρXY = 0, то между X и Y отсутствует линейная корреляционная связь.

Значение $|\rho _{XY}^{(sp)}|\ =1$ будет означать, что между рангами R и S имеется линейная функциональная связь. Если же $\rho_{XY}^{(sp)}=0$, то между рангами R и S отсутствует линейная корреляционная связь.

Рассмотрим, что означают эти случаи в пространстве признаков X и Y. Если X и Y связаны линейной функциональной зависимостью $Y=aX+b$, то между рангами R и S также будет линейная зависимость. В самом деле, при $a>0$ бόльшим значениям X будут соответствовать бόльшие значения Y, таким образом, для отсортированной в порядке возрастания по X выборки (x1, y1),…,(xn, yn) соответствующая выборка рангов будет иметь вид:

ri

1

...

i

...

n

si

1

...

i

...

n

При $a<0$:

ri

1

...

i

...

n

si

n

...

n-i+1

...

1

Рассчитывая ранговый коэффициент по формуле (4), получим, что при $a>0$: $\tilde{\rho }_{XY}^{(sp)}=1$, при $a<0$: $\tilde{\rho}_{XY}^{(sp)}=-1$.

Если $Y=\varphi (X)$, где φ(X) – монотонно возрастающая функция, то для отсортированной по X выборки (x1, y1),…,(xn, yn) соответствующая выборка рангов будет такой же, что и для случая линейной функциональной зависимости между X и Y при $a>0$. Если φ(X) – монотонно убывающая функция, то выборка рангов будет такой же, что и для случая линейной функциональной зависимости между X и Y при $a<0$.

Диаграммы рассеяния выборочных наблюдений (слева) и соответствующих выборочных рангов (справа)

Из рисунка видно, что переход к рангам «выпрямляет» монотонную зависимость исходных признаков.

Рассмотрим другой случай, когда признаки X и Y независимы. В этой ситуации случайный вектор рангов $({{S}_{1}},...,{{S}_{n}})$, составленный для случайной выборки ${{Y}_{1}},...,{{Y}_{n}}$, соответствующей отсортированным по возрастанию значениям выборки ${{x}_{1}},...,{{x}_{n}}$, с равной вероятностью является любой из возможных n! перестановок, составленных из чисел 1,…,n. Следовательно, математическое ожидание рангового коэффициента корреляции по Спирмену (1) будет равно нулю, т.е. $\text{M}\left[ \rho _{XY}^{(sp)} \right]=0$. Можно показать, что дисперсия $\text{D}\left[ \rho _{XY}^{(sp)} \right]=\frac{1}{n-1}$. Это означает, что значения выборочного рангового коэффициента корреляции по Спирмену $\tilde{\rho }_{XY}^{(sp)}$ при условии независимости случайных величин X и Y и большом объёме выборки будут группироваться вблизи нуля.

Диаграммы рассеяния выборочных наблюдений (слева) и соответствующих выборочных рангов (справа) для случая независимых признаков

Из рисунка видно, что для независимых случайных величин X и Y выборочные ранги рассеяны практически равномерно внутри квадрата $n\times n$.

Для проверки значимости рангового коэффициента корреляции по Спирмену сформулируем основную гипотезу:

${{H}_{0}}:\rho _{XY}^{(sp)}=0$.

В качестве статистики критерия используют статистику:

$Z=\frac{\tilde{\rho }_{XY}^{(sp)}}{\sqrt{1-\tilde{\rho }_{XY}^{(sp)2}}}\sqrt{n-2}$,

которая при условии истинности H0 имеет распределение Стьюдента с n–2 степенями свободы: ${{f}_{Z}}(z|{{H}_{0}})\sim T(n-2)$.

Критическая область для статистики критерия выбирается, исходя из вида альтернативной гипотезы.

Пример 2