Математическая статистика

Анализ статистических взаимосвязей

Ранговый коэффициент корреляции по Кендаллу




Пусть (x1, y1),…,(xn, yn) – выборка наблюдений двумерного случайного вектора (X, Y), имеющего распределение FXY(x, y).

Ранговым коэффициентом корреляции по Кендаллу (Maurice Kendall, 1938) называется ранговая статистика, определяемая следующим выражением:

$\tau _{XY}^{{}}=\frac{{{N}^{+}}-{{N}^{-}}}{\frac{1}{2}n(n-1)}$,

(1)

где N+ – число пар наблюдений (xi, yi), (xj, yj), $i>j$, для которых выполнено условие $({{x}_{i}}-{{x}_{j}})({{y}_{i}}-{{y}_{j}})>0$, N – число пар наблюдений (xi, yi), (xj, yj), $i>j$, для которых выполнено условие $({{x}_{i}}-{{x}_{j}})({{y}_{i}}-{{y}_{j}})<0$. Иными словами, N+ – это число наблюдаемых пар, у которых имеется одинаковая тенденция к изменению по обоим признакам: либо при увеличении значения одного увеличивается значение другого, либо при уменьшении значения одного уменьшается значение другого. N – это число наблюдаемых пар с противоположными тенденциями к изменению. Ранговый коэффициент корреляции по Кендаллу также называют «тау Кендалла» (Kendalls tau coefficient).

Отсортируем результаты наблюдений в порядке возрастания значений признака X. Тогда выборкой рангов признака X будет последовательность натуральных чисел 1,2,…,n (если все наблюдения x1,…,xn различны). Соответствующую выборку рангов признака Y обозначим s1,…,sn.

На практике для расчёта выборочного значения рангового коэффициента корреляции по Кендаллу используют формулу:

$\tilde{\tau }_{XY}^{{}}=\frac{4Q}{n(n-1)}-1$,

(2)

где $Q=\sum\limits_{i=1}^{n-1}{{{Q}_{i}}}$,

${{Q}_{i}}=\sum\limits_{j=i+1}^{n}{\left[ {{s}_{j}}>{{s}_{i}} \right]}$ –

(3)

количество рангов в выборке ${{s}_{i+1}},...,{{s}_{n}}$, больших, чем si.

Примечание. Использование формулы (2) даёт верный результат лишь для случая, когда в выборках x1,…,xn и y1,…,yn отсутствуют повторяющиеся элементы. Однако при небольшом их количестве этой погрешностью на практике можно пренебречь.

Свойства и интерпретация рангового коэффициента корреляции по Кендаллу аналогичны свойствам и интерпретации рангового коэффициента корреляции по Спирмену. Так, при функциональной монотонно возрастающей зависимости между случайными величинами X и Y $\tau _{XY}^{{}}=1$, при монотонно убывающей: $\tau _{XY}^{{}}=-1$. Для независимых случайных величин X и Y математическое ожидание $\text{M}\left[ \tau _{XY}^{{}}\right]=0$.

Выборочные значения коэффициента корреляции по Спирмену, как правило, получаются выше (по абсолютной величине) выборочных значений коэффициента корреляции по Кендаллу. Этот эффект связан с большей чувствительностью первого коэффициента к несоответствию в тенденциях изменений значений признаков.

Для проверки значимости рангового коэффициента корреляции по Спирмену сформулируем основную гипотезу:

${{H}_{0}}:\tau _{XY}^{{}}=0$.

В качестве статистики критерия используют статистику

$Z=\tilde{\tau }_{XY}^{{}}\sqrt{\frac{9n(n+1)}{2(2n+5)}}$,

которая при условии истинности H0 и большом объёме выборки (n > 30) аппроксимируется стандартизованным нормальным распределением: ${{f}_{Z}}(z|{{H}_{0}})\sim N(0,\ 1)$.

Критическая область для статистики критерия выбирается, исходя из вида альтернативной гипотезы.

Пример 1