Математическая статистика
Анализ статистических взаимосвязей
Ранговый коэффициент корреляции по Кендаллу
Пусть (x1, y1),…,(xn, yn) – выборка наблюдений двумерного случайного вектора (X, Y), имеющего распределение FXY(x, y).
Ранговым коэффициентом корреляции по Кендаллу (Maurice Kendall, 1938) называется ранговая статистика, определяемая следующим выражением:
$\tau _{XY}^{{}}=\frac{{{N}^{+}}-{{N}^{-}}}{\frac{1}{2}n(n-1)}$, |
где N+ – число пар наблюдений (xi, yi), (xj, yj), $i>j$, для которых выполнено условие $({{x}_{i}}-{{x}_{j}})({{y}_{i}}-{{y}_{j}})>0$, N– – число пар наблюдений (xi, yi), (xj, yj), $i>j$, для которых выполнено условие $({{x}_{i}}-{{x}_{j}})({{y}_{i}}-{{y}_{j}})<0$. Иными словами, N+ – это число наблюдаемых пар, у которых имеется одинаковая тенденция к изменению по обоим признакам: либо при увеличении значения одного увеличивается значение другого, либо при уменьшении значения одного уменьшается значение другого. N– – это число наблюдаемых пар с противоположными тенденциями к изменению. Ранговый коэффициент корреляции по Кендаллу также называют «тау Кендалла» (Kendall’s tau coefficient).
Отсортируем результаты наблюдений в порядке возрастания значений признака X. Тогда выборкой рангов признака X будет последовательность натуральных чисел 1,2,…,n (если все наблюдения x1,…,xn различны). Соответствующую выборку рангов признака Y обозначим s1,…,sn.
На практике для расчёта выборочного значения рангового коэффициента корреляции по Кендаллу используют формулу:
$\tilde{\tau }_{XY}^{{}}=\frac{4Q}{n(n-1)}-1$, |
где $Q=\sum\limits_{i=1}^{n-1}{{{Q}_{i}}}$,
${{Q}_{i}}=\sum\limits_{j=i+1}^{n}{\left[ {{s}_{j}}>{{s}_{i}} \right]}$ – |
количество рангов в выборке ${{s}_{i+1}},...,{{s}_{n}}$, больших, чем si.
Примечание. Использование формулы (2) даёт верный результат лишь для случая, когда в выборках x1,…,xn и y1,…,yn отсутствуют повторяющиеся элементы. Однако при небольшом их количестве этой погрешностью на практике можно пренебречь.
Свойства и интерпретация рангового коэффициента корреляции по Кендаллу аналогичны свойствам и интерпретации рангового коэффициента корреляции по Спирмену. Так, при функциональной монотонно возрастающей зависимости между случайными величинами X и Y $\tau _{XY}^{{}}=1$, при монотонно убывающей: $\tau _{XY}^{{}}=-1$. Для независимых случайных величин X и Y математическое ожидание $\text{M}\left[ \tau _{XY}^{{}}\right]=0$.
Выборочные значения коэффициента корреляции по Спирмену, как правило, получаются выше (по абсолютной величине) выборочных значений коэффициента корреляции по Кендаллу. Этот эффект связан с большей чувствительностью первого коэффициента к несоответствию в тенденциях изменений значений признаков.
Для проверки значимости рангового коэффициента корреляции по Спирмену сформулируем основную гипотезу:
${{H}_{0}}:\tau _{XY}^{{}}=0$.
В качестве статистики критерия используют статистику
$Z=\tilde{\tau }_{XY}^{{}}\sqrt{\frac{9n(n+1)}{2(2n+5)}}$,
которая при условии истинности H0 и большом объёме выборки (n > 30) аппроксимируется стандартизованным нормальным распределением: ${{f}_{Z}}(z|{{H}_{0}})\sim N(0,\ 1)$.
Критическая область для статистики критерия выбирается, исходя из вида альтернативной гипотезы.