Математическая статистика

Описательная статистика

Выборочные характеристики двумерного случайного вектора


Выборочные характеристики можно ввести и для выборок из многомерных генеральных совокупностей. Пусть (x1, y1),…,(xn, yn) – выборка наблюдений двумерного случайного вектора (X, Y), имеющего распределение FXY(x, y). Пусть выборка содержит k различных пар наблюдений (вариантов) z1,…,zk, ${{z}_{i}}=({{x}_{i}},{{y}_{i}})$, причём вариант zi встречается с частотой ni, $i=\overline{1,k}$.

По аналогии с одномерным случаем введём случайный вектор дискретного типа $(X_{n}^{*},Y_{n}^{*})$, принимающий значения z1,…,zk с вероятностями, равными соответствующим относительным частотам, n1 / n,…, nk / n, т.е. $P\left( (X_{n}^{*}={{x}_{i}})\bigcap (Y_{n}^{*}={{y}_{i}}) \right)={{n}_{i}}/n$, $i=\overline{1,k}$.

Распределение случайного вектора $(X_{n}^{*},Y_{n}^{*})$ называется распределением двумерной выборки. Предварительное представление о распределении выборки можно получить, изображая элементы выборки точками на плоскости координат xOy. Это представление выборки называется диаграммой рассеяния (scatter plot).

Выборочными числовыми характеристиками двумерной выборки (x1, y1),…, (xn, yn) называются числовые характеристики случайного вектора $(X_{n}^{*},Y_{n}^{*})$. К таким характеристикам относятся, например, моменты случайного вектора.

Выборочный смешанный начальный момент порядка (q + r) равен:

$\alpha _{q,r}^{*}=\text{M}\left[ {{(X_{n}^{*})}^{q}}{{(Y_{n}^{*})}^{r}} \right]=\sum\limits_{i=1}^{k}{x_{i}^{q}y_{i}^{r}{{p}_{i}}}$,

(1)

где ${{p}_{i}}=P\left( (X_{n}^{*}={{x}_{i}})\bigcap (Y_{n}^{*}={{y}_{i}}) \right)$, а суммирование проводится по всем вариантам случайного вектора $(X_{n}^{*},Y_{n}^{*})$.

Учитывая, что случайный вектор $(X_{n}^{*},Y_{n}^{*})$ принимает вариант (xi, yi) с вероятностью, равной относительной частоте ni этого наблюдения в выборке, и, представляя произведения $x_{i}^{q}y_{i}^{r}{{n}_{i}}$ как суммы ni одинаковых слагаемых $x_{i}^{q}y_{i}^{r}$, $i=\overline{1,k}$, формула (1) может быть записана в виде:

$\alpha _{q,r}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{x_{i}^{q}y_{i}^{r}}$.

Аналогично, выборочный смешанный центральный момент порядка (q + r) определяется формулой:

$\mu _{q,r}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{({{x}_{i}}-\bar{x})}^{q}}{{({{y}_{i}}-\bar{y})}^{r}}}$.

Наиболее часто используемой числовой характеристикой двумерного вектора является коэффициент корреляции. Напомним, что для случайного вектора дискретного типа (X, Y) коэффициент корреляции rXY определяется следующим образом:

${{r}_{XY}}=\frac{{{k}_{XY}}}{{{\sigma }_{X}}{{\sigma }_{Y}}}$,

(2)

где kXY – ковариационный момент, по определению ${{k}_{XY}}=\mu _{1,1}^{(X,Y)}$.

Учитывая (2), определим выражение для выборочного коэффициента корреляции $\rho _{XY}^{*}$:

$\rho _{XY}^{*}=\frac{k_{XY}^{*}}{\sigma _{X}^{*}\sigma _{Y}^{*}}$,

где $k_{XY}^{*}$ – выборочный ковариационный момент:

$k_{XY}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{({{x}_{i}}-\bar{x})({{y}_{i}}-\bar{y})}$.

Для выборочных ковариационного момента и коэффициента корреляции применимы все тождества, справедливые для ковариационного момента и коэффициента корреляции случайного вектора дискретного типа. В частности, полезное на практике соотношение между выборочным ковариационным моментом и выборочным смешанным начальным моментом второго порядка:

$k_{XY}^{*}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}-\bar{x}\cdot \bar{y}}=\overline{xy}-\bar{x}\cdot \bar{y}$.

(3)

Это равенство следует читать как «выборочный ковариационный момент равен разности между средним произведением и произведением средних».

Пример 1

Двумерная выборка может быть представлена в виде корреляционной таблицы. Корреляционная таблица (табл. 1.4) является аналогом группированного статистического ряда для одномерной выборки.

Для построения корреляционной таблицы отрезок [x(1); x(n)], содержащий все наблюдения случайной величины X, разбивается на l непересекающихся интервалов [α0 = x(1); α1), [α1; α2),…, [αl-1; αl = x(n)], как правило, одинаковой ширины h1. Аналогично отрезок [y(1); y(n)], содержащий все наблюдения случайной величины Y, разбивается на m непересекающихся интервалов [β0 = β(1); β1), [β1; β2),…, [βm-1; βm = y(n)], как правило, одинаковой ширины h2. Правые границы всех интервалов, за исключением последнего, задаются открытыми, чтобы исключить попадание граничных точек в соседний интервал.

Процедуру группировки двумерных выборочных наблюдений можно выполнить непосредственно по диаграмме рассеяния, нанеся на неё сетку горизонтальных и вертикальных прямых, взятых с постоянными шагами h1 и h2 и рассчитав частоты nij попадания выборочных точек в каждый прямоугольник.

${{G}_{ij}}=\{(x,y)|{{\alpha }_{i-1}}\le x<{{\alpha }_{i}};{{\beta }_{j-1}}\le y<{{\beta }_{j}}\}$, $i=\overline{1,l}$, $j=\overline{1,m}$.

Таблица 1.4

Корреляционная таблица

0; β1)

...

j-1; βj)

...

m-1; βm]

0; α1)

n11

...

n1j

...

n1l

...

...

...

...

...

...

i-1; αi)

ni1

...

nij

...

nil

...

...

...

...

...

...

l-1; αl]

nl1

...

nlj

...

nlm

Очевидно, что сумма всех частот в корреляционной таблице равна объёму выборки $\sum\limits_{i}^{l}{\sum\limits_{j}^{m}{{{n}_{ij}}}}=n$.