Математическая статистика
Описательная статистика
Способы представления выборки
Результаты наблюдений x1,…,xn генеральной совокупности X, записанные в порядке их регистрации, обычно труднообозримы и неудобны для дальнейшего анализа. Одной из задач описательной статистики является получение такого представления выборки, которое позволит выявить характерные особенности совокупности исходных данных.
Одним из самых простых преобразований статистических данных является их упорядочивание по величине. Вариационным рядом выборки x1,…,xn называется способ её записи, при котором элементы упорядочиваются по возрастанию, т.е. вариационный ряд выборки – это последовательность чисел
${{x}_{(1)}},...,{{x}_{(i)}},...,{{x}_{(n)}}$,
удовлетворяющих условию ${{x}_{(1)}}\le ...\le {{x}_{(i)}}\le ...\le {{x}_{(n)}}$.
Вариационный ряд ${{x}_{(1)}},...,{{x}_{(i)}},...,{{x}_{(n)}}$ выборки x1,…,xn можно рассматривать как реализацию вариационного ряда ${{X}_{(1)}},...,{{X}_{(i)}},...,{{X}_{(n)}}$ случайной выборки X1,…,Xn. Случайную величину X(i) называют i-й порядковой статистикой (ith order statistic). Число x(i) называют i-м членом вариационного ряда, или реализацией i-й порядковой статистики. Крайние члены X(1) и X (n) вариационного ряда называются экстремальными порядковыми статистиками. Для любой выборки реализации экстремальных порядковых статистик – это её минимальное и максимальное значения.
Можно показать, что функции распределения экстремальных порядковых статистик имеют вид:
$P({{X}_{(1)}}<x)=1-{{\left( 1-{{F}_{X}}(x) \right)}^{n}}$, |
$P({{X}_{(n)}}<x)=F_{X}^{n}(x)$. |
Эти соотношения позволяют оценить неизвестную функцию распределения FX(x) генеральной совокупности X, имея в эксперименте лишь минимальные и максимальные значения выборок.
Разность между максимальным и минимальным элементами выборки x(n) – x(1) называется размахом выборки (range of a sample).
Различные значения случайной величины X называются вариантами.
Пусть выборка x1,…, xn случайной величины X содержит k вариантов z1,…,zk, причём вариант zi встречается ni раз (i = 1,…,k). Число ni называется частотой варианта zi. Очевидно, что сумма частот всех вариантов равна объёму выборки, $\sum\limits_{i=1}^{k}{{{n}_{i}}=n}$.
Статистическим рядом называется последовательность пар (zi, ni), i = 1,…,k. Обычно статистический ряд записывается в виде таблицы, первая строка которой содержит варианты zi, а вторая – частоты ni (табл. 1.1), при этом варианты записываются в порядке возрастания.
Таблица 1.1
Статистический ряд выборки
Варианты, zi |
z1 |
... |
zi |
... |
zk |
Частоты, ni |
n1 |
... |
ni |
... |
nk |
В частном случае, если все элементы выборки различны, то k = n, а частоты всех вариантов равны единице.
При большом числе вариантов (например, при наблюдении случайной величины непрерывного типа с высокой точностью измерений) выборка может быть представлена в виде группированного статистического ряда. Для этого отрезок [x(1); x(n)], содержащий все элементы выборки, разбивается на k непересекающихся интервалов J1 = [α0 = x(1); α1), J2 = [α1; α2),…, Jk = [αk-1; αk = x(n)], как правило, одинаковой ширины h. Правые границы всех интервалов, за исключением последнего, задаются открытыми, чтобы исключить попадание граничных точек в соседний интервал.
Число интервалов k выбирают, как правило, в зависимости от объёма выборки. Для ориентировочной оценки числа k можно воспользоваться формулой Стерджесса (Herbert Sturges, 1926):
$k\approx [1+{{\log }_{2}}n]$,
где оператор $[\cdot]$ означает взятие целой части.
Например, при n = 100 оценка числа интервалов по формуле Стерджесса даёт k ≈ 7, при n = 1000: k ≈ 10.
Ширина группировочных интервалов и число групп связаны формулой
$h=\frac{{{x}_{(n)}}-{{x}_{(1)}}}{k}$. |
Более теоретически обоснованный подход к выбору ширины группировочных интервалов дают формула Скотта (David Scott, 1979):
$h\approx 3.5s{{n}^{-1/3}}$,
и формула Фридмана (David Freedman, 1981):
$h\approx 2\Delta {{n}^{-1/3}}$,
где s – среднеквадратичное отклонение выборки, Δ – интерквартильный размах выборки. Число группировочных интервалов k определяется из (3).
В случае если распределение генеральной совокупности существенно отличается от нормального, число интервалов может быть увеличено. С уменьшением числа интервалов k происходит потеря статистической информации, содержащейся в исходной выборке.
Группированным статистическим рядом называется последовательность пар (Ji, ni), i = 1,…,k. Группированный статистический ряд записывается в виде таблицы, первая строка которой содержит интервалы Ji, а вторая – частоты ni. Иногда в группированном статистическом ряде в первой строке таблицы вместо интервалов J1,…,Jk записывают середины интервалов c1,…,ck, где ${{c}_{i}}=({{\alpha }_{i-1}}+{{\alpha }_{i}})/2$ – середина i-го интервала.
Наряду с частотами ni, i = 1,…,k, попадания выборочных значений в группировочные интервалы рассматриваются также:
– относительные частоты ni / n;
– накопленные (cumulative) частоты ${{m}_{i}}=\sum\limits_{j=1}^{i}{{{n}_{j}}}$;
– относительные накопленные частоты mi / n.
Полученные результаты сводятся в таблицу, называемую таблицей частот группированной выборки (табл. 1.2).
Таблица 1.2
Таблица частот группированной выборки
Номер интервала, i |
Границы интервала |
Середина интервала, ci |
Частота, ni |
Накопленная частота, mi |
Относительная частота, ni / n |
Накопленная относительная частота, mi / n |
1 |
[α0; α1) |
c1 |
n1 |
m1 |
n1/n |
m1/n |
... |
... |
... |
... |
... |
... |
... |
k |
[αk-1; αk] |
ck |
nk |
mk = n |
nk/n |
mk/n = 1 |
Визуально таблица частот может быть представлена с помощью гистограмм и полигонов частот. Выделяют 4 типа гистограмм (полигонов) частот:
1) гистограмма (полигон) абсолютных частот;
2) гистограмма (полигон) относительных частот;
3) гистограмма (полигон) накопленных частот;
4) гистограмма (полигон) относительных накопленных частот.
Гистограмма частот представляет собой кусочно-постоянную функцию, принимающую постоянные значения внутри интервалов группировки. В зависимости от типа гистограммы это значение может быть абсолютной частотой, относительной частотой, накопленной частотой или относительной накопленной частотой.
Полигоны абсолютных и относительных частот строятся следующим образом: если построена соответствующая гистограмма частот, то ординаты, соответствующие средним точкам интервалов, последовательно соединяются отрезками прямых.
Полигоны накопленных частот и относительных накопленных частот строятся так: если построена соответствующая гистограмма частот, то ординаты, соответствующие правым точкам интервалов, последовательно соединяются отрезками прямых.