Математическая статистика

Проверка статистических гипотез

Основные понятия и определения


Пример 1

При исследовании качества выпускаемой предприятием продукции проведено обследование 100 случайно отобранных изделий. Оказалось, что 6 из них имеют брак. Пусть случайная величина X – число бракованных изделий в партии из 1000 изделий, выпущенных тем же предприятием. Относительно случайной величины X могут быть сформулированы, например, следующие предположения.

1) Случайная величина X имеет биномиальное распределение B(1000; 0,06).

2) Случайная величина X имеет биномиальное распределение B(1000, p), где 0,04 < p < 0,08.

3) Математическое ожидание случайной величины X равно 70.

4) Дисперсия случайной величины X не более 2,3.

5) Вероятность того, что во всей партии будет более 80 бракованных изделий, не превосходит 90%.

6) Вероятность того, что во всей партии будет равно 60 бракованных изделий, не менее 95%.

Определить, какие из сформулированных гипотез являются статистическими, какие статистические гипотезы являются простыми, а какие сложными?

Решение

Запишем эти гипотезы формально.

1) ${{H}_{0}}:X\sim{\ }B(1000;0,6)$.

2) ${{H}_{0}}:X\sim{\ }B(1000;p),\ \ \ 0,04\le p\le 0,08$.

3) ${{H}_{0}}:{{m}_{X}}=70$.

4) ${{H}_{0}}:{{d}_{X}}\le 2,3$.

5) ${{H}_{0}}:P(X>80)\le 0,9$.

6) ${{H}_{0}}:P(X=60)\ge 0,95$.

Все приведённые гипотезы являются параметрическими, поскольку распределение случайной величины X известно априорно из условий эксперимента, а все гипотезы связаны так или иначе с неизвестным параметром p биномиального распределения. Гипотезы 1) и 3) являются простыми, поскольку содержат утверждения, однозначно определяющие значение оцениваемого параметра.



Пример 2

Исследуется качество производства элемента интегральной микросхемы на двух технологических линиях. Мерой качества производства является дисперсия размера элементов. Результаты выборочного наблюдения размеров выпущенных интегральных микросхем на двух технологических линиях приведены в Примере 2*. Пусть случайные величины X1 и X2 – размеры элементов микросхем на первой и второй линиях соответственно. Относительно этих случайных величин могут быть сформулированы, например, следующие предположения.

1) Размер элементов микросхем, произведённых на первой линии, является нормально распределённой случайной величиной.

2) Размер элементов микросхем, произведённых на второй линии, распределён по закону N(0,25; 0,05).

3) Математические ожидания размеров элементов микросхем, произведённых на первой и второй линиях, равны.

4) Качество производства элементов микросхем на второй линии выше, чем на первой.

Определить, какие из сформулированных гипотез являются статистическими, какие статистические гипотезы являются простыми, а какие сложными?

Решение

Запишем эти гипотезы формально.

1) ${{H}_{0}}:{{X}_{1}}\sim{\ }N({{m}_{1}},{{\sigma }_{1}})$.

2) ${{H}_{0}}:{{X}_{2}}\sim{\ }N(0,25;0,05)$.

3) ${{H}_{0}}:{{m}_{1}}={{m}_{2}}$.

4) ${{H}_{0}}:\sigma _{1}^{2}>\sigma _{2}^{2}$.

Здесь гипотезы 3) и 4) являются параметрическими, 1) и 2) – непараметрическими. Гипотезы 2) и 3) – простые, 1) и 4) – сложные.



Пример 3

Наблюдаемый объект может быть либо своим, либо объектом противника. Система обнаружения относит объект к одному из классов по результатам нескольких замеров определённых характеристик. Основная гипотеза H0: объект свой; альтернативная гипотеза H’: объект чужой. В чём состоят ошибки первого и второго рода?

Решение

Результат замера определённой характеристики объекта является случайной величиной вследствие погрешности измерительного прибора, влияния на результат измерения внешних случайных факторов или вследствие иных причин. Однако, вывод о том, является ли объект своим или чужим, должен проводиться на основе истинных значений этих характеристик. Для этой цели выдвигается статистическая гипотеза.

Ошибка первого рода возникнет, если в результате проверки статистического критерия будет принято решение о том, что характеристики объекта соответствуют своему объекту, в то время как на самом деле объект является объектом противника («пропущен чужой»).

Ошибка второго рода возникнет, если в результате проверки статистического критерия будет принято решение о том, что характеристики объекта соответствуют объекту противника, в то время как на самом деле объект является своим («уничтожен свой»).



Пример 4

Технология производства элемента интегральной микросхемы удовлетворяет производственным нормам, если вероятность брака в элементе не более 0,01. Соответствие производственным нормам проводится на основе выборочного наблюдения 1000 элементов. Если не более, чем 15 элементов, имеют брак, то считается, что производственные нормы соблюдены. В противном случае делается вывод о несоответствии технологии производства нормам.

Пусть p – вероятность брака в элементе интегральной микросхемы. Сформулируем основную и альтернативную гипотезы:

$H_0:p\le 0,01,$
$H':p>0,01.$

Ответить на следующие вопросы.

1) Какая статистика критерия используется в данной задаче, каковы её распределение и область значений?

2) Какое решающее правило для проверки основной гипотезы используется в данной задаче. Какова область допустимых значений и критическая область?

3) В чём состоят ошибки первого и второго рода?

Решение

По условию задачи статистическое решение принимается на основе значения случайной величины Z – числа бракованных элементов в серии из 1000. Таким образом, случайная величина Z является статистикой критерия. Очевидно, что $Z\sim{\ }B(1000,p)$. Возможные значения статистики Z: 0, 1, …, 1000.

Решающее правило: если z ≤ 15, то H0 принимается, если z > 15, то H0 отвергается. Таким образом, область допустимых значений ${{\Omega }_{0}}=\{0,...,15\}$, критическая область $\Omega '=\{16,...,1000\}$.

Ошибка первого рода возникнет, если число бракованных элементов в выборке из 1000 будет более 15 (гипотеза H0 будет отвергнута), при этом вероятность брака в отдельном элементе p ≤ 0,01, т.е. будет принято решение о несоответствии производственным нормам, в то время как на самом деле соответствие есть.

Ошибка второго рода возникнет, если число бракованных элементов в выборке из 1000 будет не более 15 (гипотеза H0 будет принята), при этом вероятность брака в отдельном элементе p > 0,01, т.е. будет принято решение о соответствии производственным нормам, в то время как на самом деле соответствия нет.



Пример 5

В условиях Примера 4 выдвигаются следующие основная и альтернативная гипотезы относительно вероятности p брака в элементе интегральной микросхемы:

$ {{H}_{0}}:p=0,01, $
$H':p>0,01.$

Построить функцию мощности статистического критерия: если выборочное значение z статистики критерия Z – числа бракованных изделий из n = 1000 – не более 15, то H0 принимается, если z > 15, то H0 отвергается.

Решение

Запишем выражение для вероятности β ошибки второго рода при условии, что вероятность p = p1, где $p_1 \in (0;\infty)$:

$\beta ({{p}_{1}})=P(Z\in {{\Omega }_{0}}|p={{p}_{1}})$.

Статистика критерия Z при условии, что p = p1 имеет биномиальное распределение B(1000, p1). Согласно теореме Муавра-Лапласа, при больших n биномиальное распределение может быть аппроксимировано нормальным:

$Z\sim{\ }N({{m}_{Z}},{{\sigma }_{Z}})$,

где ${{m}_{Z}}({{p}_{1}})=n{{p}_{1}}$ и ${{\sigma }_{Z}}({{p}_{1}})=n{{p}_{1}}(1-{{p}_{1}})$.

Учитывая, что область допустимых значений статистики критерия ${{\Omega }_{0}}=\{0,...,15\}$, запишем

$\beta ({{p}_{1}})=P(0\le Z\le 15|p={{p}_{1}})=P(0\le {{\sigma }_{Z}}({{p}_{1}})U+{{m}_{Z}}({{p}_{1}})\le 15)=P\left( -\frac{{{m}_{Z}}({{p}_{1}})}{{{\sigma }_{Z}}({{p}_{1}})}\le U\le \frac{15-{{m}_{Z}}({{p}_{1}})}{{{\sigma }_{Z}}({{p}_{1}})} \right)=P\left( -\frac{1}{1-{{p}_{1}}}\le U\le \frac{15-n{{p}_{1}}}{n{{p}_{1}}(1-{{p}_{1}})} \right)=\Phi \left( \frac{15-n{{p}_{1}}}{n{{p}_{1}}(1-{{p}_{1}})} \right)-\Phi \left( -\frac{1}{1-{{p}_{1}}} \right),$

где $ U \sim N(0,1)$ – стандартизованная нормально распределённая случайная величина, а Ф – функция Лапласа. Вычисляя с помощью таблиц математической статистики вероятность β(p1) для нескольких значений p1, строим функцию мощности критерия $\mu ({{p}_{1}})=1-\beta ({{p}_{1}})$ поточечно.

Вероятность ошибки первого рода: $ \alpha =P(Z\in \Omega '|{{H}_{0}})=P(Z>15|p=0,01)=1-\beta (0,01)=\mu (0,01)\approx 0,46.$

Экспериментальное исследование