Математическая статистика

Интервальные оценки

Интервальная оценка вероятности «успеха» в схеме Бернулли


Пусть проводится серия из n испытаний по схеме Бернулли, и Xi, $i=\overline{1,n}$, – исход i-го испытания (Xi = 1, если «успех», и Xi = 0, если «отказ»). По данным случайной выборки X1,…,Xn построим доверительный интервал для вероятности p успеха в каждом отдельном испытании.

Рассмотрим число «успехов» в серии из n испытаний, т.е. введём случайную величину

$K={{X}_{1}}+...+{{X}_{n}}$,

которая имеет биномиальное распределение $K\sim{\ }B(n,p)$. Математическое ожидание ${{m}_{K}}=np$ и дисперсия ${{d}_{K}}=np(1-p)$.

В соответствии с предельной теоремой Муавра-Лапласа при больших объёмах n случайной выборки статистика K имеет закон распределения, близкий к нормальному: $K\sim{\ }N\left( np,\sqrt{np(1-p)} \right)$.

Для построения доверительного интервала введём центральную статистику:

$U=\frac{K-np}{\sqrt{np(1-p)}}$.

Статистика представляет собой стандартизованное число «успехов» в серии из n испытаний и при больших n имеет распределение, близкое к N(0, 1).

Запишем тождество (1*) для статистики U:

$P\left( {{u}_{\alpha /2}}<\frac{K-np}{\sqrt{np(1-p)}}<{{u}_{1-\alpha /2}} \right)=1-\alpha $,

где ${{u}_{\alpha /2}}$ и ${{u}_{1-\alpha /2}}$ – квантили стандартизованного нормального распределения на уровнях α/2 и 1­–α/2 соответственно. Преобразуя неравенство под знаком вероятности, запишем:

$P\left( \frac{K}{n}-{{u}_{1-\alpha /2}}\sqrt{\frac{p(1-p)}{n}}<p<\frac{K}{n}+{{u}_{1-\alpha /2}}\sqrt{\frac{p(1-p)}{n}} \right)=1-\alpha $.

Это выражение ещё не даёт интервальной оценки параметра p, так как левая и правая части неравенства под знаком вероятности содержат этот параметр. На практике в указанные части неравенства подставляют вместо неизвестного точного значения p его эффективную оценку $H=\frac{K}{n}$. В результате получают следующий интервал для вероятности p:

$\left( H-{{u}_{1-\alpha /2}}\sqrt{\frac{H(1-H)}{n}};H+{{u}_{1-\alpha /2}}\sqrt{\frac{H(1-H)}{n}} \right)$,

являющийся доверительным на уровне значимости α.

Указанные границы доверительного интервала являются приближёнными и могут использоваться лишь при достаточно больших объёмах наблюдений n.

Пример 1

Пусть теперь проводятся две серии испытаний по схеме Бернулли, и требуется построить доверительный интервал для разности вероятностей «успехов» p1 и p2 в этих сериях. Случайные величины ${{K}_{1}}={{X}_{1}}+...+{{X}_{{{n}_{1}}}}$ и ${{K}_{2}}={{Y}_{1}}+...+{{Y}_{{{n}_{2}}}}$, означающие число «успехов» в первой и второй сериях соответственно, имеют биномиальные распределения ${{K}_{1}}\sim{\ }B({{n}_{1}},{{p}_{1}})$, ${{K}_{2}}\sim{\ }B({{n}_{2}},{{p}_{2}})$, где n1 и n2 – число испытаний в сериях.

В соответствии с предельной теоремой Муавра-Лапласа при больших объёмах n1 и n2 случайных выборок статистики K1 и K2 имеют законы распределения, близкие к нормальному: ${{K}_{1}}\sim{\ }N\left({{n}_{1}}{{p}_{1}},\sqrt{{{n}_{1}}{{p}_{1}}(1-{{p}_{1}})} \right)$, ${{K}_{2}}\sim{\ }N\left( {{n}_{2}}{{p}_{2}},\sqrt{{{n}_{2}}{{p}_{2}}(1-{{p}_{2}})}\right)$. Перейдём от числа «успехов» K1 и K2 к относительным частотам «успехов» H1 и H2:

${{H}_{1}}=\frac{{{K}_{1}}}{{{n}_{1}}}\sim{\ }N\left( {{p}_{1}},\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}} \right)$ ,

${{H}_{2}}=\frac{{{K}_{2}}}{{{n}_{2}}}\sim{\ }N\left( {{p}_{2}},\sqrt{\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}} \right)$ .

В силу композиционной устойчивости нормального распределения, разность относительных частот $H={{H}_{1}}-{{H}_{2}}$ также будет иметь нормальное распределение:

$H\sim{\ }N\left( {{p}_{1}}-{{p}_{2}},\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}} \right)$.

Для построения доверительного интервала введём центральную статистику:

$U=\frac{H-\left( {{p}_{1}}-{{p}_{2}} \right)}{\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}}}$.

Статистика представляет собой стандартизованную разность числа «успехов» в двух сериях испытаний и при больших n1 и n2 имеет распределение, близкое к N(0, 1).

Запишем тождество (1*) для статистики U:

$P\left( {{u}_{\alpha /2}}<\frac{H-\left( {{p}_{1}}-{{p}_{2}}\right)}{\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}}}<{{u}_{1-\alpha /2}} \right)=1-\alpha $,

где ${{u}_{\alpha /2}}$ и ${{u}_{1-\alpha /2}}$ – квантили стандартизованного нормального распределения на уровнях α/2 и 1­–α/2 соответственно. Преобразуя неравенство под знаком вероятности, запишем:

$P\left( H-{{u}_{1-\alpha /2}}\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}}<{{p}_{1}}-{{p}_{2}}<\right.$

$<\left. H+{{u}_{1-\alpha/2}}\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}} \right)=1-\alpha$.

Это выражение ещё не даёт интервальной оценки разности вероятностей p1p2, так как левая и правая части неравенства под знаком вероятности содержат эти параметры. На практике в указанные части неравенства подставляют вместо неизвестных точных значений p1 и p2 их эффективные оценки ${{H}_{1}}=\frac{{{K}_{1}}}{{{n}_{1}}}$ и ${{H}_{2}}=\frac{{{K}_{2}}}{{{n}_{2}}}$. В результате получают следующий интервал для разности вероятностей p1p 2:

$\left( {{H}_{1}}-{{H}_{2}}-{{u}_{1-\alpha /2}}\sqrt{\frac{{{H}_{1}}(1-{{H}_{1}})}{{{n}_{1}}}+\frac{{{H}_{2}}(1-{{H}_{2}})}{{{n}_{2}}}}; \right.$

$\left. {{H}_{1}}-{{H}_{2}}+{{u}_{1-\alpha/2}}\sqrt{\frac{{{H}_{1}}(1-{{H}_{1}})}{{{n}_{1}}}+\frac{{{H}_{2}}(1-{{H}_{2}})}{{{n}_{2}}}} \right)$,

являющийся доверительным на уровне значимости α.

Указанные границы доверительного интервала являются приближёнными и могут использоваться лишь при достаточно больших объёмах наблюдений n1 и n2.