Математическая статистика
Интервальные оценки
Интервальная оценка вероятности «успеха» в схеме Бернулли
Пусть проводится серия из n испытаний по схеме Бернулли, и Xi, $i=\overline{1,n}$, – исход i-го испытания (Xi = 1, если «успех», и Xi = 0, если «отказ»). По данным случайной выборки X1,…,Xn построим доверительный интервал для вероятности p успеха в каждом отдельном испытании.
Рассмотрим число «успехов» в серии из n испытаний, т.е. введём случайную величину
$K={{X}_{1}}+...+{{X}_{n}}$,
которая имеет биномиальное распределение $K\sim{\ }B(n,p)$. Математическое ожидание ${{m}_{K}}=np$ и дисперсия ${{d}_{K}}=np(1-p)$.
В соответствии с предельной теоремой Муавра-Лапласа при больших объёмах n случайной выборки статистика K имеет закон распределения, близкий к нормальному: $K\sim{\ }N\left( np,\sqrt{np(1-p)} \right)$.
Для построения доверительного интервала введём центральную статистику:
$U=\frac{K-np}{\sqrt{np(1-p)}}$.
Статистика представляет собой стандартизованное число «успехов» в серии из n испытаний и при больших n имеет распределение, близкое к N(0, 1).
Запишем тождество (1*) для статистики U:
$P\left( {{u}_{\alpha /2}}<\frac{K-np}{\sqrt{np(1-p)}}<{{u}_{1-\alpha /2}} \right)=1-\alpha $,
где ${{u}_{\alpha /2}}$ и ${{u}_{1-\alpha /2}}$ – квантили стандартизованного нормального распределения на уровнях α/2 и 1–α/2 соответственно. Преобразуя неравенство под знаком вероятности, запишем:
$P\left( \frac{K}{n}-{{u}_{1-\alpha /2}}\sqrt{\frac{p(1-p)}{n}}<p<\frac{K}{n}+{{u}_{1-\alpha /2}}\sqrt{\frac{p(1-p)}{n}} \right)=1-\alpha $.
Это выражение ещё не даёт интервальной оценки параметра p, так как левая и правая части неравенства под знаком вероятности содержат этот параметр. На практике в указанные части неравенства подставляют вместо неизвестного точного значения p его эффективную оценку $H=\frac{K}{n}$. В результате получают следующий интервал для вероятности p:
$\left( H-{{u}_{1-\alpha /2}}\sqrt{\frac{H(1-H)}{n}};H+{{u}_{1-\alpha /2}}\sqrt{\frac{H(1-H)}{n}} \right)$,
являющийся доверительным на уровне значимости α.
Указанные границы доверительного интервала являются приближёнными и могут использоваться лишь при достаточно больших объёмах наблюдений n.
Пусть теперь проводятся две серии испытаний по схеме Бернулли, и требуется построить доверительный интервал для разности вероятностей «успехов» p1 и p2 в этих сериях. Случайные величины ${{K}_{1}}={{X}_{1}}+...+{{X}_{{{n}_{1}}}}$ и ${{K}_{2}}={{Y}_{1}}+...+{{Y}_{{{n}_{2}}}}$, означающие число «успехов» в первой и второй сериях соответственно, имеют биномиальные распределения ${{K}_{1}}\sim{\ }B({{n}_{1}},{{p}_{1}})$, ${{K}_{2}}\sim{\ }B({{n}_{2}},{{p}_{2}})$, где n1 и n2 – число испытаний в сериях.
В соответствии с предельной теоремой Муавра-Лапласа при больших объёмах n1 и n2 случайных выборок статистики K1 и K2 имеют законы распределения, близкие к нормальному: ${{K}_{1}}\sim{\ }N\left({{n}_{1}}{{p}_{1}},\sqrt{{{n}_{1}}{{p}_{1}}(1-{{p}_{1}})} \right)$, ${{K}_{2}}\sim{\ }N\left( {{n}_{2}}{{p}_{2}},\sqrt{{{n}_{2}}{{p}_{2}}(1-{{p}_{2}})}\right)$. Перейдём от числа «успехов» K1 и K2 к относительным частотам «успехов» H1 и H2:
${{H}_{1}}=\frac{{{K}_{1}}}{{{n}_{1}}}\sim{\ }N\left( {{p}_{1}},\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}} \right)$ ,
${{H}_{2}}=\frac{{{K}_{2}}}{{{n}_{2}}}\sim{\ }N\left( {{p}_{2}},\sqrt{\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}} \right)$ .
В силу композиционной устойчивости нормального распределения, разность относительных частот $H={{H}_{1}}-{{H}_{2}}$ также будет иметь нормальное распределение:
$H\sim{\ }N\left( {{p}_{1}}-{{p}_{2}},\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}} \right)$.
Для построения доверительного интервала введём центральную статистику:
$U=\frac{H-\left( {{p}_{1}}-{{p}_{2}} \right)}{\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}}}$.
Статистика представляет собой стандартизованную разность числа «успехов» в двух сериях испытаний и при больших n1 и n2 имеет распределение, близкое к N(0, 1).
Запишем тождество (1*) для статистики U:
$P\left( {{u}_{\alpha /2}}<\frac{H-\left( {{p}_{1}}-{{p}_{2}}\right)}{\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}}}<{{u}_{1-\alpha /2}} \right)=1-\alpha $,
где ${{u}_{\alpha /2}}$ и ${{u}_{1-\alpha /2}}$ – квантили стандартизованного нормального распределения на уровнях α/2 и 1–α/2 соответственно. Преобразуя неравенство под знаком вероятности, запишем:
$P\left( H-{{u}_{1-\alpha /2}}\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}}<{{p}_{1}}-{{p}_{2}}<\right.$
$<\left. H+{{u}_{1-\alpha/2}}\sqrt{\frac{{{p}_{1}}(1-{{p}_{1}})}{{{n}_{1}}}+\frac{{{p}_{2}}(1-{{p}_{2}})}{{{n}_{2}}}} \right)=1-\alpha$.
Это выражение ещё не даёт интервальной оценки разности вероятностей p1 – p2, так как левая и правая части неравенства под знаком вероятности содержат эти параметры. На практике в указанные части неравенства подставляют вместо неизвестных точных значений p1 и p2 их эффективные оценки ${{H}_{1}}=\frac{{{K}_{1}}}{{{n}_{1}}}$ и ${{H}_{2}}=\frac{{{K}_{2}}}{{{n}_{2}}}$. В результате получают следующий интервал для разности вероятностей p1 – p 2:
$\left( {{H}_{1}}-{{H}_{2}}-{{u}_{1-\alpha /2}}\sqrt{\frac{{{H}_{1}}(1-{{H}_{1}})}{{{n}_{1}}}+\frac{{{H}_{2}}(1-{{H}_{2}})}{{{n}_{2}}}}; \right.$
$\left. {{H}_{1}}-{{H}_{2}}+{{u}_{1-\alpha/2}}\sqrt{\frac{{{H}_{1}}(1-{{H}_{1}})}{{{n}_{1}}}+\frac{{{H}_{2}}(1-{{H}_{2}})}{{{n}_{2}}}} \right)$,
являющийся доверительным на уровне значимости α.
Указанные границы доверительного интервала являются приближёнными и могут использоваться лишь при достаточно больших объёмах наблюдений n1 и n2.