Закон больших чисел и предельные теоремы

Вполне естественна потребность количественно уточнить утверждение о том, что в «больших» сериях испытаний частоты появления события «близки» к его вероятности. Следует ясно представить себе известную деликатность этой задачи. В наиболее типичных для теории вероятностей случаях дело обстоит так, что в сколь угодно длинных сериях испытаний остаются теоретически возможными оба крайних значения частоты

\frac{\mu}{n}=\frac{n}{n}=1 и \frac{\mu}{n}=\frac{0}{n}=0

Поэтому, каково бы ни было число испытаний n , нельзя утверждать с полной достоверностью, что будет выполнено, скажем, неравенство

<\frac{1}{10}

Например, если событие A заключается в выпадении при бросании игральной кости шестерки, то при n бросаниях с вероятностью {\left(\frac{1}{6}\right)\!}^n>0 мы все время будем получать одни шестерки, т. е. с вероятностью {\left(\frac{1}{6}\right)\!}^n получим частоту появления шестерок, равную единице, а с вероятностью {\left(1-\frac{1}{6}\right)\!}^n>0 шестерка не выпадает ни одного раза, т. е. частота появления шестерок окажется равной нулю.

Во всех подобных задачах любая нетривиальная оценка близости между частотой и вероятностью действует не с полной достоверностью, а лишь с некоторой меньшей единицы вероятностью. Можно, например, доказать, что в случае независимых испытаний с постоянной вероятностью p появления события неравенство

\vline\,\frac{\mu}{n}-p\,\vline\,<0,\!02

для частоты \frac{\mu}{n} будет выполняться при n=10\,000 (и любом p ) с вероятностью

P>0,\!9999.

Здесь мы прежде всего хотим подчеркнуть, что в приведенной формулировке количественная оценка близости частоты \frac{\mu}{n} к вероятности p связана с введением новой вероятности P .

Реальный смысл оценки (8) таков: если произвести N серий по n испытаний и сосчитать число M серий, в которых выполняется неравенство (7), то при достаточно большом N приближенно будет

\frac{M}{N}\approx P>0,\!9999.

Но если мы захотим уточнить соотношение (9) как в отношении степени близости \frac{M}{N} к вероятности P , так и в отношении надежности, с которой можно утверждать, что такая близость будет иметь место, то придется обратиться к рассмотрениям, аналогичным тем, которые мы уже провели в применении к близости \frac{\mu}{n} и p . При желании такое рассуждение можно повторять неограниченное число раз, но вполне понятно, что это не позволит нам совсем освободиться от необходимости на последнем этапе обратиться к вероятностям в примитивном грубом понимании этого термина.

Не следует думать, что подобного рода затруднения являются какой-то особенностью теории вероятностей. При математическом изучении реальных явлений мы всегда их схематизируем. Отклонения хода действительных явлений от теоретической схемы можно, в свою очередь, подвергнуть математическому изучению. Но для этого сами эти отклонения надо уложить в некоторую схему и этой последней пользоваться уже без формального математического анализа отклонений от нее.

Заметим, впрочем, что при реальном применении оценки

P\!\left\{\,\vline\,\frac{\mu}{n}-p\,\vline\,<0,\!02\right\}>0,\!9999.


к единичной серии из n испытаний мы опираемся и на некоторые соображения симметрии: неравенство (10) указывает, что при очень большом числе N серий соотношение (7) будет выполняться не менее чем в 99,99% случаев; естественно с большой уверенностью ожидать, что, в частности, неравенство (7) осуществится в интересующей нас определенной серии из n испытаний, если мы имеем основания считать, что эта серия в ряду других серий занимает рядовое, ничем особенным не отмеченное положение.

Вероятности, которыми принято пренебрегать в различных практических положениях, различны. Выше уже отмечалось, что при ориентировочных расчетах расхода снарядов, гарантирующего выполнение поставленной задачи, удовлетворяются нормой расхода снарядов, при которой поставленная задача решается с вероятностью 0,95, т. е. пренебрегают вероятностями, не превышающими 0,05. Это объясняется тем, что переход на расчеты, исходящие из пренебрежения, скажем, лишь вероятностями, меньшими 0,01, приводил бы к большому увеличению норм расхода снарядов, т. е. практически во многих случаях к выводу о невозможности выполнить поставленную задачу за тот короткий промежуток времени, который для этого имеется, или с фактически могущим быть использованным запасом снарядов.

Иногда и в научных исследованиях ограничиваются статистическими приемами, рассчитанными исходя из пренебрежения вероятностями в 0,05. Но это следует делать лишь в случаях, когда собирание более обширного материала очень затруднительно. Рассмотрим в виде примера таких приемов следующую задачу. Допустим, что в определенных условиях употребительный препарат для лечения какого-либо заболевания дает положительный результат в 50%, т. е. с вероятностью 0,5. Предлагается новый препарат и для проверки его преимуществ над старым планируется применить его в десяти случаях, выбранных беспристрастно из числа больных, находящихся в том же положении, что и те, для которых установлена эффективность старого препарата в 50%. При этом устанавливается, что преимущество нового препарата будет считаться доказанным, если он даст положительный результат не менее чем в восьми случаях из десяти. Легко подсчитать, что такое решение связано с пренебрежением вероятностью получить ошибочный вывод (т. е. вывод о доказанности преимущества нового препарата, в то время как он равноценен или даже хуже старого) как раз порядка 0,05. В самом деле, если в каждом из десяти испытаний вероятность положительного исхода равна p , то вероятности получить при десяти испытаниях 10,9 или 8 положительных исходов, равны соответственно

P_{10}=p^{10},\qquad P_9=10p^9(1-p),\qquad P_8=45p^8(1-p)^2.

В сумме для случая p=\frac{1}{2} получаем P=P_{10}+P_9+P_8=\frac{56}{1024}\approx0,\!05 .

Таким образом, в предположении, что на самом деле новый препарат точно равноценен старому, мы рискуем сделать ошибочный вывод о том, что новый препарат превосходит старый, с вероятностью порядка 0,05. Чтобы свести эту вероятность приблизительно к 0,01, не увеличивая числа испытаний n=10 , пришлось бы установить, что преимущество нового препарата будет считаться доказанным лишь тогда, когда его применение даст положительный результат не менее чем в девяти случаях из десяти. Если это требование покажется сторонникам нового препарата слишком суровым, то придется назначить число испытаний n значительно большим, чем 10. Если, например, при n=100 установить, что преимущества нового препарата будут считаться доказанными при \mu>65 , то вероятность ошибки будет лишь P\approx0,\!0015 .

Если норма в 0,05 для серьезных научных исследований явно недостаточна, то вероятностью ошибки в 0,001 или в 0,003 по большей части принято пренебрегать даже в столь академических и обстоятельных исследованиях, как обработка астрономических наблюдений. Впрочем, иногда научные выводы, основанные на применении вероятностных закономерностей, обладают и значительно большей достоверностью (т. е. построены на пренебрежении значительно меньшими вероятностями). Об этом еще будет сказано далее.

В рассмотренных примерах мы уже неоднократно применяли частные случаи биномиальной формулы (6)

P_m=C_n^mp^m(1-p)^{n-m}

для вероятности P_m получить ровно т положительных исходов при n независимых испытаниях, в каждом из которых положительный исход имеет вероятность р. Рассмотрим при помощи этой формулы вопрос, поставленный в начале этого параграфа, о вероятности

<\varepsilon\right\},

где \mu - фактическое число положительных исходов. Очевидно, эта вероятность может быть записана в виде суммы тех P_m , для которых m удовлетворяет неравенству

\vline\,\frac{m}{n}-p\,\vline\,<\varepsilon,


то есть в виде

P=\sum_{m=m_1}^{m_2}P_m,

где m_1 - наименьшее из значений m , удовлетворяющих неравенству (12), а m_2 - наибольшее из таких m .

Формула (13) при сколько-нибудь больших n мало пригодна для непосредственных вычислений. Поэтому имело очень большое значение открытие Муавром для случая p=\frac{1}{2} и Лапласом при любом p асимптотической формулы, которая позволяет очень просто находить и изучать поведение вероятностей P_m при больших n . Формула эта имеет вид

P\sim\frac{1}{\sqrt{2\pi np(1-p)}}\exp\!\left[-\frac{(m-np)^2}{2np(1-p)}\right].

Если p не слишком близко к нулю или единице, то она достаточно точна уже при n порядка 100. Если положить

T=\frac{m-np}{\sqrt{np(1-p)}},

То формула (14) приобретет вид

P\sim\frac{1}{\sqrt{2\pi np(1-p)}}\,e^{-t^2/2}.


Из (13) и (16) можно вывести приближенное представление вероятности (11)

P\sim\frac{1}{\sqrt{2\pi}}\int\limits_{-T}^{T}e^{-t^2/2}\,dt=F(T),


где

T=\varepsilon\sqrt{\frac{n}{p(1-p)}}

Разность между левой и правой частями в (17) при постоянном и отличном от нуля и единицы p стремится при n\to\infty равномерно относительно \varepsilon к нулю. Для функции F(T) составлены подробные таблицы. Вот краткая выдержка из них

\begin{array}{c|c|c|c|c}T&1&2&3&4\\\hline F&0,\!68269&0,\!95450&0,\!99730&0,\!99993\end{array}


При T\to\infty значение функции F(T) стремится к единице.

Произведем при помощи формулы (17) оценку вероятности

P=\mathbf{P}\!\left\{\,\vline\,\frac{\mu}{n}-p\,\vline\,<0,\!02\right\}\approx F\!\left(\frac{2}{\sqrt{p(1-p)}}\right) при n=10\,000,~\varepsilon=0,\!02 , так как T=\frac{2}{\sqrt{p(1-p)}} .

Так как функция F(T) монотонно возрастает с возрастанием T , то для не зависящей от p оценки P снизу надо взять наименьшее возможное (при различных p ) значение T . Такое наименьшее значение получится при p=\frac{1}{2} , и оно будет равно 4. Поэтому приближенно

P\geqslant F(4)=0,\!99993.

В неравенстве (19) не учтена ошибка, происходящая из-за приближенного характера формулы (17). Производя оценку связанной с этим обстоятельством погрешности, можно во всяком случае установить, что P>0,\!9999 .

В связи с рассмотренным примером применения формулы (17) следует отметить, что оценки остаточного члена формулы (17), дававшиеся в теоретических сочинениях по теории вероятностей, долго оставались мало удовлетворительными. Поэтому применения формулы (17) и ей подобных к расчетам при не очень больших n или при вероятностях p , очень близких к 0 или к 1 (а такие вероятности во многих случаях и имеют особенно большое значение) часто основывались лишь на опыте проверок такого рода результатов для ограниченного числа примеров, а не на достоверно установленных оценках возможной ошибки. Более подробное исследование, кроме того, показало, что во многих практически важных случаях приведенные выше асимптотические формулы нуждаются не только в оценке остаточного члена, но и в уточнении (так как без такого уточнения остаточный член слишком велик). В обоих направлениях наиболее полные результаты принадлежат С. Н. Бернштейну.

Соотношения (11), (17) и (18) можно переписать в виде

\mathbf{P}\!\left\{\,\vline\,\frac{\mu}{n}-p\,\vline\,

Для достаточно больших t правая часть формулы (20), не содержащая n , сколь угодно близка к единице, т. е. к значению вероятности, которое соответствует полной достоверности. Мы видим, таким образом, что, как правило, отклонения частоты \frac{\mu}{n} от вероятности p имеют порядок \frac{1}{\sqrt{n}} . Такая пропорциональность точности действия вероятностных закономерностей квадратному корню из числа наблюдений типична и для многих других вопросов. Иногда говорят даже в порядке несколько упрощенной популяризации о "законе квадратного корня из n " как основном законе теории вероятностей. Полную отчетливость эта мысль получила благодаря введению великим русским математиком П. Л. Чебышевым в систематическое употребление метода сведения различных вероятностных задач к подсчетам «математических ожиданий» и "дисперсий" для сумм и средних арифметических "случайных величин".

Случайной величиной называется величина, которая в данных условиях S может принимать различные значения с определенными вероятностями. Для нас достаточно рассмотреть случайные величины, могущие принимать лишь конечное число различных значений. Чтобы указать, как говорят, распределение вероятностей такого рода случайной величины \xi , достаточно указать возможные ее значения x_1,x_2,\ldots,x_r и вероятности

P_r=\mathbf{P}\{\xi=x_r\}.


В сумме эти вероятности по всем различным возможным значениям величины \xi всегда равны единице:

\sum_{r=1}^{s}P_r=1.

Примером случайной величины может служить изучавшееся выше число \mu положительных исходов при п испытаниях.

Математическим ожиданием величины \xi называется выражение

M(\xi)=\sum_{r=1}^{s}P_rx_r,


а дисперсией величины \xi называют математическое ожидание квадрата отклонения \xi-M(\xi) , т. е. выражение

D(\xi)=\sum_{r=1}^{s}P_r(x_r-M(\xi))^2.


Корень квадратный из дисперсии

\sigma_{\xi}=\sqrt{D(\xi)}=\sqrt{\sum_{r=1}^{s}P_r(x_r-M(\xi))^2}


называется средним квадратическим отклонением (величины от ее математического ожидания M(\xi) ).

В основе простейших применений дисперсий и средних квадратических отклонений лежит знаменитое неравенство Чебышева

\mathbf{P}\{|\xi-M(\xi)|\leqslant t_{\sigma_{\xi}}\}\geqslant1-\frac{1}{t^2},

Оно показывает, что отклонения случайной величины \xi от её математического ожидания M(\xi) , значительно превышающие среднее квадратическое отклонение \sigma_{\xi} , встречаются редко.

При образовании сумм случайных величин \xi=\xi^{(1)}+ \xi^{(2)}+\cdots+\xi^{(n)} для их математических ожиданий всегда имеет место равенство

M(\xi)=M(\xi^{(1)})+M(\xi^{(2)})+\cdots+M(\xi^{(n)}).


Аналогичное равенство для дисперсий

D(\xi)=D(\xi^{(1)})+D(\xi^{(2)})+\cdots+D(\xi^{(n)}).

верно только при некоторых ограничениях. Для справедливости равенства (23) достаточно, например, чтобы величины \xi^{(i)} и \xi^{(j)} с различными номерами не были, как говорят, «коррелированны» между собой, т. е. чтобы при i\ne j выполнялось равенство

M\Bigl\{(\xi^{(i)}-M(\xi^{(i)}))(\xi^{(j)}-M(\xi^{(j)}))\Bigl\}=0

Коэффициентом корреляции между случайными величинами \xi^{(i)} и \xi^{(j)} называется выражение

R=\frac{M\Bigl\{\Bigl(\xi^{(i)}-M(\xi^{(i)})\Bigl)\Bigl(\xi^{(j)}-M(\xi^{(j)})\Bigl)\Bigl\}}{\sigma_{\xi^{(i)}}\,\sigma_{\xi^{(j)}}}.

Если \sigma_{\xi^{(i)}}>0 в \sigma_{\xi^{(j)}}>0 , то условие (24) равносильно тому, что R=0 .

Коэффициент корреляции R характеризует степень зависимости между случайными величинами. Всегда |R|\leqslant1 , причем R=\pm1 только при наличии линейной связи

\eta=a\xi+b\quad(a\ne0).

Для независимых величин R=0 .

В частности, равенство (24) соблюдается, если величины \xi^{(i)} и \xi^{(j)} независимы между собой. Таким образом, для взаимно независимых слагаемых всегда действует равенство (23). Для средних арифметических

\zeta=\frac{1}{n}\Bigl(\xi^{(1)}+\xi^{(2)}+\cdots+\xi^{(n)}\Bigl) из (23) вытекает

D(\zeta_=\frac{1}{n^2}\Bigl(D(\xi^{(1)})+ D(\xi^{(2)})+\cdots+ D(\xi^{(n)})\Bigl).

Предположим теперь, что для всех слагаемых дисперсии не превосходят некоторой постоянной

D(\xi^{(i)})\leqslant C^2. Тогда по (25) D(\zeta)\leqslant\frac{C^2}{n},


и в силу неравенства Чебышева при любом t

\mathbf{P}\!\left\{|\zeta-M(\zeta)|\leqslant\frac{tC}{\sqrt{n}}\right\}\geqslant1-\frac{1}{t^2}

Неравенство (26) содержит в себе так называемый закон больших чисел в форме, установленной Чебышевым: если величины \xi^{(i)} взаимно независимы и имеют ограниченные дисперсии, то при возрастании n их средние арифметические \zeta , всё реже заметно отклоняются от своих математических ожиданий M(\zeta) .

Более точно говорят, что последовательность случайных величин

\xi^{(1)},\,\xi^{(2)},\,\ldots\,\xi^{(n)},\,\ldots


подчиняется закону больших чисел, если для соответствующих средних арифметических \zeta и при любом постоянном \varepsilon>0

\mathbf{P}\{|\zeta-M(\zeta)|\leqslant \varepsilon\}\to1\quad (n\to\infty).

Чтобы получить из неравенства (26) предельное соотношение (27), достаточно положить

T=\varepsilon\cdot\frac{\sqrt{n}}{C}.

Большой ряд исследований А.А. Маркова, С.Н. Бернштейна, А.Я. Хинчина и других посвящен вопросу возможно большего расширения условий применимости предельного соотношения (27), т. е. условий применимости закона больших чисел. Эти исследования имеют принципиальное значение. Однако еще более важным является точное исследование распределения вероятностей отклонений \zeta-M(\zeta) .

Великой заслугой русской классической школы в теории вероятностей является установление того факта, что при очень широких условиях асимптотически (т. е. со все большей точностью при неограниченно растущих n ) справедливо равенство

\mathbf{P}\!\left\{t_1\sigma_{\zeta}<\zeta-M(\zeta)

Чебышев дал почти полное доказательство этой формулы для случая независимых и ограниченных слагаемых. Марков восполнил недостающее звено в рассуждениях Чебышева и расширил условия применимости формулы (28). Еще более общие условия были даны Ляпуновым. Вопрос о распространении формулы (28) на суммы зависимых слагаемых с особенной полнотой был изучен С. Н. Бернштейном.

Формула (28) охватила столь большое число частных задач, что долгое время ее называли центральной предельной теоремой теории вероятностей. Хотя при новейшем развитии теории вероятностей она оказалась включенной в ряд более общих закономерностей, ее значение трудно переоценить и в настоящее

Время.

Если слагаемые независимы и их дисперсии одинаковы и равны: D(\xi^{(i)})=\sigma^2, то формуле (28) удобно, учитывая соотношение (25), придать вид

\mathbf{P}\!\left\{\frac{t_1\sigma}{\sqrt{n}}<\zeta-M(\zeta)<\frac{t_2\sigma}{\sqrt{n}}\right\}\sim\frac{1}{\sqrt{2\pi}}\int\limits_{t_1}^{t_2}e^{-t^2/2}\,dt\,.

Покажем, что соотношение (29) содержит в себе решение задачи об отклонениях частоты \frac{\mu}{n} от вероятности p , которой мы занимались ранее. Для этого введем случайные величины \xi^{(i)} определяя их следующим условием:

\xi^{(i)}=0 , если i -е испытание имело отрицательный исход,

\xi^{(i)}=1 , если i -е испытание имело положительный исход.

Легко проверить, что тогда


и формула (29) дает

\mathbf{P}\!\left\{t_1\sqrt{\frac{p(1-p)}{n}}<\frac{\mu}{n}-p
что при t_1=-t,~t_2=t снова приводит к формуле (20).
Также см. Предельные теоремы теории вероятностей В вашем браузере отключен Javascript.
Чтобы произвести расчеты, необходимо разрешить элементы ActiveX!

В начале курса мы уже говорили о том, что математические законы теории вероятностей получены абстрагированием реальных статистических закономерностей, свойственных массовым случайным явлениям. Наличие этих закономерностей связано именно с массовостью явлений, то есть с большим числом выполняемых однородных опытов или с большим числом складывающихся случайных воздействий, порождающих в своей совокупности случайную величину, подчиненную вполне определенному закону. Свойство устойчивости массовых случайных явлений известно человечеству еще с глубокой древности. В какой бы области оно ни проявлялось, суть его сводится к следующему: конкретные особенности каждого отдельного случайного явления почти не сказываются на среднем результате масс и таких явлений; случайные отклонения от среднего, неизбежные в каждом отдельном явлении, в массе взаимно погашаются, нивелируются, выравниваются. Именно эта устойчивость средних и представляет собой физическое содержание «закона больших чисел», понимаемого в широком смысле слова: при очень большом числе случайных явлений средний их результат практически перестает быть случайным и может быть предсказан с большой степенью определенности.

В узком смысле слова под «законом больших чисел» в теории вероятностей понимается ряд математических теорем, в каждой из которых для тех или иных условий устанавливается факт приближения средних характеристик большого числа опытов к некоторым определенным постоянным.

В 2.3 мы уже формулировали простейшую из этих теорем - теорему Я. Бернулли. Она утверждает, что при большом числе опытов частота события приближается (точнее - сходится по вероятности) к вероятности этого события. С другими, более общими формами закона больших чисел мы познакомимся в данной главе. Все они устанавливают факт и условия сходимости по вероятности тех или иных случайных величин к постоянным, не случайным величинам.

Закон больших чисел играет важную роль в практических применениях теории вероятностей. Свойство случайных величин при определенных условиях вести себя практически как не случайные позволяет уверенно оперировать с этими величинами, предсказывать результаты массовых случайных явлений почти с полной определенностью.

Возможности таких предсказаний в области массовых случайных явлений еще больше расширяются наличием другой группы предельных теорем, касающихся уже не предельных значений случайных величин, а предельных законов распределения. Речь идет о группе теорем, известных под названием «центральной предельной теоремы». Мы уже говорили о том, что при суммировании достаточно большого числа случайных величин закон распределения суммы неограниченно приближается к нормальному при соблюдении некоторых условий. Эти условия, которые математически можно формулировать различным образом - в более или менее общем виде, - по существу сводятся к требованию, чтобы влияние на сумму отдельных слагаемых было равномерно малым, т. е. чтобы в состав суммы не входили члены, явно преобладающие над совокупностью остальных по своему влиянию на рассеивание суммы. Различные формы центральной предельной теоремы различаются между собой теми условиями, для которых устанавливается это предельное свойство суммы случайных величин.

Различные формы закона больших чисел вместе с различными формами центральной предельной теоремы образуют совокупность так называемых предельных теорем теории вероятностей. Предельные теоремы дают возможность не только осуществлять научные прогнозы в области случайных явлений, но и оценивать точность этих прогнозов.

В данной главе мы рассмотрим только некоторые, наиболее простые формы предельных теорем. Сначала будут рассмотрены теоремы, относящиеся к группе «закона больших чисел», затем - теоремы, относящиеся к группе «центральной предельной теоремы».

Теория вероятностей изучает закономерности, свойственные массовым случайным явлениям. Как и любая другая наука, теория вероятностей предназначена для того, чтобы возможно точнее предсказать результат того или иного явления или эксперимента. Если явление носит единичный характер, то теория вероятностей способна предсказать лишь вероятность исхода в весьма широких пределах. Закономерности проявляются только при большом числе случайных явлений, происходящих в однородных условиях.

Группа теорем, устанавливающих соответствие между теоретическими и экспериментальными характеристиками случайных величин и случайных событий при большом числе испытаний над ними, а также касающихся предельных законов распределения, объединяются под общим названием предельных теорем теории вероятностей .

Есть два типа предельных теорем: закон больших чисел и центральная предельная теорема.

Закон больших чисел , занимающий важнейшее место в теории вероятностей, является связующим звеном между теорией вероятностей как математической наукой и закономерностями случайных явлений при массовых наблюдениях над ними.

Закон играет очень важную роль в практических применениях теории вероятностей к явлениям природы и техническим процессам, связанным с массовым производством.

Предельные законы распределения составляют предмет группы теорем – количественной формы закона больших чисел. Т.е. закон больших чисел – ряд теорем, в каждой из которых устанавливается факт приближения средних характеристик большого числа испытаний к некоторым определенным постоянным, т.е. устанавливают факт сходимости по вероятности некоторых случайных величин к постоянным. Это теоремы Бернулли, Пуассона, Ляпунова, Маркова, Чебышева.

1. а ) Теорема Бернулли – закон больших чисел (была сформулирована и доказана ранее в п. 3 § 6 при рассмотрении предельной интегральной теоремы Муавра-Лапласа.)

При неограниченном увеличении числа однородных независимых опытов частота события будет сколь угодно мало отличаться от вероятности события в отдельном опыте. Иначе, вероятность того, что отклонение относительной частоты наступления события А от постоянной вероятности р события А очень мало при стремится к 1 при любом : .

b) Теорема Чебышева.

При неограниченном увеличении числа независимых испытаний среднее арифметическое наблюдаемых значений случайной величины, имеющей конечную дисперсию, сходится по вероятности к ее математическому ожиданию иначе, если независимые одинаково распределенные случайные величины с математическим ожиданием и ограниченной дисперсией , то при любом справедливо: .

Теорема Чебышева (обобщенная). Если случайные величины в последовательности попарно независимы, а их дисперсии удовлетворяют условию , то для любого положительного ε > 0 справедливо утверждение:


или, что то же .

c) Теорема Маркова. (закон больших чисел в общей формулировке)

Если дисперсии произвольных случайных величин в последовательности удовлетворяют условию: , то для любого положительного ε > 0 имеет место утверждение теоремы Чебышева: .

d) Теорема Пуассона.

При неограниченном увеличении числа независимых опытов в переменных условиях частота события А сходится по вероятности к среднему арифметическому его вероятностей при данных испытаниях.

Замечание. Ни в одной из форм закона больших чисел мы не имеем дела с законами распределения случайных величин. Вопрос, связанный с отысканием предельного закона распределения суммы , когда число слагаемых неограниченно возрастает, рассматривает центральная предельная теорема. одинаково распределены, то придем к интегральной теореме Муавра-Лапласа (п. 3 § 6), представляющей собой простейший частный случай центральной предельной теоремы.

План:

1. Понятие центральной предельной теоремы (теорема Ляпунова)

2. Закон больших чисел, вероятность и частота (теоремы Чебышева и Бернулли)

1. Понятие центральной предельной теоремы.

Нормальное распределение вероятностей имеет в теории вероят­ностей большое значение. Нормальному закону подчиняется вероят­ность при стрельбе по цели, в измерениях и т. п. В частности, оказывается, что закон распределения суммы достаточно большого чис­ла независимых случайных величин с произвольными законами распределения близок к нормальному распределению. Этот факт, называемый центральной предельной теоремой или теоремой Ляпунова.

Известно, что нормально распределенные случай­ные величины широко распространены на практике. Чем это объясняется? Ответ на этот вопрос был дан

Централь­ная предельная теорема. Если случайная величина X пред­ставляет, собой сумму очень большого числа взаимно неза­висимых случайных величин, влияние каждой из которых на всю сумму ничтожно мало, то X имеет распределение, близкое к нормальному распределению.

Пример. Пусть производится измерение некоторой физической величины. Любое измерение дает лишь приближенное значение изме­ряемой величины, так как на результат измерения влияют очень многие независимые случайные факторы (температура, колебания прибора, влажность и др.). Каждый из этих факторов порождает ничтожную "частную ошибку". Однако, поскольку число этих факторов очень велико, их совокупное действие порождает уже заметную «суммар­ную ошибку».

Рассматривая суммарную ошибку как сумму очень большого числа взаимно независимых частных ошибок, мы вправе заключить, что суммарная ошибка имеет распределение, близкое к нормальному распределению. Опыт подтверждает справедливость такого заключения.

Рассмотрим условия, при которых выполняется "централь­ная предельная теорема"

Х1, Х2, ...,Х n – последовательность независимых случайных величин,

M (Х1), M (Х2), ..., M n ) - конечные математические ожидания этих величин, соответственно равные М(Xk )= ak

D(Х1), D (Х2), ..., D n ) - конечные дисперсии их, соответственно равные D (X k )= bk 2

Введем обозначения: S= Х1+Х2 + ...+Хn;

A k= Х1+Х2 + ...+Хn=; B2= D(Х1)+ D (Х2)+ ...+ D n ) =

Запишем функцию распределения нормированной суммы:

Говорят, что к последовательности Х1, Х2, ...,Х n применима централь­ная предельная теорема, если при любом x функция распределения нормированной суммы при n ® ¥ стремится к нормальной функции распределения:

Right " style="border-collapse:collapse;border:none;margin-left:6.75pt;margin-right: 6.75pt">

Рассмотрим дискретную случайную величину X , задан­ную таблицей распределения:

Поставим перед собой задачу оценить вероятность того, что отклонение случайной величины от ее математического ожидания не превышает по абсолютной величине поло­жительного числа ε

Если ε достаточно мало, то мы оце­ним, таким образом, вероятность того, что X примет значения, достаточно близкие к своему математическому ожиданию. доказал неравенство, позволяю­щее дать интересующую нас оценку.

Лемма Чебышева. Дана случайная величина X, принимающая только неотрицательные значения с математическим ожиданием M(X). Для любого числа α>0 имеет место выражение:

Неравенство Чебышева. Вероятность того, что отклонение случайной величины X от ее математического ожидания по абсолютной величине меньше положитель­ного числа ε , не меньше, чем 1 – D(X) / ε 2:

Р (| X-M (X) | < ε ) ³ 1 - D (Х) / ε 2.

Замечание. Неравенство Чебышева имеет для практики огра­ниченное значение, поскольку часто дает грубую, а иногда и три­виальную (не представляющую интереса) оценку.

Теоретическое же значение неравенства Чебышева весьма велико. Ниже мы воспользуемся этим неравенством для вывода теоремы Чебышева.

2.2. Теорема Чебышева

Если Х1, Х2, ...,Хn..- попарно независимые случайные величины, причем диспер­сии их равномерно ограничены (не превышают постоян­ного числа С), то, как бы мало ни было положительное число ε , вероятность неравенства

÷ (Х1+Х2 + ...+Хn) / n - (M(Х1)+M(Х2)+ ...+M(Хn))/n | < ε

будет как угодно близка к единице, если число случайных величин достаточно велико.

P (÷ (Х1+Х2 + ...+Хn) / n - (M(Х1)+M(Х2)+ ...+M(Хn))/n | < ε )=1.

Теорема Чебышева утверждает:

1. Рассматривается достаточно большое число незави­симых случайных величин, имеющих ограниченные ди­сперсии,

Формулируя теорему Чебышева, мы предпола­гали, что случайные величины имеют различные матема­тические ожидания. На практике часто бывает, что слу­чайные величины имеют одно и то же математическое ожидание. Очевидно, что если вновь допустить, что диспер­сии этих величин ограничены, то к ним будет применима теорема Чебышева.

Обозначим математическое ожидание каждой из слу­чайных величин через а;

В рассматриваемом случае среднее арифметическое математических ожиданий, как легко видеть, также равно а.

Можно сформулировать тео­рему Чебышева для рассматриваемого частного случая.

"Если Х1, Х2, ...,Хn..- попарно независимые случай­ные величины, имеющие одно и то же математическое ожидание а, и если дисперсии этих величин равномерно ограничены, то, как бы мало ни было число ε > О, ве­роятность неравенства

÷ (Х1+Х2 + ...+Хn) / n - a | < ε

будет как угодно близка к единице, если число случай­ных величин достаточно велико".

Другими словами, в условиях теоремы

P (÷ (Х1+Х2 + ...+Хn) / n - a | < ε ) = 1.

2.3. Сущность теоремы Чебышева

Хотя от­дельные независимые случайные величины могут прини­мать значения, далекие от своих математических ожиданий, среднее арифметическое достаточно большого числа случай­ных величин с большой вероятностью принимает значе­ния, близкие к определенному постоянному числу, а именно к числу

(М (Xj ) + М (Х2) +... + М (Х„))/п или к числу а в частном случае.

Иными словами, отдельные случайные величины могут иметь значительный разброс, а их среднее арифметическое рассеянно мало.

Таким образом, нельзя уверенно предсказать, какое возможное значение примет каждая из случайных вели­чин, но можно предвидеть, какое значение примет их среднее арифметическое.

Итак, среднее арифметическое достаточно большого числа независимых случайных величин (дисперсии которых равномерно ограничены) утрачивает характер случайной, величины.

Объясняется это тем, что отклонения каждой из величин от своих математических ожиданий могут быть как положительными, так и отрицательными, а в среднем арифметическом они взаимно погашаются.

Теорема Чебышева справедлива не только для дискрет­ных, но и для непрерывных случайных величин; она является примером, подтверждающим справедли­вость учения о связи между случайностью и необходимостью.

2.4. Значение теоремы Чебышева для практики

Приведем примеры применения теоремы Чебышева к решению практических задач.

Обычно для измерения некоторой физической величины производят несколько измерений и их среднее арифме­тическое принимают в качестве искомого размера. При каких условиях этот способ измерения можно считать правильным? Ответ на этот вопрос дает теорема Чебы­шева (ее частный случай).

Действительно, рассмотрим результаты каждого из­мерения как случайные величины

Х1, Х2, ...,Хn

К. этим величинам можно применить теорему Чебышева, если:

1) Они попарно независимы.

2) имеют одно и то же ма­тематическое ожидание,

3) дисперсии их равномерно огра­ничены.

Первое требование выполняется, если результат каж­дого измерения не зависит от результатов остальных.

Второе требование выполняется, если измерения произ­ведены без систематических (одного знака) ошибок. В этом случае математические ожидания всех случайных величин одинаковы и равны истинному размеру а.

Третье требо­вание выполняется, если прибор обеспечивает определен­ную точность измерений. Хотя при этом результаты отдельных измерений различны, но рассеяние их огра­ничено.

Если все указанные требования выполнены, мы вправе применить к результатам измерений теорему Чебышева: при достаточно большом п вероятность неравенства

| (Х1 + Хя+...+Х„)/п - а |< ε как угодно близка к единице.

Другими словами, при достаточно большом числе измерений почти достоверно, что их среднее арифметическое как угодно мало отли­чается от истинного значения измеряемой величины.

Теорема Чебышева указывает условия, при ко­торых описанный способ измерения может быть приме­нен. Однако ошибочно думать, что, увеличивая число измерений, можно достичь сколь угодно большой точ­ности. Дело в том, что сам прибор дает показания лишь с точностью ± α , поэтому каждый из результатов изме­рений, а следовательно, и их среднее арифметическое будут получены лишь с точностью, не превышающей точности прибора.

На теореме Чебышева основан широко применяемый в статистике выборочный метод, суть которого состоит в том, что по сравнительно небольшой случайной выборке судят о всей совокупности (генеральной совокупности) исследуемых объектов.

Например, о качестве кипы хлопка заключают по небольшому пучку, состоящему из волокон, наудачу отобранных из разных мест кипы. Хотя число волокон в пучке значительно меньше, чем в кипе, сам пучок содержит достаточно большое количество волокон, исчисляемое сотнями.

В качестве другого примера можно указать на опре­деление качества зерна по небольшой его пробе. И в этом случае число наудачу отобранных зерен мало сравни­тельно со всей массой зерна, но само по себе оно доста­точно велико.

Уже из приведенных примеров можно заключить, что для практики теорема Чебышева имеет неоценимое значение.

2.5. Теорема Бернулли

Производится п независимых испытаний (не событий, а испытаний). В каждом из них вероятность появления события A равна р.

Возникает вопрос, какова примерно будет относительная частота появлений события? На этот вопрос отвечает теорема, доказанная Бернулли которая полу­чила название "закона больших чисел" и положила начало теории вероятностей как науке.

Теорема Бернулли. Если в каждом из п независимых испытаний вероятность р появления события А постоянна, то как угодно близка к единице вероятность того, что отклонение относительной частоты от вероятности р по абсолютной величине будет сколь угодно малым, если число испытаний достаточно велико.

Другими словами, если ε >0 сколь угодно малое число, то при соблюдении условий теоремы имеет место равенство

Р(| m / п - р| < ε)= 1

Замечание. Было бы неправильным на основании теоремы Бернулли сделать вывод, что с ростом числа испытаний относитель­ная частота неуклонно стремится к вероятности р; другими словами, из теоремы Бернулли не вытекает равенство (т/п) = р,

В теореме речь идет лишь о вероятности того, что при достаточно большом числе испытаний относительная частота будет, как угодно мало отличаться от постоянной вероятности появления события в каж­дом испытании.

Задание 7-1.

1. Оценить вероятность того, что при 3600 бросаниях кости число появления 6 очков будет не меньше 900.

Решение. Пусть x – число появления 6 очков при 3600 бросаниях монеты. Вероятность появления 6 очков при одном бросании равна p=1/6, тогда M(x)=3600·1/6=600. Воспользуемся неравенством (леммой) Чебышева при заданном α = 900

= P (x ³ 900) £ 600 / 900 =2 / 3

Ответ 2 / 3.

2. Проведено 1000 независимых испытаний, p=0,8. Найти вероятность числа наступлений события A в этих испытаниях отклонится от своего математического ожидания по модулю меньше, чем 50.

Решение. x –число наступлений события A в n – 1000 испытаниях.

М(Х)= 1000·0,8=800. D(x)=100·0,8·0,2=160

Воспользуемся неравенством Чебышева при заданном ε = 50

Р (| х-M (X) | < ε) ³ 1 - D (х) / ε 2

Р (| х-800 | < 50) ³ / 50 2 = 1-160 / 2500 = 0,936.

Ответ. 0,936

3. Используя неравенство Чебышева, оценить вероятность того, что |Х - М(Х)| < 0,1, если D (X) = 0,001. Ответ Р³0,9.

4. Дано: Р(|Х-М(Х)\ < ε) ³ 0,9; D (X )= 0,004. Используя неравенство Чебышева, найти ε. Ответ. 0,2.

Контрольные вопросы и задания

1. Назначение центральной предельной теоремы

2. Условия применимости теоремы Ляпунова.

3. Отличие леммы и теоремы Чебышева.

4. Условия применимости теоремы Чебышева.

5. Условия применимости теоремы Бернулли (закона больших чисел)

Требования к знаниям умениям и навыкам

Студент должен знать обще смысловую формулировку центральной предельной теоремы. Уметь формулировать частные теоремы для не зависимых одинаково распределенных случайных величин. Понимать неравенство Чебышева и закон больших чисел в форме Чебышева. Иметь представление о частоте события, взаимоотношениях между понятиями "вероятность" и "частота". Иметь представление о законе больших чисел в форме Бернулли.

(1857-1918), вы­дающийся русский математик

Проведем это доказательство в два этапа. Сначала предположим, что существует, и заметим, что в этом случае D(S„) по теореме о дисперсии суммы. Согласно неравенству Чебышева, при любом t > 0

При t > n левая часть меньше, чем, а последняя величина стремится к нулю. Это завершает первую часть доказательства.

Отбросим теперь ограничительное условие существования D(). Этот случай сводится к предшествующему методом усечения.

Определим два новых набора случайных величин, зависящих от, следующим образом:

U k =, V k =0, если (2.2)

U k =0, V k =, если

Здесь k=1,… , п и фиксировано. Тогда

при всех k.

Пусть {f(j)} -- распределение вероятностей случайных величин (одинаковое для всех j). Мы предположили, что = M() существует, так что сумма

конечна. Тогда существует и

где суммирование производится по всем тем j, при которых. Отметим, что хотя и зависит от п, но оно одинаково для

U 1 , U 2, ..., U n . Кроме того, при, и, следовательно, для произвольного > 0 и всех достаточно больших n

U k взаимно независимы, и с их суммой U 1 +U 2 +…+U n можно поступить точно так же, как и с X k в случае конечной дисперсии, применив неравенство Чебышева, мы получим аналогично (2.1)


Вследствие (2.6) отсюда вытекает, что

Поскольку ряд (2.4) сходится, последняя сумма стремится к нулю при возрастании n. Таким образом, при достаточно большом п

и следовательно

P{V 1 +…+V n 0}. (2.12)

Но, и из (2.9) и (2.12) получаем

Так как и произвольны, правая часть может быть сделана сколь угодно малой, что и завершает доказательство.

Теория «безобидных» игр

При дальнейшем анализе сущности закона больших чисел будем пользоваться традиционной терминологией игроков, хотя наши рассмотрения допускают в равной степени и более серьезные приложения, а два наших основных предположения более реальны в статистике и физике, чем в азартных играх. Во-первых, предположим, что игрок обладает неограниченным капиталом, так что никакой проигрыш не может вызвать окончания игры. (Отбрасывание этого предположения приводит к задаче о разорении игрока, которая всегда интригует изучающих теорию вероятностей.) Во-вторых, предположим, что игрок не имеет нрава прервать игру, когда ему заблагорассудится: число п испытаний должно быть фиксировано заранее и не должно зависеть от хода игры. Иначе игрок, осчастливленный неограниченным капиталом, дождался бы серии удач и в подходящий момент прекратил бы игру. Такого игрока интересует не вероятное колебание в заданный момент, а максимальные колебания в длинной серии партий, которые описываются скорее законом повторного логарифма, чем законом больших чисел.

Введем случайную величину k как (положительный или отрицательный) выигрыш при k-м повторении игры. Тогда сумма S n = 1 +…+ k является суммарным выигрышем при п повторениях игры. Если перед каждым повторением игрок уплачивает за право участия в игре (не обязательно положительный) взнос, то п представляет собой общий уплаченный им взнос, a S n -- п общий чистый выигрыш. Закон больших чисел применим, если p=M(k) существует. Грубо говоря, при больших п весьма правдоподобно, что разность S п -- покажется малой по сравнению с п. Следовательно, если меньше, чем р, то при больших п игрок будет, вероятно, иметь выигрыш порядка. По тем же соображениям взнос практически наверняка приводит к убытку. Короче, случай благоприятен для игрока, а случай неблагоприятен.

Заметим, что мы еще ничего не говорили о случае. В этом случае единственно возможным заключением является то, что при достаточно большом и общий выигрыш или проигрыш S n -- п будет с очень большой вероятностью малым по сравнению с п. Но при этом неизвестно, окажется ли S n -- п положительным или отрицательным, т. е. будет ли игра выгодной или разорительной. Это не было учтено классической теорией, которая называла безобидной ценой, а игру с «безобидной». Нужно понимать, что «безобидная» игра может на самом деле быть и явно выгодной и разорительной.

Ясно, что в «нормальном случае» существует не только M(k), но и D(k). В этом случае закон больших чисел дополняется центральной предельной теоремой, а последняя говорит о том, что весьма правдоподобно, что при «безобидной» игре чистый выигрыш в результате продолжительной игры S n -- п будет иметь величину порядка n 1/2 и что при достаточно больших п этот выигрыш будет с примерно равными шансами положительным или отрицательным. Таким образом, если применима центральная предельная теорема, то термин «безобидная» игра оказывается оправданным, хотя даже и в этом случае мы имеем дело с предельной теоремой, что подчеркивается словами «в результате продолжительной игры». Тщательный анализ показывает, что сходимость в (1.3) ухудшается при возрастании дисперсии. Если велико, то нормальное приближение окажется эффективным только при чрезвычайно больших п.

Для определенности представим машину, при опускании в которую рубля игрок может с вероятностью 10 выиграть (10--1) рублей, а в остальных случаях теряет опущенный рубль. Здесь мы имеем испытания Бернулли и игра является «безобидной». Проделав миллион испытаний, игрок уплатит за это миллион рублей. За это время он может выиграть 0, 1,2,... раз. Согласно приближению Пуассона для биномиального распределения, с точностью до нескольких десятичных знаков вероятность выиграть ровно к раз равна e -1 /k!. Таким образом, с вероятностью 0,368 . . . игрок потеряет миллион, и с той же вероятностью он только окупит свои расходы; он имеет вероятность 0,184... приобрести ровно один миллион и т. д. Здесь 10 6 испытаний эквивалентны одному-единствеиному испытанию при игре с выигрышем, имеющим распределение Пуассона.

Очевидно, бессмысленно применять закон больших чисел в такого рода ситуациях. К этой схеме относится страхование от пожара, автомобильных катастроф и т. п. Риску подвергается большая сумма, но зато соответствующая вероятность очень мала. Однако здесь происходит обычно только одно испытание в год, так что число п испытаний никогда не становится большим. Для застрахованного игра обязательно не является «безобидной», хотя, может быть, экономически вполне выгодной. Закон больших чисел здесь не при чем. Что касается страховой компании, то она имеет дело с большим числом игр, но из-за большой дисперсии все же проявляются случайные колебания. Размер страховых премий должен быть установлен таким, чтобы предотвратить большой убыток в отдельные годы, и, следовательно, компанию интересует скорее задача о разорении, чем закон больших чисел.

Когда дисперсия бесконечна, термин «безобидная» игра становится бессмысленным; нет никаких оснований считать, что общий чистый выигрыш S n -- п колеблется около нуля. Действительно. существуют примеры «безобидных» игр, в которых вероятность того, что в результате игрок потерпит чистый убыток, стремится к единице. Закон больших чисел утверждает только, что этот убыток будет величиной меньшего порядка, чем п. Однако ничего большего утверждать и нельзя. Если а п образуют произвольную последовательность, причем а п /n0 то можно устроить «безобидную» игру, в которой вероятность того, что общий чистый убыток в результате п повторений игры превышаем a n стремится к единице.