Закон распределения пуассона математическое ожидание и дисперсия. Распределение пуассона. Применение формулы Пуассона при решении задач

Введение

Подчиняются ли каким-либо законам явления, носящие случайный характер? Да, но эти законы отличаются от привычных нам физических законов. Значения СВ невозможно предугадать даже при известных условиях эксперимента, мы можем лишь указать вероятности того, что СВ примет то или иное значение. Зато зная распределение вероятностей СВ, мы можем делать выводы о событиях, в которых участвуют эти случайные величины. Правда, эти выводы будут также носить вероятностный характер.

Пусть некоторая СВ является дискретной, т.е. может принимать лишь фиксированные значения Xi. В этом случае ряд значений вероятностей P(Xi) для всех (i=1…n) допустимых значений этой величины называют её законом распределения.

Закон распределения СВ - это отношение, устанавливающее связь между возможными значениями СВ и вероятностями, с которыми принимаются эти значения. Закон распределения полностью характеризует СВ.

При построении математической модели для проверки статистической гипотезы необходимо ввести математическое предположение о законе распределения СВ (параметрический путь построения модели).

Непараметрический подход к описанию математической модели (СВ не имеет параметрического закона распределения) менее точен, но имеет более широкую область применения.

Точно также, как и для вероятности случайного события, для закона распределения СВ есть только два пути его отыскания. Либо мы строим схему случайного события и находим аналитическое выражение (формулу) вычисления вероятности (возможно, кто–то уже сделал или сделает это за нас!), либо придется использовать эксперимент и по частотам наблюдений делать какие–то предположения (выдвигать гипотезы) о законе распределения.

Конечно же, для каждого из "классических" распределений уже давно эта работа проделана – широко известными и очень часто используемыми в прикладной статистике являются биномиальное и полиномиальное распределения, геометрическое и гипергеометрическое, распределение Паскаля и Пуассона и многие другие.

Для почти всех классических распределений немедленно строились и публиковались специальные статистические таблицы, уточняемые по мере увеличения точности расчетов. Без использования многих томов этих таблиц, без обучения правилам пользования ими последние два столетия практическое использование статистики было невозможно.

Сегодня положение изменилось – нет нужды хранить данные расчетов по формулам (как бы последние не были сложны!), время на использование закона распределения для практики сведено к минутам, а то и секундам. Уже сейчас существует достаточное количество разнообразных пакетов прикладных компьютерных программ для этих целей.

Среди всех вероятностных распределений есть такие, которые используются на практике особенно часто. Эти распределения детально изучены и свойства их хорошо известны. Многие из этих распределений лежат в основе целых областей знаний – таких, как теория массового обслуживания, теория надежности, контроль качества, теория игр и т.п

Среди них нельзя не обратить внимание на труды Пуассона (1781-1840), доказавшего более общую, чем у Якова Бернулли, форму закона больших чисел, а также впервые применившего теорию вероятностей к задачам стрельбы. С именем Пуассона связан один из законов распределения, играющий большую роль в теории вероятностей и ее приложениях.

Именно этому закону распределения и посвящена данная курсовая работа. Речь пойдет непосредственно о законе, о его математических характеристиках, особых свойствах, связи с биномиальным распределением. Несколько слов будет сказано по поводу практического применения и приведено несколько примеров из практики.

Цель нашего реферата – выяснить сущность теорем распределения Бернулли и Пуассона.

Задача – изучить и проанализировать литературу по теме реферата.

1. Биномиальное распределение (распределение Бернулли)

Биномиальное распределение (распределение Бернулли) - распределение вероятностей числа появлений некоторого события при повторных независимых испытаниях, если вероятность появления этого события в каждом испытании равна p (0

Говорят, что СВ Х распределена по закону Бернулли с параметром p, если она принимает значения 0 и 1 с вероятностями pX(x)ºP{X=x} = pxq1-x; p+q=1; x=0,1.

Биноминальное распределение возникает в тех случаях, когда ставится вопрос: сколько раз происходит некоторое событие в серии из определенного числа независимых наблюдений (опытов), выполняемых в одинаковых условиях.

Для удобства и наглядности будем полагать, что нам известна величина p – вероятность того, что вошедший в магазин посетитель окажется покупателем и (1– p) = q – вероятность того, что вошедший в магазин посетитель не окажется покупателем.

Если X – число покупателей из общего числа n посетителей, то вероятность того, что среди n посетителей оказалось k покупателей равна

P(X= k) = , где k=0,1,…n 1)

Формулу (1) называют формулой Бернулли. При большом числе испытаний биномиальное распределение стремиться к нормальному.

Испытание Бернулли – это вероятностный эксперимент с двумя исходами, которые, как правило, называют «успехом» (его принято обозначать символом 1) и «неудачей» (соответственно, обозначается 0). Вероятность успеха принято обозначать буквой p, неудачи – буквой q; конечно, q=1-p. Величину p называют параметром испытания Бернулли.

Биномиальная, геометрическая, паскалева и отрицательная биномиальная случайные величины получаются из последовательности независимых испытаний Бернулли, если эту последовательность оборвать тем или иным способом, например, после n-го испытания или x-го успеха. Принято использовать следующую терминологию:

– параметр испытания Бернулли (вероятность успеха в отдельном испытании);

– число испытаний;

– число успехов;

– число неудач.

Биномиальная случайная величина (m|n,p) – число m успехов в n испытаниях.

Геометрическая случайная величина G(m|p)– число m испытаний до первого успеха (включая первый успех).

Паскалева случайная величина C(m|x,p)– число m испытаний до x-го успеха (не включая, конечно, сам x-й успех).

Отрицательная биномиальная случайная величина Y(m|x,p) – число m неудач до x-го успеха (не включая x-й успех).

Замечание: иногда отрицательное биномиальное распределение называют паскалевым и наоборот.


Распределение Пуассона

2.1. Определение закона Пуассона

Во многих задачах практики приходится иметь дело со случайными величинами, распределенными по своеобразному закону, который носит название закона Пуассона.

Рассмотрим прерывную случайную величину Х, которая может принимать только целые, неотрицательные значения: 0, 1, 2, … , m, … ; причем последовательность этих значений теоретически не ограничена. Говорят, что случайная величина Х распределена по закону Пуассона, если вероятность того, что она примет определенное значение m, выражается формулой:

где а - некоторая положительная величина, называемая параметром закона Пуассона.

Ряд распределения случайной величины Х, распределенной по закону Пуассона, выглядит следующим образом:

хm m
Pm e-a

2.2.Основные характеристики распределения Пуассона

Для начала убедимся, что последовательность вероятностей, может представлять собой ряд распределения, т.е. что сумма всех вероятностей Рm равна единице.

Используем разложение функции ех в ряд Маклорена:

Известно, что этот ряд сходится при любом значении х, поэтому, взяв х=а, получим

следовательно

Определим основные характеристики - математическое ожидание и дисперсию - случайной величины Х, распределенной по закону Пуассона. Математическим ожиданием дискретной случайной величины называют сумму произведений всех ее возможных значений на их вероятности. По определению, когда дискретная случайная величина принимает счетное множество значений:

Первый член суммы (соответствующий m=0) равен нулю, следовательно, суммирование можно начинать с m=1:

Таким образом, параметр а представляет собой не что иное, как математическое ожидание случайной величины Х.

Дисперсией случайной величины Х называют математической ожидание квадрата отклонения случайной величины от ее математического ожидания:

Однако, удобнее ее вычислять по формуле:

Поэтому найдем сначала второй начальный момент величины Х:

По ранее доказанному

кроме того,

2.3.Дополнительные характеристики распределения Пуассона

I. Начальным моментом порядка k случайной величины Х называют математическое ожидание величины Хk:

В частности, начальный момент первого порядка равен математическому ожиданию:

II. Центральным моментом порядка k случайной величины Х называют математическое ожидание величины k:

В частности, центральный момент 1-ого порядка равен 0:

μ1=М=0,

центральный момент 2-ого порядка равен дисперсии:

μ2=M2=a.

III. Для случайной величины Х, распределенной по закону Пуассона, найдем вероятность того, что она примет значение не меньшее заданного k. Эту вероятность обозначим Rk:

Очевидно, вероятность Rk может быть вычислена как сумма

Однако, значительно проще определить ее из вероятности противоположного события:

В частности, вероятность того, что величина Х примет положительное значение, выражается формулой

Как уже говорилось, многие задачи практики приводят к распределению Пуассона. Рассмотрим одну из типичных задач такого рода.

Рис.2

Пусть на оси абсцисс Ох случайным образом распределяются точки (рис.2). Допустим, что случайное распределение точек удовлетворяет следующим условиям:

1) Вероятность попадания того или иного числа точек на отрезок l зависит только от длины этого отрезка, но не зависит от его положения на оси абсцисс. Иными словами, точки распределены на оси абсцисс с одинаковой средней плотностью. Обозначим эту плотность, т.е. математическое ожидание числа точек, приходящихся на единицу длины, через λ.

2) Точки распределяются на оси абсцисс независимо друг от друга, т.е. вероятность попадания того или иного числа точек на заданный отрезок не зависит от того, сколько их попало на любой другой отрезок, не перекрывающийся с ним.

3) Вероятность попадания на малый участок Δх двух или более точек пренебрежимо мала по сравнению с вероятностью попадания одной точки (это условие означает практическую невозможность совпадения двух или более точек).

Выделим на оси абсцисс определенный отрезок длины l и рассмотрим дискретную случайную величину Х - число точек, попадающих на этот отрезок. Возможные значения величины будут 0,1,2,…,m,… Так как точки попадают на отрезок независимо друг от друга, то теоретически не исключено, что их там окажется сколь угодно много, т.е. данный ряд продолжается неограниченно.

Докажем, что случайная величина Х распределена по закону Пуассона. Для этого надо подсчитать вероятность Рm того, что на отрезок попадет ровно m точек.

Сначала решим более простую задачу. Рассмотрим на оси Ох малый участок Δх и вычислим вероятность того, что на этот участок попадет хотя бы одна точка. Будем рассуждать следующим образом. Математическое ожидание числа точек, попадающих на этот участок, очевидно, равно λ·Δх (т.к. на единицу длины попадает в среднем λ точек). Согласно условию 3 для малого отрезка Δх можно пренебречь возможностью попадания на него двух или больше точек. Поэтому математическое ожидание λ·Δх числа точек, попадающих на участок Δх, будет приближенно равно вероятности попадания на него одной точки (или, что в данных условиях равнозначно, хотя бы одной).

Таким образом, с точностью до бесконечно малых высшего порядка, при Δх→0 можно считать вероятность того, что на участок Δх попадет одна (хотя бы одна) точка, равной λ·Δх, а вероятность того, что не попадет ни одной, равной 1-c·Δх.

Воспользуемся этим для вычисления вероятности Pm попадания на отрезок l ровно m точек. Разделим отрезок l на n равных частей длиной Условимся называть элементарный отрезок Δх "пустым", если в него не попало ни одной точки, и "занятым", если в него попала хотя бы одна. Согласно вышедоказанному вероятность того, что отрезок Δх окажется "занятым", приближенно равна λ·Δх= ; вероятность того, что он окажется "пустым", равна 1- . Так как, согласно условию 2, попадания точек в неперекрывающиеся отрезки независимы, то наши n отрезков можно рассмотреть как n независимых "опытов", в каждом из которых отрезок может быть "занят" с вероятностью p= . Найдем вероятность того, что среди n отрезков будет ровно m "занятых". По теореме о повторных независимых испытаниях эта вероятность равна

,

или обозначим λl=a:

.

При достаточно большом n эта вероятность приближенно равна вероятности попадания на отрезок l ровно m точек, т.к. попадание двух или больше точек на отрезок Δх имеет пренебрежимо малую вероятность. Для того, чтобы найти точное значение Рm, нужно перейти к пределу при n→∞:

Учитывая, что

,

получаем, что искомая вероятность выражается формулой

где а=λl, т.е. величина Х распределена по закону Пуассона с параметром а=λl.

Надо отметить, что величина а по смыслу представляет собой среднее число точек, приходящееся на отрезок l. Величина R1 (вероятность того, что величина Х примет положительное значение) в данном случае выражает вероятность того, что на отрезок l попадет хотя бы одна точка: R1=1-e-a.

Таким образом, мы убедились, что распределение Пуассона возникает там, где какие-то точки (или другие элементы) занимают случайное положение независимо друг от друга, и подсчитывается количество этих точек, попавших в какую-то область. В нашем случае такой областью был отрезок l на оси абсцисс. Однако этот вывод легко можно распространить и на случай распределения точек на плоскости (случайное плоское поле точек) и в пространстве (случайное пространственное поле точек). Нетрудно доказать, что если соблюдены условия:

1) точки распределены в поле статистически равномерно со средней плотностью λ;

2) точки попадают в неперекрывающиеся области независимым образом;

3) точки появляются поодиночке, а не парами, тройками и т.д.,

то число точек Х, попавших в любую область D (плоскую или пространственную), распределяется по закону Пуассона:

,

где а - среднее число точек, попадающих в область D.

Для плоского случая а=SD λ, где SD - площадь области D,

для пространственного а= VD λ, где VD - объем области D.

Для пуассоновского распределения числа точек, попадающих в отрезок или область, условие постоянной плотности (λ=const) несущественно. Если выполнены два других условия, то закон Пуассона все равно имеет место, только параметр а в нем приобретает другое выражение: он получается не простым умножением плотности λ на длину, площадь или объем, а интегрированием переменной плотности по отрезку, площади или объему.

Распределение Пуассона играет важную роль в ряде вопросов физики, теории связи, теории надежности, теории массового обслуживания и т.д. Всюду, где в течение определенного времени может происходить случайное число каких-то событий (радиоактивных распадов, телефонных вызовов, отказов оборудования, несчастный случаях и т.п.).

Рассмотрим наиболее типичную ситуацию, в которой возникает распределение Пуассона. Пусть некоторые события (покупки в магазине) могут происходить в случайные моменты времени. Определим число появлений таких событий в промежутке времени от 0 до Т.

Случайное число событий, происшедших за время от 0 до Т, распределено по закону Пуассона с параметром l=аТ, где а>0 – параметр задачи, отражающий среднюю частоту событий. Вероятность k покупок в течение большого интервала времени, (например, – дня) составит


Заключение

В заключение хочется отметить то, что распределение Пуассона является достаточно распространенным и важным распределением, имеющим применение как в теории вероятностей и ее приложениях, так и в математической статистике.

Многие задачи практики сводятся в конечном счете к распределению Пуассона. Его особое свойство, заключающееся в равенстве математического ожидания и дисперсии, часто применяют на практике для решения вопроса, распределена случайная величина по закону Пуассона или нет.

Также важен тот факт, что закон Пуассона позволяет находить вероятности события в повторных независимых испытаниях при большом количестве повторов опыта и малой единичной вероятности.

Однако распределение Бернулли применяется в практике экономических расчетов и в частности при анализе устойчивости исключительно редко. Это связано как с вычислительными сложностями, так и с тем, что распределение Бернулли – для дискретных величин, и с тем, что условия классической схемы (независимость, счетное число испытаний, неизменность условий, влияющих на возможность наступления события) не всегда выполняются в практических ситуациях. Дальнейшие исследования в области анализа схемы Бернулли, проводимые в XVIII-XIX вв. Лапласом, Муавром, Пуассоном и другими были направлены на создание возможности использования схемы Бернулли в случае большого, стремящегося к бесконечности количества испытаний.


Литература

1. Вентцель Е.С. Теория вероятностей. - М, "Высшая школа" 1998

2. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. - М, "Высшая школа" 1998

3. Сборник задач по математике для втузов. Под ред. Ефимова А.В. - М, Наука 1990

Биномиальный закон распределения относится к случаям, когда была сделана выборка фиксированного объема. Распределение Пуассона относится к случаям, когда число случайных событий происходит на определенных длине, площади, объеме или времени, при этом определяющим параметром распределения является среднее число событийт , а не объем выборки п и вероятность успеха р. Например, количество несоответствий в выборке или количество несоответствий, приходящихся на единицу продукции.

Распределение вероятностей для числа успехов х имеет при этом следующий вид:

Или можно сказать, что дискретная случайная величина X распределена по закону Пуассона, если ее возможные значения 0,1, 2, ...т, ...п, а вероятность появления таких значений определяется соотношением:

(14)

где m или λ- некоторая положительная величина, называемая параметром распределения Пуассона.

Закон Пуассона распространяется на «редко» происходящие события, при этом возможность очередной удачи (например, сбоя) сохраняется непрерывно, является постоянной и не зависит от числа предыдущих удач или неудач (когда речь идет о процессах, развивающихся во времени, это называют «независимостью от прошлого»). Классическим примером, когда применим закон Пуассона, является число телефонных вызовов на телефонной станции в течение заданного интервала времени. Другими примерами могут быть число чернильных клякс на странице, неаккуратно написанной рукописи, или число соринок, оказавшихся на кузове автомобиля во время его окраски. Закон распределения Пуассона измеряет число дефектов, а не число бракованных изделий.

Распределению Пуассона подчиняется количество случайных событий, которые появляются в фиксированные промежутки времени или в фиксированной области пространства, При λ<1 значение P(m) монотонно убывает с ростом m то, a при λ> 1 значениеP(m)с ростом т проходит через максимум вблизи /

Особенностью распределения Пуассона является равенство дисперсии математическому ожиданию. Параметры распределения Пуассона

M(x) = σ 2 = λ (15)

Эта особенность распределения Пуассона позволяет на практике утверждать, что экспериментально полученное распределение случайной величины подчинено распределению Пуассона, если выборочные значения математического ожидания и дисперсии примерно равны.

Закон редких событий применяется в машиностроении для выборочного контроля готовой продукции, когда по техническим условиям в принимаемой партии продукции допускается некоторый процент брака (обычно небольшой) q<<0.1.

Если вероятность q события А очень мала (q≤0,1), а число испытаний велико, то вероятность того, что событие А наступит m раз в n испытаниях, будет равна



,

где λ = М(х) = nq

Для вычисления распределения Пуассона можно пользоваться следующими рекуррентными соотношениями

и (16)

Распределение Пуассона играет важную роль в статистических методах обеспечения качества, поскольку с его помощью можно аппроксимировать гипергеометрическое и биномиальное распределения.

Такая аппроксимация допустима, когда , при условии, что qn имеет конечный предел и q<0.1. Когда п →∞ , а р → 0, среднее п р = т = const.

При помощи закона редких событий можно вычислить вероятность того, что в выборке из n единиц будет содержаться: 0,1,2,3, и т.д. бракованных деталей, т.е. заданное m раз. Можно также вычислить вероятность появления в такой выборке m штук дефектных деталей и более. Эта вероятность на основании правила сложения вероятностей будет равна-:

Пример 1 . В партии имеются бракованные детали, доля которых составляет 0,1. Последовательно берут 10 деталей и обследуют, после чего их возвращают в партию, т.е. испытания носят независимый характер. Какова вероятность того, что при проверке 10 деталей попадется одна бракованная?

Решение Из условия задачи q=0,1; n=10; m=1.Очевидно, что р=1-q=0,9.

Полученный результат можно отнести и к тому случаю, когда извлекается подряд 10 деталей без возврата их обратно в партию. При достаточно большой партии, например, 1000 шт., вероятность извлечения деталей изменится ничтожно мало. Поэтому при таких условиях извлечение бракованной детали можно рассматривать как событие, не зависящее от результатов предшествующих испытаний.

Пример 2. В партии имеется 1% бракованных дета- лей. Какова вероятность того, что при взятии из партии выборки объемом 50 единиц продукции в ней будет находиться 0, 1, 2, 3 ,4дефектных деталей??

Решение. Здесь q=0.01, nq=50*0.01=0.5

Таким образом, для эффективного применения распределения Пуассона как аппроксимации биномиального необходимо, чтобы вероятность успеха р была существенно меньше q . a п р = т была порядка единицы (или нескольких единиц).

Таким образом, в статистических методах обеспечения качества

гипергеометрический закон применим для выборок любого объема п и любого уровня несоответствий q ,

биномиальный закон и закон Пуассона являются его частными случаями соответственно при условии, если n/N<0,1 и

Рассмотрим распределение Пуассона, вычислим его математическое ожидание, дисперсию, моду. С помощью функции MS EXCEL ПУАССОН.РАСП() построим графики функции распределения и плотности вероятности. Произведем оценку параметра распределения, его математического ожидания и стандартного отклонения.

Сначала дадим сухое формальное определение распределения, затем приведем примеры ситуаций, когда распределение Пуассона (англ. Poisson distribution ) является адекватной моделью для описания случайной величины.

Если случайные события происходят в заданный период времени (или в определенном объеме вещества) со средней частотой λ(лямбда ), то число событий x , произошедших за этот период времени, будет иметь распределение Пуассона .

Применение распределения Пуассона

Примеры, когда Распределение Пуассона является адекватной моделью:

  • число вызовов, поступивших на телефонную станцию за определенный период времени;
  • число частиц, подвергнувшихся радиоактивному распаду за определенный период времени;
  • число дефектов в куске ткани фиксированной длины.

Распределение Пуассона является адекватной моделью, если выполняются следующие условия:

  • события происходят независимо друг от друга, т.е. вероятность последующего события не зависит от предыдущего;
  • средняя частота событий постоянна. Как следствие, вероятность события пропорциональна длине интервала наблюдения;
  • два события не могут произойти одновременно;
  • число событий должно принимать значения 0; 1; 2…

Примечание : Хорошей подсказкой, что наблюдаемая случайная величина имеет распределение Пуассона, является тот факт, что приблизительно равно (см. ниже).

Ниже представлены примеры ситуаций, когда Распределение Пуассона не может быть применено:

  • число студентов, которые выходят из университета в течение часа (т.к. средний поток студентов не постоянен: во время занятий студентов мало, а в перерыве между занятиями число студентов резко возрастает);
  • число землетрясений амплитудой 5 баллов в год в Калифорнии (т.к. одно землетрясение может вызвать повторные толчки сходной амплитуды – события не независимы);
  • число дней, которые пациенты проводят в отделении интенсивной терапии (т.к. число дней, которое пациенты проводят в отделении интенсивной терапии всегда больше 0).

Примечание : Распределение Пуассона является приближением более точных дискретных распределений: и .

Примечание : О взаимосвязи распределения Пуассона и Биномиального распределения можно прочитать в статье . О взаимосвязи распределения Пуассона и Экспоненциального распределения можно прочитать в статье про .

Распределение Пуассона в MS EXCEL

В MS EXCEL, начиная с версии 2010, для Распределения Пуассона имеется функция ПУАССОН.РАСП() , английское название - POISSON.DIST(), которая позволяет вычислить не только вероятность того, что за заданный период времени произойдет х событий (функцию плотности вероятности p(x), см. формулу выше), но и (вероятность того, что за заданный период времени произойдет не меньше x событий).

До MS EXCEL 2010 в EXCEL была функция ПУАССОН() , которая также позволяет вычислить функцию распределения и плотность вероятности p(x). ПУАССОН() оставлена в MS EXCEL 2010 для совместимости.

В файле примера приведены графики плотности распределения вероятности и интегральной функции распределения .

Распределение Пуассона имеет скошенную форму (длинный хвост справа у функции вероятности), но при увеличении параметра λ становится все более симметричным.

Примечание : Среднее и дисперсия (квадрат ) равны параметру распределения Пуассона – λ (см. файл примера лист Пример ).

Задача

Типичным применением Распределения Пуассона в контроле качества является модель количества дефектов, которые могут появиться в приборе или устройстве.

Например, при среднем количестве дефектов в микросхеме λ (лямбда) равном 4, вероятность, что случайно выбранная микросхема будет иметь 2 или меньше дефектов, равна: =ПУАССОН.РАСП(2;4;ИСТИНА)=0,2381

Третий параметр в функции установлен = ИСТИНА, поэтому функция вернет интегральную функцию распределения , то есть вероятность того, что число случайных событий окажется в диапазоне от 0 до 4 включительно.

Вычисления в этом случае производятся по формуле:

Вероятность того, что случайно выбранная микросхема будет иметь ровно 2 дефекта, равна: =ПУАССОН.РАСП(2;4;ЛОЖЬ)=0,1465

Третий параметр в функции установлен = ЛОЖЬ, поэтому функция вернет плотность вероятности.

Вероятность того, что случайно выбранная микросхема будет иметь больше 2-х дефектов, равна: =1-ПУАССОН.РАСП(2;4;ИСТИНА) =0,8535

Примечание : Если x не является целым числом, то при вычислении формулы . Формулы =ПУАССОН.РАСП(2 ; 4; ЛОЖЬ) и =ПУАССОН.РАСП(2,9 ; 4; ЛОЖЬ) вернут одинаковый результат.

Генерация случайных чисел и оценка λ

При значениях λ>15 , Распределение Пуассона хорошо аппроксимируется Нормальным распределением со следующими параметрами: μ, σ 2 .

Подробнее о связи этих распределений, можно прочитать в статье . Там же приведены примеры аппроксимации, и пояснены условия, когда она возможна и с какой точностью.

СОВЕТ : О других распределениях MS EXCEL можно прочитать в статье .

Во многих практически важных приложениях большую роль играет распределение Пуассона. Многие из числовых дискретных величин являются реализациями пуассоновского процесса, обладающего следующими свойствами:

  • Нас интересует, сколько раз происходит некое событие в заданной области возможных исходов случайного эксперимента. Область возможных исходов может представлять собой интервал времени, отрезок, поверхность и т.п.
  • Вероятность данного события одинакова для всех областей возможных исходов.
  • Количество событий, происходящих в одной области возможных исходов, не зависит от количества событий, происходящих в других областях.
  • Вероятность того, что в одной и той же области возможных исходов данное событие происходит больше одного раза, стремится к нулю по мере уменьшения области возможных исходов.

Чтобы глубже понять смысл пуассоновского процесса, предположим, что мы исследуем количество клиентов, посещающих отделение банка, расположенное в центральном деловом районе, во время ланча, т.е. с 12 до 13 часов. Предположим, требуется определить количество клиентов, приходящих за одну минуту. Обладает ли эта ситуация особенностями, перечисленными выше? Во-первых, событие, которое нас интересует, представляет собой приход клиента, а область возможных исходов - одноминутный интервал. Сколько клиентов придет в банк за минуту - ни одного, один, два или больше? Во-вторых, разумно предположить, что вероятность прихода клиента на протяжении минуты одинакова для всех одноминутных интервалов. В-третьих, приход одного клиента в течение любого одноминутного интервала не зависит от прихода любого другого клиента в течение любого другого одноминутного интервала. И, наконец, вероятность того, что в банк придет больше одного клиента стремится к нулю, если временной интервал стремится к нулю, например, становится меньше 0,1 с. Итак, количество клиентов, приходящих в банк во время ланча в течение одной минуты, описывается распределением Пуассона.

Распределение Пуассона имеет один параметр, обозначаемый символом λ (греческая буква «лямбда») – среднее количество успешных испытаний в заданной области возможных исходов. Дисперсия распределения Пуассона также равна λ, а его стандартное отклонение равно . Количество успешных испытаний Х пуассоновской случайной величины изменяется от 0 до бесконечности. Распределение Пуассона описывается формулой:

где Р(Х) - вероятность X успешных испытаний, λ - ожидаемое количество успехов, е - основание натурального логарифма, равное 2,71828, X - количество успехов в единицу времени.

Вернемся к нашему примеру. Допустим, что в течение обеденного перерыва в среднем в банк приходят три клиента в минуту. Какова вероятность того, что в данную минуту в банк придут два клиента? А чему равна вероятность того, что в банк придут более двух клиентов?

Применим формулу (1) с параметром λ = 3. Тогда вероятность того, что в течение данной минуты в банк придут два клиента, равна

Вероятность того, что в банк придут более двух клиентов, равна Р(Х > 2) = Р(Х = 3) + Р(Х = 4) + … + Р(Х = ∞) . Поскольку сумма всех вероятностей должна быть равной 1, члены ряда, стоящего в правой части формулы, представляют собой вероятность дополнения к событию Х≤ 2. Иначе говоря, сумма этого ряда равна 1 – Р(Х ≤ 2). Таким образом, Р(Х> 2) = 1 – Р(Х≤2) = 1 – [Р(Х = 0) + Р(Х = 1) + Р(Х = 2)]. Теперь, используя формулу (1), получаем:

Таким образом, вероятность того, что в банк в течение минуты придут не больше двух клиентов, равна 0,423 (или 42,3%), а вероятность того, что в банк в течение минуты придут больше двух клиентов, равна 0,577 (или 57,7%).

Такие вычисления могут показаться утомительными, особенно если параметр λ достаточно велик. Чтобы избежать сложных вычислений, многие пуассоновские вероятности можно найти в специальных таблицах (рис. 1). Например, вероятность того, что в заданную минуту в банк придут два клиента, если в среднем в банк приходят три клиента в минуту, находится на пересечении строки X = 2 и столбца λ = 3. Таким образом, она равна 0,2240 или 22,4%.

Рис. 1. Пуассоновская вероятность при λ = 3

Сейчас вряд ли кто-то будет пользоваться таблицами, если под рукой есть Excel с его функцией =ПУАССОН.РАСП() (рис. 2). Эта функция имеет три параметра: число успешных испытаний Х , среднее ожидаемое количество успешных испытаний λ, параметр Интегральная , принимающий два значения: ЛОЖЬ – в этом случае вычисляется вероятность числа успешных испытаний Х (только Х), ИСТИНА – в этом случае вычисляется вероятность числа успешных испытаний от 0 до Х.

Рис. 2. Расчет в Excel вероятностей распределения Пуассона при λ = 3

Аппроксимация биноминального распределения с помощью распределения Пуассона

Если число n велико, а число р - мало, биномиальное распределение можно аппроксимировать с помощью распределения Пуассона. Чем больше число n и меньше число р , тем выше точность аппроксимации. Для аппроксимации биномиального распределения используется следующая модель Пуассона.

где Р(Х) - вероятность X успехов при заданных параметрах n и р , n - объем выборки, р - истинная вероятность успеха, е - основание натурального логарифма, X - количество успехов в выборке (X = 0, 1, 2, …, n ).

Теоретически случайная величина, имеющая распределение Пуассона, принимает значения от 0 до ∞. Однако в тех ситуациях, когда распределение Пуассона применяется для приближения биномиального распределения, пуассоновская случайная величина - количество успехов среди n наблюдений - не может превышать число n . Из формулы (2) следует, что с увеличением числа n и уменьшением числа р вероятность обнаружить большое количество успехов уменьшается и стремится к нулю.

Как говорилось выше, математическое ожидание µ и дисперсия σ 2 распределения Пуассона равны λ. Следовательно, при аппроксимации биномиального распределения с помощью распределения Пуассона для приближения математического ожидания следует применять формулу (3).

(3) µ = Е(Х) = λ = np

Для аппроксимации стандартного отклонения используется формула (4).

Обратите внимание на то, что стандартное отклонение, вычисленное по формуле (4), стремится к стандартному отклонению в биномиальной модели – , когда вероятность успеха p стремится к нулю, и, соответственно, вероятность неудачи 1 – р стремится к единице.

Предположим, что 8% шин, произведенных на некотором заводе, являются бракованными. Чтобы проиллюстрировать применение распределения Пуассона для аппроксимации биномиального распределения, вычислим вероятность обнаружить одну дефектную шину в выборке, состоящей из 20 шин. Применим формулу (2), получим

Если бы мы вычислили истинное биномиальное распределение, а не его приближение, то получили бы следующий результат:

Однако эти вычисления довольно утомительны. В то же время, если вы используете Excel для вычисления вероятностей, то применение аппроксимации в виде распределения Пуассона становится излишним. На рис. 3 показано, что трудоемкость вычислений в Excel одинакова. Тем не менее, этот раздел, на мой взгляд, полезен понимаем того, что при некоторых условиях биноминальное распределение и распределение Пуассона дают близкие результаты.

Рис. 3. Сравнение трудоемкости расчетов в Excel: (а) распределение Пуассона; (б) биноминальное распределение

Итак, в настоящей и двух предыдущих заметках были рассмотрены три дискретных числовых распределения: , и Пуассона. Чтобы лучше представлять, как эти распределения соотносятся друг с другом приведем небольшое дерево вопросов (рис. 4).

Рис. 4. Классификация дискретных распределений вероятностей

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 320–328

Например, регистрируется количество дорожных происшествий за неделю на определенном участке дороги. Это число представляет собой случайную величину, которая может принимать значения: (верхнего предела нет). Число дорожных происшествий может быть каким угодно большим. Если рассмотреть какой-либо короткий временной промежуток в течение недели, скажем минуту, то происшествие либо произойдет на его протяжении, либо нет. Вероятность дорожного происшествия в течение отдельно взятой минуты очень мала, и примерно такая же она для всех минут.

Распределение вероятностей числа происшествий описывается формулой:

где m - среднее количество происшествий за неделю на определенном участке дороги; е - константа, равная 2,718...

Характерные особенности данных, для которых наилучшим образом подходит распределение Пуассона, следующие:

1. Каждый малый интервал времени может рассматриваться как опыт, результатом которого является одно из двух: либо происшествие (“успех”), либо его отсутствие (“неудача”). Интервалы столь малы, что может быть только один “успех” в одном интервале, вероятность которого мала и неизменна.

2. Число “успехов" в одном большом интервале не зависит от их числа в другом, т.е. “успехи” беспорядочно разбросаны по временным промежуткам.

3. Среднее число “успехов” постоянно на протяжении всего времени. Распределение вероятностей Пуассона может быть использовано не только при работе со случайными величинами на временных интервалах, но и при учете дефектов дорожного покрытия на километр пути или опечаток на страницу текста. Общая формула распределения вероятностей Пуассона:

где m - среднее число “успехов” на единицу.

В таблицах распределения вероятностей Пуассона значения табулированы для определенных значений m и

Пример 2.7. В среднем на телефонной станции заказывают три телефонных разговора в течение пяти минут. Какова вероятность, что будет заказано 0, 1,2, 3, 4 или больше четырех разговоров в течение пяти минут?

Применим распределение вероятностей Пуассона, так как:

1. Существует неограниченное количество опытов, т.е. маленьких отрезков времени, когда может появиться заказ на телефонный разговор, вероятность чего мала и постоянна.

2. Считается, что спрос на телефонные разговоры беспорядочно распределен во времени.

3. Считается, что среднее число телефонных разговоров в любом -минутном отрезке времени одинаково.

В этом примере среднее число заказов равно 3 за 5 минут. Отсюда, распределение Пуассона:

При распределении вероятностей Пуассона, зная среднее число “успехов” на 5-минутном промежутке (например как в примере 2.7), для того чтобы узнать среднее число “успехов” за один час, нужно просто умножить на 12. В примере 2.7 среднее число заказов в час составит: 3 х 12 = 36. Аналогично, если требуется определить среднее число заказов в минуту:

Пример 2.8. В среднем за пять дней рабочей недели на автоматической линии происходят 3,4 неполадок. Какова вероятность двух неполадок в каждый день работы? Решение.

Можно применить распределение Пуассона:

1. Существует неограниченное количество опытов, т.е. малых промежутков времени, в течение каждого из них может произойти или не произойти неполадка на автоматической линии. Вероятность этого для каждого промежутка времени мала и постоянна.

2. Предполагается, что неполадки беспорядочно расположены во времени.

3. Предполагается, что среднее число неполадок в течение любых пяти дней постоянно.

Среднее число неполадок равно 3, 4 за пять дней. Отсюда число неполадок в день:

Следовательно,