Гипергеометрическое распределение в excel
Распределения вероятностей в MS EXCEL. Нормальное распределение, Биномиальное распределение, распределение Стьюдента, Вейбулла, Фишера и др. Оценка параметров распределения, вычисление математического ожидания и дисперсии. Функции MS EXCEL: НОРМ.РАСП(), СТЬЮДЕНТ.РАСП(), ХИ2.РАСП() и др. Рассмотрены ВСЕ распределения, имеющиеся в MS EXCEL 2010.
Взаимосвязь некоторых распределений в MS EXCEL
Рассмотрим взаимосвязь Биномиального распределения, распределения Пуассона, Нормального распределения и Гипергеометрического распределения. Определим условия, когда возможна аппроксимация одного распределения другим, приведем примеры и графики.
Генерация дискретного случайного числа с произвольной функцией распределения в MS EXCEL
Задана произвольная функция распределения дискретной случайной величины. Сгенерируем случайное число из этой генеральной совокупности. Также рассмотрим функцию ВЕРОЯТНОСТЬ() .
Функция распределения и плотность вероятности в MS EXCEL
Нормальное распределение. Непрерывные распределения в MS EXCEL
Рассмотрим Нормальное распределение. С помощью функции MS EXCEL НОРМ.РАСП() построим графики функции распределения и плотности вероятности. Сгенерируем массив случайных чисел, распределенных по нормальному закону, произведем оценку параметров распределения, среднего значения …
Равномерное дискретное распределение в MS EXCEL
Рассмотрим Равномерное дискретное распределение, построим график функции распределения, вычислим среднее значение и дисперсию. Сгенерируем случайные значения (выборку) с помощью функции MS EXCEL СЛУЧМЕЖДУ() . На основании выборки оценим среднее и …
Гипергеометрическое распределение. Дискретные распределения в MS EXCEL
Рассмотрим Гипергеометрическое распределение, вычислим его математическое ожидание, дисперсию, моду. С помощью функции MS EXCEL ГИПЕРГЕОМ.РАСП() построим графики функции распределения и плотности вероятности. Приведем пример аппроксимации гипергеометрического распределения биномиальным.
Биномиальное распределение. Дискретные распределения в MS EXCEL
Рассмотрим Биномиальное распределение, вычислим его математическое ожидание, дисперсию, моду. С помощью функции MS EXCEL БИНОМ.РАСП() построим графики функции распределения и плотности вероятности. Произведем оценку параметра распределения p, математического ожидания распределения …
Распределение Стьюдента (t-распределение). Распределения математической статистики в MS EXCEL
Рассмотрим Распределение Стьюдента (t-распределение). С помощью функции MS EXCEL СТЬЮДЕНТ.РАСП() построим графики функции распределения и плотности вероятности, поясним применение этого распределения для целей математической статистики.
Рассмотрим взаимосвязь Биномиального распределения, распределения Пуассона, Нормального распределения и Гипергеометрического распределения. Определим условия, когда возможна аппроксимация одного распределения другим, приведем примеры и графики.
Схема взаимосвязи 4-х распределений случайных величин выглядит так:
- Биномиальное распределение B(n;p),
- Распределение Пуассона Pois(λ),
- Нормальное распределение N(μ;σ) и
- Гипергеометрическое распределение H(n;D;N)
Формулы приближенного вычисления разрабатывались для упрощения и ускорения вычислений в условиях отсутствия или дороговизны времени вычислительных машин. Учитывая современные возможности компьютеров, аппроксимация для этих целей сейчас стала бессмысленна. Однако, примеры, рассмотренные ниже, полезны для понимания условий применения того или иного распределения при решении реальных практических задач и понимания взаимосвязи различных распределений между собой.
Аппроксимация Гипергеометрического распределения Биноминальным распределением
В случае, когда размер совокупности N Гипергеометрического распределения гораздо больше размера выборки n (т.е., N >> n или n/N >n имеет место хорошая аппроксимация? Дело в том, что в случае Гипергеометрического распределения выборка производится без возвращения , т.е., результат каждого последующего испытания зависит от результатов предыдущих испытаний, что является нарушением условия применимости Биномиального распределения . По мере уменьшения отношения n/N предыдущие испытания все меньше и меньше влияют на исход последующих, тем самым обеспечивая выполнение условий эксперимента по Схеме Бернулли , лежащей в основе Биномиального распределения , что в свою очередь приводит к совпадению результатов этих двух распределений.
Связь Распределения Пуассона и Биномиального распределения
Распределение Пуассона с параметром λ( лямбда) является предельным случаем Биномиального распределения , при условии, если:
- параметр nБиномиального распределения стремится к бесконечности;
- вероятность успеха p стремится к 0;
- произведение n*p=λ достаточно мало и постоянно.
Строгое доказательство этого утверждения называется теоремой Пуассона , а приближенная формула – формулой Пуассона .
Примечание : Вывод формулы Пуассона основан на известном пределе
Можно сформулировать условия, когда приближение распределением Пуассона работает хорошо:
- p0,9 (учитывая, что q=1-p , вычисления в этом случае необходимо производить через q (а х нужно заменить на n-x ). Следовательно, чем меньше q и больше n , тем приближение точнее).
Примечание : Если 0,1 10, то Биномиальное распределение можно аппроксимировать Нормальным распределением . Подробнее, см. раздел Аппроксимация Биномиального распределения Нормальным распределением .
Для пояснения связи этих двух распределений рассмотрим задачу.
Задача
Известно, что среднее количество звонков, поступающих на телефонную станцию в течение 1 часа, равно 50. Необходимо произвести расчет вероятности количества вызовов, поступивших на станцию за 1 час.
Т.к. звонки делаются независимо, а средняя частота звонков постоянна, то вероятность количества звонков, поступивших на станцию за 1 час, можно смоделировать распределением Пуассона с параметром λ=50.
Теперь взглянем на ситуацию не с позиции телефонной станции, а с позиции поступления отдельных звонков, и построим модель на основе Биномиального распределения с параметрами n и p .
В основе Биномиального распределения лежит Схема Бернулли . Испытание в нашем случае будет состоять из регистрации факта поступления 1 звонка на станцию за определенный период времени. Напомним, что для применения Схемы Бернулли должны быть выполнены следующие 3 условия:
- Каждое испытание должно иметь только два исхода , условно называемых «успехом» и «неудачей». Для нашего случая – поступил звонок или нет;
- Результат каждого эксперимента не должен зависеть от результатов предыдущих экспериментов (независимость испытаний). Для нашего случая это обеспечивается предположением о независимости звонков от разных абонентов (звонят не сговариваясь).
- Вероятность успеха p должна быть постоянной для всех испытаний. В нашем случае вероятность регистрации звонка не зависит от того когда он был сделан: в начале периода наблюдения (часа) или в конце.
Предположим, что сначала решили, что в течение часа будет проведено 100 наблюдений (n=100). Т.е. каждые 36 секунд (1час= 3600сек) будет фиксироваться факт поступления звонка, причем звонок должен быть единственным за период наблюдения (требования условия 1 ). Но, это условие может быть и не выполнено, т.к. в течение 36 секунд может поступить 2 и более звонка. Это следует, из того что вероятность p поступления 1 звонка в течение данного периода наблюдения достаточно высока и равна 0,5=50%: в час поступает 50 звонков, т.е. в среднем 1 звонок за 3600сек/50=72 сек. Кроме того, параметр распределения Пуассона λ = n * p , следовательно p =50/100=0,5 .
Поэтому, чтобы соблюсти условие 1 применимости Биномиального распределения , необходимо сократить период наблюдения, увеличив n, тем самым исключив возможность регистрации за период наблюдения более 1 звонка.
Увеличим размер выборки n до 1000. Теперь факт поступления звонка будет фиксироваться каждые 3,6 сек=(1час=3600сек)/1000. В этом случае вероятность «успеха» p в одном испытании по Схеме Бернулли будет равна 50 звонков /1000 интервалов=0,05 . Теперь мы выполнили все 3 условия необходимые для применения приближения Биномиального распределения распределением Пуассона (см. начало статьи) .
При n=1000 обе модели ( распределение Пуассона и Биномиальное распределение ) должны давать одинаковый результат. Следовательно, формулы =БИНОМ.РАСП(x;n;p;ИСТИНА) и =ПУАССОН.РАСП(x;n*p;ИСТИНА) должны возвращать примерно одинаковые значения для одних и тех же х . Это видно на картинке ниже (см. файл примера лист Биномин-Пуассон ).
По мере уменьшения размера выборки n (при этом будет пропорционально увеличиваться вероятность p , т.к. будет расти интервал наблюдения за поступившими звонками), то приближение будет все менее точным (из-за нарушения условия 1 применимости Биномиального распределения ).
Например, при n=100, оба распределения будут существенно отличаться (для удобства изменения интервала в файле примера использован элемент управления Счетчик ).
О точности приближения. Как было показано выше, из формулы Пуассона следует, что при увеличении n разность между величинами, вычисленными по формулам ПУАССОН.РАСП() и БИНОМ.РАСП() стремится к нулю. Однако, следует учитывать, что формула Пуассона гарантирует только малую абсолютную погрешность, а относительная погрешность, может быть сколь угодно большой.
Например, для n=1000 и p=0,05 (λ=50) относительная погрешность при вычислении плотности вероятности составляет несколько процентов (см. файл примера лист Биномин-Пуассон ).
При уменьшении n (и, соответственно, увеличении p ), относительная погрешность существенно возрастает и может стать неприемлемой.
Аппроксимация Биномиального распределения Нормальным распределением
Если параметры Биномиального распределения B(n;p) находятся в пределах 0,1 10, то Биномиальное распределение можно аппроксимировать Нормальным распределением.
При n*p>10 форма графика плотности вероятности Биномиального распределения близка к колоколообразной форме Нормального распределения .
Напомним, что математическое ожидание (среднее) Биномиального распределения равно n*p, а дисперсия = n*p*q. Нормальное распределение с параметрами:μ= n*p,σ =КОРЕНЬ(n*p*q) хорошо аппроксимирует соответствующее Биномиальное распределение .
Как видно из рисунка выше, формулы =БИНОМ.РАСП(x;n;p;ЛОЖЬ) и =НОРМ.РАСП(х;n*p;КОРЕНЬ(n*p*(1-p));ЛОЖЬ)
возвращают примерно одинаковые результаты: относительная погрешность составляет примерно 1% (см. файл примера лист Биномин-Норм, столбец S ).
Приложение : Строгое математическое доказательство, обосновывающее возможность этого приближения, называется локальной теоремой Муавра-Лапласа, которая является следствием более общей Центральной предельной теоремы .
Приближение также можно осуществить через интегральную функцию нормального распределения , введя так называемую поправку на дискретность, вследствие того, что аппроксимируемое Биномиальное распределение является дискретным , а Нормальное распределение – непрерывным распределением . Поправка заключается в том, что для оценки вероятности биномиальной случайной величины принять некое значение х, вычисляется вероятность случайной величины, распределенной по соответствующему нормальному закону , принять значение в диапазоне от x-0,5 до x+0,5. В файле примера это реализовано с помощью формулы: =НОРМ.РАСП(x+0,5;n*p;КОРЕНЬ(n*p*(1-p));ИСТИНА)- НОРМ.РАСП(x-0,5;n*p;КОРЕНЬ(n*p*(1-p));ИСТИНА)
Результаты вычислений по обеим формулам (через плотность вероятности и интегральную) практически совпадают: для μ=250 относительная разница составляет доли процента.
Изначально формулы приближенного вычисления разрабатывались для упрощения вычислений. Хотя в современных условиях это уже не актуально, использование аппроксимирующего распределения, в некоторых случаях может упростить ход решения задачи. Поясним на примере.
Задача . Производственный процесс изготавливает десятки тысяч микросхем в день. В среднем, 10% микросхем – бракованные (доля дефектных равна 0,1). Регулярно, контролер качества отбирает партию определенного размера и тестирует микросхемы. Нужно определить, размер партии n , при котором наблюденная частота f = x брак / n с вероятностью 0,95 отличается от доли дефектных изделий 0,1 не более чем на 0,02.
Решение1 . Вероятность обнаружить в контрольной партии размера n определенное число х бракованных микросхем при доли дефектных p=0,1 соответствует модели Биномиального распределения .
По условиям задачи вероятность отклонения частоты f в обе стороны от ожидаемого значения 0,1 должна быть меньше 5% (1-0,95). Вероятность отклонения частоты f только в одну сторону, например в сторону превышения, должна быть меньше 5%/2=2,5%. Эта вероятность является альфа-риском (риском отклонить гипотезу, что оцениваемая доля бракованных p не больше заданного нами порогового значения). Поэтому, мы можем оценить наибольшее значение x, при котором с вероятностью 0,975 диапазон отклонения f от p еще не будет превышать 0,02. Для этого расчета в MS EXCEL можно использовать функцию БИНОМ.ОБР() или КРИТБИНОМ() для MS EXСEL 2007 и более ранних версий.
В качестве аргументов функции БИНОМ.ОБР() нужно указать размер выборки n, вероятность «успеха» p (т.е. обнаружения брака) и альфа-риск . Для расчетов в файле примера на листе Биномин-Норм создана форма, в которой, с использованием инструмента Подбор параметра, можно подобрать размер выборки n. В результате расчетов получим, что выборка должна быть не меньше 875 микросхем.
Решение2 . Учитывая, что для данных значений n и p возможно использовать приближение нормальным распределением с параметрами μ=n*p и σ =КОРЕНЬ(n*p*(1-p)) , решим задачу другим способом.
Ожидаемое количество бракованных изделий в партии размера n равно n*p. В соответствии с условиями задачи, количество бракованных изделий должно лежать в пределах [n*p-0,02*n; n*p+0,02*n] с вероятностью 95%. Воспользовавшись нормальным распределением , вычислим вероятность, того что количество бракованных микросхем будет находиться в этом диапазоне. Это можно сделать с помощью выражения: =НОРМ.РАСП(n*p+0,02*n; n*p; КОРЕНЬ(n*p*(1-p)); ИСТИНА) – НОРМ.РАСП(n*p-0,02*n; n*p; КОРЕНЬ(n*p*(1-p)); ИСТИНА)
Это выражение, при определенном n, должно равняться заданной вероятности 95%. Подбор n также сделаем с использованием инструмента Подбор параметра (в параметрах MS EXCEL установите количество итераций=1000, а точность 0,0001 или точнее). Найденное решение будет равно 864, что близко к результату, полученному с использованием Биномиального распределения . Причем ход решения даже прозрачней, чем в первом варианте решения.
Примечание : Решение задачи близко по сути с определением доверительного интервала .
Аппроксимация распределения Пуассона Нормальным распределением
При значениях λ >15 , Распределение Пуассона хорошо аппроксимируется Нормальным распределением со следующими параметрами: μ=λ , σ 2 =λ .
Для λ =1000 относительная погрешность составляет менее 1%. Расчеты приведены в файле примера на листе Пуассон-Норм .
Что такое формула гипергеометрического распределения?
Гипергеометрическое распределение - это в основном дискретное распределение вероятностей в статистике. Это очень похоже на биномиальное распределение, и мы можем сказать, что с уверенностью, что биномиальное распределение является хорошим приближением для гипергеометрического распределения, только если 5% или меньше населения были отобраны. Если у нас случайные ничьи, гипергеометрическое распределение - это вероятность успеха без замены предмета, который был нарисован. Но в биномиальном распределении вероятность вычисляется с заменой. Например, у вас есть корзина с N шариками, из которых «n» черные, и вы рисуете «m» шариками, не заменяя ни один из шариков. Таким образом, гипергеометрическое распределение - это распределение вероятностей числа черных шаров, извлеченных из корзины.
Формула для гипергеометрического распределения:
Probability of Hypergeometric Distribution = C(K, k) * C((N – K), (n – k)) / C(N, n)
- K - количество «успехов» в популяции
- k - количество «успехов» в выборке
- N - численность населения
- n - Размер выборки
Чтобы понять формулу гипергеометрического распределения, необходимо хорошо знать биномиальное распределение, а также формулу комбинации.
C (n, r) = n! / (r! * (nr)!)
- п! - n факториал = n * (n-1) * (n-2) ……… .. * 1
- р! - r факториал = r * (r-1) * (r-2) ……… .. * 1
- (пг)! - (nr) факториал = (nr) * (nr-1) * (nr-2) ……… .. * 1
Примеры формулы гипергеометрического распределения (с шаблоном Excel)
Давайте рассмотрим пример, чтобы лучше понять расчет гипергеометрического распределения.
Вы можете скачать этот шаблон Excel с формулой гипергеометрического распределения здесь - Шаблон Excel с гипергеометрической формулой распределения
Формула гипергеометрического распределения - пример № 1
Допустим, у вас есть колода цветных карт, в которой 30 карт, из которых 12 черных и 18 желтых. Вы взяли 5 карт случайным образом, не заменяя ни одну из карт. Теперь вы хотите узнать вероятность того, что ровно 3 желтых карточки вытянуты.
Решение:
Гипергеометрическое распределение рассчитывается по приведенной ниже формуле
Вероятность гипергеометрического распределения = C (K, k) * C ((N - K), (n - k)) / C (N, n)
- Вероятность получить ровно 3 желтых карточки = C (18, 3) * C ((30-18), (5-3)) / C (30, 5)
- Вероятность получить ровно 3 желтых карточки = C (18, 3) * C (12, 2) / C (30, 5)
- Вероятность получения ровно 3 желтых карточек = (18! / (3! * 15!)) * (12! / (2! * 10!)) / (30! / (5! * 25!))
- Вероятность получения ровно 3-х желтых карточек = 0, 3779
Формула гипергеометрического распределения - пример № 2
Допустим, вы живете в очень маленьком городке, в котором 75 женщин и 95 мужчин. Теперь в вашем городе было голосование, и все проголосовали. Выборка из 20 избирателей была выбрана случайным образом. Вы хотите рассчитать, какова вероятность того, что именно 12 из этих избирателей были избирателями мужского пола.
Решение:
Гипергеометрическое распределение рассчитывается по приведенной ниже формуле
Вероятность гипергеометрического распределения = C (K, k) * C ((N - K), (n - k)) / C (N, n)
- Вероятность получения 12 избирателей мужского пола = C (95, 12) * C ((170-95), (20-12)) / C (170, 20)
- Вероятность получения 12 избирателей мужского пола = C (95, 12) * C (75, 8) / C (170, 20)
- Вероятность получения 12 избирателей мужского пола = (95! / (12! * 83!)) * (75! / (8! * 63!)) / (170! / (20! * 150!))
- Вероятность получения 12 избирателей мужского пола = 0, 1766
объяснение
Как обсуждалось выше, гипергеометрическое распределение - это вероятность распределения, которая очень похожа на биномиальное распределение с той разницей, что в гипергеометрическом распределении не допускается замена. Чтобы выполнить этот тип эксперимента или распределения, есть несколько критериев, которые должны быть выполнены.
- Первое и главное требование состоит в том, чтобы собранные данные были дискретными по своему характеру.
- Каждый выбор или ничья не должны быть заменены другими, потому что всякий раз, когда случайная переменная рисуется без замены, она не является независимой и имеет отношение к тому, что нарисовано ранее.
- Там должно быть 2 набора из разных групп, и вы хотите знать вероятность определенного числа членов одной группы. Например, в примере голосования мы имеем мужчин и женщин. В примере с сумкой у нас есть желтая и черная группа.
Наряду с этими предположениями знание комбинации также играет жизненно важную роль в выполнении гипергеометрического распределения. Поэтому крайне важно знать понятия комбинации, прежде чем перейти к гипергеометрическому распределению.
Актуальность и использование формулы гипергеометрического распределения
Гипергеометрическое распределение имеет много применений в статистике и в практической жизни. Наиболее распространенное использование гипергеометрического распределения, которое мы видели выше в примерах, - это вычисление вероятности выборок, взятых из набора без замены. В реальной жизни лучшим примером является лотерея. Таким образом, в лотерее после того, как число вышло, оно не может вернуться назад и может быть заменено, поэтому гипергеометрическое распределение идеально подходит для таких ситуаций.
Рекомендуемые статьи
Это руководство по формуле гипергеометрического распределения. Здесь мы обсуждаем, как вычислить гипергеометрическое распределение, а также практические примеры. Мы также предоставляем загружаемый шаблон Excel. Вы также можете посмотреть следующие статьи, чтобы узнать больше -
P(X=k) = p * (1 – p) (k – 1)
- р = вероятность успеха
- k = испытание, на котором происходит первый успех
Примеры формул геометрического распределения (с шаблоном Excel)
Давайте рассмотрим пример, чтобы лучше понять расчет геометрического распределения.
Вы можете скачать этот шаблон формулы геометрического распределения Excel здесь - Шаблон формулы геометрического распределения Excel
Формула геометрического распределения - пример № 1
Решение:
Вероятность рассчитывается по формуле геометрического распределения, приведенной ниже.
P = p * (1 - p) (k - 1)
- Вероятность = 0, 25 * (1 - 0, 25) (8 - 1)
- Вероятность = 0, 0334
Таким образом, существует вероятность 0, 0334, что игрок с битой ударит первую границу после восьми шаров.
Формула геометрического распределения - пример № 2
Теперь давайте перейдем к футбольным видам спорта и возьмем пример футболиста, который забивает гол с вероятностью 0, 7 всякий раз, когда он получает мяч себе. Определите вероятность того, что футболист забьет свой первый гол после:
Решение:
8 попыток
Вероятность рассчитывается по формуле геометрического распределения, приведенной ниже.
P = p * (1 - p) (k - 1)
- Вероятность = 0, 7 * (1 - 0, 7) (8 - 1)
- Вероятность = 0, 00015
6 попыток
Вероятность рассчитывается по формуле геометрического распределения, приведенной ниже.
P = p * (1 - p) (k - 1)
- Вероятность = 0, 7 * (1 - 0, 7) (6 - 1)
- Вероятность = 0, 0017
4 попытки
Вероятность рассчитывается по формуле геометрического распределения, приведенной ниже.
P = p * (1 - p) (k - 1)
- Вероятность = 0, 7 * (1 - 0, 7) (4 - 1)
- Вероятность = 0, 0189
2 попытки
Вероятность рассчитывается по формуле геометрического распределения, приведенной ниже.
P = p * (1 - p) (k - 1)
- Вероятность = 0, 7 * (1 - 0, 7) (2 - 1)
- Вероятность = 0, 21
Следовательно, в приведенном выше примере можно видеть, что вероятность первого успеха уменьшается с увеличением количества неудачных попыток, то есть вероятность первого успеха снизилась с 0, 21 после 2 попыток до 0, 00015 после 8 попыток.
объяснение
Формула для геометрического распределения получается с помощью следующих шагов:
Шаг 1: Во-первых, определите вероятность успеха события, и оно обозначается как «р».
Шаг 2: Далее, поэтому вероятность отказа может быть рассчитана как (1 - p).
Шаг 3: Затем определите количество испытаний, в которых записан первый случай успеха или вероятность успеха равна единице. Количество испытаний обозначается как «k».
P (X = k) = p * (1 - p) (k - 1)
Актуальность и использование формулы геометрического распределения
Концепция геометрического распределения находит применение при определении вероятности первого успеха после определенного количества попыток. Фактически, модель геометрического распределения является частным случаем отрицательного биномиального распределения, и она применима только для той последовательности независимых испытаний, где в каждом исследовании возможны только два результата. Следует отметить, что в соответствии с этой моделью распределения при каждом увеличении числа неудачных попыток происходит значительное снижение вероятности первого успеха. В таких случаях распределение может использоваться для определения количества сбоев до первого успеха.
Калькулятор формулы геометрического распределения
Вы можете использовать следующий калькулятор геометрического распределения
п |
К |
Р (Х = к) |
P (X = k) = | p * (1 - p) (k-1) |
знак равно | 0 * (1 - 0) (0-1) = 0 |
Рекомендуемые статьи
Это руководство по формуле геометрического распределения. Здесь мы обсуждаем, как рассчитать геометрическое распределение вместе с практическими примерами. Мы также предоставляем геометрический калькулятор распределения с загружаемым шаблоном Excel. Вы также можете посмотреть следующие статьи, чтобы узнать больше -
Читайте также: