Бета распределение в excel
Распределения вероятностей в MS EXCEL. Нормальное распределение, Биномиальное распределение, распределение Стьюдента, Вейбулла, Фишера и др. Оценка параметров распределения, вычисление математического ожидания и дисперсии. Функции MS EXCEL: НОРМ.РАСП(), СТЬЮДЕНТ.РАСП(), ХИ2.РАСП() и др. Рассмотрены ВСЕ распределения, имеющиеся в MS EXCEL 2010.
Взаимосвязь некоторых распределений в MS EXCEL
Рассмотрим взаимосвязь Биномиального распределения, распределения Пуассона, Нормального распределения и Гипергеометрического распределения. Определим условия, когда возможна аппроксимация одного распределения другим, приведем примеры и графики.
Генерация дискретного случайного числа с произвольной функцией распределения в MS EXCEL
Задана произвольная функция распределения дискретной случайной величины. Сгенерируем случайное число из этой генеральной совокупности. Также рассмотрим функцию ВЕРОЯТНОСТЬ() .
Функция распределения и плотность вероятности в MS EXCEL
Нормальное распределение. Непрерывные распределения в MS EXCEL
Рассмотрим Нормальное распределение. С помощью функции MS EXCEL НОРМ.РАСП() построим графики функции распределения и плотности вероятности. Сгенерируем массив случайных чисел, распределенных по нормальному закону, произведем оценку параметров распределения, среднего значения …
Равномерное дискретное распределение в MS EXCEL
Рассмотрим Равномерное дискретное распределение, построим график функции распределения, вычислим среднее значение и дисперсию. Сгенерируем случайные значения (выборку) с помощью функции MS EXCEL СЛУЧМЕЖДУ() . На основании выборки оценим среднее и …
Гипергеометрическое распределение. Дискретные распределения в MS EXCEL
Рассмотрим Гипергеометрическое распределение, вычислим его математическое ожидание, дисперсию, моду. С помощью функции MS EXCEL ГИПЕРГЕОМ.РАСП() построим графики функции распределения и плотности вероятности. Приведем пример аппроксимации гипергеометрического распределения биномиальным.
Биномиальное распределение. Дискретные распределения в MS EXCEL
Рассмотрим Биномиальное распределение, вычислим его математическое ожидание, дисперсию, моду. С помощью функции MS EXCEL БИНОМ.РАСП() построим графики функции распределения и плотности вероятности. Произведем оценку параметра распределения p, математического ожидания распределения …
Распределение Стьюдента (t-распределение). Распределения математической статистики в MS EXCEL
Рассмотрим Распределение Стьюдента (t-распределение). С помощью функции MS EXCEL СТЬЮДЕНТ.РАСП() построим графики функции распределения и плотности вероятности, поясним применение этого распределения для целей математической статистики.
Бета-распределение — это распределение вероятностей по вероятностям. Мы можем использовать его для моделирования вероятностей: рейтинг кликов вашей рекламы, коэффициент конверсии клиентов, фактически купивших что-то на вашем сайте, насколько вероятно, что посетители поставят лайки в вашем блоге, насколько вероятно избрание Трампа на второй срок, 5-летний прогноз выживания женщин с раком груди и так далее.
Так как бета-распределение моделирует вероятность, его область определения ограничена 0 и 1.
Интуитивное определение
Давайте на минутку проигнор и руем коэффициент 1/B(α,β) и рассмотрим только числитель x^(α-1) * (1-x)^(β-1), потому что 1/B(α,β) — просто нормализирующая постоянная для того, чтобы функция интегрировалась к 1.
Тогда выражения в числителе — x в некоторой степени, умноженное на 1-x в некоторой степени — выглядят знакомо.
Интуиция бета-распределения вступает в игру, когда мы рассматриваем ее через призму биномиального распределения.
биномиальное (n, p) vs. X
Разница между биномиальным и бета-распределением в том, что первое моделирует число событий (x), а второе моделирует вероятность (p) как таковую.
Другими словами, вероятность — параметр в биномиальном распределении, а в бета—случайная переменная.
Интерпретация α, β
Примем α-1 за количество успешных исходов и β-1 за количество неудач, совсем как n и n-x в биномиальном распределении.
Параметры α и β могут быть какими угодно. Если вы думаете, что вероятность успеха очень велика, скажем, 90%, задайте значение 90 для α и 10 для β. Или наоборот, 90 для β и 10 для α.
Когда α становится больше (больше успешных событий), выпуклость функции смещается вправо, в то время как увеличение β сдвигает распределение влево (больше неудач).
Кроме того, распределение будет сужаться с одновременным увеличением α и β.
Пример: вероятность вероятности
Скажем, насколько вероятно, что кто-то согласится пойти с вами на свидание, следуя бета-распределению с α = 2 и β = 8. Какова вероятность того, что коэффициент успеха будет более 50%?
P(X>0.5) = 1- функция распределения(0.5) = 0.01953
Сожалею, вероятность очень низкая 😢
Доктор Богнар из Университета Айовы написал полезный и красивый калькулятор для бета-распределения. Поэкспериментируйте со значениями α и β и посмотрите, как меняется форма.
Чтобы распределение вероятностей моделировало вероятность, любое произвольное распределение по (0, 1) сработает. И создать его было бы легко: просто возьмите любую функцию, которая не вздувается между 0 и 1 и остается положительной, затем проинтегрируйте ее от 0 до 1 и разделите функцию на результат. Вы только что получили функцию, которую можно использовать для моделирования вероятности. Так почему же мы настаиваем на использовании бета-распределения по произвольному распределению вероятностей?
Что такого особенного в бета-распределении?
Бета-распределение — это сопряженное априорное распределение для распределений Бернулли, биномиального, отрицательного биномиального и геометрического (похоже, это распределения, включающие в себя успех и неудачу) в байесовском выводе.
Использовать сопряженное априорное распределение для вычисления априорной вероятности очень удобно, так как вы сможете избежать трудоемких численных расчетов, связанных с байесовским выводом.
Если вы не знаете, что такое сопряженное априорное распределение или баейсовский вывод, прочитайте сперва эти две статьи:
В нашем примере про свидание бета-распределение является сопряженным до биномиальной вероятности. Если мы решим использовать бета-распределение в качестве сопряженного априорного в процессе моделирования, то мы уже будем знать, что априорное распределение также будет бета-распределением. Следовательно, после проведения большего количества экспериментов (попросив еще больше людей сходить с вами на свидание), вы сможете вычислить апостериорную вероятность просто добавив число согласий и отказов к существующим параметрам α, β соответственно, вместо того, чтобы умножать вероятность на априорное распределение.
Бета-распределение очень гибкое
Плотность вероятности бета-распределения может быть U-образной формы с асимптотическими концами, колоколообразным, строго возрастающим или убывающим или даже просто линией. Вы изменяете значения α или β — форма распределения тоже меняется.
a. Колокообразное
Обратите внимание, что график плотности вероятности с α = 8 и β = 2 голубой, не красный. Ось x — это вероятность успешного исхода.
Плотность вероятности бета-распределения приблизительно нормальная, если α +β достаточно велико, а α и β приблизительно одинаковы.
b. Прямые
Бета-распределение плотности вероятности может быть и прямой линией!
c. U-образная форма
Когда α <1, β<1, плотность вероятности бета-распределения принимает U-образную форму.
Интуиция за формами
Почему бета-распределение (2,2) будет колокообразным?
Если α-1 — количество успешных исходов и β-1 — количество неудач, Бета(2,2) означает 1 успех и 1 неудачу. Имеет смысл предполагать, что вероятность успеха наиболее высока в 0.5.
Кроме того, Бета(1,1) будет означать, что у вас 0 в голове функции и 0 в хвосте. Тогда предположение о вероятности будет одинаковым на протяжении [0,1]; горизонтальная прямая подтверждает это.
Код для создания графиков, показанных выше:
Когда я изучала бета-распределение в университете, я выводила его из порядковой статистики. Хоть порядковая статистика и не самое распространенное применение бета-распределения, но она помогла мне глубже и лучше его понять.
Пусть X_1, X_2, . . . , X_n — независимые и одинаково распределенные случайные переменные с плотностью вероятности f и распределением вероятности F.
Мы расположим их по возрастанию так, чтобы X_k был k-ым наименьшим X, называемым k-ой порядковой статистикой.
Вообще, сама формулировка — оценить некоторое значение и нашу уверенность в нём — наталкивает на мысль об использовании модели распределения вероятностей, например, нормального распределения.
Для тех, кто прогуливал пары мат. статистики, напомню, что из себя представляет нормальное распределение, да и вообще распределение вероятностей. Допустим, мы пришли на остановку и увидели, как прямо перед нами уехал автобус. Мы знаем, что следующий приедет примерно через 15 минут (на 15й минуте). Ну, может на 16й. Или наоборот, на 14й. В принципе, водитель может поторопиться и приехать уже на 12 минуте, но вероятность этого гораздо ниже. График внизу как раз и показывает распределение вероятностей приезда автобуса в каждую минуту: скорее всего он приедет на 15й минуте, с чуть-чуть меньшей вероятностью — на 14й или 16й, и совсем с небольшой вероятностью на 12й или 18й.
При этом следует понимать, что значение по оси Y — это не вероятность, а плотность вероятности (probability density function, PDF). Сама вероятность высчитывается как площадь под графиком между двумя значениями X1 и X2, например, вероятность, что автобус придёт между 15 и 16 минутой в данном случае равна 0.248. Но об этом позже.
Нормальное распределение характеризуется двумя параметрами — средним значеним (mean, здесь — 15 минут) и дисперсией (variance, разброс), которая показывает степень неопределённости среднего значения: чем больше дисперсия, тем шире график, и тем меньше мы уверены в том, когда же наконец придёт этот автобус.
Рейтинг, как правило, это просто число, какой-то конечный результат оценивания. А собственно оценивать мы будем предполагаемое качество фильма (кофемолки, статьи, пользователя — нужно подчеркнуть). На графике ниже показаны графики распределений для двух гипотетических фильмов.
Первый фильм (синяя линия) вызвал противоречивые отзывы (среднее значение распределения равно 0.5). В отличие от него, второй фильм (зелёная линия) получил больше положительных, чем отрицательных оценок, однако людей проголосовало гораздо меньше, поэтому и в результате мы уверены гораздо меньше (дисперсия гораздо больше, чем в первом графике).
В принципе, нормальное распределение само по себе уже позволяет неплохо моделировать рейтинг (теоретическое обоснование для этого даёт центральная предельная теорема). Однако в статистике есть и более удобный инструмент для этого.
Бета-распределение
Так же, как и нормальное, бета-распределение задаётся двумя параметрами — alpha > 0 и beta > 0 (записывается как X
B(alpha, beta)). Одако в отличие от нормального, всегда имеющего форму колокола, бета-распределение обладает гораздо большей гибкостью. В частности, при alpha = 1 и beta = 1 данное распределение превращается в равномерное (тёмно-синяя линия на рисунке внизу), при alpha < 1 и beta < 1 функция распределения принимает форму колодца (зелёная линия), а при alpha > 1 и beta > 1 становится похожа на нормальное (красная и светло-голубая линии).
Было бы нечестно и дальше продолжать показывать графики и не рассказывать, как их нарисовать и поиграться с параметрами, поэтому здесь и ниже я буду показывать примеры кода для генерации каждого изображения. Примеры будут на Python с использованием библиотек NumPy, SciPy и matplotlib (все три доступны из pip), однако их можно элементарно перенести на R, Matlab/Octave, Java и даже JavaScript.
Для всех примеров понадобатся следующие импорты:
Предыдущий график был сгенерирован следующим кодом:
Кроме этого, бета-распределение обладает несколькими интересными свойствами:
- Оно ограничено конечным интервалом. Если мы хотим «запереть» возможные значения в интервал от 0 до 1, то бета-распределение — как раз то, что надо.
- Оно симметрично относительно своих параметров. График B(alpha, beta) будет зеркальным отражением графика B(beta, alpha).
- alpha и beta действуют на разные стороны графика плотности. При увеличении alpha график смещается и наклоняется вправо, при увеличении beta — наоборот, влево.
- Дисперсия при увеличении любого из параметров уменьшается.
Оценки пользователей
А что, если использовать в качестве параметров alpha и beta соответственно количество положительных и количество отрицательных оценок пользователей? При этом изначально бета распределение можно инициализировать единицами для обоих параметров (что, вообще говоря, будет соответствовать лапласовскому сглаживанию). В этом случае изначально наша оценка относительно качества фильма будет равномерно распределена (мы ничего не знаем о нём), а каждый голос будет увеличивать один из параметров, уменьшать дисперсию и сдвигать график либо вправо (alpha параметр, положительные отзывы), либо влево (beta параметр, отрицательные отзывы). При этом наша оценка качества фильма никогда не выйдет за пределы интервала [0..1] и, по сути, будет показывать вероятность того, что фильм понравится среднестатистическому зрителю.
Рассмотрим несколько примеров. Когда появляется новый фильм, про который ещё никто не высказал своё мнение, его параметры alpha и beta будут равны единице, а график плотности будет эквивалентен графику равномерного распределения:
Оказалось, что информацию о фильме загрузил сам режисёр. Сам загрузил, и сам же проголосовал. Естественно, положительно. Да ещё и пятерых своих помощников попросил помочь. Итог: alpha = 1 + 1 + 5 = 7, beta = 1.
Бывшая жена режиссёра увидела страницу фильма и решила подпортить рейтинг, вместе с любовником проголосовав отрицательно. Итог: alpha = 7, beta = 1 + 2 = 3:
После 8 голосов средняя оценка, с учётом лапласовского сглаживания, будет равна alpha / (alpha + beta) = 7 / 10 = 0.7. Однако из графика видно, что дисперсия получившегося распределения всё ещё высока, а значит наша уверенность в такой оценке — низкая.
Предположим, что в течении первой недели проката за фильм проголосовало ещё 90 человек, причём так, что параметр alpha в итоге оказался равен 70, а beta — 30. Средняя оценка будет, как и раньше, равна 70 / 100 = 0.7, однако график значительно изменится:
Дисперсия на втором графике гораздо меньше. Т.е. при увеличении количества голосов наша уверененность в оценке качества фильма также увеличивается.
Рейтинг
Всё это хорошо, но пользователь не хочет видеть какие-то странные графики. Ему нужен рейтинг — цифра, по которой он сможет определить, стоит ли смотреть фильм или лучше пойти почитать книгу. В принципе, имея параметры бета-распределения можно посчитать среднюю оценку и дисперсию, и каким-то образом пытаться их комбинировать (например, делить среднюю оценку на логарифм дисперсии). Но можно пойти и более статистически правильным путём.
Чтобы разговор был более предметным, возьмём для примера 2 фильма: один из предыдущего раздела с распределением B(70, 30) и другой, более популярный, с распределением B(650, 350). Графики распределений изображены на рисунке ниже:
С одной стороны, среднее значение оценок для первого фильма выше — 0.7 против 0.65. Однако, второй фильм посмотрело гораздо больше людей, поэтому ещё неизвестно, какова была бы оценка первого фильма после такого же количества отзывов. Так как же их сравнить?
Один из вариантов сравнения — это посчитать минимальное доверительное качество фильма, число, показывающее минимальную оценку, которую может получить фильм после бесконечного количества отзывов. В статистике не принято доводить всё до абсолюта, поэтому в качестве уровня доверия возьмём не 100%, а стандартные 95%. Это означает, что мы хотим быть на 95% уверены, что фильм не хуже, чем X. Графически это означает, что 95% площади под графиком должно находиться справа от X:
Практически все статистические библиотеки для всех реализованных распределений предоставляют функцию вероятности (cumulative probability function, CDF), которая принимает на вход значение и возвращает вероятность, что случайная величина окажется меньше этого значения. Т.е. по сути функция CDF от некоторого значения X возвращает площадь под графиком между нулём и X. Это отличается от того, что нам нужно, в двух аспектах.
Во-первых, нам нужна площадь с другой стороны — от X до 1. К счастью, как уже говорилось выше, бета-функция является симметричной относительно своих параметров, поэтому вместо прямого бета-распределения B(alpha, beta) мы можем работать с обратным — B(beta, alpha).
Во-вторых, нам нужна функция, которая по заданной степени уверенности (проценту от всей площади графика) вернёт искомое значение X. Чаще всего в мат. пакетах эта функция называется inverse CDF или как-то так, но в SciPy используется название PPF (percent point function, в литературе также встречается под названием quantile funtion).
Итого, чтобы получить значение минимального доверительного качества фильма можно использовать следующий код:
После подсчётов получилось, что с 95% вероятностью первый фильм в конечном итоге понравится как минимум 0.6227 от всех зрителей, а вот второй — 0.6250 из них. Разница всего в две тысячные, но если использовать эти оценки в рейтинге, то второй фильм, даже при меньшей средней оценке, окажется выше в списке.
Те же расчёты можно повторить и для фильмов, указанных в самом начале поста: для фильма с пропорцией 80/20 минимальное доверительное качество будет равно 0.731, а для фильма с пропорцией 9/1 — 0.717, т.е. количество голосов снова перевешивает среднюю оценку. Однако стоит добавить второму фильму всего один голос «за», и наш коэффициент для него становится равен 0.741, выводя его на первое место.
Вариации, достоинства и недостатки
Все коэффициенты, указанные здесь, взяты, по большому счёту, на глаз. Хотя, кажется, они и дают довольно вменяемый результат, в реальном приложении есть смысл попробовать для них разные значения. Например, при большом количестве пользователей, голосующих за фильмы, имеет смысл увеличивать параметры не на 1, а, например, на 0.5 для каждого голоса. Или даже вводить коэффициент затухания, когда каждый следующий голос имеет меньший вес, чем предыдущий — таким образом можно добиться замедления роста коэффициентов.
Кроме того, можно улучшить и изначальную оценку относительно фильма. В данной статье я исходил из того, что изначально мы ничего не знаем ни о самом фильме, ни о других фильмах у нас в системе, поэтому в начале фильму присваивается равномерное распределение (alpha = 1, beta = 1). Однако на практике мы, как правило, что-то уже знаем о фильме заранее и можем использовать эту информацию в качестве априорной оценки. Например, мы можем посчитать среднюю оценку для предыдущих фильмов этого режиссёра и инициализировать параметры бета-распределения соответствующим образом. Даже если мы ничего не знаем о режиссёре (продюсе, сценаристе, актёрском составе), мы можем использовать среднюю оценку по всем фильмам в нашей базе данных.
В принципе, метод можно расширить и для более градированных оценок, например, для шкалы от 0 до 10. В этом случае оценки выше 5 будут прибавляться к параметру alpha, ниже 5 — к beta, а при оценке ровно 5 — и alpha, и beta увеличиваются на 0.5 (привет Хабр!).
Наконец, можно варьировать требуемую степень уверенности в ответе или даже менять подход, используя вместо минимального доверительного качества площадь под графиком внутри некоторого фиксированного интервала.
Априорная вероятность — это вероятность события до того, как мы получили дополнительные данные.
В байесовском выводе априорное распределение — это наше предположение о вероятности, основанное на уже имеющихся знаниях.
Сопряженное априорное распределение невозможно понять без знания байесовского вывода.
Далее я предполагаю, что вы знаете принципы априорного, выборочного и апостериорного распределений.
Суть сопряженного априорного распределения
Для некоторых функций вероятности, если выбрать определенную априорную, апостериорная вероятность будет принадлежать тому же семейству распределений, что и эта априорная. Такое априорное распределение называется сопряженным.
На примерах о бъяснить проще. Ниже я привожу код для расчета апостериорного распределения биномиальной вероятности. θ — это вероятность успеха, и наша задача выбрать θ, которая максимизирует апостериорную вероятность:
Существуют две вещи, которые затрудняют вычисление апостериорной вероятности. Во-первых, мы вычисляем апостериорную вероятность для каждой θ.
Зачем? Затем, что мы нормализуем апостериорную вероятность (строка 21). Даже если вы решите не нормализовывать ее, конечной задачей будет — найти апостериорный максимум (Оценка апостериорного максимума). Чтобы найти максимум, нам нужно рассмотреть каждого кандидата — правдоподобие P(X|θ) для каждой θ.
Во-вторых, если нет замкнутой формулы апостериорного распределения, нам нужно найти максимум с помощью численной оптимизации (например, градиентного спуска или метода Ньютона).
Зная, что априорное распределение является сопряженным, вы можете пропустить вычисление posterior = likelihood * prior . К тому же, если ваше априорное распределение имеет замкнутую форму, вы уже знаете, каким должен быть апостериорный максимум.
В примере выше бета-распределение является сопряженным априорным распределением биномиального распределения. Что это значит? На этапе моделирования мы уже знаем, что апостериорное распределение тоже будет бета-распределением. Следовательно, после большего количества экспериментов, вы можете вычислить апостериорную вероятность простым добавлением количества успехов и неудач к существующим параметрам α, β, соответственно, вместо перемножения функции вероятности и априорного распределения. Это очень удобно! Доказательство ниже.
В науке о данных или машинном обучении модель никогда не бывает полностью завершена — вам постоянно нужно обновлять ее с поступлением новых данных (вот зачем мы используем байесовский вывод).
Вычисления в баейсовском выводе бывают довольно трудоемкими, иногда даже неразрешимыми. Но если использовать формулу замкнутой формы с сопряженным априорным распределением, вычислить их становится проще простого.
Когда мы используем бета-распределение в качестве априорного, апостериорное распределение биномиального правдоподобия также является бета-распределением.
Бета порождает бета
Как выглядит плотность вероятности биномиального и бета-распределений?
Давайте подставим их в знаменитую формулу Байеса.
θ — вероятность успеха.
x — число успешных исходов.
n — общее число попыток, следовательно, n-x — это число неудач.
Априорное распределение P(θ) соответствовало Beta(α, β). После получения x успехов и n-x неудач из экспериментов, апостериорное распределение также становится бета-распределением с параметрами (x+α, n-x+β).
Бета-распределение является сопряженным априорным распределением для распределений Бернулли, биномиального, отрицательного биномиального и геометрического (распределения, включающие в себя успех и неудачу).
Вот почему эти распределения (бета, гамма и нормальное) часто используются в качестве априорных.
И если вы изначально выбрали правильное априорное распределение, то даже после всех экспериментов и перемножения функции правдоподобия на априорное распределение окончательное распределение будет таким же, как и априорное.
Сопряженное априорное распределение P(θ) в уравнении:
Сопряженное априорное = Удобное распределение
- Когда мы используем сопряженное априорное распределение, последовательная оценка (обновление расчетов после каждого наблюдения) дает такой же результат, что и групповое распределение.
- Чтобы найти апостериорный максимум, вам не нужно нормализовывать произведение функции вероятности (выборочного распределения) и априорного распределения (интегрирования всех возможных θ в знаменателе).
Максимум можно найти и без нормализации. Однако, если вам нужно сравнить апостериорные вероятности из разных моделей или рассчитать точечные оценки, нормализация необходима.
Читайте также: