Формула байеса в excel как сделать
В теории вероятностей и математической статистике есть две очень важные формулы: формула полной вероятности и формула Байеса. Однако многие люди очень запутались в этих двух формулах. Во-первых, я не знаю значения формулы, а во-вторых, я не знаю, какое практическое применение могут иметь эти холодные формулы.
1. Формула полной вероятности
Прежде чем говорить о формуле полной вероятности, мы должны сначала понять, что такое " Полная группа событий ”。
Мы встретимся
Предположим, мы хотим изучить событие А. Мы надеемся найти P ( A ) , Но после некоторого исследования я обнаружил P ( A ) Трудно найти напрямую , Но найти каждого проще P ( B i ) , И соответствующая условная вероятность P ( A | B i ) 。
Можем ли мы выяснить косвенно на основе этой информации P ( A ) Какая? Чтобы
Конечно, это возможно.
Не будем забывать, B i да Взаимоисключающий оф. Чтобы
Очевидно, A B 1 , A B 2 , A B 3 , ⋯ Также Взаимоисключающий оф.1
Когда дело доходит до взаимного исключения, мы думаем о вероятности Плюс теорема :2
Согласно определению условной вероятности, получаем формулу полной вероятности в учебнике:
Формулу полной вероятности можно понять под другим углом. B i Как событие A Типа " Возможный способ "Если будет принят другой подход, A Вероятность возникновения, которая представляет собой соответствующую условную вероятность P ( A | B i ) Будет иначе. Однако мы не знаем заранее, какой путь мы пойдем. Другими словами, Выбор подхода случаен 3, Что приводит к тому, что вас могут выбрать разными способами. P ( B i ) Смысл выражен. Таким образом, то, что нам в конечном итоге требуется P ( A ) , На самом деле Средневзвешенное значение различных вероятностей пути 。
Приведем пример. Чтобы
Воровство преобладает в определенном месте, а вор продолжает учить. Основываясь на прошлых историях болезни, мы делаем вывод, что вероятность совершения преступления А сегодня вечером равна 0,8, вероятность совершения преступления В сегодня вечером равна 0,1 и вероятность совершения преступления С сегодня вечером равна 0,5. Кроме того, мы также делаем вывод, что показатель успеха А равен 0,1. Показатель успеха B равен 1,0, а показатель успеха C равен 0,5. Итак, какова вероятность того, что сегодня в деревне что-нибудь украдут? Чтобы
После прочтения вышеупомянутого текста у нас, вероятно, будет предварительное впечатление об A, B и C. Во-первых, у А могут быть проблемы с мозгом, особенно с воровством, но технология довольно плохая. B кажется мастером арены, обычно не делает ход и никогда не пропустит ход. С, вероятно, стремление к золотой середине, очень распространенное во всех аспектах. Чтобы
Мы переводим текстовое описание на математический язык, который может быть известен по частоте преступлений.
P ( S | A ) = 0.1 , P ( S | B ) = 1.0 , P ( S | C ) = 0.5
P ( S | A ) = 0.1 , P ( S | B ) = 1.0 , P ( S | C ) = 0.5
P ( S | A ) = 0.1 , P ( S | B ) = 1.0 , P ( S | C ) = 0.5 P ( S | A ) = 0.1 , P ( S | B ) = 1.0 , P ( S | C ) = 0.5 P ( S | A ) = 0.1 , P ( S | B ) = 1.0 , P ( S | C ) = 0.5
Это очень просто, вы получаете
Удачного вечера в этой деревне.
2. Байесовская формула
Используя предыдущее основание, мы теперь напрямую отбрасываем байесовскую формулу:
например:
Предположим, что уровень переносимости определенного патогена в популяции составляет 0,03. Из-за отсталых технологий и по другим причинам носители иногда не обнаруживаются с положительными реакциями (ложноотрицательные), а носители без бактерий могут также обнаруживаться с положительными реакциями (ложноположительные результаты). ). Следующие данные:
P ( Ян Секс | группа бактерии ) = 0.99 , P ( инь Секс | группа бактерии ) = 0.01 , P ( Ян Секс | Не делайте группа бактерии ) = 0.05 , P ( инь Секс | Не делайте группа бактерии ) = 0.95
Если у человека положительный результат теста, какова вероятность того, что человек будет переносить бактерии?
Если вы не думаете о вероятности, просто подумайте об этой проблеме, основываясь на своих чувствах . уровень ложного обнаружения настолько низок, то вероятность заражения, вероятно, очень высока, верно? Чтобы
Давайте воспользуемся формулой Байеса, чтобы вычислить его. Чтобы
P ( группа бактерии | Ян Секс ) = P ( группа бактерии ) P ( Ян Секс | группа бактерии ) P ( группа бактерии ) P ( Ян Секс | группа бактерии ) + P ( Не делайте группа бактерии ) P ( Ян Секс | Не делайте группа бактерии ) = 0.03 × 0.99 0.03 × 0.99 + 0.97 × 0.05 = 0.38 P ( группа бактерии | Ян Секс ) = P ( группа бактерии ) P ( Ян Секс | группа бактерии ) P ( группа бактерии ) P ( Ян Секс | группа бактерии ) + P ( Не делайте группа бактерии ) P ( Ян Секс | Не делайте группа бактерии ) = 0.03 × 0.99 0.03 × 0.99 + 0.97 × 0.05 = 0.38 P ( группа бактерии | Ян Секс ) = P ( группа бактерии ) P ( Ян Секс | группа бактерии ) P ( группа бактерии ) P ( Ян Секс | группа бактерии ) + P ( Не делайте группа бактерии ) P ( Ян Секс | Не делайте группа бактерии )
P ( группа бактерии | Ян Секс ) = P ( группа бактерии ) P ( Ян Секс | группа бактерии ) P ( группа бактерии ) P ( Ян Секс | группа бактерии ) + P ( Не делайте группа бактерии ) P ( Ян Секс | Не делайте группа бактерии ) = 0.03 × 0.99 0.03 × 0.99 + 0.97 × 0.05 = 0.38 P ( группа бактерии | Ян Секс ) = P ( группа бактерии ) P ( Ян Секс | группа бактерии ) P ( группа бактерии ) P ( Ян Секс | группа бактерии ) + P ( Не делайте группа бактерии ) P ( Ян Секс | Не делайте группа бактерии ) = 0.03 × 0.99 0.03 × 0.99 + 0.97 × 0.05 = 0.38 P ( группа бактерии | Ян Секс ) = P ( группа бактерии ) P ( Ян Секс | группа бактерии ) P ( группа бактерии ) P ( Ян Секс | группа бактерии ) + P ( Не делайте группа бактерии ) P ( Ян Секс | Не делайте группа бактерии ) = 0.03 × 0.99 0.03 × 0.99 + 0.97 × 0.05 = 0.38
Результат не был даже 40%. Чтобы
в чем проблема? Мы не заметили, что уровень переносимости бактерий составляет всего 0,03, что даже ниже, чем уровень ложного обнаружения. Другими словами, множество положительных результатов можно обнаружить у большого количества людей, и лишь небольшая часть этих положительных людей является носителем бактерий.
Байесовская формула и машинное обучение
В машинном обучении одна из проблем, с которыми мы часто сталкиваемся, - это классификация. Чтобы
Давайте посмотрим на проблему "гендерной классификации" в Википедии (Википедия - наивный байесовский классификатор)。
Мы хотим определить, является ли человек мужчиной или женщиной, зная рост, вес и размер стопы человека. Чтобы
Конечно, для того, чтобы судить, нам нужны некоторые справочные данные или данные обучения:
Пол | Высота (футы) | Вес в фунтах) | Размер стопы (дюйм) |
---|---|---|---|
мужской | 6 | 180 | 12 |
мужской | 5.92 | 190 | 11 |
мужской | 5.58 | 170 | 12 |
мужской | 5.92 | 165 | 10 |
женский | 5 | 100 | 6 |
женский | 5.5 | 150 | 8 |
женский | 5.42 | 130 | 7 |
женский | 5.75 | 150 | 9 |
Вот и проблема:
Есть человек ростом 6 футов, весом 130 фунтов и размером стопы 8 дюймов. Этот человек мужчина или женщина?
Эта таблица не кажется достаточно интуитивно понятной, давайте сначала немного поработаем с визуализацией данных:
Согласно байесовской формуле,
Наша задача - просто сравнить размеры, а знаменатель в правой части приведенной выше формулы является константой, поэтому мы можем игнорировать его, чтобы упростить расчет. В настоящее время наш вопрос - как задать p ( F 1 , F 2 , F 3 | C ) P ( C ) Вверх. Чтобы
Мы идентифицируем F 1 、 F 2 、 F 3 Независимые функции4, То есть
Итак, наша проблема упрощена до
Этого достаточно? конечно, нет. У нас все еще есть серьезная проблема - нерешенные непрерывные случайные величины. Мы не можем вычислять как дискретные случайные величины p ( F i | C ) 。
Однако мы можем предположить, что рост, вес и размер стопы - все это Нормальное распределение 。
Проанализируем числовые характеристики выборки данных:
Пол | Среднее (рост) | Дисперсия (высота) | Среднее (вес) | Дисперсия (вес) | Среднее (размер стопы) | Дисперсия (размер стопы) |
---|---|---|---|---|---|---|
мужской | 5.855 | 3.5033e-02 | 176.25 | 1.2292e+02 | 11.25 | 9.1667e-01 |
женский пол | 5.4175 | 9.7225e-02 | 132.5 | 5.5833e+02 | 7.5 | 1.6667e+00 |
Получите среднее значение и дисперсию и получите нормальное распределение μ против σ 2 параметр. Чтобы
таким образом, p ( F 1 | C ) p ( F 2 | C ) p ( F 3 | C ) Найти можно гладко. Чтобы
Например,
Стоит отметить, что это плотность вероятности непрерывной случайной величины, поэтому нормально найти значение больше 1. 5 。
остаток P ( C ) Его можно оценить по частоте мужчин и женщин в выборке, и оба они оцениваются как 0,5.
Таким образом, мы можем рассчитать:
p ( F 1 = 6 | мужской ) p ( F 2 = 130 | мужской ) p ( F 3 = 8 | мужской ) P ( мужской ) = 6.1984 × 10 − 9 p ( F 1 = 6 | женский ) p ( F 2 = 130 | женский ) p ( F 3 = 8 | женский ) P ( женский ) = 5.3778 × 10 − 4
Из результатов расчетов видно, что этот человек гораздо чаще будет женщиной, чем мужчиной.
Если вы хотите реализовать этот процесс посредством программирования, вы также должны рассмотреть возможность сглаживания, которое здесь не повторяется.
Очень часто при работе в Excel необходимо использовать вычисления вероятности появления некоторого события. Для этого используется статистическая функция ВЕРОЯТНОСТЬ.
Примеры использования функции вероятность для расчетов в Excel
Стоит отметить, что используются часто в Excel и другие статистические функции, к примеру:
Функция выполняет вычисление вероятности того, что значения с интервала находятся в заданных пределах. В случае, если верхний предел не будет задан, то будет возвращена вероятность того, что значения аргумента x_интервал будет равно значению аргумента под названием нижний_предел.
Вычисление процента вероятности события в Excel
Пример 1. Дана таблица диапазона числовых значений, а также вероятностей, которые им соответствуют:
Необходимо при использовании данной статистической функции вычислить вероятность события, что значение с указанного интервала входит в интервал [1;4].
Для этого введем функцию со следующими аргументами:
- х_интервал – это начальные данные (0, …, 4);
- интервал вероятностей является множеством вероятностей для начальных данных (0,15; 0,1; 0,15; 0,2; 0,4);
- нижний предел равен значению 1;
- верхний предел равен 4.
В результате выполненных вычислений получим:
Введем в ячейку С3 введем функцию с такими аргументами:
- х_интервал – начальные параметры (0, …, 4);
- интервал вероятностей – совокупность вероятностей для параметров (0,1; 0,15; 0,2; 0,15; 0,4);
- нижний предел – 4;
В данном примере верхний предел не указан, поскольку необходимо конкретное значение вероятности, а именно для значения 4.
Функция ВЕРОЯТНОСТЬ при нескольких условиях интервалов
Пример 3. В условии примера 1 нужно вычислить вероятность того, что значения интервала [0; 4] будут находится находятся внутри интервалов [0;1] и [3;4].
Описание формул аналогичные предыдущим примерам.
В результате выполненных вычислений получим:
Таким образом составив формулу можно с помощью данной функции вычислить процент вероятности при нескольких условиях.
Читайте также: