В вероятностных символах p t d есть выражение для
Источник данных: Banks E., Reeves G., Beral V., Bull D., Crossley B., Simmond M., Hilton E., Bailey S., Barret N., Briers P., Englis R., Jackson A., Kutt E., Lavelle J., Rockal L., Wallis M.G., Wilson M., Patnick J. Influence of personal characteristics of individual women on sensitivity and specificity of mammography in the Million Women Study: cohort study // BMJ, 2004. – Vol. 329. – No. – 7464. – P. 477-479.
Таблица 2×2:
Результат маммографии | Железодефицитная анемия (результат гистопатологического анализа биопсийного материала) | Всего |
Есть, [+] | Нет, [-] | |
Положительный, [+] | 4 514 | |
Отрицательный, [-] | 117 744 | 117 841 |
Всего | 121 629 | 122 355 |
Задание 1.
1. Изложите своими словами суть предложенного задания.
Ответ: Определить качество диагностического теста относительно золотого стандарта
2. Что выбрано в качестве золотого стандарта или эталона сравнения? Согласны ли Вы с его выбором?
Ответ:Биопсия,согласны
3. Какой диагностический тест сравнивается с эталонным? В чем его предполагаемое преимущество перед эталонным тестом?
Ответ:маммография, манипуляции легче,чем при взятии биопсии
4. Какое приложение Вы будете использовать для статистического контроля качества предлагаемого диагностического теста?
Ответ:DiagStatRus
5. Является ли исследование одновыборочным или двух выборочным?
Ответ: одновыборочное
6. Если исследование одновыборочное, то какую подпрограмму (название листа) Вы будете использовать?
Ответ:Одна выборка
Задание 2
Введите анализируемые данные в закрашенную область таблицы 2х2 в этой подпрограмме:
Золотой стандарт (ЗС) | ||
Болезнь | ||
Есть | Нет | Всего |
ПДТ | Позитив | 4 514 |
Негатив | 117 744 | 117 841 |
Всего | 121 629 | 122 355 |
1. Результаты какого теста указаны в столбцах этой таблицы, а какие – в ее строках?
Ответ: В столбцах-биопсия, в строках-маммография
2. Если исследование одновыборочное, то каков объем изученной выборки?
Ответ:122355
3. Сколько выявлено субъектов с болезнью?
4. Сколько выявлено субъектов без болезни?
Ответ:121629
5. Как принято обозначать одним словом положительные результаты проверяемого диагностического теста, и как – отрицательные результаты?
Ответ: Истинно позитивные и истинно негативные
6. Сколько получено позитивов и сколько негативов?
Ответ:4 514-позитивов, 117 841- негативов
7. Какими двухбуквенными символами принято обозначать истинные позитивы, ложные негативы, истинные негативы и ложные позитивы?
Ответ: истинные позитивы-D+T+, ложные негативы-D+T-, истинные негативы-D-T- и ложные позитивы-D-T+
8. Сколько из них выявлено истинных позитивов, ложных негативов, истинных негативов и сколько ложных позитивов?
Ответ: истинных позитивов-629, ложных негативов-97, истинных негативов-117744 и сколько ложных позитивов-3885
Задание 3
СТАТИСТИЧЕСКИЕ ОЦЕНКИ ВЕРОЯТНОСТНЫХ ПОКАЗАТЕЛЕЙ РАСПОЗНАВАТЕЛЬНОЙ СПОСОБНОСТИ ПДТ
1. Какие вероятностные показатели распознавательной способности Вы будете оценивать? Сколько таких показателей? Перечислите их названия, символьные обозначения и формульные выражения. Изложите своими словами их смысл.
Ответ:Чувствительность(Se-способность теста распознавать больных=a+1/a+c+2),контрчувствительность(coSe=1-Se),специфичность(Sp-способность теста распознавать здоровых=d+1/b+d+2),контрспецифичность(coSp=1-Sp)
2. Скопируйте блок с полученными результатами для показателей распознавательной способности в нижеследующую таблицу.
Проверяемый диагностический тест: содержание ферритина в сыворотке крови | ЖДА согласно эталону сравнения | Всего |
Наличие ЖДА | Отсутствие ЖДА | |
< 65 мМоль/мл | ||
> 65 мМоль/мл | ||
Всего |
3. Какие значения показателей распознавательной способности ПДТ следует признать неинформативными? Введите неинформативное значение для этих показателей в соответствующую строку в этой таблице.
Границы ДИ | Границы ДИ | Уровень доверия | ||||||||
Показатель | Оценка | Нижняя | Верхняя | Ширина ДИ | Показатель | Оценка | Нижняя | Верхняя | Ширина ДИ | |
ПОКАЗАТЕЛИ РАСПОЗНАВАТЕЛЬНОЙ СПОСОБНОСТИ ПДТ | ||||||||||
Чувствительность ПДТ | Контр-специфичность ПДТ | |||||||||
0,88 | 0,92 | 0,04 | 0,14 | 0,17 | 0,03 | 0,14 | 95% | |||
Se = P(T+|D+) | 0,90 | 0,87 | 0,93 | 0,05 | coSp = P(T+|D-) | 0,13 | 0,18 | 0,04 | 0,13 | 99% |
0,87 | 0,93 | 0,07 | 0,13 | 0,18 | 0,06 | 0,13 | 99.9% | |||
Неинформативное значение: 0,5 | ||||||||||
Контр-чувствительность ПДТ | Специфичность ПДТ | |||||||||
0,078 | 0,119 | 0,04 | 0,83 | 0,86 | 0,03 | 0,83 | 95% | |||
coSe = P(T-|D+) | 0,097 | 0,073 | 0,126 | 0,05 | Sp = P(T-|D-) | 0,82 | 0,87 | 0,04 | 0,82 | 99% |
0,066 | 0,135 | 0,07 | 0,82 | 0,87 | 0,06 | 0,82 | 99.9% |
4. Является ли отклонение каждого из оцениваемых показателей распознавательной способности ПДТ от их неинфоромативных значений статистически значимым или нет? Изложите ход рассуждений об их статистической значимости. (Что означает, когда ДИ содержит неинформативное значение данного показателя? Что означает, когда ДИ не содержит неинформативное значение данного показателя?
Ответ: Доверительный интервал 95%(99%,99,9%) не покрывает неинформативное значение оцениваемого показателя, значит, оцениваемое значение статистически значимо отличается от неинформативное.
5. Используя вербальную шкалу, охарактеризуйте словесно практическую ценность полученных оценок показателей распознавательной способности ПДТ.
Ответ: Чувствительность позитивов к наличию болезней высокая (0,90), чувствительная способность негативов средняя (0,82). Это значит, что тест обладает распознавательной способностью к определению наличия болезни большей, чем для определения отсутствия болезни.
СТАТИСТИЧЕСКИЕ ОЦЕНКИ ВЕРОЯТНОСТНЫХ ПОКАЗАТЕЛЕЙ ПРЕДСКАЗАТЕЛЬНОЙ СПОСОБНОСТИ ПДТ
1. Какие вероятностные показатели предсказательной способности Вы будете оценивать? Сколько таких показателей? Перечислите их названия, символьные обозначения и формульные выражения. Изложите словами их смысл.
Ответ: PPV-предсказательная способность позитива(=P(D+/T+)) определяет способность теста правильно прогнозировать болезнь. NPV-предсказательная способность негатива (=P(D-/T-)) определяет способность диагностировать отсутствие болезни.
2. Перепишите или скопируйте блок с полученными результатами для показателей предсказательной способности в нижеследующую таблицу.
Границы ДИ | Границы ДИ | Уровень доверия | ||||||||
Показатель | Оценка | Нижняя | Верхняя | Ширина ДИ | Показатель | Оценка | Нижняя | Верхняя | Ширина ДИ | |
ПОКАЗАТЕЛИ ПРЕДСКАЗАТЕЛЬНОЙ СПОСОБНОСТИ ПДТ | ||||||||||
Предсказательность "позитивов" | Контр-предсказательность "позитивов" | |||||||||
0,52 | 0,78 | 0,26 | 0,22 | 0,48 | 0,26 | 0,22 | 95% | |||
PPV = P(D+|T+) | 0,66 | 0,47 | 0,81 | 0,34 | coPPV = P(D-|T+) | 0,19 | 0,53 | 0,34 | 0,19 | 99% |
0,42 | 0,84 | 0,42 | 0,16 | 0,58 | 0,42 | 0,16 | 99.9% | |||
Неинформативное значение: 0,5 | ||||||||||
Контр-предсказательность "негативов" | Предсказательность "негативов" | |||||||||
0,020 | 0,066 | 0,046 | 0,934 | 0,980 | 0,046 | 0,934 | 95% | |||
coNPV = P(D+|T-) | 0,037 | 0,017 | 0,080 | 0,063 | NPV = P(D-|T-) | 0,920 | 0,983 | 0,063 | 0,920 | 99% |
0,013 | 0,098 | 0,084 | 0,902 | 0,987 | 0,084 | 0,902 | 99.9% | |||
0,020 | 0,066 | 0,046 | 0,934 | 0,980 | 0,046 | 0,934 | ||||
Распространенность заболевания | Контр-распространенность заболевания | |||||||||
95% | ||||||||||
Prev = P(D+) | coPrev = P(D-) | 99% | ||||||||
0,25 | 0,13 | 0,47 | 0,75 | 0,5300 | 0,8700 | 99.9% |
Сравните интервальные оценки для параметров предсказательной способности ПДТ c интервальными оценками распространенности и контр-распространенности заболевания.
Ответ: При 99,9% ДИ для PPV не пересекается с 99,9% ДИ для Prev, следовательно, оцениваемое значение PPV статистически отличается от распространенности на уровне значимости 0,001.
Изложите ход рассуждений о статистической значимости их различий:
Что означает, когда ДИ для предсказательности позитивов перекрываются с ДИ для распространенности?
Ответ :Это означает, что оцениваемое значение PPV статистически не отличается от распространенности, то есть тест неинформативен
1. Вероятности совместного появления P(xi, yj) объединения двух ансамблей заданы в виде табл. П.4.1 (X и Y – две последние цифры номера зачётной книжки). Определить точные и средние количества неопределенности в совместном наступлении событий xi и yj, а также точные и средние количества неопределенности в yj при известном исходе xi.
yj | xi | ||
х1 | x2 | x3 | |
y1 | 0,1 | 0,11 + 0,0k | 0,09 |
y2 | 0,09 | 0,03 | 0,02 |
y3 | 0,3 – 0,0k | 0,16 + 0,0L | 0,1 – 0,0L |
3. По каналу связи передаётся один из двух сигналов x1 или x2 с одинаковыми вероятностями. На выходе сигналы x1 и x2 преобразуются в сигналы y1 и y2, причём из-за помех, которым одинаково подвержены сигналы x1 и x2, в передачу вносится ошибка так, что в среднем Z сигналов из 100 принимается неверно. Определить среднее количество информации на один сигнал. Сравнить её с количеством информации при отсутствии помех.
В качестве X принять число zkL, переведённое в двоичный эквивалент (при необходимости дополнить до восьмиразрядного дописыванием нуля), в качестве Y принять двоичное число X, циклически сдвинутое влево на z разрядов.
5. Определить энтропии H(X), H(Y), H(X/Y), H(X,Y), если задана матрица вероятностей состояний системы, объединяющей источники X и Y:
.
6. Ансамбли событий X и Y объединены. Вероятности совместных событий (xi, yj) приведены в табл. П.4.2.
yj | xi | ||
х1 | x2 | x3 | |
y1 | 0,1 + 0,0k | 0,2 – 0,0k | 0,3 – 0,0L |
y2 | 0,25 | 0,15 + 0,0L |
1) энтропию ансамблей X и Y;
2) энтропию объединённого ансамбля (X,Y);
3) условные энтропии ансамблей;
4) количество информации, содержащейся в событиях Y относительно событий X.
7. Источник, используя алфавит из двух символов x1 и x2, вырабатывает последовательность, состоящую из этих символов. Вероятностные связи в данной последовательности имеют место между четырьмя символами. Определить все возможные состояния источника и порядок их следования в данной последовательности.
Исходную последовательность записать, представив число zkL в виде двоичного числа и поставив каждой его цифре в соответствие символ последовательности по следующему правилу: нулю – символ x1, единице – символ x2.
Вероятности появления пар заданы в табл. П.4.3.
Определить энтропию и сравнить её с энтропией источника, у которого отсутствуют коррелятивные связи.
xi xj | x1x1 | x1x2 | x1x3 | x2x1 | x2x2 | x2 x3 | x3x1 | x3x2 | x3x3 |
P(xi,xj) | 0,1 | 0,2 + 0,0L | 0,1 | 0,2 + 0,0k | 0,3 – 0,0L | 0,1 – 0,0k |
10. Эргодический источник с энтропией H(X) бит вырабатывает четыре различных символа. Найти отношение числа типичных к общему числу всевозможных последовательностей длиной M = 100 символов. Принять H(X) равным десятичному числу Z, k, где Z – целая часть, а k – десятичная часть.
11. Источник вырабатывает два символа A и B с вероятностями
P(A) = 0,5 + 0,kL и P(B) = 0,5 – 0,kL соответственно. Определить количество возможных последовательностей, содержащих nA символов A, причём nA + nB = 4. Определить вероятность события, которое заключается в том, что в выработанной источником последовательности длиной M содержится nA символов A.
12. Оценить, какую долю общего числа возможных последовательностей следует учитывать в практических расчетах, если эргодический источник, имеющий энтропию H(X), вырабатывает 2 z + 3 различных символов, а длина последовательностей M = 50. Принять H(X) = Z, k – десятичное число.
Примечание. Плотность вероятности случайной величины X, распределённой по гауссовскому закону, определяется выражением
.
15. Определить энтропию случайной величины, распределённой по экспоненциальному закону (принять c = zL + k):
16. Произвести сжатие символьной строки, содержащей фамилию,
имя и отчество студента, выполняющего контрольное задание, по методу
Шеннона – Фано и определить коэффициент сжатия.
17. Произвести сжатие символьной строки, содержащей фамилию, имя и отчество студента, выполняющего контрольное задание, по методу Хаффмена и определить коэффициент сжатия.
18. Произвести сжатие и восстановление текстовой строки, содержащей отчество студента, выполняющего контрольное задание, методом арифметического кодирования.
19. Произвести сжатие текстовой строки, содержащей фамилию студента, выполняющего контрольное задание, по методу сжатия данных LZW.
20. Произвести сжатие текстовой строки ХХХХХYYYZZYYYYYXXXZZZZZ по методу кодирования повторов, где Х, Y и Z начальные буквы фамилии, имени и отчества студента, выполняющего контрольное задание, соответственно. Указать недостатки данного метода.
21. Произвести шифрование фамилии, имени и отчества студента, выполняющего контрольное задание, методом моноалфавитной простой подстановки. В качестве ключа взять буквы русского алфавита, сдвинутые на k + L. Указать недостатки данного метода.
23. Зашифровать имя и отчество студента, выполняющего контрольное задание, кодом Виженера, в качестве ключа использовать фамилию. Указать достоинства данного метода.
24. Зашифровать фамилию студента, выполняющего контрольное задание, кодом Бофора yi = ki – xi (mod 33). Указать достоинства данного кода.
25. Зашифровать фамилию и отчество студента, выполняющего контрольное задание, с автоключом при использовании открытого текста. В качестве первичного ключа использовать своё имя.
26. Зашифровать фамилию и отчество студента, выполняющего контрольное задание, с автоключом при использовании криптограммы. В качестве первичного ключа использовать своё имя.
27. Зашифровать фамилию и имя студента, выполняющего контрольное задание, шифром Плэйфера.
28. Зашифровать фамилию, имя и отчество студента, выполняющего контрольное задание, методом усложненной перестановки, если запись по строкам производится ключом К1: 4–1–5–3–6–2, а чтение по столбцам в соответствии с ключом К2: 2–4–1–3.
29. Зашифровать и дешифровать фамилию студента, выполняющего контрольное задание, методом гаммирования в двоичном коде, если псевдослучайная последовательность чисел (гамма) имеет следующий вид: 10–2–16–29–11–17–1–21–25–3–18–5–23.
30. Рассчитать и выбрать секретные ключи для тайной переписки между двумя абонентами без передачи ключей. Зашифровать и дешифровать число kL. Привести схему алгоритма шифровки и дешифровки.
31. Рассчитать и выбрать ключи для тайной переписки между двумя абонентами в системе RSA (криптосистема с открытым ключом). Зашифровать и дешифровать число kL. Привести схему алгоритма выбора ключей и процесса шифровки и дешифровки.
34. По непрерывному каналу передаётся сигнал, спектр которого ограничен полосой частот F Гц. Определить пропускную способность канала таким образом, чтобы погрешность передаваемого сигнала не превышала z процентов. Принять F = zL + k.
35. Непрерывный канал связи с пропускной способностью С дв.ед./с предназначен для передачи квантованного сигнала с полосой частот F Гц. Определить число различных уровней измеряемого сигнала и погрешность измерений. В качестве F взять kL, С принять равным 5×z, если амплитуда полезного сигнала равна z вольт.
45. Получить алгоритм кодирования и декодирования кодовых комбинаций в систематическом коде, позволяющeм обнаруживать двойные или исправлять одиночные ошибки, если число информационных символов K = 5. Закодировать по полученному алгоритму число kL.
46. Закодировать в рекуррентном коде последовательность информационных символов с шагом сложения b = 3. Процесс образования контрольных символов пояснить с помощью функциональной электрической схемы. В качестве последовательности принять число zkL, представленное в двоичном коде, с повторением дважды. Привести описание работы кодера.
47. Из канала связи с помехами поступила последовательность, закодированная в рекуррентном коде (последовательность записать, как в задании 46) с шагом сложения b = 3. Декодировать данную последовательность. Привести функциональную электрическую схему декодера и дать описание её работы.
48. Привести функциональную схему кодирующего устройства несистематического свёрточного кода, если частичные порождающие полиномы имеют вид: P1(x) = x 4 + x 3 + x + 1; P2(x) = x 4 + x 2 + 1.
Закодировать с помощью данного устройства кодовую комбинацию G(x), соответствующую числу kL, записанному в двоичном коде. Записать импульсную переходную характеристику кодера.
49. Привести функциональную схему кодирующего устройства систематического свёрточного кода для порождающего полинома P(x) = x 4 + x 2 + x + 1.
Закодировать с помощью данного устройства кодовую комбинацию G(x), соответствующую числу kL, записанному в двоичном коде. Записать импульсную переходную характеристику кодера.
50. Привести функциональную схему кодирующего устройства несистематического свёрточного кода (8,4) для частичных порождающих полиномов P1(x) = x 3 + x 2 + x + 1 и P2(x) = x 3 + x 2 + 1. Проиллюстрировать работу кодера с помощью кодового дерева, если входная последовательность G(x) представляет число kL, записанное в двоичном коде.
51. Привести функциональную схему кодирующего устройства систематического свёрточного кода (8,4) для порождающего полинома P(x) = x 3 + x + 1. Проиллюстрировать работу кодера с помощью кодового дерева, если входная последовательность G(x) представляет число kL, записанное в двоичном коде.
52. Привести функциональную схему кодирующего устройства несистематического свёрточного кода (8,4) для частичных порождающих полиномов P1(x) = x 3 + x 2 + x + 1 и P2(x) = x 3 + x 2 + 1. Построить решетчатую диаграмму и произвести кодирование с ее помощью информационной последовательности G(x), соответствующей числу kL, записанному в двоичном коде.
53. Привести функциональную схему кодирующего устройства систематического свёрточного кода (8,4) для порождающего полинома P(x) = x 3 + x + 1. Построить решетчатую диаграмму и с её помощью произвести кодирование информационной последовательности G(x), соответствующей числу kL, записанному в двоичном коде.
Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.
Вероятностный подход
Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной кости, имеющей N граней. Результаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1, 2, . . . N.
Введем в рассмотрение численную величину, измеряющую неопределенность — энтропию (обозначим ее H). Согласно развитой теории, в случае равновероятного выпадания каждой из граней величины N и H связаны между собой формулой Хартли
Важным при введении какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Очевидно, H будет равно единице при N = 2. Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты при котором возможны два исхода: «орел», «решка»). Такая единица количества информации называется «бит».
В случае, когда вероятности Pi результатов опыта (в примере, приведенном выше — бросания игральной кости) неодинаковы, имеет место формула Шеннона
.
В случае равновероятности событий , и формула Шеннона переходит в формулу Хартли.
Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена табл. 3 вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.
Воспользуемся для подсчета H формулой Шеннона:H
4.72 бит. Полученное значение H, как и можно было предположить, меньше вычисленного ранее. Величина H, вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак. Аналогичные подсчеты H можно провести и для других языков, например, использующих латинский алфавит — английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле Хартли получим H = log2 27
Таблица 1.Частотность букв русского языка
i | Символ | P(i) | I | Символ | P(i) | I | Символ | P(i) |
_ | 0.175 | Л | 0.035 | Б | 0.014 | |||
О | 0.090 | К | 0.028 | Г | 0.012 | |||
Е | 0.072 | М | 0.026 | Ч | 0.012 | |||
Ё | 0.072 | Д | 0.025 | Й | 0.010 | |||
А | 0.062 | П | 0.023 | Х | 0.009 | |||
И | 0.062 | У | 0.021 | Ж | 0.007 | |||
T | 0.053 | Я | 0.018 | Ю | 0.006 | |||
H | 0.053 | Ы | 0.016 | Ш | 0.006 | |||
C | 0.045 | З | 0.016 | Ц | 0.004 | |||
P | 0.040 | Ь | 0.014 | Щ | 0.003 | |||
B | 0.038 | Ъ | 0.014 | Э | 0.003 | |||
Ф | 0.002 |
Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления (P(0)=P(1)= 0.5), то количество информации на один знак при двоичном кодировании будет равно
H = log2 2 = 1 бит.
Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.
Объемный подход
В двоичной системе счисления знаки 0 и 1 называют битами (от английского выражения Binary digiTs — двоичные цифры). В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода).
Для удобства использования введены и более крупные, чем бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один байт информации. 1024 байта образуют килобайт(Кбайт), 1024 килобайта — мегабайт (Мбайт), а 1024 мегабайта — гигабайт(Гбайт).
Понятие информации нельзя считать лишь техническим, междисциплинарным и даже наддисциплинарным термином. Информация — это фундаментальная философская категория. Дискуссии ученых о философских аспектах информации надежно показали несводимость информации ни к одной из этих категорий. Концепции и толкования, возникающие на пути догматических подходов, оказываются слишком частными, односторонними, не охватывающими всего объема этого понятия.
Попытки рассмотреть категорию информации с позиций основного вопроса философии привели к возникновению двух противостоящих концепций — так называемых, функциональной и атрибутивной. «Атрибутисты» квалифицируют информацию как свойство всех материальных объектов, т.е. как атрибут материи. «Функционалисты» связывают информацию лишь с функционированием сложных, самоорганизующихся систем. Можно попытаться дать философское определение информации с помощью указания на связь определяемого понятия с категориями отражения и активности. Информация есть содержание образа, формируемого в процессе отражения. Активность входит в это определение в виде представления о формировании некоего образа в процессе отражения некоторого субъект-объектного отношения. При этом не требуется указания на связь информации с материей, поскольку как субъект, так и объект процесса отражения могут принадлежать как к материальной, так и к духовной сфере социальной жизни. Однако существенно подчеркнуть, что материалистическое решение основного вопроса философии требует признания необходимости существования материальной среды — носителя информации в процессе такого отражения. Итак, информацию следует трактовать как имманентный (неотъемлемо присущий) атрибут материи, необходимый момент ее самодвижения и саморазвития. Эта категория приобретает особое значение применительно к высшим формам движения материи — биологической и социальной. Известно большое количество работ, посвященных физической трактовке информации. Эти работы в значительной мере построены на основе аналогии формулы Больцмана, описывающей энтропию статистической системы материальных частиц, и формулы Хартли. Соответствующие материалы можно найти в литературе, отраженной в приведенном ниже перечне. Информацию следует считать особым видом ресурса, при этом имеется в виду толкование «ресурса» как запаса неких знаний материальных предметов или энергетических, структурных или каких-либо других характеристик предмета. В отличие от ресурсов, связанных с материальными предметами, информационные ресурсы являются неистощимыми и предполагают существенно иные методы воспроизведения и обновления, чем материальные ресурсы. В связи с таким взглядом центральными становятся следующие свойства информации: запоминаемость, передаваемость, преобразуемость, воспроизводимость, стираемость. Подводя итог сказанному, отметим, что предпринимаются (но отнюдь не завершены) усилия ученых, представляющих самые разные области знания, построить единую теорию, которая призвана формализовать понятие информации и информационного процесса, описать превращения информации в процессах самой разной природы. Движение информации есть сущность процессов управления, которые суть проявление имманентной активности материи, ее способности к самодвижению. С момента возникновения кибернетики управление рассматривается применительно ко всем формам движения материи, а не только к высшим (биологической и социальной). Многие проявления движения в неживых — искусственных (технических) и естественных (природных) — системах также обладают общими признаками управления, хотя их исследуют в химии, физике, механике в энергетической, а не в информационной системе представлений. Информационные аспекты в таких системах составляют предмет новой междисциплинарной науки — синергетики. Высшей формой информации, проявляющейся в управлении в социальных системах, являются знания. Это наддисциплинарное понятие, широко используемое в педагогике и исследованиях по искусственному интеллекту, также претендует на роль важнейшей философской категории. В философском плане познание следует рассматривать как один из функциональных аспектов управления. Такой подход открывает путь к системному пониманию генезиса процессов познания, его основ и перспектив.
Тема непростая, но если вы собираетесь поступать на факультет, где нужны базовые знания высшей математики, освоить материал — must have. Тем более, все формулы по теории вероятности пригодятся не только в универе, но и при решении 4 задания на ЕГЭ. Начнем!
Наивероятнейшее число успехов
Биномиальное распределение ( по схеме Бернулли) помогает узнать, какое число появлений события А наиболее вероятно. Формула для наиболее вероятного числа успехов k (появлений события) выглядит так:
np - q ≤ k ≤ np + p, где q=1−p
Так как np−q = np + p−1, то эти границы отличаются на 1. Поэтому k, являющееся целым числом, может принимать либо одно значение, когда np целое число (k = np), то есть когда np + p (а отсюда и np - q) нецелое число, либо два значения, когда np - q целое число.
Пример. В очень большом секретном чатике сидит 730 человек. Вероятность того, что день рождения наугад взятого участника чата приходится на определенный день года — равна 1/365 для каждого из 365 дней. Найдем наиболее вероятное число счастливчиков, которые родились 1 января.
- По условию дано: n = 730, p = 1/365, g = 364/365
- np - g = 366/365
- np + p = 731/365
- 366/365 ≤ m ≤ 731/365
- m = 2
Теоремы Муавра-Лапласа
Пусть в каждом из n независимых испытаний событие A может произойти с вероятностью p, q = 1 - p (условия схемы Бернулли). Обозначим как и раньше, через Pn(k) вероятность ровно k появлений события А в n испытаниях.
Кроме того, пусть Pn(k1;k2) — вероятность того, что число появлений события А находится между k1 и k2.
Локальная теорема Лапласа звучит так: если n — велико, а р — отлично от 0 и 1, то
Интегральная теорема Лапласа звучит так: если n — велико, а р — отлично от 0 и 1, то
Функции Гаусса и Лапласа обладают свойствами, которые пригодятся, чтобы правильно пользоваться таблицей значений этих функций:
Теоремы Лапласа дают удовлетворительное приближение при npq ≥ 9. Причем чем ближе значения q, p к 0,5, тем точнее данные формулы. При маленьких или больших значениях вероятности (близких к 0 или 1) формула дает большую погрешность по сравнению с исходной формулой Бернулли.
Формула Бернулли
При решении вероятностных задач часто бывает, что одно и тоже испытание повторяется многократно, и исход каждого испытания независит от исходов других. Такой эксперимент называют схемой повторных независимых испытаний или схемой Бернулли.
Примеры повторных испытаний:
- Бросаем игральный кубик, где вероятности выпадения определенной цифры одинаковы в каждом броске.
- Включаем лампы с заранее заданной одинаковой вероятностью выхода из строя каждой.
- Лучник повторяет выстрелы по одной и той же мишени при условии, что вероятность удачного попадания при каждом выстреле принимается одинаковой.
Итак, пусть в результате испытания возможны два исхода: либо появится событие А, либо противоположное ему событие. Проведем n испытаний Бернулли. Это означает, что все n испытаний независимы. А вероятность появления события А в каждом случае постоянна и не изменяется от испытания к испытанию.
-
Обозначим вероятность появления события А в единичном испытании буквой р, значит:
p = P(A), а вероятность противоположного события (событие А не наступило) - буквой q
Биномиальное распределение — распределение числа успехов (появлений события).
Пример. Среди видео, которые снимает блогер, бывает в среднем 4% некачественных: то свет плохой, то звук пропал, то ракурс не самый удачный. Найдем вероятность того, что среди 30 видео два будут нестандартными.
Опыт заключается в проверке каждого из 30 видео на качество. Событие А — это какая-то неудача (свет, ракурс, звук), его вероятность p = 0,04, тогда q = 0,96. Отсюда по формуле Бернулли можно найти ответ:
Ответ: вероятность плохого видео приблизительно 0,202. Блогер молодец🙂
Формула полной вероятности и формула Байеса
Если событие А может произойти только при выполнении одного из событий B1, B2, . Bn, которые образуют полную группу несовместных событий — вероятность события А вычисляется по формуле полной вероятности:
Вновь рассмотрим полную группу несовместных событий B1, B2, . Bn, вероятности появления которых P(B1), P(B2), . P(Bn). Событие А может произойти только вместе с каким-либо из событий B1, B2, . Bn, которые называются гипотезами. Тогда по формуле полной вероятности: если событие А произошло — это может изменить вероятности гипотез P(B1), P(B2), . P(Bn).
По теореме умножения вероятностей:
Аналогично, для остальных гипотез:
Эта формула называется формулой Байеса. Вероятности гипотез называются апостериорными вероятностями, тогда как — априорными вероятностями.
Пример. Одного из трех стрелков вызывают на линию огня, он производит два выстрела. Вероятность попадания в мишень при одном выстреле для первого стрелка равна 0,3, для второго — 0,5; для третьего — 0,8. Мишень не поражена. Найти вероятность того, что выстрелы произведены первым стрелком.
- Возможны три гипотезы:
- А1 — на линию огня вызван первый стрелок,
- А2 — на линию огня вызван второй стрелок,
- А3 — на линию огня вызван третий стрелок.
- Так как вызов на линию огня любого стрелка равно возможен, то
- В результате опыта наблюдалось событие В — после произведенных выстрелов мишень не поражена. Условные вероятности этого события при наших гипотезах равны:
- По формуле Байеса находим вероятность гипотезы А1 после опыта:
Формулы по теории вероятности
Теория вероятности изучает события и их вероятности. Если событие сложное, то его можно разбить на простые составные части — так легче и быстрее найти их вероятности. Рассмотрим основные формулы теории вероятности.
Основные понятия
Французские математики Блез Паскаль и Пьер Ферма анализировали азартные игры и исследовали прогнозы выигрыша. Тогда они заметили первые закономерности случайных событий на примере бросания костей и сформулировали теорию вероятностей.
Когда мы кидаем монетку, то не можем точно сказать, что выпадет: орел или решка.
Но если подкидывать монету много раз — окажется, что каждая сторона выпадает примерно равное количество раз. Из чего можно сформулировать вероятность: 50% на 50%, что выпадет «орел» или «решка».
Теория вероятностей — это раздел математики, который изучает закономерности случайных явлений: случайные события, случайные величины, их свойства и операции над ними.
Вероятность — это степень возможности, что какое-то событие произойдет. Если у нас больше оснований полагать, что что-то скорее произойдет, чем нет — такое событие называют вероятным.
Ну, скажем, смотрим на тучи и понимаем, что дождь — вполне себе вероятное событие. А если светит яркое солнце, то дождь — маловероятное или невероятное событие.
Случайная величина — это величина, которая в результате испытания может принять то или иное значение, причем неизвестно заранее, какое именно. Случайные величины можно разделить на две категории:
-
Дискретная случайная величина — величина, которая в результате испытания может принимать определенные значения с определенной вероятностью, то есть образовывать счетное множество.
Вероятностное пространство — это математическая модель случайного эксперимента (опыта). Вероятностное пространство содержит в себе всю информацию о свойствах случайного эксперимента, которая нужна, чтобы проанализировать его через теорию вероятностей.
Вероятностное пространство — это тройка (Ω, Σ, Ρ) иногда обрамленная угловыми скобками: ⟨ , ⟩ , где
- Ω — это множество объектов, которые называют элементарными событиями, исходами или точками.
- Σ — сигма-алгебра подмножеств , называемых случайными событиями;
- Ρ — вероятностная мера или вероятность, т.е. сигма-аддитивная конечная мера, такая что .
Классическое определение вероятности
Вероятностью события A в некотором испытании называют отношение:
P (A) = m/n, где n — общее число всех равновозможных, элементарных исходов этого испытания, а m — количество элементарных исходов, благоприятствующих событию A
- Вероятность достоверного события равна единице.
- Вероятность невозможного события равна нулю.
- Вероятность случайного события есть положительное число, заключенное между нулем и единицей.
Таким образом, вероятность любого события удовлетворяет двойному неравенству:
Пример 1. В пакете 15 конфет: 5 с молочным шоколадом и 10 — с горьким. Какова вероятность вынуть из пакета конфету с белым шоколадом?
Так как в пакете нет конфет с белым шоколадом, то m = 0, n = 15. Следовательно, искомая вероятность равна нулю:
Неприятная новость для любителей белого шоколада: в этом примере событие «вынуть конфету с белым шоколадом» — невозможное.
Пример 2. Из колоды в 36 карт вынули одну карту. Какова вероятность появления карты червовой масти?
Количество элементарных исходов, то есть количество карт равно 36 (n). Число случаев, благоприятствующих появлению карты червовой масти (А) равно 9 (m).
Геометрическое определение вероятности
Геометрическая вероятность события А определяется отношением:
P(A)= m(A)/m(G), где m(G) и m(A) — геометрические меры (длины, площади или объемы) всего пространства элементарных исходов G и события А соответственно
Чаще всего, в одномерном случае речь идет о длинах отрезков, в двумерном — о площадях фигур, а в трехмерном — об объемах тел.
Пример. Какова вероятность встречи с другом, если вы договорились встретиться в парке в промежутке с 12.00 до 13.00 и ждете друг друга 5 минут?
- A — встреча с другом состоится, х и у — время прихода. Значит:
0 ≤ х, у ≤ 60. - В прямоугольной системе координат этому условию удовлетворяют точки, которые лежат внутри квадрата ОАВС. Друзья встретятся, если между моментами их прихода пройдет не более 5 минут, то есть:
У нас есть отличное онлайн обучение по математике для учеников с 1 по 11 классы, записывайся на пробное занятие!
Сложение и умножение вероятностей
- Событие А называется частным случаем события В, если при наступлении А наступает и В. То, что А является частным случаем В можно записать так: A ⊂ B.
- События А и В называются равными, если каждое из них является частным случаем другого. Равенство событий А и В записывается так: А = В.
- Суммой событий А и В называется событие А + В, которое наступает тогда, когда наступает хотя бы одно из событий: А или В.
Теорема о сложении вероятностей звучит так: вероятность появления одного из двух несовместных событий равна сумме вероятностей этих событий:
P(A + B) = P(A) + P(B)
Эта теорема справедлива для любого числа несовместных событий:
Если случайные события A1, A2. An образуют полную группу несовместных событий, то справедливо равенство:
- P(A1) + P(A2) + … + P(An) = 1. Такие события (гипотезы) используют при решении задач на полную вероятность.
Произведением событий А и В называется событие АВ, которое наступает тогда, когда наступают оба события: А и В одновременно. Случайные события А и B называются совместными, если при данном испытании могут произойти оба эти события.
Вторая теорема о сложении вероятностей: вероятность суммы совместных событий вычисляется по формуле:
P(A + B) = P(A) + P(B) − P(AB)
События событий А и В называются независимыми, если появление одного из них не меняет вероятности появления другого. Событие А называется зависимым от события В, если вероятность события А меняется в зависимости от того, произошло событие В или нет.
Теорема об умножении вероятностей: вероятность произведения независимых событий А и В вычисляется по формуле:
P(AB) = P(A) * P(B)
Пример. Студент разыскивает нужную ему формулу в трех справочниках. Вероятности того, что формула содержится в первом, втором и третьем справочниках равны 0,6; 0,7 и 0,8.
Найдем вероятности того, что формула содержится:
- только в одном справочнике;
- только в двух справочниках;
- во всех трех справочниках.
А — формула содержится в первом справочнике;
В — формула содержится во втором справочнике;
С — формула содержится в третьем справочнике.
Воспользуемся теоремами сложения и умножения вероятностей.
Ответ: 1 — 0,188; 2 — 0,452; 3 — 0,336.
Случайные события. Основные формулы комбинаторики
Формула Пуассона
При большом числе испытаний n и малой вероятности р формулой Бернулли пользоваться неудобно. Например, 0.97 999 вычислить весьма затруднительно.
В этом случае для вычисления вероятности того, что в n испытаниях событие произойдет k раз, используют формулу Пуассона:
Здесь λ = np обозначает среднее число появлений события в n испытаниях.
Эта формула дает удовлетворительное приближение для p ≤ 0,1 и np ≤10.
События, для которых применима формула Пуассона, называют редкими, так как вероятность, что они произойдут — очень мала (обычно порядка 0,001-0,0001).
При больших np рекомендуют применять формулы Лапласа, которую рассмотрим чуть позже.
Пример. В айфоне 1000 разных элементов, которые работают независимо друг от друга. Вероятность отказа любого элемента в течении времени Т равна 0,002. Найти вероятность того, что за время Т откажут ровно три элемента.
- По условию дано: n = 1000, p = 0,002, λ = np = 2, k = 3.
- Искомая вероятность после подстановки в формулу:
P1000(3) = λ 3 /3! * e −λ = 2 3 /3! * e −2 ≈ 0,18.
Ответ: ориентировочно 0,18.
Читайте также: