Рок анализ как сделать в статистике
ROC-анализ основан на использовании ROC-кривой (Receiver Operator Characteristic), которая показывает результаты бинарной классификации, когда модель предсказывает вероятность того, что наблюдение относится к одному из двух классов. В таком случае важен выбор точки отсечения, то есть порога отсечения, разделяющего классы. ROC-кривая позволяет построить зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров.
Количественную интерпретацию ROC даёт показатель AUC (англ. area under ROC curve, площадь под ROC-кривой) -- площадь, ограниченная ROC-кривой и осью доли ложных положительных классификаций.
Чтобы четко провести анализ, взяты значения данных пациента больного сепсисом, которые максимально расходятся с нормальными значениями у здорового человека. Анализируемыми значениями в данном случае будут показатели pCO2 (парциальное давление двуокиси углерода) и pO2 (парциальное давление кислорода). В норме у здорового человека эти показатели колеблются в пределах: 35-45 мм. рт. ст. для pCO2, 83-108 мм. рт. ст. для pO2.
Для показателя рСО2 выведем таблицу 9 Case Processing Summary (Обработанные наблюдения).
Таблица 9 - Case Processing Summary (Обработанные наблюдения) для рСО2
Кривая ROC графически представлена на рисунке 13, где в качестве чувствительности теста выступает доля верно положительных предсказаний в суммарном количестве больных. Эта величина характеризует способность теста как можно точнее отфильтровывать пациентов с сомнительным наличием болезни. Под представительностью теста понимают долю верно отрицательных среди здоровых пациентов. Эта величина характеризует способность теста обнаруживать исключительно пациентов с сомнительным наличием болезни.
По результатам таблицы 10 можно увидеть, что Среди 18 фактически больных 15 были верно расценены как больные (Rightly Positive (Верно положительный), RP), а 3 не верно отнесены к группе здоровых (Wrong Negative (Ложно отрицательный), WN). Из 18 фактически здорового человека 16 были верно отнесены к группе здоровых (Rightly Negative (Верно отрицательный), RN) и 2 не верно расценены больными (Wrong Positive (Ложно положительный), WP).
Таблица 10 - Predicted group Crosstabulation (GRUPPE * Прогнозируемая группа таблица сопряженности) для рСО2
Ведем два понятия: чувствительность и специфичность модели. Ими определяется объективная ценность любого бинарного классификатора.
Sensitivity или чувствительность есть доля истинно положительных случаев. Чувствительность (sensitivity) рассчитывают по формуле (2):
Чувствительность =15/(15 + 3) = 0,834
Specifity или специфичность - доля истинно отрицательных случаев, которые были правильно идентифицированы моделью. Представительность рассчитывают по формуле (3):
Представительность = 16/(15 + 2) = 0,941
Рисунок 13 - ROC Curve (Кривая ROC) для рСО2
С помощью кривой кривой ROC чувствительность и комплиментарное значения представительности приводятся к единице. Диагностируемое значение с нулевой степенью прогнозирования изображается здесь линией, наклоненной под углом 45 градусов (диагональю). Чем больше выгнута кривая ROC, тем более точным является прогнозирование результатов теста. Индикатором этого свойства служит площадь под кривой ROC, которая для теста с нулевой степенью прогнозирования равна 0,5, а для случая с максимальной степенью прогнозирования -- 1.
Площадь под ROC-кривой можно увидеть в расчетной таблице 11, которую при анализе выведет программа.
Таблица 11 - Area Under the Curve (Площадь под кривой) для рСО2
Для рассматриваемого примера получилось значение равное 0,960, причём 95 % доверительный интервал соответствует значениям площади, принадлежащим диапазону от 0,904 до 1,016. Площадь покрытия близка к единице.
Проанализируем данные показателя рО2, зная, что диапазон показателей здоровых людей колеблется в интервале 83-108 мм. рт. ст. и отразим результаты в таблице сопряженности.
Таблица 12 - Predicted group Crosstabulation (GRUPPE * Прогнозируемая группа таблица сопряженности) для рО2
Рассчитаем значения чувствительности и представительности:
Чувствительность =16/(16 + 2) = 0,889
Представительность = 18/(16 + 0) = 1,125
Рисунок 14 - ROC Curve (Кривая ROC) для рО2
Площадь под кривой ROC можно определить из расчетной таблицы 13, которую программа выводит автоматически, при анализе.
Таблица 13 - Area Under the Curve (Площадь под кривой) для рО2
Для рассматриваемого примера получилось значение равное 0,918, причём 95 % доверительный интервал соответствует значениям площади, принадлежащим диапазону от 0,808 до 1,029. Проанализировав при помощи ROC анализа показатели пациента, выяснилось, что выгнутость кривой ROC и рассчитанная под ней площадь указывает на то, что проведенный анализ имеет высокую точность прогнозирования результатов теста. Именно этот факт позволяет с уверенностью сказать, что параметры крови пациента имеют явное отклонение от нормальных величин показателей здоровых людей.
На основе приведенных исследований были сделаны определенные выводы:
1. Между показателями крови можно установить математические зависимости.
2. Установлены значения коэффициента корреляции. По результатам корреляции можно определить силу зависимости в виде коэффициента корреляции.
3. Выявлены факторы, влияющие на гемодинамические показатели, и установлено их количество.
4. Выявлена группировка данных показателей в кластеры и также установлено их количество.
5. Проведен анализ показателей и выявлена степень прогнозирования результатов.
6. Систематизация и обработка полученных результатов облегчает диагностирование болезни и выбор намеченного лечения.
Я пытаюсь понять, как вычислить оптимальную точку отсечения для кривой ROC (значение, при котором чувствительность и специфичность максимальны). Я использую набор данных aSAH из пакета pROC .
outcome Переменная может быть объяснено двумя независимыми переменными: s100b и ndka . Используя синтаксис Epi пакета, я создал две модели:
Вывод иллюстрируется на следующих двух графиках:
На первом графике ( s100b ) функция говорит, что оптимальная точка отсечения локализована на значении, соответствующем lr.eta=0.304 . Во втором графике ( ndka ) оптимальная точка отсечения локализована при соответствующем значении lr.eta=0.335 (в чем смысл lr.eta ). Мой первый вопрос:
- что соответствует s100b и ndka значения для указанных lr.eta значений (какова оптимальная точка отсечения с точки зрения s100b и ndka )?
ВТОРОЙ ВОПРОС:
Теперь предположим, что я создаю модель с учетом обеих переменных:
Я хочу знать, каковы значения ndka AND, s100b при которых чувствительность и специфичность максимизируются функцией. Другими словами: каковы значения ndka и s100b при которых мы имеем Se = 68,3% и Sp = 76,4% (значения, полученные из графика)?
Я предполагаю, что этот второй вопрос связан с анализом multiROC, но документация Epi пакета не объясняет, как рассчитать оптимальную точку отсечения для обеих переменных, используемых в модели.
Мой вопрос очень похож на этот вопрос от reasearchGate , который говорит вкратце:
Определение порогового значения, которое представляет лучший компромисс между чувствительностью и специфичностью меры, является простым. Однако, для анализа многомерной кривой ROC, я отметил, что большинство исследователей сосредоточилось на алгоритмах для определения общей точности линейной комбинации нескольких показателей (переменных) в терминах AUC. [. ]
Однако в этих методах не упоминается, как определить комбинацию показателей отсечки, связанных с несколькими показателями, которая дает лучшую диагностическую точность.
Возможное решение - это то, что предложил Шульц в своей статье , но из этой статьи я не могу понять, как вычислить оптимальную точку среза для многомерной кривой ROC.
Возможно, решение из Epi пакета не является идеальным, поэтому любые другие полезные ссылки будут оценены.
Скоринг – оценка кредитоспособности лица – весьма важный и актуальный аспект деятельности любой кредитной организации. Грамотный анализ позволяет снизить потенциальные риски и, таким образом, организовать эффективный процесс работы.
В основе скорингового анализа лежит ROC- анализ, позволяющий произвести оценку качества модели логистической регрессии. Поэтому целью нашей работы было изучение теоретических основ логистической регрессии и ROC-анализа, а также последующее рассмотрение применения ROC-анализа на примере.
В ходе выполнения работы мы поставили перед собой задачувыявить важность ROC-анализа в скоринге, рассмотрев его способность оценки качества модели с помощью определенных статистических методов. На сегодняшний день нет ни одной статистической модели, описывающей то или иное явление со стопроцентной точностью, однако важность их применения для анализа данных и дальнейшего прогнозирования действительно велика.
Часть 1
Бинарная классификация
К методам оценки правдоподобия бинарной классификации относятся логистическая регрессия, простой классификатор Байеса, Lift, Gain и Roc-диаграммы. К сожалению, данные методы имеют множество недостатков, не позволяющих им осуществить наиболее достоверную оценку. Далее мы подробнее рассмотрим логистическую регрессию и ROC-анализ как метод оценки бинарной классификации.
Логистическая регрессия
Логистическая регрессия – это разновидность множественной регрессии, назначение которой состоит в анализе связи между несколькими независимыми переменными (называемыми также предикторами) и зависимой переменной 2 . С помощью бинарной логистической регрессии можно оценивать вероятность того, что событие наступит для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т.д.).
Задача регрессии может быть сформулирована иначе: вместо предсказания бинарной переменной мы предсказываем непрерывную переменную со значениями на отрезке [0,1] при любых значениях независимых переменных. Это достигается применением следующего регрессионного уравнения (логит-преобразование):
(1)
Где f(z) - логистическая функция; e – число Эйлера; , и — вектор-столбцы значений независимых переменных и параметров (коэффициентов регрессии) — вещественных чисел , соответственно.
Зависимость, связывающая вероятность события и величину y, показана на следующем графике (рис. 1):
Рисунок 1 Логистическая кривая 3
Возможности по моделированию нелинейных зависимостей у логистической регрессии отсутствуют. Однако для оценки качества модели логистической регрессии существует эффективный инструмент ROC-анализа, что является несомненным ее преимуществом.
ROC-анализ
ROC-кривая (Receiver Operator Characteristic) – кривая, которая наиболее часто используется для представления результатов бинарной классификации.
Поскольку классов два, один из них называется классом с положительными исходами, второй – с отрицательными исходами. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров.
В процессе работы бинарной классификационной модели могут возникать ошибки – несоответствия выходных значений модели и реальных значений выборки. Предсказание, соответствующее положительному исходу, может быть распознано моделью как отрицательный исход (ложноотрицательная ошибка, ошибка I рода). Предсказание, соответствующее отрицательному исходу, наоборот, может быть распознано моделью как положительный исход (ложноположительная ошибка или ошибка II рода). Поэтому в бинарной классификации каждое предсказание может иметь следующие четыре исхода, которые приведены в табл. 1:
Читайте также: