Как построить кривую каплана майера в excel
The goal of the Kaplan-Meier procedure is to create an estimator of the survival function based on empirical data, taking censoring into account.
The procedure makes the assumption that censoring does not change the probability of survival (e.g. it assumes that patients won’t leave the clinical trial because they have a relapse of their cancer).
We suppose that we divide time into the following intervals t0 < t1 < ⋯ < tm where t0 is the start time and tm is the time when the study ends. In fact, the time periods that we will use are those corresponding to death or censoring events (i.e. no one dies or is censored between times tj and tj+1).
For a time tj, the risk set Rj is the set of all subjects who (or which) survive to the time just before time tj. Thus the risk set consists of all those who die at time tj or who are censored or die after time tj. We further define nj = the number of subjects at time tj and dj = the number who die at time tj. Thus, the survival time function S(tj) can be calculated iteratively as follows:
Example 1: Calculate the empirical survival function based on the data for the clinical trial shown in range A3:B21 of Figure 1. Here column A shows how many years each patient stayed in the clinical trial. Patients with a 1 in column B have died during the clinical trial, while patients with a 0 in column B are censored, i.e. either the patient was either still alive at the end of the trial or left the trial before it was completed.
Figure 1 – Kaplan-Meier Method
The actual calculations are shown on the right side of Figure 1. First, we note that the values in column D are the unique values shown in column A in sorted order. These values may be obtained by using Excel’s Data > Data Tools|Remove Duplicates followed by Data > Sort & Filter|Sort. Alternatively, it can be obtained by using the Real Statistics function SortUnique. We can leave out the final two values 14 and 15 since they don’t have any death values associated with them.
Figure 2 shows some key formulas from Figure 1
Figure 2 – Key formulas from Figure 1
Once we have entered formula E5, we can obtain all the other formulas for column E by highlighting range E5:E12 and then pressing Ctrl-D. We can obtain all the formulas for columns F, G and H in a similar manner.
Also note that if there are no censored data, then nj+1 = nj − dj. Thus since n1 = n, it follows that
Definition 1: The median survival time is the time t such that S(t) = .5. When no such t exists, we take the least t such that S(t) ≤ .5.
For Example 1, we see from Figure 1 that the median is between t = 10 and t = 11 since S(10) = .54 and S(11) = .36. Based on the definition we take 11 as the median.
51 thoughts on “Kaplan-Meier Overview”
Thank you for your article. I noticed that instead of 1-d/n, SPSS may be using (n-d-c)/(n-d), where c=number of censored observations at that time. Do you know when one version would be preferred over the other? Thanks.
One can get a median survival time from your notations. How does one obtain the 95% CI for the median survival time? Could you elaborate on that?
Dear Charles,
I would like to make a time to event analysis by use of a Kaplan-Meier curve. I have a time variable (0-180 days), ill versus not ill, and a variable of presence of back pain.
Can you explain to me how i can plot this KM curve in excel in steps, with two plots over time?
Код для этого поста можно найтина Github, Полностью интерактивное приложение, в котором можно настроить параметры, такие как размер выборки, цензура, преимущества выживания и увидеть влияние на соотношение рисков,… можно найти наshinyapps,
Кривые Каплана-Мейера широко используются в клинических и фундаментальных исследованиях, но при их составлении или интерпретации следует помнить о некоторых важных подводных камнях. В этом коротком посте я собираюсь дать общий обзор того, как данные представлены на графике Каплана Мейера.
Оценка Каплана-Мейера используется для оценки функции выживания. Визуальное представление этой функции обычно называется кривой Каплана-Мейера, и она показывает, какова вероятность события (например, выживания) в определенный интервал времени. Если размер выборки достаточно велик, кривая должна приближаться к истинной функции выживания для исследуемой популяции.
Обычно в исследовании сравнивались две группы (например, группа, получавшая лечение A, и группа, получавшая лечение B).
Лечение B, по-видимому, проходит лучше, чем лечение A (среднее время выживания +/- 47 месяцев против 30 месяцев со значительным значением p). В этом посте я только исследую группу лечения A и не буду сравнивать две группы друг с другом.
Давайте начнем с создания некоторых основных данных. У нас есть 10 пациентов, участвующих в исследовании (так называемый «риск»), с последующим наблюдением в течение 10 месяцев. Каждый участник получает идентичное обращение.
Если мы поближе рассмотрим столбцы «Последующие действия» и «Тип события»:
- Время наблюдения может быть любым интервалом времени: минуты, дни, месяцы, годы.
- Тип события 1 соответствует событию. Типичным событием в исследовании рака может быть смерть, но кривые Каплана-Мейера могут также использоваться в других типах исследований. Энн, например, участвовала в этом вымышленном исследовании нового лекарства от рака, но умерла через 4 месяца.
- Тип события 0 соответствует событию с цензурой справа.
Проще говоря, в этом первом примере нет цензурированных событий.
Исследование начинается. Каждый месяц один участник испытывает событие. Каждый раз, когда происходит событие, вероятность выживания падает на 10% от оставшейся кривой (= количество событий, разделенных на число в группе риска), пока не достигнет нуля в конце исследования.
Давайте добавим некоторые цензурированные данные к предыдущему графику.
Наблюдения называются цензурированными, когда информация об их времени выживания неполна; наиболее часто встречающаяся форма - правая цензура (в отличие от левой и интервальной цензуры, здесь не обсуждаемой). Пациент, который не испытывал интересующего события в течение всего периода исследования, считается «подвергнутым цензуре». Время выживания для этого человека считается, по крайней мере, таким же, как и продолжительность исследования. Другим примером правильной цензуры является случай, когда человек выбывает из исследования до истечения времени наблюдения и не испытывает события. Другими словами, цензурированные данные - это тип пропущенных данных.
Энн, Мэри и Элизабет покинули кабинет до его завершения. У Кейт не было мероприятия в конце исследования. Кривая уже выглядит очень по-другому по сравнению с моделью «лестницы» из ранее.
Когорта с цензурированными данными (Энн, Мэри, Элизабет и Кейт). Обратите внимание, что Энди испытал событие в 6,2 месяца вместо 7 месяцев в примере выше (и не подвергался цензуре).Какова связь между событиями, цензурой и падениями на кривой Каплана Мейера?
Если мы посмотрим на первого участника, у которого есть событие (Джон), мы увидим, что через 1 месяц у нас выпадет 0,1 или 10% от оставшейся высоты:
Если мы подождем немного дольше, мы увидим, что к 5 месяцу остается 6 пациентов, которым грозит риск. У двух был случай, и еще два были подвергнуты цензуре. На следующем событии кривая падает на 16% от оставшейся высоты (вместо 10% в начале исследования), потому что меньше людей подвержены риску:
Это продолжается до конца периода исследования или до тех пор, пока число пациентов в группе риска не достигнет 0. Последнее снижение является наибольшим. При этом последнем падении кривая падает на 50% от оставшейся высоты (или на 20% от общей высоты). И все же только 1 человек испытывает событие, такое же, как в начале исследования (когда падение составляло только 10% от оставшейся (= общей) высоты). Это потому, что на данный момент в исследовании находятся только 2 человека.
Особенно, когда существует очень мало пациентов, подверженных риску, воздействие цензурированного события может оказать большое влияние на появление кривой КМ.
На предыдущем графике кажется, что кривая выживания достигает плато с вероятностью выживания 20%. Если мы поменяемся цензурированным статусом между Джо и Кейт (участники 9 и 10), кривая КМ резко изменится и опустится до 0 в конце периода исследования. В этом сценарии (кривая B) все участники либо имели событие, либо подвергались цензуре.
Тип события для Джо и Кейт меняются местами в сценарии BДругими словами, только одно событие отмечает разницу между кривой выживания, достигающей 0, или достижением плато, оставаясь стабильным на уровне 20%.
Мы также можем видеть это, если мы построим 95% доверительные интервалы на кривой КМ. Доверительные интервалы очень широки, что дает понять, что в исследовании очень мало участников. Кроме того, 95% ДИ увеличивается, когда проходит больше времени, потому что количество подвергнутых цензуре лиц увеличивается.
Небольшой набор данных
Мы можем смоделировать сценарий наилучшего случая (цензура равна отсутствию событий) и сценарий наихудшего случая (цензура равна событию) и сравнить его с фактической кривой.
Первые 3 наблюдения для каждого сценария (лучший, худший и актуальный)В лучшем случае кривая останавливается на 40% вероятности выживания в конце исследования, в то время как в худшем случае кривая падает до 0. Среднее время выживания также очень отличается:
- Фактическая кривая: 6,2 месяца
- Лучший случай: 8,1 месяца
- Худший случай: 5,5 месяцев
Большой набор данных
Это еще более поразительно, если мы увеличим размер выборки. При моделировании размер выборки увеличился с 10 до 100 со временем наблюдения 48 месяцев. В этом моделировании 40% людей подвергаются цензуре (случайным образом) где-то между 0 и 48 месяцами. Опять же, это показывает, что среднее время выживания может существенно отличаться.
- Данные, подвергнутые цензуре, могут существенно повлиять на кривую КМ, но должны быть включены при подборе модели.
- Будьте осторожны при интерпретации конца КМ, если присутствуют большие капли, особенно ближе к концу исследования. Обычно это означает, что не так много людей подвержены риску (и интервалы ДИ 95% более широкие).
- Высота капли может информировать вас о количестве пациентов в группе риска, даже если об этом не сообщается или когда не показаны доверительные интервалы.
Меня зовут доктор. Рубен Ван Паэмел и я начинали как аспирант в Гентском университете (Центр медицинской генетики), финансируемом Исследовательским фондом Фландрии после окончания медицинской школы в 2017 году. Я также являюсь резидентом педиатрии в Гентской университетской больнице. Вы можете подписаться на меня в Twitter:@RubenVanPaemel
Я работаю над нейробластомой, которая является редкой, но разрушительной опухолью, которая чаще всего встречается у очень маленьких детей. Наша команда пытается понять основные генетические изменения, чтобы улучшить диагностику, лечение и, в конечном итоге, выживание детей с нейробластомой.
Читайте также: