Как сделать регрессионный анализ в spss
Современные программы анализа данных включают в себя модули расчета параметров нелинейной регрессии. Так, в процедуре Regression программы SPSS Base, помимо модуля линейной регрессии (Linear), имеется два таких модуля.
- линейная модель (linear),
- квадратичная (quadratic),
- кубическая (cubic),
- логарифмическая (logarithmic),
- гиперболическая (inverse),
- степенная (power),
- показательная (compound),
- типа S (S),
- логистическая (logistic),
- роста (Growth),
- экспоненциальная (exponential).
Англоязычные названия моделей несколько отличается от привычных нам понятий; так, под моделью роста в процедуре Regression пакета SPSS понимается модель Growth, описываемая уравнением х=exp(b0+b1t), а под экспоненциальной моделью (exponential) – модель х=b0e b 1 t . Следует также учитывать некоторое отличие экспоненциальной модели от похожей на нее показательной (compound); последняя отвечает уравнению х=b0b1 t .
В рамках данной самостоятельной работы модуль Nonlinear не используется.
Задачи самостоятельной работы
· Построение графика временного ряда.
· Установление временного диапазона анализа и горизонта прогнозирования.
· Выбор конкурирующих моделей тренда временного ряда.
· Расчет параметров конкурирующих моделей тренда временного ряда.
· Сравнение моделей тренда и выбор оптимальной модели.
· Построение точечного и интервального прогноза.
· Анализ результатов прогнозирования.
Моделирование динамики социально-экономических показателей в системе SPSS Base
- общий коэффициент демографической нагрузки, определяемый как численность лиц нетрудоспособных возрастов в расчете на 1000 человек трудоспособного населения;
- коэффициент демографической нагрузки, определяемый как численность лиц моложе трудоспособного возраста в расчете на 1000 человек трудоспособного населения[1];
- коэффициент демографической нагрузки, определяемый как численность лиц старше трудоспособных возраста в расчете на 1000 человек трудоспособного населения.
Конечной целью анализа является сравнение динамики показателей демографической нагрузки в регионах Центрального федерального округа.
Исходные данные, использованные в примере, приведены в табл. 2)
Динамика коэффициентов демографической нагрузки в РФ в период 2005-2013 гг. (на 1000 человек трудоспособного возраста)
Год | 2005 | 2005 | 2007 | 2008 | 2009 | 2010 | 2011 | 2012 | 2013 |
Всего населения нетрудоспособного возраста | 580 | 578 | 582 | 590 | 606 | 626 | 643 | 664 | 687 |
Моложе трудоспособного возраста | 258 | 252 | 251 | 253 | 259 | 264 | 271 | 280 | 290 |
Старше трудоспособного возраста | 322 | 326 | 331 | 337 | 347 | 362 | 372 | 384 | 397 |
В редактор данных системы SPSS Base вводим:
Год Всего Моложе Старше ________ ________ ________ ________ 2005 580 258 322 2006 578 252 326 2007 582 251 331 2008 590 253 337 2009 606 259 347 2010 626 264 362 2011 643 271 372 2012 664 280 384 2013 687 290 397 |
Рис. 1. Временные ряды коэффициентов демографической нагрузки в РФ в редакторе данных системы SPSS Base |
Как видно из рис. 1, уровни временного ряда общего коэффициента демографической нагрузки равны суммам уровней временных рядов коэффициентов демографической нагрузки, определяемых для лиц моложе и старше трудоспособного возраста.
Рис. 2. Графики временных рядов коэффициента демографической нагрузки в РФ: а – все население нетрудоспособного возраста; б – население моложе и старше трудоспособного возраста. Вертикальной пунктирной линией отмечен 2008 г., отвечающий изменению характера динамики показателей
Поскольку график временного ряда, представленный на рис. 2 а, является суммой временных рядов графиков рис. 2 б, анализ достаточно, в принципе, выполнить только для двух последних показателей – коэффициентов демографической нагрузки населением моложе и старше трудоспособного возраста.
Судя по рис. 2, конкурирующими моделями тренда временных рядов этих показателей могут быть:
1) двухпараметрическая экспоненциальная модель роста вида
х = b0 exp(b1t); (5)
2) трехпараметрическая параболическая модель вида
х = b0 + b1t + b2t 2 . (6)
t=год-2008. (7)
Расчет параметров конкурирующих моделей тренда временного ряда проводим в программной среде модуля Curve Estimation пакета SPSS Base.
Результатом моделирования являются:
- статистические характеристики качества модели;
- собственно таблица дисперсионного анализа;
- МНК-оценки параметров модели и их статистические характеристики;
2) графики, отражающие результаты моделирования.
Поясним эту таблицу. В ее верхней части приведены статистические характеристики качества модели:
а также критерий Фишера (F) и уровень его статистической значимости (Signif F).
Здесь же приведены:
- ошибки коэффициентов регрессии (SE B);
- величина бета-коэффициента (Beta);
- значения критерия Стьюдента (T);
- уровни их статистической значимости (Sig T).
Модель статистически значима на высоком уровне – критерий Фишера F=2748,1, а р-уровень не хуже 0,00005. Это означает, что ошибка признать модель незначимой очень мала – не более 0,005%.
В математической форме модель записывается так:
х = 588,7 exp(0,0303t), (8)
где t – временная переменная, определяемая соотношением
t = год – 2008.
Коэффициент регрессии b1 при временной переменной t (b1=0,0303) статистически значим на высоком уровне – критерий Стьюдента t=52,4 значительно больше критического значения (tкрит@2), и его р-уровень не хуже 0,00005.
Экспоненциальная модель обладает тем положительным свойством, что оба ее параметра имеют четкий смысл:
- коэффициент регрессии при временной переменной t (0,0303) – это МНК-оценка темпа прироста общего коэффициента демографической нагрузки в РФ, которая составляет в среднем 3,03% в год;
- свободный коэффициент b0=588,7 – это расчетная величина общего коэффициента демографической нагрузки в РФ храсч при t=0, т.е. в начальный год временного интервала анализа – 2008 год. Это расчетное значение показателя в 2008 г. достаточно близко к фактическому значению 590.
Результаты моделирования в графическом виде для обеих конкурирующих моделей – экспоненциальной и параболической – представлены на рис. 5.
Характеристика качества модели
Характеристика качества модели
Рассмотрим процедуру расчета простой линейной регрессии в SPSS на материале Задачи 11.3.1 предыдущей главы. Напомним, что в этом придуманном примере были представлены данные испытуемых: рост в дециметрах и время реакции в секундах[1] (файл R_time.sav).
Первая интересующая нас таблица результатов --- это общая сводка построенной регрессионной модели (таблица 11.4.1)
Таблица 11.4.1. Сводка для модели
Модель | R | R-квадрат | Скорректированный R-квадрат | Стд. ошибка оценки |
,866(a) | ,750 | ,625 | 1,00000 | |
a. Предикторы: (конст) C_size |
В первом столбце содержится номер модели (при установке параметров регрессионного анализа в SPSS можно задавать одновременно несколько моделей). Во втором столбце приводится значение коэффициента множественной корреляции R. В данном случае, так как в модель включена всего одна независимая переменная, этот коэффициент в точности совпадает с коэффициентом корреляции Пирсона. Следующий параметр в таблице --- это коэффициент детерминации R 2 , характеризующий процент дисперсии исходных данных, который объясняется полученной регрессионной прямой (см. Главу 11.1). В нашем случае этот показатель равен 0.750, то есть поостренная регрессионная прямая объясняет всего 75% дисперсии.
В следующей таблице отношение сумм квадратов, объясненной регрессионной прямой, и остаточной суммы квадратов оценено по распределению Фишера, как это делалось в дисперсионном анализе. В нашей задаче регрессионной прямой соответствовала сумма 6, а остатку сумма 2. Мы находим их в соответствующих строках таблицы 11.4.2.
Таблица 11.4.2. Дисперсионный анализ
Модель | Сумма квадратов | ст.св. | Средний квадрат | F | Знч. |
Регрессия | 6,000 | 6,000 | 6,000 | ,134(a) | |
Остаток | 2,000 | 1,000 | |||
Всего | 8,000 | ||||
a. Предикторы: (конст) C_size |
Согласно результатам дисперсионного анализа, в нашим случае F-отношение оказывается недостаточно большим, и уровень значимости составляет 0.134. Это значит, что такую конфигурацию результатов мы моли бы получить случайно при отсутствии связи между ростом и временем реакции. Этот же уровень значимости мы получим, если посчитаем корреляцию между переменными по Пирсону, что также означает, что связь между переменными статистически не достоверна.
Последняя таблица содержит информацию об уравнении регрессионной прямой (таблица 11.4.3).
Таблица 11.4.3. Коэффициенты
Модель | Нестандартизованные коэффициенты | Стандартизованные коэффициенты | T | Знч. | |
B | Стд. Ошибка | Бета | |||
(Константа) | 3,000 | ,500 | 6,000 | ,027 | |
R_time | 1,000 | ,408 | ,866 | 2,449 | ,134 |
a. Зависимая переменная: C_size |
Пример 11.4.2. Проведение множественной линейной регрессии в SPSS.
Рассмотрим процедуру проведения множественного регрессионного анализа в SPSS на материале смоделированных результатов следующего прикладного исследования.
В торговой фирме проводилось консультативное обследование сотрудников (менеджеров по продажам). В его рамках с помощью психодиагностических методик получены данные по следующим психологическим характеристикам: уровень интеллекта, переключаемость внимания, коммуникабельность, эмоциональная стрессоустойчивость испытуемых. Кроме того, методом экспертной оценки получены значения интегрального показателя эффективности каждого из обследованных сотрудников. Данные представлены в файле effect1.sav. Первые четыре переменные в нем --- это показатели интеллекта, переключаемости внимания, коммуникабельности и стрессоустойчивости испытуемых. Последний столбец --- это среднее значение экспертной оценки эффективности их работы (все оценки выставлялись по десятибалльной шкале). Обратим внимание, что последние 7 строчек содержат данные только по психологическим показателям, эффективность труда у них не указана. Эти данные соответствуют кандидатам на должность менеджера, эффективность которых еще невозможно оценить. Однако с помощью регрессионного анализа эффективность можно попытаться спрогнозировать.
Исследователи поставили перед собой следующие задачи: (1) построить регрессионную зависимость между измеренными психологическими характеристиками и эффективностью их труда; (2) на основании регрессионной модели предложить прогноз эффективности труда претендентов на работу, у которых измерены те же психологические характеристики. Рассмотрим, как можно решить эти задачи с помощью множественной линейной регрессии.
Проведем процедуру регрессионного анализа в SPSS. Для этого используем тот же пункт меню анализа, что и в примере 11.4.1 --- Анализ --- Регрессия --- Линейная (Analyze --- Regression --- Linear). При этом в поле независимых переменных введем 4 показателя: уровень интеллекта, переключаемость внимания, коммуникабельность и стрессоустойчивость. В качестве зависимой переменной установим эффективность труда. Для того чтобы решить задачу прогнозирования, в окне Сохранить (Save) надо задать сохранение рассчитанных по итоговому уравнению регрессии значений зависимой переменной --- для наших целей следует выбрать нестандартизованный вид. Выбираем Предсказанные значения --- Нестандартизованные (Predicted Values --- Unstandardized). После этого, закрыв окно, нажмем ОК и рассмотрим полученные результаты.
Выведенные таблицы интерпретируются аналогично тому, как мы интерпретировали таблицы простой линейной регрессии. Показатель R, который представлял корреляцию в простой линейной регрессии, в данном случае отображает коэффициент множественной корреляции, характеризующий связь зависимой переменной с совокупностью независимых переменных в целом. Интерес представляет очень высокий показатель R 2 (он равен 0.881, что означает, что наша модель позволяет объяснить 81% дисперсии). Согласно результатам дисперсионного анализа в следующей таблице полученная регрессионная модель также оценивается как очень хорошая (F(4,13)=24.106, p
Современные программы анализа данных включают в себя модули расчета параметров нелинейной регрессии. Так, в процедуре Regression программы SPSS Base, помимо модуля линейной регрессии (Linear), имеется два таких модуля.
- линейная модель (linear),
- квадратичная (quadratic),
- кубическая (cubic),
- логарифмическая (logarithmic),
- гиперболическая (inverse),
- степенная (power),
- показательная (compound),
- типа S (S),
- логистическая (logistic),
- роста (Growth),
- экспоненциальная (exponential).
Англоязычные названия моделей несколько отличается от привычных нам понятий; так, под моделью роста в процедуре Regression пакета SPSS понимается модель Growth, описываемая уравнением х=exp(b0+b1t), а под экспоненциальной моделью (exponential) – модель х=b0e b 1 t . Следует также учитывать некоторое отличие экспоненциальной модели от похожей на нее показательной (compound); последняя отвечает уравнению х=b0b1 t .
В рамках данной самостоятельной работы модуль Nonlinear не используется.
Задачи самостоятельной работы
· Построение графика временного ряда.
· Установление временного диапазона анализа и горизонта прогнозирования.
· Выбор конкурирующих моделей тренда временного ряда.
· Расчет параметров конкурирующих моделей тренда временного ряда.
· Сравнение моделей тренда и выбор оптимальной модели.
· Построение точечного и интервального прогноза.
· Анализ результатов прогнозирования.
Моделирование динамики социально-экономических показателей в системе SPSS Base
- общий коэффициент демографической нагрузки, определяемый как численность лиц нетрудоспособных возрастов в расчете на 1000 человек трудоспособного населения;
- коэффициент демографической нагрузки, определяемый как численность лиц моложе трудоспособного возраста в расчете на 1000 человек трудоспособного населения[1];
- коэффициент демографической нагрузки, определяемый как численность лиц старше трудоспособных возраста в расчете на 1000 человек трудоспособного населения.
Конечной целью анализа является сравнение динамики показателей демографической нагрузки в регионах Центрального федерального округа.
Исходные данные, использованные в примере, приведены в табл. 2)
Динамика коэффициентов демографической нагрузки в РФ в период 2005-2013 гг. (на 1000 человек трудоспособного возраста)
Год | 2005 | 2005 | 2007 | 2008 | 2009 | 2010 | 2011 | 2012 | 2013 |
Всего населения нетрудоспособного возраста | 580 | 578 | 582 | 590 | 606 | 626 | 643 | 664 | 687 |
Моложе трудоспособного возраста | 258 | 252 | 251 | 253 | 259 | 264 | 271 | 280 | 290 |
Старше трудоспособного возраста | 322 | 326 | 331 | 337 | 347 | 362 | 372 | 384 | 397 |
В редактор данных системы SPSS Base вводим:
Год Всего Моложе Старше ________ ________ ________ ________ 2005 580 258 322 2006 578 252 326 2007 582 251 331 2008 590 253 337 2009 606 259 347 2010 626 264 362 2011 643 271 372 2012 664 280 384 2013 687 290 397 |
Рис. 1. Временные ряды коэффициентов демографической нагрузки в РФ в редакторе данных системы SPSS Base |
Как видно из рис. 1, уровни временного ряда общего коэффициента демографической нагрузки равны суммам уровней временных рядов коэффициентов демографической нагрузки, определяемых для лиц моложе и старше трудоспособного возраста.
Рис. 2. Графики временных рядов коэффициента демографической нагрузки в РФ: а – все население нетрудоспособного возраста; б – население моложе и старше трудоспособного возраста. Вертикальной пунктирной линией отмечен 2008 г., отвечающий изменению характера динамики показателей
Поскольку график временного ряда, представленный на рис. 2 а, является суммой временных рядов графиков рис. 2 б, анализ достаточно, в принципе, выполнить только для двух последних показателей – коэффициентов демографической нагрузки населением моложе и старше трудоспособного возраста.
Судя по рис. 2, конкурирующими моделями тренда временных рядов этих показателей могут быть:
1) двухпараметрическая экспоненциальная модель роста вида
х = b0 exp(b1t); (5)
2) трехпараметрическая параболическая модель вида
х = b0 + b1t + b2t 2 . (6)
t=год-2008. (7)
Расчет параметров конкурирующих моделей тренда временного ряда проводим в программной среде модуля Curve Estimation пакета SPSS Base.
Результатом моделирования являются:
- статистические характеристики качества модели;
- собственно таблица дисперсионного анализа;
- МНК-оценки параметров модели и их статистические характеристики;
2) графики, отражающие результаты моделирования.
Поясним эту таблицу. В ее верхней части приведены статистические характеристики качества модели:
а также критерий Фишера (F) и уровень его статистической значимости (Signif F).
Здесь же приведены:
- ошибки коэффициентов регрессии (SE B);
- величина бета-коэффициента (Beta);
- значения критерия Стьюдента (T);
- уровни их статистической значимости (Sig T).
Модель статистически значима на высоком уровне – критерий Фишера F=2748,1, а р-уровень не хуже 0,00005. Это означает, что ошибка признать модель незначимой очень мала – не более 0,005%.
В математической форме модель записывается так:
х = 588,7 exp(0,0303t), (8)
где t – временная переменная, определяемая соотношением
t = год – 2008.
Коэффициент регрессии b1 при временной переменной t (b1=0,0303) статистически значим на высоком уровне – критерий Стьюдента t=52,4 значительно больше критического значения (tкрит@2), и его р-уровень не хуже 0,00005.
Экспоненциальная модель обладает тем положительным свойством, что оба ее параметра имеют четкий смысл:
- коэффициент регрессии при временной переменной t (0,0303) – это МНК-оценка темпа прироста общего коэффициента демографической нагрузки в РФ, которая составляет в среднем 3,03% в год;
- свободный коэффициент b0=588,7 – это расчетная величина общего коэффициента демографической нагрузки в РФ храсч при t=0, т.е. в начальный год временного интервала анализа – 2008 год. Это расчетное значение показателя в 2008 г. достаточно близко к фактическому значению 590.
Результаты моделирования в графическом виде для обеих конкурирующих моделей – экспоненциальной и параболической – представлены на рис. 5.
Характеристика качества модели
Характеристика качества модели
Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гржибовский А.М., Иванов С.В., Горбатова М.А.
В настоящей работе представлены общие сведения о выполнении однофакторного линейного регрессионного анализа данных с использованием программного обеспечения Statistica 10 и SPSS 20 и интерпретация полученных результатов статистической обработки данных. Настоящая статья призвана дать общие сведения об однофакторном линейном регрессионном анализе, и не заменяет прочтения специализированной литературы по статистике и клинической эпидемиологии.
Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гржибовский А.М., Иванов С.В., Горбатова М.А.
Применение множественного линейного регрессионного анализа в здравоохранении с использованием пакета статистических программ spss
Сравнение количественных данных трех и более независимых выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии
Сравнение количественных данных трех и более парных выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии
UNIVARIATE REGRESSION ANALYSIS USING STATISTICA AND SPSS SOFTWARE
In this paper we present basic concepts of simple linear regression analysis using Statistica and SPSS software. Special emphasis is given to interpretation of the outputs provided by software packages. The article provides general knowledge and practical advices regarding the use of simpla logistic regression in biomedical studies, but it does not substitute specialized literature on biostatistics.
Получена: 3 марта 2017 / Принята: 15 марта 2017 / Опубликована online: 30 апреля 2017 УДК 614.2 + 303.4
ОДНОФАКТОРНЫЙ ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ С ИСПОЛЬЗОВАНИЕМ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ STATISTICA И SPSS
1 Национальный Институт Общественного Здравоохранения, г. Осло, Норвегия;
2 Северный Государственный Медицинский Университет, г. Архангельск, Россия;
3 Международный Казахско-Турецкий Университет им. Х.А. Ясави, г. Туркестан, Казахстан;
4 Северо-Восточный Федеральный Университет, г. Якутск, Россия;
5 "Первый Санкт-Петербургский государственный медицинский университет им. акад. И.П. Павлова", г. Санкт-Петербург, Россия.
В настоящей работе представлены общие сведения о выполнении однофакторного линейного регрессионного анализа данных с использованием программного обеспечения Statistica 10 и SPSS 20 и интерпретация полученных результатов статистической обработки данных. Настоящая статья призвана дать общие сведения об однофакторном линейном регрессионном анализе, и не заменяет прочтения специализированной литературы по статистике и клинической эпидемиологии. Ключевые слова: Statistica, SPSS, линейная регрессия.
UNIVARIATE REGRESSION ANALYSIS USING STATISTICA AND SPSS SOFTWARE
1 Norwegian Institute of Public Health, Oslo, Norway;
2 Northern State Medical University, Arkhangelsk, Russia;
3 International Kazakh-Turkish University, Turkestan, Kazakhstan;
4 North-Eastern Federal University, Yakutsk, Russia;
5 Pavlov First Saint Petersburg State Medical University, St. Petersburg, Russia.
In this paper we present basic concepts of simple linear regression analysis using Statistica and SPSS software. Special emphasis is given to interpretation of the outputs provided by software packages. The article provides general knowledge and practical advices regarding the use of simpla logistic regression in biomedical studies, but it does not substitute specialized literature on biostatistics. Keywords: Statistica, SPSS, simple linear regression.
STATISTICA И SPSS БАГДАРЛАМАЛЫК КАМСЫЗДАНДЫРУДЫ КОЛДАНУМЕН Б1РФАКТОРЛЫ СЫЗЫКТЫК РЕГРЕССИЯЛЫК ТАЛДАУ
1 Когамдык Денсаулык сактау ¥лттык Институты, Осло к., Норвегия;
2 СолтYCтiк Мемлекетлк Медициналык Университетi, Архангельск к., Ресей;
3 Х.А. Ясави ат. Халыкаралык Казак - ТYрiк Университетi, Туркестан, Казакстан;
4 СолтYCтiк - Шыгыс Федералдык Университетi, Якутск к-, Ресей;
5 Академик И.П. Павлов атынд. бiрiншi Санкт-Петербург мемлекеттiк медициналык университетi, Санкт-Петербург к-, Ресей.
Осы жумыста Statistica 10 жэне SPSS 20 багдарламалы; ;амсыздандыруды ;олданумен бiрфакторлы сызыкктык; регрессиялы; талдауды орындау жэне мэлiметтердi статистикалы; еццеуден алынган нэтижелер интерпретация туралы жалпы мэлiметтер берiлген. Осы макала бiрфакторлы сызыкты; регрессиялы; талдау туралы жалпы мэлiметтер беруге талап еттген жэне статистика жэне клиникалы; эпидемиология бойынша мамандандырылган эдебиеттi окуды ауыстырмайды.
Негiзгi сездер: Statistica, SPSS, сызыцтын регрессия.
Гржибовский А.М., Иванов С.В., Горбатова М.А. Однофакторный линейный регрессионный анализ с использованием программного обеспечения Statistica и SPSS / / Наука и Здравоохранение. 2017. №2. С. 533.
Grjibovski A.M., Ivanov S.V., Gorbatova M.A. Univariate regression analysis using Statistica and SPSS software. Nauka i Zdravookhranenie [Science & Healthcare]. 2017, 2, pp. 5-33.
Гржибовский А.М., Иванов С.В., Горбатова М.А. Statistica жэне SPSS багдарламалы; ;амсындандыруды ;олданумен б1рфакторлы ^зы^ты; регрессиялы; талдау / / Гылым жэне Денсаулы; са;тау. 2017. №2. Б. 5-33.
Настоящая статья продолжает серию публикаций, посвященных статистическому анализу данных биомедицинских исследований [10, 15, 16, 17, 18, 19]. Высокое качество статистического анализа является обязательным условием востребованности результатов исследований международным научным сообществом [30, 1], поэтому задачами настоящей серии статей является формирование у начинающего исследователя базисных представлений о статистической обработке данных, приобретение практического опыта работы с современными статистическими пакетами программ и предупреждение типичных ошибок, возникающих в процессе анализа результатов исследования.
Настоящая статья посвящена однофактор-ному линейному регрессионному анализу с использованием программного обеспечения Statistica 10 и SPSS 20. Перед изучением статьи авторы настоятельно рекомендуют
читателю ознакомиться с другим методом оценки связи между количественными переменными - корреляционным анализом, который представлен в предыдущей статье серии [13].
При проведении научных исследований в области медицины и общественного здравоохранения, направленных на оценку воздействия различных факторов, на изучаемую систему, одним из конечных результатов анализа является создание математической модели изучаемого явления или процесса. Математические модели позволяют решать широкий спектр задач, стоящих перед исследователем, к числу которых относятся [34]:
- Оценка характера изменения выходных параметров изучаемой системы при изменении входных параметров.
- Оценка степени влияния действующих на систему факторов на ее выходные параметры.
- Прогнозирование уровней выходных параметров системы при заданных значениях действующих факторов.
Основные методы статистического
Поиск оптимальных уровней факторов для получения требуемых значений выходных параметров.
- Оценка информативности параметров при заданной совокупности действующих на систему факторов.
Главная задача построения модели процесса или явления - помочь исследователю получить дополнительную, неочевидную информацию об изучаемой системе, то есть понять, какие скрытые от непосредственного наблюдения процессы в ней происходят, и понять закономерности, которые напрямую не следует из экспериментальных данных. Соответственно, для того, чтобы выполнить данную задачу, необходимо не только построить модель и получить описывающие ее количественные показатели, но и перевести математические результаты моделирования в понятные, имеющие практическую ценность выводы, понятные специалисту в предметной области и дающие ему новое понимание происходящих в системе процессов [5].
Основные статистические методы моделирования представлены в таблице 1 [2, 6, 25, 27, 29, 36, 38].
Метод Переменная отклика Факторный признак Примеры
Однофакторный регрессионный анализ Количественная переменная Один фактор, описываемый количественной переменной Изучение связи между гестационным возрастом и массой тела новорожденных
Многомерная линейная регрессия Количественная переменная 2 и более факторов, описываемых количественными переменными Изучение влияния концентрации оксида углерода и диоксида азота на заболеваемость населения болезнями дыхательной системы с коррекцией на конфаундеры при экологическом дизайне исследования
Однофакторный дисперсионный анализ Количественная переменная Один фактор, описываемый качественной переменной Изучение влияния степени ожирения на уровень систолического артериального давления пациентов
Многофакторный дисперсионный анализ Количественная переменная 2 и более факторов, описываемых качественными переменными Изучение влияния социальной группы, уровня образования и наличия сопутствующих заболеваний на показатель качества жизни
Продолжение таблицы 1.
Ковариационный Количественная 2 и более факторов, Изучение влияния пола,
анализ переменная описываемых и качественными, и количественными переменными возраста и индекса массы тела пациентов на уровень холестерина в крови
Логлинейный Качественная 2 и более факторов, Изучение влияния пола, степени
анализ переменная описываемых качественными переменными тяжести заболевания и наличия сопутствующих заболеваний на выживаемость пациентов в течение определенного периода
Бинарная Дихотомическая 2 и более факторов, Изучение влияния пола,
логистическая (бинарная) описываемых и возраста пациентов и степени
регрессия качественная качественными, и тяжести заболевания на факт
переменная количественными переменными возникновения определенного осложнения заболевания
Мультиномиальная Качественная 2 и более факторов, Изучение влияния пола,
логистическая переменная описываемых возрастной категории пациентов
регрессия качественными и ординальными переменными и степени приверженности к терапии на тип течения заболевания (в случае 3-х и более взаимоисключающих типов течения заболевания)
Порядковая Порядковая 2 и более факторов, Изучение влияния пола,
регрессия (ранговая) описываемых возрастной группы и степени
переменная качественными и ординальными переменными ожирения пациентов на степень артериальной гипертензии
Однофакторный линейный регрессионный анализ является относительно простым методом, наиболее предпочтительным для получения базовых представлений об основных принципах статистического моделирования. В последующих статьях серии будут представлены методы моделирования, наиболее часто встречающиеся в биомедицинских исследованиях - множественная (многомерная, многофакторная) линейная регрессия и логистическая регрессия.
С остальными методами моделирования читатель может ознакомиться самостоятельно в процессе прочтения специализированной литературы по статистическому анализу [5, 2, 6, 25, 27, 29, 36, 38].
Для получения наглядного представления об однофакторном линейном регрессионном анализе рассмотрим пример линейной связи между условным независимым параметром X
и зависимым параметром Y, представленным для 10-ти наблюдений (рисунок 1).
Рис. 1. Скаттерограмма зависимости между параметрами X и У.
Линейный характер связи в данном случае очевиден, что позволяет использовать однофакторный регрессионный анализ для моделирования зависимости параметра У от параметра X. Так как связь носит линейный характер, она может быть описана уравнени -ем линейной функции вида У = а * X + Ь.
Но само по себе уравнение данного вида подходит только для случая, когда все точки располагаются на прямой, описываемой данным уравнением, то есть для случая функциональной, а не корреляционной связи между переменными.
На рисунке 1 видно, что точки не располагаются на одной линии, но зависимость между переменными наиболее точно может быть отражена с помощью прямой, расположенной таким образом, чтобы все точки располагались максимальной близко к данной прямой. Такая прямая представлена на рисунке 2, и значение параметра Y в зависимости от параметра X будет описано уравнением У = Ь * X + Ьо + £, где Ь -коэффициент модели, Ьо - константа модели, а £ - случайная ошибка модели. Если бы между зависимой переменной У и независимой переменной X не было бы никакой связи, то регрессионная прямая проходила бы параллельно оси абсцисс через среднее значение переменной У.
Рис. 2. Построение линии регрессии для параметров X и У.
Следует отметить, что связь между количественными переменными также можно оценить с помощью корреляционного анализа, используя коэффициент корреляции Пирсона
или Спирмена [13, 7, 34]. При этом однофакторный линейный регрессионный анализ в определенном смысле можно рассматривать как углубленный анализ взаимосвязи переменных, позволяющий прогнозировать значение одной (зависимой) переменной на основании другой (независимой) переменной.
Степень выраженности разброса наблюдений вокруг линии регрессии определяется показателем, который называется суммой квадратов остатков (вЭг).
ЭЭг отражает меру неточности модели, или, другими словами, меру изменчивости (вариации) зависимой переменной Y, которую невозможно объяснить независимой переменной X. Линия регрессии проводится таким образом, чтобы значение SSr оказалось наименьшим. Почему же для оценки точности модели используется не просто сумма значений остатков, а именно сумма квадратов остатков?
Дело в том, что остатки, расположенные выше линии регрессии, будут иметь положительный знак, а расположенные ниже -отрицательный, и сумма значений остатков так или иначе будет близка к нулю и не даст никакой информации о том, насколько далеко расположены фактические значения зависимой переменной от прогнозируемых (предсказанных) значений, расположенных регрессионной прямой. В данном случае именно сумма квадратов остатков позволяет оценить совокупную степень удаленности фактических значений от предсказанных, так как ликвидирует влияние знаков остатков.
Соответственно, качество модели определяется тем, насколько точно она способна предсказать значение зависимой переменной Y на основании независимой переменной X. Вариацию зависимой переменной Y, объясняемую построенной линейной регрессионной моделью, можно представить в виде формулы: 5Эт = - ЭЭг, где - общая сумма квадратов для всех
значений зависимой переменной Y (мера общей вариации переменной Y), а ЭБг -представленная выше сумма квадратов остатков [8].
Одним из главных показателей качества модели является доля вариации зависимой переменной, которую способна объяснить модель: чем ближе она к 100%, тем выше качество модели. Доля общей вариации, которую способная объяснить регрессионная модель, выражается в виде коэффициента детерминации (К2), который рассчитывается по формуле R2 = ЭЭт / ЭЭ^
На практике ни одна из моделей не имеет 100% точности, так как такая степень точности предполагает наличие функциональной связи между переменными, что не наблюдается в изучаемых в медицине и общественном здравоохранении процессах. Следует отметить, что оценка степени неточности проводится для всех моделей, построенных с использованием различных методов математического моделирования (таблица 1), но в каждом случае используется определенный способ оценки неточности модели. К тому же все методы моделирования чувствительны к объему выборки наблюдений - чем больше объем выборки, тем более высокое качество модели следует ожидать.
Построение регрессионной линии методом наименьших квадратов вручную и ручной подбор соответствующих коэффициента и константы для уравнения у = Ь * х + Ьо крайне затруднителен, поэтому
однофакторный регрессионный анализ, как и остальные методы статистического моделирования, проводится с использованием специального статистического программного обеспечения, о котором будет сказано ниже. Именно простота получения уравнений регрессии с помощью современных статистических программ делает регрессионный анализ доступными для большого числа исследователей, но данный факт часто играет негативную роль, так как простота построения модели часто несопоставима со сложностью практической интерпретации построенной модели, и поэтому исследователи часто допускают серьезные ошибки в именно на этапе интерпретации моделей [5, 22].
Как и любой другой статистического метод, однофакторный линейный регрессионный анализ имеет определенные условия применения [8]:
- Выборка из популяции должна быть репрезентативной.
- Зависимая переменная должна быть количественной.
- Независимая переменная должна быть количественной.
- Зависимость между переменными должна носить линейный характер (проверяется графически путем построения скаттерограммы).
- Наблюдения (и остатки) должны быть независимы друг от друга (проверяется с помощью критерия ОигЬт-^Шзоп).
- Остатки должны иметь нормальное распределение (проверяется графически путем построения гистограмм и квантильных диаграмм, а также с помощью критериев Колмогорова-Смирнова или Шапиро-Уилка). О проверке нормальности распределения подробно сказано в первой статье настоящего цикла публикаций [15].
- Остатки должны иметь одинаковый разброс на всем протяжении предсказанных значений (или независимой переменной). Данное условие проверяется путем построения скаттерограммы (в идеальной ситуации график должен представлять собой бессистемный разброс точек).
Первые четыре условия применения метода не требуют комментариев по причине очевидности, а остальные условия будет подробно описаны ниже, в процессе пошагового описания алгоритма анализа.
Следует обратить внимание
исследователей на первое условие применения однофакторного линейного регрессионного анализа, так как модель, удовлетворяющая всем остальным условиям и имеющая высокую внутреннюю валидность, может оказаться совершенно бесполезной в отношении применения на уровне генеральной совокупности, если выборка наблюдений не является репрезентативной.
Для того, чтобы читатель приобрел практические навыки выполнения однофакторного линейного регрессионного анализа, будет рассмотрен фрагмент данных,
которые были собраны в ходе исследования, направленного на изучение метаболического синдрома и его детерминант в условиях неблагополучной социально-экологической ситуации в Южном Казахстане [23, 24, 28, 32].
В ходе данного исследования были получены значения индекса массы тела (ИМТ) и окружности талии 277 пациентов.
Представленные ниже алгоритмы действий являются не более чем инструментом анализа данных, в то время как корректная интерпретация полученных результатов требует наличия базисных знаний в области биомедицинской статистики, которые могут быть получены только путем изучения специализированной литературы [5, 2, 6, 25, 27, 29, 36, 38].
Однофакторный линейный регрессионный анализ с использованием программы Statistica 10
На начальном этапе обработки данных требуется построить скаттерограмму, чтобы визуально определить, носит ли связь между переменными линейный характер.
Читайте также: