Можно ли графически представить трехфакторную нелинейную регрессионную модель как это сделать
Цель работы. Освоение способов перехода от нелинейной взаимосвязи зависимой и объясняющей переменной к линейной модели; освоение построения по выборочным данным нелинейной модели парной регрессии; оценка значимости построенной модели и ее прогностических свойств; оценка точности и надежности параметров модели; построение прогнозов значений зависимой переменной в MS Excel 2010. Интерпретация модели.
Краткие сведения. В парной линейной регрессии взаимосвязь наблюдаемых в выборке значений зависимой переменной и значений фактора X описывается линейной по и линейной по параметрам зависимостью . Она не всегда наилучшим образом отражает существующую взаимосвязь и X. Поэтому наряду с парной линейной регрессией рассматривают и нелинейные модели парной регрессии, в которых исследуются нелинейные взаимосвязи и .
Различают два класса нелинейных моделей регрессии:
· регрессии, нелинейные относительно объясняющих переменных, но линейные относительно параметров модели, например, , или ;
· регрессии нелинейные по параметрам, например, или .
2. Регрессии нелинейные по параметрам разделяются на внутренне линейные и внутренне нелинейные модели. Внутренне линейные модели с помощью соответствующих преобразований приводятся к линейному виду и затем оцениваются методом наименьших квадратов. Внутренне нелинейные модели не могут быть приведены к линейному виду. Внутренне нелинейные модели оцениваются специальными методами. В работе рассматриваются только внутренне линейные модели.
Рассмотрим наиболее широко применяемые при моделировании социально-экономических процессов внутренне линейные модели регрессии и их преобразования к линейному виду.
Мультипликативная модель (степенная с постоянной эластичностью )
,
– мультипликативная случайная ошибка регрессии. Эта модель нелинейная относительно оцениваемых параметров a и b. Прологарифмировав это уравнение, получим
.
Введя новые величины , , и , получим линейное уравнение
,
в котором ошибки регрессии должны удовлетворять предпосылкам линейной регрессии. Получив МНК оценки и параметров линеаризованной модели, одновременно получаем оценку параметра b нелинейной модели, а оценка параметра a находится как .
Экспоненциальная модель (с постоянным темпом прироста b )
(или ).
Прологарифмировав получим . Введя новые величины и , получим линейное уравнение
,
в котором ошибки регрессии должны удовлетворять предпосылкам линейной регрессии. МНК оценки и параметров линеаризованной модели являются оценками параметров исходной нелинейной модели.
Экспоненциальная модель
(или ).
Прологарифмировав получим . Введя новую зависимую переменную и новую объясняющую переменную , получим линейное уравнение
.
МНК оценки и параметров линеаризованной модели являются оценками параметров исходной нелинейной модели.
Показательная модель (с постоянным темпом прироста равным lnb )
логарифмированием приводится к виду и введением новых величин , и преобразуется в линейную модель . Ошибки регрессии должны удовлетворять предпосылкам линейной регрессии. По МНК оценкам и параметров линеаризованной модели, оценки параметров a и b показательной модели находятся как и .
Обратная модель
приводится к линеаризованному виду с помощью замены . Более сложная обратная модель (логистическая)
приводится к линеаризованному виду с помощью замены . В обеих случаях МНК оценки и параметров линеаризованной модели являются оценками параметров обратной модели.
Примеры внутренне нелинейных моделей (не приводимых к линейным по параметрам зависимостям): , , , ,
, .
Линеаризация многофакторных нелинейных регрессионных моделей производится с использованием тех же приемов. Например, производственная функция Кобба-Дугласа логарифмированием приводится к виду и заменами преобразуется к линейному по параметрам уравнение .
Для сопоставления различных линейных и нелинейных регрессионных моделей по их прогностическому качеству используются индекс корреляции (корреляционное отношение)
и средняя ошибка аппроксимации
.
Здесь – рассчитанные по уравнению регрессии значения зависимой переменной, – выборочная средняя значений зависимой переменной, n – объем выборки. Индекс корреляции характеризует разброс выборочных значений относительно линии регрессии . , чем больше значение , тем меньше разброс выборочных значений вокруг линии регрессии (тем лучше качество подгонки уравнения регрессии к выборочным данным). Если равно или близко к нулю, то оцененная модель непригодна, она не объясняет изменение зависимой переменной изменением объясняющей переменной, т. е. построенная модель не лучше модели . Квадрат индекса корреляции называется коэффициентом детерминации . Он показывает долю вариации зависимой переменной Y объясняемую вариацией фактора X в построенной модели регрессии. Средняя ошибка аппроксимации A характеризует среднее относительное отклонение выборочных значений от построенной линии регрессии .
Статистическая значимость уравнения нелинейного регрессии проводится по F- критерию Фишера , который имеет F-распределение Фишера-Снедекора с и степенями свободы, где – число коэффициентов в уравнении регрессии, а n – объем выборки. Оцененное уравнение нелинейной регрессии статистически незначимо, если вычисленное значение F- критерия меньше критического . Если , то оцененное уравнение нелинейной регрессии статистически значимо, т.е. влияние фактора на исследуемый признак может быть описано оцененным уравнением нелинейной регрессии. – квантиль уровня -распределения Фишера-Снедекора с и степенями свободы.
Содержание лабораторной работы.
1. Ввод данных и построение диаграммы рассеяния для подбора подходящей нелинейной по фактору или внутренне линейной регрессионной модели.
2. Построение линейной модели парной регрессии и нахождение для нее средней ошибки аппроксимации.
3. Выбор нелинейной модели, и приведение ее к линейному виду, преобразование переменных.
4. Оценка линеаризованной модели и ее значимости, нахождение оценок параметров нелинейной модели и запись оцененной нелинейной модели.
5. Построение прогнозов среднего зависимой переменной для выборочных значений фактора (регрессора), построение линии регрессии наложенной на диаграмму рассеяния, нахождение индекса корреляции и средней ошибки аппроксимации.
6. Проверка статистической значимости уравнения нелинейной регрессии.
7. Сравнение линейной и нелинейной регрессионных моделей.
8. Интерпретация модели и общее заключение.
Выполнение работы в MS Excel.
Построение в MS Excel парной нелинейной регрессии и сопоставление ее с линейной регрессией проведем на примере построения регрессионной зависимости себестоимости добычи единицы объема газа Y (центы) от процента жидкости в добываемом газе X. Данные наблюдений по десяти скважинам приведены в нижеследующей таблице.
X | 13,3 | 16,9 | 19,9 | 23,2 | 26,3 | 28,7 | 30,1 | 35,1 | 37,4 | 42,6 |
Y | 3,4 | 5,1 | 4,8 | 6,7 | 6,0 | 6,3 | 9,5 | 9,9 | 11,6 | 13,8 |
Ввод данных. В ячейках А1-А11 расположим значения Х, а в ячейках В1-В11 значения Y. Построение диаграммы рассеяния осуществляется также как в работе 3. По диаграмме рассеяния (рис. 9) можем предположить, что имеющиеся данные могут быть описаны линейной регрессией или нелинейной регрессией (например, мультипликативной или экспоненциальной моделью). На рис.9 приведены также значения преобразованных переменных для мультипликативной и экспоненциальной модели и диаграммы рассеяния для новых переменных.
Рис. 9. Преобразования переменных и диаграммы рассеяния
Рис. 10. Линейная регрессия
Выбор нелинейной модели, ее линеаризация и оценка параметров нелинейной модели. Для мультипликативной и экспоненциальной моделей проведем необходимые преобразования переменных. Мультипликативная модель сводится к линейной введением новых переменных , ; а экспоненциальная заменой . Значения разместим в ячейках С1-С11, а значения в ячейках D 1- D 11. Построим также диаграммы рассеяния для преобразованных переменных, близость выборочных точек к некоторой прямой свидетельствует о приемлемости рассматриваемой нелинейной регрессии, см. рис. 9. Оценки параметров линеаризованных моделей проведем также как и в работе 3. Результаты приведены на рис.11 – 12.
Мультипликативная модель. Результаты регрессии для линеаризованной модели показывают значимость оцененного уравнения и его параметров. Для линеаризованной модели получены следующие оценки ее параметров . Для нелинейной модели найдем оценки ее параметров: для нахождения оценки параметра выделим, например, ячейку М92 и в строке формул введем =ЕХР(В86), в этой ячейке получим искомое значение ; оценка параметра для нелинейной модели совпадает с его значением для линеаризованной модели. Оцененная мультипликативная модель имеет вид
.
Вычисление прогнозного значения . Выделим ячейку D 94 и в строке формул введем =EXP(B94).По Enter в этой ячейке получим искомое значение . Аналогично вычисляются другие значения . Для вычисления остатков нелинейной модели выделим ячейку Е94 и в строке формул введем =B2-D94, по Enter в этой ячейке получим искомое значение . Скопировав эту формулу в ячейки Е95-Е103, получим значения других остатков.
Рис. 11. Оценка нелинейной мультипликативной модели
Для вычисления относительных ошибок аппроксимации выделим ячейку F 94 и в строке формул введем =ABS(E94/B2), по Enter в этой ячейке получим искомое значение Скопировав эту формулу в ячейки F95-F103, получим остальные значения .
Для вычисления отклонений найдем выборочное среднее . Выделив ячейку N 95 и введя в строке формул =СРЗНАЧ(B2:B11), получим значение выборочного среднего , равное в примере 7,69. Выделив ячейку G 94 и введя в строке формул =B2-7,69, по Enter в этой ячейке получим . Скопировав эту формулу в ячейки G95-G103, получим остальные значения . Для нахождения отклонений предсказанных значений от среднего выделим ячейку Н94 и в строке формул введем =D94-7,69, по Enter в этой ячейке получим . Скопировав эту формулу в ячейки Н95-Н103, получим остальные значения .
Среднюю ошибку аппроксимации мультипликативной модели найдем, используя вычисленные ранее относительные ошибки аппроксимации и функцию СРЗНАЧ вычисления выборочного среднего. В ячейку Р93 введем =СРЗНАЧ(F94:F103)*100. По Enter получим значение средней ошибки аппроксимации мультипликативной модели, равное в примере 13,117%.
Нахождение индекса корреляции мультипликативной модели. Выделим ячейку О97, в строке формул введем =КОРЕНЬ(1-(СУММКВ(E94:E103))/СУММКВ(G94:G103)). По Enter получим в этой ячейке значение индекса корреляции, равное в примере 0,8996.
Экспоненциальная модель. Результаты регрессии для линеаризованной модели приведены на рис.12. Они показывают значимость оцененного уравнения и его параметров. Оценки параметров линеаризованной модели являются также оценками параметров нелинейной модели . Оцененная экспоненциальная модель имеет вид .
Вычисление прогнозных значения . Выделим ячейку D 132 и введем в строке формул =EXP( B 124+ B 125* A 2). По Enter в этой ячейке получим искомое значение . Аналогично вычисляются другие значения . Для вычисления остатков регрессии нелинейной модели, , выделим ячейку Е132 и в строке формул введем =B2-D132, по Enter в этой ячейке получим искомое значение . Скопировав эту формулу в ячейки Е133-Е141, получим значения других остатков. Для вычисления относительных ошибок аппроксимации , выделим ячейку F 132 и в строке формул введем =ABS(E132/B2), по Enter в этой ячейке получим искомое значение , копируя эту формулу в ячейки F95-F103, получим остальные значения .
Рис.12. Оценка нелинейной экспоненциальной модели
Среднюю ошибку аппроксимации экспоненциальной модели найдем, используя вычисленные относительные ошибки аппроксимации . Выделим ячейку Р132 и в строке формул введем =СРЗНАЧ(F132:F141)*100. По Enter получим значение средней ошибки аппроксимации мультипликативной модели, равное в примере 9,56%.
Нахождение индекса корреляции экспоненциальной модели. Выделим ячейку Р97 и в строке формул введем =КОРЕНЬ(1-(СУММКВ(E132:E141))/СУММКВ(G94:G103)). По Enter получим в этой ячейке значение индекса корреляции, равное в примере 0,957.
Рис. 13. Линии нелинейных регрессий и диаграмма рассеяния
Интерпретация модели и общее заключение. Построенная мультипликативная модель значима и согласуется с выборочными данными. Об этом свидетельствуют значение индекса корреляции и средняя ошибка аппроксимации . Коэффициент детерминации , т.е. 80,8% вариации себестоимости добычи единицы объема газа объясняется в этой модели вариацией процента жидкости в добываемом газе. Среднее относительное отклонение выборочных данных от линии регрессии составляет 13,12%, что больше допустимого уровня. Мультипликативная модель обладает постоянной эластичностью, равной параметру b . В построенной мультипликативной модели b =0,9393, следовательно, увеличение содержания процента жидкости на 1% приводит в среднем к увеличению себестоимости добычи газа на 0,9393%.
Экспоненциальная модель также значима и лучше чем мультипликативная модель согласуется с выборочными данными. Об этом свидетельствуют значение индекса корреляции и средняя ошибка аппроксимации . Коэффициент детерминации , т.е. 91,58% вариации себестоимости добычи единицы объема газа объясняется в экспоненциальной модели вариацией процента жидкости в добываемом газе. Среднее относительное отклонение выборочных данных от линии регрессии составляет 9,53%, что является приемлемой ошибкой аппроксимации. Экспоненциальная модель обладает постоянным темпом прироста, равным параметру b . В построенной экспоненциальной модели b =0,03836, следовательно, увеличение содержания жидкости в добываемом газе на 1% приводит к увеличению себестоимости добычи газа на 3,836%.
Линейная регрессионная модель дает среднюю ошибка аппроксимации 14,96% и коэффициент детерминации , т.е. линейная модель объясняет только 84,2% вариации себестоимости добычи газа вариацией процента содержания в нем жидкости.
Таким образом, из рассмотренных регрессионных зависимостей лучшими аппроксимационными свойствами обладает экспоненциальная модель
1. В чем отличие регрессионных моделей нелинейных только по факторам и нелинейных по параметрам?
2. В чем отличие внутренне линейных и внутренне нелинейных регрессионных моделей?
3. Приведите примеры внутренне линейных моделей. Как осуществляется их линеаризация?
4. Как оцениваются параметры внутренне линейных моделей?
5. Приведите примеры внутренне нелинейных моделей.
6. Какие показатели корреляции используются при анализе нелинейных взаимосвязей?
4.9. Нелинейные модели регрессии: методы линеаризации
До сих пор мы рассматривали линейные регрессионные модели и их обобщения, которые так же были линейными моделями. Для таких моделей получены уравнения для оценок параметров и их характеристик, доказаны свойства оценок, разработаны процедуры тестирования и проверки адекватности. Уравнения, описывающие эти модели и соответствующие процедуры, имеют наиболее простой вид и достаточно просто реализуются на практике в виде вычислительных алгоритмов. Поэтому исследователю можно дать следующую рекомендацию : если есть возможность построить линейную модель с большим количеством регрессоров, вместо нелинейной модели, пусть даже и с меньшим числом регрессоров, то лучше предпочесть линейную модель.
К сожалению, при моделировании реальных социально-экономических процессов далеко не всегда можно описать процесс с помощью линейной зависимости. Однако, можно попытаться так преобразовать нелинейную модель, чтобы свести ее к линейной. Мы покажем, что во многих случаях это удается сделать, и достаточно простым способом.
Нелинейная регрессия, линейная относительно параметров
Широкий класс нелинейных моделей регрессии можно представить в виде
где - известные, в общем случае нелинейные, функции наблюдаемых независимых переменных, (j=1,2,…,k; i=1,2,…,n) (напомним, что переменные все равны единице).
Нетрудно заметить, что нелинейная модель вида ( 4.61 ) легко сводится к линейной, если произвести следующее преобразование переменных: , то есть в уравнении ( 4.61 ) в качестве регрессоров рассматривать функции независимых (объясняющих) переменных, значения которых можно вычислить, имея наблюдения независимых переменных.
Таким образом, если регрессионная модель нелинейна относительно независимых переменных, но линейна относительно коэффициентов регрессии и случайной составляющей, то ее можно рассматривать как линейную, если в качестве регрессоров взять преобразованные независимые переменные.
Регрессия, нелинейная относительно параметров и случайного члена
Многие экономические процессы можно описать нелинейными функциями вида
Правая часть уравнения ( 4.62 ) представляет собой нелинейную функцию как относительно параметров (степенную), так и случайной составляющей. В этом случае говорят, что модель содержит мультипликативные возмущения. В качестве примера подобного вида зависимостей можно привести хорошо известную производственную функцию Кобба - Дугласа (ее эконометрическую версию). Несмотря на кажущуюся сложность нелинейной зависимости ( 4.62 ), ее также можно свести к линейной путем логарифмического преобразования . Действительно, логарифмируя правую и левую части уравнения ( 4.62 ), получим
Уравнение ( 4.63 ) линейно относительно логарифмов переменных модели. Таким образом, вводя преобразования переменных вида нелинейную модель ( 4.62 ) можно свести к линейной.
Интерпретация коэффициентов логарифмической регрессии
Рассмотрим модель с одним регрессором
Продифференцируем правую и левую части этого уравнения, получим
Правая часть формулы ( 4.65 ) определяет эластичность переменной y по x. Понятие эластичности широко используется в экономическом анализе. Коэффициент эластичности показывает, на сколько процентов изменится величина переменной y при изменении переменной x на один процент. Таким образом, в модели ( 4.64 ) параметр - это ни что иное, как коэффициент эластичности переменной y по x.
Обобщая, можно сказать, что в многомерной логарифмической модели ( 4.63 ) коэффициенты , (j=2,3,…,k) - это эластичности зависимой переменной y по переменным .
1) Следует помнить, что логарифмическое преобразование можно применять только в случае, если переменные исходной нелинейной модели принимают положительные значения. В противном случае (при отрицательных значениях переменных) логарифмическая функция не определена.
2) Если в исходной модели возмущения нормально распределены, то преобразованные возмущения этим свойством обладать не будут, что приводит к проблемам с применением тестов, которые основаны на предположении о нормальном распределении возмущений.
3) При нелинейных преобразованиях, подобных логарифмическому, нельзя утверждать, что свойства оценок преобразованной модели после обратного преобразования сохранятся и для исходной модели (будут иметь место и для исходной модели). В частности, оценка вида параметра (здесь - оценка параметра в преобразованной модели) не будет обладать теми же свойствами, что и оценка .
4) Если случайный член в уравнение ( 4.62 ) входит аддитивно, то в этом случае модель невозможно преобразовать так, чтобы свести ее к линейной.
Некоторые типичные часто применяемые в эмпирических исследованиях нелинейные эконометрические модели
2) Логарифмическая (линейная относительно логарифмов)
Заметим, что в данное уравнение, в отличие от ( 4.63 ), шумы входят аддитивно.
5) Правая полулогарифмическая:
6) Левая полулогарифмическая:
7) Интерактивная модель (модель взаимодействия):
Мы рассмотрели типичных представителей класса нелинейных функций, которые можно преобразовать к линейному виду. К сожалению, не для всех нелинейных зависимостей такие преобразования возможны. Примером нелинеаризуемой функции может служить модель вида:
Для оценивания подобных моделей можно использовать метод наименьших квадратов, однако в данном случае его применение приводит к необходимости решения системы нелинейных уравнений, которую, как правило, можно решить только численно, используя специальные численные методы. Здесь этот вопрос подробно не рассматривается, отметим только, что задача построения и изучения свойств нелинейной (и не сводящейся к линейной) регрессии существенно сложнее задачи построения линейной (или сводящейся к линейной) регрессии.
Читайте также: