Как избавиться от мультиколлинеарности в excel
Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах.
При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица особенная, т. к. содержит линейно зависимые векторы – столбцы и ее определитель равен нулю, т. е. нарушается предпосылка 6 регрессионного анализа.
В экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Матрица в этом случае является неособенной, но ее определитель очень мал.
Точных количественных критериев для определения наличия или отсутствия мультиколлинеарности не существует. Тем не менее некоторые эвристические подходы по ее выявлению.
Один из таких подходов заключается в анализе корреляционной матрицы между объясняющими переменными и выявлении пар переменных, имеющий высокие коэффициенты корреляции (обычно больше 0,8). Если такие переменные существуют, то говорят о мультиколлинеарности между ними.
Другой подход состоит в исследовании матрица . Если определитель матрицы либо ее минимальное собственное значение близки к нулю, то говорят о мультиколлинеарности.
Обычно выделяются следующие последствия мультиколлинеарности:
1. Большие дисперсии (стандартные ошибки) оценок. Это затрудняет нахождение истинных значений определяемых величин и расширяет интервальные оценки, ухудшая их точность.
2. Уменьшаются t – статистики коэффициентов, что может привести к неоправданному выводу о существенности объясняющей переменной на зависимую переменную.
3. Оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к изменениям данных, т. е. становятся неустойчивыми.
4. Затрудняется определение вклада каждой из объясняющих переменных в объясняемую уравнением регрессии дисперсию зависимой переменной.
5. Возможно получение неверного знака у коэффициента регрессии.
Точных количественных критериев для определения наличия (отсутствия) мультиколлинеарности не существует. Тем не менее существуют некоторые рекомендации по выявлению мольтиколлинеарности.
1. В первую очередь анализируют матрицу парных коэффициентов корреляции
точнее ту ее часть, которая относится к объясняющим переменным:
Здесь парный коэффициент корреляции между переменными , ; - парный коэффициент корреляции между Y и . Считается, что наличие коэффициентов превышающих по абсолютной величине 0,75 – 0,8, свидетельствует о наличии мультиколлинеарности.
2. Если определитель матрицы близко к нулю (например, одного порядка с накапливающимися ошибками вычислений), то это свидетельствует о наличии мультиколлинеарности.
3. Коэффициент детерминации достаточно высок, но некоторые из коэффициентов регрессии статистически значимы, т. е. они имеют низкие t – статистики.
4. Высокие частные коэффициенты корреляции свидетельствует о наличии мультиколлинеарности. При изучении многомерных связей необходимо измерять действительную силу линейной связи между двумя переменными, очищенную от влияния на рассматриваемую пару переменных других факторов.
Для устранения или уменьшения мультиколлинеарности используется ряд методов. Самый простой из них состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из переменных, которая имеет больший коэффициент корреляции с зависимой переменной.
Другой метод устранения или уменьшения мультиколлинеарности заключается в переходе от несмещенных оценок, определенных по методу наименьших квадратов, к смещенным оценкам, обладающих меньшим рассеянием относительно оцениваемого параметра.
Отметим, что в ряде случаев мультиколлинеарность не является таким уж «злом», чтобы прилагать существенные усилия по ее выявлению и устранению. В основном все зависит от целей исследования.
Если основная задача модели – прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации ( ) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели (если в будущем коррелированными переменными будут те же отношения, что и ранее).
Если необходимо определить степень влияния каждой из объясняющих переменных на зависимую переменную, то мультиколлинеарность, приводящая к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой.
Единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.
Исключение переменной(ых) из модели
Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных. При применении данного метода необходима определенная осмотрительность. В данной ситуации возможны ошибки спецификации, поэтому в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока Мультиколлинеарность не станет серьезной проблемой.
Получение дополнительных данных или новой выборки
Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.
Изменение спецификации модели
В ряде случаев проблема мультиколлинеарности модели может быть решена путем изменения спецификации модели, либо добавляются объясняющие переменные, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым сокращая ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.
Использование предварительной информации о некоторых параметрах
Иногда при построении модели множественной регрессии можно воспользоваться предварительной информацией, в частности известными значениями некоторых коэффициентов регрессии. Вполне вероятно, что значения коэффициентов, рассчитанные для каких – либо предварительных (обычно более простых) моделей либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.
При обосновании выбора той или иной модели исследователь сталкивается с рядом трудностей, которые можно разделить на несколько групп. Первая группа трудностей вызвана мультиколлинеарностью переменных, которая существенно проявляется при решении системы (6). Мультиколлинеарность переменных означает, что среди объясняющих переменных имеются явно линейно зависимые (коэффициенты парной корреляции близки к единице). Тогда определитель матрицы системы (6) может быть равен или близок к нулю. Отсюда следует, что оценки b * коэффициентов множественной линейной регрессии находятся неустойчиво, имеют большие стандартные ошибки. Это не позволяет сделать достоверных выводов о модели в целом. Простейший способ устранения мультиколлинеарности переменных состоит в отбрасывании одной или нескольких переменных, вызывающих мультиколлинеарность.
Вторая группа трудностей вызвана автокорреляцией остатков. Наличие автокорреляции остатков не позволяет применять МНК в указанной выше форме, иначе говоря, полученными оценками коэффициентов b * пользоваться нельзя. Способ устранения автокорреляции состоит в оценке коэффициентов корреляции между переменными и их явный учет в формулах МНК.
Третья группа трудностей обусловлена наличием гетероскедастичности наблюдений. Она связана с тем, что дисперсия погрешности ei каждого наблюдения не одинакова и равна Di. Для устранения этой трудности необходимо оценить Di и учесть ее в формуле для функции L(b), а именно вычислять L(b), используя соотношение
Одной из причин гетероскедастичности наблюдений является замена переменных в нелинейных моделях. В обоих случаях необходимо изучать выборку остатков.
ПРАКТИЧЕСКОЕ ЗАДАНИЕ
Построить зависимость по двум признакам. Оценить полученные результаты. Объяснить экономический смысл полученных результатов.
Объем производства | Фондоотдача | Объем производства | Фондоотдача |
348 | 0,82 | 359 | 0,93 |
349 | 0,82 | 360 | 0,94 |
350 | 0,83 | 361 | 0,96 |
351 | 0,84 | 362 | 0,95 |
352 | 0,85 | 361 | 0,95 |
352 | 0,86 | 366 | 0,97 |
353 | 0,86 | 369 | 0,97 |
354 | 0,87 | 370 | 0,99 |
355 | 0,88 | 372 | 0,98 |
356 | 0,89 | 372 | 1,01 |
358 | 0,90 | 376 | 1,02 |
359 | 0,91 | 374 | 1,03 |
357 | 0,91 | 379 | 1,05 |
356 | 0,92 |
Для построения зависимости воспользуемся методом наименьших квадратов. Уравнение регрессии будем искать в виде линейного уравнения .
Для оценки параметров и уравнения линейной регрессии по методу наименьших квадратов используем систему нормальных уравнений:
Вычислим все необходимые суммы на основании расчетной таблицы:
№ п/п | Объем производства x | Фондоотдача y | |||
1 | 348 | 0,82 | 285,36 | 121104 | 0,8891 |
2 | 349 | 0,82 | 286,18 | 121801 | 0,9143 |
3 | 350 | 0,83 | 290,50 | 122500 | 0,929 |
4 | 351 | 0,84 | 294,84 | 123201 | 0,9311 |
5 | 352 | 0,85 | 299,20 | 123904 | 0,9332 |
6 | 352 | 0,86 | 302,72 | 123904 | 0,9437 |
7 | 353 | 0,86 | 303,58 | 124609 | 0,9584 |
8 | 354 | 0,87 | 307,98 | 125316 | 0,9626 |
9 | 355 | 0,88 | 312,40 | 126025 | 0,9815 |
10 | 356 | 0,89 | 316,84 | 126736 | 0,9899 |
11 | 358 | 0,90 | 322,20 | 128164 | 0,9941 |
12 | 359 | 0,91 | 326,69 | 128881 | 1,0109 |
13 | 357 | 0,91 | 324,87 | 127449 | 1,0151 |
14 | 356 | 0,92 | 327,52 | 126736 | 1,0235 |
15 | 359 | 0,93 | 333,87 | 128881 | 1,0319 |
16 | 360 | 0,94 | 338,40 | 129600 | 1,0193 |
17 | 361 | 0,96 | 346,56 | 130321 | 1,0361 |
18 | 362 | 0,95 | 343,9 | 131044 | 0,9731 |
19 | 361 | 0,95 | 342,95 | 130321 | 0,9521 |
20 | 366 | 0,97 | 355,02 | 133956 | 1,0151 |
21 | 369 | 0,97 | 357,93 | 136161 | 1,0487 |
22 | 370 | 0,99 | 366,30 | 136900 | 1,0529 |
23 | 372 | 0,98 | 364,56 | 138384 | 1,0571 |
24 | 372 | 1,01 | 375,72 | 138384 | 1,0613 |
25 | 376 | 1,02 | 383,52 | 141376 | 1,0739 |
26 | 374 | 1,03 | 385,22 | 139876 | 1,0781 |
27 | 379 | 1,05 | 397,95 | 143641 | 1,0844 |
9731 | 24,91 | 8992,78 | 3509175 |
Система нормальных уравнений будет иметь вид:
Из первого уравнения выразим: , подставим во второе
Из полученного уравнения регрессии следует, что при увеличении объема производства Х на 1 ед. фондоотдача Y увеличится в среднем на 0,007 ед.
Для оценки параметров полученных результатов вычислим коэффициент детерминации по формуле: . Имеем .
. Это обозначает, что вариация зависимой переменной y – фондоотдачи на 98% объясняется изменчивостью объясняющей переменной х – объемом производства.
Значение коэффициента парной корреляции значительно приближено к 1 , значит связь между переменными х и y достаточно тесная.
Список использованной литературы
1. Кремер Н. Ш., Путко Б. А. Эконометрика: Учебник для вузов / Под ред. Проф. Н. Ш. Кремера. – М.: ЮНИТИ – ДАНА, 2002
2. Эконометрика: Учебник / Под ред. И. И. Елисеевой. – М.: Финансы и статистика, 2003
На основе таблицы данных (см. Приложение) для соответствующего варианта :
1. Проверить наличие коллинеарности и мультиколлинеарности. Отобрать неколлинеарные факторы.
2. Построить уравнение линейной регрессии.
3. Определить коэффициент множественной корреляции.
4. Проверить адекватность уравнения при уровнях значимости 0,05 и 0,01.
5. Построить частные уравнения регрессии.
6. Определить средние частные коэффициенты эластичности.
Краткие указания к выполнению лабораторной работы с помощью программных средств MS Excel
1. Для проверки наличия коллинеарности или мультиколлинеарности необходимо построить корреляционную матрицу, используя СервисÞАнализ данныхÞКорреляция табличного процессора MS Excel (см. Лабораторную работу №1).
x1 | x2 | x3 | x4 | x5 | x6 | y | |
x1 | |||||||
x2 | 0.967 | 1.000 | |||||
x3 | 0.910 | 0.903 | 1.000 | ||||
x4 | 0.602 | 0.541 | 0.515 | 1.000 | |||
x5 | -0.079 | -0.095 | 0.025 | 0.129 | 1.000 | ||
x6 | -0.359 | -0.429 | -0.526 | -0.354 | -0.331 | 1.000 | |
y | 0.959 | 0.960 | 0.865 | 0.742 | -0.052 | -0.428 | 1.000 |
Рис. 2.1. Пример корреляционной матрицы, построенной для всех независимых переменных x1,…,x6 и зависимой переменной у.
Исключать переменные из регрессионного уравнения можно по следующему алгоритму, продемонстрируемом на следующем примере (Рис. 2.1).
Из рисунка 2.1 следует, что наблюдается коллинеарность между факторами x1иx2, так как коэффициент корреляции между ними равен 0,967 (>>0.700). Более того, x2иx3также сильно коррелированны. При этом корреляция между x1иx3менее значимая (0,602<0,700), и эти независимые переменные сильно коррелированны с y. Наблюдается также высокая положительная корреляция между x3иy. Сама переменная x3 слабо коррелирует с x1иx3.
Таким образом, в линейное уравнение множественной регрессии могут быть включены независимые переменные x1, x3 иx4. Наряду с x2, из дальнейшего рассмотрения исключаются переменные, х5 и x6в силу слабой коррелированности этих переменных с зависимой переменной y.
2. Используя СервисÞАнализ данныхÞКорреляция табличного процессора MS Excel (см. Лабораторную работу №2), заполняется диалоговое окно "Регрессия" с выделением диапозонов значения для входного интервала Y и X. При этом в входной интервал X входят все значения переменных, включенных в регрессию.
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | |
Y-пересечение | -9.553881794 | 38.50490016 | -0.248121194 | 0.809061431 |
Переменная X1 | 0.040936422 | 0.025120874 | 1.629577951 | 0.134245631 |
Переменная X3 | 0.159940519 | 0.092019499 | 1.738115522 | 0.112827489 |
Переменная X4 | -0.097836325 | 0.161067927 | -0.607422761 | 0.557111047 |
Рис. 2.2. Пример таблицы рабочего листа вывода итогов, содержащей регрессионные коэффициенты для переменных, включенных в регрессию.
Из приведенной таблицы (Рис. 2.2), получается следующее множественное регрессионное уравнение, содержащие три независимых переменных:
3) Указанный коэффициент множественной корреляции R, наряду с коэффициентом детерминации R 2 и скорректированным коэффициентом детерминации приведен в верхней таблице рабочего листа вывода итогов (Рис. 2.3).
Регрессионная статистика | |
Множественный R | 0.969 |
R-квадрат | 0.938 |
Нормированный R-квадрат | 0.920 |
Стандартная ошибка | 45.315 |
Наблюдения |
Рис. 2.3. Пример таблицы, содержащей R, R 2 и скорректированный R 2 .
4) Проверка значимости уравнения регрессии основана на использовании F-критерии Фишера. Фактическое значение Фишера Fфакт берется из таблицы "Дисперсионный анализ" листа вывода итогов (Рис. 2.4):
df | SS | MS | F | Значимость F |
Регрессия | 313551.0012 | 104517.0004 | 50.89612302 | 2.3136E-06 |
Остаток | 20535.35597 | 2053.535597 | ||
Итого | 334086.3571 |
Рис. 2.4. Пример таблицы, содержащей результаты дисперсионного анализ.
Из рисунка 2.4 получается, что Fфакт = 50,896.
Рис. 2.5. Пример Окна параметров MS Excel «FРАСПОБР»
Из рисунка 2.5 следует, что критическое значение Fкрит=3.708
5. Строятся частные регрессионные уравнения, предварительно определив средние значения зависимой и независимых переменных, входящих в регрессионное уравнение. В приведенном примере:
Частное уравнение регрессии характеризует взаимосвязь зависимой переменной у от независимой xi при неизменном уровне всех остальных (значения всех остальных переменных считается равным их среднему)
Например, частное уравнения зависимости у от независимой x1 будет иметь следующий вид:
Аналогично определяются все оставшиеся уравнения частной регрессии.
6. Коэффициенты частной эластичности определяются аналогично случая парной регрессии (см. лабораторную работу №2)
7. Все расчеты выполняются в MS Excel. Отчет готовиться в MS Word с описанием основных шагов выполнения данной лабораторной работы и интерпретацией полученных результатов.
8. Подготовленный отчет сдается через электронную систему обучения ГОУ ВПО КГТЭИ.
Определение 3.1. Факторы коллинеарны, если между ними имеется связь, т.е. корреляция.
Определение 3.2. Явление мультипликативности – когда больше чем 2 фактора связаны между собой.
В случае мультиколлинеарности в первоначальном уравнении может быть дублирование, отсюда следует, что независимые факторы должны не зависеть.
О наличии мультиколлинеарности между независимыми факторами, как правило, судят по матрице попарных коэффициентов корреляции.
Считают, что 2 переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если их rxixj>0,7. Неявная зависимость факторов: 0,5< rxixj <0,7 (судят, например, по тому, что связь между незначимыми переменными есть, если Fрасч большое, а t-статистики маленькое).
Включение в модель мультиколлинеарных факторов затрудняется по следующим причинам:
1) Сложно объяснить коэффициенты регрессии с экономической точки зрения, т.к. коррелированы и имеется дубляж переменных.
2) Оценки параметров регрессии не надежны, отсюда следует, что модель не пригодна для анализа и прогнозирования.
О наличии мултиколлинеарности в целом для модели можно судить на основе следующего критерия:
1) Высчитывают определитель матрицы корреляционных парных коэффициентов.
Переменные Z1,k - главные компоненты.
Чем ближе det Rxixj к 1, тем меньше коллинеарность факторов.
где n – количество наблюдений
k – количество факторов
3) Определяется для степеней свободы
4) Если < , то имеет место мультиколлинеарность факторов.
Для устранения мультиколлинеарности существует несколько подходов:
1. Исключение связанных между собой независимых факторов путем отбора мало существенных из них. Для этого необходимо исполнить следующие процедуры:
1) Включение дополнительных факторов
2) Исключение факторов
3) Пошаговая регрессия
При исключении факторов придерживаются следующих принципов (рассматривают только факторы, между которыми доказана мультиколлинеарность):
1) исходя из теоретических предположений о наименьшей информативности факторов
2) убирают самый наименее значимый фактор из мультиколлинеарных на основе t-статистики (t-статистика должна быть наименьшей)
2. Переход к ортогональным переменным с помощью метода главных компонентов.
В данном методе заменяют сильно коррелированные переменные совокупностью новых, между которыми корреляция отсутствует. Но эти переменные являются линейными комбинациями исходных переменных.
3. Подход, учитывающий мультиколлинеарность – метод гребневой регрессии.
В методе гребневой регрессии строятся несколько измененные коэффициенты регрессии МНК.
) -1 – обратная матрица
k – количество факторов
Ik+1 – матрица размерности n * m, приведенная к верхнетреугольному виду.
Добавление к диагональным элементам числа S позволяет получить невырожденную матрицу X T X и вместе с тем, оценки Bx будут иметь незначительные смещения. Но это можно компенсировать за счет правильного выбора S (т.е. средне квадратичные ошибки в методе гребневой регрессии будут меньше, чем аналогичные ошибки в МНК-оценках).
Для устранения или уменьшения мультиколлинеарности используется ряд методов.
Наиболее распространенные в таких случаях следующие приемы: исключение одного из двух сильно связанных факторов, переход от первоначальных факторов к их главным компонентам, число которых быть может меньше, затем возвращение к первоначальным факторам.
Самый простой из них состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной.
Еще одним из возможных методов устранения или уменьшения мультиколлинеарности является использование стратегии шагового отбора.
Наиболее широкое применение получили следующие схемы построения уравнения множественной регрессии: метод включения факторов и метод исключения – отсев факторов из полного его набора. В соответствии с первой схемой признак включается в уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции, что позволяет последовательно отбирать факторы, оказывающие существенное влияние на результирующий признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов из содержательных соображений. При этом первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д.
Вторая схема заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент t . После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы.
Особым случаем мультиколлинеарности при использовании временных выборок является наличие в составе переменных линейных или нелинейных трендов. В этом случае рекомендуется сначала выделить и исключить тренды, а затем определить параметры регрессии по остаткам. Игнорирование наличия трендов в зависимой и независимой переменных ведет к завышению степени влияния независимых переменных на результирующий признак, что получило название ложной корреляции.
Читайте также: