Как сделать регрессию в stata
В таблице 1.1. приведены ежегодные данные о совокупных личных расходах ; располагаемых личных доходах ; расходах на табак для США на период с 1959 по 1983 годы. Оцените множественную регрессию между регрессандом (эндогенной пер е менной) Var 1 и регрессорами (экзогенными пер е менными) Var 2, Var 3 и Var 4 используя данные за 25 лет. Дайте интерпретацию коэффициентам ре г рессии. Исследуйте степень корреляционной зависимости между переменными. Проверьте остатки на н а личие автокорреляции и гетероскедастичность.
Ежегодные данные о потребительских расходах и
располагаемых личных д о ходах для США на период с 1959 по 1983 годы
Используем пакет Statistica 6.0, модуль Множественная регрессия .
Создадим новый документ с данными, введем число переменных – 4 и число регис т ров – 25. Введем наименования переменных и исходные данные.
Вызовем модуль Множественная регрессия . (Команда Статист и ка Множественная регрессия). Выберем переменные (кнопка ( Variables ). Зависимая ( Dependent ) – Var 1 ; независ и мые ( Independent ) – Var 2 , Var 3 , Var 4 .
Нажмем кнопку ОК в правом углу стартовой панели.
Появится окно результатов множественной регрессии.
Результаты множественной регрессии в численном виде представлены в табл. 1.2.
В первом столбце таблицы 1.2 . даны значения коэффициентов beta — стандартизованные коэффициенты регрессионно го урав нения , во втором — стандартные ошибки beta , в третьем – В – точечные оценки пар а метров модели.
Далее, стандартные ошибки для коэффициентов модели В, значения ст а тис тик t-критерия и т.д.
Из таблицы 1.2 . мы видим, что оцененная модель имеет вид:
Var 1 = 347,2 + 25,018∙ Var 2 – 0,0765∙ Var 3 – 3 ,755 ∙ Var 4 (1.1)
TPE = 347,2 + 25,018 ∙ TIME – 0,0 765 ∙ PI – 3,755 ∙ TOB (1.2)
( t ) ( 0,738 ) (1, 073 ) ( 0,1074) (-0,107 )
В верхней части таблицы 1.2 . и в таблице 1.3 . (а также в информационном окне) прив е дены следующие данные:
Коэффициент множественно й корреляции Multiple R = 0, 9633 ;
Коэффициент детерминации R-square = 0, 9279 ;
Скорректированный на поте рю степеней свободы коэффициент множественной д е термина ции Adjusted R 2 = 0, 9 176 ;
Критерий Фишера F = 90,107 ;
Уровень значимости модели р
Стандартная ошибка оценки Std. Error of estimate = 59,293 .
Проанализируем данные множественной регрессии.
Табличное значение критерия Стьюдента, соответствующее доверител ь ной вероятности = 0,95 и числу степеней свободы v = n – m – 1 = 21 ; t кр. = t 0,025;21 = 2,080.
Сравнивая расчетную t -статистику коэффициентов уравнения с табличным значением, заключаем, что все полученные коэффициенты стат и стически не значимы.
Уравнение (1.2 . ) выражает зависимость совокупных личных расходов ( TPE ) от времени ( TIME ), личного дохода ( PI ) и расходов на табак ( TOB ). Коэффициенты уравнения пок а зывают количественное воздействие каждого фактора на результативный показатель при неизменности других. В нашем случае совокупные личные расходы увеличиваются на 25,017 ден. ед. при увеличении времени на 1 ед. при неизменности показателей личного дохода и расходов на табак ; совокупные личные расходы увеличиваются на 0,0765 ден. ед. при увеличении показателя личного дохода на 1 ед. и неизменности показателей времени и расходов на табак ; совокупные личные расходы уменьшаются 3,755 ден. ед. при увеличении ра с ходов на табак на 1 ед. и неизменности показателей времени и личного дох о да.
Множественный коэффициент корреляции построенной модели (Multiple R) R = 0,9633 очень близок к единице, что говорит о высокой степени связи между исследуемыми факт о рами.
Коэффициент детерминации (R Square) R 2 = 0,9279, что говорит о том, что 92,79 % вари а ции переменной TPE объясняется вариацией переменных TIME , PI , TOB и только 7, 21 % приходятся на долю других неучтенных факторов.
Критическое (табличное) значение критерия Фишера для доверительной вероятн о сти = 0,95 и числа степеней свободы v 1 = 25 – 3 = 22 и v 2 = 25 – 1 = 24: F кр . = F 0,05;22;24 = 2,01.
Расчетное значение критерия Фишера F = 90,107 намного превышает табличное значение критерия F табл. = 2,01, что говорит о хорошем качестве п о строенной модели (модель адекватна экспериментальным данным). Уровень значимости p = 0,00000 показывает, что построенная регрессия высоко знач и ма.
Исследуем степень корреляционной зависимости между переменными. Для этого п о строим корреляционную матрицу. Чтобы корреляционная матрица была построена при множественной регрессии, нужно установить флажок в строке Review descriptive statistics , correlations matrix в окне Multiple Regre s sions .
Корреляционная матрица приведена в таблице 1.4.
Из корреляционной матрицы следует, что на расходы на отдых все и с следуемые факторы оказывают значительное и примерно одинаковое влияние (коэффициенты корреляции между Var 1 и Var 2, Var 3, Var 4 равны соответственно 0,9 9975 ; 0,9 4192 ; 0, 96325 ). Из корреляционной матрицы также следует, что между факторами им е ется мультиколлинеарность (коэффициенты корр е ляции между регрессорами Var 2, Var 3, Var 4 также высоки и примерно одинаковы).
Проведем анализ остатков от регрессии.
Остатки представляю т собой разности между наблюдае мыми значениями и модел ь ными, то есть значениями, под считанными по модели с оцененными параметрами.
По кнопке Observed v s . residuals появится график (рис.1.1. ), который г о ворит о неслучайном р азбросе стандартных отклонений .
Рис. 1.1. Наблюдаемые переменные-остатки
Проверим остатки на наличие автокорреляции. Для этого вычислим ст а тистику Дарбина-Уотсона ( Darbin-Watson Stat ). Результаты вычисления статистики Дарбина-Уотсона привед е ны в табл. 1.5.
Из табл. 1.5 определяем наблюдаемое значение критерия Дарбина-Уотсона:
По таблице приложения 4 [1] определяем значащие точки d L и d U для 5% уровня зн а чимости.
Для m = 3 и n = 25 d L = 1,123; d U = 1,654.
Так как 4 - d U DW 4 - d L ( 2,346 2,469 ), то гипотезу об отсутствии автокорреляции мы не можем принять и не можем опровергнуть, так как значение статистики попало в зону неопределенности критерия .
Для проверки наличия гетероскедастичности воспользуемся тестом Па р ка. В Excel рассчитаем логарифмы значений e 2 , Var 2 , Var 3 и Var 4 (см. табл. 1.6).
Я хотел бы запустить несколько регрессий и сохранить их результаты в файле DTA, который позже можно было бы использовать для анализа. Мои ограничения:
- Я не могу установить модули (я пишу код для других людей и не уверен, какие модули они установили)
- Некоторые из регрессоров являются факторными переменными.
- Каждая регрессия отличается только зависимой переменной, поэтому я хотел бы сохранить ее в окончательном наборе данных, чтобы отслеживать, какой регрессии соответствуют коэффициенты / дисперсии.
Я серьезно теряю здесь рассудок. Я считаю, что это, вероятно, просто, учитывая, что Stata - это статистическая программа, но svmat на самом деле не кооперативная. В настоящее время я делаю следующее:
Это создает для каждой регрессии: одну строку, в которой хранятся коэффициенты, одну строку, в которой хранится их дисперсия с использованием vecdiag(e(V)) . Имена строк для этих двух строк - это имя зависимой переменной, за которым следует _b для коэффициентов и _v для отклонений.
Я использую ручную константу, потому что _cons не является допустимым именем для переменной при использовании svmat .
Конечно, мое "решение" не работает, потому что уровни факторов генерируют странные имена столбцов матрицы, которые затем становятся недопустимыми именами переменных при вызове svmat . (Ошибка краткая invalid syntax .) Я был бы рад ЛЮБОМУ решению этой проблемы с учетом моих ограничений. Нет необходимости использовать svmat, коэффициенты и дисперсии могут быть в одной строке, если это упрощает, и т. Д.
В этой главе мы рассмотрим несколько примеров анализа данных с помощью системы STATISTICA. Первый пример относится к области маркетинга (мы показываем возможности модуля Множественная регрессия), три следующие примера к промышленным приложениям (мы показываем возможности модулей Планирование эксперимента и Карты контроля качества), пятый пример иллюстрирует возможности STATISTICA по наложению результатов анализа на географические карты.
Еще раз отметим, что современная STATISTICA — это средство разработки приложений в конкретных областях (бизнесе, медицине, промышленности и др.). Библиотека STATISTICA содержит более 10 000 тщательно отлаженных и проверенных на практике процедур анализа данных. Развитие системы естественно приводит к созданию средств разработки собственного интерфейса и использования библиотеки STATISTICA для создания оригинальных модулей, включающих, наряду с процедурами STATISTICA, алгоритмы разработчика. Все эти процедуры объединяются общим интерфейсом, средствами управления данными и графикой STATISTICA.
Именно в создании средств для разработки приложений мы видим будущее систем анализа данных.
Известно, что этот рынок поделен между 5 фирмами, обозначенными далее А, В, С, D и Е. До 1981 года на рынке присутствовали фирмы А, В и С, в 1981 году на рынок пришли фирмы D и Е. Но уже в' 1983 году фирма D не выдержала конкуренции, а у фирмы А возникли финансовые проблемы.
В следующей таблице представлены объемы продаж в отрасли и доля каждой фирмы.
Можно заметить, что после появления фирм D и Е произошло резкое снижение доли фирмы А. Две новые фирмы D и Е по-разному освоили рынок. Фирма D имела большие производительные способности, чем фирма Е, но заметно отстала по объемам продаж. Этот пример интересен тем, что показывает соотношение затрат на рекламу и производство.
Будем считать, что основным показателем эффективности рекламы является объем продаж фирмы. В этой таблице представлены расходы на рекламу каждой фирмы и ее доля в рекламе.
Понятно, что вхождение в отрасль фирм D и Е потребовало больше расходов на рекламу (в процентном отношении к объему продаж). Это отчетливо видно из следующей таблицы:
Заметим, фирма D в 1982 году резко снизила расходы на рекламу, что, возможно, стало причиной потери рынка.
Предполагается, что для рекламы используются следующие средства массовой информации: телевидение, газеты, журналы и радио.
На реальный объем продаж пива влияют также такие факторы, как температура воздуха, число туристов и индекс потребительских цен (инфляция).
В предлагаемой модели теоретическая зависимость основывается на предположении, что объем продаж за период t (далее это месяцы) является функцией объема продаж за прошлый период расходов на рекламу в периоды t и t-1, количества туристов, значений температуры и индекса розничных цен.
St — объем продаж (в драхмах);
At — ассигнования на рекламу;
Tt — число туристов в месяц t;
Wt — средняя температура воздуха;
Pt — индекс розничных цен.
Итак, мы построили модель зависимости, но коэффициенты этой модели неизвестны. Эти коэффициенты оцениваются из исходных данных в модуле Множественная регрессия.
Оценка коэффициентов по методу наименьших квадратов выявила статистическую незначимость переменных Wt и Pt, и они были исключены из дальнейшего анализа.
В результате получилось уравнение, содержащее меньшее число переменных:
Оценим коэффициенты этого уравнения, используя реальные данные. Для анализа использовались данные о месячных продажах за 2 года. Число наблюдений равнялось 24. Результаты регрессии приведены в таблице:
Значения коэффициента детерминации R 2 , близкие к единице, говорят о хорошем приближении линии регрессии к наблюдаемым данным и о возможности построения качественного прогноза.
Низкое значение коэффициента детерминации R 2 для фирмы D объясняется низкой эффективностью рекламной кампании и трудностями на административном уровне. Можно сделать вывод, что модель плохо применима к фирме D.
Статистики Дарбина—Уотсона свидетельствуют об отсутствии автокорреляции остатков при 5%-м уровне значимости, т. к. все ее значения по модулю меньше 1,96.
Все значения регрессионных коэффициентов значимы при уровне значимости 0,5, за исключением коэффициентов при At для фирм В, D и Е.
Одним из возможных объяснений этого факта является то, что показатели этих фирм зависят от рекламной деятельности за прошлый период времени, то есть от Аt-1
Продажи фирмы А имеют значительную положительную корреляцию с ее расходами на рекламу за период t, что отличает ее от других фирм. Окончательно взаимосвязь между рыночными продажами и совокупными расходами на рекламу положительна и значима при уровне 5%.
Представленные выше результаты регрессии образуют основу оценки эффективности совокупных расходов на рекламу.
Покажем, как строятся такие модели в системе STATISTICA. Для этих целей обычно используется модуль Множественная регрессия.
В этом модуле собраны методы, позволяющие оценить зависимость одной переменной от нескольких других переменных.
Переменная, для которой строится зависимость, называется зависимой (по-английски dependent variable). Эта переменная входит в левую часть уравнения, описывающего зависимость (см. уравнение (*)). Переменные, от которых мы хотим построить зависимость, называются независимыми переменными (по-английски independent variables) или предикторами (от английского predict — предсказывать). Эта переменная входит в правую часть уравнения, описывающего зависимость. Сам термин множественная регрессия (по-английски multiple regression) означает, что модель может содержать несколько предикторов, позволяющих предсказывать зависимую переменную.
Итак, общая идея состоит в том, чтобы по значениям предикторов предсказывать значения зависимой переменной, например, по значениям продаж и расходам на рекламу в текущем и предыдущем месяце предсказывать продажи в следующем месяце.
Конечно, количество предикторов можно увеличить, например, ввести объем продаж у конкурентов или какие-то другие, имеющие смысл и доступные наблюдению переменные. Однако здесь имеется тонкость, предикторы могут оказаться зависимыми между собой.
Переменные, которые следует включить в модель, определяет специалист в предметной области. Затем нужно выполнить следующие действия.
Шаг 1. Запустите модуль Множественная регрессия.
Шаг 2. Введите исходные данные в файл системы STATISTICA. Назовите его, например, Beer.sta.
Шаг 3. Определите переменные в модели. Задайте S в качестве зависимой переменной и S1. P — в качестве независимых переменных, или предикторов. После этого стартовая панель модуля будет выглядеть так:
В появившемся окнеПошаговая множественная регрессия снова нажмите ОК.
Теперь перед вами диалоговое окно результатов, полученных с помощью пошаговой процедуры с включением. Следует отметить, что в нем указаны стандартизованные коэффициенты регрессии.
Заметим, если вы предполагаете, что в модели должно присутствовать небольшое число предикторов, то естественно использовать пошаговый метод с включением предикторов. Если вы предполагаете, что в модели должно присутствовать большое число предикторов, то естественно использовать метод с исключением.
Шаг 6. В окне результатов нажмите кнопку Анализ остатков.
Шаг 7. В диалоговом окне Анализ остатков нажмите кнопку Статистика Дарбина—Уотсона. Эта статистика позволяет исследовать зависимость между остатками. Формально остатки представляют собой разность: наблюдаемые значения зависимой переменной минус оцененные с помощью модели значения зависимой переменной.
Зачем проверять зависимость остатков? Идея проста: если остатки существенно коррелированны (зависимы), то модель неадекватна (нарушено важное предположение о независимости ошибок в регрессионной модели).
Рассмотрим более подробно статистику Дарбина—Уотсона. Мы уделяем этой статистике так много внимания, потому что статистика Дарбина—Уотсона является стандартом для проверки некоторых видов зависимости остатков и с ней нужно научиться работать.
Статистика Дарбина—Уотсона используется для проверки гипотезы о том, что остатки построенной регрессионной модели некоррелированы (корреляции равны нулю), против альтернативы: остатки связаны авторегрессионной зависимостью вида:
Формально статистика Дарбина—Уотсона вычисляется следующим образом:
Иными словами, сумма квадратов первых разностей остатков нормируется суммой квадратов остатков. Проведя вычисления, вы легко выразите статистику Дарбина—Уотсона через коэффициент корреляции: d = 2(1 — р).
Критические точки статистики Дарбина—Уотсона табулированы (см. например, Драйпер Н., Смит Г. Прикладной регрессионный анализ. М.: Финансы и статистика, т. 1. с. 211, см. также таблицу, показанную ниже).
В таблице приведены два критических значения статистики Дарбина—Уотсо-на: DL_k и DU_k — нижнее и верхнее, зависящие как от числа наблюдений, по которым оцениваются параметры, так и от числа предикторов k, которые включены в модель.
На графике видно, как меняются значения DL_k и DU_k в зависимости от числа наблюдений (k = 1, 2, 3, 4, 5).
Число наблюдений, для которого рассчитаны критические значения, указано в заголовках строк приведенной таблицы.
Итак, вы находите строку с нужным числом наблюдений и два смежных столбца с нужным числом предикторов. На пересечении строки и столбцов располагаются нижние и верхние критические точки статистики Дарбина—Уотсона.
Если d DU_k и 4 — d > DU_k, то гипотеза о независимости остатков не отвергается на уровне 2a.
Если d DU_k, то гипотеза о независимости не отвергается на уровне a.
После того как мы познакомились со статистикой Дарбина—Уотсона, продолжим работу в модуле Множественная регрессия.
Шаг 9. Вернитесь в окно Результаты множественной регрессии и нажмите кнопку Предсказать зависимую переменную. Далее в полях А1 и S1 укажите значения текущего месяца, а в полях Т и А — значения на следующий месяц.
Этот пример относится к промышленной статистике (см. Cornell J. А. (1990). How to Apply Response Surface Methodology, vol. 8 in Basic References in Quality Control: Statistical Techniques, edited by S. S. Shapiro and E. Mykytka. Milwaukee: American Society for Quality Control).
Любая машина или станок, используемые на производстве, позволяют операторам производить настройки, чтобы воздействовать на качество производимого продукта. Изменяя настройки, инженер стремится добиться максимального эффекта, а также выяснить, какие факторы играют наиболее важную роль в улучшении качества продукции.
В системе STATISTICA имеется мощный модуль планирования экспериментов, позволяющий эффективно планировать и анализировать эксперименты.
Задача состояла в том, чтобы исследовать факторы, влияющие на качество производимых пластиковых дисков.
Известно, что наибольшее влияние на качество оказывают следующие два фактора:
1) материал, характеризующийся отношением наполнителя к эпоксидной резине,
2) расположение диска в форме.
В качестве зависимой переменной рассматривалась плотность полученного диска.
Сначала использовался дробный факторный план 2 2 для того, чтобы определить адекватность модели первого порядка. В этой модели оба фактора комбинировались друг с другом на верхних и нижних значениях (всего имеется 4 комбинации). Но оказалось, что модель оказалась адекватной лишь для некоторой области значений факторов и неадекватной для всей значений факторов. На самом деле зависимость между факторами и откликом была нелинейной. Поэтому было решено использовать центральный композиционный план и применить модель второго порядка.
Центральный композиционный план может состоять из куба и звезды. Куб соответствует полному факторному плану — точки эксперимента располагаются в вершинах куба (фактически это факторный план 22).
Звезда содержит дополнительное множество точек, расположенных на одинаковых расстояниях от центра куба на отрезках, исходящих из центра и проходящих через каждую сторону куба.
В данном исследовании применялся ротатабельный план, в котором дисперсия отклика является постоянной во всех точках, одинаково удаленных от центра плана.
Пусть фактор А — это характеристика материала, из которого изготовлен диск, более точно, так называемое композиционное отношение (disk composition ratio), фактор В — положение диска в форме (position of disk in mold). Зависимая переменная, или отклик эксперимента, — плотность диска (Thickness).
Запустите модуль Планирование эксперимента.
На стартовой панели выберите Центральные композиционные планы, поверхности отклика и нажмите кнопку ОК.
Появится диалоговое окно План эксперимента для поверхности отклика. Нажмите на кнопку Имена факторов, значения и заполните таблицу в диалоговом окнеИтоги для переменных .
Просмотрите план. Для этого нажмите Просмотр/Правка/Сохранение.
Задание имени и сохранение экспериментального плана
Выберите Сохранить как файл данных. ; появится соответствующее диалоговое окно. Задайте имя плана disk.sta и нажмите кнопку ОК.
Вернитесь в диалоговое окно План эксперимента для поверхности отклика.
Упражнение 5.1 (продолжение упражнения 4.1). Используя пакет Excel, по данным базы concrete оценим модель qt = ро + Pt/, + Р2ki + е-. Проверим значимость коэффициентов и адекватность регрессии в целом.
Решение. Чтобы оценить множественную регрессию в пакете Excel, необходимо выбрать все регрессоры одним массивом.
Нажав кнопку ОК, получим следующие результаты (табл. 5.1).
Таблица 5.1
Оценка модели множественной регрессии в Excel
Регрессионная статистика
Множественный R
R-квадрат
Нормированный ?-квадрат
Стандартная ошибка
Дисперсионный анализ
Значимость ?
Стандартная
У-пересечение
Переменная X,
Переменная Х2
Объясняющая сила данной регрессии на основе критерия R 2 выше по сравнению с парной моделью (R 2 возрос с 0,55 до 0,72, подробности см. в упражнении 3.1). Константа в множественной регрессии незначима, остальные два коэффициента наклона значимы даже на 1%-ном уровне значимости. Регрессия является адекватной, поскольку p-value для ?-статистики очень мало (6,35?-83 « 0).
Иногда из модели исключают факторы, коэффициенты при которых незначимы, чтобы не терять эффективность оценок, но незначимую константу принято оставлять, чтобы избежать смещения оценок и иметь возможность интерпретировать R 2 .
Упражнение 5.2. Используя статический пакет Stata, но данным базы concrete оценим уравнение qi = ро + р,/, + р2kt + е,. Дадим интерпретацию результатам. Проверим гипотезу о равенстве коэффициентов перед переменными, соответствующими труду и капиталу, на 5%-ном уровне значимости.
Решение. Чтобы оценить множественную модель в статистическом пакете Stata, необходимо добавить названия регрессоров после названия регрессанта:
II reg q 1 к
Number of obs F( 2, 296)
R-squared Adj R-squared
629.1715 .9616119 22946.75
Коэффициенты при переменных / и k являются значимыми при любом разумном уровне значимости (поскольку р-value для проверки соответствующей гипотезы равны 0,000), а константа незначима при любом разумном уровне значимости (поскольку p-value равно 0,929).
Полученные оценки коэффициентов можно интерпретировать следующим образом: при увеличении количества рабочих на одного выпуск при прочих равных условиях возрастет на 533,66 тыс. руб.; если капитал возрастает на 1 тыс. руб., то выпуск увеличивается на 0,8403 тыс. руб.
Чтобы провести тест на равенство коэффициентов друг другу, необходимо использовать команду test после оценки регрессии:
В результате получим (1) 1 - к = о
Гипотеза о равенстве коэффициентов при переменных k и / отвергается при любом разумном уровне значимости, так как p-value теста равно 0, а значит, нулевая гипотеза отвергается на любом уровне значимости (что неудивительно).
Упражнение 5.3. Используя статистический пакет R, по данным concrete выполним следующее.
1. Оценим модель qi = Р0 + Р/, + Р2^ + е * со следующими ограничениями на вы-
* Г / > 50, борку; | (у > 2ооо.
- 2. Сравним оценки коэффициентов данной модели с оценками коэффициентов из модели без ограничений на выборку.
- 3. Оценим модель с другими ограничениями на выборку: | g^200Q
- 4. Сравним результаты оценки разных моделей.
Решение. Загрузив данные в статистический пакет R, оценим модель с ограничениями с помощью следующих команд:
d 50 & q > 2000)) summary(reg)
lm(formula = q - 1 + k, data = data, subset = 1 > 50 & q > 2000)
Min IQ Median 3Q Max
-1213611 -47806 -2269 38781 937923
Estimate Std. Error t value Pr(>ItI)
- (Intercept) -3.040e+03 1.836e+04 -0.166 0.869
- 1 5.361e+02 6.091e+01 8.801 3.96e-16 ***
k 8.427e-01 7.197e-02 11.710 ItI)
- (Intercept) -1.086e+03 1.221e+04 -0.089 0.929
- 1 5.337e+02 4.853e+01 10.996 150 & q > 2000)) summary(reg2)
lm(formula = q ~ 1 + к, data = data, subset = 1 > 150 & q > 2000)
Min IQ Median 3Q Max
-1286368 -72123 -11962 63548 920708
Estimate Std. Error t (Intercept) -8.820e+03 1 5.217 e + 02
3.248e+04 -0.272 0.786
- 8.483e+01 6.149 7.18e-09
- 8.951e-02 9.953 F
Поскольку p-value для F-статистик и (Prob > F) меньше любого разумного уровня значимости (в таблице 0,0000), то эта регрессия адекватна.
Поскольку p-value при проверке гипотезы о значимости каждого коэффициента регрессии менее 0,01, то все факторы значимы при уровне значимости 1%. Интерпретировать полученные результаты можно следующим образом: длительность обучения индивидов не менее 4,4 года (оценка свободного члена), при улучшении интегрированного показателя, характеризующего способности индивида, на 1 балл длительность обучения индивида увеличивается на 0,12 года (оценка коэффициента при переменной ASVABC), при увеличении длительности обучения матери индивида на 1 год длительность обучения индивида увеличивается на 0,12 года (оценка коэффициента при переменной 5М), при увеличении длительности обучения отца индивида на 1 год длительность обучения индивида увеличивается на 0,15 года (оценка коэффициента при переменной SF).
2. Для проверки гипотезы о равенстве коэффициентов при переменных SM и SF одновременно нулю в командном окне следует набрать:
|| test SM SF
В окне результатов Stata будет выдано
Поскольку p-value для F-статистики (Prob > F) для проверки этой гипотезы меньше любого разумного уровня значимости (в таблице 0,0000), то нулевая гипотеза Н0: рз = р4 = 0 отвергается при любом разумном уровне значимости.
3. Для проверки гипотезы о равенстве коэффициентов при переменных SM и SF в командном окне следует набрать:
|| test (SM = SF)
В окне результатов будет выдано
(1) SM - SF = 0 F ( 1, 536) = 0.19
Поскольку p-value для F-статистики (Prob > F) для проверки этой гипотезы достаточно велико (0,6671), нулевая гипотеза Н0: р3 = р4 не отвергается при любом разумном уровне значимости.
4. Для оценки регрессии S = Р, + р2ASVAB02 + р3ASVAB03 + р aASVAB04 + р5SM + + p65F+ в в командном окне следует набрать команду
Читайте также: