Text
                    ЭКОНОМЕТРИКА
Под редакцией члена-корреспондента
Российской Академии наук
И.И.Елисеевой
Второе издание,
переработанное и дополненное
Рекомендовано
Министерством образования
Российской Федерации
в качестве учебника для студентов
высших учебных заведений,
обучающихся по специальности
061700 "Статистика"
МОСКВА
'ФИНАНСЫ И аДТИСТИКА"
2007


УДК 330.43(075.8) ББК 65в6я73 Э40 АВТОРЫ: И.И. Елисеева, СВ. 1^рышева, Т.В. Костеева, И.В. Пантина, Б.А. Михайлов, Ю.В. Нерадовская, Г.Г. Штрое, К. Бартелс, Л.Р. Рыбкина РЕЦЕНЗЕНТЫ: Кафедра математической статистики и эконометрики Московского государственного университета экономики, статистики и информатики (МЭСИ); П.А. Ватник, д-р экон. наук, профессор Санкт-Петербургского государственного инженерно-экономического университета Эконометрика: учебник/И.И. Елисеева, СВ. Курышева, Э40 Т.В. Костеева и др.; под ред. И.И. Елисеевой. - 2-е изд., пере- раб. и доп. - М.: Финансы и статистика, 2007. - 576 с: ил. ISBN 978-5-279-02786-6 Излагаются условия и методы построения эконометрических моделей по пространственным и временным данным, оценки параметров методом наи- меньших квадратов и методом максимального правдоподобия. Описываются структурные модели; автокорреляционная функция и методы выявления структуры временного ряда. При изучении взаимосвязей между временными рядами внимание уделяется коинтефации, моделям с распределенным лагом (метод Койка) и моделям авторегрессии. Во втором издании (1-е изд. - 2001 г.) расширены главы, посвященные эконометрическому анализу и моделирова- нию временных рядов, введены модели бинарного и множественного выбора, а также панельных данных. Для преподавателей, аспирантов, студентов экономических вузов, слуша- телей институтов повышения квалификации. ^ 1602090000-100 219-2006 ^^^ 330.43(075.8) 010(01)-2007 ^^^ 65в6я73 €> Коллектив авторов, 2001 ISBN 978-5-279-02786-6 © Коллектив авторов, 2005
ОГЛАВЛЕНИЕ Предисловие 9 Глава 1. Определение эконометрики 15 1.1. Предмет эконометрики 15 1.1.1. Некоторые сведения об истории возникно- вения эконометрики 16 1.1.2. Становление эконометрики 21 1.2. Особенности эконометрического метода 23 1.3. Измерения в эконометрике 34 Контрольные вопросы 41 Глава 2. Парная регрессия и корреляция в эконометрических исследованиях 43 2.1. Спецификация модели 43 2.2. Линейная регрессия и корреляция: смысл и оцен- ка параметров 51 2.3. Оценка значимости параметров линейной регрес- сии и корреляции 63 2.4. Интервальный прогноз на основе линейного урав- нения регрессии 72 2.5. Нелинейная рефессия 77 2.6. Подбор линеаризующего преобразования 96 2.7. Корреляция для нелинейной рефессии . 99 2.8. Средняя ошибка аппроксимации 106 Конфольные вопросы 108 Глава 3. Множественная регрессия и корреляция 109 3.1. Спецификация модели 109 3.2. Отбор факторов при посфоении множественной рефессии 110 3.3. Выбор формы уравнения рефессии 120 3.4. Оценка параметров уравнения множественной рефессии 123 3.5. Частные уравнения рефессии 132 3.6. Множественная корреляция 13^
3.7. Частная корреляция 145 3.8. Оценка надежности результатов множественной регрессии и корреляции 155 3.9. Фиктивные переменные во множественной рег- рессии 167 3.10. Предпосылки метода наименьших квадратов ... 182 3.11. Обобщенный метод наименьших квадратов 201 3.12. Метод максимального правдоподобия 208 3.13. Тобит-модели 214 Контрольные вопросы 221 Глава 4. Модели с дискретной зависимой переменной 223 4.1. Модели бинарного выбора 223 4.2. Оценивание параметров моделей бинарного вы- бора 228 4.3. Модели множественного выбора 234 4.3.1. Модели множественного выбора с неупоря- доченными альтернативами 235 4.3.2. Модели множественного выбора с упорядо- ченными альтернативами 241 Контрольные вопросы 245 Глава 5. Системы эконометрических уравнений 246 5.1. Общее понятие о системах уравнений, используе- мых в эконометрике 246 5.2. Структурная и приведенная формы модели 251 5.3. Проблема идентификации 255 5.4. Оценивание параметров структурной модели 264 5.4.1. Косвенный метод наименьших квадратов .. 265 5.4.2. Двухшаговый метод наименьших квадратов 271 5.5. Применение систем эконометрических уравнений 275 5.6. Путевой анализ 284 Контрольные вопросы 295 Глава 6. Моделирование одномерных временных рядов 296 6.1. Основные элементы временного ряда 296 6.2. Автокорреляция уровней временного ряда и выяв- ление его структуры 298 6.3. Моделирование тенденции временного ряда 305 6.4. Моделирование сезонных и циклических коле- баний 311
6.4.1. Аддитивная модель временного ряда 312 6.4.2. Мультипликативная модель 317 6.4.3. Применение фиктивных переменных для моделирования сезонных колебаний 324 6.5. Моделирование тенденции временного ряда при наличии структурных изменений 327 Контрольные вопросы 334 Глава 7. Стационарные стохастические процессы 335 7.1. Определения 335 7.2. Эргодичность 337 7.3. Особые случаи 338 Контрольные вопросы 339 Глава 8. Процессы ARMA 341 8.1. Модели МА 341 8.2. Модели AR '.. 344 8.3. Модели ARMA 347 Контрольные вопросы 349 Глава 9. Автокорреляция и спектр 350 9.1. Автокорреляционная функция 350 9.2. Частная автокорреляционная функция 356 9.3. Спектральная плотность 359 Контрольные вопросы 366 Глава 10. Интегрируемые процессы 368 10.1. Нестационарные временные ряды 368 10.2. Метод разностей и интегрируемость 372 10.3. Оценка порядка интегрируемости. Тесты на еди- ничный корень 373 10.3.1. Интеграционная статистика Дарбина- Уотсона 373 10.3.2. Тесты Дики-Фуллера 375 10.3.3. Модификации теста Дики-Фуллера для случая автокорреляции 381 Контрольные вопросы 387 Глава 11. Модели ARIMA 388 11.1. Определение 388 11.2. Идентификация модели и оценивание пара- метров 388
11.3. Мультипликативные модели ARIMA в анализе сезонности 405 11.3.1. Тесты для оценки сезонной интегрируе- мости временных рядов 406 11.3.2. Сезонные модели ARMA 408 Контрольные вопросы 411 Глава 12. Прогнозирование авторегрессионных процессов .... 412 12.1. Прогнозирование ARMA-процессов 412 12.2. Прогнозирование ARIMA-процессов 416 Контрольные вопросы 421 Глава 13. Процессы ARCH и GARCH 422 13.1. Условная гетероскедастичность 422 13.2. Модели ARCH/GARCH 423 Контрольные вопросы 426 Глава 14. Изучение взаимосвязей по временным рядам 427 14.1. Специфика статистической оценки взаимосвязи двух временных рядов 427 14.2. Методы исключения тенденции 429 14.2.1. Метод отклонений от тренда 430 14.2.2. Метод последовательных разностей 432 14.2.3. Включение в модель рефессии фактора времени 435 14.3. Автокорреляция в остатках. Критерий Дарби- на-Уотсона 436 14.4. Оценивание параметров уравнения регрессии при наличии автокорреляции в остатках 442 14.5. Коинтеграция временных рядов 446 Контрольные вопросы 453 Глава 15.Динамическиеэконометрическиемодели 454 15.1. Общая характеристика моделей с распределен- ным лагом и моделей авторегрессии 454 15.2. Интерпретация параметров моделей с распреде- ленным лагом и моделей авторегрессии 456 15.3. Изучение структуры лага и выбор вида модели с распределенным лагом 461 15.3.1. Лаги Алмон 462 6
15.3.2. Метод Койка 469 15.3.3. Метод главных компонент 474 15.4. Модели адаптивных ожиданий и неполной кор- ректировки 483 15.5. Оценка параметров моделей авторегрессии 489 Контрольные вопросы 494 Глава 16. Модели панельных данньЕх 495 16.1. Основные понятия 495 16.2. Анализ двухпериодных панельных данных 496 16.2.1. Панельные данные по сравнению с неза- висимыми наблюдениями за однотипны- ми объектами 496 16.2.2. Взятие разностей 499 16.2.3. Обобщение на более чем два периода наб- людений 505 16.3. Характеристики панельных данных 506 16.3.1. Реальные данные 506 16.3.2. Микровыборки и общие макроопросы ... 509 16.3.3. Описательный анализ 5Ц 16.4. Основные обозначения и терминология 514 16.5. Обзор линейных моделей 516 16.5.1. Обычная регрессия 518 16.5.2. Несвязанные регрессии 519 16.5.3. SUR-модели 519 16.5.4. Фиктивные переменные 520 16.5.5. Компоненты ошибки 521 16.5.6. Случайные коэффициенты 521 16.6. Фиксированные эффекты 522 16.6.1. Оценивание 523 16.6.2. Проверка на наличие фиксированных эф- фектов 524 16.6.3. Оценки с учетом вариации между объекта- ми наблюдения и взаимосвязь регрессий . 525 16.6.4. Недостатки оценок рефессии с фиксиро- ванными эффектами 527 16.6.5. Пример: данные о фирмах 528 16.7. Случайные эффекты * 530 16.7.1. Оценивание 531 16.7.2. Взаимосвязь с другими оценками 535 16.7.3. Проверка на наличие случайных эффектов 536
16.8. Выявление характера эффектов (фиксирован- ные или случайные). Тесты на спецификацию модели 537 16.9. Инструментальные переменные 540 16.10. Полный анализ панельных данных на примере российских регионов 542 16.11. Обобщения основных моделей 547 16.11.1. Несбалансированные модели 548 16.11.2. Временные эффекты 549 16.12. Математическое приложение 550 16.12.1. Матричная запись моделей 550 16.12.2. Выполнимый обобщенный метод наи- меньших квадратов 553 16.12.3. Некоторые детали теста Хаусмана 554 Контрольные вопросы 555 Литература 556 Приложения 558 1. Данные по 30 регионам России за 1997-2000 гг 558 2. Статистико-математические таблицы 564 2.1. Таблица значений /'-критерия Фишера на уровне зна- чимости а = 0,05 564 2.2. Критические значения /-критерия Стьюдента на уров- не значимости 0,10; 0,05; 0,01 (двухсторонний) 565 2.3. Критические значения коэффициентов корреляции для уровней значимости 0,05 и 0,01 566 2.4. Значения статистики Дарбина-Уотсона dj^ dy на 5%-ном уровне значимости 566 2.5. Критические значения интеграционной статистики Дарбина-Уотсона для оценки стационарных времен- ных рядов 568 2.6. Критические значения интеграционной статистики Дарбина — Уотсона для оценки нестационарных вре- менных рядов 568 2.7. Критические значения /-критерия для DF-, ADF- и РР-тестов, рассчитанные по Маккиннону 569 2.8. Критические значения коинтеграционного ADF-кри- терия для уровней значимости 0,01; 0,05; 0,1; /w = 1 .. 570 Предметный указатель 571
ПРЕДИСЛОВИЕ Сегодня деятельность в любой области экономики (управле- нии, финансово-кредитной сфере, маркетинге, учете, аудите) требует от специалиста применения современных методов рабо- ты, знания достижений мировой экономической мысли и пони- мания научного языка. Большинство новых методов основано на эконометрических моделях, концепциях и приемах. Без глубоких знаний эконометрики научиться использовать их невозможно. Чтение современной экономической литературы также предпо- лагает хорошую эконометрическую подготовку Специфической особенностью деятельности экономиста является работа в условиях недостатка информации и неполноты исходных данных. Анализ такой информации требует специаль- ных методов, которые составляют один из аспектов эконометри- ки. Центральной проблемой эконометрики являются построение эконометрической модели и определение возможностей ее ис- пользования для описания, анализа и прогнозирования реальных экономических процессов. Известный эконометрист 3. Гриллихес (1929-1999) писал: «Эконометрика является одновременно нашим телескопом и на- шим микроскопом для изучения окружающего экономического мира». Это определение подчеркивает значение эконометричес- кого подхода как на микроуровне (поведение индивидов, домохозяйств, фирм), так и на макроуровне. В этом смысле можно говорить о микро- и макроэконометрике. Развитие эконометрики тесно связано с изучением микро- и макроэкономики. Сейчас уже кажется невозможным понять кри- вую Филлипса или теорему Эрроу, использование ресурсов и эластичность потребления, не прибегая к статистическим дан- ным, моделированию и оценке параметров. Микроэкономическая теория утверждает, что снижение цены товара приводит к увеличению спроса на данный товар (при не- изменности всех прочих факторов), т.е. устанавливается связь между спросом на товар и ценой на него. Однако теория не дает количественных оценок данной связи, т.е. не позволяет ответить на вопрос: насколько изменится спрос на данный товар в резуль- тате изменения его цены на определенную величину? Расчет ко- личественных оценок и есть задача эконометрики. Свидетельством всемирного признания эконометрики явля- ется присуждение пяти Нобелевских премий по экономике: пре-
мия 1969 г. была присуждена Р. Фришу и Я. Тинбергену за разра- ботку математических методов анализа экономических процес- сов; премия 1980 г. — Л. Клейну за создание эконометрических моделей и их применение к анализу экономических колебаний и экономической политике; премия 1989 г. — Т. Хаавелмо за прояс- нение вероятностных основ эконометрики и анализ одновремен- ных экономических структур; премия 2000 г. - Дж. Хекману за развитие теории и методов анализа селективных выборок и Д. Макфаддену за развитие теории и методов анализа моделей дискретного выбора; премия 2003 г — Р. Инглу и К. Грэнджеру. Оба ученых нафаждены за разработку методов макроэкономи- ческого анализа: Р. Ингл - за создание метода волатильности, а К. Грэнджер - метода коинтефации. < В соответствии с Государственными образовательными стан- дартами высшего профессионального образования по направле- ниям «Статистика», «Экономика», «Менеджмент» дисциплина «Эконометрика» входит в учебные планы подготовки экономистов всех специальностей в качестве обязательной дисциплины. Это решение принято в связи с переходом высшего экономи- ческого образования в России на мировые стандарты. Курс «Эконометрика» является базовой дисциплиной современного экономического образования и преподается во всех ведущих университетах мира. Учебный курс «Эконометрика» опирается на курсы «Микро- экономика», «Макроэкономика», «Статистика», включая мате- матическую статистику, многомерные статистические методы и т.д. В свою очередь, курс «Эконометрика» выступает в качестве базы для курсов прикладной микро- и макроэкономики. Союз эконометрики с этими разделами экономической теории важен и в научном плане, поскольку использование эконометри- ческих методов позволяет осуществить проверку положений экономической теории. Последовательность изложения материала в учебнике базиру- ется на наиболее распространенном понимании содержания эко- нометрики как науки о связях экономических явлений. При этом принимается во внимание, что особенности изучения связей за- висят от характера данных: пространственные, временные па- нельные. Это понимание эконометрики определило содержание и структуру учебника. Большое место в нем отводится рефессион- ному анализу как методу, используемому в эконометрике для поис- 10
ка уравнения, которое в наибольшей степени соответствует сово- купности наблюдений зависимых и независимых переменных, и тем самым дающему наилучшую оценку истинного соотношения между этими переменными. С помощью оцененного таким обра- зом уравнения можно предсказать, каково будет значение зависи- мой переменной для данного значения независимой переменной. Простейшим примером рефессии является парная линейная рег- рессия всего одной независимой переменной и одной зависимой переменной (скажем, располагаемый доход и потребительские расходы). Задача будет заключаться в подборе прямой линии к со- вокупности данных, состоящих из пар наблюдений дохода и пот- ребления. Линию, которая лучше всего подходит к данным, нужно выбирать так, чтобы сумма квадратов значений вертикальных отк- лонений точек от линии была минимальной. Этот метод наимень- ших квадратов применяется для построения большинства рефес- сии. Степень приближения рефессионной линии к наблюдениям измеряется коэффициентом корреляции. Рефессионное уравнение не дает точного прогноза зависи- мой переменной для любого заданного значения независимой переменной, так как коэффициенты рефессии подвержены слу- чайным искажениям. Чтобы учесть пофешности оцененного уравнения рефессии, офажающего действительные закономер- ности поведения всего населения на основе выборочного наблю- дения, уравнение рефессии обычно записывается как у = а-^ Ьх + е. В уравнении е — дополнительный остаточный член, который офажает остаточное действие случайной вариации и действие других независимых переменных (например, влияние процент- ных ставок на пофебительский кредит), которые воздействуют на пофебительские расходы, но в уравнение рефессии явным образом не включены. Там, где предполагается, что на зависимую переменную суще- ственно влияет более чем одна независимая переменная, исполь- зуется метод множественной линейной рефессии. Эти методы взяты экономефикой из статистики и хорошо знакомы студентам, изучавшим дисциплины «Статистика» и «Математическая статистика». Таким образом обеспечивается преемственность дисциплин. При изложении проблем анализа взаимосвязей на основе просфанственных данных в учебнике 11
уделяется внимание спецификации модели. Отмечается, что лю- бое изолированно взятое уравнение рефессии не позволяет рас- крыть структуру связей между переменными. Из этого следует ес- тественный переход к изложению структурных моделей и путево- го анализа как разновидностям такого подхода. В этой части учебника особое внимание уделяется проблеме идентификации. Поскольку в экономике все большее значение приобретает анализ временных рядов, несколько глав учебника посвящены эконометрическим методам работы с временными рядами, начи- ная с изучения изолированного ряда динамики и его разложения на трендовую, циклическую и случайную компоненты; подбор уравнения тренда и оценки автокорреляции. Затем рассматрива- ются системы рядов динамики и моделирование взаимосвязей между ними. Каждая глава завершается перечнем вопросов для повторе- ния. Учебник сопровождается практикумом, подготовленным тем же авторским коллективом. Практикум содержит методичес- кие указания по решению эконометрических задач, решению ти- повых задач, контрольные и тренировочные задания. Предлагаемый учебник подготовлен коллективом преподава- телей кафедры статистики и эконометрики Санкт-Петербургско- го государственного университета экономики и финансов (СПбГУЭФ), в котором преподавание эконометрики началось с 1996/97 учебного года, включено в учебные планы всех экономи- ческих специальностей и всех форм обучения. Практические за- нятия ведутся с использованием пакетов прикладных профамм «Statgraphics», «Статистика», а с 1999 г. - «Econometric Views», специального пакета для решения эконометрических задач, раз- работанного компанией «Quantitative Micro Software» и пере- данного сотрудниками Тилбургского университета (Голландия) СПбГУЭФ и ряду других экономических вузов России по итогам проведения международной школы-семинара «Эконометрика: начальный курс» (руководители Я.Р. Магнус, С.А. Айвазян, А.А. Пересецкий, П.К. Катышев). Во второе издание учебника (первое - 2001 г) большой вклад внесен коллегами из Потсдамского университета (Германия) — профессором Г. Г. Штрое и д-ром К. Бартелсом. Изданию учебника и дополняющего его «Практикума по эко- нометрике» предшествовала их апробация в СПбГУЭФ и ряде других российских вузов. 12
Во второе издание внесены дополнения и уточнения в главы, посвященные регрессионному анализу; заново написан блок глав, посвященных стационарным стохастическим временным рядам и исследованию коинтефации (д-р, проф. ГГ. Штрое); подготовлен специальный раздел о методе максимального прав- доподобия и его применении (к.э.н., доц. Ю.В. Нерадовская); введена глава о моделях с дискретными переменными, включаю- щая описание моделей бинарного выбора и моделей множест- венного выбора (к.э.н. Л.Р. Рыбкина). Наконец, несомненной удачей данного издания мы считаем главу, посвященную панель- ным данным (д-р К. Бартелс). Как уже отмечалось, к подготовке настоящего издания учебника «Эконометрика» были привлече- ны коллеги из Потсдамского университета (Германия) - д-р, про- фессор Г Г Штрое и его ученик д-р К. Бартелс, внесшие исклю- чительно важный вклад как в расширение круга тем учебника, так и в повышение его научного уровня, обогатившие материал учебника собственным опытом преподавания и исследований. При этом мы старались сохранить общий принцип подачи мате- риала, рассматривая его с исключительно прикладных позиций и адаптируя к дидактическим целям. Вклад зарубежных коллег в подготовку второго издания учеб- ника «Эконометрика» потребовал участия переводчика. Эта часть работы была скрупулезно выполнена сотрудницей Европейского университета в Санкт-Петербурге Ю.В. Вымятниной благодаря ее прекрасным знаниям не только английского языка, но и эко- нометрики. Вряд ли можно рассматривать эконометрику как сложившу- юся дисциплину профессиональной подготовки экономистов. В первую очередь это относится к России, где опыт преподавания эконометрики невелик. В данном и других учебниках акцент делается прежде всего на решение задач, последовательно возникающих в самой статисти- ко-математической теории, а проблемы разнообразных приложе- ний остаются в тени. В лучшем случае приводятся числовые при- меры и опять-таки с целью показать особенности того или иного метода. Опускается экономическая основа эконометрического моделирования, постановка экономической задачи, степень ее теоретической разработки, возможность верификации на конк- ретных данных, измерение, поиск данных, построение модели, ее интерпретация, а также интерпретация тех прогнозов, которые могут быть получены с ее помощью. Современные учебники су- жают эти задачи и сводят их к подгонке модели с целью наилуч- 13
шего имитирования поведения моделируемого объекта. С учетом сказанного было бы более правильно назвать данный и другие учебники «Эконометрические методы», так как это сделал Дж. Джонстон [2]. В принципе нельзя упускать из вида то, что эконометрика призвана придавать конкретное количественное выражение закономерностям, установленным экономической теорией. Круг охваченных тем и характер подачи материала поз- волит отнести данный учебник к начальному уровню курса эко- нометрики. Труд авторов распределился следующим образом: И. И. Ели- сеева, член-корреспондент РАН - предисловие, главы 1, 2, 3 (разд. 3.1—3.11) и 5 (разд. 5.1, 5.6); С. В. Курышева, доктор экон. наук, профессор - главы 2, 3 (разд. 3.1-3.11) и 5 (разд. 5.1-5.5); Т. В. Костеева, канд. экон. наук, доцент — главы 6, 14, 15 (разд. 15.1 - 15.5); И. В. Пантина, канд. экон. наук — глава 10 (пп. 10.3.1, 10.3.2), глава 15 (пп. 15.3.2,15.3.3), приложения 2.5,2.6; Б. А. Ми- хайлов, канд. экон. наук, доцент — глава 2; Ю. В. Нерадовская, канд. экон. наук, доцент - разд. 3.12, 3.13, приложение 1; Г. Г. Штрое, доктор, профессор — главы 7—13; К. Бартелс, доктор - глава 16; Л. Р. Рыбкина, канд. экон. наук — глава 4. Авторы благодарят за тщательное рецензирование рукописи Учебно-методическое объединение по статистике. Особую бла- годарность за ценные замечания, безусловно, способствовавшие улучшению содержания учебника, формы подачи материала, считаем своим долгом выразить рецензенту доктору экон. наук, профессору П.А. Ватнику. Не менее глубокая признательность коллективному рецензенту - кафедре математической статисти- ки МЭСИ (заведующий кафедрой - д-р экон. наук, профессор B.C. Мхитарян). Мы благодарны и канд. физ.-мат. наук С. Б. Ма- каровой (Европейский университет в Санкт-Петербурге — ЕУСПб), которая внесла полезные дополнения на завершающем этапе подготовки учебника. Следует отметить большую работу, проделанную доц. Ю. В. Нерадовской по подготовке второго из- дания учебника. И.И. ЕЛИСЕЕВА
1 Глава ОПРЕДЕЛЕНИЕ ЭКОНОМЕТРИКИ 1.1. ПРЕДМЕТ ЭКОНОМЕТРИКИ Эконометрика - быстроразвивающаяся отрасль науки, цель которой состоит в том, чтобы придать количественные меры эко- номическим отношениям. Термин «эконометрика» впервые был использован бухгалте- ром П. Цьемпой (АБСтро-Венгрия, 1910 г) («эконометрия» — у Цьемпы). Цьемпа считал, что если к данным бухгалтерского уче- та применить методы алгебры и геометрии, то будет получено но- вое, более глубокое представление о результатах хозяйственной деятельности. Это употребление термина, как и сама концепция, не прижилось, но название «эконометрика» оказалось весьма удачным для определения нового направления в экономической науке, которое выделилось в 1930 г. Слово «эконометрика» представляет собой комбинацию двух слов: «экономика» и «метрика» (от гр. metron-мера). Таким обра- зом, сам термин подчеркивает специфику, содержание экономет- рики как науки: количественное выражение тех связей и соотно- шений, которые раскрыты и обоснованы экономической теори- ей. Один из первых сторонников выделения этой новой дисцип- лины Й. Шумпетер (1883-1950), полагал, что в соответствии со своим назначением данная дисциплина должна называться «эко- номометрика». Советский ученый А.Л. Вайнштейн (1892—1970) считал, что название настоящей науки основывается на гречес- ком слове metreo (измеряю), соответственно по аналогии - эко- нометрия. Однако в мировой науке общеупотребимым стал тер- мин «эконометрика». В любом случае, какой бы термин мы ни выбрали, эконометрика - это наука об измерении и анализе эко- номических явлений и их взаимосвязей. Зарождение эконометрики является следствием междисцип- линарного подхода к изучению экономики. Эта наука возникла в результате взаимодействия и объединения в особый «сплав» трех 15
компонентов: экономической теории, статистических и матема- тических методов. Впоследствии к ним присоединилась вьпис- лительная техника как условие развития эконометрики. В журнале «Эконометрика», основанном в 1933 г. Р. Фришем (1895-1973), дано следующее определение эконометрики: «Эко- нометрика - это не то же самое, что экономическая статистика. Она не идентична и тому, что мы называем экономической тео- рией, хотя значительная часть этой теории носит количествен- ный характер. Эконометрика не является синонимом приложе- ний математики к экономике. Как показывает опыт, каждая из трех отправных точек — статистика, экономическая теория и ма- тематика — необходимое, но не достаточное условие для понима- ния количественных соотношений в современной экономичес- кой жизни. Это единство всех трех составляющих. И это единство образует эконометрику»*. Таким образом, эконометрика — это наука, которая дает коли- чественное выражение взаимосвязей экономических явлений и процессов. Нельзя утверждать, что получено однозначное опре- деление эконометрики. Так, Э. Маленво интерпретировал эконо- метрику как «любое приложение математики или статистических методов к изучению экономических явлений»**. О. Ланге (1904—1965) писал, что эконометрика занимается определением наблюдаемых в экономической жизни конкретных количественных закономерностей, применяя для этой цели ста- тистические методы. Статистический подход к эконометричес- ким измерениям стал доминирующим. Это положение обуслови- ло содержание настоящего учебника. 1.1.1. Некоторые сведения об истории возникновения эконометрики Каждая наука проходит сложный путь зарождения и выделе- ния в самостоятельную область знания. Эконометрика — не иск- лючение. Первые попытки количественных исследований в эко- номике относятся к XVII в. «Политические арифметики» — У. Петти (1623-1667), Г. Кинг (1648-1712), Ч. Давенант (1656—1714) - вот когорта ученых, систематически использовав- * Frisch R. Editorial. Econometrica. - 1933. - № 1. - P. 2. ** Malinvaud E. Statistical Method of Econometrics. - Amsterdam: North- Holland, 1996. 16
щих цифры и факты в своих исследованиях, прежде всего в расчете национального дохода. Круг их интересов был связан в основном с практическими вопросами: налогообложением, де- нежным обращением, международной торговлей и финансами. Политическую арифметику можно назвать описательным поли- тико-эконометрическим анализом. Это направление пробудило поиск законов в экономике. Одним из первых был сформулиро- ван так называемый Закон Кинга, в котором на основе соотно- шения между урожаем зерновых и ценами на зерно была выявле- на закономерность спроса. Исследователям хотелось достичь в экономике того, что И. Ньютон достиг в физике. Неопределен- ная природа экономических закономерностей еще не была осоз- нана. В этот же период все больше учетных данных становятся доступными, создавая основу для измерений. Существенным толчком явилось развитие статистической те- ории в трудах Ф. Гальтона (1822-1911), К. Пирсона (1857-1936), Ф. Эджворта (1845-1926). Появились первые применения пар- ной корреляции: при изучении связей между уровнем бедности и формами помощи бедным (Дж. Э. Юл, 1895—1896); между уров- нем брачности в Великобритании и благосостоянием (Г. Хукер, 1901 г), в котором использовалось несколько индикаторов благо- состояния, к тому же исследовались временные ряды экономи- ческих переменных. Это были шаги по созданию современной эконометрики. Параллельно проходил процесс создания маржинали- стской (неоклассической) теории, зарождение которой можно датировать 1860-ми годами (появление работ С. Джевонса, Л. Вальраса, К. Менгера). С 1830-х годов страны с наиболее высоким уровнем развития капитализма стали испытывать спорадические потрясения - упа- док деловой активности, возникновение массовой безработицы. Эти явления не находили теоретического объяснения. Быстрая индустриализация выявила огромный диапазон социальных проблем, которые также не согласовывались с теорией. Уже в конце XIX в. неоклассическая теория стала восприниматься как слишком удаленная от действительности. Для ее практического значения требовались количественные выражения базовых поня- тий, таких, как «эластичность спроса» или «предельная полез- ность». Теория спроса могла стать убедительной в том случае, если она смогла бы объяснить и оценить фактические кривые спроса и предложения, продемонстрировать формирование рав- новесных цен в конкретных условиях. 2-Ш1 17
к этому же времени относится привлечение ученых-эконо- мистов (А. Маршалла, С. Джевонса, К. Менгера) к парламен- тской деятельности, что подтолкнуло их к анализу макроэконо- мических проблем на основе временных рядов таких показате- лей, как, например, валютные курсы и т.п. Это также явилось важным шагом в подготовке развития эконометрики. Многие ис- следователи считают, что книга американского ученого Г. Мура (1869-1958) «Законы заработной платы: эссе по статистической экономике» (1911 г.) может быть названа первым трудом по эконометрике. Г. Муром были проведены анализ рынка труда, статистическая проверка теории производительности Дж. Клар- ка, а также изложены основы стратегии объединения пролетари- ата и т. д. В это время для США решение этих вопросов было бе- зотлагательным: рабочий класс стремительно рос, возникали та- кие объединения, как «Индустриальные рабочие мира» и другие радикально настроенные организации. Г. Мур подошел к анализу поставленных проблем с позиций «высшей», как он называл, ста- тистики, используя достижения теории корреляции, рефессии, анализа динамических рядов. Он стремился показать, что слож- ные математические построения, наполненные фактическими данными, могли составить основу для разработки социальной стратегии. < В этот же период итальянский ученый Р. Бенини (1862—1956) впервые применил метод множественной рефессии дая оценки функции спроса. Значительный вклад в становление экономет- рики внесли исследования цикличности экономики. К. Жюгляр (1819-1905), французский физик, ставший экономистом, пер- вым занялся исследованием экономических временных рядов с целью вьщеления бизнес-циклов. Он обнаружил цикличность инвестиций (продолжительность цикла — 7-11 лет). Вслед за ним С. Китчин, С. Кузнец, Н. Кондратьев, автономно занимаясь этой проблемой, выявили цикличность обновления оборотных средств (3-5 лет), циклы в строительстве (15-20 лет), долгосроч- ные волны, или «большие циклы» Кондратьева, продолжитель- ностью 45-60 лет. Значительной вехой в формировании эконометрики явилось построение экономических барометров, прежде всего так назы- ваемого гарвардского барометра. Большинство экономических барометров, включая названный, основано на следующей идее: в динамике различных элементов экономики существуют такие показатели, которые в своих изменениях идут впереди других и потому могут служить сигналами изменений последних. Гарвар- дский барометр был создан под руководством У. Персонса 18
(1878-1937) и У. Митчелла (1874-1948). В течение 1903-1914 гг он состоял из пяти фупп показателей, которые в дальнейшем бы- ли сведены в три отдельные кривые: кривая А характеризовала фондовый рынок; кривая В - товарный рынок; кривая С — де- нежный рынок. Каждая из этих кривых представляла среднюю арифметическую из рядов входящих в нее нескольких показате- лей. Эти ряды предварительно статистически обрабатывались пу- тем исключения тенденции, сезонной волны и приведения коле- баний отдельных кривых к сравнимому масштабу колеблемости. В основу прогноза гарвардского барометра было положено свой- ство каждой отдельной кривой повторять движение остальных в определенной последовательности и с определенны!*! отставани- ем. Так, с 1903 г. и до первой мировой войны поворотные пункты кривой у4 предшествовали поворотным пунктам кривой 5 на 6-10 месяцев (в среднем - на 8 месяцев); поворотные пункты кривой В обгоняли аналогичные пункты кривой С на 2-8 месяцев (в среднем на 4 месяца); наконец, колебания кривой С предшест- вовали колебаниям кривой А следующего цикла на 6—12 месяцев. Гарвардский барометр представлял собой описание подмечен- ных эмпирических закономерностей и экстраполяции последних на ближайшие месяцы. Однако в построении гарвардского баро- метра можно обнаружить и некоторые теоретические предпосыл- ки. Естественно, например, что изменение средних биржевых курсов и показателей фондового рынка (индекс спекуляции А) оз- начало изменение спроса на товары, что влекло за собой, в свою очередь, изменение индекса оптовых цен, объема производства и товарооборота (индекс В), Возрастание, например, объема произ- водства вызывало напряжение на денежном рынке, рост учетной ставки и падение курса ценных бумаг с фиксированным доходом (кривая С). Поэтому максимум кривой А обычно должен был сов- падать с минимумом кривой С. Успех использования гарвардского барометра породил бук- вально эпидемию таких построений в других странах (в частнос- ти, аналогичный барометр был построен в Великобритании). Еще несколько лет после первой мировой войны он удовлетвори- тельно выполнял свои функции, но приблизительно с 1925 г. по- терял чувствительность и сошел со сцены, пережив свою славу Авторы гарвардского барометра объясняли его крах появлением мощного регулирующего фактора в экономике США. В этих ус- ловиях основным методом макроэкономического анализа стано- вится метод «затраты - выпуск» В.В. Леонтьева (1906-1999). 2' 19
Что касается экономических барометров, то российский ма- тематик-статистик Е. Слуцкий (1880-1948) в работе «Сложение случайных причин как источник циклических процессов» (1927 г.), взяв в качестве случайных рядов последние цифры номеров облигаций из тиражных таблиц выифышей займа, блес- тяще доказал, что «сложение случайных причин порождает вол- нообразные ряды, имеющие тенденцию на протяжении больше- го или меньшего числа волн имитировать гармонические ряды, сложенные из небольшого числа синусоид». Таким образом, ни- какой закономерности в любом экономическом барометре могло и не существовать. В этот же период делались эконометрические построения, использующие методы гармонического анализа и периодограмм- анализа (Г. Мур в США, У. Г. Беверидж (1879-1963 гг.) и др. в Швеции). Данные методы перенесены в экономику из астроно- мии, метеорологии и физики*. В основе гармонического анализа и периодограмм-анализа лежит теорема Фурье, согласно которой всякая периодическая функция, произвольно данная в некотором промежутке, может быть разложена на ряд простых гармонических колебаний и в ко- нечном счете представлена тригонометрическим рядом вида у =f(t) =Aq + A^sin{kt + е,) + A2sin{2kt + e-^) + .... Каждое слагаемое представляет здесь синусоиду - формулу простого гармонического колебания (гармонику), где А^ — полу- амплитуда; е,- — фаза колебания, т. е. характеризует точку, в кото- рой ордината соответствующей синусоиды имеет нулевое значе- ние; к - связано с периодом колебания равенством Т Динамика каждого элемента экономики после исключения из нее тенденции представляется в виде волнообразной кривой. Если бы оказалось возможным разложить эту кривую хотя бы приближенно на сумму гармоник, то это дало бы базу для прогно- за движения интересующего нас элемента. Следовательно, задача сводится к нахождению коэффициентов искомого ряда - полу- * Вайнштсйн А.Л. Эконометрия и статистика/Предисловие к: Тинтнер Г. Введение в эконометрию. - М.: Статистика, 1965. - С. 5-26. 20
амплитуд л,. — по наблюденным значениям, если известны пери- оды отдельных гармоник. Для отыскания периода колебания Т или связанного с ним к применяется метод периодограмм-анали- за. Он состоит в том, что в качестве первого приближения берут- ся два первых члена вышеприведенного ряда, т. е. полагают, что у — А^Л- Aisin{kt + ^i), и затем испытывают различные произволь- ные значения Т (целые и дробные). Для каждого из испытывае- мых периодов вычисляются Ai и е^. Затем строится периодо- график или периодограмма, где на оси абсцисс отмечаются пери- оды, а на оси ординат откладывается Ai\ или интенсивность колебания, соответствующая этим периодам. Большей интенсив- ности колебания отвечает большая вероятность того, что соответ- ствующий ей период колебания неслучаен. Затем, выбрав перио- ды, соответствующие наибольшим интенсивностям, можно представить рассматриваемую волнообразную кривую в виде суммы простых гармоник, имеющих эти периоды, соответствую- щие у4,. Данная сумма может сколь угодно близко подойти к исследуемой кривой. Нужно добавить, что при применении гар- монического метода и периодофамм-анализа не требуется пред- варительного исключения тенденции. К 1930-м годам сложились все предпосылки для вьщеления эконометрики в отдельную науку. Стало ясно, что специалисты, занимающиеся развитием эконометрической науки, должны ис- пользовать в той или иной степени математику и статистику Воз- никла необходимость появления нового термина, объединяюще- го все исследования в этом направлении, подобно биометрике - науке, изучающей биологию статистическими методами. 1.1.2. Становление эконометрики в 1912 г. И. Фишер попытался создать группу ученых для сти- мулирования развития экономической теории путем ее связи со статистикой и математикой. Но эту группу создать не удалось. Тогда Р. Фриш и математик-экономист Ч. Рус предложили соб- рать специальный форум экономистов, готовых к использованию математики и статистики. 29 декабря 1930 г. по инициативе И. Фишера (1867-1947), Р. Фриша, Я. Тинбергена (1903-1995), Й. Шумпетера, О. Андер- сона (1887-1960) и других ученых на заседании Американской ассоциации развития науки (США, Кливленд, штат Огайо) было создано эконометрическое общество, на котором норвежский ученый Р. Фриш дал новой науке название «эконометрика». 21
с самого начала эконометрическое общество было интерна- циональным. Уже в 1950 п общество насчитывало почти 1000 чле- нов. С 1933 г. под редакцией Р. Фриша стал издаваться журнал «Эконометрика» («Econometrica»), который и сейчас ифает важ- ную роль в развитии эконометрической науки. В 1930-1940-е годы развитию эконометрики способствовала деятельность Де- партамента прикладной экономики под руководством Р. Стоуна (Великобритания). В 1941 г появился первый учебник по эконо- метрике, написанный Я. Тинбергеном. Вплоть до 1970-х годов эконометрика понималась как эмпи- рическая оценка моделей, разработанных экономической теори- ей. Р. Фриш определял соотношение между теорией и данными наблюдений следующим образом: теория, абстрактно формулиру- ющая количественные соотношения, должна быть проверена множеством наблюдений. Свежие статистические данные и дру- гие факты должны защитить теорию от опасного догматизма. Под влиянием лидеров, таких, как Р. Фриш, Т. Хаавелмо, Я. Тинбер- ген, Л. Клейн, экономические модели, построенные в этот пери- од, всегда были кейнсианскими. Все изменилось в 1970-е годы. В макроэкономике возникли противоречия между кейнсианцами, монетаристами и марксис- тами. Формальные методы стали использоваться для доказатель- ства причинности при выборе теоретических концепций. Эконо- мическая теория потеряла свое решающее значение. Другое важное событие — появление компьютеров с высоким быстродействием и мощной оперативной памятью. Существен- ное развитие получил статистический анализ временных рядов. Г. Бокс и Г. Дженкинс создали ARIMA-модель в 1970 г, а К. Симе и другие ученые — VAR-модели, ставшие популярными в начале 1980-х гг Существенно стимулировало эконометрические исследова- ния развитие финансовых рынков и инструментов. Это привело к разработке моделей с использованием цензурированных дан- ных (Дж. Тобин). Хаавелмо рассматривал экономические ряды как реализацию случайных процессов. Основная трудность в работе с такими дан- ными - нестационарность, изменяющаяся волотильность (дис- персность). Если переменные нестационарны, то мы рискуем ус- тановить связь там, где ее .нет. Можно перейти от уровней ряда к их первым (или вторым и т.д.) разностям и добиться стационар- ности, но это плохой вариант с точки зрения интерпретации. 22
Вдобавок уменьшается протяженность ряда. Грэнджер ввел кон- цепцию коинтеграции как стационарной комбинации между нестационарными переменными исходя из следующей гипотезы: между нестационарными переменными существует долгосрочное соотношение, отклонения от которого стационарны. Была пред- ложена модель корректировки отклонений (ЕСМ), методы оце- нивания ее параметров, обобщения, тестирования. Вершиной эконометрического анализа временных рядов явилось создание метода коинтеграции. Этот метод применяется для систем, в которых краткосрочная динамика отражает значи- тельные случайные дестабилизирующие факторы, а долгосроч- ная ограничена экономическим равновесием. Например, он го- дится для анализа взаимосвязи между курсами валют и уровнем цен. Модели Ингла и Грэнджера были обобщены для многомер- ного случая С. Иохансеном и др. (1990 г). В настоящее время эконометрика располагает огромным раз- нообразием типов моделей — от больших макроэкономических, включающих несколько сотен, а иногда и тысяч уравнений, до малых коинтеграционных моделей, предназначенных для решения специфических проблем. 1.2. ОСОБЕННОСТИ ЭКОНОМЕТРИЧЕСКОГО МЕТОДА Становление и развитие эконометрического метода проходи- ли на основе так называемой «высшей статистики» — на методах парной и множественной рефессии, парной, частной и множест- венной корреляции, вьщеления тренда и других компонент вре- менного ряда, на статистическом оценивании. Р. Фишер писал: «Статистические методы являются существенным элементом в социальных науках, и в основном именно с помощью этих мето- дов социальные учения могут подняться до уровня наук». Эконометрика как система специфических методов начала развиваться с осознания своих задач — отражения особенностей экономических переменных и связей между ними. В уравнения рефессии начали включаться переменные не только первой, но и второй степени - с целью отразить свойство оптимальности экономических переменных: наличие значений, при которых достигается мини-максное воздействие на зависимую перемен- ную. Таково, например, влияние внесения удобрений на урожай- 23
ность: до определенного уровня насыщение почвы удобрениями способствует росту урожайности; по достижении оптимального уровня насыщения удобрениями его дальнейшее наращивание не приводит к росту урожайности и даже может вызвать ее сни- жение. То же можно сказать о воздействии многих социально- экономических переменных (скажем, возраста рабочего на уро- вень производительности труда или влияния дохода на потребле- ние некоторых продуктов питания и т. д.). В конкретных услови- ях нелинейность влияния переменных может не подтвердиться, если данные варьируют в узких пределах, т.е. являются однород- ными. В последующем в уравнение регрессии стали включаться в качестве самостоятельных компонент взаимодействия учтенных переменных: у = а + biX + b2Z-^ b^xz. В данном уравнении параметр Ь^ измеряет эффект взаимодей- ствия переменных х и г. Конечно, эффект взаимодействия (в дан- ном случае это параметр ^з) может оказаться статистически не- значимым. Поэтому гипотезы о нелинейности и неаддитивности связей не исключают особого внимания к проблеме примени- мости линейных и аддитивных уравнений рефессии. Поясним, следуя А. Голдбергеру (Goldberger), понятия адди- тивности и линейности, часто отождествляемые. Функция У "^/{^ь —'>^к) линейна по всем независимым переменным тогда и только тогда, когда dy/dx^ не включает jc,, т. е. когда d{dy/dx^ = О, эффект данного изменения по х^ не зависит от х,. Мы говорим, что функция у =/(jCi,...,x^) является аддитивной по х, тогда и только тогда, когда dy/dxi не включает Xj{j ф /), т. е. тогда, когда d{dy/dx^dXj = О, эффект данного изменения по каждой незави- симой переменной не зависит от уровня другой переменной. Аддитивность является подходящим определением этой осо- бенности ввиду того, что совместный эффект изменения по всем учтенным независимым переменным может быть получен сложением отдельно вычисленных эффектов изменений по каждой из них. Примеры оценки линейности и аддитивности ряда функ- ций для случая двух объясняющих переменных приведены в табл. 1.1. В эконометрических исследованиях сами уравнения рефес- сии стали обосновываться содержательно. Например, зависи- 24
Таблица 1.1 Примеры оценки линейности функций Функция Ахьх^) «1^1 + ^2^2 + «Э^1^2 Х2/Х1 ^1^1^2 ■•■ ^2^08^2 fllXi + 02^2 + ^Э^1^2 a^Xi + fl2loe^2 ел + «л 2oiXi + «13X2 2aiXi aix^2 ay + a^2 ЛС2 ^2 ^2 2fliXiX2+ — a^Xj ^2 Линей- ность noxi Нет Нет Нет Да Да Да Нет Да П0ДС2 Нет Да Да Нет Да Нет Нет Да Адди- тив- ность nOXj, ^2 Нет Нет Да Нет Нет Да Нет Да мость себестоимости у от объема производства х (количества еди- ниц продукции) может быть представлена следующим образом: Затраты на производство ух Затраты, не зависящие от объема производства (постоянные затраты) b Затраты, зависящие от объема производства (переменные затраты) ах Разделив обе части равенства на объем производства х, по- лучим: Затраты на производ- ство в расчете на 1 ед. продукции Постоянные Переменные затраты + затраты на 1 ед. продукции на 1 ед. продукции. т.е. уравнение имеет вид: b у =—-\-а, X 25
Параметры такого уравнения могут оцениваться методом на- именьших квадратов, но особенность его в том, что каждый пара- метр имеет совершенно определенный экономический смысл. В 1930-е годы повсеместное увлечение множественной рег- рессией сменилось разочарованием. Строя уравнение множест- венной рефессии и стремясь включить как можно больше объяс- няющих переменных, исследователи все чаще сталкивались с бессмысленными результатами - прежде всего с несоответствием знаков при коэффициентах регрессии априорным предположе- ниям, а также с необъяснимым изменением их значений. Причи- на заключается в том, что изолированно взятое уравнение рефес- сии есть не что иное, как модель «черного ящика», поскольку в ней не раскрыт механизм зависимости выходной переменной у от входных переменных х,, а лишь констатируется факт наличия та- кой зависимости. Для проведения правильного анализа нужно знать всю сово- купность связей между переменными. Одним из первых подхо- дов к решению этой задачи явился конфлюэнтный анализ, разра- ботанный в 1934 г. Р. Фришем, который предложил изучать целую иерархию рефессии между всеми сочетаниями переменных. При этом каждая переменная рассматривалась как зависимая от всех возможных подмножеств переменных, а также от всего множест- ва переменных. Анализируя рефессии с разным числом перемен- ных, Р. Фриш обнаружил «эффект дефадации» коэффициентов рефессии. Он проявляется в том, что если в рефессию включает- ся много переменных, имеющих линейные связи друг с другом (мультиколлинеарные переменные), то коэффициенты рефес- сии имеют тенденцию возвращаться к тем значениям, которые они имели в уравнении с меньшим числом переменных. Напри- мер, при четырех переменных, вводя разное число их в анализ, Р. Фриш получил следующие коэффициенты рефессии для связи между jcy мх2\ bi2 = - 0,120; f>i2,4= 0,919; 612,3 = " 0,112. Это поз- волило ему сделать вывод о наличии какого-то оптимального круга переменных, выход за который не улучшает коэффициенты рефессии, делает их неустойчивыми. На основе изменения коэффициентов рефессии 6, и множе- ственного коэффициента детерминации Л он разделил все пере- менные на полезные, лишние и вредные. Переменная считалась по- лезной, если ее включение значительно повышало R^; когда это- го не происходило и ввод новой переменной не изменял коэффи- 26
циентов рефессии при других переменных, то она рассматрива- лась как лишняя; если добавляемая переменная сильно изменяла bi без заметного изменения Л^, то переменная относилась к вред- ным. Надо сказать, что конфлюэнтный анализ не получил боль- шого распространения. Методы корреляций и регрессий создавались как методы описания совместных изменений двух и более переменных. Совместные изменения переменных могут не означать наличия причинных связей между ними. Потребность в причинном объ- яснении корреляции привела американского генетика С. Райта к созданию метода путевого анализа (1910-1920) как одного из разновидностей структурного моделирования. Путевой анализ основан на изучении всей структуры причинных связей между переменными, т. е. на построении графа связей и изоморфной ему рекурсивной системы уравнений. Его основным положени- ем является то, что оценки стандартизованных коэффициентов рекурсивной системы уравнений, которые интерпретируются как коэффициенты влияния (путевые коэффициенты), рассчиты- ваются на основе коэффициентов парной корреляции. Это делает возможным проанализировать структуру корреляцион- ной связи с точки зрения причинности. Каждый коэффициент парной корреляции рассматривается как мера полной связи двух переменных. Путевой анализ позволяет разложить величину этого коэф- фициента на четыре компоненты: • прямое влияние одной переменной на другую (в* этом случае в причинной цепи между одной и другой переменными нет проме- жуточных звеньев); • косвенное влияние, т. е. передача воздействия одной перемен- ной на другую через посредство переменных, специфицирован- ных в модели как промежуточное звено в причинной цепи, свя- зывающей изучаемые переменные; • непричинная компонента, объясняемая наличием общих при- чин, воздействующих на одну и другую переменную; • непричинная компонента, зависящая от неанализируемой в мо- дели корреляции входных переменных. Если компоненты пря- мого и косвенного причинного влияния равны нулю, корреляция между переменными является ложной. Следовательно, путевой анализ С. Райта, так же, как и струк- турные модели, позволил прояснить проблему ложной коррел>1- ции, которой занимались многие видные статистики, начиная с К. Пирсона. 27
При работе с временными рядами разных показателей и при изучении взаимосвязей между ними довольно быстро были осоз- наны проблема ложной корреляции и проблема лага, т. е. сдвига во времени, который позволял уловить наличие связи между по- казателями (валовым внутренним продуктом - ВВП и инвестици- ями, приемом на учебу и выпуском из учебных заведений и т. д.). Ложная корреляция возникает под влиянием фактора време- ни, иначе говоря, трендовой компоненты в коррелируемых вре- менных рядах. Ложную корреляцию такого рода можно представить графически (рис. 1.1), где у^ — уровень временного ряда переменной у во время /, х^ — уровень временного ряда переменной х во время /. Рис. 1.1. Граф связей между уровнями временных рядов во время / Хотя два рассматриваемых временных ряда причинно не связа- ны, они могут тесно коррелировать, если и тот, и другой имеет ярко выраженную тенденцию, т. е. изменение под влиянием фак- тора времени /. Возможность ложной корреляции привела к идее измерения корреляции не самих уровней х^ и у^, а первых разностей: Дх^ = jc^ - -Xf_i, Ay^ = у,—У(-.\ (при линейных трендах). В общем случае было признано необходимым коррелировать отклонения от трендов (за вычетом циклической компоненты): Еу = У(- %] Е^ = ^/ - ^/ (у^, Scj - тренды временных рядов). Структура уровней временного ряда, которые включают тренд (7), конъюнктурный цикл (А), сезонную компоненту (S) и остаточную компоненту (К), позволяет представить любой дина- мический ряд как сумму четырех названных составляющих. Так, временные ряды показателей Хи Yможно записать следующим образом: X,= nX), + K(X),-\-S(X), + R(X)r 28
о. Андерсон предложил измерять взаимосвязи между всеми названными компонентами рядов и находить частные корреля- ции между ними. Значимость каждой из них, конечно, различна: если тренды обоих временных рядов сильно выражены и имеют одинаковую направленность, то соответствующая корреляция получает большое значение; если тренды разнонаправленны, то корреляция может быть более значительной по величине, но от- рицательной по знаку; корреляция между остальными компо- нентами определяется теснотой связи между трендом и конъ- юнктурными колебаниями, трендом и сезонностью и т. д. О. Ан- дерсон подчеркивал, что невозможно предсказать, какое значе- ние может получить ковариация тех или иных компонент, так как все определяется конкретным экономическим материалом. Он обратил внимание на то, что дисперсии уровней временных ря- дов также могут быть представлены как многосложные, включа- ющие вариацию тренда, конъюнктурной компоненты, сезонной и остаточной компонент. Метод оценки разностей разных порядков во временных ря- дах для подбора наиболее подходящей степени полинома для описания тренда одновременно развивали О. Андерсон и В. Госсет (Стьюдент) (1876—1937). Выяснилось, что к временным рядам нельзя применять классические методы корреляционного анализа, поскольку не выполняется исходное условие — незави- симость наблюдений. Так был установлен эффект автокорреля- ции, выявление и устранение которого составляют одну из важ- нейших особенностей эконометрического метода. Исследование динамики социальных и экономических про- цессов выявило довольно сильную распространенность эффекта насыщения: выхода на асимптоту при достижении определенных значений показателей. В силу этого в эконометрике большое расп- ространение получили так называемые кривые с насыщением. К этому типу кривых относится кривая Гомперца - 5-образная кри- вая, предложенная Б. Гомперцем (1799-1865), которая имеет вид: У = Ка''', где К,а,Ь — параметры; / - время (1, 2,...). Кривая Гомперца используется для аналитического выраже- ния тенденции развития показателя во времени, имеющего офа- ничения на рост (рис. 1.2 а,б). Если log д < О, то верхний предел для показателя у равен пара- метру К, а нижний - 0. Если log j > О, то кривая имеет лишь ниж- ний предел, равный величине параметра А'(рис. 1.2 в, г). 29
Рис. 1.2. Кривая Гомперца: А - log а < о при b<\\6-\oga<0 при А > 1; ff - log о > О при ^<l;2-logfl>0 при b < 1 Для определения параметров тренда а и b может использо- ваться метод наименьших квадратов, только если задан параметр К. В противном случае возможно лишь приближенное оценива- ние параметров. Кривая Гомперца применяется в демографичес- ких расчетах и страховом деле. К этому же типу кривых относится логистическая кривая (рис. 1.3), т.е. кривая с насыщением вида К yt^ 77> l-^be'^^ где К,а,Ь - параметры; / - время (1, 2, 3, ....)• 30
о t Рис. 1.3. Логистическая кривая Эта кривая характеризует развитие показателя во времени, когда ускоренный рост в начале периода сменяется замедляю- щимся темпом роста вплоть до полной остановки, что на фафи- ке соответствует отрезку кривой, параллельному оси абсцисс. Используется для описания развития производства новых това- ров, роста численности населения и т. д. Максимум функции со- ответствует параметру К; если ^задано, то параметры аиЬ опре- деляются методом наименьших квадратов. Впервые такая кривая была применена А. Кетле (1796-1874) для расчета численности населения. Большое внимание в эконометрике уделяется проблеме дан- ных — специальным методам работы при наличии данных с про- пусками, влиянию агрегирования данных на эконометрические измерения. Информация может отсутствовать по единицам сово- купности и быть только на уровне более крупных единиц (афега- тов). Например, не по отдельным организациям, а по организа- циям в пределах административного района, т. е. по районам, и т. д. При афегировании данных во времени опасность искаже- ния результатов измерений (скажем, корреляции между времен- ными рядами) гораздо больше, чем при афегировании npocipan- ственных данных. С одной стороны, добавляется эффект автокор- реляции, а с другой — происходит погашение случайной компо- ненты. Результаты могут различаться весьма сильно. Например, при измерении связи между удельным расходом кокса и величи- ной суточного проплава по суточным данным коэффициент кор- реляции составил 0,582, а по четырехсуточным данным - 0,894. Проблемы данных включают и проблемы селективной выбор- ки в микроэконометрике. Типичные направления исследования в этой области таковы: рынок труда, выявление факторов, влияю- 31
щих на решение работать (если «да», то сколько часов); какие эко- номические стимулы влияют на принятие решения о получении образования, об участии в «трейнинговых» профаммах, выборе профессии, места жительства; какое влияние оказывают различ- ные рынки труда и образовательные профаммы на доход индиви- да и принятие им решения о поступлении на работу. При этом вы- борка может быть не случайной, не репрезентативной, офани- ченной только определенными ситуациями. Скажем, при устройстве на работу индивид, имеющий соответствующее обра- зование, стремится получить заработную плату выше определен- ного минимума. Тсм^да рефессия, описывающая зависимость за- работной платы от образования, будет основана не на всем воз- можном поле данных (заработная плата выше/ниже установлен- ного минимума), а только на данных индивидов с заработной пла- той выше минимальной. Возникает смещение наблюдаемой рег- рессии от истинной в результате так называемой самоселекции. Селективное смещение связано с поведением индивидов. В 1976-1979 гг Дж. Хекман предложил двухступенчатый метод оценивания селективного смещения: где W, — заработная плата /-го индивида; jCi/ и Х2/ - векторы характеристик индивида (возможно, перекрываю- щиеся); Ыц и Ыц — ошибки; е^ — характеристика «участия» индивида (например, его склон- ность к работе). При этом мы наблюдаем w„ только, если е,- > 0,1. Эффект самоселекции очень распространен: он возникает, если объективный отбор подменяется «удобной» выборкой, на- пример, когда появляются добровольные респонденты, т.е. те, кто сами предлагают, чтобы их опросили. Очевидно, что характе- ристики добровольцев и недобровольцев могут быть отличны, и это приведет к ошибочному заключению о генеральной совокуп- ности. Эконометрический метод складывался в преодолении следу- ющих неприятностей, искажающих результаты применения классических статистических методов: 32
• асимметричности связей; • мультиколлинеарности объясняющих переменных; • закрытости механизма связи между переменными в изолиро- ванной рефессии; • эффекта гетероскедастичности, т. е. отсутствия нормального распределения остатков для рефессионной функции; • автокорреляции; • ложной корреляции; • наличия лагов. Эконометринеское исследование включает решение следующих проблем: • качественного анализа связей экономических переменных - выделения зависимых (уу) и независимых переменных (х^^); • изучения соответствующего раздела экономической теории; • подбора данных; • спецификации формы связи между у и л:^; • оценки параметров модели; • проверки ряда гипотез о свойствах распределения вероятностей для случайной компоненты (гипотезы о средней дисперсии и ко- вариации); • анализа мультиколлинеарности объясняющих переменных, оценки ее статистической значимости, выявления переменных, ответственных за мультиколлинеарность; • введения фиктивных переменных; • выявления автокорреляции, лагов; • выявления тренда, циклической и случайной компонент; • проверки остатков на гетероскедастичность; • анализа структуры связей и построения системы одновремен- ных уравнений; • проверки условия идентификации; • оценивания параметров системы одновременных уравнений (двухшаговый и трехшаговый метод наименьших квадратов, ме- тод максимального правдоподобия); • моделирования на основе системы временных рядов: проблемы стационарности и коинтефации; • построения рекурсивных моделей, авторефессионных моде- лей; • проблем идентификации и оценивания параметров. Эконометрическая модель, как правило, основана на теоре- тическом предположении о круге взаимосвязанных переменных и характере связи между ними. При всем стремлении к «наилуч- шему» описанию связей приоритет отдается качественному ана- 3-3291 33
лизу. Поэтому в качестве этапов эконометрического исследова- ния можно указать: • постановку проблемы; • получение данных, анализ их качества; • спецификацию модели; • оценку параметров; • интерпретацию результатов. Этот список менее подробен, чем предьщущий, и включает те стадии, которые проходит любое исследование, независимо от того, на использование каких данных оно ориентировано: прост- ранственных или временных. 1.3. ИЗМЕРЕНИЯ в ЭКОНОМИКЕ Поскольку понятие «эконометрика» включает экономичес- кие измерения, остановимся подробнее на этом вопросе. Изме- рение понимается по-разному Прежде всего признаками измере- ния называют получение, сравнение и упорядочение информа- ции. Это определение измерения в широком смысле. В нем под- черкивается, что измерение предполагает выделение некоторого свойства, по которому проводится сравнение объектов в опреде- ленном отношении. Так определяется измерение в широком смысле. Другое понимание измерения исходит из числового выраже- ния результата, т.е. измерение трактуется как операция, в резуль- тате которой получается численное значение величины, причем чис- ла должны соответствовать наблюдаемым свойствам, фактам, ка- чествам, законам науки и т. д. Третье понимание измерения связано с обязательным наличи- ем единицы измерения (эталона). Это определение измерения в уз- ком смысле. Первый, низший, уровень измерения предполагает сравне- ние объектов по наличию или отсутствию исследуемого свойства. На этом уровне измерения употребляются термины «номина- ция», «классификация», «нумерация». Второй уровень предполагает сравнение объектов по интен- сивности проявляемых свойств. На этом уровне употребляются термины «шкалирование», «топология», «упорядочение». Третий, высший, уровень измерения предполагает сравнение объектов с эталоном (в контексте физического измерения). На этом уровне употребляются термины «измерение», «квантифи- кация». 34
Все понятия измерения могут быть объединены на базе опре- деления шкалы измерения. Тип шкалы определяется допустимым преобразованием. Допустимое преобразование — это преобразова- ние, при котором отношения между элементами системы сохра- няются неизменными — истинные утверждения не становятся ложными, а ложные - истинными. Для определения любой шкалы измерения необходимо дать название объекта, отождествить объект с некоторым свойством или группой свойств (предприятие промышленное, станок то- карный, девушка сероглазая, автомобиль легковой и т.д,). Если это требование оказывается единственным, то шкала называется шкалой наименований или номинальной шкалой. Измерением в номинальной шкале можно считать любую классификацию, по которой класс получает числовое наиме- нование (например, номер научной или учебной специальности и т. д.). Следует помнить, что числа на этой шкале играют роль ярлы- ков и к ним неприменимы обычные правила арифметики. Номинальная шкала обладает только свойствами симметрич- ности и транзитивности. Симметричность означает, что отно- шения, существующие между фадациями jci и дс2, имеют место и между ^2 и Xj. Транзитивность выражается в следующем: если Xi = ^2 и Х2 = Хз, то Xj = JC3. Шкала, в которой порядок элементов по уровню проявления некоторого свойства существен, а количественное выражение различия несущественно или плохо осуществимо, называется порядковой или ранговой. Шкала порядка, или ординальная шкала, допускает операции «равенство—неравенство», «боль- ше-меньше». Порядковые данные возникают, например, при выявлении предпочтений избирателей и рейтинга того или иного кандидата, экспертиз качества, при оценке силы землетрясений, измерении полезности, оценке уровня интеллекта, а также при определении потенциала человеческого развития и т. д. Широкое распростра- нение получили так называемые балльные шкалы. Кроме номи- нальной и порядковой шкал для определения измерения исполь- зуются интервальные шкалы. Измерения в интервальных шкалах в известном смысле более совершенны, чем в порядковых. Применение этих шкал дает воз- можность не только упорядочить объекты по количеству свой- ства, но и сравнить между собой разности количеств. Таким обра- зом мы получаем возможность не только указать категорию, к У 35
которой относится объект по данному признаку, установить его место в ранжированном ряде, но и описать его отличие от других объектов, рассчитав разность (интервал) между соответствующи- ми позициями на шкале. Примерами интервальных шкал могут служить измерения большинства экономических параметров (производительность труда, себестоимость, рентабельность, лик- видность и т. д.). Формально интервальная шкала определяется как единственная до линейного преобразования шкалы вида У'=ах + by щеаиЬ- числа, для которых определены операции сложения и умноже- ния, соответственно а>0,Ь^О, Параметр а называется масшта- бом, а параметр b - началом отсчета. В случаях, когда на шкале можно указать абсолютный нуль, мы имеем несколько более высокий уровень измерения, а имен- но шкалу отношений, или пропорциональную шкалу. При измере- нии на такой шкале можно, к примеру, сделать вывод, что х^ вдвое больше ^2, если х^ = 40А:, а ^2 = 20к. Если за нулевую отмет- ку принята некая произвольная точка, то подобное заключение о соотношении отметок не будет справедливым. Например, по шкале температур по Цельсию нельзя утверждать, что вода, наг- ретая до + 40*С, вдвое горячее, чем вода, температура которой + 20°С. Шкала температур по Цельсию - это интервальная шка- ла (в отличие от шкалы абсолютных температур по Кельвину). По шкале отношений можно оценить такие социальные характерис- тики, как стаж и заработная плата. Таким образом, по шкале отношений нельзя выбрать произ- вольно начало отсчета и параметр b = 0. Можно сказать, что шкала отношений - это интервальная шкала с естественной точкой отсчета. Под эмпирическим эквивалентом числового нуля подразуме- вается отсутствие какого-либо свойства у изучаемой системы. В этом случае простейшим и наиболее надежным способом опе- рационального определения шкалы отношений является указа- ние на эталон (эталонный метр и т.п.). Различие между условной и естественной нулевыми точками нередко трактуется как разли- чие между последовательностями значений величин, объективно имеющих некий минимум (например, температура) и не имею- щих его (например, время). 36
Пропорциональная шкала допускает операции «равенство- неравенство интервалов», «меньше—больше», операцию деления, на основе которой устанавливается равенство—неравенство отно- шений. Шкала отношений — это единственная с точностью до линей- ных преобразований шкала вида у = ах при аФО, где а — масштаб. Если в интервальной шкале масштаб зафиксирован, то изме- рение происходит в шкале разностей. Шкала разностей допуска- ет операции «равенство—неравенство», «больше—меньше», «ра- венство—неравенство интервалов» и операцию вычитания, на основе которой устанавливается величина интервала в фиксиро- ванном масштабе. К шкале разностей относятся логарифмичес- кие шкалы, а также процентные и аналогичные им шкалы изме- рений, задающие безразмерные величины. Например, указание года рождения — это представление возраста в шкале разностей. Шкала разностей существенна с точностью до линейного преобразования вида у = х + й, где ЬфО. Такое преобразование называется сдвигом. Если зафиксиро- ваны масштаб и точка отсчета, то переменная измеряется в абсо- лютной шкале с точностью до тождественного преобразования вида у = х. Эта шкала допускает все операции. В абсолютной шкале из- меряются, например, вероятность, число работников и т. д. Таким образом, в определении шкал участвуют понятия «раве- нство», «порядок», «дистанция между пунктами шкалы (интерва- лы)», «начало отсчета» и «единица измерения». В зависимости от наличия или отсутствия этих элементов возникают различные типы шкал. В обьщенном смысле термин «измерение» используется ис- ключительно применительно к интервальной шкале. С числами проводят различные операции сложения, вычитания, деления, умножения. Однако в общем случае элементы числовой системы 37
с отношениями — это не действительные числа, а всего лишь мет- ки, т. е. оцифровки. Для номинальной шкалы при сравнении эле- ментов (объектов), как правило, возникает вопрос: совпадают (подобны, тождественны) они или нет? Если переменная измерена в ординальной шкале, то неадек- ватны будут все утверждения о том, во сколько и насколько одна величина больше другой, но адекватно утверждение, что одна ве- личина больше другой. По отношению к ординальным шкалам использование алгебраических операций лишено смысла, пос- кольку ординальные данные не аддитивны и не позволяют изме- рить удаленность одного объекта от другого. При использовании интервальной шкалы адекватным являет- ся сравнение расстояний между парами одной и той же системы. Переход к измерению в шкале разностей делает адекватными суждения типа «насколько больше», а измерение в шкале отно- шений — суждения типа «во сколько раз больше». Вьщеление разных уровней измерения дает основание гово- рить о внутреннем единстве задач классификации и измерения. В самом деле, неупорядоченная классификация есть не что иное, как построение шкалы некоторого признака (фактора), градация- ми которого являются названия классов. Таким образом, проце- дура построения неупорядоченной классификации может рас- сматриваться как процедура измерения по номинальной шкале. В случаях, когда полученные классы могут быть упорядочены по некоторому основанию, например по расстоянию или по мере сходства между собой так, чтобы стоящие рядом в этом ряду клас- сы были более сходны друг с другом, чем отдаленные, говорят о линейно-упорядоченной классификации, В таких случаях построение классификации подобно измерению по порядковой шкале. В других ситуациях множество объектов может иметь иерар- хическую структуру (например, по степени взаимного сходства), которая выражается иерархической классификацией. Если можно указать дистанцию (например, число шагов на дереве разбие- ния), отделяющую классы друг от друга, то такая классификация в некотором смысле аналогична измерению по интервальной шкале. Заметим, что вариация переменных, измеренных на но- минальной шкале, как правило, ниже вариации переменных, из- меренных по интервальной шкале. Любому измерению предшествует качественный анализ, учи- тывающий цели исследования. Качественный анализ необходим и после того, как измерение проведено, для того, чтобы оценить 38
адекватность результатов измерения объектов поставленным целям. Специфика экономических измерений состоит в наличии большого числа разнородных данных — ресурсов и результатов (например, товаров и услуг). Отсюда большое значение имеют стоимостные метрики, далеко не всегда отвечающие поставлен- ным задачам. Это не исключает потребность в натуральных мет- риках. Количественная определенность функционирования эко- номики имеет объемные и структурные характеристики. Объем- ные характеристики определяют масштаб явления, тогда как структурные - его разнообразие, организацию и соподчинен- ность. Количественные и структурные меры дополняют друг дру- га. Так, измерение объема теневой экономики дает возможность уточнить ВВП и все производные показатели, а измерение ее удельного веса в ВВП позволяет судить о распространенности этого явления и степени его подконтрольности. Экономические измерения осложняются существованием латентных характерис- тик, которые непосредственно неизмеримы. Для выражения ла- тентной переменной требуется найти какой-либо индикатор. Нередко при проведении экономических измерений возни- кает задача отражения иерархии измерителей, которая выражает- ся в вьщелении интефального и частных показателей. Поскольку экономические меры взаимосвязаны, то следует иметь в виду, что эти взаимосвязи не могут быть точными и однозначными. Они всегда включают случайную компоненту, поэтому при принятии решений необходим учет фактора неопределенности. Для социально-экономических измерений характерны спе- цифические представления о точности. Экономику относят к «неточным» наукам, так как невозможно провести измерение с произвольно малой пофешностью. Главное, что определяет спе- цифику точности экономических измерений, — это неконтроли- руемость погрешности наблюдений. Однако, даже имея это в ви- ду, нельзя говорить о «неточных» и «точных» науках, так как не- точных наук нет, а есть неточные представления о точности*. Представления о точности измерений могут быть получены из анализа пофешностей. Обобщая представления о точности измерения, сделаем следующий вывод. *См.: Эйсснер Ю. Н. Организационно-экономические измерения в пла- нировании и управлении. - Л.: Изд-во ЛГУ, 1988. - С. 29. 39
Точность измерения — это его адекватность. Универсальные критерии точности отсутствуют. Критерий точности каждого ви- да измерения определяется в соответствии с целями этого изме- рения. Пофешности измерения не сводятся к арифметическим пофешностям. По объективным причинам для социально-экономических измерений характерна низкая контролируемость их точности. Для проверки адекватности можно использовать ряд простых критериев. Например, оценка, представляющая собой линейную комбинацию величин разной размерности с безразмерными ко- эффициентами, заведомо не может быть адекватной, если не ого- ворено заранее совместное преобразование единиц измерения. Неадекватными будут оценки, построенные на основе арифмети- ческих операций с рангами (такие операции неприменимы к по- рядковой шкале). Для социально-экономических объектов особую трудность представляет выявление эмпирических отношений. Неаддитив- ность и разнородность свойств остро ставят проблему обобщения (свертки и афегирования) данных для представления ненаблю- даемых (латентных) переменных. В естественных науках проблема точности измерения связы- вается прежде всего с самим процессом измерения. В области экономических измерений проблема точности связана со следующими показателями; • определением понятия «экономическая величина»; • формированием системы принципов, постулатов и других тео- ретических положений, формирующих базис точности экономи- ческих измерений; • определением экономических показателей; • разработкой принципов конструирования измерителей и изме- рений; • основанием выбора типа шкал при конструировании измерите- ля; • разработкой правил формирования систем показателей; • выявлением типов и определением методов устранения ошибок экономического измерения; • разработкой правил афегирования и свертки экономических показателей; • выявлением условий сравнимости экономических величин (показателей); • разработкой правил и методов измерений. 40
в теории измерений известны два основных представления об измерении: • измерение понимается как соотношение множества объектов, описываемых некоторой переменной с множеством меток, и вы- ражается теорией соотнесения, представляющей собой теорию шкал; • измерение понимается как соотношение переменной, непосре- дственно ненаблюдаемой (латентной), со значениями непосред- ственно наблюдаемой переменной (индикатора). В этом случае основная проблема состоит в отыскании связи индикатора с ла- тентной переменной. Поиск измерителя исследуемого признака может проходить в трех направлениях: • выбор показателя, который может служить индикатором иссле- дуемого признака (латенты); • определение функциональной зависимости значения исследуе- мого признака от значений наблюдаемых признаков; • построение системы признаков, характеризующей исследуе- мый признак. Отправной точкой конструирования измерителя является постулат об объективном существовании закономерностей во внутренних и внешних связях объектов. Основной базой данных для эконометрических исследований служат данные официальной статистики либо данные бухгалтер- ского учета. Таким образом, проблемы экономического измере- ния — это проблемы статистики и учета. Используя экономичес- кую теорию, можно определить связь между признаками и пока- зателями, а используя статистику и учет — ответить на следующие вопросы: какие показатели применяются для измерения резуль- татов работы промышленного предприятия — валовая продук- ция, добавленная стоимость, реализованная продукция? как оце- нить остатки оборотных средств - по стоимости первых или пос- ледних поставок или по средней стоимости? и т.д. Контрольные вопросы 1. Дайте определение эконометрики. 2. Назовите основные ступени выделения эконометрики в осо- бую науку 3. Когда возникли эконометрическое общество и журнал «Эко- нометрика»? 4. С какими науками связана эконометрика? 41
5. Каковы этапы эконометрического исследования? Какие воп- росы приходится решать эконометристу? 6. В чем состоит особая роль статистики в формировании эко- нометрического метода? 7. Почему можно сказать, что эконометрические методы разви- вались в ответ на преодоление недостатков классических ста- тистических методов? 8. Какие типы данных используются в эконометрическом ис- следовании? Какие возникают проблемы данных? 9. По каким типам шкал проводятся измерения в экономет- рике? 10. Каковы допустимые преобразования на каждой шкале изме- рения?
2 Глава ПАРНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ В ЭКОНОМЕТРИЧЕСКИХ ИССЛЕДОВАНИЯХ 2.1. СПЕЦИФИКАЦИЯ МОДЕЛИ Как уже отмечалось, в эконометрике широко используются методы статистики. Ставя цель дать количественное описание взаимосвязей между экономическими переменными, экономет- рика прежде всего связана с методами регрессии и корреляции. В зависимости от количества факторов, включенных в урав- нение регресо^и, принято различать простую (парную) и множе- ственную рефессии. Простая регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматрива- ется как функция одной независимой (объясняющей) перемен- ной X, т.е. это модель вида Множественная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рас- сматривается как функция нескольких независимых (объясняю- щих) переменных Xj, jc2, ..., т.е. это модель вида у =/(Xi,X2, ...,Х^). Методам простой или парной регрессии и корреляции, воз- можностям их применения в эконометрике посвящена данная глава. 43
Любое эконометрическое исследование начинается со специ- фикации модели, т. е. с формулировки вида модели исходя из со- ответствующей теории связи между переменными. Иными сло- вами, исследование начинается с теории, устанавливающей связь между явлениями. В первую очередь из всего круга факторов, влияющих на ре- зультативный признак, необходимо вьщелить наиболее сущест- венно влияющие факторы. Парная регрессия достаточна, если имеется доминирующий фактор, который и используется в каче- стве объясняющей переменной. Предположим, вьщвигается ги- потеза о том, что величина спроса у на товар А находится в обрат- ной зависимости от цены XjT.t.y^^a-bx.B этом случае нужно знать, какие остальные факторы предполагаются неизменными, возможно, в дальнейшем их придется учесть в модели и от прос- той регрессии перейти к множественной. Уравнение простой регрессии характеризует связь между дву- мя переменными, которая проявляется как некоторая законо- мерности лишь в среднем по совокупности наблюдений. Так, ес- ли зависимость спроса у от цены х характеризуется, например, уравнением у = 5000 - 2 • х, то это означает, что с ростом цены на 1 д. е. спрос в среднем уменьшается на 2 д. е. В урав- нении регрессии корреляционная по сути связь признаков представляется в виде функциональной связи, выраженной соот- ветствующей математической функцией. Практически в каж- дом отдельном случае величина у складывается из двух слага- емых: yj = yxj-^^P (2-1) где У/ — фактическое значение результативного признака; у^ — теоретическое значение результативного признака, найденное исходя из соответствующей математической функции связи у и X, т. е. из уравнения регрессии; бу - случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найден- ного по уравнению регрессии. Случайная величина е, или возмущение, включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели обусловлено тремя источни- ками: спецификацией модели, выборочным характером исход- ных данных, особенностями измерения переменных. 44
Приведенное ранее уравнение зависимости спроса у от цены X точнее следует записывать как у = 5000 - 2 • JC + е, поскольку всегда действуют случайные факторы. Обратная зави- симость спроса от цены не обязательно характеризуется линей- ной функцией у^^-а-Ь'Х, Возможны и другие соотношения, например: А _fc А b Л 1 X а + Ьх поэтому от правильно выбранной спецификации модели зависит величина случайных ошибок: они тем меньше, чем в большей ме- ре теоретические значения результативного признака ;)^^ подходят к фактическим данным у, К ошибкам спецификации будет относиться не только непра- вильный выбор той или иной математической функции для у^^, но и недоучет в уравнении рефессии какого-либо существенного фактора, т. е. использование парной регрессии вместо множест- венной. Так, спрос на конкретный товар может определяться и ценой, и доходом надушу населения. Наряду с ошибками спецификации могут иметь место ошиб- ки выборки, поскольку исследователь чаще всего работает с вы- борочными данными при установлении закономерной связи между признаками. Ошибки выборки имеют место и в силу неод- нородности данных в исходной статистической совокупности, что, как правило, бывает при изучении экономических процес- сов. Если совокупность неоднородна, то уравнение рефессии не имеет практического смысла. Для получения хорошего результа- та обычно исключают из совокупности единицы с аномальными значениями исследуемых признаков. И в этом случае результаты рефессии представляют собой выборочные характеристики. Использование временной информации также представляет собой выборку из всего множества хронологических дат. Изменив вре- менной интервал, можно получить другие результаты рег- рессии. Наибольшую опасность в практическом использовании ме- тодов рефессии представляют ошибки измерения. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид 45
математической формулы), а ошибки выборки — увеличивая объем исходных данных, то ошибки измерения практически сводят на нет все усилия по количественной оценке связи между признаками. Особенно велика роль ошибок измерения при ис- следовании на макроуровне. Так, в исследованиях спроса и пот- ребления в качестве объясняющей переменной широко исполь- зуется «доход на душу населения». Вместе с тем статистическое измерение величины дохода сопряжено с рядом трудностей и не лишено возможных ошибок, например в результате наличия сокрытых доходов. Приведем еще один пример: в настоящее время органы госу- дарственной статистики получают балансы предприятий, досто- верность которых никто не подтверждает. Последующее обобще- ние такой информации может содержать ошибки измерения. Ис- следуя, например, в качестве результативного признака прибыль предприятий, мы должны быть уверены, что предприятия пока- зывают в отчетности адекватные реальной действительности ве- личины. Предполагая, что ошибки измерения сведены к минимуму, основное внимание в эконометрических исследованиях уделяет- ся ошибкам спецификации модели, В парной рефессии спецификация модели связана с выбором вида математической функции, а в множественной — также с от- бором факторов, включаемых в модель. При построении регрессионных моделей могут использовать- ся как линейные (у = а + biXi + 62^2 "*" ••• "'" ^Л)' '^^^ ^ нелиней- ные функции, например у = а- Xi^ • хр' • х^р.В большинстве стан- дартных пакетов прикладных профамм предусмотрена процеду- ра преобразования нелинейных функций в линейные. В результа- те исследователь работает с линейной моделью, построенной по преобразованным данным. Так, если модель зависимости спроса от цены представлена степенной функцией у = а - х!^ - ^,то про- логарифмировав, получаем модель линейного вида: 1пу = 1па + + Z> In л: + In 8, но уже не для исходных х иу,а. для их логарифмов. Этим объясняется то внимание, которое уделяется рассмотрению именно линейной рефессии как основному виду рефессионных моделей. Кроме того, вариация переменных х и у может быть весьма офаничена, и реальный эффект нелинейности их связи может не проявиться. Это еще один аргумент в пользу линейных моделей. Например, ясно, что чрезмерное внесение удобрений 46
может привести не к росту, а к снижению урожайности, но фак- тически подобная ситуация маловероятна. Так что если теорети- чески мы должны выразить зависимость урожайности от удобре- ний как у = а + Z>x + сх^ + 8, то, вероятнее всего, вполне достаточ- ным будет выражение у = а-^ Ьх-^ г. Наконец, ошибки измерения в переменных могут свести на нет наши усилия по усложнению модели. И мы должны приз- нать, что при грубых измерениях более эффективно простое описание связей. Это еще один довод, объясняющий предпочте- ние линейных моделей. В парной рефессии выбор вида математической функции Ух ~/<W может быть осуществлен тремя методами: • графическим; • аналитическим, т. е. исходя из теории изучаемой взаимосвязи; • экспериментальным. При изучении зависимости между двумя признаками графи- ческий метод подбора вида уравнения рефессии достаточно наг- ладен. Он базируется на поле корреляции. Основные типы кри- вых, используемые при количественной оценке связей, представ- лены на рис. 2.1. Класс математических функций для описания связи двух пе- ременных достаточно широк. Кроме уже указанных используют- ся и другие типы кривых: 3> = —4—; у = а-^Ь'Х-^с~; y = a-^b'lgx; a-\-bx X л У = —: 5-' У = а-^Ьх-\-сх^ ' \-{-Ье ^^' \gy = аН-6-х + с-х^. Значительный интерес представляет аналитический метод выбора типа уравнения рефессии. Он основан на изучении мате- риальной природы связи исследуемых признаков. Пусть, например, изучается потребность предприятия в элект- роэнергии у в зависимости от объема выпускаемой продукции дс. Все потребление электроэнергии у можно подразделить на две части: • не связанное с производством продукции а\ 47
е Рис. 2.1. Основные типы кривых, используемые при количественной оценке связей между двумя переменными: в — р^ = А + Ь/х; б — yjc = а -^ b' X -^ с' х^; г -Ух= а + b -X -^ с • х^ -^ d • х^; e — yj^^alf 48
• непосредственно связанное с объемом выпускаемой продук- ции, пропорционально возрастающее с увеличением объема вы- пуска (Ь- х). Тогда зависимость потребления электроэнергии от объема продукции можно выразить уравнением регрессии вида у^ = а + Ь' X. Если затем разделить обе части уравнения на величину объе- ма выпуска продукции х, то получим выражение зависимости удельного расхода электроэнергии на единицу продукции ^=— от объема выпущенной продукции х в* виде уравнения равносторонней гиперболы: л - а X Аналогично затраты предприятия могут быть подразделены на условно-переменные, изменяющиеся пропорционально изме- нению объема продукции (расход материала, оплата труда и др.) и условно-постоянные, не изменяющиеся с изменением объема производства (арендная плата, содержание администрации и др.). Соответственно зависимость затрат на производство у от объема продукции х характеризуется линейной функцией у = а + Ь' X, а зависимость себестоимости единицы продукции (z) от объема продукции — равносторонней гиперболой X При обработке информации на компьютере выбор вида урав- нения регрессии обычно проводится экспериментальным мето- дом, т. е. путем сравнения величины остаточной дисперсии D^^, рассчитанной при разных моделях. Если уравнение регрессии проходит через все точки корреля- ционного поля, что возможно только при функциональной свя- зи, когда все точки лежат на линии регрессии у^ = Л^)» то факти- 4-3291 49
ческие значения результативного признака совпадают с теорети- ческими у = >)jf, т.е. они полностью обусловлены влиянием факто- ра X. В этом случае остаточная дисперсия D^^ = 0. В практичес- ких исследованиях, как правило, имеет место некоторое рассея- ние точек относительно линии рефессии. Оно обусловлено вли- янием прочих не учитываемых в уравнении регрессии факторов. Иными словами, имеют место отклонения фактических данных от теоретических {у — у^^. Величина этих отклонений и лежит в основе расчета остаточной дисперсии: 0^-^Ъ{у-у,)\ (2.2) Чем меньше величина остаточной дисперсии, тем в меньшей мере наблюдается влияние прочих не учитываемых в уравнении регрессии факторов и тем лучше уравнение регрессии подходит к исходным данным. При обработке статистических данных на компьютере перебираются разные математические функции в ав- томатическом режиме и из них выбирается та, для которой оста- точная дисперсия является наименьшей. Если остаточная дисперсия оказывается примерно одинако- вой для нескольких функций, то на практике предпочтение отда- ется более простым видам функций, так как они в большей сте- пени поддаются интерпретации и требуют меньшего объема наб- людений. Результаты многих исследований подтверждают, что число наблюдений должно в 6 - 7 раз превышать число рассчи- тываемых параметров при переменной jc. Это означает, что искать линейную регрессию, имея менее 7 наблюдений, вообще не име- ет смысла. Если вид функции усложняется, то требуется увеличе- ние объема наблюдений, ибо каждый параметр при х должен рас- считываться хотя бы по 7 наблюдениям. Следовательно, если мы выбираем параболу второй степени то требуется объем информации уже не менее 14 наблюдений. Учитывая, что эконометрические модели часто строятся по дан- ным рядов динамики, офаниченным по протяженности (10, 20, 30 лет), при выборе спецификации модели предпочтительна мо- дель с меньшим числом параметров при х. 50
2.2. ЛИНЕЙНАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ: смысл и ОЦЕНКА ПАРАМЕТРОВ Линейная рефессия находит широкое применение в экономет- рике ввиду четкой экономической интерпретации ее параметров. Линейная рефессия сводится к нахождению уравнения вида Ух = а + Ь- X или у = а + Ьх-^г. (2.3) Уравнение вида р^-а-^Ь-х позволяет по заданным значени- ям фактора X иметь теоретические значения результативного признака подстановкой в него фактических значений фактора х (рис. 2.2). О X Рис. 2.2. Графическая оценка параметров линейной регрессии Построение линейной рефессии сводится к оценке ее пара- метров — а и Ь. Оценки параметров линейной рефессии могут быть найдены разными методами. Можно обратиться к полю корреляции и, выбрав на фафике две точки, провести через них прямую линию (см. рис. 2.2), затем по фафику найти значения параметров. Параметр а определим как точку пересечения линии рефессии с осью оу, а параметр b оценим исходя из угла наклона линии рефессии как dy/dx, где dy — приращение результата у, adx- приращение фактора х, т е. у^^ = а + Ь-х, 51
Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). Метод наименьших квадратов позволяет получить такие оценки параметров аиЬ, при которых сумма квадратов отклоне- ний фактических значений результативного признака у от рас- четных (теоретических) у^ минимальна: Z(3'/-i^;c,)^->min. (2.4) Иными словами, из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минималь- ной (рис. 2.3): следовательно. ^=У/-Л ZB? ■ тот. У Ух У/-1 О X Рис. 2.3. Линия рефессии с минимальной дисперсией остатков Для того чтобы найти минимум функции (2.4), надо вычис- лить частные производные по каждому из параметров акЬи при- равнять их к нулю. Обозначим Ze,^ через S, тогда: dS da = -2ЕЗ'+2яа+2-65;* = 0; (2.5) 52
^ = -22:>'х + 2.дХ^ + 2.*1х2 =0. do Преобразуя формулу (2.5), получим следующую систему нор- мальных уравнений для оценки параметров л и Л: 2 ^,_ (2.6) Решая систему нормальных уравнений (2.6) либо методом последовательного/исключения переменных, либо методом оп- ределителей, найдем искомые оценки параметров avib. Можно воспользоваться следующими формулами для a^^b\ а = у-Ьх. (2.7) Формула (2.7) получена из первого уравнения системы (2.6), если все его члены разделить на п: соу{х,у) где cov{x,y) — ковариация признаков; a^jj-дисперсия признаках. Поскольку cov{x, J') = уЗс - У Зс", а a^jp = Зс2 - 5с ^, получим сле- дующую формулу расчета оценки параметра Ь: *=-'Т-Т- (2.8) X -X Формула (2.8) получается также при решении системы (2.6) ме- тодом определителей, если все элементы расчета разделить на п^. Параметр b называется коэффициентом рефессии. Его вели- чина показывает среднее изменение результата с изменением фактора на одну единицу Так, если функция издержек (у, тыс. руб.) выражается каку^ = 3000 + 2 • х, (х - количество единиц про- дукции), то, следовательно, с увеличением объема продукции х на одну единицу издержки производства возрастают в среднем на 2 тыс. руб., т. е. дополнительный прирост продукции на одну единицу потребует увеличения затрат в среднем на 2 тыс. руб. 53
Знак при коэффициенте регрессии b показывает направление связи: при А > О — связь прямая, а при й < О — связь обратная. Возможность четкой экономической интерпретации коэф- фициента регрессии сделала линейное уравнение рефессии дос- таточно распространенным в эконометрических исследованиях. Формально а — значение у при х = 0. Если признак-фактор х не имеет и не может иметь нулевого значения, то трактовка сво- бодного члена а не имеет смысла. Параметр а может не иметь экономического содержания. Попытки экономически интерпре- тировать параметр а могут привести к абсурду, особенно при д<0. Интерпретировать можно лишь знак при параметре а. Если А > О, то относительное изменение результата происходит мед- леннее, чем изменение фактора. Иными словами, вариация ре- зультата меньше вариации фактора - коэффициент вариации по фактору X выше коэффициента вариации для результата у\ Vx>Vy. Для доказательства данного положения сравним относи- тельные изменения фактора х и результата j;: dy ^dx dy у bdx a + bx , , -^<— или -^<—; < ; bx<a-^bx. У X dx X dx X Откуда: 0 < a. Пример 2.1. По группе предприятий, выпускающих один и тот же вид продукции, рассматривается функция издержек у = а-^Ь'Х-^е. Необходимая для расчета оценок параметров а и b информация представлена в табл. 2.1. Таблица 2.1 Расчетная таблица Номер предприятия 1 2 3 4 5 6 7 Итого Выпуск продукции, тыс. ед. 1 2 4 3 5 3 4 22 Затраты на производство, млн руб. у 30 70 150 100 170 100 150 770 ух 30 140 600 300 850 300 600 2820 х" 1 4 16 9 25 9 16 80 У 900 4 900 22 500 10 000 28 900 10 000 22 500 99 700 А Ух 31,1 67,9 141,6 104,7 178,4 104,7 141,6 770,0 54
Система нормальных уравнений будет иметь вид: Г7.а + 22.* = 770, [22.fl+80-6 = 2820. Решив ее, получим: А = - 5,79; b = 36,84. Запишем уравнение регрессии: Р, = -5,79 +36,84-х. Подставив в уравнение значения х, найдем теоретические значения у (см. последнюю фафу табл. 2.1). В данном случае ве- личина параметра а не имеет экономического смысла. В рассматриваемом примере имеем: х=3,14; 0-^=1,25; Кх=39,8%; 7=110; Оу = 46,29; Ку = 42,1%. То, что а < О, соответствует опережению изменения результа- та над изменением фактора Vy> Vx, Если переменные хиу выразить через отклонения от средних уровней, то линия рефессии на фафике пройдет через начало координат: щеу' =у-У их' =Х'-х. Оценка коэффициента рефессии при этом не изменится. Оценку коэффициента рефессии можно получить проще, не обращаясь к методу наименьших квадратов. Альтернативную оценку параметра b можно найти исходя из содержания данного коэффициента: изменение результата Ау = у„- у^ сопоставляют с изменением фактора Ах = х„ - jcj. В нашем примере такого рода альтернативная оценка пара- метра b составит: ^, 170-30 .. ^ , b = = 35 млн руб./тыс. ед. 5-1 55
Эта величина является приближенной, ибо большая часть ин- формации, имеющейся в данных, не используется при ее расчете. Она основана только на мини-максных значениях переменных. Парная линейная регрессия применяется в эконометрике не- редко при изучении функции потребления: C=Ky + L, где С — потребление; Ки1 - параметры функции; у - доход. Данное уравнение линейной рефессии используется обычно в увязке с балансовым равенством У = С-^1-г, где / — размер инвестиций; г — сбережения. Для простоты предположим, что доход расходуется на потреб- ление и инвестиции. Таким образом рассматривается система уравнений: Ь = с+/. Наличие в данной системе балансового равенства накладыва- ет офаничение на величину коэффициента рефессии, которая не может быть больше единицы, т. е. Л'< 1. Предположим, что функция потребления составила: (7=1,9 + 0,65-3;. Коэффициент рефессии характеризует склонность к потреб- лению. Он показывает, что из каждой тысячи дохода на потребле- ние расходуется в среднем 650 руб., а 350 руб. инвестируются. Ес- ли рассчитать рефессию размера инвестиций^от дохода, т е. I = а -^ b ' у,то уравнение рефессии составит: / = 1,9 + 0,35 • у. Это уравнение можно и не определять, ибо оно выводится из функции потребления. Коэффициенты рефессии данных двух уравнений связаны равенством 0,65 + 0,35 = 1. 56
Если коэффициент регрессии оказывается больше 1, то ); < (С + У), т. е. на потребление расходуются не только доходы, но и сбережения. Коэффициент регрессии в функции потребления применяет- ся для расчета мультипликатора т\ 1 /и = , \-Ь где b — коэффициент рсфессии в функции потребления (величина К). В нашем примере т = 1/(1- 0,65) = 2,86. Это означает, что до- полнительные вложения в размере 1 тыс. руб. на длительный срок приведут при прочих равных условиях к дополнительному доходу в 2,86 тыс. руб. Парное линейное уравнение рефессии может быть записано в матричной форме: Y^BX+E, где Y — вектор-столбец размерности (лх 1) фактических значений ре- зультативного признака; В — вектор-столбец размерности (2x1) подлежащих оценке пара- метров модели, т. е. коэффициента регрессии «^» и свободно- го члена (параметра «а» в уравнении у^ = а-^ Ьх)\ X={xq,x{) — матрица размерности (лх2) значений факторов. При этом Xq = 1 и связано с наличием в уравнении регрессии свободно- го члена, гх^ — собственно реальные значения включенного в уравнение регрессии фактора; Е — вектор-столбец случайной величины е. размерности (ях1). Матрица исходных данных примет вид: У = Уг \Уп Х = 1 X, 1 X, ч1 ^nj Оценивая параметры линейного уравнения регрессии, най- дем вектор В и далее вектор случайной компоненты £, т. е. 57
5 = b) E = ^1 \^ny Чаще вектор В записывают как В = А) т. е. Z»o = a,b,= b. В матричной форме применение МНК записывается так: S = {Y-XBf(y-XB)^mm. Дифференцируя S по вектору В и приравнивая первые част- ные производные по 5 к нулю, получим: dS_ дВ = -2X^Y + 2X'^XB=0. Отсюда после перестановки членов получим: {Х^Х)В = X^Y. Соответственно оценка вектора В составит: B = {X^X)-^X^Y. Применительно к нашему примеру матричный метод опреде- ления МНК-оценок сводится к следующему: 1) по правилу умножения матриц Х'Х = 1111111 12 4 3 5 3 4 '1 V 1 2 1 4 1 3 1 5 1 3 Л 4, (7 22^ "1,22 80J' В матрице Л'^Л'число 7 получено как сумма произведений элемен- тов первой строки матрицы Х^и первого столбца матрицы X, что соответствует объему совокупности я; аналогично число 22 полу- 58
чено как сумма произведений элементов первой строки матрицы Х^и второго столбца матрицы Л'и т. д. 2) найдем обратную матрицу: 1 Г 80 - 7-80-(22)4-22 (Х^ХУ^ = 22^^ Г 1,0 7 J 1-0. 05263 28947 -0,28947 \ 0,09211 У 3) X^Y = (30^ 70 150 100 170 100 ,150, 4) вектор оценок параметров регрессии равен: 1 111111 12 4 3 5 3 4 Г 770 \ \282oJ' J 1,05263 - 0,28947 Y 770 "1-0,28947 0,09211 JI282O -5,79 "j 36,84 J где число —5,79 соответствует сумме произведений значений первого столб- ца матрицы (Х^Х)"^ на столбец матрицы Х^Уи представляет собой свобод- ный член уравнения регрессии, т. е. д = ^^о ~ - 5,79; число 36,84 получено как сумма произведений второго столбца первой мат- рицы на столбец матрицы Х^Уи соответствует величине коэффициента рег- рессии Ь. Уравнение регрессии всегда дополняется показателем тесно- ты связи. При использовании линейной регрессии в качестве та- кого показателя выступает линейный коэффициент корреляции г^. Имеются разные модификации формулы линейного коэффи- циента корреляции, например: (2.9) Как известно, линейный коэффициент корреляции находит- ся 3 границах — 1 :^ г^ < 1. Если коэффициент регрессии 6 > О, то О < г^ < 1, и, наобо- рот, при Ь<0- 1<г^<0, 59
По данным табл. 2.1 величина линейного коэффициента кор- реляции составила 0,991, что означает наличие очень тесной за- висимости затрат на производство от величины объема выпущен- ной продукции. Следует иметь в виду, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины линейного коэффициента корреляции к нулю еще не означает от- сутствия связи между признаками. При иной спецификации мо- дели связь между признаками может оказаться достаточно тесной. Для оценки качества подбора линейной функции рассчиты- вается квадрат линейного коэффициента корреляции P'yj^, назы- ваемый коэффициентом детерминации. Коэффициент детермина- ции характеризует долю дисперсии результативного признака у, объясняемую регрессией, в общей дисперсии результативного признака: «2 _ -Уобъясн. Оо:-—2 • (2.10) ">'общ. Соответственно величина 1 - г^ характеризует долю диспер- сии у, вызванную влиянием остальных не учтенных в модели факторов. В нашем примере г^ = 0,982. Таким образом, уравнением рег- рессии объясняется 98,2% дисперсии результативного признака, а на долю прочих факторов приходится лишь 1,8% ее дисперсии (т.е. остаточная дисперсия). Величина коэффициента детермина- ции является одним из критериев оценки качества линейной мо- дели. Чем больше доля объясненной вариации, тем соответствен- но меньше роль прочих факторов и, следовательно, линейная мо- дель хорошо аппроксимирует исходные данные, и ею можно вос- пользоваться для прогноза значений результативного признака. Так, полагая, что объем продукции предприятия составляет 5 тыс. ед., прогнозное значение для издержек производства - 178,4 тыс. руб. Линейный коэффициент корреляции по содержанию отлича- ется от коэффициента регрессии. Выступая показателем силы связи, коэффициент регрессии Ъ на первый взгляд может бьггь использован как измеритель ее тесноты. Из уравнений р^^ = 5 + 2х и р^ = 5 + 20z видно, что во втором случае результат;' изменяется сильнее с ростом фактора на единицу - эта величина в 10 раз 60
больше, чем в первом случае. Однако вывод о более сильном вли- янии фактора Z на результату преждевремен. Величина коэффи- циента регрессии зависит от единиц измерения переменных, от размерности признаков. Если предположить, что х выражен в центнерах и х = 20, а фактор z по экономическому содержанию совпадает с фактором х, но выражен в тоннах, т. е.7 = 2, то понят- но, что по данным обоих уравнений 7 = 45, а разные значения коэффициентов регрессии обусловлены разными единицами из- мерения одного и того же фактора. Кроме того, коэффициенты регрессии - величины именованные, и потому несравнимы для разных признаков. Так, коэффициент регрессии по модели при- были предприятия от состава выпускаемой продукции несопос- тавим с коэффициентом регрессии прибыли предприятия от зат- рат на рекламу Сделать коэффициенты рефессии сопоставимыми по разным признакам позволяет определение аналогичного показателя в стандартизованной системе единиц, где в качестве единицы из- мерения признака используется его среднее квадратическое от- клонение (а). Поскольку коэффициент рефессии b имеет едини- цы измерения дробные (результат/фактор), то умножив его на среднее квадратическое отклонение фактора х (а^^) и разделив на среднее квадратическое отклонение результата (а^, получим показатель, пригодный для сравнения интенсивности изменения результата под влиянием разных факторов. Иными словами, мы придем к формуле линейного коэффициента корреляции: г -А ^ Его величина выступает в качестве стандартизованного коэф- фициента регрессии и характеризует среднее в сигмах (а^) измене- ние результата с изменением фактора на одну а^^. Если связь при- были с затратами на рекламу характеризуется коэффициентом корреляции г^ = 0,7, то это означает, что с ростом затрат на рекла- му на одну сигму прибыль увеличивается в среднем на 0,7 сигмы. Линейный коэффициент корреляции как измеритель тесно- ты линейной связи признаков логически связан не только с ко- эффициентом рефессии 6, но и с коэффициентом эластичности, который является показателем силы связи, выраженным в про- центах. При линейной связи признаков х и у средний коэффици- ент эластичности в целом по совокупности определяется как 61
Э^,д=й^д=, т. е. его формула по построению близка к формуле линейного коэффициента корреляции Гу^^ = Ьу^^ -^. Как и линей- (5у ный коэффициент корреляции, коэффициент эластичности сравним по разным признакам. Если Э^д = 0,8%, а Э^д = 0,2%, то можно заключить, что фактор х в большей мере влияет на резуль- тат у, чем фактор г, ибо с ростом хиг1%у возрастает на 0,8%, а с ростом г на 1% - только на 0,2%. Несмотря на схожесть этих показателей, измерителем тесно- ты связи выступает линейный коэффициент корреляции (Гу^), а коэффициент регрессии (А^д) и коэффициент эластичности (Э^д) - показатели силы связи: коэффициент рефессии является абсолютной мерой, ибо имеет единицы измерения, присущие изучаемым признакам у их, а коэффициент эластичности - от- носительным показателем силы связи, потому что выражен в про- центах. Пусть уравнение рефессии составило: j^^. = -10 + Зх. При этом известно, что JT = 20, тогда У = 50. Коэффициент эластичности составит: Э^д = 3- 20/50 = 1,2%, т. е. с ростом х на 1% J^возраста- ет в среднем на 1,2%. Предположим, что а^, = 2, а а^ = 8, тогда 2 г^ = 3- = 0,75, те. связь признаков достаточно тесная. Если же Су о примет значение 12, что соответствует более сильной колебле- мости результата, тогда значение Гу^^ окажется равным лишь 0,5 при том же значении коэффициента эластичности. Таким обра- зом, при одной и той же величине коэффициента эластичности может быть разный коэффициент корреляции в зависимости от соотношения колеблемости хиу. Чем в большей мере колебле- мость результата зависит от вариации фактора, т. е. чем ближе величина Ьа^к значению а^, тем теснее связь между признаками. Для пояснения понятия тесноты связи рассмотрим рис. 2.4. Несмотря на всю важность измерителя тесноты связи, в эконо- метрике больший практический интерес приобретает коэффици- ент детерминации г^, ибо он дает относительную меру влияния фактора на результат, фиксируя одновременно и роль ошибок, т. е. случайных составляющих в формировании моделируемой пере- менной. Чем ближе коэффициент детерминации к 1, тем в боль- шей степени уравнение регрессии пригодно для прогнозирования. 62
Типы корреляции: Рис 2.4. а — полная корреляция: г^^ = 1; б - сильная корреляция: г^ « 0,8 : 0,9; в - слабая корреляция: г^ « 0,2 2.3. ОЦЕНКА ЗНАЧИМОСТИ ПАРАМЕТРОВ ЛИНЕЙНОЙ РЕГРЕССИИ И КОРРЕЛЯЦИИ После того как уравнение линейной рефессии найдено, про- водится оценка значимости как уравнения в целом, так и отдель- ных его параметров. Оценка значимости уравнения регрессии в целом дается с по- мощью F-критерия Фишера. При этом вьщвигается нулевая ги- потеза, что коэффициент регрессии равен нулю, т. е. 6 = О, и, сле- довательно, фактор X не оказывает влияния на результат у. Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложе- ние общей суммы квадратов отклонений переменной д' от средне- го значения у на две части — «объясненную» и «остаточную» («не- объясненную»): 2 (У-я' тг\2 = ^(Ух--У) ^(У-Ух)' (2.11) Общая сумма квадратов отклонений Сумма квадратов отклонений, объясненная регрессией Остаточная сумма квадратов отклонений Общая сумма квадратов отклонений индивидуальных значе- ний результативного признака у от среднего значения у вызвана влиянием множества причин. Условно разделим всю совокуп- 63
ность причин на две группы: изучаемый фактор х и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрес- сии на фафике параллельна оси охиу = у. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с оста- точной. Если же прочие факторы не влияют на результат, то у свя- зан с X функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная рефес- сией, совпадает с общей суммой квадратов. Поскольку не все точки поля корреляции лежат на линии рефессии, то всегда имеет место их разброс, как обусловленный влиянием фактора х, т. е. рефессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригод- ность линии рефессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариа- цию. Очевидно, что если сумма квадратов отклонений, обуслов- ленная рефессией, будет больше остаточной суммы квадратов, то уравнение рефессии статистически значимо и фактор jc оказывает существенное влияние на результат у. Это равносильно тому, что коэффициент детерминации г^ будет приближаться к единице. Любая сумма квадратов отклонений связана с числом степе- ней свободы df (degrees of freedom), т.е. с числом свободы незави- симого варьирования признака. Число степеней свободы связано с числом единиц совокупности лис числом определяемых по ней констант. Применительно к исследуемой проблеме число степе- ней свободы должно показать, сколько независимых отклонений из п возможных [(у| - 7), (У2"" F)> •••> (Уп ~ F)] требуется для об- разования данной суммы квадратов. Так, для общей суммы квад- ратов Е(у - У)^ необходимо (п^ 1) независимых отклонений, ибо по совокупности из п единиц после расчета среднего уровня сво- бодно варьируют лишь (л - 1) число отклонений. Например, имеем ряд значений ;;: 1,2, 3, 4, 5. Среднее из них равно 3, и тог- да п отклонений от среднего составят: - 2; - 1; 0; 1; 2. Поскольку Z(y - 7) = О, то свободно варьируют лишь четыре отклонения, а пятое отклонение может быть определено, если четыре предьщу- щие известны. При расчете объясненной, или факторной, суммы квадратов ZCPjc - VY используются теоретические (расчетные) значения ре- зультативного признака у^^, найденные по линии рефессии: у^ = а '\' b X. В линейной рефессии Т.(Ух - У)^ = Ь^ * Х(х - х)^- 64
в этом нетрудно убедиться, обратившись к формуле линейного ко- эффициента корреляции: .2л ^ху=Ь-^' (2.12) ■'у Из формулы (2.12) видно, что 4=*';;Г' (2.13) где Ь^ • с\— дисперсия признака)', обусловленная факторомх; с^У — общая дисперсия признака у. Соответственно сумма квадратов отклонений, обусловленных линейной регрессией, составит: Поскольку при заданном объеме наблюдений по х и ;^ фактор- ная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии Ь, то данная сумма квадратов имеет одну степень свободы. К этому же выводу при- дем, если рассмотрим содержательную сторону расчетного значе- ния признака у, т. е. у^. Величина у^^ определяется по уравнению линейной регрессии: у^ = а + Ь'Х, Параметр а можно найти как а = У -bJ. Подставив выраже- ние параметра а в линейную модель, получим: Ух = у'-Ь'х + Ьх = У - Ь- (х-х). Отсюда видно, что при заданном наборе переменных у и х расчетное значение з^^^ является функцией ли1йь одного парамет- ра - коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1. Существует равенство между числом степеней свободы об- щей, факторной и остаточной суммами квадратов. Число степе- ней свободы остаточной суммы квадратов при линейной рефес- сии составляет л — 2. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы исполь- 5-^2^' 65
зуем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т. е. df^^ = /i - 1. Итак, имеем два равенства: l)E(y-F)' = 2:(>)^->r)2 + S(y-j)/; (2.14) 2) « - 1 = 1 + (л - 2). Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или дисперсию на одну степень свободы D, ^общ - п-\ ' ^факт - . ^" /1-2 • Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и оста- точную дисперсии в расчете на одну степень свободы, получим величину /'-отношения, т. е. критерий F\ ^ = -5~- (215) /-статистика используется для проверки нулевой гипотезы Hq : D^,^ = Z)^^ (приложение 2, табл. 1). Если нулевая гипотеза Hq справедлива, то факторная и оста- точная дисперсии не отличаются друг от друга. Если Hq не- справедлива, то факторная дисперсия превышает остаточную в несколько раз. Английским статистиком Снедекором разработа- ны таблицы критических значений /'-отношений при разных уровнях значимости нулевой гипотезы и различном числе степе- ней свободы. Табличное значение /'-критерия - это максималь- ная величина отношения дисперсий, которая может иметь место при случайном расхождении их для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение /'-отношения 66
признается достоверным (отличным от единицы), если оно боль- ше табличного. В этом случае нулевая гипотеза об отсутствии свя- зи признаков отклоняется и делается вывод о существенности этой связи: ^фа1сг > ^табл» Hq отклоняется. Если же величина F окажется меньше табличной, то вероят- ность нулевой гипотезы выше заданного уровня (например, 0,05) и она не может быть отклонена без риска сделать неправильный вывод о наличии связи. В этом случае уравнение рефессии считается статистически незначимым: /^факт ^ ^табл» Щ "^ откло- няется. В рассматриваемом примере 2.1: S(y -У)^ = 2>^ - л -у ^ = 99 700 - 7 • 110^ = 15 000 - общая сумма квадратов; Wx - yf = *^5:(х - xf = 36,84^ • (80 - 7 • (22: if) = 14 735 - фак- торная сумма квадратов; Е(у - Ух)^ ~ 15 000 - 14 735 = 265 - остаточная сумма квадратов; ^Фа,сг=14 735; /)ост = 265 : 5 = 53; F= 14 735: 53 = 278; ^а = 0,05 ~ 6,61; /^а=0,01 ^ 16,26. Поскольку /"фа^ > /^^бл как при 1%-ном, так и при 5%-ном уровне значимости, можно сделать вывод о значимости уравне- ния регрессии (связь доказана). Величина /'-критерия связана с коэффициентом детермина- ции г^. Факторную сумму квадратов отклонений можно предста- вить как а остаточную сумму квадратов — как 2(y->^j'=(l-r2).aVAJ. Тогда значение F-критерия можно выразить следующим образом: f= .(л-2). (2.16) 1-г 5* 67
в нашем примере /^ = 0,982. В таком случае F = 0,982 (7-2) = 273 (несовпадение с предьщущим результа- 1-0,982 том объясняется ошибками округления). Оценка значимости уравнения регрессии обычно дается в ви- де таблицы дисперсионного анализа (табл. 2.2). Таблица 2.2 Дисперсионный анализ результатов регрессии Источники вариации Общая Объяснен- ная Остаточная Число сте- пеней сво- боды 6 1 5 Сумма квад- ратов откло- нений 15 000 14 735 265 Дисперсия на одну степень свободы 14 735 53 F-OTHouienne фактиче- ское 278 1 табличное при а = 0,05 6,61 В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: т^, и /Ид. Стандартная ошибка коэффициента регрессии параметра /w^, рассчитывается по формуле Щ = I(x-3c)' (2.17) где S^ - остаточная дисперсия на одну степень свободы. Для нашего примера величина стандартной ошибки коэффи- циента регрессии составила: Щ = [111=221 V 10,857 ^'^^• 68
Отношение коэффициента регрессии к его стандартной ошибке дает /-статистику, которая подчиняется статистике Стью- дента при (л—2) степенях свободы. Эта статистика применяется для проверки статистической значимости коэффициента рефес- сии и для расчета его доверительных интервалов. Для оценки значимости коэффициента регрессии его вели- чину сравнивают с его стандартной ошибкой, т. е. определя- ют фактическое значение /-критерия Стьюдента: /.=—, кото- Щ рое затем сравнивают с табличным значением (приложение 2, табл. 2.2) при определенном уровне значимости а и числе степе- ней свободы (л - 2). В рассматриваемом примере фактическое значение /-крите- рия для коэффициента регрессии составило: * 2,21 Этот же результат получим после извлечения квадратного корня из найденного ранее /"-критерия, т. е. /j = VF = V278 = 16,67. Покажем справедливость равенства Р',, = F\ ^ост {п-2) При а = 0,05 (для двустороннего критерия) и числе степеней свободы 5 табличное значение / = 2,57. Поскольку фактическое значение /-критерия превышает табличное, гипотезу о несущест- венности коэффициента рефессии можно отклонить. Довери- тельный интервал для коэффициента регрессии определяется как b±t' ntf,. Для коэффициента рефессии b в примере 2.1 95%-ные фаницы составят: 69
36,84 ± 2,57 • 2,21 = 36,84 ± 5,68, т. е. 31,16 <й<42,52. Поскольку коэффициент регрессии в эконометрических ис- следованиях имеет четкую экономическую интерпретацию, доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -10 < 6 < 40. Такого рода запись показывает, что истинное значе- ние коэффициента регрессии одновременно содержит положи- тельные и отрицательные величины и даже нуль, чего не может быть. Стандартная ошибка параметра а определяется по формуле '""1 «-2 n-Ux-xf-f n-Ux-x)'' ^^-^^^ Процедура оценивания значимости данного параметра не от- личается от рассмотренной выше для коэффициента регрес- сии: вычисляется /-критерий: его величина сравнивается с табличным значением при df= п — 2 степенях свободы. Значимость линейного коэффициента корреляции про- веряется на основе величины ошибки коэффициента корреля- ции т/. 'Пг=л1 -. (2.19) Фактическое значение /-критерия Стьюдента определяется как ^=;jj=^V^^- (2.20) 70
Данная формула свидетельствует, что в парной линейной рег- рессии t^= F, ибо, как уже указывалось, F = г-(л-2). Кроме того, /^ = F, следовательно, t^= tj. Таким образом, проверка гипотез о значимости коэффициен- тов регрессии и корреляции равносильна проверке гипотезы о значимости линейного уравнения регрессии. В рассматриваемом примере /^ не совпало с tj, в результате ошибок округлений. Величина /^ = 16,73 значительно превышает табличное значение 2,57 при а = 0,05. Значит, коэффициент кор- реляции существенно отличен от нуля и зависимость является достоверной. Рассмотренную формулу оценки коэффициента корреляции рекомендуется применять при большом числе наблюдений, а также если г не близко к + 1 или —1. Если же величина коэффи- циента корреляции близка к + 1, то распределение его оценок от- личается от нормального, или распределения Стьюдента, так как величина коэффициента корреляции ограничена значениями от -1 до +1. Для того чтобы устранить это затруднение Р. Фишер предложил ввести вспомогательную величину z (приложение 2, табл. 3), связанную с коэффициентом корреляции следующим отношением: ^=-.1п-—. (2.21) 2 1-г При изменении г от -1 до +1 величина z изменяется от -оо до +00, что соответствует нормальному распределению. Математи- ческий анализ доказывает, что распределение величины z мало отличается от нормального даже при близких к единице значени- ях коэффициента корреляции. Стандартная ошибка величины z рассчитывается по формуле 1 т = '"4^' (2.22) где и - число наблюдений. При г = 0,991 г = 0,5 • 1п[(1 + 0,991): (1 - 0,991)] = 2,699, а m^=l:V(7-3)=0,5. 71
Величину z можно не рассчитывать, а воспользоваться гото- выми таблицами ^-преобразования, в которых приведены значе- ния величины Z для соответствующих значений г. Далее вьщвигаем нулевую гипотезу Щ о том, что корреляция отсутствует, т. е. теоретическое значение коэффициента корреля- ции равно нулю. Коэффициент корреляции значимо отличен от нуля, если ~^h >^а=о,о5» т. е. если фактическое значение /^ пре- вышает его табличное значение на уровне значимости а = 0,05 или а = 0,01. Иными словами, если z-^n-Ъ >^а=о,05» то коэффи- циент корреляции значимо отличен от нуля, что имеет место в рассмотренном примере: ^.7^Гз=2,699л/7^ = 5,398 при /„=о,05 = 2,57. Ввиду того, что г и Z связаны между собой приведенным выше соотношением, можно вычислить критические значения г, соот- ветствующие каждому из значений z. Таблицы критических зна- чений г разработаны для уровней значимости 0,05 и 0,01 и соот- ветствующего числа степеней свободы (приложение 2). Крити- ческие значения г предполагают справедливость нулевой гипоте- зы, т. е. г мало отлично от нуля. Если фактическое значение коэф- фициента корреляции по абсолютной величине превышает таб- личное, то данное значение г считается статистически значимым. Если же г оказывается меньше табличного, то фактическое значе- ние г статистически незначимо. В рассматриваемом примере 2.1 при числе степеней свободы (л — 2) = 5 критическое значение г при а = 0,05 составляет 0,754, а при а = 0,01 - 0,874, что ниже фактической величины ^ух ^ 0>991. Следовательно, как было уже доказано, полученное значение г существенно отлично от нуля. 2.4. ИНТЕРВАЛЬНЫЙ ПРОГНОЗ НА ОСНОВЕ ЛИНЕЙНОГО УРАВНЕНИЯ РЕГРЕССИИ В прогнозных расчетах по уравнению рефессии определяется предсказываемое Ур значение как точечный прогноз у^^ при Хр = jc^, т е. путем подстановки в линейное уравнение регрессии 72
ml^m-^^m^{x^xf, (2.23) j)^ = a Н- 6 • X соответствующего значения x. Однако точечный прогноз явно нереален, поэтому он дополняется расчетом стан- дартной ошибки pjf, т. е. /я^^, и соответственно мы получаем ин- тервальную оценку прогнозного значения >^*: Для того чтобы понять, как строится формула для определе- ния величин стандартной ошибки р^^, подставим в уравнение линейной регрессии выражение параметра а\ а = У -Ь'х, тогда уравнение рефессии примет вид: ));с = 7-й-3с+6х = 7 + 6(х-3с). Отсюда следует, что стандартная ошибка тр зависит от ошиб- ки 7 и ошибки коэффициента регрессии 6, т. е^. 2 2 2 о' Из теории выборки известно, что Щ -"""• Используя в каче- стве оценки о^ остаточную дисперсию на одну степень свободы 5^, получим формулу расчета ошибки среднего значения пере- менной у\ 2 S^ Шу =—. (2.24) Ошибка коэффициента рефессии, как уже было показано, определяется формулой Считая, что прогнозное значение фактора Хр = х^, получим следующую формулу расчета стандартной ошибки предсказывае- мого по линии рефессии значения, т. е. т^^. т С.2 С.2 f 1 , i4-xy- п I(x-x)^ (2.25) 73
Соответственно т^^ имеет выражение: тс =5. i+i^^iz£)i (2.26) Рассмотренная формула стандартной ошибки предсказывае- мого среднего значения у при заданном значении Xf^ характеризу- ет ошибку положения линии регрессии. Величина стандартной ошибки шр^ достигает минимума при х^ = J и возрастает по мере того, как «удаляется» от 5с" в любом направлении. Иными слова- ми, чем больше разность между х^ и х, тем больше ошибка шр^, с которой предсказывается среднее значение у для заданного зна- чения Xf^. Можно ожидать наилучшие результаты прогноза, если признак-фактор х находится в центре области наблюдений х, и нельзя ожидать хороших результатов прогноза при удалении Xf^ от X, Если же значение х^ оказывается за пределами наблюдаемых значений х, используемых при построении линейной регрессии, то результаты прогноза ухудшаются в зависимости от того, нас- колько х^ отклоняется от области наблюдаемых значений факто- ра х. Для примера 2.1 шр^ составит: '«i^^=f[f 10,857 2^ При Xi^ = x При Xii = 4 Щ, = л/53Т7 = 2,75. 1 (4-3,143Г "'<-.И r'l^r ='•'*■ Соответственно шр составит эту же величину и при х^ = 2,286. Для прогнозируемого значения ^^ 95%-ные довери- тельные интервалы при заданном х^ определяются выражением т е. j>,^ ± 2,57 • 3,34, или у^^^ ± 8,58. 74
При Х/^ = 4 прогнозное значение у составит: Ур = - 5,79 + 36,84 • 4 = 141,57, которое представляет собой точечный прогноз. Прогноз линии регрессии в интервале составит: 132,99 <>^;,^< 150,15. На графике, приведенном на рис. 2.5, доверительные фани- цы для pjp представляют собой гиперболы, расположенные по обе стороны от линии рефессии. Рис. 2.5 показывает, как изменяют- ся пределы в зависимости от изменения х^: две гиперболы по обе стороны от линии рефессии определяют 95 %-ные доверитель- ные интервалы для среднего значения у при заданном значении х. Однако фактические значения у варьируют около среднего значения у^. Индивидуальные значения у могут отклоняться от у^ на величину случайной ошибки е, дисперсия которой оценивает- ся как остаточная дисперсия на одну степень свободы 5^. Поэто- му ошибка предсказываемого индивидуального значения у долж- на включать не только стандартную ошибку /пр^, но и случайную ошибку S. Рис. 2.5. Доверительный интервал линии регрессии: а - верхняя доверительная граница; б-линия регрессии; в — доверительный интервал для у^^ при jc^; г - нижняя доверительная граница Средняя ошибка прогнозируемого индивидуального значе- ния у составит: 75
-н- По данным примера 2.1 получим: =^> V 7 10,857 Доверительные интервалы прогноза индивидуальных значе- ний)' при Jc^ = 4 с вероятностью 0,95 составят: 141,57 ± 2,57 • 8,01, или 141,57 ± 20,59, это означает, что 120,98 <Ур й 162,16. Интервал достаточно широк прежде всего за счет малого объ- ема наблюдений. При прогнозировании на основе уравнения регрессии следу- ет помнить, что величина прогноза зависит не только от стандарт- ной ошибки индивидуального значения у^ но и от точности прогноза значения фактора х. Его величина может задаваться на основе анализа других моделей исходя из конкретной ситуации, а также анализа динамики данного фактора. Рассмотренная формула средней ошибки индивидуального значения признака yim^. ) может быть использована также для оценки существенности различия предсказываемого значения и некоторого гипотетического значения. Предположим для примера 2.1, что в предстоящем году в свя- зи со стабилизацией экономики при выпуске продукции в 8 тыс. ед. затраты на производство не превысят 250 млн руб. Означает ли это действительно изменение закономерности или же данная величина затрат соответствует рефессионной модели? Для того чтобы ответить на этот вопрос, найдем точечный прогноз при X = 8, т. е. Р^ = 8 = - 5,79 + 36,84 • 8 = 288,93. Предполагаемое значение затрат, исходя из экономической ситуации, составляет 250,0. Для оценки существенности разли- чия этих величин определим среднюю ошибку прогнозируемого индивидуального значения: \^l ^(8-3,143)^^ 7 (10,857) =13,26. 76
сравним ее с величиной предполагаемого снижения издер- жек производства, т. е. 38,93. / = ^ = 2,93. 13,26 Поскольку оценивается значимость только уменьшения зат- рат, то используется односторонний /-критерий Стьюдента. При ошибке в 5 % с пятью степенями свободы /^^gj, = 2,015. Следова- тельно, предполагаемое уменьшение затрат значимо отличается от прогнозируемого по модели при 95 %-ном уровне доверия. Од- нако если увеличить вероятность до 99 %, при ошибке в 1 % фак- тическое значение /-критерия оказывается ниже табличного 3,365, и рассматриваемое различие в величине затрат статисти- чески незначимо. 2.5. НЕЛИНЕЙНАЯ РЕГРЕССИЯ Если между экономическими явлениями существуют нели- нейные соотношения, то они выражаются с помощью соответ- ствующих нелинейных функций: например, равносторонней ги- перболы у =д+—+в, параболы второй степени у = а + 6 • х + 8 и др. (см. разд. 2.1). Различают два класса нелинейных регрессий: • регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым пара- метрам; • регрессии, нелинейные по оцениваемым параметрам. Примером нелинейной регрессии по включенным в нее объ- ясняющим переменным могут служить следующие функции: • полиномы разных степеней: д^ = д + йх + с-х^ + 8;у = а + 6х • равносторонняя гипербола д' = а+—+8. К нелинейным регрессиям по оцениваемым параметрам от- носятся функции: • степенная у = ах/^-в; • показательная у = а-Ь^-г; • экспоненциальная у = е^ "*" ^ • 8. 77
Нелинейная регрессия по включенным переменным не имеет никаких сложностей для оценки ее параметров. Они определяют- ся, как и в линейной регрессии, методом наименьших квадратов (МНК), ибо эти функции линейны по параметрам. Так, в парабо- ле второй степени заменив переменные х =Xi, х^ =Х2, получим двухфакторное урав- нение линейной регрессии: у = QQ-b а^-х^-^ а2'Х2'^г, для оценки параметров которого, как будет показано в гл. 3, ис- пользуется МНК. Соответственно для полинома третьего порядка y = aQ-^ ai-x + а2'Х^ + а2'Х^ + г при замене х = Xj, х^ = Х2, х^ = Хз получим трехфакторную модель линейной регрессии y = aQ + ai'Xi + а2'Х2 + а2'Х2-^в, а для полинома к-го порядка получим линейную модель множественной регрессии с к объяс- няющими переменными: y = aQ + ai'Xi + а2'Х2 +...+ fljt * х^ + е. Следовательно, полином любого порядка сводится к линей- ной регрессии с ее методами оценивания параметров и проверки гипотез. Как показывает опыт большинства исследователей, сре- ди нелинейной полиномиальной регрессии чаще всего использу- ется парабола второй степени; в отдельных случаях — полином третьего порядка. Ограничения в применении полиномов более высоких степеней связаны с требованием однородности исследу- емой совокупности: чем выше порядок полинома, тем больше из- гибов имеет кривая и соответственно меньше однородность сово- купности по результативному признаку. 78
Парабола второй степени целесообразна к применению, если для определенного интервала значений фактора меняется харак- тер связи рассматриваемых признаков: прямая связь изменяется на обратную или обратная на прямую. В этом случае определяет- ся значение фактора, при котором достигается максимальное (или минимальное) значение результативного признака: прирав- ниваем к нулю первую производную параболы второй степени: у^=^а + Ьх+с х^,т. с, Ь +2- с-х = Ои х = —— 2 с Если же исходные данные не обнаруживают изменения нап- равленности связи, то параметры параболы второго порядка ста- новятся трудно интерпретируемыми, а форма связи часто заме- няется другими нелинейными моделями. Применение МНК для оценки параметров параболы второй степени приводит к следующей системе нормальных уравнений: Ху-х^ =fl-Zx4ft.Z^4c.Ix^ Решить ее относительно параметров а, Ь, с можно методом определителей: Аа , АЬ Ас а = —; Ь = —; с=—, А А А где А — определитель системы; Аа, АЬ,Ас - частные определители для каждого из параметров. При 6 > О и с < О кривая симметрична относительно высшей точки, т. е. точки перелома кривой, изменяющей направление связи, а именно рост на падение. Такого рода функцию можно наблюдать в экономике труда при изучении зависимости зара- ботной платы работников физического труда от возраста — с увеличением возраста повышается заработная плата ввиду однов- ременного увеличения опыта и повышения квалификации работ- ника. Однако с определенного возраста ввиду старения организ- ма и снижения производительности труда дальнейшее повыше- ние возраста может приводить к снижению заработной платы работника. Если параболическая форма связи демонстрирует сначала рост, а затем снижение уровня значений результативного 79
признака, то определяется значение фактора, при котором дости- гается максимум. Так, предполагаем, что потребление товара А (единиц) в зависимости от уровня дохода семьи (тыс. руб.) харак- теризуется уравнением вида р^. = 5 + 6 • дс - х^. Приравнивая к нулю первую производную у^ = 6 - 2 • х = О, найдем вели- чину дохода, при которой потребление максимально, т. е. при х = 3 тыс. руб. При 6 < О и с > О парабола второго порядка симметрична от- носительно своего минимума, что позволяет определять мини- мум функции в точке, меняющей направление связи, т. е. сниже- ние на рост. Так, если в зависимости от объема выпуска продук- ции затраты на производство характеризуются уравнением Ух = 1200 — 60 • X + 2 • х^, то наименьшие затраты достигаются при выпуске продукции х = 15 ед., т. е. —60 + 2 • 2 • х = 0. В этом нетрудно убедиться, подставив в уравнение значениях: X у 10 800 11 782 12 768 13 758 14 752 15 750 16 752 17 758 Ввиду симметричности кривой параболу второй степени да- леко не всегда можно использовать в конкретных исследованиях. Чаще исследователь имеет дело лишь с отдельными сегментами параболы, а не с полной параболической формой. Кроме того, параметры параболической связи не всегда могут быть логически истолкованы. Поэтому если график зависимости не демонстри- рует четко выраженной параболы второго порядка (нет смены направленности связи признаков), то она может быть заменена другой нелинейной функцией, например степенной. В литерату- ре часто рассматривается парабола второй степени для характе- ристики зависимости урожайности от количества внесенных удобрений. Данная форма связи мотивируется тем, что с увеличе- нием количества внесенных удобрений урожайность растет лишь до достижения оптимальной дозы вносимых удобрений. Даль- нейший же рост их дозы оказывается вредным для растения, и урожайность снижается. Несмотря на справедливость данного утверждения, следует отметить, что внесение в почву минераль- ных удобрений проводится на основе достижений агробиологи- ческой науки. Поэтому на практике часто эта зависимость предс- тавлена только сегментом параболы, что и позволяет использо- 80
вать другие нелинейные функции. В качестве примера рассмот- рим табл. 2.3. Таблица 2.3 Зависимость урожайности озимой пшеницы от количества внесенных удобрений Внесено минераль- ных удоб- рений, ц/га,х 1 1 2 3 4 5 Z15 Урожай- ность, п/гг,у 2 6 9 10 12 13 50 х" 3 1 4 9 16 25 55 х' 4 1 8 27 64 125 225 х' 5 1 16 81 256 625 979 ух 6 6 18 30 48 65 167 V 7 6 36 90 192 325 649 У. 8 6,2 8,5 10,4 11,9 13,0 50,0 Источник: Громыко Г. Л. Статистика. - М.: МГУ, 1981. По данным табл. 2.3 система нормальных уравнений составит: Г5а + 15-6+55-с = 50, |l5.fl + 55ft + 225c = 167, 55а + 225* + 979с = 649. Решая эту систему методом определителей, получим: А = 700, Аа = 2380, А* = 2090, Ас = -150. Откуда параметры искомого уравнения составят: а = 3,4; b = 2,986; с = -0,214, а уравнение параболы примет вид: р^ =3,4 +2,986-jc-0,214-х^. Последовательно подставляя в это уравнение значения х, найдем теоретические значения j^j^ (см. табл. 2.3, ф. 8). Как видно из табл. 2.3, уравнение параболы второго порядка хорошо описывает рассматриваемую зависимость. Сумма квад- ратов отклонений остаточных величин 1.(у - yxf = 0,46. Ввиду то- ^-3291 81
го, что данные табл. 2.3 демонстрируют лишь сегмент параболы второго порядка, рассматриваемая зависимость может быть оха- рактеризована и другой функцией. В результате использования степенной функции у^^- а- ^ было получено уравнение рефес- сии i^jf = 6,136 • 7^"^^^, Для него Ъ(у - ух)^ = 0,43, что означает еще лучшую сходимость фактических и расчетных значений у, В классе нелинейных функций, параметры которых без осо- бых затруднений оцениваются МНК, в эконометрике хорошо известна равносторонняя гипербола р^с=а+—. Она может бьггь использована для характеристики связи удельных расходов сырья, материалов, топлива с объемом выпускаемой продукции, времени обращения товаров с величиной товарооборота не только на микроуровне, но и на макроуровне. Классическим ее примером является кривая Филлипса, характеризующая нелиней- ное соотношение между нормой безработицы х и процентом при- роста заработной платы у. b >^ = Д + —+ Е. X Английский экономист А. В. Филлипс, анализируя данные более чем за 100-летний период, в конце 1950-х годов XX в. уста- новил обратную зависимость процента прироста заработной пла- ты от уровня безработицы. Если в уравнении равносторонней гиперболы у = д+—+ е X заменить j_ на z, получим линейное уравнение регрессии X у — a^-b'z^-e, оценка параметров которого может быть дана МНК. Система нормальных уравнений имеет вид: Y^y^na-^bJ,-, X X X Х^ при b>Q имеем обратную зависимость, которая при х -> оо ха- рактеризуется нижней асимптотой, т. е. минимальным предель- ным значением у, оценкой которого служит параметр а. Так, для 82
кривой Филлипса Ух = 0,00679+0,1842 — величина параметра д, равная 0,00679, означает, что с ростом уровня безработицы темп прироста заработной платы в пределе стремится к нулю. Cooi- ветственно можно определить тот уровень безработицы, при ко- тором заработная плата оказывается стабильной и темп ее при- роста равен нулю. При b <0 имеем медленно повышающуюся функцию с верх- ней асимптотой при х -> оо, т. е. с максимальным предельным b уровнем у, оценку которого в уравнении j;^^ =а+— дает пара- X метр а. Примером может служить взаимосвязь доли расходов на товары длительного пользования и общих сумм расходов (или доходов). Математическое описание подобного рода взаимосвя- зей получило название кривые Энгеля, В 1857 г. немецкий ста- тистик Э. Энгель на основе исследования семейных расходов сформулировал закономерность — с ростом дохода доля дохо- дов, расходуемых на продовольствие, уменьшается. Соответ- ственно с увеличением дохода доля расходов на непродоволь- ственные товары будет возрастать. Однако этот рост не беспре- делен, ибо сумма долей на все товары не может быть больше единицы, или 100%, а на отдельные непродовольственные това- ры данный предел может соответствовать величине параметра а для уравнения вида b где у — доля расходов на непродовольственные товары; X — доходы (или общая сумма расходов как индикатор дохода). Правомерность использования равносторонней гиперболы У:с = ^ — для кривой Энгеля довольно легко доказать**. Соот- ветственно можно определить границу величины дохода, даль- нейшее увеличение которого не приводит к росту доли расходов на отдельные непродовольственные товары. * См.: Studenmund A.N. Using Econometrics: -A Practical Guide. - 2-nd Edition. Copyright, 1992 by Нафег Collins Publishers Inc. - R 226. ** Cm,, например: Лизср С. Эконометрические методы и задачи: Пер. с англ. - М.: Статистика, 1971. - С. 94. 6* 83
Вместе с тем равносторонняя гапербола Ух-^— не являет- ся единственно возможной функцией для описания кривой Эн- геля. В 1943 г. Уоркинг и в 1964 г. С. Лизер для этих целей применили полулогарифмическую кривую у — аЛ-ЬЛпхЛ-г, Заменив In х на г, вновь получим линейное уравнение у = д + 6г + е. Данная функция, как и предьщущая, линейна по параметрам и нелинейна по объясняющей переменной :)с. Оценка параметров д и 6 может быть найдена МНК. Система нормальных уравнений при этом имеет вид: |zy.lnx = a.Zlnx+*.2:(lnx)^ Пример 2.2. По данным С. Лизера вычислим полулогариф- мическую функцию зависимости доли расходов на товары дли- тельного пользования в общих расходах семьи в процентах (у) от среднемесячного дохода семьи, в тысячах долларов США (jc) [8, с. 94] (табл. 2.4). Таблица 2.4 Доля расходов на товары длительного пользования в зависимости от дохода семьи X у 1 10 2 13,4 3 15,4 4 16,5 5 18,6 6 19,1 Суммы, необходимые для расчета, составили: 11пх = 6,579251; 1> = 93; I(Inx)^ = 9,40991; 5>- In х= 113,23881. Решив систему нормальных уравнений Гба + 6,579256 = 93, [б,57925а + 9,40991-6 = 113,23881, получим уравнение регрессии у^^ = 9,876 + 5,129 • In х, которое достаточно хорошо описывает исходные соотношения дохода семьи и доли расходов на товары длительного пользования, что 84
видно из сравнения фактических и теоретических значений у (табл. 2.5). Таблица 2.5 Отклонения фактических от теоретических значений доли расходов на товары длительного пользования А Ух 1 У-Ух (У-Ух)' 9,9 0,1 0,01 13,4 0,0 0,0 15,5 -0,1 0,01 17,0 -0,5 0,25 18,1 0,5 0,25 19,1 0,0 0,0 ^ При более точных расчетах у^^ эта величина составит 0,4864. Сумма 0,0 0,52^ Возможны и иные модели, нелинейные по объясняющим пе- ременным*. Например, у = а + Л->бс+8. Соответственно систе- ма нормальных уравнений для оценки параметров имеет вид: уравнения, в которые входят х \ применялись в исследова- ниях урожайности, трудоемкости сельскохозяйственного произ- водства. Уравнения такого рода легко линеаризуются путем замены х ^2 на z. В работе Н. Дрейпера и Г. Смита** справедливо отмечено, что если нет каких-либо теоретических обоснований в использовании кривых данного вида, то основная цель подобных преобразований состоит в том, чтобы для преобразованных пере- менных получить более простую модель регрессии. Иначе обстоит дело с рефессией, нелинейной по оценивае- мым параметрам. Данный класс нелинейных моделей подразде- ляется на внутренне линейные и внутренне нелинейные. Если нелинейная модель внутренне линейна, то с помощью соответству- ющих преобразований она может быть приведена к линейному виду. Если же нелинейная модель внутренне нелинейна, то она не ♦ См,: Езекил М., Фокс К. Методы анализа корреляций и регрессий. - М.: Статистика, 1966. - С. 393. **Си.: Дрейпер Н., Смит Г. Прикладной регрессионный анализ: Пер. с англ. - М.: Статистика, 1973. - С. 140. 85
может быть сведена к линейной функции. Например, в эконо- метрических исследованиях при изучении эластичности спроса от цены широко используется степенная функция -fl-x^- е, где у - спрос (количество); X - цена; 8 - случайная ошибка. Данная модель нелинейна относительно оцениваемых пара- метров, ибо включает параметры а и 6 неаддитивно. Однако ее можно считать внутренне линейной, ибо логарифмирование дан- ного уравнения по основанию е приводит его к линейному виду: In у = In л н- 6 • In X + In е. Соответственно оценки параметров avib могут бьггь найдены методом наименьших квадратов. В рассматриваемой степенной функции предполагается, что случайная ошибка 8 мультипликатив- но связана с объясняющей переменной jc. Если же модель предста- вить в виде у = д • х^ + 8, то она становится внутренне нелинейной, ибо ее невозможно превратить в линейный вид. Внутренне нелинейной будет и модель вида >' = а + *дс^ + 8 или модель 'Л'-тЬЪ потому что эти уравнения не могут бьггь преобразованы в уравне- ния, линейные по коэффициентам. В специальных исследованиях по регрессионному анализу к нелинейным часто относят модели, только внутренне нелиней- ные по оцениваемым параметрам, а все другие модели, которые внешне нелинейны, но путем преобразований параметров могут быть приведены к линейному виду, относят к классу линейных мо- делей. Например, экспоненциальную модель у = е^ "*" ^ ^ • 8; ибо, прологарифмировав ее по натуральному основанию, получим ли- нейную форму модели In у = А н- 6 • дс + In е. 86
Если модель внутренне нелинейна по параметрам, то для оценки параметров используются итеративные процедуры, ус- пешность которых зависит от вида уравнений и особенностей итеративной процедуры*. Модели, внутренне нелинейные по па- раметрам, могут иметь место в эконометрических исследованиях; однако большее распространение получили модели, приводимые к линейному виду. Решение такого типа моделей реализовано в стандартных пакетах прикладных программ. Среди них можно назвать и обратную модель вида 1 Л + Л-ДС + 8 Обратив обе части равенства, получим линейную форму мо- дели для переменной — : 1 — = д + 6х + б. у Приводима к линейному виду и логистическая функция у = или v^=- ^ Обратив обе части равенства, получим: У После вычитания 1 имеем: Ь-е'^^^^ =—1. У Прологарифмировав обе части равенства по натуральному ос- нованию, получим уравнение линейной формы 1пй-сх + 8 = 1п I —1 * В данном разделе рассматриваются лишь внутренне линейные модели. 87
или Z = B — cx'^s, где ^ = ln --1 иВ = \пЬ. Среди нелинейных функций, которые могут быть приведены к линейному виду, в эконометрических исследованиях очень ши- роко используется степенная функция >^ = д • х* • е. Это связано с тем, что параметр b в ней имеет четкое экономическое истолко- вание, т. е. является коэффициентом эластичности. Это значит, что величина коэффициента b показывает, на сколько процентов изменится в среднем результат, если фактор изменится на 1 %. Так, если зависимость спроса от цен характеризуется уравнением видау^ = 105,56 • дс"^'^^, то, следовательно, с увеличением цен на 1 % спрос снижается в среднем на 1,12 %. О правомерности по- добного истолкования параметра b для степенной функции у^ = а'х!^ можно судить, если рассмотреть формулу расчета коэф- фициента эластичности У где/'(х) — первая производная, характеризующая соотношение прирос- тов результата и фактора для соответствующей формы связи. Для степенной функции она составит: /'(jc) = a-6 •х*-^ Соот- ветственно коэффициент эластичности равен: я п h v^i X abx _^ Э = аЬх j = ^ = 6. ах а-х Коэффициент эластичности, естественно, можно определять и при наличии других форм связи, но только для степенной функции он представляет собой постоянную величину, равную параметру Ь. В других функциях коэффициент эластичности за- висит от значений факторах. Так, для линейной регрессии первая производная р^^ = а + 6 • х функции и эластичность следующие: Г(х) = ЬиЭ = Ь' а-\-Ьх 88
в силу того, что коэффициент эластичности для линейной функции не является величиной постоянной, а зависит от соот- ветствующего значения х, обычно рассчитывается средний пока- затель эластичности по формуле э=ь.^. Для оценки параметров степенной функции у = а • у!' • z применяется МНК к линеаризованному уравнению \пу ^Хп а Л- + 6 • 1пх + In 8, т.е. решается система нормальных уравнений: {YMy^nXna + b-Y.^nx, Параметр b определяется непосредственно из системы, а пара- метр а — косвенным путем после потенцирования величины In а. Так, в результате решения системы нормальных уравнений за- висимости спроса от цен было получено уравнение Хпу^ 4,6593 — 1,1214 • Injc. Если потенцировать его, получим: ^^ = ^4.6593.^-1.1214= 105,56-Х-'-'^'Г Поскольку параметр а экономически не интерпретируется, нередко зависимость записывается в виде логарифмически ли- нейной, т. е. In j; = 4,6593 - 1,1214 • Inx. В виде степенной функ- ции изучается не только эластичность спроса, но и предложения. При этом обычно эластичность спроса характеризуется парамет- ром 6 < О, а эластичность предложения b>Q. Так как коэффициенты эластичности представляют экономи- ческий интерес, а виды моделей не ограничиваются только сте- пенной функцией, приведем формулы расчета коэффициентов эластичности для наиболее распространенных типов уравнений рефессии (табл. 2.6). Несмотря на широкое использование в эконометрике коэф- фициентов эластичности, возможны случаи, когда их расчет не имеет экономического смысла. Это происходит тогда, когда для 89
Таблица 2.6 Коэффициенты эластичности для ряца математичесюк функций Функция, у Линейная у = а-^ Ь-х+ е Парабола второго порядка у = а-^ Ь-х-^С'^■\- е Гипербола ^ X Показательная y-Q-\f' е Степенная у = а-х!^- е Полулогарифмическая у = а-^ Ь'\пх + е Логистическая ^ 1+^>-е-^"^^ Обратная 1 ^ а + Ьх-^е Первая производная, Ух b b + 2'C-x b "3? ХпЬа-У" ab'x^' X а- b- се-^ (l-^b'C-^)^ -b (а-^Ь'хУ Коэффициент эластич- ности, Э= У;, у э—А7 - ^ а + Ьх {Ь^2-С'Х)'Х 1- -^ -^ а-х-^Ь Э=-Х'\пЬ Э = Ь 1- ^ ^ а-\-Ь-\пх 1- ^'^ ^ 1-е«+1 b а -^Ь-х рассматриваемых признаков бессмысленно определять измене- ния значений в процентах. Например, на сколько процентов изменится заработная плата с ростом стажа работы на 1%? Или, например, на сколько процентов изменится урожайность пшени- цы, если качество почвы, измеряемое в баллах, изменится на 1%? В такой ситуации степенная функция, даже если она оказывается наилучшей по формальным соображениям (исходя из наимень- шего значения остаточной вариации), не может быть экономи- 90
чески интерпретирована. Например, изучая соотношение ставок межбанковского кредита д' (в процентах годовых) и срока его пре- доставления X (в днях), было получено уравнение регрессии pjf. = 11,684 • х^'^^^ с очень высоким показателем корреляции (0,9895). Коэффициент эластичности 0,352% лишен смысла, ибо срок предоставления кредита не измеряется в процентах. Значи- тельно больший интерес для этой зависимости может предста- вить линейная функция р^^ = 21,1 + 0,403 • дс, имеющая более низ- кий показатель корреляции 0,85. Коэффициент регрессии 0,403 показывает (в процентных пунктах) изменение ставок кредита с увеличением срока его предоставления на один день. В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразо- ванным уравнениям. Если в линейной модели и моделях, нели- нейных по переменным, при оценке параметров исходят из кри- терия Щу-Ух) -> min, то в моделях, нелинейных по оцениваемым параметрам, требование МНК применяется не к исходным дан- ным результативного признака, а к их преобразованным величи- нам, т.е. In J', 1/у. Так, в степенной функции д^ = а • х^ • 8 МНК при- меняется к преобразованному уравнению In у = In а + р In х + In е. Это значит, что оценка параметров основывается на миними- зации суммы квадратов отклонений в логарифмах. Z(ln у-In Ух)-> niin. Соответственно если в линейных моделях (включая нелиней- ные по переменным) T.iy—px) = О, то в моделях, нелинейных по оцениваемым параметрам, Е(1п j; - In у^) = О, а ZO-anti log у^) ^ 0. Вследствие этого оценка параметров для линеаризуемых функций МНК оказывается несколько смещенной. Возьмем, например, показательную кривую у^- а - If или равносильную ей экспоненту у^ = е^"*"*^. Прологарифмировав, имеем: \пу = \па-^Х'\пЬ, Применив МНК, минимизируем i;(ln j;-ln у^\ Система нор- мальных уравнений составит: (YMy = пЛпа-\-\пЬ Х^» Хх1пу = 1п flX^+lnft'X^^- 91
Из первого уравнения видно, что lna=2l2Z_i„b.l£=Iill2i_in6.3c. П П П Предположим, что jc = О, тогда 1па =—Y^ln у или п ^ = у]У\'У2'—Упу т. е. параметр а представляет собой среднюю геометрическую из значений переменной у. Между тем в линей- ной зависимости у^ = а + Ь-х при Зс = О параметр п т. е. средней арифметической. Поскольку средняя геометриче- ская всегда меньше средней арифметической, оценки парамет- ров, полученные из минимизации Z(ln у — 1пу^^ )^, также будут не- сколько смещены (занижены). Практическое применение экспоненты возможно, если ре- зультативный признак не имеет отрицательных значений. Поэто- му если исследуется, например, финансовый результат деятель- ности предприятий, среди которых наряду с прибыльными есть и убыточные, то данная функция не может быть использована. Ес- ли экспонента строится как функция выравнивания по динами- ческому ряду для характеристики тенденции с постоянным тем- пом роста, то у = а Ь\ где у - уровни динамического ряда; b — средний за период коэффициент роста; t — хронологические даты. В уравнении у = е^^^ '^ этот смысл приобретает величина ан- тилогарифма параметра Ь. При исследовании взаимосвязей среди функций, использую- щих 1п у, в эконометрике преобладают степенные зависимости — это и кривые спроса и предложения, и кривые Энгеля, и произ- водственные функции, и кривые освоения для характеристики связи между трудоемкостью продукции и масштабами производ- ства в период освоения выпуска нового вида изделий, и зависи- мость валового национального дохода от уровня занятости. В отдельных случаях применяется и нелинейная модель вида 1 а+6-х + е 92
так называемая обратная модель, являющаяся разновидностью гиперболы. Но если в равносторонней гиперболе д; = д+А+е X преобразованию подвергаются объясняющие переменные — = ^ X и>' = д + Л-г + е, то для получения линейной формы зависимос- ти в обратной модели преобразовывается у, а именно \/у = z и г = л + ^>'Дс + 8. В результате обратная модель оказывается внутренне нелинейной и требование МНК выполняется не для фактических значений признака у, а для их обратных величин — ,аименно Y.iz.-Zxf ► min. Соответственно Ш-х.. HoEy^tZj)^ Пример 2.3. Проанализируем зависимость рентабельности продукции от ее трудоемкости по данным семи предприятий (табл. 2.7). Таблица 2.7 Зависимость рентабельности продукции у (%) от ее трудоемкости х (ч/ед.) X ' 1.0 1.2 1.5 2,0 2,5 2,7 3,0 13,9 У 32 28 22 20 16 15 10 143 1 0,0312 0,0357 0,0455 0,0500 0,0625 0,0667 0,1000 0,3916 X ~т 0,0312 0,0428 0,0682 0,1000 0,1563 0,1800 0,3000 0,8785 х^ 1,00 1,44 2,25 4,00 6,25 7,29 9,00 31,23 А 0,0285 0,0341 0,0424 0,0563 0,0703 0,0758 0,0842 0,3936 h 35,1 29,3 23,6 17,7 14,2 13,2 11.9 145,0 1 л 0,0027 0,0016 0,0031 -0,0063 -0,0078 -0,0091 0,0158 0,0000 у-9.\ -3.1 -1.3 -1,6 2,3 1,8 1,8 -1.9 -2,0 Для оценки параметров исследуемой функции у- по МНК система нормальных уравнений примет вид: 1 a + ftjc + e 93
у у Исходя из данных табл. 2.7, имеем: Г7.л + 13,9-6 = 0,3916, |13,9-д + 31,23Л = 0,8785. Решив эту систему уравнений, получим оценки параметров искомой функции: а = 0,0007; b = 0,0278. Соответственно уравне- ние рефессии составит: А 1 ^"^ 0,0007+0,0278.х* . Сравнив две последние графы в табл. 2.7, получим: Z (у "Ух) '^ О, тогда как для обратных значений эта величина равна нулю. Кроме того, заметим, что положительные отклонения фак- тических и теоретических обратных значений сменяются на отрицательные значения для аналогичных показателей по исход- ным данным. Уравнение отражает обратную связь рассматривае- мых признаков: чем выше трудоемкость, тем ниже рентабель- ность. Поскольку данное уравнение линейно относительно 1 ^ 1 " величины —, то если обратные значения — имеют экономический У У смысл; коэффициент регрессии b интерпретируется так же, как в линейном уравнении рефессии. Если, например, под у подразу- меваются затраты на 1 руб. продукции, а под х - производитель- ность труда (выработка продукции на одного работника), то об- ратная величина характеризует зафатоотдачу и парамеф b имеет экономическое содержание - средний прирост продукции в сто- имостном измерении на 1 руб. зафат с ростом производитель- ности фуда на единицу своего измерения. Уравнение вида Ух =^Г^ характеризует прямую зависи- мость результативного признака от фактора. Оно целесообразно при очень медленном повышении уровня результативного приз- нака и росте значений фактора. 94
Возможно и одновременное использование логарифмирова- ния, и преобразование в обратные величины: у = е = рЛ - Ь1х + е. Про- 1 логарифмировав, получим: 1п>' = а — б/х + е. Далее заменим — на Zy и тогда для оценки параметров к линейному уравнению lny = fl-6-^ + 8 может быть применен МИК. При всех положительных значениях х функция возрастает; при X = 6/2 кривая имеет точку перегиба - ускоренный рост при X < Ь/2 сменяется замедленным ростом при х > Ь/2, Подобного типа функции применяются при анализе статистических данных о бюджетах потребителей, где вьщвигается гипотеза о сущест- вовании асимптотического уровня расходов, об изменении предельной склонности к потреблению товара, о существова- нии «порогового уровня дохода» [2, с. 60]. В этом случае X -> 00, у-->е^ (рис. 2.6). Рис. 2.6. Функция насыщения При использовании линеаризуемых функций, затрагивающих преобразования зависимой переменной;/, следует тщательно про- верять наличие предпосылок МНК (рассмотрены в разд. 3.10), чтобы они не нарушались при преобразовании. При нелинейных соотношениях рассматриваемых признаков, приводимых к ли- нейному виду, возможно интервальное оценивание параметров нелинейной функции. Так, для показательной кривой Уд. = а - Ь^ сначала строятся доверительные интервалы для параметров но- вого преобразованного уравнения \п у = In а + х -In Ь, те. для In д и In b. Затем с помощью обратного преобразования определяются доверительные интервалы для параметров в исход- ном соотношении. В степенной функции у^ — а- т^ доверитель- 95
ный интервал для параметра 6 строится так же, как и в линейной функции, т. е. 6 ± /д • mi,. Отличие состоит лишь в том, что при оп- ределении стандартной ошибки параметров Ь, т^, используются не исходные данные, а их логарифмы: ть = Vi (2.28) Для внутренне нелинейных моделей, которые путем простых преобразований не приводятся к линейному виду, оценка пара- метров, как уже говорилось, не может быть дана традиционным МНК. В этом случае используются другие подходы, к изложению которых мы и перейдем. 2.6. ПОДБОР ЛИНЕАРИЗУЮЩЕГО ПРЕОБРАЗОВАНИЯ Предположим, что производственная функция задана урав- нением [l/X У = [Ь,К^^Ь,&] . где у - выпуск продукции; КиЬ - затраты капитала и рабочей силы. В отличие от рассмотренной выше степенной функции дан- ная регрессия внутренне нелинейна. Ее можно преобразовать к виду В этом виде параметры bi^binX могут быть оценены методом Бокса-Кокса, предложенном в 1964 г Метод основан на степен- ном преобразовании переменных: X X 96
Тогда линейная рефессионная модель с учетом степенной трансформации переменных примет вид: Данное уравнение представляет собой семейство функций регрессий, каждая из которых зависит от значения X. При X = 1 получим традиционное уравнение линейной регрессии. Если X приближается к нулю, то данное уравнение приближается к лога- рифмически линейной зависимости lny = lna-^l\lnxi +Й21ПХ2 -^...+bplnxp +lne, это вытекает из того, что при Я. -> О ,. х^-1 ,. d{x^-l)/dX ,. X , lim = lim--^ = limx •lnx=lnx. X 1 Если степенному преобразованию подвергается только мат- рица независимых переменных, то модель принимает вид: у = a-hb^x^^^Kb2X2^^K...+ Ьрх/<^Кг. В предположении, что ошибка является нормальной, незави- симо распределенной, логарифм функции правдоподобия для данной регрессии составит: 1п1(Х)=~1п[с\х)У(Х-\)1.1пу. Здесь с^(Х) — оценка наибольшего правдоподобия для а^ при данном X, Меняя значения X, можно определить максимум лога- рифма функции правдоподобия: In L{X). Использование найден- ного значения X в модели со степенным преобразованием пере- менных дает оценку наибольшего правдоподобия для модели у. Значения X берутся в интервале от —2 до +2. По желанию иссле- дователя он может быть и меньше: от --2 до +1 или от -1 до +1. На каждом шаге изменения X (например, по 0,01) от нижней гра- ницы —2,0 до верхней фаницы +2,0 для преобразованных пере- менных У и Л" строится обычная рефессия и вычисляются значе- ния In L{X), Наилучшим считается то значение X, при котором достигается максимум логарифма функции правдоподобия (In L), 7-3291 97
Так, линейная модель Клейна потребления у от текущего дохода ^1, отложенного дохода Х2 и заработной платы х-^ имела вид: у = 16,24+0,193x1 +0,090x2 +0,796хз. (0,090) (0,091) (0,40) В скобках указаны стандартные ошибки. Коэффициент де- терминации R = 0,981 фиксирует в целом хорошее качество мо- дели. По тем же данным была построена функция потребления вида y^>=a+W'^+W^+*3V'^+e. Задав X в интервале от -2 до +1, исследовались значения In L, Максимум In L был достигнут при X = —0,52. Уравнение, полу- ченное степенным преобразованием, при X = -0,52, составило*: р(-о.52) =0,715+0,026 х/-''"> +0,008 х^^-^'^^^ +0,557 х/^'^^>, (0,00001) (0,00001) (0,00003) ^2 = 0,981. При использовании степенного преобразования существенно снизились стандартные ошибки коэффициентов регрессии. Другим методом оценивания параметров внутренней нели- нейной рефессии может быть разложение исследуемой функции рефессии в рад Тейлора. Предположим, построена модель вида >^ = а + Лх"^ + 8, т.е. у^ f{x,aXc)+е. Для нее отсутствует прямое преобразование, которое превратило бы данную функцию в ли- нейный вид относительно параметров. Линеаризовать данное выражение можно, разложив его в рад Тейлора: я/* я/* /у* у = /(х,ао, Vo) +т^(« -«о) +-§:(* -^Ь) +т-(с -^о) +£• да до ос Если а — а^^Ь'^Ь^^с — Cq, то три члена, содержащие первые производные, обращаются в нуль. Каждая частная производная вычисляется в точке а = До> * = *о» ^ ~ ^о- При выборе значений а^, * См,: Болч Б., Хуань К. Дж. Многомерные статистические методы для экономики. - М.: Статистика, 1979. - С. 208-210. 98
^0» ^0 руководствуются некоторыми предположениями относи- тельно истинных значений а,Ьис, Допустим, aQ= 1,Ь^= Юи Cq = -1, тогда наша функция при- мет вид: X Разложим ее в ряд Тейлора, определив частные производные: 1 10 / 14 1/1. 1ЛЧ lOlnx, ,. у = 1+—+(а-1)+—(6-10)+ (с+1)+& XXX После преобразования ,1 , ,Л01пд: X X Теперь параметры данного уравнения могут быть найдены традиционным МНК, так как после замены переменных X ~ ^^ ^ X "^^ получим линейное уравнение рефессии с дву- мя переменными д^ = а + fej + (с +1)^2. Определив оценки парамет- ров искомого уравнения, можно повторять данную процедуру и остановиться на той итерации расчетов, которая приводит к схо- димости оценок параметров регрессии. 2.7. КОРРЕЛЯЦИЯ для НЕЛИНЕЙНОЙ РЕГРЕССИИ уравнение нелинейной регрессии, так же как и в линейной зависимости, дополняется показателем корреляции, а именно индексом корреляции (Л) Л = f 2 лУг 1 ^ОСТ (2.29) где а^ост ~ остаточная дисперсия, определяемая из уравнения регрессии а^У — общая дисперсия результативного признака у. f 99
Поскольку ol=~Y.(y-yf, а a^=l.][;(з;-i^J,)^ индекскор- п реляции можно выразить как ..f Y(y-y.f Z(y-y)' Величина данного показателя находится в фаницах: О < Л < 1; чем ближе к единице, тем теснее связь рассматриваемых призна- ков, тем более надежно найденное уравнение регрессии. По данным табл. 2.3, для уравнения регрессии у^^ = 3,4 + 2,986 • • JC — 0,214 • х^ индекс корреляции составил: J1 ■ г = 0,9609, \ 530:5-10^ свидетельствуя о достаточно тесной связи рассматриваемых приз- наков. Парабола второй степени, как и полином более высокого по- рядка, при линеаризации принимает вид уравнения множествен- ной регрессии. Если же нелинейное относительно объясняемой переменной уравнение рефессии при линеаризации принимает форму линейного уравнения парной рефессии, то для оценки тесноты связи может быть использован линейный коэффици- ент корреляции, величина которого в этом случае совпадет с ин- дексом корреляции Ryx = г^^, где z - преобразованная величина признака-фактора, например }_ или ^ = In jc. X Приведем в качестве примера равностороннюю гиперболу Ух=а-\-—. Заменив — на z, имеем линейное уравнение у^ = а + b • Z, для которого может быть определен линейный ко- квадрат, получим: эффициент корреляции: Гу^=Ь- —^. Возводя данное выражение в Оу 2 Гу\=Ь'-^, (2.30) а 2 Uz-Zf 2_Uy-yf где ^z= и^у- 100
Отсюда r^. можно записать как: 'yz r^^jlmz^-. (2.31) Как было показано в разд. 2.3, b ■ I,(z-z) = 2СР^ -у) и соот- ветственно '"'Ziy-yf —\2 _ ^/ж> Т7\2 I v/л. Л \2 „ v/Л Т7л2 — Но так как Цу-уУ = Z(y, - уУ + ^(у - у^У и 10), - 7)' = = 1:(у-уУ-1.(у-9,)\то ^2 ^Uy-yf-HJy-yzf liy-yf т. е. пришли К формуле индекса корреляции: г. ч2 ^/К /-2 = 1- Заменивzна 1/х, получим:у^= у^, соответственноГу^ = Ry^^, Аналогичные выражения можно получить и для полулогариф- мической кривой j)jf = а + 6 • In X, ибо в ней, как и в предыдущем случае, преобразования в линейный вид {z = In х) не затрагивают зависимую переменную, и требование МНК Z(y - у^^^ -> min вы- ч2 ПОЛНИМО. Убедиться в этом можно, обратившись к данным табл. 2.4 10^ - у? = 58,24; 1(у -y,f = 0,4864. Соответственно индекс корреляции окажется равным: V 58,24 Л,,х=./1-^т?гт^ = 0,99581. Найдем линейный коэффициент корреляции между перемен- ными уи1пх. 101
_У'1пх-у\пх Поскольку Z j; • In X = 113,23881,1 д' = 93, Z In х = 6,57925, Gy = 3,11555, Z(ln xf = 9,409906, ст,„ ^ = 0,604908, то r^. ,„;, составит: 113,23881:6-93:6-6,57925:6 3,115550,604908 />in. = ' ..:../:H::l =0,99581, что совпадает с индексом корреляции. Для данной зависимости имеем равенство: Ь^ - Z(ln х — (In х)^ = Z6^^ ~У)^- По нашим расчетам b = 5,1289; Z(lnx -- lnx)^=2,19548. Соот- ветственно Hiy^-jf = 57,7536. Тогда: I(y - Pzf = S(y - 7)^ - I (У, - 7)^ = 58,24 - 57,7536 = 0,4864, что совпадает с остаточной суммой квадратов, используемой в расчете индекса корреляции. Таким образом, несмотря на то, что коэффициент корреляции определялся не для у их, а для д' и In х, его величина позволяет найти факторную и остаточную суммы квадратов для признака у: Гу^ '1Иу-у?=Ь^'Ъ (1пх -1п1с)2= 57,7536. Очевидно, что линейный коэффициент корреляции и индекс корреляции совпадают. Дело обстоит иначе, когда преобразования уравнения в ли- нейную форму связаны с зависимой переменной. В этом случае линейный коэффициент корреляции по преобразованным значе- ниям признаков дает лишь приближеннук;) оценку тесноты связи и численно не совпадает с индексом корреляции. Так, для сте- пенной функции y^ = a'jf после перехода к логарифмически ли- нейному уравнению \пу — \па-\-Ь'\пх может быть найден линей- ный коэффициент корреляции не для фактических значений пе- ременных х и д', а для их логарифмов, т е. г^^у\^х* Соответственно квадрат его значения будет характеризовать отношение фактор- ной суммы квадратов отклонений к общей, но не для у, а для его логарифмов. .2 lOnb^.l.ZOnZziSi. (2.32) 102
Между тем при расчете индекса корреляции используются суммы квадратов отклонений признака у, а не их логарифмов. С этой целью определяются теоретические значения результатив- ного признака, т. е. у^, как антилогарифм рассчитанной по урав- нению величины 1пу и остаточная сумма квадратов как Z (v — anti logClny) . Индекс корреляции имеет вид: /?^=L^(>-^^^^^^^g<5'^)\ (2.33) в знаменателе расчета Л^^^ участвует общая сумма квадратов отклонений фактических значений у от их средней величины, а в расчете г^\^у\^^ - U^ny — In у^. Соответственно различаются и числители рассматриваемых показателей: 5^(У -У^ = Z (у - anti log(ln>')) - в индексе корреляции и YS\Viy -Лпу) - в коэффициенте корреляции. Не совпадают данные показатели и для уравнения регрессии в виде экспоненты, ибо при преобразовании в линейную форму рассчитывается линейный коэффициент корреляции между х и логарифмом)', т. е. вновь Щу-у)^ заменяется на 1,{1пу- \пу)^ и Z (у - anti log(ln>')) заменяется на Z(ln у - Inj^). При использо- вании в преобразовании нелинейных соотношений в линейную форму обратных значений результативного признака, т.е. \/у, индекс корреляции Ry^ также не будет совпадать с линейным ко- эффициентом корреляции. В этом случае при определении ин- декса корреляции используется формула о , L z(;^-i/(i7>)^ т.е. теоретические значения у^ находят не непосред- ственно по данным у их, а на основе уравнения I'Z]^'^' ^^' \У J торое может быть дополнено линейным коэффициентом корре- ляции между X и ^/у, 103
При определении r^^i/y) применяется сумма квадратов отклонений Z(l/v —Уу)^, которая раскладывается на факторную и остаточную. Поданным примера 2.3 ZCv - jf = 351,714, I.(y-y^f = 29,24. Соответственно Ry^ = 0,9575, а r^i/v) ~ 0,9278. При незначитель- ных расхождениях результатов по линейной и нелинейной функ- циям может использоваться линейный коэффициент корреля- ции. Несмотря на близость значений Ry^ и r^^yi^x ^^^ ^ух ^ ^\пу,х ^ нелинейных функциях с преобразованием значений признака у, следует помнить, что если при линейной зависимости признаков один и тот же коэффициент корреляции характеризует рефессию как Уу^ = а + b ' X, так иХу = А-\- В - у, поскольку Гу^^ = г^у, то при криволинейной зависимости RyxЦДЯ функции у =у(дс) не равен R^y для рефессии х =Ду). Поскольку в расчете индекса корреляции используется соот- ношение факторной и общей суммы квадратов отклонений, R^ имеет тот же смысл, что и коэффициент детерминации. В специ- альных исследованиях величину /?^ для нелинейных связей назы- вают индексом детерминации. Оценка статистической значимости индекса корреляции про- водится так же, как и оценка значимости коэффициента корре- ляции (см. разд. 2.3). Индекс детерминации R^ используется для проверки статистической значимости в целом уравнения нелинейной рег- рессии по /'-критерию Фишера. P^_R^,n-m-l ^2.35) l-R^ т где п — число наблюдений; т — число параметров при переменных jc. Величина т характеризует число степеней свободы для фак- торной суммы квадратов, а (л — /н — 1) - число степеней свободы для остаточной суммы квадратов. Для степенной функции у^ — а- х!^ значение w = 1 и формула F-критерия примет тот же вид, что и при линейной зависимости: . = --^.,„-2,. 104
Для параболы второй степени у = а-^Ь-х-^сх^ + Е число степеней свободы т = 2. Отсюда: F = т- . 1-7?^ 2 Расчет jp-критерия можно вести и в таблице дисперсионного анализа результатов рефессии, как это было показано для линей- ной функции (см. приложение, табл. 2.1). Индекс детерминации R^ можно сравнивать с коэффициен- том детерминации г^ для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем величина коэффициента детерминации г^ меньше индекса детер- минации R^. Близость этих показателей означает, что нет необхо- димости усложнять форму уравнения регрессии и можно исполь- зовать линейную функцию. Практически если величина (R^- ?) не превышает 0,1, то предположение о линейной форме связи считается оправданным. В противном случае проводится оценка существенности различия между R^ и а^, вычисленных по одним и тем же исходным данным, через /-критерий Стьюдента: R^-r'' ^-- ' (2.36) где W |^_;1 - ошибка разности между t^ и ?, определяемая по формуле 9 /(^'-^ -r2)-(/j2-г^)^ •(2-(ЛЧг^)) >-г| = 2-у^ — ^ -' (2.37) Если /фзкт > /табл» ТО различия между рассматриваемыми пока- зателями корреляции существенны и замена нелинейной рефес- сии уравнением линейной функции невозможна. Практически если величина / < 2 , то различия между Лиг несущественны, и, следовательно, возможно применение линейной рефессии, даже если есть предположения о некоторой нелинейности рассматри- ваемых соотношений признаков фактора и результата. По данным примера 2.2 найдено уравнение рефессии у^ = 9,876 Н- 5,129 • 1пх. Используя линейную функцию, получаем: у^ = 9,28 + 1,777 • X. При этом коэффициент корреляции составил 0,97416. Величина коэффициента корреляции оказалась меньше, 105
чем величина индекса корреляции 0,99581. Оценим существен- ность различия этих показателей корреляции, применив приве- денную формулу: R^-r^ = (0,99581Г - (0,97416Г = 0,04265, т. е. использование нелинейной функции увеличивает долю объяс- ненной вариации на 4,3 проц. пункта. R^ + r^ = (0,99581)^ + (0,97416)2 = 1,94063; / = 0,04265 : 0,16841 = 0,25, что < 2. Следовательно, если нет уверенности в том, что полулога- рифмическая функция выбрана правильно, то она может быть заменена линейной функцией. 2.8. СРЕДНЯЯ ОШИБКА АППРОКСИМАЦИИ Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению рефессии, т. е. j^ и у^. Чем меньше эти отличия, тем ближе теоретические значения к эмпирическим данным, тем лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака (у - у^) по каждому наблюдению представляет собой ошибку аппроксимации. В отдельных случаях ошибка аппрокси- мации может оказаться равной нулю. Отклонения (у - у^) несравнимы между собой, исключая величину, равную нулю. Так, если для одного наблюдения у-Ух = 5,а для другого - 10, то это не означает, что во втором случае модель дает вдвое худший ре- зультат. Для сравнения используются величины отклонений, вы- раженные в процентах к фактическим значениям. Например, ес- ли для первого наблюдения j^ = 20, а для второго у = 50, ошибка аппроксимации составит 25 % для первого наблюдения и 20 % - для второго. Поскольку (у - у^) может быть величиной как положитель- ной, так и отрицательной, ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю. 106
Отклонения (у — у^^) можно рассматривать как абсолютную ошибку аппроксимации, а (У-У.) •100 - как относительную ошибку аппроксимации. Для того чтобы иметь общее суждение о качестве модели из относительных отк- лонений по каждому наблюдению, находят среднюю ошибку ап- проксимации как среднюю арифметическую простую. ..1.1 (У-Ух) 100. (2.38) По данным примера 2.2 представим расчет средней ошибки аппроксимации для уравнения у^ = 9,876 + 5,129 • In х в табл. 2.8. >4 = - • 7,3 = 1,2%, что говорит о хорошем качестве уравнения о регрессии, ибо ошибка аппроксимации в пределах 5—7 % свиде- тельствует о хорошем подборе модели к исходным данным. Таблица 2.8 Расчет средней ошибки аппроксимации У 10,0 13,4 1 15,4 16,5 18,6 19,1 Итого 93,0 А Ух 9,9 13,4 15,5 17,0 18,1 19,1 93,0 У-У. 0,1 0,0 -0,1 -0,5 0,5 0,0 0 1^^.100 У 1,0 0,0 0,6 3,0 2,7 0,0 7,3 Возможно и другое определение средней ошибки аппрокси- мации: ^^_^ j^v-K-^J (2.39) 1^100 lUy-y.f 107
Для нашего примера эта величина составит: Для расчета средней ошибки аппроксимации в стандартных программах чаще используется формула (2.39). Контрольные вопросы 1. В чем состоят ошибки спецификации модели? 2. Поясните смысл коэффициента рефессии, назовите способы его оценивания, покажите, как он используется для расчета мультипликатора в функции потребления. 3. Что такое число степеней свободы и как оно определяется для факторной и остаточной сумм квадратов? 4. Какова концепция F-критерия Фишера? 5. Как оценивается значимость параметров уравнения регрес- сии? 6. В чем отличие стандартной ошибки положения линии рефес- сии от средней ошибки прогнозируемого индивидуального значения результативного признака при заданном значении фактора? 7. Какой нелинейной функцией может быть заменена парабола второй степени, если не наблюдается смена направленности связи признаков? 8. Перечислите все виды моделей, нелинейных относительно: а) включаемых переменных; б) оцениваемых параметров. 9. Чем отличается применение МНК к моделям, нелинейным относительно включаемых переменных, от применения к мо- делям, нелинейным по оцениваемым параметрам? 10. Как определяются коэффициенты эластичности по разным видам рефессионных моделей? 11. Назовите показатели корреляции, используемые при нели- нейных соотношениях рассматриваемых признаков. 12. В чем смысл средней ошибки аппроксимации и как она опре- деляется? 13. Как проводится подбор линеаризующего преобразования для внутренне нелинейных моделей?
3 Глава МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ 3.1. СПЕЦИФИКАЦИЯ МОДЕЛИ Парная рефессия может дать хороший результат при модели- ровании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Например, при постро- ении модели потребления того или иного товара от дохода иссле- дователь предполагает, что в каждой фуппе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи и ее состав. Вместе с тем исследователь никогда не может быть уверен в справедливости данного предположения. Для того чтобы иметь правильное представление о влиянии дохода на по- требление, необходимо изучить их корреляцию при неизменном уровне других факторов. Решение такой задачи предполагает от- бор единиц совокупности с одинаковыми значениями всех дру- гих факторов, кроме дохода. Этот путь приводит к планированию эксперимента - методу, который используется в химических, фи- зических, биологических исследованиях. Экономист в отличие от экспериментатора-естественника лишен возможности регули- ровать другие факторы. Поведение отдельных экономических пе- ременных контролировать нельзя, т.е. не удается обеспечить ра- венство всех прочих условий для оценки влияния одного иссле- дуемого фактора. В этом случае следует попытаться выявить вли- яние других факторов, введя их в модель, т.е. построить уравне- ние множественной регрессии у = д + ij • Xj + ^2 • ^2 + ... + 6р • х^ + е. Такого рода уравнение может применяться при изучении по- требления. Тогда коэффициенты bj — частные производные по- требления у по соответствующим факторам xf. 109
^i--T-> ^=-7—,..., ^p=-}— axi 0x2 dXp в предположении, что все остальные Xj постоянны. В 1930-е годы Дж.М. Кейнс сформулировал гипотезу потре- бительской функции. С того времени исследователи неоднократ- но обращались к проблеме ее совершенствования. Современная потребительская функция чаще всего рассматривается как мо- дель вида C^fly,P,M,Z), где С - потребление; у - доход; Р — цена, индекс стоимости жизни; М — наличные деньги; Z — ликвидные активы. При этом о< —<1 dy Множественная рефессия широко используется в решении проблем спроса, доходности акций, при изучении функции из- держек производства, в макроэкономических расчетах и целого ряда других вопросов эконометрики. Основная цель множест- венной рефессии - построить модель с большим числом факто- ров, определив при этом влияние каждого из них в отдельности, а также совокупное воздействие их на моделируемый показатель. Построение уравнения множественной рефессии начинается с выбора спецификации модели. Суть проблемы спецификации рассматривалась применительно к парной зависимости в разд. 2.1. Она включает в себя два вопроса: отбор факторов и выбор вида уравнения рефессии. Их решение рассматривается ниже. 3.2. ОТБОР ФАКТОРОВ ПРИ ПОСТРОЕНИИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Включение в уравнение множественной рефессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя НО
с другими экономическими явлениями. Факторы, включаемые во множественную рефессию, должны отвечать следующим тре- бованиям: 1) быть количественно измеримы. Если необходимо вклю- чить в модель качественный фактор, не имеющий количествен- ного измерения, то нужно придать ему количественную опреде- ленность (например, в модели урожайности качество почвы зада- ется в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости: районы могут быть проранжированы); 2) не должны быть коррелированы между собой и тем более находиться в точной функциональной связи. Включение в модель факторов с высокой интеркорреляцией, когда r^j < r^jjj2» Л^я зависимости j; = л Н- ftj • Xj + ^2' ^2 "*" ^» может привести к нежелательным последствиям - система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов рефессии. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель, и параметры уравнения рефессии оказываются не- интерпретируемыми. Так, в уравнении у = л + ftj • Xj + Z>2 * ^2 "^ ^ предполагается, что факторы Xj и Х2 независимы друг от друга, т. е. r^jjp2" О- Тогда можно говорить, что параметр Ь^ измеряет си- лу влияния фактора Xj на результат у при неизменном значении фактораХ2. Если же ^х^^ 1, то с изменением факторах, фактор Х2 не может оставаться неизменным. Отсюда 6, и /?2 нельзя интер- претировать как показатели раздельного влияния х, и Х2 на у. Пример 3.1. Рассмотрим рефессию себестоимости единицы продукции, руб., (у) от заработной платы работника, руб., (х) и производительности труда, единиц в час, (z). 3;=22 600-5х-10г + е. Коэффициент рефессии при переменной z показывает, что с ростом производительности труда на 1 ед. себестоимость едини- цы продукции снижается в среднем на 10 руб. при постоянном уровне оплаты труда. Вместе с тем параметр при х нельзя интер- претировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффи- 111
циента регрессии при переменной х в данном случае обусловлено высокой корреляцией между xHz(rxz = 0,95). Поэтому роста за- работной платы не может быть при постоянной производитель- ности труда, если не принимать во внимание инфляцию. Включаемые во множественную рефессию факторы должны объяснить вариацию зависимой переменной. Если строится мо- дель с набором р факторов, то для нее рассчитывается показатель детерминации R^, который фиксирует долю объясненной вариа- ции результативного признака за счет рассматриваемых в регрес- сии р факторов. Влияние других не учтенных в модели факторов оценивается как (1 — R^) с соответствующей остаточной диспер- сией S^. При дополнительном включении в рефессию (р + 1) фактор коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться: R\^,>R\hS\^,<S'^. Если этого не происходит и данные показатели практически не отличаются друг от друга, то включаемый в анализ фактор дс^+у не улучшает модель и является лишним. Так, если для рефессии, включающей пять факторов, коэффициент детерминации соста- вил 0,857 и включение шестого фактора дало коэффициент де- терминации 0,858, то вряд ли целесообразно дополнительно включать в модель этот фактор. Насыщение модели лишними факторами не только не снижа- ет величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров рефессии по /-критерию Стьюдента. Несмотря на то, что теоретически рефессионная модель поз- воляет учесть любое число факторов, практически в этом нет не- обходимости. Отбор факторов проводится на основе качествен- ного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о ко- личественной взан1^освязи рассматриваемых признаков и целе- сообразности включения фактора в модель. Поэтому отбор фак- торов обычно проводится в две стадии: на первой отбираются факторы исходя из сути проблемы; на второй - на основе матри- цы показателей корреляции и определеления /-статистики для параметров рефессии. 112
Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменных явно кол- линеарны, т. е. находятся между собой в линейной зависимости, если г.^. > 0,7. Поскольку одним из условий построения уравнения множе- ственной регрессии является независимость действия факторов, т. е. R^^. = О, коллинеарность факторов нарушает это условие. Ес- ли факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочте- ние при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множест- венной регрессии как метода исследования комплексного воз- действия факторов в условиях их независимости друг от друга. Пример 3.2. При изучении зависимости у —Дрс, z, v) матри- ца парных коэффициентов корреляции оказалась следующей: У X Z V у 1 0,8 0,7 0,6 X 1 0,8 0,5 Z 1 0,2 V 1 Очевидно, что факторы xnz дублируют друг друга. В анализ целесообразно включить фактор z, а не jc, так как корреляция z с результатом у слабее, чем корреляция фактора хсу (Гу^ < Гу^), но зато слабее межфакторная корреляция г^ < г^. Поэтому в данном случае в уравнение множественной регрессии включаются фак- торы г и V. По величине парных коэффициентов корреляции обнаружи- вается лишь явная коллинеарность факторов. Наибольшие труд- ности в использовании аппарата множественной регрессии воз- никают при наличии мультиколлинеарности факторов, когда бо- -3291 113
лее чем два фактора связаны между собой линейной зависимос- тью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы всегда будут действовать в унисон. В ре- зультате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мyльтикoллинeap^^ocть факторов, тем менее надежна оценка распределения суммы объясненной вари- ации по отдельным факторам с помощью метода наименьших квадратов. Если рассматривается регрессия з^ = д + Л-х + с-г + ^'У + 8, то для расчета параметров с применением МНК предполагается равенство ^у ~" *%акт "^ *^е> 2. где ^ у ~ общая сумма квадратов отклонений Х(У/ — У) ; ^фает - факторная (объясненная) сумма квадратов отклонений S^ - остаточная сумма квадратов отклонений ZCv,- — 9i) • В свою очередь, при независимости факторов друг от друга выполнимо равенство rjiQ S^y S^y Sy - суммы квадратов отклонений, обусловленные влиянием соответствующих факторов. Если же факторы интеркоррелированы, то данное равенство нарушается. Включение в модель мультиколлинеарных факторов нежела- тельно по следующим причинам: • затрудняется интерпретация параметров множественной ре- грессии как характеристик действия факторов в «чистом» ви- де, ибо факторы коррелированы; параметры линейной рег- рессии теряют экономический смысл; • оценки параметров ненадежны, обнаруживают большие стан- дартные ошибки и меняются с изменением объема наблюде- ний (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования. 114
Для оценки мультиколлинеарности факторов может исполь- зоваться определитель матрицы парных коэффициентов корреля- ции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между ними была бы еди- ничной, поскольку все недиагональные элементы r^^fixi ф xj) бы- ли бы равны нулю. Так, для уравнения, включающег^ три объяс- няющих переменных, >' = а + 6l • Xj + ^2 • ^2 + из • Хз + Б, матрица коэффициентов корреляции между факторами имела бы определитель, равный единице. Det Л = г г г 'Х\Х\ 'XiXy 'х-^Хх г г г ЧЧ ЧЧ ЧЧ Г Г Г X\Xl XlXl X^Xi 1 0 0 0 1 0 0 0 1 =1, поскольку r^j^j = r^2X2 = ^усз " ^ ^ ^ЧП " ''^1^3 " ^ПЧ " ^• Если же между факторами существует полная линейная зави- симость и все коэффициенты корреляции равны единице, то оп- ределитель такой матрицы равен нулю. Det \rU 1 1 1 1 1 1 1 1 1 = 0. Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной рефессии. И, наоборот, чем ближе к единице определитель матрицы ме^факторной кор- реляции, тем меньше мультиколлинеарность факторов. Оценка значимости мультиколлинеарности факторов мо- жет быть проведена методом испытания гипотезы о незави- симости переменных Щ : Det |Л| = 1. Доказано, что величина /i-l-7(2/w+5)lg/feriJ 6 имеет приближенное распределение Х^с df = -m(m-l) степенями свободы. Если фактическое зна- 8* 115
чение X превосходит табличное (критическое): х^^^ > х табл(4Г,а)' то гипотеза Hq отклоняется. Это означает, что Det \щ^1, недиаго- нальные ненулевые коэффициенты корреляции указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной. Через коэффициенты множественной детерминации мож- но найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рас- сматривается каждый из факторов. Чем ближе значение коэффи- циента множественной детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов R^xi\x2 Х2 X »^Х2\х\ JC3 х И т П., МОЖНО выдслить персменные, ответ- ственные за мультиколлинеарность, следовательно, можно ре- шать проблему отбора факторов, оставляя в уравнении факторы с минимальной величиной коэффициента множественной де- терминации. Имеется ряд подходов преодоления сильной межфакторной корреляции. Самый простой из них состоит в исключении из мо- дели одного или нескольких факторов. Другой путь связан с пре- образованием факторов, при котором уменьшается корреляция между ними. Например, при построении модели на основе рядов динамики переходят от первоначальных данных к первым разно- стям уровней А;^ = ^'^ — у^_1, чтобы исключить влияние тенденции, или используются такие методы, которые сводят к нулю межфак- торную корреляцию, т. е. переходят от исходных переменных к их линейным комбинациям, не коррелированным друг с другом (метод главных компонент). Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т. е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если у = Л-^ь ^2» ^з)' то можно по- строить следующее совмещенное уравнение: у = Д + 6j • Xj + ^2 • ^2 "^ ^3 ' ^3 "^ *12 ' ^Г ^2 "^ *13 ^ X Xi • Хз + ^23 • ^2 * -^3 ■*" ^• Рассматриваемое уравнение включает эффект взаимодейст- вия первого порядка. Можно включать в модель и взаимодейст- вие более высоких порядков, если будет доказана его статистиче- ская значимость, например включение взаимодействия второго 116
порядка bi23 ' Xi ' Х2 -Хз и т. д. Как правило, взаимодействие третьего и более высоких порядков оказывается статистически незначимым; совмещенные уравнения регрессии ограничивают- ся взаимодействием первого и второго порядков. Но и оно может оказаться несущественным. Тогда нецелесообразно вклю- чать в модель взаимодействие всех факторов и всех порядков. Так, если анализ совмещенного уравнения показал значимость только взаимодействия факторов Xj и х^, то уравнение будет иметь вид: у = а -\- bi' Xi -^ Ь2 • Х2 + Ь2' Х2 + bi2' х^ • Х2 + S. Взаимодействие факторов х^ и х^ означает, что на разных уровнях фактора х^ влияние фактора Xj на у будет неодинаково, т. е. оно зависит от значений фактора Ху На рис. 3.1 взаимодейст- вие факторов представляется непараллельными линиями связи Xj с результатом у. И, наоборот, параллельные линии влияния фак- тора Xj на у при разных уровнях фактора х^ означают отсутствие взаимодействия факторов Xj ИХ3. (^3 = ^2) (хз = В,) (хз = а2) Рис. 3.1. Графическая иллюстрация взаимодействия факторов: a — Xi влияет на у, причем это влияние одинаково как при Хз=^1, так и при Хз=^2 (одинаковый наклон линий регрессии), что означает отсутствие взаи- модействия факторов ^1 и дсз; ^ — с ростом Xi результативный признак у воз- растает при дсз = ^i; с ростом jci результативный признак у снижается при Хз = ^2- Между Xi и Хз существует взаимодействие Совмещенные уравнения рефессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений (комбинаций азота и фосфора). 117
Решению проблемы устранения мультиколлинеарности фак- торов может помочь и переход к уравнениям приведенной фор- мы. С этой целью в уравнение регрессии подставляют рассматри- ваемый фактор, выраженный из другого уравнения. Пусть, например, рассматривается двухфакторная регрессия вида >?р = а + 6| • Xj + ^2 • х^, для которой факторы х^ и х^ обнару- живают высокую корреляцию. Если исключить один из факто- ров, то мы придем к уравнению парной рефессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двух- факторное уравнение рефессии совместно с другим уравнением, в котором фактор (например, Х2) рассматривается как зависимая переменная. Предположим, что x-f^ А-^ В- у Л- С- Ху Подставив это уравнение в искомое вместо Xi, получим: j)^= а + fti • Xi + *2 (^^ + 5 • у + С • хз) или р^ • (1 - ^2 •^) = (^ + *2 * ^) + *1 • ^1 + С • Z>2 • ^3- Если {\ — Ъ^' В) Ф ^, то, разделив обе части равенства на (1 - ^2 • 5), получим уравнение вида ' {Х'ЪгВ) (1-1>2'В) ^ (\-b2-B) ^ которое принято называть приведенной формой уравнения* для определения результативного признака у. Это уравнение может быть представлено в виде К нему для оценки параметров может быть применен метод наименьших квадратов. Отбор факторов, включаемых в рефессию, является одним из важнейших этапов практического использования методов рег- рессии. Подходы к отбору факторов на основе показателей кор- реляции могут быть разные. Они приводят построение уравнения множественной рефессии соответственно к разным методикам. В зависимости от того, какая методика построения уравнения ре- фессии принята, меняется алгоритм ее решения на ЭВМ. * Приведенная форма модели рассматривается в гл. 5. 118
Наиболее широкое применение получили следующие методы построения уравнения множественной рефессии: • метод исключения; • метод включения; • шаговый регрессионный анализ. Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты — отсев факторов из полного его набора (метод исключения), дополнительное введе- ние фактора (метод включения), исключение ранее введенного фактора (шаговый рефессионный анализ)*. На первый взгляд может показаться, что матрица парных ко- эффициентов корреляции ифает главную роль в отборе факто- ров. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать во- прос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результа- том. Матрица частных коэффициентов корреляции наиболее широко используется в процедуре отсева факторов. Отсев факто- ров можно проводить и по /-критерию Стьюдента для коэффици- ентов рефессии: из уравнения исключаются факторы с величи- ной /-критерия меньше табличного. Так, например, уравнение рефессии составило: у = 25 + 5x1 +3-Х2 +4-Хз +е. (4,0) (1,3) (6,0) В скобках приведены фактические значения /-критерия для соответствующих коэффициентов рефессии. Как правило, при / < 2 коэффициент рефессии незначим и, следовательно, рассмат- риваемый фактор не должен присутствовать в рефессионной мо- дели. В данном случае — это фактор ^2. При отборе факторов рекомендуется пользоваться следую- щим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строится рефессия. Если это соотношение нарушено, то число степеней свободы ос- таточной вариации очень мало. Это приводит к тому, что пара- метры уравнения рефессии оказываются статистически незначи- мыми, а jF-критерий меньше табличного значения. * См.: Дрейпер Н., Смит Г. Прикладной регрессионный анализ, с. 172-188. 119
3.3. ВЫБОР ФОРМЫ УРАВНЕНИЯ РЕГРЕССИИ Как и в парной зависимости, используются разные виды уравнений множественной регрессии: линейные и нелинейные. Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции. В линейной мно- жественной регрессии у^ = а + Ь^-х^-^ Ь2-Х2 + ...-^ Ьр-Хр парамет- ры при X называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соот- ветствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне. Пример 3.3. Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следу- ющим уравнением: р^ = 0,5 + 0,35 •Xi +0,73-Хз, где у - расходы семьи за месяц на продукты питания, тыс. руб.; Xi -г месячный доход на одного члена семьи, тыс. руб.; Х2 - размер семьи, человек. Анализ данного уравнения позволяет сделать выводы — с рос- том дохода на одного члена семьи на 1 тыс. руб. расходы на пита- ние возрастут в среднем на 350 руб. при том же среднем размере семьи. Иными словами, 35 % дополнительных семейных расхо- дов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб. Параметр а не имеет экономической интерпретации. При изучении вопросов потребления коэффициенты регрес- сии рассматриваются как характеристики предельной склоннос- ти к потреблению. Например, если функция потребления Q име- ет вид Cf = a + bQ-Ri + bi'Rt_i-^e, то потребление в период времени / зависит от дохода того же пе- риода Rf и от дохода предшествующего периода 7?^_i. Соответст- венно коэффициент ^0 характеризует эффект единичного возрас- 120
тания дохода R^ при неизменном уровне предыдущего дохода. Коэффициент 6о обычно называют краткосрочной предельной склонностью к потреблению. Общим эффектом возрастания как текущего, так и предьщущего дохода будет рост потребления на b = Ь^ -\- Ь^. Коэффициент b рассматривается здесь как долгосрочная склонность к потреблению. Поскольку коэффициен- ты bQHbj> О, долгосрочная склонность к потреблению должна пре- восходить краткосрочную Ь^. Например, за период 1905-1951 гг (за исключением военных лет) М.Фридман построил для США следующую функцию потребления: Q = 53 + 0,58 • Rf + 0,32 * /?,_ i с краткосрочной предельной склонностью к потреблению 0,58 и с долгосрочной склонностью к потреблению 0,9*. Функция потребления может рассматриваться также в зави- симости от прошлых привычек потребления, т. е. от предыдуще- го уровня потребления Q_i: В этом уравнении параметр бд также характеризует кратко- срочную предельную склонность к потреблению, т. е. влияние на потребление единичного роста доходов того же периода Л,. Дол- госрочную предельную склонность к потреблению здесь измеря- ет выражение />о/(1 ~ *i)- Так, если уравнение регрессии составило: q = 23,4 + 0,46 • Rf + 0,20 • Q_, + е, то краткосрочная склонность к потреблению равна 0,46, а долго- срочная - 0,575 (0,46/0,8). Свободный член уравнения множественной линейной рег- рессии (параметр а) вбирает в себя информацию о пррчих не учитываемых в модели факторах. Его величина экономической интерпретации не имеет. Формально его значение предполагает то значение у, когда все х = 0, что практически не бывает. В степенной функцииy^^^ci'Xj^i • ^2*2...• х^р коэффициенты bj являются коэффициентами эластичности. Они показывают, на сколько процентов в среднем изменяется результат с изменением соответствующего фактора на 1 % при неизменности действия *См.\ Маленво Э. Статистические методы эконометрии. — В 2 т. - М.: Статистика, 1975. - Т. 1. - С. 138. 121
других факторов. Этот вид уравнения рефессии получил наи- большее распространение в производственных функциях, в ис- следованиях спроса и потребления. Предположим, что при исследовании спроса на мясо получе- но уравнение 1,11 у^ = 0,82 • jcf^'^^ • Х2^'*^ или j)^ =0,82-^, •^1' где у — количество спрашиваемого мяса; Xi - цена; Х2 - доход. Следовательно, рост цен на 1 % при том же доходе вызывает снижение спроса в среднем на 2,63 %. Увеличение дохода на 1% обусловливает при неизменных ценах рост спроса на 1,11 %. В производственных функциях вида где Р — количество продукта, изготавливаемого с помощью т производст- венных факторов (Fj, Fi,..., F„); b - параметр, являющийся эластичностью количества продукции по отношению к количеству соответствующих производственных факторов. Экономический смысл имеют не только коэффициенты b каждого фактора, но и их сумма, т. е. сумма эластичности: B = bj-\- Ь2 +...+ 6;„. Эта величина фиксирует обобщенную харак- теристику эластичности производства. Пусть производственная функция имеет вид: Р=2-^Л'-^2'''^з'''-е. где Р — выпуск продукции; Fi — стоимость основных производственных фондов; Fi - отработано человеко-дней; ^3 - затраты на производство. Эластичность выпуска по отдельным факторам производства составляет в среднем 0,3% с ростом /'i на 1% при неизменном уровне других факторов; 0,2% - с ростом 7^2 на 1% также при не- изменности других факторов производства; 0,5% - с ростом F^ на 1% при неизменном уровне факторов F^ и Fi- Для данного урав- нения 5 = Aj н- Z>2 ■*■ *з ~ 1- Следовательно, в целом с ростом каж- дого фактора производства на 1% коэффициент эластичности 122
выпуска продукции составляет 1%, т.е. выпуск продукции увели- чивается на 1%, что в микроэкономике соответствует постоянной отдаче от масштаба. т При практических расчетах не всегда Z*y = 1 • Она может быть как больше, так и меньше единицы. В этом случае величина В фиксирует приближенную оценку эластичности выпуска с рос- том каждого фактора производства на 1% в условиях увеличива- ющейся {В>\) или уменьшающейся {В <\) отдачи от масштаба. Так, если Р = 2,4 • F^'^ • F'^'^ • F-^'^, то с ростом значений каж- дого фактора производства на 1% выпуск продукции в целом возрастает приблизительно на 1,2 %. Возможны и другие линеаризуемые функции для построения уравнения множественной регрессии: • экспонента;; = е"^^1-^1 ^^2-^2 ^••>/'р-^р + ^; • гипербола у = , которая исполь- зуется при обратных связях признаков. Стандартные компьютерные программы обработки регресси- онного анализа позволяют перебирать различные функции и вы- брать ту из них, для которой остаточная дисперсия и ошибка ап- проксимации минимальны, а коэффициент детерминации мак- симален. Если исследователя не устраивает предлагаемый стандартной профаммой набор функций регрессии, то можно использовать любые другие функции, приводимые путем соответствующих преобразований к линейному виду, например Xi Обозначив получим линейное уравнение множественной рефессии у = А + ^1 • Zi + ^2 ' ^2 ■•■ *3 ' ^3 "*■ *4 * ^4 "^ ^• Однако чем сложнее функция, тем менее интерпретируемы ее параметры. 123
При использовании сложных полиномиальных функций с большим числом факторов необходимо помнить, что каждый па- раметр преобразованной функции является средней величиной, которая должна быть подсчитана по достаточному числу наблю- дений. Если число наблюдений невелико, что, как правило, име- ет место в эконометрике, то увеличение числа параметров функ- ции приведет к их статистической незначимости и соответствен- но потребует упрощения вида функции. Если один и тот же фак- тор вводится в регрессию в разных степенях, то каждая степень рассматривается как самостоятельный фактор. Так, если модель имеет вид полинома второго порядка ТО после замены переменных Z\ = -^ь ^2 ~ -^2' ^з ^ -^Л ^ ^ ^2» ^5= ^1^2 получим линейное уравнение рефессии с пятью фак- торами: Д' = а + 6l • -^1 + ^2 * ^2 "^ ^3 • ^3 "^ *4 • ^ + *5 * ^5 ■•■ S- Поскольку, как отмечалось, должно выполняться соотноше- ние между числом параметров и числом наблюдений, для поли- нома второй степени требуется не менее 30-35 наблюдений. В эконометрике рефессионные модели часто строятся на ос- нове макроуровня экономических показателей, когда ставится задача оценки влияния наиболее экономически существенных факторов на моделируемый показатель при офаниченном объе- ме информации. Поэтому полиномиальные модели высоких по- рядков используются редко. К линейному виду может быть приведена и следующая экспо- ненциальная модель: у = —; , так как -- = i + ^^+^^1 +^^2 +е — 1 =е''"^^^^^^^2+е Далее, логарифмируя обе части равен- или ства, получим: In —1 =a + iiXi+62^2+^> где In —1 можно обозначить через Y, т.е. имеем линейную модель множественной рефессии У^а + Ь^х^-^ ^2^2 + ^^ 124
3.4. ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Параметры уравнения множественной рефессии оценивают- ся, как и в парной регрессии, методом наименьших квадратов. При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров рег- рессии. Так, для уравнения у = а -^ Ь^ - х^ + Ь2' Xj -^ ... -^ Ьр • Хр + г сис- тема нормальных уравнений составит: \l.y-xi [Ly-Xp ^a'Z.Xi-i = й•Zx^, Xi+l>2-'LX2+... + bp-'ZXp, ■bi-Zxi +b2-'Z.xyX2 + ...+bi, + bi-Y.Xi-Xp+b2-ZX2-Xp+.. •ZXi ■'bp 7*^1» Их]. Ее решение может быть осуществлено методом определителей: й„=- А6„ где А - определитель системы; Aj, AZ>i, ..., А/?р - частные определители. При этом А = п Zjc, \Lxi Цх\ Wx2 IX,X2 ЦХр 2Lx^Xp Ъхг ■ ЪхгХ\ . Yxl . I.X2Xp ■ SX, 1 •• "LXpXi ■■ I.XpX2 ■■ I^^l a Aa, A^i ,..., Abp получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы. 125
Уравнение множественной линейной рефессии в матричной форме имеет вид: гдеК = Л, Х = 1 ^11 ' Xi„ Xkl Хк2 Хкп В = 41 Ч**У Е = Ч Процедура оценки параметров Ь^^ = а, 6,, Ъ^,..., bf^ та же, что и в парной линейной регрессии, т.е. находим по правилу умноже- ния матрицу Х^Х, обратную матрицу (Х^Х)~^, Х^Ки далее оценки 2?, как:Д = (;(Г^А)~'Л Пример 3.4. Имеются следующие данные по 10 предприяти- ям концерна о прибыли (у - млн руб.), выработке продукции на 1 работника (х, - единиц) и доле продукции, производимой на экспорт (х2 - %), приведенные в табл. 3.1. Таблица 3.1 № 1 п/п 1 2 3 4 5 6 7 8 9 10 Итого Исходные и У 2 1 3 8 7 5 4 6 7 7 50 ^1 11 10 12 18 15 13 13 15 16 17 140 расчетные данные для примера построения множественной регрессии ^2 3 2 4 10 11 6 5 7 10 12 70 у' 4 1 9 64 49 25 16 36 49 49 302 А 121 100 144 324 225 169 169 225 256 289 2022 А 9 4 16 100 121 36 25 49 100 144 604 У^\ 11 10 36 144 105 65 52 90 112 119 755 У^1 6 2 12 80 77 30 20 42 70 84 423 XiX2 33 20 48 180 165 78 65 105 160 204 1058 Система нормальных уравнений составит: ri0fl + 1406|+7062=50 ]i40j +2022^1 +1058Z^ =755 70^7 + 1058*1+60462=423. 126
Решая ее методом определителей, получим: Л = 9840,Ад =^7960,Д4, =5760,A^^ =2360, откуда: а = 4874; *, =0,585; 62=0.240. Уравнение регрессии выглядит следующим образом: >' = -4,874+0,585х, +0,240x2 +£• В матричном виде оценка параметров регрессии составит: ^1 11 з^ 1 10 2 Х^Х = (\ 1 ... iM 11 10 ••• 17 3 2 ••• 12 1 17 12 По 140 70 "1 140 2022 1058 70 1058 604 X^Y = (1 1 ... nl 11 10 ... 17 3 2 ... I2J 1 кЬ Г 50^ 755 423 Обратная матрица определится как А-^=(Х^ХГ\ А-'=г^А, где \А\ - определитель матрицы Х^Х; А - матрица, присоединенная к мат- рице Х^Х, элементы которой получаются как Оу =(-1)'*-'|Л/^,|; Му - мат- рица, получаемая из А вычеркиванием /-й строки иу-го столбца. В нашем примере |^4| = 9840. 001924 -10500 6580^1 А-=. ' 9840 10500 1140 -780 1^ 6580 -780 620 ) 127
Затем умножив эту матрицу на вектор X^Y, получим оценки параметров рефессии: ''-47960 "1 /'4874 "1 5760 = 0,585 ^ 2360 J [ 0,240 b = - 1 9840 что совпадает с полученными ранее оценками. а = -4,874; 6, = 0,585; Aj = 0,240. Возможен и иной подход к определению параметров множе- ственной рефессии, когда на основе матрицы парных коэффи- циентов корреляции строится уравнение рефессии в стандарти- зованном масштабе: А.= Рг^х +р2-'х, + - + Рг-^х +е. где /^, /jf,..., /jf — стандартизованные переменные: ty = У-У _Xi-Xi для которых среднее значение равно нулю: Ту = Г^^. = О, а среднее квадратическое отклонение равно единице: 1у Гу » Р - стандартизованные коэффициенты регрессии. Применив МНК к уравнению множественной регрессии в стандартизованном масштабе, после соответствующих преобра- зований получим систему нормальных уравнений вида f'yx, =Pl +Р2 • Vl ^Рз • Vl +- + Р/' • Vl' Гух. =Pl •Гх.х, +P2 +Рз Гх^. +- + Рр Г, •'Р 'XpXi^ \ГуХр =Pr'i„x, +Р2-^х„х, +Рз-''х„х, +- + Р^ ХрХх XpXi XpXi Решая ее методом определителей, найдем параметры — стан- дартизованные коэффициенты рефессии (Р-коэффициенты). Стандартизованные коэффициенты регрессии показывают, на сколько сигм изменится в среднем результат, если соответству- ющий фактор Xi изменится на одну сигму при неизменном сред- нем уровне других факторов. В силу того, что все переменные за- даны как центрированные и нормированные, стандартизованные 128
коэффициенты рефессии р,- сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздей- ствия на результат. В этом основное достоинство стандартизован- ных коэффициентов рефессии в отличие от коэффициентов «чи- стой» рефессии, которые несравнимы между собой. Пример 3.5. Пусть функция издержек производства;; (тыс. руб.) характеризуется уравнением вида у = 200-^ 1,2 •Xi + 1,1 'Х2 + г, где ^1 — основные производственные фонды, тыс. руб.; Х2 — численность занятых в производстве, человек. Анализируя данное уравнение, видим, что при той же занято- сти дополнительный рост стоимости основных производствен- ных фондов на 1 тыс. руб. влечет за собой увеличение затрат в среднем на 1,2 тыс. руб., а увеличение численности занятых на одного человека способствует при той же технической оснащен- ности предприятий росту затрат в среднем на 1,1 тыс. руб. Одна- ко это не означает, что фактор Xj оказывает более сильное влия- ние на издержки производства по сравнению с фактором Х2. Такое сравнение возможно, если обратиться к уравнению рефес- сии в стандартизованном масштабе. Предположим, оно выглядит так: ty = 0,5 4^^ + 0,S't^^. Это означает, что с ростом фактора Xi на одну сигму при неиз- менной численности занятых затраты на продукцию увеличива- ются в среднем на 0,5 сигмы. Поскольку Р| < Р2 (0,5 < 0,8), мож- но заключить, что большее влияние оказывает на производство продукции фактор ^2, а не jcj, как кажется из уравнения рефессии в натуральном масштабе. В парной зависимости стандартизованный коэффициент рег- рессии есть не что иное, как линейный коэффициент корреляции г^. Подобно тому, как в парной зависимости коэффициенты рег- рессии и корреляции связаны между собой, так и во множествен- ной рефессии коэффициенты «чистой» рефессии 6, связаны со стандартизованными коэффициентами рефессии Д, а именно bi=^i—- (3.1) 9-3291 129
Это позволяет от уравнения рефессии в стандартизованном масштабе ^=РГ^.1 + Р2-^Х2 + --^Р;.-^х^ (3.2) переходить к уравнению рефессии в натуральном масштабе пе- ременных р = а + Й1 • Xi + ^2 • ^2 + - + *р * ^р- Параметр а определяется как а = у -b^-x^-b2-X2- ... - bp • Icp. (3.3) Содержание стандартизованных коэффициентов рефессии позволяет использовать их при отсеве факторов - из модели ис- ключаются факторы с наименьшим значением Ру. Компьютерные профаммы построения уравнения множест- венной рефессии в зависимости от примененного в них алгорит- ма решения позволяют получить либо только уравнение регрес- сии для исходных данных либо, кроме того, уравнение рефессии в стандартизованном масштабе. В двухфакторном рефессионном анализе рассмотренная методика построения уравнения рефессии приводит к сле- дующим формулам оценки параметров уравнения рефессии >^ = а + 6х + CZ + е: с = 1-г., ^yz ^yx^xz ^у (3.4) 1-/V, В нашем примере для рассмотренного ранее уравнения рег- рессии у = -4,874+0,585x1 +0,240^2 +е матрица парных коэффициентов корреляции составила: У Xl Xl У 1 0,9686 0,9481 ^1 — 1 0,9278 Х2 — - 1 130
Она позволяет найти уравнение регрессии в стандартизован- ном масштабе: Гух, -Гухг'-х^хг 0,9686-0,9481 0,9278 ^ ^^^ "" \-r,J 1-0,9278^ ' ' где 'Х\Ч „ _ ^2 -^ух.Уг _ 0,9481-0,9686 0,9278 ^ ,„ '' I-V2' 1-0,9278^ Уравнение регрессии в стандартизованном виде примет вид: /^,=0,639r^j +0,355/^2- Следовательно, наибольшее воздействие на размер прибыли оказывает производительность труда. Соответственно коэффи- циенты «чистой» регрессии будут равны: г^=рА = 0,639^=0,585; Gjcj 2,490 6,=рА = 0,355^=0,240, Gjcj 3,376 что, естественно, совпадает с предыдущими расчетами. При нелинейной зависимости признаков, приводимой к ли- нейному виду, параметры множественной регрессии также опре- деляются МНК с той лишь разницей, что он используется не к исходной информации, а к преобразованным данным. Так, рас- сматривая степенную функцию мы преобразовываем ее в линейный вид: \gy = Igс + 61 • Igxj + 62 • lg^2 + - ^bp-XgXp-^ Ige, где переменные выражены в логарифмах. Далее обработка МНК та же, что и описана выше: строится система нормальных уравнений и определяются параметры Ig а, Aj, Z>2> •••> bp. Потенцируя значение Ig а, найдем параметр а и соот- ветственно общий вид уравнения степенной функции. 9- 131
Поскольку параметры степенной функции представляют со- бой коэффициенты эластичности, то они сравнимы по разным факторам. Пример 3.6. При исследовании спроса на масло получено следующее уравнение: lgy = - 1,25 - 0,858 • IgXi + 1,126 -18X2 + е, где у - количество масла на душу населения, кг; Xi - цена, руб.; Х2 — доход на душу населения, тыс. руб. Анализируя уравнение, видим, что с ростом цены на 1% при том же доходе спрос снижается в среднем на 0,858%, а рост дохо- да на 1% при неизменных ценах вызывает увеличение спроса в среднем на 1,126%. В виде степенной функции данное уравнение выглядит следующим образом: >^ = 0,056-О»^»-Х2^'^''-е. При других нелинейных функциях методика оценки парамет- ров МНК проводится так же. В отличие от предьщущих функций параметры более сложных моделей не имеют четкой экономиче- ской интерпретации: они не являются показателями силы связи и ее эластичности. Это не исключает возможности их примене- ния, но делает их менее привлекательными в практических рас- четах. 3.5. ЧАСТНЫЕ УРАВНЕНИЯ РЕГРЕССИИ На основе линейного уравнения множественной рефессии у = а + *! • Xj + ^2 • Х2 + ... + Ар • х^ + е могут быть найдены частные уравнения регрессии: [л,.,., .,=/(-.), \УХ2Х1,Х2 Хр =/(^2)» >'v-..x, х,,=/(^,). 132
т. е. уравнения рефессии, которые связывают результативный признак с соответствующими факторами х при закреплении дру- гих учитываемых во множественной рефессии факторов на сред- нем уровне. Частные уравнения рефессии имеют следующий вид: Ухп-х = а + bi'Xi + bi' Х2 + ... + й. >-1 <р-1-^Ьр-Хр + г. При подстановке в эти уравнения средних значений соответ- ствующих факторов они принимают вид парных уравнений ли- нейной рефессии, т. е. имеем: Ух2.Х1Ху..Хр =>^2+^^2» Ух^ .Х,ДС2... Vl -^Р "•■ ^^Р^Р ' где А^ =а + 1>2 •Х2 +*з -^3 +-.+*;, -Хр, А =а + Ьу -Xi +^2 -^2 +•••+Vi '^P-i- в отличие от парной рефессии частные уравнения рефессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному чле- ну уравнения множественной регрессии. Это позволяет на осно- ве частных уравнений рефессии определять частные коэффици- енты эластичности: Э^х, =*/ rxiXiX2...Xi_\Xi^l...Xp (3.5) где bj — коэффициенты регрессии для фактора Х/ в урав- нении множественной регрессии; Уххх...х X. ...X - частное уравнение регрессии. 133
Пример 3.7. Предположим, что по ряду регионов множест- венная регрессия величины импорта на определенный товар у относительно отечественного его производства Xj, изменения за- пасов Х2 И потребления на внутреннем рынке х^ оказалась следу- ющей: у = - 66,028 + 0,135 • Xi + 0,476 • Х2 + 0,343 • Ху При этом средние значения для рассматриваемых признаков составили: 7 = 31,5; 3ci = 245,7; Зс2 = 3,7; Хз= 182,5. На основе данной информации могут быть найдены средние по совокупности показатели эластичности: '^' Ух, Для этого примера они окажутся равными: 245 7 Э, =0,135-^=^^^=1,053%, ^'1 31,5 т. е. с ростом объема отечественного производства на 1% размер импорта в среднем по совокупности регионов возрастет на 1,053% при неизменных запасах и потреблении семей. Для второй переменной коэффициент эластичности состав- ляет: Э, =0,476-^=0,056%, ^^2 31,5 т. е. с ростом изменения запасов на 1 % при неизменном произ- водстве и внутреннем потреблении величина импорта увеличива- ется в среднем на 0,056%. Для третьей переменной коэффициент эластичности состав- ляет: Э, =0,343 -^^^=1,987%, ^^ 31.5 т. е. при неизменном объеме производства и величины запасов с увеличением внутреннего потребления на 1% импорт товара воз- растает в среднем по совокупности регионов на 1,987%. Средние 134
показатели эластичности можно сравнивать друг с другом и со- ответственно ранжировать факторы по силе их воздействия на результат. В рассматриваемом примере наибольшее воздействие на величину импорта оказывает размер внутреннего потребления товара дсз, а наименьшее — изменение запасов х^. Наряду со средними показателями эластичности в целом по совокупности регионов на основе частных уравнений регрессии могут быть определены частные коэффициенты эластичности для каждого региона. Частные уравнения рефессии в нашем случае составят: Т. е. ^j .^2^3 = -66,028 + 0,135 • ^1 + 0,476 • 3,7 + 0,343 -182,5 = = -1,669 +0,135 х,; Ухг-х^хг = о + *! -xi + Й2 -^2 + *з -^3» т. е. y^2-;,j^3= -66,028 + 0,135 ' 245,7 + 0,476 • Xj + 0,343 -182,5 = = 29,739 + 0,476 - х^', Ухух^хг = a-^b^'X^ + b2'X2 + byx^, т. е.у...;с2= -66,028 + 0,135 - 245,7 + 0,476 - 3,7 + 0,343 -х^ = =-31,097 +0,343-Хз. Подставив в данные уравнения фактические значения соот- ветствующих факторов по отдельным регионам, получим значе- ния моделируемого показателя у при заданном уровне одного фактора и средних значениях других факторов. Эти расчетные значения результативного признака используются для определе- ния частных коэффициентов эластичности по приведенной вы- ше формуле. Так, если в регионе х^ = 160,2; Х2 = 4,0; х^ = 190,5, то частные коэффициенты эластичности составят: ^>'^"*^*^~^— или Э, =0,135 7г-^^—;—=1,084%; Ухух2х, У-х -1,669 + 0,135 160,2 ^>'х2=*2-у^— или Э, =0,476- ^^^^7.аг ^^=0,060%; ^ ^2X1X3 У^2 29,739 + 0,476-4,0 ^Ух,^'^'^— или Э, =0,343 ^^^ =1,908% ' Ухух,х2 ^'3 -31,097+0,343 190,5
Как видим, частные коэффициенты эластичности для региона несколько отличаются от аналогичных средних показателей по совокупности регионов. Они могут быть использованы при при- нятии решений по развитию конкретных регионов. 3.6. МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ Практическая значимость уравнения множественной регрес- сии оценивается с помощью показателя множественной корре- ляции и его квадрата — коэффициента детерминации. Показатель множественной корреляции характеризует тесно- ту связи рассматриваемого набора факторов с исследуемым при- знаком, или оценивает тесноту совместного влияния факторов на результат. Независимо от формы связи показатель множественной кор- реляции может быть найден как индекс множественной корре- ляции: (3.6) где ост о^у - общая дисперсия результативного признака. Методика построения индекса множественной корреляции аналогична построению индекса корреляции для парной зависи- мости. Границы его изменения те же: от О до 1. Чем ближе его зна- чение к 1, тем теснее связь результативного признака со всем на- бором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному пар- ному индексу корреляции: ^ух^х^ ... Хр ^ ^yx^imax) (/ = 1,/?). При правильном включении факторов в рефессионный ана- лиз величина индекса множественной корреляции будет сущест- венно отличаться от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множествен- ной рефессии факторы третьестепенны, то индекс множествен- ной корреляции может практически совпадать с индексом пар- 136
ной корреляции (различия в третьем и четвертом знаках). Срав- нивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности включения в уравнение рефессии того или иного фактора. Так, если у рассматривается как функция X и ^ и получен индекс множественной корреляции Ry^ = 0,85, а индексы парной корреляции при этом были Ry^ = 0,82 и Л^ = 0,75, то совершенно ясно, что уравнение парной рефессии у =/(л:) охватывало 67,2% колеблемости результатив- ного признака под влиянием фактора jc, а дополнительное вклю- чение в анализ фактора z увеличило долю объясненной вариации до 72,3 %, т. е. уменьшилась доля остаточной вариации на 5,1 проц. пункта (с 32,8 до 27,7%). Расчет индекса множественной корреляции предполагает оп- ределение уравнения множественной рефессии и на его основе остаточной дисперсии: ^ост= • П Можно пользоваться следующей формулой индекса множе- ственной корреляции: R yXiX2...Xp = 1- Uy-kx.r) Х\Х2...Хр> 1.{У'У? (3.7) Применим данную формулу для примера 3.4. Подставив в уравнение рефессии у = -4,874 + 0,585xi + 0,240x2 + s значения Xj и Х2, получим теоретические значения у, т.е. pj^jc, а также ^i = У1-Ух^х^иг] (табя, 32). Таблица 3.2 № п/п У! л ^7. е/ В? 1 2 2,3 -0,3 0,09 Расчет индекса 2 1 .1,5 -0,5 0,25 3 3 3,1 -0,1 0,01 4 8 8,1 -0,1 0,01 множественной корреляции 5 7 6,5 0,5 0,25 6 5 4,2 0,8 0,64 7 4 3,9 0,1 0,01 8 6 5,6 0,4 0,16 9 7 6,9 0,1 0,01 10 7 7,9 -0,9 0,81 Z 50 50 0 2,24 137
Величину ЕСи -у)^ определим как ZCv - Д' )^ = S>^ - лСи )^, где Еу2 = 302 (см. табл. 3.1);5Г = 2з^/а1 =5; 1(у->Г)^ = 302- 10• 25 = 52. 9 2 24 Тогда /?yjciX2=l—^— = 0,957, те. включенные в регрессию факторы объясняют 95,7% вариации у. Индекс множественной корреляции 0,978 достаточно близок к 1 и означает тесную связь УСХ^У[ ДС2. При линейной зависимости признаков формула индекса кор- реляции может быть представлена следующим выражением: Л^зд...;с,=#Р^О^' (3.8) где Pj^^ — стандартизованные коэффициенты регрессии; Гу^^ - парные коэффициенты корреляции результата с каждым фактором. В справедливости данной формулы можно убедиться, если обратиться к линейному уравнению множественной регрессии в стандартизованном масштабе и определить для него индекс мно- жественной корреляции как ИЛИ, что то же самое. j^^ Uty'^yf 7^2• (3.10) \Uty-ty) В формуле (3.10) числитель подкоренного выражения пред- ставляет собой факторную сумму квадратов отклонений для стандартизованных переменных: / = i—Z. Су Поскольку7^ = О и l,(ty-Ty )^ = Z// = п, индекс множествен- ной корреляции для линейного уравнения в стандартизованном масштабе можно записать в виде 138
■-ё ■mi^yf. (3.11) Подставим в эту формулу выражение ty через получим: 1 _ А Поскольку —L^x, '^у = V, получим формулу индекса множе- ственной корреляции следующего вида: Формула индекса множественной корреляции для линейной рефессии получила название линейного коэффициента множест- венной корреляции или совокупного коэффициента корреляции. Найдем для нашего примера совокупный коэффициент кор- реляции: ^ = у1^х/ух, +Р;с20^2 =V0,639-0,9686+0,355-0,9481= >/3,956= 0,978. При линейной зависимости можно также определить сово- купный коэффициент корреляции через матрицу парных коэф- фициентов корреляции: ^.,.....,=f^. (3.13) где Аг — определитель матрицы парных коэффициентов корреляции; Агц — определитель матрицы межфакторной корреляции. Для уравнения j' = а + Aj • Xj + ^2' ^2 "*"•••"'" ^т?' ^/? "^ ^ опреде- литель матрицы коэффициентов парной корреляции примет вид: 139
Ar = 1 v> w. Ч V, 1 r ''XpXx ^yx, '• ''rr 1 4^2 • •• 'jf2JfJ .. 1 Определитель более низкого порядка Гц остается, когда вы- черкиваются из матрицы коэффициентов парной корреляции первый столбец и первая строка, что и соответствует матрице коэффициентов парной корреляции между факторами: Агп = 1 'дгздс, 4^1 ^XiX2 • 1 ^^2 ' •• ^XiXp " ^Х2Х, .. 1 (3.14) Как видим, величина множественного коэффициента корре- ляции зависит не только от корреляции результата с каждым из факторов, но и от межфакторной корреляции. Рассмотренная формула позволяет определять совокупный коэффициент корре- ляции, не обращаясь при этом к уравнению множественной рег- рессии, а используя лишь парные коэффициенты корреляции. При трех переменных для двухфакторного уравнения регрес- сии данная формула совокупного коэффициента корреляции легко приводится к следующему виду: ^>аС,ДС2 1- 1 г г \ * 'УХ\ 'УХ2 г \ г \ Ow, * 'Х^Х2\ ^УХ2 ^ХхХ2 1 1 1 ''хх Х,ДС2 уухх'^^ух2 ^'^д^дс/Уг ХхХ2 1-л Х\Х2 (3.15) Применительно к нашему примеру использование данной формулы дает результат: 140
^ /0,968640,9481^-2.0,9686.0,94810,9278 ^д^ V 1-0,9278^ Индекс множественной корреляции равен совокупному ко- эффициенту корреляции не только при линейной зависимости рассматриваемых признаков. Тождественность этих показателей, как и в парной рефессии, имеет место и для криволинейной за- висимости, нелинейной по переменным. Так, если для фирмы модель прибыли у имеет вид: у = а + Ь^'Х^-^ Ь2'In Х2 + Ь^-In х^-^ Ь^-In Х/^ + Е, где Xi — удельные расходы на рекламу; Х2 — капитал фирмы; Хз - доля продукции фирмы в общем объеме продаж данной группы товаров по региону; Х4 - процент увеличения объема продаж фирмы по сравнению с предыдущим годом. Тогда независимо от того, что фактор jcj задан линейно, а фак- торы JC2, Хз, ^4 — в логарифмах, оценка тесноты связи может быть проведена с помощью линейного коэффициента множественной корреляции. Так, если рассматриваемая модель в стандартизо- ванном виде оказалась следующей: ty = - 0,4 • t,^ + 0,5 • t,^ + 0,4 • t,^ 4- 0,3 • t,^, a парные коэффициенты корреляции прибыли составили с каж- дым из ее факторов Гух, = - 0,6, Гу^,^ = 0,7, г,,^^з = 0,6, г,,^,^ = 0,4, то коэффициент множественной детерминации равен: ^^Л^4 = - 0,4 • (- 0,6) + 0,5 • 0,7 + 0,4 • 0,6 + 0,3 • 0,4 = 0,95. Тот же результат даст и индекс множественной детермина- ции, определенный через соотношение остаточной и общей дисперсии результативного признака. Иначе обстоит дело с криволинейной регрессией, нелиней- ной по оцениваемым параметрам. Предположим, что рассматри- вается производственная функция Кобба-Дугласа 141
где P — объем продукции; L — затраты труда; К — величина капитала; Логарифмируя ее, получим линейное в логарифмах урав- нение \nP=\na + bx'\nL + b2'\nK-\-\n е. Оценив параметры этого уравнения по МНК, можно найти теоретические значения объема продукции Р и соответственно остаточную сумму квадратов Y.{P — Р)^, которая используется в расчете индекса детерминации (корреляции): up-py Однако при этом нельзя забывать, что МНК применяется не к исходным данным продукции, а к их логарифмам. Поэтому в индексе корреляции с общей суммой квадратов Л(Р — Р)^ срав- нивается остаточная дисперсия, которая определена по теорети- ческим значениям логарифмов продукции: Ъ{Р -^ антилогарифм (In Р))^, т. е. когда по In Р путем потенцирования нашли Р, Индекс детерминации для нелинейных по оцениваемым па- раметрам функций в некоторых работах по эконометрике приня- то называть «квази-Л^». Для его определения по функциям, ис- пользующим логарифмические преобразования (степенная, экс- понента), необходимо сначала найти теоретические значения 1п>^ (в нашем примере \пР), затем трансформировать их через анти- логарифмы: антилогарифм (In д') = у, т. е. найти теоретические значения результативного признака и далее определять индекс, детерминации как «квази-Л'^», пользуясь формулой «квази-Л^» =1''^:^-^ ^ . (ЗЛО) КД'-У)' Величина индекса множественной корреляции, определен- ная как «квази-Л^», не будет совпадать с совокупным коэффици- 142
ентом корреляции, который может быть рассчитан для линейно- го в логарифмах уравнения множественной регрессии, потому что в последнем раскладывается на факторную и остаточную суммы квадратов не ЕСи — У)^, а Z(ln у — In у)^. Аналогичное по- ложение, когда индекс и коэффициент множественной корреля- ции не совпадают, имеем и для обратной функции: 1 У = ибо теоретическое значение результативного признака опре- деляется путем обращения расчетной величины —. В рассмотренных показателях множественной корреляции (индекс и коэффициент) используется остаточная дисперсия, ко- торая имеет систематическую ошибку в сторону преуменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объеме наблюдений п. Если число параметров при Xj равно т и приближается к объему на- блюдений, то остаточная дисперсия будет близка к нулю и коэф- фициент (индекс) корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допус- тить возможного преувеличения тесноты связи, применяется скорректированный индекс (коэффициент) множественной кор- реляции. Скорректированный индекс множественной корреляции со- держит поправку на число степеней свободы, а именно остаточ- ная сумма квадратов ЕСи -Ух^.-^с )^ делится на число степеней свободы остаточной вариации (л — m — 1), а общая сумма квадра- тов отклонений S(y —у) — на число степеней свободы в целом по совокупности (/7 - 1). Формула скорректированного индекса множественной детер- минации имеет вид: p^j иУ'У)''Лп-т-1)^ иУ-У)'Лп-1) ' <3.17) где п — число наблюдений; т - число параметров при переменных JC. 143
Поскольку ZCv —р) / Z(y —у) = I — R^, величину скорректи- рованного индекса детерминации можно представить в виде Чем больше величина т, тем сильнее различия R^nR^. Для примера 3.5 величина скорректированного коэффициен- та множественной корреляции составит: что также демонстрирует достаточно тесную связь рассматривае- мых признаков. Для линейной зависимости признаков скорректированный коэффициент множественной корреляции определяется по той же формуле, что и индекс множественной корреляции, т.е. как корень квадратный из R^. Отличие состоит лишь в том, что в ли- нейной зависимости под т подразумевается число факторов, включенных в рефессионную модель, а в криволинейной зави- симости т - число параметров при х и их преобразованиях (л^. In дс и др.), которое может быть больше числа факторов как эко- номических переменных. Так, если у =Дх1, ^2), то для линейной регрессии m = 2, а для рефессии вида у = а-\- Ь^- Xi + bi2' ^1^ +^2 * ^2 "•" *22 • ^2^ + е число параметров при х равно 4, т. е. m = 4. При заданном объеме наблюдений при прочих равных условиях с увеличением числа независимых переменных (параметров) скорректированный ко- эффициент множественной детерминации убывает. Его величина может стать и отрицательной при слабых связях результата с фак- торами. В этом случае он должен считаться равным нулю. При не- большом числе наблюдений нескорректированная величина ко- эффициента множественной детерминации R^ имеет тенденцию переоценивать долю вариации результативного признака, связан- ную с влиянием факторов, включенных в рефессионную модель. Пример 3.8. Предположим, что при п = 30 для линейного уравнения рефессии с четырьмя факторами R^ = 0,7, а с учетом корректировки на число степеней свободы 144
/{2=1-(1-0,7)~^^5—^ = 0,652. (30-4-1) Чем больше объем совокупности, по которой исчислена рег- рессия, тем меньше различаются показатели R^ и R^. Так, уже при п = 50 при том же значении R^ ит величина R^ составит 0,673. В статистических пакетах прикладных программ в процедуре множественной рефессии обычно приводится скорректирован- ный коэффициент (индекс) множественной корреляции (детер- минации). Величина коэффициента множественной детермина- ции используется для оценки качества регрессионной модели. Низкое значение коэффициента (индекса) множественной кор- реляции означает, что в регрессионную модель не включены су- щественные факторы, с одной стороны, а с другой стороны, рассматриваемая форма связи не отражает реальные соотноше- ния между переменными, включенными в модель. Требуются дальнейшие исследования по улучшению качества модели и уве- личению ее практической значимости. 3.7. ЧАСТНАЯ КОРРЕЛЯЦИЯ Как было показано выше, ранжирование факторов, участву- ющих в множественной линейной рефессии, может быть прове- дено через стандартизованные коэффициенты регрессии (Р-коэффициенты). Эту же цель можно достичь с помощью част- ных коэффициентов корреляции для линейных связей. При не- линейной взаимосвязи исследуемых признаков эту функцию вы- полняют частные индексы детерминации. Кроме того, частные показатели корреляции широко используются при отборе факто- ров: целесообразность включения того или иного фактора в мо- дель доказывается величиной показателя частной корреляции. Частные коэффициенты (или индексы) корреляции характери- зуют тесноту связи между результатом и соответствующим факто- ром при устранении влияния других факторов, включенных в уравнение рефессии. Показатели частной корреляции представляют собой отно- шение сокращения остаточной дисперсии за счет дополнитель- ного включения в анализ нового фактора к остаточной диспер- сии, имевшей место до введения его в модель. 10 ^-"' 145
Пример 3.9. Предположим, что зависимость объема продук- ции у от затрат труда дс; характеризуется уравнением P^j = 27,5 +3,5-xi; r^i = 0,58. Подставив в это уравнение фактические значения Xj, найдем теоретические величины объема продукции у^^^ и соответствую- щую величину остаточной дисперсии S\ Sn. - ;; • Включив в уравнение регрессии дополнительный фактор х-^ — техническую оснащенность производства, получим уравнение рефессии вида P^j^2 = 20,2 +2,8 •дс, +0,2-xj. Для этого уравнения остаточная дисперсия, естественно, меньше. Предположим, что ^ухххг ~ 3,7, а 5^^^^^ = 6. Чем большее число факторов включено в модель, тем меньше величина оста- точной дисперсии. Сокращение остаточной дисперсии за счет дополнительного включения фактора х^ составит: Чем больше доля этого сокращения в остаточной вариации до введения дополнительного фактора, т. е. в 5^^^^, тем теснее связь между y^^X1 при постоянном действии фактора дср Корень квад- ратный из этой величины и есть индекс частной корреляции, по- казывающий в «чистом» виде тесноту связи у с x-i. Следовательно, чистое влияние фактора Х2 на результат у можно найти как г fc2 _е2 yxyXi 1 ^ '2 • (3.19) Знак «точка» в выражении частного коэффициента корреля- ции г . означает элиминирование той переменной (перемен- ных), которая стоит после знака «точка». 146
Аналогично определяется и чистое влияние на результат у фактора Хр ^г^г'-у ^2 • (3.20) Если предположить, что S^y^^^ = 5, то частные показатели кор- реляции для уравнения у^^^^ = 20,2 + 2,8 • дс, + 0,2 • Xj составят: yXl'X2 ^ 5 Сравнивая полученные результаты, видим, что более сильное воздействие на объем продукции оказывает техническая осна- щенность предприятий. Если выразить остаточную дисперсию через показатель де- терминации iS^jjCT " ^^> (1 "~ '^)) то формула коэффициента част- ной корреляции примет вид: Соответственно = J1- l-R' 'УХ1Х2 (3.22) Рассмотренные показатели частной корреляции принято на- зывать коэффициентами (индексами) частной корреляции пер- вого порядка, ибо они фиксируют тесноту связи двух переменных при закреплении (элиминировании влияния) одного фактора. Если рассматривается рефессия с числом факторов/?, то воз- можны частные коэффициенты корреляции не только первого, но и второго, третьего, ..., (р - 1) порядка, т. е. влияние фактора ^1 можно оценить при разных условиях независимости действия других факторов: 10^ 147
r^j .^2 - при ПОСТОЯННОМ действии фактора Х2, ^ух\ 'Х2Х2" "Р^ ПОСТОЯННОМ дсйствии факторов Х2 и Хз; 0^1 JC2 X — при неизменном действии всех факторов, вклю- ченных в уравнение регрессии. Сопоставление коэффициентов частной корреляции разных порядков по мере увеличения числа включаемых факторов пока- зывает процесс «очищения» связи результативного признака с исследуемым фактором. Например, при изучении зависимости себестоимости добычи угля от объема добычи парный коэффициент корреляции оказал- ся равным —0,75, характеризуя довольно тесную обратную связь признаков. Частный коэффициент корреляции этой связи при постоянном влиянии уровня производительности труда соста- вил —0,58 и демонстрирует хотя и достаточную, но уже заметно менее тесную связь себестоимости и объема добычи. Закрепив на постоянном уровне также и размер основных фондов, теснота связи рассматриваемых признаков оказывается еще более низ- кой, т. е. —0,52. Хотя частная корреляция разных порядков и может представ- лять аналитический интерес, в практических исследованиях предпочтение отдают показателям частной корреляции самого высокого порядка, ибо именно эти показатели являются допол- нением к уравнению множественной регрессии. В общем виде при наличии р факторов для уравнения у = а + Ь^-Xi + Ь2-Х2-^ .^.-^ Ьр'Хр-^г коэффициент частной корреляции, измеряющий влияние на у фактора X, при неизменном уровне других факторов, можно оп- ределить по формуле ^ ^ух1'Х2...Х{...Хр ''yXi'XiX2...Xi^lXi^l...Xp ^|1 1 п2 ' (3.23) ^ ^yXiX2...Xi_iXi+l...Xp где ^yxyx2...xi...x " множественный коэффициент детерминации всего комплекса/? факторов с результатом; ^ух\ Х2 ...х/_1 Х/+1 ...X ~ тот же показатель детерминации, но без введения в модель фактора дс/. При / = 1 формула коэффициента частной корреляции при- мет вид: 148
_ I, ^ ^yxiX2...Xp ^ухуХ2...Хр - ^Р jy^2 • (3.24) УХ2--Хр Данный коэффициент частной корреляции позволяет изме- рить тесноту связи между у и .^i при неизменном уровне всех дру- гих факторов, включенных в уравнение регрессии. Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Напри- мер, r^^j. ^2 - коэффициент частной корреляции первого порядка. Соответственно коэффициенты парной корреляции называются коэффициентами нулевого порядка. Коэффициенты частной кор- реляции более высоких порядков можно найти через коэффициен- ты частной корреляции более низких порядков по рекуррентной формуле _^'yXi'X^X2...Xp.x ^^yXpXiX2...Xp_x '^XiXpX\X2...Xp_\ (3.25) '■^'•"'^•••''' ^тпт^ t^' г yVA 'уХрХхХ2...Хр.х' ^* 'х^Хр'ХхХ2...Хр.х^ При двух факторах и / = 1 данная формула примет вид: г —г -г ^ 0^1 '^УХг %Х2 Соответственно при / = 2 и двух факторах частный коэффици- ент корреляции у с фактором Х2 можно определить по формуле ^_Oz^r^VV^ (3.27) '"''"' p-r^M^-ix,)' Для уравнения регрессии с тремя факторами частные коэф- фициенты корреляции второго порядка определяются на основе частных коэффициентов корреляции первого порядка. Так, по уравнению у = а + bi*Xi + Ь2'Х2 + Ь^'Х^-^г можно исчислить три частных коэффициента корреляции второ- го порядка: ^уху Х2Х29 ^УХ2'Х\Х2^ ''уху х\Х2^ 149
каждый из которых определяется по рекуррентной формуле. Например, при / = 1 имеем формулу для расчета Гу^ух2Х2^ ^ именно 'ЩХ2Х2 _ ^yX^'Xi ^yXyXj ' ^Х^ХуХ2 (3.28) Пример 3.10. Предположим, изучается зависимость тиража газеты у от ожидаемого дохода от распродажи газеты Xj, количе- ства персонала редакции ^2, рейтинга газеты среди других газет, распространяемых в регионе Хз- В этом случае матрица парных коэффициентов корреляции составила: . 1 г,,, =0,69 1 '>.,=0,58 v^=0,46 1 г^^=0,55 г^,;сз=0>50 г^^;сз=М1 Исходя из этих данных найдем частные коэффициенты корре- ляции первого и второго порядка. Приведем частные коэффициенты корреляции первого порядка зависимости уотх^и Х2: УХ\ г —г -г 0,69-0,58 0,46 "' ^(1-/'^)-(1-г,2^,) ^(1-0,582).(1-0,4б2) = 0,585, т. е. при закреплении фактора Х2 на постоянном уровне корреля- ция д' и факторах, оказывается более низкой (0,585 против 0,69); 'ухгхх _ ^УХ2 Vi '''х^Х2 _ 0,58-0,69 0,46 ^(1-гД).(1-г,^^,) V(l-0>692)(l-0,462) = 0,409, т. е. при закреплении фактора Xj на постоянном уровне влияние фактораХ2 над' оказывается менее сильным (0,409 против 0,58); 'У^х г —г -г 0,69-0,55 0,50 " ^(1-/-^)(1-г^^„) ^(1-0,55^)(1-0,502) = 0,574. 150
т. е. при закреплении фактора х^ на постоянном уровне влияние фактораXj над' несколько снизилось по сравнению с парной кор- реляцией (0,574 против 0,69) ввиду некоторой связи факторов х^ ихз; , _ ^ух2'''ух,'^х,х, 0,58-0,550,41 р-г^^^УЦ-г^,^) V(l-0,552).(l-0,4l2) т. е. при закреплении фактора х^ на постоянном уровне влияние фактора Х2 на j^ оказалось несколько менее сильным (0,465 против 0,58); ^ _ 0^3 ^^1 У. _ 0,55-0,690,50 ^,,, '''"' ^(1-/-Д)(1-г4) Va-0,692).(l-0,502) т. е. корреляция фактора х^ с у снизилась при фиксированном влиянии на д' фактора jcj (0,55 и 0,327); г^. -г^, г.... 0,55-0,58-0,41 'yXyi _ УХ^ yXi ДС3ДС2 _ VW>^ v/,^ov,-ri _П/10А 'vjctjci "~ / :: / Г ::— ~Vj^r-^-v, '"' p-r^M^-r^,^) Va-0,582)(l-0,4l2) т. е. при закреплении фактора ^2 на постоянном уровне влияние фактора Хз на д^ оказалось менее значительным (0,420 и 0,55). Приведем частные коэффициенты корреляции второго по- рядка: ^yXiXjXy ^ ^ух.х.-^ухух.'^х.хух, ^ 0,585-0,4200,385 ^^^^^^ ^|(l'r'^yxM^-ixyx,) yl(l-0A20'y(l-3S5') При фиксированном влиянии факторов Х2 и х^ корреляция у с JCj оказалась еще меньше, чем при частной корреляции первого порядка (при закреплении фактора Х2): 0,69; 0,585 и 0,505: ^ Гухух,-^ухухГ''х2Хух, _ 0,409-0,327-0,234 ^.^^ ""'''''"V(l-^^3x.)-(l-''w.) д/(1-0,3272).(1-2342)" ' Корреляция фактора ^2 с д' снизилась до 0,409 при элимини- ровании фактора Xi и до 0,362 при элиминировании двух факто- ров - Xj и Хз: 151
_ '■^ухг''ухгхг''хгхух, _ 0,327-0,409 0,234 ^^^, 'wcvXiJc, - I ; z I z —-u,ZDi. V(l-'-^x,)(l-'-4.,x,) p-0,m'){l-234') 'yxyXiXj Корреляция у с X2 снизилась с 0,55 в парной рефессии до 0,327 при закреплении на постоянном уровне фактора х^ и до 0,261 при одновременном закреплении на постоянном уровне факторов jcj и JC2. Частные коэффициенты корреляции второго порядка для связей у с факторами Xi, ^2 и х^ оказались значитель- но более низкими: 0,505; 0,362 и 0,261 против 0,69; 0,58 и 0,55 для парной рефессии. Рассчитанные по рекуррентной формуле частные коэффици- енты корреляции изменяются в пределах от —1 до +1, а по фор- мулам через множественные коэффициенты детерминации — от О до 1. Сравнение их друг с другом позволяет ранжировать факто- ры по тесноте их связи с результатом. Частные коэффициенты корреляции, подтверждая ранжировку факторов по их воздейст- вию на результат, на основе стандартизованных коэффициентов рефессии (Р-коэффициентов) в отличие от последних дают кон- кретную меру тесноты связи каждого фактора с результатом в чистом виде. Если из стандартизованного уравнения рефессии ^ = Рх1 • ^Х1 + Рх2 • ^Х2 -^ Р;сз • ^хз следует, что p^j > р^2 > Рхз' т. е. по си- ле влияния на результат порядок факторов таков: Xj, Х2, Х3, то этот же порядок факторов определяется и по соотношению частных коэффициентов корреляции: г,^^. > Гу^^^хз > ^ухз-х^' В рассмотренном примере 3.5 было получено уравнение рег- рессии в стандартизованном масштабе: ty = 0,639/jci + 0,355/^^2- Частные коэффициенты корреляции составят: ^ ''ух1-'ух2''х,х2 ^ 0,9686-0,94810,9278 ^^ ^^^g. '^'"' ^jil-r^yx2W-r\,,) VO-0,94812)0-0,92782) ^ ^ух2'^ух/х,х2 _ 0,9481-0,9686 0,9278 _^^^^^ '^'"' у1(^-г^ух,)(1-г\х2) V(1-0>96862)(1-0,9278 2) Полученные частные коэффициенты корреляции подтверж- дают ту же ранжировку факторов по силе их воздействия на результат, что и р-коэффициенты: p^^j > р^^2 ^ соответственно Гу . > fyx^'x^^ т.е. фактор х^ оказывает более сильное влияние на у по сравнению с Х2. 152
Согласованность частной корреляции и стандартизованных коэффициентов рефессии наиболее отчетливо видна из сопос- тавления их формул при двухфакторном анализе. Для уравнения регрессии в стандартизованном масштабе ty = р^^^ • t^^ + р^^ * ^х2 Р-коэффициенты могут быть определены по формулам, получен- ным из решения системы нормальных уравнений: А* —Г -Г 1 —г _ 'yXj 'УХ^ 'Х^Х2 Р ^j^ у. 1-г (3.29) 2 Х\Хг Сравнивая их с рекуррентными формулами расчета частных коэффициентов корреляции ry^^^^i ^ ^yxixx^ можно видеть, что fyx,xj - Рх, 'J, 2^' ''ухгх^ - Рх2 'л\ ,У • (3.30) Иными словами, в двухфакторном анализе частные коэффи- циенты корреляции - это стандартизованные коэффициенты ре- фессии, умноженные на корень квадратный из соотношения до- лей остаточных дисперсий фиксируемого фактора на фактор и на результат. В примере 3.5, используя формулы (3.30), получим значения частных коэффициентов корреляции: 'i.r.2=0'639 1^^1^^=0,749; ^' ' Vl-0.94812 1-0,9278^ 'Vxrx, =0,355.r ^'^^'\ =0,5327 (некоторое несовпадение результатов связано с округлением дан- ных по р-коэффициентам). В эконометрике частные коэффициенты корреляции обычно не имеют самостоятельного значения. В основном их используют на стадии формирования модели, в частности в процедуре отсева факторов. Так, при построении многофакторной модели, напри- мер, методбм исключения переменных на первом шаге опреде- 153
ляется уравнение регрессии с полным набором факторов и рас- считывается матрица частных коэффициентов корреляции. На втором шаге отбирается фактор с наименьшей и несущественной по /-критерию Стьюдента величиной показателя частной корре- ляции. Исключив его из модели, строят новое уравнение регрес- сии. Процедура продолжается до тех пор, пока не окажется, что все частные коэффициенты корреляции существенно отличают- ся от нуля. Если исключен несущественный фактор, то множест- венные коэффициенты детерминации на двух смежных шагах построения регрессионной модели почти не отличаются друг от друга, т. е. Л ^ + i« Л^р, где р - число факторов. Из формул частных коэффициентов корреляции видна связь этих показателей с совокупным коэффициентом корреляции. Зная частные коэффициенты корреляции (последовательно пер- вого, второго и более высокого порядка), можно определить со- вокупный коэффициент корреляции по формуле •••(1-''м,-.,х2 ....,-,))"'• (3-31) При полной зависимости результативного признака от иссле- дуемых факторов коэффициент совокупного влияния их равен единице. Из единицы вычитается доля остаточной вариации ре- зультативного признака (1 — /^), обусловленная последовательно включенными в анализ факторами. В результате подкоренное выражение характеризует совокупное действие всех исследуемых факторов. В рассмотренном примере с тремя факторами величина ко- эффициента множественной корреляции составила: Л,.^..2.-з = (^ "(^ - ^'^9'> • ^1 " ^'"^^^^^ • ^^ - 0'261'))^/2 = 0,770. Величина коэффициента множественной корреляции всегда больше (или равна) максимального частного коэффициента кор- реляции, что имеет место в нашем примере: 0,770 по сравнению с 0,505. Для уравнения регрессии прибыли у = - 4,874 4- 0,585xi -I- + 0,240^2 + Е данный подход расчета коэффициента множествен- ной корреляции приведет к следующей его величине: R = Vl - (1 - 0,968б2)(1 - 0,5329 ^) = 0,978, т.е. получен тот же результат, что и ранее. 154
3.8. ОЦЕНКА НАДЕЖНОСТИ РЕЗУЛЬТАТОВ МНОЖЕСТВЕННОЙ РЕГРЕССИИ и КОРРЕЛЯЦИИ Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью /'-кри- терия Фишера: ._Дфа.сг_ R^ ^ост l-R^ п-т-\ т (3.32) где /)факт — факторная сумма квадратов на одну степень свободы; R — коэффициент (индекс) множественной детерминации; п — число наблюдений; т - число параметров при переменных х (в линейной регрессии совпадает с числом включенных в модель факторов); /)ост - остаточная сумма квадратов на одну степень свободы. Пример 3.11. Предположим, что модель урожайности пше- ницы у (ц/га) от количества внесенных минеральных удобрений на 1 га Xi (ц) и осадков Xj (мм) характеризуется следующим урав- нением: у = -120 + 0,2 • Xi - 0,008 • х,^ + 0,8 • Xj - 0,001 • Xj^ + е. При этом Оу = 2, А/ = 30, Л = 0,85. Результаты дисперсионного анализа оказываются следующими (табл. 3.3). Таблица 3.3 Результаты дисперсионного анализа Источники вариации За счет рег- рессии Остаточная Общая Число степеней свободы 4 25 29 Сумма квадратов, SS 86,7 33,3 120,0 Дисперсия на одну сте- пень свобо- ды, D 21,675 1,332 фа1а 16,27 1,00 табл (0,05) 2,76 155
5'5общ = «-<^^ = 30-4=120; ^^Фа,сг = ^^общ • л' = 120 • 0,85^ = 86,7; ^^ост = ^^общ • (1 - Л^) = ^^общ - ^^фа,сг = 120 - 86,7 = 33,3. Поскольку фактическое значение F-критерия при а = 0,05 превышает табличное, то уравнение статистически значимо. Этот же результат получим, воспользовавшись приведенной ра- нее формулой /^-критерия: 1-0,85^ 4 Оценивается значимость не только уравнения в целом, но и фактора, дополнительно включенного в рефессионную модель. Необходимость такой оценки связана с тем, что не каждый фак- тор, вошедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть раз- ной в зависимости от последовательности введения его в модель. Мерой для оценки включения фактора в модель служит частный F-критерий, т. е. /^.. Частный /'-критерий построен на сравнении прироста фак- торной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по рефессионной модели в целом. Предположим, что оцениваем значимость влияния Xj как дополнительно включен- ного в модель фактора. Используем следующую формулу: ^'' ^ 1-л^, , Г~' (3.33) yXiX2...Xp где R^yx^x2.,jc "~ коэффициент множественной детерминации для модели с полным набором факторов; ^ух2..л - тот же показатель, но без включения в модель фактора jCi; п — число наблюдений; т - число параметров в модели (без свободного члена). 156
Если оцениваем значимость влияния фактора Хр после вклю- чения в модель факторов Xj, Х2,.., Xp_i, то формула частного F-критерия примет вид: р _ ^yxiX2...Xp ^yXiX2...Xp_i n-m-i '^~ 1-^2 • 1 • (3.34) * ^yXiX2...Xp В общем виде для фактора х^ частный /'-критерий определит- ся как „ _ ^yxi...x,...Xp ^yXi...x,_iXi^^...Xp n-m-i ^-RIx,...x,...x, 1 (3.35) В числителе формул (3.33) - (3.35) показан прирост доли объ- ясненной вариации у за счет дополнительного включения в мо- дель соответствующего фактора: ^ уххх2..хр"" ^ ух2..хр "• за счет Xi\ ^ уххх2..хр "" ^ ух1Х1...хр_х "" за счетх^; ^yxy.jci^.jcp - ^ yxy.jci_ixi+i..jcp - за счетху, в знаменателе — доля остаточной вариации по рефессионной мо- дели, включающей полный набор факторов. Если числитель и знаменатель F^. умножить на ЕСи - J)^ или на п • с^у, получим отношение прироста факторной (объясненной) суммы квадратов отклонений к остаточной сумме квадратов. Для того чтобы получить величину /'-критерия, необходимо эти суммы квадра- тов отклонений разделить на соответствующее число степеней свободы. Поскольку прирост факторной суммы квадратов откло- нений обусловлен дополнительным включением в модель одного исследуемого фактора (например, х^ или Хр), то число степеней свободы для него равно: df = 1. Для остаточной суммы квадратов отклонений по рефессионной модели число степеней свободы, как уже было рассмотрено ранее, равно: df2 = п — т— I. Соотно- шение числа степеней свободы приведено в формуле частного /'-критерия в виде дроби: HzHlZ^, Фактическое значение частного /'-критерия сравнивается с табличным при 5%-ном или 1%-ном уровне значимости и числе степеней свободы: 1 и л - /w - 1. Если фактическое значение F^. превышает /^дбл (ot, #1, df^), то дополнительное включение фак- 157
тора Xi в модель статистически оправданно и коэффициент чис- той рефессии Ь^ при факторе jC/ статистически значим. Если же фактическое значение F^. меньше табличного, то дополнитель- ное включение в модель фактора х, не увеличивает существенно долю объясненной вариации признака у, следовательно, нецеле- сообразно включать его в модель; коэффициент рефессии при данном факторе в этом случае статистически незначим. С помощью частного /"-критерия можно проверить значи- мость всех коэффициентов рефессии в предположении, что каж- дый соответствующий фактор х, был введен в уравнение множе- ственной рефессии последним. Пример 3.12. Применим частный /"-критерий для оценки значимости коэффициентов рефессии в уравнении множествен- ной рефессии, описывающей зависимость объема продукции у от затрат фуда jcj и технической оснащенности производства Х2: У = 20,2 + 2,8 • JCi + 0,2 • Х2 + 8. Частный /"-критерий для фактора х^ определим по формуле В Примере 3.9 Ryx^x2 ^ 0''^^^' ^т "^ ^'^^^' л = 30, /и = 2. Соот- ветственно имеем: 0,767^-0,667^^^ '' 1-0,767^ Табличное значение /"-критерия при 5%-ном уровне значи- мости для числа степеней свободы 1 и 27 равно 4,21. Следователь- но, включение в модель фактора х, после фактора Х2 статистиче- ски оправданно - доля объясненной вариации возросла на 14,3 проц. пункта (0,767^ - 0,667^) • 100. Частный /"-критерий для фак- тора Х2 определим как ^2 1 d2 158
в примере 3.10 г^ = 0,58. Соответственно получим значение ^;с2 (табл. 3.4). ^ Таблица 3.4 Дисперсионный анализ для оценки существенности фактора Xj Источники вариации Общая Регрессия Обуслов- ленная Xi Обуслов- ленная Х2 при данном Остаточная Число степеней свободы 29 2 1 1 27 Сумма квадратов, SS 270 158,8 90,8 68 111,2 Дисперсия на одну сте- пень свобо- ды, Z) 79,4 90,8 68 4,118 ^факт 19,3 22,0 16,5 ^табл (0,05) 3,35 4,21 4,21 0,767^-0,58\ ^ 1-0,767^ Фактическое значение F^^ больше табличного, и, следова- тельно, включение в модель фактора ^2 после введения в нее фак- тора Xi весьма значимо — доля объясненной вариации возросла на 25,2 проц. пункта (58,8-33,6 %). Коэффициент регрессии в модели статистически значим. Значения частных F-критериев получаются в результате дис- персионного анализа. Применительно к нашему примеру результаты дисперсионного анализа представлены в табл. 3.4. В табл. 3.4 приведены три значения /'-критерия. В первой строке показан общий F-критерий. Он составил 19,3 и характери- зует значимость двухфакторного уравнения регрессии в целом. Вторая величина /^= 22,0 характеризует значимость парной рег- рессии у = а -^ b - Xi при условии, что остаточная дисперсия сов- падает с величиной остаточной дисперсии для множественной рефессии. Влияние фактора Xi статистически значимо, так как F= 22,0 больше F^qj^ = 4,21. Третье значение F= 16,5 - это част- 159
ный /'-критерий, оценивающий значимость дополнительного включения в модель фактора Xi после введения в нее фактора Xj. Его величина совпадает с ранее рассчитанной по формуле част- ного F-критерия Fj^^, Табл. 3.4 отличается от таблиц результатов дисперсионного анализа, рассмотренных ранее (см., например, табл.3.1). В ней источник вариации «Регрессия» раскладывается на две составля- ющие: 1) обусловленная влиянием фактора Xj; 2) обусловленная дополнительным включением в регрессионную модель фактора Х2. Соответственно в нашем примере число степеней свободы за счет регрессии, равное 2, также раскладывается на число степе- ней свободы для каждого фактора, т. е. 1 для фактора х^ и 1 для фактора X2. Сумма квадратов за счет рефессии 5:(Рх,х2 - yf = R\xm • ^(У - yf = 0^7672 • 270 = 158,8 соответственно распадается на две суммы. Сумма квадратов, обусловленная включением в модель фактора Ху, определяется в предположении, что построено лишь парное уравнение регрес- сии у = а -^ b • Xi. Эта величина может быть рассчитана как г^ • Т1у-У)^, что применительно к нашим данным составит 90,8 (0,58 • 270). Сумму квадратов, обусловленную дополнительным включением фактора ^2, после того как в модель включен фактор Xj, найдем как разность суммы квадратов за счет регрессии по двум факторам и за счет регрессии только фактора Xj. Эта величи- на составит 68 (158,8 - 90,8). Далее по известным уже формулам определяются значения дисперсии на одну степень свободы и F-критерий. Для того чтобы получить частный /'-критерий для фактора Xj, необходимо рассмотреть другую таблицу дисперсионного анали- за, в которой оценивается дополнительный вклад факторах!, по- сле включения в модель фактора Х2 (табл. 3.5). Частный /'-критерий для фактора Xj составил, как и ранее, 9,4. Если величина частного /'-критерия оказывается меньше табличного значения, то дополнительное включение в модель то- го или иного фактора нецелесообразно. Частный /'-критерий оценивает значимость коэффициентов чистой рефессии. Зная величину /^., можно определить и /-кри- терий для коэффициента рефессии при /-м факторе, /^,., а именно %=^[^^ (3.36) 160
Таблица 3.5 Дисперсионный анализ для оценки существенности фактора ДС| Источник вариации Общая Рефессия Обусловлен- ная Х2 Обусловлен- ная Xj при дан- ном ^2 Остаточная Число степеней свободы 29 2 1 1 27 Сумма квадратов, SS 270 158,8 120,1 38,7 111,2 Дисперсия на одну степень свободы, D - 79,4 120,1 38,7 4,118 ^-критерий - 19,3 29,2 9,4 1 В рассматриваемой модели /-критерий для коэффициентов чистой рефессии составит: /^^ =-Д4= 3,065 и tf^ =^16,5 =4,06, что больше /т^бл ~ 2,05, и подтверждает статистическую значимость включенных в модель факторов. Если уравнение содержит больше двух факторов, то соответствующий ППП дает таблицу дисперсионного анализа, показывая значимость последовательного добавления к уравне- нию рефессии соответствующего фактора. Так, если рассматри- вается уравнение у = а + bi' Xi -^ Ь2' Х2 -^ Ь2' Х2 + г, то определяются последовательно F-критерий для уравнения с од- ним фактором Xi, далее F-критерий для дополнительного включе- ния в модель фактора Х2, т. е. для перехода от однофакторного уравнения рефессии к двухфакторному, и, наконец, /'-критерий для дополнительного включения в модель фактора х^, т. е. дается оценка значимости фактора х^ после включения в модель факто- ров Xj и JC2. В этом случае /'-критерий для дополнительного вклю- чения фактора ДС2 после х^ является последовательным в отличие от /-критерия для дополнительного включения в модель фактора Хз, который является частным /^-критерием, ибо оценивает значи- мость фактора в предположении, что он включен в модель по- следним. С /-критерием Стьюдента связан именно частный -3291 161
F-критерий. Последовательный /'-критерий может интересовать исследователя на стадии формирования модели. Оценка значимости коэффициентов чистой регрессии по /-критерию Стьюдента может быть проведена и без расчета част- ных F-критериев. В этом случае, как и в парной рефессии, для каждого фактора используется формула / --А- где hi - коэффициент чистой регрессии при факторе х,; Щ^ - средняя квадратическая ошибка коэффициента рефессии Ь^. Для уравнения множественной рефессии y = a + b^x^ + b2'X2 + ..,bp-Xp средняя квадратическая ошибка коэффициента рефессии может быть определена по следующей формуле: "^'^ = /. .2 ^-ХГ^ГТ' (3.38) ^Xi -^^ ^X,Xi...Xp где Gy - среднее квадратическое отклонение для признака д'; ^Vi-.jc ~ коэффициент детерминации для уравнения множественной рефессии; G^ - среднее квадратическое отклонение для признака х^; f^xpc\.,jx ■" коэффициент детерминации для зависимости фактора дс, со всеми другими факторами уравнения множественной рефессии; п — т—\— число степеней свободы для остаточной суммы квадратов отклонений. Как видим, для того чтобы воспользоваться данной форму- лой, необходимы матрица межфакторной корреляции и расчет по ней соответствующих коэффициентов детерминации 1^^^ ^^^ .^ . Так, для уравнения у = а + Л] • Xj + ^2 • ^2 + ^3 ' -^3 "^ ^ оценка значимости коэффициентов рефессии Ь^, bi, b^ предпола- гает расчет трех межфакторных коэффициентов детерминации, а именно R xyxixy ^ Х2Х\ху ^ ху х\Х2' Вместе с тем, если учесть, что 162
Jd2 r^l 1-Лх,„...х, ' (3.39) TO можно убедиться, что rrii. (3.40) Ha основе соотношения Ь^ит^,. получим: p2 _ d2 ■•^Vr. Y -^^VY. r. .r. . Y / I ^ ^yxi...Xp \^^yXi...Xp '^yXi...Xi.iXM...X^ >2 Продемонстрируем это соотношение на примере двухфактор- ного уравнения регрессии р = а + Z>j • Xj + Z>2 • ^2- Ранее было по- казано, что коэффициенты рефессии Ь^ могут быть определены как где р, - стандартизованный коэффициент рефессии. В свою очередь, для двухфакторного уравнения рефессии о _Vl ^yX2'''xiX2 •^l" ] 2 X\X2 Соответственно параметр b^ определится как . _^yXi ^yX2'''xiX2 ^y i-^xx ^x/ ДС1ДС2 xi If 163
Данное выражение тождественно расчету параметра bi исходя из приведенной формулы 6„ а именно 1-л XiX2 Иными словами, имеем тождество Vl ^yXi '^XjXj _ l^yXiXj ^yX2 1-Л ДС,ДС2 X^Xi Справедливость данного равенства легко доказывается, если выразить Л^^^^^^'^ерез парные коэффициенты корреляции: >^1^2 'Щ ^'УХ2 ^ 'УХ^ 'УХ2 'Х^Х2 1-П Х\Х2 Тогда имеем: / 2 2 l-r. -л >^2 Х,Х2 :0-'-4) = - f^O^Jfl ^yX2'''xiX2^ _ Vi ^УХ2'^Х^Х2 'X,X2/ ^ VX,X2 a-':^x,)' Следовательно, / =A. = ^ /Wa 'jci |-^J>XiX2 ^yX2 , ^y 1-Л >^|J^2 1-гЗ^ yin-m-l •XiX2 _ l^yXiX2 ''yX2 •yln-m-l=^. При представлении результатов множественной регрессии наряду с уравнением множественной регрессии и скорректиро- ванным коэффициентом множественной корреляции или детер- минации принято приводить значения /^^. 164
Пример 3.13. При зависимости объема продукции у от за- трат труда Xj и технической оснащенности х-^ результаты регрес- сии оказались следующими: у = 20,2 + 20,8 • Xj + 0,2 • Х2 + е; /,, = 3,1;/^ = 4,1; Л =0,747. Практически если фактические значения г^,^ > 3, то совершенно ясно, что значение коэффициента регрессии статистически досто- верно. Уравнение может быть использовано для прогнозирования. Величина F-критерия, оценивая значимость уравнения рег- рессии в целом, характеризует одновременно и значимость ко- эффициента (индекса) множественной корреляции. Вместе с тем оценку существенности коэффициента множественной корреляции можно дать и через сравнение скорректированного коэффициента корреляции с его табличным значением при со- ответствующем уровне вероятности и числе степеней свободы п - AW — 1. Так, при /2 = 30 и m = 2 фактическое значение R долж- но превышать 0,368 при 5 %-ном уровне значимости, чтобы можно было считать его значение отличным от нуля с вероятно- стью 0,95. Аналогично можно оценивать и существенность частных по- казателей корреляции. Фактическое значение частного коэффи- циента корреляции сравнивается с табличным значением при а = 0,05 или а = 0,01 и числе степеней свободы Л: = /i — Л — 2, где п — число наблюдений, Л — число исключенных переменных. Так, если л = 30 и оценивается существенность частного коэффици- ента корреляции второго порядка (например, Гу^^ ^2x3)» то Л = 2 и А: = 26. Если h является наивысшим порядком расчета частных коэф- фициентов корреляции для уравнения регрессии, то величина к практически совпадает с числом степеней свободы для остаточ- ной вариации сп-т- I. Например, в уравнении у = а + Ь^-х^-^ ^2 • -^2 "^ *з ^ X Хз + 8, рассчитанном при л = 30, /1 - m — 1 = 26. Если же уравнение рефессии дополняется расчетом частных ко- эффициентов корреляции разных порядков (второго, третьего и т. п.), то А: = л-А-2. 165
Если величина частного /"-критерия выше табличного значе- ния, то это означает одновременно не только значимость рассма- триваемого коэффициента рефессии, но и значимость частного коэффициента корреляции. Существует взаимосвязь между ква- дратом частного коэффициента корреляции и частным /"-крите- рием, а именно ^vxx X X X >-^1--^м^/..--^. .(^_^_i)^jr (3.41) ^-^ух,...х^ где г^у^^. х!.. jcy_i xj+i X " частный коэффициент детерминации фактора х, ^ с;'при неизменном уровне всех других факторов; 1 — ^^yxL.jc ,х/+| ...X ~ доля остаточной вариации уравнения регрессии, ^ yxi..JCj_iXi+i...Xp а ух\ ...Хр включающего все факторы, кроме фактора xf, доля остаточной вариации для уравнения регрес- сии с полным набором факторов. Для рассматриваемой рефессии (пример 3.11) у = 20,2 + 20,8 • Xi + 0,2 • Х2 + е; г^^.,2 = 0,51; г^2 = 0,667; Л,,^,^ = «'^б?. Тогда: 2.Ь:М67^.(30-2-1) = 9,4, 1-0,7672 ЧТО соответствует ранее определенной величине F^^^, Взаимосвязь показателей частного коэффициента корреля- ции, частного F-критерия и /-критерия Стьюдента для коэффи- циентов чистой рефессии может использоваться в процедуре от- бора факторов. Отбор факторов при построении уравнения рег- рессии методом исключения практически можно осуществлять не только по частным коэффициентам корреляции, исключая на каждом шаге фактор с наименьшим незначимым значением част- ного коэффициента корреляции, но и по величинам /^,. и F^^., Частный F-критерий широко используется и при построении мо- дели методом включения переменных и шаговым рефессионным методом*. * Подробнее о разных методах построения уравнения множественной регрессии см.: Дрейпер Н., Смит Г. Прикладной рефессионный анализ, с. 172-225. 166
3.9. ФИКТИВНЫЕ ПЕРЕМЕННЫЕ во МНОЖЕСТВЕННОЙ РЕГРЕССИИ До СИХ пор В качестве факторов рассматривались экономиче- ские переменные, принимающие количественные значения в не- котором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качествен- ных уровней. Это могут быть разного рода атрибутивные призна- ки, такие, например, как профессия, пол, образование, климати- ческие условия, принадлежность к определенному региону. Для того чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т. е. каче- ственные переменные необходимо преобразовать в количествен- ные. Такого вида сконструированные переменные в эконометри- ке принято называть фиктивными переменными. В отечественной литературе можно встретить термин «структурные переменные»*. Качественные признаки могут приводить к неоднородности исследуемой совокупности, что может быть учтено при модели- ровании двумя путями: • регрессия строится для каждой качественно отличной фуп- пы единиц совокупности, т.е. для каждой группы в отдельности, чтобы преодолеть неоднородность единиц общей совокупности; • общая регрессионная модель строится для совокупности в целом, учитывающей неоднородность данных. В этом случае в регрессионную модель вводятся фиктивные переменные, т.е. строится регрессионная модель с переменной структурой, отра- жающей неоднородность данных. Рассмотрим применение фиктивных переменных для функ- ции спроса. Предположим, что по фуппе лиц мужского и жен- ского пола изучается линейная зависимость потребления кофе у от цены X. В общем виде для совокупности обследуемых уравне- ние рефессии имеет вид: у = а + Ь'Х + Е. *См., например: Ерина A.M. Математико-статистические методы изу- чения экономической эффективности производства. — М.: Финансы и ста- тистика, 1983. 167
Аналогичные уравнения могут быть найдены отдельно для лиц мужского пола: у^ = а^ + bi - Xi -^ Zi и женского пола: J^2 = ^2 "•" *2 * ^2 "^ 82- Различия в потреблении кофе проявятся в различии средних У\иУ2. Вместе с тем сила влияния х на >^ может быть одинако- вой, т. е. 6 » ^1 « б2- ^ ^том случае возможно построение общего уравнения регрессии с включением в него фактора «пол» в виде фиктивной переменной. Объединив уравнения yi и У2 и введя фиктивные переменные, придем к следующему выражению: y = ai- Zy + a2-Z2-^ Ь-х-^г, где Zi и ^2 — фиктивные переменные, принимающие значения: ^1 = ] 1 — мужской пол . о - женский пол ' 0 — мужской пол 1 — женский пол * В общем уравнении регрессии зависимая переменная у рас- сматривается как функция не только цены х, но и пола (z\, 12)- Переменная z рассматривается как дихотомическая переменная, принимающая всего два значения: 1 и 0. При этом когда Z\ = 1, то ^2 = О и, наоборот, при Zi = О переменная ^2 = 1. Для лиц мужского пола, когда Zi = 1 и ^2 = О, объединенное уравнение рефессии составит: у = а^-^ b • х, а для лиц женского пола, когда Zi = О и ^2 ^ 1 i' ^ ^2 "^ *' ^- Иными словами, различия в потреблении для лиц мужского и женского пола вызваны раз- личиями свободных членов уравнения регрессии: а^ ф ^2- Пара- метр b является общим для всей совокупности лиц как для муж- чин, так и для женщин. Следует иметь в виду, что при введении фиктивных перемен- ных Zi и ^2 в модель у = t^i • Zi + ^2' ^2 "^ ^ * ^ "^ ^ применение МНК для оценивания параметров a^^ и ^2 приведет к вырожденной мат- рице исходных данных, а следовательно, и к невозможности по- лучения их оценок. Объясняется это тем, что при использовании МНК в данном уравнении появляется свободный член, т. е. урав- нение примет вид у = а^- Z\-^ (12' Z2'^ Ь- х-^ К. Предполагая при параметре А независимую переменную, рав- ную 1, имеем матрицу исходных данных: 168
1 1 о Xi 1 1 О Х2 1 о 1 хз 1 1 о Х4 1 о 1 X. в рассматриваемой матрице существует линейная зависи- мость между первым, вторым и третьим столбцами: первый равен сумме второго и третьего столбцов. Поэтому матрица исходных факторов вырождена. Выходом из создавшегося затруднения мо- жет явиться переход к уравнению или y = A + A2-Z2'^b-x + Sy т. е. каждое уравнение включает только одну фиктивную пере- менную Zi или Z2- Предположим, что определено уравнение у = А + Aj • ^1 + й • X + 8, где Zi - принимает значения 1 для мужчин и О для женщин. Теоретические значения уровня потребления кофе для муж- чин будут получены из уравнения >) = A + Ai + 6-x. Для женщин соответствующие значения получим из уравнения у = А + Ь'Х. Сопоставив эти значения, видим, что различия в уровне по- требления мужчин и женщин состоят в различии свободных чле- нов данных уравнений: А — для женщин и А + Aj - для мужчин. Пример 3.14. Проанализируем с использованием фиктив- ных переменных зависимость урожайности пшеницы у от вида вспашки Z и количества внесенного органического удобрения х. 169
По 25 наблюдениям уравнение парной рефессии (без учета вида вспашки) составило: р = 11,463 +0,326-х; F= 8,7; /д = 11,9; /, = 2,95; г,^ = 0,5246. Для его расчета использовалась следующая система нормаль- ных уравнений: ' 25а+ 192.й = 349,1, [192а + 1914.й = 2824,2. Уравнение рефессии статистически значимо - /% /^„ Гу^ пре- вышают табличные значения (на 5 %-ном уровне значимости и числе степеней свободы 23 F = 4,28; /^, = 2,069; г^ = 0,398; на 1 %-ном уровне значимости F= 7,88; tf, = 2,807; Гу^ = 0,507). По виду вспашки поля характеризовались двумя категория- ми: зяблевая и весенняя. Вид вспашки не влияет на количество внесенных удобрений, но обусловливает различия в урожайнос- ти. Для того чтобы убедиться в этом, введем в уравнение рефес- сии фиктивную переменную z для отражения эффекта вида вспашки, а именно z = 1 для зяблевой вспашки и z = О для весен- ней вспашки. Уравнение рефессии примет вид: y = a + b-x + cz'^s. Используя метод наименьших квадратов для оценки парамет- ров данного уравнения, получим следующую систему нормаль- ных уравнений: Y.y = n-a + b-Y,x+c-Y,z, Ввиду того, что Z принимает лишь два значения (1 и 0), Хг = «1 (число полей с зяблевой вспашкой), Zx • z = Zxj (количе- ство внесенных удобрений на полях с зяблевой вспашкой), Zz^ = Zz = Л], Zy * г = Zvi (сумма j^ по полям зяблевой вспашки). 170
в рассматриваемом примере вся совокупность из 25 единиц разделена на две подфуппы: с зяблевой вспашкой — 13 полей и с весенней — 12 полей, т. е. л, = 13 и «2 = 12. Соответственно делению на эти две фуппы имеем: Ix = Zxi +1x2 = 99 + 93 = 192; 2> = 5>1 + 1>2 = 199,4 + 149,7 = 349,1. Тогда система нормальных уравнений примет вид: Г 25.fl+192* + 13-c = 349,l, ]l92fl + 1914-i + 99-c = 2824,2, [ 13а+ 99-i + 13-c = 199,4. Решив ее, получим уравнение регрессии р = 9,908 + 0,331-х^ 2,908-г. Уравнение регрессии статистически значимо: F = 15,6; R = 0,766; R = 0,741; /^ = 11,8; /^ = 3,9; /, = 4,1. Как видим, добавление в регрессию фиктивной переменной существенно улучшило результат модели: доля объясненной ва- риации выросла с 27,5 % (Г^ = 0,2752) до 58,7 % (R^y^ = 0,5867). При этом сила влияния количества внесенных органических удо- брений на урожайность осталась практически неизменной: коэф- фициенты регрессии, по существу, одинаковы (0,326 в парном уравнении и 0,331 во множественном). Корреляция между видом вспашки и количеством внесенного удобрения на 1 га практиче- ски отсутствует: г^ = — 0,016. Применение зяблевой вспашки способствует росту урожай- ности в среднем на 2,9 ц с 1 га при одном и том же количестве внесенного удобрения на 1 га, что в целом соответствует и разли- чию средней урожайности по видам вспашки (15,3 ц с 1 га для зяблевой вспашки и 12,5 ц с 1 га для весенней вспашки). Частный /'-критерий для фактора z составил 16,58, что выше табличного значения при числе степеней свободы 1 и 22 (4,30 при а = 0,05 и 7,94 при а = 0,01). Это подтверждает целесообразность включе- ния фиктивной переменной в уравнение регрессии. Уравнения парной рефессии по отдельным видам вспашки показывают практически единую меру влияния количества вне- сенного удобрения на урожайность: 171
у = 12,678 н- 0,349 • дс, Л = 0,638 - при зяблевой вспашке; у = 10,148 + 0,300 X, R = 0,643 - при весенней вспашке. Поэтому можно предположить единую меру влияния данного фактора, равную значению коэффициента регрессии, в уравне- нии регрессии с фиктивной переменной (0,331). Включив фик- тивную переменную, удалось измерить ее влияние на изменение урожайности: частный коэффициент корреляции Гу^.^, оценива- ющий в чистом виде влияние данного фактора, составил 0,6555, что несколько выше, чем аналогичный показатель для фактора дс, т. е.г^.^ = 0,6385. Частные уравнения регрессии по отдельным видам вспашки составили: У(1= 1) ^ 12,816 + 0,331 • X — для зяблевой вспашки; У(1=0) ^ 9,908 + 0,331 • X - для весенней вспашки. Как видим, функция урожайности для первой группы (при Z = 1) параллельна функции для второй группы, но сдвинута вверх. В примере 3.14 качественный фактор имел только два состоя- ния, которым и соответствовали обозначения 1 и 0. Если же чис- ло фадаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число ко- торых должно быть меньше числа качественных градаций. Толь- ко при соблюдении этого положения матрица исходных фиктив- ных переменных не будет линейно зависима и возможна оценка параметров модели. Пример 3.15. Проанализируем зависимость цены двухком- натной квартиры от ее полезной площади. При этом в модель мо- гут быть введены фиктивные переменные, отражающие тип до- ма: «хрущевка», панельный, кирпичный. При использовании трех категорий домов вводятся две фик- тивные переменные: Z\ и Z2- Пусть переменная Zi принимает зна- чение 1 для панельного дома и О для всех остальных типов домов; переменная ^2 принимает значение 1 для кирпичных домов и О для остальных; тогда переменные Z\ и ^2 принимают значения О для домов типа «хрущевки». 172
Предположим, что уравнение регрессии с фиктивными пере- менными составило: р = 320 + 500 • X + 2200 • z, + 1600 • ц- Частные уравнения рефессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид: • «хрущевки» р = 320 + 500 • х\ • панельные у = 2520 + 500 • х\ • кирпичные у = 1920 + 500 • х; Параметры при фиктивных переменных Z\ и ^2 представляют собой разность между средним уровнем результативного призна- ка для соответствующей группы и базовой группы. В рассматри- ваемом примере за базу сравнения цены взяты дома «хрущевки», для которых ^1=^2 = 0. Параметр при Z\ = 2200 означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долл. США выше, чем в «хрущевках». Соответственно параметр при Zj показывает, что в кирпичных домах цена выше в среднем на 1600 долл. при неизменной вели- чине полезной площади по сравнению с указанным типом домов. Рассмотренная трактовка параметров рефессии при фиктив- ных переменных справедлива, если сила влияния на у фактора х действительно не меняется в разных структурных частях сово- купности. Иными словами, отсутствует взаимодействие факто- ров Xj и фиктивных переменных z, т.е. для каждого значения z влияние факторах на у одинаково (рис. 3.2). При отсутствии взаимодействия целесообразно построение модели: р = а+йх+сг. При наличии взаимодействия факторовхи z модель с фик- тивной переменной принимает вид: p = a + 6x+cz+cf(xz), что соответствует фафическому изобра- жению (рис. 3.2 б): 173
(ПРИ2= 1) (при Z = 0) —г- 5 10 а 4 2 (ПРИ2= 1) (при Z = 0) ^^ 5 10 X б Рис. 3.2. Графическая иллюстрация взаимодействия факторов: а - без взаимодействия; б-с взаимодействием Предположим, рассматриваются две группы наблюдений, для каждой из которых имеет место функциональная зависимость у от фактора х: у, = 20 + 5х; т^=1; У1 = 35; Ун = 70 - Зх; Туу 1, ^'Д'Х Уи = 61. Поскольку налицо четкое взаимодействие факторов, попытка построить общую рефессионную модель вида y = a + ex-^cz при- ведет к ухудшению результатов аппроксимации модели >^ = 58 + 1х-26г; /?^ = 0,842. Верной в ней будет лишь трактовка коэффициента регрессии при фиктивной переменной г. Поскольку в модели z = 1 для I группы наблюдений, когда 7i = 35, а z = О для П группы наб- 174
людений, когда 7п " 61, то параметр при г, равный — 26, означа- ет, что 7i - yj, = -26. Модель с учетом взаимодействия факторов составит: >; = 70 - Зх- 50г + 8(^); R^ = 1, т.е. функциональная зависимость, заложенная в информацию для каждой группы, продолжает действовать. При z = О мы полу- чим уравнение связи для второй группы, т.е. уц = 70 — Зх. Пара- метр с при Z показывает различие в параметрах а для двух сравни- ваемых фупп: с = ^1 — «и = —50. Параметр d при совмещенной пе- ременной (гх) фиксирует различие в силе связи yvixb фуппах: ^ = й,-й„ = 5-(-3) = 8. Фиктивные переменные широко используются для оценки сезонных различий в потреблении. Учет сезонного фактора при построении динамических моделей рассмотрен в гл. 5. Фиктивные переменные могут вводиться не только в линей- ные, но и в нелинейные модели, приводимые путем преобразова- ний к линейному виду Так, модель с фиктивными переменными может иметь вид: In у = а + ^1 • Xj + ... + й^ • х^ + с • Z + е, где Z — фиктивная переменная. Целесообразность такого вида модели диктуется характером связи между экономическими переменными: Фиктивная переменная вводится в эту модель как очередной сомножитель: Логарифмируя данное выражение, получим модель вида \ny = \na + Xx'\nbx-^X2'\nb2-^ „.-^ХрХпЬр-^Z'\nc + \nz, которая равносильна приведенной ранее In >' = а + 6j • Xj н-... + 6^ • Хр + с • ^ + 8, где параметры и случайная составляющая представлены в логарифмах. 175
Включение в модель фиктивных переменных может иметь цель отразить в модели неоднородность совокупности. Однако нельзя рассматривать фиктивные переменные как панацею при применении методов регрессии к неоднородным данным. Пример 3.16. Рассмотрим зависимость уровня квалифика- ции рабочих от сферы применения ручного труда. Если неодно- родность вызвана резкими качественными различиями единиц совокупности, обусловливающими искажения характера рассма- триваемой связи признаков у их, то фиктивные переменные ма- ло изменят результаты анализа. В этом случае более результатив- ным является построение уравнений рефессии по отдельным группам совокупности (табл. 3.6). Таблица 3.6 Зависимость среднего уровня квалификации рабочих у от сферы применения ручного труда х Исследуемая совокупность Общая совокупность в том числе с включением фиктивной пе- ременной по видам техноло- гий: Z = 1 - профессивная г = 0 - традиционная Частная совокупность: по заводам с традиционной технологией по заводам с прогрессивной технологией Уравнение регрессии j) = 4,2 +0,01-д: >) = 4,4 + 0,01 'X-OA-z i^ = 1,6 +0,08-jc >^ = 6,8-0,06-jc R' 0^016 0,220 0,941 0,692 Результаты свидетельствуют о целесообразности построения модели по отдельным частным совокупностям. Ввиду разной за- висимости уровня квалификации рабочих от уровня занятости ручным трудом по заводам с традиционной и прогрессивной тех- нологиями производства уравнение регрессии по совокупности в целом не позволило выявить наличие связи. Не улучшился ре- зультат модели и с введением фиктивной переменной, ибо этот метод предполагает равенство коэффициентов регрессии при л: по частным совокупностям и возможность их замены общим ко- эффициентом рефессии Ь. 176
в отдельных случаях может потребоваться введение двух и бо- лее групп фиктивных переменных, т. е. двух и более качественных факторов, каждый из которых может иметь несколько градаций. Например, при изучении потребления некоторого товара наряду с факторами, имеющими количественное выражение (цена, до- ход на одного члена семьи, цена на взаимозаменяемые товары и др.), учитываются и качественные факторы. С их помощью оце- ниваются различия в потреблении отдельных социальных фупп населения, дифференциация в потреблении по полу, националь- ному составу и др. При построении такой модели из каждой фуп- пы фиктивных переменных следует исключить по одной пере- менной. Так, если модель будет включать три социальные фуп- пы, три возрастные категории и ряд экономических переменных, то она примет вид: где у -потребление; Si = Zi = 1 - если наблюдения относятся к социальной группе (/ = 1,2), 0 — в остальных случаях; 1 — если наблюдения относятся к возрастной группе (/ = 1,2), О-в остальных случаях; jCi, JC2,..., JC;t ~ экономические (количественные) переменные. До сих пор мы рассматривали фиктивные переменные как факторы, которые используются в рефессионной модели наряду с количественными переменными. Вместе с тем возможна рег- рессия только на фиктивных переменных. Например, изучается дифференциация заработной платы рабочих высокой квалифи- кации по регионам страны. Модель заработной платы может иметь вид: y = a-\-b^'Zi + b2-Z2'^ -'b^-Zky где з'- средняя заработная плата рабочих высокой квалификации по отдельным предприятиям; ^1 = 1 - если предприятие находится в Северо-Западном районе, О — если предприятие находится в остальных районах; 1 — если предприятие находится в Волго-Вятском районе, О — если предприятие находится в остальных районах; Z2 = ,2-3291 177
Ik^ 1 — если предприятие находится в Дальневосточном районе, О — если предприятие находится в остальных районах. Поскольку последний район, указанный в модели, обозначен Zjt, в исследование включен к + 1 район. Ввиду того что факторы данной регрессионной модели выра- жены как дихотомические признаки, параметры модели имеют свою специфику по сравнению с их традиционной интерпрета- цией. Параметр а представляет собой среднее значение результа- тивного признака для базовой группыу^. Параметр Ь^ характери- зует разность средних уровней результативного признака для группы 1 и базовой группы 0. Соответственно параметр Ь^ пред- ставляет собой разность между р",- и у^. Иными словами, коэффи- циенты при Z отражают величину эффекта соответствующей группы фактора г. Рассмотрим применение данной модели на следующем условном примере (табл. 3.7). Таблица 3.7 Распространенносп» ручного труда на предприятиях одной отрасли в зависимости от уровня автоматизации производства Уровень автоматизации производства Высокий Средний Низкий Итого Число заводов 8 12 10 30 Процент рабочих, занятых ручным трудом, в общей численности рабочих на каждом заводе данной группы 31, 37, 38, 39, 35, 32, 34, 34 40, 45, 47, 48, 46, 48, 50, 52, 39, 43, 44,56 47, 54, 59, 55, 57, 56, 65, 57, 55, 61 в среднем по группе 35,0 46,5 56,6 46,8 По данным табл. 3.7 рассматривается следующая регрессион- ная модель: р = fl + Й1 • ^1 + Й2 • ^2, где у - процент рабочих, занятых ручным трудом в общей численности рабочих; Z - уровень автоматизации производства; 178
^1 = Z2 = 1 —ДЛЯ предприятий с высоким уровнем автоматизации производства, 0 — для остальных предприятий; 1 — для предприятий со средним уровнем автоматизации производства, ^ О — для остальных предприятий. В качестве базовой группы, с которой ведется сравнение уровня занятости ручным трудом, выступают предприятия с низ- ким уровнем автоматизации производства. Рефсссионная модель, исходя из средних уровней, приведен- ных в последней графе табл. 3.7, составит: >^ = 56,6-21,6-zi-10,1-^2- Она показывает, что на предприятиях с низким уровнем авто- матизации производства средний процент рабочих, занятых руч- ным трудом, равен 56,6. На предприятиях с высоким уровнем ав- томатизации производства распространенность ручного труда ниже на 21,6 проц. пункта (Ji -'у^=2>5 -56,6 = - 21,6), а на пред- приятиях со средним уровнем автоматизации производства — ни- же на 10,1 проц. пункта (^2 -Уо^ 46,5 - 56,6 = - 10,1) по сравне- нию с предприятиями третьей группы. В справедливости данного уравнения регрессии можно убе- диться, обратившись к методу наименьших квадратов. С приме- нением МНК система нормальных уравнений составит: Z>'-^2=«-Z^2+*l-Z^1^2+*2-Z^2- Поскольку переменные z принимают лишь два значения — 1 или О, в данной системе имеем следующие равенства: Z^i = Zzi^ = Л1 = 8; ZZ2 = Z^2^ = 12; Yx^Zi = 0. Соответственно система нормальных уравнений составит: 30д+ 8.^1+ 12./>2 = 1404, 8fl+8/>, =280, 12fl+ 12Z»2=558. 12- 179
Решив систему, получим: а = 56,6; Й1 = -21,6; ^2 =-10,1. Уравнение регрессии, как было показано выше, примет вид: j) = 56,6 - 21,6 ^1-10,1 ^2. Индекс детерминации для данной модели составит: ,2_, Uy-yz)\i 513,4 Uy-y)^ 2588,8 R'^l-^'^ .J. = 1,^1111:, = 0,802, что статистически значимо: /'-критерий = 54,6 при а = 0,05 и степенях свободы 2 и 27, /'т^бл ~ 3,35. Поскольку коэффициенты при фиктивных переменных в мо- дели, не содержащей других экономических факторов, характе- ризуют величину эффектов /-го уровня фактора z, регрессионная модель по своему содержанию тождественна дисперсионной модели. В основе нашего примера лежит дисперсионная модель вида Уи = У'^Т^1-^Ц^ где Уу — у-е наблюдение результативного признака на/-М уровне исследу- емого фактора (в примере /=1,2, 3;у = 1,..., 30); У - среднее значение результативного признака в целом по совокуп- ности (в примере >^ = 46,8); 7) - эффект, обусловленный /-м уровнем фактора (у, - >^); е^^ - случайная ошибка в у-м наблюдении на /-м уровне изучаемого фактора; величина, на которую фактический уровень результа- тивного признака з'^^ отличается от его среднего значения для /-го уровня фактора, т. е. ^у = Уу-(У "^ 7/) или ^у = Уу-^i- В регрессионной модели обычно е^ = у^ - р, но поскольку фиктивная переменная принимает только два значения, то р = у,-. Так, подставив в уравнение регрессии Zi = 1, Z2 = О, получим: Pi =^1 = 35 для каждого завода первой фуппы по уровню автома- тизации производства, что является средней величиной для дан- ной группы (см. табл. 3.7). Соответственно подставив в уравне- ние регрессии Zi = О, Z2 = 1, получим: р2 "^ >^2 ~ ^6,5. Ввиду того что теоретические значения результативного при- знака в рассматриваемой модели представляют собой групповые 180
средние б', = У,), общая сумма квадратов отклонений ZCv - у)^ раскладывается на одни и те же составляющие как в регрессион- ном, так и в дисперсионном анализе. Например, для дисперсион- ного анализа имеем: i J Общая сумма квадратов / ' J Факторная сумма квадратов Остаточная сумма квадратов Для регрессионной модели данное равенство примет следую- щий вид: Общая сумма квадратов Uyi-W i Факторная сумма квадратов i Остаточная сумма квадратов Но так как р,- = у^, факторная и остаточная суммы квадратов, найденные по регрессионной модели и по модели дисперсионно- го анализа, совпадают (табл. 3.8). Таблица 3.8 Результаты однофакторного дисперсионного анализа (двухфакторной регрессионной модели с фиктивными переменными) Источник вариации Различия между уровнями фактора (за счет регрес- сии) Различия внутри фактора (остаточ- ная) Общая Число сте- пеней сво- боды 2 27 29 Сумма квадратов, SS 2075,4 513,4 2588,8 Дисперсия на одну степень свободы, D 1037,7 19,0 /'-отношение фактиче- ское 54,6 1 табличное, а = 0,05 3,35 181
Мы рассмотрели модели с фиктивными переменными, в ко- торых последние Ёыступают факторами. Может возникнуть необходимость построить модель, в которой дихотомический признак играет роль результата. Подобного вида модели приме- няются, например, при обработке данных социологических оп- росов. В качестве зависимой переменной у рассматриваются от- веты на вопросы, данные в альтернативной форме: «да» или «нет». Поэтому зависимая переменная принимает два значения: 1, что значит ответ «да», и О — во всех остальных случаях. Модель такой зависимой переменной имеет вид: Д' = Д + *! • Xi + ... + 6р • Хр + 8. Модель является вероятностной линейной моделью. В ней у принимает значения 1 и О, которым соответствуют вероятности/? и 1 - ;;. Поэтому при решении модели находят оценку условной вероятности события у при фиксированных значениях х. Для оценки параметров линейно-вероятностной модели применяют- ся методы Tobit-, Logit- и Probit-анализа*. Модели такого рода ис- пользуют при работе с неколичественными переменными. Как правило, это модели выбора из заданного набора альтернатив. За- висимая переменная у представлена дискретными значениями (набор альтернатив), объясняющие переменные Ху - характерис- тики альтернатив (время, цена), Zy — характеристики индивидов (возраст, доход, уровень образования). Модель такого рода поз- воляет предсказать долю индивидов в генеральной совокупности, которые выбирают данную альтернативу. Фиктивные переменные отражают неоднородность данных, как пространственных, так и временных. 3.10. ПРЕДПОСЫЛКИ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ При оценке параметров уравнения рефессии применяется метод наименьших квадратов. При этом делаются определен- * См., например: Аптон Г. Анализ таблиц сопряженности: Пер. с англ. — М.: Статистика, 1982. 182
ные предпосылки относительно случайной составляющей е. В модели случайная составляющая 8 представляет собой ненаблюдаемую величину. После того как проведена оценка параметров модели, рассчитав разности фактических и теоретических значений ре- зультативного признака у, можно определить оценки случайной составляющей у — у^. Их можно считать некоторой выборочной реализацией неизвестного остатка заданного уравнения, т. е. 8/. При изменении спецификации модели, добавлении в нее но- вых наблюдений выборочные оценки остатков 8, могут меняться. Поэтому в задачу регрессионного анализа входит не только пост- роение самой модели, но и исследование случайных отклонений 8,, т. е. остаточных величин. В предыдущих разделах мы рассматривали формальные про- верки статистической достоверности коэффициентов регрессии и корреляции с помощью /-критерия Стьюдента, F-критерия Фи- шера и Z-преобразования (для коэффициентов корреляции). При использовании этих критериев делаются предположения от- носительно поведения остатков е,. Остатки представляют собой независимые случайные величины, и их среднее значение равно 0; они имеют одинаковую (постоянную) дисперсию и подчиня- ются нормальному распределению. Статистические проверки параметров регрессии, показателей корреляции основаны на непроверяемых предпосылках распре- деления случайной составляющей 8,-. Они носят лишь предвари- тельный характер. После построения уравнения регрессии про- водится проверка наличия у оценок 8^ (случайных остатков) тех свойств, которые предполагались. Связано это с тем, что оценки параметров регрессии должны отвечать определенным критери- ям: быть несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют чрезвычайно важ- ное практическое значение в использовании результатов регрес- сии и корреляции. Коэффициенты регрессии, найденные из системы нормаль- ных уравнений, представляют собой выборочные оценки характе- ристики силы связи. Их несмещенность является желательным свойством, так как только в этом случае они могут иметь практи- ческую значимость. Несмещенность оценки означает, что матема- тическое ожидание остатков равно нулю. Следовательно, при 183
большом числе выборочных оцениваний остатки не будут накап- ливаться и найденный параметр регрессии Ь^ можно рассматри- вать как среднее значение из возможного большого количества несмещенных оценок. Если оценки обладают свойством несме- щенности, то их можно сравнивать по разным выборкам. Для практических целей важна не только несмещенность, но и эффективность оценок. Оценки считаются эффективными, ес- ли они характеризуются наименьшей дисперсией. Поэтому не- смещенность оценки должна дополняться минимальной диспер- сией. В практических исследованиях это означает возможность перехода от точечного оценивания к интервальному Степень реалистичности доверительных интервалов парамет- ров рефессии обеспечивается, если оценки будут не только не- смещенными и эффективными, но и состоятельными. Состоя- тельность оценок характеризует увеличение их точности с увели- чением объема выборки. Большой практический интерес пред- ставляют те результаты регрессии, для которых доверительный интервал ожидаемого значения параметра рефессии Ь^ имеет предел значений вероятности, равный единице. Иными словами, вероятность получения оценки на заданном расстоянии от ис- тинного значения параметра близка к единице. Указанные критерии оценок (несмещенность, состоятель- ность, эффективность) обязательно учитываются при разных способах оценивания. Метод наименьших квадратов строит оценки рефессии на основе минимизации суммы квадратов ос- татков. Поэтому очень важно исследовать поведение остаточных величин рефессии е^. Условия, необходимые для получения не- смещенных, состоятельных и эффективных оценок, представля- ют собой предпосылки МНК, соблюдение которых желательно для получения достоверных результатов рефессии. Исследования остатков е, предполагают проверку наличия следующих пяти предпосылок МНК: • случайный характер остатков; • нулевая средняя величина остатков, не зависящая от xf, • гомоскедастичность — дисперсия каждого отклонения 8у одинакова для всех значений х; • отсутствие автокорреляции остатков. Значения остатков е, распределены независимо друг от друга; • остатки подчиняются нормальному распределению. 184
в тех случаях, когда все пять предпосылок выполняются, оценки, полученные по МНК и по методу максимального прав- доподобия, совпадают между собой. Если распределение случай- ных остатков 8/ не соответствует некоторым предпосылкам мето- да наименьших квадратов, то следует корректировать модель. Прежде всего проверяется случайный характер остатков 8, — первая предпосылка МНК. С этой целью стоится график зависи- мости остатков 8^ признакаi'(рис. 3.3). С/ 64 —1 1 1 1 1 ^ 4 6 8 10 12 р^ 24 О -24 -4-1 Рис. 3.3. Зависимость случайных остатков е, от теоретических значений у^ Если на графике нет направленности в расположении точек 8/, то остатки 8; представляют собой случайные величины и МНК оправдан, теоретические значения у^ хорошо аппроксимируют фактические значения у. Возможны следующие случаи: если 8,- зависит оту^, то: • остатки 8,. не случайны (рис. 3.4 а); • остатки 8,- носят систематический характер (рис. 3.4 б), в дан- ном случае отрицательные значения 8/ соответствуют низким значениям pjc, а положительные — высоким значениям; • остатки 8, не имеют постоянной дисперсии (рис. 3.4 в). В случаях а, б, в (см. рис. 3.4) необходимо либо применять другую функцию, либо вводить дополнительную информацию и 185
заново строить уравнение регрессии до тех пор, пока остатки е, не будут случайными величинами. С/ 44 2-1 О -24 -4-^ Рис. 3.4. Зависимость случайных остатков е, от теоретических значений у^ Вторая предпосылка МНК относительно нулевой средней ве- личины остатков означает, что Y,(y - у^) = 0. Это выполнимо для линейных моделей и моделей, нелинейных относительно вклю- чаемых переменных. Для моделей, нелинейных по оцениваемым параметрам и приводимых к линейному виду логарифмировани- ем, средняя ошибка равна нулю для логарифмов исходных дан- ных. Так, для модели вида у = а-хЛ-^2*2...х/^-8, Z(ln3;-liOx) = 0. Для обеспечения несмещенности оценок коэффициентов ре- грессии, полученных МНК, необходимо выполнение условий 186
независимости случайных остатков 8,и переменных ;с, что иссле- дуется в рамках соблюдения второй предпосылки МНК. С целью проверки выполнения этой предпосылки строится график зави- симости случайных остатков е от факторов, включенных в рег- рессию дс,- (рис. 3.5). ^Г 2- 1- 0 -1- -2- i • • ~2 • » • 1 4 • • 1 6 • • т 8 • 10~~ • • • • 12 • ^ ^1 Рис. 3.5. Зависимость случайных остатков от величины фактора Xj Если расположение остатков на графике не имеет направленности, то они независимы от значений Ху (см. рис. 3.5). Если же график показывает наличие зависимости е, и х,, то мо- дель неадекватна. Причины неадекватности могут быть разные. Возможно, нарушена третья предпосылка МНК и дисперсия ос- татков непостоянна для каждого значения фактора Ху. Может быть неправильной спецификация модели, и в нее необходимо ввести дополнительные члены отху, например Ху^, или преобразо- вать значения у. Скопление точек в определенных участках зна- чений фактора Ху говорит о наличии систематической погрешно- сти модели. Корреляция случайных остатков с факторными признаками позволяет проводить корректировку модели, в частности использовать кусочно-линейные модели*. Предпосылка о нормальном распределении остатков позво- ляет проводить проверку параметров регрессии и корреляции с помощью критериев / и F. Вместе с тем оценки регрессии, най- денные с применением МНК, обладают хорошими свойствами * См.\ Статистическое моделирование и прогнозирование: Учеб. посо- бие / Под ред. А. Г. Гранберга. — М.: Финансы и статистика, 1990. — С. 158. 187
даже при отсутствии нормального распределения остатков, т. е. при нарушении пятой предпосылки метода наименьших квад- ратов. Совершенно необходимым для получения по МНК состоя- тельных оценок параметров регрессии является соблюдение тре- тьей и четвертой предпосылок. В соответствии с третьей предпосылкой метода наименьших квадратов требуется, чтобы дисперсия остатков была гомоскедас- тинной. Это значит, что для каждого значения фактора Xj остатки 8^ имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастинность (рис. 3.6). Рис. 3.6. Примеры гетероскедастичности: а - дисперсия остатков растет по мере увеличения х;б- дисперсия остат- ков достигает максимальной величины при средних значениях переменной JC и уменьшается при минимальных и максимальных значениях х; в - максимальная дисперсия остатков при малых значениях х и дисперсия остатков однородны по мере увеличения значений д: 188
Гомоскедастичность остатков означает, что дисперсия остат- ков 8/ одинакова для каждого значения х. Используя трехмерное изображение, получим фафики, иллюстрирующие гомо- и гете- роскедастичность (рис. 3.7, 3.8). F(e)f Рис. 3.7. Гомоскедастичность остатков F(e)t Рис. 3.8. Гетероскедастичность остатков 189
Рис. 3.7 показывает, что для каждого значения х^ распреде- ления остатков 8, одинаковы в отличие от распределений на рис. 3.8, где диапазон варьирования остатков меняется с переходом от одного значения х^ к другому. Соответственно на рис. 3.8 демонстрируется неодинаковая дисперсия е,- при разных значе- ниях Xf. Наличие гомо- или гетероскедастичности можно видеть и на рассмотренном выше фафике зависимости остатков б, от теоре- тических значений результативного признака р^^. Так, для рис. 3.6 а зависимость остатков оту^ представлена на рис. 3.9. + ■ • • • • п г т ► • • • • • • • • • • • • • Рис. 3.9. Гетероскедастичность остатков: большая дисперсия 6/ для больших значений у^^ Соответственно для зависимости, изображенной на полях корреляции рис. 3.6 бив, гетероскедастичность остатков пред- ставлена на рис. 3.9 и 3.10. Данный вид графиков является наиболее приемлемым спосо- бом изучения гомо- и гетероскедастичности для множественной регрессии. 190
С/ + - С/ + - • • • • • . • • • 1 1 1 1 > • . • • , • : Ух • • • Рис. зло. Гетероскедастичность: а - соответствует полю корреляции рис. 3.6 б; б— соответствует полю корреляции рис. 3.6 в 191
Наличие гетероскедастичности в отдельных случаях может привести к смещенности оценок коэффициентов регрессии, хотя несмещенность оценок коэффициентов регрессии в основном зависит от соблюдения второй предпосылки МНК, т. е. независи- мости остатков и величин факторов. Гетероскедастичность будет сказываться на уменьшении эффективности оценок Ь^, В частно- сти, становится затруднительным использование формулы стан- дартной ошибки коэффициента регрессии /w^,., предполагающей единую дисперсию остатков для любых значений фактора. Прак- тически при нарушении гомоскедастичности мы имеем неравен- ства: и можно записать: с\чьо\.чьо^,]^1, \=с''К, При этом величина К^ может меняться при переходе от одно- го значения факторах, к другому Это означает, что сумма квадра- тов отклонений для зависимости Ух = а + Ь- X при наличии гетероскедастичности должна иметь вид: При минимизации этой суммы квадратов отдельные ее слага- емые взвешиваются: наблюдениям с наибольшей дисперсией придается пропорционально меньший вес. Иными словами, вклад каждого сочетания дс, с у, в сумму квадратов остатков дол- жен быть дисконтирован, чтобы учесть систематическое влияние неоднородных элементов А,. Задача состоит в том, чтобы определить величину К^ и внести поправку в исходные переменные. С этой целью рекомендуется использовать обобщенный метод наименьших квадратов [2, с. 207—241], который эквивалентен обыкновенному МНК, приме- ненному к преобразованным данным. Для того чтобы убедиться в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение. 192
При малом объеме выборки, что наиболее характерно для эконометрических исследований, для оценки гетероскедастич- ности может использоваться метод Гольдфельда — Квандта, раз- работанный в 1965 г. Гольдфельд и Квандт рассмотрели однофак- торную линейную модель, для которой дисперсия остатков воз- растает пропорционально квадрату фактора. Для того чтобы оце- нить нарушение гомоскедастичности, они предложили парамет- рический тест, который включает в себя следующие шаги. Шаг 1. Упорядочение п наблюдений по мере возрастания пе- ременной X. Шаг 2. Исключение из рассмотрения С центральных наблю- дений; при этом (л - С): 2 > /7, где р — число оцениваемых пара- метров. Таблица 3.9 Поступление доходов в консолвдированный бюджет Санкт-Петербурга {у — млрд руб.) в зависимости от численности работающих на крупных и средних предприятиях (jc — тыс. чел.) и экономики районов за 1994 г.* № п/п 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Итоге *3. 1996. - Район города Павловский Кронштадт Ломоносовский Курортный Петродворец Пушкинский Красносельский Приморский Колпинский Фрунзенский Красногвардейский Василеостровский Невский Петрофадский Калининский Выборгский Кировский Московский Адмиралтейский Центральный ) 1 строками цифр. - Ста С. 141-145. ^z 3 6 8 18 20 23 39 49 60 74 79 95 106 112 115 125 132 149 157 282 1652 т сборник. yi 4,4 8,1 12,9 20,8 15,5 28,8 37,5 48,7 68,6 104,6 90,5 88,3 132,4 122,0 99,1 114,2 150,6 156,1 209,5 342,9 1855,5 - СПб.: «Издат( л Ух -1,0 2,5 4,9 16,6 19,0 22,5 41,4 53,2 66,1 82,6 88,5 107,4 120,4 127,4 131,0 142,7 151,0 171,0 180,5 327,8 1855,5 ;льство Лимбус- ^i 5,4 5,6 8,0 4,2 -3,5 6,3 -3,9 -4,5 2,5 22,0 2,0 -19,1 12,0 -5,4 -31,9 -28,5 -0,4 -14,9 29,0 15,1 0,0 ■Пресс», 13- 193
Ш а г 3. Разделение совокупности из (л - С) наблюдений на две фуппы (соответственно с малыми и большими значениями факто- ра х) и определение по каждой из фупп уравнений регрессии. Шаг 4. Определение остаточной суммы квадратов для первой (Si) и второй (S2) групп и нахождение их отношения: /г = 5i: ^2, где ^1 >5'2. При выполнении нулевой гипотезы о гомоскедастичности от- ношение R будет удовлетворять F-критерию с{п-С-2р):2 сте- пенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточ- ных величин. Пример 3.17. Рассмотрим табл. 3.9. В соответствии с уравнением р^ = -4,565 + 1,178 -х; г= 0,9828, F= 510,7 найдены теоретические значения д)^^ и отклонения от них фактиче- ских значений у, т. е. е,. Итак, остаточные величины е,- обнаружи- вают тенденцию к росту по мере увеличенияхиу (рис. 3.11). 40- 30- 20- 10- 0 -10- -20- -30- -40- к • • . . si) • • • • • 1 1 • 100 •ISO • • • • • 1 200 • • 1 250 fc w л Ух Рис. 3.11. График остатков (для примера по табл. 3.9) 194
Этот вывод подтверждается и по критерию Гольдфельда - Квандта. Для его применения сначала необходимо определить число исключаемых центральных наблюдений С. Из экспери- ментальных расчетов, проведенных авторами метода для случая одного фактора, рекомендовано при п = 30 принимать С = 8, а при л = 60 — соответственно С = 16. В рассматриваемом примере при /7 = 20 было отобрано С = 4. Тогда в каждой фуппе будет по 8 наблюдений [(20 — 4) : 2]. Результаты расчетов представлены в табл. 3.10. Таблица 3.10 Проверка линейной регрессии на гетероскедастичность Уравнения регрессии Пе])вая группа с первыми 8 районами: >'х = 2,978+ +0,92 Ix г =0,979 7^= 136,4 Сумма Вторая фуппа с последними 8 районами: >;^ = 31,142 + + 1,338х г =0,969 7^= 93,4 Сумма JC 3 6 8 18 20 23 39 49 106 112 115 125 132 149 157 282 У 4,4 8,1 12,9 20,8 15,5 28,8 37,5 48,7 132,4 122,0 99,1 114,2 150,6 156,1 209,5 342,9 л Ух 5,7 8,5 10,3 19,6 21,4 24,2 38,9 48,1 110,7 118,7 122,7 136,1 145,4 168,2 178,9 346,1 е -1,3 -0,4 2,6 1,2 -5,9 4,6 -1,4 0,6 21,7 3,3 -23,6 -21,9 5,2 -12,1 30,6 -3,2 ^ 1,69 0,16 6,76 1,44 34,81 21,16 1,96 0,36 68,34 470,89 10,89 556,96 479,61 27,04 146,41 936,36 10,24 2638,40 1 Величина R = 19,3 (2638,4 : 68,34), что превышает табличное значение /'-критерия = 4,28 при 5 %-ном и 8,47 при 1 %-ном уровне значимости для числа степеней свободы 6 для каждой ос- таточной суммы квадратов [(20 — 4 — 2 • 2): 2], подтверждая тем самым наличие гетероскедастичности. Критерий Гольдфельда — Квандта используется и при про- верке остатков множественной рефессии на гетероскедастич- ность. 13' 195
Наличие гетероскедастичности в остатках регрессии можно проверить и с помощью ранговой корреляции Спирмэна. Суть проверки заключается в том, что в случае гетероскедастичности абсолютные остатки е, коррелированы со значениями фактора jc^. Эту корреляцию можно измерять с помощью коэффициента ран- говой корреляции Спирмэна: р = 1- где d — абсолютная разность между рангами значений Xf и | еу|. Для примера 3.16 расчет рангового коэффициента корреля- ции Спирмэна составит: табл. 3.11 Таблица 3.11 Расчет рангового коэффициента корреляции Спирмэна для регрессии, представленной в табл. 3.9 (между Xf и 8/). № п/п 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Сумма ^z 3 6 8 18 20 23 39 49 60 74 79 95 106 112 115 125 132 149 157 282 С/ 5,4 5,6 8,0 4,2 -3,5 6,3 -3,9 -4,5 2,5 22,0 2,0 -19,1 12,0 -5,4 -31,9 -28,5 -0,4 -14,9 29,0 15,1 ^ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Л|б,| 8,5 10 12 6 4 11 5 7 3 17 2 16 13 8,5 20 18 1 14 19 15 d 7,5 8 9 2 1 5 2 1 6 7 9 4 0 5,5 5 2 16 4 0 5 7| 56,25 64 81 4 1 25 4 1 36 49 81 16 0 30,25 25 4 256 16 0 25 774,5 196
Коэффициент ранговой корреляции между е, и дс, равен: 20(20^-1) Статистическую значимость р можно оценить с помощью /-критерия: Для примера 3.14 / = .—!—=yflS=l,95. Сравним эту ве- V(l-0,4182) личину с табличной величиной при а = 0,05 и числе степеней свободы (л — 2) = 18; /^ = 2,1. Принято считать, что если /р > /д, то корреляция между 8,- и х^ статистически значима, т.е. имеет место гетероскедастичность остатков. В противном случае принимает- ся гипотеза об отсутствии гетероскедастичности остатков. В примере 3.14 фактическое и табличное значения /достаточ- но близки друг к другу и вероятность наличия гетероскедастич- ности превышает 0,9. Рассмотренные критерии не дают количественной оценки за- висимости дисперсии ошибок регрессии от соответствующих значений факторов, включенных в регрессию. Они позволяют лишь определить наличие или отсутствие гетероскедастичности остатков. Поэтому если гетероскедастичность остатков установ- лена, можно количественно оценить зависимость дисперсии ошибок рефессии от значений факторов. С этой целью могут быть использованы тесты Уайта, Парка, Глейзера и др. Тест Уайта предполагает, что дисперсия ошибок регрессии представляет собой квадратичную функцию от значений факто- ров, т.е. при наличии одного фактора е^ = д + Ах + сх^ +w, или при наличии р факторов: 8^ =fl + 6lXi +*iiV +М2 +*22^2^ +*12^1^2 +-'+bpXp +ЬррХ/ + +b[pXiXp+b2pX2Xp-\-„.+U. Так что модель включает в себя не только значения факторов, но и их квадраты, а также попарные произведения. Поскольку каждый параметр модели 8? = Л^/) должен быть рассчитан на ос- 197
нове достаточного числа степеней свободы, то чем меньше объем исследуемой совокупности, тем в меньшей мере квадратичная функция сможет содержать попарные произведения факторов. Например, если регрессия строится по 30 наблюдениям как то последующая квадратичная функция для остатков может быть представлена лишь как 8^ =fl + 6lXi +Й11Х1 +^2X2 +^>22^2 ■♦■^2^1^2 "'"^' поскольку на каждый параметр при х должно приходиться не ме- нее 6-7 наблюдений. В настоящее время тест Уайта включен в стандартную программу регрессионного анализа в пакете «Econometric Views». О наличии или отсутствии гетероскедастич- ности остатков судят по величине F-критерия Фишера для квад- ратичной функции рефессии остатков. Если фактическое значе- ние F-критерия выше табличного, то, следовательно, существует четкая корреляционная связь дисперсии ошибок от значений факторов, включенных в регрессию, и имеет место гетероскедас- тичность остатков. В противном случае (/факт^ ^табл) делается вы- вод об отсутствии гетероскедастичности остатков регрессии. Применительно к нашему примеру 3.14 зависимость квадра- тов остатков оказалась следующей: 6^ =-83,882+5,879х-0,016x4 W / (-0,66) (2,41) (-1,72). Значимость коэффициента при х весьма существенна (^табл ~ 2,11), коэффициент при х^ менее значим: вероятность ошибки 0,1034. Но в целом F-критерий = 3,77 превышает с веро- ятностью 0,95 табличное значение 3,59. Следовательно, необхо- димо признать наличие гетероскедастичности остатков исходя из теста Уайта. При этом количественно гетероскедастичность мо- жет быть представлена квадратичной функцией. Тест Парка также относится к формализованным тестам гете- роскедастичности. Предполагается, что дисперсия остатков свя- зана со значениями факторов функций 1пг^ = а-^ Ь\пх-^ и. Дан- 198
пая рефессия строится для каждого фактора в условиях много- факторной модели. Проверяется значимость коэффициента рег- рессии b по /-критерию Стьюдента. Если коэффициент рефессии для уравнения In г^ окажется статистически значимым, то, следо- вательно, существует зависимость 1п 8^ от In х, т.е. имеет место ге- тероскедастичность остатков. В нашем примере обнаружена квад- ратичная функция е^ от X, поэтому степенная зависимость е^ от х вряд ли будет иметь место, что и подтвердили расчеты: In е^ = 2,158 + 0,4541 Inх /^ = 0,0653; F= 1,26; t^ = 1,121 при табличных значениях: q 05^118 ^ 4,41 и 0 05^18"^'^' ^•^* диспер- сия остатков не представляет собой степенную функцию от зна- чений фактора X. Если тесты Уайта и Парка предназначены для оценки гетерос- кедастичности для квадрата остатков е^, то тест Глейзера осно- вывается на рефессии абсолютных значений остатков |8 |, т.е. рассматривается функция |8,| = а + Ьх^ + W/. Рефессия |8j отх,- строится при разных значениях параметра с, и далее отбирается та функция, для которой коэффициент рефессии b оказывается наиболее значимым, т.е. имеет место наибольшее значение Г-кри- терия Стьюдента или /'-критерия Фишера и R}, Для нашего примера тест Глейзера дал следующие результаты: при с = 1 18.1 = 5,507 + 0,069х, t^ = 2,306; при с = 2 |8.| = 9,092 + 0,000193х^, /^,= 1,58; при с = 3 |8.| = 10,325 + 0,000000441x^ /^=0,956; при с = 4 |8.| = 10,73 + 0,000000001115х\ /^=0,675. Параметр с может принимать как дробные, так и отрицатель- ные значения: прис = -1 |8.|= 12,861-35,411/х, /^,= 1,26; при с = 0,5 I ёу I = 0,779 + 1,268^, /^ = 2,49; при с = -0,5 |8.|= 16,027-27,9/л/х, /^=1,71. Абсолютная величина остатков |8,| обнаруживает некоторую гетероскедастичность при с = 1 и с = 0,5, когда фактическое зна- чение /^, превышает табличное, равное 2,11. При обнаружении гетероскедастичности остатков рефессии ставится цель ее устранения, чему служит применение обобщен- ного метода наименьших квадратов (разд. 3.11). 199
При построении рефессионных моделей чрезвычайно важно соблюдение четвертой предпосылки МНК — отсутствие автокор- реляции остатков, т. е. распределения остатков е, и 8/_i независи- мы. Автокорреляция остатков означает наличие корреляции между остатками текущих и предьщущих (последующих) наблю- дений. Коэффициент корреляции между е,- и 8,._i, где е,- - остатки текущих наблюдений, e,._i — остатки предыдущих наблюдений, может быть определен как г = •ее . _соу(8,,еу) что соответствует формуле линейного коэффициента корреля- ции. Если этот коэффициент окажется существенно отличным от нуля, то остатки автокоррелированы и функция плотности веро- ятности F(z) зависит оту-й точки наблюдения и от распределения значений остатков в других точках наблюдения. Для регрессионных моделей по статистической информации автокорреляция остатков может быть рассчитана, если наблюде- ния упорядочены по фактору х, как это имеет место в табл. 3.9. Коэффициент автокорреляции остатков может быть найден по следующим данным (п = 19): Б/ е/-1 5,6 5,4 8 5,6 4,2 8 -3,5 4,2 6,3 -3,5 -14,9 -0,4 29,0 -14,9 15,1 29,0 1 Учитывая, что cov(8/,8,_i) = 8,-8у_1 - 8,-8/_1 = 924,99 : 19- -(-0,2842) • (-0,7947) = 48,4578, а,. = 15,1347, а,^_ j = 14,7663, по- лучим: г^^. = 0,2168, что при 17 степенях свободы явно незначимо (F-отношение < 1) и демонстрирует отсутствие автокорреляции остатков. Отсутствие автокорреляции остатков обеспечивает состоя- тельность и эффективность оценок коэффициентов регрессии. Особенно актуально соблюдение данной предпосылки МНК при построении регрессионных моделей по рядам динамики, где при наличии тенденции последующие уровни динамического ряда, как правило, зависят от своих предыдущих уровней. Специфика исследования остатков для рефессионных моделей по времен- ным рядам рассмотрена в разд. 6.4. Наряду с предпосылками метода наименьших квадратов как метода оценивания параметров регрессии при построении рег- 200
рессионных моделей должны соблюдаться определенные требо- вания относительно переменных, включаемых в модель. Прежде всего число переменных т должно быть не больше, чем Ая<——.Иначе параметры регрессии оказываются статистичес- ки незначимыми. В общем виде применение МНК возможно, ес- ли число наблюдений п превышает число оцениваемых парамет- ров /W, т. е. система нормальных уравнений имеет решение толь- ко тогда, когда п>т. Чрезвычайно важным является требование, касающееся мат- рицы корреляции исследуемых факторов, которая должна быть свободна от мультиколлинеарности. Во множественной рефессии предполагается, что матрица корреляции факторов представляет собой невырожденную матрицу, определитель которой отличен от нуля. Наличие мультиколлинеарности может исказить экономи- ческую интерпретацию параметров рефессии (см. разд. 3.2). При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов рефес- сии, которые обладают свойством несмещенности, имеют мень- шее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости пара- метров рефессии. Этой цели, как уже указывалось, служит при- менение обобщенного метода наименьших квадратов, к рассмот- рению которого мы переходим. 3.11. ОБОБЩЕННЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ При нарушении гомоскедастичности и наличии автокорреля- ции ошибок рекомендуется заменять традиционный метод наи- меньших квадратов (Ordinary Least Squares — OLS) обобщенным методом (Generalized Least Squares - GLS ). Обобщенный метод наименьших квадратов применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют мень- шие выборочные дисперсии. Специфика обобщенного МНК 201
применительно к корректировке данных при автокорреляции ос- татков будет рассмотрена далее. В этом разделе остановимся на использовании обобщенного МНК для корректировки гетеро- скедастичности. Как и раньше, предположим, что среднее значение остатков равно нулю, а дисперсия их пропорциональна величине К^, т. е. гдеа\. - дисперсия ошибки при конкретном/-М значении фактора; а^ — постоянная дисперсия ошибки при соблюдении предпосылки о гомоскедастичности остатков; Kf — коэффициент пропорциональности, меняющийся с изменением величины фактора, что и обусловливает неоднородность диспер- сии. При этом предполагается, что а^ неизвестна, а в отношении величины К выдвигаются гипотезы, характеризующие структуру гетероскедастичности. В общем виде для уравнения у^ = а + Ь-х^-^ Sf при а\. = с^ К^ модель примет вид: В данной модели остаточные величины гетероскедастичны. Предположив в них отсутствие автокорреляции, перейдем к урав- нению с гомоскедастичными остатками, поделив все перемен- ные, зафиксированные в ходе /-го наблюдения, на V^. Тогда дисперсия остатков будет величиной постоянной, т. е. а^^^ = а^. Иными словами, от регрессии у по х мы перейдем к регрессии на новых переменных: у/^ и х/у/к. Уравнение регрессии примет вид: У( _ О- « Xj 202
Исходные данные для этого уравнения будут иметь вид: У = У1 У2 Уп х = Х2 4^1 ^п Щ По отношению к обычной регрессии уравнение с новыми, преобразованными переменными представляет собой взвешенную регрессию, в которой переменныеужхвзяты с весами l/V^. Оценка параметров уравнения с преобразованными перемен- ными дается с помощью взвешенного метода наименьших квад- ратов, для которого необходимо минимизировать сумму квадра- тов отклонений вида Соответственно получим следующую систему нормальных уравнений: 2 Если преобразованные переменныехиу взять в отклонениях от средних уровней, то коэффициент регрессии b можно опреде- лить как И—ху 203
при обычном применении метода наименьших квадратов к уравнению линейной регрессии для переменных в отклонениях от средних уровней коэффициент рефессии b определяется по формуле Ь = ^ 1.x' Как видим, при использовании обобщенного МНК с целью корректировки гетероскедастичности коэффициент регрессии b представляет собой взвешенную величину по отношению к обычному методу наименьших квадратов с весами 1/К. Аналогичный подход возможен не только для уравнения пар- ной, но и для уравнения множественной рефессии. Предполо- жим, что рассматривается модель вида у = а + bi'Xi-^ Ь2-Х2'^в, для которой дисперсия остатков оказалась пропорциональна К^^. Ki представляет собой коэффициент пропорциональности, при- нимающий различные значения для соответствующих / значений факторов Хх и Х2. Ввиду того, что рассматриваемая модель примет вид: где остатки гетероскедастичны. Для того чтобы получить уравнение, где остатки е^ гомоскеда- стичны, перейдем к новым, преобразованным переменным, раз- делив все члены исходного уравнения на коэффициент пропор- циональности К^. Уравнение с преобразованными переменными составит: Ki Ki к I к I Это уравнение не содержит свободного члена. Вместе с тем, найдя переменные в новом, преобразованном, виде и применив к ним обычный МНК, получим иную спецификацию модели: 204
Параметры такой модели зависят от гипотезы, принятой для коэффициента пропорциональности К^. В эконометрических ис- следованиях довольно часто вьщвигается гипотеза, что остатки е, пропорциональны значениям фактора. Например, если в урав- нении у = а-^ bi-Xi + Ь2'Х2-^ ... + Ьр-Хр + Е допустить, что £= Б • Xi, т. е. Л'=Xi и о^£/ = о^ • Xi^, то обобщенный МНК предполагает оценку параметров следующего трансформи- рованного уравнения: Xi Xj Xj Если предположить, что ошибки пропорциональны х^, то мо- дель примет вид: XX X Лр Лр Лр Применение в этом случае обобщенного МНК приводит к то- му, что наблюдения с меньшими значениями преобразованных переменных х/АГ имеют относительно больший вес при определе- нии параметров регрессии , чем с первоначальными переменны- ми. Вместе с тем следует иметь в виду, что новые, преобразован- ные переменные получают новое экономическое содержание и их регрессия имеет иной смысл, чем регрессия по исходным данным. Пример 3.18. Пусть j^ - издержки производства, Xj - объем продукции, Х2 - основные производственные фонды, Хз - чис- ленность работников, тогда уравнение у = а + bi-Xi + Ь2'Х2-^ Ь2'Х2 + Е является моделью издержек производства с объемными фактора- ми. Предполагая, что а^^. пропорциональна квадрату численнос- ти работников Хз, мы получим в качестве результативного при- знака затраты на одного работника (уДз), а в качестве факторов - следующие показатели: производительность труда (xi/хз) и фондовооруженность труда (Х2/Х3). Соответственно трансфор- мированная модель примет вид: 205
ДС3 X3 X3 где значения параметров Ъ^, b2, 63 не совпадают с аналогичными параметрами предьщущей модели. Кроме того, коэффициенты регрессии меняют экономическое содержание: из показателей силы связи, характеризующих среднее абсолютное изменение из- держек производства с изменением абсолютной величины соот- ветствующего фактора на единицу, они фиксируют при обобщен- ном МНК среднее изменение затрат на работника с изменением производительности труда на единицу при неизменном уровне фондовооруженности труда; и с изменением фондовооруженнос- ти труда на единицу при неизменном уровне производительнос- ти труда. Если предположить, что в модели с первоначальными пере- менными дисперсия остатков пропорциональна квадрату объема продукции а\. = а^ • х^1, можно перейти к уравнению рефессии вида Xi X, X, в этом уравнении новые переменные: у/х^ — затраты на еди- ницу (или на 1 руб.) продукции, Xi/x^ — фондоемкость продук- ции, Х3А1 - трудоемкость продукции. Гипотеза о пропорциональности остатков величине фактора может иметь реальную основу: при обработке недостаточно од- нородной совокупности, включающей как крупные, так и мелкие предприятия; большим объемным значениям фактора могут со- ответствовать большая дисперсия результативного признака и остаточных величин. При наличии одной объясняющей переменной гипотеза а\. = aV приводит к трансформации линейного уравнения j; = a + 6-x-he-x в уравнение — = 6+—+8, в котором параметры аиЬ поменялись местами, константа стала коэффициентом наклона линии регрессии, а коэффициент рег- рессии — свободным членом. 206
Пример 3.19. При рассмотрении зависимости сбережений у от дохода X по первоначальным данным было получено уравне- ние регрессии [8, с. 23] }; =-1,081+0,1178л:. Применив обобщенный МНК к данной модели в предполо- жении, что ошибки пропорциональны доходу, было получено уравнение для преобразованных данных ^ = 0,1026-0,8538—. X X Коэффициент регрессии первого уравнения сравнивают со свободным членом второго уравнения, т. е. 0,1178 и 0,1026 - оценки параметром b зависимости сбережений от дохода. Переход к относительным величинам существенно снижает вариацию фактора и соответственно уменьшает дисперсию ошиб- ки. Он представляет собой наиболее простой случай учета гетеро- скедастичности в рефессионных моделях с помощью обобщенно- го метода наименьших квадратов. Процесс перехода к относитель- ным величинам может быть осложнен выдвижением других гипотез о пропорциональности ошибок относительно включенных в модель факторов. Например, In а\. = In а^ + 6 • Inx + v, те. рассматривается характер взаимосвязи In е^,- от In jc. Использование той или иной гипотезы предполагает специальные исследования остаточных величин для соответствующих рефессионных моделей. Примене- ние обобщенного МНК позволяет получить оценки параметров модели, обладающие меньшей дисперсией. Обобщенный метод наименьших квадратов устраняет гете- роскедастичность, если известна взаимосвязь ошибок рефессии (б,) с фактором X (например, на основе рассмотренных тестов ге- тероскедастичности). Иными словами, должны быть установле- ны коэффициенты пропорциональности К^, что и приводит к взвешенному методу наименьших квадратов. Компьютерная реа- лизация взвешенного МНК имеет место, например, в пакете «Econometric Views». Используя тест Уайта и определив рефес- сию е/ = а + Z>x -Ь сх^ + W, можно найуи теоретические значения Е? и получить систему весов К^ = v ^? • * Данная процедура описана в учебнике: Кремер Н.Ш., Пушко Б.А. Эконометрика. - М., 2002. - С. 165-166. 207
3.12. МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ Метод максимального правдоподобия (ММП) является одним из наиболее широко используемых методов в статистике и эконо- метрике для отыскания параметров законов распределения, а также для нахождения неизвестных параметров эконометричес- ких моделей. Для его применения необходимо знание формы за- кона распределения исследуемой случайной величины. Последовательность рассуждений при решении задач по ММП такова. Пусть имеется некоторая исследуемая величина Ус заданным законом распределения/(У). Параметры этого закона неизвестны, и их нужно найти. В общем случае величину /рас- сматривают как многомерную, т. е. состоящую из нескольких од- номерных величин Z^ Z , Z^,..., Z'". Над случайной величиной Упроводятся наблюдения, и фик- сируются ее значения: у^, у^, у^, ..., Уп- Для простоты предполо- жим, что У- одномерная случайная величина и ее отдельные зна- чения представляют собой некие числа. Каждое из полученных значений у^^, У2, у^, •.-, Уп рассматривается как реализация не од- ной случайной величины У, а нескольких, вернее говоря, п слу- чайных величин: Y^, Y^, У3, •.., У^, т. е. у^ - реализация случайной величины У]; ^2 ■" реализация случайной величины Y^, Уз - реали- зация случайной величины У3; у^ - реализация случайной вели- чины У„. Параметры закона распределения вектора У, состоящего из случайных величин У,, Y^, У3,.-., У^ представляют как вектор 0, состоящий из к параметров: Gj, 62,..., 6^. Обратите внимание, что в общем случае нет соответствия между конкретной случайной величиной у; и параметром 9^. Это отражается в нумерации вели- чин и параметров: случайных величин Y^ — п единиц (наблюде- ний), а параметров распределения - к единиц. Величины Y^, Y^, У3,..., Y^ могут быть распределены как с одинаковыми параметра- ми, так и с различными; некоторые параметры могут совпадать, а остальные - отличаться. Конкретный ответ на этот вопрос зави- сит от задачи, которую решает исследователь. Например, если стоит задача определения параметров закона распределения случайной величины У, реализацией которой яв- 208
ляются величины yj, Y2, >з, •••» ^л> то предполагают, что каждая из этих величин распределена так же, как и величина Y. Другими сло- вами, любая Yf описывается одним и тем же законом распределе- нияДУ;), причем с одними и теми же параметрами 0: 9i, 62,..., Q^- Другой пример - нахождение параметров уравнения регрес- сии. В этом случае каждая случайная величина Y^ рассматривает- ся как имеющая «собственные» параметры распределения, кото- рые могут частично совпадать с параметрами распределения дру- гих случайных величин, а могут и полностью различаться. Ниже будет рассмотрено более подробно применение ММП для нахож- дения параметров уравнения рефессии. В рамках метода максимального правдоподобия совокуп- ность имеющихся значений у^, У2, Уз, ..., Уп рассматривается как некоторая фиксированная и неизменная, т. е. закон/(У^) есть функция от заданной величины у^ и неизвестных параметров 0. Следовательно, всего имеется п законовДУ;). Неизвестные параметры этих законов распределения рас- сматриваются как случайные величины. Они могут меняться, од- нако при данном наборе значений ^i, У2, у^, ---^Уп наиболее веро- ятны конкретные значения параметров. Другими словами, воп- рос ставится таким образом: каковы должны быть параметры 0, чтобы значения у^, У2, :кз> •••» Уп были наиболее вероятны? Для ответа нужно найти закон совместного распределения ве- личин Tj, Y2, Y2, ..., Y„ -/[^1, Y2, Y2, ..., Y„), Если предположить, что наблюдаемые нами величины у^, У2, у^, -, Уп независимы, то он равен произведению п законов/(У;) (произведению вероят- ностей появления данных значений для дискретных случайных величин или произведению плотностей распределения для неп- рерывных случайных величин): m,Y2^...J„)=f(Y0f(Y2)'"f(Y„) или /(у„}'2,...,};)=п/(>^). /=1 С целью подчеркнуть тот факт, что в качестве переменных рассматриваются искомые параметры 0, введем в обозначение закона распределения еще один аргумент — вектор параметров 0: 14-3291 209
/(Г) = /(Г,0); С учетом введенного аргумента закон совместного распреде- ления независимых величин Yi, Y2, Y^, ....У^с параметрами 0 бу- дет записан как /(У„У2,...,1;,0) = П/(};,©). /=1 Полученную функцию называют функцией максимального правдоподобия и обозначают L(Y, &): L(Y,®) = nf(Y,M /=i Еще раз подчеркнем тот факт, что в функции максимального правдоподобия значения У считаются фиксированными, а пере- менными являются параметры вектора 0 (в частном случае — один параметр). Часто для упрощения процесса нахождения не- известных параметров 0 функцию правдоподобия логарифмиру- ют, получая логарифмическую функцию правдоподобия /(У,0) = In ДУ,0) =1п (П/(}^, 0)). 1=1 Дальнейшее решение по ММП предполагает нахождение та- ких значений 0, при которых функция правдоподобия (или ее логарифм) достигает максимума. Найденные значения 00^,, назы- вают оценкой максимального правдоподобия. Методы нахождения оценки максимального правдоподобия достаточно разнообразны, что объясняется разнообразием полу- чаемых функций. В простейшем случае функция правдоподобия является непрерывно дифференцируемой и имеет максимум в точке, для которой ^ДУ,0)^О de 210
или de = 0. в более сложных случаях максимум функции максимачьного правдоподобия не может быть найден путем дифференцирования и решения уравнения правдоподобия, что требует поиска других алгоритмов его нахождения. В иных случаях функция дифферен- цируема, но полученные выражения нелинейны. Следовательно, нельзя найти параметры 0 путем алгебраических преобразований. Тогда применяют другие алгоритмы, в том числе итеративные, требующие фомоздких и трудоемких вычислений. Для нахождения параметров множественной линейной рег- рессии вида у = а + biXi + Й2Х2 + ...+ ЬрХр н- 8 необходимо знать законы распределения зависимых переменных Yf или случайных остатков 8/. Пусть переменная У^ распределена по нормальному закону с параметрами ц,, а,. Каждое наблюдае- мое значение у^ имеет в соответствии с определением рефессии среднее значение в точке ц,, равной теоретическому значению j?): Ц,. = fl + b^X^i Н- 62^2/ + •••+ bpXpi, где JCi/, ^2/,..., Xpf— значения переменных факторов в /-м наблюдении. В случае, если наблюдения Y^ гомоскедастичны, они имеют одинаковую дисперсию, т. е. а,- -Gy -ст , V,.,y. Следует отметить, что дисперсия величины }^-в данном случае не равна дисперсии величины У. Дисперсия величины У опреде- ляется как средний квадрат отклонения от средней величины, рассчитанной для всего диапазона наблюдений У, вне зависимос- ти от значений факторов, оказывающих на него влияние: а2=М. i(yi-yf П ЪУ1 где y = ^-^—. п 14- 211
Дисперсия величины Y^ определяется как средний квадрат отклонения от средней величины, рассчитанной только для тех наблюдений, которые имеют одинаковые значения факторов jci, Х2, Хз,..., Хр . Средняя величина ц, в этом случае равна выравнен- ному значению>!,-: Of = i(yis-\^if К где \ii^—^—. В приведенных формулах у^ - наблюдаемое значение зависи- мой переменной при заданном наборе значений факторов Xi,-, Хц, дсз/,..., Xpi, Индекс / показывает номер первого в ряду значения за- висимой переменной при одинаковых значениях факторов, ин- декс S - номер зависимой переменной внутри подгруппы, сфор- мированной по этому признаку, Л, — число таких значений. В эко- номических наблюдениях, как правило, одному набору значений факторов соответствует одно или (что реже) незначительное чис- ло значений результата. Поэтому приведенные формулы являют- ся скорее гипотетическими, справедливыми при многократном повторении «опыта» в равных условиях. Если предположить независимость отдельных наблюдений j^,., то получим следующую функцию максимального правдоподобия: Д1^,И,а) = П 77—= П- /= ^ в приведенной функции делитель VItc является константой и не оказывает влияния на нахождение ее максимума. Поэтому для упрощения расчетов он может быть опущен. С учетом этого заме- чания и после логарифмирования данная функция примет вид: /-1 2а, 212
в соответствии с ММП найдем производные логарифмичес- кой функции правдоподобия по неизвестным параметрам а, Ь^, />2,..., Ьр, Gf. da 1=1 d^(Y,^l,a) _"Хи(У1 -a-biXy -Ь^х^, -...-^^,x^„) dl{Y,}i,a) _ я Xjiiyi -а-М» -Уг/ ---V^,) ^^2 '«1 ^/(Г,ц,а) _|^х^/(>^/ -g-Mi/ -^2X2^ -...-bpXpi) dbj, /=i a? Для нахождения экстремума приравняем полученные выра- жения к нулю и будем считать, что наблюдения гомоскедастич- ны, т. е. о^-<5=^ const. После преобразований получим: ЁУ/=ЛЛ+*12;Х1,.+б2Ёх2/+-+*/;Ё^р/» /=1 /=1 /=1 л п п ^ п п ZXl/У/ =^1^1/ +*lZXl/ +*2ZXl/X2/- +.-.+^ZXl/-X/,/, /=1 Ы\ /=1 /=1 /=1 1Х2|У/ =«1^2/ +*iZ^l/^2/' +^2X^2/ +...+*;,Zx2/Xp/, /=1 /=1 /=1 /=1 /=1 /=1 /=1 /«1 /=1 /=1 а2=М t(yi -a-b^x^ -Й2Х2 -,.,'bpXpf Эта система соответствует системе, полученной по методу на- именьших квадратов, т. е. ММП и МНК дают одинаковые резуль- 213
таты, если соблюдаются предпосылки МНК. Последнее выраже- ние дает оценку остаточной дисперсии (дисперсии ошибок). Мы разобрали случай применения метода максимального правдоподобия для нахождения параметров линейной множест- венной рефессии при условии, что величина Y^ нормально расп- ределена. Другой подход к нахождению параметров той же рег- рессии заключается в построении функции максимального прав- доподобия для случайных остатков s,. Для них также предполага- ется нормальное распределение с параметрами 0; с,. Нетрудно убедиться, что результаты решения в этом случае совпадут с ре- зультатами, полученными выше. 3.13. ТОБИТ-МОДЕЛИ Тобит-модели - это модели рефессии, содержащие в себе в качестве результата так называемые цензурированные перемен- ные. Цензурированными называют переменные, наблюдаемые значения которых, большие (меньшие) определенной величины («порога цензурирования»), берутся в неизменном виде, а значе- ния переменной, равные или меньшие (большие) данной вели- чины, приравниваются к этой величине. В общем виде данное положение можно записать как: {у. у.>с " ' (цензурирование снизу) или У1=\ ^' ' (цензурирование сверху), [с, yi>c где с - константа. Частным случаем является с = 0. Модель рефессии, включа- ющая цензурированную (при с = О и цензурировании снизу) пе- ременную в качестве фактора, называется тобит-моделью в честь создателя такой модели, нобелевского лауреата 1981 г. Джеймса Тобина. Модель имеет вид: у = а-^ biXi + ^2^2 ^" •••"'" ЬрХр + 8, 214
где ^' [О, у,<0' а, bi, bi,..., bp — неизвестные параметры модели; Xj, Xj, '"Хр- объясняющие переменные (факторы); Б - случайные остатки. Дж. Тобин построил такую модель для изучения расходов семьи на автомобили. Эти расходы неотрицательны или равны нулю (в случае отказа от покупки автомобиля). Дж. Тобин пока- зал, что если построить уравнение степенной рефессии расходов на автомобили от доходов семьи и найти его параметры с по- мощью МНК, то они будут смещенными и несостоятельными. Для получения более корректных выводов нулевые расходы сле- дует рассматривать не как настоящие, а как наблюдаемые. Реаль- ные же «расходы» равны отрицательным величинам. Для реше- ния задачи нахождения параметров рефессии в данном случае может быть применен метод максимального правдоподобия. Напомним, что для построения функции правдоподобия не- обходимо указать закон распределения наблюдаемых значений зависимой переменной У, которые рассматриваются как отдель- ные случайные величины. Предположим, что эти величины неза- висимы и распределены по нормальному закону с математичес- ким ожиданием, равным теоретическому (найденному по урав- нению рефессии) значению j^„ и некоторым средним квадрати- ческим отклонением а^ = а^, одинаковым для всех наблюдений. В соответствии с определением тобит-модели все зависимые пере- менные, входящие в нее, делятся на две фуппы. В первой факти- ческие значения равны наблюдаемым, во второй — фактические значения занимают область от минус бесконечности до нуля, а наблюдаемые равны нулю. Для первой фуппы закон распределения каждой из величин Yi определяется плотностью нормального распределения: /(У/) = —^- '"' а, eV2^ Для каждого наблюдения из второй фуппы справедливо сле- дующее. При заданном наборе значений факторов среднее значе- 215
ние переменной Y^ равно теоретическому значению у^, среднее квадратическое отклонение составляет а^. Фактическое значение у неизвестно, известно лишь, что оно находится на интервале [-оо; 0]. Вероятность попадания значений переменной У^в этот интервал составляет: -00 Ср yjzn -00 Преобразуем данную формулу. Во-первых, представим интег- рал на интервале (-оо; 0] как сумму двух интегралов — на интер- валах (-оо; у^] и [у,; 0] (по условию, у^ < 0): \ yi -у 2 1 О л 2 Ж0)=^7=|е '"^ dz+—)=ic '"^ dz. а£>/2я-оо a^yJ2n}i Поскольку нормальное распределение имеет плотность расп- ределения, симметричную относительно математического ожи- дания jJ^, первое слагаемое равно 0,5 (оно показывает вероятность того, что фактическое значение переменной Y^hc превысит ее ма- тематического ожидания). Для преобразования второго слагае- мого можно воспользоваться следующей формулой для вероят- ности нахождения значений переменной У^в интервале [а; р]: Р(а<}^.<Р)=—?=Je '"' rf^=o(EzZL.)_o(^L:ZL_), где Ф{х) - нормированная функция нормального распределения (с матема- тическим ожиданием, равным нулю, и средним квадратическим отклонением, равным нулю): 1 ^ — Ф(х)=-^ je 2 dz. В нашем случае а = у,, р = 0. Таким образом получаем: _ А А JV(0) = 0,5 + Ф (^^) -Ф( •^' ~ •^' ) =0,5 + Ф(-^) -Ф(0). 216
Значение нормированной функции Ф(0) равно 0,5. В силу симметричности распределения относительно нуля Ф(—х) = 1 - Ф(х), С учетом этого л iv(0) = 0,5+l-O(^)-0,5; А 7г.(0) = 1_ф(А.). Функция правдоподобия равна (или пропорциональна) веро- ятности появления наблюдаемых значений переменной К Для независимых величин эта вероятность равна произведению веро- ятностей появления отдельных значений у,.Вероятность появле- ния наблюдений первой группы (наблюдаемые величины равны фактическим) определяется через плотность распределения/Сиу). Вероятность появления наблюдений второй группы есть вероят- ность того, что фактическая величина меньше или равна нулю. Она выражается через функцию нормального распределения /)(0). Таким образом, функция правдоподобия равна: л ^=П/()'/)П(1-Ф(—)) или 1=пЦ=е '^' П (1-4=7 ^~*). Логарифмическая функция правдоподобия равна: /= 11п(/(>^,))+11п(1-Ф(-^)). >'/>0 >'/=0 CJ, 8 у. ИЛИ, раскрывая значения функцийу(у/) и Ф(-^) 1= Z (-^^Vf^-ln(a,)-ln(4^))+ Z 1п(1 —1.7e~rfz). У/>0 2(51 У{=0 >/2я -00 217
Для нахождения максимума логарифмической функции правдоподобия определим производные по неизвестным пара- метрам а, bj, b2, ...у bp, Gg. При дифференцировании учтем следу- ющее: • теоретическое значение результатад'/ выражается через урав- нение регрессии, содержащее неизвестные параметры а, bj, b2, ..V bp, • производная от нормированной нормальной функции Ф(х) равна ее плотности ф(а:): 1 -^ yfln Для краткости и удобства чтения отдельные части выраже- ния, полученного в результате дифференцирования, заменим стандартными обозначениями: jJ^, Ф(х), ф(х). f-2 да у.>о\ ( ^ ^ '^ 1 + S ^'=''(1_Ф(А)' 9Й, ,,,>о -Ф(А.)а а, а„ -=1 9*р у,>о (;и,-ЯК + 1 1-ф(-^) -Ф(^)^ \-фф-) ^(;',-Я)^ 1' '«/ + 1 л i_o(iL) 218
Для нахождения неизвестных параметров необходимо при- равнять полученные выражения к нулю и решить систему. Дан- ная система содержит нелинейные выражения, что не позволяет решить ее путем простых алгебраических преобразований. В этом случае используются итерационные процедуры, позволяющие найти оптимальные оценки параметров, опираясь на определен- ный алгоритм пошагового перебора различных значений пара- метров. Для интерпретации параметров тобит-модели нужно найти математическое ожидание зависимой переменной у и продиффе- ренцировать полученное выражение по независимой перемен- ной Xj, являющейся фактором в данной модели. Математическое ожидание зависимой переменной y■^ равно сумме произведений математических ожиданий наблюдаемых значений у^ при условии, что фактические значения у^^^ меньше (или равны) или больше порога цензурирования, на соответству- ющие вероятности наступления этих событий: Л/(>^.) = Л/(>;,.|>;;^^^<0)-Р(з;,^"'^ <0)+Л/(у,.|з^;*^^^ >0).P(yf"^ >0). Можно показать, что эта формула преобразуется в выраже- ние Л/(у,) = Ф(—-1-^-^^-^ '-Ц \а ^Ь,х, +^2^2 +••• +V/>) + a + b^x^-^l>2X2-^... + b X Дифференцируя выражение для М(у^) похр получаем: dM(v) fl + Axi +йьх2 +...+йдХ- fli!iHLZ = o(—^ ^ ^ ^ ^-^)-й/. (3.42) dX: Gp Таким образом, влияние фактора Xj не является постоянным. Для «средней» характеристики его воздействия на результат в вы- шеприведенную формулу подставляют средние значения факто- ров. Поскольку функция распределения Ф изменяется в фани- цах [0;1], коэффициент bj можно проинтерпретировать как верх- 219
НИИ предел среднего изменения результата у при единичном из- менении фактора Ху. Рассмотрим пример построения тобит-модели. В качестве пе- ременных выберем денежный доход одного человека х и его рас- ходы на покупку антиквариата у. Для простоты возьмем некото- рые условные числа. Пример 3.20. Ниже приведена зависимость расходов на по- купку антиквариата от доходов (у е.). JC у X у 500 0 2450 140 1000 0 2500 145 1200 0 2600 150 1500 0 2700 165 1800 0 2800 182 2000 110 2300 131 Продолжение 3000 180 3500 182 Оценим параметры уравнения регрессии с помощью рассмот- ренного выше алгоритма по методу максимального правдоподо- бия для тобит-моделей. Использовав программный пакет «Econometric Views», получим: д)=-135,6179+0,099878x; Л^ =0,797, а, =41,975. Для оценки среднего изменения результата при изменении фактора на одну единицу от среднего уровня (Зс = 2256,667) вос- пользуемся формулой (3.42): dM{y;) ^,-135,6179+0,099878 225в,6в1 dx . = Ф( 41,975 ) 0,099878 =0,048241. Таким образом, при изменении денежного дохода на одну единицу от среднего уровня расходы на антиквариат в среднем возрастут на 0,048 д. ед. Для сравнения были получены оценки этой же модели с по- мощью МНК: 220
у = -67,701+0,076529 х; /?2 = 0,821. Сравнивая эти результаты с предьщущими, видим, что МНК- оценки параметров уравнения регрессии не совпадают с оценка- ми по ММП, причем в данном примере и показатель силы связи (коэффициент регрессии) и показатель тесноты связи (коэффи- циент детерминации), полученные методом МНК, больше, чем их оценки, полученные ММП. Контрольные вопросы 1. В чем состоит спецификация модели множественной регрес- сии? 2. Сформулируйте требования, предъявляемые к факторам, для включения их в модель множественной регрессии. 3. К каким трудностям приводит мультиколлинеарность факто- ров, включенных в модель, и как они могут быть преодо- лены? 4. Назовите методы устранения мультиколлинеарности факто- ров. 5. Что означает взаимодействие факторов и как оно может быть представлено графически? 6. Как интерпретируются коэффициенты рефессии линейной модели потребления? 7. Какой смысл приобретает Z6/ в производственных функциях и что означает Z6, > 1? 8. Какие коэффициенты используются для оценки сравнитель- ной силы воздействия факторов на результат? 9. В каких случаях рассчитывается квази-Л^? 10. От чего зависит величина скорректированного индекса мно- жественной корреляции? 11. Каково назначение частной корреляции при построении мо- дели множественной регрессии? 12. Составьте матрицу частных коэффициентов корреляции разного порядка для регрессионной модели с четырьмя фак- торами. 13. Что такое частный /"-критерий и чем он отличается от после- довательного /'-критерия? 221
14. Как связаны между собой /-критерий Стьюдента для оценки значимости Ь^ и частные /'-критерии? 15. При каких условиях строится уравнение множественной рег- рессии с фиктивными переменными? 16. Как трактуются коэффициенты модели, построенной только на фиктивных переменных? 17. Сформулируйте основные предпосылки применения МНК для построения рефессионной модели. 18. В чем сущность анализа остатков при наличии регрессион- ной модели? 19. Как проверить наличие гомо- или гетероскедастичности ос- татков? 20. Как оценивается отсутствие автокорреляции остатков при построении статистической регрессионной модели? 21. Каковы условия применения обобщенного метода наимень- ших квадратов? 22. Что такое функция правдоподобия? Каковы основные прин- ципы ее построения? 23. При каких условиях применение метода максимального правдоподобия приводит к системе уравнений, получаемых по методу наименьших квадратов? 24. Что такое тобит-модель, какова область ее использования? 25. Каким методом могут быть найдены параметры тобит-мо- дели?
4 Глава МОДЕЛИ С ДИСКРЕТНОЙ ЗАВИСИМОЙ ПЕРЕМЕННОЙ При исследовании связей между социально-экономическими явлениями зависимая переменная довольно часто является диск- ретной, т.е. принимает значения О, 1, 2, 3,.... При этом возможны следующие представления зависимой переменной: • количественная целочисленная характеристика. Это может быть число аварий, совершенных водителем за исследуемый пе- риод; размер семьи (по количеству членов или детей); количест- во частных поликлиник и т.д.; • качественная целочисленная характеристика, определяю- щая одно из двух или более возможных состояний характеризуе- мого ею объекта. Например, результаты голосования (за, про- тив); социальный статус респондента (рабочий, служащий, руко- водитель и т.д.); решение о покупке какого-либо товара длитель- ного пользования (О — нет, 1 - да); • порядковая (ранговая), когда выбор среди нескольких аль- тернатив ранжированный. Это может быть, например, оценка уровня автоматизации какого-либо производства (низкий, сред- ний, высокий) или уровень образования (начальное, среднее об- щее, среднее специальное, незаконченное высшее, высшее). Каждая из описанных переменных зависит от ряда факторов, и в каждом конкретном случае исследователи пытаются создать модели, описывающие эту зависимость. Сначала мы рассмотрим модели бинарного, а затем множественного выбора. 4.1. МОДЕЛИ БИНАРНОГО ВЫБОРА в этом классе моделей зависимая переменная может прини- мать только два значения, т.е. она является качественной пере- менной, определяющей одно из двух возможных состояний. 223
Например, является безработным или имеет работу человек в обследуемом периоде времени. Если человек имеет работу, то ре- зультирующий показатель у^ принимает значение единица, если опрошенный оказался безработным — нуль: Следовательно, вектор Y= (У\, У29 —^Уп) исходных статисти- ческих данных будет содержать только дихотомические (бинар- ные) признаки. Для исследования зависимости Y= (у\,У2, —,Уп) от ряда объясняющих переменных х = (х\ дс^, ..., х^)' может быть ис- пользована модель линейной регрессии: Я = х;р +8,,/=!,...,«, (4.1) где / — номер наблюдения: Р = (Pi, Р2,..., Р/сУ — набор неизвестных параметров; Е, - случайная ошибка. Поскольку >', принимает значения О или 1 и Е(8,) = О, матема- тическое ожидание у^ равно: Е(у,) = 1 • Р();,= 1) + О • Р{у, = 0) = Р(у,= 1) =х/р. Таким образом, модель (4.1) может быть записана в виде P();,= l)=Vp, (4.2) поэтому ее называют линейной моделью вероятности. Линейная модель вероятности имеет множество недостатков, наличие ко- торых не позволяет использовать ее для оценивания коэффици- ентов р и прогнозирования у. Рассмотрим простейшую линейно вероятностную модель: у = а + Ьх + г, где у — использование прогрессивной технологии, х — возраст оборудования (в годах). 1о-, I- используется прогрессивная технология; У- ' - не используется профессивная технология. 224
Поскольку)' —дихотомический признак, при построении мо- дели определяется среднее ожидаемое значение у, т. е. j/, что со- ответствует вероятности наступления события при фиксирован- ном среднем значении х. Это накладывает отпечаток на интер- претацию коэффициента рефессии 6, который показывает сред- нее изменение вероятности наступления события. Так, если у = 0,85 — 0,0375 X, то, следовательно, с ростом возраста оборудо- вания на 1 год вероятность использования профессивной техно- логии снижается в среднем на 0,0375, или, если выразить ее в процентах - на 3,75 проц. пункта. Необходимо отметить, что в ряде случаев в модели у = а + Ьх-^г, где у - фиктивная переменная, применение обычного МНК может привести к неинтерпретируемым результатам: при подста- новке в рефессию индивидуальных значений х отдельные значе- ния у могут оказаться либо < О, либо > 1, что противоречит самой постановке задачи. Незначительное осложнение возникает в связи с тем, что 8 имеет дисперсию, зависящую отх^: V{z^ =^/Р(1 -^/Р), т.е. модель (4.2) является гетероскедастичной. В этом случае оценки коэф- фициентов р, полученные методом наименьших квадратов, явля- ются смещенными и неэффективными. С другой стороны, 8/ в каждом наблюдении может принимать только два значения: 8, = 1 — х-Р с вероятностью Piy^ = 1) и 8,. = Х/Р с вероятностью 1 - Р{у1 = 1), что не позволяет считать ошибку нормально распре- деленной. Указанные недостатки, как известно, можно исправить. Од- нако наибольший недостаток, как уже отмечалось, состоит в том, что прогнозные значения у могут быть как отрицательными, так и превосходящими единицу. Таким образом, для моделирования значений Piy^ = 1) подби- рают функции, область значений которых определяется отрезком [0;1], ах/р ифает роль аргумента этой функции, т.е. P(y,= l) = F(x]^). (4.3) Функция F() должна быть непрерывной, неубывающей функцией. Известны разные интерпретации модели (4.2). Один из подходов основан на введении некоторой ненаблюдаемой, или латентной переменной у*, изменяющейся от — оо до + оо и порож- дающей наблюдаемую зависимую переменную у. Предположим, ,5-3291 225
что латентная переменная у* линейно зависит от вектора объяс- няющих переменных: у,* = х;р + 8,-. (4.4) Латентная переменная у* связана с бинарной переменной у следующей системой: II, если у* > с О, если у^ < с где с — некоторое пороговое значение. Выбор функции F() определяет тип бинарной модели. Наи- более часто в качестве функции F() используют: • функцию стандартного нормального распределения V2n-oo и соответствующую модель называют пробит-моделью (probit- model); • функцию логистического распределения 1 + е" и соответствующую модель нгзыъгютлогит-моделью (logit-model). Естественно, часто возникает вопрос, какую из этих моделей использовать в том или другом случае. Теоретически трудно от- дать предпочтение тому или другому распределению. На практи- ке в каждом конкретном случае этот вопрос решается исследова- телями исходя из особенностей задачи. Логистическое распреде- ление имеет тенденцию давать большие, чем нормальное распре- деление, вероятности P(yi = 0) для очень малых х/р и меньшие ве- роятности Р(у1 = 0) для очень больших значений х/р. Для выборок с небольшим разбросом объясняющих переменных качествен- ные выводы, полученные при использовании пробит- и логит- моделей, совпадают. Независимо от того, какое распределение используется для оценки параметров модели, важно обратить внимание на то, что модель является нелинейной по параметрам р и их интерпрета- 226
ция отличается от привычной интерпретации коэффициентов линейных регрессионных моделей. Коэффициенты бинарной модели не могут интерпретироваться как предельный эффект влияния объясняющих переменных на зависимую переменную. Предельный эффект каждого объясняющего факторах^,7 = 1,..., А:, является переменным, зависит от значения всех остальных фак- торов и вычисляется как ^E!^Z}1 = F\x'm = /(xW, (4.5) дх гдеДУ Р) — плотность распределения, которая соответствует функции расп- ределения Ддс'Р). Для нормального распределения — это ^?^^ = Ф'(х'Р)Р = ф(х'Р)р, дх где ф(дс) — плотность стандартного нормального распределения. Для логистического распределения ^Л[х^р] е — = Л(х'Р).[1-Л(х'р)]. Тогда в логит-модели предельный эффект объясняющих пе- ременных вычисляется как ^^^^ = Л(х'р).[1-Л(х'р)].р. дх Необходимо также обратить внимание на то, что поскольку плотность распределения неотрицательна, направление измене- ния эффекта зависит только от знака коэффициента. Положи- тельные значения показывают, что вероятность прогноза зависи- мой переменной увеличится, а отрицательные — что вероятность прогноза понизится. При использовании этой модели для получения «среднего» предельного эффекта рекомендуется вычислять производные (4.5) для средних по выборке значений независимых переменных х 15* 227
4.2. ОЦЕНИВАНИЕ ПАРАМЕТРОВ МОДЕЛЕЙ БИНАРНОГО ВЫБОРА Для оценки параметров р модели (4.3) применяют метод мак- симального правдоподобия. Предположим, что наблюдения yj,..., д'^ независимы. С учетом того, что у^ принимает значение О или 1, получаем функцию правдоподобия следующего вида: L=цу^,..., Ул) = п (1 -F(x;m п F(x;p^, .4 6^ yi-O yi^\ ^^'^^ Для удобства выражение (4.6) можно записать так: i Логарифмируя, получаем выражение логарифма функции правдоподобия: / = In I = Щ InF(x;p) HI -y,)ln(l -F(x;m]. (4.7) Для пробит-модели F{) является функцией стандартного нормального распределения. Следовательно, логарифм функции правдоподобия примет вид: / = In I = Z 1п[1 - Ф(х;р)] + Z In Ф(х;р). .4 g. Для нахождения максимума логарифмической функции правдоподобия необходимо выполнение следующего условия: - = 0. Отсюда получаем уравнение правдоподобия: эр а/ Гм^с^_(1->,)/(.;р), 5р г[ /-(х/р) i-F{x;p) I' ^^'^^ Если не используем линейную модель вероятности, то урав- нение (4.9) будет нелинейно относительно р и для его решения придется прибегать к численным методам. 228
Для пробит-модели уравнение правдоподобия имеет вид: л ар yf:o\-Ф, ' у%Ф, ' м1,Ф(^,х;р) j X/, (4.10) где ф = Ф'; Обозначив в формуле (4.10) выражение в скобках как X, полу- чим окончательный вид уравнения правдоподобия: ^ = ZM/=0. (4.11) sp /=1 Для логит-модели оно существенно упрощается. Действи- тельно, так как А'(и) = А{и)(1-А(и)), то Z(>'/-A(x;p))x,=o. Для обеих моделей метод Ньютона — прямой способ вычис- лить оценки параметров. Вторые производные для логит-модели вычисляются достаточно просто: 5р-5р / Заметим, что гессиан Н — отрицательно определен, так что In L является вогнутой по р функцией, и, следовательно, решение уравнения (4.9) дает оценку параметров р. Для пробит-модели вычисления являются более слож- ными. При использовании обозначения Xj = Х(у(, х-Р) вто- рые производные могут быть получены для произвольного г: dO(z) dz • = -z- ф(г). Тогда гессиан имеет вид: ар-5р' 7 229
Здесь Н также отрицательно определен для всех значений р. Более подробно этот вопрос изложен в [17]. Процедуры оценива- ния пробит- и логит-моделей реализованы в большинстве совре- менных эконометрических прикладных программ, например «Econometric Views 3.1», STATA. Для оценки качества модели используются два аналога ^ для линейной регрессии: pseudo 1^ и McFadden ^. Пусть / (Log likelihood) — логарифмическая функция правдо- подобия для нашей модели, а /" (Restr. log likelihood) — ограничен- ная логарифмическая функция правдоподобия, т.е. логарифми- ческая функция правдоподобия для модели, в которой все пара- метры, за исключением свободного члена, равны нулю. Очевид- но, что / > /'. Чем больше различаются их значения, тем лучше наша модель. Исходя из этого условия строятся оба показателя: 1 1 pseudo Л = 1 - 1.2('-') N где Л^- объем выборки; McFadden R} ^ \-L I Индекс McFadden ^ часто называют индексом отношения правдоподобия (likelihood ratio index). Оценив параметры модели, перейдем к проверке гипотез о значимости одного или группы коэффициентов моделей бинар- ного выбора. Самый простой метод для единственного ограниче- ния основан на использовании /-статистики. Для большего коли- чества ограничений проверка гипотез о значимости может прово- диться при помощи тестов Вальда, отношения правдоподобия, множителей Лагранжа и др. Во всех этих тестах нулевая гипотеза формулируется как Яо:СР = /', где р — вектор тестируемых параметров; Q — матрица ограничений; г — вектор констант. Тест Вальда (W) (Wald test). Тест Вальда основан наjpee, что при выполнении нулевой гипотезы вектор оценок Q р должен быть близок к г. 230
Следовательно, если имеет место нулевая гипотеза, то Q^-r-N(0, Qix'Q-^xy^Q"), (4.12) где Q — ковариационная матрица. Используя свойство нормального распределения, получаем статистику Вальда (критерий Вальда): }V^(Q^-rY(Q{x'Cy^x)-^Qr\Q^-r)-x4n). (4.13) Эта статистика имеет распределение х^ с числом степеней свободы, равным числу ограничений в гипотезе. Например, для тестирования гипотезы Яо : р, = Р2 = О ограничение Q^ = г необ- ходимо записать в следующем виде: "•'■''II f. 0;0;lj ^' Далее вычисляется значение статистики Вальда по формуле (4.13) и сравнивается значение нашей статистики с табличным значением распределения х^ Л^^ заданного уровня значимости. Если вычисленное значение превышает критическое, то гипоте- за при заданном уровне значимости отклоняется в пользу альтер- нативной (т. е. такой, что коэффициенты не равны 0). Тест множителей Лагранжа {LM) (Lagrange multiplier test). Тест множителей Лафанжа основан на идее, что при выполнении нуле- вой гипотезы все множители Лафанжа должны быть равны нулю, поэтому и вектор / (вектор множителей Лафанжа) должен быть близок к нулю. В том случае, когда выполняется нулевая гипотеза, J-N(Q,{Q{x'Qr'x)-'Q')), (4.14) тест множителей Лафанжа имеет вид: LM =rQ{x'Or^x)-^Q'l-X^(n). (4.15) Тест отношения правдоподобия (LR) (Likelihood ratio test). Он основан на том, что если нулевая гипотеза (сформулированная выше) справедлива, то отношение максимальных значений функций правдоподобия для рефессии с ограничением и без огра- 231
ничения должно быть близко к 1. Таким образом, в качестве кри- тической статистики используется разница максимумов лога- рифмических функций правдоподобия: LR = -2(1п ДР)- In Щ)). (4.16) Тест отношения правдоподобия LR имеет х^-распределение с числом степеней свободы, равным числу независимых офаниче- ний. Вычисленное значение статистики сравнивается с таблич- ным значением распределения х^ для заданного уровня значи- мости. Если вычисленное значение превышает критическое, то гипотеза при заданном уровне значимости отклоняется в пользу альтернативной. Отметим, что тесты Вальда, отношения правдо- подобия и множителей Лафанжа асимптотически эквивалентны [9, с. 253-260]. Пример/Рассмотрим применение моделей бинарного выбо- ра для исследования связи между вероятностью попасть в дорож- но-транспортное происшествие (ДТП) и индивидуальными ха- рактеристиками водителя и его транспортного средства. Пусть у - зависимая переменная, принимающая для /-го во- дителя следующие значения: у^ = О, если он попадал в дорожно- транспортное происшествие в наблюдаемом периоде, у^=\—в противном случае. Зависимость попадания в дорожно-транс- портное происшествие исследуется от следующих факторов: Xi - возраст водителя, лет; Х2 - водительский стаж, лет; Хз - мощность транспортного средства, л.с; Х4 - срок эксплуатации транспортного средства, лет. Для получения статистических данных был проведен опрос водителей транспортных средств. Все водители были предвари- тельно разделены на однородные классы. Результаты оценивания риска с помощью пробит-модели при применении пакета «Econometric Views 3.1» для фуппы водителей, чей средний воз- раст составил 33 года, водительский стаж — 7 лет, мощность транспортного средства - 105 л.с, срок эксплуатации транспорт- ного средства — 7 лет, приведены в табл. 4.1. Модель построена по 577 наблюдениям. 232
Таблица 4.1 Результаты оценки риска возникновения ДТП Переменная Константа Возраст водителя Стаж Мощность Срок эксплу- атации транс- портного средства Коэффици- ент (оценка параметров модели) 12,3953 -0,40097 -0,32762 0,064666 0,157808 Стандартное отклонение 2,707978 0,076374 0,066355 0,012747 0,044557 /-статистика 4,577328 -5,25007 -4,93746 5,072997 3,541737 Р-значение 0 0 0 0 0,0004 Полученные значения коэффициентов дискретной пробит- модели показывают, что вероятность попадания в ДТП уменьша- ется с увеличением возраста и водительского стажа водителя. Од- нако риск возникновения дорожно-транспортного происшест- вия возрастает с увеличением мощности автомобиля и срока его эксплуатации. В табл. 4.2 представлена итоговая статистика. Таблица 4.2 Среднее отклонение Стандартная ошибка регрессии Log likelihood Restr log likelihood Итоговая 0,284229 0,101341 -24,0691 -344,413 статистика Стандартное отклонение LR statistic (#= 5)^ Avg. log likelihood McFadden R-squared 0,451438 640,688 -0,04171 0,930116 Таблица 4.2 содержит следующие обозначения: Log likelihood - логарифмическая функция правдоподо- бия (/). Restr. log likelihood — офаниченная логарифмическая функ- ция правдоподобия (/). 233
Avg. log likelihood — отношение логарифмической функции правдоподобия к количеству наблюдений (//л). LR statistic (—2 • (/ — 1)) — тест отношения правдоподобия; яв- ляется аналогом /"-статистики в линейных регрессионных моде- лях. Используются для проверки значимости пробит-модели. В скобках указано число степеней свободы (в данном примере df= 5). McFadden /?-squared — индекс отношения правдоподобия 1-= . Является аналогом коэффициента детерминации в ли- нейных рефессионных моделях. Для нашей модели значение ха- рактеристики Макфадцена (McFadden) Л-squared оказалось близ- ко к 1, что свидетельствует о статистической значимости полу- ченной зависимости (МсР Л^ = 0,930116). Данные табл. 4.2 показывают, что модель статистически зна- чима. Подводя итоги, еще раз отметим, что к моделям бинарного выбора приходится обращаться, когда анализируемый признак находится в одном из двух состояний в зависимости от значений одного или нескольких объясняющих факторов. 4.3. МОДЕЛИ МНОЖЕСТВЕННОГО ВЫБОРА Модели множественного выбора позволяют моделировать за- висимость между переменной, определяющей более двух воз- можных состояний характеризуемого объекта, и одной или более независимыми (объясняющими) переменными. Известны два основных типа зависимых переменных: • номинальные (качественные). Это может быть, например, выбор способа перемещения (автобус, трамвай, троллейбус); • порядковые. Например, оценка обязательства, испытания вкуса продуктов, блюд (от отвращения до превосходного вкуса). Множественный выбор может быть представлен как последо- вательность бинарных выборов. Предположим, что изучается вы- бор одной из трех медицинских профессий: стоматолог, терапевт и хирург Можно ввести три бинарные переменные, соответству- ющие каждой профессии: У = 1 для стоматолога, у^ -Q для всех остальных; / = 1 для терапевта, / = О для всех остальных; у/ = 1 для хирурга, У = О для всех остальных. Тогда выбор одной из трех 234
альтернатив описывается в виде «дерева» последовательных ре- шений, в узлах которого происходит бинарный выбор. В каждом узле, применяя технику оценивания для бинарных моделей, про- водится оценка условной вероятности выбора соответствующей альтернативы. Безусловная вероятность вычисляется по формуле умножения вероятностей: Р(У = 1) = Р{у' = 0,у^ = 0) = Р(У = 0) Р(у' =0/у'=0). Для данных моделей обычно принимается несколько реше- ний, каждое представляет собой выбор между двумя альтернати- вами. Если же решение единственно среди нескольких альтерна- тив, то этот класс моделей используют в основном для описания вероятности выбора каждой из возможных альтернатив как функции от индивидуальных характеристик. Модели множественного выбора можно разделить на две группы: • модели с неупорядоченными альтернативами (unordered models); • модели с упорядоченными альтернативами (ordered models). Для исследования этих двух типов моделей используют раз- личные подходы. 4.3.1. Модели множественного выбора с неупорядоченными альтернативами Модели множественного выбора с неупорядоченными аль- тернативами чаще всего основаны на предположении, что каж- дая альтернатива имеет случайный уровень полезности и выбира- ется альтернатива, приносящая наибольшую полезность. Данную модель так и называют «модель случайной полезности» (random utility model). Например, это может быть моделирование способа передвижения от дома до работы (автобус, трамвай, троллейбус, машина, велосипед). Таким образом, для /-го индивида, осуществляющего выбор между / альтернативами, пронумерованными в произвольном порядке, полезность выбора может быть представлена как линей- ная функция от независимых (объясняющих) переменных: 235
Если /-Й индивид делает выбору-й альтернативы, то только в том случае, если она будет давать ему максимум полезности. Пусть У/ — случайная величина, которая описывает сделанный выбор. Следовательно, статистическую модель можно предста- вить в виде вероятности того, что выбору сделан: P(yi =У) = Р{Щ> Uit,) для всехk^j,k=\,..., /. Как и в моделях бинарного выбора, для оценки вероятности можно использовать логит- и пробит-модели. Однако из-за пот- ребности вычислять многомерные интефалы по соответствую- щим областям от плотности совместного распределения ошибок Zij пробит-модель применяется редко в отлитие от логит-модели, широко используемой во многих областях, включая исследова- ния рынка. Вероятность Р(у^ = j) имеет достаточно простое представле- ние, если предположить, что 8,у независимы, а также распределе- ны по закону Вейбулла (^ibull), т.е. Тогда F{z^) = можно показать, что PiVi =Л ехр(г'^*')- У=1 (4.17) Обычно в качестве объясняющих факторов выбирают: • характеристики (атрибуты), специфичные для альтернатив, которые могут изменяться в зависимости от вариантов выбора; • индивидуальные характеристики (пол, возраст, националь- ность), не меняющиеся в зависимости от выбранного варианта. Пусть полезности зависят от набора объясняющих факторов Zij = \Х(р wji, где Хц — атрибуты вариантов выбора (признаки выбо- ра), а w^ - характеристики индивидов. Таким образом, (4.17) мо- жет быть записана как m =У) = -f— = -^-^ . (4.18) 7=1 У=1 236
Следовательно, модель (4.18) используется в том случае, ког- да набор объясняющих переменных содержит смесь наблюдае- мых индивидуальных и определенных выбором данных. На прак- тике полезно исследовать два типа данных отдельно и рассмот- реть аспекты, характерные для той или иной модели. Модель, применяемая в случае, когда набор объясняющих переменных представлен индивидуальными характеристиками, называют логит-моделью множественного выбора (multinomial logit model). P(yi=J) = TT^- (4.19) k=0 Оценивание данной модели дает набор из / + 1 вероятности вариантов выбора для /-го индивида с набором характеристик х^. Заметим, что в данном случае объясняющие переменные не зави- сят от альтернативы, тогда как коэффициенты могут от нее зави- сеть. Таким образом, модель (4.19) неидентифицируема, пос- кольку правая часть формулы (4.19) зависит только от разностей Рг - Pi, ..., Pj - Pi- Поэтому для идентифицируемости модели (4.19) обычно используют нормировку ро = 0. Тогда выражение (4.19) запишется в виде Р{У1 = У) = 7 лля всеху = 1, 2,..., /; 1 + Y^e^'^'''^ Р(,,.=0) = —J . (4.20) 1 + Ze'^^'' к=\ Модель предполагает, что могут быть вычислены / отноше- ний шансов L^oJ 237
Также может быть сделана нормализация отндсительно лю- бой другой вероятности: In ^•0 -mj-M- Для оценивания логит-модели множественного выбора при- меняется метод максимального правдоподобия. С использовани- ем описанных выше вероятностей можно построить функцию максимального правдоподобия. Далее применяется один из ме- тодов оптимизации. Логарифм функции максимального правдо- подобия может быть получен при определении, что dij = 1 для каждого /-Г0 индивида, выбравшего у-ю альтернативу, и d^j = О в противном случае. Таким образом, для каждого / только один раз dij может быть равным 1. Логарифм функции максимального правдоподобия имеет вид: lnL = J:J:dy\nP(y,=J). /=1у=0 Дифференцируя, получаем: dlnL 5Ру = ZK -Pyl'^i для всеху = 1, 2,..., /. Матрица вторых производных, состоящая из /^ блоков разме- ра А' х А', имеет окончательный вид: где 1(/ = /) = 1, еслиу = / и О в противном случае. Коэффициенты данной модели сложно интерпретируемы. Не следует ассоциировать напрямую Ру с у-м исходом. Предельные эффекты влияния переменных на вероятности выбора выглядят следующим образом: ЭР, P;-Z^.P)t )t=0 =^;fc-p]- 238
Следовательно, каждый подвектор вектора коэффициентов р входит в формулу предельных эффектов через вероятности, а так- же через взвешенное среднее коэффициентов. Важно отметить, что знак коэффициента Рд необязательно совпадает со знаком дР: предельного эффекта —-. dXf, Модель, применяемая в случае, когда набор объясняющих переменных представлен характеристиками (атрибутами), спе- цифичными для различных вариантов выбора, называют услов- ной логит-моделью (conditional logit model). Для нее Р{У1-Л = ''Ц Ze^'^^ У=1 По своей сути (алгебраически) это та же модель, что и для предьщущего случая. Хотя в то же время параметры данной моде- ли должны быть интерпретированы даже с большей осторож- ностью. В этой модели коэффициенты также не являются выражени- ем значения предельного эффекта. Предельные эффекты можно получить, дифференцируя по л:^: ^ = [Р/1(У=А:)-Р,)]р Очевидно, что каждый атрибут влияет на все вероятности. Хеншер предложил в данном случае рассчитывать эластич- ности, а не вероятности. Эффект атрибута т варианта выбора к на вероятность Pj в таком случае — это ainPy --L = Xi^mj=k)-P,Mk. Оценивание модели происходит аналогично оцениванию предыдущей модели. Логарифм функции правдоподобия в этом случае имеет вид: 239
i=\j=0 Из-за простоты формы функции правдоподобия вектор-гра- диент и гессиан имеют особенно «удобную» форму: d\nL "^. , _^ Ф /=iy=i J где Xi = 'ZPyXij. У=1 Заметим, что поскольку модель не может содержать констан- ту, ограничение р = О превращает все вероятности в 7у- Функция правдоподобия для такого случая - это L^, = —п In /. В качестве альтернативы возможно оценивание модели с (/—1) специфич- ным для вариантов выбора ограничением, что делает функцию правдоподобия с ограничениями такой же, как и для множест- венной логит-модели: InZ^ = Х^у In Pj, j Как уже упоминалось выше, отношение шансов двух альтер- натив не зависит от остальных возможностей. Такое свойство Р / логит-модели, для которого отношение -у^ является независи- / ^к мым от всех остальных вероятностей, называется «независимость от посторонних альтернатив». Это предположение следует из ис- ходного предположения о независимости и гомоскедастичности остатков. Справедливость настоящего предположения можно проверить с помощью теста Хаусмана и Макфадцена. Если некое подмножество множества выбора действительно является «пос- торонним», то его удаление не изменит значительно оцененные параметры. Удаление указанных составляющих выбора будет не- эффективным, но не приведет к несостоятельности оценок. В то же время, если оставшиеся опции в действительности не являют- ся независимыми от удаленных альтернатив, параметры модели, оцененные после удаления, будут несостоятельными. Тестовая статистика имеет вид: 240
* /\ /N f л X =(P.- P/)[^;- У/] Ф,- Р/). А где Pj, — оценки на основе множества с ограничениями; Ру — оценки на основе полного множества выбора; Vs, Vf — соответствующие оценки асимптотических матриц ковариаций. Тестовая статистика имеет х^-распределение с А:-степенями свободы. Если гипотеза о «независимости от посторонних альтерна- тив» отклонена, то в качестве возможной альтернативы для ло- гит-модели множественного выбора рассматривают модели с группировкой {Nested Logit Models). Группировка альтернатив в подфуппы является одним из способов ослабления предположе- ния о гомоскедастичности в логит-модели множественного вы- бора. Более подробно о модели с группировкой (Nested Logit Models) можно прочесть в [17]. 4.3.2. Модели множественного выбора с упорядоченными альтернативами Данную группу моделей используют тогда, когда дискретная зависимая переменная является порядковой, т.е. когда альтерна- тивы естественным образом упорядочены. Это могут быть оцен- ка обязательства; результаты испытаний вкуса (от сильной неп- риязни до превосходного вкуса); обзоры мнения; уровень страхо- вого покрытия (отсутствует, частичное, полное); занятость (без- работный, частичная занятость, полный рабочий день). В каждом из этих случаев хотя результат дискретен, анализ при помощи логит- и пробит-моделей множественного выбора был бы не в состоянии объяснить порядковый характер зависимой пере- менной. Применение для данных моделей стандартной рефесси- онной схемы затруднительно, так как значения зависимой пере- менной попросту являются способом ранжирования альтернатив. Рассмотрим, например, результаты опроса общественного мнения. Если ответы закодированы как О, 1,2, 3,4, линейная рег- рессия рассматривала бы различия между 4 и 3 так же, как и меж- ду 3 и 2, тогда как фактически они — только ранжирование. 16 3291 241
Логит- и пробит-модели множественного выбора с упорядочен- ными альтернативами формулируются как обобщение модели (4.4). Модели основываются на введении некоторой ненаблюдаемой (ла- тентной) переменной у*, изменяющейся от — оо до + оо и порожда- ющей наблюдаемую зависимую переменную у. Рассмотрим выбор между/альтернативами. Предположим, что латентная переменная у* линейно зависит от вектора объясняющих переменных: Латентная переменная у* связана с переменной у следующей системой уравнений: 'о, /<о, I, 0</<ц„ yi=i 2, Ц1</<Ц2, Таким образом, вероятность выборау-й альтернативы у^ =j — это вероятность того, что \ij_i < у* < |iy. Если остатки е, независи- мы и распределены по нормальному закону, то мы получаем по- рядковую пробит-модель. Логистическое распределение остат- ков приводит к порядковой логит-модели. Для нормального распределения мы имеем следующие веро- ятности: Р(у = 0) = Ф{х'Р), Р(;/ = 1) = Ф(ц1-х'Р)-Ф(-х'Р), Лу = 2) = Ф(ц2-х'Р)-Ф(ц1-х'Р), Р(д; = /)=1-ф(ц._^-х'р). Для того чтобы все вероятности были положительными, не- обходимо выполнение условия О < Hi < Ц2 < - < И/-1- На рис. 4.1 фафически показан смысл данных вероятностей. Независимо от того, какое распределение используется для оценки параметров модели, коэффициенты модели не могут ин- терпретироваться как предельный эффект влияния объясняю- 242
Рис. 4.1. Представление вероятностей в порядковой пробит-модели щих переменных на зависимую переменную. Вычисление пре- дельного эффекта каждого объясняющего фактора аналогично данной процедуре в моделях бинарного выбора. В данном случае возможно несколько исходов, так как в слу- чае принятия семьей решения о страховании своего имущества: О - имущество не страхуется; 1 - имущество страхуется час- тично; 2 — имущество страхуется полностью. Выбор, описываемый переменной у, зависит от многих фак- торов, в том числе и от текущих накоплений у*, следующим об- разом: у = 0, если у* < 0; у= I, если О < J/* <|л; у = 2, если у* > ц; Тогда вероятности для каждой альтернативы имеют вид: Р(); = 0) = 1-Ф(х'р); Р(>; = 1) = Ф(ц-х'р)-Ф(-х'р); Р(з; = 2) = 1-Ф(ц-х'Р). 16' 243
предельные эффекты можно вычислить по следующим фор- мулам: дР[у = 0] дх дР[у^1] дх дР1у = 2] дх =-Ф(^'Р)-Р; = [ф(-х'р)-ф(ц-х'Р)].р; = ф(ц-х'Р).р. На рис. 4.2 проиллюстрирован эффект изменения значения одного из объясняющих факторов, влияющих на выбор. Рис. 4.2. Эффект изменения объясняющего фактора на предсказанные вероятности Заметим, что увеличение значения одного из объясняющих факторов при прочих равных (Р и ц) эквивалентно смещению распределения вправо (пунктирная линия), т. е. при положитель- ном значении коэффициента р вероятность Р(у = 0) должна уменьшиться. Иными словами, предельный эффект для указанной вероятности имеет знак, противоположный знаку коэффициента р. Рассуждая аналогично, получаем, что изменение вероятности выбора Р(у = 2) должно иметь тот же знак, что и коэффициент. 244
у. Грин отмечает, что интерпретация коэффициентов данной модели является не столь очевидной, как это может показаться, и свидетельствует о том, что «многие авторы попросту указывают коэффициенты и /-отношения, иногда с некоторыми коммента- риями по поводу значимости эффектов, но достаточно редко де- лают предположения о том, каковы по силе и направлению будут данные эффекты» [17, с. 878]. Оценивание моделей проводится по методу максимального правдоподобия. Логарифм функции правдоподобия имеет следу- ющий вид: 1пДР,ц)= Z in(PU.=0/x,,ft^))+ Z 1п(Д>^,=1/х,,Вм))+- + + Z 1п(Р(;;,=//х,-,р,и)). Уровни |ii, |i2, ..., \ij_i могут быть заданы априорно, а могут быть неизвестны. В любом случае на основе этой формулы для порядковых логит- и пробит-моделей можно строить оценки максимального правдоподобия параметров р, и если потребуется, Т0ИДЛЯЦ1,Ц2, .-, Цу-1. Контрольные вопросы 1. Приведите примеры экономических задач, эконометрическое моделирование которых требует применения моделей с диск- ретной зависимой переменной. 2. Укажите недостатки линейной модели вероятности, не позво- ляющие использовать ее для оценивания коэффициентов р и прогнозирования у. 3. Как найти предельный эффект объясняющих переменных в логит- и пробит-моделях бинарного выбора? 4. Какой метод используют для оценки параметров моделей би- нарного выбора? 5. Какое условие необходимо выполнить для нахождения макси- мума логарифмической функции правдоподобия? 6. Какие тесты используются для проверки гипотез о значимости одного или группы коэффициентов? 7. Какую модель называют модель случайной полезности? 8. Какое свойство моделей множественного выбора принято на- зывать независимость от посторонних альтернатив?
5 Глава СИСТЕМЫ ЭКОНОМЕТРИЧЕСКИХ УРАВНЕНИЙ 5.1. ОБЩЕЕ ПОНЯТИЕ о СИСТЕМАХ УРАВНЕНИЙ, ИСПОЛЬЗУЕМЫХ В ЭКОНОМЕТРИКЕ Объектом статистического изучения в социальных науках яв- ляются сложные системы. Измерение тесноты связей между пе- ременными, построение изолированных уравнений регрессии недостаточны для описания таких систем и объяснения механиз- ма их функционирования. При использовании отдельных урав- нений регрессии, например, для экономических расчетов в боль- шинстве случаев предполагается, что аргументы (факторы) мож- но изменять независимо друг от друга. Однако это предположе- ние является очень фубым: практически изменение одной пере- менной, как правило, не может происходить при абсолютной не- изменности других. Ее изменение повлечет за собой изменения во всей системе взаимосвязанных признаков. Следовательно, отдельно взятое уравнение множественной рефессии не может характеризовать истинные влияния отдель- ных признаков на вариацию результирующей переменной. Именно поэтому в экономических, биометрических и социоло- гических исследованиях важное место заняла проблема описания структуры связей между переменными системой так называемых одновременных уравнений или структурных уравнений. Напри- мер, если изучается модель спроса как соотношение цен и коли- чества потребляемых товаров, то одновременно для прогнозиро- вания спроса необходима модель предложения товаров, в кото- рой рассматривается также взаимосвязь между количеством и ценой предлагаемых благ. Это позволяет достичь равновесия между спросом и предложением. Приведем другой пример. 246
При оценке эффективности производства нельзя руководст- воваться только моделью рентабельности. Она должна быть до- полнена моделью производительности труда, а также моделью себестоимости единицы продукции. В еще большей степени возрастает потребность в использова- нии системы взаимосвязанных уравнений, если мы переходим от исследований на микроуровне к макроэкономическим расчетам. Модель национальной экономики включает в себя следующую систему уравнений: функции потребления, инвестиций заработ- ной платы, тождество доходов и т.д. Это связано с тем, что макро- экономические показатели, являясь обобщающими показателя- ми состояния экономики, чаще всего взаимозависимы. Так, рас- ходы на конечное потребление в экономике зависят от валового национального дохода. Вместе с тем величина валового нацио- нального дохода рассматривается как функция инвестиций. Система уравнений в эконометрических исследованиях мо- жет быть построена по-разному Возможна система независимых уравнений, когда каждая зави- симая переменная у рассматривается как функция одного и того же набора факторов х: У2 =«2Л +^22^2 +- + «2m^m +^2, Уп=^пЛ+С1„2Х2+. Набор факторов х^ в каждом уравнении может варьировать. Например, модель вида У\ ~/(^1> ^2> ^3> ^4> -^з)? У2 =/(^1» ^з> ^4» ^з); Уа =/(Хз, Х4, Х5). также является системой независимых уравнений с тем лишь от- личием, что набор факторов в ней видоизменяется в уравнениях, входящих в систему. Отсутствие того или иного фактора в уравне- нии системы может быть следствием как экономической нецеле- сообразности его включения в модель, так и несущественности его воздействия на результативный признак (незначимо значение /-критерия или частного /"-критерия для данного фактора). 247
Примером такой модели может служить модель экономической эффективности сельскохозяйственного производства, где в качест- ве зависимых переменных выступают показатели, характеризую- щие эффективность сельскохозяйственного производства, - продуктивность коров, себестоимость 1 ц молока, а в качестве факторов - специализация хозяйства, количество голов на 100 га пашни, затраты труда и т. п. Каждое уравнение системы независимых уравнений может рассматриваться самостоятельно. Для нахождения его парамет- ров используется метод наименьших квадратов. По существу, каждое уравнение этой системы является уравнением регрессии. Поскольку никогда нет уверенности, что факторы полностью объясняют зависимые переменные, в уравнениях присутствует свободный член Qq. Так как фактические значения зависимой пе- ременной отличаются от теоретических на величину случайной ошибки, в каждом уравнении присутствует величина случайной ошибки. В итоге система независимых уравнений при трех зависимых переменных и четырех факторах примет вид: >1 =«01 +«1Л +«12^2 +«13^3 +«14^4 +£!> У2 =%1 +«21^1 +«22^2 +«23^3 +«24^4 +^2, Уг =«03 +«31^1 +«32^2 +«33^3 +«34^4 +ез- Однако если зависимая переменная у одного уравнения вы- ступает в виде фактора х в другом уравнении, то исследователь может строить модель в виде системы рекурсивных уравнений: У\ =«11^1 +«12^2 +-+«1т^/п +ei> Уг =bi\y\ +«21^1 +«22^2 +-+«2m^m +Е2» Уг =h\y\ +1>ЦУ2 +«31^1 +«32^2 +-+«3m^m +^3, В данной системе зависимая переменная у включает в каждое последующее уравнение в качестве факторов все зависимые пе- ременные предшествующих уравнений наряду с набором собст- венно факторов X, Примером такой системы может служить мо- дель производительности труда и фондоотдачи вида 248
У2=Ь21У1 +^21^1 +^22^2 +^23^3+^2, где У1 - производительность труда; У2 — фондоотдача; х^ — фондовооруженность труда; Х2 — энерговооруженность труда; ^3 — квалификация рабочих. Как и в предыдущей системе, каждое уравнение может рас- сматриваться самостоятельно, и его параметры определяются ме- тодом наименьших квадратов. Наибольшее распространение в эконометрических исследо- ваниях получила система взаимозависимых уравнений. В ней одни и те же зависимые переменные в одних уравнениях входят в ле- вую часть, а в других уравнениях — в правую часть системы: У1=Й12->'2+*13-Л+- + *1/|-Л+^11-^1+^12-^2+- + «1т-^ш+еЬ >'2=*2Г>'1+*23-)'з+- + *2л-Л+^2Г^1+^22-^2+- + «2т-^т+е2. [Уп=^\'У\-^Ь„2-У2-^'''-^Ь„„.^'Уп-1-^Оп\-Х1-^а„2'Х2-^...-^а„„-х^-^г„. Система взаимозависимых уравнений получила название система совместных, одновременных уравнений. Тем самым под- черкивается, что в системе одни и те же переменные у одновре- менно рассматриваются как зависимые в одних уравнениях и как независимые в других. В эконометрике эта система уравнений называется также структурной формой модели. В отличие от пре- дыдущих систем каждое уравнение системы одновременных уравнений не может рассматриваться самостоятельно, и для на- хождения его параметров традиционный МНК неприменим. С этой целью используются специальные приемы оценивания. Примером системы одновременных уравнений может слу- жить модель динамики цены и заработной платы вида У\=Ь^2У2+^пХ\-^^1, У2=1^2\У\ +«22^2+^23^3+^2, где У1 — темп изменения месячной заработной платы; У2 — темп изменения цен; х^ — процент безработных; Х2 — темп изменения постоянного капитала; Хз — темп изменения цен на импорт сырья. 249
в рассмотренных классах систем эконометрических уравне- ний структура матрицы коэффициентов при зависимых перемен- ных различна. Представим систему эконометрических уравнений в матрич- ном виде: ВГЛ-ГХ=Е, где В — матрица коэффициентов при зависимых переменных; Y — вектор зависимых переменных; Г - матрица параметров при объясняющих переменных; X — вектор объясняющих переменных; Е — вектор ошибок. Если матрица 5 диагональная, то рассматриваемая модель яв- ляется системой независимых уравнений. Так, при трех зависи- мых и трех объясняющих переменных модель имеет вид: У\ =«01 +«11^1 +«12^2 +«13^3 +^1» Уг =«02 +«21^1 +«22^2 +«23^3 +^2» УЪ =«03 +«31^1 +«32^2 +«33^3 +^3- Матрица параметров при зависимых переменных является диагональной: 5 = '1 0 0 0 0" 1 0 0 1 Если матрица В треугольная (или может быть приведена к та- кому виду), то модель представляет собой систему рекурсивных уравнений. Так, если модель имеет вид: Л =«01+«1Л+«12^2+^1» Уг =«02 +*21>'1 +«21^1 +«22^2 +^2» Уъ =«03 +*323'2 +«31^1 +«32^2 +^2> Т.е. зависимая переменная у^ первого уравнения участвует как объясняющая переменная во втором уравнении системы, а зави- симая переменная у^ второго уравнения рассматривается как объясняющая переменная в третьем уравнении. Тогда матрица коэффициентов при зависимых переменных модели составит: 250
в = 1 о о -Z^, 1 о о -6з2 1. т.е. представляет собой треугольную матрицу. Если матрица В не является ни диагональной, ни треуголь- ной, то модель представляет собой систему одновременных урав- нений. Так, для модели вида \У\ =^01 -^Ь\2У2 +«11^1 +^12^2 +^1» \У2 =ClQ2 +1>2\У\ +*23>'3 +^23^3 +^2» [Уз =^03 -^1>ЦУ\ +^32^2 +^33^3 +^3 получим матрицу коэффициентов при зависимых переменных: В = 1 -Ь,2 О -*21 1 -*23 -*31 О 1 которая не является ни диагональной, ни треугольной. Соответ- ственно это отражается на выборе метода оценки параметров эконометрических систем. 5.2. СТРУКТУРНАЯ и ПРИВЕДЕННАЯ ФОРМЫ МОДЕЛИ Система совместных, одновременных уравнений (или струк- турная форма модели) обычно содержит эндогенные и экзоген- ные переменные. Эндогенные переменные обозначены в приведенной ранее системе одновременных уравнений как у. Это зависимые пере- менные, число которых равно числу уравнений в системе. Экзогенные переменные обозначаются обычно как х. Это пре- допределенные переменные, влияющие на эндогенные перемен- ные, но не зависящие от них. Простейшая структурная форма модели имеет вид: Ы =*21>'1+^22^2+^2 • 251
Классификация переменных на эндогенные и экзогенные зависит от теоретической концепции принятой модели. Эконо- мические переменные могут выступать в одних моделях как эн- догенные, а в других — как экзогенные переменные. Внеэконо- мические переменные (например, климатические условия) вхо- дят в систему как экзогенные переменные. В качестве экзоген- ных переменных могут рассматриваться значения эндогенных переменных за предшествующий период времени (лаговые пере- менные). Так, потребление текущего года (у^) может зависеть не только от ряда экономических факторов, но и от уровня потреб- ления в предьщущем году Cv^_i). Структурная форма модели позволяет увидеть влияние изме- нений любой экзогенной переменной на значения эндогенной переменной. Целесообразно в качестве экзогенных переменных выбирать такие переменные, которые могут быть объектом регу- лирования. Меняя их и управляя ими, можно заранее иметь целе- вые значения эндогенных переменных. Структурная форма модели в правой части содержит при эн- догенных и экзогенных переменных коэффициенты 6, и aj (b^ — коэффициент при эндогенной переменной, Qj — коэффициент при экзогенной переменной), которые называются структурные коэффициенты модели. Все переменные в модели выражены в от- клонениях от среднего уровня, т. е. под х подразумевается X - jc, а под у - соответственно у-у. Поэтому свободный член в каждом уравнении системы отсутствует. Использование МИК для оценивания структурных коэффи- циентов модели дает, как принято считать в теории, смещенные и несостоятельные оценки. Поэтому обычно для определения структурных коэффициентов модели структурная форма модели преобразуется в приведенную форму модели. Приведенная форма модели представляет собой систему линей- ных функций эндогенных переменных от экзогенных: >'2=52|Х,+522-.'С2+. [Уп=^п\-Хх+Ь„2-Х2+. •'"^^пт '^т^ где 5, - коэффициенты приведенной формы модели. 252
По виду приведенная форма модели ничем не отличается от системы независимых уравнений, параметры которой оценива- ются традиционным методом наименьших квадратов. Применяя МНК, можно оценить 5, а затем оценить значения эндогенных переменных через экзогенные. Коэффициенты приведенной формы модели представляют собой нелинейные функции коэффициентов структурной формы модели. Рассмотрим это положение на примере простейшей структурной модели, выразив коэффициенты приведенной фор- мы модели (5,у) через коэффициенты структурной модели (а, и Ь^, Для упрощения в модель не введены случайные переменные. Для структурной модели вида >'1=*12->'2+«1Г^1» >'2=*21-^1+^22-^2 ^^'^^ приведенная форма модели имеет вид: U=8ij-Xi+5i2-X2, U=821-Xl-b822-X2, ^^-^^ В которой У2 ИЗ первого уравнения структурной модели можно выразить следующим образом: _yi-fliiXi ^2 Тогда система одновременных уравнений будет представлена как ^2 ^2 =*2ГЗ'1+^22-^2- Отсюда имеем равенство: ^Цг^ = *21>'1+«22^2 ^2 ИЛИ Тогда: У\ - ^11^1 = Ь^гЬгхУх + *i2^22^2- У\ - ^М^гхУх = ^1Л "^ *12^22^2 253
или У1 =—^ii^xi I ^^^^^ д:^. Таким образом, мы представили первое уравнение структур- ной формы модели в виде уравнения приведенной формы мо- дели: Ух = 51Л + ^12X2. Из уравнения следует, что коэффициенты приведенной фор- мы модели представляют собой нелинейные соотношения коэф- фициентов структурной формы модели, т. е. 5н=-^^^^и6,2=-^2^^Х2. 1-^2*21 1-*12*21 Аналогично можно показать, что коэффициенты приведен- ной формы модели второго уравнения системы (521 и ^2) также нелинейно связаны с коэффициентами структурной модели. Для этого выразим переменную j^i из второго структурного уравнения модели как ^2-^22^2 Запишем это выражение yi в левой части первого уравнения структурной формы модели (5.1): Отсюда: 1-^2^1 1-^2^1 ЧТО соответствует уравнению приведенной формы модели: Уг = 821^1 "^ 822X2, т. е. 021 =■;—П~ " ^22 - . ^22 1-*12^1 1-*12*21 254
Эконометрические модели обычно включают в систему не только уравнения, отражающие взаимосвязи между отдельными переменными, но и выражения тенденции развития явления, а также разного рода тождества. Например, Т. Хаавелмо в 1947 г, исследуя линейную зависимость потребления (с) от дохода (у), предложил одновременно учитывать тождество дохода. В этом случае модель имеет вид: {с = а-\'Ьу, у = с-^х, глсаиЬ — параметры линейной зависимости с от у] X — инвестиции в основной капитал и в запасы экспорта и импорта. Оценки параметров должны учитывать тождество дохода в от- личие от параметров обычной линейной регрессии. В этой модели две эндогенные переменные - с и j^ и одна экзо- генная переменная х. Система приведенных уравнений составит: c = Aq+A^x, y = BQ+B^x. Она позволяет получить значения эндогенной переменной с через переменную х. Рассчитав коэффициенты приведенной формы модели (Aq, А^, Bq, В^), можно перейти к коэффициентам структурной модели аи Ь, подставив в первое уравнение приве- денной формы выражение переменной х из второго уравнения приведенной формы модели. Приведенная форма модели хотя и позволяет получить значения эндогенной переменной через зна- чения экзогенных переменных, аналитически уступает структур- ной форме модели, так как в ней отсутствуют оценки взаимосвя- зи между эндогенными переменными. 5.3. ПРОБЛЕМА ИДЕНТИФИКАЦИИ При переходе от приведенной формы модели к структурной исследователь сталкивается с проблемой идентификации. Иден- тификация - это единственность соответствия между приведен- ной и структурной формами модели. 255
Рассмотрим проблему идентификации для случая с двумя эн- догенными переменными. Пусть структурная модель имеет вид: 1У\ =*12Д'2+^11^1+^12^2+- + ^lm^m» [У2=Ь2\У1 +«2Л +«22^2 +- + «2m^m» где У1ИУ2 — совместные зависимые переменные. Из второго уравнения можно выразить у^ следующей фор- мулой: „ - У2 ^21 ^ ^22 ^ ^2т ^ Тогда в системе имеем два уравнения для эндогенной пере- менной У1 с одним и тем же набором экзогенных переменных, но с разными коэффициентами при них: )^1=*12>'2+«1Л+«12^2+- + «1т^т» С, _ У2 «21 у «22 ^ «2т ^ ^1 ^21 ^1 ^21 Наличие двух вариантов для расчета структурных коэффици- ентов в одной и той же модели связано с неполной ее идентифи- кацией. Структурная модель в полном виде, состоящая в каждом уравнении системы из п эндогенных и т экзогенных перемен- ных, содержит п{п — 1 + т) параметров. Так, при п = 2 и т = 3 полный вид структурной модели составит: У\ =*12:и2+«11X1+^12X2+^13X3, А , (5.3) >'2 =^213^1 +«21^1 +«22^2 +«23X3. Как видим, модель содержит восемь структурных коэффици- ентов, что соответствует выражению л • (л -- 1 + т). Приведенная форма модели в полном виде содержит пт пара- метров. Для нашего примера это означает наличие шести коэф- фициентов приведенной формы модели. В этом можно убедить- ся, обратившись к приведенной форме модели, которая будет иметь вид: |yi=5iiX,+5i2X2+5i3X3, Ь2 =821X1+622X2+623X3. 256
Действительно, она включает в себя шесть коэффициентов 5у. На основе шести коэффициентов приведенной формы моде- ли требуется определить восемь структурных коэффициентов рассматриваемой структурной модели, что, естественно, не мо- жет привести к единственности решения. В полном виде струк- турная модель содержит большее число параметров, чем приве- денная форма модели. Соответственно л • (а2 — 1 + т) параметров структурной модели не могут быть однозначно определены из пт параметров приведенной формы модели. Для того чтобы получить единственно возможное решение для структурной модели, необходимо предположить, что некото- рые из структурных коэффициентов модели ввиду слабой взаи- мосвязи признаков с эндогенной переменной из левой части си- стемы равны нулю. Тем самым уменьшится число структурных коэффициентов модели. Так, если предположить, что в нашей модели ^13 = О и ^21 = О, то структурная модель примет вид: i^2=*21>'l+«22^2+«23^3- ^^'"^^ В такой модели число структурных коэффициентов не пре- вышает число коэффициентов приведенной модели, которое равно шести. Уменьшение числа структурных коэффициентов модели возможно и другим путем: например, приравниванием некоторых коэффициентов друг к другу, т. е. путем предположе- ний, что их воздействие на формируемую эндогенную перемен- ную одинаково. На структурные коэффициенты могут наклады- ваться, например, офаничения вида by + а^ = 0. С позиции идентифицируемости структурные модели можно подразделить на три вида: • идентифицируемые; • неидентифицируемые; • сверхидентифицируемые. Модель идентифицируема, если все структурные ее коэффици- енты определяются однозначно, единственным образом по коэф- фициентам приведенной формы модели, т. е. если число парамет- ров структурной модели равно числу параметров приведенной формы модели. В этом случае структурные коэффициенты моде- ли оцениваются через параметры приведенной формы модели и модель идентифицируема. Рассмотренная выше структурная мо- дель (5.4) с двумя эндогенными и тремя экзогенными (предопре- 17-^29! 257
деленными) переменными, содержащая шесть структурных ко- эффициентов, представляет собой идентифицируемую модель. Модель неидентифицируема, если число приведенных коэф- фициентов меньше числа структурных коэффициентов, и в ре- зультате структурные коэффициенты не могут быть оценены че- рез коэффициенты приведенной формы модели. Структурная модель в полном виде (5.3), содержащая п эндогенных и т предо- пределенных переменных в каждом уравнении системы, всегда неидентифицируема. Модель сверхидентифицыруема, если число приведенных ко- эффициентов больше числа структурных коэффициентов. В этом случае на основе коэффициентов приведенной формы можно по- лучить два или более значений одного структурного коэффици- ента. В этой модели число структурных коэффициентов меньше числа коэффициентов приведенной формы. Так, если в структур- ной модели полного вида (5.3) предположить нулевые значения не только коэффициентов а^^^ и ^21 (как в модели (5.4)), но и ^22 ~ О, то система уравнений станет сверхидентифицируемой: р1=*12>'2+«1Л+^12^2» 3^2 =*21>'1+^23^3- ^^-^^ В ней пять структурных коэффициентов не могут быть одно- значно определены из шести коэффициентов приведенной фор- мы модели. Сверхидентифицируемая модель в отличие от не- идентифицируемой модели практически решаема, но требует для этого специальных методов исчисления параметров. Структурная модель всегда представляет собой систему сов- местных уравнений, каждое из которых необходимо проверять на идентификацию. Модель считается идентифицируемой, если каждое уравнение системы идентифицируемо. Если хотя бы одно из уравнений системы неидентифицируемо, то и вся модель счи- тается неидентифицируемой. Сверхидентифицируемая модель содержит хотя бы одно сверхидентифицируемое уравнение. Выполнение условия идентифицируемости модели проверя- ется для каждого уравнения системы. Для того чтобы уравнение было идентифицируемо, нужно, чтобы число предопределенных переменных, отсутствующих в данном уравнении, но присутству- ющих в системе, было равно числу эндогенных переменных в данном уравнении без одного. 258
Если обозначить число эндогенных переменных ву-м уравне- нии системы через Я, а число экзогенных (предопределенных) переменных, которые содержатся в системе, но не входят в дан- ное уравнение, — через Z), то условие идентифицируемости моде- ли может быть записано в виде следующего счетного правила: Z) 4- 1 = Я— уравнение идентифицируемо; Z) + 1 < Я— уравнение неидентифицируемо; /) + 1 > Я— уравнение сверхидентифицируемо. Предположим, рассматривается следующая система одновре- менных уравнений: Л = *12>'2+*13Л+^1Л+^12^2» У2 =Ь2\У\ +^2Л +^22^2 +^23^3» УЗ=Ь31У1 -^Ь32У2 +^33^3 +«34^4- У2 =1>1\У\ +^2Л +^22^2 +^23^3» (5.6) Первое уравнение точно идентифицируемо, ибо в нем при- сутствуют три эндогенные переменные —у1,У2,У2,т.с.Н=3,и две экзогенные переменные — jcj и ^2, число отсутствующих экзоген- ных переменных равно двум — х^их^, D = 2. Тогда имеем равен- ство: Z) + 1 = Я, т. е. 2 + 1 = 3, что означает наличие идентифици- руемого уравнения. Во втором уравнении системы Н = 2 (yi и У2) и D = I (х^). Ра- венство Z) + 1 = Я, т.е. 1 + 1 = 2. Уравнение идентифицируемо. В третьем уравнении системы Я= 3 (У1,У2, Уз)^ а /) = 2 (Х| и Х2). Следовательно, по счетному правилу Z) + 1 = Я, и это уравнение идентифицируемо. Таким образом, система (5.6) в целом иденти- фицируема. Предположим, что в рассматриваемой модели ^21 ~ ^ и ^33 ~ О- Тогда система примет вид: Pi =*12У2+*13Л+^11^1+^12^2. Л=*2Л+^22^2+^23^3» (5.7) i^3=*31>^l+*32>'2+^34^4- Первое уравнение этой системы не изменилось. Система по-прежнему содержит три эндогенные и четыре экзогенные пе- ременные, поэтому для него Z) = 2 при Я= 3, и оно, как и в пре- 17- 259
дыдущей системе, идентифицируемо. Второе уравнение имеет Я= 2 и £) = 2 (дС], х^), так как 2 + 1 > 2. Данное уравнение сверх- идентифицируемо. Также сверхидентифицируемым оказывается и третье уравнение системы, где Я= 3 (У\,У2у З'з) и /) = 3 (xi, Х2, х^), т.е. счетное правило составляет неравенство: 3 Н-1 > 3 или D + 1>Я. Модель в целом является сверхидентифицируемой. Предположим, что последнее уравнение системы (5.7) с тре- мя эндогенными переменными имеет вид: Уг = h\y\ + *32У2 "♦" ^31^1 "^ ^зЛ ■*■ ^34^4» т. е. в отличие от предыдущего уравнения в него включены еще две экзогенные переменные, участвующие в системе, - Xj и Х2. В этом случае уравнение становится неидентифицируемым, ибо при Я = 3, Z) = 1 (отсутствует только Хз) и Z) + 1 < Я, 1 + 1 < 3. Итак, несмотря на то, что первое уравнение идентифицируемо, второе сверхидентифицируемо, вся модель считается неиденти- фицируемой и не имеет статистического решения. Для оценки параметров структурной модели система должна быть идентифицируема или сверхидентифицируема. Рассмотренное счетное правило отражает необходимое, но недостаточное условие идентификации. Более точно условия идентификации определяются, если накладывать офаничения на коэффициенты матриц параметров структурной модели. Урав- нение идентифицируемо, если по отсутствующим в нем перемен- ным (эндогенным и экзогенным) можно из коэффициентов при них в других уравнениях системы получить матрицу, определи- тель которой не равен нулю, а ранг матрицы не меньше, чем чис- ло эндогенных переменных в системе без одного. Целесообразность проверки условия идентификации модели через определитель матрицы коэффициентов, отсутствующих в данном уравнении, но присутствующих в других уравнениях, объясняется тем, что возможна ситуация, когда для каждого уравнения системы выполнено счетное правило, а определитель матрицы названных коэффициентов равен нулю. В этом случае соблюдается лишь необходимое, но недостаточное условие иден- тификации. Обратимся к следующей структурной модели: р1=Й,2У2+*13Л+«П^1+^12^2» \ Уг = ЬгхУх +^22^2 +^23^3 +^24^4» Уз =*51>'1+*323'2+^31^1+^32^2- (5.8) 260
Проверим каждое уравнение системы на необходимое и до- статочное условия идентификации. Для первого уравнения Я= 3 (У\, У2, У2)^1) = 2 (хз и Х4 отсутствуют), т. е. i) + 1 = я, необходи- мое условие идентификации выдержано, поэтому уравнение точ- но идентифицируемо. Для проверки на достаточное условие идентификации заполним следующую таблицу коэффициентов при отсутствующих в первом уравнении переменных, в которой определитель матрицы (detA) коэффициентов равен нулю. Матрица коэффициентов (1) уравнение 2 3 Переменные Xi «23 0 ДС4 «24 0 Следовательно, достаточное условие идентификации не выполняется и первое уравнение нельзя считать идентифици- руемым. Для второго уравнения Н = 2 (у^и У2), D = 1 (отсутствует JC|) счетное правило дает утвердительный ответ: уравнение иденти- фицируемо (Z) + 1 = Я). Достаточное условие идентификации выполняется. Коэффи- циенты при отсутствующих во втором уравнении переменных со- ставят. Матрица коэффициентов (2) Уравнение 1 3 Переменные Уг -1 ^1 ^31 Согласно таблице detA т^ О, а ранг матрицы равен 2, что соот- ветствует следующему критерию: ранг матрицы коэффициентов должен быть не меньше числа эндогенных переменных в системе без одной. Итак, второе уравнение точно идентифицируемо. 261
Третье уравнение системы содержит Я = 3 и Z) = 2, т. е. по не- обходимому условию идентификации оно точно идентифицируе- мо (Z) + 1 = //)• Противоположный вывод имеем, проверив уравнение на достаточное условие идентификации. Составим таблицу коэффициентов при переменных, отсутствующих в тре- тьем уравнении, в которой detA = 0. Матрица коэффициентов (3) Уравнение 1 2 Переменные ^3 0 ^23 ^4 0 ^24 Из таблицы видно, что достаточное условие идентификации не выполняется. Уравнение неидентифицируемо. Следовательно, рассматриваемая в целом структурная модель, идентифицируе- мая по счетному правилу, не может считаться идентифицируемой исходя из достаточного условия идентификации. В эконометрических моделях часто наряду с уравнениями, па- раметры которых должны быть статистически оценены, использу- ются балансовые тождества переменных, коэффициенты при ко- торых равны ±1. В этом случае хотя само тождество и не требует проверки на идентификацию, ибо коэффициенты при перемен- ных в тождестве известны, в проверке на идентификацию собст- венно структурных уравнений системы тождества участвуют. Например, рассмотрим эконометрическую модель экономи- ки страны: г . , ^3^i=^oi+*i3^3+*i43^4+ei, )^2=4)2+*23Л+^2Л+е2, >^3=Лз+*34>'4+«зЛ+ез, где 3^1 — расходы на конечное потребление данного года; А — свободный член уравнения; е - случайные ошибки; У2 — валовые инвестиции в текущем году; jCi — валовой доход предыдущего года; У2 — расходы на заработную плату в текущем году; 3^4 — валовой доход за текущий год; Х2 — государственные расходы текущего года. 262
в этой модели четыре эндогенные переменные у^, У2, у^, У4^ причем переменная у^ задана тождеством. Поэтому статистичес- кое решение практически необходимо только для первых трех уравнений системы, которые нужно проверить на идентифика- цию. Модель содержит две предопределенные переменные - эк- зогенную Х2 И лаговую Xi. При практическом решении задачи на основе статистической информации за ряд лет или по совокупности регионов за один год в уравнениях для эндогенных переменных у^, У2, y-t, обычно содержится свободный член А^^,А^2^ А^-^^ значение которого акку- мулирует влияние неучтенных в уравнении факторов и не влияет на определение идентифицируемости модели. Поскольку фактические данные об эндогенных переменных Уь Уъ Уъ могут отличаться от теоретических, постулируемых мо- делью, принято в модель включать случайную составляющую для каждого уравнения системы, исключив тождества. Случайные составляющие (возмущения) обозначены через б|, 82 и 83. Они не влияют на решение вопроса об идентификации модели. В рассматриваемой эконометрической модели первое уравне- ние системы точно идентифицируемо, ибо Я=Зи/) = 2, и вы- полняется необходимое условие идентификации (Z) + 1 = Я)- Кроме того, выполняется и достаточное условие идентификации, т е. ранг матрицы равен 3, а определитель ее не равен О : detA равен -^зь ^то видно из следующей таблицы: Уравнение 2 3 4 У1 -1 0 1 ^1 ^21 -^31 0 ^2 0 0 1 Второе уравнение системы так же точно идентифицируемо: Н= 2и D = 1, т. е. счетное правило выполнено: Z) + 1 = Я, вы- полнено достаточное условие идентификации: ранг матрицы 3 и detA = - ^34- Уравнение 1 3 4 У1 -1 0 1 У4 -1 ^2 0 0 1 263
третье уравнение системы также идентифицируемо: Я = 2, Z) = 1, D + 1 = Яи detA т^ О, а ранг матрицы А = 3и detA = 1. Уравнение 1 2 4 У1 -1 0 1 У2 0 -1 1 Х2 0 0 1 Идентификация уравнений достаточно сложна и не офани- чивается только вышеизложенным. На структурные коэффици- енты модели могут накладываться и другие ограничения, напри- мер, в производственной функции сумма эластичностей может быть равна по предположению 1. Могут накладываться офаниче- ния на дисперсии и ковариации остаточных величин [14]. 5.4. ОЦЕНИВАНИЕ ПАРАМЕТРОВ СТРУКТУРНОЙ МОДЕЛИ Коэффициенты сфуктурной модели могут быть оценены раз- ными способами в зависимости от вида системы одновременных уравнений. Наибольшее распросфанение в литературе получили следующие методы оценивания коэффициентов сфуктурной модели: • косвенный метод наименьших квадратов (КМНК); • двухшаговый метод наименьших квадратов (ДМНК); • фехшаговый метод наименьших квадратов (ТМНК); • метод максимального правдоподобия с полной информа- цией (ММПу); • метод максимального правдоподобия при офаниченной информации (MMOg). Косвенный и двухшаговый методы наименьших квадратов подробно описаны в литературе и рассмафиваются как фадици- онные методы оценки коэффициентов сфуктурной модели. Эти методы достаточно легкореализуемы. Косвенный метод наи- меньших квадратов применяется для идентифицируемой систе- мы одновременных уравнений, а двухшаговый метод наимень- ших квадратов - для оценки коэффициентов сверхидентифици- руемой модели. Перечисленные методы оценивания также используются для сверхидентифицируемых систем уравнений. 264
Метод максимального правдоподобия рассматривается как наиболее общий метод оценивания, результаты которого при нормальном распределении признаков совпадают с МНК. Одна- ко при большом числе уравнений системы этот метод приводит к достаточно сложным вычислительным процедурам. Поэтому в качестве модификации используется метод максимального прав- доподобия при Офаниченной информации (метод наименьшего дисперсионного отношения), разработанный в 1949 г Т. Андерсо- ном и Н.Рубиным. Математическое описание метода дано, на- пример, в работе Дж. Джонстона [2, с. 383—386]. В отличие от метода максимального правдоподобия в данном методе сняты офаничения на параметры, связанные с функцио- нированием системы в целом. Это делает решение более про- стым, но трудоемкость вычислений остается достаточно высо- кой. Несмотря на его популярность, к середине 1960-х годов он был практически вытеснен двухшаговым методом наименьших квадратов в связи с гораздо большей простотой последнего [8, с. 68]. Этому способствовала также разработка в 1961 п Г. Тейлом се- мейства оценок коэффициентов структурной модели. Для данной модели Г. Тейл определил семейство оценок класса К и показал, что оно включает три важных оператора оценивания: обычный МНК при А'= О, ДМНК при А'= 1 и метод офаничен- ной информации при рНтК = 1. В последнем случае решение структурной модели соответствует оценкам по ДМНК. Дальнейшим развитием двухшагового метода наименьших квадратов является трехшаговый МНК (ТМНК), предложенный в 1962 г А. Зельнером и Г. Тейлом. Этот метод оценивания приго- ден для всех видов уравнений структурной модели. Однако при некоторых офаничениях на параметры более эффектиц^{ым ока- зывается ДМНК. С концепцией данного метода можно ознако- миться в работе Дж. Джонстона [2]. 5.4.1. Косвенный метод наименьших квадратов Как уже отмечалось, косвенный метод наименьших квадра- тов используется в случае точно идентифицируемой структурной модели. Процедура применения КМНК предполагает выполне- ние следующих этапов работы: • структурная модель преобразовывается в приведенную фор- му модели; • для каждого уравнения приведенной формы модели обыч- ным МНК оцениваются приведенные коэффициенты (5^у); 265
• коэффициенты приведенной формы модели трансформиру- ются в параметры структурной модели. Рассмотрим применение КМНК для простейшей идентифи- цируемой эконометрической мелели с двумя эндогенными и дву- мя экзогенными переменными: >'1=*12>'2+^11^1+еь д;2 =621^1+^22^2+62. Пример. Пусть для построения данной модели мы распола- гаем некоторой информацией по пяти регионам (табл. 5.1). Таблица 5.1 Условные данные по пяти регионам Регион 1 2 3 4 5 Средние У\ 2 3 4 5 6 4 У2 5 6 7 8 5 6,2 JCj 1 2 3 2 4 2,4 Х2 3 1 2 5 6 3,4 При практических расчетах требуется, конечно, значительно больший объем информации, включающий достаточно большое число регионов. Приведенная форма модели составит: [>^1 =8пх, + 612X2+wi, U2 =821^1+822^2+^^2» где Wj, «2 — случайные ошибки приведенной форкгы модели. Для каждого уравнения приведенной формы модели приме- няем традиционный МНК и определяем 5-коэффициенты. Чтобы упростить процедуру расчетов, можно работать с от- клонениями от средних уровней, т. t.y = у — уих = х — х. Тогда для первого уравнения приведенной формы модели система нор- мальных уравнений составит: |Z:FiXi =8ijZx,45i2ZxiX2, lZyi^2=8llZ^1^2+5l2Z^2. 266
Применительно к рассматриваемому примеру, используя от- клонения от средних уровней, имеем: 6 = 5,2.5п+4,25,2, 10 = 4,2.5n+17,25i2. Решив данную систему, получим следующее первое уравне- ние приведенной формы модели: у^ = 0,852x1 + 0,373x2 + и^. Аналогично применяем МНК для второго уравнения приве- денной формы модели и получаем: У2 = S21X1 + 522^2 + «2- Система нормальных уравнений составит: \ТУ2Х\ =82iZ^?+S22Z^1^2» 1X^2^2 =821X^1^2+8221X2^. В соответствии с нашим примером имеем: -0,4 = 5,2521+4,2522, -0,4 = 4,2521+17,2522. Откуда второе приведенное уравнение составит: У2 = -0,0728x1 - 0,00557x2 + «2- Таким образом, приведенная форма модели имеет вид: д^! =0,852x1+0,373x2+^1, у^ =-0,0728x1 -0,00557x2 +^2- Переходим от приведенной к структурной форме модели, т. е. к системе уравнений :И2=*21>'1+^22^2+^2. 267
Для этой цели из первого уравнения приведенной формы мо- дели надо исключить ^2, выразив его из второго уравнения приве- денной формы и подставив в первое: 0,00557 Тогда: ^'=»•'"'■ *«"(^^ш^) Ух = -66,966:^2 - 3,970jci - первое уравнение структурной мо- дели. Для того чтобы найти второе уравнение структурной модели, обратимся вновь к приведенной форме модели. С этой целью из второго уравнения приведенной формы модели следует исклю- чить Xi, выразив его через первое уравнение и подставив во второе: ^Д^!-0,373X2 ' 0,852 и У 2 = -0,085j^i + 0,026x2 - второе уравнение структурной фор- мы модели. Итак, структурная форма модели имеет вид: Гу! =-66,966;;2 -3,970x1 4-8i, [У2 = -0,085^1 +0,026x2+82. Эту же систему можно записать, включив в нее свободный член уравнения, т. е. перейти от переменных в виде отклонений от среднего уровня к исходным переменным j^ и х. Свободные члены уравнений определим по формулам: Ai=Ji-^23^2-«11^1 =428,717, Л2 = ?2 - ^2\У\ - «22^2 = 6,451. 268
Тогда структурная модель имеет вид: и =428,717-66,966>^2 -3,970х, +е„ [у2=6А51-0,085у^ +0,026x2+62- При обработке по профамме DSTAT система приведенных уравнений отсутствует, сразу же вьщается структурная модель. Оценка значимости модели дается через /'-критерий и R^ для каждого уравнения в отдельности. В рассматриваемом примере хороших результатов достичь не удалось: ввиду малого числа на- блюдений значения F-критерия Фишера несущественны (при уровне значимости 0,05 /-табличное значение равно 19, а факти- ческое F-7 для первого уравнения). Если к каждому уравнению структурной формы модели при- менить традиционный МНК, то результаты будут резко отли- чаться: д'! =-1,09 + 0,364^2 + 1,192x1+61, д'2 =5,2 + 0,533)^1-0,333x2 + 62. Как видим, не совпадают даже знаки коэффициентов при пе- ременных: в первом уравнении структурной формы коэффици- енты меньше нуля, а в уравнении рефессии больше нуля; во вто- ром уравнении обратное воздействие >'i над'2 ^ структурной моде- ли сменяется на прямое в уравнении рефессии, а с фактором Х2 наоборот. Различия между коэффициентами рефессии и структурными коэффициентами модели численно могут быть и менее сущест- венными. Например, Г. Тинтнер, рассматривая статическую мо- дель Дж. М. Кейнса для австрийской экономики за 1948-1956 гг., получил функцию потребления классическим методом наименьших квадратов в виде С = 0,782>' -+■ 71,6, а используя КМНК [12,с. 173, 176]. С=0,781>'Н-73,212. При сравнении результатов, полученных традиционным методом наименьших квадратов и с помощью косвенного метода наименьших квадратов, следует иметь в виду, что традиционный МНК, применяемый к каждому уравнению структурной формы модели, взятому в отдельности, дает смещенные оценки струк- 269
турных коэффициентов. Как показал Т. Хаавелмо, рассмотрев- ший две взаимосвязанные регрессии X = by-\-Е2, коэффициент рефессии отличается от структурного коэффици- ента и совпадает с ним только в одном частном случае, когда пе- ременная у не содержит ошибок (т. е. ej = 0), а ошибки перемен- ной X имеют дисперсию, равную единице. Кроме того, при ин- терпретации коэффициентов множественной рефессии предпо- лагается независимость факторов друг от друга, что становится невозможным при рассмотрении системы совместных уравне- ний. Так, в нашем примере уравнение рефессии у\ = —1,09 + + 0,3643/2 + l,192xi показывает, что с ростом jc^ на единицу ;vi воз- растает в среднем на 1,192 единицы при неизменном уровне зна- чения ^2- Между тем в соответствии с системой одновременных уравнений переменная У2 не может быть неизменной, ибо она, в свою очередь, зависит оту^. Нарушение предпосылки независимости факторов друг от друга при использовании фадиционного МНК в системе одно- временных уравнений приводит к несостоятельности оценок сфуктурных коэффициентов; в ряде случаев они оказываются экономически бессмысленными. Опасность таких результатов возрастает при увеличении числа эндогенных переменных в пра- вой части системы, потому что становится невозможным расще- пить совместное влияние эндогенных переменных и видеть изо- лированные меры их воздействия в соответствии с предпосылка- ми фадиционного метода наименьших квадратов. Компьютерная профамма применения КМНК предполагает, что система уравнений содержит в правой части в каждом уравне- нии как эндогенные, так и экзогенные переменные. Между тем могут быть системы, в которых в одном из уравнений, например, отсутствуют экзогенные переменные. Так, в разд. 5.3 рассмафи- валась модель экономики сфаны с четырьмя эндогенными и дву- мя экзогенными переменными, в которой в первом уравнении системы не содержалось ни одной экзогенной переменной. Для такой модели непосредственное получение сфуктурных коэф- фициентов невозможно. В этом случае сначала определяют сис- тему приведенной формы модели, решаемой обычным МНК, а затем переходят путем алгебраических преобразований к коэф- фициентам сфуктурной модели. 270
5.4.2. Двухшаговый метод наименьших квадратов Если система сверхидентифицируема, то KMIIK не использу- ется, ибо он не дает однозначных оценок для параметров струк- турной модели. В этом случае могут применяться разные методы оценивания, среди которых наиболее распространенным и про- стым является двухшаговый метод наименьших квадратов. Основная идея ДМНК — на основе приведенной формы мо- дели получить для сверхидентифицируемого уравнения теорети- ческие значения эндогенных переменных, содержащихся в пра- вой части уравнения. Далее, подставив их вместо фактических значений, можно применить обычный МНК к структурной фор- ме сверхидентифицируемого уравнения. Метод получил назва- ние «двухшаговый метод наименьших квадратов», ибо МНК ис- пользуется дважды: на первом шаге при определении приведенной формы модели и нахождении на ее основе оценок теоретических значений эндогенной переменной у^ = 5^i Xj + 5/2 ^2 + ... + 5^у Xj и на втором шаге применительно к структурному сверхиденти- фицируемому уравнению при определении структурных коэф- фициентов модели по данным теоретических (расчетных) значе- ний эндогенных переменных. Сверхидентифицируемая структурная модель может быть двух типов: • все уравнения системы сверхидентифицируемы; • система содержит наряду со сверхидентифицируемыми точ- но идентифицируемые уравнения. Если все уравнения системы сверхидентифицируемые, то для оценки структурных коэффициентов каждого уравнения исполь- зуется ДМНК. Если в системе есть точно идентифицируемые уравнения, то структурные коэффициенты по ним находятся из системы приведенных уравнений. Применим ДМНК к простейшей сверхидентифицируемой модели |>'l=6l2(>'2+^l) + ei, Ь2=*21>'1+«22^2+^2. Данная модель может быть получена из предьщущей иденти- фицируемой модели 271
У2=^1У\-^^22Х2+^2у если наложить офаничения на ее параметры, а именно: В результате первое уравнение стало сверхидентифицируе- мым: Я= 1 (yj), D = 1 (Х2) и Z) + 1 > Я. Второе уравнение не изме- нилось и является точно идентифицируемым: Н = 2 и D = 1, /) + 1 = Я. На первом шаге найдем приведенную форму модели yi=5nXi+5i2X2+W,, 3/2=821x1+522x2+^2. Предполагая использование тех же исходных данных, что и в предьщущем примере, получим ту же систему приведенных урав- нений \У1 =0,852jc, +0,373x2 +Wi, [У2 =-0,072xi -0,00557x2 +«2- На основе второго уравнения данной системы можно найти теоретические значения для эндогенной переменной У2, т. е. у 2- С этой целью в уравнение У2 = - 0,072 Xi - 0,00557 Х2 + «2 подставим значения Xi и Х2 (в нашем примере это отклонения от средних уровней). Оценки для эндогенной переменной У2 приве- дены в табл. 5.2 (ф. 3). Таблица 5.2 Расчетные данные для второго шага ДМНК ^1 1 -1,4 -0,4 0,6 -0,4 1,6 Z0 ^2 2 -0,4 -2,4 -1.4 1,6 2,6 0 л У2 3 0,103 0,042 -0,035 0,020 -0,130 0 >^2+Xi=Z 4 -1,297 -0,358 0,565 -0,380 1,470 0 У1 5 -2 -1 0 1 2 0 y\Z 6 2,594 0,358 0 -0,380 2,940 5,512 г 1 1,682 0,128 0,319 0,144 2,161 4,434 272
После того как найдены оценки эндогенной переменной у^, т.с.у2, обратимся к сверхидентифицируемому структурному урав- нению Заменив фактические значения У2 их оценками У2, найдем значения новой переменной Далее применим МИК к уравнению т. е. Откуда: I^iZ = ^12 Z^. Z^^=IM= 5^ = 1,243. "12 ^^2 4,434 Таким образом, сверхидентифицируемое структурное уравне- ние составит: >;, = 1,243 •(y2+^ci)-f8i. Поскольку второе уравнение нашей системы не изменилось, его структурная форма, найденная из системы приведенных уравнений, та же: У2 = -0,085 • У1 + 0,026 • ^2+ 82. В целом рассматриваемая система одновременных уравнений составит: :И1= 1,243 •(>'2+^i) + ei» У2 =-0,085 У! +0,026 •Х2 +б2. Двухшаговый метод наименьших квадратов является наибо- лее общим и широко распространенным методом решения систе- мы одновременных уравнений. Для точно идентифицируемых уравнений ДМНК дает тот же результат, что и КМНК. Поэтому в ряде компьютерных программ, например DSTAT, для решения 18-3291 273
системы одновременных уравнений рассматривается лишь двухшаговый метод наименьших квадратов. Решение сверхидентифицируемой модели на компьютере по- строено на предположении, что при каждой переменной в правой части системы имеется свой структурный коэффициент Если же в модель вводятся офаничения на параметры, как в рассмотренном примере ^12 = ^11, то программа DSTAT не работает. Структурная модель может принимать любой вид, но без ограничений на пара- метры. При этом должно выполняться счетное правило идентифи- кации: Z) + 1 > Я. Так, если структурная модель имеет вид: \у2=Ао^-^ ^21 -yi +«22 'Х2 +«23 -^3+22, где первое уравнение сверхидентифицируемо, а второе — точно идентифицируемо, то реализация модели в ППП DSTAT оказы- вается следующей. Двухшаговый метод наименьших квадратов последовательно применяется к каждому уравнению. Эндогенная переменная, на- ходящаяся в левой части системы, рассматривается как зависи- мая переменная, а переменные, содержащиеся в правой части си- стемы (эндогенные и экзогенные), — как факторы, которые должны быть пронумерованы. Например, при вводе информации о переменных в последовательности у^, У2, х^, Х2, х^ для первого уравнения имеем: У2 — фактор 2; Xj — фактор 3. Затем отвечаем на следующие вопросы программы DSTAT: Эндогенная переменная — это фактор номер? Ответ: 2. Экзогенная переменная, входящая в уравнение, - это фактор номер? Ответ: 3. Экзогенная переменная, не входящая в уравнение, — это фак- тор номер? Ответ: 4. Экзогенная переменная, не входящая в уравнение, - это фак- тор номер? Ответ: 5. По окончании процедуры вьщается уравнение У1 =612^2"^ «11 ^1+Л1 И приводятся оценка его качества через F-критерий Фишера, отно- сительная ошибка аппроксимации и оценка значимости структур- ных коэффициентов модели через /-критерий Стьюдента. 274
Аналогично поступим со вторым уравнением системы. В нем соответственно эндогенная переменная у^ рассматривается как фактор 1, а экзогенные переменные ^2 и Хз — как факторы 4 и 5. Не входящая в уравнение экзогенная переменная л'| обозначается как фактор 3. В результате получим искомое уравнение У2 = *21 У\ + «22 Х2 + «23 ^3+ \- Несмотря на важность системы эконометрических уравне- ний, на практике часто не принимают во внимание некоторые взаимосвязи; применение традиционного МНК к одному или не- скольким уравнениям также широко распространено в экономе- трике. В частности, при построении производственных функций и анализе спроса можно проводить, используя обычный метод наименьших квадратов. 5.5. ПРИМЕНЕНИЕ СИСТЕМ ЭКОНОМЕТРИЧЕСКИХ УРАВНЕНИЙ Под системой эконометрических уравнений обычно пони- мается система одновременных, совместных уравнений. Ее использование сопряжено с рядом сложностей, которые связаны с ошибками спецификации модели. Ввиду большого числа фак- торов, влияющих на экономические переменные, исследова- тель, как правило, не уверен в точности предлагаемой модели для описания экономических процессов. Набор эндогенных и экзогенных переменных модели соответствует теоретическому представлению исследователя о моделируемом объекте, которое сложилось на данный момент и может изменяться. Соответст- венно может меняться и вид модели с точки зрения ее идентифи- цируемости. Сверхидентифицируемую модель можно превратить в точно идентифицируемую путем добавления некоторых переменных или отбрасывания некоторых офаничений на параметры. Не ис- ключено, что при правильной спецификации модель может ока- заться неидентифицируемой, и поэтому переходят к сверхиден- тифицируемым или точно идентифицируемым моделям, не- сколько упрощающим характер взаимосвязей экономических яв- лений. Отметим, что наличие множества прикладных моделей для решения одного и того же класса задач не случайно. Наибо- 18* 275
лее ярко это проявляется при построении макроэкономических моделей, когда, например, одна и та же функция потребления может включать в себя разный набор экономических пере- менных. Рассмотрим основные направления практического использо- вания эконометрических систем уравнений. Наиболее широко системы одновременных уравнений применяются для построения макроэкономических моделей функционирования экономики той или иной страны. Большин- ство из них представляют собой мультипликаторные модели кейнсианского типа с той или иной степенью сложности. Стати- ческая модель Кейнса для описания народного хозяйства страны в наиболее простом варианте имеет следующий вид: С = л + 6 у+е, >' = С + /, где С - личное потребление в постоянных ценах; у - национальный доход в постоянных ценах; е - случайная составляющая; / - инвестиции в постоянных ценах. В силу наличия тождества в модели (второе уравнение систе- мы) структурный коэффициент b не может быть больше 1. Он ха- рактеризует предельную склонность к потреблению. Так, если Ь = 0,65, то из каждой дополнительной 1 тыс. руб. дохода на по- требление расходуется в среднем 650 руб. и 350 руб. инвестирует- ся, т. е. С и;; выражены в тысячах рублей. Если Ъ> 1, то д^ < С + /, т е. на потребление расходуются не только доходы, но и сбереже- ния. Параметр а Кейнс истолковывал как прирост потребления за счет других факторов. Поскольку прирост во времени может быть не только положительным, но и отрицательным (сниже- ние), такой вывод возможен. Однако суждение о том, что пара- метр а характеризует конкретный уровень потребления, обуслов- ленный влиянием других факторов, неправильно. Структурный коэффициент b используется для расчета муль- типликаторов. По данной функции потребления можно опреде- лить два мультипликатора - инвестиционный мультипликатор потребления М^ и инвестиционный мультипликатор националь- ного дохода My т
Инвестиционный мультипликатор потребления рассчитыва- ется по формуле Л/, = й/(1-й). При b = 0,65 М, = 0,65 / (1 - 0,65) = 1,857. Эта величина означает, что дополнительные вложения в раз- мере 1 тыс. руб. приведут при прочих равных условиях к дополни- тельному увеличению потребления на 1,857 тыс. руб. Инвестиционный мультипликатор национального дохода можно определить как Л/^ = 1 / (1 - 6). В нашем случае он со- ставит: Л/з,= 1/(1-0,65) = 2,857, т. е. дополнительные инвестиции в размере 1 тыс. руб. на длиг^ тельный срок приведут при прочих равных условиях к дополни- тельному доходу в 2,857 тыс. руб. Рассматриваемая модель Кейнса точно идентифицируема, и для получения величины структурного коэффициента b приме- няется КМНК, т.е. строится система приведенных уравнений у = А'-\-В' /Н-t/2, в которой у4 = у4' , а параметры В)\В' являются мультипликатора- ми, т. е. 5 = Af^ и В' - My. В этом можно убедиться, если выра- зить коэффициенты приведенной формы модели через структур- ные коэффициенты. Для этого в первое уравнение структурной модели подставим балансовое равенство: С=^а + Ь'у + г ==a + b{C+I)-\-e = a-^bC+bI+s; С'(1-Ь) = а + Ь'1+г; С = + / -ь е - приведенное уравнение. 1-й 1-й 1-й (>гсюда:у< = д/(1-й);5 = 6/(1-й) = М,;[/1 = (1/(1-й))-Е. Аналогично поступим и со вторым уравнением структурной модели: в тождество^^ = С + /вместо С подставим выражение пер- вого структурного уравнения, т. е. у = а + й->' + е + /. Далее, пре- образовав, получим: 277
а 1 г 1 \-Ь \-Ь 1-й •Б, Т. е. А' = а/{1 -Ь)=А;В' = 1/(1 - й) = Л/^; U2 = (1/(1 - й)) • е. Таким образом, приведенная форма модели содержит мульти- пликаторы, интерпретируемые как коэффициенты линейной ре- грессии, отвечающие на вопрос, на сколько единиц изменится значение эндогенной переменной, если экзогенная переменная изменится на одну единицу своего измерения? Этот смысл коэф- фициентов приведенной формы делает приведенную модель удобной для прогнозирования. В более поздних исследованиях статическая модель Кейнса включала уже не только функцию потребления, но и функцию сбережений: г = Г + /:(С + /) + е2, у=С+1-п где С, у и /— те же по смыслу переменные, что и в предьщущей модели; г — сбережения. Данная модель содержит три эндогенные переменные — С, г, у и одну экзогенную переменную /. Система идентифицируема: в первом уравнении Я = 2 и /) = 1, во втором Я=1и/) = 0;С+/ рассматривается как предопределенная переменная (подробное изложение решения данной системы приведено в работе Г. Тинт- нера) [12, с. 175—176, 267—269]. Наряду со статическими широкое распространение получили динамические модели экономики. В отличие от статических они содержат в правой части лаговые пе- ременные, а также учитывают тенденцию (фактор времени). Например, модели Клейна, разработанные им для экономики США в 1950-1960 гг В упрощенном варианте модель Клейна рас- сматривается как конъюнктурная модель [10, с. 230]. in
где С, — функция потребления в период /; S, — заработная плата в период /; Pf — прибыль в период t; Pf-i — прибыль в период / — 1, т. е. в предыдущий год; Rf — общий доход в период /; Rf-i — общий доход в предыдущий период; / — время; Tf - чистые трансферты в пользу администрации в период /; // — капиталовложения в период /; G, — спрос административного аппарата, правительственные расхо- ды в период времени /. Модель содержит пять эндогенных переменных - Q, 1„ S^, Rj (расположены в левой части системы) и Pj (последняя - зависи- мая переменная, определяемая по первому тождеству), три экзо- генные переменные - Г^, G^, /и две предопределенных, лаговых пе- ременных - Р^_, и Rf_i. Как и большинство моделей такого типа, данная модель сверхидентифицируема и решаема ДМНК. Для прогнозных целей используется приведенная форма модели 5^ =rfii-7^ + ^12-6^ + ^13-^ + ^14-^м+^15 •^M+''з. 7?^=rfl6-r + fifi7-6^ + ^18-^ + ^19-^М+^20 •^M+"4» Pf=d2i'T-\-d22'G + d23-t + d24'Pt.i-^d2s-Rt^l'^Uy в этой системе мультипликаторами являются коэффициенты при обычных экзогенных переменных. Они отражают влияние экзогенной переменной на эндогенную переменную. Мульти- пликаторами в нашей системе выступают коэффициенты при Г и G. Коэффициенты d^, d^, ^/ц, di^, ^21 "" мультипликаторы чистых трансфертов в пользу администрации относительно личного по- требления ^1, инвестиций ^5> заработной платы d^, дохода d^^ и прибыли ^21- Соответственно коэффициенты ^2» ^7» ^i2> ^i?» ^22 являются мультипликаторами правительственных расходов относительно соответствующих эндогенных переменных. Динамическая модель может и не содержать учет тенденции, но лаговые переменные в ней обязательны. Динамическая мо- дель Кейнса представлена следующими тремя уравнениями: 279
В этой системе три эндогенные переменные: Yf - имеющийся в распоряжении доход в период времени /; Cj - частное потребление в период времени /; Pf — валовой национальный продукт (ВНП) в период времени /. Кроме того, модель содержит пять предопределенных пере- менных: Yt_x - доход предьщущего года; Gf — общественное потребление; /^ - валовые капиталовложения; L^ -изменение складских запасов; Z^ - сальдо платежного баланса. Случайная переменная ej характеризует ошибки в первом уравнении ввиду его статистического характера. Параметр а отра- жает влияние других не учитываемых в данном уравнении факто- ров потребления (например, цен). Первое уравнение данной системы является сверхидентифицируемым, а второе и третье — определениями. Если в модели Кейнса доход рассматривается как лаговая пе- ременная, то в других исследованиях функции потребления в ви- де лаговой переменной используется потребление предьщущего года, т. е. считается, что потребление текущего года зависит не только от дохода, но и от достигнутого в предьщущий период уровня потребления. Примером динамической модели экономики, учитывающей для каждой эндогенной переменной лаговые переменные соот- ветствующего экономического содержания, может служить мо- дель открытой экономики с экономической активностью со сто- роны государства*. \IMf = kQ + ki -Yf + kj-IMt_^ -^E2^ * Данная модель на примере Германии за 1950—1959 гг. описана в: Иванова В.М. Основы эконометрики. - М.: МЭСИ, 1995. - С. 134-141. 280
в этой модели четыре эндогенные переменные: Cf — личное потребление в период времени /; If - частные чистые инвестиции в отрасли экономики в пери- од времени /; IMf —импорт в период времени /; Yf - национальный доход за период времени t. Все переменные приведены в постоянных ценах. Предопределенными переменными в модели являются следу- ющие три переменные: Q_i — личное потребление за предыдущий период; Uf_i — доход личных домохозяйств от предпринимательской деятельности за предьщущий период и доход от имущества плюс нераспределенная прибыль предприятий до налогообложения; IMf_i — импорт за предыдущий период времени / - 1. В качестве экзогенной переменной в модели рассматривается переменная Gf — общественное потребление плюс государствен- ные чистые капиталовложения в экономику страны плюс измене- ние запасов минус косвенные налоги плюс дотации плюс экспорт. Первые три уравнения системы являются сверхидентифици- руемыми, а четвертое представляет собой балансовое тождество. Система одновременных уравнений нашла применение в ис- следованиях спроса и предложения. Линейная модель спроса и предложения имеет вид: |G'=6o+6i-^ + e2, (5.8) [q'=q\ где Q^ — спрашиваемое количество благ (объем спроса); Р — цена; Q^ — предлагаемое количество благ (объем предложения). В этой системе три эндогенные переменные - Q^, Q^ и Р. При этом если Q^ и Q^ представляют собой эндогенные переменные исходя из структуры самой системы (они расположены в левой части), то Р является эндогенной по экономическому содержа- нию (цена зависит от предлагаемого и испрашиваемого количе- ства благ), а также в результате наличия тождества Q^ = Q\ 281
Приравняв первое и второе уравнения системы (5.8), можно показать, что Р — зависимая переменная: Отсюда: До + ^Г ^^ + ^1 = 6о + *1 • ^ "^ ^2. Рассматриваемая модель спроса и предложения не содержит экзогенной переменной. Однако для того, чтобы модель имела статистическое решение и можно было убедиться в ее справедли- вости, в модель вводятся экзогенные переменные. Одним из вариантов модели спроса и предложения является модель вида где R — доход на душу населения; W — климатические условия (предположим, что речь идет о спросе и предложении зерна). Переменные R и И^ экзогенные. Введя их в модель, получим идентифицируемую структурную модель, оценки параметров ко- торой могут быть даны с помощью КМНК. Широкий класс моделей в эконометрике представляют про- изводственные функции: где Р - объем выпуска (уровень производства); Xi, ДС2,..., х„ -факторы производства (труд, капитал и др.). Однако реализация такого рода моделей, как правило, не свя- зана с системой одновременных уравнений. Производственная функция в упрощенном виде может быть включена в систему од- новременных уравнений. Так, в 1962 г Б. Хохенбалкен и Г. Тинт- нер предложили следующую модель экономики для каждой из одиннадцати стран - членов Организации экономического сод- ружества [8, с. 115]: 282
N'P ^ ^ NP logX = a2+b2logD, dx/dD = W/p, Y = C + K, X^Y IP. Здесь эндогенными переменными являются: С — величина личного потребления в текущих ценах; Y- ВНП в текущих ценах; X— ВНП в постоянных ценах; Р - индекс цен; D — общая занятость. В качестве экзогенных переменных приняты: N — численность населения; W— средняя годовая заработная плата работника; К - государственное потребление плюс инвестиции и внеш- неторговое сальдо. В системе имеются только два структурных уравнения - функция потребления (первое уравнение) и производственная функция (второе уравнение). Остальные составляющие модели представляют собой априорно разработанную функцию спроса на труд (третье уравнение) и два тождества, относящиеся к ВНП. Параметры функции потребления оцениваются с помощью КМНК с учетом тождества У= С + А', а параметры производст- венной функции — при комбинации ее с функцией спроса на труд. Как уже отмечалось, не все эконометрические модели имеют вид системы одновременных уравнений. Так, широкий класс функций спроса на ряд потребительских товаров часто представ- ляет собой рекурсивную систему, в которой с уравнениями мож- но работать последовательно и проблемы одновременного оце- нивания не возникают. В этом плане система одновременных уравнений - лишь один из возможных вариантов построения экономических моделей. 283
5.6. ПУТЕВОЙ АНАЛИЗ Построение системы структурных уравнений позволяет глуб- же изучить причины связи, лежащие в основе вариации результи- рующих переменных. При этом происходят выделение и оценка косвенных (опосредованных) и непосредственных (прямых) вли- яний признаков. Именно поэтому системы структурных уравне- ний часто интерпретируются как статистические описания при- чинно-следственных связей, как причинные модели, объясняю- щие механизм формирования вариации выходных характеристик системы (результативных признаков). В случае использования аппарата корреляционно-регрессионного анализа структурное моделирование представляет собой попытку преодолеть косвен- ный характер изучения связей этим методом, подойти к выделе- нию и измерению причинных (непосредственных) связей между переменными. Установить направленность связей, их причинный характер можно только лишь на основе содержательного анализа изучае- мых связей, в ходе которого формулируются гипотезы о структуре влияний и корреляции. Как уже отмечалось, систему причинных гипотез удобно изображать в виде фафа связей, вершинами кото- рого являются переменные — причины или следствия; дуги (ори- ентированные ребра) соответствуют постулируемым причинным отношениям, а неориентированные ребра - отношениям коорди- нированного изменения, не структурируемым в данной схеме. Для формальной верификации гипотез необходимо соответ- ствие между фафом и системой уравнений, описывающей его. Алгебраическая система, соответствующая графу без контуров (петель), является рекурсивной системой, позволяющей рекур- рентно определять значения входящих в нее переменных. В такой системе в уравнения для признака л:, включаются все перемен- ные, за исключением расположенных выше его по графу связей. Формулировка гипотез в структуре рекуррентной модели обычно не вызывает затруднений при использовании данных в динамике. Если же анализируются статистические данные, то следует учи- тывать зависимость системы от ее прошлых состояний. В эконометрике рассматриваются структурные модели, включающие уравнения, линейные по отношению к наблюдае- мым переменным и имеющие вид: 284
где уу, р,/ - коэффициенты при соответствующих переменных; Л,В- подмножества эндогенных и воздействующих на них экзоген- ных переменных соответственно. Одним из наиболее распространенных методов оценки пара- метров структурных уравнений на ЭВМ является двухшаговый метод наименьших квадратов. На первом шаге этого алгоритма находят оценки параметров уравнений, описывающих зависи- мость эндогенных переменных от экзогенных, pj = Z/71//C/ + е. На втором шаге вычисленные значения эндогенных переменных yj подставляют в структурные уравнения. Полученные таким обра- зом оценки параметров у/у и ^ц уравнения (5.9) состоятельны. На основе рекуррентной системы уравнений определяются полные и частные коэффициенты влияния факторов. Коэффи- циенты полного влияния, иначе говоря полные коэффициенты регрессии, измеряют роль каждой переменной в структуре. Пол- ные коэффициенты влияния образуют матрицу коэффициентов влияния произвольно задаваемого изменения переменных (неза- висимых приращений) на все остальные переменные: Матрицу полных коэффициентов регрессии В находят на ос- нове матрицы коэффициентов частных рефессий А\ В = (Е-АГ^Ах. Полному коэффициенту регрессии соответствует сумма показателей связи для каждого пути, связывающего вершины JC/ и Хр тогда как частный коэффициент представляет собой силу вли- яния, идущего от X/ к Xj по соответствующей дуге. Структурные модели позволяют не только оценить непосред- ственное и полное влияние переменных, но и прогнозировать поведение системы, определять расчеты значения эндогенных переменных. Если же такая задача не ставится и имеется лишь потребность в уточнении характера связей переменных, то эф- фективным является применение путевого анализа (р-анализа). Уже в самом названии этого метода отражается активное исполь- зование фафа связей, изоморфного системе уравнений. Метод путевого анализа (или путевых коэффициентов) пред- ложен в 1920-х гг американским генетиком С. Райтом. В других областях этот метод получил признание в середине 1960-х годов 285
в биометрии — построении социологических причинных моде- лей, но он все еще мало знаком экономистам. Основные положе- ния метода сводятся к следующему. Пусть Xj, Х2, ..., Хр - случай- ные переменные, измеренные в соответствующих единицах. Главным предположением метода является предположение об ад- дитивности и линейности связей между переменными: Xi = Zy gijXj + gi^^i, j = 1^1 = 1^, (5.10) Здесь Xj^j — символ неизмеримого имплицитного фактора w„ действующего на jc^ и обозначающего действие нах, всех перемен- ных, не включенных в множество Ц}; gy - некоторые константы; g^^^ - коэффициент влияния Xi^i на х^. Будем называть Xj у-й причиной, а х^ - следствием комбини- рованного действия всех т причин. Использование линейных за- висимостей между всеми переменными делает /^-анализ специ- альным случаем рефессионного анализа, в котором коэффици- енты рефессии интерпретируются в терминах причинно-следст- венных отношений. Соотношение (5.10) можно записать также в виде X,. - ху = lliCijixj - Xj) + c,^^, (5.11) гдеГу - среднее значениеу-й переменной. Без потери общности можно допустить, что х,^^ имеет нулевое среднее и единичную дисперсию. В стандартизованной форме уравнение (5.11) будет иметь вид: Xi = ljPijXj-hp^jXi„ (5.12) х-х,. где Xj = ; Sj - стандартное отююнениеу-й переменной. Тот^: Pij = (sj/Si)Cij. Коэффициенты Су являются специальным типом частных ко- эффициентов рефессии, коэффициент p^j - стандартизованный коэффициент /^-рефессии. Будем называть ру коэффициентом влияния (согласно С. Райту), понимая при этом, что p^j измеряет долю стандартного отклонения /-й эндогенной переменной (следствия) с соответствующим знаком, обусловленную влияни- ему-й экзогенной переменной (причины). Иными словами, если 286
провести измерение этого влияния при изменении у-й перемен- ной в тех же условиях, что и в данных наблюдениях, и при неиз- менных прочих условиях (включая постоянное воздействие фак- тора Xui), то полученный результат будет равен ру. „ SiA2...(i-\){M)...p.u Sj /?^. = = ^i ^JA2...ii-l)(i+\Um.u _fy^ '^/.12...(М)(/Ч1)...р.ц _^j (5.13) ^i '^7Л2...(У-1)(уЧ1).../я.м ^i ^Д^ *^/.i2...(/-i)(/+i)...^w - стандартное отклонение /-й переменной с учетом влияния переменных от 1 до (/ — 1) и от (/ + 1) до /? при постоянном влиянии фактора и. Изданного определения следует, что квадрат/7-коэффициен- та показывает, какая часть общей вариации следствия определя- ется у-й причиной. Эта величина представляет собой коэффици- ент детерминации: с1^..—р^у. Относительно имплицитных переменных дс^^^ заметим, что фактор х^^,, представляющий постоянное воздействие на следст- вие Ху переменных, не включенных явным образом в модель, счи- тается некоррелированным ни с другими аналогичными факто- рами Xjj, ни с экзогенными переменными (входами или причина- ми) системы Xj. Входом системы называют переменную Хр при которой ее ва- риация целиком и полностью определяется фактором х^^р т. е. р,'^. = 1, d:^. = 1. Входы системы могут быть коррелированы ■' J ■'J попарно. Простейшим случаем является модель звена линейной при- чинной цепи, т. е. детерминации следствия у, всего лишь одной переменной - причиной х. Уравнение этой модели в форме ли- нейной рефессии будет иметь вид (для стандартизованных пере- менных): у = Ру^'\-еу. ПосколькуX = р^^,., у = Ру^+ Ру^,^^^, (5.14) где ву^ру^^^^, ар^^^ = 1 по условию. 287
Систему (5.14) можно представить в виде графа связей (рис. 5.1). Встает вопрос об оценке коэффициентов р^^^, Py^^^, Ко- эффициент корреляции случайных переменных хиу как первый смешанный момент нормированных случайных величин опреде- ляется соотношением г = со\(х,у) = ру^ cov(x, х) + Ру^у cov(x, xj = р. yu2^ гухУ так как cov(x, х) = 1, cov(x, xj = О по условию о некоррелирован- ности имплицитных факторов. Но, как известно, в данном част- ном случае г^ = р^, где р^ - стандартизованный коэффициент линейной рефессии. Следовательно, /7-коэффициент (р^) есть стандартизованный рефессионный коэффициент р^,^^, и его оцен- ка методом наименьших квадратов будет являться оценкой эф- фективности влияния по С. Райту (рис. 5.1 и 5.2). ^1 ^J^f'^j ^^ *1"1 Рис. 5.1. Граф связи между у и Xi Рис. 5.2. Граф связей: система с коррелированными входами Прямая оценка влияний неизмеримых факторов x^^ невоз- можна, поэтому ее получают косвенным путем из соотношений для коэффициентов детерминации. В случае модели (5.14) оцен- ку коэффициента/> можно получить следующим образом. Со- отношение полной детерминации у посредством дс и Wj имеет вид: 2 2 ух ^Р ywy- Ь УП откуда: Руи, =^I^^ = ^|^^ = ^|^y 288
Обобщение рассмотренной модели на случай л-звенной ли- нейной цепи, а также на случай к независимых причин дс^ одного и того же следствия у может быть проведено индуктивно. Широко распространена структурная модель системы с кор- релированными входами (случай множества взаимодополняю- щих причин), изображенная на рис. 5.2. Для этой модели основ- ное уравнение системы записывается так: y = lLPyi^i-^Pyv^v^ (5.15) а корреляция следствия с /-й причиной определяется из уравне- ния Гух, =Pyi+I.PyJ^y- (3.16) Соотношение (5.16) демонстрирует важную особенность ко- эффициента влияния С. Райта — он может быть как больше, так и меньше соответствующего коэффициента корреляции по абсо- лютной величине и не совпадать с ним по знаку Значения /^-коэффициента заключены в интервале [—оо, с»]. Положительное значение /^-коэффициента указывает на то, что фактор Xj влияет на х^ таким образом, что при изменении Xj в од- ном направлении (допустим, увеличение) признак х, изменяется в этом же направлении. Отрицательное значение показывает, что Х( и Xj изменяются противоположно. Знак коэффициента влияния получается автоматически в результате решения системы уравне- ний, связывающей r^jVip^j. Содержательная интерпретация коэф- фициентов влияния С. Райта как показателей интенсивности влияния по дуге графа аналогична интерпретации р-коэффици- ентов (как показателей сравнительной силы воздействия факто- ров) в обычных моделях множественной регрессии. Выражение полной детерминации у посредством множества взаимокоррелированных причин Ц} имеет вид: dyv + Y.dyi + 2YLpyjrijPyi=\, J i J Слагаемое '^Y^LPy/ijPyi называется показателем корреляци- / J онной детерминации. Квадрат множественного коэффициента корреляции (коэффициент множественной детерминации) ^ух,,..х, =^-'dyy =llPyj ^'i'YLPyjfijPvi- j i j 19-3291 289
Таким образом, метод/7-коэффициентов позволяет найти на- илучшую оценку множественной корреляции R^^x^ ...xf^- Подчеркнем, что попарная корреляция входов в модели (5.16) не структурируется. Между тем эта корреляция может быть следствием координированного изменения двух различных взаи- монезависимых причин — истинной корреляции, и ложной, ре- зультатом воздействия третьей переменной — общей для этих двух переменных причины. Пусть на рис. 5.3а изображен фаф модели, истинность корреля- ции входов которой находится под вопросом. Г. Саймон показал, что если корреляция JCj и Х2 является ложной в отмеченном смысле, то частный коэффициент корреляции первого порядка г^^ . ^, где Z — общая для х^ и Х2 причина должен быть равен нулю. ^ ^ В самом деле, для такой модели (сравните граф на рис. 5.3 б с фафом на рис. 5.3 а) будут справедливы следующие отношения: f-yz ■Рх ^УХ2 Рух^^ ~ Рух2> "~ Pyx^x^z Рух^Рх^р г.,г Ч^ -Px^V ^Px2V ./?^ . или г, у^ = 1^ •*2 12 '-Г, ^х^Х2 Px^z Ух2 Z '"*" ' XjX2 ' x^z' Х2 z' -►г Рис. 5.3. Граф связей: а — для Xi и Х2 общая причина отсутствует; б — общая причина присугствует 290
Отсюда: 'X^X2.Z ^l^zf^ 'X2Z Первым этапом путевого анализа является идентификация уравнений системы. В современной эконометрической литературе идентифика- ция понимается как структурная спецификация модели, при- званная не только определить значения параметров, но и выде- лить одну-единственную итоговую структурную модель анализи- руемых данных. Проблема идентифицируемости в системе структурных урав- нений связана с наличием ряда ограничений, накладываемых на него моделью. Применительно к/?-анализу — это проблема соот- ветствия между количеством возможных соотношений Гу и p^j и числом путевых коэффициентов р^. Иначе говоря, проблема идентифицируемости структурных параметров — это проблема достаточности эмпирических данных для оценки всех коэффициентов модели. Необходимым условием идентифицируемости уравнения является отсутствие среди ли- нейных комбинаций оставшихся уравнений, таких, которые удовлетворяли бы всем ограничениям модели, накладываемым на исследуемое уравнение. Это эквивалентно так называемому условию порядка: для того чтобы уравнение в системе из т ли- нейных структурных уравнений было идентифицируемо, нужно, чтобы в нем отсутствовало по меньшей мере т - 1 переменных из т -\- к переменных, встречающихся в модели. Обозначим через т число эндогенных переменных в модели, к — число предопреде- ленных переменных, Л — число эндогенных переменных в рассма- триваемом уравнении, g — число предопределенных переменных в рассматриваемом уравнении. Тогда условие порядка может быть записано в форме т-^ к — h—g>m- 1 или А: — g > А — 1. Структурное уравнение называется идентифицируемым, если оно удовлетворяет условию порядка; в случае точного равенства уравнение называется точно идентифицируемым, при строгом неравенстве - сверхидентифицируемым. Вторым этапом является оценивание структурных парамет- ров. Для структурных моделей, построенных на основе р-коэф- фициентов, оценка/?!^ проводится не методом наименьших квад- 19* 291
ратов, а с помощью такого приема. Запишем уравнение (5.12) следующим образом: или ^/ = Ai^i +А2'^2 + - +А\/-1^/-1 +Л«Л- (5.17) Используем коэффициенты корреляции между зависимой переменной и каждой из объясняющих переменных: 1^ ry^-ZxfXj, (5.18) где п - число наблюдений. Подставив в (5.18) вместо х^ правую часть выражения (5.17), получим: Гу =-Е^у(Л/1 +..- + Л.м^м +Л«,«/) = = LPik ^ -^Py—^-^Piu^—^^LPikOk-^Pu- (5.19) В этом преобразовании учтено, что корреляция w, с Xj по опре- делению равна нулю. Если учесть, что r^j = 1, то соотношение (5.19), называемое основной теоремой путевого анализа, можно записать так: '(/-p/A.'V- (5.20) Здесь у указывает на объясняющую переменную, связь кото- рой с объясняемой переменной / раскрывается в структурной мо- дели, к пробегает по подмножеству всех переменных, непосред- ственно влияющих на /-ю переменную (на фафе эти вершины связаны с вершиной / дугами). Соотношение (5.20) справедливо для любой рекурсивной системы. Путевой анализ позволяет провести декомпозицию корреляции г у. Введем понятия «полная (совокупная) связь», «совокупное влияние», «прямое влияние», «косвенное влияние». Если коэф- фициент корреляции нулевого порядка г^ рассматривать как из- меритель полной связи двух переменных, то мерой совокупного 292
влиянияу-й переменной на /-ю переменную (ду) будет являться ее часть, не зависящая ни от общих для них переменных — причин, ни от корреляции между общими дляу-й и /-й переменных при- чинами (компоненты ложной корреляции), ни от наличия не анализируемой в модели априорной корреляции предопределен- ных переменных — входов. Таким образом мы можем разложить полную связь двух пере- менных на четыре составляющие с учетом постулируемой в моде- ли асимметрии воздействия: на совокупное влияние (причинное влияние) J'Pl переменной на /-ю, на две компоненты, измеряю- щие эффект ложной корреляции, и на компоненту, еще не имею- щую общепринятого названия. В свою очередь, совокупное вли- яние может быть разложено на две составляющие с учетом того, каким образом оно осуществляется - непосредственно или через другие переменные. Прямое влияние одной переменной на другую измеряется ко- эффициентом рц; в этом случае в цепи между объясняющей и объясняемой переменными нет промежуточных звеньев. Косвен- ное влияние - это влияние тех составляющих совокупного влия- ния одной переменной на другую, которое образуется при учете эффекта передачи воздействия через посредство переменных, специфицированных в модели как промежуточные звенья в при- чинной цепи, связывающей изучаемые переменные. Поскольку строение совокупного влияния всецело зависит от постулируе- мой причинной структуры отношений между переменными, то и все введенные выше понятия имеют смысл только лишь по отно- шению к причинной модели с заданным графом связей. Структурные причинные модели в эконометрике и социоло- гии соединяют теорию объекта с эмпирическими данными на ос- нове графа связей. Структурные модели формализуют гипотезы о причинных отношениях. Встает задача выбора гипотез, обозна- чаемая иногда в эконометрической и социологической литерату- ре как проблема каузального вывода. X. Блейлок, изучая этот во- прос как часть общего вопроса о сj Ьдствах построения социоло- гических теорий, предложил формальный прием, основанный на идеях Г.Саймона о ложной корреляции и каузальной упорядочен- ности, иногда называемый процедурой Саймона - Блейлока. Дело в том, что, постулируя связи между переменными, труд- но избежать субъективности. Два исследователя, имея одни и те же данные, могут получить две различные путевые диафаммы 293
для анализа. Так что path-анализ — это не устоявшийся метод ана- лиза, который запрограммирован заранее, он требует творческо- го подхода. Содержание процедуры Саймона-Блейлока заключается в гипотезе о полностью специфицированной линейной рекурсив- ной причинной модели, оценке ее параметров, а затем в исполь- зовании этих значений для воспроизведения эмпирической кор- реляционной матрицы. Основная идея заключается в том, что модель, которая не воспроизводит эмпирических корреляций, должна быть отвергнута. Целесообразность применения процедуры Саймона — Блей- лока очевидна в двух случаях. Во-первых, когда известен причин- ный приоритет среди переменных. Если имеются две гипотезы, постулирующие различные причинные цепи (структуры графа), то, используя процедуру Саймона — Блейлока, можно воссоздать эмпирические корреляции и отвергнуть ту каузальную цепь, где рассогласование слишком большое. Таким образом мы можем сравнивать теории. Во-вторых, когда имеет место случай с неизвестным кау- зальным приоритетом среди переменных. Допустим, что мы имеем набор переменных, для которых не известен каузальный порядок причина — следствие, и имеются две гипотезы, каждая из которых по-своему устанавливает его, постулируя отсутствие тех или иных возможных отношений. Описываемый подход мо- жет быть применен как для сравнения этих теорий, так и для их отбрасывания. Заметим, что в процедуре сравнения одна мо- дель-гипотеза может оказаться лучше другой, но никогда - пра- вильной. Более того, если одна из гипотез близка к тому, чтобы описываться полной рекурсивной системой, то обычно она ра- ботает, лучше воспроизводя корреляционную матрицу, и, есте- ственно, будет выбрана как более удачная, даже если она весьма далека от истины. Процедура Саймона - Блейлока является формальным при- емом, который дает основу для отклонения гипотез, но никоим образом не представляет соб9,й процедуру для создания новых теорий. Другой известный прием — вычеркивание связей в чрезмерно связанном графе с целью изучения поведения системы и ее эле- ментов в новых условиях. Устойчивость системы может означать верность гипотезы. Решение об уничтожении той или иной связи модели может быть принято или на основе критерия статистиче- 294
ской значимости, или на основе произвольно установленного по- рогового критерия величины коэффициента причинного влия- ния. Проверкой правильности гипотез и корректности модели может служить их подтверждение при испытаниях на контроль- ных данных. Использованиер-анализа в социально-экономических иссле- дованиях сопряжено с рядом трудностей. Прежде всего не всегда можно считать, что линейная зависимость в состоянии удовле- творительно отразить все разнообразие причинно-следственных связей в реальных структурах. Кроме того, следует учитывать, что /^-анализ разработан для количественных переменных. Структур- ные модели и путевой анализ иллюстрируют единство теоретиче- ского (качественного) и формально математического (количест- венного) подходов. Значимость результатов анализа определя- ется в первую очередь правильностью построения логического каркаса структурной модели - максимально связанного фафа связей, изоморфного математической модели в виде системы уравнений. Применение путевого анализа продуктивно при офа- ниченном числе переменных (примерно при 10 переменных). Контрольные вопросы 1. Перечислите возможные способы построения систем уравне- ний. Чем они отличаются друг от друга? 2. Как связаны между собой структурная и приведенная формы модели? 3. В чем состоят проблемы идентификации модели и какие условия идентификации (необходимое и достаточное) вы знаете? 4. В чем суть косвенного метода наименьших квадратов? 5. В каких случаях используется двухшаговый метод наимень- ших квадратов? Раскройте его содержание. 6. Что представляют собой мультипликаторные модели кейнси- анского типа? Как интерпретируются коэффициенты приве- денной формы такой модели? 7. Приведите пример динамической модели экономики. 8. Как строится структурная модель спроса и предложения? 9. В чем суть путевого анализа? 10. Как проводится оценка путевых коэффициентов? 11. Назовите составляющие коэффициента корреляции, кото- рые вьщеляются с помощью путевого анализа.
6 Глава МОДЕЛИРОВАНИЕ ОДНОМЕРНЫХ ВРЕМЕННЫХ РЯДОВ* 6.1. ОСНОВНЫЕ ЭЛЕМЕНТЫ ВРЕМЕННОГО РЯДА Эконометрическую модель можно построить, используя два типа исходных данных: • данные, характеризующие совокупность различных объек- тов в определенный момент (период) времени; • данные, характеризующие один объект за ряд последова- тельных моментов(периодов) времени. Модели, построенные по данным первого типа, называются пространственными моделями. Модели, построенные по данным второго типа, называются моделями временных рядов. В главах 6-16 будут рассмотрены модели, построенные по данным временным рядам, а также специальные методы оценки параметров этих моделей, разработанные на основе традицион- ных методов рефессионного анализа. Временной ряд** — это совокупность значений какого-либо показателя за несколько последовательных моментов (периодов) времени. Каждый уровень временного ряда формируется под воздействием большого числа факторов, которые условно можно подразделить на три группы: • факторы, формирующие тенденцию ряда; * Подготовка глав 6, 14 и 15 была осуществлена при поддержке Инсти- тута «Открытое общество» в 1997—1998 гг ** В отечественной литературе для этого термина используются синони- мы «динамический ряд» и «ряд динамики». 296
• факторы, формирующие циклические колебания ряда; • случайные факторы. При различных сочетаниях этих факторов зависимость уров- ней ряда от времени может принимать разные формы. Во-первых, большинство временных рядов экономических показателей имеют тенденцию, характеризующую совокупное долговременное воздействие множества факторов на динамику изучаемого показателя. По всей видимости, эти факторы, взятые в отдельности, могут оказывать разнонаправленное воздействие на исследуемый показатель. Однако в совокупности они форми- руют его возрастающую или убывающую тенденцию. На рис. 6.1 а, б, в показаны компоненты гипотетического временного ряда, содержащего возрастающую тенденцию. Во-вторых, изучаемый показатель может быть подвержен циклическим колебаниям. Эти колебания могут носить сезон- ный характер, поскольку экономическая деятельность ряда от- раслей зависит от времени года (например, цены на сельскохо- зяйственную продукцию в летний период выше, чем в зимний; уровень безработицы в курортных городах в зимний период выше по сравнению с летним). При наличии больших массивов данных за длительные промежутки времени можно выявить циклические колебания, связанные с общей динамикой конъюнктуры рынка, а также с фазой бизнес-цикла, в которой находится экономика страны. На рис. 6.1 б представлен гипотетический временной ряд, содержащий только сезонную компоненту. Некоторые временные ряды не содержат тенденции и цикли- ческую ifOMHOHCHTy, а каждый следующий их уровень образуется как сумма среднего уровня ряда и некоторой (положительной или отрицательной) случайной компоненты. Пример ряда, содержа- щего только случайную компоненту, приведен на рис. 6.1 в. Очевидно, что реальные данные не соответствуют полностью ни одной из описанных выше моделей. Чаще всего они содержат все три компоненты. Каждый их уровень формируется под воз- действием тенденции, сезонных колебаний и случайной компо- ненты. В большинстве случаев фактический уровень временного ря- да можно представить как сумму или произведение трендовой, циклической и случайной компонент. Модель, в которой времен- ной ряд представлен как сумма перечисленных компонент, назы- вается аддитивной моделью временного ряда. Модель, в которой временной ряд представлен как произведение перечисленных компонент, называется мультипликативной моделью временного 297
Рис. 6.1. Основные компоненты временного рада: а — возрастающая тенденция; б- сезонная компонента; в - случайная компонента ряда. Основная задача эконометрического исследования отдель- ного временного рада - выявление и придание количественного выражения каждой из перечисленных выше компонент, с тем чтобы использовать полученную информацию для прогнозиро- вания будущих значений рада или при построении моделей взаи- мосвязи двух или более временных рядов. 6.2. АВТОКОРРЕЛЯЦИЯ УРОВНЕЙ ВРЕМЕННОГО РЯДА и ВЫЯВЛЕНИЕ ЕГО СТРУКТУРЫ При наличии тенденции и циклических колебаний значения каждого последующего уровня рада зависят от предьщущих значений. Корреляционную зависимость между последователь- ными уровнями временного ряда называют автокорреляцией уровней ряда. 298
Количественно ее можно измерить с помощью линейного ко- эффициента корреляции между уровнями исходного временного ряда и уровнями этого ряда, сдвинутыми на несколько шагов во времени. Рассмотрим пример. Пример 6.1. Пусть имеются следующие условные данные о средних расходах на конечное потребление (у,, д. е.) за 8 лет (табл. 6.1). Таблица 6.1 Расчет коэффициента автокорреляции первого порядка для временного рада расходов на конечное потребление (д. е.) / 1 2 3 4 5 6 7 8 Итого Уг 7 8 8 10 11 12 14 16 86 Уг-1 — 1 8 8 10 11 12 14 70 *Сумма не рав У1-У\ __ -3,29 -3,29 -1,29 -0,29 0,71 2,71 4,71 -0,03* на нулю I У1-\-У1 — -3 -2 -2 0 1 2 4 0 »виду нали^ (У-У\)'(У^\-У^) — 9,87 6,58 2,58 0,00 0,71 5,42 18,84 44,0 [ия ошибок округ; (y-Jxf — 10,8241 10,8241 1,6641 0,0841 0,5041 7,3441 22,1841 53,4287 1ения. (y^i-Jif — 9 4 4 0 1 4 16 38 |0,ь ^"^ Разумно предположить, что расходы на конечное потребле- ние в текущем году зависят от расходов на конечное потребление предьщущих лет. Определим коэффициент корреляции между рядами у^ и у^_1 и измерим тесноту связи между расходами на конечное потребле- ние текущего и предыдущего годов. Добавим в табл. 6.1 времен- ной ряд j;^_i. Одна из рабочих формул для расчета коэффициента корреля- ции имеет вид: 'ху = UXj'X)'(yj-y) ylUxj-x)''Uyj-y)' В качестве переменной х мы рассмотрим ряд ^2, Узу •••> Уг'-> ^ ^^' честве переменной у - ряд j^i, У2, ..., Уу Тогда приведенная выше формула примет вид: 299
1,{У1-У1){У,-1-У2) /=2 ''-"• 1 Г' (6.1) iF yif-Hiy.-i-yif 1-2 где л л Zy, 1.У1-1 Уг=^;У2='^. <6.2) Эту величину называют коэффициентом автокорреляции уровней ряда первого порядка, так как он измеряет зависимость между соседними уровнями ряда / и / - 1, т. е. при лаге 1. Для данных из примера 6.1 соотношения (6.2) составят: _ 8+8 + 10 + 11 + 12 + 14 + 16 79 ,,^^ У\ = ^ = у = 1129; - 7 + 8 + 8 + 10 + 11 + 12 + 14 70 ,^ У2 = = = 10. •^^7 7 Воспользовавшись формулой (6.1), получим коэффициент автокорреляции уровней ряда первого порядка: 44 г^= . =0,976. ^53,43-38 Полученное значение свидетельствует об очень тесной зави- симости между расходами на конечное потребление текущего и непосредственно предшествующего годов и, следовательно, о на- личии во временном ряде расходов на конечное потребление сильной линейной тенденции. Аналогично можно определить коэффициенты автокорреля- ции второго и более высоких порядков. Так, коэффициент авто- корреляции второго порядка характеризует тесноту связи между уровнями рядад'^ и у^_2 и определяется по формуле Hiyt-hXyt-i-yA) '2 = пг= : -' (6.3) ]иУ^-Уз^-Ш-2-У4)' V/=3 /=з 300
где л ^' и-2' 74=^ ZJ'»-2 «-2 (6.4) Для данных из примера 6.1 получим: _ 8+10 + 11 + 12+14+16 -71 ,,_, Уз= g =у = 11.83: _ 7+8+8 + 10+11 + 12 56 „,, >'4= g = у = 9,33. Для расчета коэффициента автокорреляции второго порядка построим табл. 6.2. Таблица 6.2 Расчет коэффициента автокорреляции второго порядка для временного р5ща расходов на конечное потребление (д. е.) / 1 2 3 4 5 6 7 8 Итого Л 7 8 8 10 11 12 14 16 86 У!^2 - 7 8 8 10 11 12 56 ^ Сумма не ра У^-Уъ - -3,83 -1,83 -0,83 0,17 2,17 4,17 0,02^ вна нул1 У!-2-Уа - -2,33 -1,33 -1,33 0,67 1,67 2,67 0,02^ 0 ввиду нали (yt-yz)'^t-2-yA) - 8,9239 2,4339 1,1039 0,1139 3,6239 11,1339 27,3334 чия ошибок округлен (У.-Уъ)" - 14,6689 3,3489 0,6889 0,0289 4,7089 17,3889 40,8334 ия. (Уг-2-74)' - 5,4289 1,7689 1,7689 0,4489 2,7889 7,1289 19,3334 Подставив полученные значения в формулу (6.3), имеем: Г2 = 27,3334 V40,8334-19,3334 = 0,973. Полученные результаты еще раз подтверждают вывод о том, что ряд расходов на конечное потребление содержит линейную тенденцию. Число периодов, по которым рассчитывается коэффициент автокорреляции, называется лагом, С увеличением лага число пар значений, по которым рассчитывается коэффициент авто- 301
корреляции, уменьшается. Некоторые авторы считают целесооб- разным для обеспечения статистической достоверности коэффи- циентов автокорреляции использовать правило «максимальный лаг должен быть не больше а7/4»*. Отметим два важных свойства коэффициента автокорреляции. Во-первых, он строится по аналогии с линейным коэффициентом корреляции и, таким образом, характеризует тесноту только ли- нейной связи текущего и предьщущего уровней ряда. Поэтому по коэффициенту автокорреляции можно судить о наличии линей- ной (или близкой к линейной) тенденции. Для некоторых времен- ных рядов, имеющих сильную нелинейную тенденцию (например, параболу второго порядка или экспоненту), коэффициент авто- корреляции уровней исходного ряда может приближаться к нулю. Во-вторых, по знаку коэффициента автокорреляции нельзя делать вывод о возрастающей или убывающей тенденции в уров- нях ряда. Большинство временных рядов экономических данных содержат положительную автокорреляцию уровней, однако при этом они могут иметь убывающую тенденцию. Последовательность коэффициентов автокорреляции уров- ней первого, второго и т. д. порядков называют автокорреляцион- ной функцией временного ряда. График зависимости ее значений от величины лага (порядка коэффициента автокорреляции) называ- ется коррелограммой. Анализ автокорреляционной функции и коррелофаммы поз- воляет определить лаг, при котором автокорреляция наиболее высокая, следовательно, лаг, при котором связь между текущим и предыдущими уровнями ряда наиболее тесная, т. е. при помощи анализа автокорреляционной функции и коррелограммы можно выявить структуру ряда. Если наиболее высоким оказался коэффициент автокорреля- ции первого порядка, исследуемый ряд содержит только тенден- цию. Если наиболее высоким оказался коэффициент автокор- реляции порядка г, ряд содержит циклические колебания с пери- одичностью в г моментов времени. Если ни один из коэффици- ентов автокорреляции не является значимым, можно сделать предположение относительно структуры этого ряда: либо ряд не содержит тенденции и циклических колебаний и имеет структу- * Статистическое моделирование и прогнозирование: Учеб. пособие/ Под ред. А.Г. Гранберга. - С. 103. 302
ру, сходную со структурой ряда (см. рис. 6.1 в), либо ряд содержит сильную нелинейную тенденцию, для выявления которой нужно провести дополнительный анализ. Поэтому коэффициент авто- корреляции уровней и автокорреляционную функцию це^тесооб- разно использовать для выявления во временном ряде наличия или отсутствия трендовой компоненты Т и циклической (сезонной) компоненты S, Временной ряд расходов на конечное потребление (см. при- мер 6.1) содержит только тенденцию, так как коэффициенты автокорреляции его уровней высокие. Пример 6.2. Пусть имеются условные данные об объемах потребления электроэнергии жителями региона за 16 кварталов (табл. 6.3). Таблица 6.3 Потребление электроэнергии жителями региона, млн кВт * ч / л 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 yi 6,0 4,4 5,0 9,0 7,2 4,8 6,0 10,0 8,0 5,6 6,4 11,0 9,0 6,6 7,0 10,8 У,-1 — 6,0 4,4 5,0 9,0 7,2 4,8 6,0 10,0 8,0 5,6 6,4 11,0 9,0 6,6 7,0 yt-2 — — 6,0 4,4 5,0 9,0 7,2 4,8 6,0 10,0 8,0 5,6 6,4 11,0 9,0 6,6 yt-г — - - 6,0 4,4 5,0 9,0 7,2 4,8 6,0 10,0 8,0 5,6 6,4 11,0 9,0 У1-А — - - - 6,0 4,4 5,0 9,0 7,2 4,8 6,0 10,0 8,0 5,6 6,4 11,0 Нанесем значения у^ на график (рис. 6.2). Определим коэффициент автокорреляции первого порядка (добавим у^_'^ в табл. 6.3 и воспользуемся формулой расчета ли- нейного коэффициента корреляции). Он составит: rj = 0,165. От- метим, что расчет этого коэффициента проводился по 15, а не по 16 парам наблюдений. Это значение свидетельствует о слабой за- висимости текущих уровней ряда от непосредственно предшест- 303
11 0) 0) Q. 12Н 8Н 6Н 4Н 2-j "1—I 1—I—I—I—I—I—I—I—I—I—I—I—I—I—^ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 ^ Время, квартал Рис. 6.2. Потребление электроэнергии жителями региона вующих им уровней. Однако, как следует из фафика, структура данного ряда такова, что каждый следующий уровень у^ зависит от уровней у^_4 и у^_2 в гораздо большей степени, чем от уровня у^_^. Построим ряд>'^_2 (см. табл. 6.3). Рассчитав коэффициент автокорреляции второго порядка Г2, получим количественную ха- рактеристику корреляционной связи рядов у^, у^_2\ /'2 = 0,567. Продолжив расчеты, получим автокорреляционную функцию этого ряда (табл. 6.4). Таблица 6.4 Коррелограмма временного рада потребления электроэнергии Лаг 1 2 3 4 5 6 7 8 Коэффициент автокорреляции уровней 0,165154 0,566873 0,113558 0,983025 0,118711 0,722046 0,003367 0,973848 Коррелофамма ** *Ф«**Ф4| * 4сФ4|4>4|«ФФ«*4>« 4( ♦ФФФФ4|*Ф« 41*4|*4»||Ф*4|4|4|* Анализ значений автокорреляционной функции позволяет сделать вывод о наличии в изучаемом временном ряде, во-пер- вых, линейной тенденции, во-вторых, сезонных колебаний пери- 304
одичностью в четыре квартала. Данный вывод подтверждается и графическим анализом структуры ряда (см. рис. 6.2). Аналогично, если, например, при анализе временного ряда наиболее высоким оказался коэффициент автокорреляции вто- рого порядка, ряд содержит циклические колебания с циклом, равным двум периодам времени, т. е. имеет пилообразную струк- туру. 6.3. МОДЕЛИРОВАНИЕ ТЕНДЕНЦИИ ВРЕМЕННОГО РЯДА Одним из наиболее распространенных способов моделирова- ния тенденции временного ряда является построение аналитиче- ской функции, характеризующей зависимость уровней ряда от времени, или тренда. Этот способ называют аналитическим вы- равниванием временного ряда. Поскольку зависимость от времени может принимать разные формы, для ее формализации можно использовать различные ви- ды функций. Для построения трендов чаще всего применяются следующие функции: • линейный тренд у^ = а-\- Ь-1; • гипербола V/ = а + b/t, " А a + bt* • экспоненциальный тренд j^^ = e ; • тренд в форме степенной функции у^ = а-1^\ • парабола второго и более высоких порядков >>^ = fl + 6i-/ + 62'^ + - + *it-^^- Параметры каждого из перечисленных выше трендов можно определить обычным МНК, используя в качестве независимой переменной время /=1,2,..., л, а в качестве зависимой перемен- ной - фактические уровни временного ряда у^. Для нелинейных трендов предварительно проводят стандартную процедуру их ли- неаризации. Известно несколько способов определения типа тенденции; к наиболее распространенным относятся качественный анализ изучаемого процесса, построение и визуальный анализ графика * Другая формулировка этой формы тренда имеет вид: 9, = а- Ь\ 20-^291 305
зависимости уровней ряда от времени, расчет некоторых основ- ных показателей динамики. В этих же целях можно использовать и коэффициенты автокорреляции уровней ряда. Тип тенденции можно определить путем сравнения коэффициентов автокорре- ляции первого порядка, рассчитанных по исходным и преобразо- ванным уровням ряда. Если временной ряд имеет линейную тен- денцию, то его соседние уровни yj и y^_i тесно коррелируют В этом случае коэффициент автокорреляции первого порядка уровней исходного ряда должен быть высоким. Если временной ряд содержит нелинейную тенденцию, например, в форме экспо- ненты, то коэффициент автокорреляции первого порядка по ло- гарифмам уровней исходного ряда будет выше, чем соответству- ющий коэффициент, рассчитанный по уровням ряда. Чем силь- нее выражена нелинейная тенденция в изучаемом временном ря- де, тем в большей степени будут различаться значения указанных коэффициентов. Выбор наилучшего уравнения в случае, если ряд содержит не- линейную тенденцию, можно осуществить путем перебора ос- новных форм тренда, расчета по каждому_уравнению скорректи- рованного коэффициента детерминации Ли выбора уравнения тренда с максимальным значением скорректированного коэффи- циента детерминации. Реализация этого метода относительно проста при компьютерной обработке данных. Пример 6.3. Имеются помесячные данные о темпах роста номинальной заработной платы в РФ за 10 месяцев 1999 г. к де- кабрю 1998 г (табл. 6.5). Требуется выбрать наилучший тип трен- да и определить его параметры. Таблица 6.5 Темпы роста номинальной месячной заработной платы за 10 месяцев 1999 г., % к уровню декабря 1998 г. Месяц Январь Февраль Март Апрель Май Темпы роста номи- нальной месячной заработной платы 82,9 87,3 99,4 104,8 107,2 Месяц Июнь Июль Август Сентябрь Октябрь Темпы роста номи- нальной месячной заработной платы 121,6 118,6 114,1 123,0 127,3 Источник. Данные Петербургкомстата. 306
Построим фафик данного временного ряда (рис. 6.3). У1 о X ^ ^ -,- (Q 2 S 5150 о с 2 §100 2 Q. с (О .0) 50 2 4 8 I 10 f Время, месяц —•— фактические уровни ряда —п— уровни ряда, рассчитанные по линейному тренду Рис. 6.3. Динамика темпов роста номинальной заработной платы за 10 месяцев 1999 г. На рис. 6.3 наглядно видно наличие возрастающей тенден- ции. Возможно существование линейного тренда. Для дальнейшего анализа определим коэффициенты авто- корреляции по уровням этого ряда и их логарифмам (табл. 6.6). Таблица 6.6 Автокорреляционная функция временного ряца темпов роста номинальной месячной заработной платы за 10 месяцев 1999 г., % к уровню декабря 1998 г. Лаг 1 2 3 Автокорреляционная функция по уровням ряда 0,901 0,805 0,805 по логарифмам уровней ряда 0,914 0,832 0,896 Высокие значения коэффициентов автокорреляции первого, второго и третьего порядков свидетельствуют о том, что ряд со- держит тенденцию. Приблизительно равные значения коэффи- циентов автокорреляции по уровням этого ряда и по логарифмам уровней позволяют сделать следующий вывод: если ряд содержит нелинейную тенденцию, то она выражена в неявной форме. По- 20 307
этому для моделирования его тенденции в равной мере целесооб- разно использовать и линейную, и нелинейную функцию, напри- мер степенной или экспоненциальный тренд. Для выявления наилучшего уравнения тренда определим па- раметры основных видов трендов. Результаты этих расчетов представлены в табл. 6.7, согласно данным которой наилучшей является степенная форма тренда, для которой значение скор- ректированного коэффициента детерминации наиболее высокое. Уравнение степенного тренда можно использовать как в линеа- ризованном виде, так и в форме исходной степенной функции после проведения операции потенцирования. В исходном виде это уравнение выглядит следующим образом: ^^ = ^4.39.^0.193 ИЛИ i^, = 80,32-/ ■0.193 Таблица 6.7 Уравнения тревдов для временного рада темпов роста номинальной месячной заработной платы за 10 месяцев 1999 г., % к уровню декабря 1998 г. Тип тренда Линейный Парабола второго порядка Степенной Экспоненциальный Гкперболический ^В скобках указан ^Коэффициенты j регрессии. Уравнение >^, = 82,66+ 4,72/ (0,595)^ р,= 72,9+ 9,599/-0,444/2 (2,11)40,187/ 1пу, =4,39+ 0,193 In/ (0,017)^ Iny, = 4,43 + 0,045/ (0,006)^ 9, =122,57-47,63// (8,291)* ы стандартные ошибки коэфф! детерминации рассчитаны по; R' 0,887 0,937 0,939^ 0,872^ 0,758 {циентов регрес ■инеаризованнь! R' 0,873 0,920 0,931^ 0,856^ 0,728 сии. [м уравнениям 308
Наиболее простую экономическую интерпретацию имеют па- раметры линейного и экспоненциального трендов. Параметры линейного тренда можно интерпретировать так: а - начальный уровень временного ряда в момент времени / = 0; b — средний за период абсолютный прирост уровней ряда. При- менительно к данному временному ряду можно сказать, что тем- пы роста номинальной месячной заработной платы за 10 месяцев 1999 г изменялись от уровня 82,66% со средним за месяц абсо- лютным приростом, равным 4,72 проц. пункта. Расчетные значе- ния уровней временного ряда по линейному тренду опреде- ляются двумя способами. Во-первых, можно последовательно подставлять в найденное уравнение тренда значения / = 1, 2,..., л, т. е. jJi"""" = 82,66 + 4,72 • 1 = 87,38; jjj'^"" = 82,66 + 4,72 • 2 =92;10. Во-вторых, в соответствии с интерпретацией параметров ли- нейного тренда каждый последующий уровень ряда — это сумма предьщущего уровня и среднего цепного абсолютного прироста, т. е. л л ^лин ^^лин _^j^^ g^ 38 + 4,72 = 92,10; ^ ЛИН ^ ^ ЛИН + /, = 92,10 + 4,72 = 96,82 и т. д. График линейного тренда приведен на рис. 6.3. Параметры экспоненциального тренда имеют следующую интерпретацию. Параметр а — это начальный уровень временно- го ряда в момент времени / = 0. Величина е^ - это средний за еди- ницу времени коэффициент роста уровней ряда. Для нашего примера уравнение экспоненциального тренда в исходной форме имеет вид: 5^^ = ^4,43.^0.045/ ИЛИ i), =83,96-1,046'. Таким образом, начальный уровень ряда в соответствии с уравнением экспоненциального тренда составляет 83,96 (сравни- те с начальным уровнем 82,66 в линейном тренде), а средний цеп- ной коэффициент роста - 1,046. Следовательно, можно сказать, что темпы роста номинальной месячной заработной платы за 10 месяцев 1999 г изменялись от уровня 83,96% со средним за месяц 309
цепным темпом роста, равным 104,6%. Иными словами, средний за месяц цепной темп прироста временного ряда составил 4,6%. По аналогии с линейной моделью расчетные значения уров- ней ряда по экспоненциальному тренду можно получить как пу- тем подстановки в уравнение тренда значений /=1,2,..., л, так и в соответствии с интерпретацией параметров экспоненциального тренда: каждый последующий его уровень — это произведение предьщущего уровня на соответствующий коэффициент роста: эксп эксп У1 =Уо 1,046 = 83,96- 1,046 = 87,82; ^эксп ^^эксп . J Q46 = 87,82 • 1,046 = 91,87 и т. д. При наличии неявной нелинейной тенденции следует допол- нять описанные выше методы выбора наилучшего уравнения тренда качественным анализом динамики изучаемого показате- ля, с тем чтобы избежать ошибок спецификации при выборе ви- да тренда. Качественный анализ предполагает изучение проблем возможного наличия в исследуемом временном ряде поворотных точек и изменения темпов прироста, или ускорения темпов при- роста, начиная с определенного момента (периода) времени под влиянием ряда факторов, и т. д. В случае, если уравнение тренда выбрано неверно при больших значениях /, результаты анализа и прогнозирования динамики временного ряда с использованием выбранного уравнения будут недостоверными вследствие ошиб- ки спецификации (рис. 6.4). f* t Рис. 6.4. Ошибка спецификации при выборе уравнения тренда Если наилучшей формой тренда является парабола второго порядка, в то время как на самом деле имеет место линейная тен- денция, то при больших значениях / парабола и линейная функ- ция будут по-разному описывать тенденцию в уровнях ряда. При / > /* парабола второго порядка характеризует убывающую тен- денцию в уровнях ряда у^, а линейная функция - возрастающую. 310
6.4. МОДЕЛИРОВАНИЕ СЕЗОННЫХ И ЦИКЛИЧЕСКИХ КОЛЕБАНИЙ Известно несколько подходов к анализу структуры времен- ных рядов, содержащих сезонные или циклические колебания*. Простейший подход - расчет значений сезонной компонен- ты методом скользящей средней и построение аддитивной или мультипликативной модели временного ряда. Общий вид аддитивной модели следующий: Y=T+S-^E, (6.5) Эта модель предполагает, что каждый уровень временного ря- да может быть представлен как сумма трендовой Г, сезонной S и случайной Е компонент. Общий вид мультипликативной моде- ли выглядит так: Y=T'S'E. (6.6) Данная модель предполагает, что каждый уровень временного ряда может быть представлен как произведение трендовой Г, сезонной 5* и случайной £■ компонент. Выбор одной из двух моде- лей проводится на основе анализа структуры сезонных колеба- ний. Если амплитуда колебаний приблизительно постоянна, строят аддитивную модель временного ряда, в которой значения сезонной компоненты предполагаются постоянными для различ- ных циклов. Если амплитуда сезонных колебаний возрастает или уменьшается, строят мультипликативную модель временного ря- да, которая ставит уровни ряда в зависимость от значений сезон- ной компоненты. Построение аддитивной и мультипликативной моделей сво- дится к расчету значений Г, дУ и £ для каждого уровня ряда. Процесс построения модели включает в себя следующие шаги. Шаг 1. Выравнивание исходного ряда методом скользящей средней. Шаг 2. Расчет значений сезонной компоненты S. * Моделирование циклических колебаний в целом осуществляется ана- логично моделированию сезонных колебаний, поэтому мы рассмотрим только методы моделирования последних. 311
Шаг 3. Устранение сезонной компоненты из исходных уров- ней ряда и получение выравненных данных (Г+ £) в аддитивной или (Т- Е)ъ мультипликативной модели. Шаг 4. Аналитическое выравнивание уровней {Т -\- Е) или (Т- Е) и расчет значений Тс использованием полученного урав- нения тренда. Шаг 5. Расчет полученных по модели значений (Т+ S) или (T'S). Шаг 6. Расчет абсолютных и/или относительных ошибок. Если полученные значения ошибок не содержат автокорреля- ции, ими можно заменить исходные уровни ряда и в дальнейшем использовать временной ряд ошибок Е ддя анализа взаимосвязи исходного ряда и других временных рядов. 6.4.1. Аддитивная модель временного ряда Рассмотрим методику построения аддитивной модели вре- менного ряда на примере. Пример 6.4. Обратимся к данным об объеме потребления электроэнергии жителями региона за последние четыре года (см. табл. 6.3). В примере 6.2 было показано, что данный временной ряд со- держит сезонные колебания периодичностью 4. Объемы потреб- ления электроэнергии в осенне-зимний период времени (I и IV кварталы) выше, чем весной и летом (II и III кварталы). По гра- фику этого ряда (см. рис. 6.2) можно установить наличие прибли- зительно равной амплитуды колебаний. Это свидетельствует о соответствии этого ряда аддитивной модели. Рассчитаем ее ком- поненты. Шаг 1. Проведем выравнивание исходных уровней ряда ме- тодом скользящей средней. Для этого: • просуммируем уровни ряда последовательно за каждые четыре квартала со сдвигом на один момент времени и определим условные годовые объемы потребления электроэнергии (ф. 3 табл. 6.8); • разделив полученные суммы на 4, найдем скользящие средние (гр. 4 табл. 6.8). Отметим, что полученные таким образом вы- равненные значения уже не содержат сезонной компоненты; 312
• приведем эти значения в соответствие с фактическими момен- тами времени, для чего найдем средние значения из двух последовательных скользящих средних — центрированные скользящие средние (ф. 5 табл. 6.8). Таблица 6.8 Расчет оценок сезонной компоненты в ад1Ц1тивной модели Номер квартала, t 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Потребле- ние элект- роэнергии, У1 2 6,0 4,4 5,0 9,0 7,2 4,8 6,0 10,0 8,0 5,6 6,4 11,0 9,0 6,6 7,0 10,8 Итого за четыре квартала 3 24,4 25,6 26,0 27,0 28,0 28,8 29,6 30,0 31,0 32,0 33,0 33,6 33,4 Скользящая средняя за четыре квартала 4 Центриро- ванная скользйщая средняя 5 Оценка сезонной компоненты 6 I'll 6,250 -1,250 yJi 6,450 2,550 ly. 6,625 0,575 7'пп 6,875 -2,075 7'^" 7,100 -1,100 740 7'^^^ 2,700 7^0 '7,450 0,550 !,у. 7,625 -2,025 о'пп ^'875 -1,475 1у. 8,125 2,875 ^*4п 8,325 0,675 g»35 8,375 -1,775 Шаг 2. Найдем оценки сезонной компоненты как разность между фактическими уровнями ряда и центрированными сколь- зящими средними (гр. 6 табл. 6.8). Используем эти оценки для расчета значений сезонной компоненты S (табл. 6.9). Для этого найдем средние за каждый квартал (по всем годам) оценки сезон- ной компоненты S^. В моделях с сезонной компонентой обычно предполагается, что сезонные воздействия за период взаимопога- шаются. В аддитивной модели это выражается в том, что сумма значений сезонной компоненты по всем кварталам должна быть равна нулю. Для данной модели имеем: 0,6 - 1,958 - 1,275 + 2,708 = 0,075. 313
Таблица 6.9 Расчет значений сезонной компоненты в адцитивной модели Показатель Итого за /-Й квартал (за все годы) Средняя оценка сезон- ной компоненты для /-го квартала, S^ Скорректированная се- зонная компонента, 5/ Год 1 2 3 4 X X X I 0,575 0,550 0,675 1,800 0,600 0,581 Номер квартала, / II -2,075 -2,025 -1,775 -5,875 -1,958 -1,977 III -1,250 -1,100 -1,475 -3,825 -1,275 -1,294 IV 2,550 2,700 2,875 8,125 2,708 2,690 Определим корректирующий коэффициент: А: = 0,075/4 = 0,01875. Рассчитаем скорректированные значения сезонной компо- ненты как разность между ее средней оценкой и корректирую- щим коэффициентом к: Si = S,-k, (6.7) где /=1:4. Проверим условие равенства нулю суммы значений сезонной компоненты: 0,581 - 1,977 - 1,294 + 2,690 = 0. Таким образом получены следующие значения сезонной ком- поненты: I квартал: S^ = 0,581; II квартал: ^2= -1,979; III квартал: 5з ^ —1,294; IV квартал: 5*4 = 2,690. 314
Занесем полученные значения в табл. 6.9 для соответствую- щих кварталов каждого года. Шаг 3. Элиминируем влияние сезонной компоненты, вычи- тая ее значение из каждого уровня исходного временного ряда. Получим: Т+ Е= У— 5(гр. 4 табл. 6.10). Эти значения рассчиты- ваются для каждого момента времени и содержат только тенден- цию и случайную компоненту. Таблица 6.10 Расчет выравненных значений Г и ошибок £ в ад1Ц1тивной модели / 1 1 2 3 4 5 6 7 8 9 10 И 12 13 14 15 16 У, 2 6,0 4,4 5,0 9,0 7,2 4,8 6,0 10,0 8,0 5,6 6,4 11,0 9,0 6,6 7,0 10,8 S i 3 0,581 -1,977 -1,294 2,690 0,581 -1,977 -1,294 2,690 0,581 -1,977 -1,294 2,690 0,581 -1,977 -1,294 2,690 Г+£ = = y-S^ 4 5,419 6,337 • 6,294 6,31Q 6,619 6,777 7,294 7,310 7,419 7,577 7,694 8,310 8,419 8,577 8,294 8,110 Т 5 5,902 6,088 6,275 6,461 6,648 6,834 7,020 7,207 7,393 7,580 7,766 7,952 8,139 8,325 8,519 8,698 Г+5 6 6,483 4,111 4,981 9,151 7,229 4,857 5,727 9,896 7,974 5,603 6,472 10,642 8,720 6,348 7,218 11,388 Е = у^- -(Г+5) 7 -0,483 0,289 0,019 -0,151 -0,029 -0,057 0,273 0,104 0,026 -0,030 -0,072 0,358 0,280 0,252 -0,218 -0,588 Е' 8 0,2333 0,0835 0,0004 0,0228 0,0008 0,0032 0,0745 0,0108 0,0007 0,0009 0,0052 0,1282 0,0784 0,0635 0,0475 0,3457 Шаг 4. Определим компоненту Г данной модели. Для этого проведем аналитическое выравнивание ряда (Г+ £) с помощью линейного тренда. Результаты аналитического выравнивания следующие. Константа 5,715416 Коэффициент регрессии 0,186421 Стандартная ошибка коэффициента регрессии 0,015188 Л-квадрат 0,914971 Число наблюдений 16 Число степеней свободы 14 315
Таким образом имеем линейный тренд: Г= 5,715+ 0,186-/. Подставив в это уравнение значения / = 1, ..., 16, найдем уровни Г для каждого момента времени (гр. 5 табл. 6.10). График уравнения тренда приведен на рис. 6.5. Q. ^ О Е о S 12 10 8 6 4Н —т—\—\—I—I—I—I—I—\—I—I—\—I—I—I—I—^ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 ^ Время, квартал • фактические значения о тренд --Д--- значения (Г+S) Рис. 6.5. Потребление электроэнергии жителями региона Ш аг 5. Найдем значения уровней ряда, полученные по адди- тивной модели. Для этого прибавим к уровням Гзначения сезон- ной компоненты для соответствующих кварталов. Графически значения (7"+ 5) представлены на рис. 6.5. Шаг 6. В соответствии с методикой построения адаптивной модели расчет ошибки проводится по формуле E=Y-(T + S). (6.8) Это абсолютная ошибка. Численные значения абсолютных ошибок приведены в ф. 7 табл. 6.10. По аналогии с моделью регрессии для оценки качества пост- роения модели, а также для выбора наилучшей модели можно использовать сумму квадратов абсолютных ошибок. Для данной 316
аддитивной модели сумма квадратов абсолютных ошибок равна 1,10. По отношению к общей сумме квадратов отклонений уров- ней ряда от его среднего уровня, равной 71,59, эта величина со- ставляет чуть более 1,5%: (1-1,10/71,59)-100= 1,536. Следовательно, можно сказать, что аддитивная модель объяс- няет 98,5% общей вариации уровней временного ряда потребле- ния электроэнергии за последние 16 кварталов. 6.4.2. Мультипликативная модель Рассмотрим методику построения мультипликативной моде- ли временного ряда на примере. Пример 6.5. Пусть имеются поквартальные данные о при- были компании за последние.четыре года (табл. 6.11). Таблица 6.11 Прибыль компании, тыс. долл. США Год 1 2 3 4 Квартал I 72 70 62 52 II 100 92 80 60 III 90 80 68 50 IV 64 58 48 30 1])афик данного временного ряда (рис. 6.6) свидетельствует о наличии сезонных колебаний (период колебаний равен четырем) и общей убывающей тенденции уровней ряда. Прибыль компа- нии в весенне-летний период выше, чем в осенне-зимний пери- од. Поскольку амплитуда сезонных колебаний уменьшается, можно предположить наличие мультипликативной модели. Оп- ределим ее компоненты. Ш а г 1. Проведем выравнивание исходных уровней ряда мето- дом скользящей средней. Методика, применяемая на этом шаге, полностью совпадает с методикой аддитивной модели. Результаты расчетов оценок сезонной компоненты представлены в табл. 6.12. 317
Vi 120 |<100 (О ^ со ^^ 80 ё| 60 ^ 2 40 ^ 20 п—I—I—I—I—I—I—\—I—\—I—I—I—I—I—\—^ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 ^ Время, квартал Рис. 6.6. Прибыль компании Таблица 6.12 Расчет оценок сезонной компоненты в мультипликативной модели Номер квартала, 1 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Прибыль компании, У1 2 72 100 90 64 70 92 80 58 62 80 68 48 52 60 50 30 Итого за четыре квартала 3 326 324 316 306 300 292 280 268 258 248 228 210 192 Скользящая средняя за четыре квартала 4 81,5 81,0 79,0 76,5 75,0 73,0 70,0 67,0 64,5 62,0 57,0 52,5 48,0 Центриро- ванная скользящая средняя 5 81,25 80,00 77,75 75,75 74,00 71,50 68,50 65,75 63,25 59,50 54,75 50,25 Оценка сезонной компоненты 6 1,108 0,800 0,900 1,215 1,081 0,811 0,905 1,217 1,075 0,807 0,950 1,194 318
Шаг 2. Найдем оценки сезонной компоненты как частное от деления фактических уровней ряда на центрированные скользя- щие средние (гр. 6 табл. 6.12). Используем эти оценки для расче- та значений сезонной компоненты S (табл. 6.13). Для этого най- дем средние за каждый квартал оценки сезонной компоненты 5у. Взаимопогашаемость сезонных воздействий в мультипликатив- ной модели выражается в том, что сумма значений сезонной ком- поненты по всем кварталам должна быть равна числу периодов в цикле, т. е. четырем, так как в нашем случае число периодов од- ного цикла (год) равно четырем кварталам. Таблица 6.13 Расчет сезонной компоненты в мультипликативной модели Показатель Итого за /-Й квартал (за все годы) Средняя оценка сезон- ной компоненты для /-го квартала, 5^, Скорректированная се- зонная компонента, S,- Год 1 2 3 4 X X X I 0,900 0,905 . 0,950 2,755 0,918 0,913 Номер квартала, / II 1,215 1,217 1,194 3,626 1,209 1,202 III 1,108 1,081 1,075 3,264 1,088 1,082 IV 0,800 0,817 0,807 2,424 0,808 0,803 Имеем: 0,918 + 1,209 + 1,088 + 0,808 = 4,023. Рассчитаем корректирующий коэффициент: к = 4/4,023 = 0,9943. Определим скорректированные значения сезонной компо- ненты, умножив ее средние оценки на корректирующий коэффи- циент к: О/ — о f' к, где /=1:4. (6.9) 319
Проверим условие равенства четырем суммы значений сезон- ной компоненты: 0,913 + 1,202 + 1,082 + 0,803 = 4. Получим следующие значения сезонной компоненты: I квартал: II квартал: III квартал: IV квартал: ^1 = 0,913 5*2=1,202 5*3 =1,082: ^4 = 0,803 Занесем полученные значения в табл. 6.14 для соответствую- щих кварталов каждого года (гр. 3). Ш а г 3. Разделим каждый уровень исходного ряда на соответ- ствующие значения сезонной компоненты. Получим:Г- Е= Y/ S (гр. 4 табл. 6.14), которые содержат только тенденцию и случай- ную компоненту. Таблица 6.14 Расчет выравненных значений J и ошибок £ в мультипликативной модели / 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 У. 2 72 100 90 64 70 92 80 58 62 80 68 48 52 60 50 30 S i 3 0,913 1,202 1,082 0,803 0,913 1,202 1,082 0,803 0,913 1,202 1,082 0,803 0,913 1,202 1,082 0,803 4 78,86 83,19 83,18 79,70 76,67 76,54 73,94 72,23 67,91 66,56 62,85 59,78 56,96 49,92 46,21 37,36 Т 5 87,80 85,03 82,25 79,48 76,70 73,93 71,15 68,38 65,60 62,83 60,05 57,28 54,50 51,73 48,95 46,18 TS 6 80,16 102,20 89,00 63,82 70,03 88,86 76,99 54,91 59,90 75,52 64,98 45,99 49,76 62,18 52,97 37,08 Е = у^: :iTS) 7 0,898 0,978 1,011 1,003 1,000 1,035 1,039 1,056 1,035 1,059 1,047 1,044 1,045 0,965 0,944 0,809 Е=у- 8 -8,16 -2,20 1,00 0,18 -0,03 3,14 3,01 3,09 2,10 4,48 3,02 2,01 2,24 -2,18 -2,97 -7,08 (Ef 9 66,66 4,86 1,00 0,03 0,00 9,85 9,08 9,57 4,43 20,08 9,14 4,03 5,02 4,73 8,79 50,12 320
Ш а г 4. Определим компоненту Т в мультипликативной мо- дели. Для этого рассчитаем параметры линейного тренда, ис- пользуя уровни {ТЕ). Результаты аналитического выравнивания этого ряда представлены ниже. Константа 90,585150 Коэффициент регрессии -2,773250 Стандартная ошибка коэффициента рефессии ... 0,225556 Л-квадрат 0,915239 Число наблюдений 16 Число степеней свободы 14 Уравнение тренда имеет следующий вид: 7=90,59-2,773-/. Подставив в это уравнение значения / = 1,..., 16, найдем уров- ни Гдля каждого момента времени (гр. 5 табл. 6.14). График урав- нения тренда приведен на рис. 6.7. 120- 1 < 100- i^ 80- о q -I 4l 40 ^ 20 60 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 ^ Время, квартал —•— фактические значения а тренд (7^ --Д--- значения(T^S) Рис. 6.7. Прибыль компании (фактические и выравненные по мультипликативной модели значения уровней ряда) Шаг 5. Найдем уровни ряда по мультипликативной модели, умножив уровни Т на значения сезонной компоненты для соот- ветствующих кварталов (см. рис. 6.7). 21 -3291 321
Шаг 6. Расчет ошибки в мультипликативной модели прово- дится по формуле E=Y:{TS). (6.10) Численные значения ошибки приведены в ф. 7 табл. 6.14. Если временной ряд ошибок не содержит автокорреляции, его можно использовать вместо исходного ряда для изучения взаи- мосвязи с другими временными рядами. Для того чтобы сравнить мультипликативную модель с другими моделями временного ря- да, можно по аналогии с аддитивной моделью использовать сум- му квадратов абсолютных ошибок. Абсолютные ошибки в муль- типликативной модели определяются как E = y,-{TS). (6.11) В данной модели сумма квадратов абсолютных ошибок со- ставляет 207,40. Общая сумма квадратов отклонений фактичес- ких уровней этого ряда от среднего значения равна 5023. Таким образом, доля объясненной дисперсии уровней ряда равна: (1 - 207,40/5023) = 0,959, или 95,9%. Выявление и устранение сезонного эффекта (в некоторых ис- точниках употребляется термин «десезонализация уровней ряда») используются в двух направлениях. Во-первых, воздействие сезон- ных колебаний следует устранять на этапе предварительной обра- ботки исходных данных при изучении взаимосвязи нескольких временных рядов. Поэтому в российских и международных стати- стических сборниках часто публикуются данные, в которых устра- нено влияние сезонной компоненты (если это помесячная или по- квартальная статистика), например показатели объемов производ- ства в отдельных отраслях промышленности, уровня безработицы и т.д. Во-вторых, выявление сезонного эффекта производится в анализе структуры одномерных временных рядов с целью прогно- зирования уровней ряда в будущие моменты времени. Пример 6.6. Предположим, требуется дать прогноз потреб- ления электроэнергии жителями региона в течение первого по- лугодия ближайшего следующего года, используя данные при- мера 6.4. Прогнозное значение F^ уровня временного ряда в аддитив- ной модели в соответствии с соотношением (6.5) - это сумма трендовой и сезонной компонент. Объем электроэнергии, потребленной в течение первого по- лугодия ближайшего следующего, т. е. пятого, года, рассчитыва- 322
ется как сумма объемов потребления электроэнергии в I и во II кварталах пятого года, соответственно F^-j и F^^, Для определения трендовои компоненты воспользуемся уравнением тренда Получим: 7=5,715 + 0,186-/. 7-17 = 5,715 + 0,186- 17 = 8,877; 718 = 5,715 + 0,186-18 = 9,063. Значения сезонной компоненты равны: S^ = 0,581 (I квартал); ^2 =-1,977 (II квартал). Таким образом, ^17 = 7^17 + 5'i = 8,877 + 0,581 = 9,458; ^18 = ^18 + ^2 = 9,063 - 1,977 = 7,086. Прогноз объема потребления электроэнергии на первое полу- годие ближайшего следующего (пятого) года составит: (9,458 + 7,086) = 16,544 млн кВт • ч. Пример 6.7. Предположим, необходимо сделать прогноз ожидаемой прибыли поданным примера 6.5 компании за первое полугодие ближайшего следующего года. Прогнозное значение F^ уровня временного ряда в мульти- пликативной модели в соответствии с соотношением (6.6) - это произведение трендовои и сезонной компонент. Для определе- ния трендовои компоненты за каждый квартал воспользуемся уравнением тренда Г= 90,59-2,773-/. Получим: 7^17 = 90,59 - 2,773 • 17 = 43,401; Ги = 90,59 - 2,773 - 18 = 40,626. Значения сезонной компоненты равны: S^ = 0,913 (I квартал); ^2= 1,202 (II квартал). 2Г 323
Таким образом, Р\1 = 7^17 • ^1 = 43,401 • О, 913 = 39,626; ^18 = 7^18 • ^^2 = 40,626 • 1, 202 = 48,832. Прогноз ожидаемой прибыли компании на первое полугодие ближайшего следующего года составит: (39, 626 + 48,832) = 88,458 тыс. долл. США. 6.4.3. Применение фиктивных переменных для моделирования сезонных колебаний Рассмотрим еще один метод моделирования временного ря- да, содержащего сезонные колебания, - построение модели рег- рессии с включением фактора времени и фиктивных перемен- ных. Количество фиктивных переменных в такой модели должно быть на единицу меньше числа моментов (периодов) времени внутри одного цикла колебаний. Например, при моделировании поквартальных данных модель должна включать четыре незави- симые переменные - фактор времени и три фиктивные перемен- ные. Каждая фиктивная переменная отражает сезонную (цикли- ческую) компоненту временного ряда для какого-либо одного периода. Она равна единице для данного периода и нулю для всех остальных периодов. Пусть имеется временной ряд, содержащий циклические ко- лебания периодичностью к. Модель рефессии с фиктивными пе- ременными для этого ряда будет иметь вид: у^ = а-^ Ь-1 + CjXi + ... + cjXjН-... + c^_iX^_i + е^, (6.12) , и гдеху = 1 для кажцогоу внутри каждого цикпа, О во всех остальных случаях. Например, при моделировании сезонных колебаний на осно- ве поквартальных данных за несколько лет число кварталов вну- три одного года А: = 4, а общий вид модели следующий: у^ = а + Ь-1-^ с^х^ + С2Х2 + С3Х3 + 8р (6.13) гдех1= j 324 1 для первого квартала, [ О во всех остальных случаях;
xi'- ^3 = f 1 для второго квартала, [ О во всех остальных случаях; 1 для третьего квартала, О во всех остальных случаях. Уравнение тренда для каждого квартала будет иметь следую- щий вид: для I квартала у^ = а-^ Ь-1-\- Ci + е^\ (6.14) для II квартала у^ = а + 6 • г + С2 + е^; (6.15) для III квартала у^ = а + Ь-1-^ с^^ г/, (6.16) для IV квартала у^ = а + Ь-1 -)г г^. (6.17) Таким образом, фиктивные переменные позволяют диффе- ренцировать величину свободного члена уравнения рефессии для каждого квартала. Она составит: для I квартала {а + Cj); для II квартала {а н- С2); для III квартала {а + Сз); для rv квартала а. Параметр b в этой модели характеризует среднее абсолютное изменение уровней ряда под воздействием тенденции. В сущнос- ти, модель (6.13) есть аналог аддитивной модели временного ря- да, поскольку фактический уровень временного ряда - это сумма трендовой, сезонной и случайной компонент. Пример 6.8. Построим модель рефессии с включением фак- тора времени и фиктивных переменных для. данных о потребле- нии электроэнергии из примера 6.4. В данной модели четыре не- зависимые переменные: /, Xj, Х2, х-^ и результативная переменная у. Составим матрицу исходных данных (табл. 6.15). Оценим параметры уравнения рефессии (6.13) обычным МНК. Результаты оценки приведены в табл. 6.16. Уравнение рефессии имеет вид: у, = 8,33 + 0,19/ - 2,09jci - 4,48^2 - 3,91^3. 325
Таблица 6.15 Исходные данные для расчета параметров уравнения регрессии с фиктивными переменными по временному ряду потребления электроэнергии / 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 ^1 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 ^2 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 ^3 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 у 6,0 4,4 5,0 9,0 7,2 4,8 6,0 10,0 8,0 5,6 6,4 11,0 9,0 6,6 7,0 10,8 Таблица 6.16 Уравнение регрессии с фиктивными переменными для временного рада потребления электроэнергии Переменная Константа R^ = 0,985 Коэффициент 8,3250 0,1875 -2,0875 -4,4750 -3,9125 Стандартная ошибка 0,227261 0,016939 0,220208 0,216926 0,214933 /-критерий 36,6318 11,0691 -9,4797 -20,6292 -18,2034 Проанализируем эти результаты. Влияние сезонной компо- ненты в каждом квартале статистически значимо (фактические значения /-критерия по модулю больше 2 для параметров при пе- ременных Xj, ^2, Хз и константы а). Параметр а = 8,33 — это сумма начального уровня ряда и сезонной компоненты в IV квар- тале. Сезонные колебания в I, П и П1 кварталах приводят к сни- жению этой величины, о чем свидетельствуют отрицательные 326
оценки параметров при переменных ^Cj, Х2 и Хз- Отметим, что эти параметры не равны значениям сезонной компоненты, посколь- ку они характеризуют не сезонные изменения уровней ряда, а их отклонения от уровней, учитывающих сезонные воздействия в IV квартале. Положительная величина параметра 6 = 0,19 при пере- менной времени свидетельствует о наличии возрастающей тен- денции в уровнях ряда. Его абсолютное значение говорит о том, что средний за квартал абсолютный прирост объема потребления электроэнергии составляет 0,19 млн кВт • ч, или 190 тыс. кВт • ч. Поскольку фактическое значение /-критерия Стьюдента равно 11,1, можно утверждать, что существование в уровнях ряда тен- денции установлено надежно. Коэффициент детерминации в данной модели R^ = 0,985. Об- щая сумма квадратов уровней ряда у^ составляет: Собщ = ^0'/-У)' = 67,3. Определим остаточную сумму квадратов: С,„ = (1 - R^) • С^щ = (1 - 0,985) • 67,3 = 1,01. Остаточная сумма квадратов по аддитивной модели (сум- ма квадратов абсолютных ошибок) была рассчитана ранее (табл. 6.10) и составляет 1,10. Следовательно, модель регрессии с фиктивными переменными описывает динамику временного ря- да потребления электроэнергии лучше, чем аддитивная модель. Основной недостаток модели с фиктивными переменными для описания сезонных и циклических колебаний — наличие большого количества переменных. Если, например, строить модель для описания помесячных периодических колебаний за несколько лет, то такая модель будет включать 12 независимых переменных (11 фиктивных переменных и фактор времени). В такой ситуации число степеней свободы невелико, что снижает вероятность получения статистически значимых оценок пара- метров уравнения рефессии. 6.5. МОДЕЛИРОВАНИЕ ТЕНДЕНЦИИ ВРЕМЕННОГО РЯДА ПРИ НАЛИЧИИ СТРУКТУРНЫХ ИЗМЕНЕНИЙ От сезонных и циклических колебаний следует отличать едино- временные изменения характера тенденции временного ряда, вы- званные структурными изменениями в экономике или иными фак- 327
торами. В этом случае, начиная с некоторого момента времени /*, происходит изменение характера динамики изучаемого показателя, что приводит к изменению параметров тренда, описывающего эту динамику Схематично такая ситуация изображена на рис. 6.8. ytf О г t Рис. 6.8. Изменение характера тенденции временного ряда Момент (период) времени /* сопровождается значительными изменениями ряда факторов, оказывающих сильное воздействие на изучаемый показатель у^. Чаще всего эти изменения вызваны изменениями в общеэкономической ситуации или факторами (событиями) глобального характера, приведшими к изменению структуры экономики (например, начало крупных экономичес- ких реформ, изменение экономического курса, нефтяные кризи- сы и прочие факторы). Если исследуемый временной ряд вклю- чает в себя соответствующий момент (период) времени, то одной из задач его изучения становится выяснение вопроса о том, зна- чимо ли повлияли общие структурные изменения на характер этой тенденции. Если это влияние значимо, то для моделирования тенденции данного временного ряда следует использовать кусочно-линей- ные модели регрессии, т. е. разделить исходную совокупность на две подсовокупности (до момента времени /* и после момента /*) и построить отдельно по каждой подсовокупности уравнения 328
линейной регрессии (на рис. 6.8 этим уравнениям соответствуют прямые (7) и (2)). Если структурные изменения незначительно повлияли на характер тенденции ряда у^, то ее можно описать с помощью единого для всей совокупности данных уравнения тренда (на рис. 6.8 этому уравнению соответствует прямая (J)). Каждый из описанных выше подходов имеет свои положи- тельные и отрицательные стороны. При построении кусочно-ли- нейной модели происходит снижение остаточной суммы квадра- тов по сравнению с единым для всей совокупности уравнением тренда. Однако разделение исходной совокупности на две части ведет к потере числа наблюдений и, следовательно, к снижению числа степеней свободы в каждом уравнении кусочно-линейной модели. Построение единого для всей совокупности уравнения тренда, напротив, позволяет сохранить число наблюдений п ис- ходной совокупности, однако остаточная сумма квадратов по этому уравнению будет выше по сравнению с кусочно-линейной моделью. Очевидно, что выбор одной из двух моделей (кусочно- линейной или единого уравнения тренда) будет зависеть от соот- ношения между снижением остаточной дисперсии и потерей числа степеней свободы при переходе от единого уравнения рег- рессии к кусочно-линейной модели. Таблица 6.17 Условные обозначения для алгоритма теста Чоу Номер уравне- ния Вид урав- нения Число наблюдений в совокуп- ности Остаточная сумма квадратов Число пара- метров в уравнении^ Число степе- ней свободы остаточной дисперсии Кусочно-линейная модель (1) (2) -\-b2t «1 «2 ^ ост ^ ост *1 к2 Лl-^l «2-^2 Уравнение тренда по всей совокупности (3) ' В рассматриваемой н = А:з = 2. В общем случ п ами формулиро! ае число параме *-' ост зке число парам( пров в каждом у Лз пров всех уравн равнении може* п — к;^ = («1 + + л2)-/:з ений к^ = к2 = г различаться. 329
Формальный статистический тест для оценки этого соотно- шения был предложен Грегори Чоу*. Применение этого теста предполагает расчет параметров уравнений трендов, графики ко- торых изображены на рис. 6.8 прямыми (7), (2) и (J). Введем сис- тему обозначений, приведенную в табл. 6.17. Вьщвинем гипотезу Щ о структурной стабильности тенден- ции изучаемого временного ряда. Остаточную сумму квадратов по кусочно-линейной модели (^ост) можно найти как сумму С\^ и С^ост- С^ост = С^осг "^ С^ост- (6-18) Соответствующее ей число степеней свободы составит: («1 - A:j) -f («2 - *2) = (л - *1 -1^2). (6.19) Тогда сокращение остаточной дисперсии при переходе от единого уравнения тренда к кусочно-линейной модели можно определить следующим образом**: ^Co^-Cl^-C^. (6.20) Число степеней свободы, соответствующее ^Cq^, с учетом со- отношения (6.19) будет равно: п — к^ — {п — ki — к2) = к^ + к2 — ку (6.21) Далее в соответствии с предложенной Г. Чоу методикой опре- деляется фактическое значение /'-критерия по следующим дис- персиям на одну степень свободы вариации: f ^ ^дс ^ АСост• (^1 +^2 ~^з) (6 22) Найденное значение ^ф^^ сравнивают с табличным, получен- ным по таблицам распределения Фишера для уровня значимости а и числа степеней свободы (ki + А:2 — ^з) и (л — A:i — А:2). * Chow Gregory С. Tests of equality between sets of coefficients in two linear regressions // Econometrica. - Vol. 28. - № 3. - 1960. - C. 591-605. ** В методике расчетов предполагается, что С^^^т всегда больше, чем С^. 330
Если 7\jja^ > /'табл» ТО гипотсза о структурной стабильности тенденции отклоняется, а влияние структурных изменений на динамику изучаемого показателя признают значимым. В этом случае моделирование тенденции временного ряда следует осу- ществлять с помощью кусочно-линейной модели. Если ^факт ^ ^табл» ^О НСТ ОСНОВаНИЙ ОТКЛОНЯТЬ НуЛСВуЮ ГИПОТСЗу О структурной стабильности тенденции. Ее моделирование следует осуществлять с помощью единого для всей совокупности уравне- ния тренда. Отметим следующие особенности применения теста Чоу. 1. Если число параметров во всех уравнениях (1), (2), (3) (см. рис. 6.8 и табл. 6.17) одинаково и равно к, то формула (6.22) упро- щается: f = АС ост'к /g23) ^*^- С^ст:(п-2кУ 2. Тест Чоу позволяет сделать вывод о наличии или отсутствии структурной стабильности в изучаемом временном ряде. Если ^Факт ^ ^табл' ^о ЭТО означаст, что уравнения (1) и (2) описывают одну и ту же тенденцию, а различия численных оценок их пара- метров ^1 и ^2» а также fij и ^2 соответственно статистически не- значимы. Если же /"фа^ > /"табл» ^о гипотсза о структурной ста- бильности отклоняется, что означает статистическую значимость различий в оценках параметров уравнений (1) и (2). 3. Применение теста Чоу предполагает соблюдение предпо- сылок о нормальном распределении остатков в уравнениях (1) и (2) и независимость их распределений. Если гипотеза о структурной стабильности тенденции ряда у^ отклоняется, дальнейший анализ может заключаться в исследо- вании вопроса о причинах этих структурных различий и более де- тальном изучении характера изменения тенденции. В принятых нами обозначениях эти причины обусловливают различия в оцен- ках параметров уравнений (1) и (2). Возможны следующие сочетания изменений численных оце- нок параметров этих уравнений (рис. 6.9): • изменение численной оценки свободного члена уравнения тренда ^2 по сравнению с Aj при условии, что различия между Ь^ и ^2 статистически незначимы. Геометрически это означает, что прямые (7) и (2) параллельны (рис. 6.9 а). В данной ситуации можно говорить о скачкообразном изменении уровней ряда у^ в момент времени /* при неизменном среднем абсолютном приро- сте за период; 331
• изменение численной оценки параметра ^2 по сравнению с bi при условии, что различия между Aj и ^2 статистически незна- чимы. Геометрически это означает, что прямые (1) и (2) пересека- ют ось ординат в одной точке (рис. 6.9 б). В этом случае измене- ние тенденции связано с изменением среднего абсолютного при- роста временного ряда, начиная с момента времени /*, при неиз- менном начальном уровне ряда в момент времени / = 0; • изменение численных оценок параметров Aj и 02, а также Aj и б2- Геометрически эта ситуация изображена на рис. 6.9 в. Она означает, что изменение характера тенденции сопровождается изменением как начального уровня ряда, так и среднего за пери- од абсолютного прироста. Рис. 6.9. Изменение тенденции временного ряда при различном сочетании статистической значимости изменений параметров а^ и 02; bi и ^2- а - значимое различие только между а^ и ^21 б — значимое различие только между Ь^ и ^25 в - значимое различие между а\ и ^2» а также между ^i и ^2 332
Один из статистических методов тестирования при примене- нии перечисленных выше ситуаций для характеристики тенден- ции изучаемого временного ряда был предложен американским экономистом Д. Гуйарати [18, с. 509-513]. Этот метод основан на включении в модель регрессии фиктивной переменной Z^, кото- рая принимает значения 1 для всех / < /*, принадлежащие проме- жутку времени до изменения характера тенденции, далее - про- межутку (1), и значения О для всех / > /*, принадлежащие проме- жутку времени после изменения характера тенденции, далее - промежутку (2). Д. Гуйарати предлагает определять параметры следующего уравнения регрессии: >^, = а + Z> • Z, + с • / + rf • (Z, • О + 6/. (6.24) Таким образом, для каждого промежутка времени получим следующие уравнения: промежуток (1) Z = 1 у^ = {а -^ Ь) + (с -^ d) -1 -\- е^; промежуток (2) Z = О у^ = а + с • t + г^. Сопоставив полученные уравнения с уравнениями (1) и (2) табл. 6.17, нетрудно заметить, что д, = {а +'ЬУ, ^1 = (с + d); (6.25) ^2 ~ ^> ^2 ~ ^• Параметр b есть разница между свободными членами уравне- ний (1) и (2), а параметр d — разница между параметрами Ь^ и ^2 уравнений (1) и (2). Оценка статистической значимости разли- чий Gi и 02, а также ftj и ^2 эквивалентна оценке статистической значимости параметров b и J уравнения (6.24). Эту оценку можно провести при помощи /-критерия Стьюдента. Таким образом, если в уравнении (6.24) b является статисти- чески значимым, ad— нет, то изменение тенденции вызвано только различиями параметров aj и ^2 (см. рис. 6.9 а). Если в этом уравнении параметр d статистически значим, а 6 - незначим, то изменение характера тенденции вызвано различиями параметров ^1 и ^2 (рис. 6.9 б). Наконец, если оба коэффициента b и J являют- ся статистически значимыми, то на изменение характера тенден- ции повлияли как различия между а^ и ^2» так и различия между bi и bj (рис. 6.9 в). Этот метод можно использовать не только в дополнение к те- сту Чоу, но и самостоятельно для проверки гипотезы о структур- ной стабильности тенденции изучаемого временного ряда. Ос- 333
новное его преимущество перед тестом Чоу состоит в том, что нужно построить только одно, а не три уравнения тренда. Мы рассмотрели простейший случай применения теста Чоу для моделирования линейной тенденции. Однако этот тест (а также модель (6.24) с фиктивной переменной) может использо- ваться (и действительно используется во многих прикладных ис- следованиях) при проверке гипотез о структурной стабильности и в более сложных моделях взаимосвязи двух и более временных рядов. Контрольные вопросы 1. Перечислите основные элементы временного ряда. 2. Что такое автокорреляция уровней временного ряда и как ее можно оценить количественно? 3. Дайте определение автокорреляционной функции времен- ного ряда. 4. Перечислите основные виды трендов. 5. Какова интерпретация параметров линейного и экспоненци- ального трендов? 6. Запишите общий вид мультипликативной и аддитивной модели временного ряда. 7. Перечислите этапы построения мультипликативной и адди- тивной моделей временного ряда. 8. С какими целями проводятся выявление и устранение сезон- ного эффекта? 9. Как структурные изменения влияют на тенденцию времен- ного ряда? 10. Какие тесты используют для проверки гипотезы о структур- ной стабильности временного ряда? 11. Какова концепция теста Чоу? 12. Изложите суть метода Гуйарати. В чем его преимущество перед тестом Чоу?
7 Глава СТАЦИОНАРНЫЕ СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ 7.1. ОПРЕДЕЛЕНИЯ Набор случайных переменных X{i), где / е 0 с 5R (вещест- венные числа) называется стохастическим процессом. Дискрет- ный стохастический процесс определяется как последователь- ность случайных переменных Д/), где / = /;, Z^, ..., ^г ^^^ короче Х^, Xi,..., Xj.,., или простоXj. Математическое ожидание Е{Х^) может изменяться во време- ни и представляет собой функцию среднего в зависимости от вре- мени •ц(0=ц, = £[А;]. (7.1) Аналогичным образом дисперсия {Х^ является функцией, также зависящей от времени: o\t) = c]=E[{X,-YiA (7.2) В общем случае в каждый момент времени существует опре- деленная дисперсия. Это не то же самое, что изменчивость эмпи- рических данных по мере развития процесса во времени. Автоковариация у,^,^ = COV (А;^, Х,^) = Е [{Х,^ - ц,^) {Х,^ - ц,^)] (7.3) в общем виде зависит от каждого /j и tj. Конечная реализация дс,, Xiy ..., Xj дискретного стохастичес- кого процесса A^i, Л2,..., A^j- называется временным рядом. В этой главе мы будем последовательно проводить различие между стохастическим процессом и сгенерированным им времен- 335
ным рядом. Процессы обозначаются прописными буквами, обоз- начают временные ряды строчными буквами. Исключениями яв- ляются остатки в моделях стохастических процессов, не имею- щие никакой самостоятельной практической значимости. Они также обозначаются строчными буквами, например а, и и г. Строгое разграничение необходимо для корректного вывода свойств временных рядов из свойств стохастических процессов. Позднее при моделировании реальных временных рядов это ус- ловие можно будет ослабить или опустить. Стохастический процесс Х^ называется стационарным в силь- ном смысле, если совместное распределение вероятностей всех переменных Xf, А/^,..., Xt^ точно то же самое, что и для перемен- ных А> ,Xf ,..., А"/ . Под стационарным процессом в слабом смысле понимается сто- хастический процесс, для которого среднее и дисперсия незави- симо от рассматриваемого периода времени имеют постоянное значение, а автоковариация зависит только от длины лага между рассматриваемыми переменными. Среднее |л^ = ц = const. Дисперсия (5^ = ^^ = const. Автоковариация у^^ ^2 ^ У^- ti = Ут^ где т = /2 - ^1 (лаг). Автоковариация как функция длины лага т у(т) = у, = Е[{Х, - ц)(Л;_, - ц)] (7.4) называется автоковариационной функцией. При т = О ее значе- ние равно дисперсии. Проведя нормировку а^ = уо, получим автокорреляционную функцию стационарного стохастического процесса: Рх=—, (7.5) Уо где- 1 <р^< 1. Временной ряд х,, Х2,..., Xj, т. е. конкретная реализация ста- ционарного стохастического процесса Х^, также называется ста- ционарным. 336
в практической аналитической работе стационарность вре- менного ряда означает отсутствие: • тренда; • систематических изменений дисперсии; • строго периодичных флуктуации; • систематически изменяющихся взаимозависимостей между элементами временного ряда. Экономические временные ряды представляют собой данные наблюдений за экономическими показателями, например, вало- вым внутренним продуктом, за ряд лет, и такие ряды, как прави- ло, нестационарны. 7.2. ЭРГОДИЧНОСТЬ Основная проблема в оценивании параметров распределения стохастического процесса состоит в том, что в общем случае раз- мер выборки л = 1, поскольку обычно имеется единственная ре- ализация процесса. Ввиду этого сделать осмысленную оценку практически невозможно. Изучаемый стохастический процесс как таковой неизвестен. Его стационарность или нестационар- ность может быть установлена только посредством анализа соот- ветствующего ему временного ряда. Но, с другой стороны, мно- гие методы анализа временных рядов предполагают их стацио- нарность. Это приводит к своего рода замкнутому кругу, когда свойство, на наличие которого проводится исследование, входит в изначальные предпосылки. Данную проблему можно решить с использованием понятия эргодичность: это поведение большого класса стационарных про- цессов, когда арифметическое среднее со временем сходится к математическому ожиданию \х. Эргодичность делает возможным оценивание \i, g , у(т) стохастического процесса только по его ре- ализации - временному ряду. Известны различные подходы к распознаванию стационар- ности временных рядов: • фафическое представление временного ряда и визуальная проверка на наличие какого-либо тренда, т.е. меняющегося сред- него, увеличивающейся или уменьшающейся дисперсии, устой- чивых периодичностей; 22-3291 337
• исследование на наличие автокорреляции в реальных дан- ных; • тесты на присутствие детерминистического тренда, напри- мер /-тест на коэффициенты оценок метода наименьших квадра- тов; • тесты на наличие стохастического тренда, например тесты на единичный корень. 7.3. ОСОБЫЕ СЛУЧАИ Процесс называется нормальным, если совместное распреде- ление X. у X. ,,.,, Xf — это /7-мерное нормальное распределение. В данном случае из стационарности в слабом смысле следует ста- ционарность в сильном смысле. «Белым шумом» называется чисто случайный процесс, т.е. ряд независимых, одинаково распределенных случайных величин Qf (iid). Главные свойства «белого шума» следующие: ц^ = Е(а^) = const = ц; G^ = const = ад; У/ь/2=^ для /,^/2. a?=const = a2; ^^.6) Из этого очевидным образом следует стационарность. «Белый шум» играет важную роль при моделировании остатков или шо- ков стохастического процесса, генерирующего данные (времен- ной ряд). Пример. Рассмотрим два процесса с характеристиками «бе- лого шума»: Х, = а^; j; = 3+1,5^,, где Of— «белый шум» с нулевым средним и единичной дисперсией. Очевидно, Yf имеет среднее |i = 3 и дисперсию 1,5. На рис. 7.1 изображены две независимые реализации каждого процесса, сгенерированные с помощью нормально распределен- ных случайных чисел в качестве а^ 338
I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I г 16 21 26 31 36 41 46 50 t Рис. 7.1. Графики реализаций процессов типа «белый шум» со средними О и 3 соответственно Для того чтобы проверить, является ли временной ряд х, «бе- лым шумом», можно протестировать его выборочную автокорре- ляцию г^ с помощью О-статистики Бокса - Пирса: (7.7) При нулевой гипотезе о том, что Xf — «белый шум» 0-статис- тика имеет %^-распределение ср степенями свободы. В примере Q принимает значения между 1 и 14 для х от 1 до 16 соответственно. Эти значения не превосходят критических значений статистики Х^на 1%-ном уровне значимости. Следовательно, нулевая гипо- теза о том, что процесс является «белым шумом», не может быть отклонена. Контрольные вопросы 1. Как определяется временной ряд, сгенерированный дискрет- ным стохастическим процессом? 2. Дайте определение стационарного стохастического процесса: 22' 339
• в сильном смысле; • в слабом смысле. 3. В чем сущность понятия «эргодичность» и для решения каких задач оно используется? 4. Какой стохастический процесс называется нормальным? 5. Чем вызывается «белый шум» при изучении стационарных процессов? 6. Какими параметрами характеризуется стационарный про- цесс? 7. Дайте определение автоковариационной функции. 8. Чем автоковариационная функция отличается от автокорре- ляционной? 9. Каковы методы диагностики стационарности временных ря- дов? 10. Какой тест позволяет проверить, является ли временной ряд «белым шумом»? В чем заключается проверка?
8 Глава ПРОЦЕССЫ ARMA 8.1. МОДЕЛИ МА Рассмотрим процесс, являющийся не более чем линейной комбинацией двух элементов «белого шума», следующих друг за другом: A, = t7,-eia,_i, (8.1) где а, — «белый шум» с ц = 0. Тогда Xf называется процессом скользящего среднего первого по- рядка МА{\) {movingaverage), В данном случае слагаемое а^ иногда называют импульсом, или более драматично шоком, поскольку это единственная но- вая, т.е. ранее не известная, информация, которая поступает в процесс в каждый момент времени. Процесс скользящего среднего порядка q [МА(^)] — это про- цесс Xf, A; = fl,-0ia,_,-...-e^fl,_^, (8.2) где а^ — «белый шум» с ^i = 0. Введем оператор лага или обратного действия L\ L\X,)^X,_2\ (8-3) L (Xf) = Xf_f^, тогда процесс MA{q) может быть записан короче, если выполнить замену a,^, = L\a,) (8.4) 341
Va — * /=o 0 T>g . /=0 и использовать функцию оператора В результате процесс МА(^) (8.2) определяется просто как Х,=е^(Щ. (8.6) Процесс МА(^) имеет следующие свойства: ^№1 = 0; (8.7) (8.8) Среднее, дисперсия и ковариация не зависят от времени. Следовательно, процесс МА стационарен в слабом смысле. Пример 8.1. Процессы МА(2). На рис. 8.1 показаны два временных ряда, сгенерированных процессами МА(2) соответственно: Xj =af +0,75fl^_, +0,4л,_2; Импульсы df процесса типа «белый шум» представлены вы- боркой случайных чисел из нормального распределения с нуле- вым средним. Изучив график, можно увидеть, что процесс Х^ с отрицательными коэффициентами (т.е. 0, > 0) колеблется силь- нее, чем второй процесс. Вторая реализация каждого процесса с другими случайными числами Of дает временные ряды, отличные от предьщущей реа- лизации в частностях, но схожие с ними в целом (рис. 8.2). 342
■lO I I I I I м I ' ' I ' ' ' ' I ' ' ' I I ' ' I ' I ' ' ' ' I ' ' ' I I ' ' I I I ' ' ' » I I ' ' ' I ^ 1 6 11 16 21 26 31 36 41 46 50 t Рис. 8.1. Временные ряды MA(2) -6 I I I I I I ' ' ' М > ' ' ' I ' ' ' ' I ' ' ' ' I ' ' ' > I ' ' ' ' I ' ' ' ' I ' ' ' ' I ' ' ' ' I ^ 1 6 11 16 21 26 31 36 41 46 60 t Рис. 8.2. Временные ряды MA(2), сгенерированные теми же процессами XihXj 343
8.2. МОДЕЛИ AR Авторегрессионный процесс порядка р [AR(/7)] — стохастичес- кий процесс Xf'. Xf =фо +Ф1^,_1 -»-ф2^/-2 +-+Фр^/-/, +«п (8.9) где а, - «белый шум» с ji^ = 0. Свободный член фо часто приравнивается к нулю. Используя функцию оператора лага ф/1) = 1-фо-ф11-ф21'-...-ф;,1^ (8.10) можно коротко записать это как ф/1)Л; = а, (8.11) Процесс AR не всегда стационарен. Если мы знаем представ- ление вида (8.9) или (8.11) данного процесса, то выяснить вопрос о стационарности процесса можно с помощью так называемого характеристического уравнения. Характеристическое уравнение определяется как 1-ф1^-ф2^-.-.-ф;,^^ = 0, (8.12) т. е. %(z) = О, где Z — комплексное число. Можно доказать стационарность AR-процесса. Следующее условие является необходимым и достаточным для стационар- ности: AR-процесс является стационарным тогда и только тогда, ког- да его комплексные решения (корни) лежат вне единичного кру- га, те. UI > 1. В частности, если | z | = 1, процесс называется процессом еди- ничного корня и является нестационарным. Пример 8.2. Пусть A'^=l,lA'^.i + а^ - процесс AR(1), где д^- «белый шум» с нулевым средним. 344
Его характеристическое уравнение 1 — 1,1 г = О с корнем Z = 0,91,1 г I < 1, который лежит внутри единичного круга. Следо- вательно, процесс является нестационарным. Этот факт очевиден также и без проверки корней характерис- тического уравнения, поскольку коэффициент 1,1 приводит к постоянному увеличению последующих значений процесса. На рис. 8.3 представлены фафики двух независимых реализаций данного процесса. 80 d 60 d 40 d 20 d ОI ■20 11 I I I 11 I I I 11 I I I 11 I I I 11 I I I 11 I I I 11 I I I 11 I I I 11 I I I 11 I I I I 2 7 12 17 22 27 32 37 42 47 52 Xo ^1 ^2 Рис. 8.3. Две реализации одного и того же нестационарного процесса Процесс Xf = 0,8 Xf_i + а^ имеет характеристическое уравнение 1-0,8 z = Oc корнем z = 1,25, | г | > 1, т.е. он стационарен. Его зна- чения колеблются вокруг нуля (рис. 8.4). Пример 8.3. Для иллюстрации процесса единичного корня генерируется реализация случайного блуждания: На рис. 8.5 представлены две реализации этого процесса. Случайное блуждание - нестационарный процесс, так как ко- рень характеристического уравнения z—l = О — это z = 1 и лежит в точности на единичном круге. Это и называется процессом еди- ничного корня. Далее будет показано, что, несмотря на постоянное математическое ожидание, дисперсия данного процесса зависит от времени. 345
-4 11 I I 1 11 I I I 11 I I IiI I I I 11 11 I 11 I I I 11 I I I 111 I I 11 I I I 11 I I I I— 2 7 12 17 22 27 32 37 42 47 50 ^1 ^2 Рис. 8.4. Две реализации одного и того же стационарного AR-процесса ~6|iii4mi|<ii>|iiii|mi|iiii|mi|Mii|Mii|mi|iiii|mi|iiii|iMi|iiii|iiii|iiii|iiii|im|iiM| ^ 2 7 12 17 22 27 32 37 42 47 52 57 62 67 72 77 82 87 92 97 100 t Рис. 8.5. Две реализации случайного блуждания с нулевым средним 346
8.3. МОДЕЛИ ARMA Смесь процессов авторегрессии и скользящего среднего (AR и МА) порядков/7 и q соответственно называется авторегрессион- ным процессом скользящего среднего [AKMA{p,q)\\ X = фо + 9iA;_i + ф2Л;_2 + ... + ij^pXf_p + а^- Gifl^.i - ...-0^^_q (8.13) или ^/ - Фо - ФЛ-1 - •••- Ф/Д/-/, = ^г - Q\^t-\ - - - V/-<7- (8.14) Здесь единственное слагаемое ошибки а^ AR-процесса изме- няется на процесс МА(^). Процесс ARMAO?,^) может быть записан коротко: Ф^(1)^,=фо+0,(1)А„ (8.15) где Фр (L) и 0^ (L) — функции операторов лага соответствующих AR(p) и МА(^) процессов, а фо, как правило, предполагается равным нулю. Пример 8.4. На рис. 8.6 представлен график временного ря- да, являющегося одной из реализаций процесса ARMA(1,2): -15 11 I I 111 I I I 11 I I I 11 I I I 11 I I I 11 11 I 11 I I I 11 I I I 11 I I I 11 I I I I ► 3 8 13 18 23 28 33 38 43 48 50 t Рис. 8.6. График ARMA-процесса (1,2) 347
При очень общих условиях стационарный ARMA-процесс ФрЩХ^ = Фо + ®q(L)cif может быть представлен как бесконечный AR-процесс или как бесконечный МА-процесс: а; = фо + fl; - Wi^t-i - ^2^t-2 - - (8.16) или а; = Фо + т(1М, где 4^(1) = 1 - M/iL - M/jI^ - ... (8.17) Бесконечный полином лага ^{L) определяется выражением в частности, стационарные AR-процессы могут быть предс- тавлены как бесконечные МА-процессы, а большинство МА-процессов (при условии обратимости) — как бесконечные AR-процессы. При анализе реальных временных рядов следует выбирать представление процесса с наименьшим возможным числом параметром. Пример 8.5. Рассмотрим процесс МА(1): А; = а,-ед,_1. (8.18) Из Xf_i = af_i - Qaf_2 следует: а,_1 = А^_1+ Q^t-i^ и формула (8.18) становится Х^^ а^ — QXf_i — 0^а^_2 — .... Из Xf_2 = а^_2 - 6 cif_2 следует: а^_2 ~ ^/-2"*" ^ ^/-з и т. д. Путем последовательных подстановок л^_1 д^_2 ^ т.д. в (8.18) получаем: а; = а, - 0а;_1 - е^А;_2 -..., (8.19) т.е. бесконечный AR-процесс, который сходится при условии 1е|<1. Пример 8.6. Рассмотрим стационарный AR-процесс (1): А; = фА;_1+а„ (8.20) где |ф|<1. 348
Выразим предшествующие уровни: Тогда Xf можно записать как Точно так же выразим Х^_2- Xf_2 = фА;_з "*" ^/-2- Последовательно подставляя вышеприведенное представле- ние лаговых элементов X, получаем бесконечный процесс сколь- зящего среднего: а; = а, + фд^_1 + фV2 + - • (8.21) Поскольку 1ф1 < 1, этот ряд сходится. ARMA-процессы имеют более сложную структуру по сравне- нию со схожими по поведению AR- или МА-процессами в чис- том виде, но при этом ARMA-процессы характеризуются мень- шим количеством параметров, что является одним из их преиму- ществ. Контрольные вопросы 1. Какой процесс может быть назван процессом скользящего среднего первого порядка? 2. Каковы свойства процесса скользящего среднего порядка ql 3. Дайте определение авторегрессионного процесса порядка/?. 4. В каком случае AR-процесс может быть назван: • стационарным; • нестационарным? 5. Дайте определение авторегрессионного процесса скользящего среднего. 6. Каковы параметры авторефессионного процесса скользящего среднего? 7. Какова взаимосвязь между стационарными AR-процессом и МА-процессом? 8. Опишите модель ARMA(3,2). 349
9 Глава АВТОКОРРЕЛЯЦИЯ И СПЕКТР 9.1. АВТОКОРРЕЛЯЦИОННАЯ ФУНКЦИЯ Согласно формуле ( 7.5) автокорреляционная функция (ACF) процесса Л"^ определяется как Р.=^ = -^[(^г-и)(^/.х-Ц)]. (9.1) Уо Уо График р^ называется коррелограммой (см. разд. 6.2). Опреде- ленная форма автокорреляционной и других функций является характеристикой определенных видов ARMA-процессов. В связи с этим такие функции используются при анализе временных ря- дов для определения типа и порядка процесса, а также соответ- ствующей модели. Для процесса AR(p) коррелограмма представляет собой смесь экспоненциальной кривой и синусоиды. Пример 9.1. ПустьХ^ - процесс AR(1) без свободного чле- на с Vy< 1. Из л; = Ф1А;_1 + а, и Xj^ = (ф1А,_1 + atf = ф?^Г^1 + 2^^Х,^^а, + aj следует: уо = Е(Х^) = ф?Уо + О + ^ откуда: ,2 1-Ф1 Уо=Г^т- (9-2) Для вычисления yj рассмотрим и 350
Таким образом получим: Уl=£(JrЛ.l) = ФliF(^Д,)+0=-4гФl• (9-3) 1-ф1 Из этого следует, что pi = фр В общем виде получается геометрическая прогрессия: Pf^= ^i. На рис. 9.1fl, б представлены автокорреляционные функции процесса AR (1) при разных значениях ф1. Пример 9.2. Теперь исследуем автокорреляционную функ- цию процесса МА(1): Х^ = а^ — 6ia^_i. следует: . . . Уо = ДА;2) = (1+02)а2, (9.4) где Сд = var (а,) = Е(а^), Из Xf_i = af_i — 6ifl^_2 и получаем: yj = ^A;a;_i) = 0 - 0 - Gja^ + 0 и в результате деления на дисперсию Уо: ■ -9i (1+е?) р. =:А:- (9.5) Из условия ^^^^.2 ~ (^/ "■ ei^/-l)(^/-2 "" 9l^/-3) ~ ^/^t-2 "" ^\^fit-3 " и в силу независимости всех д^, a/_i... следует: У2 = ДХД,_2) = 0. Все следующие автоковариации уз, У4, ..., Ух автокорреляции также равны нулю. Обобщение этого результата на процессы бо- лее высокого порядка дает возможность распознать порядок про- цесса МА(^): он определяется количеством д автокорреляцион- ных коэффициентов, значимо отличных от нуля, тогда как все следующие значения их равны нулю или очень близки к нему (рис. 9.2). 351
Pxt 1.0 In 0,8 j П 0.6 j 0.4 j Г 0.2 j 0.0 11 11 II 4 1-1 Пп П Hill ИНН llll пппппппп —► 10 a 15 20 T, лаг 1.0 Hn 0.8 j 0.6 j 0.4 j 0.2 j n n ' ' -0.2J -0.4J -o.eJ -ceJ U -1.0 J П 1 П П П П ГП ГП ► 10 15 20 t, лаг Рис. 9.1. Автокорреляционная функция процесса AR(1): д-ф1>0;5-ф1 <0 352
1,0- 0,8 HI 0.6 j 0.4-11 0.2 0.0 Рт' 1.0- 0.8 i I 0.6- 0.4- 0.2-11 0.0- -0.2-1 -O.4J -0.6-1 -0.8- -1.0- i-i ГП гп i=i_i=i П|-|п|-1.-.г-| n_ 10 a 15 10 б 15 Рис. 9.2. Коррелограмма процесса МА(1): а-в1<0;^-в,>0 20 т. лаг 20 т. лаг 23 -3291 353
в качестве оценки автоковариационной функции эргодичес- кого процесса, сгенерировавшего временной ряд jc^, можно при- менять Г-т _ с.=У.-^ ^ (9-6) или Т-х _ С =Y =-^ (9-7) Здесь отмечены оба варианта оценки, поскольку они исполь- зуются в разных учебниках и компьютерных статистических па- кетах и имеют несколько различные свойства для коротких вре- менных рядов. Оценкой автокорреляционной функции будет выборочная автокорреляционная функция r,=p,=4- = f, (9.8) Yo ^^ где s^ - выборочное стандартное отклонение временного ряда. Пример 9.3. Пусть дс^ - временной ряд, являющийся реали- зацией процесса Х, = 0,8 Х^_^ + а^. На рис. 9.3 представлена выборочная автокорреляционная функция Xf Статистика Бокса-Пирса в формуле (7.7) дает значения от 35 до 114 для т от 1 до 16 соответственно. Это позволяет отклонить нулевую гипотезу о «белом шуме» на 1% уровне значимости. Пример 9.4. Пусть теперь временной ряд Zt является реали- зацией процесса МА(2): Zf = Of-^ 0,25a^_i + 0,4а^_2. На рис. 9.4 изображена выборочная автокорреляционная функция. Значения функции для величины лага, большей т = 2, близки к нулю. Это указывает на процесс МА(2). 354
Автокорреляционная функция X (выборка от 3 до 50) О Рис. 9.3. Выборочная автокорреляционная функция одной реализации процесса AR(1) Автокорреляционная функция Z (выборка от 3 до 50) т, лаг Рис. 9.4. Выборочная коррелофамма процесса МА(2) 23* 355
9.2. ЧАСТНАЯ АВТОКОРРЕЛЯЦИОННАЯ ФУНКЦИЯ Другой диагностической функцией является частная авто- корреляционная функция - PACF (partial autocorrelation function) стационарного стохастического процесса. Для вычисления этой функции предположим, что Х^ может быть аппроксимирован процессом AR(t): ;Г« = ф,Д<,^, + ...+ф^«, (9.9) При этом последний коэффициент ф„ называется коэффици- ентом частной автокорреляции Xf для величины лага т (рис. 9.5 и 9.6). Ряд Ppart('c) = Фтт С различными X называется частной автокор- реляционной функцией (PACF). Для процесса AR(p) соответствующие РраггС*^) равны нулю для величины лага, большей х =/?. С другой стороны, для процессов МА(9) PACF характеризует- ся экспоненциально убывающей последовательностью значений. Значение РАСЕ для временного ряда при заданной величине лага X может быть оценено с помощью МНК-оценивания модели AR(x), причем в качестве оценки берется оценка коэффициента наивысшего порядка ф„. Пример 9.5. Пустьх^ - временной ряд, являющийся реали- зацией процесса AR(1): Х^= 0,8A'^_i + а,, где «белый шум» а, имеет единичную дисперсию. Линейная регрессия х^ на x^_i дает оценку коэффициента, равную 0,791 со стандартной ошибкой 0,023. Ре- зультаты МНК-оценивания регрессии на Xf_i и х^_2 приведены в табл. 9.1. В табл. 9.2 приведены результаты МНК-оценивания регрессии х^на Xf_i, х^_2, дс^_з и т.д. Таблица 9.1 Результаты МНК-оценивания регрессии х, Регрессор Коэффициент 0,89002 -0,057163 Стандартная ошибка 0,15171 0,15181 356
Ppart(^)l 1.0 j 0.8 j I 0.6 J 0.4-11 0.2- 0.0- -O.2J -0.4 J -o.ej •-0.8J -1.0 J- ( Ppart(^)1 1.0- 0.8- 0.6 HI 0,41 0.21 0.0 10 a 15 20 T, лаг r-i П n ca_ ППГ-1|—Ir-|Г~|_.^ 10 б 15 20 т, лаг Рис. 9.5. Частная автокорреляционная функция процесса AR(1): а-ф1<0;5-ф1>0 357
Ppart(l^) 1.0-1 0,8 -I 0.6 0,4 0,2 0,0 Ppart(T) 1.0 0,8 0.6 0.4 0,2 i 0.0 -0,2 -0.4 -0.6 -0.8 -1.0 ПППппп 10 8 15 20 T, лаг JLn U U LJ П . . П . . n . . ГП LI U L-i 10 б 15 20 T, лаг Рис. 9.6. Частная автокорреляционная функция процесса МА(1): fl-0i<O; б-Qi >0 358
Таблица 9.2 Результаты МНК-оценивания регрессии х. Регрессор Х,-1 Xt-2 Коэффициент 0,88283 0,0029261 -0,063269 Стандартная ошибка 0,15609 0,21856 0,16234 Таким образом, первые три значения PACF: Ррап(1)= 0,791; Ppart(2) = -0,057; Ррап(З) = -0,063. Очевидно, что график ррап('с) становится близким к нулю при величине лага больше единицы. Это является характеристикой процесса AR(1). 9.3. СПЕКТРАЛЬНАЯ ПЛОТНОСТЬ Спектральной плотностью или мощностью спектра называет- ся разложение в ряд Фурье автоковариационной или автокорре- ляционной функции, например: /К/) = 2(Уо +2S YxCos27/t), т=1 (9.10) где /-— - частота; Р р — период длины предполагаемой периодической вариации. Значение p(f) можно интерпретировать как амплитуду этой периодической вариации при О</<-.Нижний предел / = О означает бесконечно длинный период, например компоненту тренда, а максимальная частота/= 0,5 - кратковременные коле- бания. Функция p(f) в целом представляет распределение дисперсии по отклонениям с частотами между точками О и 0,5: 359
^1=Уо= \ P(f)df. о (9.11) Для одного временного ряда - одной реализации случайного процесса оценкой спектральной плотности является выборочная спектральная плотность p{f) = 2(cQ +21^,с,со52я/т), (9.12) где эмпирические (реализовавшиеся) автоковариации взвешены весами из подходящего «окна» g^ для того, чтобы получить состо- ятельные оценки. В компьютерных профаммах предлагается несколько спектральных окон, чаще всего по Парцену (Parzen), Ханнену (Наппеп) или Бартлету (Bartlett). В некоторых профаммах используется вместо частоты/так называемая «круговая частота» со = 2я/. При этом особым обра- зом определяется плотность для со = О до со = 3,14. Если спектрофамма, т.е. фафик спектральной плотности по всем рассматриваемым частотам выдает для какой-либо частоты /или со заметный пик, то процесс содержит периодическую ком- поненту с длиной периода р = — и часть дисперсии, покрывае- /' мая этой компонентой, равна части площади фафика под дан- ным пиком. Следовательно, важнейшим полем для применения этого ме- тода является анализ циклических вариаций. Рис. 9.7. Спектральная плотность процесса AR(1): А-ф1 >0; ^~ф1 <0 360
На рис. 9.1 а показана типичная функция спектральной плот- ности процесса AR(1) с положительным коэффициентом. Спект- ральная мощность сконцентрирована на нулевой частоте, т.е. по- ведение процесса описывается спектром с бесконечно большим периодом. Подобным же образом осцилляции процесса с отри- цательным коэффициентом ф1 выражаются на спектрофамме в виде пика при частоте /="Б" ^^^ ^ ~ ^ти/, что означает доминиро- вание периодических вариаций с длиной периода в две времен- ные единицы (рис. 9.76). Спектральные формы соответствующих процессов МА(1) по- хожи на только что рассмотренные, однако спектральная мощ- ность не так выраженно сконцентрирована в точках О или 0,5 со- ответственно. Это означает, что вариации, сконцентрированные в процессах МА, распределены по более широкой полосе, чем в процессах AR (рис. 9.8). Рис. 9.8. Спектральная плотность процесса МА(1): прис-е1>0; 5-01<О В то время как на фафиках 9.8 д, 5 и 9.9 а, б был представлен теоретический вид спектральной плотности для процессов AR(1) и МА(1), в примерах 9.6 и 9.7 приведены выборочные спектраль- ные плотности временных рядов. П р и м е р 9.6. Пусть Zt - временной ряд - реализация процес- са МА(2) видаZf = а^-^ 0,25a^_i + 0,4а^_2, где а^ - «белый шум» с ну- левым средним и дисперсией z- Две из оценок спектральной плотности имеют пик при со = 0,2. Но поскольку в области вокруг 361
нуля между разными оценками имеется большая вариация, можно предположить, что это случайный выборочный эффект, скорее указывающий на очень плоский экстремум при о = О (рис. 9.9). Различные оценки стандартизованной спектральной плотности Z Частота по Бартлету по Тьюки по Парцену Рис. 9.9. Спектральная плотность процесса МА(2) Пример 9.7. Рассмотрим оценку спектральной плотности стационарного временного ряда ежеквартальных данных х^ с доминирующей сезонностью. Наивысший пик на графике (рис. 9.10) находится в самом центре значений частот, т. е. при круговой частоте со = п/2 дает значение / = V4 и период длины Р = 4 квартала, т.е. один год, как в точности и ожидается от сезон- ной компоненты. П р и м е р 9.8. На рис. 9.11 представлено изменение ежемесяч- ной стоимости заказов, поступавших в строительную отрасль Восточной Германии после объединения страны. Помимо изме- нения тренда на фафике видна также некоторая периодичность. График спектральной плотности на рис. 9.12 подтверждает суще- ствование очень длинных волн или тренда наличием пика в райо- 362
не плотности 0. Кроме того, можно также выделить несколько меньшие пики при круговых частотах со, равных 0,52 и 2,1, что указывает на периодичность длиной в 12 и 3 месяца соответ- ственно. Различные оценки стандартизованной спектральной плотности X Рис. 9.10. Спектральная плотность временных рядов с квартальной сезонностью При более детальном изучении периодических флуктуации может оказаться полезным изучение темпа прироста перемен- ной. Темп прироста временного ряда х^ определяется как ^/ '~^t-\ ч-i (9.13) что может быть очень хорошо аппроксимировано логарифмичес- ким темпом прироста для достаточно малых изменений: Alnx^ =1пх^ -1пх^_1 =1п(——). (9.14) ^/-1 На рис. 9.13 показан темп прироста стоимости заказа А In OR. Тренд исключен, и периодические колебания более явно выра- жены. 363
S E Время, месяц Рис. 9.11. Заказы строительной отрасли Восточной Германии Различные оценки стандартизованной спектральной плотности OR 4 й) Частота по Бартлету по Тьюки по Парцену Рис. 9.12. Спектральная плотность заказов строительной отрасли Восточной Германии 364
Время, месяц Рис. 9.13. Темп прироста заказов строительной отрасли в Германии Различные оценки стандартизованной спектральной плотности A(nOR по Бартлету по Тьюки поПарцену Рис. 9.14. Спектральная плотность темпа прироста заказов в Германии 365
На рис. 9.14 и в табл. 9.3 представлена спектральная плот- ность прироста заказов. Интересен тот факт, ^то наивысший пик теперь обнаруживается при круговой частоте со = 2,1, т.е. при трехмесячной периодичности. Это означает, что в основном дисперсия растет за счет регулярных флуктуации в течение квартала. Мы видим меньший пик при со =0,52, что отражает дополнительную 12-месячную периодичность с меньшей долей в дисперсии. Таблица 9.3 Стандартизованные функции спектральной плотности А In OR (выборка со II квартала 1991 г. по I квартал 2003 г.) Частота 0,00 0,13090 0,26180 0,39270 0,52360 0,65450 0,78540 0,91630 1,0472 1,1781 1,3090 1,8326 1,9635 2,0944 2,2253 2,3562 3,1416 Период Бесконечный 48,0000 24,0000 16,0000 12,0000 9,6000 8,0000 6,8571 6,0000 5,3333 4,8000 3,4286 3,2000 3,0000 2,8235 2,6667 2,0000 Бартлет 0,41414 0,42359 0,21619 1,0765 1,9989 0,97483 0,15450 0,68276 1,1892 0,70727 0,16923 0,30370 2,1926 5,5038 2,8631 0,49168 0,24909 Тьюки 0,40327 0,28945 0,22185 1,1668 2,0018 1,0439 0,13615 0,63810 1,1760 0,68282 0,15761 0,24614 2,6362 5,5131 3,2895 0,56624 0,21564 Парцен 0,34745 0,31183 0,47551 1,1293 1,5528 1,0502 0,48733 0,65174 0,91865 0,67360 0,36567 0,91571 2,7224 4,2373 3,1299 1,2268 0,20655 Контрольные вопросы 1. Что такое коррелофамма? 2. Каково выражение оценки автокорреляционной функции эр- годического процесса? 3. Что является оценкой автокорреляционной функции? 4. Как можно распознать порядок процесса МА(^)? 366
5. Поясните различие спектральной формы процессов AR(1) и МА(1). 6. Какова цель автокорреляционной функции при изучении ARMA-процессов? 7. В чем сущность Q-критерия Бокса — Пирса? 8. Каково назначение частной автокорреляционной функции? 9. В чем особенности частных автокорреляционных функций для процессов AR и МА? 10. Дайте определение спектральной плотности. Какая функция используется при определении спектральной плотности?
10 Глава ИНТЕГРИРУЕМЫЕ ПРОЦЕССЫ 10.1. НЕСТАЦИОНАРНЫЕ ВРЕМЕННЫЕ РЯДЫ Если временной ряд содержит, например, некоторый тренд, то требование постоянства дисперсии, среднего и ковариации нарушается, и мы имеем дело с нестационарным процессом, или процессом случайного блуждания. На практике временной ряд х^ можно субъективно определить как нестационарный при помо- щи фафика временного ряда и его коррелофамм. Если на них обнаруживаются: 1) тренд; 2) детерминистическая периодич- ность; 3) гбтероскедастичность; 4) изменяющаяся автокорреля- ция, то имеются веские причины предполагать, что лежащий в основе процесс является нестационарным. Теоретически он нес- тационарен, если среднее или дисперсия, или ковариация слу- чайного процесса, сгенерировавшего этот временной ряд, изме- няются во времени. Как правило, временные ряды, характеризующие экономи- ческие явления, отличаются нестационарностью. Это связано с некоторыми свойствами экономических временных рядов преж- де всего с наличием тренда. Очевидно, что при наличии трендо- вой компоненты сложно утверждать, что среднее значение ряда, а также его дисперсия и автоковариация не зависят от времени, следовательно, ряд нестационарен. Временные ряды могут иметь как строго возрастающий (убывающий) тренд, так и заметные колебания на фоне общего тренда. Подобное поведение харак- терно для показателей ВВП, а также для показателей инфляции и процентной ставки (см., например, рис. 10.1). Для некоторых нестационарных временных рядов характерно случайное блуждание. Обычно такие временные ряды не выказы- вают тенденции ни к возрастанию, ни к убыванию. Временной ряд может возрастать или убывать со временем и не сохранять 368
ипц, % 200 160 120 о S. о> —1— ю h- О) —г— о 00 О) —г— ю 00 О) —г- S о> —г— ю О) о> —1— о о о см -> t Время, год Рис. 10.1. Динамика индекса потребительских цен в США за период с января 1970 по июль 2002 г. среднего значения в долгосрочном периоде. Типичным приме- ром временных рядов такого типа являются ставки обменных курсов валют индустриально развитых стран (см. например, рис. 10.2). Время, год Рис. 10.2. Динамика обменного курса австралийского доллара по отношению к японской иене за период с июля 1969 по апрель 2002 г. 24 -3291 369
Еще одной из причин, вызывающих нестационарность вре- менных рядов, является высокая инерционность внезапного воз- действия (шока) на временной ряд. Во время экономического спада или бума основные макроэкономические показатели пре- терпевают сильные изменения и остаются на новом уровне в те- чение длительного промежутка времени, не возвращаясь к свое- му прежнему положению. Типичным примером может служить динамика обменного курса доллара во время финансового кризи- са в России в августе 1998 г (рис. 10.3). _ 8 см <м Время, год Рис. 10.3. Динамика обменного курса доллара США по отношению к российскому рублю за период с января 1995 по март 2002 г Относительно длинные временные ряды, характеризующие, например, процессы инфляции или уровень инвестиций, в неко- торых случаях можно охарактеризовать как условно гетероске- дастичные. Это означает, что в долгосрочном периоде (на протя- жении нескольких десятков лет) дисперсия ряда постоянна, но в рамках данного периода имеются более короткие отрезки време- ни (продолжительностью в несколько лет), на протяжении кото- рых дисперсия явления относительно высока. Идентификация рядов, основанная на проверке постоянства среднего, дисперсии и ковариации, невозможна, так как априори структура ряда неизвестна. Для получения критерия, который можно было бы использо- вать для выявления нестационарности рядов, рассмотрим авто- рефессионный процесс Y^ первого порядка: У, = ао + а,-Г,_1 + е,. (10.1) 370
Не сложно проверить, что при laj < 1 условия (разд. 7.1) вы- полняются, а при tti = 1 — не выполняются, т.е. в первом случае можно говорить о стационарном, а во втором случае — о нестаци- онарном процессе у^, поэтому нестационарные процессы называ- ют также процессами единичного корня. Между стационарными и нестационарными временными рядами имеется существенное отличие. Единовременное шоко- вое воздействие на стационарный ряд носит временный харак- тер. Со временем эффект рассеивается, и значения временного ряда возвращаются к своему долгосрочному сре/тнему значе- нию. Следовательно, долгосрочный прогноз стационарного ря- да сходится к безусловному среднему. Для облегчения иденти- фикации стационарных рядов будем использовать следующие свойства: 1. Уровни ряда колеблются вокруг постоянного долгосрочно- го среднего значения. 2. Временной ряд имеет постоянную, не зависящую от време- ни дисперсию. 3. Временной ряд имеет теоретическую коррелограмму, кото- рая убывает при возрастании длины лага. С другой стороны, нестационарные ряды обязательно имеют постоянную компоненту, среднее и/или дисперсия зависят от времени. Перечисленные ниже свойства помогут идентифициро- вать нестационарные временные ряды. 1. В долгосрочном периоде не существует постоянного сред- него значения, к которому возвращаются значения временного ряда. 2. Дисперсия зависит от времени и по мере увеличения време- ни растет до бесконечности. 3. Теоретическая автокорреляция не сокращается, но для наб- людений, ограниченных некоторыми пределами, медленно зату- хает. Для формального определения стационарности ряда эти свойства не подходят. В основу тестов на идентификацию вре- менных рядов положена проверка условия равенства или нера- венства параметра а, из уравнения (10.1) единице. Это так назы- ваемые тесты единичного корня. 24* 371
10.2. МЕТОД РАЗНОСТЕЙ И ИНТЕГРИРУЕМОСТЬ С ОДНОЙ стороны, большинство экономических временных рядов нестационарны, а с другой стороны, многие методы и мо- дели основаны на предположении о стационарности временных рядов. Во многих случаях взятие разностей временных рядов позво- ляет получить стационарные временные ряды. Первые разности стохастического процесса имеют вид: Или для сезонного процесса с длиной периода s: Если первые разности ряда Х, стационарны, то ряд Х^ называ- ется интегрируемым первого порядка. В противном случае дальнейшее взятие разностей приведет ко вторым разностям: (l-'L)^=A^X,=AXf-AXf_^, Если этот ряд стационарен, то ряд Xj называется интефируе- мым второго порядка. Если мы получаем первый стационарный ряд после /:-кратного взятия разностей, процесс называется ин- тегрируемым к'ТО порядка. Временной ряд, сгенерированный случайным процессом, интегрируемым к-го порядка, также на- зывается интегрируемым к-го порядка. Пример 10.1. Пусть А^=а^ - «белый шум». Очевидно, что он по крайней мере слабо стационарен, так как Е{а,) = ц и var(a^) = aj постоянны. Поскольку элементы а,, af,j,„. процесса по определе- нию независимы, ковариация cov(a„fl,_,) = Е([а, - ц]К_, - ц]) (10.2) будет постоянно равна нулю, т.е. не будет зависеть от времени. 372
Пример 10.2. Процесс л; = л;_1 + а„ (10.3) где а^— «белый шум», называют случайным блужданием. Он неста- ционарен, его характеристическая функция имеет единичный корень: г = 1. СреднееXf Е{х^ = Е{х^_{)-\' Е{а^ = ц постоянно. Нестационарность может быть доказана только посредством изучения дисперсии: var (Xf) = \aT(Xf_^) + var (a^) = = var(A;_2) + var(a^) + уагЦ) = ... = /al (10.4) Это означает зависимость var(^^) от времени L Рад Х^ в таком случае называют процессом с нестационарной дисперсией. Первые разности Xf являются «белым шумом» а, и стационарны: AXf=Xf — Xf_i = af. Следовательно, случайное блуждание — интегрируемый про- цесс первого порядка. Известно, что кажущийся очень похожим процесс /^ = 0,999У;_ 1+а^, при г = 1,001 лежит вне единичного круга, является стационарным. Таким образом, одна из наиболее серьезных проблем в анализе временных радов состоит в том, чтобы корректно провести различие между временными радами Xf и yf как случайными реализациями соответственно процесса единичного корня Xf и стационарного процесса Yf. Для решения этой задачи полезны тесты на единичный корень. 10.3. ОЦЕНКА ПОРЯДКА ИНТЕГРИРУЕМОСТИ. ТЕСТЫ НА ЕДИНИЧНЫЙ КОРЕНЬ 10.3.1. Интеграционная статистика Дарбина-Уотсона Наиболее простой способ проверки на стационарность вре- менного ряда — применение интеграционной статистики Дарби- на-Уотсона (IDW-статистики) для авторефессии первого поряд- ка вида У, = а,У,_, + е,. (10.5) 373
Разработанная на основе статистики Дарбина-Уотсона для анализа автокорреляции остатков IDW-статистика имеет следую- щий вид: Uyt-ytV где yf — временной ряд, являющийся реализацией процесса У,; yj — выборочное среднее у,. Если временной ряд j;^ - нестационарный, те. в уравнении (10.5) ttj = 1, тогда имеем выражение в числителе Z(3'/->'/-i) =Ze/- Ясно, что для нестационарного ряда это отношение будет близко к 0. Можно сказать, что процесс У( — не стационарный, если зна- чение IDW « О, и достаточно уверенно утверждать, что у^ - стаци- онарный, если значение IDW» 2. Утверждение о стационарности процесса не требует подтве- рждения результатами других тестов, однако нестационарность ставит задачу определения порядка интефируемости либо заклю- чения о том, что процесс неинтегрируем вообще. Как правило, исследователю не известно заранее, какие ком- поненты содержит временной ряд, включает ли он свободный член или тренд. Поэтому использование интеграционной статис- тики Дарбина-Уотсона на этапе оценки интегрируемости вре- менных рядов без применения дополнительных тестов может привести к ошибочным выводам и повлечь за собой неправиль- ную спецификацию рефессионных уравнений. Для оценки стационарности или порядка интефируемости рассматриваемых временных рядов необходимо сопоставить рас- четные значения IDW-статистики с критическими. Поскольку распределение IDW-статистики не соответствует ни одному из известных теоретических распределений, критические значения будут представлены не единичными значениями, а интервалами прямой в окрестности точки 2. Для выявления нестационарных временных рядов таблица критических значений составляется из отрезков прямой в окрестности точки 0. Критические значения из табл. 2.5 приложения 2 применяются для проверки гипотезы Щ : IDW = 2 (рассматриваемый про- цесс стационарный) и альтернативной ей гипотезы Н^ : IDW ^ 2 374
(рассматриваемый процесс не является стационарным*). В табл. 2.6 приложения 2 и 4 представлены критические значения для проверки гипотезы Я*о: IDW = О (процесс нестационарный) и альтернативной гипотезы Я*, : IDW ^ О (процесс не является не- стационарным). Механизм проверки гипотезы о стационарности и нестационарности временного ряда представлен на рис. 10.4. Тестируемый вре- менной ряд нестационарен. Нет оснований отклонить гипотезу Н*о Зона неопределенности 1 1 Тестируемый временной ряд стационарен. Нет оснований отклонить гипотезу Но IDW," IDW,, IDW^," IDWl,' 2 Рис. 10.4. Механизм проверки гипотезы о стационарности временного ряда Таким образом, для применения интефационного критерия Дарбина-Уотсона расчетное значение IDW-статистики необходи- мо сравнить с нижним критическим значением из табл. 2.6 приложения 2, и если выполняется соотношение lOWpa^n < IDW"^, тогда на соответствующем уровне значимости гипотеза о неста- ционарности временного ряда не может быть отклонена. Если между расчетным и верхним критическим значением из табл. 2.6 приложения 2 выполняется соотношение IDWpa^H > IDW^^^ тогда на соответствующем уровне значимости нет оснований откло- нить гипотезу о стационарности временного ряда. 10.3.2. Тесты Дики-Фуллера Базовый метод для определения порядка интегрируемости Y^ в форме (10.5) был предложен Д. Дики и У. Фуллером в 1979 г Основная идея метода заключается в проверке гипотезы о стаци- онарности процесса и последовательно его разностей повы- шающегося порядка. * При описании гипотезы Н^ умышленно дано такое определение, так как нестационарность следует из другого соотношения: IDW = 0. 375
Если проводить оценку параметра ai уравнения (10.5) обыч- ным методом наименьших квадратов и проверять гипотезу о ра- венстве tti = 1 с помощью /-статистики, мы можем получить лож- ную значимость, так как в рамках нулевой гипотезы /-теста Стьюдента оцениваемое значение у^ должно быть стационарно. Поэтому необходимо использовать альтернативный тест, нулевая гипотеза которого предполагает нестационарность процесса. Тест Дики-Фуллера (Dickey—Fuller test, DF-тест), или так называ- емый тест на единичный корень, основан на оценке параметра 5 = ai - 1 уравнения АУ, = 8- Г,_1 + 8„ (10.6) эквивалентного уравнению рефессии (10.5). В этом случае нуле- вая гипотеза состоит в равенстве 5 = О, а противоположная ей 6<0: Яо:5 = 0; Я, : 5 < 0. Отклонение нулевой гипотезы в пользу альтернативной при- водит к заключению, что laj < 1 и процесс Yf - стационарный, или интефируемый нулевого порядка {Yj ~ /(0)). Проведенный таким образом Z)F-TecT для уравнения (10.5) позволяет опреде- лить, является ли процесс Y^ стационарным (интефируемым нулевого порядка) или нет. Поскольку распределение статисти- ки Дики—Фуллера не имеет аналитического представления, су- ществуют некоторые сложности с определением точного крити- ческого значения для DF-tcctsl, Таблицы теста Дики-Фуллера на порядок интефируемости рассчитаны для обычных уровней зна- чимости в 1, 5, 10%. Представленные там значения - эмпиричес- кие, а не теоретические, поэтому в таблице критических значе- ний указаны верхнее и нижнее пороговые значения. Не следует забывать, что указанные в таблице значения ВР-теста, отрица- тельные. Для проверки временного ряда yf на порядок интефируемос- ти рассчитывают значение /-статистики Стьюдента для парамет- ра 6 и сравнивают его с верхним и нижним пороговыми значени- ями Д^-статистики из таблицы. Если значение расчетной /-статистики меньше (более отрицательное), чем нижнее крити- ческое значение для соответствующего числа наблюдений п, 376
нулевую гипотезу 5 = О (о наличии единичного корня) следует отклонить и принять альтернативную о стационарности процес- са Yf, Если расчетное значение /-статистики превышает верхнее критическое значение, тогда нулевая гипотеза не может быть от- клонена. В случае, когда расчетное критическое значение попа- дает в область между верхним и нижним критическими значени- ями, ничего определенного об отклонении или принятии нуле- вой гипотезы сказать нельзя. В случае когда нулевая гипотеза о равенстве 5 = О не отклоняется, можно только утверждать, что процесс Yf нестационарен. Из этого утверждения следует допол- нительный вывод: либо процесс Yf интегрируем более высокого порядка, чем нулевой, либо неинтефируем вообще. Следующий этап в оценке порядка интефируемости времен- ного ряда — проверка гипотезы о том, что Yf — процесс интефи- руемый, первого порядка, т.е. У^ ~ /(1). В этом случае применяем DF-TCCT к первым разностям Ау^ вместо у^. Уравнение (10.5) при- мет следующий вид: ААУ, = 5-ЛУ;_1 + 8,. (10.7) Снова вьщвигаем две альтернативные гипотезы: Яо:8 = 0; Я1: 5 < 0. Если на основе /)/'-теста отклоняем гипотезу Hq и прини- маем альтернативную гипотезу Я^, тогда ряд А;;^ - стационарный, а процесс Yf интефируем первого порядка, т.е. Yf- 1(1). Иногда в таком случае говорят, что процесс Yf имеет один единичный ко- рень. Если нулевая гипотеза не может быть отклонена, тогда сле- дует проверить yf на интефируемость второго порядка. Теоретически можно продолжать процесс проверки на стаци- онарность до тех пор, пока, с одной стороны, не определится по- рядок интефируемости Yf или, с другой стороны, не будет установлена неинтефируемость процесса Yf, На практике редко встречаются временные ряды, интефируемые выше второго по- рядка. Неинтефируемость временного ряда означает, что невоз- можно добиться стационарности ряда, вычисляя последователь- ные разности все более высокого порядка. Вероятна также ситуа- ция, когда процесс Yf интефируем, но применяемый тест неадек- ватно оценивает его порядок. В обоих случаях существует опас- 377
ность сверхразности, т.е. применение разностного оператора большее, чем следует, число раз. Очевидный сигнал сверхраз- ности - очень высокое положительное значение ZJ/'-CTaTHCTHKH наряду с высоким значением коэффициента детерминации для оцениваемой регрессии. В этом случае необходимо использовать другие методы оценки порядка интегрируемости временного ряда. DF'TCCT применим также для оценки порядка интефируемос- ти случайного процесса со смещением, который задается следую- щим уравнением: АУ, = ао + а1-У,_1 + е„ (10.8) где ао — константа, смещение, свободный член. Используемый для оценивания порядка интефируемости ме- ханизм аналогичен описанному выше, за исключением применя- емой таблицы критических значений для /-критерия Стьюдента. Критические значения для DF-, ADF- и РР-тестов приведены в приложении 5. На практике трудно различить ситуации, когда следует применять DF-tqct, а когда - DF-tcct со смещением. Опыт показывает, что иногда результаты теста со смещением очень трудно интерпретировать. В статистике стохастический тренд часто рассматривается на- ряду с детерминистическим. Поэтому следующая модификация DF-тсстг - DF-mecm со смещением и линейным детерминистичес- ким трендом. Уравнение этого теста имеет следующий вид: ^Y^ = ао + ai • У^_, + aj • / + е,. (10.9) В уравнении (10.9) можно одновременно оценить отсутствие случайного тренда aj < О и наличие детерминистического тренда а2 9t 0. В этом случае нулевая гипотеза включает два параметра. Адекватный тест в этой ситуации - тест множителей Лафанжа, для которого, как и в предшествующих случаях, критические значения точно не определены. Простейший способ проверки переменной Y^ на порядок интефируемости, обусловленной на- личием детерминистического тренда, лежащего в основе генери- рующего процесса этой переменной, - обычный DF-tcct на отрицательность параметра aj. Для этого случая существует от- дельная таблица критических значений /)Р-критерия. На практике необходимо выполнить следующие шаги. 378
Ш а г 1. Сдвигом у, на шаг назад получить временной ряд с ла- гом, равным единице, у^_1 Шаг 2. Вычислить первые разности Ау,_1 Шаг 3. Построить уравнение регрессии Ау^ (зависимая пере- менная) на>'^_1 (независимая переменная) и оценить ее парамет- ры МНК: Шаг 4. Вычислить тестовую статистику: sdv(ai) (10.10) если реальное значение параметра сдвига ао равно нулю, то /-ста- тистика имеет асимптотически стандартное нормальное распре- деление и для проведения теста могут быть использованы крити- ческие значения нормального распределения. Шаг 5. В противном случае следует вычислить критические значения /^д. При отсутствии детерминистического тренда кри- тические значения на 5%-ном уровне значимости приблизитель- но равны: OF _ ^ о. 2,74 8,36 (10.11) в противном случае критические значения берутся из таблиц. Ш а г 6. Если / < 1^95» ™ Yf стационарен на 5%-ном уровне зна- чимости. Покажем всю последовательность решения на примере. Пример 10.3. Пусть yj — реализация процесса «белый шум» с а^ = 2 и |1 = 0. Для выполнения DF-tcctsl строится рефессия первых разнос- тей Aj^^ временного ряда на значения ряда с лагом единица >'^_i без свободного члена (табл. 10.1). Таблица 10.1 Результаты оценивания методом наименьших квадратов Зависимая переменная: Ау,; л = 49 (со 2 по 50) Регрессор yt-\ Коэффициент -1,1353 Стандартная ошибка 0,14202 /-статистика -7,99 379
Ввиду отсутствия свободного члена /-отношение можно срав- нить с левосторонней 5%-ной квантилью нормального распреде- ления, т.е. ^0.05 ~ ~1>65; /-отношение, равное —7,99, указывает на то, что мы отклоняем нулевую гипотезу (о нестационарности). Это означает, что процесс можно считать стационарным. Пример 10.4. Продолжим пример 10.3, но при отсутствии предварительного знания (знания к priori) относительно свобод- ного члена. В этом случае мы должны включить свободный член в рефессию (табл. 10.2). Таблица 10.2 Результаты оценивания методом наименьших квадратов Зависимая переменная: Ду,; л = 49 (со 2 по 50) Регрессор С yt-\ Коэффициент 0,49606 -1,1353 Стандартная ошибка 0,25257 0,14202 /-статистика 1,964 -8,46 Ввиду наличия свободного члена нормальное распределение уже неприменимо. Формула (10.11) дает критическое значение на 5%-ном уровне значимости: ^,95=-2»86- 2,74 8,36 50 2500 = -2,918. Этот тест дает такие же результаты относительно стационар- ности. Пример 10.5. Рассмотрим на этот раз случайное блуждание. ПустьXf - реализация процесса Х,= Xf_i+af, где а^ имеет нормаль- ное распределение со средним E(af) = О и дисперсией a^= 1. Для проведения DF-tqctb. снова оценим рефессию AXf на Xf_^ без сво- бодного члена (табл. 10.3). Таблица 10.3 Результаты оценивания методом наименьших квадратов Зависимая переменная: Ах,; л = 49 (со 2 по 50) Регрессор ^/-1 Коэффициент 0,026941 Стандартная ошибка 0,023797 380
Коэффициент регрессии положителен. Следовательно, /-ста- тистика не может быть меньше любого (всегда отрицательного) критического значения. Таким образом, гипотеза о нестационар- ности не может быть отклонена ни при каком уровне значи- мости. В примерах, приведенных выше, аппроксимация нашего вре- менного ряда моделью AR(1) была абсолютно корректна благода- ря нашему знанию о процессе, генерирующем временной ряд. Однако на практике аппроксимация временных рядов процессом AR(1) является чрезмерным упрощением. Более корректным и общим случаем будет предположение о том, что процесс, генери- рующий временной ряд, - AR(A:) порядка к. 10.3.3. Модификации теста Дики-Фуллера для случая автокорреляции Очевидный недостаток /)/'-теста состоит в том, что в нем ни- как не учитывается возможная автокорреляция в остатках е^. Ес- ли в остатках е^ наблюдается автокорреляция, то результаты обычного метода наименьших квадратов будут недостоверны. Для решения этой проблемы Дики и Фуллер предложили вклю- чить в правую часть дополнительные объясняющие переменные: лаговые значения переменной из левой части, т. е. А};=а,.У,_1 + |;а,,1.АУ,_,ч-е,. (10.12) /=1 Данный тест называется обобщенным тестом Дики—Фуллера (Augmented Dickey-Fuller test, ADF-mecm). Это наиболее эффек- тивный, распространенный и наиболее часто встречающийся из простых тестов на интегрируемость. Процедура тестирования аналогична предыдущим — оценивается значение /-критерия Стьюдента для параметра aj. Критические значения для ADF-tcc- та те же самые, что и для обычного /)jF-TecTa. По аналогии с уравнением (10.5), в которое были добавлены константа и линейный тренд, не нарушая логики рассуждений, эти же слагаемые можно включить в уравнение (10.12): 381
АУ, =ао +ai -у,.! + ia,.^, -А};., +е,; (10.13) /=1 к AY, =ао +ai -Г^ + Za^^i AY,_i +а^^2 •^ + е,- (10.14) /=1 Добавленные в уравнения (10.8) и (10.9) лаговые компоненты никак не изменяют верхние и нижние пороговые значения, поэ- тому в качестве таблицы критических значений для /lDF-статис- тики используют соответствующую таблицу для ^/^-статистики. Замечания, сделанные в адрес DF-tcctsl по поводу «сверхразнос- ти», справедливы и для ADF-теста. На практике выбор длины лага и элементов авторегрессион- ной компоненты — очень сложная задача. Основная цель вклю- чения дополнительных слагаемых — обеспечение свойств «бело- го шума» для случайной компоненты е^, поэтому необходимо проверить 8^ на независимость и одинаковое распределение. Применения обычного теста Дарбина—Уотсона недостаточно. Также важно не перегружать АО/'-уравнение большим количест- вом дополнительных слагаемых. В этом случае можно использо- вать обычный метод исключений: выбрать максимальный лаг к, а затем удалять из рассмотрения незначимые слагаемые. Обычно удаление незначимых слагаемых не сказывается на отсутствии автокорреляции в остатках. Необходимо отметить, что даже ес- ли максимальная длина лага равна к, то количество дополни- тельных слагаемых может быть меньше, чем к, так как некото- рые из коэффициентов a^+i могут оказаться равными нулю. Критйчеекие значения у^^О/'-критерия приведены в табл. 2.8 приложения 2. В качестве критериев определения оптимальной длины лага можно использовать информационные критерии Акаики и Шварца, Они основаны на принципе снижения остаточной суммы квадра- тов при добавлении значимого фактора. Информационные кри- терии могут быть рассчитаны по следующим формулам: у4/С = {1 + 1п(2-я)+1п 382 ^Zs^^ 2к +— (10.15)
или где/;„ AIC^ = l^^(T,k)-k, (10.16) х{Т,к) - значение логарифмической функции правдоподобия оцени- ваемой модели; 5С = {1 + 1п(2-7с)}+1п ^Zs^ А:1пГ или SC,=l^^(T,k)--lnT, (10.17) (10.18) Из двух моделей в определенном смысле лучше та, для кото- рой значение AIC (и SQ ниже, а AICi (и SCj) выше. Добавление в уравнение рефессии дополнительных лаговых значений, с одной стороны, увеличивает значение п, с другой стороны, если фактор значимый, то его добавление значительно уменьшает остаточную сумму квадратов. Поскольку In л > 2, цена добавления лагового значения в критерии SC выше, чем в AIC. Поэтому ЛС-критерий отбирает более экономичные модели. Покажем применение рассмотренных тестов на примере (табл. 10.4). Пример 10.6. Пусть х^ — реализация процесса ARMA(2,1): Г, = 0,9};.1 - 0,ЗГ,_, + а, +0,25fl,_i, при Е(а^)= О и а^ = 4. Таблица 10.4 Тесты на единичный корень для переменной Y Регрессии DF-тестов включают свободный член, но не тренд. При оценивании всех yiDF-регрессий использовались 46 наблюдений (с 5 по 50) DF ADF{1) АВЩ) АВЩ) /-статистика -2,1556 -3,3536 -2,5808 -2,0708 LL -132,3946 -127,1521 -126,7647 -126,4142 Л1С^ -134,3946 -130,1521 -130,7647 -131,4142 SCl -136,2233 -132,8951 -134,4220 -135,9858 Критическое значение АО^-статистики = -2,9256 (с вероятностью 0,95). LL — значение логарифма функции правдоподобия. AICi"" информационный критерий Акаики. SCi - байесовский критерий Шварца. 383
в соответствии с более высокими значениями как ACIi, так и SCi следует предпочесть ADF-тест ADF{1) на основе процесса AR(1) для первых разностей. Соответствующее значение /-ста- тистики меньше критического значения; это означает, что нуле- вая гипотеза (о нестационарности) может быть отклонена на 5%-ном уровне значимости. Простой DF-tcct не приводит к та- кому решению. Теперь рассмотрим случай нестационарного временного ряда. Пример 10.7. На рис. 10.5 представлен график ежедневных значений величины закрытия российского индекса акций «Moscow Times» с 1 июля 1997 г по 6 мая 2003 г По возрастающе- му виду кривой можно предположить, что этот временной ряд нестационарен. Данное предположение подтверждается ADF-tcc- том, как показано в табл. 10.5. Нулевая гипотеза о нестационар- ности не может быть отклонена ни с помощью DF-tqctsl, ни с по- мощью ADF-TQCTa, Ввиду одинакового вывода по обоим тестам нет необходимости проводить выбор модели в соответствии с критериями ACIi или ^Q. юооЧ п—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I—I г 1 71 141 211 281 351 421 491 561 631 701 771 841 911 981 10511121119112611331 1395 f Рис. 10.5. Индекс стоимости акций «Moscow Times» с 1 июля 1997 г. по 6 мая 2003 г. 384
Таблица 10.5 Тесты на единичный корень для переменной IMT Регрессии DF-тестов включают свободный член, но не тренд. При оценивании всех у4/)/'-рефессий использовалось 1391 наблюдение (с 5 июля 1997 г. по 6 мая 2003 г.) DF ADF{\) ADF12) ADF(3) /-статистика 0,12822 0,58275 0,63345 0,61590 LL -7999,2 -7969,7 -7969,3 -7969,3 Л/Q -8001,2 -7972,7 -7973,3 -7974,3 SC^ -8006,4 -7980,6 -7983,8 -7987,4 Критическое значение ADF-CTaTHCTHKH = —2,8641 (с вероятностью 0,95). LL — значение логарифма функции правдоподобия. AICi— информационный критерий Акаики. SCi — байесовский критерий Шварца. Продолжим тот же пример, используя не сами индексы стои- мости акций, а приросты их логарифмов. Пример 10.8. Таким же образом, как и в примере 10.7, мож- но доказать, что и при взятии натурального логарифма от ШТ временной ряд останется нестационарным. Однако финансовый рынок больше заинтересован в доходности акции, нежели в ее цене. Доходность обычно измеряется как темп прироста цены ак- ции, в частности, в логарифмической форме (9.14). Соответ- ственно на рис. 10.6 изображена дневная доходность А In /Af Г ин- декса стоимости акций «Moscow Times» со 2 июля 1997 п по 6 мая 2003 г Очевидно, что теперь фафическое представление времен- ного ряда не содержит никакого тренда и можно ожидать, что временной ряд окажется стационарным. Это подтверждается ре- зультатами тестов (табл. 10.6). Для всех тестов /-статистика существенно меньше критического значения. Следовательно, да- же без выбора модели можно утверждать, что стационарность временного ряда доходности доказана на высоком уровне значи- мости. Из этого следует, что In ШТ^ интефируем первого поряд- ка или /(1). Основной недостаток простого и обобщенного тестов Ди- ки—Фуллера состоит в том, что эти тесты достаточно фомоздки в вычислениях. Для получения расчетного значения /Ш/"-критерия приходится оценивать параметры рефессионного уравнения. 25- 385
следить за отсутствием автокорреляции в остатках этой рефес- сии, последовательно добавляя лаговые значения зависимой пе- ременной в правую часть для устранения автокорреляции, иск- лючать незначимые промежуточные лаговые значения на основе информационных критериев. В результате проведения подобной процедуры может оказаться, что автокорреляцию остатков удает- ся устранить только за счет добавления большого количества ла- говых значений зависимой переменной или вообще не удается устранить. В таких случаях следует предположить, что временные ряды имеют иную природу. i Atn/MT 0.4: 0.3: 0.2: 0.1: 0,0: -0,1-: -0.2: -0.3: -0.4^ к щ щ 1УШ —1—1—1—1—1—1—1—1—1—1—1—1—1—1—1—Г" -Т 1 !—► 1 71 141 211 281 351 421 491 561 631 701 771 841 911 981 10511121 1191 12611331 f Рис. 10.6. Дневная доходность индекса стоимости акций «Moscow Times» со 2 июля 1997 г. по 6 мая 2003 г. Таблица 10.6 Тесты на единичный корень для переменной А In IMT Рефессии DF-tcctob включают свободный член, но не тренд. При оценивании всех AD/'-рефессий использовалось 1390 наблюдений (выборочный период с 6 июля 1997 г. по 6 мая 2003 г.) DF ADF(l) ADF{2) ADF(3) /-статистика -38,1617 -25,2673 -20,4274 -19,1745 LL 2510,2 2512,2 2512,6 2515,8 AIC^ 2508,2 2509,2 2508,6 2510,8 SCi 2503,0 2501,3 2498,1 2497,7 386
критическое значение ADF-CTaTHCTHKH = -2,8641 (с вероятностью 0,95). LL — значение логарифма функции правдоподобия. AICi — информационный критерий Акаики. SCi - байесовский критерий Шварца. Теория ADF'TQCTOb предполагает отсутствие автокорреляции и наличие постоянной дисперсии в остатках. Как было показано выше, это достигается за счет включения в уравнение регрессии дополнительных слагаемых — лаговых компонент. П. Филлипс и П. Перрон в 1988 г разработали непараметрический метод выяв- ления автокорреляции высокого порядка в данных. Контрольные вопросы 1. Что такое нестационарный процесс? Каковы признаки не- стационарности? 2. Назовите критерии нестационарности. 3. Как идентифицировать стационарные ряды? 4. Что означает «интегрирование при исследовании временных рядов»? 5. Как определяется порядок интефированности временного ряда? 6. В чем смысл интеграционной статистики Дарбина-Уотсона? 7. Как провести проверку на стационарность временного ряда с помощью интефационной статистики Дарбина-Уотсона? 8. Каково назначение теста Дики—Фуллера? 9. В каком случае следует проводить проверку на интефируе- мость второго порядка? 10. Поясните применение /)^-теста со смещением и линейным детерминистическим трендом. И. При каких параметрах авторефессия характеризуется еди- ничным корнем? 12. Назовите модификации тестов Дики-Фуллера. 13. В каких случаях используется ADF-tcct? 14. Назовите критерии при определении оптимальной величины лага авторефессионного процесса. 25*
11 Глава МОДЕЛИ ARIMA 11.1. ОПРЕДЕЛЕНИЕ Пусть Xf — нестационарный процесс со стационарными раз- ностями ^-го порядка, т.е. Y^ = А Х^ — стационарный процесс, а A^'^Xf - нестационарный. Это означает, что Х, интефируем rf-ro порядка. Если Yf - процесс ARMA{p,q), т.е. >"/ =(Фо+)Ф11'м -^--^^рУ/.р +^г -0Л-1 -...-V^-^' (11.1) тогда Xf называется процессом ARIMA {p,d,q). Часто среднее или свободный член приравнивается к нулю (опускается). Большинство эмпирических временных рядов можно считать реализациями процессов ARIMA. Другими словами, для больши- нства временных рядов может быть найден процесс ARIMA, или модель ARIMA, и именно этот процесс можно считать сгенери- ровавшим данный конкретный временной ряд. Основная задача в анализе временных рядов - специфицировать порядок модели ARlMA(p,d,q) в соответствии со свойствами временного ряда и оценить посредством статистических методов параметры уравне- ния модели и дисперсию остатков. Как уже отмечалось, пробле- ма состоит в том, что обычно мы имеем только одну реализацию изучаемого процесса. 11.2. ИДЕНТИФИКАЦИЯ МОДЕЛИ и ОЦЕНИВАНИЕ ПАРАМЕТРОВ Моделирование временных рядов обычно состоит из следую- щих шагов. 388
Ш а г 1. Диагностика, т.е. проверка временного ряда на стаци- онарность, условие эргодичности: • изучение графика временного ряда; • тест на единичный корень. В случае нестационарности - взятие разностей и повтор тестов; Оценивание диагностических функций, таких, как автокор- реляционная, и исследование их графиков. Шаг 2. Выбор типов возможных процессов, сгенерировав- ших этот временной ряд, так называемая идентификация мо- дели. В результате должны быть получены три основных параметра: d — порядок интефируемости, р и д — порядки компонент AR и МЛ соответственно. В процессе диагностики параметр d легко определяется как количество взятых разностей, необходимое для получения стаци- онарного процесса. Для экономических временных рядов пара- метр d обычно равен 1, но иногда он может быть равен О или 2. Более сложен выбор параметров р и д. Обычно при выборе этих параметров полагаются на результаты исследования автокорре- ляционной функции (ACF), частной автокорреляционной функ- ции (PACF) и обратной автокорреляционной функции (RAO). В случае сомнений следует придерживаться правила выбора моде- ли с наименьшим возможным числом параметров. Шаг 3. Оценивание параметров для всех возможных версий модели подходящими статистическими методами, такими, как: • обычный метод наименьших квадратов; • метод максимального правдоподобия; f метод минимизации квадратов ошибок прогноза; • алгоритм Марквардта. Шаг 4. Выбор наиболее подходящей модели среди оценен- ных: • проверка модели; • анализ остатков, которые должны иметь свойства белого шума; • рассмотрение модели, наилучшим образом воспроизводя- щей конкретный временной ряд, и ее наиболее экономичного с точки зрения количества параметров. Опять-таки на основе ос- 389
татков могут быть вычислены информационный критерий Акаи- ки или критерий Шварца для каждой модели. На основе сравне- ния этих критериев выбирается оптимальная модель. Диагностические функции могут предоставить полезную ин- формацию о типе процесса, сгенерировавшего данный времен- ной ряд, но они могут давать неоднозначные результаты. В при- мере 11.1 для того, чтобы понять, каков порядок процессов МА и AR, входящих в модель ARIMA, оценены ACF и PACF для вре- менного ряда Xf и его первых и вторых разностей. Пример 11.1. Попробуем ответить на вопрос: на какой тип модели указывают следующие диагностические функции? ' ' ' I ' ' ' ' I ' ' ■ ' I ' ' ' ' I ' ' ' ' I ' ' ' ' I ' ' ■ ' I ' ' ' ■—► О 5 10 15 20 25 30 35 х, лаг Рис. 11.1. Выборочная автокорреляционная функция временного ряда Изучение рис. 11.1 позволяет предположить, что это процесс типа ARc Ф1, близким к 1, или нестационарный процесс, посколь- ку ACF убывает очень медленно. График на рис. 11.2 показывает, что первые разности описываются процессом вида AR(1), так как автокорреляция убывает почти экспоненциально. Рис. 11.3 позво- ляет предположить, что вторые разности временного ряда описы- ваются процессом типа МА(0), или «белым шумом», поскольку ACF резко падает после величины лага т = О и затем колеблется вокруг нуля. Но статистика Бокса—Пирса Q позволяет отклонить гипотезу о «белом шуме» (табл. 11.1). 390
-0,4 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I—► 0 5 10 15 20 25 30 35 т, лаг a T, лаг Рис. 11.2. Выборочная автокорреляционная функция: а — первых разностей; б — вторых разностей Из рис. 11.3 можно заключить, что уровни процесса Х^ относят- ся к процессу AR(1) или AR(2), так как их PACF практически исче- зает после т = 2. Для первых разностей временного ряда за осново- полагающий процесс можно принять AR(1). Аналогичным образом PACF для вторых разностей отражает свойства процесса вида МА(0), те. «белого шума». Рис. 11.4 подтверждает предположение о том, что в основе первых разностей лежит процесс типа AR(1). 391
Таблица 11.1 Статистика Бокса—Пирса для вторых разностей т 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Q-статис- тика 63,087 71,862 78,373 78,448 78,682 78,951 79,169 79,278 81,352 86,908 91,571 95,272 95,852 95,873 96,190 97,872 97,878 97,959 Вероят- ность 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 X 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 С-статис- тика 99,236 99,370 100,57 100,88 100,98 101,76 102,91 103,54 106,32 110,14 113,31 116,30 117,49 117,55 117,56 117,56 119,12 121,40 Вероят-j ность 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 -0,2] I I I I I I I I I I I I I I I I О 5 10 15 20 25 ' I I I 30 1—I I I I I W- 35 X, лаг Рис. 11.3. Выборочная частная автокорреляционная функция временного ряда 392
■0.2^ I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I W 10 15 20 25 30 35 X, лаг T, лаг Рис. 11.4. Выборочная частная автокорреляционная функция: а — первых разностей; б— вторых разностей Подводя итог, можно сказать, что мы имеем три модели на выбор: 1. Нестационарная модель типа ARIMA( 1,0,0) с Ф1 > 1 или, возможно, ARIMA(2,0,0). 393
2. Процесс типа ARIMA( 1,1,0), так как первые разности име- ют вид процесса AR( 1). 3. Процесс типа ARIMA(0,2,0), так как вторые разности, воз- можно, представляют собой «белый шум». Выбор между этими моделями на практике можно сделать с помощью тестов на единичный корень. Но в данном случае мы знаем процесс, который сгенерировал данный временной ряд: это процесс ARIMA( 1,1,0), а именно У^ = 0,97У^_, + Gf, где У^ = АХ^ и df - N(0,1), т.е. случай 2. С другой стороны, это означает, что Xf = 1,97Л'^_1 - 0,97Xf_2-^af, что также соответствует случаю 1. И, наконец, округлив коэффициент при У^ = 0,97 У^_1 + а^яо едини- цы, получаем случай 3. Если процесс, лежащий в основе временного ряда, является в чистом виде процессом AR(^) или МА(р) с малыми значениями р или q, это можно сравнительно легко отличить по виду ACF и РАСЕ Для смешанных процессов типа ARlMA(p,q) или процес- сов типа AR(p) и МА(^) с высокими порядкамиридуже сложно предложить сколько-нибудь надежное правило идентификации процесса на основе сгенерированного им временного ряда и соответствующих этому ряду выборочных диагностических функций. В любом случае после выбора рид появляется следующая сложная задача - оценивание более специфических параметров В случае процесса AR среди прочих есть следующие варианты оценивания параметров модели AR(p): 1. Регрессия обычным методом наименьших квадратов Xf на Xf_i, Xf_2,..., Xf_p , ХОТЯ некоторые свойства тестовых статистик бу- дут искажены ввиду присутствия среди рефессоров лагов зависи- мой переменной. 2.. Максимизация логарифмической функции правдоподобия (МП-оценивание). Для длинных временных рядов различие с ре- зультатами МНК незначительно. 3. Разрешение уравнений Юла-Уокера. Уравнения Юла-Уо- кера формируют систему уравнений, описывающую линейные соотношения между коэффициентами модели AR и автоковари- ациями процесса AR{p) с нулевым средним: 394
У1 =Ф1У0 +Ф2У1 +- + ФрУ;,-1- (1 1.2) Когда вместо у, в уравнения подставляют выборочные коэф- фициенты автоковариации, решения фу системы (11.2) и являются оценками Юла—Уокера параметров фу. Эти оценки состоятельны. В случае чистого МА(^)-процесса программные пакеты обыч- но предлагают нелинейные методы наименьших квадратов для оценивания параметров. Например, метод условной суммы квад- ратов (Conditional-Sum-of Square Estimation - CSS). Здесь отсутствующие данные значений «белого шума» а^ гене- рируются как ex-post ошибки прогноза при условии минимума суммы квадратов ошибок. Пример 11.2. Для П{)р1десса МА(1): Х^ — а^ — ^\а^_^ renepnijy- ются значения а^ = х^ + ^\а^_х с некоторым коэффициентом Э^, т который оценивается при условии 5(01 )=Х ^/=niin. Поскольку 1 это нелинейная функция относительно параметра Gj, минимиза- ция происходит в результате итеративного процесса. Если модель ARMA содержит скользящее среднее, то МНК- оценивание, как и в случае с AR-процессами, уже не является возможным. В связи с этим оценивание параметров моделей ARMA(/?,^) в основном проводится по тем же принципам, что и оценивание параметров для МА-процессов, но становится нам- ного сложнее. Например, появляется проблема выбора первона- чальных значений Xj из-за наличия рефессоров — лагов зависи- мой переменной. По аналогии с примером 11.2 условная сумма квадратов 5(фо,...,ф^; el,..., 0,)= i; а} (11.3) должна быть минимизирована, где значения слагаемого ошибки лесами оцениваются по предварительной модели. Оценивание по методу нелинейных наименьших квадратов представляет собой итеративную процедуру 395
ф*+1 ф* ©i. -1, -lDlD,rD;S„ (11.4) где Ф;^ и0^^ — соответственно векторы AR- и МА-коэффициентов, оценен- ных на к'й итерации. Через D/^ обозначается (Т—р—д) * (1 +р + ?) матрица производ- ных оцененных отклонений а^ по параметрам ф, и 6у. Компьютерные программы предлагают н^есколько вариантов для первоначального задания значений Фф hGq. Другим часто ре- ализуемым в компьютерных программах вариантом оценивания является оценка методом максимального правдоподобия. В этом методе авторефессионные коэффициенты AR(p) модели итера- тивно вычисляются с помощью функции максимального правдо- подобия при условии, что ошибки в модели сгенерированы про- цессом МА(^). Начальные значения могут быть заданы или оце- нены, как и в нелинейном методе наименьших квадратов. Пример 11.3. Попытаемся подобрать подходящие модели к ежедневным данным о стоимости индекса акций «Moscow Times» (/Л/7). Как было показано в примере 10.7, этот временной ряд нестационарен. С помощью ADF-Ttcra можно показать, что пер- вые разности данного процесса стационарны (табл. 11.2). Следо- вательно, индекс акций «Moscow Times» является интефируемым первого порядка. Таблица 11.2 Тесты на единичный корень для переменной Л/Л/Г. Регрессии DF-tcctob включают свободный член, но не тренд. При оценивании всех/lZ)F-peфeccий использовалось 1390 наблюдений (выборочный период с 6 июля 1997 г. по 6 мая 2003 г) DF ADF(\) ADFO) ADF{1) /-статистика -45,7675 -29,5211 -22,9344 -20,3820 LL -7964,6 -7964,3 -7964,2 -7962,9 AICl -7966,6 -7967,3 -7968,2 SCl -7978,7 -7981,0 Критическое значение у4/)/'-статистики = -2,8641 (с вероятностью 0,95). LL — значение логарифма функции правдоподобия. А1С[^ - информационный критерий Акаики. SCi — байесовский критерий Шварца. 396
в последующем подборе модели ARIMA(/7,1,^) для времен- ного ряда IMT мы сконцентрируем внимание на недавнем вре- мени, т.е. только на последнем периоде с 3 августа 2002 п по 6 мая 2003 г. Выборочная автокорреляционная функция дает некото- рое представление о возможных типах модели (рис. 11.5). В соот- ветствии с резким падением значений ACF после второго лага можно предположить, что для разностей AIMT это модель МА(2). Но выборочная PACF (рис. 11.6) имеет почти такую же форму Значит, столь же хорошо можно аппроксимировать наш вре- менной ряд и моделью AR(2). Если также принять во внимание относительно небольшие пики диагностических функций, мож- но попробовать построить модели 10-го порядка и смешанные модели. -0,2т I I I I I I I I I I I I I I I I I I г О 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ^ ^^^ Рис. 11.5. Автокорреляционная функция первых разностей индекса акций «Moscow Times» (AIMT) Нашей первой попыткой будет построение смешанной мо- дели вида ARIMA(2,1,2) для переменной ШТ. Свободный член может быть опущен ввиду незначимости. Символы AR(1), МА(2) и т.д. в табл. 11.3 — 11.9 означают не модели этого типа, а только соответствующий коэффициент указанного порядка. Рассматри- вая значения /-статистики в табл. 11.3 и последующих, мы можем сделать вывод о значимости соответствующего коэффициента в 397
модели. Говоря коротко, коэффициент называется значимым на 5%-ном уровне, если абсолютное значение /-статистики больше критического значения двустороннего теста на 5%-ном уровне значимости для стандартного нормального распределения, те. 1,96. Мы попытались получить только значимые коэффициенты. т, лаг 11.6. Частная автокорреляционная функция первых разностей индекса акций «Moscow Times» (А/Л/7) Таблица 11.3 ARIMA(2,1,2) Зависимая переменная: АШТ. Метод: наименьших квадратов. Выборка 1200-^1395. Включенные наблюдения: 196. Сходимость достигнута за 21 итерацию. Экстраполяция: 1198, 1199. Переменная AR(1) AR(2) МА(1) МА(2) Коэф- фициент -0,727445 -0,831707 0,778122 0,983501 Стандарт- ная ошибка 0,040086 0,046215 0,009785 0,019035 /-статистика -18,14692 -17,99662 79,52184 51,66710 Вероятность 0,0000 0,0000 0,0000 0,0000 398
Продолжение /?-квадрат Скорректированный Л-квадрат Стандартная ошибка рсфсссии Сумма квадратов ос- татков Логарифм макси- мального правдопо- добия 0,102555 0,088533 72,51885 1009725, -1115,725 Среднее зависимой пере- менной Стандартное отклонение зависимой переменной Информационный крите- рий Акаики Критерий Шварца Статистика Дарбина- Уотсона 2,931173 75,95919 11,42577 11,49267 1,938888 Следующая попытка относится к более простому типу про- цесса — модели ARIMA(0,1,2), в которой свободный член и Э; бы- ли приравнены к нулю ввиду незначимости. Таблица 11.4 ARIMA (0,1,2) с ограничениями Сходимость достигнута за 5 итераций Переменная МА(2) Л-квадрат Стандартная ошибка регрессии Информационный критерий Акаики Логарифм макси- мального правдо- подобия Коэф- фициент 0,193886 0,032978 74,69618 11,46982 -1123,043 Стандартная ошибка 0,070392 /-статистика 2,754370 Среднее зависимой пере- менной Стандартное отклонение зависимой переменной Критерий Шварца Статистика Дарбина- Уотсона Вероятность 0,0064 2,931173 75,95919 11,48655 1,900061 Для полноты моделирования и ввиду схожести ACF и PACF, проанализируем также модель типа ARIMA(2,1,0). После двух итераций и наложения нулевых офаничений на незначимые коэффициенты была получена модель, представленная в табл. 11.5, также очень экономичная с точки зрения количества параметров. 399
Таблица 11.5 ARIMA (2,1,0) Сходимость достигнута за 2 итерации Переменная AR(2) /?-квадрат Стандартная ошибка рефессии Информационный критерий Акаики Логарифм макси- мального правдо- подобия Коэф- фициент 0,159330 0,024384 75,02736 11,47867 -1123,910 Стандартная ошибка 0,070053 /-статистика 2,274417 Среднее зависимой пере- менной Стандартное отклонение зависимой переменной Критерий Шварца Статистика Дарбина— Уотсона Вероятность 0,0240 2,931173 75,95919 11,49540 1,903325 Как уже было отмечено выше, существует некоторая вероят- ность улучшить модель за счет включения в нее более высоких порядков, соответствующих пикам ACF и PACF, начиная с т = 2, и особенно при т = 10. С этой целью на модель налагаются опре- деленные ограничения, в данном случае — нулевые офаничения на самые незначимые коэффициенты, на что указывает наимень- шее значение /-статистики. Таким способом мы можем опустить или приравнять к нулю слагаемые с AR(3) по AR(9), а также пос- ле следующих шагов оценивания, которые мы не приводим, — слагаемые с МА(3) по МА(9). Мы опускаем процедуру многочис- ленных этапов оценивания модели, наложения нулевых ограни- чений на незначимые коэффициенты и представляем результаты только итоговой модели со множеством наложенных нулевых ог- раничений в табл. 11.6 — 11.9. Коэффициенты во всех четырех ва- риантах значимы на 5%-ном уровне. Таблица 11.6 ARIMA(10,1,0) с ограничениями Сходимость достигнута за 3 итерации Переменная AR(2) AR(IO) Коэф- фициент 0,167751 -0,171843 Стандарт- ная ошибка 0,069113 0,065995 /-статистика 2,427189 -2,603864 Вероятность 0,0161 0,0099 400
/?-квадрат Стандартная ошибка рефессии Информационный критерий Акаики Логарифм макси- мального правдо- подобия 0,057330 73,93952 11,45452 -1120,543 Среднее зависимой пере- менной Стандартное отклонение зависимой переменной Критерий Шварца Статистика Дарбина— Уотсона Продолжение 2,931173 75,95919 11,48797 1,908686 Таблица 11.7 ARIMA(0,1,10) с ограничениями Сходимость достигнута за 11 итераций Переменная МА(2) МА(10) /?-квадрат Стандартная ошибка регрессии Информационный критерий Акаики Логарифм макси- мального правдо- подобия Коэф- фициент 0,160845 -0,165091 0,049384 74,25048 11,46292 -1121,366 Стандарт- ная ошибка 0,069857 0,071934 /-статистика 2,302493 -2,295052 Среднее зависимой пере- менной Стандартное отклонение зависимой переменной Критерий Шварца Статистика Дарбина— Уотсона Вероятность 0,0224 0,0228 2,931173 75,95919 11,49637 1,889381 ARIMA(10,l92) с ограничениями Сходимость достигнута за 6 итераций Таблица 11.8 Переменная AR(IO) МА(2) /?-квадрат Коэф- фициент -0,156193 0,186053 0,059239 Стандарт- ная ошибка 0,067173 0,070843 /-статистика -2,325237 2,626275 Среднее зависимой пере- менной Вероятность 0,0211 0,0093 2,931173 26 -3291 401
Продолжение Стандартная ошибка рсфессии Информационный критерий Акаики Логарифм макси- мального правдо- подобия 73,86460 11,45250 -1120,345 Стандартное отклонение зависимой переменной Критерий Шварца Статистика Дарбина- Уотсона 75,95919 11,48595 1,899561 Таблица 11.9 АШМА(2,1,10) Сходимость достигнуга за 10 итераций Переменная AR(2) МА(10) /?-квадрат Стандартная ошибка рефессии Информационный критерий Акаики Логарифм макси- мального правдо- подобия Коэф- фициент 0,144618 -0,209273 0,050544 74,20519 11,46170 -1121,246 Стандарт- ная ошибка 0,070392 0,072653 /-статистика 2,054453 -2,880442 Среднее зависимой пере- менной Стандартное отклонение зависимой переменной Критерий Шварца Статистика Дарбина— Уотсона Вероятность 0,0413 0,0044 2,931173 75,95919 11,49515 1,888897 Прежде чем продолжить поиск наилучшей из семи оценен- ных моделей, рассмотрим более детально критерии выбора. При сравнении различных моделей для одного и того же вре- менного ряда мы имеем дело с несколькими конкурирующими целями: • в случае применения любого метода наименьших квадратов - минимизация дисперсии ошибок на множестве оцененных моде- лей W в то же время минимизация числа параметров модели; • или в случае МП-оценивания максимизация функции прав- доподобия на множестве построенных моделей w в то же время минимизация числа параметров модели. Обычно оцениваемая модель лучше соответствует временно- му ряду при более высоких порядках/? и q модели ARMA. Платой 402
за этот кажущийся выигрыш в точности соответствия построен- ной модели конкретному временному ряду является потеря прос- тоты и экономии на параметрах. Поэтому, как правило, невоз- можно достичь обеих целей выбором одной модели. Следует най- ти компромисс между соответствием модели временному ряду и наименьшим возможным числом параметров. Как известно из подразд. 10.3.3, для нахождения подобного компромисса исполь- зуются информационный критерий Акаики и критерий Шварца (часто называемый также критерием Шварца—Байеса, SBC). И вновь в данном случае информационный критерий Акаики может принимать две формы: А1С„ ={1 + 1п27с}+1пад +2-^-— - минимизировать (11.5) или AICi = l^rJiT.p.q) —р — д — максимизировать, (11 -6) где с]^ — дисперсия ошибок; ImaxC^f Ру я) - логарифмическая функция правдоподобия модели ARMAcp и q коэффициентами соответственно (не обязательно реального порядка модели!), оцененная для временного ряда длины Т. Две соответствующие формы критерия Шварца: SC^ = {1 + 1п2я} +lna^ +^~-^1пГ - минимизировать; (11.7) ^^L =1тах(^уРуЯ) —^—^1пГ - максимизировать. (11.8) Последний из этих критериев является более экономичным с точки зрения количества параметров. Пример 11.3 (продолжение). В табл. 11.10 собраны значения критерия Акаики А1С^ддя моделей индекса «Moscow Times», оце- ненных в первой части примера. Здесь р и q означают порядок модели независимо от количества реально оцененных коэффи- циентов. В табл. 11.11 представлены соответствующие значения критерия Шварца SC^. 26* 403
Значения критерия Акаики А1С^ Таблица 11.10 0 2 10 0 11,470 11,463 2 11,479... 11,426 11,462 10 11,455 11,453 Таблица 11.11 Значения критерия Шварца SC^ 0 2 10 0 11,487 11,496 2 11,495 11,493 11,495 10 11,488 11,486 Модель ARIMA(10,1,2) для переменной А/Л/Г оказалась наи- лучшей с точки зрения наименьших значений обоих информаци- онных критериев AIC и SC, Уравнение этой модели имеет вид: А/Л/Т; = -0,156193 MMTf_^o + д^ + 0,186053 а^^2 (11-9) или для уровней исходного временного ряда: ШТ, = Ш7;_1 - 0,156193 /Л/7;>1о +0,156193/А/Г;_11 +а, + + 0,186053 fl,_2. (11.10) Ввиду того что сложно содержательно объяснить значение слагаемого AR(IO), достаточно выбрать наилучшую модель из ARIMA (2,1,2) и моделей меньшего порядка. В этом случае сог- ласно обоим информационным критериям выбирается модель ARIMA(0,1,2): или AIMT, = а, + 0,193886fl,_2 (11.11) IMTf = IMT,_y +а^ + 0,193886а,_2- (11-12) На рис. 11.7 приведена модель МЛ (2) для переменной АШТ^. 404
п400 -300 I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I 1200 1225 1250 1275 1300 1325 1350 1375 t остатки A ШГ< фактические значения LIMT^ выравненные значения Л ШГ^ Рис. 11.7. Модель МА(2) для переменной А/Л/7), отражающей доходность индекса акций «Moscow Times» 11.3. МУЛЬТИПЛИКАТИВНЫЕ МОДЕЛИ ARIMA В АНАЛИЗЕ СЕЗОННОСТИ Сезонность во временных рядах может быть учтена посред- ством ВЗЯТИЯ сезонных разностей: например, для сезонности с периодом 5=12, т.е. для ежеме- сячных данных Xf=Ai2^f=i\-L )Zf=Zf-Zf_i2y (11.13) или посредством сезонных лагов в моделях ARMA. Простейшие примеры — модель AR(1) с сезонностью 405
^/=ф|^м2+«/ (11.14) и модель МА(1) с сезонностью Х,=а,-^\а,_,2- (11-15) 11.3.1. Тесты для оценки сезонной интегрируемости временных рядов Проверка на сезонную интефируемость более сложна. Неста- ционарный временной ряд у^ называется сезонно интегрируемым порядка {d,D), если он может быть преобразован в стационарный вычислением 5-разностей D раз и последующим вычислением первых разностей ^раз. Принятое обозначение сезонно интефи- руемого ряда порядка (rf, В):у^- SI^{d,D). Экономические ряды, как правило, являются 5/(0,0), 5/(0,1), SI{d,l), т.е. предполагает- ся, что применение 5-разностей один раз позволяет исключить сезонность. Наиболее простой тест проверки на сезонную интефируе- мость был предложен Дики, Хаза и Фуллером (DHF-mecm). Он основан на /-статистике Стьюдента для МНК-оценки параметра а ряда, измеряемого s раз в год: к AsZt =cx-Zr-, H-Zoc/ -А.Ум +^/» (11.16) /=1 где переменная г,_, получена в результате следующих преобразований. На первом этапе оценивается уравнение рефессии А^у^ (где \yt '^yt~ yt-s) ^^ ^^^^ ^ лаговых значений: 1=1 На втором этапе подставляются МНК-оценки для А,], А,2,..., Х^ (обозначаются 1, Дг,..., %^) для формирования переменной z, из У„ У,-\, -, y,-h по формуле z,=y,-I,>^i-y,.i- 1=1 406
в итоге подставляем лаговое значение Z/ или Zts в уравнение (11.16), оцениваем уравнение и вычисляем /-статистику Стью- дента для а. Выбор Л и А: в уравнениях (11.16) и (11.17) должен проводить- ся аналогично АОР-т^сту, т. е. Л и ^ следует подбирать таким обра- зом, чтобы Cf и 4^ удовлетворяли условию «белого шума». Таблицы критических значений ВНР-теста, составлены для уровней значи- мости 1, 2,5, 5, 10% как для месячных и квартальных данных, так и для моделей с константой и без нее. Если оценка а в (11.16) зна- чима (т.е. /-статистика меньше нижнего критического значения таблицы, учитывая отрицательный знак), то нулевая гипотеза су- ществования интегрируемой сезонности в процессе может быть отклонена в пользу альтернативной гипотезы: либо сезонность отсутствует, либо сезонность, которая может быть устранена вы- числением 5-разностей, не существует. Если нулевая гипотеза не отклоняется, то для достижения процессом у^ стационарности следует брать не сезонные разнос- ти, а несезонные разности более высокого порядка. Если нулевая гипотеза о равенстве а = О в (11.16), т.е. переменная у^ - Sl(0,1) не отклоняется, следует проверить, что ряд сезонных разностей является интегрируемым первого порядка (*У/(1,1) для исходного ряда). Для этого строится уравнение к /=1 и оценивается значение параметра а, как в ADP-tqctc. Если нуле- вая гипотеза не отклоняется, т.е. у^ ~ SI (1,1), следует проверить процесс на более высокий порядок интефируемости, т. е. на 5/(2,1). Для этого оцениваем значение а уравнения к AAA,};, =а-АА,з;,_1 + Sa/•ААА,>',_,.+е^. /=1 И так далее, пока не установим порядок интеграции SI{d,\) процесса у^. Следует отметить, что формируемая переменная Zt необходима только для ВНР-теста и не используется для провер- ки порядка несезонной интегрируемости. Более общий тест, который учитывает циклические колеба- ния различной частоты, представляет обобщенный взгляд на природу сезонных колебаний переменной, - это тест на сезон- 407
ную интегрируемость С. Гиллиберга, Р. Ингла, К. Грэнджера и Б. Йо (Hylleberg, Engle, Granger, Yoo) - HEGY-tqct. Для наиболее полного описания этого теста воспользуемся лаговым опера- тором L. В этих обозначениях сезонные разности могут быть записаны как \yt =yt -yt-s =yt -L'yt =(1-1')У/. 11.3.2. Сезонные модели ARIMA Рассмотрим модель, описываемую уравнением (11.13). Она может быть записана в виде {\-^\1}^)Х,^щ, (11.18) Если остатки а^ временного ряда х^ с ежемесячной периодич- ностью не содержат сезонных эффектов, то соответствующий им стационарный процесс а^ может также описываться с помощью моделей ARMA(p,9): Ф/1)а,=0,(1)Е„ где е, — «белый шум», или, подставляя формулу (11.18), получим: Ф^{L)^^-if\I}^)X,=®^{L)z,. (11.19) Если в качестве примеров Фр(1) и 0,(1) взять функции Ф2(^:)=I*'-ф,i-ф2I^ ©i(i)=z,''-e,i, то (11.19) примет вид: Ф2(1)(1-ф;1-*Ъ^,=©,(1)е, или (I? -ф,1-Ф2/-Ъ(1-ФГ^'Ъ^, ={1^ -е,1)е,. 408
После перемножения операторов получим: (1^ -ф11-ф21^ -ф!*!^^ +ф1ф1*1^Чф2ф1Ч^'*)^Г, = (i^ -eiL)8p ИЛИ в явном виде Xf =ф1^м +Ф2^/-1 +Ф^^М2 -Ф1Ф1*^МЗ -Ф2ФГ^М4 =^ -в1Е,-1- Поскольку операторы функций ф(^) и (\-^L}^) применяются последовательно, они могут быть формально перемножены, по- добно арифметическим множителям, и модель такого вида назы- вается мультипликативной. В общем случае обе части мультипликативной модели мо- гут быть полноценными моделями ARIMA. Тогда одна скомби- нированная модель называется сезонной моделью ARIMA (p,d,q) • {P,D,Q\, где Р, Z), Q обозначают порядки сезонности мо- дели для периода длиной s. В результате разностный процесс A^AfX^ = (1 - L)^ (1 - Zf )^ Х^ = Y^ предполагается стационарным АКМА-процессом ФрЩФ\{П)У, =0,(L)0q(LOs„ (11.20) ^^^ Ф^Ш = 1-ф,1-...-ф^1^; ФраО=1-Ф1^^'-...-Ф*7>1'''; 0,(L) = l-0iL-...-e,L'^; Если вместо символа Д вновь использовать оператор 1— L и вновь ввести в рассмотрение первоначальный процесс х^, полу- чим представление процесса Х^с сезонностью5 как мультиплика- тивного сезонного процесса общего вида AiR\MA(p,d,q) • (P,D,Q): Ф^а)Ф].(1')(\-1У(1-1)'X, =e^{L)eQ(L')a,. (JJ 21) Пример 11.4. Введем в пример 9.8 нестационарный времен- ной ряд ежемесячных заказов, поступающих в строительную отрасль Восточной Германии, OR. Этот временной ряд является 409
интегрируемым первого порядка /(1). Для стационарных первых разностей ДОЛ была оценена сезонная ARMA(3,1) • (0,l)i2- модель. Коэффициенты и стандартные ошибки представлены в табл. 11.12. Следовательно, для уровней ряда соответствующей моделью является сезонная ARIMA(3, 1, 1) • (0,0,1)12-модель. Таблица 11.12 Зависимая переменная: AOR. Метод: наименьших квадратов. Выборка (приведенная): 1991:05 2003:01. Включенные наблюдения: 141 после приведения крайних наблюдений. Сходимость достигнута за 11 итераций. Переменная AR(3) МА(1) МА(3) SMA(l) /^-квадрат Стандартная ошибка регрессии Информационный критерий Акаики Логарифм макси- мального правдо- подобия Коэф- фициент 0,984586 -0,087409 -0,875578 0,223344 0,473244 0,461709 13,13438 -561,1493 Стандарт- ная ошибка 0,018048 0,044901 0,044068 0,092243 /-статистика 54,55340 -1,946723 -19,86861 2,421250 Среднее зависимой пере- менной Стандартное отклонение зависимой переменной Критерий Шварца Статистика Дарбина- Уотсона Вероятность 0,0000 0,0536 0,0000 0,0168 1,996023 17,90197 8,016302 8,099955 Таким образом мы получили следующие параметры для представления ряда OR в виде (11.21) при s= \2,d= I, D = 0,p = 3,Р = 0,д = ЗиО=1: Фз(1,) = 1-0,985Г; Ф* =1- 0з(1) = 1+0,0871'+0,876/,'; 0;(I) = l-O,223Z,'l 410
Тогда (11.21) имеет вид: (\-0,%5L^)il-L)OR, =(1+0,0871+0,8761^)(1 -0,2231^^д, или в явном виде: ORf =OR,_i +0,895ОЛ^_з -0,985O/?/_4 +а^ +0,087л,_1 +0,876а^_з - - 0,223д^_12 -0,087 •0,223а^_1з -0,876 -0,223 a^.is- Последнее уравнение можно использовать в качестве форму- лы для получения прогнозов. Контрольные вопросы 1. Какие шаги включает моделирование временных рядов? 2. В чем отличие ARIMA-процессов от ARMA-процессов? 3. Какие методы оценивания параметров ARIMA-процессов наи- более предпочтительны? 4. Для какой цели используется уравнение Юла—Уокера? 5. Назовите критерии выбора наилучшей ARIMA-модели. 6. Какой тест используется для проверки на сезонную интефиру- емость? 7. Каково назначение ЯЕСУ-теста?
12 Глава ПРОГНОЗИРОВАНИЕ АВТОРЕГРЕССИОННЫХ ПРОЦЕССОВ 12.1. ПРОГНОЗИРОВАНИЕ ARMA-ПРОЦЕССОВ Рассмотрим стационарную ARMA-модель Ф{1)Х,=е(Щ, (12.1) преобразованную к виду МА-модели бесконечного порядка (мо- дель случайных шоков) Xf =T(L)fl^ =af +W\Oi-i'^W2^t-2 +••• (12.2) или для t = T-\-h /=0 Пусть Г будет моментом времени, начиная с которого мы бу- дем строить прогноз на h шагов вперед. Следует учесть, что у нас нет никакой информации о моментах времени Г+1, Г-1-2, ...Г + Л. Формула для получения прогнозов может быть представлена в виде А . (12.4) А где^7Т+;^) определяет значение прогноза на h шагов вперед на основе инфор- мации о развитии процесса до момента времени t = T. 412
Соответствующая ошибка прогноза А Л-1 Поскольку E(jj+^_y) = 0 для / = О, 1,..., A—1, условное матема- тическое ожидание ошибки прогноза имеет вид ^(^T{+h)\^T*^T-\y^T-2—) =0, А а следовательно, оценкаЛ'д+у^) является несмещенной. Дисперсия ошибки прогноза var(e^(,,)) = a^Zv|/? (12.5) /=о позволяет вычислить границы доверительного интервала прогно- за, если сделать предположение, что а^ имеет характеристики бе- лого шума, например, имеет нормальное распределение. При прогнозировании на практике реальные параметры ARMA-процесса ф^ и 6у заменяются своими оценками ф^ и 0у, а случайные шоки а^ — на остатки й^, полученные при оценивании модели, или на ошибки в^+л-/ предьщущих прогнозов. Пример 12.1. Модель AR(1) Х^=^^-^^^Х^_^+а,, |ф1|<1,мо- ^^^ быть записана для момента времени / = Г + Л в виде ЧТО дает рекурсивную формулу для построения прогноза А А ^П+И) =Фо +Ф1^Г(+А-1)- Если мы выполним замену А А ^T{+h-\) = Фо + Ф1^7'(+Л-2) И Т. Д., получим итоговую формулу ^г(./|)=ФоО + Ф1+Ф?+-.+Ф1''*НФ1%- (12.6) 413
в бесконечном периоде это выражение асимптотически схо- дится к математическому ожиданию Х\ limir(./,)=rV = ^W = ^^x. Более того, легко доказать, что в этом примере коэффициент представления в виде(12.2) - это (сравните с примером 8.6): Следовательно, дисперсия ошибки прогноза (12.5) - это 1 а2Л 1-ф, В бесконечном периоде эта дисперсия сходится к дисперсии процесса X, т. е. к Gj^. Пример 12.2. Для модели AR(2) А^ = фо + ^\Х^_х + фА;_2 легко получаем эквивалентную формулу для прогнозирования: л одношаговый прогноз ^r(+i) =Фо ^^\Xj-\-^Xj_x\ А А двухшаговый прогноз ^д+г) =Фо +Ф1^7'(+1) "•"Фг^г^ А А А I «^ Прогноз на А шагов ^г(+л) = Фо + Ф1^7'(+л-1) + Фг^д+л-г) -^^ п>Ъ, Аналогично результату примера 12.1 математическое ожида- ние этого прогноза сходится к среднему процесса: я->оо А ~ Ф1"" Фг и limvar(e7'(+/i)) = a^. Пример 12.3. Для модели МА(1) Л; = а^ - eja^.j формулы для прогнозирования очевидным образом имеют вид: А и ^д+л) = о для h > 2. 414
Поскольку М/1=-в1; v|//=0 для />2, дисперсия ошибки прогноза в соответствии с (12.5) принимает вид: ^аг(езг(^1)) = а2 и уаг(ед^л)) = ^а0+6?)=^л' для А > 2. Это означает, что доверительный интервал прогноза имеет постоянную ширину вне зависимости от горизонта прогноза А. Таким же образом для процесса МА(2) получаем: ^, =А^-е,л^_1-02л^_2; формулы для прогнозирования А л ^Т{+2) =-02^7-5 л ^7'(+Л)=0 для А>3; и дисперсии ошибки прогноза: var(e^^i)) = a^; var(e7^(+2)) = c^a(l+0?); и для А > 3: var(er(+2)) = ^2(l + 6?+92) = 4- Пример 12.4. Для модели ARMA (1,1) А'/=Фо+Ф1^/-1-^i^m мы снова легко получаем формулы для прогнозирования: л ^n+i) =Фо +Ф1^7' -Qi^r и л А ^г(+Л) =Фо +Ф1^г(+л-1) ДЛЯ А > 2; 415
а дисперсия ошибки прогноза равна: уаг(^д,,)) = а^ [^1 + Z [фГкф! + 01)]' j, причем = 4. Как видно из всех примеров, рассмотренных в этом разделе, ошибка прогноза данных ARMA-моделей ограничена на беско- нечности дисперсией процесса (Sx- Это свойство изменится в слу- чае нестационарных процессов, т. е. процессов ARIMA. 12.2. ПРОГНОЗИРОВАНИЕ ARIMA-ПРОЦЕССОВ В разд. 11.1 было определено, что нестационарный процесс Xj называется процессом ARIMA (p,d,q), если d-я разность в Yf = A^Xf = (1 — L)^Xf является стационарным процессом ARMA{p,q): Y, =фо +ф1Гм +... + фр};_^ +д, -eiJ,_, -,..-%а^_^ или Ф(1)У;=Фо+0(1Н, (12.7) где Ф(1) = 1°-ф11^-...-ф^1^ и 0(I)=I^-eiI^-...-e^L^. Прогнозирование таких ARIMA-процессов Y^ может быть представлено в виде двухшаговой процедуры: Шаг 1. Стационарный ARMA-процесс Х^ экстраполируется (см. разд. 12.1). Шаг 2. Вместо взятия разностей провести обратную опера- цию интефируемостид т.е. суммирования спрогнозированных на шаге 1 приращений ?д+л) = А^А^уу+л), чтобы получить сначала Д Лд+А), а затем по аналогии Д лд+д) и, наконец,А'д+^). Оцен- 416
ка дисперсии ошибки прогноза, а следовательно, и ширины до- верительного интервала прогноза проводится аналогичным обра- зом - повторным суммированием дисперсий ошибок прогноза ARMA-процесса Х^ Другим возможным вариантом является построение индиви- дуальной одношаговой формулы для получения прогноза. С этой целью уравнение (12.7) модифицируется с подстанов- кой разностей А^Л^ = П - Lf^t вместо Y{. Ф(1)(1-1)^^Г,=фо+0(1)А,. (^2.8) Перемножив функции оператора в левой части и решив урав- нение относительно Х^, получим формулу модели, которая может быть экстраполирована для t = T-^hw таким образом преобразо- вана в формулу для прогнозирования на h шагов вперед величин ^д+л) с началом отсчета в момент времени Г. Пример 12.5. Имеется AR1MA (0,1,0)-модели. ЕслиЛ'^-слу- чайное блуждание со смещением (свободным членом), где SXf = a^, т.е. (\-L)Xf = а^ или Х^ = Х^_1 + а^, то формула экстрапо- ляции может быть записана в виде Это означает, что на основе последней известной реализации в момент времени t = Т формула прогноза сводится к простому постоянному соотношению л пля любого горизонта прогноза Л > 1, но с увеличением диспер- сии ошибки прогноза: var(e^^^)) = Aa^ Если Xj — случайное блуждание со сдвигом тогда формула для прогнозирования л соответствует простому линейному тренду. 27-3291 417
Дисперсия ошибки прогноза такая же, как и в предьщущем случае с фо = 0; это означает, что в обоих случаях ширина довери- тельного интервала прогноза возрастает пропорционально Va? Пример 12.6. Модель ARIMA (0,1,1) Для t = T + h модель принимает вид: А ^Т+Н =Фо ~^T+h-\ ^^\^T+h-l +^/ ИЛИ в форме прогноза на И шагов с началом в момент времени Т на основе информации, доступной к моменту времени 7+1, А Т.е. график прогноза линеен относительно А. Из этого можно вывести формулу для дисперсии ошибки прогноза var(e^,^)) = cT^(l+(A-l)(l-ei)2). Пример 12.7. Модель ARIMA( 1,1,0) (1-ф11)(1-1)^,=фо+а, дает в явном виде представление для t=T + h: А ^Г+Л =Фо +0 + Ф1)^Г+Л-1 -Ф1^Г+Л-2 +^7-+/!» И итеративный прогноз для Л > 3 имеет вид: А ^ ^T(+h) = Фо + (1 + Ф1 )^7'(+Л-1) "■ ФЙ^ГС+Л-г) с начальными прогнозами А ^Т(+\) = Фо + (1 + Ф1 )^Т " Ф!^?--! у А А ^П+2) =Фо+0 + Ф1)^Г(+1)-Ф1^7'- Не вдаваясь в дальнейшие подробности, отметим только, что дисперсия ошибки прогноза является довольно сложной функ- цией от ф1, стремящейся к бесконечности с увеличением проме- жутка прогноза. Пример 12.8. Из модели ARIMA( 1,1,1) 418
(1-Ф,/:)(1-1)^,=Фо+(1-е11)а, с представлением для t = T + h А ^Г+А =Фо +(1 + Ф1)^7'+Л-1 -Ф1^7'+Л-2 +^Г+Л "Ql^+A-l» следует формула прогноза для Л > 3 А А А ^ГС+Л) =Фо +0"*-Ф1)^7'(+А-1) -Ф1^7'(+А-2) » А где А'7'(+1)=Фо + (1+Ф1)^7'~Ф1^7'-1-^1^7' А л и Хт^+2) = Фо + (1 + Ф1 )^Г(+1) - Ф1^Г- Пример 12.9. Для индекса ШТ мы в примере 11.3 и уравне- нии 11.12 специфицировали и оценили среди прочих модель ARIMA(0,1,2): 1Щ =1МТ,_^ -hOf +0,194fl,_2. (12.9) Это означает, что для t = T-^h IMTr,,=IMTr,H-i +ат,н +0,194^7^,^-2 или для одношагового прогноза с началом в момент времени Т 1МТт^^^^=1МТт + 0Л94аг_^, (12.10) а для двухшагового прогноза /Л/Гд+2) = ^Л?Гд+1) + 0,194д7^ = /Л/Г7'Н- 0,194(^7^ + Дт^.,). Последняя формула для прогнозирования не изменится для любых Л > 2: ШГд+л) = ^^Тг + 0,194(д+ ar-il (12.11) Несмотря на то что прогноз для Л > 2 является константой, дисперсия ошибки прогноза стремится к бесконечности по мере увеличения горизонта прогноза Л: var(e7^(,^)) = cT'(2+(A-2)(l +0,194)^). (12.12) 2/ 419
Это соотношение следует из общей формулы для дисперсии ошибки прогноза: var(e^(,,)) = a2Zvi/2 (12.13) /=о где ц// — коэффициенты представления прогнозируемого процесса в виде бесконечного МА-процесса с лаговым полиномом 4^(1»). В случае нашего примера 4^(1) должно быть равно оператору модели -1LJ. или T(L)(1-I) = 0(L), т.е. (щЬ^-\-\\iiL^ +\\f2L^ +.,.){{-L) = IL^-^2^^. Перемножив множители в скобках и приравняв коэффици- енты при одинаковых степенях L в обеих частях уравнения, получим: vHifI; 4/2=1-62; где 92 = -0,194. Подставив v|/, в (12.13), получим (12.12). IMT 6000- 5500 5000 4500-1 4000 Н 3500 J 3000 1390 1395 1400 1405 1410 t прогнозные значения 1МТц^ ;,j = IMTFOREC Рис. 12.1. Прогноз индекса акций «Moscow Times» 420
Рис. 12.1 отображает прогноз уровней ряда 1МТц+^^^ = ШТЮКЕС индекса акций «Moscow Times» на основе данных до момента Т = 1395 - 6 мая 2003 г. с горизонтом прогноза А = 1,2,..., 15. Прерывистые линии выше и ниже графика прогно- за отображают пофешность прогноза в одно среднеквадратичное отклонение в соответствии с (12.12). Сами прогнозируемые зна- чения остаются постоянными после первого шага, в то время как ширина доверительного интервала прогноза увеличивается. Как и ожидалось, эта модель не является эффективным инструмен- том для построения долгосрочных прогнозов российского фи- нансового рынка. Однако повторные одношаговые вычисления по формуле (12.10) на основе последних каждодневных данных существенно улучшат качество прогноза. Контрольные вопросы 1. Какие трудности возникают при прогнозировании ARMA- процессов? 2. Как определяется доверительный интервал прогноза? 3. Назовите этапы прогнозирования ARIMA-процессов.
13 Глава ПРОЦЕССЫ ARCH И GARCH 13.1. УСЛОВНАЯ ГЕТЕРОСКЕДАСТИЧНОСТЬ Обычно в эконометрике предполагается, что автокорреляция ошибок в модели равна нулю. Однако в последнее десятилетие значительно возрос интерес исследователей к систематически изменяющимся ошибкам и дисперсиям ошибок, так как во вре- менных рядах обменных курсов валют и доходностей фондового рынка было обнаружено чередование периодов малых значений ошибок с периодами больших значений ошибок или соответ- ственно низкой и высокой волатильности*. Волатильность обычно измеряется дисперсией а^ временного ряда, или стохастического процесса. Гомоскедастичность модели, такой, как AR, означает, что ос- таток в этой модели имеет постоянную дисперсию. Антонимом является гетероскедастичность. Условная гетероскедастичность (УГ) означает, что условная дисперсия ошибки, т.е. дисперсия при условии известной инфор- мации, зависит от времени. Она может проявляться, несмотря на общую гомоскедастичность (безусловную). Дисперсия ошибок модели а^ имеет вид: y2ix{a,) = E{al)=c5l (13.1) Но условная дисперсия в соответствии с имеющейся на послед- ний момент информацией определяется как У2и{а,\а,_^) = Е{а}\а,_{). (13.2) * Волатильность означает колеблемость. Этот термин используется в эконометрическом анализе финансовых рынков. 422
13.2. МОДЕЛИ ARCH/GARCH Модель ARCH(l) — простейший пример ARCH-процесса, т.е. авторефессионного процесса с условной гетероскедастичностью. Пусть ^г =Фо+Ф1^м-^"/-- (13.3) это процесс AR(1) с ошибкой w^, имеющей свойства, w/ = (Хо + XiwVi) + ai^ при Xi< InOf- «белый шум». Тогда условная дисперсия ошибки может быть выражена как hf = var (и, I w,_i) = E(uf \ w,.,) = Xq-^X^u}_y ^^^^^ Очевидно, что она зависит от последнего значения и и явля- ется не постоянной, а переменной, условной дисперсией, т.е. проявляется условная гетероскедастичность. Однако безусловная дисперсия постоянна: _ ^0 1-Х - = const. 1 Это означает, что процесс (13.3) гомоскедастичен, несмотря на условную гетероскедастичность. Модель AR может быть протестирована на условную гетеро- скедастичность, т.е. ARCH(l), следующим образом: • построить AR-модель ряда Х^ с ошибкой u{, • вычислить остатки и^ как оценки t/л • построить линейную рефессию и} на и^^_^ с коэффициен- том Х{, 423
• протестировать коэффициент Х^ на незначимость с по- мощью тестов t-, F',X^ с нулевой гипотезой Щ:Хх= 0. Если Я,1 значимо отличается от нуля, то модель следует специ- фицировать как ARCH(l). Пусть опять-таки л; = Фо + Ф1л;_1 + Uf. Но теперь предположим: V=var(wjw,_i ,_^) = Х^ +>b,w/_i +... + >.^мД^. (13.6) Тогда Х^ можно считать реализацией процесса ARCH(^). Обобщенная авторефессионная модель с условной гетеро- скедастичностью GARCH {p,q) описывает процесс, в котором ус- ловная дисперсия ошибки в зависимости от всей доступной в мо- мент времени / информации Q^_i ,определяемая как а/= var(wj Ц_1), согласно предположению имеет вид модели ARMA(p,^): h} =ао +aiA,l, +... + а^А^1^ +PiW,li -^h^U +;.. + P^w,%. (13.7) Пример 13.1. Попробуем смоделировать доходность индек- са «Moscow Times» на всем периоде с 1997 по 2003 г. В примере 10.8 эта доходность была определена как Aln IMT, В табл. 13.1 представлены результаты оценивания модели ARCH (1), которая совпадает с GARCH(0,1). Таблица 13.1 GARCH(0,1), предполагая нормальное распределение и сходимость за 59 итераций Зависимая переменная Aln IMTf. Для оценивания использованы 1393 наблюдения — с 3 по 1395. Регрессор А In /Л/т;.! /?-квадрат Стандартная ошибка регрессии Коэффициент 0,12158 0,020937 0,040219 Стандартная ошибка 0,034727 /)^^-статистика /^-статистика Г-отношение (вероятность) 1 3,5012 (0,000) 2,2945 1,1391 424
Продолжение Регрессор А In /Л/т;.! Среднее зависи- мой переменной Сумма квадратов остатков Л1С^ Коэффициент 0,12158 0,0012655 2,2500 2632,8 Стандартная ошибка 0,034727 Стандартное oTKFioHCHne за- висимой пере- менной Логарифм урав- нения макси- мального прав- доподобия /-отношение (вероятность) 3,5012 (0,000) 0,039790 2634,8 2627,6 Параметры модели с условной гетероскедастичностью. Зависимая переменная — квадрат ошибки е]. Константа eV, Коэффициент 0,0010248 0,34542 Асимптотическая стандартная ошибка 0,4987Е-4 0,052786 В отличие от предыдущих примеров здесь использовались ве- роятностные версии критериев Акаики и Шварца в форме на максимизацию. Интересной модификацией моделей ARCH и GARCH является модель ARCH/GARCH в среднем (ARCH-M или GARCH-M). Здесь условная дисперсия h^ уравнения (13.6) включается в явном виде в общее уравнение модели Х^, например: ^/ = Фо + Ф1^г-1 + УЛ/ + «/• (13.8) В случае доходности актива модель GARCH-M дает мно- жество возможностей для изучения волатильности процесса, представленного слагаемым ЛД а также рисков исследуемых активов. 425
Контрольные вопросы 1. Как оценивается гетероскедастичность авторегрессионных процессов? 2. Чем различаются модели ARCH и GARCH? 3. Назовите порядок тестирования модели AR на условную гете- роскедастичность. 4. Опишите модель GARCH-M. 5. Что такое волатильность в GARCH-процессах? 6. Что такое «условная гетероскедастичность»? 7. Что описывает ARCH-модель? 8. Охарактеризуйте модель ARCH/GARCH в среднем.
14 Глава ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ ПО ВРЕМЕННЫМ РЯДАМ 14.1. СПЕЦИФИКА СТАТИСТИЧЕСКОЙ ОЦЕНКИ ВЗАИМОСВЯЗИ ДВУХ ВРЕМЕННЫХ РЯДОВ Изучение причинно-следственных зависимостей перемен- ных, представленных в форме временных рядов, является одной из самых сложных задач эконометрического моделирования. Применение в этих целях традиционных методов корреляцион- но-регрессионного анализа, рассмотренных в главах 2 и 3, может привести к ряду серьезных проблем, возникающих как на этапе построения, так и на этапе анализа эконометрических моделей. В первую очередь эти проблемы связаны со спецификой времен- ных рядов как источника данных в эконометрическом моделиро- вании. В главе 6 было показано, что каждый уровень временного ряда содержит три основные компоненты: тенденцию, цикличе- ские, или сезонные, колебания и случайную компоненту. Рас- смотрим подробнее, каким образом наличие этих компонент ска- зывается на результатах корреляционно-рефессионного анализа временных рядов данных. Предварительный этап такого анализа заключается в выявле- нии структуры изучаемых временных рядов. Если на этом этапе было выявлено, что временные ряды содержат сезонные, или циклические, колебания, то перед проведением дальнейшего ис- следования взаимосвязи необходимо устранить сезонную, или циклическую, компоненту из уровней каждого ряда, поскольку 427
ее наличие приведет к завышению истинных показателей силы и тесноты связи изучаемых временных рядов в случае, если оба ря- да содержат циклические колебания одинаковой периодичности, либо к занижению этих показателей в случае, если сезонные, или циклические, колебания содержат только один из рядов или если периодичность колебаний в рассматриваемых временных рядах различна. Устранение сезонной компоненты из уровней временных рядов можно проводить в соответствии с методикой построения аддитивной и мультипликативной моделей, рассмотренной в разд. 6.4. При дальнейшем изложении методов анализа взаимо- связей в этой главе мы примем предположение, что изучаемые временные ряды не содержат периодических колебаний. Допустим, что изучается зависимость между рядами хиу. Для ко- личественной характеристики этой зависимости используется линейный коэффициент корреляции. Если рассматриваемые временные ряды имеют тенденцию, коэффициент корреляции по абсолютной величине будет высоким (положительным в слу- чае совпадения и отрицательным - в случае противоположной направленности тенденций рядов х и у). Однако из этого еще нельзя делать вывод о том, что х причина у или наоборот. Высо- кий коэффициент корреляции в данном случае - это результат того, что хиу зависят от времени, или содержат тенденцию. При этом одинаковую или противоположную тенденцию могут иметь ряды, совершенно не связанные друг с другом причинно-следст- венной зависимостью. Например, коэффициент корреляции между численностью выпускников вузов и числом домов отдыха в РФ в период с 1970 по 1990 г. составил 0,8. Это, естественно, не означает, что увеличение количества домов отдыха способствует росту числа выпускников вузов или увеличение числа последних стимулирует спрос на дома отдыха. Для того чтобы получить коэффициенты корреляции, харак- теризующие причинно-следственную связь между изучаемыми рядами, следует избавиться от так называемой ложной корреля- ции, вызванной наличием тенденции в каждом ряде. Обычно это осуществляют с помощью одного из методов исключения тен- денции, которые будут рассмотрены в разд. 14.2. Предположим, что по двум временным рядам х^ и у^ строится уравнение парной линейной рефессии вида yf = a + bXf + ef, (14.1) 428
Наличие тенденции в каждом из этих временных рядов озна- чает, что на зависимую у^ и независимую х^ переменные модели оказывает воздействие фактор времени, который непосредствен- но в модели не учтен. Влияние фактора времени будет выражено в корреляционной зависимости между значениями остатков е^ за текущий и предьщущие моменты времени, которая получила на- звание автокорреляция в остатках. Автокорреляция в остатках — это нарушение одной из основ- ных предпосылок МНК - предпосылки о случайности остатков, полученных по уравнению регрессии. Один из возможных путей решения этой проблемы состоит в применении обобщенного МНК к оценке параметров модели. При построении уравнения множественной рефессии по временным рядам данных, помимо двух вышеназванных проблем, возникает также проблема муль- тиколлинеарности факторов, входящих в уравнение рефессии, в случае, если эти факторы содержат тенденцию. 14.2. МЕТОДЫ ИСКЛЮЧЕНИЯ ТЕНДЕНЦИИ Сущность всех методов исключения тенденции заключается в том, чтобы устранить или зафиксировать воздействие фактора времени на формирование уровней ряда. Основные методы ис- ключения тенденции можно разделить на две фуппы: • методы, основанные на преобразовании уровней исходного ряда в новые переменные, не содержащие тенденции. Полу- ченные переменные используются далее для анализа взаимо- связи изучаемых временных рядов. Эти методы предполагают непосредственное устранение трендовой компоненты Т из каж- дого уровня временного ряда. Два основных метода в данной фуппе — это метод последовательных разностей и метод отклоне- ний от трендов; • методы, основанные на изучении взаимосвязи исходных уровней временных рядов при элиминировании воздействия фактора времени на зависимую и независимую переменные мо- дели. В первую очередь — это метод включения в модель регессии по временным рядам фактора времени. Рассмотрим подробнее методику применения, преимущества и недостатки каждого из указанных выше методов. 429
14.2.1. Метод отклонений от тренда Пусть имеются два временных рядах^ и у^, каждый из которых содержит трендовую компоненту Т и случайную компоненту е. Аналитическое выравнивание каждого из этих рядов позволяет найти параметры соответствующих уравнений трендов и опреде- лить расчетные по тренду уровни х^ и у^ соответственно. Эти рас- четные значения можно принять за оценку трендовой компонен- ты Гкаждого ряда. Поэтому влияние тенденции можно устранить путем вычитания расчетных значений уровней ряда из фактичес- ких. Эту процедуру проделывают для каждого временного ряда в модели. Дальнейший анализ взаимосвязи рядов проводят с ис- пользованием не исходных уровней, а отклонений от тренда х, - ^t^yt" yt ПР^ условии, что последние не содержат тенденции. Пример 14.1. Вернемся к примеру 6.1. Пусть, помимо данных о расходах на конечное потребление, имеются данные о совокупном доходе. Исходные данные за 8 лет представлены в табл. 14.1. Требуется охарактеризовать тесноту и силу связи меж- ду временными рядами совокупного дохода х^ и расходов на ко- нечное потребление у^. Таблица 14.1 Расходы на конечное потребление и совокупный доход (усл. д. е.) Показатель Расходы на конечное потребление,}^/ Совокупный доход, X/ Год 1-й 7 10 2-й 8 12 3-й 8 11 4-й 10 12 5-й 11 14 6-й 12 15 7-й 14 17 8-й 16 20 Корреляционно-рефессионный анализ, проведенный по ис- ходным данным рядов, приводит к следующим результатам: у, = -2,05 + 0,92 • X,; г^^ = 0,965; г^ = 0,982. Как бьшо показано в примере 6.1, коэффициент автокорреля- ции первого порядка по ряду расходов на конечное потребление 430
r\ = 0,976. Аналогично можно рассчитать, что коэффициент ав- токорреляции первого порядка временного ряда совокупного до- хода г\ = 0,880. Предположим, что полученные результаты со- держат ложную корреляцию ввиду наличия в каждом из рядов линейной или близкой к линейной тенденции. Применим метод устранения тенденции по отклонениям от тренда. Результаты расчета линейных трендов по каждому из рядов представлены в табл. 14.2. Таблица 14.2 Результаты расчета параметров линейных трендов расходов на конечное потребление и совокупного дохода Показатель Константа Коэффициент рсфссси и Стандартная ошибка ко- эффициента регрессии /?-квадрат Число наблюдений Число степеней свободы Расходы на конечное потребление 5,071428 1,261904 0,101946 0,962315 8 6 Совокупный доход 8,035714 1,297619 0,179889 0,896611 8 6 По трендам yf = 5,07 + 1,26 • / и х^ = 8,04 + 1,3 * / определим расчетные значения у^ и Xf и отклонения от трендов yf - у^ и х^-хДтабл. 14.3). Таблица 14.3 Твидовая компонента и ошибка для временных радов расходов на конечное потребление и совокупного дохода Время, / 1 2 3 4 5 1 6 7 8 у^ 1 8 8 10 11 12 14 16 ^/ 10 12 11 12 14 15 17 20 А yt 6,33 7,59 8,85 10,11 11,37 12,63 13,89 15,15 it 9,34 10,64 11,94 13,24 14,54 15,84 17,14 18,44 А yt-yt 0,67 0,41 -0,85 -0,11 -0,37 -0,63 0,11 0,85 ^/-^/ 0,66 1,36 -0,94 -1,24 -0,54 -0,84 -0,14 1,56 431
проверим полученные отклонения от трендов на автокорре- ляцию. Коэффициенты автокорреляции первого порядка по от- клонениям от трендов составляют: Г1^' = 0,254, Г1^^' = 0,129. Следовательно, временные ряды отклонений от трендов мож- но использовать для получения количественной характеристики тесноты связи исходных временных рядов расходов на конечное потребление и общего дохода. Коэффициент корреляции по от- клонениям от трендов г^^у = 0,860 (сравните это значение с ко- эффициентом корреляции по исходным уровням рядов ^ху " 0,982). Связь между расходами на конечное потребление и совокупным доходом прямая и тесная. Результаты построения модели регрессии по отклонениям от трендов следующие: Константа 0,017313 Коэффициент регрессии 0,487553 Стандартная ошибка коэффициента регрессии 0,117946 Л-квадрат 0,740116 Число наблюдений 8 Число степеней свободы 6 Содержательная интерпретация параметров этой модели за- труднительна, однако ее можно использовать для прогнозирова- ния. Для этого необходимо определить трендовое значение фак- торного признака jc^ и с помощью одного из методов оценить ве- личину предполагаемого отклонения фактического значения от трендового. Далее по уравнению тренда для результативного при- знака определяют трендовое значение у^, а по уравнению регрес- сии по отклонениям от трендов находят величину отклонения yt" У г Затем рассчитывают точечный прогноз фактического зна- чения yf по формуле yt^yt-^iyt-yt)- 14.2.2. Метод последовательных разностей в ряде случаев вместо аналитического выравнивания времен- ного ряда с целью устранения тенденции можно применить более простой метод - метод последовательных разностей. 432
Если временной ряд содержит ярко выраженную линейную тенденцию, ее можно устранить путем замены исходных уровней ряда цепными абсолютными приростами (первыми разностями). Пусть y^ = yt+^n (14.2) где г, — случайная ошибка; y, = a + b't. (14.3) Тогда ^ = у,-у,.1 = а + b • t + Е,- (а + b -(t- I) +г,_0 = = b+ (е,~е,_,). (14.4) Коэффициент b — константа, которая не зависит от времени. При наличии сильной линейной тенденции остатки е^ достаточно малы и в соответствии с предпосылками МНК носят случайный характер. Поэтому первые разности уровней ряда А^ не зависят от переменной времени, их можно использовать для дальнейшего анализа. Если временной ряд содержит тенденцию в форме параболы второго порядка, то для ее устранения можно заменить исходные уровни ряда на вторые разности. Пусть имеет место соотношение (14.2), однако y, = a + b^'t + b2't^. (14.5) Тогда: А/ = У/ - yt-\ = а + b^-t + b2'/-^Sf-{a-b bi'(t-l) + + b2-(t -Xf + e^_i) = *i - Z?2 + 2 • Z?2 • ^ + (e^ - ^t-x)- (14.6) Как показывает это соотношение, первые разности А^ непо- средственно зависят от фактора времени / и, следовательно, со- держат тенденцию. Определим вторые разности: а"^ = А^ - А/_1 = 6j - Й2 "^ 2 • ^2 • ^ + (Б/ - е, _i) - - (Й1 - 62 + 2 • 62 • (^ ~ 1) + (^/-1 - е,_2)) = = 2-б2 + (е/-2-б,_1 + е,.2). (14.7) Очевидно, что вторые разности А^^ не содержат тенденции, поэтому при наличии в исходных уровнях тренда в форме пара- болы второго порядка их можно использовать для дальнейшего 2^ -3291 433
анализа. Если тенденции временного ряда соответствует экспо- ненциальный, или степенной, тренд, метод последовательных разностей следует применять не к исходным уровням ряда, а к их логарифмам. Пример 14.2. Обратимся вновь к данным о расходах на ко- нечное потребление у^ и совокупном доходе х^ (табл. 14.1). Про- анализируем зависимость между этими рядами, используя пер- вые разности (табл. 14.4). Таблица 14.4 Первые разности временных радов расходов на конечное потребление и совокупного дохода ^ / 1 2 3 4 5 6 7 8 У! 7 8 8 10 11 12 14 16 ^/ 10 12 11 12 14 15 17 20 Коэффициент автокорреляции первого поря ^y — 1 0 2 1 1 2 2 [дка-0,109. А,х — 2 -1 1 2 1 2 3 -0,156 Результаты проверки временных рядов первых разностей на автокорреляцию приведены в последней строке табл. 14.4. По- скольку полученные ряды не содержат автокорреляции, будем использовать их вместо исходных данных для измерения зависи- мости между расходами на конечное потребление и совокупным доходом. Коэффициент корреляции данных рядов по первым разностям составляет: r^^x^fy^ 0,717. Это подтверждает вывод о наличии тесной прямой связи между расходами на конечное по- требление и совокупным доходом, приведенный в примере 14.1. Построение уравнения рефессии зависимости расходов на конечное потребление от совокупного дохода по первым разно- стям привело к следующим результатам: Константа .... 0,676471 Коэффициент регрессии 0,426471 Стандартная ошибка коэффициента регрессии 0,184967 Л-квадрат 0,515219 Число наблюдений 7 Число степеней свободы 5 434
Таким образом, уравнение регрессии имеет вид: /V = 0.68 + 0,43 А/Х; Л^-0,515. В отличие от уравнения регрессии по отклонениям от тренда, параметрам данного уравнения легко дать интерпретацию. При изменении прироста дохода на 1 д. е. прирост потребления изменяется в среднем на 0,43 д. е. в том же направлении. При всей своей простоте метод последовательных разностей имеет два существенных недостатка. Во-первых, его применение связано с сокращением числа пар наблюдений, по которым строится урав- нение регрессии, а следовательно, с потерей числа степеней сво- боды. Во-вторых, использование вместо исходных уровней вре- менных рядов их приростов, или ускорений, приводит к потере информации, содержащейся в исходных данных. 14.2.3. Включение в модель регрессии фактора времени в корреляционно-регрессионном анализе можно устранить воздействие какого-либо фактора, если зафиксировать воздейст- вие этого фактора на результат и другие включенные в модель факторы. Данный прием широко применяется в анализе времен- ных рядов, когда тенденция фиксируется через включение фак- тора времени в модель в качестве независимой переменной. Модель вида yf = a + b^'Xf + b2't-^Zf (14.8) относится к группе моделей, включающих фактор времени. Оче- видно, что число независимых переменных в такой модели может быть больше единицы. Кроме того, это могут быть не только текущие, но и лаговые значения независимой и результативной переменных. Преимущество данной модели перед методами отклонений от трендов и последовательных разностей состоит в том, что она позволяет учесть всю информацию, содержащуюся в исходных данных, поскольку значения y^vix^ — это уровни исходных вре- менных рядов. Кроме того, модель строится по всей совокупнос- ти данных за рассматриваемый период в отличие от метода по- следовательных разностей, который приводит к потере числа на- блюдений. Параметры avib модели с включением фактора време- 28* 435
ни определяются обычным МНК. Расчет и интерпретацию пара- метров покажем на примере 14.3. Пример 14.3. Вернемся к данным табл. 14.1. Построим урав- нение регрессии, описывающее зависимость расходов на конеч- ное потребление y^ от совокупного дохода x^ и фактора времени. Для расчета параметров уравнения рефессии (14.8) воспользуем- ся обычным МНК. Система нормальных уравнений имеет вид: «•Z^/+*i-Z^/ + *2-Z^^/ =1^/ •Д'/» (14.9) Рассчитав по исходным данным необходимые величины, по- лучим: Г8-а + 111-б1+36-*2=86, ]llla + 1619-ft,+554.Й2 =1266, [зба + 554.*1+204-^2=440. Решив эту систему относительно а, Ь^ и ^2, найдем: а- 1,15; Z>i = 0,49; bi = 0,63. Таким образом, уравнение регрессии имеет вид: У1 = 1,15 + 0,49 • Xt + 0,63 • / + е^. Интерпретация параметров этого уравнения следующая. Пара- метр bi = 0,49 характеризует, что при увеличении совокупного дохо- да на 1 д. е. расходы на конечное потребление возрастут в среднем на 0,49 д. е. в условиях существования неизменной тенденции. Па- раметр ^2 ~ 0,63 означает, что воздействие всех факторов, кроме со- вокупного дохода, на расходы на конечное потребление приведет к его среднегодовому абсолютному приросту на 0,63 д. е. 14.3. АВТОКОРРЕЛЯЦИЯ В ОСТАТКАХ. КРИТЕРИЙ ДАРВИНА - УОТСОНА Рассмотрим уравнение регрессии вида к У/=а+Е*;Ху,+8^, (14.10) где к — число независимых переменных модели. 436
Для каждого момента (периода) времени / = 1 : л значение компоненты е^ определяется как Б/=>'/->'/ (14.11) или (14.12) Рассматривая последовательность остатков как временной ряд, можно построить фафик их зависимости от времени. В соот- ветствии с предпосылками МНК остатки е^ должны бьггь случай- ными (рис. 14.1 а). Однако при моделировании временных рядов нередко встречается ситуация, когда остатки содержат тенденцию (рис. 14.1 бив) или циклические колебания (рис. 14.1 г). Это свидетельствует о том, что каждое следующее значение ос- татков зависит от предшествующих. В этом случае говорят о на- личии автокорреляции остатков. Рис. 14.1. Модели зависимости остатков от времени: а- случайные остатки; б - возрастающая тенденция в остатках; в — убывающая тенденция в остатках; г — циклические колебания в остатках 437
Автокорреляция остатков может быть вызвана несколькими причинами, имеющими различную природу Во-первых, иногда она связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака. Во-вторых, в ряде случаев причину автокорреляции остатков следует искать в формулировке модели. Модель может не включать фактор, ока- зывающий существенное влияние на результат, влияние которо- го отражается в остатках, вследствие чего последние могут ока- заться автокоррелированными. Очень часто этим фактором явля- ется фактор времени /. Кроме того, в качестве таких существен- ных факторов могут выступать лаговые значения переменных, включенных в модель. Либо модель не учитывает несколько вто- ростепенных факторов, совместное влияние которых на резуль- тат значительно ввиду совпадения тенденций их изменения или фаз циклических колебаний. От истинной автокорреляции остатков следует отличать си- туации, когда причина автокорреляции заключается в непра- вильной спецификации функциональной формы модели. В этом случае следует изменить форму связи факторных и результатив- ного признаков, а не использовать специальные методы расчета параметров уравнения рефессии при наличии автокорреляции остатков. Известны два наиболее распространенных метода определе- ния автокорреляции остатков. Первый метод — это построение графика зависимости остатков от времени и визуальное опреде- ление наличия или отсутствия автокорреляции. Второй метод - использование критерия Дарбина — Уотсона и расчет величины d=^ . (14.13) Таким образом, d — это отношение суммы квадратов разно- стей последовательных значений остатков к остаточной сумме квадратов по модели рефессии. Практически во всех статисти- ческих пакетах прикладных профамм значение критерия Дарби- на - Уотсона указывается наряду с коэффициентом детермина- ции, значениями /- и F-критериев. Коэффициент автокорреляции остатков первого порядка оп- ределяется как 438
E(e,-ei)(e,_i-e2) -Б _ /=2 ^' " ■ (14.14) JZ(B,-ei)2.Z(8M-S2)' V/=2 /=2 где P _/=2 . p _i^2 (14.15) ^1 Г» ^2- 7"- n-\ n-\ Поскольку e^ - остатки, полученные по уравнению регрессии, параметры которого определены обычным методом наименьших квадратов, в соответствии с предпосылками МНК их сумма и среднее значение равны нулю. л Следовательно, без уменьшения общности можно предполо- жить, что 8-1 = 82 = 0. (14.17) Предположим также л ^ л ^ ZB?«Ze?-i. '=2 '=2 (14.18) с учетом соотношений (14.17) и (14.18) формула для расчета коэффициента автокорреляции остатков (14.14) преобразуется следующим образом: л л ZE/-8;_i ZS/-8^_i '■•- /■'•' ■ , -'^V^- (14.19) 1 ^ I V/=2 /=2 /=2 Преобразуем теперь формулу (14.13) расчета критерия Дарби- на - Уотсона: 439
d = П I t=2 Ъ(г^-г^.^У Xe/ -2-S e^8^_i+Z e?-i \2 ^ -2 _r=2 л z /=2 л Z <=2 Is/ /I - (14.20) С учетом (14.18) имеем: 2-Ie, -2-Ie,e,_, d = -J^ £^2 ^2- /=2 1_I=2 /=2 (14.21) Сравнив выражения (14.19) и (14.21), нетрудно вывести сле- дующее соотношение между критерием Дарбина — Уотсона и ко- эффициентом автокорреляции остатков первого порядка: d^2'{\-r\). (14.22) Таким образом, если в остатках существует полная положи- тельная автокорреляция и /^i = 1, то cf = 0. Если в остатках есть полная отрицательная автокорреляция, то r^i = -1 и, следова- тельно, cf = 4. Если автокорреляция остатков отсутствует, то г^ = О и flf = 2. Значит, 0<rf<4. Алгоритм выявления автокорреляции остатков на основе критерия Дарбина — Уотсона следующий. Выдвигается гипотеза Щ об отсутствии автокорреляции остатков. Альтернативные ги- потезы Н^ и Я*1 состоят соответственно в наличии положитель- ной или отрицательной автокорреляции в остатках. Далее по спе- циальным таблицам (табл. 2.4 приложения 2) определяются кри- тические значения критерия Дарбина - Уотсона di и du для за- данного числа наблюдений л, числа независимых переменных модели к и уровня значимости а. По этим значениям числовой промежуток [0;4] разбивают на пять отрезков. Принятие или от- клонение каждой из гипотез с вероятностью (1 - а) представлено на рис. 14.2. Если фактическое значение критерия Дарбина — Уотсона по- падает в зону неопределенности, то на практике предполагают су- ществование автокорреляции остатков и отклоняют гипотезу Щ, 440
Есть положительная автокорреляция остатков. Но отклоняется. С вероятностью Р=(1-а) принимается Н^ Зона неопреде- ленности Нет оснований отклонять Hq (автокорреляция остатков отсутствует) Зона неопреде- ленности Есть отрицательная автокорреляция остатков. Hq отклоняется. С вероятностью Р=(1-а) принимается Н,* 1 — ► 4-С/,, 4-сУ, Рис. 14.2. Алгоритм проверки гипотезы о наличии автокорреляции остатков Пример 14.4. Проверим гипотезу о наличии автокорреля- ции в остатках для модели зависимости расходов на конечное по- требление от совокупного дохода, построенной по первым разно- стям исходных показателей на данных примера 14.2. Было получено следующее уравнение рефессии: А^у = 0,68 + 0,43 • V + 8^. Исходные данные, значения е^ и результаты промежуточных расчетов представлены в табл. 14.5. Таблица 14.5 Расчет 1фитер11я Дарбина — Уотсона для модели зависимости потребления от дохода / д^ 1 2 1 3 0 4 2 5 1 6 1 7 2 8 2 Сумма 9 'Сумма не ра д^ 2 -1 1 2 1 2 3 10 вна нул Q __ 1,54 0,25 1,11 1,54 1,11 1,54 1,97 9,06 ю ввиду нали' -0,54 -0,25 0,89 -0,54 -0,11 0,46 0,03 -0,06^ 1ИЯ ошибок 01 е, — е,_1 — 0,29 1,14 -1,43 0,43 0,57 -0,43 0,57 фугления. i^i-^t-i)^ _ — 0,0841 1,2996 2,0449 0,1849 0,3249 0,1849 4,1233 -/ _ 0,2916 0,0625 0,7921 0,2916 0,0121 0,2116 0,0009 1,6624 Фактическое значение критерия Дарбина — Уотсона для этой модели составляет: </ = 4,1233/1,6624 = 2,48. 441
Сформулируем гипотезы: Hq-b остатках нет автокорреляции; Яц— в остатках есть положительная автокорреляция; Hi —в остатках есть отрицательная автокорреляция. Зададим уровень значимости а = 0,05. По таблицам значений критерия Дарбина — Уотсона определим для числа наблюдений п = 7 и числа независимых переменных модели к' = 1 критичес- кие значения di = 0,700 nd^ = 1,356. Получим следующие про- межутки внутри интервала [0;4] (рис. 14.3). I 1 1 \ \ f— о d^^ = 0.700 dy= 1.356 4-с^^,= 2,644 4-сУ^ = 3,300 4 Рис. 14.3. Промежутки внуфи интервала [0; 4] Фактическое значение d = 2,48 попадает в промежуток от d^j до 4 — di;. Следовательно, нет оснований отклонять гипотезу Щ об отсутствии автокорреляции в остатках. Есть несколько существенных офаничений на применение критерия Дарбина — Уотсона. Во-первых, он неприменим к моделям, включающим в качест- ве независимых переменных лаговые значения результативного признака, т. е. к моделям авторегрессии. Для тестирования на авто- корреляцию остатков моделей авторефессии используется крите- рий h Дарбина. Подробнее эта проблема будет рассмотрена в разд. 15.5. Во-вторых, методика расчета и использования критерия Дарбина - Уотсона направлена только на выявление автокорреля- ции остатков первого порядка. При проверке остатков на автокор- реляцию более высоких порядков следует применять другие методы, рассмотрение которых выходит за рамки данного учебника. В-третьих, критерий Дарбина — Уотсона дает достоверные резуль- таты только для больших выборок. В этом смысле результаты при- мера 14.4 нельзя считать достоверными ввиду чрезвычайно малого числа наблюдений л = 7, по которым построена модель регрессии. 14.4. ОЦЕНИВАНИЕ ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕССИИ ПРИ НАЛИЧИИ АВТОКОРРЕЛЯЦИИ В ОСТАТКАХ Обратимся вновь к уравнению рефессии (14.1). Примем не- которые допущения относительно этого уравнения: 442
• пусть у^ и х^ не содержат тенденции, например, представля- ют собой отклонения выравненных по трендам значений от ис- ходных уровней временных рядов; • пусть оценки a\ib параметров уравнения рефессии найде- ны обычным МНК; • пусть критерий Дарбина - Уотсона показал наличие авто- корреляции в остатках первого порядка. Для того чтобы понять, каковы последствия автокорреляции в остатках для оценок параметров модели регрессии, найденных обычным МНК, построим формальную модель, описывающую автокорреляцию в остатках. Автокорреляция в остатках первого порядка предполагает, что каждый следующий уровень остатков ц зависит от предьщущего уровня e^.j. Следовательно, существует модель регрессии вида 8, = C + rf-8^_i Л-Щ, (14.23) где с и J - параметры уравнения регрессии. В соответствии с рабочими формулами МНК имеем: c = s,-rf-^.i;rf=^'g^-;;^-'. (14.24) е^_1 - е /-1 С учетом соотношений (14.16) и (14.17) получим: п (=2 где г\ — коэффициент автокорреляции остатков первого порядка. Таким образом, имеем: ег = п'•£,_! + «„ (14.26) где и, — случайная ошибка. Заметим, 4To|ri| < 1. Учитывая соотношение (14.26), уравнение (14.1) можно пере- писать в виде yt = a-hb-Xf + r\-Ef^^ + Uf. (14.27) 443
Найденные соотношения показывают, что текущий уровень ряда у^ зависит не только от факторной переменной х^, но и от ос- татков предшествующего периода e^_i. Допустим, мы не принимаем во внимание эту информацию и оцениваем параметрыa^^Ъуравнения (14.1) обычным МНК. Тог- да можно показать, что полученные оценки неэффективны, т. е. они не имеют минимальную дисперсию. Это приводит к увеличе- нию стандартных ошибок, снижению фактических значений /-критерия и широким доверительным интервалам для коэффи- циента рефессии. На основе таких результатов можно сделать ошибочный вывод о незначимом влиянии исследуемого фактора на результат, в то время как на самом деле его влияние статисти- чески значимо. Отметим, что при соблюдении прочих предпосылок МНК ав- токорреляция остатков не влияет на свойства состоятельности и несмещенности оценок параметров уравнения регрессии обыч- ным методом наименьших квадратов, за исключением моделей авторегрессии. Применение МНК к моделям авторегрессии ведет к получению смещенных, несостоятельных и неэффективных оценок. Рассмотрим основной подход к оценке параметров модели рефессии в случае, когда имеет место автокорреляция остатков. Для этого вновь обратимся к исходной модели (ИЛ). Для момен- та времени / - 1 эта модель примет вид: >',.i = tz + Z^-x,_i + e,_i. (14.28) Умножим обе части уравнения (14.28) на г\\ Л' yt-i = rla + rlb- x,^i + r\ • 8,,i. (14.29) Вычтем почленно из уравнения (14.1) уравнение (14.29): З'/ - '•? • >'/-! = ^ - ''1 • ^ + * • ^/ - ''1 • * • ^/-1 + ^/ - '•' • S/-1- (14.30) Проведя тождественные преобразования в (14.30), имеем: yi-r] .y^_^ = a•(l-r^) + 6•(x,-r^x,_,) + 8,-r^e,_l(14.31) или у\ = а+Ь'х\ + и,. (14.32) 444
в формуле (14.32) y't^yi-fl-yi-b (14.33) x\ = Xf-r\Xf_^; (14.34) «/ = e^-^i*e^-i; (14.35) a=a(l-r\), (14.36) Поскольку Uf — случайная ошибка, для оценки параметров уравнения (14.32) можно применять обычный МНК. Итак, если остатки по исходному уравнению регрессии со- держат автокорреляцию, то для оценки параметров уравнения используют обобщенный метод наименьших квадратов. Для его реализации необходимо выполнять следующие условия. 1. Преобразовать исходные переменные У/ и Л:^ к виду (14.33) и (14.34). 2. Применив обычный МНК к уравнению (14.32), определить оценки параметров а и Ь, 3. Рассчитать параметр а исходного уравнения из соотноше- ния (14.36) как а = а'/{1-г\). (14.37) 4. Выписать исходное уравнение (14.1). Обобщенный метод наименьших квадратов аналогичен мето- ду последовательных разностей. Однако мы вычитаем из у^ (или Xf) не все значение предьщущего уровня у^_1 (или x^_i), а некото- рую его долю - г\ • у^_1 или г\ • jc^.j. Если г\ = I, данный метод - это просто метод первых разностей, так как y>yi-yt^i (14.38) и х\ = х,-х,^,. (14.39) Поэтому в случае, если значение критерия Дарбина - Уотсо- на близко к нулю, применение метода первых разностей вполне обоснованно. Если rf = — 1, т. е. в остатках наблюдается полная отрицательная автокорреляция, то изложенный выше метод мо- дифицируется следующим образом: //=;'/-(-1)-У/-1=Д'/ + У/-1. (14.40) 445
Аналогично Поскольку имеем: ^'/=^/-(-1)-^г-1=^/ + ^/-1- (14.41) а=а{1-г\) = 2'а, (14.42) у, + у,_^ = 2-а-^Ь'(х, + х,_,) + щ, (14.43) Следовательно, (yt + yt-i)/2 = а + Ых, + x,_i)/2 + и Д. (14.44) В сущности, в модели (14.44) мы определяем средние за два периода уровни каждого ряда, а затем по полученным усреднен- ным уровням обычным МНК рассчитываем параметры а и Ь, Данная модель называется модель регрессии по скользящим средним. Главная проблема, связанная с применением данного метода, заключается в том, как получить оценку г\. Известно множество способов оценить численное значение коэффициента автокорре- ляции остатков первого порядка. Однако основными способами являются оценка этого коэффициента непосредственно по остат- кам, полученным по исходному уравнению регрессии, и получе- ние его приближенного значения из соотношения между коэф- фициентом автокорреляции остатков первого порядка и крите- рием Дарбина - Уотсона: г\ = \- d/2. Расчет параметров уравнения регрессии при наличии авто- корреляции остатков показан в примере 14.5. 14.5. КОИНТЕГРАЦИЯ ВРЕМЕННЫХ РЯДОВ Общий недостаток методов исключения тенденции заключа- ется в том, что эти методы предполагают некоторую модифика- цию модели (14.1) вследствие либо замены переменных, либо до- бавления в эту модель фактора времени. Однако большая часть соотношений, постулируемых экономической теорией, верифи- кацией которых занимается эконометрика, сформулирована в терминах уровней временных рядов, а не их последовательных разностей или отклонений от трендов и предполагает измерение взаимосвязи переменных без включения в модель каких-либо до- полнительных факторов (например, переменной времени). 446
в ряде случаев наличие в одном из временных рядов тенден- ции может быть следствием именно того факта, что другой ряд, включенный в модель, тоже содержит тенденцию, а не просто является результатом прочих случайных причин. Поэтому одина- ковая или противоположная направленность тенденций рядов может иметь устойчивый характер и наблюдаться на протяжении длительного промежутка времени, а коэффициент корреляции, рассчитанный по уровням временных рядов, может соответст- венно не содержать ложной корреляции и характеризовать ис- тинную причинно-следственную зависимость между ними. Начиная с 1970-х гг. эти предположения были положены в ос- нову новой теории о коинтеграции временных рядов. Под коин- теграцией понимается причинно-следственная зависимость в уровнях двух (или более) временных рядов, которая выражается в совпадении или противоположной направленности их тенден- ций и случайной колеблемости. Не останавливаясь детально на положениях и концепциях те- ории коинтефации (глубокое ее рассмотрение потребовало бы подготовки отдельного учебного пособия), в данном разделе мы кратко охарактеризуем основные статистические методы и кри- терии, применяемые для проверки гипотез о наличии коинтефа- ции временных рядов данных. В соответствии с этой теорией между двумя временными ря- дами коинтефация существует в случае, если линейная комбина- ция временных рядоз — это стационарный временной ряд (т. е. ряд, содержащий только случайную компоненту и имеющий постоянную дисперсию на длительном промежутке времени)*. Рассмотрим уравнение рефессии вида (14.1). Остатки е, в этом уравнении представляют собой линейную комбинацию ря- дов j;^ и дс,: г, = у,^а-Ь'Х, (14.45) Одним из методов тестирования гипотезы о коинтефации ' временных рядов у^ и Xj является критерий Ингла — Грэнджера, Алгоритм применения этого критерия следующий. 1. Вьщвигается нулевая гипотеза об отсутствии коинтефации между рядами у^ и Xj, * Статистические критерии, предназначенные для проверки гипотезы о коинтефации, основаны не на проверке стационарности остатков, а на про- верке менее жесткой гипотезы — гипотезы об отсутствии во временном ряде единичного корня. 447
2. Рассчитывают параметры уравнения регрессии вида А8^ = с + 6-8,_1, (14.46) где Ае, — первые разности остатков, полученных из соотношения (14.45). 3. Определяют фактическое значение /-критерия для коэффи- циента рефессии а в уравнении (14.46). 4. Сравнивают полученное значение с критическим значением статистики т. Критические значения т, рассчитанные Инглом и Грэнджером для уровня значимости 1; 5 и 10%, составляют соответственно 2,5899; 1,9439 и 1,6177 [18, с. 727]*. Если фактиче- ское значение / больше критического значения т для заданного уровня значимости а, нулевую гипотезу об отсутствии коинтефа- ции исследуемых временных рядов отклоняют и с вероятностью (1 - а) принимают альтернативную гипотезу о том, что между ряда- ми у^ и Xf есть коинтефация. В противном случае гипотеза об отсут- ствии коинтефации между исследуемыми радами не отклоняется. Другой метод тестирования нулевой гипотезы об отсутствии коинтефации между двумя временными рядами основан на ис- пользовании величины критерия Дарбина — Уотсона, получен- ной для уравнения (14.1). Однако в отличие от фадиционной ме- тодики его применения в данном случае проверяют гипотезу о том, что полученное фактическое значение критерия Дарбина - Уотсона в генеральной совокупности равно нулю. Ряд авторов приводят следующие критические значения кри- терия Дарбина - Уотсона, полученные методом Монте-Карло** пля ближайших уровней значимости: 1% - 0,511; 5% — 0,386; 10% - 0,322. Если результаты тестирования показывают, что фактиче- ское значение критерия Дарбина - Уотсона нельзя признать рав- ным нулю (т. е. оно превышает критическое значение для задан- ного уровня значимости), нулевую гипотезу об отсутствии коин- тефации временных рядов отклоняют. * Некоторые критические значения т для критерия Ингла — Грэнджера можно также найти в учебнике: Davidson R., MacKinnon J.C. Estimation and Inference in Econometrics. — N. Y: Oxford University Press, 1993. — P. 722. ** Sai:gan J.D., Bhai^gava A.S. Testing Residuals from Least Squares Regression for Being Generated by the Gaussian Random Walk // Econometrica. - Vol. 51, 1983. - R 153-174 или [18, с. 727-728]. 448
Если фактическое значение критерия Дарбина - Уотсона меньше критического значения для заданного уровня значи- мости, то нулевая гипотеза об отсутствии коинтеграции не откло- няется. Коинтефация двух временных рядов значительно упрощает процедуры и методы, используемые в целях их анализа, посколь- ку в этом случае можно строить уравнение регрессии и опреде- лять показатели корреляции, применяя в качестве исходных дан- ных непосредственно уровни изучаемых рядов, учитывая тем са- мым информацию, содержащуюся в исходных данных, в полном объеме. Однако поскольку коинтеграция означает совпадение динамики временных рядов в течение длительного промежутка времени, то сама эта концепция применима только к временным рядам, охватывающим сравнительно длительные (например, в не- сколько десятилетий) промежутки времени. При наличии корот- ких временных рядов данных, даже если формальные критерии показали присутствие их коинтефации, моделирование взаимо- связей по уровням этих рядов может привести к неверным резуль- татам ввиду нарушения предпосылок теории коинтефации. Пример 14.5. Пусть имеются данные о среднедушевом рас- полагаемом доходе и среднедушевом расходе на конечное по- требление в США за период с 1960 по 1991 гп (табл. 14.6). Требу- ется охарактеризовать тесноту связи между изучаемыми времен- ными рядами и определить предельную склонность к потребле- нию в США за рассматриваемый период. Построим фафики временных рядов среднедушевого дохода и потребления (рис. 14.4). Видно, что тенденции этих рядов сов- падают. Проведем тестирование на коинтефацию временных ря- дов среднедушевого дохода и расхода на потребление. 15000 10000" 5000- 12 3 4 5 6 7 8 9 1011121314151617181920212223242526272829303132 ^ •-.-•- ДОХОД —о- расходы на конечное потребление Рис. 14.4. Динамика среднедушевого дохода и расходов на конечное потребление в США с 1960 по 1991 гг 29-3291 449
Таблица 14.6 Среднедушевой располагаемый доход и среднедушевые расходы на конечное потребление в США за период с 1960 по 1991 гг. (в сопоставимых ценах 1987 г.) Год, / i I960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1 1991 Среднедуше- вой распола- гаемый до- ход (долл. США), X, 2 7264 7382 7583 7718 8140 8508 8822 9114 9399 9606 9875 10 111 10 414 11013 10 832 10 906 11 192 11406 11851 12 039 12 005 12 156 12 146 12 349 13 029 13 258 13 552 13 545 13 890 14 030 14 154 13 987 Среднедуше- вые расходы на конечное потребление (долл. США), 3 6698 6740 6931 7089 7384 7703 8005 8163 8506 8737 8842 9022 9425 9752 9602 9711 10 121 10 425 10 744 10 867 10 746 10 770 10 782 11 179 11617 12 015 12 336 12 568 12 903 13 027 13 051 12 889 Остатки, Sf 4 173,80 106,98 112,61 146,12 51,94 31,57 43,99 -67,29 12,88 52,98 -90,10 -127,74 -4,17 -229,57 -212,65 -171,90 -25,65 81,00 -10,39 -51,76 -150,41 -265,66 -244,44 -34,65 -223,75 -36,94 112,93 251,39 268,22 263,11 172,76 164,77 Скорректированные на коэффициент автокорре- ляции остатков значения дохода, дс; 5 — 2092,87 2207,95 2196,60 2520,30 2581,03 2627,08 2690,45 2762,83 2762,32 2880,59 2920,73 3051,89 3430,27 2813,12 3018,91 3251,03 3256,78 3545,96 3409,94 3239,06 3414,81 3294,86 3505,15 4037,34 3771,21 3898,47 3677,40 4027,49 3916,29 3938,35 3681,06 расхода,.)^; 6 __ 1862,99 2023,41 2042,34 2222,29 2326,50 2396,22 2334,33 2562,28 2543,54 2480,34 2583,88 2855,82 2889,38 2501,29 2719,51 3050,14 3055,61 3153,26 3052,98 2826,87 2945,43 2940,05 3328,31 3477,25 3556,33 3587,53 3585,80 3751,88 3631,95 1 3565,66 3386,19 Источник: Economic Report of the President. Printing Office, 1992. - P. 327. 450 - Washington: US Government
Нулевая гипотеза состоит в том, что коинтеграция между эти- ми рядами отсутствует. По имеющимся исходным данным определим обычным МНК параметры уравнения рефессии зависимости среднедуше- вых расходов на конечное потребление у^ от среднедушевого до- хода x^. Регрессионный анализ зависимости среднедушевых расходов на конечное потребление от среднедушевого располагаемого до- хода показал следующее: Константа -174,746 Коэффициент регрессии 0,922212 Стандартная ошибка коэффициента рефессии 0,012837 Л-квадрат 0,994221 Число наблюдений 32 Число степеней свободы 30 Критерий Дарбина - Уотсона 0,521 Уравнение регрессии имеет вид: >?, =-174,75 +0,922 •х, +8,. Применим критерий Ингла — Грэнджера. Воспользовавшись полученным уравнением регрессии, найдем остатки е^ (гр. 4 табл. 14.6). Определим параметры уравнения регрессии (14.46): Константа —1,7293 Коэффициент регрессии — 0,2724 Стандартная ошибка коэффициента регрессии 0,126806 Л-квадрат 0,137319 Число наблюдений 31 Число степеней свободы 30 Ае^ = -1,729-0,272-е,.!. Фактическое значение /-критерия, рассчитанное по данным уравнения регрессии, равно —2,154. Поскольку полученное фак- тическое значение по абсолютной величине превышает критиче- ское значение Tqos ~ 1,9439, с вероятностью 95% можно откло- нить нулевую гипотезу и сделать вывод о коинтеграции времен- ных рядов среднедушевого дохода и среднедушевых расходов на конечное потребление. 29' 451
Этот же вывод подтверждается и другим критерием. Получен- ное значение критерия Дарбина - Уотсона для уравнения рефес- сии, рассчитанного по уровням временных рядов, d = 0,521 пре- вышает для уровня значимости 0,01 его критическое значение, равное 0,511, и тем более превышает его критические значения при повышении уровня значимости. Это свидетельствует о том, что в генеральной совокупности критерий Дарбина — Уотсона не равен нулю и, следовательно, временные ряды дохода и потреб- ления коинтефируют. Для определения показателей силы и тес- ноты их взаимосвязи можно работать с уровнями рядов. Коэффициент корреляции, рассчитанный по уровням вре- менных рядов, равен 0,997. Это говорит об очень тесной прямой связи между расходами на конечное потребление и среднедуше- вым доходом в США за период с 1960 по 1991 г Однако при* рас- чете параметров уравнения рефессии мы сталкиваемся с другой проблемой — автокорреляцией в остатках (фактическое значение критерия Дарбина - Уотсона составляет 0,521, что свидетельству- ет о наличии положительной автокорреляции в остатках). Поэто- му найденные оценки параметров уравнения рефессии - 174,75 и 0,922 не являются эффективными ввиду нарушения предпосылок МНК в этом уравнении. Для получения новых оценок параметров, для которых не на- рушается свойство эффективности, воспользуемся методом рас- чета параметров уравнения рефессии при наличии автокорреля- ции в остатках (см. разд. 14.4). 1. Найдем оценку коэффициента автокорреляции остатков первого порядка. Ее можно получить двумя способами. Восполь- зовавшись приближенным соотношением между критерием Дар- бина - Уотсона и коэффициентом автокорреляции остатков пер- вого порядка, которое описывается формулой (14.21), имеем: ri'= 1-0,521/2 = 0,739. Приблизительно этот же результат можно получить, если рас- считать коэффициент автокорреляции уровней первого порядка по временному ряду остатков (ф. 4 табл. 14.6): rf = 0,728. 2. Проведем пересчет исходных данных в соответствии с фор- мулами (14.33) и (14.34). Новые переменные х) и у'^ приведены в ф. 5 и 6 табл. 14.6 соответственно. При пересчете данных мы использовали величину коэффициента автокорреляции 0,728. Однако в равной степени допустимо применять и другую его оценку 0,731, полученную из соотношения между коэффициен- том автокорреляции остатков и критерием Дарбина — Уотсона. 452
3. Определим параметры уравнения рефессии у\ на х\ обыч- ным МНК (уравнение 14.32). Получим: у\ = -89,427 4- 0,934 • х\ + щ, 4. Воспользуемся формулой (14.37) для расчета параметра а исходного уравнения (14.32): а = -89,427/(1 - 0,728) = -328,776. 5. Уравнение регрессии зависимости среднедушевых расходов на конечное потребление от среднедушевого располагаемого до- хода имеет вид: Я = - 328,776 + 0,934 • х, + w,. Коэффициент детерминации для этого уравнения равен 0,997. Для коэффициента рефессии /-критерий составил 35,2. Получен- ные результаты можно считать статистически значимыми. Следовательно, предельная склонность к потреблению в США за период с 1960 по 1991 г. была равна 0,934. Это означает, что с увеличением среднедушевого располагаемого дохода на 1 долл. США среднедушевые расходы на конечное потребление возрастали в среднем на 93,4 цента. Контрольные вопросы 1. В чем специфика построения моделей рефессии по времен- ным рядам данных? 2. Что такое ложная корреляция и как ее избежать? 3. Перечислите основные методы исключения тенденции. Сравните их преимущества и недостатки. 4. Изложите суть метода отклонений от тренда. 5. В чем сущность метода последовательных разностей? Какова интерпретация параметров уравнения рефессии по первым разностям уровней рядов? 6. Какова интерпретация параметра при факторе времени в мо- делях рефессии с включением фактора времени? 7. Охарактеризуйте понятие автокорреляции в остатках. Какие методы ее выявления вам известны? 8. Что такое критерий Дарбина - Уотсона? Приведите алгоритм его применения для тестирования модели рефессии на авто- корреляцию в остатках. 9. Перечислите основные этапы обобщенного МНК. 10. Что такое коинтефация временных рядов? Какие методы те- стирования двух временных рядов на коинтефацию вам из- вестны?
15 Глава ДИНАМИЧЕСКИЕ ЭКОНОМЕТРИЧЕСКИЕ МОДЕЛИ 15.1. 0Б1ДАЯ ХАРАКТЕРИСТИКА МОДЕЛЕЙ С РАСПРЕДЕЛЕННЫМ ЛАГОМ И МОДЕЛЕЙ АВТОРЕГРЕССИИ В эконометрике к числу динамических относятся не все моде- ли, построенные по временным рядам данных. Термин «динами- ческий» в данном случае характеризует каждый момент времени / в отдельности, а не весь период, для которого строится модель. Эконометрическая модель является динамической, если в дан- ный момент времени / она учитывает значения входящих в нее переменных, относящиеся как к текущему, так и к предьщущим моментам времени, т. е. если эта модель отражает динамику ис- следуемых переменных в каждый момент времени. Можно выделить два основных типа динамических экономе- трических моделей. К моделям первого типа относятся модели ав- торефессии и модели с распределенным лагом, в которых значе- ния переменной за прошлые периоды времени (лаговые пере- менные) непосредственно включены в модель. Модели второго типа учитывают динамическую информацию в неявном виде. В эти модели включены переменные, характеризующие ожидае- мый или желаемый уровень результата, или один из факторов в момент времени /. Этот уровень считается неизвестным и опреде- ляется экономическими единицами с учетом информации, кото- рой они располагают в момент / - 1. В зависимости от способа определения ожидаемых значений показателей различают модели неполной корректировки, адаптив- ных ожиданий и рациональных ожиданий. Оценка параметров этих моделей сводится к оценке параметров моделей авторефессии. 454
При исследовании экономических процессов нередко прихо- дится моделировать ситуации, когда значение результативного признака в текущий момент времени / формируется под воздей- ствием ряда факторов, действовавших в прошлые моменты вре- мени/— 1,/—2,...,/ — /. Например, на выручку от реализации или прибыль компании текущего периода могут оказывать влияние расходы на рекламу или проведение маркетинговых исследова- ний, сделанные компанией в предшествующие моменты време- ни. Величину /, характеризующую запаздывание в воздействии фактора на результат, в эконометрике называют лагол/, а времен- ные ряды самих факторных переменных, сдвинутые на один или более моментов времени, — лаговыми переменными. Разработка экономической политики как на макро-, так и на микроуровне требует решения обратного типа задач, т. е. задач, определяющих, какое воздействие окажут значения управляемых переменных текущего периода на будущие значения экономиче- ских показателей. Например, как повлияют инвестиции в про- мышленность на валовую добавленную стоимость этой отрасли экономики будущих периодов или как может измениться объем ВВП, произведенного в периоде / + 1, под воздействием увеличе- ния денежной массы в периоде /? Эконометрическое моделирование охарактеризованных вы- ше процессов осуществляется с применением моделей, содержа- щих не только текущие, но и лаговые значения факторных пере- менных. Эти модели называются моделями с распределенным лагом. Модель вида у^ = а + Ь^х^л-Ь^х^_^ + *2^/-2 + е/ (15.1) является примером модели с распределенным лагом. Наряду с лаговыми значениями независимых, или фактор- ных, переменных на величину зависимой переменной текущего периода могут оказывать влияние ее значения в прошлые момен- ты или периоды времени. Например, потребление в момент вре- мени / формируется под воздействием дохода текущего и преды- дущего периодов, а также объема потребления прошлых перио- дов, например потребления в период / - 1. Эти процессы обычно описывают с помощью моделей рефессии, содержащих в качест- ве факторов лаговые значения зависимой переменной, которые называются моделями авторегрессии. Модель вида У1 = а + Ь^х^-\-СхУ1-\ +6/ (15.2) относится к моделям авторегрессии. 455
Построение моделей с распределенным лагом и моделей ав- торефессии имеет свою специфику. Во-первых, оценка парамет- ров моделей авторегрессии, а в большинстве случаев и моделей с распределенным лагом не может быть проведена с помощью обычного МНК ввиду нарушения его предпосылок и требует спе- циальных статистических методов. Во-вторых, исследователям приходится решать проблемы выбора оптимальной величины лага и определения его структуры. Наконец, в-третьих, между моделями с распределенным лагом и моделями авторефессии имеется определенная взаимосвязь, и в некоторых случаях необ- ходимо осуществлять переход от одного типа моделей к другому. 15.2. ИНТЕРПРЕТАЦИЯ ПАРАМЕТРОВ МОДЕЛЕЙ С РАСПРЕДЕЛЕННЫМ ЛАГОМ И МОДЕЛЕЙ АВТОРЕГРЕССИИ Рассмотрим модель с распределенным лагом в ее общем виде в предположении, что максимальная величина лага конечна: >) = о + йо • ^/ + *Г ^/-1 + - + Ьр • Xf_p + е^. (15.3) Данная модель говорит о том, что если в некоторый момент времени / происходит изменение независимой переменной х, то это изменение будет влиять на значения переменной у в течение / следующих моментов времени. Коэффициент рефессии bQ при переменной х^ характеризует среднее абсолютное изменение у^ при изменении х^ на 1 единицу своего измерения в некоторый фиксированный момент времени /, без учета воздействия лаговых значений фактора х. Этот коэф- фициент называют краткосрочным мультипликатором. В момент / Н- 1 совокупное воздействие факторной перемен- ной Xf на результат>^^ составит {Ь^ + Ь^) условных единиц, в момент /+2 это воздействие можно охарактеризовать суммой (6о + /^i + ^^2) и т. д. Полученные таким образом суммы называют промежуточ- ными мультипликаторами. С учетом конечной величины лага можно сказать, что изме- нение переменной х^ в момент / на 1 у. е. приведет к общему изме- нению результата через / моментов времени на {bQ + b^ +...+ bj) аб- солютных единиц. 456
Введем следующее обозначение: 6о+ />!+...+А/= 6. (15.4) Величину b называют долгосрочным мультипликатором, кото- рый показывает абсолютное изменение в долгосрочном периоде / + / результата у под влиянием изменения на 1 ед. фактора х. Предположим, а и lu • i^ л /1ссч Ру = 6,/Л, 7 = 0: 1. (15.5) Назовем полученные величины относительными коэффициен- тами модели с распределенным лагом. Если все коэффициенты bj имеют одинаковые знаки, то для любогоу 0<р,.<1 и ZPy=l. у=о в этом случае относительные коэффициенты Ру являются ве- сами для соответствующих коэффициентов bj. Каждый из них из- меряет долю общего изменения результативного признака в мо- мент времени / +/ Зная величины Ру, с помощью стандартных формул можно оп- ределить еще две важные характеристики модели множественной рефессии: величину среднего и медианного лагов. Средний лаг рассчитывается по формуле средней арифметической взвешенной: у=о (15.6) и представляет собой средний период, в течение которого будет происходить изменение результата под воздействием изменения фактора в момент времени t. Небольшая величина среднего лага свидетельствует об относительно быстром реагировании резуль- тата на изменение фактора, тогда как высокое его значение гово- рит о том, что воздействие фактора на результат будет сказывать- ся в течение длительного периода времени. Медианный лаг — это величина лага, для которого Х Ру ~ 0,5. Это тот период времени, в у=о течение которого с момента времени / будет реализована полови- на общего воздействия фактора на результат. Рассмотрим условный пример. 457
Пример 15.1. По результатам изучения зависимости объе- мов продаж компании в среднем за месяц от расходов на рекламу была получена следующая модель с распределенным лагом (млн руб.): у, = -0,67 + 4,5 • Xf + 3,0 • x,_j + 1,5 • х^_2 + 0,5 • х^_з. В данной модели краткосрочный мультипликатор равен 4,5. Это означает, что увеличение расходов на рекламу на 1 млн руб. ведет в среднем к росту объема продаж компании на 4,5 млн руб. в том же периоде. Под влиянием увеличения расходов на рекламу объем продаж компании возрастет в момент времени / + 1 — на 4,5 + 3,0 = 7,5 млн руб., / + 2 - на 7,5 + 1,5 = 9,0 млн руб. Нако- нец, долгосрочный мультипликатор для данной модели составит: 6 = 4,5 + 3,0+1,5 + 0,5 = 9,5. В долгосрочной перспективе (например, через 3 мес.) увели- чение расходов на рекламу на 1 млн руб. в настоящий момент времени приведет к общему росту объема продаж на 9,5 млн руб. Относительные коэффициенты регрессии в этой модели равны: р, = 4,5/9,5 = 0,474; Рз = 3,0/9,5 = 0,316; Рз = 1,5/9,5 = 0,158; Р4 = 0,5/9,5 = 0,053. Следовательно, 47,4% общего увеличения объема продаж, вызванного ростом затрат на рекламу, происходит в текущем мо- менте времени; 31,6% - в момент / + 1; 15,8% - в момент / + 2 и только 5,3% этого увеличения приходится на момент времени /+3. Средний лаг в данной модели определяется как 7 = 0- 0,474 + 1 • 0,316 + 2 • 0,158 + 3 • 0,053 = 0,791 мес. Небольшая величина лага (менее 1 мес.) еще раз подтвержда- ет, что большая часть эффекта роста затрат на рекламу проявля- ется сразу же. Медианный лаг в данном примере также составля- ет чуть более 1 мес. Изложенные выше приемы анализа параметров модели с рас- пределенным лагом действительны только в предположении, что все коэффициенты при текущем и лаговых значениях исследуе- мого фактора имеют одинаковые знаки. Это предположение вполне оправданно с экономической точки зрения: воздействие одного и того же фактора на результат должно быть однонаправ- 458v
ленным независимо от того, с каким временным лагом измеряет- ся' сила или теснота связи между этими признаками. Однако на практике получить статистически значимую модель, параметры которой имели бы одинаковые знаки, особенно при большой ве- личине лага /, чрезвычайно сложно. Применение обычного МНК к таким моделям в большинстве случаев затруднительно по следующим причинам. Во-первых, текущие и лаговые значения независимой пере- менной, как правило, тесно связаны друг с другом. Тем самым оценка параметров модели проводится в условиях высокой муль- тиколлинеарности факторов. Во-вторых, при большой величине лага снижается число на- блюдений, по которому строится модель, и увеличивается число ее факторных признаков, что ведет к потере числа степеней сво- боды в модели. В-третьих, в моделях с распределенным лагом часто возника- ет проблема автокорреляции остатков. Вышеуказанные обстоя- тельства приводят к значительной неопределенности относи- тельно оценок параметров модели, снижению их точности и по- лучению неэффективных оценок. Чистое влияние факторов на результат в таких условиях выявить невозможно. Поэтому на практике параметры моделей с распределенным лагом учитыва- ют определенные офаничения на коэффициенты рефессии и условия выбранной структуры лага. Обратимся теперь к модели авторегрессии. Пусть имеется сле- дующая модель: yf = a + bo'X, + Ci' y^.i + Е^. (15.7) Как и в модели с распределенным лагом, Aq в этой модели ха- рактеризует краткосрочное изменение у^ под воздействием изме- нения Xf на 1 ед. Однако промежуточные и долгосрочный мульти- пликаторы в моделях авторефессии несколько иные. К моменту времени / + 1 результату^ изменился под воздействием изменения изучаемого фактора в момент времени /на Ь^ единиц, з,у^+1 — под воздействием своего изменения в непосредственно предшествую- щий момент времени на Cj единиц. Таким образом, общее абсо- лютное изменение результата в момент / + 1 составит b^Ci единиц. Аналогично в момент времени / + 2 абсолютное изменение ре- зультата составит b^Ci^ единиц и т. д. Следовательно, долгосроч- ный мультипликатор в модели авторефессии можно рассчитать как сумму краткосрочного и промежуточного мультипликаторов: 6 = 6о + *о ^1 + *о ^1^ + *о ^Л- (15.8) 459
Учитывая, что практически во все модели авторегрессии вво- дится так называемое условие стабильности, состоящее в том, что коэффициент регрессии при переменной у,_1 по абсолютной ве- личине меньше единицы IcJ < 1, соотношение (15.8) можно пре- образовать следующим образом: 6 = 6o-(l + c,+Ci4ci4...) = A_, (15.9) l-q me|ci|< 1. Такая интерпретация коэффициентов модели авторегрессии и расчет долгосрочного мультипликатора основаны на предпо- сылке о наличии бесконечного лага в воздействии текущего зна- чения зависимой переменной на ее будущие значения. Пример 15.2. Предположим, по данным о динамике показа- телей потребления и дохода в регионе была получена модель ав- торегрессии, описывающая зависимость среднедушевого объема потребления за год (С, млн руб.) от среднедушевого совокупного годового дохода (У, млн руб.) и объема потребления предшеству- ющего года: 4 = 3 + 0,85-У; +0,10-С,.!. Краткосрочный мультипликатор равен 0,85. В этой модели он представляет собой предельную склонность к потреблению в краткосрочном периоде. Следовательно, увеличение среднеду- шевого совокупного дохода на 1 млн руб. приводит к росту объе- ма потребления в тот же год в среднем на 850 тыс. руб. Долгосроч- ную предельную склонность к потреблению в данной модели можно определить в соответствии с формулой (15.9) как 6 = 0,85/(1-0,0 = 0,944. В долгосрочной перспективе рост среднедушевого совокуп- ного дохода на 1 млн руб. приведет к росту объема потребления в среднем на 944 тыс. руб. Промежуточные показатели предельной склонности к потреблению можно определить, рассчитав необ- ходимые частные суммы за соответствующие периоды времени. Например, для момента времени / + 1 получим: (0,85+ 0,85-0,1) = 0,935. 460
Это означает, что увеличение среднедушевого совокупного дохода в текущем периоде на 1 млн руб. ведет к увеличению объема потребления в среднем на 935 тыс. руб. в ближайшем сле- дующем периоде. 15.3. ИЗУЧЕНИЕ СТРУКТУРЫ ЛАГА И ВЫБОР ВИДА МОДЕЛИ С РАСПРЕДЕЛЕННЫМ ЛАГОМ Текущие и лаговые значения факторной переменной оказы- вают различное по силе воздействие на результативную перемен- ную модели. Количественно сила связи между результатом и зна- чениями факторной переменной, относящимися к различным моментам времени, измеряется с помощью коэффициентов рег- рессии при факторных переменных. Если построить график за- висимости этих коэффициентов от величины лага, можно полу- чить графическое изображение структуры лага, или распределе- ния во времени воздействия факторной переменной на результат Структура лага может быть различной (рис. 15.1). Если с ростом величины лага коэффициенты при лаговых значениях переменной убывают во времени, то имеет место ли- нейная (ее называют также треугольной - рис. 15.1 а) или геоме- трическая структура лага (рис. 15.1 б). Если лаговые воздействия фактора на результат не имеют тенденцию к убыванию во времени, то имеет место один из вариантов, показанных на рис. 15.1 в — е. Структуру лага (см. рис. 15.1 в) называют «перевернутой» К-об- разной структурой. Основная ее особенность - симметричность лаговых воздействий относительно некоторого среднего лага, ко- торый характеризуется наиболее сильным воздействием фактора на результат. Графики, представленные на рис. 15.1 г-е, свиде- тельствуют о полиномиальной структуре лага. Графический анализ структуры лага аналогичным образом можно проводить и с помощью относительных коэффициентов регрессии Ру. Основная трудность в выявлении структуры лага со- стоит в том, как получить значения параметров bj (или Ру). Выше уже отмечалось, что обычный МНК редко бывает полезным в этих целях. Поэтому в большинстве случаев предположения о структуре лага основаны на общих положениях экономической теории, на исследованиях взаимосвязи показателей либо на ре- зультатах проведенных ранее эмпирических исследований или иной априорной информации. 461
-| 1 1 1 1 1 1 ► 0 л лаг 1 1—I—I 1—I 1 ► / лаг 1 1 1 1 1 1 1 ► 0 /лаг e T 1—I—I \—I—I ► Л лаг т—I—г 1 1 г л лаг f О Ц 1—I—I 1—I—I ► е У, лаг Рис. 15.1. Основные формы струкгуры лага: а — линейная; б — геометрическая; в — перевернугая К-образная; г — е — полиномиальная 15.3.1. Лаги Алмон Рассмотрим общую модель с распределенным лагом, имею- щую конечную максимальную величину лага /, которая описыва- ется соотношением (15.3). Предположим, было установлено, что в исследуемой модели имеет место полиномиальная структура лага, т. е. зависимость коэффициентов регрессии Ь^ от величины лага описывается полиномом к-й степени. Частным случаем по- линомиальной структуры лага является линейная модель (см. рис. 15.1 а). ПриЛ1ерами лагов, образующих полином второй сте- 462
пени, являются варианты рис. 15.1 г и d Перевернутая К-образная структура лага также может быть аппроксимирована с помощью полинома первой степени. Наконец, фафик (см. рис. 15.1 е) явля- ется примером модели лагов в форме полинома 3-й степени. Лаги, структуру которых можно описать с помощью полиномов, называют также лагами Алмон, по имени Ш. Алмон, впервые об- ратившей внимание на такое представление лагов*. Формально модель зависимости коэффициентов bj от величи- ны лагау в форме полинома можно записать так: • для полинома первой степени bj = Cq + Cij; • для полинома второй степени bj = Cq + Ciy + С2/; • для полинома третьей степени bj = Cq-^ Cij-^ Cif + C3/ и т. д. В наиболее общем виде для полинома А:-й степени имеем**: bj = Со + с J + С2/ +...+ с J. (15.10) Тогда каждый из коэффициентов bj модели (15.3) можно вы- разить следующим образом: *1 = Со + с, +...+ Ck\ *2 = Со + 2 Ci + 4 С2 +...+ 2^ с,,; 6з = Со + Зс1 + 9с2+...+ 3^с^; 6/ = Со + /Ci + /2 С2 +...+ /^ С^. (15.11) Подставив в (15.3) найденные соотношения для Ь**р получим: )^^ = а + Со • X/ + (со + Cj + ... + с^) • х,_1 + (ср + 2 • Ci + 4 • С2 + ... t + 2^ • Cf,) • Xf_2 + (Со + 3 • Ci + 9 • С2 + ... + 3^ • Ck) • х^_з + ... + + (Co + / • Ci + /^ • C2 + ... H- /^ • Cf,) • Xf_i + Zf. (15.12) Перефуппируем слагаемые в (15.12): >;, = j + co' (x^ + x^_i +x^_2 + ... +x^_/) + Ci • (x,_, + 2-x^ 2 + 3 -^/-3 +...+ +/ • x,_i) + c. • (X,., + 4 • x,_2 + 9 • x,_3 + ... + /2 . X,.,) + ... + + Ck' (x^_i + 2^ • x^_2 + 3^ • x,_3 + ... +/* • Xf_i) + 6,. (15.13) * Almon S. The distributed lag between capital appropriations and capital expenditures // Econometrica. - \Ы. 33. - 1965. - № 1 (January). - P. 178-196. ** В данной модели предполагается, что степень полинома к меньше максимальной величины лага /. 463
Обозначим слагаемые в скобках при с, как новые перемен- ные: / у=0 / 2 ' 2 ^2 =^м+4-х^_2 4-9-х^_з+... + / •х,_/ = 1У -х^-у; ;=1 ^;t =х,_, +2^ -^/-2+3^ -х^.з +...+/^ -х,./ = S/ -х,.^.. (15.14) У=1 Перепишем модель (15.13) с учетом соотношений (15.14): yf = a + CQ-Zo + c^'Zi+C2'Z2 + ••• + c^'Zf,'^ Б/. (15.15) Процедура применения метода Алмон для расчета пара- метров модели с распределенным лагом выглядит следующим об- разом. 1. Определяется максимальная величина лага /. 2. Определяется степень полинома к, описывающего структу- ру лага. 3. По соотношениям (15.14) рассчитываются значения пере- менных^,..., Zfc- 4. Определяются параметры уравнения линейной регрессии (15.15). 5. С помощью соотношений (15.И) рассчитываются парамет- ры исходной модели с распределенным лагом. Применение метода Алмон сопряжено с рядом проблем. Во-первых, величина лага / должна быть известна заранее. При ее определении лучше исходить из максимально возможно- го лага, чем ограничиваться лагами небольшой длины. Выбор меньшей величины лага по сравнению с его реальным значением приведет к тому, что в модели регрессии не будет учтен фактор, оказывающий значительное влияние на результат, т. е. к неверной спецификации модели. Влияние этого фактора в такой модели будет выражено в остатках. Тем самым в модели не будут соблю- даться предпосылки МНК о случайности остатков, а полученные 464
оценки ее параметров окажутся неэффективными и смещенны- ми. Выбор большей величины лага по сравнению с ее реальным значением будет означать включение в модель статистически не- значимого фактора и снижение эффективности полученных оце- нок, однако эти оценки все же будут несмещенными. Известно несколько практических подходов к определению реальной величины лага, например построение нескольких урав- нений рефессии и выбор наилучшего из этих уравнений* или применение формальных критериев, например критерия Шварца [18, с. 615, 632]. Однако наиболее простым способом является из- мерение тесноты связи между результатом и лаговыми значения- ми фактора. Кроме того, оптимальную величину лага можно при- ближенно определить на основе априорной информации эконо- мической теории или проведенных ранее эмпирических исследо- ваний. Во-вторых, необходимо установить степень полинома к. Обычно на практике ограничиваются рассмотрением полиномов второй и третьей степени, применяя следующее простое правило: выбранная степень полинома к должна быть на единицу больше числа экстремумов в структуре лага. Если априорную информа- цию о структуре лага получить невозможно, величину к проще всего определить путем сравнения моделей, построенных для различных значений к, и выбора наилучшей модели. В-третьих, переменные z, которые рассчитываются как ли- нейные комбинации исходных переменных х, будут коррелиро- вать между собой в случаях, когда наблюдается высокая связь между самими исходными переменными. Поэтому оценку пара- метров модели (15.15) приходится проводить в условиях мульти- коллинеарности факторов. Однако мультиколлинеарность фак- торов Zqv, ^jt ^ модели (15.15) сказывается на оценках параметров ^0,..., bi в несколько меньшей степени, чем если бы эти оценки были получены путем применения обычного МНК непосредст- венно к модели (15.15) в условиях мультиколлинеарности факто- ров JC,,..., х^_/. Это связано с тем, что в модели (15.15) мультикол- линеарность ведет к снижению эффективности оценок Cq,..., с^^, поэтому каждый из параметров Ь^,,„, bi, которые определяются как линейные комбинации оценок Cq,..., Cj^, будет представлять *Daviclson R., MacKinnon J.G. Estimation and Inference in Econometrics. — P. 675-676. 30-^29' 465
собой более точную оценку, а стандартные ошибки этих параме- тров не будут превышать стандартные ошибки параметров, полу- ченных по модели (15.3) обычным МНК*. Метод Алмон имеет два неоспоримых преимущества: • он достаточно универсален и может быть применен для мо- делирования процессов, которые характеризуются разнообраз- ными структурами лагов; • при относительно небольшом количестве переменных в (15.15) (обычно выбирают А: = 2 или к = 3), которое не приводит к потере значительного числа степеней свободы, с помощью ме- тода Алмон можно построить модели с распределенным лагом любой длины. Пример 15.3. В табл. 15.1 представлены данные об объеме выпуска продукции в бизнес-секторе экономики США (в % к уровню 1982 г.) и общей сумме расходов на приобретение новых заводов и оборудования в промышленности за 1959—1990 гг (млрд долл. США). Построим модель с распределенным лагом для / = 4 в предпо- ложении, что структура лага описывается полиномом второй сте- пени. Общий вид этой модели: >;, = А + 6о • Х^ 4- *j • Х^_1 + ^2 • Х^_2 + h ' ^/-3 "^ *4 ' ^t-A + Ч Для полинома второй степени имеем: *у = ^о + ^1 V* + C2*A У = 0:4. Для расчета параметров этой модели необходимо преобразо- вать исходные данные в новые переменные Zq, Z\ и Zi- Это преобразование в соответствии с (15.14) выглядит следу- ющим образом: ^0 = ^/ + Х^_1 + Х/_2 "•" ^/-3 "•" ^/-4» Z\ ~ ^/_1 "^ 2 • Х^_2 "*" 3 * Xf_-^ + 4 • Х^_4> Zl " ^t-\ "^ 4 • Х^_2 "•" 9 • Х^_з + 16 • Х^_4- * Доказательство этого утверждения достаточно сложное и в данном учебнике не приводится. Подробнее эта проблема рассматривается в [18, с. 617, 628]. 466
Таблица 15.1 Динамика объемов ВВП США (у) I валовых внутренних инвестиций в экономику США (х) в ценах 1987 г., млрд долл. США Год 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 У 1931,3 1973,2 2025,6 2129,8 2218,0 2343,3 2473,5 2622,3 2690,3 2801,0 2877,1 2875,8 2965,1 3107,1 3268,5 3248,1 3221,7 3380,8 3533,2 3703,5 3796,8 3776,3 3843,1 3760,3 3906,6 4148,5 4279,8 4404,5 4540,0 4781,6 4836,9 4884,9 4848,4 JC 296,4 290,8 289,4 321,2 343,3 371,8 413,0 438,0 418,6 440,1 461,3 429,7 481,5 532,2 591,7 543,0 437,6 520,6 600,4 664,6 669,7 594,4 631,1 540,5 599,5 757,5 745,9 735,1 749,3 773,4 789,2 749,5 672,6 Zo — - - - 1541,1 1616,5 1738,7 1887,3 1984,7 2081,5 2171,0 2187,7 2231,2 2344,8 2496,4 2578,1 2586,0 2625,1 2693,3 2766,2 2892,9 3049,7 3160,2 3100,3 3035,2 3123,0 3274,5 3378,5 3587,3 3761,2 3792,9 3796,5 3734,0 ^1 — - - - 2958,0 3017,1 3179,6 3471,3 3752,6 4020,8 4243,3 4349,3 4347,0 4485,2 4629,5 4819,4 5249,0 5427,5 5391,6 5126,4 5177,6 5882,5 6329,2 6487,4 6264,7 5951,4 6102,4 6221,4 6897,4 7487,2 7460,9 7524,3 7645,3 Z2 — - - - 8838,4 8885,5 9266,2 10129,1 10929,0 11836,4 12664,5 12997,1 12933,4 13393,6 13706,3 13929,2 15403,6 16450,1 16625,2 15309,2 14753,2 17061,3 18861,0 19669,6 19129,7 17951,8 18117,6 17819,4 20128,2 22522,8 22320,9 22388,1 22855,7 Источник: Economic Report of the President. - Washington: US Government Printing Office, 1992. - R 300. 30* 467
Значения переменных Zq, Zi и^г приводятся в табл. 15.1. Отме- тим, что число наблюдений, по которым проводился расчет этих переменных, составило 28 (четыре наблюдения было потеряно вследствие сдвига факторного признака х, на четыре момента времени). Расчет параметров уравнения рефессии (15.15) обычным МНК для нашего примера приводит к следующим результатам: у, = 300,010 + 1,922 • го - 0,921 • ц + 0,184 • Z2, R^ = 0,990. (66,200) (0,205) (0,299) (0,073) В скобках указаны значения стандартных ошибок коэффици- ентов рефессии. Воспользовавшись найденными коэффициен- тами регрессии при переменных Zi, / = О, 1, 2, и соотношениями (15.11), рассчитаем коэффициенты рефессии исходной модели: *о= 1.922; 6, = 1,922 - 0,921 + 0,184 = 1,185; bi = 1,922 + 2 • (-0,921) + 4 • 0,184 = 0,814; bi = 1,922 + 3 • (-0,921) + 9 • 0,184 = 0,811; Z>4 = 1,922 + 4 • (-0,921) + 16 • 0,184 = 1,176. Модель с распределенным лагом имеет вид: у, = 300,01 + 1,922 • X, + 1,185 • x,_i + 0,814 • х,_2 + 0,811 • х,_з + + 1,176 •х,_4;Л^ = 0,990. (66,200) (0,205) (0,100) (0,142) (0,096) (0,208) В скобках указаны стандартные ошибки коэффициентов (tg, ti,) регрессии. Представим полученные значения в виде фафика (рис. 15.2). 2.0-1 1.8-1 1.6 1.4 1.24 1.0-^ 0.8-1 О "Т^Т^ 74^ 7, лаг Рис. 15.2. Crpyicrypa лага в модели зависимости объема ВВП от объема инвестиций в экономику 468
Анализ этой модели показывает, что рост инвестиций в эко- номику США на 1 млрд долл. в текущем периоде приведет через 4 года к росту ВВП в среднем на 5,908 млрд долл. США (1,922 + + 1,185 + 0,814 + 0,811 + 1,176). Определим относительные коэффициенты рефессии: Ро = 1,922 / 5,908 = 0,325; р, = 1,185 / 5,908 = 0,200; Р2 = 0,814 / 5,908 = 0,138; Рз = 0,811 / 5,908 = 0,138; Р4= 1,176/5,908 = 0,199. Более половины воздействия фактора на результат реализует- ся с лагом в 1 год, причем 32,5% этого воздействия реализуется сразу же, в текущем периоде. Средний лаг в данной модели составит: Т = 0,325 + 0,200 • 1 + 0,138 • 2 + 0,138 • 3 + 0,199 • 4 = 1,686. В среднем увеличение инвестиций в экономику США приве- дет к увеличению ВВП через 1,69 года. Для сравнения приведем результаты применения обычного МНК для расчета параметров этой модели: у^ = 296,56 + 2,082 • х^ + 0,784 • x^_i + 1,298 • х^_2 + 0,428 • х,_з + (67,7) (0,314) (0,428) (0,439) (0,432) + 1,323 •х^_4;/г^ = 0,991. (0,324) Несмотря на то, что коэффициент детерминации по модели, параметры которой были рассчитаны обычным МНК, несколько выше, однако стандартные ошибки коэффициентов регрессии в модели, полученной с учетом ограничений на полиномиальную структуру лага, значительно снизились. Кроме того, модель, по- лученная обычным МНК, обладает более существенным недо- статком: коэффициенты регрессии при лаговых переменных этой модели х^_1 и jc^_3 нельзя считать статистически значимыми. 15.3.2. Метод Койка Рассмотренные выше модели были построены в предположе- нии о том, что величина лага / конечна. Допустим теперь, что для описания некоторого процесса используется модель с бесконеч- ным лагом вида: у^ = с + 6о * ^/ "^ ^Г ^/-1 "^ ^2' ^/-2 "^ ••• "^ ^г (15.16) 469
Очевидно, что параметры такой модели обычным МНК или с помощью иных стандартных статистических методов определить нельзя, поскольку модель включает бесконечное число фактор- ных переменных. Однако, приняв определенные допущения от- носительно структуры лага, оценки ее параметров все же можно получить. Эти допущения состоят в наличии геометрической структуры лага, т. е. такой структуры, когда воздействия лаговых значений фактора на результат уменьшаются с увеличением ве- личины лага в геометрической прогрессии. На рис. 15.1 геомет- рической структуре лага соответствует вариант 15.1 б). Изложенный в этом разделе подход к оценке параметров мо- делей с распределенным лагом типа (15.16) впервые был предло- жен Л.М. Койком*. Он предположил, что существует некоторый постоянный темп X (О <Х < 1) уменьшения во времени лаговых воздействий фактора на результат. Если, например, в период /ре- зультат изменялся под воздействием изменения фактора в этот же период времени на Uq ед., то под воздействием изменения фак- тора, имевшего место в период / — 1, результат изменится на йо • X ед.; в период t-2-HdibQ-X'X = bQ'Xcji.m.ji. Для неко- торого периода / — / это изменение результата составит: ^о ' ^' ЗД- В более общем виде можно записать: bj =bQ' }J; j = 0,l,2,..., 0<;^<1. (15.17) Офаничение на значения А, > О обеспечивает одинаковые зна- ки для всех коэффициентов bj > О, а ограничение X < 1 означает, что с увеличением лага значения параметров модели (15.16) убы- вают в геометрической прогрессии. Чем ближе Я, к О, тем выше темп снижения воздействия фактора на результат во времени и тем большая доля воздействия на результат приходится на теку- щие значения фактора х^. Выразим с помощью формулы (15.17) все коэффициенты bj в модели (15.16) через 6о и X: yf = а + bQ'Xf + bQ- X'Xf_i + bQ-X^ • Xf_2 + ... + e^. (15.18) Тогда для периода / — 1 модель (15.18) можно записать следу- ющим образом: yt-\ = fl + Йо • Xf_i + bQ-X- Х,_2 -^ bQ-X^ - Xf_2 + ... + 8^_1. (15.19) Умножим обе части модели (15.19) на X, получим: X • у^_1 = Х- а + bQ-X- Xf_^ + bQ'X^ • х,_2 + bQ -Х^ • х^_з + ... + + X'Sf_^. (15.20) *Коуск L.M. Distributed Lags and Investment Analysis. — Amsterdam: North Holland Publishing Company, 1954. 470
Вычтем найденное соотношение (15.20) из соотношения (15.18): yt'-'^'yt-i = a-X'a-^bQ-Xf + Sf_i - Х- 8^_i. (15.21) В результате преобразований (15.21) мы получаем модель Койка: у, = а-{1^Х)-^Ьо-х, + {1- Х)'У,_^ + «„ (15.22) Полученная модель — это модель двухфакторной линейной рефессии (точнее — авторе фессии). Определив ее параметры, мы найдем X и оценки параметров а и bQ исходной модели. Далее с помощью соотношений (15.17) несложно определить параметры bi, bi,... модели (15.16). Применив обычный МНК к оценке пара- метров модели (15.22), получим смещенные оценки параметров ввиду наличия в этой модели в качестве фактора лаговой резуль- тативной переменной j^^_i. Описанный выше алгоритм получил название «преобразова- ния Койка». Это преобразование позволяет перейти от модели с бесконечными распределенными лагами к модели авторефес- сии, содержащей две независимые переменные х^ и j'^.j. Несмотря на бесконечное число лаговых переменных в моде- ли (15.16), геометрическая структура лага позволяет определить величины среднего и медианного лагов в модели Койка. По- скольку сумма коэффициентов рефессии в модели (15.16) — это сумма геометрической профессии, т. е. Y^bj^b^-^bQ-X + b^-l} ■¥Ь^-')^ +...= У=о л , 1 = Ь^-{\^-Х + Х' -^Х' ■¥...) = Ь^"^, (15.23) то средний лаг определяется как 00 (15.24) 471
Нетрудно заметить, что при X = 0,5 средний лаг / = 1, а при / < 0,5 средний лаг / < 1, т. е. воздействие фактора на результат в среднем занимает менее одного периода времени. Величину (1-Я) интерпретируют обычно как скорость, с которой происхо- дит адаптация результата во времени к изменению факторного признака. Для расчета медианного лага необходимо выполнение следующего условия: I Р;= I -^= I -^^—Г= ^ ^'ii-^)=0,5. (15.25) J..0 J-.0 ^1, >0^^ 1 М Поэтому медианный лаг в модели Койка равен*: In 0,5 'м.=-^- (15.26) Пример 15.4. Исследуя взаимосвязь реальной заработной платы и уровня безработицы, Дж. Сакс и М. Бруно использовали следующую модель**: £/^ = 5о + 5i • Uf_i + 52 • / + 5з • w, + 6/, где .и„ U,_j — соответственно уровень безработицы в периоды / и /—1; 5о» §1» §2» ^3 ~ параметры модели; W, — превышение реальной заработной платы над ее уровнем в ус- ловиях полной занятости; / — время; 8, — ошибка. Значения переменной w^ были получены расчетным путем. Для экономики Канады по данным за 1961—1981 гг. авторы получили следующее уравнение регрессии***: U, = &Q + 0,63 • f/,_i + 0,07 • t + 15,72 • w,, R^ = 0,85. /-критерий (5,46) (2,82) (2,23) 'Если L^ =' /=o 1-Х ** Bmno M., Sachs J.D. Economics of Worldwide Stagflation. — USA. Harvard University Press, Cambridge, Mass, 1985. - P. 185. *** Значение параметра 6o в источнике не указано. 472
Переменная Wf в этой модели является одним из факторов, определяющих спрос на труд. Если предположить, что перемен- ная Wf оказывает влияние на уровень безработицы с бесконечным временным лагом в условиях геометрической структуры лага, то в соответствии с методом Койка мы получим следующую модель с распределенным лагом: Uf = а + bQ' Wf-^- bQ- Х- Wf_i + bQ-X^ • Wf_2 + ... + с • / + e^. Данная модель отличается от модели (15.16) тем, что, помимо текущего и лаговых значений факторного признака, она учиты- вает фактор времени /. Проведя алгебраические преобразования в соответствии с методом Койка, нетрудно убедиться, что эта мо- дель сводится к следующей модели авторегрессии: Ut = {a'{l-X) + X'c) + {l-X)' Uf_^-^-C'{l-X)-t + bQ-Wf-^ и„ т. е. 8о = fl • (1 - Я,) + А, • с; 5у = 1 - Я,; 52 = с • (1 - X,); 5з = bQ. В модели Сакса и Бруно X = 0,63. Рассчитаем параметры модели Койка: с = 0,07/(1-0,63) = 0,189; a = &Q /(1 - 0,63) + 0,189 • 0,63 = 0,119 + 2,703 • Sq; bo = 15,72; Й1 = 15,72 0,63 = 9,904; b2 = 15,72 • (0,63)^ = 6,239; 63 = 15,72-(0,63)^ = 3,931 и т д. Модель Койка имеет вид: и, = (0,119 + 2,703 • 5о) + 15,72 • w, + 9,904 • w,., + 6,239 • w,_2 + + 3,931 •w^_3 + ...+ 0,189/. Средний лаг в этой модели согласно (15.24) составит: 7 = 0,63/(1-0,63) = 1,703. Величину медианного лага в соответствии с формулой (15.26) можно определить как ^^ In 0,63 -0,46203 Таким образом, в среднем воздействие разницы между реаль- ной заработной платой в экономике Канады и ее величиной в ус- ловиях полной занятости проявляется в течение относительно 473
короткого промежутка времени — 1,7 года, причем половина это- го воздействия реализуется в течение первых 1,5 лет с момента изменения Wf. 15.3.3. Метод главных компонент Пример 15.5. Инфляция как экономическое явление опре- деляется множеством одновременно и совокупно действующих причин и имеет долговременный характер. Например, увеличе- ние денежной массы или рост цен на сырье приведет к повыше- нию уровня цен не сразу, а спустя несколько периодов времени. Зарождение нового витка инфляции обусловлено динамикой факторов с некоторым временным запаздыванием. Пусть модель инфляции описывается уравнением: у, = а% + аV\ +о,\х\_^ + ... + а\х\_,^ + aV/ + ^^i' ^/-i + ■f a}s2^t-s2 "^otV/ + ct\^/-i + - + ^\^i-s2 + ^V^ + a\^Vi + - -^ +aVV.4 + «V/ + a^x^_l + ... + a',/,_,^ + aV/ + a^xVl + ... + +aVV.6 +^V/ + a^xVi + ... + aW.7 "^ ^V/ + a^xVl + ... + +ocVV.8 + «V/+ot'ii^Vi +... + </f-s, + ^Vt+^'\A-i +... .-^10 „10 A. г,П ^n , ^n ^n . .-,11 „11 j.^l2„12 . . ^12 „12 . . -.12 „12 . r#13 vl3 Ф ryl3 vl3 4. + + a jX ^_i + ... + a jj2^ ;_,j2 + a qX ; + a ix ,_, + ... + где >» - сводный индекс потребительских цен на товары и услуги; х^ - индекс оптовых цен на промышленную продукцию; х^ - стоимость ресурсов; х^ - индекс тарифов на транспорт; х"^ — индекс капитальных вложений; х^ - розничный товарооборот; х^ — состоящие на учете в службе занятости; х^ - среднесуточный выпуск промышленной продукции; X* - средневзвешенный курс доллара; х^ — прожиточный минимум всего населения; х^® - денежные доходы надушу населения; х^^ — стоимость набора из 19 основных видов продуктов питания; х^^ — денежный агрегат Мг; х^^ — сальдо внешней торговли; 474
х^^ — общая кредиторская задолженность; x,_J - лаговые значения /-го фактора, / = 1,...,14;у = О,..., 5,; а^,..., а "* — параметры (коэффициенты) регрессии; ао — константа регрессии; Е, — случайные остатки. Исходные данные представлены в табл. 15.2. Возникает вопрос: как найти значение временного запазды- вания для каждого показателя? Для установления соответствую- щих временных лагов используем корреляционный анализ дина- мических рядов данных. Основным критерием для определения временного лага является наибольшая величина коэффициента взаимной корреляции временных рядов показателей с различ- ным периодом запаздывания их влияния на показатель инфля- ции. В итоге уравнение примет следующий вид: Для того чтобы получить хорошие в статистическом смысле оценки параметров, необходимо, чтобы факторные признаки бы- ли независимы. Наличие в уравнении лаговых значений для каж- дого фактора, а также зависимость факторов между собой вслед- ствие экономической специфики задачи приводят к тому, что объясняющие переменные оказываются мультиколлинеарными. Для решения этой проблемы использованы, во-первых, метод Койка; во-вторых, метод главных компонент. 475
Период 1997 г. Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь Декабрь 1 S VO 5 ж X 102,30 101,50 101,40 101,00 100,90 101,10 100,90 99,90 99,70 100,20 100,60 101,00 X S о 101,10 101,60 101,30 100,80 100,50 100,80 100,20 100,50 100,10 100,10 100,20 100,20 л н о т о о 2 ^ и сх 101,10 100,40 101,30 101,20 101,20 100,60 101,50 100,20 98,30 99,70 100,40 100,90 о с 3 X j2J_ 99,90 97,60 100,80 99,90 100,50 101,70 100,70 101,10 98,40 99,90 101,40 99,10 1 ed л X й 3 37,60 106,50 113,40 97,50 101,60 121,40 102,10 106,20 110,70 92,10 107,30 160,10 1 § 91,50 92,80 104,30 101,50 97,90 98,70 100,80 103,70 104,60 100,30 101,50 116,00 § 3 ^ 1 а> О X л '=^ й- 100,40 101,50 99,80 99,00 95,60 95,30 96,40 96,90 96,00 97,50 99,20 100,10 « о X В X |1 11 71,70 117,40 103,20 98,90 93,50 105,20 103,80 103,30 97,30 115,70 91,90 93,40 cd СХ 101,20 100,80 100,90 100,60 100,20 100,20 100,30 100,50 100,50 100,50 100,50 100,70 « 3 ^ 1 ^ S о X 100,10 102,50 101,00 101,00 101,20 101,40 100,90 97,90 97,30 99,00 101,00 101,00 3 § X о ^ к 3 2 X X 1 S ^ X 79,50 100,30 102,90 106,60 92,50 110,10 96,60 97,10 98,50 105,70 97,40 129,90 1 S Is 1 S 11 101,60 101,30 101,20 101,00 100,80 101,40 100,80 100,30 99,50 100,00 100,50 100,70 £ е- Сч. ее 100,00 100,60 103,30 102,10 103,90 103,30 107,20 103,10 100,40 99,60 101,60 96,90 3 о П X ^ ж 11» >» О S о S, 3 *> с 2 = >» S « 5 и ЕС 95,70 101,30 105,00 96,10 95,90 101,40 101,70 101,60 100,30 106,00 97,70 102,00 1 ее Г) «« « cd л Зое VO CUO о ^ t::t / 102,00 95,50 102,90 99,50 103,30 101,60 104,30 100,10 101,30 105,50 102,60 102,40 Таблица 15.2 Темпы роста основных ма1фоэкономических показателей за 1997—1998 гг. (в % к предыдущему периоду)
Продолжение Период 1998 г. Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь Декабрь 1 S VO о * 101,50 100,90 100,60 100,40 100,50 100,10 100,20 103,70 138,40 104,50 105,70 111,60 X g 2 S а S о 100,90 100,50 99,90 100,00 99,10 100,00 99,20 98,80 107,40 105,90 105,10 104,80 100,20 101,50 100,50 99,70 100,50 101,20 100,40 103,50 119,60 103,80 105,30 109,40 н о* о с: 101,20 100,00 100,10 98,50 99,90 90,20 116,40 100,60 106,80 101,00 100,70 102,00 1 о 34,70 106,50 109,70 97,70 104,20 119,80 103,40 107,00 106,70 92,90 107,60 152,10 « а 3 о S ^ СП со 82,30 91,60 103,40 100,30 99,20 99,00 102,30 106,80 96,70 92,70 100,40 108,10 si S се ^ & ^ ю 98,60 100,70 98,80 98,90 96,20 96,00 98,70 99,20 100,00 103,10 103,40 103,10 X в X а S о S 65,20 107,50 108,80 85,50 110,00 98,00 95,30 96,70 78,80 102,70 98,80 100,30 о. si 101,10 100,80 100,60 100,40 100,50 100,60 100,60 126,70 203,20 99,70 111,70 115,50 X g 1 о X 100,70 100,40 100,70 101,20 100,70 100,20 100,40 102,70 122,60 103,80 108,00 115,80 2 о 3 2 X X t=t X 63,90 104,30 101,70 105,50 91,30 102,60 102,60 96,60 81,50 107,80 69,70 122,80 1 S ^ 3 а X 11 101,10 100,80 100,40 99,70 100,20 100,30 99,90 102,20 114,80 104,80 103,10 109,10 С5. ed 104,70 96,60 100,50 99,30 102,10 100,50 99,60 97,70 95,40 106,50 103,20 105,10 3 о ю X 11 = g = | и с с 93,20 101,20 104,80 95,80 93,20 100,90 94,50 99,30 96,90 100,10 100,00 107,10 1 ее п о X к Н X э о е 8&§ 103,80 80,00 101,90 102,80 102,30 99,70 103,10 99,70 104,20 144,10 91,00 105,40
Для расчета параметров по методу Койка исходные данные были преобразованы в новые переменные z^ г^, ..., z^"* согласно формуле z' = х\ + 5^ • х',_1 + 5^ • х^2 + - + 5^ • ^\-р. rjxQp - количество лаговых значений переменной, включенных в уравнение. Полученная матрица векторов-значений z, представлена в табл. 15.3. Таким образом, от оценки параметров исходной модели пере- ходим к оценке параметров нижеприведенного уравнения: +P8-^' + P9-^ + PlO-^^'+Pir^'' + Pl2-^*' + Pl3-^^' + Pl4-^^' + e, Экономический смысл заключается в следующем: в уравне- нии z* (/ = 1,..., И) отражает совокупное влияние У-го фактора с учетом инерционности, задержки во времени влияния на показа- тель инфляции yf. Вновь встает задача оценки параметров уравнения множест- венной рефессии. Действительно, исходя из экономического смысла значения z! (/ = 1, -, 14) представляют собой афегирован- ные экономические показатели, которые находятся в тесной вза- имосвязи и взаимозависимости. Изменение одного из них ведет к изменению всех остальных. Это происходит вследствие мульти- коллинеарности, вызванной экономическим содержанием зада- чи. Для решения этой проблемы используется метод главных компонент Суть метода - сократить число объясняющих глав- ных компонент. Это достигается путем линейного преобразования всех объ- ясняющих переменных х' (/ = О, ..., п) в новые переменные, так называемые главные компоненты. При этом требуется, чтобы вьщелению первой главной компоненты соответствовал макси- мум общей дисперсии всех объясняющих переменных х' (/ = О, ..., п). Второй компоненте - максимум оставшейся дис- персии, после того как влияние первой главной компоненты ис- ключается и т. д. 478
Таблица 15.3 Матрица векторов-значений z 1 131.60 132,00 131,50 130,90 130,70 130,90 130,30 130,50 130,10 130,20 130,20 130,30 131,10 130,50 129,90 129,70 1 129,10 2 111,14 110,53 111,42 111,32 1И,26 110,75 111,52 110,03 108,27 109,74 110,49 110,92 110,35 111,55 110,47 109,75 110,62 3 99,90 100,50 101,70 100,70 101,10 98,40 99,90 101,40 99,10 101,20 100,00 100,10 98,50 99,90 90,20 116,40 100,60 4 296,38 361,60 371,95 361,70 370,98 380,01 354,49 358,65 397,22 343,65 357,14 357,57 290,63 360,33 369,37 363,90 373,78 5 227,01 233,70 242,89 239,12 237,16 240,00 244,52 245,93 244,16 240,65 241,71 241,40 216,70 231,96 242,24 238,92 238,24 6 125,67 126,37 124,37 122,89 119,48 119,41 120,59 120,99 120,46 122,33 124,16 124,83 123,67 125,37 123,39 122,96 120,33 Показатели 7 98,90 93,50 105,20 103,80 103,30 97,30 115,70 91,90 93,40 65,20 107,50 108,80 85,50 110,00 98,00 95,30 96,70 8 396,68 396,45 396,71 397,14 397,48 397,59 397,68 397,82 398,03 398,03 404,38 432,74 441,31 455,42 473,92 466,65 457,57 9 244,89 244,53 243,60 241,69 239,34 240,43 243,28 245,16 244,94 244,58 244,59 246,03 247,06 248,15 251,15 251,58 251,96 10 253,11 279,25 273,76 279,03 269,83 275,69 263,77 271,36 272,52 298,57 266,06 271,89 240,14 281,28 270,60 270,77 266,74 11 200,30 200,20 200,30 199,30 198,60 198,30 199,10 199,70 199,90 200,00 199,40 199,10 199,00 200,20 201,60 202,70 205,50 12 306,22 307,94 306,45 304,93 299,18 294,72 296,50 295,59 293,94 297,14 292,83 296,74 296,30 296,27 291,55 293,34 295,02 13 186,87 195,80 191,49 182,41 187,16 192,93 193,14 191,87 195,70 193,93 189,50 185,88 184,28 195,52 191,02 179,68 184,01 14 1 187,95 188,11 192,45 192,47 194,74 195,47 194,39 191,27 196,25 197,84 194,76 195,12 175,80 171,71 194,42 194,87 192,03
Таким образом, выполненное преобразование содействует уменьшению мультиколлинеарности новых вьщеленных пере- менных по сравнению с мультиколлинеарностью набора исход- ных переменных X, (/ = О,..., п). Процедура вычислений по методу главных компонент состо- ит из следующих шагов. Шаг 1. Строится матрица, элементами которой являются от- клонения результатов наблюдений над п переменными от соот- ветствующих средних (х,у - X,); / = О,..., m;j = О,..., п: х'^ = Х2\-Х^ Х22-Х2 ^2п ~^п X —X , (15.27) Шаг 2. Определяется матрица дисперсий и ковариаций объ- ясняющих переменных: О^ —" 1 AI-1 (15.28) Матрица S^^ имеет размерность пхп. Главные компоненты Zy (/ = О,..., п) являются линейными ком- бинациями объясняющих переменных Ху* (/ = О,..., л) и могут быть записаны в общем виде как Zj = x-'^pj = ^.n. (15.29) Они должны удовлетворять упомянутому выше требованию: каждый раз вьщеленная главная компонента должна воспроизво- дить максимум дисперсии. На неизвестные векторы коэффици- ентов Qj в (15.29) накладываются дополнительные ограничения: a;aj=\\j= 0,« (т. е. они должны быть нормированы) и ajaf, = Q\ J^k; j = 0,n; к= 0,п (т. е. они должны быть некоррелированы). Дисперсия главной компоненты Zj Sl = aj-S^-aj\j= 0,я (15.30) (15.31) (15.32) 480
должна принимать наибольшее значение при соблюдении усло- вий (15.30), (15.31). Для решения проблемы максимизации функ- ции, связанной дополнительными ограничениями, пользуются методом множителей Лафанжа. В конечном итоге задача сводит- ся к определению собственных значений матрицы S^ и соответ- ствующих собственных векторов aj. Собственные значения матрицы S^ определяются из уравне- ний, которые в общем виде записываются как |5^-^/| = 0, (15.33) где X — множитель Лафанжа; / — единичная матрица. Подставляя последовательно собственные значения, начиная с наибольшего, в уравнение {S^-XI)'aj = OJ = 0^n, (15.34) получим собственные векторы матрицы S^^, соответствующие этим собственным значениям. Собственные векторы затем ис- пользуются для построения искомых векторов коэффициентов в формуле (15.29). Поскольку собственные векторы известны, по формуле (15.29) можно определить главные компоненты. При этом обыч- но довольствуются меньшим, чем л, числом главных компонент, но достаточным, чтобы воспроизвести большую часть дисперсии. По мере выделения главных компонент доля общей дисперсии становится все меньше и меньше. Процедуру вычисления глав- ных компонент прекращают в тот момент, когда собственные значения, соответствующие каждый раз наибольшим дисперси- ям, становятся пренебрежимо малыми. Количество выделенных главных компонент г в общем случае значительно меньше числа объясняющих переменных т. По г главным компонентам строит- ся матрица Z С помощью главных компонент оцениваются пара- метры рефессии B = (Z^Z)-\Z^Y) (15.35) и вычисляются значения регрессии Y = ZB, (15.36) 31-3291 481
При всех своих преимуществах (уменьшение высокой муль- тиколлйнеарности объясняющих переменных) метод главных компонент обладает и недостатками. Во-первых, главным ком- понентам, как правило, нелегко подобрать экономические ана- логи. Поэтому вызывает затруднение экономическая интерпре- тация оценок параметров рефессии, полученных по формуле (15.35). Во-вторых, оценки параметров рефессии получают не по исходным объясняющим переменным, а по главным компонен- там. В итоге можно сказать, что метод главных компонент приме- няется в основном для оценки значений рефессии и для опреде- ления прогнозных значений зависимой переменной, что также является целью рефессионного анализа. В данной задаче офаничились двумя главными компонентами: где С\ = 0,3131 • z^ + 0,2308 • z^ - 0,0930 • ^ - 0,3490 • z^ - - 0,3704 • ^ + 0,3100 • z^ + 0,0993 • z^ + 0,3625 • z^ + 0,2093 • z^ - - 0,2460 • z^^ + 0,3628 'Z^^+ 0,0032 • z^^ - - 0,0605 • z^^ - 0,3222 • z^^; (?, = 0,1244 • z^ + 0,4067 • £- - 0,1337 • i + 0,2158 • z^ + + 0,2240 • z^ - 0,1696 • z^ + 0,4243 • z^ - 0,2906 • z^ + 0,3651 • z^ + + 0,0144 • z^^ + 0,3143 • z^^ + 0,3812 • z^^ + 0,0569 • z^^"^ + 0,1736-Л Итоговая модель имеет вид: у, = 100,8 + 0,1 • г* + 0,1 • г^ - 0,04 • ^ - 0,07 • г^ - 0,07 • z^ + },06 • z^ + 0,07 • z'^ + 0,06 • z^ + 0,09 • z^ - 0,06 • z^^ + 0,13 • z^^ + + 0,04 • z^2 - 0,01 г^^-0,06 Л Построенное уравнение рефессии выявило следующую осо- бенность инфляции, присущую российской экономике. Такие показатели, как стоимость потребительской корзины и прожи- точный минимум населения, обнаружили высокое влияние на индекс потребительских цен. Об этом свидетельствуют значения коэффициентов взаимной корреляции этих факторов с темпом роста индекса потребительских цен и значения весовых коэффи- 482
циентов при этих показателях. Так, весовой коэффициент при факторе, отражающем стоимость потребительской корзины, ра- вен 0,13, что является наибольшим значением весового коэффи- циента во всем регрессионном уравнении, и 0,09 при показателе прожиточного минимума населения. 15.4. МОДЕЛИ АДАПТИВНЫХ ОЖИДАНИЙ и НЕПОЛНОЙ КОРРЕКТИРОВКИ Эконометрические методы, разработанные для построения и анализа моделей авторегрессии и моделей с распределенным ла- гом, широко используются для эмпирической верификации мак- роэкономических моделей, в которых учитываются ожидания экономических агентов относительно значений экономических показателей, включенных в модель, в момент времени /. В зависимости от положенной в основу модели гипотезы о механизме формирования этих ожиданий различают модели адаптивных ожиданий, неполной корректировки и рациональ- ных ожиданий. Поскольку эмпирические расчеты по моделям ра- циональных ожиданий достаточно сложные и требуют знания специальных методов математической статистики, рассмотрение которых выходит за рамки данного учебника, остановимся подробнее на двух более простых моделях — адаптивных ожида- ниях и неполной корректировке и покажем, что оценку парамет- ров каждой из этих моделей можно проводить, используя обыч- ную модель авторегрессии. Модели адаптивных ожиданий. Рассмотрим модель вида };, = ^ + 6-xVi + e„ (15.37) где у^ — фактическое значение результативного признака; х*,+1 - ожидаемое значение факторного признака. Механизм формирования ожиданий в этой модели следую- щий: х*,+1 -х\ = а- (Xf - х\) (15.38) или x*f+i = а • х^ + (1 - а) • x*fy (15.39) гдеО<а< 1. ЗГ 483
Таким образом, ожидаемое значение факторной переменной х/ в период / - это средняя арифметическая взвешенная ее фак- тического и ожидаемого значений в предьщущий период. Иными словами, как показывает соотношение (15.38), в каждый период времени / + 1 ожидания корректируются на некоторую долю а разности между фактическим значением факторного признака и его ожидаемым значением в предыдущий период. Параметр а в этой модели называется коэффициентом ожиданий. Чем ближе коэффициент ожиданий а к 1, тем в большей степени реализуют- ся ожидания экономических агентов. И, наоборот, приближение величины а к нулю свидетельствует об устойчивости существую- щих тенденций. При а = О из соотношения (15.38) или (15.39) мы получим, что Xf* = Xf, т. е. «условия, доминирующие сегодня, со- хранятся и на все будущие периоды времени. Ожидаемые буду- щие значения показателей совпадут с их значениями текущих пе- риодов»*. Подставим в модель (15.37) вместо x*^+i соотношение (15.39): yf = а + Ь- (a-Xf + {I -а)-х*^) + 6^ = = а + а • Л • х^ + (1 - а) • 6 • X* + е^. (15.40) Если модель (15.37) имеет место для периода /, то она будет иметь место и для периода /-1. Таким образом, в период /-1 получим: У/_1 = А + 6-х* + е^_,. (15.41) Умножим (15.41) на (1 - а): (1 - а) • >',_1 = (1 - а) • л + (1 - а) • й • X* + (1 - а) • е^_,. (15.42) Вычтем почленно (15.42) из (15.40): у^- {I - а) • у,_1 = а - (I - а) • а -^ а • b ' Xf-\- Ef- {I -a)-e^_i (15.43) или yj = a • a + a ' b • Xf + (I - a) • yf_i + Uf, (15.44) где W/ = e,-(l-a)-8^_i. ^ Shaw G.K. Rational Expectations: An Elementary Exploration. - N. Y: St.- Martin's Press, 1984. - P. 19 - 20. 484
Мы получили модель авторегрессии, определив параметры которой, можно легко перейти к исходной модели (15.37). Для этого с помощью коэффициента при у^_^ сначала надо найти зна- чение коэффициента ожиданий а, а затем рассчитать параметры аиЬ модели (15.37), используя полученные значения свободного члена и коэффициента регрессии при факторе Xf мо- дели (15.44). Основное различие моделей (15.37) и (15.44) состоит в том, что модель (15.37) включает ожидаемые значения факторной пе- ременной, которые нельзя получить эмпирическим путем. По- этому статистические методы для оценки параметров модели (15.37) неприемлемы. Модель (15.44) включает только фактичес- кие значения переменных, поэтому ее параметры можно опреде- лять на основе имеющейся статистической информации с помо- щью стандартных статистических методов. Однако, как и в слу- чае с моделью Койка, применение МНК для оценки параметров уравнения (15.44) привело бы к получению их смещенных оценок ввиду наличия в правой части модели лагового значения резуль- тативного признака у^_1. Модель (15.37), характеризующая зависимость результатив- ного признака от ожидаемых значений факторного признака, на- зывается долгосрочной функцией модели адаптивных ожиданий. Модель (15.44), которая описывает зависимость результата от фактических значений фактора, называется краткосрочной функ- цией модели адаптивных ожиданий. Пример 15.6. Вернемся к модели из примера 15.4. Теперь предположим, что разница между реальной заработной платой и ее уровнем в условиях полной занятости — это не наблюдаемая, а ожидаемая величина, механизм формирования ожиданий для ко- торой определяется соотношением (15.39) модели адаптивных ожиданий, т. е. wVi = a-w, + (l -a)-w\, гдеО<а< 1. Долгосрочная функция для уровня безработицы имеет вид: Uf = а + Ь' w*f^i + с-1 + Sf. Выполнив алгебраические преобразования, применяемые при получении краткосрочной функции в модели адаптивных 485
ожиданий, получим краткосрочную функцию для данной мо- дели: f/^ = (д • а +(1 - а) • с) + (1 - а) • f/^_i + а • й • W, + а • с • / + v^, гдеу, = Е,--(1 -а)-8,_1. В соответствии с моделью Сакса и Бруно имеем: а • А + с • (1 - а) = 5о ;а = 2,703 • Sq - 0,189; 1-а = 0,63; а = 0,37; a-b=\5J2\ с = 0,189; а-с = 0,07; 6 = 42,486. Выпишем долгосрочную функцию модели адаптивных ожи- даний: и, = (2,703 5о - 0,189) + 42,486 w^i + 0,189 / + v,. В соответствии с интерпретацией коэффициента ожиданий а, который в данной модели составил 0,37, можно сказать, что около 37% различий между фактическими и ожидаемыми значе- ниями Wf и w*f+i реализуются в течение одного года. Модель неполной корректировки. В отличие от модели адап- тивных ожиданий в модели неполной корректировки эмпириче- ски ненаблюдаемой переменной является результативный при- знак. Общий вид этой модели следующий: y\ = a + b'X, + Sf. (15.45) Формирование ожиданий экономических агентов относи- тельно значений у* происходит по следующей схеме: yi-yt-i = ^'(y*i-yt.i)-^^n (15.46) гдеО<р< 1. В этой модели предполагается, что абсолютное изменение фактических уровней результата — это некоторая доля его ожида- емого абсолютного изменения. Параметр р в данной модели на- зывают корректирующим коэффициентом. Чем ближе величина Р к 1, тем в большей степени реальная динамика показателя отве- 486
чает ожиданиям экономических агентов. Чем ближе Р к О, тем ме- нее реальное изменение показателя соответствует его ожидаемо- му изменению. При р = О значение результативного признака яв- ляется константой, на которую ожидания агентов не оказывают никакого воздействия. Модель (15.45) называется моделью неполной корректи- ровки. Запишем гипотезу о формировании у* в виде y,= p->;>(l-p));,.i+v, (15.47) Таким образом, фактическое значение результата текущего периода у^ — это средняя арифметическая взвешенная его ожида- емого значения текущего периода у/ и фактического значения за предьщущий период времени у^.,. Подставим уравнение (15.45) в найденное выражение для у^ (15.47). Получим: );, = р-(д + 6-х, + 8,) + (1-Р)-у,_1 = р-д + р-й-х,+ + (l-P)->',-i + w„ (15.48) где «, = Р • e,+v,. Соотношение (15.48) — это основное уравнение модели не- полной корректировки. Его называют краткосрочной функцией модели. Как и в модели адаптивных ожиданий, уравнение (15.48) включает только фактические значения переменных. Зная оцен- ки параметров этого уравнения, можно найти р. Затем путем ал- гебраических преобразований рассчитать параметры а и b урав- нения (15.45), описывающего зависимость ожидаемого значения результата от значений факторного признака. Уравнение (15.45) называют долгосрочной функцией модели неполной корректи- ровки. Пример 15.7. На основе поквартальных данных за 1950-1960 гг по Великобритании Ф. Бречлинг получил следую- щее уравнение рефессии, характеризующее спрос на труд*: аД = 14,22+0,172е/-0,028/-0,0007/^-0,297£'^_1, (2,61) (0,014) (0,015) (0,0002) (2,61) ^Brechling F.P.R. The relationship between output and employment in British manufacturing industries // Review of Economic Studies. - Vol. 32. - 1965. - July. 487
гдеА£, = Е,-Е,_{, Ef — уровень занятости; Qf — объем выпуска продукции; / — время. В скобках указаны значения стандартных ошибок коэффици- ентов рефессии. В основу этой модели была положена предпосылка о том, что в долгосрочной перспективе существует определенный желатель- ный уровень занятости Е^, который есть функция от объема вы- пуска Q и времени /. Кроме того, механизм формирования ожида- ний относительно значения Е^ определяется соотношением E,-E,_, = ^'(E;-E,_j), где О < Р < 1 — корректирующий коэффициент. Данная модель относится к типу моделей неполной коррек- тировки. Гипотезу о формировании ожиданий можно переписать в виде £,= р-< + (1-Р) •£,_!. (15.49) Поскольку AEf = Ef — Ef_i, имеем: Ef =14,22 + 0,172 • Qf - 0,028 • / - 0,0007 • t^ + + (1-0,297)-^^.i. (15.50) Учитывая, что желательный уровень занятости — это функция от объема выпуска Qf и переменной времени /, в результате срав- нения (15.49) и (15.50) получим, что Р • £•/ = 14,22 + 0,172 • Qf - 0,028 • / - 0,0007 • t^ и 1 - Р = 1 - 0,297. Следовательно, Р = 0,297. Это означает, что фактическое из- менение уровня занятости {Ef — Ef_{) составляет 0,297 от его же- лательного изменения {Е* — Ef_{). Функция спроса на труд в долгосрочной перспективе — это зависимость желательного уровня занятости Ef* от независимых переменных модели Qf и /. Так как Р • £•/ = 14,22 + 0,172 • Qf - 0,028 • / - 0,0007 • Г^, 488
то Е* =ifi22^ 0Д72 _0^ ^ 0,0007 ^2 ' 0,297 0,297 ' 0,297' 0,297 ' или £* = 47,879 + 0,5790, - 0,0943/ - 0,0024/^. 15.5. ОЦЕНКА ПАРАМЕТРОВ МОДЕЛЕЙ АВТОРЕГРЕССИИ Описанные выше преобразования Койка, модель адаптивных ожиданий и модель неполной корректировки сводятся к модели авторефессии вида (15.2). Однако при построении моделей авто- рефессий возникают две серьезные проблемы. Первая проблема связана с выбором метода оценки парамет- ров уравнения авторефессии. Наличие лаговых значений резуль- тативного признака в правой части уравнения приводит к нару- шению предпосылки МНК о делении переменных на результа- тивную (стохастическую) и факторные (нестохастические). Вторая проблема состоит в том, что поскольку в модели авто- рефессии в явном виде постулируется зависимость между теку- щими значениями результата;;^ и текущими значениями остатков w„ очевидно, что между временными рядами у^_х и и^_^ также су- ществует взаимозависимость. Тем самым нарушается еще одна предпосылка МНК, а именно предпосылка об отсутствии связи между факторным признаком и остатками в уравнении рефес- сии. Поэтому применение обычного МНК для оценки парамет- ров уравнения авторефессии приводит к получению смещенной оценки параметра при переменной j;^_i. Одним из возможных методов расчета параметров уравнения авторефессии является метод инструментальных переменных. Сущность этого метода состоит в том, чтобы заменить перемен- ную из правой части модели, для которой нарушаются предпо- сылки МНК, на новую переменную, включение которой в модель рефессии не приводит к нарушению его предпосылок. Примени- тельно к моделям авторефессии необходимо удалить из правой части модели переменную >;^_i. Искомая новая переменная-, кото- рая будет введена в модель вместо у^_х, должна иметь два свойст- ва. Во-первых, она должна тесно коррелировать с y^_i, во-вторых, она не должна коррелировать с остатками и^. 489
Существует несколько способов получения такой инструмен- тальной переменной. Поскольку в модели (15.2) переменная у^ зависит не только от j^^.j, но и от х^ можно предположить, что имеет место зависимость з/^_1 otx^_i, т. е. yt-i = do-^di-Xf_i-^u,. (15.51) Следовательно, переменную з^^_1 можно выразить следующим образом: yt-i=yt-\ + u^, (15.52) i^/-i =^о + ^Г^/-1- (15.53) Найденная с помощью уравнения (15.53), параметры которого можно искать обычным МНК, оценка yf_i может слу- жить в качестве инструментальной переменной для фактора у^. Эта переменная, во-первых, тесно коррелирует с );^_i, во-вторых, как показывает соотношение (15.53), она представляет собой ли- нейную комбинацию переменной x^_i, для которой не нарушает- ся предпосылка МНК об отсутствии зависимости между фактор- ным признаком и остатками в модели регрессии. Следовательно, переменная >^^_1 также не будет коррелировать с ошибкой и^. Таким образом, оценки параметров уравнения (15.2) можно найти из соотношения у^ = а-^Ьо'Х^ + с^- Я_1 + v^, (15.54) предварительно определив по уравнению (15.53) расчетные зна- чения y^_i. Допустимо использовать также следующую модификацию этого метода. Подставим в модель (15.2) вместо у^_1 его выраже- ние из уравнения (15.51): у^ = а-^ bQ'Xf + Ci' (dQ + d^- x^.j + u^) + e^. (15.55) Получим следующую модель: y^ = (fl + Cj • do) + 6o • ^Л ^r ^1 * ^/-1 + (^1 • «/ + S/)- (15.56) Уравнение (15.56) представляет собой модель с распределен- ным лагом, для которой не нарушаются предпосылки обычного МНК, приводящие к несостоятельности и смещенности оценок параметров. Определив параметры моделей (15.51) и (15.56), можно рассчитать параметры исходной модели (15.2) а, ^о и Cj. 490
Модель (15.56) демонстрирует еще одно важное свойство изло- женного выше метода инструментальных переменных для оцен- ки параметров моделей авторефессии: этот метод приводит к за- мене модели авторефессии на модель с распределенным лагом. Отметим, что практическая реализация метода инсфумен- тальных переменных осложняется появлением проблемы муль- тиколлинеарности факторов в модели (15.54): функциональная связь между переменными yf_i и x^_i приводит к появлению высо- кой корреляционной связи между переменными у^_1 и х^. В неко- торых случаях эту проблему можно решить включением в модель (15.54) и соответственно в модель (15.2) фактора времени в каче- стве независимой переменной. Еще один метод, который можно применять для оценки пара- мефов моделей авторефессии типа (15.2), — это метод макси- мального правдоподобия, рассмофение которого выходит за рамки данного учебника. Пример 15.8. Обратимся к данным о среднедушевом распо- лагаемом доходе и среднедушевых расходах на конечное пофеб- ление в США в период с 1960 по 1991 г, представленных в табл. 14.6 (пример 14.5). Определим по этим данным парамефы модели авторефессии вида yt = a-^bQ-x, + c^-y^_^ +6^, где Xf — среднедушевой располагаемый доход (долл. США); У1 — среднедушевые расходы на конечное потребление (долл. США). Применение обычного МНК для расчета парамефов этой модели приводит к получению следующих результатов: у, = -21,43 +0,522х, -\-0A'i5y,_^; Л^ =0,996. (131,987) (0,098) (0,105) В скобках указаны стандартные ошибки парамефов уравне- ния рефессии. Однако, как было показано выше, оценка парамефа Cj, рав- ная 0,435, является смещенной. Для получения несмещенных оценок парамефов этого уравнения воспользуемся методом ин- сфументальных переменных. Определим парамефь} уравнения рефессии (15.51) обычным МНК: ivTi =-139,065+0,918x/_i; F =0,994. (146,406) (0,013) 491
в скобках указаны стандартные ошибки параметров уравне- ния рефессии. Определим по этому уравнению расчетные значе- ния р^_1, а затем параметры уравнения рефессии (15.2). Получим следующие результаты: Я=-1»4,578+0,827х,+0,107у,.1; F =0,994. (172,967) (0,155) (0,166) В скобках указаны стандартные ошибки параметров уравне- ния рефессии. Применение метода инструментальных перемен- ных привело к статистической незначимости параметра Cj = 0,107 при переменной y^.j. Это произошло ввиду высокой мультиколлинеарности факторовх^ \\yt-\- Несмотря на то, что ре- зультаты, полученные обычным МИК, на первый взгляд лучше, чем при применении метода инструментальных переменных, вряд ли можно доверять обычному МНК вследствие нарушения в данной модели его предпосылок. Поскольку ни один из методов не привел к получению достоверных результатов оценок парамет- ров, следует перейти к получению оценок параметров данной мо- дели авторефессии методом максимального правдоподобия. При оценке достоверности моделей авторефессии необходи- мо учитывать специфику тестирования этих моделей на автокор- реляцию остатков. В разд. 14.4 мы уже упоминали, что для проверки гипотез об автокорреляции остатков в моделях авторег- рессии нельзя использовать критерий Дарбина — Уотсона. Это объясняется тем, что применение критерия Дарбина — Уотсона предполагает строгое соблюдение предпосылки о разделении пе- ременных модели на результативную и факторные (точнее - о нестохастической природе факторных признаков уравнения рег- рессии). При наличии в правой части уравнения рефессии лаго- вых значений результата и, следовательно, несоблюдении этой предпосылки фактическое значение критерия Дарбина - Уотсо- на приблизительно равно двум как при отсутствии, так и при на- личии автокорреляции остатков. Происходит это по следующей причине. Предположим, в уравнении (15.2) имеет место автокорреля- ция остатков, т. е. er = г^e,_l + w„ (15.57) где Uf — случайные остатки, тогда: :V; = А + йо • х^ + с, • у^_^ + /^1 • 8/_1 + Uf, (15.58) 492
Для периода / - 1 уравнение (15.2) примет вид: 3^,-1 = a + bQ- х,_1 + Ci • у,_2 + 8,_1. (15.59) Как следует из соотношения (15.59), переменные yf_^ и б^_, взаимосвязаны. Поэтому в соотношении (15.58) часть воздейст- вия 8^_1 нгу( будет объясняться взаимодействием y^_i и e^.j, поэто- му чистое воздействие e^_i на j^^ будет невелико. Критерий Дарби- на - Уотсона в данной ситуации будет в основном характеризо- вать случайные остатки и^, а не остатки е^ в модели (15.2). Для проверки гипотезы об автокорреляции остатков в моде- лях авторегрессии Дарбин предложил использовать другой кри- терий, который называется критерием А Дарбина. Его расчет проводится по следующей формуле*: -«-f'i^ (15.60) где d - фактическое значение критерия Дарбина - Уотсона для модели авторегрессии; п - число наблюдений в модели; V - квадрат стандартной ошибки при лаговой результативной пере- менной. Распределение этой величины приблизительно можно ап- проксимировать стандартизованным нормальным распределени- ем. Поэтому для проверки гипотезы о наличии автокорреляции остатков можно либо сравнивать полученное фактическое значе- ние критерия h с табличным, воспользовавшись таблицами стан- дартизованного нормального распределения, либо действовать в соответствии со следующим правилом принятия решения. 1. Если А > 1,96, нулевая гипотеза об отсутствии положитель- ной автокорреляции остатков отклоняется. 2. Если Л < —1,96, нулевая гипотеза об отсутствии отрицатель- ной автокорреляции остатков отклоняется. 3. Если —1,96 < Л < 1,96, нет оснований отклонять нулевую гипотезу об отсутствии автокорреляции остатков. Пример 15.9. Вернемся к модели авторегрессии из примера 15.8, параметры которой были получены методом инструмен- тальных переменных: * Расчет этого критерия возможен только в случаях, когда л • V< 1. 493
р,=-184,578+0,827х,+0,107 3;,_i; Л^ =0,994. (172,967) (0,155) (0,166) Протестируем эту модель на автокорреляцию остатков. Сформулируем нулевую гипотезу: Hq — отсутствует автокорреляция в остатках. Нд* — отсутствует отрицательная автокорреляция в остатках. Рассчитаем по формуле (15.60) величину критерия Л Дарбина: поскольку полученное значение h = 4,69, следует отклонить нулевую гипотезу об отсутствии положительной автокорреляции остатков. Контрольные вопросы 1. Приведите примеры экономических задач, эконометричес- кое моделирование которых требует применения моделей с распределенным лагом и моделей авторефессии. 2. Какова интерпретация параметров модели с распределенным лагом? Перечислите абсолютные и относительные показате- ли силы связи модели с распределенным лагом. 3. Какова интерпретация параметров модели авторегрессии? В чем специфика долгосрочного лага в этой модели? 4. В чем сущность метода Алмон? При какой структуре лага его используют? 5. Опишите методику применения подхода Койка для построе- ния модели с распределенным лагом. При какой структуре лага его используют? 6. Изложите методику применения метода главных компонент для построения модели с распределенным лагом. 7. В чем сущность модели адаптивных ожиданий? Какова мето- дика оценки ее параметров? 8. В чем сущность модели неполной корректировки? Какова методика оценки ее параметров? 9. Приведите методику использования метода инструментальных переменных для оценки параметров модели авторегрессии. 10. Изложите методику тестирования модели авторефессии на автокорреляцию в остатках. Почему в этих целях не рекомен- дуется использовать критерий Дарбина — Уотсона? 11. Приведите основную идею моделей векторной автофессии. Каковы преимущества и недостатки этих моделей? 12. В чем сущность моделей рациональных ожиданий? Какова специфика оценки их параметров?
16 Глава МОДЕЛИ ПАНЕЛЬНЫХ ДАННЫХ 16.1. ОСНОВНЫЕ понятия Множество данных, состоящих из наблюдений за однотипны- ми статистическими объектами, например странами, домохозяй- ствами, фирмами и т.п., в течение нескольких временных перио- дов, называется панельными, или пространственными, данными. В случае, когда периодов времени наблюдений больше числа наблюдаемых объектов, панельные данные называют также объе- диненным временным рядом (pooled time series). Однако обычно множество панельных данных состоит из наблюдений за боль- шим числом объектов в течение лишь небольшого числа перио- дов. В этой ситуации гораздо более важным является моделиро- вание различий между наблюдаемыми объектами, т.е. их неодно- родность (гетерогенность), чем анализ неких эффектов во време- ни, что является предметом анализа временных рядов. Таким об- разом, хотя панельные данные и могут рассматриваться как на- бор временных рядов, применяемые к ним модели обычно уделя- ют больше внимания различиям между объектами наблюдения, чем временным аспектам. Но несмотря на то, что временные эффекты в явном виде не моделируются, панельные данные содержат информацию отно- сительно развития однотипных объектов во времени. Во многих интересных областях экономических исследований панельные данные являются единственной возможностью провести эмпи- рическую проверку теории. Особенно это применимо к анализу состояния объектов до и после какого-либо события, динамичес- ких корректировок и идентификации потоков товарооборота. Кроме того, панельные данные и дают возможность, и требуют использования особых моделей и методов оценивания, которые позволяли бы извлечь больше информации для выбора модели и давали бы более эффективные оценки. 495
Большинство рассматриваемых методов проиллюстрировано примерами. С этой целью использованы условные данные неболь- шого объема офаничений, если это позволяет получить соответ- ствующие результаты даже без использования компьютера. Теоретические обоснования и уровень сложности вводимых формул сведены к минимуму, чтобы не отвлекать читателя от ос- новной темы — практического эконометрического анализа. Нес- колько более детальное описание теории представлено в прило- жении 1. 16.2. АНАЛИЗ ДВУХПЕРИОДНЫХ ПАНЕЛЬНЫХ ДАННЫХ Природа панельных данных видна уже на множестве наблю- дений, проведенных в течение двух периодов. В этой ситуации у нас имеются данные об п однотипных объектах, например домо- хозяйствах, за Г= 2 периода времени, / = 1 и / = 2. Обозначим за- висимую переменную через у^, а р объясняющих переменных - черезx^^i, ...,х,-^^для/= 1, ...,а1И/= 1,2. Первый вопрос, который естественно задать в отношении по- добных данных, - о наличии различий между двумя периодами. Часто такие два периода относятся к периодам до и после измене- ния какой-либо политики, и изучению подлежат эффекты этого изменения. Этот вопрос можно решить, во-первых, рассмотрев два отдельных подмножества панельных данных, соответствую- щих двум периодам. Другой возможный вопрос относится к инди- видуальному развитию однотипных единиц наблюдения. Ответ на этот вопрос не может быть найден посредством изучения двух от- дельных подмножеств панельных данных, но все множество па- нельных данных, взятых вместе, позволяет ответить на него. 16.2.1. Панельные данные по сравнению с независимыми наблюдениями за однотипными объектами Существенное различие между панельными данными и неза- висимыми наблюдениями за однотипными объектами состоит в том, что в случае панельных данных у нас имеются наблюдения за 496
одними и теми же объектами во все периоды времени. Следова- тельно, данные содержат больше информации, чем наблюдение за объектами в один момент времени. С другой стороны, предпо- ложения относительно вида функции распределения для постро- ения и оценивания моделей должны выбираться с большей тща- тельностью. Начнем рассмотрение со случая только одной объясняющей переменной, т. е. /? = 1, для которого можно использовать прос- тую рефессионную модель с ошибкой Uij, / = 1, ..., А7 и /= 1, 2. у нас имеется 2 п наблюдений, w - в период времени \wn — в период времени 2. Если бы у нас были два независимых множества наблюдений за однотипными объектами, т. е. одна выборка для / = 1 и другая, отличающаяся выборка для / = 2, мы могли бы анализировать данные двумя способами. Во-первых, если мы не предполагаем никаких изменений во времени и независимые одинаково рас- пределенные {U.d.) ошибки i/,Y для всех / и обоих /, мы могли бы оценить параметры b^vib^, используя вместе все 2 п наблюдений. Во-вторых, если мы хотим изучать изменения во времени и пред- полагаем i,Ld. ошибки w^Y для всех / в период / = 1 и /./.^., но, воз- можно, уже с другим распределением, ошибки Uq^ для всех / в период / = 2, мы можем провести два независимых оценивания параметров для / = 1 и / = 2 и сравнить результаты, полученные по этим независимым выборкам, чтобы увидеть изменения в разви- тии объектов. Теперь, если у нас есть панельные данные, т. е. выборка по п однотипным объектам с наблюдениями в периоды / = 1 и / = 2 для каждого, мы не можем принять те же предпосылки, что и в случае с независимыми множествами наблюдений за однотипными объ- ектами. Даже если мы предположим отсутствие изменений во времени, проблематично предполагать, что для любого / ошибки Wyi и Uf2 независимы, поскольку они относятся к одному и тому же объекту наблюдения. Если мы предположим наличие изменений во времени и разобьем данные в соответствии с двумя периодами времени, предположение о i.i.d. ошибках для каждого периода времени в отдельности уже не вызывает проблем. Но в этом слу- 32-3291 497
чае мы уже не должны трактовать два получаемых множества оцененных параметров как независимые, поскольку они получе- ны из одной и той же выборки. Если мы так поступим, то не на- рушим никаких предпосылок, но пренебрежем зависимостями и информацией, содержащимися в данных, что приведет к менее эффективным оценкам, чем это возможно. Пример 16.1. Проанализируем соотношение времени, кото- рое студенты потратили на изучение университетских курсов, полученными ими баллами по этим курсам. Данные о времени, потраченном на изучение, были собраны в результате опроса на последней лекции перед каждым экзаменом текущего (/ = 2) и предьщущего семестров (/ = 1). Пусть ;^,y *" баллы из 100 возмож- ных, ajc^Y - среднее время в течение недели, которое студент / пот- ратил на изучение курса в период / согласно ответу в опросе. Дан- ные для л = 10 студентов, которые участвовали в обоих последо- вательных курсах и экзаменах, представлены в табл. 16.1. Таблица 16.1 Сведения по студентам (панельные данные за два периода) Студент 1 2 3 4 5 6 7 8 9 10 Семестр 1 время 60 100 30 45 120 180 100 60 90 90 баллы 81 75 60 82 78 95 79 92 78 67 Семестр 2 время 60 120 60 30 150 150 100 80 90 60 баллы 84 87 79 78 87 92 84 97 75 66 По этим данным (см. табл. 16.1) можно построить пять ос- мысленных регрессий: отдельно по первому семестру, отдельно по второму семестру, по объединению первого и второго семест- ров, а также разности между первым и вторым семестрами с константой и без нее. Графики и некоторые численные результа- ты этих рефессий представлены в табл. 16.2 и на рис. 16.1. В пер- 498
вых двух регрессиях параметр наклона Pi не значим на 90%-ном уровне, в третьей благодаря большому объему выборки - значим. R в первых трех рефессиях значительно меньше, чем в двух пос- ледних. (Заметим, для рефессии без константы R имеет несколь- ко другие свойства, поскольку оцененные остатки не обязательно дают в сумме нуль). Кроме того, в двух последних рефессиях па- раметр наклона Pj значим на 99%-ном уровне. Обсуждение раз- личий в результатах первых трех и последних двух рефессии бу- дет продолжено в следующем разделе. Таблица 16.2 Результаты оценивания регрессий на основе сведений по студентам (в скобках дано значение стандартного отклонения) Модель Семестр 1 Семестр 2 Объединение Разности с константой Разности без константы Константа ро или а 68,570 (7,203) 72,605 (6,485) 70,444 (4,725) 3,512(1,417) - Наклон Pi 0,116(0,075) 0,114(0,066) 0,117(0,049) 0,275 (0,066) 0,294 (0,082) R' 0,231 0,271 0,242 0,685 [0,588] 16.2.2. Взятие разностей Связь между наблюдениями в панельных данных может быть разумным образом использована. Если мы вычтем уравнение для периода времени / = 1 из уравнения для / = 2 в модели (16.1), то получим: U-2-3^/l) = Pl(^/2-^/l)+(W/2-"/l)» (16.2) где остался единственный параметр Pj. Для уравнения (16.2) в на- шей выборке имеется п независимых наблюдений, и мы можем оценить параметр Pj, применяя метод наименьших квадратов к рефессии, проходящей через начало координат. Но мы можем получить уравнение (16.2) и в том случае, если начнем с модели с различными свободными членами: 32 499
>'//=Р0/+М/7+«//' (16.3) где каждому объекту наблюдения ставится в соответствие свое значение свободного члена Ро,, после чего берутся разности уже для этих уравнений. Вновь параметр, соответствующий свобод- ному члену, сокращается, и потому этот метод получил название взятия разностей. Семестр 2 90- 80- 70- 60- О о о о Семестр 1 ^^•^^^ о о о о 50 100 150 Время обучения, ч а 50 100 Время обучения, ч б 90- 80- 70- 60- Семестр 2 + Семестр 1 о о о . « о ^^^'^^""""^'^^ о ^S— оО о ^-"-"^ со о о о Семестр 2 - Семестр 1 50 100 150 Время обучения, ч в m о15' £ 5Н § О О. -5 I I I -I 1 г -30 -20-10 О 10 20 30 Разность времени обучения, ч Рис. 16.1. Отдельные, объединенная и разностные регрессии по данным успеваемости студентов Параметр Ро/ "^ смыслу включает индивидуальные и неиз- менные во времени характеристики объекта наблюдения, кото- рые предположительно влияют на объясняемую переменную у. Решающим моментом здесь является то, что из уравнения (16.2) 500
параметр Pj может быть оценен без оценивания п индивидуаль- ных параметров Ро/. Таким образом, мы допускаем наличие опре- деленной гетерогенности среди объектов наблюдения, которая в модели полностью описывается параметром индивидуального свободного члена. Но хотя эта гетерогенность в явном виде и не наблюдается, общий параметр наклона Pi может быть оценен. Внутренне присущее панельным данным свойство заключается в том, что они позволяют учитывать ненаблюдаемую гетероген- ность. При этом возникает естественный вопрос: не следует ли смо- делировать разницу между измерениями в два разных периода времени? Этого можно достичь введением переменной dl^ со зна- чением, равным О для первого экзамена при / = 1 и 1 для второго при / = 2. Такая переменная со значениями только О и 1, указыва- ющая на наличие определенного свойства, называется фиктив- ной (дамми) переменной, в данном случае мы вводим фиктивную переменную времени. Тогда общий вид модели с фиктивной пере- менной y^f =ad2f +Ро/ +Р>л +^/- (16.4) Избавившись от Ро, посредством взятия разностей, получим: (Ук ->'i/) = a + Pi(^2/ -^1/)+(«2/ -"!/)» (16.5) поскольку переменная d 2^ равна О для ^ = 1. Модель (16.5) пред- ставляет собой модель простой рефессии со свободным членом, параметры которой могут быть оценены обычным методом наи- меньших квадратов. Параметр а может быть интерпретирован как различие в среднем между наблюдениями в два разных пери- ода времени. Пример 16.1 (продолжение). Мы предполагаем, что среднее время, затраченное на учебу в течение недели, объясняет резуль- таты, полученные на экзамене. Но предположим также, что име- ются некоторые индивидуальные и неизменные во времени ха- рактеристики студентов, влияющие на баллы, которые могут быть описаны, например сообразительность, предьщущие зна- ния или мотивация, однако при этом они не наблюдаемы или не измеряемы. Применяя метод взятия разностей, мы можем оце- нить параметр Pj в (16.3), описывающий влияние времени, затра- 501
ченного на учебу, в то время как свободные члены Ро/ будут моде- лировать различающиеся индивидуальные характеристики. Од- нако мы не пытаемся оценить эти cвoбoдныJp члены, поскольку нас не интересуют индивидуальные значения. Результат этой оценки — регрессия разностей без константы (см. табл. 16.2 или нижнюю линию на рис. 16.1 г). В данном примере мы должны также провести различие меж- ду двумя экзаменами, поскольку два экзамена охватывают раз- ные темы и могут иметь разные уровни сложности, что может привести к различиям в среднем результате. Это можно учесть посредством введения фиктивной переменной и последующего оценивания модели (16.5). Результатом этого оценивания являет- ся регрессия разностей с константой (см. табл. 16.2 или верхнюю линию на рис. 16.1 г). Результат регрессии разностей с константой является наилуч- шим из всех рефессий, представленных в табл. 16.2. Параметр Pj, описывающий влияние дополнительной минуты учебного време- ни в неделю, имеет значение /-статистики больше 4 и является значимым на любом разумном уровне значимости. Фиктивная пе- ременная а, отражающая влияние времени (или, что то же самое, экзамена), также является значимой, указывая на различие в сред- нем уровне сложности между двумя экзаменами. Значит, следует предпочесть эту модель с фиктивной переменной, соответствую- щей экзамену, модели разностей без константы. Индивидуальные свободные члены Ро/ модели (16.3) неявно присутствуют в нашей модели, но мы их не оценивали. Эти параметры описывают влия- ние всех остальных, не зависящих от времени или вида экзамена характеристик студентов, например сообразительности. Общая объясненная доля вариации составляет: R = 0,685, что является приемлемым показателем, большим, чем у отдельных и объеди- ненной моделей. Однако следует отметить, что объединенная рег- рессия построена на основе 20 наблюдений, в то время как осталь- ные четыре - на 10. Отдельные модели с коэффициентами накло- на, незначимыми на 90%-ном уровне значимости, по-видимому, оценены на слишком малом количестве наблюдений. Объединен- ная модель имеет значимые коэффициенты, но она не принимает во внимание различия между студентами (гетерогенность) или эк- заменами (временной эффект). Также критически следует отнес- тись в случае объединенной модели и к выполнению предпосыл- ки о независимых ошибках для всех студентов и экзаменов. 502
Пример 16.2. Рассмотрим панельные данные за два перио- да, взятые из Российского мониторинга экономического здо- ровья (РМЭЗ или RLMS, www.cpc.unc.edu/rlms). Мы проанали- зируем только данные о реальных доходах и расходах из 9 (2000 г.) и 10 (2001 г) раундов для Москвы и Санкт-Петербурга. Это выбо- рочное множество данных содержит значения общих реальных доходов Xjt и общих реальных расходов y^f для п = 160 домохо- зяйств (/ = 1,..., 160) и / G {2000, 2001}. Все домохозяйства, кото- рые не жили в одном и том же городе в обоих периодах (6) либо не дали ответов по одной из четырех переменных (38), в обследо- вании были исключены из множества данных. Здесь мы не оста- навливаемся на проблемах, связанных с такого рода пропущен- ными данными, и предполагаем, что отсутствие ответа домохо- зяйства не связано с его потребительским поведением. Результаты оценивания представлены на рис. 16.2 и в табл. 16.3. Здесь результаты не настолько ясны, как в случае с данными о студентах, поскольку R^ для регрессий разностей меньше, чем для остальных регрессий. Оценки отдельных и объединенной рефессии отличаются от оценок рефессий разностей. Все пара- метры, за исключением константы для рефессии разностей, зна- чимы на довольно высоком уровне. Это означает, что отсутствует значимый временной эффект либо различие в среднем между двумя раундами обследования (это будет не так для номинальных величин). Тем не менее разумно предположить различное, хотя и постоянное во времени потребительское поведение домохо- зяйств, ненаблюдаемую гетерогенность. Поэтому модель разнос- тей без учета временного эффекта соответствует сделанным пред- Таблица 16.3 Результаты оценивания регрессии на основе сведений о доходах и расходах (в скобках приведено значение стандартного отклонения) Модель 2000 2001 Объединенная Разности с константой Разности без константы Константа Pq или а 1573,5(879,1) 1777,4(1036,2) 1731,3(673,9) -77,93 (724,4) - Наююн Pi 1,007(0,114) 0,922(0,114) 0,953 (0,080) 0,689(0,161) 0,685(0,156) R' 0,361 0,323 0,339 0,117 [0,122] 503
положениям наилучшим образом. Более того, оценка параметра Pi близка к единице в отдельных и объединенной рефессиях, оз- начая, что почти весь доход потреблялся, а с учетом положитель- ной константы получается, что потреблялось больше, чем доход. Это возможно только в случае траты накопленных сбережений. Оценки рефессий разностей указывают на то, что доля потребле- ния в общем доходе составляет примерно 70%, что больше соот- ветствует здравому смыслу. 6- ^ 5- о 74- 1" б2- ОН 2001 о о о о d 2000 1 2 Доходы-10^ а 10 15 20 Доходы-10^ б 6- * 5- о V4- Р- §2- ^1- U-J о о^ ооо о^М 2001 + 2000 0 о о ^OfY ^ , о о ^^ рО ^^^— Ъ о 1 г- d 1 2 Доходы-10^ в % - i4- " S.0- : ё-2- X 2001-2000 о о ° ^ о @ ^ §*^*да^о о о о о о 1 2 Разность доходов ■ 10^ Рис. 16.2. Отдельные, объединенная и разностные регрессии по данным о доходах и расходах Тем не менее результат еще не является удовлетворительным. Следует провести анализ выбросов. (По меньшей мере три кри- тических наблюдения скрываются на рис. 16.2 г.) Однако наше множество данных является довольно приблизительным и афе- 504
тированным. Данные РМЭЗ содержат намного более детальную информацию об источниках дохода (например, заработная плата, рентные доходы, субсидии) и о направлениях расходов (напри- мер, питание, жилье, товары длительного пользования). Тща- тельный анализ, несомненно, даст и более хорошие результаты. 16.2.3. Обобщение на более чем два периода наблюдений Обычно панельные данные покрывают не только два периода наблюдений. Предположим теперь, что Г > 2. Оказывается, и в этом случае можно применить метод взятия разностей по незави- симым от времени параметрам. Если мы не контролируем раз- ности в различные моменты времени, то правомерна модель (16.3) и уравнение для / = 1 просто вычитается из уравнений для всех остальных моментов времени /, в результате чего исчезают свободные члены, описывающие индивидуальные эффекты раз- личных объектов наблюдения. В этом случае модель принимает вид: (Уи -Уп) = Мхи -Xn)Hui, -un), t =2,...,Г. (16.6) Теперь у нас имеется (Г-1) / п независимых наблюдений, ос- тавшихся в выборке, и мы можем оценить Pi методом наимень- ших квадратов из рефессии, проходящей через начало коорди- нат. Если мы введем фиктивные переменные d2, d3, ..., dT, соот- ветствующие временным периодам, чтобы уловить специфичес- кие временные эффекты, и будем моделировать их каждый со своим свободным членом, то получим: У1, =OL2d2, +... + a7^rf7; +Ро,- +PiX,., +щ,. (16.7) Избавившись от Ро/ посредством вычитания уравнения для / = 1 из остальных, получим: (>'//-Л1) = М2г +... + aTdT, +pi(x,, -Xi^)Hu, -w^i), t = 2,...,Г. (16.8) И вновь у нас имеется (Т—\)/п независимых наблюдений, ос- тавшихся в выборке, и мы можем оценить pj и а2,..., aj-методом 505
наименьших квадратов из рефессии, проходящей через начало координат. В этом случае избежать регрессии, проходящей через начало координат, можно, удалив из уравнения фиктивную пере- менную d2{, Uv '■Уп) = ^2 +азА +... + а7'^7; л-^{х^, -Хл)+(«^, -w^), / = 2,...,Г. (16.9) Это оставляет неизменным параметр Pj, только изменяет сущность параметров а^ для / = 3,..., Г. Теперь ai оценивает раз- ность свободных членов для моментов времени / = 1 и / = 2, а а^, / > 3, соответствует отклонению от этой разности в момент времени /. Эти параметры не очень удобны для интерпретации, но они редко интересуют исследователя, так как улавливают спе- цифические эффекты, соответствующие определенным момен- там времени. Преимущество оценивания регрессии с констан- той, как правило, компенсирует этот недостаток. 16.3. ХАРАКТЕРИСТИКИ ПАНЕЛЬНЫХ ДАННЫХ Сущность панельных данных заключается в наличии множе- ственных наблюдений за одними и теми же объектами. Любое множество панельных данных имеет ряд общих характеристик. Тем не менее в зависимости от фактического процесса, генериру- ющего данные, для каждого множества панельных данных появ- ляются свои особые свойства. Поскольку эти характеристики яв- ляются существенными для последующей работы с данными, мы вкратце обсудим их, прежде чем продолжить эконометрическое моделирование на панельных данных. 16.3.1. Реальные данные Сбор панельных данных — более сложный и дорогостоящий процесс, чем сбор данных по независимым выборкам, поскольку все объекты наблюдения в выборке должны быть прослежены или идентифицированы в продолжении нескольких периодов времени. Эти дополнительные усилия оправданы приростом ин- 506
формации, содержащейся в панельных данных. Более техничес- кие аспекты этого мы уже наблюдали (см. разд. 16.2), где панель- ные данные позволяли учесть в модели ненаблюдаемую гетеро- генность. Однако панельные данные позволяют очень легко рас- познать и описать некоторые аспекты, скрытые при анализе только временных данных. Типичным примером является анализ безработицы. Пример 16.3. При постоянном во времени уровне безрабо- тицы населения очевидно, что имеется большое различие между ситуацией, в которой безработными постоянно оказываются од- ни и те же люди, и ситуацией, в которой люди часто меняют ра- боту. Панельные данные позволяют идентифицировать потоки или перемещения между различными состояниями наблюдаемых объектов. Даже простое измерение этих потоков и их представле- ние часто являются ценным источником информации, а иногда и основной целью сбора панельных данных. Покажем на данном примере распознавание панельных данных. Распознавание перемещений: 1 — занятый, О — безработный. О 1 1 1 11 111^ 11111 1111111 1111111 0 0 0 0 0 0 0 V против ^11110 11^ 1110 111 110 1111 10 11110 0 11110 1 Если у нас имеются данные о каждым объекте наблюдения в каждый момент времени, т. е. если нет пропущенных наблюде- ний, о панельных данных говорят, что они сбалансированные (или полные). Сбалансированная панель является идеальным случаем и отправной точкой теории. Однако на практике получение не- посредственно сбалансированной панели — крайне редкий слу- чай. Если это вообще может быть достигнуто, то за счет дополни- тельных усилий и высоких издержек. Кроме того, в панельных данных имеется общая проблема обследований — отсутствие от- ветов по некоторым позициям и связанная с этим проблема са- моотбора, вызывающая смещение в данных. Но для панельных данных эта проблема является даже более серьезной, поскольку 507
здесь выборочное обследование проводится в течение более дли- тельного времени. Если объект наблюдения не ответит хотя бы один раз в течение Г периодов наблюдения, мы будем вынужде- ны считать отсутствующим все множество наблюдений по этому объекту. Еще более усложняет жизнь тот факт, что отсутствие от- вета может иметь вполне естественную причину, возможно, она даже коррелирует с наблюдаемыми величинами. Например, че- ловек или домохозяйство переезжает из одного города в другой и таким образом выпадает из выборки. Этот эффект называется па- нельной смертностью, или истощением. Объявление данного наб- людения отсутствующим может привести к смещенным оценкам или по крайней мере к неэффективным, поскольку потеряна часть информации. Следовательно, методы работы со сбаланси- рованными панелями должны быть обобщены на несбалансиро- ванные панели, которые могут включать данные с пропущенны- ми ответами. Вариантом составления выборки, смягчающим эффекты от (неконтролируемой) панельной смертности, является ротацион- ная панель, часто применяемая в случаях, когда объектом наблю- дения выступают домохозяйства. При таком построении выбор- ки каждый объект наблюдения выпадает из обследования по ис- течении определенного числа периодов времени Г*, например четырех, после чего в обследуемую выборку добавляется новый объект, который наблюдается также только в течение Т* перио- дов времени. И вновь методы работы с панельными данными должны быть скорректированы для работы с такого рода множе- ствами данных. Вернемся к примеру 16.2. Двухпериодная панель данных о до- ходах и расходах уже подвержена панельной смертности, или исто- щению. Из 183 домохозяйств столичных городов, опрошенных в 2000 г, 6 не могли быть повторно обследованы в 2001 г Для 38 из этих домохозяйств данные имелись только за один год, и их приш- лось исключить из рассмотрения. Конечно, исключенные данные могли быть использованы для регрессий по отдельным годам. Это истощение панели отчасти происходит потому, что РМЭЗ в действительности не организовано как панельное обследова- ние. Оно старается обследовать одно и то же домохозяйство в те- чение ряда лет, но тратит не слишком много усилий на отслежи- вание домохозяйств с течением времени. 508
16.3.2. Микровыборки и общие макроопросы в большинстве эконометрических исследований базовым яв- ляется один из двух типов панельных данных - микроэкономет- рические панели, в которых объекты наблюдения, как правило, индивиды, домохозяйства или фирмы, и макроэконометричес- кие панели, где объектами наблюдения служат страны, регионы, города и т.п. Несмотря на внешнее сходство, получение данных во многом различается. В то время как в первом случае выборка составляется из большой, точно определенной генеральной сово- купности, во втором случае выборка часто состоит из полного обследования всех стран континента или всех регионов страны. Это различие очень существенно в отношении стохастических предпосылок модели, которую мы пытаемся оценить. С методологической точки зрения микроэконометрическая выборка является более подходящим вариантом. Фактически - это классический случай, для которого и были разработаны и применяются методы работы с панельными данными. Поэтому мы будем работать со стохастическими предпосылками, соответ- ствующими этому типу данных. Обычно линейная зависимость панельных данных, которую мы предполагаем или хотим проанализировать, для /-го объекта наблюдения определенной генеральной совокупности записыва- ется как Л/=И//+х;Р + "//. (16.10) Такое уравнение, возможно с иными индексами у параметров H,Y и Р, мы будем называть уравнением генеральной совокупности. Здесь Uit - остатки, которые удовлетворяют определенным пред- посылкам, например, их обычно считают случайными величина- ми с нулевым математическим ожиданием. Более того, они долж- ны быть независимыми друг от друга или по крайней мере офа- ниченными в своей взаимозависимости. Проблема заключается в том, чем оправдать предпосылки в отношении остатков. Общепринято рассматривать остатки как сумму всех остальных (менее значимых) эффектов, которые в мо- дели не измеряются или не рассматриваются. Но в таком случае откуда же появится случайность? И действительно ли все эти эф- 509
фекты, агрегированные в один остаток, ведут себя в соответствии с предпосылками? Иногда это вполне вероятно, но в общем слу- чае на такие вопросы невозможно дать удовлетворительный от- вет, объясняющий введенные предпосылки. Поэтому анализ панельных данных обычно проводится с дру- гой точки зрения. Рассмотрим некоторую генеральную совокуп- ность, относительно которой мы хотим сделать определенные заключения, например, с использованием линейной модели. Для этой конкретной генеральной совокупности всегда найдутся та- кие параметры ц,^ и р, что в среднем уравнение (16.10) будет спра- ведливо со стремящимся к нулю средним остатком, т. е. с нулевой суммой всех остатков. Теперь предположим, что наши данные являются случайной выборкой из этой большой генеральной сово- купности. Следует отметить, что если объект попал под наблюде- ния, то все данные для / = 1,..., Г добавляются в выборку Зафик- сируем период времени /, тогда у^ и каждое х,^ являются i.i,d, (независимыми, одинаково распределенными) случайными вели- чинами по отношению к случайной выборке из генеральной сово- купности. Также и остатки, определяемые как и^ = у^^ - \1ц + х',уР, являются U.d, случайными величинами с нулевым математичес- ким ожиданием. Но, конечно, у^^, х^^ и и^, не обязательно незави- симы, даже не для разных моментов времени /, s, г, поскольку они относятся к одному и тому же объекту наблюдения выборки. Их зависимость и является объектом нашего изучения, и коррект- ным способом записи модели будет: Е[у,|х,] = ц,+х;д (16.11) Это уравнение мы назовем уравнением модели. Остаток не при- сутствует в уравнении (16.11) и должен неявным образом удовлет- ворять условию E[Uit I xj = О, т. е. математическое ожидание при условии x^Y должно быть равным нулю. Это предположение гораздо сильнее, чем E[w/J = О, которое автоматически выполняется для условного математического ожидания. Предпосылка о стремя- щемся к нулю условном математическом ожидании придает моде- ли объясняющую способность, без которой она была бы простым описанием данных. Важное следствие этой стохастической моде- ли состоит в том, что рефессоры являются случайными перемен- ными. Только в этом случае имеет смысл задаваться вопросом о том, коррелируют ли регрессоры с остатками или нет. 510
Из предпосылки E[w,71X/J = О следует, что рефессоры и остат- ки не коррелируют между собой, а также следует, что для любой функции g, не равной константе, остатки w,^ и^(х^^) не коррелиру- ют между собой. Это очень сильное предположение, исключаю- щее даже нелинейные зависимости. Для данных общих обследований на макроуровне эти предпо- сылки не являются адекватными, поскольку по своей природе эти данные являются более описательными, так как вся генераль- ная совокупность обследуется полностью. Тем не менее те же ме- тоды и модели формально могут быть применены и к таким мно- жествам панельных данных. Однако к интерпретации результа- тов в этом случае следует подходить с особой тщательностью, поскольку источник случайности в модели, если он вообще пред- полагается, отличен от рассмотренного выше. Часто при анализе панельных данных используются аргумен- ты асимптотической теории, как и в эконометрике в целом. По- скольку панельные данные имеют два измерения - время и объ- екты наблюдения, формально возможны два вида асимптотичес- кой сходимости: N-^сои Т-> оо. Однако временные ряды произ- вольной длины не являются реалистичной предпосылкой при ра- боте с реальными данными, в то время как предположение о больших или даже бесконечных генеральных совокупностях, из которых проводится выборка, является более уместным. Поэтому основные асимптотические результаты, такие, как устойчивость или асимптотическое распределение, представленные далее в этой главе, всегда относятся к большим п. 16.3.3. Описательный анализ Первым шагом в анализе любых реальных данных должен быть описательный анализ данных. Наиболее очевидной целью этого анализа является проверка множества данных на несоот- ветствия, пропущенные значения, ошибки форматирования и т.д. Примеры некоторых возможных источников ошибок — предположение, что данные представлены в своем изначаль- ном виде, в то время как данные прологарифмированы; пропу- щенные данные закодированы отрицательными числами, тогда как смысл имеют только положительные значения перемен- 511
ной; порядок численных значений переменных различается в множестве данных и имеющейся документации и т.п. На самом деле это настолько элементарно, что иногда исследователь просто забывает об этом или полагается на работу коллег, полу- чая в итоге неверные результаты, которые очень сложно обна- ружить на более поздних этапах работы. Фактически для всех трех типов перечисленных выше ошибок в данных алгоритм ра- боты с панельными данными будет прекрасно выполняться, и оценки — хотя и неверные — могут быть получены без проблем. И если эти оценки не слишком странные, ошибка никогда не будет замечена. Основной мотивацией исследовательского анализа является ознакомление с данными. Следует найти амплитуду разброса данных, изучить данные на наличие возможных выбросов или кластеров, выполнить проверку на коллинеарность переменных и т. п. Необходимо помнить, что любое графическое представле- ние данных помогает лучше понять их. Многие многомерные ме- тоды могут применяться неформально. Если данные содержат слишком много единиц исследования, иногда полезно сделать маленькую подвыборку этих данных и отобразить ее фафически. Все это впоследствии помогает интерпретировать результаты бо- лее глубокого анализа данных. Простейшая визуализация панельных данных - построение в одной координатной плоскости (1 + ^ фафиков временных рядов, из которых состоят панельные данные, как на рис. 16.3. Рассмотрим реальные панельные данные по российским регио- нам (соответствующие числовые данные приведены в приложе- нии 1). Мы изучим это множество данных более детально в разд. 16.10. Графики временных рядов, соответствующих этому мно- жеству, приведены на рис. 16.4. На этом рисунке мы явно видим позитивный тренд в большинстве регионов по всем перемен- ным, кроме числа занятых, которое остается приблизительно постоянным. В большинстве регионов две переменные, отража- ющие производство товаров и услуг, имеют большой прирост после 1998 г, в то время как балансовая стоимость основного капитала не слишком выросла после 1996 г. Далее мы увидим, как применять эти наблюдения при моделировании и интерпре- тации результатов. 512
8 см 8 см in о о о см § см in о 8 8 см см in о о см 8 о г- ^ см см со о о о о о о о о о о о о о см см см см см см см Рис. 16.3. Временные ряды данных по фирмам ВРП БС 6- ^ ю «о 0> О) О) о> о> о> ы ю а> 0> О) 0> Oi Oi Oi in о> О} со <л Oi N. О) Oi 00 СЗ) О) О) о> О) ^, год f, год КЗР со Oi Z о> С7> i о> N. а> со О) О) О) о> о> со ю с^ о> (О О) о> N о О) 00 О) О) О) а> о> в ^год ^. год Рис. 16.4. Временные ряды данных по российским регионам 33-3291 513
16.4. ОСНОВНЫЕ ОБОЗНАЧЕНИЯ И ТЕРМИНОЛОГИЯ Определим вкратце основные обозначения, применяемые к панельным данным в этой главе, для того чтобы избежать пута- ницы и правильно организовать процесс анализа. Поскольку панельные данные имеют временное и простран- ственное измерения, мы можем записать их в виде матрицы z = (zn ^21 ^Z„\ t Момент врем ени 1 Zi2 ••• Z22 - Z„2 - t ... Момент времени 2 Z\T ZiT ^пТ J <- Объект 1 <г- Объект 2 <-Объект я t Момент времени Т где элементы z^ = (у,-^, jc,-;) е Л^^"*"^, у^^ g Л, х^^ g В!^ индексируют- ся по своей принадлежности к определенному объекту наблю- дения / и моменту времени t. На самом деле в общем виде, т. е. для rf > О, Zne просто матрица, а куб, так как элементы Zit явля- ются векторами размерности (1 ■+■ ^. При построении регресси- онной модели мы всегда будем предполагать, что зависимая пе- ременная у it стоит на первом месте, а за ней следуют d объясня- ющих переменныхoc^Y = {х^^,..., х^^^'. Хотя такое представление в виде куба является весьма естественным, оно имеет некото- рые неудобства. Когда мы записываем данные на бумаге или вводим в таблицу, как этого требует большинство компьютер- ных программ, мы ограничены двумя измерениями, т. е. матри- цами. Кроме того, нам привычнее использовать линейную ал- гебру применительно к матрицам, а не к таким необычным объектам более высокой размерности, как кубы. Поэтому мы трансформируем куб Z в вектор j' и матрицу А"следующим обра- зом: 514
'Уп^ У\т У = Уп\ .х = ^1,11 Ып \\т '" ^d,\T \,^1пТ '" ^d,nT J УпТ V J («быстрый» индекс: время; «медленный» индекс: объекты наблюдения) т. е. упорядочиваем данные для зависимой переменной сначала по индексу объекта наблюдения /, а потом по индексу времени /. Затем мы записываем данные в этом порядке в вектор у размер- ности NT, Для данных объясняющих переменных X мы поступа- ем аналогичным образом с той только разницей, что здесь у нас будет больше одного столбца, и мы компонуем их из векторов- строк x'lf = (xijf, X2jf,..., Xjjf), При необходимости мы можем объ- единить уиХ, чтобы получить составную матрицу Z = (у, X) раз- мерности {NTx (1 + d)). Для использования в компьютерных программах данные должны быть приведены к вышеописанной форме с индексами по объекту наблюдения и по времени. Наше маленькое множест- во, взятое в качестве примера, будет в этом случае выглядеть, как в табл. 16.4 (конечно, без названий переменных). Каждая строка соответствует одному наблюдению. Первый столбец содержит индекс объекта наблюдения, в данном случае номер фирмы, а второй столбец относится к периоду времени, в данном случае году наблюдения. Третий столбец содержит дан- ные наблюдений за зависимой переменной у, рыночной стои- мостью, а последние два столбца — данные наблюдений за неза- висимыми переменными X, оборотом и прибылью. Данные по фирмам будут служить нам в качестве примера применения всех методов в этой главе. Однако сразу отметим, что никто не будет использовать столь маленькое множество дан- ных для реального анализа. Значения Л'^ = 5 и Г = 4 слишком ма- 33' 515
лы, чтобы осмысленно рассуждать об асимптотическом поведе- нии, как обычно делается при использовании методов работы с панельными данными. Но для иллюстрации принципов модели- рования и работы с панельными данными - это оптимальный размер. Таблица 16.4 Сведения по фирмам (пример панельных данных в составной форме) Фирма 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 Год 2000 2001 2002 2003 2000 2001 2002 2003 2000 2001 2002 2003 2000 2001 2002 2003 2000 2001 2002 2003 Рыночная стоимость 496 625 958 1147 186 275 296 320 387 435 580 593 215 240 300 243 404 429 513 557 Оборот 2833 2925 4242 3594 809 727 1002 703 724 864 1194 1189 1819 2080 2372 2160 2290 2159 2031 2116 Прибыль 41 63 98 143 20 29 35 42 67 73 80 89 13 15 18 21 34 44 62 67 16.5. ОБЗОР ЛИНЕЙНЫХ МОДЕЛЕЙ Множество панельных данных Z = (у, X) может быть исполь- зовано для выбора между различными линейными моделями. Ос- новные различия наиболее важных подходов кратко описаны в настоящем разделе. В качестве отправной точки рассмотрим ли- нейную модель 516
d Уи =^it +X;/P/7 +^/ =M// + Z^y,// hit +W/7- (16.12) Здесь y^f и Xy,-, - наблюдаемые переменные, ц,^ и Ру ,^ — пара- метры, которые должны быть оценены, а и^ — ненаблюдаемые остатки (У = 1,..., rf;/= 1,..., ai;/= 1,...,7). Иногда будем использовать обозначения Xq/; = 1 и Ро,/г = И// для всех /, / и писать единообразно: >^/=X/rP//+Wf/, r»..H.,>b=[j: Как было отмечено в подразд. 16.3.2, мы предполагаем, что наши панельные данные представляют собой случайную выбор- ку из большой генеральной совокупности. В этом случае для нас предпочтительнее сформулировать модель с использованием ус- ловных математических ожиданий. Модель (16.12) в этом случае может быть записана как Е[>^,|х^ = ц,.,+х;,р^^, (16.13) без явного упоминания об остатках. Естественно, что они по- прежнему определяются как w,^ • = У и - ^'//Р//. Выражение (16.13) является расширением (16.12), поскольку позволяет сформули- ровать более строгие и более адекватные предпосылки стохасти- ческой постановки модели. Наиболее существенное отличие сос- тоит в том, что регрессоры Х/^ предполагаются стохастическими. Это отражает тот факт, что они случайным образом выбраны из большой генеральной совокупности. Теперь, если х,^ - вектор случайных величин, мы можем задать и проанализировать очень важный вопрос о корреляции остатков w,^ с рефессорами. Все линейные модели имеют два вида параметров - констан- ту (свободный член) и параметры наклона. Названия константа {свободный член) и наклон происходят от одномерной графической иллюстрации линии рефессии и точек, отображающих данные (см. гл. 2). Хотя эти термины широко употребляются в экономет- рике, в данном случае мы будем называть константу параметром местоположения, а наклон - параметром влияния. Эти термины 517
относятся к интерпретации соответствующих параметров. Част- ное (линейное) влияние переменной Xjit на х,-^ при условии неиз- менности остальных переменных (при прочих равных) описыва- ется параметром Ру /^. Параметры \Лц являются аддитивными конс- тантами, которые суммируют эффекты, характерные для конк- ретного объекта наблюдения / и периода времени /, и таким обра- зом определяют среднее местоположение у^, если все регрессоры зафиксированы на уровне х^^ = 0. Тем не менее обычно в эконо- метрике панельных данных принято называть параметры место- положения ненаблюдаемыми эффектами. Это более подходящее название с точки зрения интерпретации данных параметров, пос- кольку они соответствуют ненаблюдаемой гетерогенности отно- сительно объектов наблюдения и/или периодов времени и часто не слишком интересны, а потому не оцениваются в явном виде. Естественно, что в модели (16.12) слишком много парамет- ров, чтобы ее можно было осмысленно использовать, если толь- ко не имеется множественных наблюдений для каждого / и /, что бывает крайне редко в случае экономических данных, например, много фирм в каждом регионе / в каждый момент времени /; это приведет к тому, что куб Z станет уже четырехмерным и т.д. Дан- ное направление развития модели здесь мы не будем обсуждать. Для того чтобы сделать модель оцениваемой и связывающей между собой различные наблюдения, на параметры {Р) модели и на распределение случайных величин (/)) должны быть наложе- ны дополнительные ограничения. Все модели, описываемые ни- же, являются результатом различных офаничений такого рода. Мы используем обозначения Zy = (у,, Ху), где у, = (y^j, ..., у^т)', 16.5.1. Обычная регрессия Наиболее простые предпосылки состоят в следующем: (^or: Ц„ = Ц и P,v = Р для всех /, /; (Z))or: Z,. - i.Ld при Е[«,,| Х,] = О и Е[и^,| X,] = al Это дает обычную регрессионную модель E[>'jX,] = n + x;,p. (16.14) 518
Здесь нам нужно оценить только (cf + 1) параметр, что легко делается обычным методом наименьших квадратов. Данная модель не предполагает никаких эффектов, характер- ных для отдельных объектов наблюдения или моментов времени. Таким образом, панельная структура данных никак не учитывает- ся в этой модели. В этом случае говорят, что данные объединены {pooled). 16.5.2. Несвязанные регрессии с целью моделирования индивидуальных различий (гетеро- генности) может быть введен коэффициент для каждого объекта наблюдения: (Лик V^it ^ h- и Р// = Р/ для всех /, /;. (Z))uR Z, - U.d при E[t/J XJ = О и E[w^,| XJ = о\ Теперь модель имеет вид: E[>vJXJ = ^i,.+x;,p,.. (16 J5) Здесь следует оценить N{d + 1) коэффициент, что может быть сделано обычным или обобщенным методом наименьших квад- ратов для Т> d. Однако никаких взаимосвязей между отдельны- ми объектами наблюдения не предполагается, поэтому (16.15) есть не что иное, как N отдельных регрессий с Т наблюдениями каждая. 16.5.3. SUR-модели При предпосылках (Лur: V^it = h- и P/r = Р/ для всех /, /; (/))suR- Z^ ~ iid, при E[w,J xj = О для всех /, / и nui,uj,\xi,\j,] = ^^' a,Y если t =s О если/9^5 519
вводятся некоторые взаимосвязи между рефессиями. Помимо n{d + 1) коэффициентов теперь должны быть оценены еще V2 п{п + 1) элементов <3ц матрицы ковариаций. Это возможно только при Г> (rf + 1) 4- V2 {п + 1). Если Т существенно больше, чем вышеуказанное пороговое значение, SUR-модель {seemingly unrelated model; кажущаяся нес- вязанной модель) имеет существенную объясняющую силу и мо- жет с успехом применяться. К сожалению, большинство реаль- ных панельных данных имеют другое строение ввиду малых Т. Еще один важный аспект рассматриваемого случая состоит в том, что делаются другие предпосылки относительно вида расп- ределения: случайная выборка за некоторые моменты времени по предположению пригодна для моделирования взаимосвязи меж- ду объектами наблюдения в настоящий момент. Однако для ре- альных пространственных данных выполнение такой предпосыл- ки представляется весьма проблематичным. (Выборка со свой- ствами i.Ld. из объектов наблюдения приведет к независимым ос- таткам, а следовательно, и к равенству E[w,,w^;y | х^^х^;, ] = О, как и в других рассмотренных выше моделях.) Мы используем в данном случае обозначение Z^ = (у\ Х^), где у^ = {у^^, ..., д^^^)', X ~ (Х|^,..., х^^). 16.5.4. Фиктивные переменные Компромиссом между множествами предпосылок {Р)о^ и (^)uR является модель с фиктивными переменными: (Р)оу: Ц/; = V^i и Р/7 = Р для всех /, /; (Z))or: Z, - i.i.d. при Е[и,\ X,] = О и Е[и^,\ X,] = с\ Индивидуальные различия учитываются посредством пара- метров местоположения |iy, в то время как параметры влияния р при объясняющих переменных не меняются. Следует оценить (d -^ N) коэффициентов. Это всегда возможно для панельных данных, так как Т>2. Это простая и легкая в оценивании модель, которая использу- ет панельную структуру данных разумным образом, а также поз- 520
воляет проводить тестирование гипотез о линейных офаничени- ях на параметры (F-тесты). Конечно, временные или смешанные эффекты различия в объектах наблюдения и времени могут простейшим образом быть введены посредством дополнительных фиктивных переменных при соответствующем изменении части (P)dy ограничений, отно- сящихся к параметру |i. 16.5.5. Компоненты ошибки В отличие от всех предшествующих моделей теперь эффекты различия в объектах наблюдения моделируются не посредством параметров, а через предпосылки относительно вида распределе- ния. Они становятся компонентом остатков (^)oR- ^it = Ц и р,.^ = р для всех /, /; (Z))ec' Z, - i.i.d. и такое, что: где /и,, v>jf независимы для любых /,у, /; и,-^ - и А, причем E[u,v | Х,-, /г^ ] = О, Е[ц? | Х^, /;^ ] = а^ и /И/ - i.i.d., причем E[aw, | XJ = О, E[/w,? | X/] = а^. Здесь должны быть оценены {d Л- \) коэффициент и диспер- сии a^j/ и а^^. Это всегда возможно для панельных данных, но следует применять двухступенчатую процедуру, когда сначала оцениваются дисперсии, а затем коэффициенты обобщенным методом наименьших квадратов (ОМНК). Временные эффекты могут быть включены добавлением еще одного компонента в структуру ошибок: щ^ =т, +/^ +Цу с необходимыми предпосылка- ми относительно распределения /^. 16.5.6. Случайные коэффициенты Если не только параметры местоположения, но и все пара- метры предполагаются имеющими случайное распределение, то 521
мы получаем большую гибкость в моделировании гетерогеннос- ти объектов наблюдения где р фиксированно, (^)rc- */Г iid., причем Е[4 |Х,] = 0, Var[4] = Zд,,; Zi, - и А при nuit\ X/] = О и EIw^J Х/1 = al Оценить вновь нужно только (rf + 1) коэффициент и получить оценки параметров ковариаций Е^^/^ ^ ^^- Поскольку ковариаци- онная структура должна быть оценена отдельно для каждого объ- екта наблюдения, нам необходимо, чтобы Т> d. 16.6. ФИКСИРОВАННЫЕ ЭФФЕКТЫ Модель с фиксированными эффектами является классичес- кой и наиболее простой для анализа панельных данных. Уравне- ние генеральной совокупности в этой модели имеет вид: )^, =M,+x;,p + w^,. (16.16) Мы предполагаем наличие одних и тех же параметров для всех объектов наблюдения во все моменты времени и моделиру- ем эффект гетерогенности между объектами наблюдения с инва- риантным по отношению ко времени, но специфическим для каждого объекта наблюдения параметром местоположения ц,. Это в точности модель с фиктивными переменными, введенная в подразд. 16.5.4, и мы делаем предпосылку (/))or относительно ви- да распределения, чтобы получить состоятельную оценку пара- метров модели. Часто параметры местоположения трансформируются в отк- лонения от их среднего jl, и полученные параметры ц, удовлетво- ряют условию Zjl, = 0. Д^//=Р+Д/+4Р + "//- (16.17) 522
Название «модель с фиксированными эффектами» получило широкое распространение в литературе, и вряд ли его следует ме- нять. Оно было принято для того, чтобы отличать эту модель от модели со случайными эффектами. Прилагательное «фиксиро- ванный» применительно к эффектам не должно восприниматься буквально. Мы вернемся к данному вопросу в разд. 16.8. 16.6.1. Оценивание 1 ^ Введем среднее по времени У г =—Хз^// для каждого объекта ^ /=1 наблюдения /, из (16.16) получим: Я=^1/+х;.Р + й;.. (16.18) Поскольку |1у не изменяется во времени, оно появляется и в уравнении модели (16.16), и в уравнении модели средних (16.18). Вычитая (16.18) из (16.16), получаем уравнение генеральной со- вокупности с поправкой на среднее: (У//-Х) = (Х;7 -x,.)'P+(w,, -й;.). (16.19) Из (16.19) мы можем, применяя метод наименьших квадратов к рефессии через начало координат, получить состоятельную оценку р, предположив, что Щи.^ I XJ = 0. Данная оценка назы- вается оценкой модели с фиксированными эффектами. Поскольку из данных вычтено среднее по времени, для оценивания (16.19) используется только вариация данных в рамках каждого объекта наблюдения. Поэтому эту оценку также называют оценкой^: уче- том вариации в рамках объекта наблюдения и обозначают р^. За- метим, что оценка с учетом вариации в рамках объекта наблюде- ния позволяет получить оценки только параметров влияния Р, а параметры местоположения |i еще не оценены. Естественно, это можно легко сделать: ц,.=Я-х;.р. (16.20) Модель (16.16) также может рассматриваться как модель с ин- дивидуальными фиктивными переменными, где для каждого объекта наблюдения вводится своя (индивидуальная) фиктивная 523
переменная. Но оценки параметров не следует вычислять непос- редственно из модели с фиктивными переменными, так как большое количество дополнительных фиктивных переменных N приводит к необходимости обращать большую матрицу. Вместо этого следует применять двухступенчатую процедуру, при кото- рой сначала вычисляется оценка р^^с учетом вариации между объ- ектами наблюдения, а затем индивидуальные эффекты, если они вообще интересуют исследователя, с использованием (16.20). Поскольку использование трансформированных данных в (16.19) является только ускоренным методом проведения полных вычислений, получающаяся общая сумма квадратов этих транс- формированных данных не равна сумме квадратов в модели (16.16). То же самое относится и к количеству степеней свободы, а следовательно, и к оценке дисперсии. Тем не менее остатки в трансформированной модели те же самые, а значит, и сумма квадратов остатков та же самая (табл. 16.6). Поэтому коэффици- ент множественной корреляции /?^, получающийся в результате оценивания модели (16.19), не есть R^ модели с фиксированными эффектами. В некоторых компьютерных программных пакетах он обозначается как fr без эффектов, 16.6.2. Проверка на наличие фиксированных эффектов Поскольку модель с фиксированными эффектами (16.16) - это простая регрессионная модель, оценки параметров можно тестировать с помощью обычных /- и F-тестов. Один из наиболее интересных вопросов в отношении параметров модели с фикси- рованными эффектами: существуют ли эффекты, характерные для отдельных объектов наблюдения? Или более точно: отлича- ются ли параметры |i, для разных объектов наблюдения? Этот вопрос часто называют также вопросом объединения, поскольку если эффектов, специфических для отдельных объектов наблю- дения, нет, все данные могут быть объединены в одну простую регрессию с единственной константой. Для ответа на этот вопрос сформулируем нулевую гипотезу как Hq : |i/ = |iy для любых ij\ что соответствует модели с одним и тем же параметром местоположения |i для всех объектов наблю- дения, т. е. объединенной модели. >^,=^ + x;,P + w^,. (16.21) 524
Альтернативная гипотеза Hj: Ц/ ^ь Цу хотя бы для одной пары /, У, что соответствует модели с фиксированными эффектами (16.16). Эта пара (линейных) гипотез может быть проверена с по- мощью jp-теста. Тестовая статистика имеет вид: RSSfE л-1 ~ (16.22) l-RJE л-1 где R^f£ и RSSj:£ - коэффициент множественной корреляции и сумма квадратов остатков модели с фиксированными эффек- тами (16.16); ^pooi и RSSp^i - те же параметры для объединенной регрессии (16.21). Если справедлива гипотеза Hq и выполняется предпосылка о нормальном распределении ошибок (или в случае достаточно больших л), тестовая статистика имеет (приближенно) /^-распре- деление с (л-1) и (лГ-л-rf) степенями свободы. В отношении эквивалентной версии модели (16.17) гипотезы для модели с постоянной константой имеют вид: Hq : р/ = О для всех / против альтернативы Hi : ji/ ^^ о хотя бы для одного /. Есте- ственно, тестовая статистика (16.22) также применима и к этой паре гипотез. 16.6.3. Оценки с учетом вариации между объектами наблюдения и взаимосвязь регрессий Для вычисления оценок с учетом вариации в рамках объекта наблюдения из значения каждой переменной по каждому объек- ту наблюдения вычиталось среднее. Следовательно, специфичес- кая для каждого объекта наблюдения информация не участвует в вычислении оценок ^^, которые отражают общие факторы для всех объектов. Но эти средние по объектам наблюдения 7/., X/., / = 1,...,л сами могут быть данными для построения рег- рессии. 7/. =ц + Х/.Р+й;. (16.23) 525
Данное регрессионное уравнение Hd3biBditiC9i регрессией с уче- том вариации между объектами наблюдения, так как только (сред- ние) различия между объектами наблюдения вносят свой вклад. Соответственно получаемая в этой регрессии оценка называется оценкоьи: учетом вариации между объектами наблюдения и обозна- чается р^,. Рефессия с учетом вариации между объектами наблюдения и получаемая из нее оценка, как правило, не имеют большой прак- тической значимости в анализе панельных данных, поскольку собственно пространственное измерение панельных данных фактически игнорируется при простом усреднении по времени. Важность рефессии с учетом вариации между объектами наблю- дения скорее теоретического плана, так как она является допол- няющей к рефессии с учетом вариации в рамках объекта наблю- дения до объединенной рефессии. Все эти три рефессии дают МНК-оценку параметра р. МНК- оценка р^^^/ Д^я объединенной рефессии (16.21) может быть получена из выражения Рл«>/ = <8Г'}"'С'' (16.24) где Sr' =zi;(x,v -x,-,)(x;, -X..)' и s^' =IZ(x,, -х..)(л, -У.Х a j(.. и jF.. - полные средние Хц и >^„. /\ Оценка с учетом вариации в рамках объекта наблюдения р^^ является МНК-оценкой из рефессии (16.19) и вычисляется как к={^1с)''^1^ (16.25) где N Т _ _ N Т _ _ S^ = IZ(x,, -х,..)(х,., -х^.)' и s^ =ZZ(x,y -\i){yit -yiX поскольку средние (x^^ - \) и (y,^ - У^) no построению равны нулю. И, наконец, оценка с учетом вариации между объектами наб- людения р^ является МНК-оценкой для уравнения рефессии (16.23) и вычисляется как 526
P^={SLr^s^, (16.26) S^ = Z(x, -x..)(x, -X.)' и s^ =I(x, -x.)(>;, -y.). Теперь, и это ключевой шаг, мы можем использовать разложе- ния "^хх "'^Аэс^^'^дсх *^ ^ху ~^ху'^^^ху^ (16 27) чтобы получить Подставляя из (16.25) и (16.26) ^ду=8ххРн; ^^ху=^хх^Ьу окончательно получаем: p^„,={s;;+7s^}-'(s^K +7s^ Р*) = (16.28) где W = W" :={S;^ +7S^r'S^, a W* :={S]^ +7S^r'7S^, причем W'*+W*=I. A Уравнение (16.28) означает, что p^^^/ является взвешенным из матриц оценок с учетом вариации внутри и между объектами наблюдения. 16.6.4. Недостатки оценок регрессии с фиксированными эффектами Основной недостаток модели с фиксированными эффектами состоит в том, что в ней необходимо оценивать большое количе- ство параметров, что ведет к потере степеней свободы. Особенно 527
если Л^ очень велико, как, например, в панели обследования до- мохозяйств РМЭЗ, нам придется оценить (^-1) параметр, кото- рый нас на самом деле не интересует. Индивидуальные эффекты также не затрагиваются при асимптотическом приближении Л^-> 00, так как число наблюдений, по которым вычисляется каждый эффект, равно Г. Большое количество фиктивных переменных усугубляет проблемы коллинеарности. Вполне возможна ситуация, когда имеющееся сильное влияние какой-либо переменной оценивает- ся как слабое, так как эффекты, или фиктивные переменные, пе- ретянули на себя большую часть этой взаимосвязи реальных пе- ременных. Особенно это применимо к случаю неизменных во времени переменных, описывающих поведение объектов наблюдения. Они полностью коллинеарны фиктивным переменным и потому полностью доминируются ими. Иными словами, если рассуждать в терминах модели с поправкой на среднее (16.19) и оценок с уче- том вариации в рамках объекта наблюдения, можно сказать, что неизменные во времени переменные просто исчезают в результа- те усреднения по времени. С практической точки зрения это оз- начает, что хотя мы располагаем некоторой информацией отно- сительно гетерогенности объектов наблюдения, данную инфор- мацию невозможно использовать при оценке параметров влия- ния р в постановке модели с фиксированными эффектами. 16.6.5. Пример: данные о фирмах Пример 16.4. Прежде всего проведем МНК-оценивание рефессии без константы модели с поправкой на среднее вида (16.19) по данным о фирмах, которое дает следующие оценки с учетом вариации в рамках объекта наблюдения: л Pi = 0,1143 со стандартной ошибкой 0,0177; Р2 = 5,5588 со стандартной ошибкой 0,2726. Таким образом, обе экзогенные переменные значимы на до- вольно высоком уровне значимости. Следующим и необязательным шагом является вычисление эффектов по формуле (16.20). 528
Ai =-31,246; p2= 1,572; цз =-44,093; ^4 =-84,434; ^5 =-57,454. ц. =-49,131. Теперь мы полностью оценили модель с фиксированными эффектами. Таблица 16.5 суммирует результаты четырех типов регрессий, рассматриваемых в этом разделе, применительно к данным о фирмах. Общая сумма квадратов (TSS) в объединенной модели и мо- дели с фиктивными переменными одинакова, поскольку обе они основаны на нетрансформированных данных. Для регрессий с учетом вариации в рамках объекта наблюдения и с учетом вариа- ции между объектами наблюдения данные были трансформиро- ваны, поэтому они имеют разные значения TSS, Фактически согласно разложению дисперсии должно быть справедливо равенство TSSp^oi =TSS^ +Г TSSij. Таблица 16.5 Сведения о фирмах (сравнение МНК-оценок регрессионных моделей) Вид регрессии Объединенная С фиктивными пе- ременными (16.16) С учетом вариации в рамках объекта (16.19) С учетом вариации между объектами (16.23) л р. (стан- дартная ошибка) 0,0933 (0,0075) 0,1143 (0,0209) 0,1143 (0,0177) 0,0916 (0,0166) л Р2 (стан- дартная ошибка) 5,7758 (0,2254) 5,5588 (0,3208) 5,5588 (0,2726) 5,8184 (0,5882) TSS (степень свободы) 1139762,950 (19) 1139762,950 (19) 329732,250 (20) 202507,675 (4) RSS (степень свободы) 15755,494 (17) 6759,314 (13) 6759,314 (18) 2102,705 (2) /?2 0,98618 0,99407 0,97950 0,98962 34 -3291 529
Показатель ^ для модели с фиктивными переменными дол- жен быть наибольшим из всех четырех моделей, поскольку она содержит наибольшее число параметров. Все значения R^ очень высоки, что отчасти объясняется малым числом наблюдений. У нас л = 5, Г= 4, rf = 2 и RSSp^ =15755,494, RSSpE = 6759,314. Следовательно, значение F-статистики равно: ^^15755.494-6759,314)0^ . Р[/Т4.13) >4,3255] =0,0192. 6759,314 4 Значит, мы можем отклонить нулевую гипотезу об отсутствии эффектов на 95%-ном уровне значимости. 16.7. СЛУЧАЙНЫЕ ЭФФЕКТЫ Модель со случайными эффектами является типичной мо- делью панельных данных. Она хорошо адаптирована к структуре панельных данных и помогает избежать некоторых недостатков модели с фиксированными эффектами, особенно в части неболь- шого числа оцениваемых параметров. Однако этот выифыш дос- тигается за счет дополнительных предпосылок, возможные нару- шения которых приводят к несостоятельным оценкам. Если уравнение генеральной совокупности имеет вид: где и^^=т^-\-щ, мы вновь предполагаем наличие одних и тех же параметров для всех объектов наблюдения во все моменты времени, но модели- руем эффект гетерогенности объектов наблюдения посред- ством введения неизменного во времени, но специфического для каждого объекта наблюдения слагаемого ошибки /л,, кото- рое предполагается независимым от оставшейся части ошибки Vif, Это в точности модель компонент ошибок в соответствии с подразд. 16.5.5. Для того чтобы иметь возможность получить состоятельные оценки параметров модели, вводятся предпо- сылки (Х>)ес- 530
Название случайные эффекты подчеркивает, что эффекты W/, описывающие гетерогенность, являются случайными перемен- ными. Однако это не означает, что эффекты приписываются объ- ектам наблюдения случайным образом. На самом деле они слу- чайны только в смысле случайности выборки из генеральной со- вокупности, поскольку каждый объект наблюдения имеет специ- фический, не зависящий от времени, эффект. Мы вернемся к этому вопросу в разд. 16.8. 16.7.1. Оценивание Модель со случайными эффектами не может быть эффектив- ным образом оценена с использованием МНК, так как ошибки по предположению коррелируют между собой из-за присутствия специфической для каждого объекта наблюдения компоненты: EKw.] = elf, если/ = у и/9^5; (16.30) О, если / 7t у. Формально преобразование, проведенное в модели с фикси- рованными эффектами вида (16.19), может быть применено и в данном случае с (и,^ -U/) вместо (и^^ —Ц) в части ошибки. Но в оце- нивании методом наименьших квадратов должна минимизиро- ваться исходная сумма квадратов остатков и^^^, а не только неза- висимых компонент ошибки. Это и является основным различи- ем между двумя моделями. И вновь для получения состоятельных оценок мы предпола- гаем E[Uff IX,] = О для любых /, /. Теперь это означает, что не толь- ко E[u,Y IX,] = О для любых /, /, но и E[/w, | Х,] = О для любых /. По- следнее условие означает, что случайные эффекты т^ предполага- ются независимыми от регрессоров Х^. Это важное отличие по сравнению с моделью с фиксированными эффектами, в которой эффекты, моделируемые как параметры, не имеют офаничений. Оценивание с помощью МНК не учитывает автокорреляцию (16.30). Поэтому следует применять обобщенный метод наимень- ших квадратов (ОМНК), который взвешивает остатки в соответ- ствии со структурой матрицы ковариаций, неявно предполагае- 34- 531
мой выражением (16.30). Как правило, дисперсии а^^и а^не из- вестны и должны быть оценены по имеющимся данным на пер- вом шаге. Затем на втором шаге выполняется ОМНК-оценива- ние с оценками дисперсий в качестве параметров. Эта применяе- мая двухшаговая процедура называется выполнимым обобщенным методом наименьших квадратов (ВОМНК). Поскольку элементы матричной алгебры, необходимые для вычисления оценок ВОМНК, достаточно сложны, они приводят- ся в математическом приложении 16.12.2, в данном разделе мы только проанализируем результаты оценивания. Они могут быть представлены в довольно простом виде с помощью введения вспомогательной переменной 0:=1- Оу H-^Tcl = 1- м 1 1 + Г J) 1/2 (16.31) Аналогично (16.19) преобразуем модель, вычитая 9, умножен- ное на средние значения переменных: {Уи -еЯ) = ц(1-0)+(Х/, -ех;.)'Р+((^, -05f.). (16.32) Параметр 9 выбран таким образом, чтобы ошибки в этой мо- дели (w,y -9wJ.) = /Wy(l-9)+(u,/ -9u/.)He коррелировали во времени для разных значений /. В данном случае МНК-оценивание урав- нения (16.32) будет корректным. Поскольку на практике диспер- сии не известны, они должны быть заменены на состоятельные оценки Сд/ и оу. Тогда параметр 9 оценивается выражением 9:=1- 4 >К+7^ Теперь заменим 9 на 9 и вычислим МНК-оценку уравнения регрессии (16.32), которая и будет ВОМНК-оценкой для (16.29) р и ц и которую назовем оценкой модели со случайными эффектами. 532
Поскольку оценки модели со случайными эффектами зависят от оцененных дисперсий ojf и оу, возможны различные результаты в зависимости от применяемых на практике методов оценивания этих дисперсий. Наиболее естественным представляется оценить а]^у диспер- сию независимой компоненты остатков, используя квадраты раз- ностей между оцененными остатками й^^ и их средними по каждо- му объекту наблюдения uf. ol := ^ ^ 1Ыг Л)'. (16.33) 1 ^ Теперь обозначим: w,. =m, +—ЕЧм а дисперсию этого средне- го: о^ :=Var[w/.]=a5/+—а^, которую можно оценить как Из этих оценок дисперсия ад/ эффектов, специфических для конкретного объекта наблюдения, может быть получена по фор- муле ol:=a^ia^ (16.35) Остается решить, каким образом оценивать остатки, чтобы подставить их в (16.33) и (16.34). Очевидными кандидатами явля- ются остатки объединенной модели или модели с фиксирован- ными эффектами. Последние чаще считаются более предпочти- тельными, так как обладают лучшими асимптотическими качест- вами. Остатки модели с учетом вариации в рамках объекта наблю- дения также вполне годятся для подстановки в (16.33). Фактичес- ки они дают тот же результат, что и остатки модели с фиксиро- ванными эффектами, так как поскольку й^^ f^ -й/./г£ =^/,н.,а сле- довательно, - йу ^ = 0. В_формуле (16.34) в качестве 5) могут быть использованы остатки w)-^/,h3 рефессии с учетом вариации между объектами наблюдения (16.23). В настоящее время эта идея при- 533
меняется во многих алгоритмах профаммных пакетов, например «Stata» или «Econometric Views», поскольку это удобно с вычис- лительной точки зрения. Однако следует помнить, что разные программные пакеты могут давать разные результаты в зависи- мости от конкретного воплощения ВОМНК. Проблема с перечисленными тремя подходами состоит в том, что в (16.35) разность может оказаться отрицательной. В этом случае ajf следует положить равными нулю, но это может быть указанием на проблему в выборе спецификации модели. Еще один подход к оценке cjf заключается в оценке напрямую через дисперсии модели с фиксированными эффектами а^. и остатков этой модели, используемых в (16.33), не корректируя при этом на степени свободы и деля только напТ. Данная процедура позволя- ет избежать самой возможности отрицательных оценок. Значения случайных эффектов, если они представляют инте- рес, могут быть оценены на основе остатков ВОМНК и вычисле- ны как средние для объектов наблюдения: т^ = —Z^/r вомик- Т 1=\ Пример 16.4 (продолжение). В табл. 16.6 представлены ре- зультаты четырех видов оценок дисперсии для ВОМНК-оценива- ния случайных эффектов, рассмотренных в данном разделе, на примере данных о фирмах. Все оценки варьируют между крайни- Таблица 16.7 Сравнение результатов ВОМНК-оценивания на основе сведений о фирмах ВОМНК-оценивание с использованием Остатков объединен- ной модели Остатков модели с фиксированными эф- фектами Остатков модели с уче- том вариации в рамках объекта и о^. Остатков моделей с учетом вариации в рамках и между объек- тами А -24,44 (19,17) -28,68 (23,76) -33,11 (24,87) -29,50 (26,51) Pi 0,0966 (0,0093) 0,0999 (0,0116) 0,1031 (0,0119) 0,1005 (0,0129) л Рг 5,7253 (0,2276) 5,6879 (0,2467) 5,6559 (0,2283) 5,6814 (0,2690) 0 0,4640 0,6275 0,7227 0,6484 Су 486,24 450,62 337,97 519,95 ^ м 301,54 699,06 1014,60 921,37 534
ми значениями, полученными в моделях с учетом вариации в рамках объекта наблюдения, и между объектами наблюдения в соответствии с различными оценками компонент дисперсии и итоговыми значениями Э. Для достаточно больших Л^ значения 9, а следовательно, и оценки будут отличаться пренебрежимо мало. Оценки случайных эффектов в соответствии с четырьмя ме- тодами оценивания представлены в табл. 16.7. Значения не слиш- ком сильно различаются для разных вычислительных процедур, но довольно существенно отличаются от значений модели с фик- сированными эффектами для этих данных. Таблица 16.7 Сравнения ВОМНК-оценок случайных эффектов на основе сведений о фирмах ВОМНК-оценивание с использованием Остатков объединен- ной модели Остатков модели с фиксированными эф- фектами Остатков модели с уче- том вариации в рамках объекта и с^^ Остатков моделей с учетом вариации в рамках и между объек- тами л 8,9541 5,2619 1,4689 4,558 А nil 35,104 37,862 40,676 38,385 л Щ -14,950 -11,071 -7,392 -10,373 л /W4 -25,495 -27,558 -29,398 -27,914 л 7^5 -3,6128 -4,4947 -5,3547 -4,6566 16.7.2. Взаимосвязь с другими оценками Аналогично уравнению (16.28) оценка случайных эффектов также может быть представлена в виде матрицы среднего взве- шенного оценок с учетом вариации в рамках объекта наблюдения и между объектами наблюдения: ЬкЕ={^1с +(i-e)27s^}-\s;^p, +(1-в)275^р,) =wi +(1^ -w)pt, где W:={S;^+(l-0)27S^r»S;^. ^^^'^^^ 535
Единственное отличие от (16.28) заключается в множителе (1—6)^. Поскольку данный множитель может принимать значе- ния между О и 1, в этих пределах изменяется влияние регрессии с учетом вариации между объектами наблюдения. Для Э = 1 получаем оценку с учетом вариации в рамках объек- та наблюдения р^^. Но такая ситуация может произойти только случайно, если а^^близко к нулю или при очень больших Т. В этих случаях влияние оставшегося компонента ошибки о,^ близко к нулю, в то время как различия между объектами наблюдения сос- тавляют основной источник вариации. Поскольку он может быть вычтен при усреднении, оценка с учетом вариации в рамках объ- екта наблюдения прекрасно подходит на роль общей оценки. Для другого крайнего случая G = О мы получаем оценку для случая объединенной рефессии р^^^,. Но поскольку это может произойти только приа^ = О, т. е. если нет никаких эффектов ге- терогенности, данная оценка будет эффективной. В этом смысле оценка модели со случайными эффектами мо- жет рассматриваться как промежуточная между оценками модели с фиксированными эффектами и объединенной рефессии. 16.7.3. Проверка на наличие случайных эффектов По аналогии с моделью с фиксированными эффектами вста- ет вопрос: различаются ли компоненты ошибки m^ у разных объ- ектов наблюдения? Вместо Щ : т^ = /Иу для любых /, j сформулируем гипотезу в соответствии с постановкой модели со случайными эффектами: Яо : а^ = О против альтернативы H^\a\f> 0. Обычно в таких случаях применяют тест множителей Лафан- жа с тестовой статистикой вида LM=- пТ 2(Г-1) 1- п Т /=11/=1 п Т - (16.37) 536
Здесь Uff обозначает остатки из объединенной рефессии (16.21). Если верна Hq и выполняется предпосылка о нормальном распределении ошибок, LA/имеет асимптотическое х^-распреде- ление с одной степенью свободы. Это следует из общей теории тестов множителей Лафанжа, но это сложно увидеть непосред- ственно из (16.37). Пример 16.4 (продолжение). Взяв остатки из объединенной рефессии по данным о фирмах, получим: ,М=^^\1-'-ШЩ'=4,396. 2(4-1)1 15755,49/ Это соответствует Р-значению Р[Х{ > 4,396] =0,0360, что поз- воляет отклонить нулевую гипотезу об отсутствии гетерогеннос- ти на 5%-ном уровне значимости. Следовательно, мы можем предположить наличие случайных эффектов. Необходимо отме- тить, что малое количество объектов наблюдения л = 5 не оправ- дывает использование асимптотического теста. Поэтому здесь тест был применен исключительно в иллюстративных целях. 16.8. ВЫЯВЛЕНИЕ ХАРАКТЕРА ЭФФЕКТОВ (ФИКСИРОВАННЫЕ ИЛИ СЛУЧАЙНЫЕ). ТЕСТЫ НА СПЕЦИФИКАЦИЮ МОДЕЛИ Имея две различные спецификации модели панельных дан- ных, которые учитывают ненаблюдаемую гетерогенность объек- тов наблюдения, мы должны решить, какую из них предпочесть. Недостатки спецификации модели с фиксированными эффекта- ми состоят в большом числе параметров, которые нужно оцени- вать, и невозможности включить неизменные во времени пере- менные. Спецификация модели со случайными эффектами ре- шает эти проблемы, но требует введения дополнительного пред- положения о некоррелированности специфического для объекта наблюдения слагаемого ошибки с рефессорами. К сожалению, эта предпосылка часто не выполняется, что в результате приводит к неэффективным оценкам случайных эффектов. Тем не менее 537
если это предположение выполнено, нужно применять модель со случайными эффектами. Таким образом, вопрос, на кото- рый следует ответить, состоит в выборе между гипотезой Яо :Е[т^ |XJ = О и альтернативой Н^:Е[т, iXj]^0. Сами по себе случайные эффекты ntj не могут быть хорошо оценены, особенно если выбрана неадекватная спецификация модели. Решение данной проблемы, предложенное Хаусманом, неявно соответствует поставленной задаче. Поскольку при спра- ведливости Hq оценки моделей с фиксированными и случайны- ми эффектами являются состоятельными, они не должны отли- чаться слишком сильно. При справедливости Н^ оценки модели с фиксированными эффектами по-прежнему состоятельны, в то время как оценки модели со случайными эффектами уже нет. Следовательно, в этом случае мы можем ожидать существенные различия между оценками данных двух моделей. Тест Хаусмана основан на разности (P^f; - ^j^). Поскольку при справедливости гипотезы Hq обе оценки имеют асимптотически нормальное распределение, их разность имеет то же распределение, если Hq верна. Таким образом, Н=ФгЕ -^яеУ^~'Фге -^REh (16.38) где Ф - оценка матрицы ковариаций Фге—^ке)^ имеющая асимптотическое распределение х^ cd степенями свободы. Тест Хаусмана может также применяться к любому подмно- жеству из множества flf одномерных компонент оценки вектора р. В этом случае он асимптотически сводится к простому /-тесту. Подробнее с тестом Хаусмана можно ознакомиться в прило- жении 16.12.3. Там же показано, что матрица ковариацийФ равна: Ф = \агфЕЕ -p/j£] = Var[p^^]-Var[p;,^]. (16.39) Эта оценка может быть получена путем подстановки в форму- лу (16.39) вариаций из моделей со случайными и фиксированны- ми эффектами. Поскольку для дисперсий компонент ошибки модели со случайными эффектами возможны различные оценки, это может привести к различиям в результатах теста Хаусмана даже при кажущихся малыми различиях в оценках дисперсий. Существует также несколько модификаций теста Хаусмана, кото- рые имеют то же название. Частично различия в результатах вы- 538
числении с использованием различных программных пакетов могут быть объяснены этим. Тест Хаусмана следует применять с осторожностью. Этот тест всегда выполняется i:pH условии, что регрессоры вообще не кор- релируют с ошибкам»! Uff. Если бы это было так, оценки моделей с фиксированными л случайными эффектами были бы несостоя- тельными, и никакого заключения о предпочтении одной или другой модели по значению статистики теста Хаусмана сделать было бы нельзя. Как фиксированные, так и случайные эффекты — случайные переменные, как выборка из генеральной совокупности, и оба вида эффектов моделируют ненаблюдаемые различия в объектах наблюдения. Фиксированные эффекты - параметры, случайные эффекты — слагаемые ошибок. Названия моделей - историчес- кие, и отражают тот факт, что с точки зрения единственного наб- людения параметр модели является постоянным, а слагаемое ошибки меняется случайным образом. Фактически важнейшим отличием в этих подходах к модели- рованию гетерогенности объектов наблюдения является соотно- шение вводимых эффектов с регрессорами: случайные эффекты предполагаются некоррелированными с рефессорами, в то время как фиксированные эффекты вполне могут с ними коррелиро- вать. Поэтому на самом деле вопрос о выборе между моделями с фиксированными или случайными эффектами зависит от ответа, коррелируют ли эффекты с регрессорами или нет. Пример 16.4 (продолжение). Следует помнить, что тест Хаусмана — асимптотический тест и результаты этого теста по сведениям о фирмах даются здесь только в качестве иллюстра- ции. Оценка с учетом вариации в рамках объекта наблюдения или модели с фиксированными эффектами равна: Руг£ =(0,1143; 5,5588)', а в качестве оценки модели со случайными эффектами мы ис- пользуем оценку на основе оценок остатков моделей с учетом ва- риации в рамках и между объектами: P/^£ =(0,1005; 5,6814)'. Их разность Sff; -Ьке) = (0,0138;-0,1226)'. В таком случае 0,000435 -0,003669 "1 539 Var[P^^] I Q QQ3669 0,102890
—-А Г 0,000167 -0,001542^ ^^^^ [-0,001542 0,072350 J Тогда в силу (16.38) и (16.39) 0,000268 -0,002127^ 1Р/-£ HREi 1_о 002127 0,030540 ) и Я =0,7231. Заметим, что Р[х2 > 0,72314] =0,6966, и мы не можем откло- нить Hq, Это не дает действительно значимых результатов, но по- казывает, что различие между оценками не является системати- ческим. Следовательно, мы можем предположить, что оценка модели со случайными эффектами не является состоятельной (при условии, что ^достаточно велико). И было бы разумно про- должить работу со спецификацией модели со случайными эф- фектами. 16.9. ИНСТРУМЕНТАЛЬНЫЕ ПЕРЕМЕННЫЕ Недостатком модели с фиксированными эффектами является тот факт, что неизменные во времени переменные исчезают при усреднении и не вносят вклад в оценивание модели. С другой стороны, спецификация модели со случайными эффектами ос- нована на предпосылке о том, что специфические для каждого объекта наблюдения эффекты гп; должны быть некоррелирован- ными с регрессорами Х,. Как уже отмечалось ранее, эта предпо- сылка часто не выполняется для реальных данных. Однако впол- не может оказаться, что не все рефессоры коррелируют с эффек- тами, а лишь некоторые из них. В этом случае правомерна идея конструирования некоррелирующих переменных на основе ис- ходных и последующего применения модели со случайными эф- фектами к полученному новому множеству регрессоров. Первый шаг состоит в разделении dрегрессоров на четыре фуппы с переменными Jqq, djQ, d^^ ^ ^ic соответственно: Л^^^^: переменные, изменяющиеся во времени и не коррели- рующие с эффектами; 540
А'/'^^: переменные, не изменяющиеся во времени и не корре- лирующие с эффектами; Л"/^^^: переменные, изменяющиеся во времени и коррелирую- щие с эффектами; Xf"^^^: переменные, не изменяющиеся во времени и коррели- рующие с эффектами. Соответственно вектор параметров разбивается на четыре группы: Р = (Роо, Р/о, Р^» Р/с)'. Проблемы имеются с переменными групп ЛГ/^^ и Xf^^^K Но при ^00 ^ d^c ^^ переменные могут быть за- менены инструментальными переменными, построенными на основе остальных. На втором шаге параметры изменяющихся во времени пе- ременных Роо и Ро^ могут быть состоятельным образом оценены при помощи оценки с учетом вариации в рамках объекта наблю- дения из уравнения генеральной совокупности (У„ -F,.) = (xr -^Г)'^^ +(хГ> -5i<^>)'Poc Ни,-й,). Кроме того, из этих остатков рефессии состоятельная оценка может быть получена для параметра оц. Третий шаг состоит в построении регрессий на Х/^^^ и Х/'^^ с инструментами Х/°^^ и Х/^^ со средними остатками по каждому объекту наблюдения, полученными на втором шаге в качестве за- висимой переменной, причем каждая регрессия повторяется Т раз. Результатом этих регрессий будут состоятельные оценки Ро^ и Р^, а также полезные в дальнейшем остатки. Найденные на дан- ный момент оценки являются состоятельными, но не эффектив- ными, таким же образом, как неэффективны оценки модели с фиксированными эффектами, если более адекватной является спецификация со случайными эффектами. Далее остатки, полу- ченные на третьем шаге, используются на четвертом шаге для оценивания дисперсии а^ =clf +—а^. Как и в (16.35), они используются для расчета параметра 9 по формуле (16.31). Пятый, последний, шаг состоит в построении ВОМНК- оценок рефессии с инструментальными переменными. Для это- го исходные переменные трансформируются, как в (16.32), а инструментами являются: ,, -/v<00) ^00) „(/О) -<Ю) „(Ос) =г<00)ч 541
Результатом этой пятишаговой процедуры являются состоя- тельные и эффективные оценки методом инструментальных пе- ременных P/J/. 16.10. полный АНАЛИЗ ПАНЕЛЬНЫХ ДАННЫХ НА ПРИМЕРЕ РОССИЙСКИХ РЕГИОНОВ В этом разделе предметом нашего изучения являются макро- экономические данные Госкомстата России по выборке из 30 российских регионов. В фокусе исследования находится методо- логический подход, а не понимание происходящих экономичес- ких процессов. Массив данных содержит данные с 1994 по 2000 г по 30 из 87 российским регионам. Переменные: валовой регио- нальный продукт (ВРП), балансовая стоимость оборудования (БС), промышленное производство (ПП) - все в миллиардах рублей до 1998 пив миллионах рублей за 1999 и 2000 гг, а также количест- во занятых рабочих (КЗР) в тысячах. Данные приводятся в прило- жении 1 и доступны для получения с сайта http://stat/wiso/uni- potsdam.de/rus. На первом шаге проводится краткий описательный ана- лиз данных. Пропущенных данных нет, панель сбалансированна. Предполагаем, что данные регионы были выбраны случайно. Ес- ли же это было не так и полное обследование содержало данные только по этим 30 регионам или же эти регионы были выбраны на основе отсечения по определенным переменным, мы все рав- но будем предполагать случайность выборки, чтобы иметь воз- можность применить методы анализа панельных данных, кото- рые основаны на стохастической постановке задачи с независи- мыми, одинаково распределенными выбранными объектами наблюдения. На рис. 16.3 представлены временные ряды для этих перемен- ных по каждому региону выборки. Мы видим, что количество за- нятых остается примерно постоянным в большинстве регионов, в то время как временные ряды остальных переменных возраста- ют во всех рассматриваемых регионах в рассматриваемый пери- од. Две переменные, отражающие производство продукции, име- 542
ют скачок в 1998 п, а бухгалтерская стоимость оборудования ха- рактеризуется скачком в 1996 п, после чего уже не растет так сильно в большинстве регионов. Общая корреляционная матрица на основе всех 210 наблю- дений такова: Согг[ВРП,БС,ПП,КЗР] = ^ 1 0,7897 0,9103 0,4767 ^ 0,7897 1 0,6673 0,5091 0,9103 0,6673 1 0,3426 0,4767 0,5091 0,3426 1 Мы видим, что наиболее сильно коррелируют между собой ВРП и ПП, в то время как ПП и КЗ? имеют наименьшую корре- ляцию, но при этом все коэффициенты корреляции имеют до- вольно большое значение. Для числа занятых это относится в ос- новном к корреляции между объектами наблюдения, так как вре- менная динамика этой переменной существенно отличается от остальных. Учитывая экономическое значение переменных, разумным представляется взять валовой продукт ВРП в качестве зависимой переменной, а остальные переменные - в качестве независимых и объясняющих ВРП. Таким образом, полагаем: у = ВРП размер- ности (210x1), а X = (БС, ПП, КЗР) размерности (210 х 3), где у и X записаны в составной форме. Всегда разумным представляется начинать вычисления с по- лучения оценок регрессии с учетом вариации в рамках объекта наблюдения, между объектами наблюдения и объединенной рег- рессией. Мы получаем разброс оценок этих рефессий, зная, что оценки модели со случайными эффектами являются их средне- взвешенной матрицей и нам в любом случае понадобятся остатки по крайней мере одной из этих регрессий для оценивания дис- персий слагаемых ошибки. Из табл. 16.8 видно, что, за исключе- нием КЗР, в регрессии с учетом вариации между объектами наб- людения все параметры значимы на 95%-ном или более высоком уровне значимости. А для КЗР знак параметра Рз различен для объединенной регрессии и регрессии с учетом вариации в рамках объекта наблюдения. 543
Таблица 16.8 Первоначальные оценки по данным российских регионов Вид рефессии Объединенная (16.21) С учетом вариации в рамках объекта (16.19) С учетом вариации между объектами (16.23) Pi (стандарт- ное откло- нение) 0,6250 (0,0074) 0,0243 (0,0078) 0,1440 (0,0249) Р2 (стандарт- ное откло- нение) 0,9016 (0,0395) 1,1329 (0,0362) 0,2901 (0,0811) А Рз (стандарт- ное откло- нение) 4,9422 (1,3184) -29,6405 (12,2378) 3,2194 (3,1628) R' 0,8941 0,9295 0,9546 /'-тест на наличие фиксированных эффектов дает значение тестовой статистики 6,68. Вероятность, что случайная величина с распределением /1(29; 177) принимает значение больше либо рав- ное значению тестовой статистики почти равна нулю. Следова- тельно, мы можем сделать вывод о наличии эффектов, специфи- ческих для каждого объекта наблюдения. Второй шаг состоит в проверке большего соответствия данным модели со случайными эффектами. Четыре способа вы- числения дисперсий слагаемых ошибки а^ и а^ дают ВОМНК- оценки (табл. 16.9). Мы видим относительно неизменные резуль- таты оценивания для pj и Р2, влияния БС и ПП на ВРП, но оцен- ка Рз существенно меняется в зависимости от метода. Этот факт указывает на то, что число наблюдений Л^ = 30 слишком мало для получения надежных асимптотических результатов. Среди полу- ченных оценок очень сложно выбрать наилучшую. Но отрица- тельные значения оценки влияния КЗР лишены экономического смысла, кроме того, отрицательные оценки во второй и третьей строках незначимы. Прежде чем решить, какую оценку выбрать, следует провести тест на наличие случайных эффектов и тест Хаусмана. В случае теста на наличие случайных эффектов все довольно ясно. ^Л/-статистика имеет значение 61,67 и должна иметь асимптоти- чески ХгРаспределение. Несмотря на то что применять асимпто- тические рассуждения к данному случаю следует с осторож- ностью, значение //Л/-статистики определенно указывает на при- сутствие специфических для каждого региона эффектов. 544
Таблица 16.9 ВОМНК-оценки регрессий по данным российских регионов ВОМНК-оценивание с использованием Остатков объединен- ной модели Остатков модели с фиксированными эф- фектами Остатков модели с уче- том вариации в рамках объекта и а^ Остатков моделей с учетом вариации в рамках и между объек- тами А -3152,6 (1551) 2693,2 (5115) 3728,1 (5126) -3271,5 (938) л Pi 0,0454 (0,0065) 0,0358 (0,0064) 0,0351 (0,0060) 0,0533 (0,0057) л Р2 1,0395 (0,0359) 1,1009 (0,0340) 1,1030 (0,0316) 0,9762 (0,0312) А Рз 4,6948 (1,9300) -2,9504 (5,952) -4,2894 (5,931) 4,9484 (1,232) А 0 0,5113 0,8805 0,8918 0,2585 Тест Хаусмана зависит от оценок дисперсий. Результаты оце- нивания по четырем методам представлены в табл. 16.10. В столб- цах /1, /2 и /3 даются значения /-статистики для отдельных пере- менных, не коррелированных со случайными эффектами, специ- фическими для каждого региона. Таблица 16.10 Результаты тестов Хаусмана по данным российских регионов ВОМНК-оценивание с использованием Остатков объединен- ной модели Остатков модели с фиксированными эф- фектами Остатков модели с уче- том вариации в рамках объекта и с^ Остатков л4оделей с учетом вариации в рамках и между объек- тами А2 Су 4360,2 3925,5 3634,3 3958,6 ;;2 ^м 2942,1 12323,3 12624,5 1354,0 /^-зна- чение теста Хаус- мана 0,0000 0,0195 0,0286 0,0000 /1 (БС) 3,216 0,826 0,748 4,580 а (ПП) -6,827 -1,787 -1,618 -9,496 ^3 (КЗР) 2,596 1,519 1,411 2,600 35" 545
По результатам этих тестов видно, что у нас есть проблема с необходимыми условиями применения спецификации модели со случайными эффектами. Регрессоры, по-видимому, коррелируют со случайными эффектами. Для отрицательных и незначимых оценок коэффициента Рг мы получаем Р-значения, при которых нулевая гипотеза может быть отклонена на 99%-ном уровне зна- чимости. Для более осмысленных оценок предпосылка о некор- релированности определенно нарушается. Особенно сильно кор- релирует с эффектами переменная ПП. (На самом деле ПП, по- видимому, коррелирует даже с оставшейся частью ошибки О/^, что должно давать смещенные оценки $2-) Для того чтобы решить эту проблему, следует оценить модель с инструментальными переменными, где БС и КЗР — изменяю- щиеся во времени и некоррелированные переменные, а ПП — из- меняющаяся во времени и коррелированная со случайными эф- фектами (табл. 16.11). Тест Хаусмана для такой модели вида: Hq : БС, КЗР не коррелирует с эффектами, дает Р-значение 0,3260 и означает, что мы не можем отклонить нулевую гипотезу. Все оценки значимы, и в результате мы получаем модель: y^f =-3464,8+0,0406x1 ^^ +1,0869x2,,^ +4,8823 Хз,^, +w,v, где специфические региональные эффекты т^ предполагаются не коррелированными с БС и КЗР. Таблица 16.11 Результаты оценивания модели с инструментальными переменными по данным российских регионов Параметр Pi Р2 А Рз А 1 ^ Значение 0,0406 1,0869 4,8823 -3464,8 (стандартное отклонение) (0,0058) предполагается некоррелированным (0,0335) предполагается коррелированным (1,2280) предполагается некоррелированным (932,5) Несмотря на то что мы, наконец, получили модель, это еще не последний шаг Третьим шагом должен стать анализ остатков для проверки выполнения предпосылок и анализ влияния от- дельных наблюдений. Следует также проверить, даст ли анало- 546
гичные результаты оценивание по имеющимся данным на более коротком временном периоде. Затем отдельные наблюдения, вы- деленные при первоначальном описательном анализе, особенно скачки, можно моделировать, например, введением фиктивных переменных времени. Необходимо рассмотреть экономическую интерпретацию полученных результатов и, возможно, провести сбор дальнейших данных. Множество данных по российским регионам имеет все же до- вольно маленькую размерность для панельных данных с п = 30. Метод анализа панельных данных требует большего количества наблюдений л, поскольку лишь при этом условии корректно при- менение асимптотических методов. Поэтому для больших мно- жеств панельных данных анализ чаще всего проще, так как, нап- ример, различия между разными ВОМНК-оценками должны стать очень малыми. Общая процедура должна всегда состоять в том, чтобы снача- ла оценить модель с фиксированными эффектами, затем со слу- чайными эффектами, а потом использовать тесты на специфика- цию, чтобы решить, какая из моделей наилучшим образом опи- сывает данные. Если проблемы со спецификацией модели оста- ются, можно попробовать более продвинутый метод моделирова- ния с помощью инструментальных переменных. Если и после этого приемлемые результаты не получены, наличие взаимосвязи между переменными становится сомнительным. Возможно, дан- ные следует преобразовать или же линейная модель может быть неудачной спецификацией для анализа имеющихся данных. 16.11. ОБОБЩЕНИЯ основных МОДЕЛЕЙ Модели с фиксированными и случайными эффектами (см. разд. 16.6 и 16.7), а также другие модели (см. разд. 16.5) являются только основными моделями. Они не учитывают временные эф- фекты, динамические соотношения или гетерогенные и автокор- релированные ошибки. Кратко укажем возможные способы обобщения основных моделей на случаи несбалансированных данных и наличия временных эффектов, чтобы представить раз- витие методов анализа панельных данных. Мы не рассматриваем здесь очевидное обобщение на случай динамических моделей, 35* 547
которые включают модели с возможностью автокорреляции в ошибках или лаговые переменные. Для изучения этих обобще- ний мы отсылаем читателя к литературе, например, к книге Бал- тажи (Baltagi) [16], в которой даются множество теоретических деталей и ссылки на многие прикладные исследования, или к книге Вулдриджа (WDoldridge) [19], в которой методы анализа па- нельных данных рассматриваются в контексте общего экономет- рического инструментария. 16.11.1. Несбалансированные модели Теория в разд. 16.6 и 16.7 была представлена для случая сба- лансированных панелей, без рассмотрения случаев пропущен- ных данных или истощения панели. Всегда есть два способа ре- шить такие проблемы. Первый способ состоит в исключении всех объектов наблюдения с неполными данными и работе с на- иболее сбалансированной панелью, содержащейся в данных. Второй (более предпочтительный) способ заключается в том, чтобы изменить процедуры оценивания и тестирования для рабо- ты с несбалансированной панелью. Тем не менее если отсутству- ет только один элемент (d + 1)-мерного вектора (у/^, х'/^), нам при- дется исключить из рассмотрения весь этот вектор. Для случая модели с фиксированными эффектами изменения достаточно просты. Различия состоят только в том, что Г перес- тает быть общим для разных объектов наблюдения и превращает- ся в различные 7}. Все вычисления изменяются с учетом этих раз- личий. Например, полное число наблюдений теперь равно Zm^/» средние по каждому объекту наблюдения - Зс/. =Ем^//- Для модели со случайными эффектами необходимые измене- ния несколько сложнее. Преобразование (16.32) должно быть проведено с учетом разного числа наблюдений для каждого объ- екта: (Уи "в,.л.)=ц(1-е,)+(х,, -0/х,.)'Р+(ч7 -0Я) с преобразованными параметрами: а е,:=1- ^^ 548
Затем очевидным образом должны быть преобразованы фор- мулы для вычисления оценок дисперсий. Но после этих преобра- зований можно продолжать работу с теми же процедурами оценивания и тестирования, что и для случая сбалансированной панели. 16.11.2. Временные эффекты Первое обобщение модели, которое мы рассмотрим, состоит в добавлении временных эффектов Х^ к специфическим эффек- там для каждого объекта наблюдения. Для случая модели с фиксированными эффектами преобра- зованная модель имеет вид: >^/=М/+>-г+4Р + «//- (16 40) Эта модель может быть оценена посредством добавления (Г—1) фиктивных переменных к соответствующим периодам вре- мени наряду с фиктивными переменными, соответствующими различным объектам наблюдения. Модель не может включать Т фиктивных переменных, чтобы избежать случая полной колли- неарности. Оценка с учетом вариации в рамках объекта наблюде- ния ^у^ в этой модели может быть получена как МНК-оценка без константы для рефессии: {Уи 'П -y.t +5^.) = (Х// -\-. -х.^ +x..)'P+(w^; -щ. -Uf +i<.). Данное преобразование усредняет все эффекты, характерные для отдельных объектов наблюдения или для периодов времени. И вновь F- и /-тесты могут применяться обычным образом. Несмот- ря на то, что это преобразование и является разумным улучшени- ем модели, оно редко используется на практике, поскольку недос- татки модели с включением фиктивных переменных для каждого объекта наблюдения в данном случае многократно возрастают. Модель со случайными эффектами с учетом временных эф- фектов имеет вид: :и,7=ц + х;р + ^,.,, ^jg4i) где Uft ^rrii^lt +Uy^. 549
Временные эффекты 1^ моделируются как дополнительное слагаемое ошибки, и предполагается, что для них выполняется Е[1^ I Xj] = О, что условная дисперсия равна о\ и что 1^ - i.i.d. и не- зависимы от nti, Uy^ для любых /, S. ВОМНК-оценивание этой модели требует более сложных преобразований данных и более сложной алгебры, но общие принципы остаются теми же. Например, по аналогии с (16.31) следует ввести два параметра G^ и 0/. 16.12. МАТЕМАТИЧЕСКОЕ ПРИЛОЖЕНИЕ В этом приложении подробно представлены некоторые дета- ли, опущенные в тексте. Это можно сделать только с использова- нием матричной записи. 16.12.1. Матричная запись моделей Вместо yvrотдельных уравнений модель с фиктивными пере- менными может быть записана в виде Е[у|Х] = ц(8)17'+Хр = (1у^(8)17^)ц + Хр=(1д^(8)17^ X) L (16.42) где У = /11 У\т Ут Умт \ J ^Ш^ ц= V^^Ny ,х = чи ^1,17- ЧЛ(1 ^^,11 ^d,NT ) . U = ^11 \ J 550
Использованы следующие обозначения: 1дг— единичная мат- рица размерности N,lf- вектор, размерности Т, и 3^= Iji'j^ - матрица размерности (Гх 7) из единиц. Столбцы D^ := 1дг® Ij-— фиктивные переменные. При записи в виде (16.42) оценки параметров можно получить как МНК- оценки =(хх)-*ху, где X = (iD^X), если матрица X имеет полный ранг. Использование этой формулы напрямую затруднительно, поскольку требуется обратить матрицу (X' Х)(^7'х л^т)» которая, как правило, имеет большую размерность и содержит большое коли- чество нулей. Проще оценить параметры влияния р, применяя частные МИК-оценки: -ii p = p,=(X'QX)-^X'Qy, гдед:=1^^-/)^(/);/),)-*/);. Это оценка с учетом вариации в рамках объекта наблюдения (16.19). Q - это проекционная матрица на дополнение к простран- ству фиктивных переменных, которая в точности описывает пре- образования оценок с учетом вариации в рамках объекта наблю- дения (16.19). Дополнение к Q - это Р = Ij^j^ - Q - проекционная матрица на пространство фиктивных переменных. Поскольку d'D = г • 1^, имеем: P = D^(D;d^)-'d; =jD^d; =U^ 0(М/) =^I^ ®Jr, 551
т. е. (1 Т и Оценка с учетом вариации между объектами лаблюдения имеет вид: p,=(XP*Xr^XPV, где Р =(Р —^nt) > как проекция на пространство фиктивных NT переменных без l^^r, т. е. общего среднего. Проекционные матрицы Q, Р и Р* являются идемпотентны- ми, т. е. для них выполняется свойство Q = QQ и т.д. Оценка модели с фиксированными эффектами или оценка с учетом вариации в рамках объекта наблюдения р^ является состо- ятельной при выполнении двух предпосылок: (А1): E[u^J = 0 для любых s, t = 1,..., Т (А2): Матрица Е[Х, Q,X,] размерности (d х d) - невырожден- ная, где Ху = ^1,/1 \^ит ^dJT ) Q. = \j —jy, - отдельный блок матрицы Q. 552
Предпосылка (Al) об отсутствии корреляции слабее, чем предпосылка E[U/^J = О, так как последнее предположение иск- лючает также нелинейные зависимости между X/ и и^^. 16.12.2. Выполнимый обобщенный метод наименьших квадратов Слагаемые ошибки могут быть записаны в форме составных векторов u = /)^m + u, (16.43) что дает следующую структуру ковариационной матрицы Q: Q:=E[uu'] = Z)^E[mm']Z);+E[oo1=a^(I;v ^Зт) + <^(Ь^Щг)^ (16.44) Это в точности отражает то же, что и (16.30). Матрица Q размерности (Л'^Гх NT) допускает следующее раз- ложение: ^^ (16.45) Поскольку Q и Р — идемпотентны, это означает: для любого вещественного г, например, Q-^=-Vp+4-Q и Q"2=-=i-P-f—Q. Taji Gy y/TG^ oy ОМНК-оценки имеют вид / ^ \ I ^^ I л = (X'Q-'xr'X'Q-'Y, где X = (l;vj-X). 553
ВОМНК-оценки получаются, если оценки дисперсий, най- денные, например, на основе (16.33) и (16.34), подставить в полу- ченные выше уравнения. 16.12.3. Некоторые детали теста Хаусмана Тест Хаусмана основан на разности: А А которую следует стандартизовать, чтобы получить известное распределение Р^ -p = (X'Q-^X)-^X'Q-^U, р^ -p=(X'QX)-^XQU, Cov[p^,ni] = Var[^^]-Cov[P;^,pJ = =(X'Q'^JO-MX'n-^JO"^X'Q-^E[UU']QX(X'Q)0-^ =0. Поскольку Рн.=Рл£"Ль если справедлива Hq, получаем: А А Var[p^] = Var[p/j£]+Var[rii], а следовательно, Varhi] = Var[p^ -pj=Var[pJ-Var[p^] a^(X'QX)"^-(X'Q-^X)-^ Следует подставить оценки для Q и а^, чтобы получить Ф = Var[rii]. Естественно, что разные оценки дают разные значе- ния тестовой статистики. Тестовая статистика Н := л/(Var[Ti,])"^tii может быть выведена и иным способом. Мы знаем представление (16.36): P/^=WP,+(I,-W)P,. л л Следовательно, полагая G:=(W-I^) и ti2 :=Р^ -р^, получим: Л1 =Ьк£ -к =(W, -1Ж +(!</ -W,)P* =G(i -р,) =6л2. 554
Но тогда: Я = Л2G'(GVaг[л2]Gr^Gл2=Л2(Vaг[л2])-Ч. Аналогичные результаты получаются и если начинать с Лз =РяЕ ~Рь и Л4 =Pre ~^мнк- Эти тесты различаются только тем способом, которым они были выведены, и посредством стандар- тизации сводятся к одному и тому же тесту. С вычислительной точки зрения версия с Лг наиболее предпочтительна, так как Varh2] = Var[pJ+Var[p,]. Контрольные вопросы 1. Поясните смысл термина «панельные данные». 2. В чем сущность метода взятие разностей? 3. Что такое «ротационная панель»? 4. В чем различие микро- и макроэкономических панелей дан- ных? 5. Перечислите модели, применяемые для анализа панельных данных. 6. Опишите оценивание параметров модели с фиксированными эффектами. 7. Каков порядок изучения модели со случайными эффектами при анализе панельных данных? 8. Какова область применения теста Хаусмана? 9. Охарактеризуйте роль инструментальных переменных в оце- нивании моделей по панельным данным. 10. Каково практическое использование несбалансированных моделей в исследовании панельных данных? 11. Охарактеризуйте роль временных эффектов при построении моделей с панельными данными.
ЛИТЕРАТУРА 1. Айвазян с.А., Мхитарян В,С, Прикладная статистика и основы эконометрики: Учебник. - М.: ЮНИТИ, 1998. 2. Джонстон Дж, Эконометрические методы. - М.: Статистика, 1980. 3. Доугерти К. Введение в эконометрику. - М.: Финансы и статис- тика, 1999. 4. Елисеева И,К, Юзбашев М.М, Общая теория статистики.— 5-е изд., перераб. и доп. — М.: Финансы и статистика, 2004. 5. Кейн Э. Экономическая статистика и эконометрия. Введение в количественный экономический анализ. — М.: Статистика, 1977. - Вып. 1. 6. Кремер Н, Ш,, Путко Б, А, Эконометрика. - М.: ЮНИТИ, 2002. 7. Ланге О. Введение в эконометрику: Пер. с польск. - М.: Про- гресс, 1964. 8. Лизер С. Эконометрические методы и задачи. — М.: Статистика, 1971. 9. Магнус Я.Р,, Катышев U.K., Пересецкий А.А. Эконометрика: На- чальный курс: Учебник. — 6-е изд. — М.: Дело, 2004. 10. Маленво Э. Статистические методы эконометрии: Пер с фр. — М.: Статистика, 1976. 11. Справочник по прикладной статистике. В 2-х т.: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. 12. Ълнтнер Г. Введение в эконометрию: Пер. с нем. - М.: Финан- сы и статистика, 1965. 13. Тихомиров Н.П., Дорохина Е.Ю, Эконометрика: Учебник. - М.: Экзамен, 2003. 14. Фишер Ф. Проблема идентификации в эконометрии. — М.: Ста- тистика, 1978. 15. Четыркин Е.М. Статистические методы прогнозирования. - М.: Статистика, 1977. 16. Baltagi Badi Н. Econometric Analysis of Panel Data, 2nd edition, Wiley, 2001. 17. Green, William H. Econometric Analysis. - N. Y, 2000. 18. Gujarati D, N. Basic Econometrics. Third Ed. - Mc. Graw - Hill, Inc., 1995. 556
19. Hamilton J.D. Time Series Analysis. Princeton University Press: Princeton, New Jersey, 1994. 20. Johansen S. Statistical Analysis of Cointegrating Vectors. // Journal of Economic Dynamics and Control. - 1988. - № 12. - R 231-234. 21. Judge aa, HillЛ.С., Griffiths W.E., Lutkepohl H and Lee T.-C The Theory and Practice of Econometrics. - John Wiley and Sons: N. Y, 1985. 22. Maty as L, Sevestre С (eds). The Econometrics of Panel Data - A Handbook of the Theory with Applications, Kluwer Academic Publishers, 1995. 23. Wooldridge Jeffrey M, Econometric Analysis of Cross Section and Panel Data, The MIT Press, 2002.
ПРИЛОЖЕНИЯ 1. ДАННЫЕ ПО 30 РЕГИОНАМ РОССИИ ЗА 1997-2000 ГГ. Регион Белгородская обл. Владимирская обл. Воронежская обл. Калужская обл. Костромская обл. Курская обл. Липецкая обл. Рязанская обл. Смоленская обл. Тверская обл. Тульская обл. Ярославская обл. Республика Карелия Архангельская обл. Калининградская обл. Ленинградская обл. Ставропольский край Волгофадская обл. Ростовская обл. Удмуртская Республика Кировская обл. Оренбургская обл. Саратовская обл. Ульяновская обл. Республика Бурятия Новосибирская обл. Омская обл. Читинская обл. Приморский край Амурская обл. Номер реги- она 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Год 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 1994 ВРП 4089,2 4189,4 5900,3 2995,2 2276,9 3752,6 4763,4 4268,6 3376,4 4778,1 4900,6 6323,5 3386,3 6008,9 2298,7 5038,9 6432,9 8590 9393,2 5112,7 4361,2 7841,3 7964,2 4607,2 3741,9 8874,2 6759,5 4262 7456,6 4272 БС 11808 8998 18799 6803 5630 14120 11921 8832 9447 10265 12322 11722 9129 13718 6370 14068 17613 20711 26028 11956 11512 19096 19181 10889 8036 20017 15886 9548 22085 11429 ПП 4309 3260 3630 1629 1314 2787 4849 3587 2521 3066 4454 4956 2029 3186 1118 3988 3211 5886 6407 3487 3265 5543 4168 4083 1478 4639 4919 1437 4150 1510 КЗР 643,0 749,5 1102,9 503,1 375,3 590,3 566,3 605,7 498,8 716,2 840,8 684 373,1 664,1 397,8 668,3 1049,6 1238,2 1930,6 731,4 719,6 1003,1 1262,5 679,2 424 1268,2 989,8 521,8 1003,5 447,7 558
Продолжение Регион Белгородская обл. Владимирская обл. Воронежская обл. Калужская обл. Костромская обл. Курская обл. Липецкая обл. Рязанская обл. Смоленская обл. Тверская обл. Тульская обл. Ярославская обл. Республика Карелия Архангельская обл. Калининградская обл. Ленинградская обл. Ставропольский край Волгоградская обл. Ростовская обл. Удмуртская Республика Кировская обл. Оренбургская обл. Саратовская обл. Ульяновская обл. Республика Бурятия Новосибирская обл. Омская обл. Читинская обл. Приморский край Амурская обл. Белгородская обл. Владимирская обл. Воронежская обл. Калужская обл. Костромская обл. Курская обл. Номер реги- она 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 2 3 4 5 6 Год 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 1996 1996 1996 1996 1996 1996 ВРП 12585,9 10679,3 1653,5 8124,4 5918,2 9621 13794,7 10428,2 7848,2 11618,3 12436,9 14763,1 8065,3 14263,1 5258,2 12507,1 18171,7 19629,8 26338,6 12452,1 11753,6 18136,1 20425,6 10695,8 7737,3 23025,2 20762,4 10037,1 19290,2 8326,3 14955,5 12830,2 20158,3 9649,9 6940 12821,5 БС 51367 43960 77097 32362 30968 39748 49183 37732 38556 44362 50389 48678 33995 56388 26010 58651 69430 87497 122130 45169 51304 78790 91877 47058 35512 83958 70338 37030 94506 57349 137327 115376 211212 79598 66483 122489 ПП 11228 8845 9598 4360 3533 7449 16055 9699 6288 7606 12149 12961 6163 11102 3278 10701 8760 15277 17264 9142 8405 15946 11124 9586 4085 11287 15510 3259 13045 3847 13458 11350 12909 5660 4430 9790 КЗР 648,5 711,2 1048,3 497,1 351,8 557,9 546,4 578,7 474,5 697,2 814,9 651,8 370,6 637,3 392,0 677,7 1012,7 1224,1 1904,1 707,0 698,8 985,5 1209,9 646,7 420,4 1197,9 928,9 483,3 970,6 475,3 646,4 701,3 1042,3 504,8 345,3 561,9 559
Продолжение Регион Липецкая обл. Рязанская обл. Смоленская обл. Тверская обл. Тульская обл. Ярославская обл. Республика Карелия Архангельская обл. Калининградская обл. Ленинфадская обл. Ставропольский край Волгофадская обл. Ростовская обл. Удмуртская Республика Кировская обл. Оренбургская обл. Саратовская обл. Ульяновская обл. Республика Бурятия Новосибирская обл. Омская обл. Читинская обл. Приморский край Амурская обл. Белгородская обл. Владимирская обл. Воронежская обл. Калужская обл. Косфомская обл. Курская обл. Липецкая обл. Рязанская обл. Смоленская обл. Тверская обл. Тульская обл. Ярославская обл. Номер реги- она 7 8 9 10 И 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 2 3 4 5 6 7 8 9 10 11 12 Год 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1996 1997 1997 1997 1997 1997 1997 1997 1997 1997 1997 1997 1997 ВРП 15056,3 12405,9 10059,8 14367,9 15337,6 18131,1 8960,9 18306,2 7494,9 17822,1 22060,2 28925,9 31351,2 18094,1 15046,7 25824,4 24780,4 14781,9 9478,1 31867,2 28534,2 11572,6 24980,9 12527,7 16905,3 14690,8 23393,1 10399,2 8311,7 14414,8 15229,2 14232,4 11160,9 15397,2 1620,9 19617,7 БС 124691 99621 109959 128136 150010 146944 90610 149229 59525 175998 185219 221309 286684 126131 135298 215779 227647 127769 55169 228111 192242 98373 222595 135888 128499 105261 196114 89816 67264 119220 125414 104335 93314 131405 148259 146280 ПП 18482 9503 7978 9994 13846 15688 6261 12928 4095 13486 10264 21234 23298 12750 10554 21072 14761 11896 5320 15931 21304 4768 16822 5019 15413 12764 15385 6438 5430 11483 19635 10628 8784 11409 15255 17399 КЗР 542,1 562,7 472,3 680,8 820,7 658,6 361,5 627,1 397,2 690,0 1039,6 1226,5 1860,2 731,4 701,6 959,8 1192,8 630,4 432,8 1151,4 951,8 478,8 955,3 456,6 622,8 704,6 1020,6 488,7 336,9 574,7 523,0 528,2 467,6 670,8 790,7 642,9 560
Продолжение Регион Республика Карелия Архангельская обл. Калининградская обл. Ленинградская обл. Ставропольский край Волгоградская обл. Ростовская обл. Удмуртская Республика Кировская обл. Оренбургская обл. Саратовская обл. Ульяновская обл. Республика Бурятия Новосибирская обл. Омская обл. Читинская обл. Приморский край Амурская обл. Белгородская обл. Владимирская обл. Воронежская обл. Калужская обл. Костромская обл. Курская обл. Липецкая обл. Рязанская обл. Смоленская обл. Тверская обл. Тульская обл. Ярославская обл. Республика Карелия Архангельская обл. Калининградская обл. Ленинградская обл. Ставропольский край Волгофадская обл. Номер реги- она 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Год 1997 1997 1997 1997 1997 1997 1997 1997 1997 1997 1997 1997 1997 1997 1997 1997 1997 1997 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 ВРП 9875,3 20907,8 8113,7 18922,5 25356,6 31137,7 35573,7 19780,6 16838,6 29862,3 30263,8 16179,7 11269,3 36640,2 32152,5 12598,4 28351,4 15382,0 19281,7 15788,1 24075,0 10763,8 8879,4 16796,3 16803,0 14327,3 12034,7 18019,1 18564,6 22538,4 11381,8 22889,0 8716,3 22446,1 29223,4 31949,2 БС 78166 147171 61193 173425 204407 210026 276614 130539 138563 204565 207212 124140 81364 265202 183712 93694 209479 141776 133498 115164 206565 94943 79051 129321 122628 107320 112611 162683 150344 167816 88966 156901 58185 185306 214146 218937 ПП 7140 12657 4832 14870 11453 21790 23007 15719 11863 23206 16792 13802 5976 16042 22458 5118 18847 5496 17943 13660 15072 6653 6198 12755 20139 10844 9962 11659 16118 16768 8195 13263 4678 17266 11633 22631 КЗР 335,0 573,0 410,7 674,0 1014,2 1148,8 1855,8 720,2 692,9 947,7 1174,1 624,9 400,5 1083,2 947,3 468,2 942,1 434,1 607,3 699,0 988,6 473,0 325,1 564,9 514,6 520,2 446,8 631,4 765,0 634,6 311,6 567,1 399,6 671,1 987,0 1081,8 36" 561
Регион Ростовская обл. Уд\1уртская Республика Кировская обл. Оренбургская обл. Саратовская обл. Ульяновская обл. Республика Бурятия Новосибирская обл. Омская обл. Читинская обл. Приморский край Амурская обл. Белгородская обл. Владимирская обл. Воронежская обл. Калужская обл. Костромская обл. Курская обл. Липецкая обл. Рязанская обл. Смоленская обл. Тверская обл. Тульская обл. Ярославская обл. Республика Карелия Архангельская обл. Калининградская обл. Ленинфадская обл. Ставропольский край Волгоградская обл. Ростовская обл. Удмуртская Республика Кировская обл. Оренбургская обл. Саратовская обл. Ульяновская обл. Номер реги- она 19 20 21 22 23 24 25 26 27 28 29 30 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Год 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 ^ 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 1999 ВРП 40266,1 19960,6 16965,7 28947,5 29402,4 16269,1 11347,2 35734,3 29595,1 13071,9 31512,9 14727,4 33800,3 26213,0 38968,5 17226,4 14301,9 23866,3 31867,9 22954,9 21569,7 28268,6 30028,9 36268,8 20232,0 36845,1 16242,3 41175,0 40736,6 47654,7 68504,2 36976,7 27246,4 55184,8 47878,8 25509,8 БС 296552 145110 151536 201075 219828 118640 85479 264447 190687 93738 156285 135222 149495 118136 203924 94922 80644 118867 122147 98794 115645 160626 150537 168364 87068 156454 68557 184328 193846 208743 285331 150242 147190 179606 221280 116493 ПП 21762 16385 12012 22381 17562 13647 5330 15730 13366 4494 19019 5231 30780 24561 24237 12377 9410 19838 39207 15403 19135 19020 27925 33367 18469 27185 10507 36895 19399 40001 37317 33183 23204 40677 29584 21171 КЗР 1752,2 700,8 682,4 929,6 1163,7 594,1 370,3 1060,5 937,4 427,9 922,6 428,7 676,6 724,4 1105,1 492,7 336,4 606,1 571,7 537,1 471,6 665,4 785,7 651,4 331,5 587,8 401,1 695,9 1008,2 1147,0 1811,8 744,7 749,0 998,7 1196,2 618,0 Продолжение
Продолжение 563 Регион Республика Бурятия Новосибирская обл. Омская обл. Читинская обл. Приморский край Амурская обл. Белгородская обл. Владимирская обл. Воронежская обл. Калужская обл. Костромская обл. Курская обл. Липецкая обл. Рязанская обл. Смоленская обл. Тверская обл. Тульская обл. Ярославская обл. Республика Карелия Архангельская обл. Калининградская обл. Ленинградская обл. Ставропольский край Волгофадская обл. Ростовская обл. Удмуртская Республика Кировская обл. Оренбургская обл. Саратовская обл. Ульяновская обл. Республика Бурятия Новосибирская обл. Омская обл. Читинская обл. Приморский край Амурская обл. Номер реги- она 25 26 27 28 29 30 Год 1999 1999 1999 1999 1999 1999 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 ВРП 16991,7 54913,2 37258,6 21177,9 54848,2 21057,3 44440,4 35242,2 53258,8 25655,0 17763,7 32451,7 48014,0 31804,7 29896,5 38152,2 43897,5 46557,4 28285,3 62562,7 24576,1 58833,7 57474,1 69377,8 94300,7 55784,3 38111,6 80850,3 68311,4 32892,1 21690,7 76509,7 48477,1 30173,5 63989,3 26576,3 БС 84410 255058 181721 85311 161766 134936 145787 129272 211898 105783 83716 124453 129114 110379 125247 175833 156543 185442 90800 198340 75707 223013 205580 208817 299151 180173 148026 234022 268971 125943 91700 302292 190252 105245 166236 141651 ПП 8682 24699 18799 7044 34759 6913 41426 36010 33131 22148 13305 26109 61245 22781 27037 28539 45032 45534 25305 42821 14410 56951 28416 56995 57372 54804 32858 63704 41878 28961 11570 36487 28494 9316 40618 8878 КЗР 395,8 1121,5 968,1 439,5 945,8 427,2 671,3 726,4 1090,9 488,7 337,6 616,6 572,8 539,5 473,9 669,6 786,9 666,5 343,1 599,1 410,0 701,6 1020,5 1103,9 1836,7 767,8 734,3 1018,6 1184,2 619,3 395,5 1130,0 974,5 449,7 945,1 435,8
2. СТАТИСТИКО- МАТЕМАТИЧЕСКИЕ ТАБЛИЦЫ 2.1. Таблица значений F-критерия Фишера на уровне значимости а = 0,05 К 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 1 161,45 18,51 10,13 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4,84 4,75 4,67 4,60 4,54 4,49 4,45 4,41 4,38 4,35 4,32 4,30 4,28 4,26 4,24 4,22 4,21 4,20 4,18 4,17 4,12 4,08 4,06 2 199,50 19,00 9,55 6,94 5,79 5,14 4,74^ 4,46 4,26 4,10 3,98 3,88 3,80 3,74 3,68 3,63 3,59 3,55 3,52 3,49 3,47 3,44 3,42 3,40 3,38 3,37 3,35 3,34 3,33 3,32 3,26 3,23 3,21 3 215,72 19,16 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,07 3,05 3,03 3,01 2,99 2,98 2,96 2,95 2,93 2,92 2,87 2,84 2,81 4 224,57 19,25 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,36 3,26 3,18 3,11 3,06 3,01 2,96 2,93 2,90 2,87 2,84 2,82 2,80 2,78 2,76 2,74 2,73 2,71 2,70 2,69 2,64 2,61 2,58 5 230,17 19,30 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,20 3,11 3,02 2,96 2,90 2,85 2,81 2,77 2,74 2,71 2,68 2,66 2,64 2,62 2,60 2,59 2,57 2,56 2,54 2,53 2,48 2,45 2,42 6 233,97 19,33 8,94 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,09 3,00 2,92 2,85 2,79 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,53 2,51 2,49 2,47 2,46 2,44 2,43 2,42 2,37 2,34 2,31 8 238,89 19,37 8,84 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,95 2,85 2,77 2,70 2,64 2,59 2,55 2,51 2.48 2,45 2,42 2,40 2,38 2,36 2,34 2,32 2,30 2,29 2,28 2,27 2,22 2,18 2,15 12 243,91 19,41 8,74 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,79 2,69 2,60 2,53 2,48 2,42 2,38 2,34 2,31 2,28 2,25 2,23 2,20 2,18 2,16 2,15 2,13 2,12 2,10 2,09 2,04 2,00 1,97 24 249,04 19,45 8,64 5,77 4,53 3,84 3,41 3,12 2,90 2,74 2,61 2,50 2,42 2,35 2,29 2,24 2,19 2,15 2,11 2,08 2,05 2,03 2,00 1,98 1,96 1,95 1,93 1,91 1,90 1,89 1,83 1,79 1,76 00 254,32 19,50 8,53 5,63 4,36 3,67 3,23 2,93 2,71 2,54 2,40 2,30 2,21 2,13 2,07 2,01 1,96 1,92 1,88 1,84 1,81 1,78 1,76 1,73 1,71 1,69 1,67 1,65 1,64 1,62 1,57 1,51 1,48 564
50 60 70 80 90 100 125 150 200 300 400 500 1000 00 1 4,03 4,00 3,98 3,96 3,95 3,94 3,92 3,90 3,89 3,87 3,86 3,86 3,85 3,84 2 3,18 3,15 3,13 3,11 3,10 3,09 3,07 3,06 3,04 3,03 3,02 3,01 3,00 2,99 3 2,79 2,76 2,74 2,72 2,71 2,70 2,68 2,66 2,65 2,64 2,63 2,62 2,61 2,60 4 2,56 2,52 2,50 2,49 2,47 2,46 2,44 2,43 2,42 2,41 2,40 2,39 2,38 2,37 5 2,40 2,37 2,35 2,33 2,32 2,30 2,29 2,27 2,26 2,25 2,24 2,23 2,22 2,21 6 2,29 2,25 2,23 2,21 2,20 2,19 2,17 2,16 2,14 2,13 2,12 2,11 2,10 2,09 8 2,13 2,10 2,07 2,06 2,04 2,03 2,01 2,00 1,98 1,97 1,96 1,96 1,95 1,94 12 1,95 1,92 1,89 1,88 1,86 1,85 1,83 1,82 1,80 1,79 1,78 1,77 1,76 1,75 24 1,74 1,70 1,67 1,65 1,64 1,63 1,60 1,59 1,57 1,55 1,54 1,54 1,53 1,52 00 1,44 1,39 1,35 1,31 1,28 1,26 1,21 1.18 1,14 1,10 1,07 1,06 1,03 1,00 Число средней свободы df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 0,10 6,3138 2,9200 2,3534 2,1318 2,0150 1,9432 1,8946 1,8595 1,8331 1,8125 1,7959 1,7823 1,7709 1,7613 1,7530 1,7459 1,7396 а 0,05 12,706 4,3027 3,1825 2,7764 2,5706 2,4469 2,3646 2,3060 2,2622 2,2281 2,2010 2,1788 2,1604 2,1448 2,1315 2,1199 2,1098 0,01 63,657 9,9248 5,8409 4,6041 4,0321 3,7074 3,4995 3,3554 3,2498 3,1693 3,1058 3,0545 3,0123 2,9768 2,9467 2,9208 2,8982 Число средней свободы df 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 00 0,10 1,7341 1,7291 1,7247 1,7207 1,7171 1,7139 1,7109 1,7081 1,7056 1,7033 1,7011 1,6991 1,6973 1,6839 1,6707 1,6577 1,6449 а 0,05 2,1009 2,0930 2,0860 2,0796 2,0739 2,0687 2,0639 2,0595 2,0555 2,0518 2,0484 2,0452 2,0423 2,0211 2,0003 1,9799 1,9600 0,01 2,8784 2,8609 2,8453 2,8314 2,8188 2,8073 2,7969 2,7874 32,7787 2,7707 2,7633 2,7564 2,7500 2,7045 2,6603 2,6174 2,5758 Продолжение 2.2. Критические значения t-критерия Стьюдента на уровне значимости 0,10; 0,05; 0,01 (двухсторонний) 565
2.3. Критические значения коэффициентов корреляции для уровней значимости 0,05 и 0,01 df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 fl = 0,05 0,996917 0,95000 0,8783 0,8114 0,7545 0,7067 0,6664 0,6319 0,6021 0,5760 0,5529 0,5324 0,5139 0,4973 0,4821 0,4683 fl = 0,01 0,9998766 0,99000 0,95873 0,91720 0,8745 0,8343 0,7977 0,7646 0,7348 0,7079 0,6835 0,6614 0,6411 0,6226 0,6055 0,5897 df 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100 a = 0,05 0,4555 0,4438 0,4329 0,4227 0,3809 0,3494 0,3246 0,3044 0,2875 0,2732 0,2500 0,2319 0,2172 0,2050 0,1946 0 = 0,01 0,5751 0,5614 0,5487 0,5368 0,4869 0,4487 0,4182 0,3932 0,3721 0,3541 0,3248 0,3017 0,2830 0,2673 0,2540 Для простой корреляции 4Гна 2 меньше, чем число пар вариантов; в случае частной корреляции необходимо также вычесть число исключаемых переменных. 2.4. Значения статистики Дарбина - Уотсона di^du на 5%-ном уровне значимости п 6 1 8 9 10 11 12 13 14 к^ = \ di 0,61 0,70 0,76 0,82 0,88 0,93 0,97 1,01 1,05 du 1,40 1,36 1,33 1,32 1,32 1,32 1,33 1,34 1,35 к'=2 di — 0,47 0,56 0,63 0,70 0,66 0,81 0,86 0,91 du — 1,90 1,78 1,70 1,64 1,60 1,58 1,56 1,55 к'=3 di — - 0,37 0,46 0,53 0,60 0,66 0,72 0,77 du — - 2,29 2,13 2,02 1,93 1,86 1,82 1,78 A:^=4 di du k'=5 di du 566
Продолжение п 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 it^ = ^i 1,10 1,13 1,16 1,18 1,20 1,22 1,24 1,26 1,27 1,29 1,30 1,32 1,33 1,34 1,35 = 1 "^ 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,45 1,46 1,47 1,48 1,48 1,49 к} ~dr 0,98 1,02 1,05 1,08 1,10 1,13 1,15 1,17 1,19 1,21 1,22 1,24 1,26 1,27 1,28 = 2 "^ 1,54 1,54 1,53 1,53 1,54 1,54 1,54 1,54 1,55 1,55 1,55 1,56 1,56 1,56 1,57 к' di 0,86 0,90 0,93 0,97 1,00 1,03 1,05 1,08 1,10 1,12 1,14 1,16 1,18 1,20 1,21 = 3 ~d^ 1,73 1,71 1,69 1,68 1,68 1,67 1,66 1,66 1,66 1,66 1,65 1,65 1,65 1,65 1,65 V di 0,74 0,78 0,82 0,86 0,90 0,93 0,96 0,99 1,01 1,04 1,06 1,08 1,10 1,12 1,14 = 4 du 1,93 1,90 1,87 1,85 1,83 1,81 1,80 1,79 1,78 1,77 1,76 1,76 1,75 1,74 1,74 ^^=5 1 dj 0,62 0,67 0,71 0,75 0,79 0,83 0,86 0,90 0,93 0,95 0,98 1,01 1,03 1,05 1,07 d^ 2,15 2,10 2,06 2,02 1,99 1,96 1,94 1,92 1,90 1,89 1,88 1,86 1,85 1,84 1,83 567
2.5. КРИТИЧЕСКИЕ ЗНАЧЕНИЯ ИНТЕГРАЦИОННОЙ СТАТИСТИКИ ДАРВИНА - УОТСОНА ДЛЯ ОЦЕНКИ СТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ Число наблю- дений 24 89 119 151 0,01 IDW^ 1,0177 1,4340 1,5082 1,5548 IDW^ 1,0581 1,4940 1,5686 1,6121 Уровень значимости 0,05 IDW^ 1,1976 1,5599 1,6334 1,6721 IDW^ 1,2724 1,6029 1,6601 1,6983 0,1 IDW^ 1,3119 1,6345 1,6917 1,7256 IDW^ 1,3935 1,6634 1,7097 1,7429 2.6. КРИТИЧЕСКИЕ ЗНАЧЕНИЯ ИНТЕГРАЦИОННОЙ СТАТИСТИКИ ДАРВИНА - УОТСОНА ДЛЯ ОЦЕНКИ НЕСТАЦИОНАРНЫХ ВРЕМЕННЫХ РЯДОВ Число наблю- дений 24 89 119 151 Уровень значимости 0,01 IDW^ 0,9409 0,4309 0,3255 0,2590 IDW^ 0,9563 0,4415 0,3318 0,2622 0,05 IDW^ 0,9266 0,2976 0,2250 0,1764 IDW^ 0,9326 0,2989 0,2262 0,1756 0,1 IDW^ 0,8361 0,2421 0,1814 0,1413 IDW^ 0,8390 0,24.'^6 0,1821 0,1419 568
2.7. КРИТИЧЕСКИЕ ЗНАЧЕНИЯ t-КРИТЕРИЯ ДЛЯ DF-, ADF- И РР-ТЕСТОВ, РАССЧИТАННЫЕ ПО МАККИННОНУ Уровень значимости 0,01 0,05 0,01 0,01 0,05 0,1 0,01 0,05 0,1 0,01 0,05 0,1 0,01 0,05 0,1 Тип функции без параметра смещения и тренда включая параметр смещения Т=22 -2,6756 -1,9574 -1,6238 -3,7667 -3,0038 -2,6417 Г=23 -2,6700 -1,9566 -1,6235 -3,7497 -2,9969 -2,6381 Г=88 -2,5894 -1,9438 -1,6177 -3,5055 -2,8943 -2,5840 Т= 118 -2,5831 -1,9427 -1,6171 -3,4865 -2,8859 -2,5796 Г=150 -2,5793 -1,9420 -1,6168 -3,4749 -2,8807 -2,5769 включая параметр смещения и тренд -4,4415 -3,6330 -3,2535 -4,4167 -3,6219 -3,2474 -4,0648 -3,4608 -3,1564 -4,0380 -3,4481 -3,1489 -4,0216 -3,4403 -3,1444 569
2.8. КРИТИЧЕСКИЕ ЗНАЧЕНИЯ КОИНТЕГРАЦИОННОГО 40Г-КРИТЕРИЯ ДЛЯ УРОВНЕЙ ЗНАЧИМОСТИ 0,01; 0,05; 0,1; т= 1 Уровень значимости 0,01 0,05 0,1 0,01 0,05 0,1 Тип функции Без параметра смещения ADFi ADF, С параметром смещения ADFj ADF, Г=20 -4,43 -3,63 -3,25 -3,94 -3,52 -3,17 -4,73 -3,85 -3,44 -4,61 -3,78 -3,38 Г=25 -4,66 -3,74 -3,30 -4,17 -3,63 -3,23 -4,57 -3,76 -3,38 -4,46 -3,69 -3,32
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Автокорреляция: в остатках (остатков) 185, 200, 429, 438 уровней временного ряда 298 Автокорреляционная функция 336 выборочная 354 частная 356 Аддитивность 24, 25, 86, 286, 311 Альтернативная оценка регрессии 153 Анализ остатков регрессии 183- 194, 429 «Белый шум» 338 Бокса-Пирса Q-статистика 339 В Векторная авторегрессия (VAR) 22 Визуальная оценка гомо- и гетероскедастичности 185—191 Возмущение 44 Волатильность 442 Временной ряд 296, 335, 427 - 428 Гарвардский барометр 18, 19 Гармонический анализ 20 Гетероскедастичность 33, 188, 191, 192 Гомоскедастичность 184, 188, 189,211 Граф связей 27 - 28, 284 - 285 Д Динамические модели 454 -455 Дискретная переменная 223 Дисперсионный анализ 63, 68, 155, 159,181 Дисперсия на одну степень свободы 66, 181 остаточная 50, 99, 147 Доверительные интервалы: коэффициента регрессии 69 линии рефессии 74 — 75 предсказываемого: индивидуального значения 72-75 результативного признака 72-75 Значимость: коэффициентов корреляции 70-72 коэффициентов регрессии 68 - 70, 162 - 163 параметров регрессии 63-68, 155-158 уравнения регрессии 61-62, 123-124,136-145 И Идентификация модели 33, 255, 291 - 292 Идентифицируемость модели 257 - 258, 275 Измерения: допустимые преобразования 35 признаки 34 шкала 35 - 37 Индекс: детерминации 68 корреляции 101 - 103 множественный 136 - 137 парный 99 - 103 частный 145 — 154 571
Инструментальные переменные 540 Интервальное оценивание 72-76 Интерпретация: коэффициента детерминации 60 коэффициентов регрессии 51, 53-54 коэффициентов эластичности 88-90 Источники вариации 68 К Квази-Л^ 142 Ковариация 53 Коинтефация временных рядов 446-449 Коллинеарность факторов 113 Конфлюэнтный анализ 26 Коррелофамма 302, 350 Корреляционная мафица 115, 139-140 Корреляция 18, 22, 29 Коэффициент: автокорреляции 438 — 439 влияния 27, 285, 289, 293 детерминации 60, 62, 67, 136 корреляции: множественный 136, 139 парный 59, 113 ранговый 196 скорректированный с учетом числа степеней свободы: частный 119, 145,148,149 эластичности 88 — 90, 121, 133, 134 частной автокорреляции 356 Коэффициенты рефессии 53, 56, 61, 120 Кривая: Гомперца 29 логистическая 30, 87 с насыщением 29, 95 Филлипса 9, 82 Энгеля 83, 84 Критерий: Дарбина (А-критерий) 493 Дарбина - Уотсона 438, 446, 448 информационный Акаики (AIC) 382, 403 информационный Шварца (SC) 383, 403 Стьюдента (/-критерий) 69, 105, 160, 162 точности измерений 39 — 41 Фишера (/'-критерий): общий 66, 104, 155 последовательный 161 частный 156 Ингла — Грэнджера 408, 448, 451 Л Лаг 28, 301,455,457 Лаговые переменные 455 Латентная переменная 241 Линеаризация 77, 85 - 86,95,96, 123 Линейная модель множественной рефессии 109 Линейность 24, 25, 85 Логит-модель 236 Ложная корреляция 28, 293, 428 М Математическая статистика 12 Метод: максимального правдоподобия (ММП) 208 функция 210, 213, 217 оценка 210, 227 взятия разностей 499-500 Гольдфельда - Квандта 193, 195 инсфументальных переменных 489 исключения тенденции: включения фактора времени 435 572
отклонений от тренда 430 последовательных разностей 432 наименьших квадратов: взвешенный (ВМНК) 207 взвешенный обобщенный (ВОМНК) 534 двухшаговый (ДМНК) 271 обобщенный (ОМНК) 201, 531-532 традиционный (обычный) (МНК) 30, 52, 79, 82, 84, 85, 89,91,94,125 трехшаговый (ТМНК) 265 оценки параметров модели с распределенным лагом: Алмон 462 Койка 469 главных компонент 474 скользящего среднего 446 Модель: авторегрессии 454 адаптивных ожиданий 483 временного ряда: аддитивная 311, 312 -317 мультипликативная 311, 317-324 неполной корректировки 486 панельных данных: — несвязанная регрессия 519 — обычная рефессия (объеди- ненная модель) 518 — регрессия с учетом вариации между объектами наблюдения 526 — с компонентами ошибки 521 — с фиксированными эффек- тами 522 — с фиктивными переменными 520 — со случайными коэффици- ентами 521-522 — со случайными эффектами 530 — SUR-модель 519, 520 рациональных ожиданий 454, 483 регрессии по скользящим средним 446 с распределенным лагом 454, 455 Сакса и Бруно 472 сезонная AkiMA 409 To6HT(tobit) 214 ARCH 423 GARCH 424 ARCH/GARCH 425 Мультиколлинеарность ИЗ, 114, 116 Мультипликативность 311 Мультипликатор: долгосрочный 457 краткосрочный 456 промежуточный 456 инвестиционный 277 Н Неидентифицируемость модели 258 Ненаблюдаемые эффекты 518 Несмещенность оценок параметров регрессии 183 Нормальность регрессионных остатков 184 Объединенный временной ряд 495 Определитель корреляционной матрицы 115, 201 Отношение дисперсий 66 Относительные коэффициенты 457 Оценивание 44, 51, 125,183, 239, 264 Ошибка: аппроксимации 106 выборки 45 измерений 45 спецификации 46 стандартная коэффициентов регрессии 68, 70, 162 573
п Панельная смертность 508 Панельные данные 495 Параметр влияния 517 местоположения 517 Периодограмм аначиз 20 Поле корреляции 47, 48 Построение уравнения регрессии 51, 53 Предопределенные переменные 259, 291 Процедура Саймона-Блейлока 293 Процесс авторегрессионный (AR) 344 ARIMA22, 338 авторегрессионный скользящего среднего (ARMA) 347 единичного корня 344, 371 интегрируемый, к-то порядка 372 нормальный 338 скользящего среднего (МА) 341 случайного блуждания 368 случайный со смещением 378 стохастический 335 стационарный 336 нестационарный 368 Преобразование переменных 78, 82, 84, 88 Приведенная форма модели 252 Пробит-модель 241 Прогноз: интервальный 76 точечный 75 Производственная функция: множественная 123,141 Путевой анализ 27, 284 Путевой коэффициент 27 Регрессионный анализ 43 Рефессия: взвешенная 203 гиперболическая 77, 84 линейная 47, 51, 57 логарифмически линейная 86 множественная 43, 78, 109, 124 нелинейная 77, 99 оценка параметров 52, 77, 125 парная (простая) 43 полиномиальная 78 полулогарифмическая 84, 90 с фиктивными переменными 167 стандартизованная 128, 130, 131 Рекурсивные системы 248 Ротационная панель 508 С Сбалансированные данные 507 Сверхидентифицируемость модели 258 Сезонная интегрируемость порядка (d, D) 406 Система уравнений: одновременная 249 независимых 247 рекурсивных 248 Случайная величина 44 Состоятельность оценок параметров регрессии 184 Спектральная плотность (мощность спектра) 359 Спецификация модели 43 Стандартизованный коэффициент регрессии 130 Стандартная (среднеквадратическая) ошибка коэффициента регрессии 98, 162 Статистика интеграционная Дарбина-Уотсона (IDW) 373 Статистическая гипотеза 66 Структурная форма модели 249 574
Структурные коэффициенты модели 252 Сумма квадратов отклонений, см. Метод наименьших квадратов Т Таблица дисперсионного анализа 68 Теоретическая линия регрессии 50 Теснота связи, см. Коэффициент корреляции Тест Дики-Фуллера (DF): на единичный корень 375 обобщенный (ADF) 381 отношения правдоподобия 231 параметрический 193 со смещением и линейным детерминистическим трендом 378 Дики, Хаза и Фуллера (DHF) 406 на сезонную интегрируемость Гиллиберга, Ингла, Грэнджера и Йо (HEGY) 408 Парка 198 Уайта 197, 198 Хаусмана 538 Хи-квадрат 240 Чоу 330 Уравнение генеральной совокупности 509 модели 510 регрессии: натуральный вид 130, 131 стандартизованный вид 130, 131 Уравнения Юла-Уокера 394 Уровни временного ряда 296 Условие идентификации системы: достаточное 260 необходимое 258 Ф Фиктивные переменные 167 - 171, 173, 175 Ц Цензурированная переменная 214 Ч Число степеней свободы 64 Частные уравнения регрессии 132 Ш Шкала: интервальная 35 наименований (номинальная) 35 отношений 36 порядковая (ординальная) 35 пропорциональная 36 разностей 37 Экзогенные переменные 251 Эконометрика 9, 15, 16 Эконометрические модели: этапы построения 34 Элементы временного ряда: случайная составляющая 28, 296 тенденция (трендовая составляющая) 28, 296 циклические колебания (сезонная составляющая) 28, 296 Эндогенные переменные 251 Эргодичность 337 Эффективность оценок параметров рефессии 184
Учебное издание Елисеева Ирина Ильинична Курышева Светлана Владимировна Костеева Татьяна Владимировна и др. ЭКОНОМЕТРИКА Заведующая редакцией ЛЛ. Табакова Ведущий редактор НА. Кузнецова Младший редактор Н.Л. Федорова Художественный редактор Ю.И. Лртюхов Технический редактор В.Ю. Фотиева Корректоры Т.М. Колпакова, Н.П. Сперанская, Г. В. Хлопцева Обложка художника Е.К. Самойлова ИБ № 4683 Подписано в печать 31.11.2006. Формат 60x88 Vi6- Печать офсетная Гарнитура «Тайме». Усл. п. л. 35,28. Уч.-изд. л. 31,35. Доп тираж 4000 экз. Заказ №3291. «С» 100 Издательство «Финансы и статистика» 101000, Москва, ул. Покровка, 7 Тел. (495) 625-35-02, факс (495) 925-09-57 E-mail: mail@rinstat.ru http://www.rmstat.ru 000 «Великолукская городская типофафия» 182100, Псковская область, г. Великие Луки, ул. Полифафистов, 78/12 Тел./факс: (811-53) 3-62-95 E-mail: zakaz@veltip.ru