Text
                    Марно Вербик
J
■ и
Н К


A Guide to Modern Econometrics Marno Verbeek KU Leuven and Tilburg University JOHN WILEY & SONS, LTD Chichester • New York • Weinheim • Brisbane • Toronto • Singapore
Марно Вербик Путеводитель по современной эконометрике Научная редакция и предисловие доктора физико-математических наук, профессора С. А. АЙВАЗЯНА Рекомендовано Учебно-методическим объединением по образованию в области статистики в качестве учебно-методического пособия для студентов высших учебных заведений, обучающихся по специальности 080601 «Статистика» и другим междисциплинарным специальностям. Библиотека Солев н1м Москва • «Научная книга» • 2008
ББК 65в6 В31 Перевод с английского кандидата физико-математических наук В. А. БАННИКОВА Вербик Марно Путеводитель по современной эконометрике. Пер. с англ. В. А. Банникова. Научн. ред. и предисл. С. А. Айвазяна. — М: Научная книга, 2008. — 616 с. «Библиотека Солев». ISBN 978-5-91393-035-4 Марно Вербик (Marno Verbeek) — профессор эконометрики в Центре экономических исследований Лёвенского университета (Бельгия). Работает также в Центре экономических исследований Тилбургского университета (Голландия). Книга знакомит читателя с широким кругом тем современной эконометрики, важных для понимания и выполнения практической работы. Эта книга - путеводитель по альтернативным методам с упором на освещение конкретных вопросов, например, когда следует применять данный метод, каковы его преимущества и в чем недостатки. Основное внимание в книге уделено не рас- четам или формальным доказательствам, а объяснению подходов к проблеме и ее практическому решению. В книге охватывается широкий круг тем. в том числе слабо освещенных в отечественной литературе, таких, например, как регрессионный анализ временных рядов, коинтеграция, модели с ограниченными зависимыми переменными, анализ панельных данных и обобщенный метод моментов. Приводятся эмпирические примеры, взятые из таких областей, как экономика труда, экономика окружающей среды, мировая экономика, финансы и макроэкономика. В конце каждой главы приводится обзор ключевых понятий, поясняемых на практических примерах. Для иллюстраций и упражнений на сайте в Интернете в режиме он-лайн представлены необходимые наборы данных. Книга адресована студентам, аспирантам, преподавателям, а также специа- листам по прикладной экономике и эконометрике. Содержание и стиль изложе- ния соответствует стандартным учебным программам преподавания этих дисциплин на уровне бакалавриата B-й, 3-й и 4-й годы обучения) и маги- стратуры E-й и 6-й годы обучения) высших учебных заведений экономического профиля. ББК 65в6 Дизайн переплета М. Овчинниковой и Л. Орловой ©John Wiley & Sons, Ltd, 2000 г. © Библиотека Солев, 2007 г. © Научная книга, 2007 г. ISBN 978-5-91393-035-4
«^^^^ кономика должна быть экономной». Такое заявление когда-то сделал ^^ЛЛ. И. Брежнев, лидер СССР времени застоя — неизвестно, правда, m Ш сам ли он был автором. Вроде бы совершенно «банальная истина» ^^^^ типа «масло должно быть масляным», «вода должна быть жидкой» и тому подобное. Но ведь истина не может быть перестать быть истиной, если даже она банальна. Есть явный смысл и в этой фразе — лозунге. Чтобы что-то было экономным, оно должно быть, прежде всего, измеряемым. Надо придумать точки отсчета и механизмы сравнения. Короче, надо оцифровать (звучит почти, как околдовать) экономику. А экономика — это фактически вся жизнь современ- ного человека — сейчас пробуют даже измерить эмоции. Сложнейшая задача! Но делать нечего, и математики вместе с экономистами не так давно, каких-то тридцать лет назад, начали строить новую науку — эконометрику. Эту науку (а там, где есть математика — это и есть наука) везут на себе специалисты по математической статистике и другим смежным математическим дисциплинам, одновременно приспосабливая сами эти дисциплины для обуздания такого скачущего коня, как экономика. Для описания комплекса материальных, социальных, этногеографических, культурных и иных связей и отношений, объединенных одним термином «современная экономика», математики моби- лизуют все достигнутые методы — от многофакторного анализа до теории графов, а также должны изобретать новые. Так живая экономика сама под- талкивает формальную математику к совершенствованию и обогащает ее. Международное объединение «Солев» — крупная консалтинговая фирма России, специализируется на организации финансирования инвестиционных проектов и программ, направленных на создание и/или модернизацию промыш- ленных производств, в основном в «старых» областях экономики, используя схемы и методы проектного финансирования как для частных коммерческих проектов, так и для объектов государственного — частного партнерства. Проектное финансирование рассматривает сделки, когда полный регресс на заемщика по разным причинам невозможен. И единственно разумное обеспечение рисков инвесторов и кредиторов — тщательное исследование самого проекта, углубленные маркетинговые исследования, многочисленные экспертизы и грамотные прогнозы, где без эконометрии почти как без рук, зрения и слуха: пощупать будущее «cash flow» нельзя, посмотреть невозможно, но хотя бы немного понюхать может даже глухой и слепой при помощи обоняния, мысленного прогноза и расчета. Поэтому нам очень интересно, чтобы книжки, связанные с эконометрикой и ее многочисленными приложениями, а также с описанием практики и примеров структур, использующих эти методы в повседневной жизни, постоянно внедря- лись в экономической практике России. Мы поддерживаем выпуск целой серии книг «Библиотека Солев», их будет объединять только одно: мы хотим, чтобы российские специалисты знакомились с самым лучшим, что есть или будет в мире в интересующей нас области (эконо- метрика и проектное финансирование). С наилучшими пожеланиями всем читателям книг из «Библиотеки Солев». Л. И. ВАЙНБЕРГ, Президент МО «Солев»
Оглавление Предисловие к российскому изданию 12 От научного редактора русского издания 14 Предисловие 17 1. Введение 20 1.1. Об эконометрике 20 1.2. Структура этой книги 23 1.3. Примеры и упражнения 26 2. Введение в линейную модель регрессии 29 2.1. Обычный метод наименьших квадратов как алгебраический инструмент 30 2.1.1. Обычный метод наименьших квадратов (МНК) 30 2.1.2. Простая (парная) модель линейной регрессии 34 2.1.3. Пример: индивидуальная заработная плата 36 2.1.4. Матричные обозначения 37 2.2. Линейная модель множественной регрессии 39 2.3. Свойства МНК-оценки для малых выборок 43 2.3.1. Предположения Гаусса—Маркова 43 2.3.2. Свойства МНК-оценки 45 2.3.3. Пример: индивидуальная заработная плата (продолжение) 49 2.4. Качество «подгонки» данных моделью («goodness-of-fit») 51 2.5. Проверка статистических гипотез 54 2.5.1. Простой ^-критерий 55 2.5.2. Пример: индивидуальная заработная плата (продолжение) 58 2.5.3. Тестирование одного линейного ограничения 59 2.5.4. Совместный критерий значимости коэффициентов регрессии .. 60 2.5.5. Пример: индивидуальная заработная плата (продолжение) 63 2.5.6. Общий случай линейных ограничений на коэффициенты регрессии 65 2.5.7. Размер, мощность и р-значения критерия 67 2.6. Асимптотические свойства МНК-оценок 69 2.6.1. Состоятельность 69 2.6.2. Асимптотическая нормальность 73
Оглавление = 7 2.7. Иллюстрация: модель ценообразования финансовых активов (ЦФАМ) 75 2.7.1. ЦФАМ как модель регрессии 76 2.7.2. Оценивание и тестирование ЦФАМ 77 2.8. Мультиколлинеарность 81 2.8.1. Пример: индивидуальная заработная плата (продолжение) 84 2.9. Прогнозирование 86 Упражнения 87 3. Интерпретация и сравнение моделей регрессии 93 3.1. Интерпретация линейной модели 93 3.2. Отбор множества объясняющих переменных 99 3.2.1. Неправильная спецификация множества регрессоров 99 3.2.2. Выбор объясняющих переменных 101 3.2.3. Сравнение не вложенных моделей 107 3.3. Неправильно специфицированная функциональная форма 110 3.3.1. Нелинейные модели 111 3.3.2. Тестирование функциональной формы 112 3.4. Пример: объяснение цен на дома 113 3.5. Пример: объяснение индивидуальной заработной платы 120 3.5.1. Линейные модели 121 3.5.2. Логлинейные модели 125 3.5.3. Тендерные эффекты 130 3.5.4. Некоторые предостерегающие замечания 133 Упражнения 134 4. Гетероскедастичность и автокорреляция 137 4.1. Последствия для свойств МНК-оценки 138 4.2. Вывод альтернативной оценки 140 4.3. Гетероскедастичность 142 4.3.1. Введение 142 4.3.2. Свойства оценок и проверка гипотез 145 4.3.3. Случай неизвестных дисперсий 146 4.3.4. Состоятельные оценки стандартных ошибок МНК-оценок при наличии гетероскедастичности 148 4.3.5. Модель с двумя неизвестными дисперсиями 150 4.3.6. Мультипликативная Гетероскедастичность 151 4.4. Тестирование на Гетероскедастичность 153 4.4.1. Тестирование равенства двух неизвестных дисперсий 153 4.4.2. Тестирование на мультипликативную Гетероскедастичность .... 154 4.4.3. Тест Бреуша—Пагана 155 4.4.4. Тест Уайта 155 4.4.5. Какой тест? 157 4.5. Пример: объяснение спроса на рабочую силу 157 4.6. Автокорреляция 164 4.6.1. Автокорреляция первого порядка 166 4.6.2. Значение р неизвестно 169 4.7. Тестирование на наличие автокорреляции первого порядка 170 4.7.1. Асимптотические тесты 171 4.7.2. Тест Дарбина—Уотсона 172 4.8. Пример: спрос на мороженное 174 4.9. Альтернативные автокорреляционные структуры 179 4.9.1. Автокорреляция высшего порядка 179 4.9.2. Остатки скользящего среднего 180
8 Оглавление 4.10. Что делать, когда Вы находите автокорреляцию? 182 4.10.1. Неправильная спецификация 183 4.10.2. Состоятельные стандартные ошибки МНК-оценок, учитывающие гетероскедастичность и автокорреляцию 185 4.11. Пример: рисковая премия на валютных рынках 188 4.11.1. Понятия и обозначения 189 4.11.2. Тесты на рисковую премию на одномесячном рынке 191 4.11.3. Тесты на рисковую премию при применении перекрываю- щихся выборок 195 Упражнения 199 5. Эндогенность, инструментальные переменные и обобщенный метод моментов (ОММ) 202 5.1. Обзор свойств МНК-оценки 203 5.2. Случаи, когда нельзя пользоваться МНК-оценкой 209 5.2.1. Автокорреляция остатков и лагированная зависимая перемен- ная в качестве регрессора 209 5.2.2. Пример с ошибкой измерения 210 5.2.3. Одновременность: кейнсианская модель 214 5.3. Оценивание методом инструментальных переменных 217 5.3.1. Оценивание с одним эндогенным регрессором и одной инструментальной переменной 218 5.3.2. Назад к кейнсианской модели 222 5.3.3. Назад к проблеме ошибок в измерениях 224 5.3.4. Множественные эндогенные регрессоры 225 5.4. Пример: оценивание отдачи от образования 226 5.5. Обобщенный метод инструментальных переменных 234 5.5.1. Множественные эндогенные регрессоры с произвольным числом инструментальных переменных 234 5.5.2. Двухшаговый метод наименьших квадратов и снова назад к кейнсианской модели 240 5.6. Обобщенный метод моментов 242 5.6.1. Пример 243 5.6.2. Обобщенный метод моментов 245 5.6.3. Несколько простых примеров 248 5.7. Пример: оценивание межвременных моделей ценообразования финансовых активов 250 5.8. Заключительные замечания 255 Упражнения 256 6. Оценивание методом максимального правдоподобия и спецификацион- ные тесты 259 6.1. Введение в метод максимального правдоподобия 261 6.1.1. Некоторые примеры 261 6.1.2. Общие свойства 266 6.1.3. Пример (продолжение) 270 6.1.4. Нормальная линейная модель регрессии 271 6.2. Спецификационные тесты 273 6.2.1. Три принципа тестирования 273 6.2.2. Тесты множителей Лагранжа 276 6.2.3. Пример (продолжение) 281 6.3. Тесты в модели нормальной линейной регрессии 283 6.3.1. Тестирование на наличие существенных невключенных пере- менных 283
Оглавление 9 6.3.2. Тестирование на наличие гетероскедастичности 284 6.3.3. Тестирование на наличие автокорреляции 286 6.4. Метод квази-максимального правдоподобия и тесты моментных условий 288 6.4.1. Метод квази-максимального правдоподобия 288 6.4.2. Тесты моментных условий 291 6.4.3. Тестирование гипотезы нормальности 292 Упражнения 293 7. Модели с ограниченными зависимыми переменными 296 7.1. Модели бинарного выбора 297 7.1.1. Применять ли линейную регрессию? 297 7.1.2. Введение в модели бинарного выбора 298 7.1.3. Лежащая в основе латентная модель 300 7.1.4. Оценивание 302 7.1.5. Качество «подгонки» («goodness-of-fit») данных моделью 304 7.1.6. Пример: влияние пособий по безработице на их получение 306 7.1.7. Спецификационные тесты в моделях бинарного выбора 311 7.1.8. Ослабление некоторых предположений в моделях бинарного выбора 314 7.2. Модели с множественным откликом 316 7.2.1. Модели с упорядоченным откликом 317 7.2.2. О нормировке 319 7.2.3. Пример: готовность платить за природные области, не затра- гиваемые деятельностью человека 320 7.2.4. Мультиномиальные модели 324 7.3. Тобит-модели 329 7.3.1. Стандартная тобит-модель 329 7.3.2. Оценивание 333 7.3.3. Пример: расходы на алкоголь и табак (часть 1) 335 7.3.4. Спецификационные тесты для тобит-модели 340 7.4. Обобщения тобит-моделей 343 7.4.1. Модель тобит II 344 7.4.2. Оценивание 348 7.4.3. Дальнейшие обобщения 351 7.4.4. Пример: расходы на алкоголь и табак (часть 2) 352 7.5. Смещение, обусловленное выборочной селективностью 359 7.5.1. Природа проблемы выборочной селективности 359 7.5.2. Полупараметрическое оценивание модели с ограничениями при формировании выборки 363 Упражнения 365 8. Одномерные модели временных рядов 370 8.1. Введение 372 8.1.1. Некоторые примеры 372 8.1.2. Стационарность и автокорреляционная функция 375 8.2. Общие процессы авторегрессии-скользящего среднего (АРСС) 379 8.2.1. Формулировка процессов АРСС 379 8.2.2. Обратимость полиномов от оператора сдвига 383 8.2.3. Общие корни 384 8.3. Стационарность и единичные корни 385 8.4. Тестирование единичных корней 389 8.4.1. Тестирование единичных корней в модели авторегрессии первого порядка 389
10 Оглавление 8.4.2. Тестирование единичных корней в моделях авторегрессии более высокого порядка 394 8.4.3. Пример: ежеквартальный располагаемый доход 397 8.5. Пример: долгосрочный динамический паритет покупательной способности (часть 1) 400 8.6. Оценивание моделей АРСС 405 8.6.1. Метод наименьших квадратов 406 8.6.2. Метод максимального правдоподобия 407 8.7. Выбор модели 409 8.7.1. Автокорреляционная функция 409 8.7.2. Частная автокорреляционная функция 411 8.7.3. Диагностическая проверка 413 8.7.4. Критерии для выбора модели 413 8.7.5. Пример: моделирование ежеквартального располагаемого дохода 414 8.8. Прогнозирование с помощью моделей АРСС 417 8.8.1. Оптимальная прогнозирующая функция 418 8.8.2. Точность прогнозирования 421 8.9. Пример: теория ожиданий временной структуры 424 8.10. Авторегрессионная условная гетероскедастичность (АРУГ) 430 8.10.1. АРУ Г-и ОАРУ Г-модели 431 8.10.2. Оценивание и прогнозирование 436 8.10.3. Пример: волатильность в ежедневных обменных курсах 438 8.11. Что можно сказать о многомерных моделях? 442 Упражнения 443 9. Многомерные модели временных рядов 447 9.1. Динамические модели со стационарными переменными 449 9.2. Модели с нестационарными переменными 453 9.2.1. Ложные регрессии 453 9.2.2. Коинтеграция 456 9.2.3. Механизмы коинтеграции и коррекции остатков 461 9.3. Пример: долгосрочный динамический паритет покупательной способности (часть 2) 463 9.4. Векторные модели авторегрессии 467 9.5. Коинтеграция: многомерный случай 471 9.5.1. Коинтеграция в векторных моделях авторегрессии 472 9.5.2. Пример: Коинтеграция в двумерной векторной модели авторегрессии 475 9.5.3. Тестирование на коинтеграцию 476 9.5.4. Пример: долгосрочный динамический паритет покупательной способности (часть 3) 480 9.6. Пример: спрос на деньги и инфляция 483 9.7. Заключительные замечания 492 Упражнения 493 10. Модели, основанные на панельных данных 496 10.1. Преимущества панельных данных 497 10.1.1. Эффективность оценивания параметров 499 10.1.2. Идентификация параметров 501 10.2. Статическая линейная модель 503 10.2.1. Модель с фиксированными эффектами 503 10.2.2. Модели со случайными эффектами 507 10.2.3. Фиксированные эффекты или случайные? 511
Оглавление 11 10.2.4. Качество подгонки данных моделью 514 10.2.5. Альтернативные оценки метода инструментальных переменных 516 10.2.6. Альтернативные структуры остатков 519 10.2.7. Тестирование на наличие гетероскедастичности и автокорре- ляции 521 10.3. Пример: объяснение индивидуальной заработной платы 524 10.4. Динамические линейные модели 528 10.4.1. Модель авторегрессии панельных данных 528 10.4.2. Динамические модели с экзогенными переменными 535 10.4.3. Единичные корни и Коинтеграция 537 10.5. Пример: эластичности спроса на труд по заработной плате 539 10.6. Модели с ограниченными зависимыми переменными 542 10.6.1. Модели бинарного выбора 543 10.6.2. Логит-модель с фиксированными эффектами 545 10.6.3. Пробит-модель со случайными эффектами 547 10.6.4. Тобит-модели 549 10.6.5. Динамика и проблема начальных условий 550 10.7. Неполные панельные данные и смещение, обусловленное выборочной селективностью 553 10.7.1. Оценивание со случайно пропущенными данными 555 10.7.2. Смещение, обусловленное выборочной селективностью и некоторые простые тесты 557 10.7.3. Оценивание с неслучайно пропущенными данными 561 Упражнения 562 A. Векторы и матрицы 567 А. 1. Терминология 567 А.2. Действия с матрицами 568 А.З. Свойства векторов и матриц 570 А.4. Обратные матрицы 571 А.5. Идемпотентные матрицы 572 А.6. Собственные значения и собственные векторы 573 А.7. Дифференцирование 575 А.8. Некоторые матричные действия, связанные с методом наименьших квадратов 575 B. Теория статистики и теория распределений 578 8.1. Дискретные случайные переменные 578 8.2. Непрерывные случайные переменные 579 8.3. Математическое ожидание и моменты 581 8.4. Многомерные распределения 582 8.5. Условные распределения 584 8.6. Нормальное распределение 586 8.7. Распределения, связанные с нормальным распределением 589 Литература 592 Предметный указатель 605
Предисловие к российскому изданию Я был счастлив узнать, что готов перевод этой книги на русский язык. Английская версия «Путеводителя по современной экономет- рике» была издана нескольких лет назад и с тех пор служит потреб- ностям многих преподавателей, аспирантов, студентов и практиков. На переполненном рынке учебников для студентов и дипломирован- ных специалистов эта книга имела замечательный успех и нашла свое место на столах многих читателей. Почему? Что является уникальным в этой книге? В эконометрике обычно выделяют три важнейших составляющих: экономическую теорию, эмпирические данные и статистические методы. Но эконометрика не ограничива- ется применением статистических методов к экономическим данным с использованием некоторой экономической теории для мотивации модели и/или для интерпретации результатов. Эконометрика — это интерактивная игра с данными и методами, и, как и во многих играх, в этой игре нет простых оптимальных или корректных пра- вил. В нее можно играть очень умно, достаточно умно или просто глупо. Что делать (и что не делать) вы сможете научиться лишь на собственном опыте или узнать от людей, готовых поделиться своим опытом с вами. Именно это делает эконометрику интересной и захватывающей. Большинство авторов не разделяют эту точку зрения. Их учебники представляют собой собрания гипотез, теорем,
Предисловие к российскому изданию 13 формул, выводов и доказательств. Для теории этого достаточно, для ее применения на практике — нет. В России традиционно высок уровень изучения математики и статистики — дисциплин, составляющих теоретическую основу эко- нометрики. Однако эконометрике как таковой уделялось относитель- но мало внимания. Причины этого очевидны — не хватало надежных данных, не были определены конкретные экономические задачи и области исследования. Но ситуация быстро меняется. В настоящее время российские экономисты широко применяют эконометрические методы для исследования рынка труда, потребительского и финан- сового рынка, а также в других важных областях. Поскольку моя книга сфокусирована на самых насущных проблемах, я надеюсь, что российские читатели найдут ее не менее полезной, чем читатели из стран, на языки которых она была переведена ранее. В последние 10-15 лет многие из моих коллег преподавали эко- нометрику в российских университетах, но мой личный опыт работы с Россией довольно ограничен. Я посетил ежегодную конферен- цию Европейской Финансовой Ассоциации, которая проводилась в Москве летом 2005 г., я имел удовольствие почувствовать академи- ческую жизнь в России, а также отпраздновать мой день рождения с друзьями и коллегами в центре Москвы. Об этой поездке у меня остались самые приятные воспоминания. Позвольте мне закончить, перефразировав гида, который показывал нам Кремль: «Вы знаете, нам трудно жить, когда нет никаких проблем». Я надеюсь, что эта книга поможет вам решить некоторые из них. Марно Вербик Роттердам, сентябрь 2006 г.
От научного редактора русского издания Признаюсь, что познакомившись с книгой профессора Тилбург- ского (Голландия) и Левенского (Бельгия) университетов Марно Вербика (Marno VERBEEK) я испытал, одновременно, чувства глу- бокого удовлетворения и легкой досады. Дело в том, что при всем обилии в мире высококачественной литературы (и монографической, и учебной) по эконометрическим методам и при бурном их разви- тии в последние 20-25 лет, все более явно ощущался недостаток в книге именно такого стиля и содержания. В книге, которая по образному выражению автора (см. последний абзац параграфа 1.1) «послужит гидом для читателя, помогающим провести его через лес процедур оценивания и тестирования без описания красот всех возможных деревьев, а следуя через этот лес по некоторому струк- турированному пути, пропуская необязательные боковые тропинки, подчеркивая сходство деревьев различных встреченных ими видов и обращая внимание на опасные ловушки». Другими словами, автор поставил перед собой задачу (весьма трудную и амбициозную, надо признать) в доступной для «среднего экономиста» форме донести до него основные неформальные идеи, на которых основаны современ- ные методы эконометрики, не перегружая при этом изложение слож- ными математическими выкладками и доказательствами. И можно засвидетельствовать, что в целом это автору удалось! А упомянутое чувство «легкой досады» связано с тем, что в последние несколько
От научного редактора русского издания 15 лет я вынашивал аналогичную идею, намереваясь, при «удобном случае» (в смысле бюджета времени), ее реализовать. Особую ценность этой книги для русскоязычного читателя я вижу в том, что в ней хорошо разъяснена идейная часть тех отно- сительно новых (и очень актуальных в прикладном плане) эконо- метрических методов, которые до настоящего времени крайне слабо представлены в русскоязычной специальной литературе и в учеб- ных планах наших вузов. Я имею в виду такие разделы и темы эконометрического инструментария как анализ панельных данных, обобщенный метод моментов, коинтеграционный анализ многомер- ных временных рядов (включая модель коррекции регрессионных остатков — "Error Correction Model"), смещения в статистических выводах, обусловленные ограничениями на процесс формирования выборки (или, коротко, «смещения, обусловленные выборочной се- лективностью» ). Еще одно бесспорное достоинство книги — это наличие в ней богатого эмпирического материала, т. е. реальных исходных ста- тистических данных, на которых читатель может тренироваться, совершенствуя свое искусство владения методами эконометрическо- го анализа (все упоминающиеся в книге файлы с данными доступны в интернете по адресу: http://www.econ.kuleuven.ac.be./GME). Наконец, книга, как мне кажется, выгодно выделяется на фоне большинства классических учебников по эконометрическим методам повышенным уровнем внимания, которое автор уделяет природе и интерпретации исходных статистических данных и использованию положений экономической теории в процессе спецификации эконо- метрической модели при описании примеров эмпирического анализа. Правда, автор следует при этом принятым до настоящего времени в мире стандартам в понимании структуры и содержания экономет- рического инструментария, полностью игнорируя такую необходи- мую и органичную его часть, какой являются методы многомерного статистического анализа, выходящие за рамки разного рода моделей регрессии (дискриминантный и кластерный анализы, метод главных компонент и т. п.). Конечно, анонсированный в предисловии и введении к книге рас- чет автора на понимание материала «средним экономистом» ставил перед ними (и перед автором, и перед «средним экономистом»), по- рой, трудноразрешимые задачи. Так, например, в описании метода максимума условного правдоподобия, используемого при оценива- нии параметров модели бинарного выбора по панельным данным
16 От научного редактора русского издания (п. 10.6.1), привлекается понятие достаточной статистики и соответ- ствующей факторизации функции правдоподобия. Делается это в весьма конспективном стиле и математически нестрого (см. мою сноску по тексту), так что читатель либо должен обладать солидной математической подготовкой (чтобы суметь понять то, что там напи- сано), либо просто «верить на слово» автору. Однако, повторяю, в це- лом интересный и амбициозный замысел автора реализован успешно. В параграфе 1.2 «Введения» автор предлагает полезные реко- мендации по тому, как использовать материал книги в стандартных курсах по эконометрике различного уровня продвинутости. В общем, эти рекомендации соответствуют отечественным государственным стандартам преподавания эконометрики студентам экономических специальностей. В заключение хочу поздравить русскоязычного читателя с очень полезным «прибавлением в семействе» эконометрических учебников. Не сомневаюсь, что эта книга будет широко использоваться студен- тами, аспирантами, преподавателями и исследователями, специа- лизирующимися в области эмпирического анализа экономических систем разного уровня иерархии. Август 2005 г. С. А. Айвазян
Предисловие За прошедшие два десятилетия эконометрика быстро развивалась,а применение современных эконометрических методов становилось все более стандартной практикой эмпирической работы во многих обла- стях экономики. К числу наиболее распространенных тем исследова- ний относятся тесты на наличие единичных корней; коинтеграция; оценивание обобщенным методом моментов; учет гетероскедастично- сти и автокоррелированности регрессионных остатков; моделирова- ние условной гетероскедастичности; модели,основанные на панель- ных данных, и модели с ограниченными зависимыми переменными; эндогенные регрессоры и проблемы, связанные с ограничениями при формировании выборки ("sample selection problem"). В то же время программное обеспечение эконометрики становилось все более «дру- жественным» для пользователя и все больше отвечало современным требованиям. В результате пользователи могут реализовать доволь- но сложные методы без понимания сущности лежащей в их основе теории, а, значит, и без понимания их потенциальных недостатков или опасностей. При этом во многих вводных учебниках эконометри- ки неоправданно большое внимание уделяется стандартной линейной модели регрессии при множестве строгих предположений. Не прихо- дится и говорить, что эти предположения едва ли удовлетворяются на практике и фактически не нужны. С другой стороны более про- двинутые учебники эконометрики часто перегружены техническими подробностями, что мешает среднему экономисту понять основные
18 Предисловие идеи и извлечь необходимую информацию. В этой книге делается попытка заполнить этот пробел. Цель книги состоит в том, чтобы ознакомить читателя с ши- роким кругом тем в современной эконометрике, подробно останав- ливаясь на вопросах, которые являются важными для понимания и выполнения эмпирических исследований. Эта книга является скорее путеводителем (чем обзором) по альтернативным методам, поэтому изложение не концентрируется ни на формулах после (хотя необходи- мые формулы приводятся), ни на формальных доказательствах, а по- сле описания метода и его практического обоснования сосредотачи- вается на развитии его понимания. Книга охватывает широкий круг тем, которые обычно не входят в учебники такого уровня. В частно- сти, внимание обращено на коинтеграцию, обобщенный метод момен- тов, модели с ограниченными зависимыми переменными и модели панельных данных. В результате в книге обсуждается дальнейшее развитие анализа временных рядов, методов анализа пространствен- ных ("cross-sectional") и панельных данных. Приводится несколько десятков полномасштабных эмпирических примеров и иллюстраций, взятых из таких областей, как экономика труда, финансы, миро- вая экономика, поведение потребителей, экологическая экономика и макроэкономика. Кроме того, ряд упражнений имеет конкретную эмпирическую природу и требует применения реальных данных. Представленный текст основан на записях лекций, которые чи- таются на курсах прикладной эконометрики в программах маги- стратуры по экономике в Католическом университете города Левен и в Тилбургском университете*'. Книга рассчитана на аудиторию экономистов и студентов, изучающих экономику, которые хотели бы подробно ознакомиться с современными эконометрическими подхо- дами и методами, важными для выполнения, понимания и оцени- вания эмпирических исследований. Она соответствует требованиям, предъявляемым к курсам прикладной эконометрики на уровне ма- гистра или дипломированного специалиста. В некоторых высших учебных заведениях эта книга будет отвечать требованиям к одному или более курсам на уровне магистратуры при условии, что сту- денты имеют достаточную подготовку по статистике. Некоторые из последних глав могут использоваться в специальных курсах, охваты- вающих специфические темы, например, панельные данные, модели Leuven (Бельгия), Tilburg (Голландия) (примеч. научн. ред. перевода).
Предисловие 19 с ограниченными зависимыми переменными или анализ временных рядов. Кроме того, книга может служить в качестве руководства для менеджеров, экономистов-исследователей и практиков, которые хотят обновить или расширить свои знания эконометрики. В книге примененяются элементы матричной алгебры. Я очень обязан Ари Каптейну (Arie Kapteyn), Бертрану Мелен- бергу (Bertrand Melenberg), Teo Нейману (Theo Nijman) и Артуру ван Суету (Arthur van Soest), которые внесли свой вклад в мое по- нимание эконометрики и сформировали мой взгляд по многим про- блемам. Тот факт, что некоторые из их идей осуществились в этом тексте, является данью их усилиям. Я также должен поблагодарить несколько поколений студентов, которые помогли мне сформировать этот текст в его нынешнем виде, комментируя предыдущие версии и задавая мне вопросы, на которые они не могли найти ответов. Широкий круг практических и эмпирических проблем, касающихся эконометрики, предложенных мне студентами и коллегами, был важ- ным стимулом для завершения этой книги. Мои коллеги и друзья прочитали разные части рукописи и сделали исправления и заме- чания. Я очень благодарен Петеру де Гую (Peter de Goeij), Бену Якобсену (Ben Jacobsen), Виму Кувутсу (Wim Koevoets), Марко Ли- рио (Marco Lyrio), Константейну Маасу (Konstantijn Maes), Весселю Маркрингу (Wessel Marquering), Бертрану Меленбергу (Bertrand Melenberg), Паулу Нунешу (Paulo Nunes), Анатолию Пересецко- му (Anatoly Peresetsky), Максу ван де Санде Бакхоузену (Мах van de Sande Bakhuyzen), Эрику Схоккарту (Erik Schokkaert), Ар- туру ван Суету (Arthur van Soest), Фредерику Вермелену (Frederic Vermeulen), Куо-чун Е (Kuo-chun Yeh) и множеству анонимных рецензентов. Разумеется, я несу личную ответственность за любые оставшиеся ошибки. Особую благодарность я выражаю Йефу Флехе- ту (Jef Flechet) за его помощь во многих эмпирических иллюстрациях и его конструктивные комментарии ко многим предыдущим верси- ям. Наконец, я хочу поблагодарить мою жену Марселлу (Marcella) и моих детей Тимо (Timo) и Талию (Thalia) за их терпение и пони- мание в течение всего времени, когда моя душа была с этой книгой, в то время как она должна была быть с ними.
1 Введение 1.1. Об эконометрике Экономисты часто интересуются соотношениями между различны- ми величинами, например, между заработной платой и уровнем образования. Наиболее ва^кная работа эконометрики заключается в придании количественной формы («квантифицировании») таким со- отношениям на основе доступных данных и применения статистиче- ских методов, а также в интерпретации и использовании полученных результатов. Следовательно, эконометрике присуще взаимодействие между экономической теорией, наблюдаемыми данными и стати- стическими методами. Это взаимодействие делает эконометрику интересной, перспективной и, возможно, трудной. По словам одного из докладчиков на семинаре, в котором я участвовал несколько лет назад, «эконометрика гораздо проще без данных». Главным предметом исследования в эконометрике традиционно являются агрегированные экономические соотношения. Макроэко- номические модели, состоящие из определенного числа уравнений (от нескольких до многих сотен), специфицировались, оценивались и использовались для оценки последствий проводимой политики и прогнозирования. Последние теоретические разработки в этой об- ласти (наиболее важным является понятие коинтеграции) вызвали повышенный интерес к моделированию макроэкономических соотно- шений и их динамике, хотя, как правило, относились к специальным
1.1. Об эконометрике 21 аспектам экономики. С 1970-х гг. эконометрические методы все ча- ще применяются и в микроэкономических моделях, описывающих поведение индивидуумов, домашних хозяйств или фирм. Это, в част- ности, стимулируется разработками подходящих эконометрических моделей и методов оценивания, которые принимают в расчет та- кие проблемы, как, например, дискретные зависимые переменные, проблемы, связанные с ограничениями при формировании выбор- ки ("sample selection problem"). Другим важным стимулом является доступность больших совокупностей данных обследований и возрас- тающие вычислительные возможностями. Позднее проблемы эмпи- рического анализа финансовых рынков потребовали и обусловили большое количество теоретических разработок в эконометрике. В на- стоящее время эконометрика играет главную роль в эмпирических исследованиях практически во всех областях экономики, причем в большинстве случаев теперь уже недостаточно уметь построить несколько регрессий и проинтерпретировать результаты. Поэтому традиционные вводные учебники по эконометрике обычно страдают от недостаточного охвата информации для прикладных исследова- телей. С другой стороны, более сложные учебники эконометрики часто являются слишком «техницизированными» или слишком по- дробными для среднего экономиста, что не позволяет ему охватить существенные идеи и извлечь необходимую информацию. Таким образом, существует потребность в доступном учебнике, который обсуждает последние и относительно более сложные разработки. Соотношения, которые интересуют экономистов, формально определяются в математических терминах, что позволяет созда- вать эконометрические или статистические модели. В таких моде- лях возможны отклонения от строгих теоретических соотношений, например, из-за ошибок измерения, непредсказуемого поведения, ошибок оптимизации или неожиданных событий. В широком смысле эконометрические модели можно классифицировать по нескольким категориям. Первая категория моделей описывает соотношения между на- стоящим и будущим. Например, как краткосрочная процентная став- ка зависит от своей собственной предыстории? Такие модели, обычно называемые моделями временного ряда, как правило, недостаточ- но обоснованы с точки зрения экономической теории и в основном строятся с целью получить прогнозы будущих значений и оценить соответствующую неопределенность или волатильность.
22 1. Введение Вторая категория моделей описывает соотношения между эко- номическими величинами за определенный временной период. Такие соотношения предоставляют информацию относительно того, как (агрегированные) экономические величины изменяются с течением времени относительно других величин. Например, что происходит с долгосрочной процентной ставкой, если руководящее денежно- кредитное учреждение регулирует краткосрочную процентную став- ку? Такие модели часто дают понимание действующих экономиче- ских процессов. В-третьих, существует категория моделей, которые описыва- ет соотношения между различными переменными, измеренными в данный момент времени на различных выборочных единицах (на- пример, семьях или фирмах). Почти всегда такой тип соотношений предназначается для того, чтобы объяснить различия в значении или поведении выборочных единиц. Например, можно проанализи- ровать, в какой степени различия в сбережениях семей можно объяс- нить различиями в семейных доходах. При определенных условиях эти пространственные ("cross-sectional") соотношения можно исполь- зовать для анализа вопросов «что, если?». Например, насколько бы возросли сбережения данной семьи, или средней семьи, если бы ее доход увеличился на 1%? И, наконец, можно рассматривать соотношения между различ- ными переменными, измеренными на разных выборочных единицах в течение более длительного промежутка времени (измеренными, по крайней мере, для двух тактов времени). Эти соотношения од- новременно описывают различия между разными индивидуумами (почему индивидуум 1 делает сбережений намного больше, чем ин- дивидуум 2?), и различия в поведении данного индивидуума в разное время (почему индивидуум 1 делает сбережений больше в 1992 году, чем в 1990 году?). Такая категория моделей обычно требует панель- ных данных, то есть, повторных (во времени) наблюдений на одних и тех же выборочных единицах. Такие модели идеально подходят для проведения анализа изменений политики на индивидуальном уровне, при условии, что можно предположить постоянство струк- туры модели в (близком) будущем. Задача эконометрики заключается в определении (специфика- ции) таких соотношений и получении для них количественных вы- ражений. Таким образом, эконометристы формулируют статистиче- скую модель — обычно на основе экономической теории, — сопостав- ляют ее с данными и пытаются обосновать такую ее спецификацию,
1.2. Структура этой книги 23 которая удовлетворяет необходимым целям. Неизвестные элемен- ты спецификации модели, ее параметры, оцениваются по выборке доступных данных. Другая цель работы эконометриста — сделать вывод о том, является ли полученная в итоге модель «подходящей». То есть проверить корректность сделанных предположений, кото- рые послужили основанием правомерности применения конкретных методов оценивания (с определением их свойств), и возможность ис- пользования модели по назначению. Например, можно ли ее исполь- зовать для прогнозирования или для проведения анализа изменений в области политики? Часто экономическая теория подразумевает, что на оцениваемую модель накладываются определенные ограни- чения. Например, (одна из версий), гипотеза эффективного рынка подразумевает, что доходности фондовой биржи непредсказуемы из их собственного прошлого. Одна из важнейших задач эконометрики состоит в формулировании таких гипотез в терминах параметров модели, а также в проверке достоверности этих гипотез. Эконометрические методы, которыми можно пользоваться, весь- ма многочисленны и правомочность их применения часто кардиналь- но зависит от достоверности лежащих в их основе допущений. Эта книга послужит для читателя путеводителем, помогающим прове- сти его через лес процедур оценивания и тестирования без описания красот всех возможных деревьев, а следуя через этот лес по некото- рому структурированному пути, пропуская необязательные боковые тропинки, подчеркивая сходство деревьев различных встреченных им видов и обращая внимание на опасные ловушки. Надеемся, что в итоге прогулка будет приятной и эта книга поможет читателю не затеряться в эконометрическом лесу. 1.2. Структура этой книги Первую часть этой книги составляют главы 2, 3 и 4. Как большинство учебников она начинается с обсуждения наиболее распространенно- го метода оценивания линейной модели регрессии — метода наи- меньших квадратов (МНК). В главе 2 представлены основы этого важного метода оценивания с некоторым акцентом на обоснование его правомочности при довольно слабых условиях, в то время как глава 3 нацелена на интерпретацию моделей и сравнение их альтер- нативных спецификаций. В главе 4 рассматриваются два специфиче- ских отклонения от стандартных предположений линейной модели:
24 1. Введение автокорреляция и гетероскедастичность остатков моделей. В ней обсуждается, как можно тестировать эти феномены, как они влияют на правомочность применения МНК и какой корректировки резуль- татов они требуют. В частности, это включает критический анализ вопросов модельной спецификации, применение скорректированных стандартных ошибок МНК-оценок и применение альтернативного метода — обобщенного метода наименьших квадратов (ОМНК). Эти три главы существенны для остальной части этой книги и должны быть отправной точкой в любом курсе. В главе 5 обсуждаются другие отклонения от стандартных предположений линейной модели, фатальные для свойств МНК. Как только остаток модели коррелирован с одной или более объ- ясняющими переменными, все хорошие свойства МНК-оценивания становятся несправедливыми, и мы обязательно должны использо- вать альтернативные методы оценивания. В этой главе обсуждается оценивание методом инструментальных переменных (МИП) и оцени- вание обобщенным методом моментов (ОММ). Эта глава, по крайней мере, ее первые параграфы, также рекомендуется в качестве суще- ственной части любого курса эконометрики. Глава 6 в основном является теоретической и в ней обсужда- ется оценивание методом максимального правдоподобия (ММП). Поскольку в эмпирической работе метод максимального правдо- подобия часто критикуется за его зависимость от предположений об общем виде анализируемого распределения, он не обсуждался в предыдущих главах, в которых без труда описаны доступные альтер- нативные методы оценивания, являющиеся либо более устойчивыми, чем метод максимального правдоподобия, либо (асимптотически) ему эквивалентными. Особый акцент в главе б делается на тестиро- вании неправильной спецификации на основе принципа множителей Лагранжа. Несмотря на то, что во многих эмпирических иссле- дованиях существует тенденция считать предположения об общем виде распределения само собой разумеющимися, их правомочность является критической для состоятельности применяемых методов оценивания и поэтому их следует тестировать. Часто такое тестиро- вание относительно легко выполнимо, хотя обычно в большей части программного обеспечения такие процедуры тестирования не предо- ставляются (до сих пор). Глава 6 является решающей для понимания главы 7 о моделях с ограниченными зависимыми переменными, и для понимания нескольких параграфов в главах 8-10.
1.2. Структура этой книги 25 Последняя часть этой книги состоит из четырех глав. В главе 7 представлены модели, которые, как правило (хотя и не исключитель- но), применяются в микроэкономике, когда зависимая переменная дискретна (например, нуль или единица) или частично дискретна (например, нуль или положительна). Она также включает обсужде- ние проблем, связанных с ограничениями на процесс формирования выборки ("sample selection problems"), которое идет дальше, чем их обычное обсуждение в учебниках. Подчеркивается, что проблема выборки с ограничениями (или «выборочной селективности») явля- ется потенциально важной проблемой в эмпирической работе, и что для этой проблемы никакого стандартного решения не существует. В главах 8 и 9 обсуждается моделирование временных рядов, включая единичные корни, коинтеграцию и модель коррекции ре- грессионных остатков. Эти главы можно прочитать непосредственно после главы 4 или 5, за исключением нескольких параграфов, кото- рые касаются оценивания методом максимального правдоподобия. За прошедшие 15 лет в этой области были проведены значительные теоретические исследования, и многие последние учебники, кажется, практически полностью посвящены именно им. Глава 8 посвящает- ся моделям одномерных временных рядов. В подобных случаях описываются модели, которые объясняют поведение экономической переменной по ее собственному прошлому. Включено описание мо- дели АРПСС, а также модели О АРУ Г для условной дисперсии ряда. В главе 9 обсуждаются многомерные модели временных рядов, в которых рассматриваются одновременно несколько динамических переменных. Глава включает векторные модели авторегрессии, ко- интеграцию и модели коррекции регрессионных остатков (Error- Correction Model). И, наконец, глава 10 посвящается моделям, основанным на па- нельных данных. Панельные данные доступны, если на одних и тех же выборочных единицах (например, домашних хозяйствах, фирмах или странах) сделаны повторные (во времени) наблюдения. В по- следнее десятилетие применение панельных данных стало важным во многих областях экономики. Микроэкономические панельные данные по домашним хозяйствам и фирмам могут быть получены без особого труда и, учитывая возросшие вычислительные ресурсы, стали более легкими для обработки, чем в прошлом. Кроме того, все более распространяется практика объединения временных рядов нескольких стран. По-видимому, одной из причин является мнение многих исследователей, что в дополнение к историческому сравне-
26 1. Введение нию страны с ее собственным прошлым, пространственное ("cross- section") сравнение стран предоставляет интересную информацию. В конце книги читатель найдет два кратких приложения, в ко- торых обсуждаются математические и статистические результаты, используемые в разных местах книги. В них содержится обсужде- ние некоторых методов матричной алгебры и некоторые сведения из теории вероятностных распределений. В частности предоставля- ется обсуждение свойств (двумерного) нормального распределения, включая условные математические ожидания, дисперсии и усечение. Судя по моему опыту, содержание этой книги слишком обширно для его охвата в одном курсе. На основе представленных в книге глав можно наметить несколько курсов. Например, типичный курс бакалаврского уровня по прикладной эконометрике мог бы охватить главы 2, 3, 4, часть главы 5, а затем продолжалея бы с выборочным охватом параграфов из глав 8 и 9, если в центре внимания анализ временных рядов, или продолжался бы с охватом параграфа 6.1 и главы 7, если в центре внимания пространственные модели. В более сложном бакалаврском университетском курсе или в курсе для ма- гистров можно сосредоточить внимание на охвате глав временных рядов (главы 8 и 9), микроэконометрических глав (главы б и 7) и (или) на моделях панельных данных (глава 10 с некоторыми выбо- рочными параграфами из глав 6 и 7). Учитывая замысел и объем материала этой книги, я должен был выбрать, какой материал представить, а какой нет. Как правило, я не хотел обременять читателя деталями, которые считал несуществен- ными или не имеющими эмпирической значимости. Главная цель состояла в том, чтобы предоставить общий и всесторонний обзор различных методологий и подходов, сосредотачиваясь на аспектах, важных для понимания и выполнения эмпирической работы. Неко- торые темы упоминаются очень кратко, и никаких попыток обсудить их более подробно не делается. Для компенсации я попытался дать ссылки в соответствующих местах на другие, часто более специаль- ные учебники, которые полностью охватывают эти проблемы. 1.3. Примеры и упражнения В большей части глав, в отдельных параграфах или в их разде- лах, приводятся разнообразные эмпирические примеры. Несмотря на то, что можно пропустить эти примеры по существу без потери
1 3 Примеры и упражнения 27 целостности, в них описываются действительно важные аспекты ре- ализации методов, обсужденных в предшествующем тексте. Кроме того, я попытался привести примеры, которые сами по себе представ- ляют экономический интерес, используя данные, которые являются типичными для текущей эмпирической работы и охватывают ши- рокий диапазон различных областей. Большая часть совокупностей данных взята из эмпирических работ, изданных за последнее время. Массивы данных довольно большие по числу наблюдений и числу переменных. Учитывая текущее состояние вычислительных средств, эмпирический анализ таких больших совокупностей данных обычно не является сложной проблемой. Процесс познания эконометрики — не только вопрос изучения учебника. В процессе развития понимания корректного применения различных методов (как и в каких случаях следует реализовать кон- кретный метод) практический опыт является решающим. Поэтому особенное внимание уделяется поддержке читателя в процессе обу- чения, который состоит в том, чтобы получать в свои руки «сырые» данные, оценить ряд моделей, используя подходящие или неподходя- щие методы, и выполнять ряд альтернативных тестов спецификации. С современным программным обеспечением, становящимся все более и более «дружественным» для пользователя, практическое вычис- ление даже наиболее сложных оценок и тестовых статистик часто удивительно просто, иногда угрожающе просто. Таким образом, да- же с ошибочными данными, неверно специфицированной моделью и неправильно примененным методом, программы могут привести к результатам, которые на вид кажутся вполне удовлетворительны- ми. По меньшей мере, некоторый профессиональный опыт обязан предохранить практика от таких ситуаций, и в этом данная книга играет важную роль. Чтобы стимулировать читателя использовать реальные дан- ные и оценивать некоторые модели, почти все совокупности дан- ных, используемые в этом тексте, доступны через Интернет на странице Католического университета города Левена (Бельгия) http://www.econ.kuleuven.ac.be/GME. Приветствуются читатели, которые повторно оценят модели, представленные в данном тексте, и сравнят полученные результаты, а также поэкспериментируют с альтернативными спецификациями или методами. В некоторых упражнениях используются те же самые или дополнительные сово- купности данных и задается ряд определенных вопросов для ответа. Следует подчеркнуть, что для методов оценивания, которые требуют
28 1. Введение численной оптимизации, альтернативных программ, алгоритмов или установочных параметров, можно получить несколько различающи- еся результаты. Однако вы должны получить результаты, которые близки к результатам, представленным в данной книге. Я не сторонник применения какого-то определенного пакета про- грамм. Для модели линейной регрессии подойдет любой пакет, тогда как для более сложных методов каждый пакет имеет свои специфиче- ские преимущества и недостатки. Как правило, между «дружествен- ноственностью» в применении для пользователя и гибкостью суще- ствует компромисс. Пакеты, управляемые с помощью системы меню, часто не позволяют вычислять что-либо помимо того, что включено в меню, но если меню достаточно разнообразно, никаких проблем возникнуть не должно. Пакеты с программным управлением требу- ют от пользователя несколько более сложного ввода, но, как правило, отличаются гибкостью. Для проведения расчетов по данным приме- ров в этом тексте я использовал программные пакеты Eviews 2.0, GAUSS 3.2, LIMDEP 7.0, MicroFit 4.0, SAS 6.12, Stata 5.0 и TSP 4.3*}. Кроме того, доступно несколько альтернативных эконометрических программ, в том числе ЕТ, PcGive, RATS и SHAZAM. В журналах, как, например, Journal of Applied Econometrics и Journal of Economic Surveys, регулярно публикуются обзоры программного обеспечения. Упражнения, приведенные в конце каждой главы, состоят из ряда вопросов, которые прежде всего предназначены для проверки усвоения читателем самых важных понятий. Поэтому в них, как пра- вило, отсутствуют технические детали и не спрашиваются выводы или доказательства. Кроме того, часть упражнений имеет эмпири- ческую природу и для их выполнения требуется, чтобы читатель использовал реальные данные. Сейчас, конечно, существуют более поздние версии большинства этих пакетов программ (примеч. научн. ред. перевода).
2 Введение в линейную модель регрессии Одним из краеугольных камней эконометрики является так называе- мая линейная модель регрессии и обычный метод наименьших квадратов (МНК). В первой части этой книги мы рассмотрим ли- нейную модель регрессии с ее предположениями, как эту модель можно оценить и как ее можно применить для проверки экономиче- ских гипотез и построения прогнозов. В отличие от многих учебников я не излагаю статистическую модель регрессии, начиная со стандартных предположений Гаусса- Маркова. С моей точки зрения при первом обсуждении самого важ- ного метода эконометрики, обычного метода наименьших квадратов, роль предположений, лежащих в основе линейной модели регрессии, лучше всего понимается с помощью алгебраических, а не статистиче- ских средств. Этой теме посвящается раздел 2.1. Затем в разделе 2.2 вводится линейная модель регрессии, в то время как в разделе 2.3 обсуждаются свойства МНК-функции оценивания ("estimator")*) В английском языке "an estimator" — это функция от результатов наблюде- ния, используемая для оценивания интересующего нас параметра, в то время как "an estimate" — это численное значение соответствующей оценки, полу- ченное для заданных значений имеющихся наблюдений. В русском языке и то, и другое понятие определяется словом «оценка». В дальнейшем там, где это не вызывает путаницы этих двух понятий, мы будем использовать для перевода и "an estimator", и "an estimate" слово «оценка» (прим. научн. ред. перевода).
30 2. Введение в линейную модель регрессии этой модели при так называемых предположениях Гаусса—Маркова. В разделе 2.4 обсуждаются меры качества приближения данных ли- нейной моделью, а в разделе 2.5 рассматривается проверка гипотез. В разделе 2.6 мы переходим к случаям, когда свойства Гаусса- Маркова не обязательно удовлетворяются и неизвестны свойства МНК-оценок при малых выборках. В таких случаях, чтобы аппрок- симировать свойства МНК-оценок при малых выборках, обычно ис- пользуется предельное (асимптотическое) поведение этой оценки, ко- гда, гипотетически, объем выборки становится бесконечно большим. В разделе 2.7 представлен эмпирический пример модели ценообразо- вания финансовых активов (ЦФАМ). В разделах 2.8 и 2.9 обсужда- ются соответственно мультиколлинеарность и прогнозирование. Для иллюстрации главных проблем на всем протяжении используется эм- пирический пример, касающийся заработной платы молодых рабо- чих. В главе 3 проводится дополнительное обсуждение, как интерпре- тировать коэффициенты линейной модели, как проверить некоторые из модельных допущений и как сравнивать альтернативные модели. 2.1. Обычный метод наименьших квадратов как алгебраический инструмент 2.1.1. Обычный метод наименьших квадратов (МНК) Предположим, что мы имеем выборку из N наблюдений по за- работной плате и некоторым основным характеристикам. Мы за- интересованы в ответе на главный вопрос, как в этой выборке заработная плата связана с другими наблюдаемыми переменными. Обозначим заработную плату через у, а другие К — 1 переменных через £2, • • • ? %к- Ниже станет ясным, почему такая нумерация пе- ременных удобна. Теперь мы можем задать вопрос: какая линейная комбинация #2 ? • • • ? хк с константой дает хорошую аппроксимацию для у? Чтобы ответить на этот вопрос, сначала запишем произволь- ную линейную комбинацию, включая константу, в виде А+02Х2 + ...+&КХК, B-1) где /Зк являются константами, которые должны быть подобраны. Проиндексируем наблюдения через г, так что г = 1,... , N. Теперь,
2 * Обычный метод наименьших квадратов : 31 разность между наблюдаемым значением и его линейной аппрокси- мацией равна Уг ~ [Pi + 02Xi2 + ... + 0KxiK]. B.2) Чтобы упростить выводы, мы введем некоторую краткую систему обозначений. Для читателей, не знакомых с применением векторной системы обозначений, подробности дополнительно предоставляются в Приложении А. Сначала мы объединяем х-значения для индиви- дуальных г в вектор а^, который включает константу. То есть, Xi = A Xi2 Xiz ... Хж)'. Объединяя коэффициенты /3 в К-мерный вектор /? = (/?i, ... , ft к)'? мы можем кратко записать выражение B.2) в виде Vi - х'ф. B.3) Ясно, что мы хотели бы подобрать такие значения для констант 3\, •.. , Ркч чтобы разности B.3) были малыми. Хотя можно исполь- зовать разные критерии, чтобы определить, что мы подразумеваем под понятием «малые», однако самый общий подход состоит в выбо- ре такого вектора констант /?, что сумма квадратов разностей была бы как можно меньше. Мы определяем вектор /?, таким образом, чтобы минимизировать следующую целевую функцию: ~ N ~ ЗД = ]Г(у;-*;/?J. B.4) г=1 Этот метод называется обычным методом наименьших квадра- тов или МНК. Возведение в квадрат разностей гарантирует, что при суммировании положительные и отрицательные разности не по- гашают друг друга. Чтобы решить проблему минимизации, мы можем обратиться к условиям первого порядка, полученным дифференцированием S(/3) по вектору /?. (В Приложении А приводятся некоторые правила диф- ференцирования скалярных выражений, подобных выражению B.4), по вектору.) Условия дают следующую систему из К уравнений: N -2]Г*г(уг-*;/?)=0, B.5) г=1 ИЛИ , N ч _ N (^^Ь = 5>;Уг. B.6) М=1 ' г=1
32 2. Введение в линейную модель регрессии Эти уравнения иногда называются системой нормальных урав- нений. Поскольку система имеет К неизвестных, то можно полу- чить единственное решение для вектора констант /3 при условии, что N симметрическую матрицу Y^ Х{х'{, которая содержит суммы квадра- г=1 тов и перекрестных произведений регрессоров х^, можно обратить. В настоящий момент мы предположим, что это так. Решение про- блемы минимизации, которое мы обозначим через &, тогда имеет вид , N ч -1 N Ъ = ( Yl Х*Х* ) £ XiVi' B*7) М=1 ' г=1 Проверкой условий второго порядка, легко убедиться, что вектор Ь действительно соответствует минимуму. Получающаяся в результате линейная комбинация х^, таким образом, задается как Ш = х+Ь, и эта комбинация является наилучшей линейной аппроксима- цией для переменной у по переменным Х2, -.. -,хк и константе. Выражение «наилучшей» относится к тому факту, что решение методом наименьших квадратов b приводит к минимальной сумме квадратов разностей (ошибок аппроксимации). При выводе линейной аппроксимации мы не использовали ни- какой экономической или статистической теории. МНК — это всего лишь алгебраический инструмент и он применяется независимо от способа порождения данных. Таким образом, при заданном множе- стве переменных мы всегда можем определить наилучшую линейную аппроксимацию для одной переменной, используя другие перемен- ные. Единственное предположение, которое мы должны были сде- лать (которое непосредственно проверяется на данных), состоит N в том, что К х К матрица V^ Xix\ обратима. Это значит, что ни г=1 одна из переменных Xi не является точной линейной комбинаци- ей других переменных и, таким образом, не является избыточной. Такое предположение обычно называется предположением «от- сутствия мультиколлинеарности». Следует подчеркнуть, что линейная аппроксимация является внутривыборочным результа- том (то есть, в принципе она не дает информацию о наблюдениях
2.1. Обычный метод наименьших квадратов 33 (индивидуумах), которые не представлены в выборке), и прямая интерпретация коэффициентов отсутствует. Несмотря на эти ограничения алгебраические результаты по методу наименьших квадратов очень полезны. Определяя остаток ei как разность между наблюдаемым и аппроксимированным зна- чением, ei = yi — & = yi — х[Ь, мы можем разложить наблюдаемое значение yi в виде Уг = Уг + е{ = х\Ъ + е{. B.8) Это позволяет нам записать минимальное значение целевой функции как N г=1 которое называется остаточной суммой квадратов. Можно по- казать, что аппроксимированное значение х[Ъ и остаток е* удовле- творяют определенным свойствам, как говорится, по построению. Например, если мы перепишем выражение B.5), подставляя МНК- оценки Ь, то мы получим N N J2 *г(Уг ~ Xjb) = J2 Х^ = °' BЛ°) г=1 г=1 Это означает, что вектор е = (ei,... , е^У ортогонален1^ каждому вектору наблюдений Х{ векторной переменной х. Например, если вектор Xi содержит константу, то это подразумевает, что N г=1 То есть, среднее значение остатков равно нулю. Понятно, что это привлекательный результат. Если среднее значение остатков было бы не нулевым, то это означало бы, что мы могли бы улучшить аппроксимацию, добавляя или вычитая одну и ту же константу для каждого наблюдения, то есть, изменяя константу Ъ\. Следовательно, для среднего наблюдения справедливо, что у = х'Ь, B.11) Говорят, что два вектора хну являются ортогональными, если х у = 0, то есть, если \. хгУг = 0 (см. Приложение А). г
34 2. Введение в линейную модель регрессии вы- ГДе У = ( ~N ) ^ VU а Х = ( iV ) ^ Хь ~~ #-мерный вектор ^ ' г=1 ^ ' г=1 борочных средних значений. Данный вывод показывает, что для среднего наблюдения нет никакой ошибки аппроксимации. Анало- гичные интерпретации справедливы для других компонент векто- ра х: если производная по f3k (к = 2, 3,... , К) суммы квадратов N ошибок аппроксимации положительна, то есть, если ^, xik^% > 0, то это означает, что мы можем улучшить значение целевой функции, уменьшая /3&. 2.1.2. Простая (парная) модель линейной регрессии При К = 2 имеется только один регрессор и константа. В этом случае наблюдения2^ (у^, х^) можно нанести на двумерный график со зна- чениями Xi на горизонтальной оси и значениями yi на вертикальной оси. Это сделано на рисунке 2.1 для совокупности данных, которые У оН -г- .3 Рисунок 2-1- Простая линейная регрессия: аппроксимированная («подогнанная») линия и точки наблюдений В этом пункте параграфа для обозначения одного регрессора будет приме- няться xi так, чтобы он не включал константу.
2.1. Обычный метод наименьших квадратов 35 использованы в разделе 2.7 ниже. Наилучшая линейная аппрокси- мация для переменной у по переменной у и константе получена минимизацией суммы квадратов остатков. В двумерном случае оста- ток равен расстоянию, измеренному параллельно вертикальной оси между наблюдаемым и аппроксимированным значением. Все ап- проксимированные «подогнанные» (fitted) значения находятся на прямой линии, линии регрессии. Поскольку 2x2 матрицу можно обратить аналитически, то в этом частном случае решения для коэффициентов Ъ\ и Ъ2 можно получить из вышеприведенного общего выражения для вектора Ъ. Эквивалентно, можно минимизировать остаточную сумму квадратов относительно двух неизвестных непосредственно. Таким образом, мы имеем ~ ~ N ~ ~ ЗД, fo) = $>г - & - Р2хгJ. B.12) г=1 Основными элементами при выводе МНК-решений являются условия первого порядка: ^М = _2 J2(yi -A- &*.) = о, B.13) Wl г=1 ЩМ = _2 JT Хг{Уг - & - р2Хг) = 0, B.14) д&2 г=1 Из уравнения B.13) можно написать 1 N 1 п b± = jj^yi-b2jj^2xi = y-b2x, B.15) где решение Ь2 получается из системы уравнений B.14) и B.15). Сначала из уравнения B.14) получаем N N , N ч ^2 хш ~~bi £Xi ~ (]С хчb2 = °' г=1 г=1 М=1 ' а затем подставляем выражение B.15), чтобы получить N , N ч J2 *iVi - N*V -\52х1- Nx2)b2 = 0. г=1 М=1 '
36 2. Введение в линейную модель регрессии Таким образом, получаем решение для коэффициента наклона Ъ2 в виде N Y^(Xi ~х){Уг -У) Ъ2 = ^ . B.16) i=l При добавлении множителя 1/(N — 1) к числителю и знаменателю оказывается, что МНК-решение Ъ2 является отношением выборочной ковариации между переменной х и переменной у к выборочной дисперсии переменной х. В выражении B.15) свободный член Ъ\ определен так, что делает среднюю ошибку (остаток) аппроксимации равной нулю. 2.1.3. Пример: индивидуальная заработная плата Пример, который часто будет использоваться в этой главе, основан на выборке индивидуальных заработных плат и некоторых базовых характеристик, таких как пол, национальность и общее число лет обучения. Из американского Национального периодического обсле- дования (NLS*)), мы взяли подвыборку данных 1987 года, которая составила 3296 молодых работников, 1569 из которых — женщины 3'. Средняя почасовая тарифная ставка заработной платы в этой выбор- ке равняется 6,42 доллара для мужчин и 5,15 доллара для женщин. Теперь предположим, что мы пытаемся аппроксимировать зара- ботную плату линейной комбинацией из константы и переменной, которая принимает значение 1 или 0 в зависимости от того, мужчина это или женщина. Таким образом Х{ — 1, если рабочий г является мужчиной, и равен 0 в противном случае. Такую переменную, ко- торая может принимать только значения нуль и единица, называют фиктивной переменной. Используя МНК, в результате имеем & = 5,15 + 1,28^. Это означает, что для женщин наилучшая аппроксимация равна 5,15 доллара, а для мужчин равна 5,15 + 1,28 = 6,42 доллара. Нет случайного совпадения в том, что эти числа в точности равны вы- борочным средним в двух подвыборках мужчин и женщин. Ведь из NLS — US National Longitudinal Survey (примеч. переводчика). Данные для этого примера доступны как WAGES 1.
2.1. Обычный метод наименьших квадратов 37 приведенных выше результатов легко проверить, что bi=yf, b2 = ym-yf, где YXiVi Утп = £ Xi является выборочным средним заработной платы для мужчин, а J^(l - Xi)yi i — выборочным средним для женщин. 2.1.4. Матричные обозначения Поскольку в эконометрике в качестве краткой записи часто при- меняются матричные выражения, то для чтения эконометрической литературы необходимо некоторое ознакомление с таким матрич- ным «языком». В этой книге мы регулярно будем формулировать результаты, используя матричную систему обозначений, и иногда, когда альтернатива чрезвычайно громоздка, ограничимся только матричными выражениями. Используя матрицы, решение методом наименьших квадратов получаем быстрее, но требуется некоторое знание матричного дифференциального исчисления. Мы вводим сле- дующую систему обозначений: A х12 ... х1К \ / х[ \ ( уг \ ; = : ■ И : 1 xN2 ... xNK/ \x'N / XVn/ Таким образом, в N х К матрице X г-ая строка соответствует на- блюдению г, а /с-ый столбец соответствует наблюденным значениям /с-ой объясняющей переменной (регрессора). Критерий минимиза- ции, заданный выражением B.4), можно переписать в матричной системе обозначений, используя тот факт, что скалярное произве- дение вектора с самим собой (х'х) является суммой квадратов его элементов (см. приложение А). То есть, S0) = (у- ХР)\у - Х0) = у'у - 2у'Хр + р'Х'Х0, B.17)
38 2. Введение в линейную модель регрессии из которого следует МНК-решение посредством дифференцирова- ния4^ относительно C и приравнивания результата к нулю: ^Ш = -2(Х'у - Х'ХР) = 0 *>. B.18) dp Решая уравнения B.18), приходим к МНК-решению Ъ=(Х'ХГ1Х'у, B.19) которое является в точности тем же самым, что получено в выраже- нии B.7), но теперь записанное в матричных обозначениях. Заметим, N что мы снова должны предположить, что матрица X' X — у. щя\ г=1 обратима, то есть, что не существует точной (или полной) мульти- кол л инеарности. Как и прежде, мы можем разложить у в виде у = ХЬ + е, B.20) где е — N-мерный вектор остатков. Условия первого порядка под- разумевают, что Х'(у — ХЪ) = 0, или Х'е = 0. B.21) Последнее выражение означает, что каждый столбец матрицы X ортогонален вектору остатков. С помощью выражения B.19) мы также можем записать B.20) как y = Xb + e = X(XfX)~lX,y + e = y + e, B.22) так что прогнозное значение для переменной у имеет вид: у = ХЪ = Х{Х'Х)-1Х'у = Рху. B.23) В линейной алгебре матрица Рх = Х(Х'Х)~1Х' известна как мат- рица проектирования (см. Приложение А). Она проектирует вектор у на столбцы матрицы X (то есть на пространство «натянутое» на столбцы матрицы X). Это — просто геометрическая интерпре- тация получения наилучшей линейной аппроксимации у по столб- цам (регрессорам) матрицы X. Остаточный вектор проектирования ' См. Приложение А для некоторых правил дифференцирования матричных выражений по вектору. *^ Отметим, что левая и правая части этого соотношения представляют собой век- торы столбцы размерности К, так что 0 в правой части — это вектор-столбец, размерности К, состоящий из одних нулей (прим. научн. ред. перевода).
2.2. Линейная модель множественной регрессии 39 е = у — ХЬ = (I — Рх)у = Мху является ортогональным дополне- нием. Он является проекцией у на пространство, ортогональное к пространству, натянутому на столбцы матрицы X. Такая интерпре- тация иногда полезна. Например, проектирование дважды на одно и то же пространство должно оставить результат неизменным, так что справедливо РхРх = Рх и МхМх = Мх- Что еще более важно, справедливо, что МхРх — 0, так как пространство столбцов матри- цы X и его ортогональное дополнение совместно не имеют ничего общего (кроме нулевого вектора). Это — альтернативный способ интерпретации результата, что ре, а также X и е ортогональны. Интересующийся читатель отсылается к Дейвидсону и МакКиннону (Davidson, MacKinnon, 1993, Chapter 1), к превосходному обсужде- нию геометрии метода наименьших квадратов. 2.2. Линейная модель множественной регрессии Обычно экономисты хотят больше, чем просто получение наилуч- шей линейной аппроксимации одной переменной по заданному мно- жеству других переменных. Им хочется получить экономические соотношения, в общем являющиеся более адекватными, чем выбор- ка, которую они иногда имеют. Экономисты хотят извлечь выводы о том, что случится, если фактически одна из переменных изменится. То есть: они хотят сказать кое-что о вещах, которые не наблюдаются (еще). В этом случае мы хотим, чтобы соотношение, которое най- дено, было бы более чем просто случайное историческое стечение обстоятельств; оно должно отражать фундаментальные отношения. Чтобы прийти к этому, предполагается существование общего со- отношения, которое справедливо для всех возможных наблюдений из хорошо-определенной генеральной совокупности (например, все домашние хозяйства США, или все фирмы в определенной отрасли промышленности). Ограничивая внимание линейными соотношени- ями, мы определим статистическую модель в виде Уг = /?i + p2xi2 + ... + 0KXiK + £i B.24) или Уг = х'+/3 + 6г, B.25)
40 2. Введение в линейную модель регрессии где yi и $i — наблюдаемые переменные, a Si — не наблюдаемая переменная, которая называется членом ошибки или членом возмущения*^. Равенство в B.25) предполагается справедливым для любого возможного наблюдения, тогда как мы наблюдаем толь- ко выборку из N наблюдений. Мы рассматриваем эту выборку как одну реализацию из всех потенциально возможных выборок объема 7V, которые могли бы быть извлечены из одной той же ге- неральной совокупности. Таким образом, мы можем рассматривать переменные yi и si (и часто вектор переменных Х{) как случайные переменные. Каждое наблюдение соответствует реализации этих случайных переменных. Опять мы можем использовать матричную систему обозначений и объединить все наблюдения, чтобы написать у = Х/3 + е, B.26) где у и е — TV-мерные векторы, а матрица X, как и прежде, имеет размерность N х К. Отметим разницу между последним уравнением и уравнением B.20). В отличие от уравнения B.20) уравнения B.25) и B.26) являют- ся соотношениями генеральной совокупности, где /3 — вектор неиз- вестных параметров, характеризующих генеральную совокупность. Выборочный процесс описывает, как выборка извлекается из гене- ральной совокупности, и в результате выборочный процесс определя- ет случайность выборки. В первом представлении вектор переменных Х{ рассматривается как фиксированный, а не стохастический вектор, предполагая, что каждая новая выборка будет иметь одну и ту же матрицу X. В этом случае к вектору переменных Х{ относятся как к детерминированному вектору. Новая выборка подразумевает новые значения только для регрессионного остатка Si или, эквива- лентно, для переменной у^- Единственный реальный случай, когда По существу, здесь речь идет о стохастических регрессионных остатках модели. Широко используемый для их обозначения в англоязычной литерату- ре термин «ошибка» ("error") слишком узко, а чаще — неадекватно передает их смысл. В действительности, ненаблюдаемый член Si в регрессионных со- отношениях B.24) и B.25) отражает, в основном, остаточное влияние на yi факторов, не представленных в наборе переменных хц, Жг2, • • • > ^iK, и лишь в малой степени — возможность ошибки в измерении самого yi (об этом упоминает и сам автор в дальнейшем). Поэтому во всем дальнейшем тексте мы будем при переводе придерживаться этой позиции, т. е. называть Si — остатком, а разность а = yi — х'ф, где /3 — МНК-оценка параметра /3, — МНК-оцененным остатком (примеч. научн. ред. перевода).
2.2. Линейная модель множественной регрессии 41 вектор переменных Х{ действительно детерминированный, соответ- ствует проведению экспериментов в лаборатории, когда исследова- тель может назначать условия эксперимента (например, температу- ру, давление воздуха). В экономике, как правило, приходится рабо- тать не с экспериментальными данными. Несмотря на это, удобно, и в конкретных случаях в экономическом контексте уместно, рассматри- вать вектор переменных Х{ как детерминированный вектор. В этом случае мы должны сделать некоторые предположения о выборочном распределении регрессионного остатка Si. Подходящее распределе- ние соответствует случайному выбору, когда каждый регресси- онный остаток si является случайным извлечением из генеральной совокупности с некоторым распределением и не зависит от других регрессионных остатков. Мы возвратимся к этой проблеме ниже. Во втором представлении новая выборка подразумевает новые значения, как для вектора Х{, так и для регрессионного остатка Е{, и таким образом каждый раз из генеральной совокупности извлекается новое множество из N наблюдений по вектору (у*, х[). Тогда случай- ная выборка означает, что каждый вектор (x^Si), или (уг,х[), слу- чайно извлекается из генеральной совокупности с соответствующим распределением. В этом контексте важно сделать предположение о совместном распределении вектора Х{ и регрессионного остатка Si, в особенности относительно независимости регрессионного остатка Si от вектора переменных Xi. Идея (случайной) выборки наиболее понятна в пространственном ("cross-sectional") контексте, когда нас интересует большая и фиксированная совокупность, например, все британские домашние хозяйства в январе 1999 г. или все акции, заре- гистрированные на Нью-Йоркской фондовой бирже на конкретную дату. В контексте временных рядов различные наблюдения отно- сятся к разным периодам времени, и бессмысленно предполагать, что мы имеем случайную выборку из временных периодов. Вместо этого мы придерживаемся мнения, что выборка, которая у нас есть, является только одной реализацией того, что могло бы случится в данном временном периоде и случайность относится к альтер- нативным состояниям мира. В таком случае мы должны сделать некоторые предположения о способе порождения данных (а не о способе, которым эти данные выбираются). Важно понять, что без дополнительных ограничений стати- стическая модель B.25) не имеет смысла: для любого значения вектора коэффициентов регрессии /3 всегда можно определить мно- жество регрессионных остатков Е{ такое, что модель B.25) в точности
42 2. Введение в линейную модель регрессии будет справедлива для каждого наблюдения. Таким образом, мы должны принять некоторые предположения, чтобы придать модели смысл. Общее предположение состоит в том, что математическое ожидание регрессионного остатка £^, ПРИ заданном векторе объяс- няющих переменных а^, равно нулю, то есть E{ei\xi} = 0. Обычно на это предположение ссылаются как на предположение, говорящее, что переменные х являются экзогенными. Согласно этому пред- положению справедливо E{yi\Xi} = х'ф, B.27) так что линия регрессии х\C описывает условное математическое ожидание случайной переменной yi при заданном векторе Х{. Ко- эффициенты регрессии /3& измеряют, насколько изменится матема- тическое ожидание yi при изменении значения х^, если остальные х-переменные остаются постоянными (условие ceteris paribus (при прочих равных условиях)) *). Однако экономическая теория часто предполагает, что модель B.25) описывает причинное соотношение, в котором коэффициенты регрессии /3 измеряют приращения yi, вызванные приращением х^ при прочих равных условиях. В таких случаях регрессионный остаток Si имеет экономическую (а не только статистическую) интерпретацию и предположение его некоррелиро- ванности с вектором переменных Xi, которое мы вводим с помощью наложения условия E{ei\xi} = 0, возможно не обосновано. Так как во многих случаях можно утверждать, что ненаблюдаемые значения члена регрессионного остатка связаны с наблюдаемыми значениями вектора переменных Xi, то мы должны быть осторожными при ин- терпретации наших коэффициентов регрессии как измерителей при- чинных эффектов. Мы вернемся обратно к этим проблемам в главе 5. Теперь, когда наш вектор коэффициентов /3 имеет смысл, мы можем попробовать использовать выборку (?/г, Хг),г = 1,...,Л^, что- бы сказать кое-что о векторе /3. Правило преобразования, которое говорит, каким образом данная выборка преобразуется в аппрок- симирующее значение для вектора коэффициентов регрессии /?, называется функцией оценивания ("estimator") (см. прим. на- учи, ред. перевода в начале этой главы). Результат, полученный для данной выборки, называют оценкой ("estimate"). Функция оценивания является вектором случайных переменных, поскольку Часто употребляемое латинское выражение (примеч. переводчика).
2.3. Свойства МНК-оценки для малых выборок 43 выборки из одной и той же генеральной совокупности могут менять- ся. Оценка является вектором чисел. Наиболее широко применяемой функцией оценивания в эконометрике является функция оценива- ния обычного метода наименьших квадратов (МНК). Это просто обычное правило наименьших квадратов, описанное в разделе 2.1, применяемое к имеющейся выборке. МНК-функция оценивания для вектора коэффициентов f3 таким образом задается в виде у N ч -1 N Ь= 1^2Х^г) 5>^' B-28) ^г=1 ' г=1 Поскольку мы предположили лежащую в основе «истинную» мо- дель B.25) в комбинации с выборочной схемой, то теперь Ъ является вектором случайных переменных. Нас интересует вектор истинных неизвестных параметров /?, а случайный вектор Ъ рассматривается как его аппроксимация. Несмотря на то, что данная выборка предо- ставляет только одну оценку, мы определяем качество этой оценки через свойства лежащей в основе функции оценивания. Функция оце- нивания b имеет выборочное распределение, поскольку ее значение зависит от выборки, которая (случайно) извлекается из генеральной совокупности. 2.3. Свойства МНК-оценки для малых выборок 2.3.1. Предположения Гаусса—Маркова В этом разделе мы обсудим несколько важных свойств МНК-оценки Ъ. Для обсуждения этих свойств нам необходимо сделать некоторые предположения о регрессионном остатке и векторе объясняющих переменных х\. Первую совокупность предположений, которую мы рассмотрим, составляют так называемые предположения Гаусса- Маркова. Обычно эти предположения являются стандартными в первых главах учебников эконометрики, хотя, как мы будем видеть ниже, они не все строго необходимы, чтобы обосновать применение обычной МНК-оценки. Предположения Гаусса—Маркова представ- ляют только простой случай, в котором легко вывести свойства Ъ для малых выборок.
44 2. Введение в линейную модель регрессии Стандартная совокупность предположений Гаусса—Марко- ва имеет вид: Е{ег} = 0, i = l,...,N, (A1) {£i,...,£iv} и {#b---?#/v} независимы, (А2) V{si} = a2, г = 1,... ,7V, (A3) cov {е{, Sj} = 0, г, j = 1,... , TV, г ф j. (A4) Предположение (А1) говорит, что математическое ожидание регрес- сионного остатка равно нулю, и подразумевает, что, в среднем, линия регрессии должна быть истинной. Предположение (A3) утвержда- ет, что все регрессионные остатки имеют одну и ту же дисперсию, и называется предположением гомоскедастичности, в то время как предположение (А4) подразумевает нулевую корреляцию между разными регрессионными остатками, что исключает любую форму автокорреляции. Взятые вместе предположения (А1), (A3) и (А4) подразумевают, что регрессионные остатки являются некоррелиро- ванными извлечениями из генеральной совокупности с распределе- нием, имеющим нулевое математическое ожидание и постоянную дисперсию а . Используя вышеприведенную матричную систему обозначений, эти три условия можно переписать в виде Е{е} = 0 и V{e} = a2IN, B.29) где In — N х N единичная матрица. Последнее из выражений B.29) говорит, что ковариационная матрица вектора регрессион- ных остатков е является диагональной матрицей с дисперсией а на диагонали. Предположение (А2) означает независимость матри- цы X и вектора регрессионных остатков £, что является довольно сильным предположением, которое может быть несколько ослаблено (см. ниже). Оно, в частности, подразумевает, что Е{е\Х} = Е{е} = 0 B.30) и V{e\X} = V{s} = a2IN. B.31) Таким образом, матрица значений регрессоров X не предоставляет никакой информации о математических ожиданиях остатков или об их (ковариациях) дисперсиях. Условия B.30) и B.31), объединя- ющие необходимые элементы из предположений Гаусса—Маркова, требуются для того, чтобы приведенные ниже результаты были
2.3. Свойства МНК-оценки для малых выборок 45 справедливыми. Часто предположение (А2) излагается в следующем виде: матрица регрессоров X является детерминированной, не сто- хастической матрицей. Основанием для этого служит то, что исходы в матрице X можно рассматривать как заданные, без влияния на свойства вектора остатков £, т.е. все интересующие нас свойства оценки можно выводить условно по X (т. е. при данных фикси- рованных значениях матрицы X). Для простоты в этом разделе и разделе 2.5 мы будем придерживаться такого подхода. Соглас- но предположениям (А1) и (А2) Гаусса—Маркова линейную модель можно интерпретировать как условное математическое ожидание переменной yi при заданном а^, то есть, Е{уг\хг) = х'ф, что являет- ся прямым следствием из предположения B.30). 2.3.2. Свойства МНК-оценки Согласно предположениям (А1)-(А4) МНК-оценка Ъ для вектора неизвестных параметров /3 имеет несколько желаемых свойств. Прежде всего, она является несмещенной оценкой. Это означа- ет, что при повторных выборках мы можем ожидать, что наша оценка, в среднем, равна истинному значению вектора /3. Мы фор- мулируем это свойство, как Е{Ь} = /3. Поучительно посмотреть на доказательство: Е{Ъ} = Е{(Х'Х)-1Х'у] = Е{{3+ {Х'Х)-1Х'г} = = Р + Е{(Х'Х)-1Х'е} = 0. Последний шаг доказательства существенен, и он следует из соотно- шения ЕЦХ'Х^Х'е} = E{{XfX)-lXf}E{e] = 0, поскольку X и е независимы и Е{е} — 0. Заметим, что в дока- зательстве мы не использовали предположений (A3) и (А4). Тем самым показано, что МНК-оценка является несмещенной до тех пор, пока регрессионные остатки имеют нулевое среднее и независимы от всех объясняющих переменных, даже если присутствует гетероске- дастичность или автокорреляция. Мы возвратимся к этой проблеме в главе 4. Дополнительно к знанию, что мы, в среднем, корректны, нам также хотелось бы сделать утверждения о том, насколько (неверо- ятно, что оценка при заданной выборке будет далекой от истинного значения вектора /3. Это подразумевает, что мы хотели бы знать
46 2. Введение в линейную модель регрессии закон распределения оценки Ъ. Прежде всего, ковариационная мат- рица вектора Ъ (условная по X) имеет вид V{b\X} = a2{X'X)-'=(r2{yjxlx^ , B.32) которую, для простоты, мы обозначим V{b}. Неявно это означает, что мы рассматриваем матрицу X как детерминированную матрицу. Доказательство довольно легкое и проводится следующим образом: V{b} = Е{(Ъ - Р)(Ь - /3)'} = EiiX'X^X'ee'XiX'X)-1} = = {XfX)-lX\a2IN)X{XfX)-1 = a2{XfX)-\ Без применения матричной системы обозначений доказательство проводится следующим образом: Г/ N \_1 N 1 ^ 4=1 ' г=1 ^ , TV v -i ( N Е^О НЕ- 4=1 ' М=1 • А/" \ -1 / iV \ / iV N Ki-.\ ' 4=1 ' 4=1 ' г N v -1 5>г*М . B.33) TV Х_1^ДГ >>/TV Xj,bi f | ? X{X^ г=1 7 чг=1 ' 4=1 AT x-1 /AT \ / N = a2 г=1 Последний результат составляет часть теоремы Гаусса—Мар- кова. Эта теорема утверждает, что при предположениях (А1)-(А4) МНК-оценка Ъ является наилучшей линейной несмещенной оценкой (НЛНО) для вектора /?. Кратко мы говорим, что Ъ явля- ется НЛНО-оценкой для вектора /3. Чтобы понять этот результат, рассмотрим класс линейных несмещенных оценок. Линейная оценка является линейной функцией от элементов вектора у и ее можно написать как Ъ — Ау, где А — это К х N матрица. Оценка яв- ляется несмещенной, если Е{Ау} = /?. (Заметим, что МНК-оценка получается с матрицей А, равной А — (X'Х)~1 X'.) Тогда теорема утверждает, что разность между ковариационной матрицей вектора Ъ = Ау и ковариационной матрицей МНК-оценки Ъ всегда является положительно полуопределенной. Что это означает? Предположим,
2.3. Свойства МНК-оценки для малых выборок 47 что мы интересуемся некоторой линейной комбинацией коэффици- ентов /?, заданной в виде df/З, где d — это Х-мерный вектор. Тогда результат Гаусса—Маркова означает, что дисперсия МНК-оценки d!b для линейной функции d!C не больше, чем дисперсия любой другой линейной несмещенной оценки d'b, то есть V{dfb} > V{d!b} для любого вектора d. В качестве частного случая последнее соотношение справедливо для /е-го элемента и мы имеем, что V{bk} > V{bk}. Таким образом, согласно предположениям Гаусса—Маркова, МНК- оценка является самой точной (линейной) несмещенной оценкой для вектора /3. Больше подробностей относительно результата Гаусса— Маркова можно найти у Грина5) (Greene, 1997, 2000, Section 6.6) или у Стюарта и Джилла (Stewart, Gill, 1998, Section 2.4). Пока, мы не делали никакого предположения о форме распре- деления регрессионных остатков si за исключением того, что они взаимно некоррелированны, независимы от матрицы X, и имеют нулевое среднее значение и постоянную дисперсию. Для точного статистического вывода *) при заданной выборке из N наблюдений следует сделать6) явные предположения о распределении. Самое общее предположение состоит в том, что остатки имеют совместное многомерное нормальное распределение 7^. В этом случае некоррели- рованность (предположение (А4)) эквивалентна независимости всех регрессионных остатков. Наиболее распространенное предположение следующее s~Af@,a2IN), (A5) говорящее, что е имеет TV-мерное нормальное распределение с векто- ром нулевых средних значений и ковариационной матрицей, равной <j2In • Таким образом, предположение (А5) заменяет предположения (А1), (A3) и (А4). ' Если не обозначено иначе, все ссылки ниже одинаково соответствуют как третьему изданию (Greene, 1997), так и четвертому изданию (Greene, 2000). *^ Например, для построения точных интервальных оценок и тестов для значе- ний flk или для значений у(х^2\ ... , аг ') при заданных значениях регрессо- ров аг ', ... , аг ) (примеч. научн. ред. перевода). ' Позлее мы увидим, что для приближенного вывода при больших выборках это не является необходимым. ) Распределения, применяемые в этом тексте, объясняются в Приложении Б.
48 2. Введение в линейную модель регрессии Альтернативный способ записи предположение (А5) есть ^~ЯОЯР@,<т2), (А5') что означает: £i, 62, . • • , £n являются независимыми, одинаково нор- мально распределенными случайными величинами со средними зна- чениями, равными нулю, и дисперсиями, равными а2. Даже не смотря на то, что регрессионные остатки не наблюдаемы, это не означает, что мы свободны в принятии любых предположений, ко- торые нам понравятся. Например, если предполагается, что остатки имеют нормальное распределение, то это значит, что yi (для задан- ного значения вектора Х{) также имеет нормальное распределение. Ясно, что мы можем думать о многих переменных, распределе- ние которых (условное при заданном множестве переменных Х{) не является нормальным, когда предположение о нормальном рас- пределении остатков неуместно. К счастью, не все предположения являются одинаково критическими для справедливости последую- щих результатов и, кроме того, большинство предположений может быть тестировано эмпирически; см. главы 3, 4 и 6 ниже. Чтобы сделать упрощения, предположим, что матрица X яв- ляется фиксированной и детерминированной или, альтернативно, будем работать условно по исходам X. Тогда справедлив следую- щий результат. Согласно предположениям (А2) и (А5) МНК-оценка b имеет нормальное распределение с вектором средних значений, равным /3, и ковариационной матрицей, равной a2(Xf Х)~1, то есть, Ъ~Я(C,G2(Х'Х)-1). B.34) Доказательство непосредственно следует из результата, что оценка Ь является линейной комбинацией всех членов регрессионных остатков £г? и здесь опускается. Из этого также следует, что каждый элемент в векторе Ъ имеет нормальное распределение, например, Ък~ЛГ(Рк,а2скк). B.35) где ckk — (fc, к) элемент в матрице (Xf Х)~1. Эти результаты обес- печивают обоснование статистических тестов, основанных на МНК- оценке Ъ. -^ Чтобы оценить дисперсию Ь, нам требуется заменить неизвест- ную дисперсию регрессионных остатков а2 ее оценкой. Очевидным кандидатом является выборочная дисперсия остатков е^ = yi — х^Ъ,
2.3. Свойства МНК-оценки для малых выборок 49 то есть г=1 (напомним, что среднее значение остатков равно нулю). Однако поскольку оцененные остатки е^ отличаются от остатков Si, то можно показать, что эта оценка является смещенной для дисперсии а2. Несмещенная оценка имеет вид Эта оценка имеет скорректированные степени свободы, так как она делится на число наблюдений минус число регрессоров (включая свободный член). Интуитивный аргумент состоит в том, что К параметров были подобраны так, чтобы минимизировать остаточную сумму квадратов и таким образом минимизировать выборочную дисперсию остатков. Доказательство, что s2 является несмещенной оценкой, не приводится и его можно найти в нескольких учебниках эконометрики (например, (Greene, 2000, Section 6.6) или (Judge et al., 1988, Section 5.8)). Ковариационную матрицу оценки Ь, таким образом, можно оценить в виде V{b} = s2(X'X)-1 =s2lJ2 *гх'г ) . B.38) m=i ' Оцененная дисперсия элемента bk задается, как s2Ckk- Квадратный корень из этой оцененной дисперсии обычно называется стандарт- ной ошибкой элемента bk. Она является оцененным стандартным отклонением элемента bk и является мерой точности оценки. 2.3.3. Пример: индивидуальная заработная плата (продолжение) Возвратимся теперь к нашему примеру заработной платы. Мы мо- жем сформулировать статистическую модель как wagei = f3\ + fomalei + £*? B.39) где wagei обозначает почасовую тарифную ставку заработной платы молодого работника г, a malei = 1, если работник г является муж- чиной, и malei = 0, если работник г является женщиной. Наложение условий, что E{ei} = 0 и E{ei\malei} = 0 приводит к интерпретации
50 2. Введение в линейную модель регрессии Таблица 2.1. Результаты метода наименьших квадратов для уравнения почасовой тарифной ставки заработной платы молодых рабочих Зависимая переменная: wage Переменная Константа male Оценка 5,1469 1,2777 Стандартная ошибка 0,1011 0,1397 s = 4,0048, R2 = 0,0248, F = 83,68. коэффициента регрессии f3\ как средней величины тарифной ставки заработной платы для женщин, в то время как интерпретация вы- ражения E{wagei\malei — 1} = /3± + /?2 приводит к средней величине тарифной ставки заработной платы для мужчин. Эти коэффициенты регрессии являются неизвестными ве- личинами генеральной совокупности, и мы можем пожелать оценить их. Предположим, что мы имеем случайную выборку, подразумевая, что различные наблюдения являются независимыми. Также пред- положим, что остатки Si, является независимыми от регрессоров, в частности, дисперсия остатков е\ не зависит от пола (maleC). То- гда МНК-оценка для вектора коэффициентов регрессии /3 является несмещенной, и ее ковариационная матрица задается выражением B.32). Результаты оценивания представлены в таблице 2.1. В до- полнение к значениям МНК-оценок, которые идентичны значениям, представленным ранее в п. 2.1.3, теперь нам также известно кое-что о точности оценок, которая отражается в стандартных ошибках. Мы теперь можем сказать, что наша оценка математического ожида- ния почасовой разности заработной платы /?2 между мужчинами и женщинами равна 1,28 доллара со стандартной ошибкой 0,14 дол- лара. Совместно с нормальным распределением, это позволяет нам делать утверждения о /?2. Например, мы можем проверить гипотезу, что /?2 = 0. Если дело обстоит так, то разность заработной платы между мужчинами и женщинами в нашей выборке отличается от нуля только случайно. В разделе 2.5 обсуждается, как тестировать гипотезы относительно вектора неизвестных параметров /3.
2.4. Качество «подгонки» данных моделью ("goodness-of-fit") 51 2.4. Качество «подгонки» данных моделью ("goodness-of-fit") Оценив конкретную линейную модель, естественно задать вопрос: насколько хорошо оцененная линия регрессии соответствует наблю- дениям? Популярной мерой качества подгонки данных моделью является доля (выборочной) дисперсии переменной у, которая объ- ясняется моделью. Эту переменную называют R2 (R квадрат) и она определяется как N R2 = Э^ = " i=J > B-40) 2=1 где yi — х[Ь, а у = ( — 1 /_.У% обозначает выборочное среднее уг. ^ ' г Заметим, что у также соответствует выборочному среднему yi из-за выражения B.11). Из условий первого порядка (сравните B.10)) непосредственно следует, что N Y^^Xik =0, к = 1,... ,К. Следовательно, мы можем написать yi — yi + ег, где У, егУг — 0. г В самом важном случае, когда модель содержит свободный член, справедливо, что V{yi} = V{yi} + V{ei}, B.41) где V'fej} =7г. Используя это, R2 можно переписать в виде 1 N В? = 1 - 4l£ii = i _^ . B.42) ПК) 1 А _,2 лГГТ 2>* ~ у) г=1 Уравнение B.41) показывает, как выборочную дисперсию yi можно разложить на сумму выборочных дисперсий двух ортогональных компонент: предиктора yi и оцененного остатка е^. Таким образом,
52 2. Введение в линейную модель регрессии мы видим, что величина R действительно определяет, какую долю выборочной вариации уг молено объяснить моделью. Если интересующая нас модель содержит свободный член, то два выражения B.40) и B.42) для Д2 эквивалентны. Кроме того, в этом случае можно показать, что 0 < R2 < 1. Только если все ег- = 0, то справедливо, что R2 = 1, тогда как R2 равен нулю, если модель ничего не объясняет дополнительно к выборочному среднему уг. Таким образом, R2 модели, которая имеет только свободный член в своей правой части, равен нулю по определению. В этом смысле R2 показывает, насколько лучше построенная модель описывает дан- ные, чем тривиальная модель только с одним постоянным членом. Из результатов в таблице 2.1 мы видим, что R2 очень простого уравнения заработной платы равен только 0,0248. Это означает, что приблизительно только 2,5% вариации заработной платы молодых работников можно объяснить различиями пола. Очевидно, что по- мимо пола на заработную плату работника влияют много других наблюдаемых и ненаблюдаемых факторов. Это автоматически не означает, что модель, которая была оценена с результатами, при- веденными в таблице 2.1, неправильна или бесполезна: результаты просто показывают относительную (не)значимость пола в объясне- нии вариации заработной платы. В исключительных случаях, когда модель не содержит сво- бодного члена, два выражения для R2 не эквивалентны. Причина заключается в том, что соотношение B.41) нарушается, потому что N сумма 2_\ ег больше не равна нулю. В этой ситуации, возможно, что 2=1 Д2, вычисленный из выражения B.42), становится отрицательным. Альтернативным критерием, который обычно вычисляется неко- торыми пакетами программ, если нет никакого свободного члена, является нецентрированный R2, который определяется как N N Ей" Х>? нецентрированный R2 = ^=- = 1 — -^=- . B.43) Е»? Е»? 2=1 2=1 В общем, значение нецентрированного R2 выше, чем стандартного R2. Поскольку R измеряет объясненную вариацию уг, то он также является чувствительным к определению этой переменной. Напри-
2.4. Качество «подгонки» данных моделью ("goodness-of-fit") 53 мер, объяснение заработной платы несколько другое чем объяснение логарифма заработной платы, и Д2-ты будут отличаться. Точно так же модели, объясняющие потребление, его приращения или его рост не будут непосредственно сопоставимы в терминах их Л2-тов. Ясно, что одни источники вариации намного сложнее объяснить чем дру- гие. Например, вариацию в агрегированном потреблении для данной страны обычно легче объяснить, чем пространственную вариацию в потреблении по индивидуальным домашним хозяйствам. Следова- тельно, нет никакой абсолютной точки отсчета, чтобы сказать, что R2 «высок» или «низок». Значение 0,2 может быть высоким в определен- ных приложениях, но низким в других приложениях, и даже значение 0,95 может интерпретироваться как низкое в определенном контексте. Иногда R2 интерпретируется как мера качества статистической модели, в то время как фактически он измеряет не что иное, как качество линейной аппроксимации. Поскольку подход МНК разрабо- тан для получения наилучшей линейной аппроксимации независимо от «истинной» модели и законности ее предположений, оценивание линейной модели обычным методом наименьших квадратов будет всегда давать наилучший возможный R2. Любой другой метод оце- нивания, и мы будем видеть это несколько ниже, будет приводить к более низким значениям R2 даже при том, что соответствую- щая оценка может иметь намного лучшие статистические свойства согласно предположениям модели. Еще хуже, если модель оценива- ется не с помощью МНК; тогда два определения B.40) и B.42) не эквивалентны, и не очевидно, как следует определить R2. Можно рекомендовать к использованию альтернативное определение R , которое в рамках МНК будет эквивалентно выражениям B.40) и B.42) и гарантирует, что при любой другой оценке R будет между нулем и единицей. Этот R2 задается в виде (N - -V w2(yi-y)(yi-y)) R2 = согг2{уг, уг} = —^ - , B.44) который обозначает квадрат (выборочного) парного коэффициента корреляции между фактическими и прогнозными значениями. Ис- пользуя B.41), легко проверить, что для МНК-оценки выражение B.44) эквивалентно выражению B.40). Написанный таким образом
54 2. Введение в линейную модель регрессии R может интерпретироваться в качестве измерителя, насколько хорошо изменение значений yi связана с вариацией изменения зна- чений yi. Но и при этом альтернативном определении R2 отражает качество линейной аппроксимации, а не обязательно качество той статистической модели, в которой мы заинтересованы. Поэтому ве- личина Д2, как правило, не самая важная характеристика наших результатов оценивания. Другой недостаток R2 состоит в том, что он никогда не будет уменьшаться при увеличении числа регрессоров, даже если добав- ленные переменные не будут иметь никакой реальной объясняющей мощности. Общий способ решения в этом случае состоит в том, чтобы скорректировать оценки дисперсий в выражении B.42) на степени свободы. Это приводит к так называемому скорректированному ("adjusted") Д2, или R , определяемому как 1 N N - К ^ г г=1 Эта мера качества подгонки данных моделью предусматривает неко- торое «наказание» за включение дополнительных объясняющих пе- ременных в модель, и поэтому автоматически не увеличивается (т. е. не всегда увеличивается), когда в модель добавляются регрессоры (см. главу 3). В действительности он может уменьшаться при добав- лении переменной к множеству регрессоров. Заметим также, что в 2 некоторых крайних случаях R может стать отрицательным. Также отметим, что скорректированный R2 строго меньше чем Д2, если только модель не состоит из одного постоянного члена, или если оба измерителя не равны нулю. 2.5. Проверка статистических гипотез О Согласно предположениям Гаусса—Маркова (А1)-(А4) при нормаль- ном распределении регрессионных остатков (А5) мы видели, что *' В данном параграфе речь идет и о построении интервальных оценок (довери- тельных интервалов) для неизвестных коэффициентов регрессии C^ (примеч. научн. ред. перевода).
2.5. Проверка статистических гипотез 55 МНК-оценка Ъ имеет нормальное распределение со средним значе- нием, равным /3, и ковариационной матрицей, равной сг2(Х/Х)-1. Мы можем использовать этот результат, чтобы разработать критерии проверки гипотез относительно неизвестных параметров генераль- ной совокупности /3. Отправляясь от предположения B.35), имеем, что переменная - h ~0k B.46) V\JC>kk имеет стандартное нормальное распределение (то есть, нормальное распределение со средним, равным 0, и дисперсией, равной 1). Если мы заменяем неизвестное а его оценкой s, то в точности это боль- ше не справедливо. Можно показать 8\ что несмещенная оценка s2, определенная выражением B.37), не зависит от Ъ и имеет хи-квадрат распределение с N — К степенями свободы. В частности9', (N-K)^~Xn-k- B-47) Соответственно случайная переменная tk = b_J?± B.48) является отношением стандартной нормальной переменной и квад- ратного корня из независимой хи-квадрат переменной и, следова- тельно, имеет t-распределение Стьюдента с N — К степени свободы. Как известно, t-распределение близко к стандартному нормальному распределению за исключением того, что оно имеет более «тяжелые хвосты», особенно когда число степеней свободы N — К является малым. Чем больше N — К, тем больше t-распределение напоминает стандартное нормальное распределение, и для достаточно больших N — К эти два распределения практически идентичны. 2.5.1. Простой t-критерий Вышеприведенный результат можно применить, чтобы построить критическую статистику и доверительные интервалы. Общая идея ^ Доказательство этого вне рамок этого текста. Основная идея состоит в том, что сумма квадратов нормальных переменных имеет хи-квадрат распределение (см. Приложение Б). ^ См. Приложение Б для более детального описания распределений, используе- мых в этом разделе.
56 2. Введение в линейную модель регрессии относительно проверки гипотез следующая. Начинают с формули- ровки проверяемой гипотезы, нулевой гипотезы; затем предлага- ется критическая статистика (некоторая функция от результатов наблюдений), которая имеет известное распределение при предпо- ложении, что нулевая гипотеза является истинной. После это- го вычисляется значение критической статистики (по конкретным, имеющимся у нас данным) и решается, неправдоподобно ли вы- численное значение критической статистике с точки зрения того распределения, которому она должна подчиняться; утвердительный ответ говорит о том, что проверяемая (нулевая) гипотеза вряд ли бу- дет истинна. Проиллюстрируем это на примере. Предположим, что у нас есть сформулированная нулевая гипотеза, которая специфици- рует значение /3&, скажем Щ : fik = /3£, где /З)? — специфицированное (заданное) значение, выбранное исследователем. Если эта гипотеза истинна, то мы знаем что статистика tk = ^S B.49) имеет ^-распределение с N — К степенями свободы. Если нуле- вая гипотеза не верна, то справедлива альтернативная гипотеза Hi : /3k Ф Pk- Будем использовать tk как критическую статисти- ку; ее значение можно вычислить, располагая значениями оценки bk и ее стандартной ошибки Sy/ckk. Обычная процедура тестирования состоит в отклонении нулевой гипотезы, если tk понимает значение, которое очень неправдоподобно в условиях справедливости нулевой гипотезы. Этот случай соответствует очень большим абсолютным значениям tk- Точнее, нулевая гипотеза отклоняется, если вероят- ность наблюдения значений \tk\ или больших, чем \tk\, оказывается меньшей, чем заданный уровень значимости критерия а (часто величина а принимается равной 0,05). Отсюда можно определить критические значения £дг-к;а/2> используя P{\tk\>tN-K;a/2} = a*\ Для не слишком малых N — К эти критические значения только слегка больше, чем соответствующие значения процентных точек стандартного нормального распределения (для которого, например, 1 Другими словами, значения tN_K. а /2 — это 100 —%-ные точки распределения Стьюдента с N — К степенями свободы (примеч. научн. ред. перевода).
2.5. Проверка статистических гипотез 57 двустороннее критическое значение для a — 0,05 равно 1,96; следо- вательно, при 5%-ом уровне значимости и при достаточно больших N — К нулевая гипотеза отклоняется, если \tk\ > 1,96). Вышеупомянутый критерий называется двухсторонним кри- терием, потому что альтернативная гипотеза учитывает значения /3k с обеих сторон /?£. Иногда альтернативная гипотеза является односторонней, например, гипотеза: математическое ожидание за- работной платы мужчины больше чем женщины. Формально, мы определяем нулевую гипотезу как Н0 : (Зк < 01 с альтернативной гипотезой Н\ : /3k > Рк- Затем мы рассматриваем распределение тестовой статистики tk на границе нулевой гипотезы (то есть, при (Зк = Pki как и прежде), и мы отклоняем нулевую гипотезу, если tk является слишком большим (заметим, что большие значения Ьк при- водят к большим значениям tk)- Большие отрицательные значения tk согласуются с нулевой гипотезой и не приводят к ее отклонению. Таким образом, для одностороннего критерия, критическое зна- чение определяется из соотношения P{tk > tN-K.a} = a. Используя стандартную нормальную аппроксимацию, мы снова отклоняем нулевую гипотезу на 5%-ом уровне значимости, если **>1,64*>. В программном обеспечении по регрессии, как правило, вычис- ляется следующее ^-значение Ьк tk = 7=1 S^/Ckk иногда называемое ^-отношением, которое является просто точечной оценкой параметра (Зк, деленного на его стандартную ошибку. Это t- отношение является просто t-статистикой, которая вычисляется для проверки нулевой гипотезы, что (Зк = 0; эта гипотеза также может представлять экономический интерес. Если гипотеза отклоняется, то говорят, что «(Зк значимо отличается от нуля», или что соответству- ющая переменная «Xik имеет значимое воздействие на у^»- Часто, мы просто говорим, что (эффект) «Xik является значимым». В данном случае под «критическим значением» подразумевается 100а%-ная точка распределения Стьюдента с N — К степенями свободы, которая при a = 0,05 и достаточно больших значениях N — К приблизительно равна 1,64 (примеч. научн. ред. перевода).
58 2. Введение в линейную модель регрессии Доверительный интервал можно определить в виде интерва- ла всех значений для /?{?, для которых нулевая гипотеза (Зк = Рк не отклоняется ^-критериями. Говоря не совсем точно, доверительный интервал предоставляет диапазон значений для истинного коэффи- циента Pki которые не являются маловероятными для имеющихся данных, то есть, при условии оценки Ьк и соответствующей стандарт- ной ошибки. Это подразумевает выполнение следующих неравенств, которые справедливы с вероятностью 1 — а, ~tN-K;a/2 < 7=" < tN-K;a/2, B.50) или bk - tN-K; а/2$^/ёкк < Pk < Ьк + tN-K; а/2^у/Скк- B-51) Следовательно, используя стандартную нормальную аппроксима- цию, 95% доверительный интервал для неизвестного параметра Eк задается интервалом [Ьк - 1,96зу/с^ < рк < bk + l,96syfcj£]. B.52) В повторных выборках того лее объема Л^ 95% таких интервалов бу- дут содержать истинное значение (Зк, которое является фиксирован- ным, но неизвестным числом (и таким образом не стохастическим). 2.5.2. Пример: индивидуальная заработная плата (продолжение) По данным таблицы 2.1 мы можем вычислить t-отношение и выпол- нить простые тесты. Например, если мы хотим проверить гипотезу /?2 = 0, то строим ^-статистику как оценку, деленную на ее стандарт- ную ошибку, и получаем t = 9,15. Для заданного большого числа наблюдений соответствующее ^-распределение фактически идентич- но стандартному нормальному распределению, таким образом, 5% двустороннее критическое значение равно 1,96. Это означает, что нам, несомненно, следует отклонить нулевую гипотезу /32 = 0. Таким образом, нам следует отклонить нулевую гипотезу о том, что в гене- ральной совокупности математическое ожидание разности заработ- ной платы между мужчинами и женщинами равно нулю. Мы также можем вычислить доверительный интервал, который имеет границы 1,28 ± 1,96 х 0,14. Это означает, что с 95% уровнем доверия мы можем утверждать, что для всей генеральной совокупности матема- тическое ожидание разности заработной платы между мужчинами и женщинами находится между 1,00 долларом и 1,56 доллара в час.
2.5. Проверка статистических гипотез 59 2.5.3. Тестирование одного линейного ограничения Тест, обсужденный выше, включает ограничение на один коэффи- циент. Часто, интересующая нас экономическая гипотеза подразуме- вает линейное ограничение более чем на один коэффициент, типа10' /?2 + Рз + • •. + (Зк = 1. Вообще, мы можем сформулировать такую линейную гипотезу как #о : rift + • •. + гк(Зк = r'0 = q B.53) для некоторого скалярного значения q и Х-мерного вектора г. Мы можем проверить гипотезу B.53), используя результат, что г'Ъ является НЛНО для г /3 с дисперсией V{r'b} = r'V{b}r^. Поскольку Ъ имеет Х-мерное нормальное распределение, то г'Ъ также имеет нормальное распределение (см. Приложение Б), так что мы имеем отношение г'Ъ-г'E /ог,ч — н ~ tN-K, B.54) 8у/г'{Х'Х)-^Г которое является прямым обобщением B.48) п'. Тестовая статистика для проверки гипотезы Щ имеет вид = r'b-q sy/r'iX'X)'1^ которая подчинена tjy-к распределению при справедливости нуле- вой гипотезы. На 5%-ом уровне значимости абсолютные значения £, превышающие 1,96 (нормальная аппроксимация), приводят к откло- нению нулевой гипотезы. Это представляет самую общую версию t -критерия. Иногда более удобный способ получить ту же самую тестовую статистику состоит в такой перепараметризации исходной модели, ' Например, в производственной функции Кобба—Дугласа, записываемой в виде линейной модели регрессии в логарифмах, гипотеза постоянной отдачи от масштаба производства соответствует тому, что сумма всех параметров на- клона (коэффициентов при всех логарифмах факторов производства) должна быть равна единице. *^ Здесь V{b} — ковариационная матрица МНК-оценки Ь. Она определяется соотношением B.32), а ее оценка — соотношением B.38) (примеч. научн. ред. перевода). ' Статистика является той же самой, если г является К -мерным вектором нулей с первой по k-ую позицию.
60 2. Введение в линейную модель регрессии что линейное ограничение Но соответствует ограничению обычного вида, скажем, 01 = 0. Например, рассмотрим Vt = 01 + 02%i2 + /Зз^гЗ + ^ и предположим, что интересующее нас ограничение есть /?2 = 0з- Тогда мы можем переписать модель в виде12' Vt = 01 + @2 ~ fo)Xi2 + /ЗзОгЗ + Xi2) + Si или Vt=Pl+ 02Xi2 + АзОгЗ + Xi2) + £». Из определения МНК, который минимизирует остаточную сумму квадратов, следует, что этот метод является инвариантным при ли- нейной перепараметризации. Следовательно, МНК-оценка для ко- эффициента /?з в обеих формулировках модели будет идентична, а оценка для разности @2 — 0з) — 02 идентична Ь2 — Ьз • Преимущество перепараметризации состоит в том, что нулевую гипотезу можно написать как нулевое ограничение на один из коэффициентов ре- грессии, то есть, Но : 02 = 0. Следовательно, эту гипотезу можно протестировать, используя стандартное i-отношение для коэффици- ента 02 в перепараметризованной модели. Знаменатель критической статистики (или вся критическая статистика) автоматически предо- ставляется стандартными программами и модулями по регрессии. Перепараметризация не всегда возможна и может быть неудоб- ной, если следует протестировать много гипотез. В таких случаях можно применять t-критерий как обсуждалось выше или, если тре- буется совместный критерий для более чем одного ограничения, можно применять один из подходов, описанных ниже. 2.5.4. Совместный критерий значимости коэффициентов регрессии Стандартный тест, который также часто автоматически поставляет- ся в статистических пакетах программ, является тестом на проверку совместной гипотезы, что все коэффициенты регрессии кроме сво- бодного члена 0i равны нулю. Мы обсудим эту процедуру несколько шире, с помощью проверки нулевой гипотезы, что J из К коэффи- циентов регрессии равны нулю. Без потери общности, предположим, Эта перепараметризация не единственна.
2.5. Проверка статистических гипотез 61 что эти J коэффициентов регрессии являются последними в модели, Н0 : (Зк- j+i = ... = & = 0. B.56) Альтернативной в этом случае является гипотеза, что нулевая гипо- теза Hq не истинна, то есть, что, по крайней мере, один из этих J коэффициентов не равен нулю. В этом случае самая легкая процедура тестирования долж- на сравнить остатки суммы квадратов полной модели с остатками суммы квадратов ограниченной модели (в которой исключены J последних регрессоров). Обозначим остаточную сумму квадратов полной модели через Si, а остаточную сумму квадратов ограничен- ной модели через So- Если бы нулевая гипотеза была корректной, то ожидалось бы, что сумма квадратов с наложенным ограничением только немного больше чем в неограниченном случае. Критическую статистику можно получить, используя следующий результат, кото- рый мы представляем без доказательства. При нулевой гипотезе и предположениях (А1)-(А5) справедливо, что Из более ранних результатов мы знаем, что (N - K)s2 2 -2 Xn-k- Кроме того, при нулевой гипотезе можно показать, что So — S\ и s2 независимы. Следовательно, мы можем определить следующую тестовую статистику, , _ {Sp-Si)/J f~ Si/(N-Ky B'58) При нулевой гипотезе / имеет F-распределение с J и TV — К сте- пенями свободы, обозначенное через F^_K. Если мы используем определение R2 из выражения B.42), то мы также можем написать эту / статистику в виде _ (#i - Rq)/J B 5д) где R2 и Rq — обычные меры качества подгонки данных с помощью неограниченной и ограниченной моделей соответственно. Ясно, что в этом случае только очень большие значения для кри- тической статистики подразумевают отклонение нулевой гипотезы.
62 2. Введение в линейную модель регрессии Несмотря на двухстороннюю альтернативную гипотезу, критические значения F^_K. a *' для этого так называемого F-критерия явля- ются односторонними, и определяются следующим равенством ПГ >*#-*;«} = «. где а — уровень значимости теста. Например, если N — К = 60 и J = 3, то критическое значение на 5%-ом уровне значимости равно 2,76. В большинстве приложений оценки для различных элементов вектора параметров регрессии будут коррелированны. Это означает, что объясняющие мощности объясняющих переменных перекрыва- ются. Следовательно, маргинальный вклад каждой объясняющей переменной при ее добавлении может быть очень малым. Поэтому возможно, что i-критерий для коэффициента каждой переменной заданного набора регрессоров говорит о ее незначимости, в то время как F-критерий для совокупности этих переменных высоко зна- чим. То есть, возможно, что нулевая гипотеза 0\ = 0, как таковая, является правдоподобной и нулевая гипотеза 02 = 0 является прав- доподобной, но совместная нулевая гипотеза /3i = /З2 = 0 вряд ли является справедливой. В результате, в общем, возможно, что i-критерий для каждого ограничения не отклоняет отдельную ну- левую гипотезу, в то время как совместный F-критерий отклоняет совместную нулевую гипотезу. Обратное также верно: возможно, что индивидуальные ^-критерии отклоняют отдельные нулевые гипоте- зы, в то время как совместный критерий этого не делает. Ниже в разделе о мультиколлинеарности этот момент разъясняется. Частный случай этого F-критерия иногда ошибочно называется ^ модельным тестом 13\ Это случай, когда тестируется не значимость всех регрессоров, то есть тестируется нулевая гипотеза #о : 02 = fo = • • • = 0к = О, Здесь, как и прежде, под «критическим значением» подразумевается 100а%- ная точка F-распределения с числом степеней свободы J и N — К (примеч. научн. ред. перевода). Эта терминология водит в заблуждение, поскольку ни в каком смысле не те- стируется, корректны ли ограничения, наложенные на модель. Тестируется единственный случай равенства нулю всех коэффициентов регрессии, за ис- ключением свободного члена. То есть, это случай тривиальной модели с ну- левым R . Как показано в выражении для критической статистики B.61), критическая статистика, связанная с модельным тестом, является просто функцией R2.
2.5. Проверка статистических гипотез 63 означающая, что все частные коэффициенты наклона являются равными нулю. Соответствующая тестовая статистика в этом случае есть E0-50/(^-1) /= SJiN-K) ' B-60) где Si — остаточная сумма квадратов модели, то есть Si = 2_, е% ? г a So — остаточная сумма квадратов ограниченной модели, содержа- щей только свободный член, то есть So = /_\{Уг ~ уJ • Поскольку г ограниченная модель имеет нулевой R2 по построению, то критиче- скую статистику можно также написать как F-(l-R*)/(N-Ky B-61) где мы использовали принятую традицию обозначать эту статистику через F. Заметим, что она является простой функцией от R2 моде- ли. Если тест, основанный на F, не отклоняет нулевую гипотезу, то можно заключить, что модель «работает» довольно плохо: «модель» только со свободным членом не могла бы сделать это статистически хуже. Однако обратное конечно не верно: если тест действитель- но отклоняет нулевую гипотезу, то нельзя заключить, что модель является хорошей, идеальной, обоснованной или наилучшей. Аль- тернативная модель может выполняться намного лучше. В главе 3 этой проблеме уделяется больше внимания. 2.5.5. Пример: индивидуальная заработная плата (продолжение) Наше прежнее заключение о существовании значимой разности меж- ду математическим ожиданием тарифных ставок заработной платы для мужчин и женщин, не обязательно указывает на дискримина- цию. Возможно, что работающие мужчины и женщины различа- ются по своим характеристикам, например, по времени обучения. Для такого анализа мы можем расширить модель регрессии до- полнительными объясняющими переменными, например введением ) Используя определение МНК-оценки, легко проверить, что свободный член в модели без регрессоров, оценивается выборочным средним у. Любой другой выбор привел бы к более высоким значениям S.
64 2. Введение в линейную модель регрессии переменной schooli, которая обозначает время обучения (в годах), и переменной experi, обозначающей опыт работы (в годах.). Теперь мо- дель описывает условное математическое ожидание тарифной ставки заработной платы работника при заданных «значениях» его пола, времени обучения и опыта. Коэффициент /?2 при переменной malei теперь интерпретируется как разность математических ожиданий заработной платы между мужчиной и женщиной с одним и тем же временем обучения и опытом работы. Точно так же коэффициент /?з при переменной schooli представляет разность математических ожиданий заработной платы между двумя работниками с одним и тем же опытом работы и полом, при наличии одного дополнительно- го года обучения. Вообще коэффициенты в модели множественной регрессии могут интерпретироваться только при условии ceteris paribus (при прочих равных условиях), то есть, коэффициент для данной переменной интерпретируется при условии, что осталь- ные переменные, включенные в модель, являются одними и теми же. Оценивание МНК приводит к результатам, представленным в таблице 2.2. Коэффициент при переменной malei теперь предпола- гает, что если мы сравниваем мужчину и женщину с одним и тем же временем обучения и опытом работы, то разность математических ожиданий заработной платы равна 1,47 доллара по сравнению с 1,28 долларом прежде. Со стандартной ошибкой, равной 0,14 доллара, эта разность все еще статистически высоко значима. Нулевую гипо- тезу, что обучение не имеет никакого эффекта на заработную плату работника, при условии одного и того же пола и опыта работы, можно протестировать, используя описанный выше ^-критерий с критической статистикой равной 14,86. Ясно, что нулевую гипотезу следует отклонить. Оцененное увеличение заработной платы при одном дополнительном годе обучения с одинаковым опытом рабо- ты равно 0,62 доллара. При таких результатах не удивительно, что совместную нулевую гипотезу равенства нулю всех трех частных коэффициентов регрессии также следует отклонить. Интерпретация нулевой гипотезы состоит в том, что на заработную плату рабо- чего не влияют ни пол, ни время обучения и ни опыт работы. F-статистика принимает значение 103,4 при соответствующем 5% критическом значении, равном 2,60. И, наконец, можно использовать вышеупомянутые результаты, чтобы сравнить эту модель с более простой моделью, результаты для которой представлены в таблице 2.1. R2 увеличился с 0,0248 до 0,0861, что означает, текущая модель в состоянии объяснить 8,6%
2.5. Проверка статистических гипотез 65 Таблица 2.2. Результаты метода наименьших квадратов для уравнения почасовой тарифной ставки заработной платы молодых рабочих Зависимая переменная: wage Переменная константа male school exper Оценка -2,8901 1,4702 0,6204 0,0896 Стандартная ошибка 0,5916 0,1370 0,0417 0,0302 ^-отношение -4,884 10,729 14,861 2,964 5 = 4,00476, Я2 = 0,0861, R2 = 0,0853, F = 103,387. выборочной вариации в заработной плате. Мы можем проверить совместную нулевую гипотезу, что две дополнительных переменные, время обучения и опыт работы, обе имеют нулевые коэффициенты, применяя описанный выше F-критерий. Тестовую статистику B.59) можно вычислить из Д2-ов, представленных в таблицах 2.1 и 2.2, как @,0861-0,0248)/2 1 A-0,0861)/C296-4) ' " Очевидно, что при 5% критическом значении, равном 3,00, нулевая гипотеза отклоняется. Таким образом, можно заключить, что модель, которая включает переменные пола, времени обучения и опыта ра- боты, выполняется значимо лучше модели, включающей только пол. 2.5.6. Общий случай линейных ограничений на коэффициенты регрессии Самая общая линейная нулевая гипотеза является комбинацией предыдущих двух случаев и включает множество J линейных огра- ничений на коэффициенты. Мы можем сформулировать эти ограни- чения в виде R0 = q, где R — это J х К матрица полного ранга строк15', a q — J-мер- ный вектор. Примером такого множества ограничений является Полный ранг строк означает, что ограничения линейно независимы.
66 2. Введение в линейную модель регрессии fa + 0з + ■ ■ ■ + Рк = 1 и р\ = /33, где J - 2 и о /0 1 1 1\ (\ R-{o 1 -1 о ... oj' 9_U В принципе, возможно, оценить модель с наложенными выше огра- ничениями при помощи процедуры тестирования, описанной в раз- деле 2.5.4. Однако во многих случаях эти ограничения являются такими, что их трудно оценить при нулевой гипотезе (то есть с на- ложением ограничения RC = q). В этом случае можно исполБзовать результат, что Rb ~ N{RC, a2R{X'X)-lRf), B.62) так что можно построить квадратичную форму, которая имеет при нулевой гипотезе хи-квадрат распределение, то есть. (Rb-q)'{R{X'X)^R')-l{Rb-q) 2 ( . Поскольку дисперсия а2 неизвестна, мы должны заменить эту дис- персию ее оценкой s2. Существуют два способа продолжения. Пер- вый способ состоит просто в замене а2 в выражении B.63) на s , тогда полученная статистика приближенно имеет хи-квадрат распре- деление (конечно при нулевой гипотезеI6^. Часто проверка нулевой гипотезы с помощью такой статистики называется тестом Вальда. Второй способ продолжения состоит в применении результата B.47), снова такого, что тестовую статистику можно определить как отно- шение двух независимых хи-квадрат переменных, то есть, (ДЬ - q)\a2R{X'X)-lRf)-1{Rb - q)/J _ [(N-K)s2/a2]/(N-K) (Rb - q)'(R{X'X)-lR')-l{Rb - q) Js2 B.64) которая при нулевой гипотезе имеет F-распределение с J и N — К степенями свободы. Как и прежде, большие значения приводят к от- клонению нулевой гипотезы. Можно показать, что статистика B.64) ' Приближенный результат получен на основе асимптотического распределе- ния, и также справедлив, если на члены ошибок не накладывается предпо- ложение о нормальности их распределения (см. ниже). Аппроксимация тем более точная, чем больше объем выборки.
2.5. Проверка статистических гипотез 67 алгебраически идентична статистикам B.58) и B.59), приведенным выше. Какую статистику применить — просто вопрос вычислитель- ного удобства. Возможно также построить совместные доверительные области для двух или больше элементов в /3. Поскольку они очень мало используется в эмпирической работе, то мы их пропустим и отошлем заинтересованного читателя за подробностями к Грину (Greene, 2000, Section 7.2) или к Джаджу (Judge et al., 1988, Section 6.3). 2.5.7. Размер, мощность и р-значения критерия При проверке статистической гипотезы, можно сделать две ошибки. Первая ошибка заключается в том, что нулевая гипотеза отклоня- ется, когда она истинна, и называется ошибкой первого рода*). Вторая ошибка состоит в том, что нулевая гипотеза принимает- ся, когда истинна альтернативная гипотеза и называется ошибкой второго рода. Вероятностью ошибки первого рода непосредственно управляет исследователь с помощью выбора уровня значимости а. При выполнении теста на 5%-ом уровне значимости, вероятность отклонения нулевой гипотезы, когда она истинна, в точности рав- на 5%. Эта вероятность (уровень значимости) часто называется размером критерия. Вероятность ошибки второго рода зависит от истинных значений параметра. Интуитивно ясно, что если истина отклоняется намного от сформулированной нулевой гипотезы, то вероятность такой ошибки будет относительно малой, тогда как если нулевая гипотеза близка к истине, то эта вероятность будет весьма большой. Обратная вероятность, то есть, вероятность отклонения нулевой гипотезы, когда она ложна, называется мощностью кри- терия. Она показывает, насколько «мощный» тест при обнаружении отклонений от нулевой гипотезы (в зависимости от истинного значе- ния параметра). Вообще, сокращение размера критерия уменьшает его мощность, так что между выбором значений ошибок первого и второго рода существует некоторое компромиссное решение. Предположим, что мы проверяем гипотезу, что /?2 = 0, в то время как истинное значение этого параметра фактически равно 0.1. Ясно, что вероятность отклонения нулевой гипотезы, зависит от стандартной ошибки нашей МНК-оценки Ъ и, таким образом, Ее вероятность задается величиной «уровня значимости критерия» (примеч. научн. ред. перевода).
68 2. Введение в линейную модель регрессии между прочим, от объема выборки. Чем больше объем выборки, тем меньше стандартная ошибка и тем более вероятно отклонение нуле- вой гипотезы. Это означает, что при возрастании объема выборки ошибки второго рода становятся все более и более маловероятными. Для компенсации исследователи, как правило, уменьшают веро- ятность ошибки первого рода (то есть вероятность неправильного отклонения нулевой гипотезы), снижая размер критерия а. Этим объясняется, почему в больших выборках более уместно выбирать 1% размер или менее, а не «традиционные» 5%. Точно так же в очень маленьких выборках мы можем предпочесть работать с 10% уровнем значимости. Обычно сформулированная нулевая гипотеза предполагается истинной, если не убеждает свидетельство об обратном. Тем самым предполагается, что если нулевая гипотеза не отклоняется тестом, то при любых соображениях мы придерживаемся нулевой гипотезы. Такое представление не является полностью целесообразным. Воз- можно тестирование диапазона альтернативных нулевых гипотез (например, /?2 = 0, /?2 = 0,1 и /?2 = 0,5) с результатом, что ни одна из них не отклоняется. Очевидно, что заключение об истинности всех трех нулевых гипотез одновременно было бы нелепым. Един- ственный соответствующий вывод состоит в том, что мы не можем отклонить ни одну из этих гипотез, ни /?2 = 0, ни /?2 = 0,1 и ни /?2 = 0,5. Иногда, эконометрические тесты просто не очень мощ- ны и требуются очень большие объемы выборок, чтобы отклонить сформулированную гипотезу. И, наконец, еще одна вероятность, которая принимается в расчет в статистических тестах, обычно называется р-значением (р-value). Это р-значение или значение вероятности обозначает минимальный размер критерия, для которого нулевая гипотеза все еще отклоня- лась бы. Оно определяется как вероятность при нулевой гипотезе найти тестовую статистику, которая (по абсолютному значению) превышает значение статистики, вычисленной из выборки. Если 4 р-значение меньше уровня значимости а, то нулевая гипотеза от- клоняется. Многие современные пакеты статистического программ- ного обеспечения предоставляют такие р-значения и таким образом позволяют исследователям делать выводы без консультаций или задания соответствующих критических значений. По р-значениям также можно судить о чувствительности решения отклонить нуле- вую гипотезу относительно выбора уровня значимости.
2.6. Асимптотические свойства МНК-оценок 69 2.6. Асимптотические свойства МНК-оценок Во многих случаях свойства МНК-оценок для малых выборок могут отклоняться от обсужденных выше свойств. Например, если регрес- сионные остатки Si в линейной модели не подчиняются нормально- му распределению, то и выборочное распределение МНК-оценки Ъ не является нормальным. Если предположение (А2) Гаусса—Маркова нарушено, нельзя показать, что Ъ имеет математическое ожидание, равное /3. Фактически, линейная модель регрессии согласно предпо- ложениям Гаусса—Маркова с нормальными регрессионными остат- ками является одним из очень немногих случаев в эконометрике, когда известно точное выборочное распределение оценок парамет- ра. Как только мы ослабим некоторые из этих предположений или переходим к альтернативным моделям, свойства наших оценок для малых выборок, как правило, неизвестны. В таких случаях мы используем альтернативный подход, чтобы определить качество на- ших оценок на основе асимптотической теории. Асимптотическая теория отвечает на вопрос, что случится, если гипотетически объем выборки становиться бесконечно большим. Асимптотически, эконо- метрические оценки обычно имеют хорошие свойства, как, например, нормальность, и мы используем асимптотические свойства, чтобы аппроксимировать свойства для конечной выборки, которую мы име- ем. Этот раздел представляет первое обсуждение асимптотических свойств МНК-оценок. 2.6.1. Состоятельность Мы начнем с линейной модели при предположениях Гаусса—Маркова. В этом случае мы знаем, что МНК-оценка b имеет следующие первые два момента Е{Ъ} = /?, B.65) V{b} = cr2[Y^ хг< ) = ст2{Х'Х)-\ B.66) Если мы не предполагаем, что остаточные члены имеют нормаль- ное распределение, то вид распределения Ь неизвестен. Однако о распределении Ь можно кое-что сказать, по крайней мере, при- близительно. Первой отправной точкой является так называемое неравенство Чебышева, которое утверждает: вероятность откло- нения случайной переменной z больше чем на положительное число
70 2. Введение в линейную модель регрессии 6 от своего среднего значения ограничена ее дисперсией, деленной на 52, то есть P{\z-E{z}\>6}< Ц^-, для всех S > 0. B.67) Для МНК-оценки это означает, что каждый к-ът элемент удовле- творяет соотношению Р{\Ък-{Зк\>6}<У^ = ?^, для всех 5>0, B.68) где Cfcfc, как прежде, является элементом (fc, к) в матрице ЛГ ч-1 М=1 ' В большинстве приложений вышеупомянутое неравенство не очень полезно, так как верхняя граница вероятности больше единицы. Од- нако рассмотрим это неравенство. Возьмем фиксированное S и раз- решим нашему воображению, представить, что объем выборки N N возрастает бесконечно. Что тогда случится? Ясно, что У, xix'i воз~ г=1 растает при возрастании числа членов, поэтому дисперсия Ъ умень- шается при возрастании объема выборки. Если мы предположим, что17) 1 — У, xi%'i сходится к конечной невырожденной матрице Т,хх, г=1 (А6) если объем выборки N становится бесконечно большим, то непо- средственно из вышеупомянутого неравенства следует, что lim Р{\Ък-(Зк\ >6} = 0, для всех 5 > 0. B.69) N—юо ' Невырожденность Т,хх требует, чтобы, асимптотически, не было никакой мультиколлинеарности. Требование конечности предела является условием «регулярности», которое удовлетворяемся в большинстве эмпирических при- ложений. Достаточное условие состоит в том, что переменные х являются независимыми извлечениями из одного и того же распределения с конечной дисперсией. Нарушения обычно происходят в контексте временных рядов, где одна или более переменных х может иметь тренд. Мы возвратимся к этой проблеме в главах 8 и 9.
2.6. Асимптотические свойства МНК-оценок 71 Это говорит, что, асимптотически, вероятность отклонения МНК- оценки больше чем на S от истинного значения параметра равна нулю. Обычно это свойство именуется как «предел по вероятности Ь равен /3», или «Ь сходится по вероятности к /3», или просто пишемг ' plim 6 = 0. B.70) Заметим, что b является вектором случайных переменных, рас- пределение которых зависит от TV, a /3 — вектор фиксированных (неизвестных) чисел. Когда оценка вектора параметров /3 сходится к истинному значению, мы говорим, что она является состоятельной оценкой. Любая оценка, которая удовлетворяет B.69), является со- стоятельной оценкой для /3, даже если она смещенная. Состоятельность является так называемым свойством боль- ших выборок и, выражаясь неточно, говорит, что если мы получаем все больше и больше наблюдений, то вероятность, что наша оценка является некоторым положительным числом далеким от истинного значения /3, становится все меньше и меньше. Значения, которые Ь может принимать не вблизи /3, становятся все более и более малове- роятными. Во многих случаях, нельзя доказать, что оценка является несмещенной и, возможно, что никакой несмещенной оценки не су- ществует (например, в нелинейных или динамических моделях). В этих случаях минимальное требование к оценке, чтобы она бы- ла полезной, является состоятельность. В последующем мы будем заинтересованы главным образом в состоятельности наших оценок, а не в их (не)смещенности*'. Полезным свойством пределов по вероятности (plim) является следующее свойство. Если plim Ъ — /3, а д(-) — непрерывная функция (по крайней мере, при истинном значении /3), то также справедливо, что plim 0F) = </(/?). B.71) 8) Если не указано иначе, lim и plim обозначают, соответственно, предел и предел по вероятности при стремлении объема выборки N к бесконечности (N —► ос). *' Спорная позиция. Если отдавать себе отчет в том, что практически любая спецификация модели анализируемой связи между переменными (особенно, если выбор ограничен классом линейных моделей) является лишь аппрокси- мацией, т.е. не воспроизводит истинного общего вида искомого соотношения, то и любые предлагаемые методы оценивания параметров таких моделей не будут состоятельными. В такой ситуации решающими характеристиками качества модели остаются средние квадраты ошибок в оценке параметров модели и самой зависимой переменной у (примеч. научн. ред. перевода).
72 2. Введение в линейную модель регрессии Это гарантирует, например, что примененная перепараметризация является несущественной для состоятельности. Например, если s2 является состоятельной оценкой для а2, то s является состоятель- ной оценкой для а. Заметим, что этот результат не справедлив для несмещенности, поскольку E{s}2 ф E{s2} (см. Приложение Б). Оценка метода наименьших квадратов состоятельна при суще- ственно более слабых условиях, чем условия, указанные выше. Чтобы увидеть это, представим МНК-оценку в виде 1 " х-1 1 " дг 1^ Х{Х'{ ) ~N ^ XiVi = (\ N \_11 N = ^+ЬЕЦ N^Xiei- B-72) 4 г=1 ' г=1 В этом выражении играют роль выборочные средние Х{х\ и ж^. При возрастании объема выборки выборочные средние включают все больше и больше наблюдений. Кажется разумным предполо- жить, и можно показать при очень слабых условиях 19\ что в пре- деле эти выборочные средние сходятся к соответствующим средним генеральной совокупности. Теперь согласно предположению (А6) мы имеем выражение plimF - р) = Ъ-*Е{х&}> B.73) которое показывает, что МНК-оценка является состоятельной, если справедливо условие E{xi€i] = 0. (А7) Это условие просто говорит, что регрессионный остаток имеет нуле- вое среднее и не коррелирован ни с какой объясняющей переменной. Заметим, что E{xi\si} = 0 подразумевает условие (А7), тогда как обратное не обязательно верно 20^. Таким образом мы можем заклю- чить, что МНК-оценка b является состоятельной для вектора C при условиях (А6) и (А7). Как правило, эти условия намного слабее, чем ' Результат, что выборочные средние сходятся к средним значениям генераль- ной совокупности, доказывается в нескольких версиях закона больших чисел (см. Greene, 2000, Section 9.4; Greene, 1997, Section 6.7; Davidson and MacKinnon, 1993, Section 4.5). ' Точнее, условие E{ei\xi} = 0 подразумевает E{£ig(xi)} = 0 для любой функ- ции (см. Приложение В).
2.6. Асимптотические свойства МНК-оценок 73 условия Гаусса—Маркова (А1)-(А4), требуемые для несмещенности. Мы обсудим их обоснованность ниже. Аналогично МНК-оценка s2 для дисперсии ошибки а2 состоя- тельна при условиях (А6), (А7) и (A3) (и некоторых слабых условиях регулярности). Интуитивно понятно, что при сходимости Ъ к векто- ру C оцененные остатки е^, становятся асимптотически эквивалент- ными остаткам ei, так что выборочная дисперсия е*, будет сходиться к дисперсии ошибки <т2, которая определена в (A3). 2.6.2. Асимптотическая нормальность Если распределение оценки для малых выборок неизвестно, то самое лучшее, что мы можем сделать — попытаться найти некоторую ап- проксимацию. В большинстве случаев используется асимптотическая аппроксимация (при объеме выборки N стремящимся к бесконеч- ности), основанная на асимптотическом распределении. Можно показать, что большинство оценок в эконометрике асимптотически имеют нормальное распределение (при слабых условиях регулярно- сти) . Под асимптотическим распределением состоятельной оценки /3 мы подразумеваем распределение vN(J3 — /3) при N стремящимся к бесконечности. Причина появления множителя vN состоит в том, что асимптотически оценка f3 равна C с вероятностью единица для всех состоятельных оценок. Таким образом, C—C имеет вырожденное распределение при N —> ос со всей массой вероятности в нуле. Если мы умножим на vN и рассмотрим асимптотическое распределение vN(/3 — /?), то оно обычно будет невырожденным нормальным рас- пределением. В этом случае vN называется скоростью сходимости, и иногда говорят, что соответствующая оценка является «корень- из-TV-состоятельной». В более поздних главах мы увидим несколько случаев, когда скорость сходимости отличается от корня из N. Для МНК-оценки коэффициентов регрессии можно показать, что при условиях Гаусса—Маркова (А1)-(А4), объединенных с усло- вием (А6), мы имеем т/М(Ъ-0)^ЩО,<т2Ъ-*), B.74) где —► обозначает «асимптотически распределено как». Таким об- разом, МНК-оценка Ь распределена асимптотически нормально с ковариационной матрицей сг2Е~^. На практике мы обязательно име- ем конечную выборку и мы можем использовать этот результат,
74 2. Введение в линейную модель регрессии чтобы аппроксимировать распределение Ъ как b~7V/^,^S). B.75) Поскольку неизвестная матрица Т>хх состоятельно оценивается вы- 1 N борочным средним — V^ Х{х'{, то это аппроксимирующее распреде- г=1 ление оценивается как b~A/-(/?,s2(f>zf) У B.76) Полученное на основе асимптотических (по N —► ос) результатов распределение МНК-оценок вида B.76) для малых выборок справед- ливо лишь приближенно. Качество аппроксимации улучшается при возрастании объема выборки, и обычно надеются, что объем выбор- ки достаточно большой для такой аппроксимации, так что она будет достаточно точной. Поскольку результат B.76) в точности соответ- ствует результату, который используется в случае предположений Гаусса—Маркова, объединенных с предположением о нормальности регрессионных остатков, то из этого следует, что все результаты о распределении МНК-оценки, сообщенные выше, включая резуль- таты для t- и F-статистик, справедливы приближенно, даже если ошибки не имеют нормального распределения. Поскольку асимптотически tjsi-к распределенная переменная сходится к стандартному нормальному распределению, то весьма естественно использовать критические значения из стандартного нормального распределения (как, например, значение 1,96 для 5% уровня значимости) для всех выводов, несмотря на то, что усло- вие нормальности ошибок не накладывается. Аналогично, если / имеет распределение F^_Kl тогда асимптотически f = Jf имеет X2 -распределение со степенями свободы J. Чтобы протестировать множество J линейных ограничений на /3, мы, таким образом, мо- жем использовать J умноженное на / статистики и использовать критические значения асимптотического хи-квадрат распределения (сравните выражения B.63) и B.64)). Можно ослабить предположения далее, не затрагивая законно- сти результатов B.74) и B.76). В частности мы можем ослабить предположение (А2) до предположения Xi и Si являются независимыми. (А8)
2.7. Иллюстрация: модель ценообразования 75 Это условие не исключает зависимость между Жг, и 6j для г ф j, которая представляет интерес для моделей с лаговыми зависимыми переменными. Заметим, что предположение (А8) гарантирует вы- полнение условия (А7). Дальнейшее обсуждение асимптотического распределения МНК-оценок и возможности его оценивания пред- ставлено в главах 4 и 5. 2.7. Иллюстрация: модель ценообразования финансовых активов (ЦФАМ) Одна из наиболее важных моделей в финансах — это модель ценооб- разования финансовых активов (ЦФАМ). Модель ценообразования финансовых активов является моделью равновесия, которая пред- полагает, что все инвесторы составляют свой портфель активов на основе компромисса между его ожидаемой доходностью по всем инвестициям и дисперсией доходности. Это подразумевает, что каж- дый инвестор имеет так называемый эффективный портфель среднего и дисперсии, портфель, который дает максимальную ожидаемую доходность по всем инвестициям для данной дисперсии (уровня риска). Если все инвесторы придерживаются одних и тех же убеждений об ожидаемых доходностях по всем инвестициям и о (ковариациях) дисперсиях индивидуальных активов при отсутствии операционных издержек, налогов и торговых ограничений любого вида, то также справедливо, что множество всех индивидуальных портфелей, рыночный портфель, имеет эффективное среднее и дисперсию. В этом случае можно показать, что ожидаемые доход- ности на индивидуальные активы линейно связаны с ожидаемой до- ходностью на рыночный портфель. В частности справедливо, что21) E{rjt-rf} = PjE{rmt-rf}, B.77) где rjt — рисковая доходность на актив j в период £, rmt — рисковая доходность на рыночный портфель, а г/ — безрисковая доходность, которую для простоты мы предполагаем постоянной во времени. Поскольку номер наблюдения определяет такт времени его регистрации, мы индексируем этот номер с помощью t = 1, 2, ... , Т, а не г (как обычно).
76 2. Введение в линейную модель регрессии Коэффициент пропорциональности Cj имеет вид я _ cov{rjt,rmt} * - V{rmt} B'78) и показывает, насколько сильны флуктуации в доходностях на ак- тиве j, связанные с оживлениями на рынке в целом. По существу, этот коэффициент измеряет систематический риск (или рыночный риск). Поскольку невозможно исключить систематический риск ди- версификацией портфеля без влияния на ожидаемую доходность, то инвесторам предоставляют компенсацию за поддержку этого ис- точника риска в виде рисковой премии (страховой премии за риск) Eirmt-Tf} >0. В этом параграфе мы рассмотрим модель ценообразования финансовых активов и увидим, как ее можно переписать в ви- де линейной модели регрессии, что позволит нам оценивать ее и тестировать. Более обширное обсуждение эмпирических проблем, связанных с моделью ценообразования финансовых активов, можно найти у Берндта*) (Berndt, 1991) или, более формальное обсужде- ние у Кампбелла, Ло и МакКинлея (Campbell, Lo, MacKinlay 1997). Более подробную детализацию модели оценки финансовых активов можно найти в учебниках финансов, например у Эльтона и Грубера (Elton, Gruber 1995). 2.7.1. ЦФАМ как модель регрессии Соотношение B.77) является ожидаемым равенством в терминах ненаблюдаемых математических ожиданий. Реально мы наблюдаем только реализованные доходности разных активов за ряд периодов. Однако если мы сделаем обычное предположение, что ожидания являются рациональными, так что ожидания экономических аген- тов соответствуют математическим ожиданиям, то из соотношения B.77) мы можем получить соотношение, которое включает факти- ческие доходности rjt и гШ£. Чтобы увидеть это, определим «неожи- даемые» доходности на актив j как ujt = rjt -E{rjt}, а «неожидаемые» доходности на рыночный портфель как Umt = Гш1 ~ Е{Ггщ}. *' Есть русский перевод этой книги: Берндт Э. Практика эконометрики: клас- сика и современность. — М.: Юнити, 2005 (примеч. научн. ред. перевода).
2.7. Иллюстрация: модель ценообразования 77 Тогда соотношение B.77) можно переписать в виде rJt ~ rf = Pj(rmt -rf) + ejt, B.79) где Sjt = Ujt - fljUmt. Уравнение B.79) является моделью регрессии без свободного члена, где Sjt рассматривается как регрессионный остаток. Этот регрес- сионный остаток не нечто, просто добавленное в модель, а имеет некоторый смысл, являясь функцией от неожидаемых доходов. Лег- ко показать, что он удовлетворяет некоторым минимальным требо- ваниям, которые заданы условием (А7). Например, из определений неожидаемых доходностей umt и Ujt непосредственно следует, что наш регрессионный остаток имеет нулевое среднее значение, то есть E{ejt} = E{ujt} - PjE{umt} = 0. B.80) Кроме того, он некоррелирован с регрессором rmt — г/. Это следует из определения коэффициента /3j, который можно написать в виде _ E{ujt,umt} Pj~ У{ишЬ} ' (заметим, что безрисковая доходность г/ не является стохастиче- ской), и результата, что E{ejt{rmt - г/)} = E{(ujt - PjUmt)umt} = E{uju umt} - CjE{umt2}. Тогда из предыдущего раздела следует, что МНК-оценка bj пара- метра /3j будет состоятельной. Кроме того, если мы накладываем предположение (А8), что регрессионный остаток Sjt является неза- висимым от rmt — г/, и предположения (A3) и (А4) об отсутствии автокорреляции и гетероскедастичности в остатках Cjt, то мы можем использовать асимптотический результат B.74) и аппроксимирую- щее распределение B.76). Это подразумевает, что рутинная техника вычисления МНК-оценок, их стандартных ошибок и тестов является приемлемой, основанной на асимптотической аппроксимации. 2.7.2. Оценивание и тестирование ЦФАМ ЦФАМ описывает ожидаемые доходности на любой актив в виде функции (ожидаемой) доходности на рыночный портфель. В этом разделе, мы рассмотрим доходность на три разные акции, заре- гистрированные на Брюссельской фондовой бирже, аппроксимируя
78 2. Введение в линейную модель регрессии доходность на рыночный портфель доходностью по бельгийскому индексу всех акций ("The Belgian All Share index"). Доходности ак- ций доступны за период с января 1988 г. по февраль 1996 г. (98 месяцев) для следующих компаний: Петрофина ("Petrofina") (нефте- химическая промышленность), Генерального Банка ("General Bank") (один из самых больших бельгийских банков) и КБР ("CBR") (бе- тонные и цементные заводыJ2^. Заметим, что выборочный период исключает крах фондовой биржи в октябре 1987 г. И хотя теоретиче- ски, рыночный портфель должен включать все торговые активы, мы предположим, что «Бельгийский индекс всех акций» ("The Belgian All Share index"), содержащий акции большинства бельгийских фирм, является хорошей аппроксимацией. Безрисковый курс аппроксими- руется доходностью на 3-месячные казначейские векселя. Хотя эта доходность изменяется во времени, инвесторам известно, когда при- нимать свои решения. Сначала мы оценили соотношение ЦФАМ B.79) для этих трех акций. То есть, мы построили регрессии избыточных доходностей на акции (доходности выше безрискового курса) по избыточным доходностям рыночного портфеля, аппроксимируемые биржевым индексом, не включаяя свободный член. Результаты построенных регрессий представлены в таблице 2.3. Оцененные коэффициенты бета показывают, насколько чувствительна стоимость акций ком- паний к общим оживлениям на рынке. Чувствительность относи- тельно низкая для Генерального банка, но довольно высокая для КБР: избыточная доходность на рынке, например 10%, соответству- ет ожидаемой избыточной доходности на акции Генерального Банка и акции КБР, равной 7,3% и 11,0% соответственно. Предполагая, что условия, требуемые для результатов о распределении МНК-оценки, удовлетворяются, мы непосредственно можем протестировать ги- потезу (которая имеет ограниченный экономический интерес), что коэффициент /3j — 1 для каждой из этих трех акций. В результате приходим к ^-значениям, равным —0,73, —3,57 и 0,96 соответственно, так что мы отклоняем нулевую гипотезу только для акций Генераль- ного Банка. Поскольку ЦФАМ подразумевает, что только избыточная доход- ность на рыночный портфель является единственно существенной переменной в регрессии, то любая другая переменная (известная Данные для этого примера доступны как С ARM.
2.7. Иллюстрация: модель ценообразования 79 Таблица 2.3. Регрессии ЦФАМ (без свободного члена) Зависимая переменная: избыточные доходности акций Компании: Избыточная доходность рыночного портфеля Не центрированный R s Petrofina 0,940 @,082) 0,575 0,0384 General Bank 0,725 @,077) 0,477 0,0360 CBR 1,101 @,105) 0,534 0,0488 Замечание: в круглых скобках стандартные ошибки. Таблица 2.4. Регрессии ЦФАМ (со свободным членом) Зависимая переменная: избыточные доходности акций Компании: константа Избыточная доходность рыночного портфеля R2 s Petrofina -0,005 @,004) 0,943 @,082) 0,580 0,0382 General Bank 0,003 @,004) 0,723 @,077) 0,477 0,0361 CBR 0,005 @,005) 1,099 @,105) 0,535 0,0488 Замечание: в круглых скобках стандартные ошибки. инвестору при принятии своего решения) должна иметь нулевой ко- эффициент. Это также справедливо для постоянного члена регрес- сии. Чтобы проверить, так ли обстоит дело, мы повторно оценили вышеупомянутые модели, включив в них свободный член. Резуль- таты представлены в таблице 2.4. Из этих результатов мы можем протестировать обоснованность ЦФАМ, проверив, равен ли нулю свободный член. Ясно, что мы не нашли никакого статистического основания, чтобы отклонить ЦФАМ таким способом: ни один из постоянных членов регрессий значимо не отличается от нуля. Это также объясняет, почему оцененные бета-коэффициенты подобны коэффициентам в таблице 2.3 и почему Д2-ты близки к не центри- рованным Д2-там.
80 2. Введение в линейную модель регрессии Таблица 2>.5. Регрессии ЦФАМ (со свободным членом и манекеном января) Зависимая переменная: избыточные доходности акций Компании: константа манекен января Избыточная доходность рыночного портфеля R2 s Petrofina -0,005 @,004) -0,003 @,014) 0,945 @,083) 0,580 0,0384 General Bank 0,002 @,004) 0,007 @,013) 0,716 @,079) 0,479 0,0362 CBR 0,005 @,005) -0,000 @,017) 1,099 @,106) 0,535 0,0491 Замечание: в круглых скобках стандартные ошибки. R -ты в этих регрессиях имеют интересную экономическую ин- терпретацию. Уравнение B.79) позволяет нам написать соотношение V{rit} = p]V{rmt} + V{ejt}, которое показывает, что дисперсия доходности на акцию состоит из двух частей: части, связанной с дисперсией рыночного индекса, и специфической части. В экономических терминах это говорит, что полный риск равняется рыночному риску плюс специфический риск. Рыночный риск определяется коэффициентом /3j и вознаграждает- ся: акции с более высоким коэффициентом /3j обеспечивают более высокие ожидаемые доходности из-за соотношения B.77). Специфи- ческий риск не вознаграждается, поскольку его можно исключить диверсификацией: если мы составим портфель, который хорошо ди- версифицирован, то он будет состоять из большого числа активов, с различными характеристиками, так что большая часть специфи- ческого риска уравновешивается и, главным образом, состояниями рыночного риска. Коэффициент R2, будучи долей объясняемой вари- ации в полной вариации, является оценкой относительной важности рыночного риска для каждой из акций. Например, он оценивается 58%-ым риском (дисперсией) акции Петрофина, обусловленным рын- ком в целом, в то время как 42% относятся к специфическому риску. И, наконец, мы рассмотрим одно отклонение от ЦФАМ, которое часто обнаруживалось в эмпирической работе: существование эф-
2.8. Мультиколлинеарность 81 фекта января. Имеются некоторые факты, что при прочих равных условиях доходность в январе выше, чем в любом другом месяце. Мы можем протестировать существование эффекта января в пределах структуры ЦФАМ включением манекена (фиктивной переменной) января в модель и протестировать, значим ли он. Сделав это, мы получаем результаты в таблице 2.5. Вычисленные t-статистики, со- ответствующие манекену января, ясно показывают, что ни для одной из акций мы не можем отклонить отсутствие эффекта января. По- скольку эффект января как правило находили для малых фирм, то полученный результат не очень удивителен при условии, что рас- сматриваемые нами три фирмы почти самые крупные в Бельгии. 2.8. Мультиколлинеарность В общем, нет ничего неправильного в том, что в модель включаются коррелированые объясняющие переменные. Например, в уравнение заработной платы, мы можем включить переменные возраста и опыта работы, хотя можно ожидать, что пожилые люди, в сред- нем, имеют больше опыта работы. Однако, если корреляция между двумя переменными слишком высока, это может привести к пробле- мам. Технически, проблема состоит в том, что матрица X'X близка к вырожденной, не обратимой матрице. Это может привести к нена- дежным оценкам параметров с высокими стандартными ошибками и с неожиданными знаками или величинами. Проблема также понят- на интуитивно. Если возраст и опыт работы высоко коррелированны, то, по-видимому, трудно идентифицировать индивидуальные воздей- ствия этих двух переменных модели, что мы в точности пытаемся сделать. В таком случае большое количество наблюдений с достаточ- но большой вариацией, как в возрасте, так и в опыте работы может помочь нам получить осмысленные результаты. Если дело обстоит не так, и мы действительно получаем неудовлетворительные оценки (например, t-критерии показывают, что ни возраст, ни опыт работы индивидуально не значимы), то мы можем только заключить, что в выборке содержится недостаточная информация, чтобы иденти- фицировать интересующие нас эффекты. В уравнении заработной платы мы попробуем идентифицировать эффект возраста, удержи- вая опыт работы и другие включенные переменные постоянными, а так же идентифицировать эффект опыта работы, удерживая воз- раст и другие переменные постоянными (при условии ceteris paribus
82 2. Введение в линейную модель регрессии (при прочих равных условиях)). Ясно, что, в крайнем случае, люди с одним и тем же возрастом имели бы один и тот же уровень опыта ра- боты, и мы были бы не в состоянии идентифицировать эти эффекты. В случае, когда возраст и опыт работы высоко коррелированны, но не полностью, оцененные эффекты, возможно, будут очень неточными. Вообще, термин мультиколлинеарность используется для описания проблемы, когда существует приближенное линейное соот- ношение между объясняющими переменными, приводящее к нена- дежным оценкам регрессии. Это приближенное соотношение не огра- ничивается двумя объясняющими переменными, а может включать больше или даже все регрессоры. Например, в уравнении заработной платы проблема может осложниться, если мы включаем переменную времени обучения дополнительно к переменным возраста и опыта ра- боты. В крайнем случае, одна объясняющая переменная в точности является линейной комбинацией одной или более других объясняю- щих переменных (включая свободный член). Такой случай обычно называется точной мультиколлинеарностью*), случай в кото- ром МНК-оценки определяются неоднозначно из условий первого порядка проблемы наименьших квадратов (матрица X' X является необратимой). Применение слишком многих манекенов (фиктивных перемен- ных, которые могут принимать только два значения, нуль или еди- ница) является типичной причиной точной мультиколлинеарности. Рассмотрим случай, в котором мы хотели бы включить манекен для мужчин (гаа/е;), манекен для женщин (femalei), а так же констан- ту. Поскольку malei + femalei = 1 для каждого наблюдения (и как константа включается единица), то матрица X'X становится вырож- денной. Проблема точной мультиколлинеарности легко решается с помощью исключения из модели одной из переменных и оценивания модели с включением либо malei и константы, либо femalei и кон- станты, либо обеих переменных как malei, так и femalei, но без кон- станты. Последний подход не рекомендуется, потому что стандартное программное обеспечение имеет тенденцию вычислять статистики, подобные R и F-статистике, разными способами, если исключе- на константа; см. пример в следующем разделе. В этом контексте другим полезным примером точной мультиколлинеарности являет- ся включение переменных возраста, времени обучения (в годах) и Используется также термин «чистой» или «полной» мультиколлинеарности (примеч. научн. ред. перевода).
2.8. Мультиколлинеарность 83 потенциального опыта, определяемого как возраст минус время обу- чения минус шесть. Ясно, что это приводит к вырожденной матрице, если константа включена в модель (см. пример в разделе 5.4). Чтобы проиллюстрировать эффект влияния мультиколлинеар- ности на МНК-оценки более подробно, рассмотрим следующий при- мер. Пусть оценивается следующая модель регрессии Уг = р1Хц + C2Xi2 + £», где предполагается, что выборочные средние у = ~Х\ — х2 = О К Кроме того, предположим, что выборочные дисперсии хц и Х{2 рав- ны 1, в то время как выборочная ковариация (коэффициент корреля- ции) равен г 12. Тогда, дисперсию МНК-оценки можно написать как Ясно, что дисперсии как Ъ\, так и Ь2 увеличиваются, если увеличи- вается абсолютное значение коэффициента корреляции между х\ и х2 2 . Благодаря возрастанию дисперсии МНК-оценки i-статистики будут уменьшаться. Если хц и Х{2 будут показывать сильную поло- жительную корреляцию {т\2 > 0), то оценки Ь\ и Ь2 будут коррели- рованны отрицательно. Другое последствие мультиколлинеарности состоит в том, что некоторые линейные комбинации параметров оцениваются довольно точно, в то время как остальные линейные комбинации оцениваются очень неточно. Обычно, когда регрессоры коррелированны поло- жительно, сумма коэффициентов регрессии может определяться довольно точно, в то время как разность коэффициентов регрессии определяться точно не может. В вышеупомянутом примере для дис- персии суммы Ь\ + Ь2 мы имеем V{6l+62} = ^B-2n2) = 2^, 1 - г{2 1 + г12 Этого молено достичь вычитанием своего выборочного среднего из всех переменных. В этом случае постоянный член не требуется, потому что МНК- оценка свободного члена будет равна нулю. Заметим, что это также справедливо, если истинное значение одного из коэффициентов регрессии равно нулю. Таким образом, включение в модель регрессоров, не являющихся необходимыми, снижает точность МНК-оценки для других коэффициентов (см. главу 3).
84 2. Введение в линейную модель регрессии в то время как для дисперсии разности Ъ\ — &2 мы имеем Поэтому, если т\2 близко к 1, то дисперсия Ь\ — &2 на много раз выше, чем дисперсия Ь\ + &2- Например, если т\2 = 0,95, то отно- шение этих двух дисперсий равно 39. Важное следствие состоит в том, что на результаты прогнозирования, в частности на точность прогнозирования мультиколлинеарность как правило оказывает ма- лое влияние. Это отражает тот факт, что «суммарное влияние» всех объясняющих переменных определяется точно. В итоге высокие корреляции между объясняющими переменны- ми (или их линейными комбинациями) могут привести к проблеме мультиколлинеарности. Если такое случится, то один или более интересующих нас параметров будет оцениваться очень неточно. По существу, это означает, что наша выборка не обеспечивает доста- точную информацию об этих параметрах. Чтобы ослабить проблему, мы вынуждены использовать больше информации, например, с по- мощью наложения некоторых априорных ограничений на вектор параметров. Обычно это означает, что одна или более объясняющих переменных исключаются из модели. Другое решение, которое, как правило, не практично, состоит в том, чтобы увеличить объем выбор- ки. Как пояснялось на вышеприведенном примере, при увеличении объема выборки все дисперсии уменьшаются. Обширный и крити- ческий обзор проблемы мультиколлинеарности и (не) пригодности некоторых механических процедур ее решения представлен у Мад- дала (Maddala, 1992, Chapter 7)*}. 2.8.7. Пример: индивидуальная заработная плата (продолжение) Возвратимся к простому уравнению заработной платы раздела 2.3.3. Как объяснялось выше, включение манекена для женщин в мо- дель вызвало бы точную мультиколлинеарность. Интуитивно также очевидно, что одна фиктивная переменная и константа являются Более подробный анализ способов борьбы с «мультиколлинеарностью», вклю- чающий в себя возможность перехода к другим методам оценивания, читатель найдет, например, в (Айвазян, Енюков, Мешалкин, 1985) или в (Айвазян, 2001) (примеч. научн. ред. перевода).
2.8. Мультиколлинеарность 85 Таблица 2.6. Альтернативные спецификации для фиктивных переменных (манекенов) Зависимая переменная: wage Спецификация константа male female R2 нецентрированный R А 5,147 @,101) 1,278 @,140) — 0,0248 Б 6,425 @,096) — -1,278 @,140) 0,0248 В — 6,425 @,096) 5,147 @,101) 0,6811 Замечание: в круглых скобках стандартные ошибки. достаточными для описания только двух разных групп молодых работников. Выбор включения манекена для мужчин или женщин произволен. Включение двух фиктивных переменных (манекенов) для каждого наблюдения не подразумевает мультиколлинеарность, если модель не содержит свободного члена. Следовательно, при исключении свободного члена, возможно, включить оба манекена. Чтобы проиллюстрировать последствия этих альтернативных выбо- ров, рассмотрим результаты оценивания в таблице 2.6. Так как спецификация В не включает свободный член, то она характеризуется нецентрированным R2 (см. B.43)), чем и объясня- ется его высокое значение. Как и прежде коэффициент регрессии при манекене для мужчин в спецификации А обозначает ожидаемую разность заработной платы между мужчинами и женщинами. Точно так же коэффициент регрессии при манекене для женщин в специфи- кации Б обозначает ожидаемую разность заработной платы между женщинами и мужчинами. Однако для спецификации В коэффи- циенты регрессии при манекенах для мужчин и женщин отражают ожидаемую заработную плату для мужчин и женщин соответствен- но. Ясно, что все три спецификации являются эквивалентными, несмотря на то, что их параметризация несколько отличается.
86 2. Введение в линейную модель регрессии 2.9. Прогнозирование Работа экономиста не заканчивается после получения оценок коэф- фициентов регрессии и соответствующих стандартных ошибок. Следующий шаг состоит в интерпретации результатов и приме- нении модели для достижения поставленных целей. Одна из таких целей, особенно для данных временного ряда, заключается в прогно- зировании. В этом разделе мы рассмотрим прогнозирование, приме- няя модель регрессии, то есть, мы хотим получить прогнозное значе- ние для зависимой переменной при заданном значении объясняющих переменных хо • При условии, что модель предполагается справедли- вой для всех потенциальных наблюдений, также справедливо, что уо = х'0C + е0, где во удовлетворяет таким же свойствам, как и все другие регресси- онные остатки. Очевидный прогноз для у о есть уо = х'0Ь*К Так как Е{Ь} — /3, то легко проверить, что этот прогноз является несме- щенным прогнозом, то есть25\ Е{у§ — Уо} = 0. Согласно предпо- ложениям (А1)-(А4), дисперсия прогноза задается как V{y0} = V{x'0b} = x'0V{b}x0 = a2x'0{X'X)-lx0. B.81) Однако эта дисперсия является только показателем вариации в прогнозе при извлечении различных выборок, то есть показателем вариации в прогнозе обусловленной вариацией Ь. Чтобы проанализи- ровать, насколько точен прогноз, нам требуется дисперсия ошибки прогноза. Ошибка прогноза определяется в виде Уо-Уо = х'о0 + е0- х'0Ъ = е0- х'0{Ъ - /3). B.82) Ошибка прогноза имеет дисперсию V{yo ~ Уо} = °2+ а^Х'Х^хо B.83) Необходимо обратить внимание читателя на тот факт, что все нижеследую- щие рекомендации и формулы данного параграфа верны только для случая гомоскедастичных и взаимнонекоррелированных регрессионных остатков, т.е. при соблюдении условий (А3)-(А4). Если остатки автокоррелированны, то наилучший прогноз в точке xq не будет равен xf0b, а в случае гетерос- кедастичности остатков «не работают» формулы B.83) и B.84). Описание техники прогнозирования в этих более общих случаях читатель может найти, например, в (Айвазян, 2001) (примеч. научн. ред. перевода). В этом математическом ожидании как yb, так и уо рассматриваются как случайные переменные.
Упражнения 87 при условии возможности предположения, что b и ео являются некоррелированными. Такое предположение обычно не является про- блемой, потому что во не используется при оценивании /3. В простой модели регрессии (с одной объясняющей переменной xi) вышепри- веденное выражение можно переписать в виде (см. (Maddala, 1992, Section 3.7)) г Следовательно, чем дальше значение xq от выборочного среднего х, тем больше дисперсия ошибки прогноза. Это — осмысленный ре- зультат: если мы хотим спрогнозировать у для значений х, сильно удаленных от выборочного среднего х, то не можем ожидать, что прогноз у будет очень точным. Наконец мы можем вычислить так называемый интервал прогноза. 95%-ый интервал прогноза для уо задается в виде \х'0Ь - 1,965^1 + х'^Х'Х^хо, х'0Ъ + 1,965^1 + x'0{XfX)-lx0 1, B.84) где как прежде 1,96 является критическим значением стандартного нормального распределения. Можно сказать, что с 95%-ой вероятно- стью этот интервал содержит истинное ненаблюдаемое значение уо. Поскольку одной из важных целей динамических моделей явля- ется прогнозирование, то мы возвратимся к проблеме предсказания в главе 8. Упражнения Упражнение 2.1 (регрессия) Рассмотрите следующую линейную модель регрессии: Vi = /3l + /32Хг2 + /Зз^гЗ + ^г = х'ф + Si. а. Объясните, как определяется МНК-оценка для вектора неиз- вестных параметров C и получите выражение для Ь. б. Какие предположения необходимо сделать, чтобы b была несме- щенной оценкой для вектора параметров /3?
88 2. Введение в линейную модель регрессии в. Объясните, как можно построить доверительный интервал для параметра /З2. Какие дополнительные предположения необхо- димы? г. Объясните, как можно протестировать гипотезу, что /Зз = 1. д. Объясните, как можно протестировать гипотезу, что /?2 +/?з = 0. е. Объяснить, как можно протестировать гипотезу, что /З2 = /?з = 0. ж. Какие предположения необходимо сделать, чтобы Ъ была состо- ятельной оценкой для вектора параметров /3? з. Предположим, что х^ = 2 + Зя^з- Что случится, если Вы попы- таетесь оценить вышеупомянутую модель? и. Предположим, что модель оценивается с включением х\2 — 2xi2 — 2, а не х^ • Как коэффициенты в этой модели связанной с коэффициентами в исходной модели? И как Д2-ты? к. Предположим, что х^ = #гЗ + Щ, где щ и а^з являются некор- релироваными. Предположим, что модель оценена с включени- ем щ, а не Xi2- Как коэффициенты в этой модели связанной с коэффициентами в исходной модели? И как связаны Д2-ты? Упражнение 2.2 (заработные платы работников) Используя выборку 545 работников, занятых полный рабочий день в США, исследователь интересуется ответом на вопрос, недопла- чивают ли систематически женщинам по сравнению с мужчинами. Сначала исследователь оценивает среднюю почасовую заработную плату в выборке мужчин и женщин, которая равняется 5,91 доллара и 5,09 доллара соответственно. а. Дают ли ответ на интересующий нас вопрос эти числа? Почему нет? Как можно было бы получить правильный (по крайней мере, частично) ответ? Исследователь также строит простую регрессию заработной платы работников с помощью фиктивной переменной, равной 1 для мужчин и 0 — для женщин. Это приводит к результатам, представ- ленным в таблице 2.7. б. Как Вы можете проинтерпретировать оценку коэффициента 0,82? Как Вы проинтерпретируете оценку свободного члена 5,09? в. Как Вы проинтерпретируете R2 = 0,26? г. Объясните соотношение между оценками коэффициентов в таб- лице и средними тарифными ставками заработной платы муж- чин и женщин.
Упражнения 89 Таблица 2.7. Почасовая заработная плата, объясняемая полом рабочего: результаты МНК Переменная константа male Коэффициент 5,09 0,82 Стандартная ошибка 0,58 0,15 i-отношение 8,78 5,47 N = 545, s = 2,17, R2 = 0,26. д. Студент расстроился из-за этой модели, поскольку альтернатив- ная «женская» фиктивная переменная (равная 0 для мужчин и 1 — для женщин) исключена из модели. Прокомментируйте его реакцию. е. Используя вышеприведенные результаты, проверьте, нулевую гипотезу, что мужчины и женщины в среднем имеют одну и ту же тарифную ставку заработной платы, против односторон- ней альтернативной гипотезы, что женщины получают меньше. Сформулируйте предположения, требуемые для обоснования такой проверки. ж. Постройте 95%-ый доверительный интервал для средней разно- сти заработной платы между мужчинами и женщинами в гене- ральной совокупности. Впоследствии, модель была расширена так, что учитывала раз- ницу в возрасте и в образовании рабочих, введением переменных age (возраст в годах) и educ (уровень образования от 1 до 5). Одновре- менно к эндогенной переменной было применено логарифмическое преобразование, и эндогенная переменная стала натуральным лога- рифмом почасовой тарифной ставки заработной платы. Результаты представлены в таблице 2.8. з. Как вы проинтерпретируете коэффициенты регрессии 0,13 при фиктивной переменной для мужчин и 0,09 при переменной «возраст». и. Протестируйте совместную гипотезу, что переменные пола, воз- раста и образования не влияют на заработную плату работников. к. Студент остался недовольным этой моделью, так как «эффект образования довольно ограничен». Можете ли Вы объяснить его реакцию? Как модель можно расширить или изменить, чтобы противостоять его реакции? Как Вы можете протестировать, было ли полезно расширение модели?
90 2. Введение в линейную модель регрессии Таблица 2.8. Логарифм почасовой заработной платы, объясняемый переменными пола, возраста и уровня образования: результаты МНК Переменная константа male age educ Коэффициент -1,09 0,13 0,09 0,18 Стандартная ошибка 0,38 0,03 0,02 0,05 ^-отношение 2,88 4,47 4,38 3,66 N = 545, з = 0,24, Я2 = 0,691, R2 = 0,682. Исследователь повторно оценивает вышеупомянутую модель, включая в качестве дополнительного регрессора переменную «воз- раст в квадрате» (ageJ. Значение i-статистики для этой новой переменной равно —1,14, в то время как R = 0,699, a R возрастает до 0,683. л. Могли бы Вы привести причину, почему включение переменной (ageJ может быть уместно? м. Сохранили бы Вы эту новую переменную при данных значениях R2 и R ? Сохранили бы Вы переменную (ageJ при ее данном i-значении? Объясните это очевидное противоречие в выводах. Упражнение 2.3 (оценивание активов — эмпирическое) В современной литературе по финансам предполагается, что оцен- ки активов очень хорошо описываются так называемой факторной моделью, в которой избыточные доходности линейно объясняются избыточными доходностями на некоторое количество «факторных портфелей». Как и в модели ценообразования финансовых активов (ЦФАМ) свободный член должен равняться нулю, точно так же как коэффициент регрессии для любой другой переменной, вклю- ченной в модель, значение которого известно заранее (например, фиктивная переменная января). Совокупность данных по активам содержит избыточные доходности на четыре факторных портфеля (см. Carhart, 1997) за период с июля 1963 г. по октябрь 1993 г.: гт — избыточная доходность на взвешенно-стоимостные при- ближенные заменители рыночного портфеля;
Упражнения 91 г size — доходность на имитационно-факторный портфель с ну- левой инвестицией для фактора «размер»; rbm — то же для акции «книги на рынок»; гтот — то же для однолетнего моментума ;. Все данные взяты по США. Каждая из последних трех пере- менных обозначает разность в доходностях на две гипотетические портфельные акции. Каждый месяц эти портфели формируются вновь на основе последней доступной информации о размерах фирм, о стоимость акции «книги-на-рынок» и о предыстории доходностей соответственно. Например, г size отражает разность доходностей на портфель малых фирм и портфель больших фирм. Эти факторы мо- тивируются эмпирически найденными отклонениями модели оценки финансовых активов. Например, оказывается, что маленькие фир- мы, имеют более высокие доходности, чем большие фирмы, даже после рисковой коррекции модели оценки финансовых активов. В дополнение к избыточным доходностям на эти четыре фактора мы имеем наблюдения по доходам на десять различных «активов», которые являются десятью портфелями акций разных фирм, сохра- няемых и пополняемых Центром исследования курсов ценных бумаг ("Center for Research in Security Prices"). Эти портфели составляются на основе размера фирм, что означает, что портфель 1 содержит 10% самых малых фирм, зарегистрированных на Нью-Йоркской фондовой бирже, а портфель 10 содержит 10% самых больших заре- гистрированных фирм. Избыточные доходности (сверх безрисковой процентной ставки) на эти портфели обозначаются от rl до г10 соответственно. В ответе на следующие вопросы используйте rl, r 10 и доходно- сти на два дополнительных портфеля, которые Вы выбираете. а. Постройте регрессии избыточных доходностей на ваши четыре портфеля в зависимости от избыточной доходности на рыноч- ный портфель (приближенный заменитель), обратив внимание, что эта регрессия соответствует модели ценообразования фи- нансовых активов. Включите константу в эти регрессии. б. Дайте экономическую интерпретацию оцененных коэффициен- тов регрессии j3. *' Моментум (momentum) (биржевая лексема) — технический индикатор, ко- торый измеряет величину изменения цены актива за определенный период (примеч. переводчика).
92 2. Введение в линейную модель регрессии в. Дайте экономическую и статистическую интерпретацию R2. г. Протестируйте нулевую гипотезу, что /3j = 1 для каждого из этих четырех портфелей. Сформулируйте предположения, ко- торые Вы должны сделать для тестирования, чтобы оно было (асимптотически) обоснованным. д. Протестируйте обоснованность модели ценообразования финан- совых активов, тестированием равенства нулю постоянных чле- нов в этих четырех регрессиях. е. Протестируйте наличие эффекта января в каждой из этих че- тырех регрессий. ж. Затем оцените с помощью МНК четыре факторных модели rjt = aj + Pjirrrit + Cj2rsizet + f3j^rbmt + f5j^rmomt + et. Сравните результаты оценивания с результатами, полученными для однофакторной модели ЦФАМ. Обратите внимание на оце- ненные частные коэффициенты наклона и Д2-ты. з. Протестируйте с помощью ^-критериев совместную гипотезу, что коэффициенты для трех новых факторов одновременно равны нулю. и. Протестируйте обоснованность четырехфакторной модели, те- стированием равенства нулю постоянных членов в этих четырех регрессиях. Сравните ваши выводы с выводами, полученными для модели ценообразования финансовых активов.
3 Интерпретация и сравнение моделей регрессии В предыдущей главе внимание уделялось оцениванию линейных мо- делей регрессии. В частности обсуждался подход обычного метода наименьших квадратов, включая его свойства, при условии соблюде- ния некоторых наборов исходных предположений. Это позволило нам оценивать вектор неизвестных параметров /3 и тестировать парамет- рические ограничения, как, например /3k = 0. В первом параграфе этой главы мы уделим дополнительное внимание интерпретации мо- делей регрессии и их коэффициентов. В параграфе 3.2 мы рассмот- рим, как подобрать множество объясняющих переменных для нашей модели, и каковы последствия, если мы неправильно специфицируем это множество. Обсуждение также включает сравнение альтернатив- ных моделей. В параграфе 3.3 рассматривается предположение ли- нейности и возможности его тестирования. Чтобы проиллюстриро- вать главные проблемы, эта глава завершается двумя эмпирически- ми примерами. В параграфе 3.4 описывается модель, объясняющая ожидаемые цены на дома, тогда как в параграфе 3.5 обсуждается оценивание и спецификация уравнения заработной платы. 3.1. Интерпретация линейной модели Как уже подчеркивалось в предыдущей главе, линейная модель Уг=40 + ег C.1)
94 3. Интерпретация и сравнение моделей регрессии имеет небольшое значение, если мы не сделаем дополнительные предположения о регрессионных остатках Е{. Обычные утверждения заключаются в том, что регрессионные остатки ei имеют нуле- вое математическое ожидание, и что объясняющие переменные Х{ берутся заданными переменными. Формальное выражение такого утверждения состоит в предположении, что математическое ожида- ние регрессионного остатка ei при условии заданной матрицы X, или математическое ожидание остатка Е{ при условии заданного вектора Х{ равно нулю, то есть E{si\X} = 0 или E{si\xi} = 0 C.2) соответственно, где последнее условие подразумевается первым. При условии E{ei\xi} = 0 мы можем интерпретировать модель регрессии как описание условного математического ожидания у^ при задан- ных значениях объясняющих переменных Х{. Например, чему равно математическое ожидание заработной платой для произвольно вы- бранной женщины в возрасте 40 лет с университетским образованием и четырнадцатью годами опыта работы? Или, чему равно матема- тическое ожидание уровня безработицы при заданных тарифных ставках заработной платы, заданной инфляции и общем объеме про- изводства в экономике? Первым следствием выражения C.2) явля- ется интерпретация индивидуальных коэффициентов C. Например, коэффициент регрессии /?& измеряет математическое ожидание при- ращения переменной yi при приращении объясняющей переменной Xik на одну единицу, когда все остальные объясняющие переменные в векторе Х{ неизменны. То есть, ^М = р. (з.з) OXik Важно понять, и это мы должны четко определить, что осталь- ные переменные в векторе Xi неизменны. Это условие является так называемым условием ceteris paribus*) (при прочих равных условиях). В модели множественной регрессии отдельные коэф- фициенты регрессии могут интерпретироваться только при условии ceteris paribus. Например, коэффициент /3k мог бы измерять эффект возраста на математическое ожидание заработной платы женщины при условии, что уровень образования и опыт работы постоян- ны. Важное следствие условия ceteris paribus состоит в том, что Часто употребляемое латинское выражение (примеч. переводчика).
3.1. Интерпретация линейной модели 95 невозможно интерпретировать отдельный коэффициент модели регрессии, не зная, каковы остальные переменные модели. Иногда условие ceteris paribus трудно сформулировать. Напри- мер, в случае уравнения заработной платы очень часто приращение в возрасте почти всегда соответствует приращению опыта работы в годах. Несмотря на то, что в этом случае коэффициент регрессии /3k все еще измеряет эффект возраста при условии фиксированного опыта работы в годах (и при условии остальных фиксированных переменных), из-за коллинеарности этих двух переменных в задан- ной выборке условие ceteris paribus хорошо определить невозможно. В некоторых случаях условие ceteris paribus сформулировать про- сто нельзя, например, если вектор объясняющих переменных Xi включает как возраст, так и квадрат возраста. Ясно, что нелепо говорить: коэффициент /3 k измеряет эффект возраста при условии, что квадрат возраста является постоянным. В этом случае нужно возвратиться к производной C.3). Например, если х'ф включает, &gzi$2 + (адегJ/?з5 то мы можем получить производную дЕ{уг\Хг} —^ = C2 + 2ageiC3, C.4) oagei которую можно интерпретировать как предельный эффект прира- щения возраста при условии, что остальные объясняющие перемен- ные в векторе Xi (за исключением переменной (ageiJ) сохраняются постоянными. Это показывает, как предельные эффекты объясняю- щих переменных могут изменяться по наблюдениям при включении дополнительных членов, содержащих эти объясняющие перемен- ные (в данном случае {ageiJ). Например, с помощью включения в регрессию члена взаимодействия ageimalei, где malei является фиктивной переменной для мужчин, мы можем допустить, что для мужчин и женщин эффекты возраста различны. Таким образом, если модель включает адефъ + аде{та1ефъ, то эффект приращения в возрасте есть дЕ{уг\хг} —-£—! = C2 + таХефъ, C.5) aagci который равен 02 для женщин и /?2 + /?з для мужчин. В разделах 3.4 и 3.5 иллюстрируется применение таких членов взаимодействия. Часто экономисты интересуются эластичностями, а не предель- ными эффектами. С помощью эластичности измеряется отно- сительное приращение зависимой переменной обусловленное от- носительным приращением одной из объясняющих переменных
96 3. Интерпретация и сравнение моделей регрессии вектора Х{. Часто эластичности оцениваются непосредственно из линейной в логарифмах модели регрессии (не содержащей фиктив- ных переменных), а именно: log Vi = (log X^J + Щ, C.6) где log#; — краткое обозначение вектора с элементами (l,logx^2, ... , log ХгкУ и предполагается, что Е{щ\ log Xi} = 0. Мы назовем та- кую модель логарифмически линейной моделью. В этом случае дЕ{уг\хг] xik dE{\ogyi\ \ogXi} —л трг | ! ~ ^"j = 7/с, C.7) OXik Е{Уг\Хг\ OlOgXik где знак приближенного равенства « обусловлен тем фактом, что £{logy*| logXi] = E{\0gyi\Xi} ф E{yi\Xi}. Заметим, выражение C.3) означает, что для линейной модели спра- ведливо соотношение 8Е{уг\Хг} Xik Xik dxik E{yi\xi} х'ф A, C.8) которое показывает, что в линейной модели подразумеваются непо- стоянные эластичности, которые изменяются с изменением векто- ра #;, тогда как в логарифмически линейной модели эластичности устанавливаются постоянными. Несмотря на то, что выбор функ- циональной формы во многих случаях диктуется удобством эконо- мической интерпретации, главную роль могут играть другие сообра- жения. Например, объяснение log у;, а не у?;, может помочь ослабить остроту проблемы гетероскедастичности, что проиллюстрировано в параграфе 3.5 ниже. В параграфе 3.3 мы кратко рассмотрим ста- тистические критерии проверки гипотезы линейной спецификации против логарифмически линейной спецификации. Если Xik — фиктивная переменная (или другая переменная, которая может принимать неположительные значения), то мы не можем ее логарифмировать, и тогда в модель включаем оригиналь- ную переменную. Таким образом, мы оцениваем logy; = х'ф + £ъ. C.9) Конечно, некоторые объясняющие переменные логарифмировать можно, а некоторые нет. В модели C.9) коэффициент Ck имеет интерпретацию относительного приращения у;, из-за абсолютного приращения на одну единицу х^. Так, если Xik является мужской
3.1. Интерпретация линейной модели 97 фиктивной переменной, то коэффициент /3 k имеет интерпретацию относительной разности заработной платы между мужчинами и жен- щинами (при прочих равных условиях). И опять это справедливо только приближенно (см. раздел 3.5.2.). Неравенство выражений i?{log yi\xi} и log Е{гц\хг} имеет также некоторые последствия для прогностических целей. Предположим, что мы исходим из логарифмически линейной модели C.6) и условия E\yi\ log Xi} = 0. Тогда прогнозное значение log yi можно определить как значение (log Xi)fj. Однако, если мы интересуемся прогнозом yi, а не logy^, то прогноз exp {(logx^)^} Для значения yi не является хорошим. Такой прогноз не соответствует математическому ожида- нию уi при заданном векторе Х{. То есть, Е{Уг\хг} фежр{Е{\о%уъ\хъ}} = exp {(logХг);7>. Причина заключается в том, что логарифмическое преобразова- ние является нелинейным, а математическое ожидание нелинейной функции не является нелинейной функцией математического ожи- дания. Единственный способ обойти эту проблему состоит в том, чтобы сделать предположения относительно распределения. Если, например, можно предположить, что регрессионные остатки щ в мо- дели C.6) распределены нормально с нулевым средним и диспер- сией al, то это означает, что условное распределение ^является логарифмически нормальным распределением (см. Приложение Б) со средним Е{уг\хг}=ехр I E{logyi\xi] + -al > = exp < (logxi)''y +-<rl C.10) Иногда, дополнительный член половины дисперсии добавляется так- же, когда не предполагается, что остатки имеют нормальное распре- деление. Часто это предположение просто опускается. Следует заметить, что предположение Е{вг\х{} = 0 также яв- ляется важным, поскольку оно говорит, что приращение вектора Х{ не должно приводить к приращениям математического ожидания остаточного члена. В экономике много случаев, где это трудно утверждать, и модели, которые нам интересны, не соответствуют условным математическим ожиданиям. Мы возвратимся к этой про- блеме в главе 5.
98 3. Интерпретация и сравнение моделей регрессии Часто не принимается во внимание другое следствие из условий C.2). Если мы заменяем вектор объясняющих переменных Х{ напри- мер, на вектор ^, и оцениваем другую модель регрессии, Уг = z'f1 + Vi C.11) с интерпретацией, что E{yi\zi} — 2^7? то не существует никакого кон- фликта с предыдущей моделью, которая говорит, что E{yi\xi} = х'ф. Поскольку обуславливающие переменные различны, то оба услов- ных математических ожидания могли бы быть корректными в том смысле, что оба являются линейными по обуславливающим пере- менным. Следовательно, если мы интерпретируем модели регрессии как описание условного математического ожидания при заданных включенных переменных, то между этими моделями никогда не мо- жет быть никакого конфликта. Мы можем интересоваться просто двумя разными вещами. Например, мы можем интересоваться мате- матическим ожиданием заработной платы не только как функции от пола, но также и математическим ожиданием заработной платы как функция от пола, образования и опыта работы. Заметим, что из-за различного условия ceteris paribus (при прочих равных условиях) в этих двух моделях коэффициенты для пола не имеют одинаковой ин- терпретации. Часто исследователи неявно или явно делают предпо- ложение, что множество возможных обуславливающих переменных больше чем множество включенных в модель обуславливающих пере- менных. Иногда предполагается, что модель содержит все существен- ные наблюдаемые переменные (допуская, что не включенные наблю- даемые переменные находятся в обуславливающем множестве, но они несущественны). Если бы, например, утверждалось, что две вы- шеприведенные линейные модели должны интерпретироваться как E{yi\xi,Zi} = z'fi и E{yi\xi,Zi} = х'ф соответственно, тогда эти модели, как правило, конфликтуют друг с другом, и самое большее только одна из моделей может быть коррект- ной '. Только в таких случаях имеет смысл сравнивать две модели статистически и тестировать, например, какая модель является кор- ректной и какая нет. Мы возвратимся к этой проблеме в разделе 3.2.3. Мы абстрагируемся от тривиальных исключений, как, например х\ = — Zi и /?=-7.
3.2. Отбор множества объясняющих переменных 99 3.2. Отбор множества объясняющих переменных 3.2.1. Неправильная спецификация множества регрессоров Если (неявно) предполагается, что обуславливающее множество ре- грессоров модели содержит больше переменных, чем множество в нее включенных, то, возможно, что множество объясняющих пере- менных «специфицировано неправильно». Это означает, что исклю- ченные переменные (одна или более) существенны, то есть имеют в теоретической (истинной) модели ненулевые регрессионные коэф- фициенты. Возникают два вопроса: что случится, если из модели исключена существенная переменная, и что случится, если в модель включена несущественная переменная? Для иллюстрации рассмот- рим следующие две модели Vi = х'ф + z'a + £i, C.12) и Уг=Х'ф + Щ. C.13) Обе модели интерпретируются как описание условного математиче- ского ожидания yi при заданных векторах переменных Х{, Zi (вектор Zi может быть вектором некоторых дополнительных переменных). Модель C.13) вложена в модель C.12); и в ней неявно априори пред- полагается, что zi является вектором несущественных переменных G = 0). Что случится, если мы оцениваем модель C.13), в то время как фактически корректна модель C.12)? То есть, что случится, если мы не включаем вектор переменных Zi во множество объясняющих переменных? МНК оценка для вектора параметров /3, основанная на уравне- нии C.13), обозначенная через &2, имеет вид , N ч -1 N Ъ2 = ( J] Х{х\ J ^2 ХгУг- (З-14) Свойства этой оценки применительно к модели C.12) можно опре- делить подстановкой выражения гц из C.12) в выражение C.14), получаем , N ч-lTV , N ч-1ЛГ 62 = Р + ( Yl XiXi ) £ XiZ'^ + ( 5Z XiXi ) Yl Xi£i' (ЗЛ5) М=1 ' г=1 М=1 ' г=1
100 3. Интерпретация и сравнение моделей регрессии В зависимости от предположений, сделанных для модели C.12), по- следний член в этом выражении будет иметь математическое ожида- ние или предел по вероятности равный нулю 2'. Однако второй член справа соответствует смещению (или асимптотическому смещению) МНК-оценки, возникающему из-за оценивания некорректной модели C.13). Такое смещение называется смещением из-за пропущен- ных переменных. Как и ожидается, никакого смещения не будет, если и в истинной модели C.12) 7 = 0 (т. е. две модели являются иден- тичными). Но существует еще один случай, в котором МНК-оценка &2 для вектора параметров f3 не будет смещенной. Это произойдет, N если 2_\ xizi — 0, или это соотношение выполняется асимптотически, г=1 т.е. если 2?{х^} = 0. Когда такой случай возникнет, мы говорим, что векторы Xi и Zi являются ортогональными. В экономических приложениях ортогональность встречается не очень часто. Заметим, например, что наличие свободного члена в составе вектора Х{ озна- чает, что в этом случае E{zi} должно равняться нулю. Вопрос включения несущественных переменных менее пробле- матичен. Если бы мы оценивали модель C.12), тогда как фактически корректна модель C.13), то включали бы вектор несущественных переменных zi без нужды, поскольку мы бы просто оценивали век- тор коэффициентов 7, который является нулевым вектором. Однако в этом случае было бы предпочтительнее оценивать вектор парамет- ров C для ограниченной модели C.13), а не для модели C.12), так как МНК-оценка вектора неизвестных параметров C обычно будет иметь более высокую дисперсию и тем самым будет менее надеж- ной. Несмотря на то, что вывод этого результата требует некоторых утомительных матричных преобразований, интуитивно очевидно: модель C.13) предоставляет больше информации, поэтому мы мо- жем ожидать, что оценка, которая использует эту информацию, в среднем, более точна, чем та, которая этого не делает*'. Таким Сравните с выводами свойств МНК-оценок в главе 2. Главный ответ на второй вопрос, поставленный автором: включение лишних объясняющих переменных в модель не приводит к смещению оценок регрес- сионных коэффициентов C при существенных регрессорах, однако приводит к неоправданному увеличению дисперсий этих оценок. Два пояснения к тексту: 1) когда автор говорит о том, что «модель C.13) предоставляет больше информации» исследователю, он имеет в виду априори правильную специфи- кацию набора участвующих в модели объясняющих переменных; 2) увеличение
3.2. Отбор множества объясняющих переменных 101 образом, включение вектора несущественных переменных в модель, даже при том, что эти переменные имеют нулевой коэффициент, как правило, увеличивает дисперсию функции оценивания для других параметров модели. Таким образом, включение в модель насколько возможно большого числа переменных не является хорошей страте- гией, в то время как, включение слишком малого числа переменных приводит к возможному смещению оценок. Это означает, что нам требуется некоторое руководство о том, как выбирать множество объясняющих переменных. 3.2.2. Выбор объясняющих переменных Снова следует подчеркнуть, что если мы интерпретируем модель ре- грессии как описание условного математического ожидания у^ при условии заданных значений действительно участвующих в модели регрессоров #;, то нет никакой проблемы неправильно специфи- цированного множества объясняющих переменных, хотя возможно остается проблема функциональной формы (см. следующий раздел). Это подразумевает, что статистически здесь нет ничего для тести- рования. Множество объясняющих переменных Xi выбирается на основе того, в чем мы находим интерес, и часто нашим выбором руководит экономическая теория или здравый смысл. Интерпрета- ция модели в более широком смысле подразумевает, что возмож- ны существенные (релевантные относящиеся к делу) объясняющие переменные, которые не включены в модель или несущественные (нерелевантные), которые включены в модель. Чтобы найти по- тенциально существенные переменные, мы опять можем применить экономическую теорию. Например, определяя уравнение заработной платы, мы можем применить теорию трудовых ресурсов, которая по существу говорит, что все, что влияет на производительность работника, влияет на его или ее заработную плату. Кроме того, мы можем использовать характеристики работы (производственный рабочий или служащий, сменная работа, государственный или част- ный сектор, и т. д.) и общую конъюнктуру рынка труда (например, секторную безработицу). дисперсий оценок в случае включения в модель «избыточных» регрессоров объясняется тем, что, при прочих равных условиях, точность оценивания является монотонно возрастающей функцией от отношения N/K, где К — число оцениваемых параметров (примеч. науч. ред. перевода).
102 3. Интерпретация и сравнение моделей регрессии Хорошая практика заключается в том, чтобы выбрать множе- ство потенциально существенных переменных на основе экономиче- ских, а не статистических аргументов. Хотя иногда, кажется иначе, статистические аргументы никогда не являются окончательно до- стоверными аргументами. То есть, всегда существует небольшая (но не игнорируемая) вероятность сделать неправильный стати- стический вывод. Например, всегда существует вероятность (соот- ветствующая размеру критерия) отклонения нулевой гипотезы о равенстве нулю коэффициента регрессии, в то время как нулевая гипотеза фактически верна. Довольно правдоподобно, что такие ошибки первого рода возникают случайно, когда мы применяем по- следовательность многих тестов для выбора включаемых в модель регрессоров. Этот процесс называется информационным про- смотром данных ("data snooping") или «разработкой данных» ("data mining")*^ (см. (Learner, 1978; Lovell, 1983) или (Charemza, Deadman, 1992, Chapter 2)), и в экономике подобный образ действий, если он будет обнаружен, не вызовет одобрения. В общем, в нашем контексте информационный осмотр данных сводится к тому, что имеющееся множество данных используется не один раз, чтобы вы- брать модельную спецификацию и тестировать гипотезы. Например, можно вообразить, что если Вы имеете набор из 20 потенциальных регрессоров и Вы тестируете каждый из них «на включение в мо- дель», то весьма вероятно сделать заключение, что один из них значим, даже если и не существует никакого истинного соотношения между любым из этих регрессоров и вашей объясняемой перемен- В оригинале использованы термины "Data Snooping" и "Data Mining". К сожа- лению, не существует ни установившегося русского перевода этих терминов, ни консенсуса специалистов по определению этого направления анализа данных и по оценке его эффективности и значимости. Однако общепризнано, что главными характерными чертами направления "Data Mining" является акцент на использование современных компьютерных мощностей для «пере- варивания» больших массивов информации с целью «добычи» содержащихся в ней зависимостей между анализируемыми признаками, аномалий, кластеров и других особенностей при минимальном априорном знании о содержательной сущности обрабатываемой информации и, соответственно, с минимальными претензиями на выяснение смыслового значения полученных результатов. Полностью соглашаясь с призывом автора к максимальному использованию экономического анализа в решении описываемой проблемы, я не считаю есте- ственным и плодотворным противопоставление этому современных методов эконометрики и, тем более, объединение их в «одной компании» с методами "Data Mining" (примеч. научн. ред. перевода).
3.2. Отбор множества объясняющих переменных 103 ной. Хотя статистические пакеты программ иногда предоставляют механические программные процедуры для выбора регрессоров, в экономической работе их применение не рекомендуется. Вероят- ность прийти к неправильному выбору высока, и очень вероятно, что ваша «модель» зафиксирует некоторые особенности данных, которые вне выборки не имеют никакого реального смысла. Однако на практике трудно избежать, чтобы какие-то из выводов вашей работы не были получены с помощью «информационного просмотра данных». Даже в том случае, когда Вы не выполняете ваш соб- ственный поиск спецификации и случается «знаете», какую модель следует оценивать, ваше «знание» может опираться на успехи и неудачи прошлых исследований, которые в какой-то форме исполь- зовали подход «информационного просмотра данных». Тем не менее, важно осознавать эту проблему. В последние годы возможность сме- щений, обусловленных использованием метода «информационного просмотра данных», играет важную роль в эмпирических исследо- ваниях моделей доходности акции. Например, Ло и МакКинлей (Lo, MacKinlay, 1990) проанализировали такие смещения в тестировании моделей ценообразования финансовых активов, а Салливан, Тим- мерманн и Уайт (Sullivan, Timmermann and White 1998) исследовали, в какой степени можно приписать выявление факта наличия кален- дарных эффектов в доходностях акций, как, например январского эффекта, обсужденного в разделе 2.7, использованию подхода «ин- формационного просмотра данных». Опасность метода «разработки данных» особенно высока, если поиск спецификации проводится от простой спецификации к слож- ной. При таком подходе Вы начинаете с простой модели и вклю- чаете дополнительные переменные или их лаги до тех пор, пока спецификация не окажется адекватной. То есть, до тех пор, пока ограничения, накладываемые на модель, больше не отклоняются, и Вы согласны со знаками оценок коэффициентов и их значимо- стью. Ясно, что такая процедура может включать очень большое число тестов. Альтернативным подходом является моделирование от общего к частному. Этот подход защищает профессор Дэвид Гендри (David Hendry) и некоторые из его коллег по Лондонской школе экономики. Подход начинается с оценивания общей и довольно неограниченной модели тестированием накладываемых возможных ограничений, и эта общая модель последовательно уменьшается в размере и сложности. Исчерпывающую трактовку см. у Чаремзы и Дидмена (Charemza, Deadman, 1992). На практике большинство
104 3. Интерпретация и сравнение моделей регрессии прикладных исследователей начинают где-нибудь «в середине» со спецификации, которая могла бы быть целесообразной, и затем в идеале тестируют: A) корректны ли наложенные на модель ограни- чения и B) можно ли наложить ограничения еще не накладываемые на модель. В первую категорию входят тесты неправильной спе- цификации на не включенные объясняющие переменные, а также тесты на автокорреляцию и гетероскедастичность (см. главу 4). Во вторую категорию входят тесты ограничений на параметры модели, например, что одна или более объясняющих переменных имеют ну- левые коэффициенты. При представлении Ваших результатов оценивания не «грех» включить в Вашу спецификацию незначимые переменные. Факт, что Ваши результаты не показывают значимого эффекта некоторой объясняющей переменной xik на переменную yi, является информа- тивным для читателя. И нет никаких причин скрывать этот факт с помощью повторного оценивания модели с исключенной переменной Xik. Конечно, Вы должны быть осторожны, включая в Вашу модель большое число переменных, которые могут быть мультиколлинеар- ными, так чтобы в результате не получилось, что почти ни одна из переменных индивидуально не оказалась значимой. Помимо формальных статистических критериев существуют другие критерии, которые иногда применяются для выбора множе- ства регрессоров. Прежде всего, это i?2, обсужденный в разделе 2.4, который измеряет долю выборочной вариации переменной у^ объ- ясняемую вариацией переменных Х{. Ясно, что если мы расширим модель включением переменных Zi во множество регрессоров, то объясненная вариация никогда не уменьшится, так что при вклю- чении в модель дополнительных переменных значение R тоже никогда не уменьшится. Таким образом, применение R2 в качестве критерия оказывает предпочтение моделям с насколько возможно большим числом объясняющих переменных. Конечно, это не оп- тимально, поскольку при слишком большом числе переменных мы мало, что сможем сказать о коэффициентах модели из-за их возмож- но довольно неточного оценивания. Поскольку R2 «не наказывает» включение большого числа переменных, то лучше применять ме- ру, которая является компромиссом между качеством приближения данных моделью и числом включенных в модель регрессоров. Один из способов такого компромиссного решения состоит в применении скорректированного R2 (или J?2), который обсуждался в предыду-
3.2. Отбор множества объясняющих переменных 105 щей главе. Его запись в виде 7V N -К ^ да = ! _i=i (з.16) ^2 гт J2(yi " у) n _ г=1 [ выражении не зависит с рассматриваемой модели, показывает, что скорректированный R обеспечивает компромисс между качеством приближения данных N моделью, которое измеряется V^ ef, и простотой или экономией г=1 модели, которая измеряется числом параметров К. Существует ряд альтернативных критериев, которые обеспечивают такой компро- мисс. Самыми общими критериями являются информационный критерий Акаике (АИК), предложенный Акаике (Akaike, 1973), определяемый как AHK = logl5>? + ^ C.17) г=1 и байесовский информационный критерий Шварца (БИК), предложенный Шварцем (Schwarz,1978), определяемый как 1 N К БИК = log - ]Г ег2 + - log TV. C.18) г=1 Модели с более низкими значениями критерия АИК или БИК, как правило, более предпочтительны. Заметим, что оба критерия включают налагаемый на модель штраф, который увеличивается с числом регрессоров. Поскольку налагаемый штраф больше для кри- терия БИК, то этот критерий имеет тенденцию поддерживать более лаконичные модели, чем критерий АИК. Применение любого из этих критериев обычно ограничивается случаями не вложенных альтерна- тивных моделей (см. раздел 3.2.3), а экономическая теория не предо- ставляет никакого руководства для отбора соответствующей модели. Типичной ситуацией является поиск экономной модели, которая опи- сывает динамический процесс одной переменной (см. главу 8). Альтернативно возможно протестировать, значимо ли статисти- чески увеличение R2. Такое тестирование в точности то же самое,
106 3. Интерпретация и сравнение моделей регрессии что и тестирование, являются ли коэффициенты вновь добавленных переменных Zi все равными нулю, и такое тестирование мы видели в предыдущей главе. Вспомним из выражения B.59), что соответ- ствующую /-статистику можно написать как (Д? - До)/ J ,3 19) где R2 и Rq обозначают R2 для модели с вектором переменных zi и для модели без него соответственно, a J — число переменных в векторе Z{. При нулевой гипотезе, что переменные вектора zi имеют нулевые коэффициенты, /-статистика имеет F-распределение с J и N—K степенями свободы при условии, что мы можем наложить усло- вия (А1)-(А5) из главы 2. Таким образом, F-критерий обеспечивает статистический ответ на вопрос, было ли увеличение R2 из-за вклю- чения в модель вектора zi значимым. Заметим, что /-статистику можно переписать также в терминах скорректированных Д2-ов. Она показала бы, что R2 > i?2, если и только если, /-статистика пре- вышает определенное пороговое значение. В общем, эти пороговые значения не соответствуют 5% или 10% критическим значениям F-распределения, а существенно меньше. В частности можно пока- зать, что R2 > Rq , если и только если, /-статистика больше единицы. Для одной переменной (J = 1) это означает, что скорректирован- ный R2 увеличится, если дополнительная переменная будет иметь t-отношение с абсолютным значением больше единицы. (Вспомним, что для одного ограничения Г2 = /.) Это показывает, что скорректи- рованный R2 привел бы к включению большего числа переменных, чем стандартный t-критерий или F-критерий. Прямое тестирование гипотезы, что вектор коэффициентов 7 для вектора переменных Zi равняется нулю, можно провести с помо- щью t- и F-критериев, обсужденных в предыдущей главе. По срав- нению с вышеприведенной /-статистикой можно получить более общую тестовую статистику. Пусть 7 — это МНК-оценка для векто- ра 7 и пусть ^{7} обозначает оцененную ковариационную матрицу вектора 7- Тогда можно показать, что при нулевой гипотезе 7 — 0 тестовая статистика £ = I'VtfY1^ C.20) имеет асимптотическое х2~РаспРеДеление с J степенями свободы. Это подобно критерию Вальда, описанному в главе 2 (сравните с выражением B.63)). Форма ковариационной матрицы вектора 7
3.2. Отбор множества объясняющих переменных 107 зависит от предположений, которые мы пожелаем сделать. При пред- положениях Гаусса—Маркова мы получили бы статистику, которая удовлетворяла бы соотношению £ = J'/'. Важно напомнить, что два отдельных (одиночных) теста не эк- вивалентны одному совместному тесту. Например, если мы рассмат- риваем исключение двух отдельных переменных с коэффициентами 7i и 72, то возможно, что индивидуальные t-критерии не отклонят ни гипотезу 7i = 0, ни гипотезу 72 — 0, в то время как совместный F-критерий (или критерий Вальда) отклонит совместную гипотезу 7i = 72 = 0. Информация заключается в том, что если мы хотим одновременно исключить две переменные из модели, то мы должны смотреть на совместный тест, а не на два отдельных теста. Как только первая переменная исключена из модели, вторая переменная может оказаться значимой. Это особенно важно, если между этими двумя переменными существует коллинеарность. 3.2.3. Сравнение не вложенных моделей Иногда экономистам хочется сравнить две разные модели, которые не являются вложенными. В этом случае ни одна из двух моде- лей не является частным случаем другой модели. Такая ситуация может возникнуть, если две альтернативные экономические теории приводят к различным моделям для одного и того же явления. Рас- смотрим следующие две альтернативные спецификации: Модель А: у{ = х'ф + Si C.21) и Модель Б: у{ = z'a + щ, C.22) где обе модели интерпретируются как описание условного матема- тического ожидания переменной г/i при условии заданного вектора объясняющих переменных xi и вектора Zi соответственно. Эти две модели не являются вложенными, если вектор Zi включает перемен- ную, которой нет в векторе Х{, и наоборот. Поскольку обе модели объясняют одну и ту же эндогенную переменную, то можно ис- пользовать i?2, критерий АИК или критерий БИК, обсужденные в предыдущем разделе. Альтернативной и более формальной идеей, которую можно использовать для сравнения двух моделей, является идея охвата (см. Mizon, 1984; Mizon, Richard, 1986): если верится, что модель А является корректной моделью, то она должна охваты- вать модель Б, то есть, должна быть способна объяснить результаты
108 3. Интерпретация и сравнение моделей регрессии модели Б. Если модель А не сможет этого сделать, ее следует от- клонить. И наоборот, если модель Б неспособна охватить модель А, ее также следует отклонить. Следовательно, возможно, что следует отклонить обе модели не из-за ошибок первого рода, а потому что ни одна из них не является корректной. Если модель А не отклоняется, мы можем тестировать ее против другой конкурирующей модели и сохранять ее до тех пор, пока она не отклоняется. Принцип охвата является общим, и логично требовать, что мо- дель должна охватывать конкурирующие модели. Если конкурирую- щие модели вкладываются внутрь текущей модели, то она охватыва- ет их автоматически, потому что более общая модель всегда способна объяснить результаты более простых моделей (сравните выражение C.15) выше). Если модели не являются вложенными, охват нетри- виален. К сожалению, тесты охвата для общих моделей довольно сложны, но для моделей регрессии эти тесты относительно просты. Мы рассмотрим два альтернативных критерия. Первый явля- ется не вложенным F-критерием или F-критерием охвата. При записи х\ — (^1г?^2г)? ГДе вектор объясняющих переменных х'и включается в вектор Zi (a x'2i нет), модель Б можно протестировать построением так называемой модели искусственного вложения вида Уг = z-7 + x'2i5A + щ. C.23) Эта модель, как правило, не имеет никакого экономического объ- яснения, но сводится к модели Б, если 6 а = 0. Таким образом обоснованность модели Б (модель Б охватывает модель А) можно протестировать применением F-критерия для проверки гипотезы (ограничения) 5 а = 0. Подобным образом мы можем протестиро- вать обоснованность модели А, тестируя гипотезу 5в — 0 для модели Уг=х'ф + х'2{8в+еи C.24) где z2i содержит переменные из вектора Z{, которые не включены в вектор Xi. Нулевые гипотезы, которые здесь тестируются, утвержда- ют, что одна модель охватывает другую. Исход двух тестирований может состоять в том, что следует отклонить обе модели. С другой стороны также возможно, что ни одна из двух моделей не отклоня- ется. Таким образом тот факт, что модель А отклоняется, не следует интерпретировать как свидетельство в пользу модели Б. Этот факт просто показывает кое-что, улавливаемое моделью Б, что не адек- ватно принимается в расчет моделью А.
3.2. Отбор множества объясняющих переменных 109 Более экономным не вложенным тестом является J-тест. Опять начнем с модели искусственного вложения, в которую вложены и мо- дель А, и модель Б. Модель искусственного вложения задается в виде Уг = A - 8)х'ф + Sz'ft + щ C.25) где 5 — скалярный параметр, а щ — регрессионный остаток. Если 5 = 0, то уравнение C.25) соответствует модели А, а если 5=1, то оно сводится к модели Б. К сожалению модель вложения C.25) нельзя оценить, потому что в общем /3, 7 и 5 не возможно иденти- фицировать по отдельности. Одно из решений этой проблемы (пред- ложенное в работе Девидсона и МакКиннона (Davidson, MacKinnon, 1981)) состоит в том, чтобы заменить неизвестные параметры 7 на МНК-оценки 7 из модели Б, и протестировать гипотезу, что 6 = 0 для модели Уг = х\р* + Szfi + щ = х'ф* + 5yiB + щ, C.26) где угв — «подогнанное» значение из модели Б, а /3* = A — S)/3. В J-тесте на обоснованность модели А применяется t-статистика для проверки гипотезы 8 = 0 в этой последней регрессии. В вычисли- тельном отношении это просто означает, что подогнанное значение из конкурирующей модели добавлено к тестируемой модели. С по- мощью стандартного ^-критерия мы проверяем гипотезу о равенстве нулю коэффициента тестируемой модели. По сравнению с невложен- ным F-критерием J-критерий включает только одно ограничение. Это означает, что J-критерий может быть более привлекательным (имеет большую мощность), если число дополнительных регрессоров в невложенном F-критерии является большим. Если невложенный F-критерий включает только один дополнительный регрессор, то он эквивалентен J-критерию. Больше подробностей о невложенном тестировании и соответствующие ссылки можно найти у Девидсона и МакКиннона (Davidson, MacKinnon, 1993, Sect. 11.3). При наличии двух альтернативных невложенных моделей дру- гим важным случаем является выбор функциональной формы меж- ду линейной и логарифмически линейной формой. Поскольку зави- симые переменные в этих моделях отличаются (yi и logy^ соответ- ственно), сравнение на основе мер качества приближения данных моделью, включая критерии АПК и БИК, неуместно. Один из способов тестировать правомерность линейной и логарифмически линейной модели включает их вложение в более общую модель, ис- пользуя так называемое преобразование Бокса—Кокса (см. Davidson,
110 3. Интерпретация и сравнение моделей регрессии MacKinnon, 1993, Sect. 14.6), R{ > В%*\ и их сравнение против этой более общей альтернативы. Альтернативно можно выбрать подход, подобный вышеописанному подходу охвата, используя модель искус- ственного вложения. Очень простой процедурой является тест РЕ, предложенный МакКинноном, Уайтом и Девидсоном (MacKinnon, White, Davidson, 1983). Сначала с помощью МНК оцениваются и линейная, и логарифмически линейная модели. Обозначим предска- занные значения через щ и log yi соответственно. Тогда линейную модель можно протестировать против ее логарифмически линейной альтернативы с помощью проверки нулевой гипотезы, что Slin — О в тестируемой регрессии Уг = х'ф + 5L/iV(log Уг - log уг) + Щ. Точно так же логарифмически линейная модель соответствует нуле- вой гипотезе Slog — 0 в тестируемой регрессии log yi = (log ХгУ-f + 6ЬОс(Уг ~ вхр {log &}) + Щ. Оба теста просто могут основываться на стандартных i-статистиках, которые при нулевой гипотезе приближенно имеют стандартное нор- мальное распределение. Если Slin = 0 не отклоняется, возможно, что предпочтительнее линейная модель. Если Slog — 0 не откло- няется, тогда предпочтительнее логарифмически линейная модель. Если отклоняются обе гипотезы, то по-видимому ни одна из двух моделей не уместна и надо рассматривать более общую модель, например, обобщая функциональную форму переменных Х{ либо в линейной, либо в логарифмически линейной модели 3\ В разделе 3.4 представлен эмпирический пример применения теста РЕ. 3.3. Неправильно специфицированная функциональная форма Хотя предположения, делаемые при интерпретации моделей, доволь- но слабые, есть одно важное предположение, при котором модели См. также (Айвазян, 2001) (примеч. научн. ред. перевода). Заметим, что при достаточно общих функциональных формах можно полу- чить модели для yi и log гц, которые обе корректны в том смысле, что они представляют E{yi\xi} и E{\ogyi\xi} соответственно. Однако невозможно, чтобы обе спецификации имели гомоскедастичный член ошибки (см. пример в разделе 3.5).
3.3. Неправильно специфицированная функциональная форма 111 могут быть специфицированы неправильно. И это предположение состоит в линейности моделей. Интерпретация E{yi\xi] — х'ф, озна- чает, что при объяснении математического ожидания г/i никакие другие функции от вектора переменных Xi не относятся к делу. Это предположение является ограничивающим, а главная мотивация линейных спецификаций заключается в их удобстве. 3.3.1. Нелинейные модели Нелинейности могут возникать в двух разных отношениях. В первом случае модель по-прежнему линейна по параметрам, но не линейна по объясняющим переменным. Это означает, что в качестве до- полнительных объясняющих переменных мы включаем нелинейные функции переменных вектора я^, например, уравнение заработной платы может включать переменные (ageiJ и age^raa/e^. Полученная в результате модель по-прежнему линейна по параметрам, и может оцениваться обычным методом наименьших квадратов. Во втором случае модель нелинейна по параметрам и ее оценивание менее легкое. В общем, это означает, что E{yi\xi} — g(xi,f3), где g(-) — функция регрессии, нелинейная по параметрам /3. Например, для единственной переменной в векторе Х{ мы могли бы иметь функцию g(xi,C) = C1 + 02X^\ C.27) а для двумерного вектора Xi функцию 2(х,,/3)=а4243, C-28) последняя функция соответствует производственной функции Коб- ба—Дугласа с двумя входами. Поскольку после взятия логарифма вторая функция линейна по параметрам (предполагая, что j3\ > 0), то в этом случае общая методика состоит в том, чтобы моделировать log j/i, ане ^, в то время как для первой функции эта методика не работает. Нелинейные модели также можно оценить нелинейной версией метода наименьших квадратов с помощью минимизации целевой функции ~ N ~ ЭД = £>,-<Ка*,/3)J C-29) г=1 относительно /3. Такой метод называется нелинейным методом наименьших квадратов. В общем, в отличие от линейного случая
112 3. Интерпретация и сравнение моделей регрессии получить аналитическое решение для значения /3, которое мини- мизирует £(/?), невозможно, и чтобы получить МНК-оценку нам следует использовать численные процедуры. Необходимое условие состоятельности состоит в существовании единственного глобаль- ного минимума целевой функции £(/?), что означает идентифици- руемость модели. Превосходный анализ таких нелинейных моделей описан Девидсоном и МакКинноном (Davidson, MacKinnon 1993) и здесь эти вопросы мы рассматривать не будем. Неправильную спецификацию функциональной формы мож- но исключить полностью, говоря о заинтересованности в линейной функции от переменных вектора Xi, которая аппроксимирует пере- менную yi насколько возможно хорошо. Это возвращает к исходной интерпретации обычного метода наименьших квадратов в виде опре- деления линейной комбинации переменных х, которая аппроксими- рует переменную yi насколько возможно хорошо. Мы можем сделать то же самое в статистической постановке, ослабив предположение E{ei\xi} — О до предположения E{eiXi} = 0. Вспомним, что предпо- ложение E{ei\xi] — 0. подразумевает предположение Е{в{д(х{)} = 0 для любой функции g (при условии существования математических ожиданий). Поэтому требование E{eiXi] — 0 действительно явля- ется ослаблением предположений. В этом случае мы можем интер- претировать линейную модель регрессии как описание наилучшей линейной аппроксимации переменной yi по переменным вектора Х{. Во многих случаях мы могли бы интерпретировать линейную ап- проксимацию как оценку параметра генеральной совокупности, а не просто как внутри выборочный результат. Заметим, что условие Е{е{Х{} = 0 соответствует условию (А7) из главы 2 и необходимо для состоятельности МНК-оценки. 3.3,2. Тестирование функциональной формы Простой способ тестировать функциональную форму E{yi\Xi} = х'ф C.30) заключался бы в тестировании, являются ли дополнительные нели- нейные члены в векторе х^, значимыми. Такое тестирование мож- но проводить с помощью применения стандартных i-критериев, F-критериев, или, более обще, критериев Вальда. Эти критерии работают, если только можно специфицировать альтернативные ги-
3.4. Пример: объяснение цен на дома 113 потезы. Когда число переменных в векторе Х{ большое, число воз- можных тестирований также является большим. Рамсей (Ramsey, 1969) предложил тест, основанный на идее, что при нулевой гипотезе нелинейные функции от yi — хф не должны помогать в объяснении у{. В частности тестируется, имеют ли сте- пени yi ненулевые коэффициенты во вспомогательной регрессии Уг = х'ф + а2уг2 + а3уг3 + ... + aQyzQ + щ. C.31) Вспомогательная регрессия, как мы увидим несколько ниже, обычно применяется только для вычисления тестовой статистики, а не предназначается для предоставления содержательной модели. В этом случае мы можем применить стандартный F-критерий для Q — 1 ограничений нулевой гипотезы Но : а 2 = • • • = &Q — 0, или, более обще, тест Валь да (с асимптотическим %2 -распределением с Q — 1 степенями свободы). Эти тесты обычно называются тестами установки (тесты ошибки спецификации уравнения регрессии). Ча- сто, тестирование выполняется только для Q — 2. Не маловероятно, что тест установки отклоняет нулевую гипотезу из-за пропуска су- щественных переменных в модели (в смысле, определенном ранее), а не только из-за неправильной спецификации функциональной фор- мы. Таким образом, включение дополнительной переменной может уловить нелинейности, показываемые этим тестом. 3.4. Пример: объяснение цен на дома В этом разделе мы рассмотрим эмпирический пример, касающий- ся соотношения между отпускными ценами на дома и характери- стиками домов. Получающуюся ценовую функцию можно назвать гедонистической ценовой функцией, потому что она позволя- ет производить оценивание гедонистических цен (см. Rosen, 1974). Гедонистическая цена приписывается неявной цене определенного характерного признака дома (например, числу спален) и влияет на его продажную цену. В этом контексте дом рассматривается в свете набора таких признаков. Типичными товарами, для которых оцени- ваются гедонистические ценовые функции, являются компьютеры, автомобили и дома. Для нашей цели важный вывод состоит в том, что гедонистическая ценовая функция описывает ожидаемую цену
114 3. Интерпретация и сравнение моделей регрессии (или логарифмическую цену) как функция множества характери- стик. Берндт (Berndt, 1991, Chapter 4)*^ обсудил дополнительные экономические и эконометрические проблемы, связанные с примене- нием, интерпретацией и оцениванием таких ценовых функций. Данные, которыми мы воспользуемся 4\ взяты из недавнего исследования Энглин и Генкей (Anglin, Gencay, 1996) и содержат отпускные цены на 546 домов, проданных в течение июля, августа и сентября 1987 в городе Виндзоре, Канада, наряду с их важными характерными особенностями. Имеются следующие характеристики: размер участка земли в собственности (в квадратных футах), число спален, число полностью оборудованных ванных комнат, число мест в гараже и число этажей. Кроме того, есть фиктивные перемен- ные: наличие подъездной дороги, комнаты отдыха, обустроенного подвального помещения и наличие центрального кондиционирова- ния воздуха, расположение в привилегированном районе и наличие водяного отопления на газе. Начнем наш анализ с оценивания объ- ясняющей модели, описывающей зависимость логарифма отпускной цены дома от логарифма размера участка земли, числа спален, числа ванных комнат и наличия кондиционирования воздуха. МНК- оценивание приводит к результатам в таблице 3.1. Эти результаты показывают приемлемо высокий Д2, равный 0,57, и довольно высо- кие i-отношения для всех коэффициентов регрессии. Коэффициент при фиктивной переменной (манекене) кондиционирования воздуха показывает, что дом, который имеет центральное кондиционирова- ние воздуха, продается по ожидаемой отпускной цене на 21% выше, чем дом без центрального кондиционирования, при условии нали- чия одного и того же числа спален и ванных комнат и одинакового размера земельного участка. Увеличение земельного участка на 10% при прочих равных условиях повышает ожидаемую отпускную цену дома примерно на 4%, тогда как дополнительная спальня оценива- ется повышением цены почти на 8%. Ожидаемую логарифмическую отпускную цену дома с четырьмя спальнями, одной оборудованной ванной комнатой, размером участка земли 5000 кв. футов и без кон- диционирования воздуха можно вычислить как 7,094 + 0,400 log E000) + 0,079 х 4 + 0,216 = 11,028, См. русский перевод (Берндт, 2005) (примеч. научн. ред. перевода) Данные доступны как HOUSING.
3.4. Пример: объяснение цен на дома 115 Таблица 3-1- Результаты применения МНК для гедонистической ценовой функции Зависимая переменная: логарифм отпускной цены дома Переменная Константа log (размер земельного участка) число спален число ванных комнат наличие центрального кондиционирования воздуха Оценка 7,094 0,400 0,078 0,216 0,212 Стандартная ошибка 0,232 1,028 0,015 0,023 0,024 ^-отношение 30,636 14,397 5,017 9,386 8,923 s = 0,2456, R2 = 0,5674, R2 = 0,5642, F = 177,41. что соответствует ожидаемой цене, равной ехр {11,028 + 0,5 х 0,24562} - 63 460 канадских долларов. Последний член в этом выражении соответ- ствует половине оцененной дисперсии ошибки (s2) и основан на предположении, что член ошибки имеет нормальное распределение (см. выражение C.10)). Исключение этого члена приводит к ожида- емой цене, равной только 61 575 долларов. Чтобы понять важность члена половины дисперсии, рассмотрим прогнозные значения на- шей модели. Взятие экспоненты от прогнозных значений приводит к прогнозным ценам за дома в нашей выборке. Средняя прогнозная цена равна 66 679 долларов, в то время как выборочное среднее фактических цен равно 68 122. Это показывает, что без каких-либо коррекций мы систематически будем прогнозировать заниженные цены. При добавлении члена половины дисперсии средняя прогно- стическая цена на основе модели, объясняющей логарифмические цены, возрастает до 68 190 долларов и является достаточно близкой к фактическому среднему. Чтобы протестировать функциональную форму этой простой спецификации, мы можем применить тест установки. Это означает, что мы получаем прогнозные значения из нашей модели, возводим их в выбранную нами степень, потом включаем в исходное уравнение,
116 3. Интерпретация и сравнение моделей регрессии получая вспомогательные уравнения регрессии, а затем тестируем их значимость. Заметим, что эти вспомогательные регрессии строятся только для целей тестирования и не предназначаются для постро- ения содержательной модели. Включение квадратного прогнозного члена приводит к значению i-статистики, равному 0,514 (р — 0,61), а включение квадратного и кубического прогнозного члена дает зна- чение F-статистики, равное 0,56 (р = 0,57). Оба теста не указывают на заслуживающую внимание неправильную спецификацию нашей модели. Тем не менее, мы можем быть заинтересованы во вклю- чении дополнительных переменных в нашу модель, поскольку на отпускные цены также могут влиять такие характеристики домов, как число мест в гараже или его территориальное расположение. С этой целью мы включаем все остальные переменные в нашу модель и приходим к спецификации, представленной в таблице 3.2. Учиты- вая, что R2 возрос до значения 0,68 и все значения индивидуальных t-статистик больше 2, эта расширенная спецификация оказывает- ся значимо лучше, чем предыдущая спецификация при объяснении ожидаемых цен на дома. Совместная проверка нулевой гипотезы, что все семь дополнительных переменных имеют нулевые коэффи- циенты, обеспечивается F-критерием, тестовая статистика которого вычисляется на основе соответствующих Д2-ов как @,6865 - 0,5674)/7 J (l-0,6865)E46-12) которая является высоко значимой для F-распределения с 7 и 532 степенями свободы (р — 0,000). При взгляде на точечные оценки коэффициентов регрессии видно, что эффект повышения отпускной цены при увеличении земельного участка на 10% теперь оценива- ется только 3% при прочих равных условиях. Несомненно, что это обусловлено изменением условия ceteris paribus (при прочих равных условиях), например, тем, что дома с большими размерами участка земли имеют тенденцию наличия подъездной дороги относительно чаще 5^. Точно так же оцененное влияние на отпускные цены домов других переменных меньше по сравнению с оценками в таблице 3.1. Как ожидалось, все оценки коэффициентов являются положитель- ными и относительно прозрачными для интерпретации. При прочих Выборочный коэффициент корреляции между логарифмом размера земель- ного участка и фиктивной переменной наличия подъездной дороги равен 0,29.
3.4. Пример: объяснение цен на дома 117 Таблица 3.2. Результаты применения МНК для гедонистической ценовой функции, расширенная модель Зависимая переменная: логарифм отпускной цены дома Переменная константа log (размер земельного участка) число спален число ванных комнат наличие центрального кондиционирования воздуха наличие подъездной дороги наличие комнаты отдыха наличие оборудованного подвального помещения наличие водяного отопления на газе число мест в гараже расположение в привилегированном районе число этажей Оценка 7,745 0,303 0,034 0,166 0,166 0,110 0,058 0,104 0,179 0,048 0,132 0,092 Стандартная ошибка 0,216 0,027 0,014 0,020 0,021 0,028 0,026 0,022 0,044 0,011 0,023 0,013 i-отношение 35,801 11,356 2,410 8,154 7,799 3,904 2,225 4,817 4,079 4,178 5,816 7,268 s = 0,2104, R2 = 0,6865, В2 = 0,6801, F = 106,33. равных условиях дом в привилегированной окрестности города, как и ожидалось, должен продаваться на 13% по более высокой цене, чем дом, расположенный в другом месте. Как и прежде мы можем протестировать функциональную форму спецификации, выполняя один или более тестов установки. При ^-значении, равном 0,06, для квадратных прогнозных значе- ний и F-статистике, равной 0,04, для квадратных и кубических членов снова нет никакого свидетельства неправильной специфи- кации функциональной формы. Хотя возможно рассмотреть более
118 3. Интерпретация и сравнение моделей регрессии специфические альтернативы, тестируя функциональную форму. Например, можно было бы выдвинуть гипотезу, что дополнительная спальня подразумевает большее повышение цены, чем расположе- ние дома в привилегированной окрестности. Если бы проверялась такая гипотеза, то в модель включался бы член взаимодействия между фиктивной переменной (манекеном) места расположения и переменной числа спален. Если бы модель расширялась включе- нием такого члена взаимодействия, то i-критерий для новой пе- ременной привел бы к высоко незначимому значению, равному —0,131. В целом же текущая модель кажется удивительно хорошо специфицированной. Модель позволяет нам вычислять ожидаемую логарифмиче- скую отпускную цену произвольного дома в Виндзоре. Если бы Вы имели собственный двухэтажный дом на земельном участке 10 000 квадратных футов, расположенных в привилегированной окрестно- сти города, с четырьмя спальнями, одной ванной, с двухместным гаражом, подъездной дорогой, с комнатой отдыха, кондиционирова- нием воздуха и оборудованным подвальным помещением, с водяным отоплением на газе, то ожидаемая логарифмическая цена продажи вашего дома равнялась бы 11,87. Она указывает, что гипотетическая цена вашего дома, если дом продавался бы летом 1987 года, оцени- валась бы в 179 000 канадских долларов. Вместо моделирования логарифмических цен мы могли так- же рассмотреть объясняемые натуральные цены. В таблице 3.3 представлены результаты модели регрессии, в которой цены объ- ясняются линейной функцией от размера участка земли и всех других переменных. Теперь по сравнению с предыдущей моде- лью коэффициенты отображают абсолютные разности в ценах, а не относительные разности. Например, ожидается, что наличие подъездной дороги (при прочих равных условиях) увеличит цену продажи дома на 6688 долларов, в то время как в таблице 3.2 оцененное увеличение составляет 11%. Из сравнения результатов в таблицах 3.2 и 3.3 непосредственно не ясно, какая из этих двух спецификаций является предпочтительной. Вспомним, что R2 не обеспечивает соответствующие критерии сравнения. Как обсужда- лось в разделе 3.2.3, эти две невложенные модели можно проте- стировать друг против друга. Используя тест РЕ, мы можем про- тестировать две нулевые гипотезы, что истинна линейная модель, и что истинна логарифмически линейная модель. Тестируя линей- ную модель, мы получаем тестовую статистику равную —6,196.
3.4. Пример: объяснение цен на дома 119 Таблица 3.3. Результаты применения МНК для гедонистической ценовой функции, линейная модель Зависимая переменная: отпускная цена дома Переменная константа log (размер земельного участка) число спален число ванных комнат наличие центрального кондиционирования воздуха наличие подъездной дороги наличие комнаты отдыха наличие оборудованного подвального помещения наличие водяного отопления на газе число мест в гараже расположение в привилегированном районе число этажей Оценка -4038,35 3,548 1832,00 14335,56 12632,89 6687,78 4511,28 5452,39 12831,41 4244,83 9369,51 6556,95 Стандартная ошибка 3409,47 0,350 1047,00 1489,92 1555,02 2045,25 1899,96 1588,02 3217,60 840,54 1669,09 925,29 t- отношение -1,184 10,124 1,750 9,622 8,124 3,270 2,374 3,433 3,988 5,050 5,614 7,086 s = 15423, R2 = 0,6731, R2 = 0,6664, F = 99,97. Учитывая критические значения стандартного нормального распре- деления, приходим к результату, что спецификацию в таблице 3.3 следует отклонить. Автоматически это не подразумевает, что ис- тинной является спецификация в таблице 3.2. Однако, тестируя логлинейную модель (где логарифмическими являются только цена и размер земельного участка), мы приходим к тестовой статистике, равной —0,569, так, что гипотеза истинности логлинейной модели не отклоняется.
120 3. Интерпретация и сравнение моделей регрессии 3.5. Пример: объяснение индивидуальной заработной платы Хорошо известен тот факт, что средние почасовые тарифные ставки заработной платы мужчин выше, чем женщин почти во всех про- мышленно развитых странах. В этом разделе мы проанализируем этот феномен для Бельгии. В частности мы хотим узнать, могут ли факторы, типа уровня образования и опыта работы объяснить раз- ницу в заработной плате. С этой целью мы используем совокупность данных, состоящую из 1472 индивидуумов, случайно выбранных из совокупности работающих в Бельгии в 1994 году. Совокупность данных, взятая из бельгийской части панельных данных домашних хозяйств Европейского Экономического Сообщества, содержит 893 мужчины и 579 женщин 6\ Анализ основан на следующих четырех переменных: wage ~ почасовая тарифная ставка заработной платы до удер- жания налогов, в бельгийских франках в час; male — фиктивная переменная, равна 1, если работник — муж- чина, и 0, если женщина; educ ~ уровень образования, 1 = уровень начальной школы, 2 = низкое профессиональное обучение, 3 = средний уровень, 4 = высокое профессиональное обучение, 5 = университетский уровень; ехрег — опыт работы в годах. Некоторые итоговые статистики для этих переменных представ- лены в таблице 3.4. Мы видим, например, что средняя тарифная Таблица 3.4. Итоговые статистики, 1472 рабочих wage educ ехрег Мужчины Среднее значение 466,42 3,24 18,52 Стандартное отклонение 191,77 1,26 10,25 Женщины Среднее значение 413,95 3,59 15,20 Стандартное отклонение 153,64 1,09 9,70 Данные для этого примера доступны как В WAGES.
3.5. Пример: объяснение индивидуальной заработной платы 121 ставка заработной платы для мужчин равна 466,42 бельгийских франка в час A1,56 евро7)), в то время как для женщин она равна только 413,95 бельгийских франка в час, что соответствует разности 52,47 бельгийских франка или почти 13%. Поскольку средний опыт работы в годах в выборке ниже для женщин чем для мужчин, то это не обязательно подразумевает, что существует дискриминация женщин по заработной плате. 3.5.1. Линейные модели Первая модель для оценивания эффекта пола на почасовую тариф- ную ставку заработной платы, скорректированная на разницу в опы- те работы и уровне образования, получена построением регрессии переменной wage на объясняющие переменные male, exper и educ. Результаты построенной регрессии представлены в таблице 3.5. Если мы интерпретируем эту модель как описание ожидаемой заработной платы, при условии заданного пола, опыта работы и уровня образо- вания, то есть при прочих равных условиях, то эффект пола факти- чески идентичен средней разности заработной платы. Очевидно, что корректировка на разницу в образовании и производственном опыте не изменяет ожидаемую разность заработной платы между мужчи- нами и женщинами. Заметим, что эта разность статистически высоко значима с ^-отношением, равным 6,984. Как и ожидалось, эффект опыта работы при фиксированном уровне образования является по- ложительным: дополнительный год опыта работы увеличивает ожи- Таблица 3.5. Результаты применения МНК для спецификации 1 Зависимая переменная: wage Переменная константа male educ exper Оценка 8,620 54,303 80,119 7,756 Стандартная ошибка 15,607 7,775 3,253 0,387 ^-отношение 0,552 6,984 24,629 20,064 s = 143,14, В2 = 0,3656, R2 = 0,3643, F = 281,98. Обменный курс: 40,3399 бельгийских франка = 1 евро.
122 3. Интерпретация и сравнение моделей регрессии Таблица 3.6. Результаты применения МНК для спецификации 2 Зависимая переменная: wage Переменная константа male educ exper 2 exper Оценка -36,003 53,801 80,201 14,442 -0,176 Стандартная ошибка 17,463 7,700 3,221 1,277 0,032 ^-отношение -2,062 6,988 24,897 11,309 -5,487 s = 141,75, R2 = 0,3783, R2 = 0,3766, F = 223,20. даемую заработную плату несколько меньше, чем на 8 бельгийских франков в час. Точно так же более высокие уровни образования суще- ственно увеличивают ожидаемую заработную плату. Если мы срав- ниваем двух работников с двумя соседними уровнями образования, но одного и того же пола и с одним и тем же опытом работы, то ожи- даемая разность в заработной плате равна приблизительно 80 бель- гийских франков в час. Учитывая высокие i-отношения, эффекты объясняющих переменных exper и educ статистически высоко значи- мы. Коэффициент R2 оцененной модели равен 0,3656 и это подразу- мевает, что более 36% вариации заработной платы можно (линейно) приписать разнице в поле, опыте работы и уровне образовании. Можно было бы утверждать, что опыт работы влияет на зара- ботную плату работника нелинейно: после многих лет опыта работы эффект дополнительного года на заработную плату работника все более и более уменьшается. Чтобы смоделировать это, мы можем включить в модель квадратный член опыта работы, который, как на- ми ожидается, должен иметь коэффициент с отрицательным знаком. Результаты представлены в таблице 3.6. Дополнительная перемен- ная (experJ имеет коэффициент, который при оценивании, как и ожидалось, получил отрицательный знак. С ^-отношением, равным —5,487, мы можем уверенно отклонить нулевую гипотезу, что квад- ратный член производственного опыта имеет нулевой коэффициент, и можем заключить, что включение (exper) значимо улучшает мо- дель. Заметим, что скорректированный R2 увеличился с 0,3643 до 0,3766. Учитывая в спецификации наличие опыта работы и его квад-
3.5. Пример: объяснение индивидуальной заработной платы 123 рата, мы не можем интерпретировать их коэффициенты в изоляции. Один из способов описать эффект опыта работы состоит в том, чтобы сказать, что ожидаемая разность заработной платы при предельном возрастании опыта работы при прочих равных условиях (дифферен- цируя по опыту работы как в выражении C.4)), задается в виде: 14,44 - 0,18 х 2 х experi, что показывает отличие эффекта опыта работы от его уровня. Снача- ла уровень влияния опыта работы является высоким, равным 14,44 бельгийских франка в час, но уменьшается до 3,87 бельгийских франка для работника с 30-летним опытом работы. Альтернативно мы можем просто сравнить предсказанную заработную плату для работника, например, с 30-летним опытом и работника с 31-летним опытом работы. Тогда оцененная разность заработной платы равна 14,44 - 0,18C12 - 302) = 3,69, что приводит к несколько более низкой оценке. Эта более низкая оценка разности вызвана тем фактом, что значение 14,44 представ- ляет эффект «предельного» приращения опыта работы (он равняет- ся производной), в то время как однолетнее приращение предельным фактически не является. Перед тем как продолжить наш статистический анализ важно проанализировать, насколько в данном примере удовлетворяются предположения относительно регрессионных остатков. Вспомним, что для обоснованности правил вычисления стандартных ошибок и статистических тестов мы должны исключить автокорреляцию и гетероскедастичность. Учитывая, что в данном примере нет никако- го естественного упорядочивания данных, и работники выбирались случайно, проблемы автокорреляции не существует, но возможно су- ществование проблемы гетероскедастичности. Несмотря на то, что мы введем и обсудим некоторые формальные тесты на наличие гетероскедастичности только в главе 4, быстрый способ получить некоторое представление о правдоподобии выполнения предположе- ния гомоскедастичности состоит в визуальном анализе построенного графика зависимости оцененных остатков модели от «подогнанных» значений заработной платы. Если гетероскедастичность отсутствует, то мы можем ожидать, что дисперсия остатков не изменяется при разных уровнях «подогнанных» значений. Для модели с результата- ми из таблицы 3.6 нами представлен такой график на рисунке 3.1.
124 3. Интерпретация и сравнение моделей регрессии 1500 Ч юоо о Ч -500 Ч о0 О Q , , 200 400 подогнанные значения 600 800 Рисунок 3.1. График зависимости оцененных остатков от «подогнанных» значений, линейная модель На рисунке 3.1 отчетливо видно возрастание вариации в остат- ках при возрастании прогнозных значений, и поэтому выполнение предположения гомоскедастичности вызывает серьезное сомнение. Это означает, что обычно вычисляемые стандартные ошибки и со- ответствующие i-критерии неприемлемы. Один из способов устранить или уменьшить гетероскедастич- ность состоит в изменении функциональной формы уравнения и применении в качестве объясняемой переменной логарифма зара- ботной платы, а не натуральной заработной платы. Что может помочь решению этой проблемы, можно увидеть из следующего. Обозначим данную модель как Wi =g(xi)+6i, C.32) где g(xi) — функция от вектора объясняющих переменных х», ко- торая прогнозирует заработную плату Wi (например #;/?), a ei — регрессионный остаток, который имеет нулевое среднее значение (условное по вектору Xi). Такая модель является аддитивной мо- делью в том смысле, что к прогнозному значению добавляется
3.5. Пример: объяснение индивидуальной заработной платы 125 случайный остаток. Также можно рассмотреть мультипликативную модель вида Wi = g(xi) exp {гц}, C.33) где гц является остатком, который имеет нулевое среднее значение (условное по объясняющим переменным вектора Xi). Легко прове- рить, что две модели эквивалентны, если g(xi)[exp {rji} - 1] =6i. Если остаток щ является гомоскедастичным, то ясно, что остаток Si является гетероскедастичным с дисперсией, которая зависит от функции g(xi). Таким образом, если мы находим гетероскедастич- ность в аддитивной модели, то, возможно, что уместна мультипли- кативная модель с гомоскедастичным членом ошибки. Мультипли- кативную модель можно легко записать в виде аддитивной модели с аддитивным остаточным членом, логарифмируя обе части уравне- ния C.33). В результате логарифмирования получим log ъи{ = log g(xi) + гц = f(xi) + гц. C.34) В нашем случае g(xi) = х'ф. Оценивание модели C.34) становит- ся простым, если мы предположим, что функция / такова, что loggf(xi) является линейной функцией от параметров модели. Как правило, она включает логарифмы х-переменных (за исключением фиктивных переменных), таким образом, мы приходим к логлиней- ной модели (сравните с выражением C.6)). 3.5.2. Логлинейные модели В нашей следующей спецификации мы оцениваем логлинейную мо- дель, которая объясняет логарифм почасовой тарифной ставки за- работной платы от пола, логарифма опыта работы, квадрата лога- рифма опыта работы и логарифма уровня образования. (Заметим, если бы мы взяли логарифм от квадрата опыта работы, то он был бы полностью коллинеарен с логарифмом опыта работы.) Это приводит к результатам, представленным в таблице 3.7. Поскольку в этой мо- дели эндогенная переменная отличается, то R2 в действительности не сопоставим с /?2-ми моделей, которые объясняют натуральную почасовую тарифную ставку заработной платы, но случается, что они почти совпадают. Интерпретация оценок коэффициентов моде- ли также отличается от прежней интерпретации. Коэффициент при
126 3. Интерпретация и сравнение моделей регрессии Таблица 3.7, Результаты применения МНК для спецификации 3 Зависимая переменная: log (wage) Переменная константа male log (educ) log (exper) log (exper) Оценка 4,960 0,118 0,442 0,110 0,026 Стандартная ошибка 0,066 0,016 0,018 0,054 0,011 ^-отношение 74,765 7,574 24,306 2,019 2,266 s = 0,286, R2 = 0,3783, Я2 = 0,3766, F = 223,13. переменной male теперь измеряет относительную разность в ожи- даемой заработной плате для мужчин и женщин. В частности при прочих равных условиях разность ожидаемой логарифмической за- работной платы между мужчинами и женщинами равна 0,118. Если женщина, как и ожидается, заработает величину w*, то мужчина при прочих равных условиях, как и ожидается, заработает величину exp {log w* + 0,118} = w* ехр {0,118} = w*l,125, что приблизительно соответствует разности равной 12%. Поскольку ехр {a} ~ 1 + а, если а близко к нулю, то обычно в логарифмических линейных моделях следует делать прямое преобразование оцененных коэффициентов в процентное приращение. Таким образом, коэффи- циент 0,118 для мужчин интерпретируется как ожидаемая прибавка в заработной плате по сравнению с женщинами, приблизительно равная 11,8%. Перед тем как продолжить, опять рассмотрим проблему гетерос- кедастичности. График зависимости оцененных остатков логлиней- ной модели от «подогнанной» логарифмической заработной платы представлен на рисунке 3.2. Несмотря на то, что на этом графике все еще есть некоторые следы гетероскедастичности, она намного менее явная, чем на графике аддитивной модели. Поэтому мы продолжаем работать со спецификациями, которые объясняют логарифмическую заработную плату, а не натуральную заработную плату, и там, где необходимо, будем предполагать, что ошибки являются гомоскеда- стичными. В частности мы предположим, что стандартные ошибки
3.5. Пример: объяснение индивидуальной заработной платы 127 1 П о о -1 -2 ° #8 овор- -1 1 5.5 6 подогнанные значения 6.5 Рисунок 3.2. График зависимости оцененных остатков от «подогнанных» значений, логлинейная модель и обычно вычисленные t- и F-критерии являются приемлемыми. В главе 4 предоставляется некоторое дополнительное обсуждение критериев проверки наличия гетероскедастичности и как с этими критериями нужно обращаться. Коэффициенты модели при логарифме опыта работы и его квадрате интерпретировать несколько затруднительно. Если бы log (exper) был исключен, тогда оцененный коэффициент для log (exper) означал бы просто, что ожидаемое приращение зара- ботной платы равно приблизительно 0,11% при увеличении произ- водственного опыта на 1%. В данном случае мы можем оценить эластичность как 0,110 + 2 х log (exper). Удивительно видеть, что эта эластичность увеличивается с ростом продолжительности опыта работы. Однако это не противоречит на- шим более ранним заключениям, которые предлагали, что эффект влияния опыта работы положителен, но уменьшается с ростом тру- дового стажа. Эффекты log (exper) и log (exper) по отдельности
128 3. Интерпретация и сравнение моделей регрессии значимы на 5%-ом уровне, но незначимы на 1%-ом уровне. (Заме- тим, что при заданном большом числе наблюдений размер в 1% можно считать более приемлемым.) Такой факт не обязательно означает, что производственный опыт не имеет никакого значимого влияния на заработную плату. С этой целью нам следует рассмотреть совместную проверку двух ограничений. Критическую статистику можно вычислить из Д2-ов вышеупомянутой модели и ограниченной модели, в которой исключены объясняющие переменные log (exper) и log (exper). R2 ограниченной модели, равный только 0,1798, так, что F-статистику можно вычислить как / = @,3783-0,1798)/2 A-0,3783)/A472-5) = 234,2. C.35) F-статистика показывает поразительно явное отклонение нулевой гипотезы. Мы могли бы рассмотреть исключение одной из двух объясняющих переменных, которые отражают опыт работы. Если мы исключаем log (exper), то получаем результаты, представленные в таблице 3.8, которые показывают, что такая модель соответствует данным, только несколько хуже. Рассмотрим спецификацию с исключенной переменной log (exper) более подробно. Поскольку эффект образования ограничен линей- ным эффектом в логарифме уровня образования, то при прочих равных условиях разность в ожидаемом логарифме заработной пла- ты между двумя работниками с уровнями образования educl и educ2 соответственно равна 0,437(log (educl) - log (educ2)). Таблица 3.8. Результаты применения МНК для спецификации 4 Зависимая переменная: log (wage) Переменная константа male log (educ) log (exper) Оценка 4,842 0,120 0,437 0,231 Стандартная ошибка 0,041 0,016 0,018 0,011 ^-отношение 117,581 7,715 24,188 21,488 s = 0,287, R2 = 0,3761, R2 = 0,3748, F = 294,96.
3.5. Пример: объяснение индивидуальной заработной платы 129 Таблица 3.9. Результаты применения МНК для спецификации 5 Зависимая переменная: log (wage) Переменная константа male educ = 2 educ — 3 educ = 4 educ = 5 log (exper) Оценка 4,969 0,118 0,144 0,305 0,474 0,639 0,230 Стандартная ошибка 0,045 0,015 0,033 0,033 0,032 0,033 0,011 ^-отношение 110,835 7,610 4,306 9,521 14,366 19,237 21,804 s = 0,282, R2 = 0,3976, В2 = 0,3951, F = 161,14. Так, по сравнению с самым низким уровнем образования равным 1, эффекты 2-5 уровней образования оцениваются как 0,30, 0,48, 0,61 и 0,70 соответственно. К тому же эти четыре эффекта можно оценить с помощью включения четырех фиктивных переменных (манекенов), соответствующих четырем уровням высшего образования. Результа- ты такой модели представлены в таблице 3.9. Заметим, что при пяти уровнях образования включение четырех манекенов достаточно, что- бы уловить все эффекты. Включив в модель пять манекенов, мы попали бы в так называемую ловушку фиктивных переменных, в ситуацию точной мультиколлинеарности. То, какая из пяти фик- тивных переменных исключена, является несущественным, вопрос состоит только в экономической интерпретации коэффициентов для других манекенов. Исключенная категория играет роль категории отсчета (или «базовой категории») и все эффекты для этой груп- пы относительные. В этом примере категория отсчета соответствует уровню образования, равному единице. Посмотрев на результаты в таблице 3.9, мы увидим, что каждая из четырех фиктивных переменных по отдельности высоко значи- ма с коэффициентами, которые немного отклоняются от эффектов, оцененных на основе модели со спецификацией 5. Фактически преды- дущая модель вложена внутрь текущей модели, и налагаются три ограничения. Несмотря на то, что несколько сложно определить ана-
130 3. Интерпретация и сравнение моделей регрессии литические выражения для этих трех ограничений, мы можем легко их протестировать, используя R2 версию для F-критерия. Получаем @,3976-0,3761)/3 f - A - 0,3976)/A472 - 7) ~ 17'358' {3l36) Поскольку 1%-ое критическое значение для F-распределения с 3 и 1465 степенями свободы равно 3,78, то нулевую гипотезу следует отклонить. Таким образом, модель со спецификацией 5 с манекенами уровней образования значимо лучше модели со спецификацией 4 с логарифмом уровня образования. 3.5.3. Гендерные эффекты До сих пор эффект пола предполагался постоянным, независимо от опыта работника или уровня его образования. Поскольку воз- можно, например, что мужчины вознаграждаются по-другому, чем женщины, имеющие более высокое образование, то модель со специ- фикацией 5 может быть ограниченной. Такую разницу в вознаграж- дениях можно учесть с помощью введения взаимодействий каждой из объясняющих переменных с фиктивной переменной пола. Од- ним из способов решения в такой постановке является включение множества исходных регрессоров, а так же множества этих регрессо- ров, умноженных на мужскую фиктивную переменную male. Таким образом коэффициенты для последнего множества переменных из- меряют, насколько отличается эффект для мужчин. Включение взаимодействий для всех пяти переменных приводит к результатам в таблице 3.10. В точности эквивалентное множество результатов было бы получено, если бы мы оценивали модель отдель- но для каждой из двух подвыборок мужчин и женщин. Единственное преимущество оценивания по подвыборкам состоит том, что при вы- числении стандартных ошибок предполагается, что регрессионные остатки гомоскедастичны внутри каждой подвыборки, в то время как для объединенной модели, результаты которой представлены в таблице 3.10, предполагается, что условие гомоскедастичности на- кладывается на полную выборку. Это объясняет, почему оцененные стандартные ошибки будут отличаться. Большая разность соот- ветствует высокой гетероскедастичности. Оценки коэффициентов в точности идентичны. Это следует непосредственно из определения МНК-оценки: минимизация суммы квадратов остатков с различны- ми коэффициентами для двух подвыборок в точности эквивалентно минимизациям для каждой подвыборки в отдельности.
3.5. Пример: объяснение индивидуальной заработной платы 131 Таблица 3.10. Результаты применения МНК для спецификации 6 Зависимая переменная: log (wage) Переменная константа male educ = 2 educ = 3 educ = 4 educ = 5 log (exper) educ = 2 x male educ — 3 x male educ = 4 x male educ = 5 x male log (exper) x male Оценка 4,913 0,154 0,224 0,433 0,602 0,755 0,207 -0,097 -0,167 -0,172 -0,146 0,041 Стандартная ошибка 0,078 0,095 0,068 0,063 0,063 0,065 0,017 0,078 0,073 0,074 0,076 0,021 ^-отношение 63,251 1,615 3,316 6,851 9,585 11,673 12,535 -1,242 -2,272 -2,317 -1,935 1,891 s = 0,281, R2 = 0,4032, В2 = 0,3988, F = 89,69. Результаты в таблице 3.10 не показывают важные значимые различия между мужчинами и женщинами в эффекте опыта рабо- ты. Однако есть некоторые признаки, что эффект образования ниже для мужчин чем для женщин, поскольку две из четырех фиктивных переменных уровней образования, взаимодействующих с манекеном male, значимы на 5%-ом уровне, хотя и не на 1%-ом уровне зна- чимости. Заметим, что коэффициент для манекена male больше не отражает эффект пола, поскольку другие переменные также яв- ляются функциями от пола. Оцененную разность заработной платы между мужчиной и женщиной, например, с 20-ти летним опытом работы и уровнем образования, равным 2, можно вычислить как 0,154 + 0,041 log B0) - 0,097 = 0,180, что слегка больше, чем 18%. Чтобы статистически протестировать совместную нулевую гипотезу, что каждый из пяти коэффициентов
132 3. Интерпретация и сравнение моделей регрессии Таблица 3.11J Результаты применения МНК для спецификации 7 Зависимая переменная: log (wage) Переменная константа male educ = 2 educ = 3 educ = 4 educ = 5 log (exper) log (exper) x educ = 2 log(exper) x educ= 3 log (exper) x educ = 4 log (exper) x educ = 5 Оценка 5,186 0,116 0,067 0,135 0,205 0,341 0,163 0,019 0,050 0,088 0,100 Стандартная ошибка 0,212 0,015 0,226 0,219 0,219 0,218 0,065 0,070 0,068 0,069 0.068 i-отношение 24,460 7,493 0,297 0,618 0,934 1,565 2,494 0,274 0,731 1,277 1,465 s = 0,281, R2 = 0,4012, R2 = 0,3971, F = 97,90. переменных взаимодействующих с манекеном male равен нулю, можно легко вычислить F-критерий из соответствующих значений R2-ob в таблицах 3.10 и 3.9. Это приводит к значению @,4032-0,3976)/5 7 A-0,4032)/A472-12) которое не превышает 1%-ое критическое значение равное 3,01, но от- клоняет нулевую гипотезу на 5%-ом уровне значимости. В качестве общего теста спецификации мы можем выполнить тест установки Рамсея (Ramsey). Включение квадрата прогнозного значения в спе- цификацию в таблице 3.10 приводит к i-статистике равной 3,989, что означает отклонение нулевой гипотезы и на 5%-ом, и на 1%-ом уровне значимости. Заключительная спецификация, которую мы исследуем, вклю- чает члены взаимодействия между опытом работы и образованием, что позволяет эффекту образования различаться по уровням обра-
3.5. Пример: объяснение индивидуальной заработной платы 133 зования, и в то же самое время позволяет эффектам разных уровней образования изменяться с опытом работы. Чтобы сделать это, мы ввели взаимодействия переменной log (exper) с каждой из четырех манекенов образования. Результаты представлены в таблице 3.11. Коэффициент для взаимодействия переменной log (exper) с уровнем образования равным 2 измеряет, насколько эффект опыта работы отличается для уровня образования, равного 2, по сравнению с ка- тегорией отсчета, являющейся уровнем образования, равным 1. Ре- зультаты не показывают никаких важных эффектов взаимодействия между опытом работы и образованием. По отдельности каждый из этих четырех коэффициентов значимо не отличается от нуля, и совместно для всех коэффициентов F-критерий приводит к незна- чимому значению 2,196. Очевидно, что последняя спецификация страдает из-за мульти- коллинеарности. Почти ни один из индивидуальных коэффициентов не значим, в то время как R2 является приемлемо большим. За- метим, что совместный тест равенства нулю всех коэффициентов, кроме свободного члена, приводит к высоко значимому значению, равному 97,90. И, наконец, мы выполнили тест установки Рамсея (с Q = 2) для этой модели и получили ^-значение, равное 2,13, которое незначимо на 1%-ом уровне. Однако модель со специфика- цией 6, результаты которой представлены в таблице 3.10, кажется более подходящей, чем текущая модель. 3.5.4. Некоторые предостерегающие замечания Несмотря на наш относительно аккуратный статистический анализ мы все же должны быть осторожными в экономически обосно- ванной интерпретации получающихся оценок. Например, влияние уровня образования в большой степени будет зависеть от типа ра- боты людей, работающих по найму. То есть, эффект образования, который измеряется коэффициентами моделей, будет, как правило, охватывать и разницу в неучтенных характеристиках типа работы человека. Так что «образовательный эффект» не может в полной мере интерпретироваться как таковой даже для людей, которые имеют одинаковую работу, и вдобавок, — один и тот же опыт рабо- ты и пол. Конечно, это является прямым следствием невключения «типа работы» в модель, без которого не улавливается наше условие ceteris paribus (при прочих равных условиях). Другая проблема состоит в том, что модель оценивается толь- ко для субпопуляции работающих мужчин и женщин. Нет никакой
134 3. Интерпретация и сравнение моделей регрессии причины, почему бы действительно не расширить результаты оце- нивания, чтобы также объяснить заработную плату не работающих, которые только обдумывают вхождение на рынок труда. Вполне возможно, что выбор на трудовом рынке неслучаен и зависит от потенциальной заработной платы, которая привела бы к так назы- ваемому выборочному смещению в МНК-оценках. Чтобы принять это во внимание, можно моделировать заработную плату совместно с решением присоединиться к трудовому рынку, и в главе 7 мы обсудим класс моделей для таких проблем. Мы должны быть осторожны также в интерпретации коэффици- ента для образования как измерения причинного эффекта. То есть, если бы мы увеличили уровень образования любого человека в вы- борке, то ожидаемый эффект на его или ее заработную плату, может не соответствовать оцененному коэффициенту. Причина состоит в том, что образование, как правило, коррелировано с ненаблю- даемыми характеристиками (интеллектом, способностью), которые также определяют заработную плату человека. В этом смысле эф- фект образования, который оценивается с помощью МНК, частично обусловлен разницей в ненаблюдаемых характеристиках людей, до- стигших разных уровней образования. В главе 5 мы вернемся к этой проблеме. Упражнения Упражнение 3.1 (вопросы спецификации) а. Объясните, что означает «разработка данных» ("Data Mining") *'. б. Объясните, почему не следует исключать из модели две пере- менные одновременно только на основании их i-отношений. в. Объясните полезность критериев Д2,АИКиБИК при сравнении двух вложенных моделей. г. Рассмотрите две невложенные модели регрессии, объясняющие одну и ту же переменную г/i. Как вы можете протестировать одну модель против другой? Следовало бы добавить: «в применении к задаче отбора существенных объ- ясняющих переменных модели». Иначе, вопрос «неподъемный» для студента (примеч. научн. ред. перевода).
Упражнения 135 д. Объясните, почему тестирование функциональной формы (как, например, тест установки Рамсея) может указать на проблему не включенных переменных. Упражнение 3.2 (регрессия — эмпирическая) В совокупности данных CLOTHING содержится информация об объеме продаж, размере и других характеристиках 400 голландских магазинов мужской моды. Цель состоит в том, чтобы объяснить объемы продаж на квадратный метр площади торговых помещений (переменная sales) от характеристик магазина (числа владельцев, числа работников, занятых полный и не полный рабочий день, времени работы магазина в часах, размер магазина, и т. д.). а. Оцените линейную модель (модель А), которая объясняет пере- менную sales суммарным временем работы в часах (hoursw), размером магазина в квадратных метрах (ssize) и константой. Интерпретируйте результаты. б. Выполните тест установки Рамсея с Q = 2. в. Протестируйте, влияет ли число владельцев (nown) на объемы продаж магазина при условии заданных объясняющих перемен- ных hoursw и ssize. г. Также протестируйте, улучшает ли модель включение числа работников, занятых неполный рабочий день (npart). д. Оцените линейную модель (модель Б), которая объясняет пере- менную sales числом владельцев, числом работников, занятых полный рабочий день (nfull), неполный рабочий день, и разме- ра магазина. Интерпретируйте результаты. е. Сравните модель А и модель Б на основе критериев Д2, АИК и БИК. ж. Выполните невложенное F-тестирование модели А против моде- ли Б. Выполните невложенное F-тестирование модели Б против модели А. Каково Ваше заключение? з. Повторите вышеупомянутое тестирование, используя J-критерий. Изменился ли ваш вывод? и. Включите в модель А число работников, занятых полный и неполный рабочий день, чтобы получить модель В. Оцените эту модель. Интерпретируйте результаты и выполните тест установ- ки. Действительно ли Вы удовлетворены этой спецификацией?
136 3. Интерпретация и сравнение моделей регрессии Упражнение 3.3 (регрессия — эмпирическая) Совокупность данных HOUSING содержит данные моделей, оценен- ных в разделе 3.4. а. Создайте четыре фиктивных переменных (манекена), касающи- еся числа спален, соответствующего 2 или меньше, 3, 4 и 5 или больше. Оцените модель для логарифма цены, которая включа- ет логарифм размера земельного участка, число ванных комнат, манекен кондиционирования воздуха и три из четырех упомя- нутых выше манекена. Интерпретируйте результаты. б. Почему существует модель пункта а, не вложенная в специфи- кацию, которая приведена в таблице 3.1? в. Выполните два невложенных F-тестирования этих двух специ- фикаций друг против друга. Каково Ваше заключение? г. Включите все четыре манекена в модель и повторно оценить ее. Что получилось? Почему? д. Предположим, что размер земельного участка измерялся бы в квадратных метрах, а не квадратных футах. Как бы это повли- яло на результаты оценивания, представленные в таблице 3.2? Обратите внимание на оценки коэффициентов, стандартные ошибки и R2. Как это повлияло на результаты в таблице 3.3? Заметим, что 1 м2 = 10,76 фт .
4 Гетероскедастичность и автокорреляция Во многих эмпирических случаях не все условия Гаусса—Маркова (А1)-(А4) из главы 2 будут удовлетворяться. Как мы видели в п. 2.6.1, это не обязательно фатально для МНК-оценки в том смыс- ле, что она остается состоятельной при довольно слабых условиях. В этой главе мы обсудим последствия гетероскедастичности и ав- токорреляции, которые подразумевают, что регрессионные остатки модели больше не являются независимыми и одинаково распреде- ленными. В таких случаях МНК-оценка коэффициентов регрессии может быть все еще несмещенной или состоятельной, но ее ковариа- ционная матрица отличается от ковариационной матрицы, выведен- ной в главе 2. Кроме того, МНК-оценка может быть относительно неэффективной и больше не обладать свойством НЛНО. В параграфе 4.1 мы обсудим, как повлияет на свойства МНК- оценки отказ от требования независимости и гетероскедастичности регрессионных остатков, в параграфе 4.2 представим в общей мат- ричной системе обозначений альтернативную оценку, которая явля- ется наилучшей линейной несмещенной оценкой в этом более общем случае. Гетероскедастичность остатков рассматривается в парагра- фах 4.3-4.5, тогда как остальные параграфы этой главы посвящены случаю автокоррелированных остатков. Примеры гетероскедастич- ности и ее последствия обсуждаются в параграфе 4.3, в то время как в параграфе 4.4 описывается ряд альтернативных тестов вы-
138 4. Гетероскедастичность и автокорреляция явления гетерогенности. В параграфе 4.5 приводится эмпирическая иллюстрация случая гетероскедастичных остатков. В параграфах 4.6 и 4.7 рассматриваются основы автокорреля- ции остатков, в то время как в параграфе 4.8 приводится довольно простая иллюстрация. В параграфах 4.9 и 4.10 внимание уделяется некоторым дополнительным вопросам, касающимся автокорреля- ции, включающем обсуждение остатков в виде модели скользящего среднего и так называемых стандартных ошибок в форме Невье— Веста. И, наконец, параграф 4.11 содержит обширную иллюстрацию в виде примера паритета непокрытых процентных ставок, где воз- никает автокорреляция остатков из-за так называемой проблемы перекрывающихся выборок. 4.1. Последствия для свойств МНК-оценки Интересующая нас модель неизменна и имеет вид yi = x'iP + ei. D.1) Модель можно записать как у = ХC + е. D.2) По-существу предположения Гаусса—Маркова (А1)-(А4) можно ре- зюмировать в виде Е{е\Х) = Е{е} = 0, D.3) V{e\X} = V{e} = a2L D.4) Эти предположения говорят, что условное распределение остатков при заданной матрице значений объясняющих переменных име- ет нулевые средние, постоянные дисперсии и нулевые ковариации. В частности, это означает, что каждый остаток имеет одну и ту же дисперсию, и что два разных остатка являются некоррелиро- ванными. Эти предположения подразумевают, что E{ei\xi} = 0, так что модель соответствует условному математическому ожиданию переменной yi при заданном векторе объясняющих переменных Х{. Кроме того, было показано, что МНК-оценка является наилучшей линейной несмещенной оценкой (НЛНО) для вектора параметров /3. Гетероскедастичность и автокорреляция остатков подразумева- ют, что условие D.4) больше не справедливо. Гетероскедастичность
4.1. Последствия для свойств МНК-оценки 139 возникает, если разные регрессионные остатки не имеют одинако- вых дисперсий, так что диагональные элементы ковариационной матрицы различны. Например, возможно, что различные группы в выборке имеют разные дисперсии. Можно ожидать, что вариация необъясненных сбережений семей возрастает с доходом, так же как и уровень сбережений. Автокорреляция почти исключительно воз- никает в случаях, в которых данные имеют временное измерение. Это подразумевает, что ковариационная матрица является недиа- гональной, так что различные остатки коррелированны. Возможно, что причина состоит в инерции необъясненной части модели. Обе эти проблемы более подробно будут обсуждаться ниже, но в насто- ящий момент важно отметить, что они обе нарушают условие D.4). Предположим, что ковариационную матрицу остатков в общем виде можно записать как V{e\X} = а2Ф, D.5) где Ф — положительно определенная матрица, которую мы будем некоторое время предполагать известной. Из вышесказанного ясно, что она может зависеть от X. Если бы мы пересматривали доказательство несмещенности МНК-оценки, то непосредственно было бы ясно, что используется только предположение D.3). Поскольку это предположение налага- ется по-прежнему, то, предположение D.5) вместо предположения D.4) не будет изменять результат, что МНК-оценка Ъ является несме- щенной для вектора параметров /3. Однако простое выражение для ковариационной матрицы Ъ больше не справедливо. В общем случае мы получаем (для данной матрицы X) выражение V{b\X} = V^X'X^X'elX} = (X,X)-1XfV{s\X}X(XfX)-1 = - а2{Х'Х)-1Х'ЪХ(Х'Х)-1, D.6) которое сводится к более простому выражению а2(Х/Х)-1, если только Ф является единичной матрицей. Следовательно, несмотря на то, что МНК-оценка все еще несмещенная, ее обычно вычисля- емая ковариационная матрица и стандартные ошибки будут осно- ваны на неправильном выражении. Таким образом, стандартные t- и F-критерии больше не будут справедливы, и выводы будут вво- дить в заблуждение. Кроме того, доказательство результата Гаусса- Маркова, что МНК-оценка является НЛНО, также нарушается, так что МНК-оценка является несмещенной, но больше не наилучшей линейно несмещенной функцией оценивания.
140 4. Гетероскедастичность и автокорреляция Эти последствия указывают на два способа решения проблем гетероскедастичности и автокорреляции. Первый способ состоит в выводе альтернативной оценки, которая является наилучшей линей- ной несмещенной оценкой. Второй способ заключается в сохранении МНК-оценки, но с какой-то коррекцией стандартных ошибок, чтобы учесть гетероскедастичность и/или автокорреляцию. Фактически, существует также третий способ решения этой проблемы. Во многих случаях причина гетероскедастичности и (особенно) автокоррели- рованности остатков заключается в том, что оцениваемая модель в том или другом смысле, возможно, специфицирована неправильно. Если дело обстоит так, то обнаружение гетероскедастичности или автокоррелированности остатков должно приводить к пересмотру модели с точки зрения правильности ее спецификации. Такие при- меры будут обсуждаться ниже. В педагогических целях сначала в параграфе 4.2 мы рассмотрим вывод альтернативной оценки. Однако следует подчеркнуть, что во многих случаях этот способ не самый естественный для выполнения. 4.2. Вывод альтернативной оценки В этом разделе мы получим наилучшую линейную несмещенную оценку для вектора неизвестных параметров /3 в условиях, опреде- ленных соотношением D.5), предполагая, что Ф полностью известна. Идея, на которой основан вывод, состоит в том, что мы знаем наилуч- шую линейную несмещенную оценку при предположениях Гаусса- Маркова (А1)-(А4), так что мы сначала преобразуем модель таким образом, чтобы она снова удовлетворяла условиям Гаусса—Маркова (то есть так, чтобы остатки нашей новой модели были бы гомоскеда- стичными и взаимно некоррелированными). Мы начинаем с записи ф-i = pip D.7) для некоторой квадратной, невырожденной матрицы Р, не обяза- тельно определяемой однозначно. В настоящий момент не важно, как найти такую матрицу Р. Достаточно заметить, что поскольку матри- ца Ф положительно определенная, то всегда существует матрица Р, которая удовлетворяет соотношению D.7). Используя соотношение D.7) можно написать ф-i = (р/Р)-1 = р-1(р/)-1? РФР' = РР~1{Р,)-1Р' = I.
4.2. Вывод альтернативной оценки 141 Следовательно, для вектора регрессионных остатков е, умноженно- го слева на матрицу преобразования Р, справедливо, что Е{Ре\Х} = РЕ{е\Х} = О, V{Pe\X} = PV{e\X}P' = а2РФР' = о1!. Другими словами Ре удовлетворяет условиям Гаусса—Маркова. Сле- довательно, мы можем преобразовать всю модель с помощью этой матрицы Р, чтобы получить Ру = РХР + Ре или у* = X*/? + £*, D.8) где вектор остатков £* удовлетворяет условиям Гаусса—Маркова. Мы знаем, что применение обычного метода наименьших квадратов к этой преобразованной модели приводит к наилучшей линейной несмещенной оценке для вектора параметров /3 К Следовательно, эта оценка автоматически является наилучшей линейной несмещен- ной оценкой для вектора параметров /3 в исходной модели с предпо- ложениями D.3) и D.5). Получающаяся оценка имеет вид 0 = (Х*,Х*)-1Х*,у* = (Х'Ф^Х^Х'Ф-У D.9) Эта оценка называется оценкой обобщенного метода наимень- ших квадратов или ОМНК-оценкой. Легко заметить, что она совпадает с МНК-оценкой, если Ф = /. Кроме того, для этой оценки выбор матрицы Р является несущественным; имеет зна- чение только матрица Ф-1. Ниже мы увидим несколько конкрет- ных примеров ОМНК-оценок, которые легче интерпретировать, чем общую формулу D.9). Следует иметь в виду, что все ОМНК- оценки, которые мы рассмотрим ниже, являются частными случаями выражения D.9). Ясно, что мы можем вычислить ОМНК-оценку, только если матрица Ф известна. На практике обычно матрица Ф неизвестна и сначала ее следует оценить. Применение оцененной версии для Ф в выражении D.9) в результате приводит к оценке реализуемо- го обобщенного метода наименьших квадратов для вектора неизвестных параметров /3 или, обычно в сокращении, к РОМНК- Можно найти альтернативные матрицы преобразования Р, такие, что вектор Ре не покажет автокорреляцию или гетероскедастичность. Требование невы- рожденности матрицы Р гарантирует, что в результате преобразования не будет потеряно никакой информации.
142 4. Гетероскедастичность и автокорреляция оценке*^. Это приводит к некоторым дополнительным проблемам, которые мы рассмотрим ниже. Факт, что ОМНК-оценку можно получить как МНК-оценку для некоторой преобразованной модели, имеет не только теоретический интерес. Напротив, довольно обычно преобразовать сами наблюда- емые переменные и применять стандартные подпрограммы МНК. Преимущество получения ОМНК-оценок таким способом состоит также в том, что мы не должны получать новую ковариационную 2 матрицу или новую оценку для a : мы просто можем использовать все стандартные результаты МНК после замены исходных перемен- ных их преобразованными аналогами. Например, ковариационная матрица для вектора C (при данной матрице X) имеет вид V0} = ^(Х+'Х*)-1 = а2{Х'Ч!-1Х)-\ D.10) где а2 можно оценить делением остаточной суммы квадратов на число наблюдений минус число регрессоров, то есть, = дгЬ^ - зд'ф-Чу - ад. D.П) Тот факт, что /3 является НЛНО, подразумевает, что /3 имеет меньшую ковариационную матрицу, чем МНК-оценка Ъ. Действи- тельно, можно показать, что ковариационная матрица D.6) МНК- оценки больше ковариационной матрицы D.10) ОМНК-оценки в том смысле, что разность матриц является положительно полуопреде- ленной матрицей. 4.3. Гетероскедастичность 4.3.1. Введение Ситуация, когда условная дисперсия V{e|X} является диагональ- ной, но не равной a , умноженной на единичную матрицу, назы- В оригинале предлагается также использовать термин «оцененный обоб- щенный метод наименьших квадратов», ("estimated generalized least squares estimator"), т. е. ООМНК-оценки. В русскоязычной литературе для обозна- чения этого метода иногда используется определение «доступный», т. е. «до- ступный обобщенный метод наименьших квадратов» (примеч. научн. ред. перевода).
4.3. Гетероскедастичность 143 вается гетероскедастичностью. Это означает, что регрессионные остатки являются взаимно некоррелированными, тогда как диспер- сия остатков Si может меняться от наблюдения к наблюдению. С этой проблемой часто сталкиваются в пространственных моделях. Например, рассмотрим случай, в котором i/i обозначает расходы на питание, а Х{ состоит из константы и располагаемого дохода DPIi. Ожидается, что кривая Энгеля для питания должна быть восхо- дящей (с убывающим наклоном). Таким образом, в среднем более высокий доход соответствует более высоким расходам на питание. Кроме того, можно ожидать, что вариация расходов на питание среди семей с высоким доходом является несколько больше, чем вариация среди семей с низким доходом. Если дело обстоит так, то дисперсия Si увеличивается с доходом. Этот вид гетероскедастично- сти можно смоделировать как V{ei\DPIi} = a2 = о2 exp {a2DPIi} = ехр {аг + a2DPIi} D.12) для некоторого а2 и а\ — log a2. В настоящий момент мы не будем делать дополнительные предположения о виде гетероскедастично- сти. Мы просто предположим, что V{ei\X} = V{ei\xi} = a2hl D.13) где все /г|-ые известны. Объединив это условие с предполагае- мым отсутствием автокорреляции, мы можем сформулировать но- вое предположение в виде V{e\X} = a2Diag{h2} = <т2Ф, (А9) где Diag{h2} — диагональная матрица с элементами /il5... , hN. Предположение (А9) заменяет предположения (A3) и (А4) из гла- вы 2. Ясно, если дисперсии наших членов ошибок зависят от объяс- няющих переменных, мы больше не можем предполагать независи- мость, как в предположении (А2). Поэтому, мы заменяем предполо- жения (А1) и (А2) на более слабое предположение Е{е\Х} = 0. (А10) Заметим, что предположение (А10) все еще существенно более стро- гое, чем предположение (А7), которое говорит, что Е{в{Х{} — 0. Мы интересуемся наилучшей линейной несмещенной оценкой для вектора параметров C в модели Уг = х'{0 + еи i = l,...,JV D.14)
144 4. Гетероскедастичность и автокорреляция при предположениях (А9) и (А10). С этой целью мы можем ис- пользовать общие матричные выражения из вышеизложенного. Из структуры матрицы Ф легко видеть, что соответствующая матрица преобразования Р имеет вид P = Diag{h~1}, D.15) которая является диагональной матрицей с элементами h^1,... , h^1. Таким образом, типичными элементами в преобразованном векторе данных Ру являются элементы у* = yi/hi (и аналогично для эле- мжтоъ ъжга^оъ х<у \i £<vV Тогда, ОМНК-сш£дж& даа^ет^то^х^^амат- ров C получается применением МНК к следующей преобразованной модели у*=х*'C + е* D.16) ИЛИ ию,/?+|- DЛ7) Легко заметить, что преобразованный член ошибки гомоскедасти- чен. Полученная в результате МНК-оценка имеет вид , N ч -1 N р = (Еhi2xix'i) Ек2™- DЛ8) (Отметим, что она является частным случаем оценки D.9).) Эта ОМНК-оценка иногда называется оценкой взвешенного метода наименьших квадратов, потому что она получена с помощью ме- тода наименьших квадратов, в котором каждое наблюдение взвешено (с помощью множителя, пропорционального обратной величине дис- персии остатка). Ее можно получить непосредственно с помощью минимизации остаточной суммы квадратов B.4) после деления каж- дого элемента в сумме на элемент hf. Согласно предположениям (А9) и (А10) ОМНК-оценка является наилучшей линейной несме- щенной оценкой для вектора параметров /3. Использование весов подразумевает, что наблюдения с более высокой дисперсией полу- чают меньший вес в оценивании. Говоря нестрого, самые большие веса приписываются наблюдениям высшего качества, а наимень- шие веса — наблюдениям низшего качества. Важно отметить, что в преобразованной модели преобразуются все переменные, включая свободный член. Это подразумевает, что новая модель не содержит свободного члена. Следует также подчеркнуть, что преобразованная регрессия используется только для упрощения способа вычисле-
4.3. Гетероскедастичность 145 ния ОМНК-оценки и не обязана иметь собственную интерпретацию. Таким образом, оценки параметров должны интерпретироваться в контексте исходной, не преобразованной модели. 4.3.2. Свойства оценок и проверка гипотез Поскольку ОМНК-оценка является просто МНК-оценкой в пре- образованной модели, которая удовлетворяет свойствам Гаусса- Маркова, то мы можем непосредственно определить свойства /3 из стандартных свойств МНК-оценки после замены всех переменных их преобразованными аналогами. Например, ковариационная мат- рица /3 задается в виде где неизвестную дисперсию ошибки а2 можно оценить несмещенно как Э2 = ^^ЕК2(Уг-х0J. D.20) Если в дополнение к предположениям (А9) и (А10) мы предполага- ем нормальное распределение остатков как в предположении (А5), то отсюда также следует, что f3 имеет нормальное распределение с нулевым средним и дисперсией D.19). Это можно использовать, чтобы получить критерии для линейных ограничений на коэффици- енты вектора /3. Например, чтобы проверить гипотезу Но : fa — 1 против альтернативной гипотезы Н\ : fa ф 1, мы можем использо- вать i-статистику, заданную как f2 = jp^_ D 21) Поскольку мы предполагали, что все hf-ые известны, то оценива- ние дисперсии ошибки посредством а2 имеет обычное следствие в виде замены стандартного нормального распределения на tjsr-к распределение. Если нормальность ошибок не предполагается, то нормальное распределение справедливо только асимптотически. Ну- левую гипотезу следует отклонить на 5%-ом уровне значимости, если |*21 больше критического значения стандартного нормального распределения, которое равно 1,96.
146 4. Гетероскедастичность и автокорреляция Как и прежде для тестирования множества из J линейных огра- ничений на коэффициенты вектора /3, представленных в итоге в виде нулевой гипотезы Но : R/3 = q, где матрица R имеет размерность J х К, можно использовать F-критерий. Например, мы могли бы протестировать совместно два ограничения /?2 + /Зз + Д* — 1 и Рь = 1 (J = 2). Альтернативной гипотезой является гипотеза Hi : i?/3 7^ 9 (которая означает, что знак равенства не справедлив, по край- ней мере, для одного элемента). Тестовая статистика основана на ОМНК-оценке /3 и требует (оцененную) дисперсию для вектора i?/3, которая задается, как V{Rj3} — RV{C}R'. Критическая статистика имеет вид £ - (R0- q)'{RV{P}R')-\Rd- <?)• D-22) При нулевой гипотезе Но эта статистика имеет асимптотическое X2-распределение с J степенями свободы. Этот тест обычно называ- ется тестом Вальда (сравните с главами 2 и 3). Поскольку оценка ковариационной матрицы V^{/3} получается из выражения для V{/3} с заменой а2 ее оценкой Э2, то мы также можем построить версию этого критерия, который имеет точное F-распределение (при усло- вии нормальности остатков) как в стандартном случае (см. п. 2.5.6). Критическая статистика задается в виде / = £/J и при нулевой гипотезе имеет F-распределение с J и N — К степенями свободы. 4.3.3. Случай неизвестных дисперсий Очевидно, трудно представить какой-либо экономический пример, в котором дисперсии остатков были бы известны с точностью до коэффициента пропорциональности. Возможно, единственно важ- ный случай возникает, когда гетероскедастичность связана только с одной наблюдаемой переменной, например V{ei|xi} = a2x?2, D.23) где Xi2 — наблюдаемая экзогенная переменная (удовлетворяющая %i2 > 0). В этом случае hi = Х{2 и преобразованная регрессия зада- ется в виде 1±=(*-Xl3+*-, D.24) Х{2 \Xi2j Xi2 в то время как дисперсия нового остатка равна V Xi2 a, 2 Xi} = -%- = v2. D.25) Xi2
4.3. Гетероскедастичность 147 Если /г|-ые неизвестны, то больше невозможно вычислить ОМНК- оценку. В этом случае C представляет только теоретический интерес. По- видимому, очевидное решение состоит в замене неизвестных Л|-х их несмещенными или состоятельными оценками в надежде, что это не повлияет на свойства (псевдо) ОМНК-оценки. Однако это не так просто как кажется. Главная проблема состоит в том, что существует N неизвестных hf-x и только N наблюдений для их оценивания. В частности для любого наблюдения г есть только один оцененный остаток ei, чтобы оценить дисперсию в{. Как следствие мы не можем ожидать, что найдем состоятельные оценки для /г|-х, если только не сделаны дополнительные предположения. Эти предположения ка- саются формы гетероскедастичности, и обычно специфицируют N неизвестных дисперсий как функцию от наблюдаемых (экзогенных) переменных и небольшого числа неизвестных параметров. Часто дисперсия члена ошибки может быть связана с более чем только одной экзогенной переменной. Кроме того, возможно, что соотношение между af и х\к может не быть пропорциональным. По- этому часто используются более общие разновидности соотношений, чем соотношение D.23). Например, V{£i} = a2x?k D.26) ИЛИ V{ei} = <r2(x%+x?), ' D-27) где \Xifc, Хц) — две наблюдаемые экзогенные переменные. Специфи- кации D.26) и D.27) содержат дополнительные неизвестные парамет- ры, которые следует сначала оценить, чтобы применить процедуру ОМНК с оцененными значениями /г|. Предположим в настоящий момент, что мы имеем состоятельные оценки для параметров а\ и OL2. Тогда можно вычислить \х\, которая является состоятельной оценкой для hf, а затем вычислить оценку N , -1 N A\ ч —1 iV г=1 ^ г=1 Эта функция оценивания является реализуемой (или оценен- ной) оценкой обобщенного метода наименьших квадратов (РОМНК-оценкой), поскольку она основана на оцененных зна- чениях hi. Если неизвестные параметры hi оценены состоятельно, то справедливо (при некоторых слабых условиях регулярности), что
148 4. Гетероскедастичность и автокорреляция РОМНК-оценка /3* и ОМНК-оценка /3 асимптотически эквивалент- ны. Это просто означает, что асимптотически мы можем игнориро- вать тот факт, что неизвестные веса заменяются состоятельными оценками. К сожалению, РОМНК-оценка не обладает свойствами ОМНК-оценок при малых выборках, поэтому мы не можем сказать, что /3* является НЛНО. Фактически, обычно /3* будет нелинейной функцией оценивания, поскольку \\\ является нелинейной функци- ей от yi-x. Таким образом, хотя и можно ожидать, что в разумно больших выборках поведение РОМНК- и ОМНК-оценок довольно похожи, нет никакой гарантии, что РОМНК-оценка имеет преиму- щества перед обычной МНК-оценкой при малых выборках (хотя обычно это так). Мы можем заключить, что при предположениях (А9) и (А10) вместе с предположением о виде гетероскедастичности реализуемая ОМНК-оценка является состоятельной для вектора параметров /3 и асимптотически наилучшей (асимптотически эффективной). Ее ковариационную матрицу можно оценить в виде V{n = o*nThr*XiA , D.29) где Э2 — стандартная оценка для дисперсии остатка преобразован- ной регрессии (получена на основе несмещенной оценки D.20), но с заменой /3 на /?*). В оставшейся части нашего обсуждения гетероскедастичности мы обратим внимание на три проблемы. Во-первых, мы увидим, что можно применить обычный метод наименьших квадратов и скоррек- тировать его стандартные ошибки с учетом гетероскедастичности, не делая никаких предположений о виде гетероскедастичности. Во вторых, мы увидим, как можно воспользоваться предположениями о виде гетероскедастичности, чтобы состоятельно оценить неиз- вестные параметры h* и определить РОМНК-оценку. В-третьих, в параграфе 4.4, мы обсудим ряд альтернативных тестов для проверки на гетероскедастичность. 4.3.4. Состоятельные оценки стандартных ошибок МНК-оценок при наличии гетероскедастичности Снова рассмотрим модель с гетероскедастичными ошибками yi = x'i0 + ei, D.30)
4.3. Гетероскедастичность 149 с E{ei\X} — 0 и V{^|X} — g\. В матричной системе обозначений эту модель можно написать как с V{e\X} = сг2Ф = Diag{af}. Если мы применяем обычный метод наименьших квадратов к этой модели, то из приведенных выше об- щих результатов известно, что МНК-оценка вектора параметров j3 является несмещенной и состоятельной. Соответствующая ковариа- ционная матрица имеет вид V{b\X} = (X/X)-1X/Dm5{az2}X(X/X)-1. D.31) На первый взгляд кажется, что для оценивания этой ковариационной матрицы мы также должны оценить все af-ые, что без дополнитель- ных предположений невозможно. Однако в важной статье Уайта (White, 1980) доказано, что требуется только состоятельная оценка К х К матрицы 1 1 N Е = -X'Diag{**}X = - £ о\х&\. D.32) г=1 При очень общих условиях можно показать, что 1 N г=1 где ei — МНК-оцененный остаток, является состоятельной ' оценкой для матрицы Е. Поэтому N V{b} = (Х'ХГ1 J2 е^хГ(Х'Х)-1 = 1=1 , N ч-lAT , N ч-1 = Е x^< Е &*< Е **< D-34) М=1 ' г=1 ^г=1 ' можно использовать в качестве оценки истинной ковариационной матрицы МНК-оценки Ь. Этот результат показывает, что мы все же можем делать соответствующие выводы, основанные на 6, без факти- ческого определения вида гетероскедастичности. Все, что нам следу- ет сделать, чтобы вычислить ковариационную матрицу МНК-оценки Точнее, предел по вероятности матрицы S — £ равняется нулевой матрице.
150 4. Гетероскедастичность и автокорреляция 6, состоит в замене стандартной формулы на формулу D.34), вычис- ление которой является простой опцией в большинстве современных пакетов программ. Стандартные ошибки, вычисленные в виде квад- ратного корня из диагональных элементов в формуле D.34), обыч- но называются состоятельными стандартными ошибками при наличии гетероскедастичности или просто стандартными ошиб- ками Уайта 3). Общепринято сообщать их внутри квадратных скобок. 4.3.5. Модель с двумя неизвестными дисперсиями В этом разделе мы рассмотрим простой случай, когда выборка со- стоит из двух отдельных групп, которые могут иметь различные дисперсии остатков. В качестве примеров можно привести выборки развитых и развивающихся стран, домашних хозяйств с одним чело- веком и со многими лицами, работающих мужчин и женщин и т. д. Линейное уравнение заработной платы для выборки работающих мужчин и женщин можно специфицировать в виде где Е{в{\хг} = 0, У^£г|^г} = <j\, если г принадлежит к группе А (мужчин), и У{£гкг} = &%, если г принадлежит к группе Б (жен- щин). Если бы мы знали дисперсии g\ и g\ 4\ то ОМНК-оценивание было бы выполнимо напрямую. Если дисперсии сг2А и о\ неизвест- ны, то их можно оценить очень просто. Непосредственно разбить выборку на две группы (мужчин и женщин) и построить отдельные регрессии. Используя оцененные остатки из этих регрессий, дис- персию остатков можно оценить обычным способом, поскольку в пределах каждой подвыборки остаток является гомоскедастичным. Предположим, что имеется N а наблюдений из первой группы и Nb наблюдений из второй группы. МНК-оценка для вектора параметров /3, основанная на группе наблюдений А, имеет вид Эта оценка ковариационной матрицы также приписывается Эйкеру (Eicker, 1967), так что некоторые авторы называют соответствующие стандартные ошибки — стандартными ошибками Эйкера—Уайта. Чтобы вычислить ОМНК-оценку, фактически достаточно знать лишь отноше- 2 / 2 ние Яд/& в-
4.3. Гетероскедастичность 151 где суммирование проводится по всем наблюдениям из группы А. Точно так же мы получаем Ьв- Дисперсия ошибки оценивается стандартным способом, то есть А ieA и аналогично для s2B. Величины s2A и sB являются несмещенными и состоятельными оценками, соответственно, для дисперсий а\ и a2B. Тогда РОМНК-оценка для вектора параметров C имеет вид Д* = ( Yl S~AXix'i + Yl S~BXiX'i ) I Yl S~AXiVi + 5^ S~2Xiyi \eA ieB ' ЧеА %ев D.36) Легко заметить, что выражение D.36) является частным случаем вы- ражения D.28). Кроме того, можно показать, что выражение D.36) является матрично-взвешенным средним этих двух МНК-оценок Ъа и Ьв- В частности /?* = \¥Ьл + (I — \У)Ьв, где / является единич- ной матрицей порядка К, а W = fe *~АХЛ + J2 S~B2xiX'i) J2 S~AXiX'i' I4'37) чел ieB ' ieA Матрицы весов W и I — W связаны обратно пропорционально с (оцененными) дисперсионными матрицами соответствующих оце- нок. Таким образом, более точная оценка получает более высокий вес, чем менее точная (с более высокой дисперсией) оценка. 4.3.6. Мультипликативная гетероскедастичность Общей формой используемой на практике гетероскедастичности яв- ляется мультипликативная гетероскедастичность. Предпола- гается, что дисперсия остатка связана со множеством экзогенных переменных, собранных в J-мерный вектор Z{ (не включая констан- ту). Чтобы гарантировать положительность дисперсии ошибки для всех значений параметра, используется экспоненциальная функция. В частности предполагается, что V{£i|#i} = °л = ^2 exP iaizn + • • • + ocjZij} = a2 exp {z-a}, D.38) где Zi является вектором наблюдаемых переменных, который яв- ляется функцией от элементов вектора Х{ (обычно подмножества
152 4. Гетероскедастичность и автокорреляция переменных вектора Х{ или их преобразования). В этой модели дисперсия регрессионного остатка связана с одной или более экзо- генными переменными, как в примере кривой Энгеля, приведенном выше. Заметим, что в частном случае, когда J = 1 и zn — фиктив- ная переменная (например, фиктивная пременная для мужчин), мы получаем модель с двумя неизвестными дисперсиями. Чтобы иметь возможность вычислить РОМНК-оценку, нам необходимы состоятельные оценки для неизвестных параметров в h2 = ехр{^а}, то есть для вектора неизвестных параметров а. Такие функции оценивания могут основываться на МНК-оцененных остатках. Чтобы видеть каким образом, сначала заметим, что log a2 — log a2 + z[a. Можно ожидать, что МНК-оцененные остатки е^ = Уг — х[Ъ имеют что-то, что говорит о о2. Действительно, можно показать, что log е2 = log a2 + z[a + щ, D.39) где щ = log (e2/a2) является остатком, который (асимптотически) гомоскедастичен и некоррелирован с вектором экзогенных перемен- ных Z{. Одна из проблем состоит в том, что этот остаток не имеет нулевого математического ожидания (даже асимптотически). Одна- ко это повлияет только на оценивание константы log a2, которая нас не интересует. Следовательно, РОМНК-оценку для вектора пара- метров /3 можно получить по шагам следующим образом. 1. Оценить модель с помощью обычного МНК. В результате полу- чаем МНК-оценку Ь. 2. Вычислить log е2 = log {yi — х[ЪJ из МНК-оцененных остатков. 3. Оценить уравнение D.39) методом наименьших квадратов, то есть регрессию log e2 по вектору переменных Z{ и константе. В результате получаем состоятельную оценку а вектора пара- метров а. 4. Вычислить h2 = exp {z^a} и провести преобразование всех на- блюдений, чтобы прийти к преобразованному уравнению ре- грессии hi \hi/ hi Оценить полученное преобразованное уравнение регрессии обыч- ным методом наименьших квадратов. Не забудьте провести пре- образование константы. В результате получаем РОМНК-оценку /5* вектора параметров /?.
4.4. Тестирование на гетероскедастичность 153 5. Скаляр а2 можно оценить состоятельно по формуле ° N -К ^ h2 г=1 fii 6. И, наконец, состоятельная оценка ковариационной матрицы век- тора /?* вычисляется по формуле Она соответствует ковариационной матрице МНК-оценке для преобразованной регрессии, которая автоматически вычисляет- ся в пакетах программ по регрессии. 4.4. Тестирование на гетероскедастичность Для ответа на вопрос, вводят ли в заблуждение результаты приме- нения МНК к данной модели из-за неприемлемых стандартных оши- бок, обусловленных гетероскедастичностью, существует ряд альтер- нативных тестов. Если в результате тестирования нулевая гипотеза о гомоскедастичности остатков не отклоняется, то незачем сомне- ваться в результатах, полученных с помощью метода наименьших квадратов. Если же в результате тестирования нулевая гипотеза отклоняется, можно рассмотреть применение РОМНК-оценок, или использовать оценки Уайта для ковариационной матрицы МНК- оценок, или пересмотреть спецификацию нашей модели. В этом разделе, мы обсудим несколько тестов, которые разработаны для проверки нулевой гипотезы гомоскедастичности против разных аль- тернативных гипотез гетероскедастичности. 4.4.1. Тестирование равенства двух неизвестных дисперсий Первый критерий, который мы рассмотрим, касается проблемной ситуации двух неизвестных дисперсий, которая обсуждалась выше, то есть дисперсия В{ равна сг^, если наблюдение г принадлежит группе А, и равна о\, если наблюдение г принадлежит группе Б. Нулевая гипотеза заключается в том, что дисперсия является кон- стантой, то есть Но : о2А — a2B. Критерий для проверки гипотезы Hq можно получить, применив результат, что (который является при-
154 4. Гетероскедастичность и автокорреляция бхжж&цны&ц шш^ прк ш^еддоаоженик нормального распределения остатков точным): (Nj-K)^~X2Nj-K, j = A,B. D.40) Кроме того, s2A и s2B независимы, и поэтому мы имеем, что (см. При- ложение Б), При нулевой гипотезе Но : сг\ = о\ результат D.41) сводится к x = sit~pN4-K- D-42) SB Таким образом, в случае двусторонней альтернативной гипотезы Н\ • с\ ф о\, нулевая гипотеза гомоскедастичности отклоняется, если отношение двух оцененных дисперсий является или слишком малым, или слишком большим. Для односторонней альтернативы Н\ : о\ > о\ нулевая гипотеза отклоняется, если Л является слиш- ком большой. Если альтернативная гипотеза специфицируется, как g\ < о\, то при вычислении критической статистики можно просто поменять ролями группы А и В. Этот тест является частным случа- ем теста Голдфелда—Куандта (Goldfeld, Quandt, 1965; Greene, 2000, Sect. 12.3). 4.4.2. Тестирование на мультипликативную гетероскедастичность Для этого теста хорошо специфицирована альтернативная гипотеза, которая задается условием D.38), то есть af=a2exp{z'ia}, D.43) где Zi как и прежде J-мерный вектор. Нулевая гипотеза гомос- кедастичности соответствует a = 0, и таким образом, проблема заключается в тестировании Но : a = 0 против Н\ : а ф 0. Нулевую гипотезу можно протестировать, используя результаты МНК-регрессии для уравнения D.39). Существует несколько (асимп- тотически эквивалентных) способов выполнения этого теста, но са- мый простой способ основан на стандартном F-критерии, приме-
4.4. Тестирование на гетероскедастичность 155 ненном к уравнению D.39) для проверки гипотезы, что все коэф- фициенты кроме константы равны нулю. Критическую статистику можно вычислять автоматически с помощью подпрограммы, обыч- но предоставляемой в пакете программ регрессии. Поскольку ре- грессионный остаток в уравнении D.39) не удовлетворяет условиям Гаусса—Маркова точно, то F-распределение (с J и N — J — 1 степеня- ми свободы) справедливо только приближенно. Другая аппроксима- ция основана на асимптотическом %2-распределении (с J степенями свободы) критической статистики после умножения на J (сравните с п. 2.5.6). 4.4.3. Тест Бреуша—Пагана В этом критерии, предложенном Бреушем и Паганом (Breusch, Pagan, 1980), альтернативная гипотеза является менее специфич- ной и обобщает условие D.38). Она имеет вид а* = a2h(z'ia), D.44) где h — неизвестная, непрерывно дифференцируемая функция (ко- торая не зависит от г) такая, что h(-) > 0 и /г@) = 1. В качестве частного случая (если h(t) = exp{£}) мы получаем условие D.38). Критерий проверки нулевой гипотезы Но : a = 0 против альтерна- тивной гипотезы Hi : а ф 0 можно получить независимо от функции h. Самый простой вариант теста Бреуша—Пагана состоит в вычисле- нии критической статистики в виде числа наблюдений, умноженного на R2 вспомогательной регрессии, в частности на R регрессии ei (квадратов МНК-оцененных остатков) по вектору переменных zi и константе. Полученная критическая статистика, заданная в виде £ = NR2, асимптотически имеет %2-распределение с J степеня- ми свободы. Тест Бреуша—Пагана является тестом множителей Лагранжа на гетероскедастичность. Главные особенности тестов множителей Лагранжа состоят в том, что для этих тестов не требу- ется, чтобы модель оценивалась при альтернативной гипотезе, и что критические статистики часто вычисляются просто из R2 некоторой вспомогательной регрессии (см. главу 6). 4.4.4. Тест Уайта Все вышеизложенные тесты на гетероскедастичность тестируют отклонения от нулевой гипотезы гомоскедастичности при специ- фических постановках вида гетероскедастичности. Таким образом,
156 4. Гетероскедастичность и автокорреляция необходимо специфицировать вид гетероскедастичности, против ко- торого проводится это тестирование. В тесте Уайта (White, 1980) дополнительная спецификация вида альтернативной гипотезы не требуется, а реализуется идея состоятельной оценки ковариацион- ной матрицы МНК-оценок коэффициентов регрессии при наличии гетероскедастичности. Как мы видели, корректная формула для вычисления ковариационной матрицы МНК-оценки задается выра- жением D.31) и ее можно оценить по формуле D.34). Обычная оценка ковариационной матрицы справедливая в условиях гомоске- дастичности остатков имеет вид m = *2(£*i*i) • D-45) Если никакой гетероскедастичности нет, выражение D.45) предостав- ляет состоятельную оценку ковариационной матрицы 1^{Ь}, если же гетероскедастичность существует, то выражение D.45) не обладает свойством состоятельности. Уайт разработал статистический тест, основанный на этом наблюдении. Простая практическая версия это- го теста выполняется вычислением значения NR , полученного по уравнению регрессии е^ по константе и по всем первым и вторым моментам исходных регрессоров включая смешанные вторые мо- менты). Критическая статистика асимптотически распределена как хи-квадрат с Р степенями свободы, где Р — число регрессоров во вспомогательной регрессии за исключением свободного члена. Тест Уайта является обобщением теста Бреуша—Пагана, кото- рый также включает вспомогательную регрессию квадратов остат- ков, но исключает любые члены более высоких порядков. Следо- вательно, с помощью теста Уайта можно обнаружить более общие формы гетероскедастичности, чем с помощью теста Бреуша—Пагана. Фактически, тест Уайта является очень общим. Хотя это является его достоинством, в то же самое время он имеет потенциально серьезный недостаток. Тестирование может обнаружить гетероске- дастичность, но вместо этого может просто идентифицировать неко- торую другую ошибку спецификации (как например, некорректный функциональный вид уравнения регрессии). С другой стороны мощ- ность теста Уайта может быть довольно низкой против некоторых определенных альтернативных гипотез, особенно если число наблю- дений мало.
4.5. Пример: объяснение спроса на рабочую силу 157 4.4.5. Какой тест? На практике, выбор соответствующего критерия на наличие ге- тероскедастичности определяется тем, насколько явно мы хотим рассмотреть вид гетероскедастичности. Вообще, чем более опреде- лен вид гетероскедастичности, например, о\ — о2х\к, тем более мощным будет критерий, то есть более вероятно, что, в результате, тестирование справедливо приведет к отклонению нулевой гипоте- зы. Однако если истинная гетероскедастичность имеет другой вид, выбранный критерий, возможно, вообще не укажет на присутствие гетероскедастичности. Самый общий тест, тест Уайта, имеет ограни- ченную мощность против большого числа альтернативных гипотез, тогда как специфический тест, например, для мультипликативной гетероскедастичности, имеет большую мощность, но только против ограниченного числа альтернативных гипотез. В некоторых случаях визуальный осмотр МНК-оцененных остатков (например график за- висимости этих остатков от одной или более экзогенных переменных) или экономическая теория может помочь в выборе соответствующей альтернативной гипотезы. Кроме того, Вы можете обратиться к гра- фикам, представленным в параграфе 3.5. 4.5. Пример: объяснение спроса на рабочую силу В этом разделе мы рассмотрим простую модель объяснения спроса на рабочую силу бельгийских фирм. С этой целью мы получили пространственную совокупность данных от 569 фирм, которая со- держит информацию за 1996 год относительно общего количества служащих, их средней заработной платы, стоимости основных фон- дов и показателя объема производства. Рассматриваются следующие четыре переменные 5): labour: полная занятость (число рабочих); capital: общая стоимость основных фондов (в миллионах бель- гийских франков) 6); ^ Данные доступны в LABOUR. ) Обменный курс: 1 миллион бельгийских франков = 24 789 евро.
158 4. Гетероскедастичность и автокорреляция wage: суммарные расходы на заработную плату, деленные на число рабочих (в миллионах бельгийских франков); output: добавленная стоимость (в миллионах бельгийских фран- ков). Чтобы понять идеи, начнем с простой производственной функции ' Q = f(K,L), где Q обозначает объем производства, а К и L обозначают капи- тальные и трудовые затраты соответственно. Суммарные издержки производства равны г К + wL, где г обозначает стоимость единицы капитала, и w обозначает ставку заработной платы. Минимизация суммарных затрат (относительно К и L) при заданных общем виде производственной функции, стоимости капитала г, ставки заработ- ной платы w и уровня объема производства Q позволяет вывести функции спроса на основные фонды и рабочую силу. В общей форме функцию спроса на рабочую силу можно написать как L = g(Q,r,w) для некоторой функции g. Поскольку наблюдения относительно сто- имости капитала трудно доступны и, как правило, не показывают большую пространственную вариацию, при оценивании мы аппрок- симируем г с помощью акционерного капитала К. Сначала мы предположим, что функция g линейна по аргумен- там и добавим аддитивно случайный остаток. Оценивание получаю- щейся линейной модели регрессии, используя выборку, содержащую 569 фирм, приводит к результатам, представленным в таблице 4.1. Все оценки коэффициентов имеют ожидаемый знак: более высокая заработная плата при прочих равных условиях приводит к снижению затрат на рабочую силу, в то время как больший объем производства требует большего количества труда. Перед интерпретацией соответствующих стандартных ошибок и других статистик полезно провести проверку на возможность гетероскедастичности. Мы сделали это, выполнив тест Бреуша— Пагана, используя альтернативную гипотезу, что дисперсия МНК- оцененного остатка зависит от трех объясняющих переменных. При- менение МНК для построения вспомогательной регрессии квадратов > В прикладном контексте эконометрики краткий превосходный обзор произ- водственных функций с минимизацией затрат представлен Уоллисом (Wallis, 1979)
4.5. Пример: объяснение спроса на рабочую силу 159 Таблица 4-1- Результаты МНК для линейной модели Зависимая переменная: labour Переменная константа wage output capital Оценка 287,72 -167,13 0,382 -0,114 Стандартная ошибка 19,64 12,43 0,009 0,007 t- отношение 14,648 -13,446 43,304 -17,067 а = 156,26, В2 = 0,9352, R2 = 0,9348, F = 2716,02. Таблица 4.2. Вспомогательная регрессия для теста Бреуша—Пагана Зависимая переменная: е^ Переменная константа wage output capital Оценка -22719,51 5673,13 132,92 -87,840 Стандартная ошибка 11838,88 7491,66 5,31 4,019 ^-отношение -1,919 0,757 25,015 -21,858 s = 94182, R2 = 0,5818, R2 = 0,5796, F = 262,05. остатков по переменным wage, output, и capital, включая константу, приводит к результатам, представленным в таблице 4.2. Высокие ^-отношения так же как относительно высокий R2 показывают, что дисперсия остатков вряд ли является константой. Мы можем вычис- лить критическую статистику Бреуша—Пагана, равную N = 569, умноженное на R2 этой вспомогательной регрессии. Она оказалась равной 331,0. Поскольку асимптотически эта статистика при ну- левой гипотезе должна подчиняться хи-квадрат распределению с тремя степенями свободы, то это подразумевает уверенное отклоне- ние гипотезы гомоскедастичности. В действительности весьма естественно обнаружить гетероске- дастичность в подобных ситуациях, в которых размер наблюдаемых единиц существенно различается. Например, наша выборка содер-
160 4. Гетероскедастичность и автокорреляция жит фирмы с1 одним служащим и фирмы с более чем 1000 служащих. Мы можем ожидать, что большие фирмы имеют большие абсолют- ные значения всех переменных в модели, включая ненаблюдаемые значения, отраженные в регрессионном остатке. Общий подход к ослаблению этой проблемы состоит в том, чтобы использовать ло- гарифмические преобразования всех переменных, а не их уровни (сравните с параграфом 3.5). Следовательно, наш первый шаг в обработке проблемы гетероскедастичности должен состоять в рас- смотрении логарифмически линейной модель. Можно показать, что логарифмически линейная модель получается, если производствен- ная функция имеет вид производственной функции Кобба—Дугласа, то есть Q = AKaLp. Результаты МНК-оценивания логарифмически линейной моде- ли представлены в таблице 4.3. Напомним, что коэффициенты в лога- рифмически линейной модели имеют интерпретацию эластичностей. Оцененная эластичность спроса на рабочую силу, обусловленная заработной платой, равна —0,93, что является довольно высоким значением. Это подразумевает, что 1%-ое увеличение заработной платы при прочих равных условиях приводит почти к 1%-ому сни- жению спроса на рабочую силу. Эластичность спроса на рабочую силу относительно объема производства имеет оценку приблизитель- но равную единице, так что повышение объема производства на 1% требует повышение на 1% затрат на рабочую силу. Если регрессионный остаток в логарифмически линейной мо- дели гетероскедастичный, то стандартные ошибки и ^-отношения в таблице 4.3 не приемлемы. Мы можем выполнить тест Бреуша— Таблица 4,3- Результаты МНК-оценивания логарифмически линейной модели Зависимая переменная: log (labour) Переменная константа log (wage) log (output) log (capital) Оценка -0,448 -0,928 0,990 -0,004 Стандартная ошибка 0,093 0,071 0,026 0,019 t-отношение -4,806 -12,993 37,487 -0,197 s = 0,465, R2 = 0,8430, R2 = 0,8421, F = 1011,02.
4.5. Пример: объяснение спроса на рабочую силу 161 Таблица 4.4. Вспомогательная регрессия для теста Уайта Зависимая переменная: е. Переменная константа log (wage) log (output) log (capital) log2 (wage) log (output) log2(capital) log (wage) log (output) log (wage) log (capital) log (output) log (capital) Оценка 1,324 0,359 -0,774 0,380 0,193 0,138 0,090 0,138 -0,252 -0,192 Стандартная ошибка 0,458 0,556 0,242 0,146 0,259 0,036 0,014 0,163 0,105 0,037 ^-отношение 2,891 0,646 -3,194 2,607 0,744 3,877 6,401 0,849 -2,399 -5,197 s = 0,851, R2 = 0,1029, R2 = 0,0884, F = 7,12. Пагана как и прежде аналогичным образом: вспомогательная регрес- сия квадратов МНК-оцененных остатков по этим трем объясняющим переменным (в логарифмах) приводит к i?2, равному 0,0136. Полу- ченная в результате критическая статистика равна 7,74; это значение находится на грани значимости на 5%-ом уровне. Более общим кри- терием является тест Уайта. Чтобы вычислить критическую стати- стику, мы построили вспомогательную регрессию квадратов МНК- оцененных остатков на все исходные регрессоры, их квадраты и на все их взаимодействия. Результаты представлены в таблице 4.4. Мы видим, что R2 равняется 0,1029 и критическая статистика принимает значение 58,6, которое является высоко значимым для хи-квадрат переменной с 9 степенями свободы. Посмотрев на t-отношения в этой регрессии, мы видим, что дисперсия остатка существенна связана с объемом производства и основными фондами. Поскольку тест Уайта определенно указывает на присутствие гетероскедастичности, то, по-видимому, для МНК-оценки следует вычислить состоятельные стандартные ошибки с учетом наличия
162 4. Гетероскедастичность и автокорреляция Таблица 4.5. Результаты применения МНК к логарифмически линейной модели со стандартными ошибками Уайта Переменная константа log (wage) log (output) log (capital) Зависимая Оценка -0,448 -0,928 0,990 -0,004 переменная: log (labour) Гетероскедастично-состоятельные Стандартная ошибка 0,133 0,087 0,047 0,038 t-отношение -3,362 -10,706 21,159 -0,098 s = 0,465, R2 = 0,8430, R2 = 0,8421, F = 544, 73. гетероскедастичности. Это стандартная опция в большинстве совре- менных пакетов программ. Результаты представлены в таблице 4.5. Ясно, что скорректированные стандартные ошибки больше нескор- ректированных стандартных ошибок, приведенных в таблице 4.3. Заметим, что F-статистика также скорректирована и использует состоятельную ковариационную матрицу, вычисленную с учетом гетероскедастичности. Качественно выводы не изменились: заработ- ная плата и объем производства значимы в объяснении спроса на рабочую силу, а основные фонды нет. Если мы желаем сделать предположения о виде гетероскеда- стичности, то появится возможность построения более эффективной РОМНК-оценки. Рассмотрим мультипликативный вид D.38), где полагаем Z{ = X{. То есть дисперсия для Е{ зависит от log (wage), log (output) и log (capital). Мы можем оценить параметры муль- типликативной гетероскедастичности с помощью вычисления лога- рифмов квадратов МНК-оцененных остатков, а затем построения регрессии log ef no Z{ и константе. Результаты представлены в таблице 4.6. По-видимому, переменные log (capital) и log (output) существенны в объяснении дисперсии остатка. Также заметим, что F-значение этой вспомогательной регрессии приводит к отклонению нулевой гипотезы гомоскедастичности. Чтобы проверить, не слиш- ком ли ограничена эта спецификация вида гетероскедастичности, мы оценили версию, где также включены три квадратных члена. F-критерий на трех ограничениях, предполагаемых в модели, пред-
4.5. Пример: объяснение спроса на рабочую силу 163 Таблица 4.6. Вспомогательная регрессия для мультипликативной гетероскедастичности Зависимая переменная: log e{ Переменная константа log (wage) log (output) log (capital) Оценка -3,214 -0,061 0,267 -0,331 Стандартная ошибка 0,449 0,344 0,127 0,090 t-отношение -7,160 -0,178 2,099 -3,659 з = 2,241, R2 = 0,0245, R2 = 0,0193, F = 4,73. ставленный в таблице 4.6, привел к значению /-статистики, равному 1,85 (р = 0,137), так что нулевая гипотеза не отклоняется. Напомним, что предыдущая регрессия приводит к состоятель- ным оценкам для параметров, описывающих мультипликативную гетероскедастичность, за исключением константы. Для перехода к исходным данным можно использовать экспоненциальное преобразо- вание прогнозных значений регрессии. Поскольку несостоятельность константы воздействует на все переменные равно пропорционально, то это не влияет на результаты оценивания, основанные на преобра- зованных данных. Преобразование всех переменных и применение процедуры МНК к преобразованному уравнению приводит к оценкам РОМНК, представленным в таблице 4.7. Если мы сравниваем резуль- таты в таблице 4.7 и результаты МНК с состоятельными стандарт- Таблица 4.7. Результаты РОМНК для логарифмически линейной модели Зависимая переменная: log (labour) Переменная константа log (wage) log (output) log (capital) Оценка -0,466 -0,856 1,035 -0,057 Стандартная ошибка 0,091 0,072 0,027 0,022 ^-отношение -5,145 -11,903 37,890 -2,636 s = 2,509, Я2 = 0,9903, R2 = 0,9902, F = 14401,3.
164 4. Гетероскедастичность и автокорреляция ными ошибками при наличии гетероскедастичности в таблице 4.5, то видим, что увеличение эффективности существенно. Стандартные ошибки для метода РОМНК существенно меньше. Заметим, что срав- нение с результатами в таблице 4.3 неуместно, поскольку стандартные ошибки в последней таблице действительны только при отсутствии гетероскедастичности. Оценки РОМНК коэффициентов довольно близки к оценкам МНК. Поразительное различие состоит теперь в зна- чимости на 5%-ом уровне эффекта основных фондов, в то время как ранее мы не нашли статистического подтверждения значимости этого эффекта. Мы можем проверить гипотезу, что эластичность относительно заработной платы равна минус единице, с помощью вы- численной ^-статистики (—0,856 + 1)/0,072 = 2,01, что означает (по- граничное) отклонение этой гипотезы на 5%-ом уровне значимости. Факт, что R2 в таблице 4.7 больше чем в случае МНК, вво- дит в заблуждение по двум причинам. Во-первых, преобразованная модель не содержит свободного члена, поэтому вычислялся нецен- трированный R2. Во вторых, R2 вычислялся для преобразованной модели с преобразованной эндогенной переменной. Если бы для исходной модели вычислялся подразумеваемый i?2, то он был бы меньше Д2, полученного на базе применения МНК. Из главы 2 из- вестно, что альтернативные определения R2 не приводят к одному и тому же результату, если модель не оценивалась с помощью МНК. Используя определение Я2 = согг2{^,£}, D.46) где jji = х'ф*, к вышеприведенному примеру, приходим к R , рав- ному 0,8403. Это значение только немного ниже, чем его значение, оцененное в рамках МНК. Поскольку МНК определяется так, что он должен минимизировать остаточную сумму квадратов, он авто- матически максимизирует R2. Следовательно, применение любой другой функции оценивания никогда не будет увеличивать Д2, и R не является хорошим критерием для сравнения альтернативных функций оценивания. (Конечно, в эконометрической жизни есть бо- лее важные вещи, чем высокий R2.) 4.6. Автокорреляция Рассмотрим теперь другой случай, когда нарушается условие V{e} = a2I, а именно, когда ковариации между разными остат-
4.6. Автокорреляция 165 ками не все равны нулю. Наиболее подходящий пример имеет место, когда два или больше последовательных члена ошибок коррели- рованы, и мы говорим, что регрессионные остатки подвержены автокорреляции или сериальной корреляции. Учитывая наше общее обсуждение выше, до тех пор, пока можно предполагать, что 2?{£|Х} = 0 (предположение (А9)), последствия автокорреля- ции подобны последствиям гетероскедастичности: МНК остается несмещенным, но он становится неэффективным, и его стандартные ошибки оцениваются некорректно. Автокорреляция обычно имеет место, когда используются дан- ные временного ряда. Чтобы подчеркнуть это, мы последуем за лите- ратурой и индексируем номер наблюдения индексом £ = 1,2,...,Т, а не индексом i = l,2,...,7V. Самое важное различие состоит в том, что теперь порядок наблюдений действительно имеет значение, и индекс отражает естественное упорядочивание. В общем, регресси- онный остаток Si отражает влияние тех переменных, которые влияют на зависимую переменную, но которые не были включены в модель. Постоянство существования эффектов, не включенных в модель переменных, является частой причиной положительной автокорре- лированности остатков. Если бы такие невключенные переменные наблюдались и могли бы быть включены в модель, то мы также мог- ли бы интерпретировать полученную автокорреляцию как признак неправильно специфицированной модели. Этим объясняется, поче- му тесты на наличие автокорреляции очень часто интерпретируются как тесты на наличие неправильной спецификации. Некорректные функциональные формы, неучтенные переменные и неадекватная динамическая спецификация модели — все это может привести к наличию автокорреляции. Предположим, что Вы используете ежемесячные данные, чтобы оценить модель, которая объясняет спрос на мороженое. Как прави- ло, состояние погоды будет важным фактором, скрытым в остатке Si. В этом случае, вероятно, Вы будете иметь дело с наблюдениями, аналогично тем, что отображены на рисунке 4.1. На этом рисунке мы построили график потребления мороженого от времени, в то время как соединенные точки описывают «подогнанные» значения модели регрессии, которая объясняет потребление мороженого в за- висимости от совокупного дохода и ценового индекса 8\ Ясно, что Данные, используемые на этом рисунке, взяты из работы (Hildreth, Lu, 1960) и доступны в ICECREAM; см. также раздел 4.8.
166 4. Гетероскедастичность и автокорреляция ° Потребление мороженого на душу (cons) 0.548 -I 0.256 Н время Рисунок 4.1. Фактическое и «подогнанное» потребление мороженого, июль 1951 г. - март 1953 г. положительные остатки группируются вместе, также как и отрица- тельные остатки. В макроэкономических исследованиях движения делового цикла могут иметь очень похожие эффекты. В большинстве экономических приложений автокорреляция остатков положитель- на, но иногда она будет отрицательной: положительный остаток для одного наблюдения, вероятно, будет сопровождаться отрицательным остатком для следующего наблюдения и наоборот. 4.6.1. Автокорреляция первого порядка Существует много форм автокорреляции, и каждая приводит к раз- ной структуре ковариационной матрицы ошибок V{s}. Самая по- пулярная форма известна как процесс авторегрессии первого по- рядка. В этом случае предполагается, что регрессионный остаток в модели Vi = х'ф + et D.47) зависит от его предшествующего остатка следующим образом St = pSt-l +Vt, D.48)
4.6. Автокорреляция 167 где щ — независимые одинаково распределенные случайные вели- чины с нулевыми средними значениями и дисперсиями, равными al (т.е. vt ~ #ОР@, <т^)). Это означает, что значение остатка в любом наблюдении равно коэффициенту р, умноженному на зна- чение остатка в предыдущем наблюдении плюс новая компонента возмущения щ. Предполагается, что эта новая компонента имеет нулевое среднее и постоянную дисперсию, и не должна зависеть от времени. Кроме того, налагается предположение (А2) из главы 2, которое подразумевает, что все объясняющие переменные независи- мы от всех остатков*^. Параметры р и а2 обычно неизвестны, и, мы можем пожелать оценить их наряду с /3. Отметим, что стати- стические свойства компоненты щ те же, что предполагаются для члена ошибки et в стандартном случае: таким образом, если р = О, то et = щ и стандартные условия Гаусса—Маркова (А1)-(А4) из главы 2 удовлетворяются. Чтобы вывести выражение для ковариационной матрицы векто- ра остатков £, мы должны сделать предположение о распределении остатка для начального периода, е\. Обычно, предполагается, что Е\ имеет нулевое среднее и такую же дисперсию как и все другие члены ошибок ££-ые. Это согласуется с идеей, что процесс функционировал в течение длительного периода в прошлом и что \р\ < 1. Если усло- вие \р\ < 1 удовлетворяется, то мы говорим, что авторегрессионный процесс первого порядка является стационарным. Стационарный процесс таков, что среднее значение, дисперсии и ковариации членов ошибок et не изменяются по времени (см. главу 8 ниже). Наложение стационарности легко следует из выражения E{et} = pE{et-1} + E{vth в котором E{Ei} = 0. Кроме того, из выражения V{et} = V{pet-i + vt} = P2V{et} + а2„ мы получаем, что дисперсия et, обозначенная как а2£ , имеет вид °l = V{et) = ^j2. D.49) В нашем случае это означает, в частности, что E{et-ivt} = 0 (примеч. научн. ред. перевода).
168 4. Гетероскедастичность и автокорреляция Вне диагональные элементы в ковариационной матрице вектора е следуют из выражения 2 cov {euet-i} = E{etet-i} = рЕ{е^_г} + E{et^ut} = P^Z^' D*50) Ковариация между членами ошибок, отстоящими на два периода друг от друга, равна 2 E{etet-2} = pEiet-iSt-2} + E{et-2ut} = р2-^ , D-51) 1 — р* и вообще для неотрицательных значений s мы имеем 2 E{etet-s} = P8T^. D.52) 1 — /Г Это показывает, что для 0 < \р\ < 1 все элементы в векторе е вза- имно коррелированы с ковариацией, убывающей по мере взаимного удаления этих элементов по времени (то есть, если s становится боль- шим). Ковариационная матрица вектора е таким образом является полной матрицей (матрицей без нулевых элементов). Из этой матри- цы можно вывести соответствующую матрицу преобразования, как это обсуждалось в разделе 4.2. Однако, непосредственно посмотрев на выражения D.47) и D.48), сразу же становится очевидным, какое преобразование является уместным. Поскольку St = pet-i + vt-> гДе vt удовлетворяет условиям Гаусса—Маркова, то, очевидно, что пре- образование подобное St — pst-i приведет к гомоскедастичным не автокоррелированным остаткам. То есть, все наблюдения должны быть преобразованы как yt — pyt-i и xt — pxt-\. Следовательно, преобразованная модель задается в виде yt - pyt-i - {xt - pxt-i)'f3 + vu t = 2, 3,... , Г. D.53) Поскольку модель D.53) удовлетворяет условиям Гаусса—Маркова, оценивание с помощью МНК приводит к ОМНК-оценкам (пред- полагая коэффициент р известным). Однако, это утверждение не совсем корректно, так как преобразование в D.53) не может быть применено к первому наблюдению (поскольку у о и хо не наблюдают- ся). Информация в этом первом наблюдении теряется, и МНК для преобразованной модели D.53) предоставляет только приближен- ную ОМНК-оценку \ Конечно, когда число наблюдений является Технически неявная матрица преобразования Р, которая здесь используется, не является квадратной матрицей и следовательно она необратима.
4.6. Автокорреляция 169 большим, потеря единственного наблюдения не будет обычно иметь большого воздействия на результаты. Первое наблюдение можно сберечь, заметив, что остаток для первого наблюдения Е\ некоррелирован со всеми щ-ъш, t = 2,... , Т. Однако дисперсия Е\ (заданная выражением D.49)) является намно- го больше чем дисперсия новых возмущений (^? • • • , ^т)> особенно когда р близко к единице. Чтобы получить гомоскедастичные и неавтокоррелированые остатки в преобразованной модели (которая включает первое наблюдение), это первое наблюдение должно быть преобразовано с помощью его умножения на множитель л/П^р*. Та- ким образом, полностью преобразованная моделью задается в виде \/1 - Р2У1 = у/1 - Р2х[C + \/1-р2еъ D.54) и выражения D.53) для наблюдений t = 2,... , Г. Легко проверить, что преобразованный остаток в выражении D.54) имеет такую же дисперсию как щ. МНК, примененный к преобразованной модели D.53) и D.54), дает ОМНК-оценку /3, которая является наилучшей линейной несмещенной оценкой (НЛНО) для вектора параметров /3. В ранней работе (Cochrane и Orcutt, 1949) было обычным исклю- чать первое (преобразованное) наблюдение и оценивать /3 из остав- шихся Г— 1 преобразованных наблюдений. Как говорилось, это при- водит только к приближенной ОМНК-оценке, которая не будет столь же эффективной как ОМНК-оценка, использующая все Г наблюде- ний. Однако если Г является большим, различие между этими двумя оценками пренебрежимо мало. Оценки, не использующие первые пре- образованные наблюдения, часто называются оценками Кохрейна— Оркатта. Точно так же преобразование, не включающее первое на- блюдение, называется преобразованием Кохрейна—Оркатта. Оценка, которая использует все преобразованные наблюдения, иногда назы- вают оценкой Прейза—Уинстена (Prais, Winsten, 1954). 4.6.2. Значение р неизвестно Конечно, на практике редко бывает так, что значение коэффициента р известно. В случае неизвестного значения р мы должны его оценить. Начиная с выражения et = pet-i + Щ, D.55) где vt удовлетворяет обычным предположениям, кажется естествен- ным оценить коэффициент р из регрессии МНК-оцененного остатка et no et-\. Полученная таким образом МНК-оценка для коэффици-
170 4. Гетероскедастичность и автокорреляция ента р задается в виде Несмотря на то, что эта оценка для коэффициента р обычно смещен- ная, она является состоятельной оценкой для р при слабых условиях регулярности. Если мы используем р вместо р, чтобы вычислить РОНК-оценку /3*, свойство НЛНО больше не сохраняется. При тех же самых условиях, как и раньше, справедливо, что РОМНК-оценка /3* асимптотически эквивалентна ОМНК-оценке C. То есть, для выборок больших объемов мы можем игнорировать тот факт, что коэффициент р оценивается. Родственной процедурой оценивания является так называемая итерационная процедура Кохрейна—Оркатта, которая применяется во многих пакетах программ. В этой процедуре коэффициент р и вектор параметров C оцениваются рекурсивно до момента ее сходи- мости, то есть при наличии РОМНК-оценки C* вектора /?, остатки вычисляются повторно, и коэффициент р оценивается снова, исполь- зуя РОМНК-оцененные остатки из предыдущего шага. С этой новой оценкой для р снова применяется РОМНК и получается новая оценка для вектора параметров C. Эта процедура продолжается до достиже- ния сходимости, то есть до тех пор, пока оценка для коэффициента р и оценка для вектора параметров /3 больше не изменяются. Можно ожидать, что эта процедура увеличивает эффективность (то есть, снижает дисперсию) получаемой оценки коэффициента р. Одна- ко нет никакой гарантии, что она также повышает эффективность РОМНК-оценки вектора параметров /3. Мы знаем, что асимптотиче- ски не имеет значения, что коэффициент р мы заменяем его оценкой, и, следовательно, также (асимптотически) не имеет значения, как мы его оцениваем до тех пор, пока р оценивается состоятельно. Однако в малых выборках итерационные РОМНК-процедуры обеспечивают обычно несколько лучший результат, чем их двухшаговый вариант. 4.7. Тестирование на наличие автокорреляции первого порядка Если р = 0, то никакой автокорреляции не существует, и МНК- оценка является НЛНО. Если р ф 0, то выводы, основанные на МНК-оценках, будут вводить в заблуждение, поскольку их стан-
4.7. Тестирование на наличие автокорреляции первого порядка 171 дартные ошибки будут вычисляться по неправильной формуле. По- этому общая практика с данными временного ряда заключается в том, чтобы протестировать наличие автокорреляции в регрессион- ных остатках. Предположим, что нас интересует проверка нулевой гипотезы Но : р = 0 против альтернативной гипотезы Н\ : р ф 0 (или односторонней альтернативы). Мы представим несколько тестов для модели D.47) с предположением D.48). Первые два теста относи- тельно просты, но справедливы только асимптотически, тогда как последний тест имеет известное распределение при малых выборках. 4.7.1. Асимптотические тесты При соответствующих предположениях (включая \р\ < 1) можно показать, что у/Т(р-р)^ЛГ@,1-р2), то есть функция оценивания р состоятельна и асимптотически нор- мальна. Таким образом, в конечных выборках приближенно справед- ливо, что р имеет нормальное распределение со средним значением р и дисперсией A — р2)/Т. Таким образом Ут(р-Р) z = —, приближенно имеет стандартное нормальное распределение. Если гипотеза Щ верна, то мы имеем, что z = Vfp D.57) приближенно имеет стандартное нормальное распределение, и мы можем использовать z в качестве критической статистики. Следо- вательно, на 5%-ом уровне значимости, мы отклоняем гипотезу Щ (против альтернативной гипотезы i?i), если \Vfp\ > 1,96. Альтернативную, критическую статистику можно вычислить, снова рассматривая регрессию МНК-оцененных остатков et по их лагам et-\. Если мы возьмем R2 такой регрессии и умножим его на эффективное число наблюдений Г — 1, то мы получим критическую статистику, которая, при нулевой гипотезе, имеет %2-распределение с одной степенью свободы. Ясно, что R2 близкий к нулю в этой регрес- сии подразумевает, что лагированные остатки не объясняют текущие остатки, и простой способ тестирования гипотезы р = 0 состоит в вы- числении значения (Г — 1)R2. Этот тест является частным случаем теста Бреуша—Годфри (Breusch, 1978; Godfrey, 1978) и множителей
172 4. Гетероскедастичность и автокорреляция Лагранжа (см. главу 6), и легко распространяется на более высо- кие порядки автокорреляции (включением дополнительных лагов остатка и соответствующей корректировкой степеней свободы) и на модели, которые включают лагированные зависимые переменные (включением регрессоров xt во вспомогательную регрессию). Заметим, что оба эти теста являются асимптотическими тестами и асимптотическая аппроксимация, возможно, не очень хороша для малого числа наблюдений Г. Альтернативным тестом, основанным на теории малых выборок, является тест Дарбина—Уотсона. 4.7.2. Тест Дарбина—Уотсона Одним из самых популярных тестов в эконометрике является тест Дарбина—Уотсона (Durbin, Watson, 1950). Два важных предполо- жения, лежащие в основе этого теста, состоят в том, что мы можем рассматривать xt-ые как детерминированные и что Xt содержит свободный член. Первое предположение является важным, поскольку оно требует, чтобы все регрессионные остатки были независи- мы от всех объясняющих переменных (предположение (А2)). Наибо- лее важно, что это исключает включение лагированных зависимых переменных в модель. Тестовая статистика Дарбина—Уотсона задается как т dw = (=2 e*-i D.58) Е где et — МНК-оцененный остаток (отметим разное индексирование в суммированиях). Написав Е(е< Т+1 et-i t=2 мы можем написать J = £е<2 t=l 2Ee<e<-i + E -t-i / т ч dw = 2-2p t=2 Е t=2 6| ~Г в гр t=2 \t=i i Е' 2 -2р. D.59)
4.7. Тестирование на наличие автокорреляции первого порядка 173 Знак « в выражении D.59) обусловлен тем фактом, что при больших Т первый член в скобках стремится к единице, тогда как второй член в скобках стремится к нулю. Отсюда мы можем получить альтернативную оценку для коэффициента р в виде p=l-±dw, D.60) которая также является состоятельной оценкой. При нулевой гипотезе — нет никакой автокорреляции (р = 0), можно показать, что распределение dw должно быть симметричным около 2. Поэтому, если dw близко к двум, то это указывает что коэф- фициент р близок к нулю. Если dw «намного меньше» чем 2, то это признак положительной автокорреляции (р > 0); если dw является намного больше 2, тогда р < 0. Даже при нулевой гипотезе Hq : р = 0 распределение dw зависит не только от объема выборки Т и числа переменных К в векторе объясняющих переменных xt но также и от фактических значений xt-x. Следовательно, критические значения нельзя свести в таблицу для общего применения. К счастью, возмож- но, вычислить верхние и нижние границы для критических значений dw, которые зависят только от объема выборки Т и числа перемен- ных К в векторе xt. Эти значения, db иб![/, были сведены в таблицу Дарбином и Уотсоном (Durbin, Watson, 1950) и Севиным и Уайтом (Savin, White, 1977), и частично воспроизведены в таблице 4.8. Ис- тинное критическое значение dcru находится между границами, ко- торые сведены в таблицу, то есть d^ < dcrn < djj. При нулевой гипо- Таблица 4.8. Нижние и верхние границы для 5% критических значений теста Дарбина—Уотсона (Savin, White, 1977) Число регрессоров (включая свободный член) Число наблюдений Г = 25 Г = 50 Г = 75 Г = 100 Т = 200 К = 3 dL 1,206 1,462 1,571 1,634 1,748 du 1,550 1,628 1,680 1,715 1,789 К = Ъ dL 1,038 1,378 1,515 1,592 1,728 du 1,767 1,721 1,739 1,758 1,810 К = 7 db 0,868 1,291 1,458 1,550 1,707 du 2,012 1,822 1,801 1,803 1,831 K = 9 db 0,702 1,201 1,399 1,506 1,686 du 2,280 1,930 1,867 1,850 1,852
174 4. Гетероскедастичность и автокорреляция тезе Hq мы, таким образом, имеем, что (на 5%-ом уровне значимости) P{dw <dL} < P{dw < dcrit} = 0,05 < P{dw <dv}. Для одностороннего теста против положительной автокорреляции (р > 0) существуют три возможности для тестовой статистики dw : а. dw меньше нижней границы d^. В этом случае тестовая ста- тистика конечно ниже истинного критического значения dcru и поэтому нулевую гипотезу Но следует отклонить; б. dw больше верхней границы djj. В этом случае тестовая стати- стика конечно больше dcrn и нулевую гипотезу Щ отклонять не следует; в. dw находится между нижней границей d^ и верхней границей djj. В этом случае тестовая статистика может быть больше или меньше критического значения. Поскольку ничего сказать нельзя, то нет возможности принять или отклонить нулевую гипотезу Но. Это так называемая «область неопределенности». Чем больше объем выборки, тем меньше область неопределенности. Для К — 5 и Т = 25 мы имеем dL.5% = 1,038 и dU;b% — 1,767; для Т — 100 эти числа равны 1,592 и 1,758. В случае в ничего нельзя сделать. Существуют некоторые воз- можные аппроксимации, которые обсуждены Джаджем и др. (Judge et al., 1988, pp. 398-399), но на практике их применение слож- но. К счастью, некоторые компьютерные пакеты, как, например, SHAZAM, предоставляют точные критические значения, вычислен- ные численно. Несмотря на его неудобства, тест Дарбина—Уотсона является одним из тестов, наиболее часто применяемых на практике: его применение основано на распределениях малых выборок, хотя в некоторых случаях результат может быть «неопределенным». В менее общем случае, в котором альтернативная гипотеза со- стоит в наличии отрицательной автокорреляции (р < 0), симметрия распределения тестовой статистики dw (около 2) подразумевает, что истинное критическое значение находится между 4 — djj и 4 — db, так что никакие дополнительные таблицы не требуются. 4.8. Пример: спрос на мороженное Этот эмпирический пример основан на одной из основополагающих статей относительно автокорреляции, а именно на статье Хилдреса и Лу (Hildreth, Lu, 1960). Данные, используемые в этом исследовании,
4.8. Пример: спрос на мороженное 175 являются данными временного ряда с тридцатью четырмя недель- ными наблюдениями за период с 18 марта 1951г. по 11 июля 1953 г. относительно следующих переменных10': cons: потребление мороженого на душу (в пинтах); income: усредненный семейный доход в неделю (в долларах США); price: цена мороженого (за пинту); temp: усредненная температура (в градусах Фаренгейта). Графическая иллюстрация данных представлена на рисунке 4.2, где мы видим отображения временных рядов потребления, цены и температуры (деленной на 100). Из графика ясно видно, что темпе- ратура является важной объясняющей переменной для потребления мороженого, которая подтверждает наши ожидания. Модель, используемая для объяснения потребления мороже- ного, является линейной моделью регрессии с объясняющими пе- а price о cons □ temp 1000 •8 Ч .4 Н 10 20 30 время Рисунок 4.2. Потребление мороженного, цена и температура (деленная на 100) 10) Данные доступны в ICECREAM.
176 4. Гетероскедастичность и автокорреляция Таблица 4.9. Результаты применения МНК Зависимая переменная: cons Переменная константа price income temp Оценка 0,197 -1,044 0,00331 0,00345 Стандартная ошибка 0,270 0,834 0,00117 0,00045 ^-отношение 0,730 -1,252 2,824 7,762 s = 0,0368, R2 = 0,7190, R2 = 0,6866, F = 22,175, dw = 1,0212. ременными: income, price и temp. Результаты применения МНК для первой регрессии представлены в таблице 4.9. Несмотря на то, что оценки коэффициентов имеют ожидаемые знаки, вычисленная статистика Дарбина—Уотсона равна 1,0212. Для одностороннего те- ста Дарбина—Уотсона при нулевой гипотезе Но : р — 0, против альтернативной гипотезы положительной автокорреляции на 5%-ом уровне значимости (а — 0,05) мы имеем, что db = 1,21 (Г = 30, К — 4) и djj — 1,65. Значение 1,02 ясно подразумевает, что нуле- вую гипотезу против альтернативы положительной автокорреляции следует отклонить. Когда мы построили график, представленный на рисунке 4.3, истинных значений переменной cons и ее значений, «подогнанных» моделью, то мы увидели, что за положительными (отрицательными) значениями остатков, более вероятно, следуют по- ложительные (отрицательные) значения. Очевидно, что включение переменной temp в модель недостаточно, чтобы уловить сезонную флуктуацию в потреблении мороженого. Коэффициент автокорреляции первого порядка в соотношении St = pSt-l + Vt легко оценивается с помощью сохранения оцененных остатков от предыдущей регрессии и построения МНК-регрессии et no et-i (без константы) п\ что приводит к оценке р = 0,401 с R2 равным 0,149. Асимптотический тест для проверки нулевой гипотезы Hq : р = 0 Нет никакой потребности включать константу, потому что среднее значение МНК-оцененных остатков равно нулю.
4.8. Пример: спрос на мороженное 177 о cons .6 -I н 1 1 г— О 10 20 30 время Рисунок 4.3. Фактические и «подогнанные» значения (соединенные точки) потребления мороженного против альтернативной гипотезы автокорреляции первого порядка основан на критической статистике VTp = 2,19. Значение критиче- ской статистики больше чем 5%-ое критическое значение из стан- дартного нормального распределения, равное 1,96, поэтому опять нам следует отклонить нулевую гипотезу отсутствия сериальной корреляции. Критерий Бреуша—Годфри приводит к критической статистике (Г — 1)R2 = 4,32, значение которой превышает 5%-ое критическое значение 3,84 из распределения хи-квадрат с одной сте- пенью свободы. Эти отклонения нулевой гипотезы означают, что МНК-оценка больше не является наилучшей линейной несмещенной оценкой для вектора параметров /3, и что наиболее важно, рутинно вычисляемые стандартные ошибки некорректны. Можно сделать корректные и более точные утверждения об эластичности относительно цены мо- роженого, если мы выберем более эффективный метод оценивания, как, например, РОМНК. Итерационный метод Кохрейна—Оркатта приводит к результатам, представленным в таблице 4.10. Отме- тим, что результаты РОМНК подтверждают наши более ранние результаты, которые указывают, что доход и температура являют-
178 4. Гетероскедастичность и автокорреляция Таблица 4.10. Результаты применения РОМНК (итерационный метод Кохрейна—Оркатта) Зависимая переменная: cons Переменная константа price income temp Р Оценка 0,157 -0,892 0,00320 0,00356 0,401 Стандартная ошибка 0,300 0,830 0,00159 0,00061 0,2079 ^-отношение 0,524 -1,076 2,005 5,800 1,927 s = 0,0326*, R2 = 0,7961*, R2 = 0,7621*, F = 23,419, dw = 1,5486*. ся важными объясняющими переменными в функции потребления. Следует подчеркнуть, что статистические данные в таблице 4.10, ко- торые обозначены звездочкой, соответствуют преобразованной мо- дели и непосредственно не сопоставимы с их аналогами в таблице 4.9, которые отражают не преобразованную модель. Это также справед- ливо для статистики Дарбина—Уотсона, которая больше неуместна в таблице 4.10. Как упоминалось ранее, наличие автокорреляции может быть признаком того, что модель в чем-то некорректна, например, некор- ректен функциональный вид или динамическая спецификация. Воз- можным способом устранения проблемы автокорреляции является изменение спецификации модели. По-видимому, естественно рас- смотреть включение в модель одной или более лагированных пе- ременных. В частности мы включим в модель лагированную тем- пературу tempt-i- Применение МНК к этой расширенной модели приводит к результатам, представленным в таблице 4.11. По сравнению с результатами из таблицы 4.9 критическая стати- стика Дарбина—Уотсона возросла до значения 1,58, которое теперь находится в области неопределенности (а — 0,05), заданной ин- тервалом A,14; 1,74). Поскольку это значение находится довольно близко к верхней границе, мы можем предпочесть не отклонять ну- левую гипотезу отсутствия автокорреляции. Из таблицы видно, что лагированная температура имеет значимое отрицательное влияние
4.9. Альтернативные автокорреляционные структуры 179 Таблица 4.11. Результаты применения МНК к расширенной спецификации Зависимая переменная: cons Переменная константа price income temp tempt-i Оценка 0,189 -0,838 0,00287 0,00533 -0,00220 Стандартная ошибка 0,232 0,688 0,00105 0,00067 0,00073 t-отношение 0,816 -1,218 2,722 7,953 -3,016 s = 0,0299, R2 = 0,8285, R2 = 0,7999, F = 28,979, dw = 1,5822. на потребление мороженого, в то время как текущая температура имеет положительный эффект. Это может указывать на увеличение спроса на мороженное при повышении температуры, которое не было полностью потреблено, и снижение расходов одним тактом времени позже ;. 4.9. Альтернативные автокорреляционные структуры 4.9.1. Автокорреляция высшего порядка В макроэкономических моделях временного ряда весьма обычными являются авторегрессионные остатки первого порядка, и учет авто- корреляции первого порядка в большинстве случаев устраняет эту проблему. Однако, если, например, мы имеем ежеквартальные или ежемесячные данные, то, возможно, что существует периодический (ежеквартальный или ежемесячный) эффект, вызывающий ошибки через равные периоды, которые будут коррелированны в разных годах. Например, мы можем иметь (в случае ежеквартальных дан- Переменная cons определяет значения затрат на мороженое, а не значения его фактического потребления.
180 4. Гетероскедастичность и автокорреляция ных), уравнение et = 7^t~4 + ^t, D-61) или более общее уравнение et = 7i^-i + 72^-2 + 7з^-з + 74^-4 + Щ, D.62) которое известно как автокорреляция четвертого порядка. По суще- ству, это прямое обобщение процесса первого порядка, и РОМНК- оценивание проводится по тому же плану. До тех пор, пока объясняю- щие переменные являются некоррелироваными со всеми остатками, РОМНК-оценки на первом шаге основываются на МНК-оценивании уравнения D.61) или уравнения D.62), где остатки заменяются МНК- оцененными остатками et. Вид соответствующего преобразования для вывода РОМНК-оценки вектора параметров /3 будет опреде- ляться уравнением D.61) или D.62). Заметим, что при выполнении преобразования первые четыре наблюдения будут потеряны. 4.9.2. Остатки скользящего среднего Как уже обсуждалось, авторегрессионная спецификация остатков, как в соотношениях D.48), D.61) или D.62), подразумевает, что все остатки взаимнокоррелированы, хотя корреляция между остатками, которые разделяются многими тактами времени, будет ничтожно малой. В (экономической) теории в некоторых случаях предпола- гается разная форма автокорреляции, в которой коррелированы только определенные остатки, в то время как все другие имеют нулевую корреляцию. Форму автокорреляции можно смоделировать так называемым процессом ошибок скользящего среднего. Струк- туры скользящего среднего часто возникают, когда используемый в выборке такт времени (например, один месяц) меньше, чем инте- ресующий нас интервал определения анализируемой переменной. Рассмотрим проблему оценивания уравнения, объясняющего зна- чение некоторого финансового инструмента, например, 90-дневных векселей казначейства или 3-месячных срочных контрактов на ино- странную валюту. Если Вы используете ежемесячные данные, то любое возмущение, происходящее в месяце £, повлияло бы на зна- чение срока погашении инструментов в месяцах £, £ + 1, и £ + 2, но не повлияло бы на значение более позднего срока погашения инструментов, поскольку последние еще не были бы выпущены. Это предполагает корреляцию между остатками, разделенными одним и
4.9. Альтернативные автокорреляционные структуры 181 двумя месяцами, но нулевую корреляцию между более отдаленными членами ошибок. Другим примером является объяснение ежегодных изменений цен (инфляции), наблюдаемых каждые 6 месяцев. Предположим, что мы имеем наблюдения относительно приращений розничных цен по сравнению с уровнем на один год назад, 1 января и 1 июля. Пред- положим, что базисные переменные (например, денежная масса), включенные в вектор объясняющих переменных xt, также наблюда- ются раз в полгода. Если «истинная» модель задается в виде yt — x'tj3 + vt, t — 1, 2,... , Г (полугодовые периоды), D.63) где yt является полугодовым приращением цен, а остаток щ удовле- творяет условиям Гаусса—Маркова, то для приращений на ежегод- ном уровне справедливо соотношение у\ — yt + yt-i или yt = (xt + xt-i)'P + ut + vt-u t = 1, 2,..., T, D.64) или y;=x*t'p + et, t = l,2,...,T, D.65) где et — ЩЛ- vt-\ и x\ = xt + xt-i. Если мы предполагаем, что vt имеет дисперсию сг^, то свойства остатка в соотношении D.65) следующие: E{et} = E{vt} + E{vt-1} = Q, V{et} = V{ut + ut-1} = 2<rl, cov {eu st-i) = cov {vt + vt-\, vt-\ + Щ-2} = °l, cov {et, st-s} = cov {i/t + i/t-i, vt-a + Щ-i-a} =0, s = 2, 3,... . Следовательно, ковариационная матрица вектора членов остатков содержит большое число нулей. На диагонали мы имеем 2оv (диспер- сия), и только ниже и выше диагонали мы имеем сг^ (автоковариацию первого порядка), в то время как все другие ковариации равны ну- лю. Мы называем такой процесс процессом скользящего среднего первого порядка (для остатков et). Фактически, это ограниченная версия, поскольку коэффициент корреляции между остатками et и et-i заранее установлен равным 0,5. Общий процесс скользящего среднего первого порядка можно специфицировать как St = Щ + aut-i
182 4. Гетероскедастичность и автокорреляция для некоторого параметра а, \а\ < 1*'; см. обсуждение моделей временных рядов в главе 8. Вообще модели регрессии с остатками скользящего среднего оце- нить несколько тяжелее, чем с авторегрессионными остатками, по- скольку преобразование, порождающее «остатки Гаусса—Маркова» является сложным. Некоторые пакеты программного обеспечения включают доступные процедуры, но если соответствующее про- граммное обеспечение отсутствует, оценивание может быть очень трудным. Возможное решение состоит в применении обычного МНК к модели со стандартными остатками, полученными после соответ- ствующей корректировки исходных остатков, устраняющей наличие в них автокорреляции (любой природы). Обсуждение будет представ- лено в следующем параграфе. Эмпирический пример, включающий остатки скользящего среднего, приводится в параграфе 4.11. 4.10. Что делать, когда Вы находите автокорреляцию? Во многих случаях обнаружение автокорреляции является свиде- тельством неправильно специфицированной модели. Если дело об- стоит так, то самый естественный способ состоит в том, что не следует изменять вашу оценку (МНК на РОМНК), а следует изменить вашу модель. Как правило, три (взаимосвязанных) типа неправильной спецификации могут привести к обнаружению автокорреляции в ва- ших МНК-оцененных остатках: динамическая неправильная специ- фикация, не включенные объясняющие переменные и неправильная спецификация функционального вида уравнения регрессии. Если мы отходим от случая, где остаток независим от всех объясняющих переменных, то существует другая причина, почему ОМНК или РОМНК могут быть неприемлемыми. В частности, воз- В этом определении общего процесса скользящего среднего первого порядка (ССA)) есть формальная логическая «нестыковка». В приведенном выше примере, который автор характеризует как «ограниченную версию» процесса ССA), значение параметра а = 1, а в определении общего процесса ССA) есть требование |а| < 1. В действительности, последнее требование лишь обеспечивает так называемую обратимость процесса ССA) и не является обязательным для обеспечения стационарности этого процесса, — подробнее об этом см. гл. 8 (примеч. научн. ред. перевода).
4.10. Что делать, когда Вы находите автокорреляцию? 183 можно, что ОМНК-оценка является несостоятельной, поскольку пре- образованная модель не удовлетворяет минимальным требованиям состоятельности для МНК-оценки. Эта ситуация может возникнуть, даже если МНК-оценки, примененные к исходному уравнению, об- ладают свойством состоятельности. В параграфе 4.11 приводится эмпирический пример такой ситуации. 4.10.1. Неправильная спецификация Начнем с неправильной спецификации функционального вида. Пред- положим, что истинное линейное соотношение между переменными yt и log Xt имеет вид yt = /?i + p2 log xt + et и предположим в иллюстративных целях, что переменная xt воз- растает с ростом £. Если бы мы объясняли поведение yt с помощью линейной модели от xt, то мы могли бы прийти к ситуации, которая изображена на рисунке 4.4. На этом рисунке, основанном на смоде- лированных данных с xt = t и yt = 0,5 log xt плюс малый случайный остаток, «подогнанные» значения модели лежат на прямой линии, 2.01065 о о о о у А .97666 о Л о 40 время Рисунок 4.4. Фактические и «подогнанные» значения, когда истинной моделью является модель yt = 0,5 log t + et
184 4. Гетероскедастичность и автокорреляция тогда как фактические значения представлены точками. Ясно, что остатки с одинаковым знаком группируются вместе. Статистика Дарбина—Уотсона для этого примера равна всего 0,193. В этом слу- чае решение не состоит в том, чтобы повторно оценить линейную модель, используя РОМНК-оценку, а в том, чтобы изменить функ- циональный вид и включить в правую часть модели log Xt, а не xt. Как обсуждалось выше, невключение существенной объясняю- щей переменной может также привести к возникновению автокор- реляции в остатках. Например, в параграфе 4.8 мы видели, что исключение переменных, которые отражают сезонную вариацию по- требления мороженого, привело к такому случаю. Подобным образом некорректная динамическая спецификация может привести к нали- чию автокорреляции. В таких случаях мы должны решить, должна ли интересующая нас модель быть статической или динамической моделью. Чтобы проиллюстрировать это, начнем со (статической) модели yt = x'tP + et D.66) с автокорреляцией первого порядка St = pet-i + vt • Мы можем интер- претировать вышеприведенную модель как описание E{yt\xt} — x't/3. Однако нас также может интересовать прогнозирование на основе текущих значений вектора xt, а также на основе значений лагиро- ванных наблюдений по Xt-\ и y*_i, то есть E{yt\xt, xt-i, yt-i}- Для вышеприведенной модели мы получаем E{yt\xu xt-u Vt-i} = x't(i + p(yt-i - х[_гр) D.67) и мы можем написать динамическую модель в виде yt = x'tP + pj/t_i - px't_^ + vu D.68) остатки которой не показывают никакой автокорреляции. Модель D.68) показывает, что включение лагированной зависимой перемен- ной и лагированных экзогенных переменных, приводит к специфика- ции, которая не исключает автокорреляцию в остатках. Наоборот мы можем найти автокорреляцию в модели D.66), если динамическая спецификация подобна модели D.68), но включает, например, только лагированную зависимую переменную yt-i или только некоторые из лагированных объясняющих переменных вектора xt-\. В таких слу- чаях включение этих «пропущенных» переменных решит проблему автокорреляции.
4.10. Что делать, когда Вы находите автокорреляцию? 185 Статическая модель D.66) с автокорреляцией первого поряд- ка предоставляет нам E{yt\xt}, а также динамический прогноз E{yt\xt,xt-i, Уг-i}, и может быть более экономной по сравнению с полной динамической моделью с несколькими включенными лаги- рованными переменными (при отсутствии ограничений на глубину лагов). Вопрос заключается в выборе, интересуемся ли мы E{yt\xt} или E{yt\xt, xt-i, Vt-i}, или тем и другим. Например, объяснение заработной платы человека его заработной платой в предыдущем году может быть довольно легким, но может и не дать ответы на вопросы, которыми мы интересуемся. Тем не менее, во многих при- ложениях включение лагированной зависимой переменной в модель % устранит проблему автокорреляции. Следует подчеркнуть, что тест Дарбина—Уотсона неприемлем для модели, в которой присутствует лагированная зависимая переменная. В разделе 5.2.1 особое внима- ние уделяется моделям как с автокорреляцией, так и с лагированной зависимой переменной. 4.10.2. Состоятельные стандартные ошибки МНК-оценок, учитывающие гетероскедастичность и автокорреляцию Снова рассмотрим нашу основную модель yt = x'tP + et, D.69) где члены ошибок et подвержены автокорреляции. Если эта мо- дель нас интересует, например, потому что мы хотим узнать услов- ное математическое ожидание зависимой переменной yt при усло- вии хорошо-специфицированного вектора объясняющих переменных #£, то мы можем использовать ОМНК-оценки или обычные МНК- оценки, но последние — с обязательной коррекцией их стандартных ошибок. Этот последний подход особенно полезен, если можно дока- зать, что корреляция между остатками et и St-S (фактически) равна нулю, начиная с некоторой глубины лага Н, и/или когда условия состоятельности ОМНК-оценок оказались нарушены. Если £{ад} = 0и £{et£t-e} = 0 для s = Я, Я+1,... , то МНК- оценка Ъ вектора параметров /3 состоятельна, и ее ковариационную матрицу можно оценить как V*{b}=(j2^x't) TS*(^xtx't) , D.70) 4=1 ' 4=1 '
186 4. Гетероскедастичность и автокорреляция где т 1 я-1 т 5* - - ^Ге^г^ + - ]Г ^ ^ e^^^-j + xe_jff/e). D.71) Заметим, что если Wj = О, то мы получим ковариационную матрицу Уайта, которая рассматривалась в п. 4.3.4, так что выражение D.70) является обобщением. В стандартном случае Wj = 1, что может при- вести к оцененной ковариационной матрице для конечных выборок, которая не является положительно определенной. Чтобы предот- вратить такой случай, обычно используют веса Бартлетта, которые предложены Невье и Вестом (Newey, Wast, 1987). Эти веса с возрас- танием j, убывают линейно как Wj = 1 — j/H. Применение такого множества весов сопоставимо с идеей, что воздействие автокорреля- ции порядка j убывает с ростом \j\. Стандартные ошибки, вычис- ленные с помощью выражения D.70), называются состоятельны- ми стандартными ошибками с учетом гетероскедастичности и автокорреляции (СГА) или просто стандартные ошибки в форме Невье—Веста. Иногда стандартные ошибки СГА применя- ются также, когда автокорреляция, строго говоря, не ограничена Н лагами, например, с авторегрессионной структурой. Теоретически это можно оправдать, применяя асимптотическое доказательство, что Н возрастает с Г при Т стремящемся к бесконечности (но Н возрастает не так быстро как Т). Возможно, что эмпирически для малых выборок асимптотика очень хорошо не работает. Чтобы интуитивно почувствовать выражение D.71), поучитель- но заметить, что S* является оценкой для асимптотической ковари- ационной матрицы выборочного среднего 1 Т (сравните с доказательством B.33) в главе 2). Предположим, что St был бы наблюдаемым, тогда можно думать об оценивании этой ковариационной матрицы в виде -^StSsXtX^ s,t где суммирование проводится по всем соответствующим элементам (симметрично по s и t). Эта оценка фактически несостоятельна, поскольку, например, ковариация между x\Si и хт&т оценивается
4.10. Что делать, когда Вы находите автокорреляцию? 187 лишь по одной выборочной точке данных. Этим объясняется, почему мы должны ограничить структуру автокорреляции. При нулевой автокорреляции при длине лагирования Н или более, суммирование проводится только по |s — t\ < Н — 1,и вышеприведенная функция оценивания становится состоятельной. Веса Бартлетта гарантируют, что для каждой выборки оценка 5* является положительно определенной. Это можно понять, посмотрев на ковариационную матрицу «краткосрочной» суммы Я-1 / ^ xt-jet-ji которая имеет вид .я-1 . VI J2 xt-J£t-j \ = HE{e2txtx't} + ^ 3=0 > + (Я - 1) [Eietst-ixtx^} + Eiet^etxt^x't}] + ... + + [E{etet-H+iXtxft-H+i} + E{et-H+i£tXt-H+ix't}] = Я-1 , . v = H^ll-jj) [Eietet-jXtx^j} + E{et4etxt4x't}}. Эта ковариационная матрица является положительно определенной по построению. Деление на Я, а также замена операторов математи- ческого ожидания выборочными средними и замена остатков St на остатки et, приводит к матрице 5*. Поскольку для одной выборки существует только одно выборочное среднее т f)J2XtSt' ' t=i то мы оцениваем его дисперсию, рассматривая внутривыборочную дисперсию «краткосрочных» динамических средних Я-1 ( Я ) Е xt-Jet-3i 3 = и делим ее на объем выборки Г. Поскольку матрицей 5* оценивается асимптотическая ковариационная матрица, то есть ковариацион- ная матрица для vT умноженного на выборочное среднее, то этот множитель A/Т) в выражении D.71) вновь исчезает. Отметим, что
188 4. Гетероскедастичность и автокорреляция при отсутствии автокорреляции мы могли бы оценить дисперсию выборочного среднего как выборочную дисперсию xt£t, деленную на Г. И, наконец, факт замены в оценке ненаблюдаемых остатков et МНК-оцененными остатками et не имеет никаких асимптотических последствий. 4.11. Пример: рисковая премия на валютных рынках Трейдер, заказывающий товар за границей, за который следует про- извести оплату в некоторый более поздний срок (на некоторую дату), может делать свои необходимые платежи по-разному. В качестве примера рассмотрим немецкого трейдера, который в конце текущего месяца оформляет счет на поставку определенного количества кофе на сумму 100 000 долларов США, который он должен оплатить в конце следующего месяца. Первая стратегия оплаты счета состоит в том, чтобы купить доллары в настоящее время и держать их на депозите до конца следующего месяца. Такая стратегия имеет оче- видное последствие. Трейдер не получит немецкую (одномесячную) процентную ставку за этот месяц, а получит процентную ставку США (предполагая, что он держит долларовую сумму на амери- канском депозите в течение месяца). Вторая стратегия состоит в том, чтобы купить доллары на так называемом форвардном рынке. Там определена цена (обменный курс), которую следует заплатить за доллары при их поставке в конце следующего месяца. Эта фор- вардная ставка согласована в текущем периоде и должна быть заплачена за доллары при их поставке (через месяц). Предполагая, что форвардный контракт является безрисковым (игнорирующий риск по умолчанию, который обычно является очень малым), трей- дер будет индифферентен в выборе из этих двух стратегий. Обе возможности не несут риска, и поэтому ожидается, что обе страте- гии приводят к одинаковой доходности в конце следующего месяца. В противном случае арбитражные возможности привели бы к безри- сковой прибыли. Подразумеваемое равенство разницы процентных ставок (немецкой и американской) и разницы между форвардной ставкой и спот-ставкой известно как условие паритета покрытых процентных ставок (ПППС).
4.11. Пример: рисковая премия на валютных рынках 189 Третья возможность трейдера оплатить счет в долларах просто состоит в ожидании конца следующего месяца, а затем в покупке долларов США по еще неизвестному обменному курсу. Если делается обычное предположение, что трейдер не расположен к риску, то для него привлекательно взять на себя только дополнительный риск об- менного курса, если только можно ожидать, что будущая спот-ставка (выраженная в немецких марках за доллар) будет ниже форвардной ставки. Если дело обстоит так, мы говорим, что рынок не возра- жает оплатить страховую премию за риск — рисковую премию. При отсутствии рисковой премии (форвардная ставка равняется ожидаемой спот-ставке) паритет покрытых процентных ставок под- разумевает паритет непокрытых процентных ставок (ПНПС), который говорит, что разница в процентных ставках между двумя странами равняется ожидаемому относительному изменению в об- менном курсе. В этом параграфе на основе регрессионных моделей мы рассмотрим тесты на наличие рисковой премии на форвардном валютном рынке. Дополнительную литературу по этим проблемам можно найти, например, в работах (Frankel, 1993), (Isard, 1995) и (Stoll, Whaley 1993), где последний источник ориентирован на фи- нансовый контекст. 4.11.1. Понятия и обозначения Для немецкого инвестора возможно страхование (хеджирование) против валютного риска посредством покупки во время t необхо- димого количества долларов США для их поставки во время t + 1 по известной ставке Ft — форвардному валютному курсу. Таким образом, Ft является ставкой во время £, по которой доллары могут быть куплены и проданы (через форвардный контракт) во время t + 1. Безрисковые процентные ставки для Германии и США обо- значаются Rfit+i и I^ff+i соответственно. Для немецкого инвестора инвестиции в американских депозитах могут быть сделаны безриско- выми через хеджирование на форвардном валютном рынке. Таким образом, безрисковые инвестиции для немецкого инвестора дали бы доходность R"ts+1 +log Ft-log St, D.72) где St является текущим спот-курсом (текущим курсом обмена). Чтобы избежать безрисковых арбитражных возможностей (и неогра- ниченной прибыли для инвесторов), эта доходность должна равнять- ся безрисковой доходности на немецких депозитах, то есть должно
190 4. Гетероскедастичность и автокорреляция быть справедливо, что Я&+1 - Ruf?+X = log Ft - log St, D.73) Правая сторона уравнения D.73) известна как (отрицательный) фор- вардный дисконт, в то время как левая сторона называется разницей в процентных ставках. Условие D.73) известно как паритет покрытых процентных ставок и является чистым безарбитражным условием, которое поэтому удовлетворяется на практике почти неверное (если трансакционные затраты незначительны). Альтернативные инвестиции соответствуют инвестициям в аме- риканские депозиты без страхования валютного риска. Доходность на этих рисковых инвестициях равна R"ts+1 + log St+1-log St, D.74) математическое ожидание которой равняется доходности D.72), если Et{logSt+i} = log Ft или Et{st+i} = fu где строчные буквы обозначают логарифмы заглавных букв, a Et{-} обозначает условное математическое ожидание при условии всей доступной информации на момент времени t. Равенство Et{8t+i} = ft вместе с паритетом покрытых процентных ставок подразумевает условие паритета непокрытых процентных ставок, которое говорит, что разница в процентных ставках между двумя странами равняется ожидаемому изменению обменного курса, то есть R%+x - R%?+1 = Et{log St+i} - log St. D.75) Во многих макроэкономических моделях используется это условие ПНПС. Одно из его последствий состоит в том, что малая страна не может ни контролировать свой внутренний уровень процентной ставки, ни свой обменный курс. В последующем внимание будет уделено освещению вопроса, справедлив ли паритет непокрытых процентных ставок, то есть, существует ли рисковая премия на форвардных валютных рынках. Причина, почему ожидаемая фьючерсная спот-ставка Et{st+i} может отличаться от форвардной ставки /$, заключается в суще- ствовании рисковой премии. Возможно, что рынок желает платить рисковую премию, чтобы брать на себя риск обменного курса в доходности D.74). При отсутствии рисковой премии хеджирование
4.11. Пример: рисковая премия на валютных рынках 191 против валютного риска свободно, и любой инвестор может исклю- чить свой риск обменного курса полностью без затрат. Заметим, что рисковая премия определена как разница меж- ду ожидаемым логарифмом фьючерсной спот-ставки и логарифмом форвардной ставки. Исключение логарифма имеет важное возраже- ние, что выражение обменных курсов в одной или другой валюте больше неуместно. В логарифмическом случае это несущественно, поскольку Et{log 5t+\} - log F, = -Et{log St+i} + bg Ft. 4.11.2. Тесты на рисковую премию на одномесячном рынке Один из подходов к тестированию на наличие рисковой премии ос- нован на простой структуре регрессии. В этом пункте параграфа мы обсудим тесты на наличие рисковой премии на одномесячном форвардном рынке, используя ежемесячные данные. То есть, выбо- рочный такт времени в точности соответствует продолжительности срочного контракта. Эмпирические результаты представлены для од- номесячных форвардных контрактов относительно обменных курсов немецкие марки/доллары США и доллары США/фунты стерлин- гов, используя ежемесячные данные за период с января 1979 г. по август 1994 г. Применение ежемесячных данных для тестирования на рисковую премию на трехмесячном форвардном рынке обсужда- ется в следующем пункте параграфа. Гипотезу отсутствия рисковой премии можно написать как Я0:Я*_1Ы = Л_1. D.76) Простой способ тестирования этой гипотезы использует известный результат, что разность между случайной переменной и ее условным математическим ожиданием при условии определенного информа- ционного множества некоррелирована с любой переменной из этого информационного множества, то есть, E{(st-Et-1{st})xt-1} = 0 D.77) для любого Xt-i, который известен в момент времени t—1. Из этого мы можем написать следующую модель регрессии st - ft-i = х'^/3 + еи D.78) где St = St — Et-i{st}. Если нулевая гипотеза Но истинна и если Xt-\ известен в момент времени t — 1, то должно быть справедливо, что
192 4. Гетероскедастичность и автокорреляция /3 = 0. Следовательно, нулевую гипотезу Но легко протестировать, проверкой равенства вектора параметров C нулевому вектору при заданном выборе переменных Xt-\. Ниже мы выберем в качестве компонент вектора xt-\ константу и форвардный дисконт St-i — ft-i- Поскольку St-i — ft-2 наблюдается в период t — 1, то St-i также является элементом информационного множества в момент времени t — 1. Поэтому, соотношение D.77) также подразумевает это при нуле- вой гипотезе Hq остатки в модели регрессии D.78) не имеют никакой автокорреляции. Таким образом, наличие автокорреляции остатков St является показанием наличия рисковой премии. Заметим, что гипотеза ничего не говорит о дисперсии St, допуская возможное от- сутствие гомоскедастичности, и, следовательно, гетероскедастично- состоятельные стандартные ошибки МНК-оценки должны быть ис- пользованы. Данные взяты13^ из файла DATASTREAM за период с января 1979 г. по август 1994 г. Использовались два обменных курса: немец- кие марки/доллары США и доллары США/фунты стерлингов — где, следуя стандартным соглашениям, первый валютный курс вы- 3.5 3.0 2.5 2.0 1.5 1.0 (немецкие марки/доллары США) /А/ \'(доллары США/фунты стерлингов) —i 1 1 1 1 г 80 82 84 н 1 1 1— 88 90 —\ 1 1— 92 94 86 Рисунок 4.5. Валютные курсы: немецкие марки/доллары США и доллары США/фунты стерлингов, январь 1979 г. - август 1994 г. ) Данные для этого примера доступны в FORWARD.
4.11. Пример: рисковая премия на валютных рынках 193 0.012 0.008 0.004- 0.000Н -0.004 Н -0.008 (немецкие марки/доллары США) (доллары США/фунты стерлингов) I л 80 82 84 86 88 —г- 90 п 1— 92 —г~ 94 Рисунок 4.6. Форвардные дисконты: немецкие марки/доллары США и доллары США/фунты стерлингов, январь1979г. - август1994г. ражается в немецких марках за доллар США, тогда как второй валютный курс выражается в долларах США за фунт стерлинг. Динамика этих двух обменных курсов представлена на рисунке 4.5. Посмотрев на этот рисунок, мы можем предположить слабость дол- лара США относительно немецкой марки и фунта стерлинга в начале восьмидесятых и в конце 1980-х - начале 1990-х годов. На рисунке 4.6 для обоих обменных курсов представлен график ежемесячных форвардных дисконтов St — ft- Для немецкой марки спот-курс почти во всех месяцах выше форвардной ставки, которая при условии паритета покрытых процентных ставок подразумева- ет, что американская номинальная процентная ставка превышает немецкую ставку. По-видимому, обратное имеет место только в те- чение последних двух лет. Далее регрессионное уравнение D.78) оценивалось с помощью МНК при xt-\ = A, St-i — ft-i)'- Результаты для валютного курса доллары США/фунты стерлингов представлены в таблице 4.12. Поскольку форвардный дисконт имеет свойства лагированной за- висимой переменной (разность st-i — ft-i коррелирована с £t_i), то тест Дарбина—Уотсона неприемлем. Самая простая альтернатива состоит в применении теста Бреуша—Годфри, который основыва- ется на вспомогательной регрессии МНК-оцененных остатков е* на
194 4. Гетероскедастичность и автокорреляция Таблица 4.12. Результаты применения МНК к уравнению D.78) Зависимая переменная: St — ft-i Переменная константа st - ft-i Оценка -0,0078 3,8131 Стандартная ошибка 0,0035 1,0163 ^-отношение -2,266 3,752 8 = 0,0355, В2 = 0,0707, R2 = 0,0657, F = 14,076. остатки et-i и константу (см. выше), а затем вычисляется TR К Мы можем протестировать наличие автокорреляции более высоких порядков включением дополнительных лагов, например, et-2 и е^-з- Таким образом можно протестировать нулевую гипотезу об отсут- ствии автокорреляции против альтернативной гипотезы о наличии автокорреляции от 1-го и (вплоть до) 12-го порядка. Критические статистики равны 0,54 и 12,06. При 5%-х критических значениях, равных 3,84 и 21,0 (для х\ и у^2 соответственно), отклонение нуле- вых гипотез не подразумевается. Значения t-статистик в регрессии указывают, что свободный член значимо отличается от нуля и, в то время форвардный дисконт имеет значимо положительный коэф- фициент. Совместный тест на эти два ограничения C = 0 приводит к /-статистике, равной 7,08 (р — 0,001), так, что нулевая гипотеза отсутствия рисковой премии отклоняется. Эти числа означают, что если номинальная британская процентная ставка превышает амери- канскую процентную ставку, так что форвардный дисконт st-i — /t-i превышает 0,002 (например, с 1988 года), то разность Et-i{st} — ft-i положительна. Таким образом, британские инвесторы могут продать свои фунты на форвардном рынке по ставке, например, 1,75 доллара США, в то время как ожидаемый спот-курс, например, 1,77 доллара США. Британские импортеры, которые хотят застраховаться против риска обменного курса для своих заказов в США, должны оплатить рисковую премию. С другой стороны американские трейдеры от это- го получают прибыль; в то же самое время они могут застраховаться против валютного риска и обналичить (!) рисковую премию 15К Ниже для определения Т в TR во вспомогательных регрессиях мы исполь- зуем эффективное число наблюдений. С отрицательной рисковой премией нет никакой фундаментальной проблемы. В то время как это означает, что ожидаемая доходность ниже доходности
4.11. Пример: рисковая премия на валютных рынках 195 Применяемые выше t-статистики, обоснованы только асимпто- тически, при условии, что остатки et не показывают никакой авто- корреляции, что гарантируется условием D.77), и что et являются гомоскедастичными. Критическую статистику Бреуша—Пагана для проверки гетероскедастичности можно вычислить как TR2 вспо- могательной регрессии квадрата МНК-оцененного остатка е2 на константу и разность st-i — /t-i, которая приводит к незначимому значению 3,03. Очевидно, нет никакой причины сомневаться в при- менимости обычных стандартных ошибок для МНК-оценок. Подобным способом мы можем протестировать наличие риско- вой премии в форвардной ставке немецкие марки/доллары США. Результаты этой регрессии следующие: st - Л_! = 0,0024 + 0,176 (*t-i - /t_i) + eu R2 = 0,0002, @,0047) A,007) BGA) = 0,02, BGA2) = 10,48. Здесь BG{h) обозначает тестовую статистику Бреуша—Годфри для автокорреляции вплоть до h-vo порядка. Для валютного курса немецкие марки/доллары США наличие рисковой премии не най- дено: коэффициенты регрессии отличаются от нуля незначимо, и гипотеза отсутствия автокорреляции не отклоняется. 4.11.3. Тесты на рисковую премию при применении перекрывающихся выборок В п. 4.11.2 анализ ограничивался одномесячным форвардным рын- ком иностранной валюты. Конечно, форвардные рынки существуют с другими сроками оплаты, например, с трехмесячными или шести- месячными сроками. В этом подразделе мы обратим внимание на вопрос, до какой степени можно использовать методы, обсужденные в предыдущем разделе, чтобы проводить тестирование наличия рис- ковой премии на трехмесячном форвардном рынке. Тем не менее, выборочный такт времени в один месяц сохраняется. Обозначим логарифмическую цену трехмесячного форвардного контракта через /t3. Тогда нулевую гипотезу отсутствия рисковой на безрисковые инвестиции, фактическая доходность может все еще превы- шать безрисковый валютный курс в ситуациях, которые являются особенно интересными инвестору. Например, страхование от пожара вашего дома, как правило, имеет отрицательную ожидаемую доходность, но большую положи- тельную доходность в специфическом случае, если ваш дом сгорит дотла.
196 4. Гетероскедастичность и автокорреляция премии можно сформулировать как #о : Et-3{st} = Л3_з- D-79) Используя как и прежде аналогичные аргументы, модель регрессии, подобную модели D.78), можно написать как st-fl3 = x't_zP + et, D.80) где et = st-Et-3{st}. Если #£_з наблюдается в момент времени t — 3, то при нулевой гипотезе Но вектор C в регрессии D.80) должен равняться нулю. Простое применение МНК для оценивания параметров модели D.80) с вектором xt-3 = (Mt-з ~ ft-зУ дает следующие результаты для валютного курса доллары США/ фунты стерлингов: st - Л3_3 = -0,020 + 3,509 (**-з - Д3_3) + et, Д2 = 0,1319, @,006) @,665) BGA) - 81,52, BGA2) = 112,92, а для валютного курса немецкие марки/доллары США: st ~ Л3_3 = ,011 + 0,243 (et-3 - Л-з) + et, Д2 = 0,0007, @,009) @,661) J3GA) - 87,51, BGA2) = 113,64. По-видимому, эти результаты означают явное присутствие риско- вой премии на обоих рынках: тесты Бреуша—Годфри на наличие автокорреляции указывают на строгую автокорреляцию, несмотря на то, что коэффициенты регрессии для рынка обмена доллары США/фунты стерлингов высоко значимы. Однако, эти заключения некорректны. Предположение, что остатки не показывают никакой автокор- реляции, было основано на наблюдении, что условие D.77) также справедливо для xt-\ =St-i, так что остатки et+i и St некорре- лированы. Однако этот результат справедлив, если только частота регистрации данных совпадает со сроком оплаты контракта. В на- стоящем случае мы имеем ежемесячные данные для трехмесячных
4.11. Пример: рисковая премия на валютных рынках 197 контрактов. Аналог условия D.77) теперь имеет вид E{(at-Et-3{8t})xt-3} = 0 D.81) для любого XtSi известного в момент времени t — 3. Следовательно, это означает, что остатки et и St-j (j = 3, 4, 5,...) некоррелированы, но не означает, что некоррелироваными являются остатки et и St-i или St-2- Напротив, эти остатки, по-видимому, будут высоко коррелированы. Рассмотрим иллюстративный случай, где (логарифмические) обменные курсы порождаются так называ- емым процессом случайного блуждания 16\ то есть, st = St-i +Vt, где rjt, являются независимыми и одинаково распределенными слу- чайными величинами с нулевым средним и дисперсией сг2 и где никакая рисковая премия не существует, то есть, ft_3 = Ets{st}- Тогда легко показать, что et = st- Ets{st} =rjt + Vt-i + Vt-2- Следовательно, структура автокорреляции остатков et описывается процессом скользящего среднего порядка 2. Если логарифмические обменные курсы не являются случайными блужданиями, член ошиб- ки St будет включать возмущения с периодами t,t — 1и£ — 2,и поэто- му St будет скользящим средним даже в более общем случае. Эта про- блема автокорреляции возникает из-за так называемой проблемы пе- рекрывающихся выборок, где частота регистрации наблюдений (еже- месячная) выше, чем интересующая нас частота данных (ежеквар- тальная). Если мы хотим проверить, выходит ли автокорреляция остатков за пределы первых двух лагов, то есть, выясняем, коррели- рован ли et с остатками от Sts ДО £t-i2? TO мы должны построить регрессию МНК-оцененного остатка et по остаткам et-3-> • • • ? et-12 и по xt. Вычисленные критические статистики Бреуша—Годфри рав- ны 8,01 и 6,04 соответственно и обе являются незначимыми для распределения хи-квадрата с 10 степенями свободы. Факт, что первые две автокорреляции остатков в регрессиях выше отличаются от нуля, подразумевает, что результаты регрессии являются не информативными для заключения о наличии рисковой премии: стандартные ошибки вычислены некорректным способом и, кроме того, тесты Бреуша—Годфри на наличие автокорреляции, Более детальное описание процессов случайного блуждания представлено в главе 8.
198 4. Гетероскедастичность и автокорреляция возможно, отклоняют нулевые гипотезы из-за первых двух авто- корреляций, отличающихся от нуля, что не вступает в конфликт с отсутствием рисковой премии. Отметим, что МНК-оценка все еще состоятельна, даже при остатке скользящего среднего. Один из способов «решить» проблему автокорреляции просто состоит в удалении двух третей информации при использовании на- блюдений только из трехмесячных интервалов. Такой способ неудо- влетворителен из-за потери информации и, следовательно, из-за потенциальной потери мощности критериев. Возможны две альтер- нативы: A) применение ОМНК для более эффективного (в надежде) оценивания модели, и B) применение МНК наряду с вычислением скорректированных стандартных ошибок (Невье—Веста). К сожале- нию, первый выбор здесь неприемлем, поскольку преобразованные данные не будут удовлетворять условиям состоятельности и ОМНК- оценки будут несостоятельны. Это обусловлено тем фактом, что регрессор Sts — ft-з коррелирован с лагированными остатками. Можно использовать альтернативные функции оценивания, кото- рые более эффективны, чем МНК, но их обсуждение выходит за рамки этого текста (см. Nijman, 1990). Поэтому мы снова рассмотрим результаты МНК-оценивания, но вычислим состоятельные стандартные ошибки с учетом гетерос- кедастичности и автокорреляции. Отметим, что достаточно взять Н = 3. Напомним, что эти стандартные ошибки также учитывают гетероскедастичность. В итоге результаты получаются следующие. Для валютного курса доллары США/фунты стерлинг мы имеем st - Л3_з = -0,020 + 3,509 (st_3 - /t3_3) + et, R2 = 0,1319, [0,008] [1,133] а для валютного курса немецкие марки/доллары США: st - Л3_3 = 0,011 + 0,243 (*t-3 " Л-з) + ^ R2 = 0,0007, [0,012] [0,919] где стандартные ошибки в квадратных скобках являются стандарт- ными ошибками в форме Невье—Веста с Н — 3. Заметим, что они существенно больше, чем стандартные ошибки, оцененные обычным способом. Однако качественно выводы не изменяются: для трех- месячного рынка доллары США/фунты стерлингов паритет непо- крытых процентных ставок следует отклонить. Поскольку паритет покрытых процентных ставок подразумевает, что st - ft = R%+i ~ ^/,t+b
Упражнения 199 где * обозначает зарубежную страну, и обменные курсы измеряются, как и прежде в единицах внутренней валюты за единицу иностран- ной валюты, то результаты подразумевают, что время от времени, когда американская процентная ставка высока относительно британ- ской процентной ставки, британские инвесторы оплачивают риско- вую премию американским трейдерам. Для немецко-американского рынка по имеющимся данным существование рисковой премии не найдено. Упражнения Упражнение 4.1 (гетероскедастичность — эмпирическая) Совокупность данных AIRQ содержит наблюдения для 30 стандарт- ных центральных статистических районов (СЦС районы) Калифор- нии за 1972 г. по следующим переменным: airq — показатель атмосферной среды (чем ниже, тем лучше); vala — добавленная стоимость компаний (в тысячах долларах США); rain — количество осадков (в дюймах); coas — фиктивная переменная (манекен), равна единице для СЦС района, расположенного на побережье и нулю в противном случае; dens — плотность населения (на квадратную милю); medi — средний доход на душу населения (в долларах США). а. Оцените линейную модель регрессии, которая объясняет зави- симость airq от других переменных, используя обычный МНК. Интерпретируйте оценки коэффициентов. б. Протестируйте нулевую гипотезу, что средний доход на душу населения не влияет на атмосферную среду. Протестируйте совместную нулевую гипотезу, что ни одна из переменных не влияет на атмосферную среду. в. Протестируйте, различаются ли дисперсии членовостатков для прибрежных и неприбрежных районов, применяя тест из п. 4.4.1. Принимая во внимание результат тестирования, прокомменти- руйте обоснованность критерия для пункта б.
200 4. Гетероскедастичность и автокорреляция г. Выполните тест Бреуша—Пагана на наличие гетероскедастич- ности, связанной со всеми пятью объясняющими переменными. д. Выполните тест Уайта на наличие гетероскедастичности. Про- комментируйте уместность теста Уайта в свете числа наблюде- ний и степеней свободы критерия. е. Предполагая, что имеется мультипликативная гетероскедастич- ность связанная с объясняющими переменными coas и medi, оцените коэффициенты регрессии, построением регрессии log ef на эти две переменные. Протестируйте нулевую гипотезу о наличии гомоскедастичности на основе этой вспомогательной регрессии. ж. Используя результаты из пункта е, вычислите РОМНК-оценку для линейной модели. Сравните ваши результаты с результата- ми, полученными в пункте а. Выполните заново тесты пункта б. з. Прокомментируйте приемлемость использования R2 в регрес- сии пункта ж. Упражнение 4.2 (автокорреляция — эмпирическая) Рассмотрите данные, и модель из параграфа 4.8 (спрос на моро- женое). Расширьте модель включением лагированного потребления (а не лагированной температуры). Выполните тест на наличие авто- корреляции первого порядка для этой расширенной модели. Упражнение 4.3. (теория автокорреляции) а. Объясните, что означает «область неопределенности» для теста Д арбина—Уотсона. б. Объясните, почему автокорреляция может возникнуть врезуль- тате некорректного функционального вида уравнения регрес- сии. в. Объясните, почему автокорреляция может возникнуть из-за не включения существенной объясняющей переменной. г. Объясните, почему добавление лагированных зависимых пере- менных и лагированных объясняющих переменных в модель устраняет проблему автокорреляции остатков первого порядка. Приведите, по крайней мере, две причины, почему такое реше- ние не обязательно предпочтительно. д. Объясните, что подразумевается под проблемой «перекрываю- щихся выборок». В чем состоит эта проблема?
Упражнения 201 е. Приведите пример, когда автокорреляция первого порядка при- водит к несостоятельности МНК-оценки. ж. Объясните, когда Вы могли бы использовать стандартные ошиб- ки в форме Невье—Веста. з. Опишите по шагам, как бы Вы вычислили РОМНК-оценку для вектора параметров C в стандартной модели с автокорреляцией (второго порядка) в виде et = PiSt-i+p2£t-2+vt. (Вы не должны беспокоится по поводу начального наблюдения(ий).)
5 Эндогенность, инструментальные переменные и обобщенный метод моментов (ОММ) До сих пор предполагалось, что остатки в линейной модели ре- грессии были одновременно некоррелированы ("contemporaneously uncorrected") с объясняющими переменными, или даже, что они бы- ли независимы от всех объясняющих переменных1^. В результате линейная модель могла интерпретироваться как описание зависимо- сти условного математического ожидания зависимой переменной yt от заданных значений объясняющих переменных Xt- В этой главе мы обсудим случаи, в которых нереально или невозможно рассмат- ривать объясняющие переменные в модели как фиксированные или экзогенные переменные. В таких случаях некоторые из объясняю- щих переменных могут быть коррелированы с остатком уравнения, так что МНК-оценка окажется смещенной и несостоятельной. Су- ществуют разные причины, почему можно утверждать, что остатки одновременно коррелированны с одной или более объясняющими переменными, но общий вывод заключается в том, что линейная ^ Напомним, что независимость более строгое условие, чем некоррелированность (см. Приложение Б).
5.1. Обзор свойств МНК-оценки 203 модель больше не соответствует условному математическому ожи- данию или наилучшей линейной аппроксимации. В параграфе 5.1 мы начинаем с обзора свойств МНК-оценки в линейной модели при разных наборах предположений. В парагра- фе 5.2 обсуждаются случаи, когда нельзя показать, что МНК-оценка должна быть несмещенной или состоятельной. В таких случаях, мы должны искать альтернативные оценки. В параграфах 5.3 и 5.5 рассматривается оценка методом инструментальных переменных (МИП-оценка), тогда как в параграфе 5.6 мы обобщаем класс МИП- оценок, рассматривая их как частный случай обобщенного метода моментов (ОММ), который позволяет оценивать и нелинейные мо- дели. В параграфах 5.4 и 5.7 приводятся эмпирические примеры, касающиеся отдачи от образования и оценивания моделей ценообра- зования финансовых активов, соответственно. 5.1. Обзор свойств МНК-оценки Рассмотрим опять линейную модель yt = x't0 + et, t = l,2,...,T, E.1) или в матричной системе обозначений у = Х0 + е. E.2) В главах 2 и 4 мы видели, что МНК-оценка b является несмещенной для вектора неизвестных параметров /3, если можно предположить, что вектор остатков е имеет нулевой вектор средних и вектор услов- ных средних, не зависящий от матрицы X, то есть, i?{£|X} = О (предположение (А10) из главы 4). Это говорит о том, что знание любой из объясняющих переменных неинформативно в отношении значения математического ожидания любого из остатков. Предпо- ложение независимости матрицы X и вектора остатков е вместе с предположением Е{е} = 0 (предположения (А1) и (А2) из раз- дела 2.3) означает, что £"{£|Х} = 0, но является более строгим, поскольку не позволяет ковариационной матрице вектора остатков е также зависеть от матрицы X. Во многих случаях предположение, что вектор остатков е име- ет условное среднее, не зависимое от X, слишком строгое. Чтобы проиллюстрировать это, начнем с примера. Гипотеза эффективно- го рынка (при постоянных ожидаемых доходностях) подразумевает,
204 5. Эндогенность, инструментальные переменные и ОММ что доходности на любой финансовый актив непредсказуемы по лю- бой публично доступной информации. При так называемой слабой форме гипотезы эффективного рынка доходности финансового ак- тива невозможно спрогнозировать из их собственной предыстории (см. основополагающую статью (Fama, 1970)). Эту гипотезу можно протестировать статистически, используя модель регрессии и тести- руя, объясняют ли лагированные доходности текущие доходности. Таким образом, в модели Vt = Pi+ foyt-i + foyt-2 + eu E.3) где yt обозначает доходность в такте времени £, нулевая гипотеза слабой формы эффективности означает, что /?2 = /?з — 0. Поскольку объясняющие переменные являются лагированными зависимыми пе- ременными (которые являются функцией лагированных остатков), предположение i?{£|X} = 0 является нереалистичным. Тем не менее, мы можем сделать более слабые предположения, согласно которым МНК-оценка является состоятельной для /3 = (/3i, /З2, РзУ - В обозначениях более общей модели E.1), рассмотрим следую- щую совокупность предположений: xt и St независимы (для каждого £), (А8) et~HOP{0,a2), (АН) где (АН) является краткой записью, говорящей, что остатки et неза- висимы и одинаково распределенны с нулевым средним и диспер- сией a . При некоторых дополнительных условиях регулярности ' МНК-оценка Ь состоятельна для вектора неизвестных параметров /3 и распределена асимптотически нормально с ковариационной мат- рицей cr2£~J, где, как и прежде, 1 Т ^хх = plim — y^xtx't. T^ool t=1 Формально имеет место VT{b-P)-.N{0,a2Y,-lx), E.4) Мы не предоставляем здесь никаких доказательств или выводов. Заинтере- сованный читатель отсылается к более продвинутым учебникам, например (Hamilton, 1994, глава 8). Самое важное «условие регулярности» состоит в том, что матрица Ехх является конечной и обратимой (сравните с предполо- жением (А6) из раздела 2.6).
5.1. Обзор свойств МНК-оценки 205 что соответствует результату B.74) из главы 2. Таким образом, для малых выборок приближенно справедливо 6~Л/-(/3, а2(Д>*;) У E.5) Этот результат относительно распределения МНК-оценки являет- ся таким же, как и результат, полученный при предположениях Гаусса—Маркова (А1)-(А4) вместе с предположением нормальности остатков (А5), хотя результат E.5) действителен только приближен- но на основании асимптотического результата E.4). Это означает, что все стандартные критерии для линейной модели (t -критерий, F -критерий, критерии Вальда) являются справедливыми прибли- женно при условии, что удовлетворяются предположения (А8), и (А. 11). Для того, чтобы был действителен результат асимптоти- ческого распределения E.4), мы должны предположить, что вектор объясняющих переменных Xt и остаток et независимы (для лю- бого t). Это означает, что зависимость вектора xs от остатка et допускается до тех пор, пока s ф t. Самым важным примером такой ситуации является включение лагированной зависимой переменной. Настоящий результат говорит о том, что до тех пор, пока остатки независимо и одинаково распределены, присутствие лагированной зависимой переменной в векторе xt влияет на свойства МНК-оценки только при малых выборках, но не влияет на асимптотическое рас- пределение. При предположениях (А8) и (All) МНК-оценка состоя- тельна и асимптотически эффективна. Предположение (АН) исключает наличие автокорреляции и гетероскедастичности в остатке et- В вышеприведенном примере можно исключить наличие автокорреляции, поскольку она наруша- ет гипотезу эффективного рынка (о том, что доходности должны быть непредсказуемыми). Предположение гомоскедастичности более проблематично. Гетероскедастичность может возникнуть, если бо- лее вероятно, что остаток будет принимать экстремальные значения при специфических значениях одного или более регрессоров. В этом случае дисперсия остатка et зависит от вектора объясняющих пере- менных xt. Точно так же возмущения в финансовом временном ряде обычно имеют тенденцию к кластеризации во времени, то есть, более вероятно, что большие возмущения будут сопровождаться большими возмущениями в любом из двух направлений. Так, например, после краха фондовой биржи трудно прогнозировать, повысятся или по- низятся курсы акций в последующие такты времени, и ясно, что в
206 5. Эндогенность, инструментальные переменные и ОММ этот период времени на рынке существует намного большая неопре- деленность, чем в другие периоды. В этом случае, дисперсия ошибки St зависит от предыдущих возмущений £t_i, £t-i-> • • • • Такие случаи называются условной гетероскедастичностью, или иногда акронима- ми АРУГ или ОАРУГ, которые конкретизируют спецификации для моделирования такого феномена 3^*^. После отказа от предположения (All) больше нельзя утвер- ждать, что cr2S~J является соответствующей ковариационной мат- рицей, и что приближенно справедливо выражение E.5). Однако, в общем, состоятельность и асимптотическая нормальность b не затра- гивается. Кроме того, асимптотически справедливые выводы можно сделать, если мы оцениваем ковариационную матрицу другим спо- собом. Ослабим предположения (А8) и (All) до предположений E{xtst} = 0 для каждого £, (А7) St — сериально некоррелированы , . (А12) и имеют нулевые математические ожидания. Предположение (А7) налагает условие, что вектор объясняющих переменных xt некоррелирован 4^ с остатком St, тогда как предполо- жение (А12) допускает гетероскедастичность в остатке, но исключает наличие автокорреляции. При некоторых дополнительных условиях регулярности, можно показать, что МНК-оценка Ъ состоятельна для вектора параметров /3 и асимптотически нормальна, а именно y/f(b - Р) -> Л/-@, S-^SS-i), E.6) где 1 т л / Е ее plim-^едх,. Г В этом случае, асимптотическую ковариационную матрицу можно оценить по методу Уайта (см. главу 4). Следовательно, асимптоти- ^ АРУГ является сокращенным обозначением для Авторегрессионной Условной Гетероскедастичности, а ОАРУГ — сокращенное обозначение для Обобщенной Авторегрессионной Условной Гетероскедастичности. Более подробно мы будем обсуждать это в главе 8. *) В англоязычной литературе эти ситуации обозначаются с помощью ARCH- и GARCH-моделей, соответственно: AutoRegressive Conditional Heteroskedasticity and Generalized ARCH (примеч. научн. ред. перевода). ) Заметим, что E{xtzt} = cov {xtzt}, если хотя бы одна из переменных xt и zt имеет нулевые средние значения (см. Приложение Б).
5.1. Обзор свойств МНК-оценки 207 ческая ковариационная матрица , т \-1Т /т \-х v{b} = J2 х*< Ее"х>< (Е х*<) ' E-7) 4=i ' t=i m=i ' где et обозначает МНК-оцененный остаток, является состоятельной оценкой для истинной ковариационной матрицы МНК-оценки при предположениях (А6), (А7) и (А12). Следовательно, все стандарт- ные критерии для линейной модели асимптотически справедливы при наличии гетероскедастичности неизвестного вида, если критиче- ские статистики скорректированы заменой стандартной оценки для МНК ковариационной матрицы состоятельной оценкой при наличии гетероскедастичности E.7). В некоторых случаях люди интересуются прогнозами доходно- стей в долгосрочном горизонте, например, в горизонте нескольких лет. В принципе, тестирование долгосрочных прогнозов можно осу- ществлять по тем же самым схемам, что и тестирование кратко- срочных прогнозов. Однако, например, для пятилетних горизонтов это означало бы, что можно проанализировать только ограничен- ное число пятилетних доходностей, даже если выборочный период охватывает несколько десятилетий. Поэтому при тестировании про- гнозируемое™ доходностей в долгосрочном горизонте, как правило, пытаются использовать доступную информацию более эффективно, применяя перекрывающиеся выборки (сравните с п. 4.11.3); см. для приложений статью (Fama, French, 1988). В этом случае пятилет- ние доходности вычисляются за все периоды пяти последовательных лет. Игнорируя эффекты второго порядка, доходность за пять лет является просто суммой пяти ежегодных доходностей, так что до- ходность за 1990-1994 годы частично перекрывается, например, с доходностью за 1991-1995 годы и 1992-1996 годы. Обозначая доход- ность в году t как yt, пятилетняя доходность за годы от t до t + 4 задается в виде 4 j=0 Чтобы протестировать прогнозы этих пятилетних доходностей, пред- пол ожим, что мы оцениваем модель, которая объясняет Yt его зна- чением в предыдущий пятилетний период (У^_5), используя данные за каждый год, то есть Yt = 65 + 65Yt-5 +eu t = 1,..., Г (годы). E.8)
208 5. Эндогенность, инструментальные переменные и ОММ Все Т еэюегЬдных наблюдений в выборке по пятилетним доход- ностям регрессируют на константу и пятилетнюю доходность, ла- гированную пятью годами. В этой модели остаток подвержен ав- токорреляции из-за проблемы перекрывающихся выборок. Чтобы объяснить проблему перекрывающихся выборок, предположим, что для ежегодных доходностей справедлива следующая модель yt =6г + 0ij/t-i +ut, E.9) где остаток щ не подвержен никакой автокорреляции. При нулевой гипотезе, что в\ — 0, можно показать, что 8$ = Ъ8\ и 6$ — 0, тогда как 4 3=0 Следовательно, ковариация между et и St-j отличается от нуля до тех пор, пока j < 5. Из главы 4 мы знаем, что присутствие автокорре- ляции делает недействительными обычно вычисляемые стандартные ошибки, включая стандартные ошибки, основанные на состоятель- ной ковариационной матрице при наличии гетероскедастичности E.7). Однако если мы можем все еще предположить, что регрес- соры одновременно некоррелированны с остатками (условие (А7)) и автокорреляция равна нулю после Н тактов времени, то можно показать, что все результаты, основанные на предположениях (А7) и A2), справедливы, если ковариационная матрица МНК-оценки оценивается с помощью оценки Невье—Веста (Newey, West, 1987), представленной в п. 4.10.2 ?•{*}= ($>'*0 TS*(f^xtx't) , E.10) где - т н-1 т S* = fJ2etXtX't + f^Wj 5Z е8е8-Лх8х'8Ч+х8Чх'8) E.11) t=l j = l 8=j + \ с wj — 1 — j/H. Заметим, что в вышеприведенном примере Н рав- няется 5. Как следствие, при наличии гетероскедастичности и авто- корреляции (до конечного числа лагов) стандартные критерии для линейной модели справедливы асимптотически, если мы заменяем стандартную оценку ковариационной матрицы состоятельной оцен- кой с учетом гетероскедастичности и автокорреляции E.10).
5.2. Случаи, когда нельзя пользоваться МНК-оценкой 209 5.2. Случаи, когда нельзя пользоваться МНК-оценкой В предыдущем параграфе показано, что мы можем ограничиться предположением (А7), наложив условие E{stxt} — О, по существу, не затрагивая состоятельность МНК-оценки. Если автокорреляция в остатке ограничена каким-либо образом, то все еще можно получать соответствующие выводы для такого случая, используя для ковари- ационной матрицы оценки Уайта или Невье—Веста. Предположение, что E{etxt} — 0, говорит, что остатки и объясняющие переменные являются одновременно некоррелированными. Иногда существуют статистические или экономические причины, почему мы не хотели бы накладывать это условие. В таких случаях мы больше не можем утверждать, что МНК-оценка несмещенная или состоятельная, и должны рассмотреть альтернативные функции оценивания. Некото- рые примеры таких ситуаций: присутствие лагированной зависимой переменной и наличие автокорреляции в остатке, ошибки измере- ния в регрессорах, и одновременность или эндогенность регрес- соров. Теперь поочередно рассмотрим примеры таких ситуаций. 5.2.1. Автокорреляция остатков и лагированная зависимая переменная в качестве регрессора Предположим, что интересующая нас модель задается в виде Vt = Pi+ 02Xt + /ЗзЗ/t-i + eu E.12) где xt — единственная объясняющая переменная. Вспомним, что пока мы можем предположить, что E{xtst} = 0 и E{yt-iSt} — О для всех £, МНК-оценка для вектора неизвестных параметров /3 = (/?i, /?2, 0з)' состоятельная (при условии, что выполняются неко- торые условия регулярности). Однако предположим, что остаток et подвержен автокорреляции первого порядка, то есть st = pet-i + щ. E.13) Теперь мы можем переписать модель в виде Vt = 0i + 02Xt + 03Vt-i + pet-i + vt, E.14) Но также справедливо, что yt-i =0i+ 02Xt-i + 0sVt-2 + et-u E-!5) из которого непосредственно следует, что остаток et коррелирован с лагированной зависимой переменной yt-i- Таким образом, если
210 5. Эндогенность, инструментальные переменные и ОММ р ф О, то МНК больше не приводит к состоятельным оценкам для параметров регрессии E.12). В этом случае не являются состоятель- ными ни ОМНК, ни РОМНК. Возможное решение состоит в при- менении метода максимального правдоподобия или метода инстру- ментальных переменных, которые будут обсуждаться ниже; в книге (Stewart, Gill, 1998, Sect. 7.4) представлены дополнительное обсужде- ние и подробности. Отметим, что тест Дарбина—Уотсона недействи- телен для проведения тестирования на наличие автокорреляции в мо- дели E.12), поскольку условие, что объясняющие переменные можно рассматривать как детерминированные, нарушено. Альтернативное тестирование на наличие автокорреляции проводится с помощью те- ста множителей Лагранжа Бреуша—Годфри (см. параграф 4.7, или главу 6 для общего обсуждения тестов множителей Лагранжа). Кри- тическую статистику можно вычислить как Т, умноженное на R2 регрессии МНК-оцененного остатка et на e^-i и все включенные объ- ясняющие переменные (включая существенные лагированные зна- чения yt). При нулевой гипотезе Но критическая статистика асимп- тотически имеет хи-квадрат распределение с 1 степенью свободы. Можно отметить, что в вышеприведенном примере линейная мо- дель регрессии не соответствует условному математическому ожи- данию зависимой переменной yt при заданных объясняющих пе- ременных xt и yt—1 - Поскольку знание лагированной зависимой переменной yt-i говорит нам кое-что о математическом ожида- нии остатка et, то условное математическое ожидание E{et\xt, Vt-i} является функцией от лагированной зависимой переменной yt-i- Следовательно, последний член в выражении E{yt\xu yt-i} = /?i + faxt + PsVt-i + E{et\xu yt-i} E.16) будет отличным от нуля. Поскольку мы знаем, что МНК вообще состоятелен при оценивании условного математического ожидания, то мы можем полагать, что МНК несостоятелен всякий раз, когда модель, которую мы оцениваем, не соответствует условному мате- матическому ожиданию. Таким случаем как раз и является случай, когда лагированная зависимая переменная включается в объясняю- щие переменные и остаток подвержен автокорреляции. 5.2.2. Пример с ошибкой измерения Другой пример, в котором МНК-оценка, вероятно, будет несосто- ятельна, возникает, когда объясняющая переменная измеряется с
5.2. Случаи, когда нельзя пользоваться МНК-оценкой 211 ошибкой. Предположим, что переменная yt зависит от переменной wt в соответствии с уравнением yt = Pi + fowt + щ, E.17) где vt — остаток с нулевым средним значением и дисперсией <т^. Предполагается, что Е{щ \wt} — 0, так что модель описывает матема- тическое ожидание зависимой переменной yt при заданном значении переменной wt, E{yt\wt} = 0i +fowt. В качестве примера, мы можем предположить, что зависимая пере- менная yt обозначает сбережения семьи и wt обозначает располагае- мый доход. Мы предположим, что wt не может измеряться абсолютно точно (например, из-за сообщения неточных сведений) и обозначим измеренное значение объясняющей переменной wt через xt. Для каждого наблюдения объясняющая переменная xt равняется, по по- строению, истинному значению wt плюс ошибка измерения ut, то есть xt = wt + ut. E.18) Рассмотрим следующую совокупность предположений, которая мо- жет быть приемлема в определенных приложениях. Во-первых, пред- положим, что ошибка измерения щ имеет нулевое среднее и постоян- ную дисперсию о\. Во вторых, предположим, что ошибка измерения щ независима от остатка vt в модели. Третье и наиболее важное предположение будет состоять в том, что ошибка измерения незави- сима от лежащего в основе истинного значения wt. Это означает, что истинный уровень располагаемого дохода (в нашем примере) не со- держит никакой информации о размере, знаке или значении ошибки измерения. Подставив выражение E.18) в уравнение E.17), получаем yt = Pi + foxt + ей E.19) где et = vt - 02Щ- Уравнение E.19) представляет линейную модель в терминах на- блюдаемых переменных yt и xt с остатком et- Если мы используем доступные данные относительно наблюдаемых переменных yt и xt, и не вызывающую сомнений регрессию yt на xt и константу, то МНК-оценка b является несостоятельной для вектора неизвестных параметров 0 = (/Зх,/^)', поскольку наблюдаемая переменная xt зависит от ошибки измерения щ и, следовательно, от остатка et-
212 5. Эндогенность, инструментальные переменные и ОММ То есть, E{xtst} /Ои одно из необходимых условий для состоятель- ности b нарушено. Предположим, что fa > 0. Когда ошибка изме- рения в наблюдении положительна, то при этом могут возникнуть две ситуации: Xt из E.18) имеет положительную компоненту щ, и St из E.19) имеет отрицательную компоненту —faut. Следовательно, xt и St коррелированны отрицательно, E{xt£t} — cov {xt-> £t) < 0, и из этого следует, что МНК-оценка несостоятельна для вектора пара- метров /3. Когда fa < 0, то Xt и et коррелированны положительно. Чтобы проиллюстрировать несостоятельность МНК-оценки, на- пишем МНК-оценку параметра fa в виде (см. п. 2.1.2), т "}T(xt-x)(yt-y) ь2 = ^ ' E-2°) 5>-*J где х обозначает выборочное среднее значение xt ■ Подставив выра- жение E.19) в выражение E.20), можно получить 1 Т Ь2 = fo + t=1 T • E-21) t = l При стремлении объема выборки к бесконечности, выборочные мо- менты сходятся к моментам генеральной совокупности. Таким об- разом, т plim62 = 02 + ' ' t=i „, =C2 + Щ^. E.22) Последний член в правой части этого выражения не равен нулю. Во-первых, E{xtet} = E{(wt + щ){щ - faut)} = -faa2u, и, во вторых, V{xt} = V{wt + ut} = (rl + (Tl,
5.2. Случаи, когда нельзя пользоваться МНК-оценкой 213 где aw = V{wt}. Следовательно, a2 plimb2 = /?2 1- 9 " 9 ■ E.23) Поэтому оценка 62 состоятельна, если только а^ = 0, то есть, если нет никакой ошибки измерения. Эта оценка асимптотически сме- щена к нулю, если дисперсия g\ положительна, с тем большим смещением, чем дисперсия ошибки измерения является больше от- носительно дисперсии истинной переменной wt- Отношение сг^/сг^ можно называть отношением «шума-к-сигналу», поскольку оно яв- ляется отношением дисперсии ошибки измерения (шум) к дисперсии истинных значений (сигнал). Если это отношение является малым, то мы имеем малое смещение, если отношение является большим, смещение является также большим. Так что, в общем, МНК-оценка недооценивает влияние истинного располагаемого дохода, если рас- полагаемый доход, о котором сообщают, подвержен ошибке измере- ния, не связанной с истинным уровнем. Важно отметить, что свойство несостоятельности оценки Ъ2 переносится и на оценку Ъ\ для постоянного члена f3\ — E{yt — /32xt}. В частности plimFi - /?i) = plim(y - b2x - E{yt} + C2E{xt}) = = -p\im(b2-C2)E{xt}. E.24) Так, если E{xt} > 0, то переоценка параметра наклона соответ- ствует недооцениваемому свободному члену. Таким образом, общий результат состоит в следующем: несостоятельность одного элемен- та в векторе оценок Ъ обычно переносится на все другие элементы. Снова подчеркнем, что в этом случае интересующая нас модель не соответствует условному математическому ожиданию зависимой переменной yt при заданной объясняющей переменной xt. Из урав- нения E.19) можно получить, что E{yt\xt} = /?i+ faxt ~ C2E{ut\xt}, где последний член из-за соотношения E.18) отличен от нуля. Если мы предполагаем нормальность щ, Wt и ж*, то из этого следует, что (см. Приложение Б) 2 E{ut\xt} = ^-^(xt-E{xt}).
214 5. Эндогенность, инструментальные переменные и ОММ Объединяя последние два уравнения и используя выражение E.23), мы видим, что МНК-оценка, хотя и несостоятельна для парамет- ра /?2? является состоятельной оценкой коэффициентов уравнения для условного математического ожидания сбережений yt, выражен- ного через заданное сообщенное располагаемое значение дохода xt, но это не то, чем мы интересуемся! ' 5.2.3. Одновременность: кейнсианская модель Другая важная ситуация, где мы не интересуемся условным мате- матическим ожиданием, возникает, когда интересующая нас модель содержит поведенческие параметры, обычно измеряющие причин- ные эффекты влияния объясняющих переменных, и одна или более из этих объясняющих переменных определяется одновременно с левосторонней (зависимой) переменной. Например, если мы записы- ваем кейнсианскую функцию потребления Ct = Pi + fob + et, E.25) где Ct обозначает реальное потребление на душу населения в стране, a Yt — реальный доход на душу населения, то нам хочется интер- претировать коэффициент /?2 как предельную склонность к по- треблению @ < /?2 < 1). Это означает, что /?2 имеет причинную интерпретацию, отражающую влияние дохода на потребление: на- сколько больше люди будут потреблять, если их доход увеличится на одну единицу? Однако совокупный доход Yt задается не экзогенно, поскольку будет определяться соотношением Yt = Ct + It, E.26) где It определяет реальные инвестиции на душу населения. Это уравнение является определяющим уравнением для закрытой эко- номики и говорит, что совокупное потребление плюс совокупные инвестиции должны равняться совокупному доходу. Мы предпола- гаем, что это соотношение справедливо в выборке. Предположим, что справедливо предположение (All), которое говорит, что остатки St являются независимо и одинаково распре- деленными по времени с нулевым средним и дисперсией <т2. Кроме Этот результат может быть полезным, поскольку он подразумевает, что мы можем игнорировать проблему ошибок измерения, если мы интерпретируем коэффициенты в терминах эффектов сообщенных переменных, а не в лежащих в их основе истинных величинах. Это часто не имело бы прикладного эконо- мического смысла, зато статистически никакой бы проблемы не существовало.
5.2. Случаи, когда нельзя пользоваться МНК-оценкой 215 того, предполагается, что It и St независимы (для каждого £). E.27) Последнее предположение говорит, что инвестиции It экзогенны и определяются независимо от остатка (то есть, определяются вне мо- дели). Напротив, Ct и Yt — эндогенные переменные, которые опре- деляются в модели совместно (одновременно). Модель E.25)-E.26) является очень простой моделью одновременных уравнений в струк- турной форме (или кратко: структурной моделью). Факт, что переменная Yt является эндогенной, имеет свои по- следствия для оценивания функции потребления E.25). Поскольку переменная Ct влияет на Yt в соответствии с соотношением E.26), то мы больше не можем утверждать, что Yt и et являются некорре- лированными. Следовательно, МНК-оценка для fa будет смещенной и несостоятельной. Чтобы уточнить это, полезно рассмотреть при- веденную форму этой модели, в которой эндогенные переменные Ct и Yt выражаются в виде функций от экзогенной переменной It и остатка. Решая уравнения E.25)-E.26) относительно Ct и Yt, мы получаем уравнения приведенной формы Yt = -А- + —!—Jt + —Цг^, E.28) 1-/?2 1-#2 1-Я 2 ^Г^ + Т^ + Г^ь ^9) Из уравнения E.28) следует, что cov {Yu et] = —Ц- cov {/,, st} + T^Viet] = -^-. E.30) 1 - fa 1 - fa 1 - fa Следовательно, уравнение E.25) представляет линейную модель, где регрессор Yt коррелирован с остатком et- В результате МНК, примененный к модели E.25), будет приводить к смещенным и несо- стоятельным оценкам. В соответствии с выводами, полученными в предыдущем пункте, имеем: cov{Yt,et} , v phm b2 = fa + vrY\ ' ' ' где "«} = v{^, + ^«} = p^№} + A
216 5. Эндогенность, инструментальные переменные и ОММ так что окончательно мы находим 2 plimba = & + A - &)Т//Д^ 2- E.32) Так как 0 < /?2 < 1 и а2 > 0, то МНК-оценка будет переоценивать истинную предельную склонность к потреблению /?2- Несмотря на то, что мы показали несостоятельность оценки только для коэффи- циента наклона, свободный член, в общем, также будет оцениваться несостоятельно (сравните с выражением E.24)). Эта простая модель иллюстрирует общую проблему в макро- экономических и микроэкономических моделях. Если мы рассмат- риваем уравнение, где одна или более объясняющие переменные определяются совместно с левосторонней переменной, то в этом уравнении, как правило, МНК-оценка будет несостоятельной для поведенческих параметров. Статистически это означает, что урав- нение, которое мы написали, не соответствует условному матема- тическому ожиданию, поэтому обычные предположения на остаток наложить нельзя. В следующих параграфах мы рассмотрим альтернативные под- ходы к оцениванию единственного уравнения с эндогенными регрес- сорами, используя так называемый метод инструментальных пере- менных. С учетом ослабления предположения экзогенности (А7), мы сделаем упор на то, что эти подходы требуют наложения альтерна- тивных предположений, таких, например, как предположение E.27), которое может, а, возможно, и не может соответствовать реально- сти на практике. Такие предположения могут быть мотивированы в рамках представления полной системы структурных уравнений, что требует объяснения всех эндогенных переменных и определения всех существенных экзогенных переменных. Будет показано, что, если в системе имеется достаточно экзогенных переменных, кото- рые могут выполнять функции так называемых инструментальных переменных, то интересующие нас структурные параметры можно идентифицировать и оценивать состоятельно. Уравнения приведенной формы E.28) и E.29) выражают две эн- догенные переменные в терминах экзогенной переменной и остатка. Следовательно, мы можем оценить параметры приведенной фор- мы состоятельно, применяя обычный МНК к уравнениям E.28) и E.29). Однако, параметры приведенной формы являются нелиней- ными функциями параметров структурной формы (которыми мы действительно интересуемся), и возникает вопрос, предоставляют
5.3. Оценивание методом инструментальных переменных 217 ли нам параметры приведенной формы достаточную информацию, чтобы идентифицировать все структурные параметры. Это извест- ная проблема идентифицируемости в моделях одновременных уравнений. Здесь мы не будем обсуждать идентифицируемость в контексте вывода структурных параметров из параметров приведен- ной формы. Заинтересованные читатели отсылаются к книге (Judge et a/., 1988, Chapter 14) или (Green, 2000, Chapter 16)*). Вместо этого мы рассмотрим проблему идентифицируемости как проблему поиска достаточного числа инструментальных переменных для эндогенных переменных модели. Строго говоря, это обеспечивает только необхо- димые условия идентифицируемости. 5.3. Оценивание методом инструментальных переменных В макроэкономике существует широкий диапазон моделей, пред- ставленных системами уравнений, в которых одновременно опреде- ляются множество эндогенных переменных. Рассмотрим, например уравнения спроса и предложения в зависимости от цен, дополнен- ные условием равновесия, которое говорит, что спрос и предложение должны быть равными. Получающаяся в результате система одно- временно определяет значения спроса, предложения и цены, и как правило, нельзя сказать, цены ли определяют спрос и предложе- ния, или наоборот последние величины определяют цены. Еще более простым примером является кейнсианская модель, обсужденная в предыдущем параграфе. Становится все более обычным, что при анализе подобных систем исследователь последовательно интересу- ется только каким-то одним из уравнений, не принимая во внимание его возможные связи с другими уравнениями системы. В этом случае Следует различать проблемы идентификации и идентифицируемости параметров, уравнений, систем уравнений. Первая проблема решается по- сле положительного решения второй и заключается, по существу, в выборе и реализации подходящих методов оценивания. Проблема лее идентифи- цируемости состоит в формулировке условий принципиальной возможности оценивания (параметра, уравнения, системы) по имеющимся исходным данным и в реализации методов проверки выполнения этих условий. В русскоязычной литературе эта проблема применительно к системе одновременных уравнений достаточно подробно рассмотрена в (Айвазян, 2001, гл. 3) (примеч. научн. ред. перевода).
218 5. Эндогенность, инструментальные переменные и ОММ он ставит своей целью состоятельное оценивание такого уравнения, даже если одна или более объясняющих переменных не экзогенны. В этом параграфе мы рассмотрим такой подход, демонстрируя его на некотором примере из микроэкономики. 5.3.1. Оценивание с одним эндогенным регрессором и одной инструментальной переменной Предположим, что мы объясняем индивидуальную логарифмиче- скую заработную плату у\ вектором личностных характеристик хц и числом часов х2% работы индивидуума г с помощью линейной модели Уг = x'u0i + X2ifa + £*, E-33) Из главы 2 мы знаем, что эта модель не имеет определенной интер- претации, если мы не сделаем некоторые предположения об остат- ке Si. Иначе, мы могли бы присвоить параметрам fa и fa произволь- ные значения и определить остаток е\ таким образом, что равенство в модели E.33) было бы справедливо для каждого наблюдения. До настоящего момента самая общая интерпретация состояла в том, что модель E.33) описывает условное математическое ожидание зависи- мой переменной yi или наилучшую линейную аппроксимацию yi при заданных объясняющих переменных хц и x2i- Это требует, чтобы мы наложили условия Е{вгх1г} = О, E.34) Е{вгХ2г} = 0, E.35) которые являются необходимыми для состоятельности МНК-оценки. Как только мы ослабим любое из этих условий, модель больше не бу- дет соответствовать условному математическому ожиданию зависи- мой переменной yi при заданных объясняющих переменных хц и x2i • В вышеупомянутом уравнении заработной платы остаток Si от- ражает влияние всех ненаблюдаемых факторов, от которых может зависеть заработная плата индивидуума, включая такие категории как «способности» или «интеллект». Как правило, число часов ра- боты индивидуума при неполной занятости также зависит от этих ненаблюдаемых характеристик. Если дело обстоит таким образом, то МНК состоятельно оценивает условное математическое ожидание индивидуальной заработной платы при заданных значениях, среди прочих, числа часов работы его или ее, но не состоятельно оцени- вает причинное влияние числа часов работы. То есть, МНК-оценка
5.3. Оценивание методом инструментальных переменных 219 параметра fa отражала бы различие в ожидаемой заработной плате двух произвольных индивидуумов с одинаковыми наблюдаемыми характеристиками в векторе объясняющих переменных хц, но пер- вый из них работал бы на один час больше второго. Однако это, не измеряет ожидаемое различие в заработной плате, если про- извольный индивидуум (по некоторой экзогенной причине) решит увеличить часы своей работы от #2 до Х2 + 1 часов. Причина заклю- чается в том, что в первой интерпретации ненаблюдаемые факторы, влияющие на заработную плату индивидуума, не предполагаются постоянными для этих двух индивидуумов, тогда как во второй интерпретации значения ненаблюдаемых переменных принимаются неизменными. Выражаясь иначе, при интерпретации модели в ви- де условного математического ожидания зависимой переменной, понятие «при прочих равных условиях» подразумевает равенство значений только включенных в модель переменных, в то время как для причинной интерпретации в это понятие следует включать ненаблюдаемые переменные (то есть неучтенные в модели пере- менные), отраженные в остатке. Весьма часто коэффициенты в модели регрессии интерпрети- руются как измерение причинных эффектов. В таких случаях име- ет смысл обсудить справедливость таких условий, как, например, условия E.34) и E.35). Если E{siX2i} ф 0, то мы говорим, что объясняющая переменная Х2% является эндогенной (относительно причинного эффекта fa\ Для микроэкономических уравнений за- работной платы часто является правомерным утверждение о том, что многие объясняющие переменные являются потенциально эн- догенными, включая уровень образования, членство в профсоюзе, заболевания, отрасль промышленности и семейное положение. Для примера приведем такой факт, что нет ничего необычного, прийти к заключению (по данным США), что ожидаемая заработная плата приблизительно на 10% выше, если человек состоит в браке. Ясно, что это не отражает причинный эффект переменной «находится в браке», но отражает последствие различий в ненаблюдаемых харак- теристиках состоящих и не состоящих в браке людей. Если больше не налагается условие E{eiX2i] ф 0, то МНК при- водит к смещенным и несостоятельным оценкам для параметров модели. Решение проблемы требует альтернативного метода оце- нивания. Для получения состоятельных оценок необходима уверен- ность в том, что наша модель статистически идентифицируема. А это означает, что мы должны сделать дополнительные предположения;
220 5. Эндогенность, инструментальные переменные и ОММ иначе модель не идентифицируема и тогда любая оценка обязатель- но будет несостоятельной. Чтобы убедиться в этом, возвратимся к условиям E.34)-E.35). Эти условия называются моментными условиями, они формулируются в терминах математических ожи- даний (моментов), которые подразумеваются для модели. Условия должны быть достаточными для идентифицируемости неизвестных параметров модели. То есть, К параметров в /?i и f32 должны быть такими, что справедливы следующие К уравнений: Е{{уг - х'хфх - х2ф2)х1г} = 0, E.36) E{(Vi - х'иРг - х2ф2)х2г} = 0. E.37) При оценивании модели с помощью МНК мы накладываем эти условия на оценку посредством соответствующих выборочных мо- ментов. То есть, МНК-оценка Ъ — (b[^b2y для вектора параметров /3 — (/^, f32)f является решением уравнений 1 N - ^2((уг - х'и0г + х2ф2)х1г) = 0, E.38) 1 N - J2((Vi -*'uPi + *2i$2)x2i) = 0. E.39) г=1 Фактически, эти уравнения являются условиями первого порядка для минимизации критерия наименьших квадратов. Число условий в точности равно числу неизвестных параметров, так что Ь\ и Ъ2 можно получить решением уравнений E.38) и E.39). Однако как только условие E.35) нарушается, исчезает и условие E.39), и мы больше не можем получить решение Ъ\ и Ь2. Это означает, что f3\ и /32 больше не идентифицируемы. Поэтому, чтобы идентифицировать /3\ и /32 в более общем случае, мы нуждаемся, по крайней мере, в одном дополнительном условии моментов. Такое условие моментов обычно получается с помощью инструмента или инструментальной переменной. Инструмен- тальная переменная, например, z2{, является переменной, которую можно предположить некоррелированной с остатком модели е^, но коррелированной с эндогенной переменной х2\*\ Если такую ин- Предположение, что инструментальная переменная коррелированна с x2i, необходимо для идентифицируемости. Если бы не было никакой корреляции, то дополнительный момент не предоставлял бы никакой (идентифицирующей) информации относительно /32 •
5.3. Оценивание методом инструментальных переменных 221 струментальную переменную можно найти, то условие E.37) можно заменить условием Е{(уг - х'и0г - x2iC2)z2l) = 0. E.40) В том случае, если это условие моментов не является комбинацией других условий (z2i не является линейной комбинацией объясняю- щих переменных из вектора хц), то такое условие моментов доста- точно, чтобы идентифицировать К параметров /3± и /32. Оценку методом инструментальных переменных (КШП-оцснжу) ^?ип тогда можно получить решением уравнений 1 N д7 ]С (Vi ~ Х1гР1,ИП ~ Х2Ф2,ИП)ХН = 0, E.41) г=1 1 N ~ы^2(У{~ x'uPhnn - x2iC2jMn)z2i = 0. E.42) г=1 Решение можно получить аналитически, придя к следующему вы- ражению для МИП-оценки , N ч -1 N Рип = (Yl Zixi) 5ZZiVi' E-43) ^г=1 ' г=1 где х\ = (х/1-,х2г) и z[ = (х'и, Z2i). Ясно, что если 2:2г = x2i, то это выражение сводится к МНК-оценке. Согласно предположениям E.36) и E.40) и некоторым услови- ям регулярности, оценка методом инструментальных переменных состоятельна и асимптотически нормальна. Самые важное условие регулярности состоит в том, что К х К матрица 1 N Plim ДГ Е ZiX'i = ^zx г=1 является конечной и обратимой. Необходимое условие для этого со- стоит в том, чтобы инструментальная переменная z2i была бы корре- лированна с объясняющей переменной x2i и не являлась бы линейной комбинацией элементов из вектора хц . Асимптотическая ковариаци- онная матрица /Зип зависит от предположений, которые мы делаем о распределении остатка Е\. В стандартном случае, когда остатки Si есть НОР(о, а2) и не зависят от вектора инструментальных пере- менных Z{, можно показать, что асимптотически (по N —> сю) у/Йфип-Я^ЩО,*2^^-^*)-1), E.44)
222 5. Эндогенность, инструментальные переменные и ОММ где симметричная к х К матрица 1 N ^zz = pHm — ^2 zizi i=l предполагается обратимой, и T,zx — Y!xz. Невырожденность Y,zz тре- бует, чтобы не было никакой мультиколлинеарности между К эле- ментами в векторе инструментальных переменных zi. По конечным выборкам мы можем оценить ковариационную матрицу /Зип в виде У{дип) = Э2 ( (jr xtz^ (JT Ziz^ ' (jh Zix^ \ , E.45) где a2 — состоятельная оценка для дисперсии а2 на основе остаточ- ной суммы квадратов, например, г=1 Как и в случае наименьших квадратов, можно скорректировать сте- пени свободы делением на множитель N — К, а не на N. Проблема для практика состоит в том, что иногда совсем не очевидно, какие переменные могут вести себя как соответствующие инструментальные переменные. В вышеприведенном примере нам требуются переменная, которая коррелирована с переменной коли- чества часов работы Х2г, но не коррелирована с ненаблюдаемыми факторами «способностей», которые включены в остаток е. Можно привести доводы в пользу того, что переменные, касающиеся состава семьи, могут служить в качестве инструментальных переменных. Важно понять, что предположения, зафиксированные в момент- ных условиях, являются идентифицирующими. То есть, их нельзя протестировать статистически. Единственный случай, в кото- ром моментные условия должны частично тестироваться, относится к проверке того, что условий больше, чем фактически необходимо для идентифицируемости. В этом случае можно тестировать так называемые сверхидентифицирующие ограничения, однако, без спе- цификации, какое из моментных условий соответствует этим огра- ничениям (см. ниже). 5.3.2. Назад к кейнсианской модели Итак, проблема для практика состоит в том, чтобы найти подхо- дящие инструментальные переменные. В большинстве случаев это
5.3. Оценивание методом инструментальных переменных 223 означает, что так или иначе следует применить наше знание эко- номической теории. В полной модели одновременных уравнений (в которой специфицируются соотношения для всех эндогенных переменных), эту проблему можно решить, поскольку любая экзо- генная переменная системы, которая не включена в интересующее нас уравнение, может использоваться в нем в качестве инструмен- тальной переменной. Более точно, любую экзогенную переменную, которая имеет влияние на эндогенный регрессор, можно исполь- зовать в качестве инструментальной переменной при условии, что она не включена в оцениваемое уравнение 7)*\ Информация об этом предоставляется приведенной формой для интересующего нас эн- догенного регрессора. Для кейнсианской модели это означает, что инвестиции It обеспечивают адекватную инструментальную пере- менную для доходности Yt. Получающаяся в результате оценка методом инструментальных переменных тогда имеет вид Рил = из которой мы можем получить решение для параметра /?2,яя как j2(it - ш - с) %,ип = Щ- , E.48) j^{It-I){Yt-Y) t=l где 7, С и У обозначают выборочные средние. Альтернативный способ увидеть, что оценка E.48) работает, состоит в том, чтобы начать с модели E.25) и взять ковариацию с нашей инструментальной переменной It с обеих сторон от знака ' Это объясняет, почему выбранные инструментальные переменные можно ин- терпретировать как наложение «исключающих ограничений». *' Каждое (г-ое) уравнение анализируемой системы, включающей в себя m эндогенных и р предопределенных переменных, характеризуется булевым вектором «исключающих ограничений» Тг = (Тг1> Тг2? • • • > Тгга5 Тг,га+1? • • • > Тг,га-|-р)э определяющим состав переменных, включенных в это уравнение: 7ij — 1 > если ^-ая переменная системы включена в г-ое уравнение, и 7ij — О в противном случае. Подробнее об этом см., например, в (Айвазян, 2001, гл. 3) (примеч. научн. ред. перевода).
224 5. Эндогенность, инструментальные переменные и ОММ равенства. Это дает cov {Cu It} = 02 cov {Yu It} + cov {eu /t}. E.49) Поскольку последний член в этом равенстве равен нулю (предпола- гается, что It является экзогенной переменной), и cov {Ytj It} ^ 0, то отсюда мы можем получить решение для параметра 02 в виде cov {It, Yt} Это соотношение предлагает оценку для параметра /?2, заменой ковариаций генеральной совокупности их выборочными аналогами. Это приводит к оценке методом инструментальных переменных, которую мы видели выше: ^ii(it-i)(ct-c) hnn = —^ . E.51) l£(jt-J)(ye-y) Г t=l Состоятельность непосредственно следует из общего результата, что выборочные моменты сходятся к моментам генеральной совокуп- ности. 5.3.3. Назад к проблеме ошибок в измерениях Модель задается в виде Vt = Pi + foxt + et, где (в качестве интерпретации) yt обозначает сбережения, a xt обозначает наблюдаемый располагаемый доход, который равняется истинному располагаемому доходу плюс случайная ошибка измере- ния. Присутствие этой ошибки измерения приводит к корреляции между объясняющей переменной xt и остатком Si. Для этой модели не возникает никаких очевидных инструмен- тальных переменных. Фактически, общая проблема в моделях с ошибками измерения заключается в неточной записи информации. Задача состоит в том, чтобы найти наблюдаемую переменную, ко- торая является: A) коррелированной с доходом xt, но B) не корре- лированный с ошибкой измерения дохода щ и с остатком б{. Если мы сможем найти такую переменную, то мы можем применить оце- нивание методом инструментальных переменных. Проблема ошибок
5.3. Оценивание методом инструментальных переменных 225 в измерении объясняющих переменных часто игнорируется в эмпи- рической работе главным образом из-за сложности проблем подбора подходящих инструментальных переменных. 5.3Л. Множественные эндогенные регрессоры Если рассматривается более одной эндогенной объясняющей пере- менной, то размерность х2% соответственно возрастает, и модель имеет вид Vi = x'u/3i +xf2iP2 + Si. Чтобы оценить это уравнение, нам необходима инструментальная пе- ременная для каждого элемента в векторе объясняющих переменных X2i - Это означает, что, если мы имеем пять эндогенных регрессоров, то мы нуждаемся, по крайней мере, в пяти различных инструмен- тальных переменных. Обозначая совокупность инструментальных переменных вектором z2 %, оценку методом инструментальных пере- менных снова можно написать как в выражении E.43) / N \-in дип = (^2 Zixi) 5Z z№> M=l ' г=1 где теперь х- = (х'и, x'2i) и z' = (x'u, z'2i). Иногда удобно ссылаться на весь вектор Z{ как на вектор ин- струментальных переменных. Если предполагается, что переменная в векторе объясняющих переменных Х{ является экзогенной, то мы не должны искать для нее инструментальную переменную. Аль- тернативно и эквивалентно эта переменная используется в качестве своей собственной инструментальной переменной. Это означает, что вектор экзогенных переменных хц включен в if-мерный вектор инструментальных переменных Z{. Если все переменные экзогенны, Zi — Xi, и мы получаем МНК-оценку, где «каждая переменная ин- струментована сама собой». В контексте одновременных уравнений экзогенные переменные из других уравнений системы являются кандидатами в инстру- ментальные переменные анализируемого уравнения. Так называ- емое «условие порядка» идентифицируемости (см. (Greene, 2000, Sect. 16.3)), по существу, означает, что в системе должно быть доступно достаточное число инструментальных переменных. Если, например, есть пять экзогенных переменных в системе, которые не включены в интересующее нас уравнение, то мы можем иметь
226 5. Эндогенность, инструментальные переменные и ОММ в этом уравнении до пяти эндогенных регрессоров. Если существу- ет только один эндогенный регрессор, то мы имеем выбор из пяти различных вариантов на роль единственной инструментальной пе- ременной. С помощью одновременного применения всех доступных инструментальных переменных возможно и целесообразно также и более эффективное оценивание. Такое оценивание обсуждается в параграфе 5.5. Однако сначала мы обсудим эмпирический пример, касающийся оценивания причинного влияния образования на доход. 5.4. Пример: оценивание отдачи от образования Ясно, что в среднем люди с более высоким образованием имеют бо- лее высокую заработную плату. Однако менее ясно, отражает ли эта положительная корреляция причинное влияние образования, или ин- дивидуумы, с большей способностью зарабатывать, склонны иметь и большее количество лет обучения. Если верен последний вариант, тогда МНК-оценки отдачи от образования просто отражают разли- чия в ненаблюдаемых характеристиках работающих индивидуумов, и повышение уровня образования индивидуума, обусловленное экзо- генным возмущением, не будет иметь влияния на заработную плату индивидуума. Поэтому проблема оценивания причинного влияния образования на заработную плату привлекла существенное внима- ние в литературе; см. обзор таких работ в (Card, 1999). Большинство исследований было основано на функции зависи- мости заработков от факторов человеческого капитала вида Wi = /?1 + P2Si + РзЕг + C4Е? + Еъ, где Wi обозначает логарифм индивидуального заработка, Si обозна- чает годы обучения, а Е{ обозначает годы опыта работы. В отсут- ствии информации относительно реального опыта работы перемен- ная количества лет работы Е{ иногда заменяется «потенциальным опытом», измеряемым как agei — Si — 6, предполагая, что люди на- чинают обучение после 6 лет жизни. Эта спецификация обычно рас- ширяется дополнительными фиктивными объясняющими перемен- ными, которые хотят проверить, такими, например, как регион, пол и расовый признак. Кроме того, иногда утверждается, что отдача от
5.4. Пример: оценивание отдачи от образования 227 образования зависит и от конкретного индивидуума. Принимая это во внимание, снова сформулируем уравнение заработной платы как Wi = г'{/3 + jiSi + щ = z[C + jSi + eu E.52) где Si = щ + Gi — j)Si, а вектор Z{ содержит все наблюдаемые переменные (кроме переменной количества лет обучения Si), вклю- чая переменную опыта работы и константу. Предполагается, что E{eiZi} = 0. Коэффициент 7 имеет интерпретацию средней отда- чи от одного дополнительного года образования, т. е. E{^i] — 7, и является интересующим нас параметром. Кроме того, мы спе- цифицируем приведенную форму для переменной количества лет обучения Si в виде Si = zfr + vu E.53) где E\yiZi\ — 0. Эта приведенная форма является просто наилуч- шей линейной аппроксимацией переменной количества лет обучения Si и не обязательно имеет экономическую интерпретацию. МНК- оценивание неизвестных вектора параметров C и параметра 7 B уравнении E.52) состоятельно, если только E{eiSi] = E{eiVi} = 0. Это означает, что нет никаких ненаблюдаемых характеристик, кото- рые влияли бы на результаты выбора индивидуумом образования и на его (позже) отдачу. Как обсуждалось в работе (Card, 1995), существуют различ- ные причины, почему обучение может коррелировать с остатком Si. Важной причиной является «смещение из-за способностей» (см. (Gri- liches, 1977)). Предположим, что некоторые индивидуумы имеют ненаблюдаемые характеристики (способности), которые позволяют им получать более высокие заработки. Если эти индивидуумы так- же имеют образование выше среднего уровня, то подразумевается положительная корреляция между остатками Si и щ и МНК-оценка смещена вверх. Другая причина, почему остатки е% и щ могут быть коррелированными, заключается в существовании ошибки измере- ния при измерении обучения. Как обсуждалось в разделе 5.2.2 это порождает отрицательную корреляцию между остатками Si и щ и, следовательно, МНК-оценка неизвестного параметра 7 смещена вниз. И, наконец, если индивидуальная специфическая отдача от об- разования Gг) будет выше для индивидуумов с низкими уровнями обучения, то ненаблюдаемая компонента Gг — 7)^г будет отрица- тельно коррелированна с переменной количества лет обучения Si, что опять порождает в МНК-оценке смещение вниз.
228 5. Эндогенность, инструментальные переменные и ОММ В вышеприведенной формулировке нет никаких доступных ин- струментальных переменных для обучения, поскольку в уравнение заработной платы включаются все потенциальные кандидаты. Вы- ражаясь иначе, число моментных условий вида E{eiZi} = E{(wt - z[f3 - -ySi)zi] = О, необходимых для идентификации вектора параметров C и парамет- ра 7? на одно меньше, чем требуется. Однако если мы можем думать о существовании некоторой переменной в векторе zi (например, о переменной Z2i) как о переменной, которая влияет на образование, но не влияет на заработную плату, то эту переменную можно ис- ключить из уравнения заработной платы, чтобы уменьшить число неизвестных параметров на единицу, делая, таким образом, модель в точности идентифицируемой. В этом случае оценки методом инстру- ментальных переменных для 8^ неизвестных вектора параметров /3 и параметра 7? использующие в качестве инструментальной перемен- ной переменную Z2%, являются состоятельными оценками. Продолжение этой дискуссии заключается в вопросе, какая пе- ременная правомерно может служить в качестве инструментальной переменной. Обычно в подобных случаях инструментальная пере- менная мыслится как переменная, которая влияет на стоимость обучения (и таким образом на выбор обучения), но не на заработную плату. Существует давняя традиция использовать в качестве таких инструментов базовые семейные характеристики, например, образо- вание родителей. Как отмечалось в работе (Card, 1999), интерес к базовым семейным характеристикам проявляется из-за того факта, что выбор обучения детьми высоко коррелирован с характеристи- ками их родителей. Позже в качестве потенциальных инструмен- тальных переменных использовались институциональные факторы системы обучения. Например, в статье (Angrist, Krueger, 1991) в качестве инструмента для переменной обучения применялся квар- тал года рождения индивидуума. Используя чрезвычайно большую совокупность данных для мужчин, рожденных с 1930 по 1959 годы, авторы статьи пришли к выводу, что люди с более ранними датами рождения в любом определенном году имеют слегка меньшее коли- чество лет обучения, чем рожденные позже в этом году. Поэтому, Заметим, что переменная z^i исключена из уравнения заработной платы, так что элемент в векторе параметров /3, соответствующий переменной Z2i, установлен равным нулю.
5.4. Пример: оценивание отдачи от образования 229 предполагая, что квартал года рождения не зависит от ненаблюдае- мых факторов склонностей и способностей, для оценивания отдачи от обучения в качестве инструментальной переменной можно исполь- зовать переменную квартала года рождения. В более поздней работе (Card, 1995) в качестве инструментальной переменной использова- лась переменная наличия близкого колледжа, которую правомочно можно исключить из уравнения заработной платы. Студенты, ко- торые росли в районе без колледжа, сталкивались с более высокой стоимостью обучения в колледже, в то время как можно было бы ожидать, что более высокая стоимость в среднем снижает количе- ство лет обучения, особенно в семьях с низким доходом. В этом параграфе мы используем данные 9\ касающиеся ЗОЮ мужчин, взятых из Молодежной выборки протяженного во времени обследования в США, также примененные в работе (Card, 1995). В этом обследовании панельных данных совокупность индивидуумов отслеживалась с 1966 года, когда они были в возрасте от 14 до 24 лет, и у них брались интервью за ряд последующих лет. Информация о рынке труда, которую мы используем, охватывает 1976 год. В этом году среднее количество лет обучения в этой выборке несколько больше 13-ти лет, с максимальным количеством — 18 лет обучения. Средний опыт работы в 1976 году, когда возраст совокупности мужчин был между 24 и 34 годами, равнялся 8,86 года, в то же время приблизительная средняя почасовая заработная плата равнялась 5,77 доллара США. В таблице 5.1 представлены результаты МНК-регрессии лога- рифмической почасовой заработной платы индивидуума по коли- честву лет обучения и опыта работы, по квадрату количества лет опыта работы и по трем фиктивным переменных, указывающим, был ли индивидуум афроамериканцем, жил ли в большом горо- де с пригородами (в метрополии) и жил ли на юге. МНК-оценка означает, что оцененная средняя отдача от образования составляет приблизительно 7,4% в год10). Включение дополнительных перемен- ных, таких как района места жительства в 1966 году или базовых семейных характеристик, в некоторых случаях значимо улучшило модель, но едва затронуло коэффициенты при переменных, пред- 9) Данные доступны в SCHOOLING. ' Поскольку зависимая переменная логарифмическая, то коэффициент 0,074 соответствует относительной разности, приблизительно равной 7,4%; см. главу 3.
230 5. Эндогенность, инструментальные переменные и ОММ Таблица 5-1. Уравнение заработной платы, оцененное с помощью МНК Зависимая переменная: логарифм заработной платы Переменная константа годы обучения годы опыта работы годы опыта работы в квадрате афроамериканец метрополия юг Оценка 4,7337 0,0740 0,0836 -0,0022 -0,1896 0,1614 -0,1249 Стандартная ошибка 0,0676 0,0035 0,0066 0,0003 0,0176 0,0156 0,0151 i-отношение 70,022 21,113 12,575 -7,050 -10,758 10,365 -8,259 8 = 0,374, R2 = 0,2905, R2 = 0,2891, F = 204,93. ставленные в таблице 5.1 (см. (Card, 1995)), так что мы продолжим с этой довольно простой спецификацией. Если переменная образования (число лет обучения) является эндогенной, тогда переменные опыта работы и его квадрата являют- ся по построению также эндогенными, при условии, что переменная возраста не включается, и поэтому она однозначно экзогенна. Зна- чит, наша линейная модель может пострадать от трех эндогенных регрессоров, так что нам необходимо (по крайней мере) три ин- струментальные переменные. Для переменных опыта работы и его квадрата переменные возраста и его квадрата являются очевидны- ми кандидатами в инструментальные переменные. Как обсуждалось выше, для переменной обучения решение менее тривиально. В рабо- те (Card, 1995) аргументируется, что наличие близкого колледжа в 1966 году может обеспечить правомерную инструментальную пере- менную. Необходимое (но не достаточное) условие для этого состоит в том, что наличие в 1966 году близкого колледжа влияет на перемен- ную обучения, при условии заданных значений по другим экзоген- ным переменным. Чтобы увидеть, обстоит ли дело таким образом, мы оценили приведенную форму, в которой переменная обучения объясняется переменными возраста и квадрата возраста, тремя фик- тивными переменными из уравнения заработной платы и фиктивной
5.4. Пример: оценивание отдачи от образования 231 Таблица 5.2. Приведенная форма для обучения, оцененная с помощью МНК Зависимая переменная: число лет обучения Переменная константа возраст возраст в квадрате афроамериканец метрополия юг близость колледжа Оценка -1,8695 1,0614 -0,0188 -1,4684 0,8354 -0,4597 0,3471 Стандартная ошибка 4,2984 0,3014 0,0052 0,1154 0,1093 0,1024 0,1070 t-отношение -0,435 3,522 -3,386 -12,719 7,647 -4,488 3,244 8 = 2,5158, R2 = 0,1185, R2 = 0,1168, F = 67,29. переменной, указывающей, жил ли индивидуум в 1966 году вблизи колледжа. Результаты МНК представлены в таблице 5.2. Напом- ним, что эта приведенная форма не является экономической или причинной моделью для объяснения выбора обучения. Это просто статистическая приведенная форма, соответствующая наилучшей линейной аппроксимации обучения. Тот факт, что фиктивная переменная наличия близкого колле- джа является значимой в этой приведенная форме, обнадеживает. Это указывает на то, что при прочих равных условиях студенты, которые в 1966 году жили вблизи колледжа, в среднем обучались на 0,35 года больше. Вспомним, что необходимое условие для пра- вомерной инструментальной переменной заключалось в том, что переменная, претендующая на роль инструментальной, должна кор- релировать с переменной обучения, но не с какой-либо линейной комбинацией других переменных в модели. Главное условие работо- способности инструментальной переменной, заключающееся в том, что она не коррелирована с остатком в уравнении заработной пла- ты, протестировать не возможно. Можно было бы протестировать отсутствие такой корреляции, если бы мы имели состоятельную оценку для неизвестных вектора параметров C и параметра 7? но мы можем найти такую состоятельную оценку, только если мы на- лагаем условие, что наша инструментальная переменная является
232 5. Эндогенность, инструментальные переменные и ОММ Таблица 5.3. Уравнение заработной платы, оцененное по методу инструментальных переменных Зависимая переменная: логарифм заработной платы Переменная константа годы обучения годы опыта работы годы опыта работы в квадрате афроамериканец метрополия юг Оценка 4,0656 0,1329 0,0560 -0,0008 -0,1031 0,1080 -0,0982 Стандартная ошибка 0,6085 0,0514 0,0260 0,0013 0,0774 0,0050 0,0288 ^-отношение 6,682 2,588 2,153 -0,594 -1,333 2,171 -3,413 Инструментальные переменные: возраст, возраст в квадрате, наличие близкого колледжа. Использованы для переменных: годы опыта работы, годы опыта работы в квадрате, годы обучения. правомерной. Обоснованность инструментальных переменных мож- но протестировать (в некоторой степени), только если модель свер- хидентифицируема; см. параграф 5.5 ниже. В данном случае при выборе инструментальной переменной мы вынуждены опираться на экономические, а не статистические аргументы. Используя переменные возраста, квадрата возраста и фиктив- ную переменную наличия близкого колледжа в качестве инстру- ментальных переменных, соответственно, для переменных опыта работы, квадрата опыта работы и обучения п\ мы получили резуль- таты оценивания, представленные в таблице 5.3. Оцененная отдача от образования составляет более 13% с относительно большой стан- дартной ошибкой, несколько большей, чем 5%. Несмотря на то, что оценка методом инструментальных переменных существенно выше, Хотя формулировка задачи предполагает иное, это не тот случай, когда ин- струментальные переменные имеют взаимно-однозначное соответствие с эн- догенными регрессорами. Подразумевается, что все инструментальные пере- менные используются совместно для всех эндогенных регрессоров.
5.4. Пример: оценивание отдачи от образования 233 чем МНК-оценка, ее погрешность такова, что это различие может быть объяснено только ошибкой выборки. Тем не менее, МИП-оценка является довольно устойчивой по отношению к изменению специфи- кации модели (например, к включению региональных индикаторов или переменных, отражающих базовые семейные характеристики). Тот факт, что оценки методом инструментальных переменных ха- рактеризуются относительно большими стандартными ошибками, происходит из-за довольно низкой корреляции между инструмен- тальными переменными и эндогенными регрессорами. Это отража- ется в R2 для приведенной формы переменной обучения, который равен только 0,118512\ И хотя и из общих соображений оценка ин- струментальных переменных менее точна чем МНК-оценка (которая при этом, может быть несостоятельной), потеря в эффективности будет особенно большой, если инструментальные переменные лишь слабо коррелированы с эндогенными регрессорами. В таблице 5.3 не приводится никакой статистики качества при- ближения данных моделью. Причина заключается в том, что не существует единого определения R2 или скорректированного В2, ес- ли модель не оценивается обычным методом наименьших квадратов. Более важно следующее: факт, что мы оцениваем модель методом инструментальных переменных, указывает на то, что качество под- гонки данных моделью не является тем, ради чего мы это делали. Наша цель состояла в том, чтобы состоятельно оценить причинное влияние образования на доход, и это именно то, что мы пытались сделать с помощью инструментальных переменных. И снова это от- ражает тот факт, что R2 вообще не играет определеннной роли при сравнении альтернативных оценок. Использование переменной наличия близкого колледжа в каче- стве инструмента будет правомерным для переменной обучения, если она не имеет прямого влияния на заработок. Как и с большинством инструментальных переменных это является точкой обсуждения (см. (Card, 1995)). Например, возможно, что семьи, которые делают силь- ный упор на образование, хотят жить около колледжа, в то же время дети из таких семей имеют более высокие «способности» или более мотивированы, чтобы достигнуть успеха на рынке труда (что изме- ряется заработком). К сожалению, как говорилось ранее, незнание R -ты для приведенных форм переменной опыта работы и квадрата опыта работы (не приводятся), оказались больше, чем 0,60.
234 5. Эндогенность, инструментальные переменные и ОММ настоящей, точно идентифицированной, спецификации не позволяет нам тестировать обоснованность инструментальных переменных. Тот факт, что МИП-оценка отдачи от образования выше, чем соответствующая МНК-оценка, означает, что МНК-оценка недооце- нивает истинного причинного влияния обучения. Это согласуется с более общим доводом против экзогенности обучения, а именно, с явлением «смещения из-за способностей», и, одновременно, соответ- ствует последним эмпирическими исследованиями отдачи от обра- зования (включая, например, (Angrist, Krueger, 1991)). Смещение МНК-оценок вниз могло произойти также из-за ошибки измерения или, как обсуждалось в работе (Card, 1995), из-за возможности, что изменения истинной отдачи от образования по индивидуумам отрицательно сказывается на отдаче от образования. 5.5. Обобщенный метод инструментальных переменных В параграфе 5.3 мы рассматривали линейную модель, где для каж- дой объясняющей переменной была доступна в точности одна ин- струментальная переменная, которая могла бы равняться самой переменной, если бы она предполагалась экзогенной. В этом разделе мы обобщим эту ситуацию, позволяя применять произвольное число инструментальных переменных. 5.5.1. Множественные эндогенные регрессоры с произвольным числом инструментальных переменных Рассмотрим следующую общую модель Уг = х[C + ег, E.54) где Xi имеет размерность К. МНК-оценка основана на К моментных условиях Е{бгХг} = Е{(Уг-х[р)хг}=0. В общем, предположим, что существует R инструментальных пе- ременных, доступных в векторе ^, который может перекрываться с вектором объясняющих переменных Х{. Тогда соответствующие моментные условия задаются следующими R ограничениями E{eiZi} = E{(yi - x'^Zi) = 0. E.55)
5.5. Обобщенный метод инструментальных переменных 235 Если R = К, то мы возвращаемся к предыдущей ситуации и оценку методом инструментальных переменных можно получить в виде решения из выборочных моментных условий 1 N -У г=1 (г/г -Х'фип)*г = 0, откуда мы получаем решение , N ч -1 лг M=l ' г=1 Если модель написана в матричной системе обозначений и матрица Z — N х R матрица значений инструментальных пере- менных, то оценку методом инструментальных переменных можно написать также в виде fan^iZ'X^Z'y. E.56) Если R > К, то инструментальных переменных больше чем ре- грессоров. В этом случае получить решение для оценки вектора пара- метров /3, заменяя моментные условия E.55) их выборочными анало- гами, невозможно. Причина состоит в том, что уравнений больше чем неизвестных. Поэтому вместо исключения инструментальных пере- менных (что приводит к потере эффективности) следует выбирать вектор параметров /3 таким образом, что R выборочных моментов N — J2(Vi ~ ХгР)*г г=1 были бы насколько возможно ближе к нулю. Это делается миними- зацией следующей квадратичной формы Qn(P) = г=1 J L г=1 E.57) где Wn — R х R положительно определенная симметрическая мат- рица. Эта матрица является матрицей весов, и говорит нам, какой вес приписывается каждому из R выборочных моментов в их линей- ной комбинации из E.57). В общем, матрица весов может зависеть от объема выборки iV, поскольку она сама может быть оценкой.
236 5. Эндогенность, инструментальные переменные и ОММ Для асимптотических свойств получающейся в результате оценки вектора параметров /3 является важным предел по вероятности Wn , обозначаемый как W = plim Wn • Матрица W должна быть поло- жительно определенной и симметрической. Используя для удобства матричную систему обозначений, мы можем переписать квадратич- ную форму E.57) в виде Qn(P) = j}Z'(y-XP) -" ' 1 WN NZ'(y-XC) E.58) Дифференцирование этого выражения относительно вектора неиз- вестных параметров /3 (см. приложение А) приводит к условиям пер- вого порядка: -2X'ZWNZ'y + 2X'ZWNZ'XJ3Hn = О, которые в свою очередь приводят к равенству X'ZWnZ'v = X'ZWNZ'XCMn. E.59) Соотношение E.59) является системой уравнений с К уравнениями и К неизвестными элементами в векторе оценок /Зил, где X'Z имеет размерность Кхй, a Z'y имеет размерность их 1. При условии, что матрица X'Z имеет ранг К, решение системы уравнений E.59) имеет вид (Зип = (Xf ZWNZ' Х)~1Х' ZWNZ'y, E.60) и, в общем, зависит от матрицы весов Wn- Если R = К, то матрица X1 Z квадратная и (по предположению) обратимая. Это позволяет нам написать выражение рип = (z'xy1Wu\x'zyxx,zwNz,y = (z'xy'z'y, которое соответствует выражению E.56) с исключенной матрицей весов. В этом случае число моментных условий в точности равно числу оцениваемых параметров. Об этой ситуации можно думать как о ситуации, в которой вектор неизвестных параметров /3 «иденти- фицирован точно», поскольку для оценивания вектора параметров /3 мы имеем только достаточную информацию (то есть, моментные условия). Непосредственное следствие состоит в том, что минимум квадратичной формы E.58) равен нулю, т.е., что соответствующим выбором вектора неизвестных параметров /3 все выборочные момен- ты можно установить равными нулю. Таким образом, квадратичная форма Eту(/Зяя) равна нулю. В этом случае /Зип не зависит от
5.5. Обобщенный метод инструментальных переменных 237 матрицы весов Wn , и одна и та же оценка получается независимо от выбора матрицы весов. Если R < К, то число оцениваемых параметров будет превы- шать число условий моментов. В этом случае вектор неизвестных па- раметров /3 является «недоидентифицируемым» (или просто неиден- тифицируемым), поскольку для однозначного оценивания вектора параметров /3 данной информации недостаточно (то есть не хва- тает моментных условий). Технически, это означает, что обратной матрицы в выражении E.60) не существует, и условия первого по- рядка E.59) удовлетворяются бесконечным числом решений. До тех пор, пока мы не сможем сформулировать дополнительные моментые условия, проблема идентификации является фатальной в том смыс- ле, что никакой состоятельной оценки для вектора параметров /3 не существует. Любая оценка обязательно будет несостоятельной. Если R > К, то число моментных условий превышает чис- ло оцениваемых параметров, и в этом случае вектор неизвестных параметров j3 является «сверхидентифицируемым», поскольку ин- формации больше, чем необходимо для получения состоятельной оценки вектора параметров /3. В этом случае мы имеем диапазон оценок для вектора параметров /3, соответствующий альтернатив- ным выборам для матрицы весов Wn- До тех пор, пока матрица весов (асимптотически) положительно определенная, получающиеся в результате оценки для вектора параметров /3 все состоятельны. Идея, на которой основан этот результат состоятельности, состоит в том, что мы минимизируем квадратичную функцию потерь на множестве выборочных моментов, которые асимптотически сходят- ся к соответствующим моментам генеральной совокупности, а те, в свою очередь, равны нулю при истинных значениях оцениваемых параметров. Это и есть основной принцип, заложенный в основание так называемого метода моментов. Он более подробно будет обсуж- даться в следующем параграфе. Различные матрицы весов Wn приводят к различным состоя- тельным оценкам, в общем, с разными асимптотическими ковари- ационными матрицами. Это позволяет нам выбирать оптимальную матрицу весов, которая приводит к наиболее эффективной оценке инструментальных переменных. Можно показать, что оптимальная матрица весов пропорциональна матрице обратной к ковариацион- ной матрице выборочных моментов. Интуитивно это означает, что выборочные моменты с маленькой дисперсией, которые, следова- тельно, обеспечивают более точную информацию о параметрах /3,
238 5. Эндогенность, инструментальные переменные и ОММ получают большие веса при оценивании, чем выборочные моменты с большой дисперсией. По существу, это та же самая идея, что и взвешенный метод наименьших квадратов, обсужденный в главе 4, хотя теперь веса отражают разные выборочные моменты, а не раз- ные наблюдения. Конечно, ковариационная матрица выборочных моментов 1 N г=1 зависит от предположений, которые мы делаем об остатках ei и векторе инструментальных переменных Zi. Если, как и прежде, мы предполагаем, что остатки ei есть НОР@,а2) и не зависит от вектора инструментальных переменных Z{, то асимптотическая ко- вариационная матрица выборочных моментов задается как 1 N a2Zzz = a2 plim — ^ Ziz[. г=1 Следовательно, оптимальная матрица весов получается в виде 4 г—1 / \ / а получающаяся в результате оценка методом инструментальных переменных для вектора неизвестных параметров /3 имеет вид Дяя = (X,Z(Z,Z)~lZfX)-lX,Z(ZfZ)-lZfy. E.61) Это выражение можно найти в большинстве учебников (см., напри- мер, (Greene, 2000, Sect. 16.5)). Эта оценка иногда называется оцен- кой обобщенным методом инструментальных переменных (ОМИП-оценкой). Она также известна как оценка двухшаговым методом наименьших квадратов или 2МНК-оценка (см. ниже). Если остатки Si гетероскедастичные или подвержены автокорреляции, то оптимальная матрица весов соответственно должна быть скорректи- рована. Как это сделать, следует из общего обсуждения в следующем параграфе. Асимптотическое распределение оценки рип задается в виде ^Лйфип - /3) - Л/"@, ^(Е^Е-^Г1), и является тем же самым выражением, которое приводилось в па- раграфе 5.3. Единственное различие состоит в размерностях матриц
5.5. Обобщенный метод инструментальных переменных 239 Y,xz и T,zz. Оценку для ковариационной матрицы легко получить, заменяя асимптотические пределы их выборочными аналогами. Это приводит к выражению У0ип} = d2{X'Z{Z'Z)-lZ'X)-\ E.62) где оценка для дисперсии о2 получается из остатков метода инстру- ментальных переменных Si = у г — х[Cип к&к 1 N г=1 Результаты по состоятельности и асимптотическому распределению оценки обобщенным методом инструментальных переменных осно- ваны на предположении, что модель специфицирована корректно. Поскольку оценка основана только на моментных условиях модели, то требуется, чтобы эти условия были корректными. Следовательно, важно протестировать, согласуются ли данные с этими моментными условиями. В случае «точной идентифицируемости» по построению справедливо соотношение г независимо от того, действительно ли истинны моментные условия для генеральной совокупности. Следовательно, из соответствующих выборочных моментов нельзя получить полезный критерий тестиро- вания. Выражаясь иначе, К = R идентифицирующих ограничений не поддаются тестированию. Однако, если вектор неизвестных пара- метров /3 сверхидентифицируем, то ясно, что только К (линейных комбинаций) из R элементов в векторе г устанавливаются равными нулю. Если бы моментные условия для генеральной совокупности являлись истинными, то ожидалось бы, что элементы в векторе N £ ** г все являлись бы достаточно близкими к нулю (поскольку они долж- ны сходиться к нулю асимптотически). Это является основанием для построения теста на спецификацию модели. Можно показать, что
240 5. Эндогенность, инструментальные переменные и ОММ (при моментных условиях E.55)) статистика (основанная на ОМИП- оценке с оптимальной матрицей весов) ' // N Х-1 е = NQN0Mn) = (J2 ^г) (э2 J2 zi*i) (E ^z) E-63) i ^ г=1 ' г имеет асимптотическое хи-квадрат распределение с R — К степенями свободы. Отметим, что число степеней свободы равно числу условий моментов минус число оцениваемых параметров. Это так, поскольку только R — К из условий, наложенных на выборочные моменты A/N) У^ e'iZi, свободны от К ограничений, подразумеваемых усло- виями первого порядка E.59) для оценки /Зип- Тест, основанный на статистике E.63), обычно называется тестом сверхидентифи- цируемых ограничений. Если результат тестирования приводит к отклонению, то спецификация модели отклоняется в том смысле, что выборочное подтверждение не согласуется с совместной право- мерностью всех R условий моментов. Заметим, что невозможно опре- делить, какие из моментов являются некорректными, то есть какие из инструментальных переменных являются неправомерными ^. 5.5.2. Двухшаговый метод наименьших квадратов и снова назад к кейнсианской модели Оценка E.61) часто используется в контексте одновременной си- стемы уравнений и тогда называется оценкой двухшагового метода наименьших квадратов BМНК-оценкой). Такое название исходит из работы (Theil, 1953). По существу, интерпретация говорит, что ту же самую оценку можно получить за два шага, в каждом из которых можно проводить оценивание с помощью МНК. На первом шаге МНК оценивает приведенную форму (то есть регрессию эндогенных регрессоров на все инструментальные переменные). На втором ша- ге МНК оценивают исходные структурные уравнения после замены всех эндогенных переменных в правой части одновременной системы уравнений их прогнозными значениями из приведенной формы. Заметим, что значения N, являющиеся множителями и делителями в пере- множающихся выражениях, уравновешиваются и исчезают. Предположим, что в пабе вам позволяют взять три пива, оплатив при этом только за два из них. Можете ли Вы сказать какая именно из трех кружек пива была бесплатной?
5.5. Обобщенный метод инструментальных переменных 241 Для иллюстрации пусть приведенная форма fc-ой объясняющей переменной имеет вид (в векторных обозначениях) хк = Zirk + vk. В этом уравнении применение МНК приводит к прогнозным значе- ниям xk = Z(Z'Z)~1Z'xk. Если хк столбец в матрице Z, то автоматически мы будем иметь, что Xk — хк- Следовательно, матрицу объясняющих переменных на втором шаге можно написать как X, столбцы которой есть х^, к — 1,... , К, и она равна X = Z{Z'ZYXZ'X. Таким образом, МНК-оценка на втором шаге задается в виде Рип=(Х'Х)-1Ху. E.64) Можно легко показать, что она идентична оценке E.61). Преимуще- ство такого подхода состоит в том, что оценку можно вычислить, используя стандартное программное обеспечение МНК. На втором шаге МНК применяется к исходной модели, где все эндогенные регрессоры заменены их прогнозными значениями на основе ин- струментальных переменных 15\ Следует подчеркнуть, хотя об этом часто не говорится, что автоматически вторая стадия не обеспечива- ет корректность применения обычной формы стандартных ошибок (см. (Maddala, 1992, pp. 374-376)). Применение X позволяет нам написать оценку обобщенным ме- тодом инструментальных переменных также в терминах стандартной формулы E.56), если мы переопределим нашу матрицу инструмен- тальных переменных. Если мы используем К столбцов матрицы X в качестве инструментальных переменных в стандартной формуле E.56), то мы получим выражение Рип=(Х'Х)-1Х'у, которое идентично выражению E.61). Это показывает, что можно интерпретировать X также как матрицу инструментальных пере- менных (что иногда делается). ' Заметим, что для замены эндогенных регрессоров в интересующее нас урав- нение должны быть включены прогнозные значения инструментальных пе- ременных, а не сами инструментальные переменные.
242 5. Эндогенность, инструментальные переменные и ОММ Чтобы возвратится к нашей кейнсианской модели, предполо- жим теперь, что экономика включает правительство и частный сектор в виде переменных правительственных расходов Gt и част- ных инвестиций /*, обе переменные предполагаются экзогенными. Определяющее уравнение теперь пишется как Это подразумевает, что и Gt и. It могут быть использованы в ка- честве инструментальных переменных для дохода Yt в функции потребления. Хотя простую оценку метода инструментальных пе- ременных типа оценки E.51), можно определить либо с помощью инструментальной переменной Gt, либо с помощью инструменталь- ной переменной It, наилучшая эффективная оценка получается, если в качестве инструментальных переменных одновременно использу- ются обе переменные. Таким образом, оценка обобщенным методом инструментальных переменных задается в виде рип = {x,z{zfz)-1z,x)-1xz{z,z)-1z,y, где строки в Z, X и у задаются как z't — A, Gt, It), x't = A, Yt) и Vt — Ct, соответственно. 5.6. Обобщенный метод моментов Подходы, описанные выше в общих чертах, являются частными случаями подхода, предложенного в статье (Hansen, 1982), обычно называемого обобщенным методом моментов (ОММ). В этом мето- де неизвестные параметры модели оцениваются непосредственно из моментных условий, которые налагаются на модель. Эти условия могут быть линейными по параметрам (как в вышеприведенных примерах), но весьма часто являются нелинейными. Для идентифи- цируемости число моментных условий должно быть по крайней мере равно числу неизвестных параметров. В настоящем параграфе дает- ся (на общем, интуитивном уровне) обсуждение обобщенного метода моментов. Сначала в следующем пункте параграфа мы начинаем с примера, который проиллюстрирует, как из экономической теории могут вытекать нелинейные условия моментов. Обширный, не слиш- ком техницизированный, обзор ОМИП-оценивания и методологии ОММ представлен в работе (Hall, 1993).
5.6. Обобщенный метод моментов 243 5. в. 7. Пример Следующий пример основан на статье (Hansen, Singleton, 1982). Рас- смотрим индивидуального агента, который максимизирует ожидае- мую полезность текущего и будущего потребления, решая проблему максимизации max£tj^5s[/(Ct+s)j, E.65) где Ct+s обозначает потребление в такте времени t + s, U(Ct+s) обозначает значение функции полезности, соответствующее этому уровню потребления, общая полезность взвешивается с помощью дисконтного множителя 5 @ < 5 < 1), & Et — оператор услов- ного математического ожидания, условный по всей информации, доступной в такте времени t. Проблема максимизации E.65) реша- ется с учетом совокупности межвременных бюджетных ограничений в форме Ct+s + 4t+s = wt+s + A + rt+s)qt+s-u E-66) где qt+s обозначает финансовое состояние в конце такта времени t + 5, rt+s — отдачу от финансового состояния (инвестированного в портфель финансовых активов), a wt+s ~ трудовой доход. Таким образом, ограничение бюджета говорит, что сумма трудового дохода и отдачи от финансовых активов должна быть израсходована на потребление Ct+s или сэкономлена как часть финансового состояния qt+s • Такую проблему максимизации трудно решить аналитически. Тем не менее, все же из включенных условий первого порядка неизвестные параметры оценить можно. Условия первого порядка E.65) при условии E.66) означают, что Et{SU'{Ct+i)(l+rt+1)} = U'{Ct), где U' — первая производная функции полезности U. Правая часть этого равенства обозначает предельную полезность одного допол- нительного доллара, потребляемого в настоящем такте времени, в то время как левая часть дает ожидаемую предельную полезность экономии этого доллара до следующего такта времени (так что ста- новится 1 + rt+s долларов), а затем его потребления. Таким образом, оптимальность подразумевает, что (ожидаемые) предельные полез- ности уравниваются.
244 5. Эндогенность, инструментальные переменные и ОММ В качестве следующего шага, мы можем переписать это уравне- ние в виде Ч^Щг^-'-'Н- <5-б7) По существу, это уравнение представляет (условное) моментное условие, которое можно применить для оценивания неизвестных параметров, если мы сделаем некоторое предположение о функции полезности U. Мы можем сделать это преобразованием уравнения E.67) в совокупность безусловных моментных условий. Предполо- жим, что в информационное множество включается вектор zt. Это означает, что вектор zt не обеспечивает никакой информации о ма- тематическом ожидании величины SU'{Ct+1) u'(ct) A + r*+1)-1' так что справедливо также, что16^ Ч^Щг*1^'-1)^0' E-б8) Таким образом, мы можем интерпретировать zt как вектор ин- струментальных переменных, основываясь на предположении об оптимальном поведении (рациональных ожиданиях) агента. Для простоты предположим, что функция полезности имеет степенную форму, то есть где 7 обозначает (постоянный) коэффициент относительной несклон- ности к риску, где более высокие значения 7 соответствуют агенту с большей несклонностью к риску. Тогда мы можем написать выра- жение E.68) в виде ЧК^г) 7A+rt+i)-l)^}=0. E.69) Теперь мы имеем совокупность моментных условий, которые иден- тифицируют неизвестные параметры 5 и 7, а заданные наблюдения относительно Ct+i/Ct, rt+i и zt позволяют нам оценить эти парамет- 16) Мы используем общий результат, что Е{х\ \х2\ — 0 означает, что E{x\g{x<i)} — О для любой функции g (см. Приложение Б).
5.6. Обобщенный метод моментов 245 ры состоятельно. Для этого требуется расширение раннее описанного подхода на нелинейные функции. 5.6.2. Обобщенный метод моментов Рассмотрим, в общем, модель, которая характеризуется совокупно- стью R условий моментов вида E{f(wt,zt,9)} = 0, E.70) где / — векторная функция с R компонентами, в — if-мерный век- тор, содержащий все неизвестные параметры, wt — вектор наблюда- емых переменных, которые могли бы быть эндогенными или экзо- генными, a Zt — вектор инструментальных переменных. В примере предыдущего пункта параграфа w't — (Ct+i/Ct,rt+i)\ в линейной модели параграфа 5.5 w't — (у*, x't). Чтобы оценить вектор неизвестных параметров #, мы исполь- зуем такой же подход, как и прежде, и рассматриваем выборочный аналог моментных условий E.70), заданный в виде £=1 Если бы число моментных условий R равнялось числу неизвестных параметров К, то R элементов в выражении E.71) можно было бы положить равными нулю и получить решение для вектора неизвест- ных параметров #, которое являлось бы единственной состоятельной оценкой. Если функция / — нелинейная по параметрам вектора #, то аналитическое решение, по-видимому, недоступно. Если число мо- ментных условий меньше числа оцениваемых параметров, то вектор неизвестных параметров в неидентифицируем. Если число момент- ных условий больше, то мы не можем получить однозначное решение для неизвестных параметров, приравняв выражения E.71) к нулю. Вместо этого мы выбираем нашу оценку для вектора неизвест- ных параметров в такой, что вектор выборочных моментов был бы насколько возможно ближе к нулю, в смысле минимизации квадра- тичной формы дт{0). Таким образом, min QT@) = min gT@)'WTgт@), E.72) о о где, как и прежде, Wt — положительно определенная матрица с пре- делом по вероятности plim Wt — W. Решение этой проблемы обеспе- чивается обобщенным методом моментов или ОММ-оценкой в.
246 5. Эндогенность, инструментальные переменные и ОММ Хотя в общем случае мы не можем получить аналитическое решение для оценки ОММ, можно показать, что она состоятельная и асимп- тотически нормальная при некоторых слабых условиях регулярно- сти. Эвристический аргумент, приведенный для оценки обобщенного метода инструментальных переменных в линейной модели, распро- страняется на эту более общую постановку. Поскольку выборочные средние сходятся к средним значениям генеральной совокупности, которые равны нулю для истинных значений параметра, то оцен- ка, выбранная таким образом, чтобы сделать выборочные моменты насколько возможно ближе к нулю (как определено выражением E.72)), будет сходиться к истинному значению, и, таким образом, будет состоятельной. На практике ОММ-оценка получается числен- ным решением проблемы минимизации E.72), для которой доступ- ны разнообразные алгоритмы; общее обсуждение проблемы см. в (Greene, 2000, Chapter 5). Как и прежде, разные матрицы весов Wt приводят к разным состоятельным оценкам с разными асимптотическими ковариацион- ными матрицами. Оптимальная матрица весов, которая приводит к наименьшей ковариационной матрице для ОММ-оценки, является матрицей, обратной к ковариационной матрице выборочных момен- тов. При отсутствии автокорреляции оптимальная матрица весов задается в виде W°* = (E{f(wt, zt, e)f(wt, zt, в)'})'1. В общем, эта матрица зависит от неизвестного вектора параметров #, что представляет проблему, с которой мы не сталкивались в линей- ной модели. Решение состоит в принятии многошаговой процедуры оценивания. На первом шаге мы используем субоптимальный выбор Wt, который не зависит от вектора параметров в (например, еди- ничную матрицу), чтобы получить первую состоятельную оценку, например, вщ. Тогда, мы можем состоятельно оценить оптимальную матрицу весов в виде17^ /1 Т v-l W°TPt= ЬЕ/К^%])/Ц,^е[1])/ . E.73) ^ t=i ' Если в f(wt, zt, в) существует автокорреляция ограниченного порядка, то оп- тимальную матрицу весов можно оценить, используя вариант оценки Невье— Веста, обсужденный в параграфе 5.1; см. (Greene, 2000, Subsection 11.5.5).
5.6. Обобщенный метод моментов 247 На втором шаге получают асимптотически эффективную (опти- мальную) ОММ-оценку 0омы- Ее асимптотическое распределение задается как у/Т {6 омм — 9) —> Л/"@, V), E.74) где асимптотическая ковариационная матрица V имеет вид V = {DWoptD')-\ E.75) a D — К х R матрица производных D = E{mWw-"e)} E'76) Интуитивно, компоненты D измеряют, насколько чувствительны мо- менты компонент вектора / по отношению к малым приращениям компонент вектора параметров 9. Если чувствительность по отноше- нию к данной компоненте вектора параметров 9 большая, то малые изменения в этой компоненте приводят к относительно большим при- ращениям в целевой функции Qt(9) и данная компонента вектора параметров 9 должна оцениваться относительно точно. Как обычно, ковариационную матрицу E.75) можно оценить, заменяя теорети- ческие моменты в матрице производных D и оптимальной матрице весов Wopt их выборочными аналогами, оцененными при 9 = 9 омы- Большое преимущество обобщенного метода моментов состоит в том, что A) он не требует предположений о распределении остатков, таких например, как предположения их нормальности; B) в нем можно учесть гетероскедастичность неизвестного вида; и C) с его помощью параметры могут быть оценены, даже если для модели нельзя получить аналитическое решение из условий первого по- рядка. В отличие от большинства случаев, которые мы обсуждали ранее, обоснованность использования в качестве инструментальных переменных вектора zt не вызывает сомнений, если из модели сле- дуют условные моментные ограничения (как в уравнении E.67)), и вектор zt удовлетворяет этим условиям. Например, если в такте времени £, агент максимизирует ожидаемую полезность при усло- вии всей публично доступной информации, тогда любая переменная, которая наблюдается (агентом) в такте времени £, обеспечивает пра- вомерность использования такой инструментальной переменной. И, наконец, мы рассмотрим распространение теста сверхи- дентифицируемых ограничений на случай нелинейных моде- лей. Следуя интуитивным представлениям, вытекающим из случая
248 5. Эндогенность, инструментальные переменные и ОММ линейной модели, можно ожидать, что если моментные условия ге- неральной совокупности E{f(wt,zt,0)} = 0 корректны, то д(вомм) ~ 0. Поэтому выборочные моменты обеспе- чивают удобный тест на спецификацию модели. При условии, что все моментные условия корректны, критическая статистика £ = Т д т{9 оммУЖ^ д т{0 омм), имеет асимптотическое хи-квадрат распределение с R — K степенями свободы, где вомм ~ оптимальная ОММ-оценка, a Wj? — опти- мальная матрица весов, заданная выражением E.73) (основанная на состоятельной оценке вектора неизвестных параметров в). Напом- ним, что для случая точной идентифицируемости число степеней свободы равно нулю и тестирование невозможно. В параграфе 5.7 мы приведем эмпирический пример примене- ния ОММ для того, чтобы оценить межвременные модели финан- совых активов. В параграфе 10.5 мы рассмотрим другой пример применения ОММ. Он связан с оцениванием динамической модели, основанной на панельных данных. Сначала мы рассмотрим несколь- ко простых примеров. 5.6.3. Несколько простых примеров В качестве очень простого примера предположим, что мы интере- суемся оцениванием среднего значения генеральной совокупности /л переменной у^ на основе выборки из N наблюдений (г = 1,... , N). Моментное условие этой «модели» задается как E{Vi - /X} = 0, с выборочным моментным аналогом 1 N г=1 Положив выборочное моментное выражение равным нулю и разре- шив относительно //, мы получим оценку методом моментов 1 N которая просто является выборочным средним.
5.6. Обобщенный метод моментов 249 Если мы опять рассмотрим линейную модель Уг = Xi/3 + Si с вектором инструментальных переменных Zi, то моментные условия имеют вид E{sizl} = E{(yi-x,ip)zi} = 0. Если остаток Е\ является независимо и одинаково распределенным, то оптимальная ОММ-оценка является оценкой методом инстру- ментальных переменных, задаваемой выражениями E.43) и E.56). В более общей схеме оптимальная матрица весов задается как W°* = {E{e2lziz'i))-\ которая оценивается (при отсутствии ограничений) в виде V г=1 / где ei — остаток, основанный на начальной состоятельной оценке. Если налагается условие, что остатки Е{ являются независимыми и одинаково распределенными, то мы можем использовать более простое выражение Матрица К х R производных задается выражением: D = E{xiz£. Она может быть оценена состоятельно в виде 1 N г=1 В общем, ковариационную матрицу оптимальной О ММ-оценки или ОМИП-оценки /3 вектора неизвестных параметров j3 можно оценить в виде Ш = (Х>*<) 1 £^(^W) '• E-77) 4=1 ' г=1 ^ ' Эта оценка обобщает оценку для ковариационной матрицы E.62) так же, как состоятельная ковариационная матрица при наличии ге- тероскедастичности Уайта обобщает стандартное МНК-выражение. Таким образом, общая постановка ОММ учитывает гетероскедастич- ность Е{ автоматически.
250 5. Эндогенность, инструментальные переменные и ОММ 5.7. Пример: оценивание межвременных моделей ценообразования финансовых активов В последней литературе по финансам для оценивания и тестиро- вания модели ценообразования финансовых активов часто приме- няется схема ОММ. Модель ценообразования финансовых активов, например ЦФАМ, обсужденная в параграфе 2.7, должна объяснять вариацию в ожидаемых доходностях для различных рисковых инве- стиций. Поскольку одни инвестиции более рисковые, чем другие, то инвесторы могут потребовать компенсацию в виде рисковой премии за то, чтобы идти на такой риск. Это приводит к вариации в ожида- емых доходностях по различным активам. В этом разделе мы рассмотрим («потребленческую») модель ценообразования финансовых активов. Эта модель выводится из структуры, в общих чертах описанной в п. 5.6.1, введением ряда альтернативных инвестиционных возможностей финансового состо- яния. Предположим, что существует J доступных для инвестирова- ния альтернативных рисковых активов, имеющих доходности r^t+i, j = 1,... , J, а также безрисковый актив с определенной доходно- стью ry;t+i. Оптимальный выбор агентом своего портфеля активов определяет условия первого порядка проблемы вида Et{SU'(Ct+i)(l + rftt+1)} = U'(Ct), Et{5U'(Ct+1)(l + rjtt+1)} = U'(Ct), j = l,...,J. Это говорит, что ожидаемая предельная полезность вложения одно- го дополнительного доллара в финансовый актив j равна для всех финансовых активов и равна предельной полезности потребления этого дополнительного доллара в настоящее время. Предполагая степенную форму полезности, как и прежде, и ограничивая внима- ние безусловными математическими ожиданиями18^ условия первого порядка можно переписать в виде E{5(j^-) 7(l + r/it+1)} = l, E.78) E{5(^cf) A+r^+i-r/.*+i)}=0' J = h---,J, E-79) ' Это означает, что мы ограничиваем внимание моментами, использующими только инструментальную переменную zt = 1.
5.7. Пример: оценивание межвременных моделей 251 где вторая совокупность условий написана в терминах избыточных доходностей, то есть доходностей превышающих безрисковую про- центную ставку. Для удобства определим межвременную предельную ставку за- мещения финансовых активов где вектор в содержит все неизвестные параметры. В финансах mt+i (в) часто называется стохастическим коэффициентом дисконти- рования или ядром ценообразования (см. (Campbell, Lo, MacKinlay, 1997, Chapter 8)). Альтернативные модели ценообразования финан- совых активов описываются альтернативными спецификациями для ядра ценообразования mt+iF). Чтобы увидеть, как выбор ядра це- нообразования mt+i(9) обуславливает модель, которая описывает ожидаемые доходности, мы используем тот факт, что для двух про- извольных случайных переменных Е{ху} — cov {x, у} + Е{х}Е{у} (см. Приложение Б), откуда следует, что cov {mt+i@), rjj+г - r/>t+i} + E{mt+i(e)}E{rjtt+i ~ r/,t+i} = 0. Это позволяет нам получить соотношение E{rj9t+i " r/>t+1} E{mt+1F)} ' E'80) которое говорит, что ожидаемая избыточная доходность на любой финансовый актив j равна рисковой премии, которая зависит линей- но от ковариации между избыточной доходностью актива и стохасти- ческим коэффициентом дисконтирования. Знание mt+i(9) позволяет нам описывать или объяснять пространственную ("cross-sectional") вариацию ожидаемых доходностей на разные финансовые активы. В «потребленческой» модели это знание говорит нам, что финансо- вый актив имеет высокую ожидаемую доходность, если ковариация между его доходностью и ростом потребления большая и отри- цательная. Это означает, что финансовый актив вознаграждается более, когда он имеет высокую доходность во времени и когда рост потребления является малым19^. ' Например, вы можете получить вознаграждение за конкретный финансовый актив, если он приводит к высокой доходности в ситуации, в которой случи- лось, что Вы стали безработным.
252 5. Эндогенность, инструментальные переменные и ОММ Моментные условия E.78)-E.79) можно использовать для оце- нивания неизвестных параметров S и 7- В этом разделе мы ис- пользуем данные 20^, которые охватывают ежемесячные доходности за период с февраля 1959 года по ноябрь 1993 года. Основные финансовые активы, которые мы рассматриваем — десять порт- фелей акций, используемых Центром исследования курсов ценных бумаг в университете Чикаго. Портфели «основаны на размере». Это означает, что портфель 1 содержит 10% самых малых фирм, зарегистрированных на Нью-Йоркской фондовой бирже, в то время как портфель 10 содержит 10% самых больших зарегистрированных на той же бирже фирм. Безрисковая доходность аппроксимирует- ся ежемесячной доходностью на казначейский вексель США за 3 месяца, которая с течением времени изменяется не намного. Потреб- ление мы измеряем общими личными расходами на потребление в США на товары недлительного пользования и услуги. Предпола- гается, что модель правомерна для типичного агента, потребление которого соответствует этой мере совокупной величины потребления на душу населения. Поскольку большинство моделей ценообразова- ния финансовых активов имеет тенденцию к недопрогнозированию доходностей на акции маленьких фирм*', то используются данные для портфелей, основанных на размере. Это так называемый эф- фект малых фирм (см. (Banz, 1981); или (Campbell, Lo, MacKinlay, 1997, p. 211)). С одним безрисковым активом и десятью рисковыми портфе- лями условия первого порядка E.78)-E.79) образуют 11 моментных условий только с двумя оцениваемыми параметрами. Эти парамет- ры можно оценить, применяя в качестве субоптимальной матрицы весов единичную матрицу и используя эффективную двухшаговую ОММ-оценку, которая была представлена выше, или используя так называемую итеративную ОММ-оценку. Эта оценка имеет те же са- мые асимптотические свойства, что и двухшаговая оценка, но иногда аргументируется тем, что имеет лучшие характеристики для малых выборок. Она получается вычислением новой оптимальной матрицы весов, используя двухшаговую оценку, а затем применяется, чтобы получить следующую оценку, например, 0[3], которая в свою очередь Данные доступны в файле PRICING. Имеется в виду тенденция запиэюепия при модельных прогнозах истинных значений доходностей малых фирм (примеч. научн. ред. перевода)
5.7. Пример: оценивание межвременных моделей 253 Таблица 5.4. Результаты ОММ-оценивания потребленческой модели ценообразования финансовых активов S 7 $(df = 9) Одношаговый ОММ Оценка 0,7025 91,6393 5,674 Стандартная ошибка 0,1438 38,1066 (р = 0, 77) Итеративный ОММ Оценка 0,8337 56,9363 5,692 Стандартная ошибка 0,1163 34,2604 (Р = 0,77) используется при вычислении матрицы весов, чтобы получить 6щ. Эта процедура повторяется до сходимости. В таблице 5.4 представлены результаты оценивания одношаго- вым ОММ (использующим в качестве матрицы весов единичную матрицу) и итеративным ОММ21^ на основе ежемесячных доходно- стей за период с ноября 1959 года по февраль 1993 года. Оцененные значения параметра 7 огромные и довольно неточные. Для итератив- ной процедуры ОММ, например, 95%-ый доверительный интервал для параметра 7, основанный на приближенно нормальном распре- делении, имеет большую протяженность (—10,21; 124,09). Оцененные коэффициенты «несклонности к риску» равны 56,9 и 91,6 и намного выше, чем те, которые считаются экономически приемлемыми. Эти полученные значения иллюстрирует так называемую загадку пре- мии за приобретение акций (см. (Mehra, Prescott, 1985)), которая отражает то, что высокую рисковую премию на рисковые финансо- вые активы (акции) можно объяснить в этой модели, если только агенты чрезвычайно несклонны к риску (сравните (Campbell, Lo, MacKinlay, 1997, Section 8.2)). Если мы посмотрим на тесты свер- хидентифицируемых ограничений, то мы увидим, что несколько удивительно, что они не отклоняют совместную правомерность на- ложенных моментных условий. Это означает, что потребленческая модель ценообразования финансовых активов статистически не про- тиворечит данным. Это происходит исключительно из-за высокой Для одношаговой О ММ-оценки стандартные ошибки и тест сверхиденти- фицируемых ограничений вычисляются нестандартным образом. Формулы, приведенные в тексте, не применяются, поскольку не используется оптималь- ная матрица весов. Для соответствующих выражений см. статью (Cochrane, 1996)
254 5. Эндогенность, инструментальные переменные и ОММ неточности оценок. К сожалению, это является только статисти- ческим удовлетворением и конечно не означает, что модель имеет экономическую ценность. Выигрыш в эффективности от использо- вания оптимальной матрицы весов кажется довольно ограниченным, поскольку стандартные ошибки в этом случае только на 20% меньше, чем для одношагового метода. Чтобы исследовать экономическое значение вышеупомянутой модели, можно вычислить так называемые «модельные ошибки оце- нивания» (сравните со статьей (Cochrane, 1996)). Можно вычислить среднюю ожидаемую избыточную доходность согласно модели, про- сто заменяя моменты генеральной совокупности в выражении E.80) соответствующими выборочными моментами и используя оцененные значения для параметров 5 и 7- С другой стороны, средние избы- точные доходности на активе j можно непосредственно получить из данных. На рисунке 5.1 мы изобразили средние избыточные доходно- сти в зависимости от прогнозных средних избыточных доходностей, расположенные относительно биссектрисы координатного угла. Мы о I 9 X о п о; го i 9 Q. О 0.14 Т 012 0.10 f 0.08 0.06 0.04 0.02 + I 0.00 -0.02 0.00 0.02 -0.02 1 0.04 0.06 0.08 0.10 012 Прогнозная средняя избыточная доходность 0.14 Рисунок 5-1. Фактические средние избыточные доходности в зависимости от прогнозных средних избыточных доходностей для портфелей, основанных на размере
5.8. Заключительные замечания 255 сделали это только для одношаговой оценки поскольку, как обсуж- далось в статье (Cochrane, 1996), эта оценка минимизирует вектор остатков модели финансовых активов для этих 11 активов. Располо- жение точек на биссектрисе указывает на то, что модельная оценка средней избыточной доходности произведена без ошибки. Точки вы- ше этой линии указывают, что доходность соответствующего актива занижается («недопрогнозируется») моделью. Рисунок подтверждает нашу идею, что экономические характеристики модели несколько не- утешительны. Ясно, что модель неспособна полностью уловить про- странственную ("cross-sectional") вариацию в ожидаемых избыточных доходностях. Два портфеля с наименьшими фирмами имеют самую высокую среднюю избыточную доходность и оба находятся выше бис- сектрисы. Очевидно, что модель не решает проблемы эффекта малых фирм, поскольку доходности на этих портфелях недопрогнозируются. В статье (Cochrane, 1996) также представлен диапазон аль- тернативных моделей ценообразования финансовых активов, кото- рые оценивались ОММ, и в большинстве случаев, демонстрировали намного лучшую эффективность, чем обсужденная здесь простая потребленческая модель. В статье (Marquering, Verbeek A999)) вы- шеприведенная модель расширяется включением трансакционных затрат и постоянства тенденции в функции полезности. 5.8. Заключительные замечания В этой главе обсуждались разные модели, которые можно озаглавить термином «модели со стохастическими регрессорами». Обсуждалось оценивание методом инструментальных переменных, начиная с ли- нейной модели с эндогенным регрессором. Показывалось, как по сравнению с МНК-оценкой при оценивании методом инструменталь- ных переменных используются различные моментные условия. Если число моментных условий больше числа неизвестных параметров, то можно использовать оценку обобщенным методом инструменталь- ных переменных, которую можно получить также в схеме ОММ с оптимальной матрицей весов. Подробно обсуждался ОММ с при- ложением к межвременным моделям ценообразования финансовых активов. Обычно динамические модели имеют преимущество в том, что выбор инструментальных переменных менее сомнителен: часто может предполагаться наличие лагированных величин, не коррели- рованных с текущими возмущениями. Большое преимущество ОММ
256 5. Эндогенность, инструментальные переменные и ОММ состоит в т^ом, что им можно оценивать параметры модели без необходимости аналитического решения. То есть нет никакой по- требности писать модель в виде: «у — кое-что + остаток». Все, что необходимо — это условия в терминах математических ожиданий, ко- торые часто получаются непосредственно из экономической теории. Упражнения Упражнение 5.1 (инструментальные переменные) Рассмотрим следующую модель Уг = Р\ + /?2^г2 + /?3^гЗ + £», Ъ = 1, . . . , JV, E.81) где (yi, Xi2jXis) наблюдаются и имеют конечные моменты, a Si — ненаблюдаемый остаток. Предположим, что эта модель оценивается МНК. Обозначим МНК-оценку через Ь. а. Какие существенные условия требуются для несмещенности 6? Какие существенные условия требуются для состоятельности 6? Объясните различие между несмещенностью и состоятельностью. б. Покажите, как условия для состоятельности можно написать в виде моментных условий (если вы это еще не сделали). Объяс- ните, как из этих моментных условий можно получить оценки методом моментов. Получающаяся в результате оценка как-то отличается от МНК-оценки? Теперь предположим, что cov {^, #гз} ф 0. в. Приведите два примера случаев, когда можно ожидать ненуле- вую корреляцию между регрессором х^з и остатком в{. г. Возможно ли в этом случае все еще делать соответствующие выводы, основываясь на МНК-оценке с учтом коррекции стан- дартных ошибок? д. Объясните, как инструментальная переменная, например, ^, приводит к новому моментному условию и, следовательно, к альтернативной оценке для вектора неизвестных параметров /3. е. Почему эта альтернативная оценка приводит к меньшему R2 чем МНК-оценка? Что это говорит о R2 как о мере для адекватности модели? ж. Почему мы не можем выбрать Z{ = х\2 в качестве инструмен- тальной переменной для объясняющей переменной а^з, Д&же
Упражнения 257 если E{xi2Si} = 0? Возможно ли использовать переменную х\2 в качестве инструментальной переменной для х^1 Упражнение 5.2 (отдача от образования — эмпирический пример) Рассмотрим данные, используемые в параграфе 5.4, которые доступ- ны в SCHOOLING. В этом упражнении в целях оценивания отдачи от образования требуется исследовать роль переменных образования родителей в качестве инструментов. а. Оцените приведенную форму для обучения, результаты оцени- вания которой представлены в таблице 5.2, но включите в нее уровни образования матери и отца. Что говорят эти результаты о возможности использования переменных образования родите- лей как инструментов? б. Оцените отдачу от образования на основе той же самой спе- цификации, что и в параграфе 5.4, используя в качестве ин- струментов переменные образования матери и отца (а также переменные возраста и квадрата возраста в качестве инструмен- тов для переменных опыта работы и его квадрата). в. Протестируйте сверхидентифицирующее ограничение. г. Повторно оцените модель, используя также фиктивную пере- менную наличия близкого колледжа, и протестируйте эти два сверхидентифицирующих ограничения. д. Сравните и проинтерпретируйте различные оценки отдачи от образования из таблицы 5.3 и пунктов б и г этого упражнения. Упражнение 5.3 (обобщенный метод моментов (ОММ)) Проблема максимизации «межвременной» полезности*' приводит к следующему условию первого порядка где Et обозначает оператор математического ожидания, условный по всей информации до такта времени £, Ct обозначает потребление в такте времени £, r^+i — отдачу от финансового состояния, S — учетную ставку, а 7 — коэффициент относительной несклонности См. E.78) в параграфе 5.7 (примеч. научн. ред. перевода).
258 5. Эндогенность, инструментальные переменные и ОММ к риску. Предположим, что мы имеем временной ряд наблюдений уровней потребления, отдач от финансового состояния и временной ряд наблюдений инструментальных переменных Zi. а. Покажите, как вышеприведенное условие можно написать в виде совокупности безусловных моментных условий. Объясните, как мы можемоценить 5 и 7 состоятельно из этих моментных условий. б. Чему равно минимальное число требуемых моментных условий? Что мы (потенциально) получаем при наличии большего коли- чества моментных условий? в. Как мы можем улучшить эффективность оценки для заданного множества моментных условий? В каком случае это не работает? г. Объясните, что мы подразумеваем под «сверхидентифицирую- щими» ограничениями. Действительно ли они полезны? д. Объясните, как реализуется тест сверхидентифицирующих огра- ничений. Какова тестируемая нулевая гипотеза? К какому вы- воду вы приходите, если нулевая гипотеза отклоняется?
6 Оценивание методом максимального правдоподобия и спецификационные тесты* В предыдущей главе мы уделили внимание обобщенному методу моментов. В подходе ОММ в рамках анализируемой модели дела- ются предположения о некотором числе математических ожиданий (моментов), которые включают наблюдаемые данные и подлежащие оцениванию неизвестные параметры. В этой главе мы рассмотрим метод оценивания, который опирается, как правило, на более силь- ные предположения, поскольку этот метод требует знания общего вида всего распределения анализируемых случайных величин, а не только некоторого числа их моментов. Тогда для оценивания неизвестных параметров мы можем использовать тот факт, что рас- пределение переменной г/i, условное по совокупности переменных Xi, известно вплоть до небольшого количества неизвестных параметров, и подбирать эти параметры таким способом, чтобы получающееся распределение «насколько возможно лучше соответствовало наблю- Имеются в виду статистические критерии проверки гипотез об общем виде анализируемой модели, т. е. о правильности ее спецификации (примеч. научн. ред. перевода).
260 6. Оценивание методом максимального правдоподобия даемым данйым» (что означают последние слова более точно будет определено ниже). Это и есть общая формулировка метода макси- мального правдоподобия. В определенных приложениях и моделях обычно накладыва- ются «распределительные» предположения (т. е. предположения об общем виде распределения анализируемых случайных величин), та- кие как, например, предположение нормальности, поскольку про- цедуры оценивания, которые не требуют таких предположений, сложны или недоступны. Если распределительные предположе- ния корректны, то оценка максимального правдоподобия при сла- бых условиях регулярности состоятельна и асимптотически нор- мальна. Более того, реализация предположений о распределении проводится таким образом, чтобы полученная при этом оценка была асимптотически эффективной. То есть состоятельные аль- тернативные оценки будут иметь асимптотические ковариационные матрицы, по крайней мере, больше (в матричном смысле), чем асимптотическая ковариационная матрица оценки максимального правдоподобия. Эта глава начинается с введения в оценивание методом мак- симального правдоподобия. В параграфе 6.1 описывается подход, начиная с некоторых простых примеров и заканчивая некоторы- ми общими результатами и обсуждением. Поскольку распредели- тельные предположения являются, как правило, критическими для состоятельности и эффективности оценки максимального правдо- подобия, важно иметь возможность протестировать эти предполо- жения. Тестирование обсуждается в параграфе 6.2, в то время как параграф 6.3 посвящен реализации тестов множителей Лагранжа для специфических гипотез, главным образом, в контексте линейной модели регрессии. В параграфе 6.4 изучается связь с обобщен- ным методом моментов (ОММ), чтобы ввести метод оценивания квази-максимального правдоподобия и расширить класс тестов мно- жителей Лагранжа до тестов, основанных на моментных условиях. Знание вопросов, освященных в параграфе 6.1, является критиче- ским для понимания главы 7 и некоторых определенных пунктов в главах 8, 9 и 10. Оставшиеся параграфы этой главы охватывают обсуждение проблем, касающихся тестирования спецификаций мо- делей, и отчасти более технические. Они являются предпосылками для некоторых специфических параграфов главы 7, которые можно пропустить без потери целостности.
6.1. Введение в метод максимального правдоподобия 261 6.1. Введение в метод максимального правдоподобия Отправной точкой оценивания методом максимального правдоподо- бия является предположение о том, что распределение наблюдаемого явления (эндогенной переменной) известно, за исключением конеч- ного числа неизвестных параметров. Эти параметры оценивают- ся такими значениями, которые придают наблюдаемым значениям наивысшую вероятность, наивысшее правдоподобие. Таким обра- зом, метод максимального правдоподобия обеспечивает способ оценивания совокупности параметров, характеризующих распреде- ление, если мы знаем, или предполагаем, что мы знаем общий вид этого распределения. Например, мы могли бы охарактеризовать распределение некоторой переменной yi (для заданного вектора объ- ясняющих переменных Х{) нормальным распределением со средним, равным /?i + /?2^г5 и дисперсией а2. Это представляло бы простую линейную модель регрессии с нормальными остатками. 6.1.1. Некоторые примеры Принцип максимального правдоподобия наиболее легко вводится в дискретной постановке, где yi имеет только конечное число исхо- дов. В качестве примера рассмотрим большую урну, заполненную красными и желтыми шарами. В этой урне нас интересует доля р красных шаров. Чтобы получить информацию относительно р, мы извлекаем случайную выборку из N шаров (и не проверяем все дру- гие шары). Обозначим yi — 1, если шар i является красным и yi = О в противном случае. Тогда по предположению ^ справедливо, что РЫ = 1}=р. Предположим, что наша выборка содержит N\ = 2_, У г красных г шаров и N — N\ желтых шаров. Вероятностью получения такой выборки (в заданном порядке) задается в виде P{N\ красных шаров, N — N\ желтых шаров} = pNl A — p)N~Nl. (ел) Мы предполагаем, что выборка производится «с возвращением». Альтерна- тивно, можно предположить, что число шаров в общей совокупности является бесконечно большим, так что предыдущее извлечение не влияет на вероят- ность извлечения красного шара.
262 6. Оценивание методом максимального правдоподобия -68.597 Ч о -133.067 4 .3 .4 Рисунок 6-1. Выборочная логарифмическая функция правдоподобия для N = 100 и JVi = 44 Выражение F.1), интерпретируемое как функция от неизвестного параметра р, называется функцией правдоподобия. Оценивание методом максимального правдоподобия неизвестного параметра р означает, что мы выбираем такое значение для р, что вероятность F.1) является максимальной. Это значение является оценкой мето- дом максимального правдоподобия (ММП-оценкой). В вычисли- тельных целях часто более удобно максимизировать (натуральный) логарифм вероятности F.1), который является монотонным преоб- разованием. Это приводит к логарифмической функции прав- доподобия log L(p) = JVi log (р) + (N- JVi) log A - p). F.2) На рисунке 6.1 для выборки объема 100 с 44 красными шарами (iVi = 44) представлен график логарифмической функции правдо- подобия для значений параметра р от 0,1 до 0,9. Максимизация логарифмической функции правдоподобия F.2) дает условие перво- го порядка d log L(p) _ Ni_ _ N-Nx dp p 1 — p = 0, F.3)
6.1. Введение в метод максимального правдоподобия 263 из которого получается решение для неизвестного параметра р, являющееся оценкой методом максимального правдоподобия (ММП- оценкой) е=-£- <•■*) Таким образом, ММП-оценка соответствует выборочной доле крас- ных шаров, и вероятно, также соответствует вашей наилучшей до- гадке о параметре р, основанной на извлеченной выборке. В прин- ципе мы также должны проверить условие второго порядка, чтобы удостовериться, что решение, которое мы имеем, соответствует мак- симуму, хотя в данном случае это очевидно из рисунка 6.1. Условие второго порядка задается в виде d2 log Up) N, N-Nt ф2 " ~~? " A - pf < U' (b'5j действительно показывая, что мы нашли максимум. Таким образом, интуитивное понимание принципа максимально- го правдоподобия следующее. Из (предполагаемого) распределения данных (например, yi) мы определяем правдоподобие наблюдения данной выборки, наблюдаемой случайно, как функцию неизвестных параметров, характеризующих это распределение. Затем в каче- стве наших ММП-оценок мы выбираем те значения для неизвест- ных параметров, которые дают нам самое высокое правдоподобие*Л Ясно, что в данном примере этот подход имеет смысл. Полезность метода максимального правдоподобия является более общей, по- скольку можно показать, что при некоторых подходящих условиях регулярности ММП-оценка, является состоятельной. ММП-оценка имеет и некоторые другие привлекательные свойства, которые мы обсудим ниже. В качестве следующего примера рассмотрим простую модель регрессии У г = Pi + l32Xi +6{, F.6) для которой мы делаем предположения (А1)-(А4) из главы 2. Эти предположения утверждают, что остатки Si имеют нулевые средние, гомоскедастичны, не имеют никакой автокорреляции, и не зависят от всех Xi (г = 1,... , N). В то же время эти предположения подразу- мевают, что Е{уг\х{} = /3\ + foxi и V{yi\xi} — а2 и не предполагают Именно тех выборочных данных, которыми мы располагаем (примеч. научн. ред. перевода).
264 6. Оценивание методом максимального правдоподобия какого-либо специфического распределения для в{. Таким обра- зом, чтобы сделать возможным оценивание методом максимального правдоподобия, мы должны к вышеперечисленным предположениям добавить предположение о виде распределения. Самое общее пред- положение заключается в том, что остатки в{ имеют нормальное распределение, как в предположении (А5) из главы 2. Мы можем суммировать эти предположения, говоря, что остатки Si являются независимыми и одинаково нормально распределенными (НОНР) с нулевым средним и дисперсией <т2, или в{ ~ НОНР@, а2). Однако, вероятность наблюдения специфического исхода у для случайной величины у{ равна нулю для любого у, поскольку случай- ная величина у{ имеет непрерывное распределение. Поэтому вклад наблюдения г в функцию правдоподобия равен значению функции плотности вероятностей в наблюдаемой точке у\. Для нормального распределения (см. Приложение Б) вклад наблюдения % в функцию правдоподобия есть /B/i|,l;/?,.) = 7i=eXp|-- - j, F.7) где f3 = (/?i,/?2)'. Из-за предположения независимости совместная плотность распределения г/1?... , удт (условная по X = (xi, ... , xn)') задается как 7V Дуь ... , yN\X; /?, а2) = Ц f(yi\Xi; C, а2) = = bspj Пехр\-2 ? ) {т Функция правдоподобия идентична функции плотности у\,... , ум, но рассматривается как функция неизвестных параметров /3, а2. Следовательно, мы можем записать логарифмическую функцию правдоподобия как logт^ = -§ logB^) - \ ± (у.-^;Ь*<J, F.9) Поскольку первый член в этом выражении не зависит от вектора неизвестных параметров /3, то легко заметить, что максимизация функции логарифма правдоподобия F.9) относительно f3\ и /?2 соот- ветствует минимизации остаточной суммы квадратов S(/3), которая
6.1. Введение в метод максимального правдоподобия 265 определена в параграфе 2.1. Таким образом, оценки максимального правдоподобия для параметров fa и fa идентичны МНК-оценкам. Обозначая эти оценки через fa и /?2, и определяя остатки ei = Уг -fa -fa%i, мы можем продолжить и максимизировать логарифмическую функ- цию правдоподобия F.9) относительно неизвестной дисперсии о1. Заменяя ММП-решениями параметры fa и fa и дифференцируя2' относительно а2 мы получаем условие первого порядка N 2тг 4eS=°- Fл°) 2 2тгс72 2 ^ <т4 Решение уравнения F.10) относительно неизвестной дисперсии а2 дает ММП-оценку для а2 в виде г—1 Эта оценка является состоятельной оценкой для дисперсии а . Одна- ко она не соответствует несмещенной оценке дисперсии а , которая была получена из МНК-оценки (см. главу 2) как N 2 _ -*- V~^ 2 г=1 где К — число регрессоров (включая свободный член). Различие состоит в коррекции степеней свободы в s . Поскольку s является несмещенной оценкой, то в конечных выборках ММП-оценка будет смещенной. Асимптотически (N — K)/N сходится к 1, и смещение устраняется, так что ММП-оценка является состоятельной, и кор- рекция степеней свободы будет проблемой малых выборок. В этом специфическом примере ММП-оценка для вектора неиз- вестных параметров /3 воспроизводит МНК-оценку случайно и, сле- довательно, имеет свойства МНК-оценки для малых выборок. Тот факт, что ММП-оценка дисперсии а2 отклоняется от несмещенной оценки s2, указывает на то, что это не является общим результатом. ) Мы будем рассматривать дисперсию а2 как неизвестный параметр, так что мы дифференцируем относительно а2 , а не а. Получающаяся оценка инвариантна по отношению к такому выбору.
266 6. Оценивание методом максимального правдоподобия В малых выборках несмещенная оценка s имеет лучшие свойства, чем ММП-оценка. Во многих существенных случаях нельзя пока- зать, что ММП-оценка будет несмещенной, а ее свойства для малых выборок неизвестны. В общем, это означает, что преимущества под- хода максимального правдоподобия могут быть обоснованы только в асимптотическом (по N —► ос) смысле, и в частности, ММП-оценка является состоятельной и асимптотически эффективной. Кроме то- го, как правило, для ММП-оценки невозможно получить аналити- ческое решение, за исключением ряда специальных случаев (как те, которые рассматривались выше). Если остатки Е{ в этом примере не подчиняются нормально- му закону распределения или гетероскедастичны, то логарифмиче- ская функция правдоподобия, заданная выражением F.9), некор- ректна, то есть, не соответствует истинному распределению пе- ременной yi при заданном векторе объясняющих переменных Х{. В таком случае оценка, полученная максимизацией некорректной логарифмической функции правдоподобия F.9), в строгом смыс- ле не является ММП-оценкой, и нет никакой гарантии, что такая оценка будет иметь хорошие свойства. В некоторых частных слу- чаях состоятельность может все еще достигаться максимизацией некорректной функции правдоподобия, тогда такую оценку обыч- но называют квази-ММП-оценкой. В данном примере этот момент иллюстрируется тем, что (квази-) ММП-оценка для вектора неиз- вестных параметров /3 равна МНК-оценке Ь, которая является со- стоятельной при намного более слабых условиях. И опять это не является общим результатом, и, в общем, на такой аргумент защиты применения максимального правдоподобия полагаться не следует. Некоторое дополнительное обсуждение такой проблемы представле- но в параграфе 6.4. 6.1.2. Общие свойства Чтобы определить ММП-оценку в более общей ситуации, предпо- ложим, что мы заинтересованы в условном распределении перемен- ной yi при заданном векторе объясняющих переменных Х{ Пусть функция плотности вероятностей или функции вероятностной ме- ры задается как f(yi\x{] 0), где 0 — К-мерный вектор неизвестных параметров и предположим, что наблюдения взаимно независимы. В этой ситуации функция совместной плотности распределения ве- роятностей или вероятностной меры выборки у\, ... , удг (условная
6.1. Введение в метод максимального правдоподобия 267 по X — (xi, ..., xjsfY) задается как3) N /(У1,...,Ук\Х',9) = Ц/(уг\хг;9). г=1 Тогда функция правдоподобия для имеющейся выборки задается в виде TV N L(%, Х) = Ц Li@\yi, Xi) = [] f(yi\xi', 0), г=1 г=1 и является функцией от вектора неизвестных параметров 9. Для некоторых целей удобно использовать вклады правдоподобия, обозначаемые как L{(9\yi, Х{), которые отражают, какой вклад в функцию правдоподобия вносит наблюдение г. ММП-оценка 9 для вектора неизвестных параметров 9 есть решение 7V maxlogL(#) = max J^ log L.@), F.12) i=i где log L{9) — это логарифмическая функция правдоподобия, и для простоты мы исключили другие аргументы. Условия первого порядка для такой проблемы подразумевают, что d log L(9) 09 N у д log Ьг{9) о fel М Ю 0. F.13) где \§ указывает, что выражение вычисляется в точке 9. Если функ- ция логарифма правдоподобия является глобально вогнутой, то существует единственный глобальный максимум, и этими условия- ми первого порядка ММП-оценка определяется однозначно. ММП- оценку можно определить аналитически только в частных случа- ях. В общем, требуется численная оптимизация (для обсуждения см. (Greene, 2000, Section 5.5)). К счастью для многих стандарт- ных моделей в последних пакетах программ имеются эффективные алгоритмы. Для удобства обозначений мы обозначим первые производные индивидуальных вкладов в логарифмическую функцию правдопо- ^ Мы используем /(•) как общее обозначение для функции (многомерной) плот- ности вероятностей или функции вероятностной меры.
268 6. Оценивание методом максимального правдоподобия добия, также известных как «метки» (scores), в виде SiF) = F.14) в дв так что условия первого порядка формулируются как N $>(*)= 0. 1=1 Это говорит о том, что выборочные средние К меток, вычисленные при #, равном ММП-оценке #, должны равняться нулю. При условии, что функция правдоподобия специфицирована корректно, при слабых условиях регулярности можно показать, что оценка максимального правдоподобия: 1) состоятельная для #(plim 9 = 9); 2) асимптотически эффективная (то есть, асимптотически ММП-оценка имеет «наименьшую» дисперсию среди всех со- стоятельных асимптотически нормальных оценок); 3) асимптотически нормально распределенная, согласно y/N(e-9)^Af@,V), F.15) где V — асимптотическая ковариационная матрица. Ковариационная матрица V определяется видом логарифмической функции правдоподобия, и можно показать, что ковариационная матрица равна "WW)"' Член в круглых скобках является математическим ожиданием мат- рицы вторых производных и отражает кривизну функции логарифма правдоподобия. Ясно, что если логарифмическая функция правдо- подобия сильно вогнутая в своем максимуме, то вторая производная будет большой, а дисперсия малой, и ММП-оценка будет относитель- но точнее. Если функция будет менее вогнута, то дисперсия будет больше. Симметрическая матрица '«—{^} известна как информационная матрица (Фишера). Говоря нестро- го, информационная матрица отражает математическое ожидание
6.1. Введение в метод максимального правдоподобия 269 количества информации о векторе неизвестных параметров #, со- держащегося в произвольном наблюдении. Учитывая асимптоти- ческую эффективность ММП-оценки, обращение информационной матрицы 1(9)~х обеспечивает более низкую границу асимптотиче- ской ковариационной матрицы по сравнению с любой состоятельной асимптотически нормальной оценкой для вектора неизвестных па- раметров 9. ММП-оценка асимптотически эффективна, поскольку она достигает своей границы, часто называемой нижней границей Крамера—Рао. На практике ковариационную матрицу V можно оценить состо- ятельно, заменяя оператор математических ожиданий выборочным средним, а неизвестные параметры ММП-оценками. Таким образом, V =( 1 y^logL^) г \ N ^ 89 89' V г=1 где мы сначала берем производные, и в результате заменяем вектор неизвестных параметров 9 ММП-оценкой 9. Подстрочная буква Г используется, чтобы подчеркнуть, что оценка для V основана на гессианской матрице, матрице вторых производных. Если функция правдоподобия специфицирована корректно, то можно показать, что матрица J(e) = E{Si(e)St(eY}, F.19) где Si(9) определяется выражением F.14), идентична информацион- ной матрице 1(9). В параграфе 6.4 мы возвратимся к возможности неправильной спецификации функции правдоподобия и к тому, что матрицы 1(9) и J (в) различны. В настоящий момент для обо- их определений мы используем обозначение 1(9). Результат F.19) указывает, что матрицу V можно оценить также из производных первого порядка логарифмической функции правдоподобия в виде /1 N ~ ~ \-1 Vrp=[jfTt^)8i(ey) , F.20) где подстрочными буквами гр отражается тот факт, что оценка ис- пользует скалярное произведение градиентов (первых производных). Эта оценка для V предлагалась в работе (Berndt, Hall, Hall, Hausman, 1974) и иногда упоминается как оценка ВННН. Важно отметить, что вычисление выражения F.20) требует вычислений индивидуальных вкладов правдоподобия. Вообще говоря, две оценки ковариационной F.18)
270 6. Оценивание методом максимального правдоподобия матрицы Vp\ и Vrp не будут идентичны. Как правило, первая оценка имеет несколько лучшие свойства для малых выборок. Чтобы проиллюстрировать принцип максимального правдоподо- бия, в п. 6.1.3 снова рассматривается простой пример урны с шарами, тогда как в п. 6.1.4 обсуждается линейная модель регрессии с нор- мальными остатками. В главе 7 представляются более интересные модели, которые, как правило, требуют оценивания методом макси- мального правдоподобия. В остальной части этой главы обсуждают- ся проблемы, касающиеся тестирования спецификации и неверной спецификации модели. Несмотря на то, что эти проблемы довольно важные, они несколько более технические, поэтому некоторые чита- тели могут пропустить эти разделы при первом чтении и продолжить чтение с главы 7. В параграфе 6.4 также обсуждается соотношение между оцениванием ОММ и оцениванием методом максимального правдоподобия более подробно и объясняется оценивание квази- ме- тодом максимального правдоподобия. Это имеет главным образом теоретическую ценность, хотя и полезно для параграфа 8.10, в кото- ром будут обсуждаться модели условной гетероскедастичности. 6.1.3. Пример (продолжение) Чтобы разъяснить общие формулы предыдущего подраздела, сно- ва рассмотрим пример, касающийся урны с красными и желтыми шарами. В этой модели вклад в логарифмическую функцию прав- доподобия наблюдения i имеет вид log Li(p) = yi logp+ A - yi) log A - р), с первой производной d log Lj(p) = yi_ _ 1-j/i др р 1 — р Отметим, что математическое ожидание первой производной равно нулю, поскольку E{yi} —р. Вторая производная отрицательна д2 \Qg Lj(p) = Уг_ _ 1 ~Уг др2 р2 A — рJ' и имеет математическое ожидание Г d2logL,(p)| _E{Vi} | 1-ДЫ _ 1 | 1 _ 1 \ dp2 J р2 A — рJ р 1— р рA—р)'
6.1. Введение в метод максимального правдоподобия 271 Из этого следует, что асимптотическая дисперсия оценки максималь- ного правдоподобия р задается в виде V = рA — р) и мы имеем, что \/JV(p-p)-+Af@,p(l-p)). Этот результат можно использовать для построения доверительных интервалов или для тестирования гипотез. Например, гипотезу Hq : р — ро можно протестировать, используя критическую статистику ?-ро F.21) N которая, при нулевой гипотезе, имеет асимптотическое стандартное нормальное распределение. Она подобна обычным ^-критериям, об- сужденным в контексте линейной модели. 95%-ый доверительный интервал задается в виде так что с выборкой 100 шаров, из которых 44 являются красными (р = 0,44), с 95%-ым доверием мы можем заключить, что р на- ходится между 0,343 и 0,537. Когда N = 1000 с 440 красными шарами, интервал уменьшает до @,409; 0,471). В этом специфи- ческом приложении ясно, что нормальное распределение является аппроксимацией, основанной на теории больших выборок, и никогда не будет справедливым для малых выборок. В любой конечной вы- борке р может принимать только конечное число различных исходов в диапазоне [0, 1]. Фактически, в этом примере распределение для малой выборки Ni = Np, как известно, является биноминальным с параметрами JV ир, и этот результат можно использовать вместо вышеиз ложенного. 6.7.4. Нормальная линейная модель регрессии В этом подразделе мы рассмотрим линейную модель регрессии с нормальными независимо и одинаково распределенными остатками (и независимыми от всех объясняющих переменных в векторе Х{). Это модель, рассматриваемая в главе 2, дополняется предположени- ями (А1)-(А5). Напишем у{ = х'ф + Si, Si - HOHP@, a2).
272 6. Оценивание методом максимального правдоподобия Здесь налагается условие, что переменная yi имеет нормальное рас- пределение (условное по экзогенным переменным) со средним xJ/Зи постоянной дисперсией <т2. Обобщая выражение F.9), логарифми- ческую функцию правдоподобия для этой модели можно записать в виде N logL(/?,a2) = ^logL^/?,a2) = г=1 .//э\2 F.22) г=1 Вектор меток задается как ( d\ogU{l3,a2)\ Si(P, a2) V dp dlogLiifra2) ( (Vi-xtf) 7 Xi 1 , НУг-xW + - ) do2 J \ 2a2 ' 2 <r в то время как ММП-оценки C, а удовлетворяют условиям первого порядка N Е г=1 И ЛГ 7V + 1 £ (у, - х^J = Q 2а2 ' 2 ^ а г=1 Легко проверить, что решения этих уравнений имеют вид ^ / N ч -1 iV ЛГ ^ г=1 г=1 г=1 Оценка для вектора коэффициентов наклона идентична знакомой МНК-оценке, тогда как оценка для дисперсии отличается от МНК- значения s2 делением на N, а не N — К. Информационная матрица имеет вид ma2) = E{Si(C,a2)Si(C,a2y}. Используя то, что для нормального распределения Е{е{\ — О, Е{е2} = а2, Е{е\} = 0 и E{ej} = Зет4 (см. Приложение Б), можно
6.2. Спецификационные тесты 273 показать, что w <72) = (a-2E{xix'i} 0 \ 1 V ° ы) Поскольку эта информационная матрица блочно диагональная, то ее обращение будет равно V 0 2G 4 Из этого следует, что оценки /3 и Э2 асимптотически нормальны и взаимно независимы, а именно VN0 - 13) -+ ЩО, а2Е{хЛгУ1), VN(a2 - a2) -> Л/"@, 2а4). Таким образом, для малых выборок приближенно справедливо, что N Заменяя <т2 на ее оценку д2, получаем (приближенно) P~Af^,a2(j2Xix'^ у Заметим, что это весьма близко к результатам, которые известны для МНК-оценки. 6.2. Спецификационные тесты 6.2.1. Три принципа тестирования На основе оценки максимального правдоподобия можно построить большое количество альтернативных тестов. Такие тесты, как пра- вило, основаны на одном из трех различных принципов: Вальда, отношения правдоподобия или множителей Лагранжа. Хотя для по- строения теста проверки заданной гипотезы можно использовать лю- бой из этих трех принципов, каждый из них имеет свои собственные достоинства и преимущества. В предыдущих главах неоднократно
274 6. Оценивание методом максимального правдоподобия применялся 'тест Вальда и, в общем, он применим к любой оценке, которая состоятельна и асимптотически нормальна. Принцип отно- шения правдоподобия (ОП) предоставляет легкий способ сравнить две альтернативные вложенные модели, тогда как тесты множите- лей Лагранжа (МЛ) позволяют протестировать ограничения, кото- рые накладываются на модель при оценивании. Подход МЛ особенно подходит для тестирования неправильной спецификации модели, ко- гда выбранная спецификация модели тестируется на некорректную спецификацию в нескольких направлениях (как, например, гетерос- кедастичность, ненормальность, или невключенные переменные). Опять рассмотрим общую проблему оценивания К-мерного век- тора параметров 9 на основе максимизации логарифмической функ- ции правдоподобия, то есть: N max log L{9) = max V^ log Li{9). в о г=1 Предположим, что мы интересуемся тестированием одного или более линейных ограничений на вектор параметров 9 — F\,... , в кI • Эти ограничения можно представить в виде нулевой гипотезы Hq : R9 — q для некоторого фиксированного J-мерного вектора д, где R — J х К матрица. Предполагается, что J строк матрицы R линейно независимы, так что ограничения не противоречат друг другу и не являются избыточными. Три принципа тестирования можно резюмировать следующим образом: 1. Тест Вальда. Вектор неизвестных параметров 9 оценивается методом максимального правдоподобия и проверяется, является ли разность R9 — q близкой к нулю, используя ее (асимптоти- ческую) ковариационную матрицу. Эта идея лежит в основе известных t-и F-критериев. 2. Тест отношения правдоподобия. Модель оценивается дваж- ды: один раз без наложенных ограничений (при ММП-оценке 9) и один раз с наложенной нулевой гипотезой (при ММП-оценке 9 с ограничениями 9, где R9 = q) и проверяется, отличается ли разность в значениях логарифмических функций правдоподобия log L{9) — log L{9) значимо от нуля. Это подразумевает сравнение максимумов log L{9) без ограничений и с ограничениями. 3. Тест множителей Лагранжа. Модель оценивается с ограни- чениями, налагаемыми нулевой гипотезой (при ММП-оценке 0),
6.2. Спецификационные тесты 275 и проверяется, значимо ли нарушены условия первого порядка для общей модели. Таким образом, выполняется проверка, от- dlogL(e) личаются ли производные первого порядка значимо дв от нуля. Несмотря на то, что с помощью этих трех тестов анализируются различные аспекты функции правдоподобия, в общем, эти тесты асимптотически эквивалентны (то есть: критические статистики имеют одно и то же асимптотическое распределение, даже если нарушается нулевая гипотеза), и даже в некоторых случаях они приводят к одинаковым числовым результатам. Однако вычисле- ние критических статистик существенно различается, поэтому в большинстве случаев, мы выбираем тест, который наиболее легко вычисляется по имеющимся у нас данным. Например, тест Вальда требует оценивания модели без наложенных ограничений, тогда как тест множителей Лагранжа (МЛ) требует, чтобы модель оценива- лась только при нулевой гипотезе. В результате тест МЛ может быть особенно привлекательным, когда ослабление нулевой гипоте- зы существенно усложняет оценивание модели. Этот тест является привлекательным и в ситуациях, когда число различных гипотез, ко- торые хотят протестировать, является большим, поскольку модель следует оценивать только один раз. Тест отношения правдоподобия требует, чтобы модель оценивалась с ограничениями и без огра- ничений, но, как мы увидим, он легко вычисляется по значениям логарифма правдоподобия. Тест Вальда отправляется от результата, в соответствии с которым VN(e-9)^N@,V). F.23) Отсюда следует, что J-мерный вектор R6 также имеет асимптотиче- ское нормальное распределение, которое можно определить в виде (см. Приложение Б), Vn(R9- R6) -► Я@, RVR'). F.24) При нулевой гипотезе R9 равняется известному вектору д, так что мы можем построить критическую статистику, образуя квадратич- ную форму £в = N(R9- qy[RVRf]~\R0- g), F.25) где V — состоятельная оценка для ковариационной матрицы V (см. выше). При нулевой гипотезе Но эта критическая статистика имеет
276 6. Оценивание методом максимального правдоподобия хи-квадрат распределение с J степенями свободы, так что большие значения критической статистики £в вынуждают нас отклонить нулевую гипотезу. Критерий отношения правдоподобия оказывается реали- зуемым еще проще, за счет того, что модель оценивается с нало- женными ограничениями и без них. Это означает, что мы имеем две различные оценки: ММП-оценку 9 без ограничений и ММП-оценку 9 с ограничениями, полученную максимизацией логарифмической функции правдоподобия log L(9) при ограничениях R9 = q. Ясно, что максимизация функции, учитывающая ограничения на ее аргу- менты, не может приводить к большему максимуму по сравнению со случаем без ограничений. Таким образом, из этого следует, что logL(#) — logL(#) > 0. Если эта разность мала, то последствия наложения ограничений R9 — q несущественны, и можно предполо- жить, что ограничения являются корректными. Если разность будет большой, то ограничения, вероятно, являются некорректными. Кри- тическая статистика ОП вычисляется просто как ton = 2[logL@)- log L{9% и при нулевой гипотезе имеет хи-квадрат распределение с J степеня- ми свободы. Это показывает, что если мы оценили две спецификации модели, то мы можем легко протестировать спецификацию с огра- ничениями против более общей спецификации, сравнивая значения логарифмических функций правдоподобия. Важно подчеркнуть, что использование этого теста является приемлемым, если только две сравниваемые модели являются вложенными (см. главу 3). Привле- кательная особенность теста состоит в том, что его легко применить, тестируя нелинейные ограничения, и что результат не чувствителен к способу, которым мы формулируем эти ограничения. Напротив, тест Вальда может применяться при нелинейных ограничениях, но он чувствителен к способу, которым они сформулированы. Напри- мер, будет иметь значение, тестируем ли мы 9k = 1 или log ^^ = 0. Для обсуждения см. (Gregory, Veal, 1985), (Lafontaine, White, 1986) или (Phillips, Park, 1988). 6.2.2. Тесты множителей Лагранжа Некоторые из обсужденных в предыдущих главах тестов, как, на- пример, тест Бреуша—Пагана на гетероскедастичность, являются тестами множителей Лагранжа (МЛ-тестами). Чтобы ввести
6.2. 'Спецификационные тесты 277 общую идею МЛ-теста, предположим, что нулевая гипотеза огра- ничивает некоторые элементы в векторе неизвестных параметров 9 приравниванием к заданным значениям. Чтобы подчеркнуть это, напишем 9' = (^i,^)? гДе нулевая гипотеза теперь говорит, что 02 — #, где 02 имеет размерность J. Термин «множители Лагранжа» исходит из того факта, что он неявно основан на значении множите- лей Лагранжа в проблеме максимизации с ограничениями. Условия первого порядка Лагранжиана Я @, Л) = N X>gLi@)-A'@2-9) L г=1 F.26) приводят к ММП-оценке с ограничениями 9 — (#i,</)' и ^- Век- тор множителей Лагранжа А может интерпретироваться как вектор ограничений скрытых цен 92 — q. Если скрытые цены высоки, то нам хотелось бы отклонить ограничения. Если они близки к нулю, то ограничения относительно «законны». Поэтому чтобы получить критическую статистику, нам хотелось бы рассмотреть распределе- ние вектора А. Из условий первого порядка F.26) следует, что N г=1 N ЕщШ\=Е,,1{д) = 0 F.27) г=1 N N 5; = Е^|±!Щ|=Е^(г), F.28) г—1 '^ i=l где вектор меток Si(9) разбит на подвекторы Sn(9) и Si2{9), соответ- ствуя векторам параметров 9\ и 92 соответственно. Результат F.28) показывает, что вектор множителей Лагранжа А равен вектору пер- вых производных относительно ограниченных параметров в векторе #2, вычисленных в ограниченной оценке 9. Следовательно, вектор ограничений скрытых цен 92 = q также имеет интерпретацию изме- рения величины, на которую нарушаются условия первого порядка относительно #2, если мы вычисляем их в ограниченных оценках 9 — (#i, qf)f. Поскольку первые производные называются также мет- ками, то тест множителей Лагранжа известен также как тест меток. Для определения соответствующей критической статистики, мы используем тот факт, что можно показать — выборочное среднее
278 6. Оценивание методом максимального правдоподобия N ХЛ имеет асимптотическое нормальное распределение с ковариа- ционной матрицей Vx = /22@) - Ы0Iц{e)-lh2{0), F.29) где ljk@) — блоки в информационной матрице 1(9), определяемой выражением F.17), то есть где /22@) имеет размерность Jx J. В вычислительном отношении мы можем использовать тот факт4), что ковариационная матрица F.29) является обращением нижнего правого JxJ блока в обращении 1(9), [) \121(в) 122{в))' то есть V\ — I22(9)~l. Критическую статистику теста множителей Лагранжа можно представить в виде Ыл = ^1\-1122(в)\, F.30) которая при нулевой гипотезе имеет асимптотическое хи-квадрат распределение с J степенями свободы, и где 1(9) обозначает оценку информационной матрицы, основанную на ограниченной оценке 9. Только если 1\2(9) = 0и информационная матрица является блочно диагональной, справедливо, что 122(9) = 122(9)~1. В общем, для вычисления соответствующей ковариационной матрицы N~l\ тре- буются и другие блоки информационной матрицы. Вычисление статистики МЛ-теста особенно привлекательно, ес- ли информационная матрица оценена на основе первых производных логарифмической функции правдоподобия в виде 1 N ~ ~ IG=^Ttsi(e)si(ey, F.31) то есть в виде среднего скалярного произведения вектора первых производных, вычисленных при значении 9, равном ограниченной Этот результат справедлив в общем и следует из правила обращений блочных матриц (см. (Davidson, MacKinnon, 1993, Appendix A) (Green, 2000, Chapter 2)).
6.2. Спецификационные тесты 279 ММП-оценке в. Используя выражения F.27) и F.28), мы можем написать критическую статистику МЛ-теста в виде N _ / N ^ ^ ч-1 iV _ Ыл = Еs^)'(Е siWsiW) Е *(*)• F-32) Заметим, что первые К — J элементов в метке SiF) при суммирова- нии дают нуль из-за равенства F.27). Однако эти элементы вообще важны для того, чтобы вычислить корректную ковариационную матрицу. Только в случае блочной диагональности справедливо, что Лг@) — 0, и другой блок информационной матрицы не имеет от- ношения к нашим задачам. Асимптотически эквивалентную версию критической статистики МЛ-теста в случае блочной диагональности можно представить в виде: N , N $МЛ = -1 N £ г=1 Si2@). F.33) г=1 4=1 Выражение F.32) предлагает легкий способ вычисления крити- ческой статистики теста множителей Лагранжа. Обозначим N х К матрицу первых производных как S, так что 5 = /*i@)'\ 82(9)' F.34) WW/ В матрице S каждая строка соответствует наблюдению, и каждый столбец соответствует производной относительно одного из парамет- ров. Следовательно, мы можем написать N Е^) = ^, г=1 где ^=A,1,...,1)/ размерности N. Кроме того N Е*(*)*@), = 5,5- г=1 Это позволяет нам переписать выражение F.32) как Цмл = i'S{S'S)-'S'i = дг^5^)^. F.35)
280 6. Оценивание методом максимального правдоподобия Теперь, рассмотрим вспомогательную регрессию столбца единиц по столбцам матрицы S. Из стандартного выражения для МНК-оценки (S'S)~1S'l мы получаем прогнозные значения этой регрессии в виде S(S'S)~1SfL. Поэтому объясненная сумма квадратов задается как t,S(S,S)-1S'S(S'S)-1S,L = t'SiS'S^S'i, наряду с тем, что полная (не центрированная) сумма квадратов этой регрессии равна i!ь. Следовательно, из этого следует, что одну из версий критической статистики теста множителей Лагранжа можно вычислить как iMJI = NR2, F.36) где R2 — нецентрированный R2 (см. параграф 2.4) вспомогательной регрессии вектора единиц по векторам меток (в матрице SM'. При нулевой гипотезе критическая статистика асимптотически распре- делена как х2 с J степенями свободы, где J — число ограничений, наложенных на вектор неизвестных параметров в. Заметим, что вспомогательная регрессия не должна включать свободный член. Формулы в F.32) или F.36) предоставляют один из способов вы- числения критической статистики множителей Лагранжа, часто на- зываемый версией внешнего произведения градиента (ВПГ) ста- тистики МЛ-теста (см. (Godfrey, 1988, р. 15)). К сожалению, тесты, основанные на оценке ВПГ ковариационной матрицы, как правило, имеют свойства для малых выборок, которые весьма отличаются от той асимптотической теории, на основе которой получают прогнозы. Некоторые эксперименты Монте-Карло наводят на мысль, что тесты, основанные на ВПГ, имеют тенденцию отклонять нулевую гипотезу слишком часто в случаях, когда она, на самом деле, истинна. То есть, фактический уровень значимости критериев может быть намного больше, чем заданный асимптотический уровень (принимаемый, как правило, равным 5%). Это означает, что при отклонении нулевой гипотезы следует быть осторожным, если критическая статистика превышает асимптотическое критическое значение. Для дополни- тельного обсуждения см. (Davidson, MacKinnon, 1993, p. 477). Для вычисления критической статистики МЛ-теста существуют альтер- нативные способы, например, используя выражение F.30) и матрицу Если ваше программное обеспечение не обеспечивает вычисления нецентриро- ванных R -тов, тот лее самый результат получается вычислением N — RSS, где RSS обозначает остаточную сумму квадратов.
6.2. Спецификационные тесты 281 вторых производных логарифмической функции правдоподобия, или на основе других вспомогательных регрессий. Некоторые из них бу- дут обсуждены в следующем параграфе. Несмотря на вышеупомянутые замечания, мы сосредоточим на- ше обсуждение главным образом на подходе NR2 к реализации МЛ-теста. Это объясняется тем, что при вычислениях требуются только первые производные. В этом подходе можно легко построить тест на проверку любой гипотезы, поскольку столбцы матрицы S ча- сто определяются довольно легко на основе результатов оценивания. При реализации версии ВПГ-теста также рекомендуется проверить ваше программирование построением регрессии вектора единиц по столбцам матрицы 5, что соответствует отсутствию ограничений на параметры. В результате это должно привести к i?2, равному нулю. В параграфе 6.3 мы обсудим реализацию принципа множителей Лагранжа, чтобы проводить тестирование на невключенные пере- менные, гетероскедастичность, автокорреляцию и ненормальность, все в контексте линейной модели регрессии с нормальными остат- ками. В главе 7 описывается несколько приложений МЛ-тестов к различным типам моделей. Однако сначала мы снова рассмотрим наш простой пример. 6.2.3. Пример (продолжение) Снова рассмотрим простой пример, касающийся урны с красными и желтыми шарами. Этот пример особенно прост, поскольку включает только один неизвестный параметр. Предположим, что мы интере- суемся тестированием гипотезы Но : р = ро для данного значения Ро- Как мы видели, (неограниченная) оценка максимального прав- доподобия равна г=1 в то время как ограниченная оценка просто равна р = ро- Тест Вальда для нулевой гипотезы Щ в его квадратичной форме основан на критической статистике £в = N(p- р0)[рA - Р)]~\р- Ро), которая является просто квадратом выражения F.21). Для теста отношения правдоподобия нам требуется сравнить максимальные значения логарифма правдоподобия для неограни-
282 6. Оценивание методом максимального правдоподобия ченной и ограниченной модели, то есть iVi / iVi \ log Цр) = N, log -^ + (N - N,) log ^1 - -^ J, F.37) и log L(p) = Nx logpo + (N- Nx) log A - po), Критическая статистика вычисляется просто как ton = 2(\og L(p)-log L(p)). И, наконец, мы рассмотрим тест множителей Лагранжа. При единственном параметре мы получаем, что множитель Лагранжа iV_1A (выраженный как выборочное среднее) является асимптоти- чески нормальным с дисперсией 1(р) = \рA-р)}-\ Кроме того, N *=£ d log Li (p) i=i др _ Ni _ iV-iVi Ро Po 1 - Po Таким образом, мы можем вычислить критическую статистику МЛ- теста как Ыл = N^Xlpoil - ро)]А = = ЛГ-1^ - iVPo)[po(l - Po)]_1(^i " ^Ро) - = iV(p-p0)[po(l-po)]_1(p-Po). Это показывает, что в этом случае статистика МЛ-теста очень похожа на статистику теста Вальда: единственное различие состоит в том, что информационная матрица оценивается, используя ограниченную оценку po 7 а не неограниченную оценку р. В качестве примера, предположим, что мы имеем выборку N — 100 шаров, из которых 44% являются красными. Если мы тестируем гипотезу, что р = 0,5, то мы получаем статистику Вальда, ОП- статистику и МЛ-статистику соответственно равные 1,46, 1,44 и 1,44. 5%-ое критическое значение, взятое для асимптотического хи- квадрат распределения с одной степенью свободы равно 3,84, так что нулевая гипотеза не отклоняется на 5%-ом уровне значимости ни одним из трех критериев.
6.3. Тесты в модели нормальной линейной регрессии 283 6.3. Тесты в модели нормальной линейной регрессии Опять рассмотрим нормальную линейную модель регрессии, которая обсуждалась в п. 6.1.4, Уг = х'ф + еи ег ~ НОНР@, а2), где остаток Е{ независим от вектора объясняющих переменных Х{. Предположим, что нас интересует тестирование правильности дан- ной спецификации модели. Неправильная спецификация могла бы отражать невключение существенных объясняющих переменных, наличие гетероскедастичности или автокорреляции, или ненормаль- ность остатков. Тестировать такие неправильные спецификации от- носительно легко, используя структуру множителей Лагранжа, ко- гда предполагается, что данная модель является ограниченной мо- делью и ММП-оценки являются ограниченными ММП-оценками. Тогда мы рассматриваем более общие модели, которые допускают, например, существование гетероскедастичности, а затем тестируем, значимо ли данные оценки нарушают условия первого порядка для более общей модели. 6.3.7. Тестирование на наличие существенных невключенных переменных С помощью первого спецификационного теста, который мы рассмот- рим, тестируется наличие существенных невключенных переменных. В этом случае более общая модель есть у{ = х'{C + z'a + £i, где об остатке б{ сделаны те же самые предположения, что и прежде, a Zi — J-мерный вектор не включенных объясняющих переменных, не зависимых от остатка е\. Нулевая гипотеза утверждает, что Но : 7 = 0. Условия первого порядка для более общей модели подра- зумевают, что следующие производные все равны нулю: N £ г=1 Уг_ о2 N ~2^2 г=1 (Уг N г=1 а2 а2 - AiY m
284 6. Оценивание методом максимального правдоподобия Эти же производные при ограниченных ММП-оценках параметров /3, а2 (и, соответственно, при векторе параметров 7 = 0), наряду с определением остатков ^ = yi — х[/3^ мы можем написать в виде N Л N ^ АТ N ^ i=l i=l i=l где первое и третье выражения по построению равны нулю 6^. Таким образом тест множителей Лагранжа должен проверить, отличается N ^ ЕС 7 Zj -^г- значимо от нуля. Критическую статистику МЛ-теста о1 i=l можно вычислить с помощью выражения F.35), где матрица S имеет типичную строку [eirt Siz[]. F.38) Из-за блочной диагональности информационной матрицы производ- ные по а2 здесь можно опустить, хотя не было бы некорректно также включить их в матрицу S. Кроме того, не имеющие отно- шение к делу коэффициенты пропорциональности исключаются из матрицы S. Это позволяется, поскольку такие константы не влияют на результат выражения F.35). В итоге мы вычисляем критическую МЛ-статистику построением регрессии вектора единиц на (ММП или МНК) остатки, взаимодействующие с включенными объясняющими переменными Xi и с невключенными переменными Zf, и умножаем нецентрированный R2 на объем выборки N. При нулевой гипотезе получающаяся критическая статистика NR2 имеет асимптотическое хи-квадрат распределение с J степенями свободы. Если вектор Zi выбирается как нелинейная функция от вектора Xi, то этот подход можно непосредственно использовать для тестирования функцио- нального вида модели (против хорошо определенной альтернативы). 6.3.2. Тестирование на наличие гетероскедастичности Теперь предположим, что дисперсия остатка Si может не быть константой, а является функцией от некоторых переменных ^, которые обычно состоят из подмножества объясняющих переменных Xi или являются функциями от Xi. Это формализовано в уравнении ' Эти два выражения соответствуют условиям первого порядка ограниченной модели и определяют р и a .
6.3. Тесты в модели нормальной линейной регрессии 285 D.44) из главы 4, которое говорит, что V{£i} = о\ = a2h(z'ia), F.39) где h — неизвестная, непрерывно дифференцируемая функция (ко- торая не зависит от г) такая, что h(-) > О, h'(-) ф О, и /г@) = 1, и где Zi — J-мерный вектор объясняющих переменных (не включая константу). Нулевая гипотеза гомоскедастичности остатков соответ- ствует Но : a = 0 (и мы имеем ^{£г} = с2)- Вклад в логарифми- ческую функцию правдоподобия наблюдения i в этой более общей модели задается в виде 1 1 log Li{0, a) = -- log Bтг) - - log о2К(^Ы) - - \{Vi-A№ 2 a2h(z'ia) F.40) Метка по a имеет вид dlogLi(j3,a) = da где 1 1 liyi-x'fif 2 h(z'ia) 2 a2h(z'iaJ . dh(z'a) da da и где h! — производная h. Если мы вычислим метку при ограничен- ных ММП-оценках /3 и Э2, то получим 1 ~2 + 2 KZi где к — h'@) ф 0 — несущественная константа. Тем самым объяс- няется удивительный результат, что тест не требует спецификации для функции h. Поскольку информационная матрица в данном случае являет- ся блочно диагональной относительно /3 и (а2, а), то ВПГ-версия теста множителей Лагранжа для гетероскедастичности получается вычислением выражения F.35), где матрица S имеет строки вида [е?-о* {e?-e*)z[], и где снова исключены несущественные коэффициенты пропор- циональности. Таким образом, во вспомогательную регрессию мы включаем переменные, которые мы подозреваем во влиянии на ге- тероскедастичность, взаимодействующие с отклонениями квадратов остатков от дисперсии ошибки, оцененной при нулевой гипотезе. С J переменными в векторе Z{ получающаяся критическая статистика
286 6. Оценивание методом максимального правдоподобия NR2 имеет асимптотическое хи-квадрат распределение с J степеня- ми свободы (при нулевой гипотезе). Вышеупомянутый подход предоставляет способ вычислить тест Бреуша- Пагана на наличие гетероскедастичности, соответствующей нашему общему правилу вычисления, заданному выражением F.35). Существуют альтернативные способы вычисления (асимптотически эквивалентные) критической статистики Бреуша—Пагана, напри- мер, вычисление 7V, умноженного на R2 вспомогательной регрессии £^2 (квадратов МНК-остатков или ММП-остатков) на Z{ и константу. Это обсуждалось в главе 4. Для дополнительного обсуждения см. (Engle, 1984) или (Godfrey, 1988, Section 4.5). Если нулевая гипотеза гомоскедастичности отклоняется, то один из вариантов состоит в оценивании более общей модели, которая учитывает гетероскедастичность. Этот вариант может быть осно- ван на вкладе в логарифмическую функцию правдоподобия F.40) и на некотором специальном выборе функции /г(-), например экс- поненциальной функции. Поскольку в этой специфической модели гетероскедастичность не приводит в результате к несостоятельной ММП-оценке (МНК-оценке) для вектора неизвестных параметров /3, то уместно вычислить при этом и состоятельные стандартные ошибки полученных оценок с учетом наличия гетероскедастично- сти; см. главу 4 и параграф 6.4 ниже. 6.3.3. Тестирование на наличие автокорреляции При работе с временными рядами остатки в модели регрессии могут быть подвержены автокорреляции. Рассмотрим линейную модель yt = x'tP + eu t = l,2,...,T, при сформулированных выше предположениях. Альтернативная ги- потеза автокорреляции первого порядка утверждает, что et = pet-i + щ, так что нулевая гипотеза соответствует Но : р = 0. Если мы перепи- сываем модель в виде yt = х'ф + pst-i + щ, то из этого следует, что тестирование на наличие автокорреляции подобно тестированию на не включенную в модель переменную, а именно, St-1 = Vt-l - x't-ifi.
6.3. Тесты в модели нормальной линейной регрессии 287 Следовательно, можно вычислить версию теста множителей Лагран- жа для автокорреляции, используя выражение F.35), где S имеет строки вида \etx't £t£t-i] и число наблюдений, равное Г — 1. Если xt не содержит лагирован- ную зависимую переменную, то информационная матрица является блочно диагональной относительно /3 и (а2, р), и метки относитель- но /5, соответствующие £t#', можно исключить из S. Это приводит к критической статистике т , т \ -1 т Ыл = ]П ^et-i ( Y^ £t£t-i ) XI etet-i- t=2 ^t=2 ' t=2 Поскольку при нулевой гипотезе остатки St и St-i независимы7^, то справедливо, что E{e2teU} = E{e2t}E{eU}- Это указывает на то, что асимптотически эквивалентная критиче- ская статистика получается с помощью замены В результате получаем т , т ч -1 т t=2 ^t=2 ' t=2 -1 «мл = (Г - 1)^ '-^- !=f = (Т - 1) Д', Е ^ t=2 где имеется в виду R2 вспомогательной регрессии МНК-оцененного остатка (или ММП-остатка) ?t по его лагу ?t-i- Эта критическая статистика соответствует тесту Бреуша—Годфри на наличие авто- корреляции, который обсуждался в главе 4. Если вектор Xt содержит лагированную зависимую переменную, то соответствующую вспомо- гательную регрессию ei надо строить по e't-i и xt- Тесты на наличие автокорреляции р-го порядка получаются пополнением строк матри- цы S с Et^t-2 до e'tz't-p, что> соответственно, потребует добавления Напомним, что при нормальности нулевая корреляции означает независимость (см. Приложение Б).
288 6. Оценивание методом максимального правдоподобия ?t_2,... , s't-p во вспомогательную регрессию, объясняющую £*. До- полнительное обсуждение представлено в работах (Engle, 1984) и (Godfrey, 1988, Section 4.4). 6.4. Метод квази-максимального правдоподобия и тесты моментных условий Это существенно, что метод максимального правдоподобия требует полностью определенных предположений об общем виде анализиру- емых распределений, тогда как для применения обобщенного метода моментов (ОММ), обсужденного в предыдущей главе, делаются предположения только о моментах этих распределений. Однако, воз- можно, что моментные условия, используемые в подходе ОММ, мо- гут также опираться на предположения о форме распределения. Это позволяет нам воспроизводить ММП-оценку в виде ОММ-оценки с моментными условиями, соответствующими условиям первого по- рядка максимального правдоподобия. Такое обобщение полезно, по- скольку позволяет нам утверждать, что в некоторых случаях оценка максимального правдоподобия состоятельна, даже если функция правдоподобия не полностью корректна (но корректны условия пер- вого порядка). Кроме того, это позволяет нам расширить класс тестов множителей Лагранжа на случай тестов моментных условий. 6.4.1. Метод квази-максимального правдоподобия В этом пункте данного параграфа мы увидим, что ММП-оценку можно интерпретировать как ОММ-оценку, отметив, что условия первого порядка проблемы максимального правдоподобия соответ- ствуют выборочным средним, основанным на теоретических момент- ных условиях. Отправной точкой является справедливость равенства E{si@)} = 0 F.41) для истинного If-мерного вектора параметров в при предположе- нии, что функция правдоподобия корректна. Доказательство этого равенства относительно легкое и поучительное. Если мы рассмат- риваем функцию плотности переменной yi при заданном векторе
6.4. Метод квази-максимального правдоподобия 289 объясняющих переменных Х{, f(yi\%i, #)> то по построению справед- ливо, что (см. Приложение Б), / f(yi\xi;9)dyi = 1, где интегрирование проводится по несущему множеству *^ yi- Диф- ференцируя по вектору параметров в, получаем I дв Поскольку df(yi\xj;9) = d\ogf(yi\xi-e) дв ~ дв то из этого следует, что dyi = 0. /(Уг\Хг,в) = 8i(e)f(yi\Xi;e), I si(e)f(yi\xi;e)dyi = E{si(e)}=0, где первое равенство следует из определения оператора математи- ческого ожидания. Предположим, что вектор неизвестных параметров 9 однознач- но определяется этими условиями. То есть, существует только один вектор в, который удовлетворяет условию F.41). Тогда условие F.41) является совокупностью действительно имеющих место моментных условий, и для оценивания вектора неизвестных параметров 9 мы можем использовать ОММ-подход. Так как число параметров равно числу условий моментов, то это сводится к решению условий первого порядка г=1 Конечно, такое решение воспроизводит ММП-оценку для вектора параметров в. Однако, оно показывает, что получающаяся оценка для вектора параметров в состоятельна при условии, что условие F.41) корректно, которое, возможно, более слабое, чем требование правильной спецификации всего распределения. В линейной модели регрессии с нормальными остатками условия первого порядка отно- сительно вектора параметров /3, как легко заметить, соответствуют равенству Е{(У1 - Х'{/3)Хг} = 0, То есть по всем возможным значениям yi (примеч. научн. ред. перевода).
290 6. Оценивание методом максимального правдоподобия которое в свою очередь соответствует совокупности моментных усло- вий, налагаемых МНК-оценкой. Тем самым объясняется, почему ММП-оценка в нормальной линейной модели регрессии состоятель- на, даже если распределение остатка Si не является нормальным. Если ММП-оценка основана на неправильной функции правдо- подобия, но можно аргументировать, что она состоятельная на ос- нове справедливости условия F.41), то такая оценка иногда называ- ется оценкой квази-максимального правдоподобия (КММП- оценкой) или оценкой псевдо-максимального правдоподобия (см. (White, 1982) или (Gourieroux, Monfort, Trognon, 1984)). Асимпто- тическое распределение КММП-оценки может отличаться от асимп- тотического распределения ММП-оценки. В частности, результат для асимптотической ковариационной матрицы F.16) может боль- ше не быть справедливым. Используя наши общие формулы для ОММ-оценки, можно получить асимптотическую ковариационную матрицу КММП-оценки для вектора неизвестных параметров #, предполагая, что условие F.41) корректно. Из результатов по асимп- тотическому распределению E.74)-E.76) следует, что КМПП-оценка в удовлетворяет где8) V = I(e)-1JF)I{0)-1, F.42) m " Е\~аГ! ~ Е{—эвШ~Г как это определено в F.17), и J(e)=E{si(e)si(ey}, как в определении F.19). Ковариационная матрица F.42) обобща- ет ковариационную матрицу F.16) и корректна всякий раз, когда КММП-оценка в состоятельна. Например, в случае линейной мо- дели регрессии оценивание ковариационной матрицы на основе вы- ражения F.42) воспроизводило бы состоятельную ковариационную матрицу при наличии гетероскедастичности, которая обсуждалась в п. 4.3.4. Некоторые пакеты программного обеспечения имеют опцию Для обеспечения справедливости формулы F.42) сохраняется предположение, что наблюдения являются взаимно независимыми.
6.4. Метод квази-максимального правдоподобия 291 вычисления робастных стандартных ошибок для (К)ММП-оценок, основанных на выражении ковариационной матрицы F.42). Информационный матричный тест (ИМ-тест), предложен- ный в статье Уайта (White, 1982), тестирует равенство двух К х К матриц 1(9) и J(9) с помощью сравнения их выборочных аналогов. Из-за симметрии следует проводить сравнение максимум К(К + 1)/2 элементов, так что степени свободы для ИМ-теста потенциально очень большие. В зависимости от вида функции правдоподобия с помощью ИМ-теста проводится проверка на неправильную специ- фикацию одновременно по ряду направлений (как, например, функ- циональный вид, гетероскедастичность, асимметрия и эксцесс). Для дополнительного обсуждения и описания вычислительных проблем, см. (Davidson, MacKinnon, 1993, Section 16.9). 6.4.2. Тесты моментных условий Анализ, содержащийся в предыдущем пункте данного параграфа, позволяет нам обобщить класс тестов множителей Лагранжа на случай так называемых тестов моментных условий (МУ-тестов), которые предложены в статьях (Newey, 1985) и (Tauchen, 1985). Рассмотрим модель, определяемую условием F.41) E{Si(e)} = о, где (К)ММП-оценка 6 удовлетворяет соотношениям: г=1 Теперь рассмотрим гипотезу, определяемую условием Е{ггц(9)} = 0, F.43) где rrii(9) — J-мерная функция данных и неизвестных параметров в векторе 9, подобная S{(9). Различие состоит в том, что при оце- нивании условие F.43) не накладывается. Обоснованность гипотезы F.43) можно протестировать, проверяя близок ли к нулю ее выбо- рочный аналог lf>;@). F.44) г=1 Это может быть сделано довольно легко, если подметить сходство между выражением F.44) и метками более общей функции прав- доподобия. Следовательно, ВПГ-версию теста моментных условий
292 6. Оценивание методом максимального правдоподобия F.43) можно вычислить, взяв iV, умноженное на нецентрированный R2 регрессии вектора единиц по столбцам матрицы £, где S теперь имеет строки вида [Si(ey гщфУ]. При нулевой гипотезе F.43) получающаяся критическая статисти- ка имеет асимптотическое хи-квадрат распределение с J степенями свободы. Вышеупомянутый подход показывает, что дополнительные усло- вия, которые тестируются, не обязательно должны соответствовать меткам более общей функции правдоподобия. Специфической об- ластью, где этот подход полезен, является тестирование гипотезы нормальности. 6.4.3. Тестирование гипотезы нормальности Снова рассмотрим линейную модель регрессии при нулевой ги- потезе нормальных остатков. Для непрерывно наблюдаемой пе- ременной тесты на нормальность обычно проверяют асимметрию (третий момент) и избыточный эксцесс (четвертый момент), по- скольку нормальное распределение подразумевает, что Е{е^} = 0 и Е{е\ — Зсг4} = 0 (см. Приложение Б). Если Е{е\} ф О, то распре- деление остатка Е{ не является симметричным относительно нуля. Если Е{е\ — 3<т4} > 0, то распределение остатка Е{ как говорится, по- казывает избыточный эксцесс. Это означает, что распределение остатка Е{ имеет более тяжелые хвосты, чем нормальное распре- деление. В книге (Davidson, MacKinnon, 1993, p. 63) представлены графические примеры таких ситуаций. Учитывая обсуждение из предыдущего пункта параграфа, тест на нормальность можно получить, сначала построив регрессию век- тора единиц по столбцам матрицы 5, которая теперь имеет строки вида [егх'г П-о2 ef е^-Ъд% где e'i обозначает ММП-оцененный остаток (или МНК-остаток), и затем, вычислив iV, умноженное на нецентрированный R2. Хотя ненормальность остатка Е{ не приводит к несправедливости свойств ни состоятельности МНК-оценки, ни ее асимптотической нормально- сти, вышеупомянутый тест иногда представляет интерес. Показание, что остаток е% имеет весьма скошенное распределение, может указать на возможно желательное преобразование зависимой переменной до
Упражнения 293 оценивания (например, рассматривая логарифмическую заработную плату, а не саму заработную плату). В главе 7 мы увидим классы моделей, где нормальность играет намного более важную роль. Популярным вариантом МЛ-теста на нормальность является тест Джарка—Вера (Jarque и Вега, 1980). Критическая статистика имеет вид N ^оч 2 ч / ч N £мл = Т 6 VN ^ а3 У 24VN ^ ?4 F.45) т. е. является взвешенным средним квадратов выборочных момен- тов, соответствующих асимметрии и избыточному эксцессу, соот- ветственно. При нулевой гипотезе критическая статистика имеет асимптотическое хи-квадрат распределение с двумя степенями сво- боды; более подробное описание см. в (Godfrey, 1988, Sect. 4.7). Упражнения Упражнение 6.1 (нормальная линейная регрессионная модель) Рассмотрим следующую линейную модель регрессии где /? = (/3i, /32)/ — вектор неизвестных параметров, а Х{ — одномер- ная наблюдаемая переменная. Мы имеем выборку из i = 1,..., N независимых наблюдений и предполагаем, что остатки Si являются НОНР@, сг2), независимыми от всех Х{. Тогда функция плотности Уг (при заданном Х{) имеет вид а. Приведите выражение для вклада в логарифм правдоподобия наблюдения г, log Li(/3, a2). Объясните, почему логарифмиче- ская функция правдоподобия для всей выборки имеет вид N log L(/?, a2) = ]T logi^/?, а2). й п <9 log £,(/?, а2) о. Определите выражения для двух элементов — и покажите, что при истинных значениях параметров оба имеют нулевое математическое ожидание.
294 6. Оценивание методом максимального правдоподобия в. Получите выражение для -—z и покажите, что при da2 истинных значениях параметров оно также имеет нулевое мате- матическое ожидание. Предположим, что Х{ — фиктивная переменная, равная 1 для муж- чин и 0 для женщин такая, что Х{ = 1 для г = 1,... , iVi (первые N\ наблюдений) и Х{ — О для г = N\ + 1,... , N. г. Получите условия первого порядка для функции максимального правдоподобия. Покажите, что ММП-оценки для вектора неиз- вестных параметров /3 имеют вид 1 N 1 N ^^w^n; S у** & = ^r$>-/?i. 1 i=7Vi + l г=1 Какова интерпретация этих двух оценок? Какова интерпретация значений истинных параметров fa и fa? д. Покажите, что <92logL,(/3,a2) = <92logL,(/?,a2) 8C da2 da2 8C и покажите, что эти частные производные второго порядка имеют нулевое математическое ожидание. Каковы следствия из этого результата для асимптотической ковариационной матрицы ММП-оценки (Дь/?2,£2)? е. Представьте два способа оценивания асимптотической ковариа- ционной матрицы для (/3i, fa)' и сравните результаты. ж. Представьте альтернативный способ оценивания асимптотиче- ской ковариационной матрицы для (fa, fa)', который позволяет остатку б{ быть гетероскедастичным. Предположим, что мы интересуемся гипотезой Но : fa = 0 против альтернативной гипотезы Н\ : fa ф 0. Тесты могут быть основаны на принципе отношении правдоподобия, множителей Лагранжа или на принципе Вальда. з. Объясните, каковы эти три принципа. и. Обсудите для каждого из трех тестов, что требуется для их вычисления.
Упражнения 295 Хотя три критических статистики имеют одно и то же асимптоти- ческое хи-квадрат распределение, можно показать (см., например, (Godfrey, 1988, Sect. 2.3)), что для вышеприведенной модели при любой конечной выборке справедливо, что £в < ion < Ыл- к. Объясните, что означает мощность теста. Что данное неравен- ство говорит нам о мощности трех критериев? (Подсказка: если требуется, то обратитесь к главе 2.) л. Объясните, что означает (фактический) размер теста. Что дан- ное неравенство говорит нам о размерах трех тестов? м. Предпочли бы вы один из этих трех критериев, зная вышепри- веденное неравенство? Упражнение 6.2 (пуассоновская регрессионная модель) Пусть i/i обозначает, сколько раз индивидуум i покупает табак в данном месяце. Предположим, что имеется случайная выборка из N индивидуумов, для которых мы наблюдаем значения 0,1,2,3,... . Пусть Xi будет наблюдаемой характеристикой этих индивидуумов (например, пол). Если мы предполагаем, что для данного Х{ пе- ременная yi имеет распределение Пуассона с параметром Л^ = exp {fli+foxi} (см., например, (Greene, 2000, Sect. 19.9)), то функция вероятностной меры переменной yi, условной по х\, имеет вид P{yi = y\xi} = ^-. а. Напишите логарифмическую функцию правдоподобия для этой так называемой пуассоновской регрессионной модели. б. Получите вектор меток. Используя тот факт, что распределение Пуассона подразумевает E{yi\xi) = А», покажите, что метка имеет нулевое математическое ожидание. в. Получите выражение для информационной матрицы J(/3i, /З2) • Используйте ее для определения асимптотической ковариаци- онной матрицы для ММП-оценки и для вывода состоятельной оценки для этой матрицы. г. Опишите, как можно построить тест на «пропущенную» в моде- ли объясняющую переменную, используя схему критерия мно- жителей Лагранжа. Какая вспомогательная регрессия необхо- дима?
7 Модели с ограниченными зависимыми переменными В практических приложениях часто приходится описывать явления, которые имеют дискретную или смешанную дискретно-непрерывную природу. Например, можно интересоваться объяснением, имеют ли оплачиваемую работу (да или нет) замужние женщины и сколько часов они работают (нуль или более). Если требуется объяснить такой тип переменной, то, в общем, линейная модель регрессии неприемлема. В этой главе мы рассмотрим альтернативные моде- ли, которые можно применить для моделирования дискретных и дискретно-непрерывных переменных, и уделим внимание оценива- нию и интерпретации их параметров. Хотя и не всегда, но во многих случаях проблемы, анализиру- емые с помощью моделей такого типа, имеют микроэкономическую природу и таким образом, требуются данные относительно инди- видуумов, домашних хозяйств или фирм. Чтобы подчеркнуть это, мы проиндексируем все переменные индексом г, пробегающим це- лочисленные значения от 1 до объема выборки N. Параграф 7.1 начинается, возможно, с самого простого случая ограниченной зави- симой переменной модели, то есть с модели бинарного выбора. Рас- пространение на множественные дискретные исходы обсуждается
7.1. Модели бинарного выбора 297 в параграфе 7.2 К Если анализируется распределение непрерывной эндогенной переменной, но, при этом, положительная вероятност- ная мера может быть сосредоточена в одной или более дискретных точках, то рекомендуется применение тобит-моделей. Стандартная тобит-модель обсуждается в параграфе 7.3, в то время как некоторые расширения, включая модели с ограничениями на процесс форми- рования выборки, при которых не наблюдается неслучайная доля возможных исходов, содержатся в параграфе 7.4. Поскольку пробле- ма, связанная с ограничениями на процесс формирования выборки, т. е. — с «выборочной селективностью» ("sample selection problem"), часто возникает с микро-данными, то в параграфе 7.5 предоставля- ется некоторое дополнительное обсуждение этой проблемы, главным образом фокусируясь на проблеме идентификации, и на том, при каких предположениях ее можно решить. В различных пунктах па- раграфов приводится определенное число эмпирических примеров. Дополнительное обсуждение моделей с ограниченными зависимыми переменными в эконометрике можно найти в двух обзорных статьях (Amemiya, 1981, 1984) и монографиях (Maddala, 1983) и (Lee, 1996) 7.1. Модели бинарного выбора 7.1.1. Применять ли линейную регрессию? Предположим, что мы хотим объяснить, обладает семья автомоби- лем или нет. Пусть единственной объясняющей переменной будет доход семьи. Мы имеем данные относительно N семей (г = 1,... , N), с наблюдениями относительно их семейных доходов, х^, и наличия автомобиля. Этот последний признак описывается бинарной пере- менной yi, определяемой в виде: уi = 1, если семья г имеет собственный автомобиль; уi = 0, если семья г не имеет собственного автомобиля. Предположим, что мы использовали бы модель регрессии, чтобы объяснить бинарную переменную yi с помощью переменной х^ и Эта глава не охватывает анализ счетных данных, где эндогенная переменная — частота определенного события (например число патентов в данном году). Мо- дели счетных данных пространно рассматриваются в книге (Cameron, Trivedi, 1998).
298 7. Модели с ограниченными зависимыми переменными свободного члена (хц = 1). Такая линейная модель имела бы вид Vi = 0i + 02Xi2 +Si = х'ф + Si, G.1) где Xi = (хц, Х{2)'. По-видимому, резонно сделать стандартное пред- положение, что E{ei\xi} = О, так что E{yi\xi} — х'ф. Это означает, что E{yi\xi} = l.P{yi = l\xi} + О.Р{уг = 0\Xi} = = Р{Уг = 1\хЛ = х'гC. G.2) Таким образом, линейная модель подразумевает, что регрессионный член х'ф является вероятностью и поэтому должен принимать зна- чения между 0 и 1. Это возможно, если только значения вектора объясняющих переменных Х{ ограничены и если удовлетворяют- ся определенные ограничения на вектор параметров /3. Обычно на практике этого достигнуть трудно. В дополнение к этой фунда- ментальной проблеме, регрессионный остаток в G.1) имеет далеко не нормальное распределение и страдает от гетероскедастичности. Поскольку бинарная переменная yi имеет только два возможных исхода @ или 1), то регрессионный остаток для заданного значения вектора х\ также имеет два возможных результата. В частности распределение остатка si можно в итоге получить как P{Ei = -Х'ф\х{\ = Р{Уг = 0\Хг} = 1 - Х'Д Р{бг = 1 - Х*ф\Хг} = Р{Уг = l\Xi} = х'ф. Это подразумевает, что дисперсия регрессионного остатка не явля- ется постоянной, а зависит от объясняющих переменных в соответ- ствии с выражением V{£;|#i} = х^/3A—х^/3). Отметим, что дисперсия регрессионного остатка также зависит от параметров модели /3. 7.1.2. Введение в модели бинарного выбора Для преодоления проблем линейной модели, существует класс мо- делей бинарного выбора (или одномерных дихотомических мо- делей), разработанный, чтобы моделировать «выбор» между двумя дискретными альтернативами. Эти модели, по существу, описывают вероятность, что непосредственно yi — 1, хотя они часто получают- ся из лежащей в основе модели латентной переменной (см. ниже). В общем, мы имеем Р{у{ = 1\хЛ = С(х>,/3) G.4)
7.1. Модели бинарного выбора 299 для некоторой функции G(-). Это уравнение говорит, что веро- ятность yi — 1 зависит от вектора объясняющих переменных х^, содержащего индивидуальные характеристики. Так, например, ве- роятность, что человек имеет дом, зависит от его дохода, уровня образования, возраста и семейного положения. Или, из другой об- ласти: вероятность, что насекомое выживет, приняв дозу ядовитого инсектицида, зависит от количества дозы Х{, и возможно некоторых других характеристик. Ясно, что функция G(-) в выражении G.4) должна принимать значения только в интервале [0,1]. Обычно, вни- мание ограничивается функциями вида G(xi, C) — ¥{х\0). Посколь- ку функция F(-) также должна принимать значения между 0 и 1, то, по-видимому, естественно выбрать функцию F в виде некоторой функции распределения. Наиболее общими вариантами такого вы- бора является: функция стандартного нормального распределения w F(w) = ФИ = У -±= exp |-ii2| dt, G.5) — оо приводящая к так называемой пробит-модели, и функция стан- дартного логистического распределения, задаваемая как ew F(w)=L(w) = r^;, G.6) которая в результате приводит к логит-модели. Третий выбор соот- ветствует равномерному распределению на интервале [0, 1] с функ- цией распределения F(w) = О, w < 0; F(w) = w, 0 < w < 1; G.7) F(w) = 1, w > 1. Это приводит к так называемой линейной модели вероятностей, которая подобна модели регрессии G.1), но вероятности устанавли- ваются 0 или 1, если х'ф превышает нижний или верхний предел, соответственно. На практике, первые две модели (пробит- и логит- модели) более востребованы в прикладной работе. Как стандартная нормальная, так и стандартная логистическая случайная перемен- ные имеют нулевое математическое ожидание, тогда как последняя переменная имеет дисперсию 7г2/3 вместо 1. Поскольку эти две функции распределения очень похожи, если корректируется их раз- личия в масштабе, то в эмпирической работе пробит и логит-модели, как правило, приводят к очень похожим результатам.
300 7. Модели с ограниченными зависимыми переменными В этих моделях бинарного выбора, не говоря уже о знаках коэффициентов, непосредственно нелегко интерпретировать также и сами коэффициенты. Один из способов интерпретировать пара- метры (и облегчить сравнение для разных моделей) состоит в том, чтобы посмотреть на производную вероятности события yi = 1 от- носительно к-то элемента в векторе объясняющих переменных Х{. Для трех вышеописанных моделей, мы получаем: dxik дЬ{х'ф) _ е<Р Ф(х'гР№, (Зк; (или 0), dxik (l + e*10J' dxik где ф(-) обозначает функцию стандартной нормальной плотности. За исключением последней модели эффект от изменений в х^ зависит от значений Х{. Однако во всех случаях знак эффекта от изменений в Xik соответствует знаку его коэффициента /3k • 7.7.3. Лежащая в основе латентная модель Возможно (но не обязательно), получить модель бинарного выбора из лежащих в основе «поведенческих» предположений. Это дела- ется с помощью введения в модель латентной переменной, которая обычно используется, даже если такие предположения о поведении не делаются. Рассмотрим решение женщины, состоящей в браке, иметь оплачиваемую работу или нет. Разница в полезности наличия оплачиваемой работы и ее отсутствия зависит от заработной платы, которую можно было бы получать, а также и от других личных характеристик, как, например, возраст женщины, ее образование, есть ли в семье маленькие дети, и т.п. Таким образом, для каж- дой состоящей в браке женщины г мы можем написать разницу в полезности наличия работы и ее отсутствия в виде функции от на- блюдаемых характеристик Х{ и ненаблюдаемых характеристик в{ 2'. Приняв линейное аддитивное соотношение мы получаем для разно- сти в полезности, обозначаемой через у*, у*=х'ф + ег. G.8) ' Остаток Si не следует путать с регрессионным остатком линейной модели G.1).
7.1. Модели бинарного выбора 301 Поскольку переменная у* ненаблюдаемая, то она называется ла- тентной переменной. В этой главе латентные переменные помеча- ются звездочкой. Наше предположение состоит в том, что индиви- дуум приходит к решению работать, если разность в полезности пре- вышает определенный пороговый уровень, который без потери общ- ности можно установить равным нулю*). Следовательно, мы наблю- даем yi = 1 (наличие работы), если и только если у * > 0 и yi = 0 (от- сутствие работы) в противном случае. Таким образом, мы имеем, что P{Vi = 1} = Р{у* > 0} = Р{х'ф + е{ > 0} = = Р{~ег < х'гр} = Fixtf), G.9) где F обозначает функцию распределения — Е{, или, в общем случае симметричного распределения, функцию распределения В{. Сле- довательно, мы получили модель бинарного выбора, вид которой зависит от предполагаемого распределения Е{. Поскольку масштаб полезности не идентифицируется, то требуется нормировка распре- деления Е{. Обычно это означает, что его дисперсия фиксируется заданным значением. Если выбрано стандартное нормальное рас- пределение, то получаем распределение пробит-модели, для логи- стического распределения получаем логит-модель. Хотя в экономике модели бинарного выбора часто можно ин- терпретировать как получаемые из лежащей в основе проблемы максимизации полезности, конечно, это не обязательно. Обычно латентная переменная у* определяется непосредственно так, что пробит-модель полностью описывается в виде у*=х[[3 + ег, ег~НОНР@,1), у* = 1, если у* > 0, у* = 0, если у* < 0, где остатки Е\ независимы от всех векторов х\. Для логит-модели нормальное распределение заменяется стандартным логистическим распределением. Обычно параметры в моделях бинарного выбора (или, в общем, в моделях с ограниченными зависимыми переменны- ми) оцениваются методом максимального правдоподобия. Это справедливо, если в состав переменных Х{ включена переменная хц = 1, соответствующая свободному члену в уравнении G.8) (примеч. научн. ред. перевода). G.10)
302 7. Модели с ограниченными зависимыми переменными 7.1.4. Оценивание Учитывая наше общее обсуждение ММП-оценивания в главе 6, здесь мы можем ограничиться лишь выводом функции правдоподобия. Фактически, вид функции правдоподобия довольно прост, поскольку он следует непосредственно из вышеописанных моделей. В общем, вклад в правдоподобие наблюдения i с yi — 1 задается в виде P{yi = 1|х;} как функция от неизвестных параметров вектора /?, и, аналогично, для yi = 0. Таким образом, функция правдоподобия для всей выборки задается в виде N l(P) = П р{у* = г\х« PYip{yi = °N PY~Vi> G-и) г=1 где мы включили вектор неизвестных параметров C в выражения для вероятностей, чтобы подчеркнуть, что функция правдоподобия является функцией от вектора параметров C. Как обычно мы пред- почитаем работать с логарифмической функцией правдоподобия. Заменив Р{у{ = 1|ж<; C} = F(xJ/3), мы получаем TV 7V log L(/3) = ^ у, log F(x;/3) + £A - уг) log (l - F(xJ/3)). G.12) г=1 г=1 Подстановка соответствующего вида F приводит к выражению, которое мы должны максимизировать относительно вектора неиз- вестных параметров /3. Как показывалось выше, значения вектора параметров /3 и их интерпретация зависит от выбранной функции распределения. В разделе 7.1.6 это иллюстрируется на эмпирическом примере. Полезно рассмотреть условия первого порядка проблемы мак- симального правдоподобия. Дифференцирование выражения G.12) относительно /3 приводит к выражению d log L(C) где / = F' — производная функции распределения вероятностей (та- ким образом, / является функцией плотности вероятностей). Член в квадратных скобках часто называется обобщенным остатком модели, и мы увидим, что он вновь появится при обсуждении тестов спецификации. Он равняется f{x,iC)/F{x'iC) для положительных F(x'm-FKft) f№0) Xi = 0, G.13)
7.1. Модели бинарного выбора 303 наблюдений (у^ = 1) и —f(x,iC)/{\ — F{x'iE)) для нулевых наблю- дений (yi — 0). Таким образом, условия первого порядка говорят, что каждая объясняющая переменная должна быть ортогональной к обобщенному остатку модели (по всей выборке). Эти условия сопоставимы с условиями первого порядка МНК B.10), которые утверждают, что остатки наименьших квадратов ортогональны к каждой объясняющей переменной в векторе Х{. Для логит-модели мы можем упростить выражение G.13) к виду d log L(f3) =Л дC г=1 ехр {х[C} Уг 1 + ехр {х'ф} х{ = 0. G.14) Решение уравнения G.14) является МПП-оценкой /3. Из этой оценки мы можем оценить вероятность события yi — 1 для заданного вектора объясняющих переменных Х{ как ft-l + exp{^}- GЛ5) Следовательно, условия первого порядка для логит-модели означа- ют, что N N ^pxi = ^yiXi. G.16) г=1 г=1 Таким образом, если вектор объясняющих переменных Xi содержит постоянный член (для его отсутствия нет никаких причин), тогда сумма оцененных вероятностей равна 2_\ У г или числу наблюдений г в выборке, для которых yi = 1. Другими словами, прогнозируемая частота равна фактической частоте. Точно так же, если xi вклю- чает фиктивную переменную, например, равную 1 для женщин и 0 для мужчин, то прогнозируемая частота будет равна фактической частоте для каждой группы пола. Хотя аналогичный результат в точности не справедлив для пробит-модели, для нее он справедлив приближенно на основании сходства логит и пробит-моделей. Рассмотрение условий второго порядка ММП-проблемы, пока- зывает, что матрица производных второго порядка является отрица- тельно определенной (предполагая, что объясняющие переменные в векторе Х{ неколлинеарны). Следовательно, логарифмическая функ- ция правдоподобия является глобально вогнутой, и гарантируется сходимость итерационного алгоритма максимального правдоподо- бия (и обычно — весьма быстрая).
304 7. Модели с ограниченными зависимыми переменными 7.1.5. Качество «подгонки» ("goodness-of-fit") данных моделью Мера качества подгонки данных моделью является итоговой стати- стикой, указывающей на точность, с которой модель аппроксимирует наблюдаемые данные, так же как мера R2 в линейной модели регрес- сии. В случае, когда зависимая переменная является качественной, о точности можно судить либо в терминах подгонки наблюдае- мых частот отклика расчетными вероятностями, либо в терминах способности модели предсказывать наблюдаемые отклики. В про- тивоположность линейной модели регрессии в моделях бинарного выбора нет единой меры качества подгонки данных моделью, а су- ществуют разные меры. Часто меры качества подгонки данных моделью неявно или явно основаны на сравнении с моделью, которая в качестве объясняющей переменной содержит только константу. Пусть log L\ обозначает максимальное значение логарифмической функции правдоподобия интересующей нас модели и пусть log Lo обозначает максималь- ное значение логарифмической функции правдоподобия, когда все параметры, за исключением свободного члена, равны нулю. Ясно, что logLi > log Lo. Чем больше разность между двумя значени- ями логарифма правдоподобия, тем больше расширенная модель дополняет очень ограниченную модель (и в самом деле, формаль- ный критерий отношения правдоподобия может основываться на разности этих двух значений.) Первая мера качества подгонки дан- ных моделью определяется как (расширенный перечень таких мер см. (Amemiya, 1981)), псевдо R2 = 1 — - —, G.17) 2(logLi -logbp) N где N обозначает число наблюдений. Альтернативная мера предла- галась Макфадденом в работе (McFadden, 1974) Макфаддена R2 = 1 - ^2£^1? G.18) log Lo иногда называемая индексом отношения правдоподобия. Поскольку логарифм правдоподобия является суммой логарифмических веро- ятностей, из этого следует, что log Lo < log L\ < О, откуда непосред- ственно можно показать, что обе меры принимают значения только в интервале [0, 1]. Если все оцененные коэффициенты наклона равны нулю, то мы имеем log Lq — log L\, так что оба R2 равны нулю. Если
7.1. Модели бинарного выбора 305 модель была бы в состоянии генерировать (оцененные) вероятности, которые в точности соответствовали бы наблюдаемым значениям (то есть pi = yi для всех г), то все вероятности в логарифме правдо- подобия были бы равными единице, так что логарифм правдоподобия был бы в точности равен нулю. Следовательно, верхний предел для определенных выше двух мер получается для log Li = 0. Поэтому верхняя граница, равная 1, теоретически может достигатся только мерой Макфаддена; для обсуждения свойств меры Макфаддена и альтернативных мер см. (Cameron, Windmeijer, 1997). Чтобы вычислять log Lq , не обязательно оценивать пробит или логит-модель только со свободным членом. Если в модели имеется только постоянный член, то функция распределения не имеет отно- шения к вычислению предполагаемых вероятностей, и по существу модель говорит, что P{yi = 1} — р для некоторого неизвестного р. Можно легко показать, что ММП-оценка для р будет (см. выраже- ние F.4)), ~ * ы f Рг =-д^-, где Ni=2^yi. г=1 Таким образом, оцененная вероятность есть доля единиц в выборке. Поэтому максимальное значение логарифма правдоподобия задается (сравните с выражением F.37)) в виде N N N ( N{\ log L0 = Y^ Vi lo§ ^ + J^C1 " Vi) lo§ ( l - -fi- ) = = N, log ^ + (N - N,) log (l - 7^) > GЛ9) которое можно непосредственно вычислить по объему выборки N и выборочной частоте N\. Вычисление значения log L\ следует предо- ставить вашему компьютерному пакету. Альтернативным способом оценить качество подгонки данных моделью является сравнение корректного и некорректного прогно- зирования. Чтобы прогнозировать исход, либо yi = 1, либо нет, по-видимому, естественно посмотреть на оцененную вероятность, которая следует из модели, и которая задается в виде F(x^/3). В об- щем, прогнозируется, что уг- = 1> если F(x'iP) > 1/2. Поскольку F@) = 1/2 для распределений, которые являются симметрическими относительно 0, то это соответствует х'ф > 0. Таким образом, схема
306 7. Модели с ограниченными зависимыми переменными предполагаемого прогнозирования определяется соотношениями: Уг = 1, если х'ф > О, Уг = О, если х'ф < 0. G.20) Тогда доля некорректных прогнозов задается в виде 1 N г=1 Как точка отсчета, результат опять сравнивается с долей некоррект- ных прогнозов, полученных по модели только со свободным членом. Легко заметить, что для этой последней модели мы прогнозируем единицу для всех наблюдений, если р = N\/N > 1/2 и нуль в про- тивном случае. Таким образом, доля некорректных прогнозов в этом случае задается как wtq — 1 — р, если р > 0,5, wtq — р, если р < 0,5. И наконец мера качества подгонки данных моделью получается в виде %-1-т. G.21) Поскольку теоретически возможно, что модель прогнозирует хуже, чем простая модель, то есть wr\ > wtq, то в этом случае R^ ста- новится отрицательным. Конечно, это нехороший знак для качества прогнозирования модели. Заметим также, что wtq < 1/2, то есть даже самая простая модель будет прогнозировать самое большее по- ловину наблюдений некорректно. Если в выборке 90% соответствует Уг — 1, то мы имеем даже wr$ =0,1. Следовательно, в этом случае, чтобы превзойти простую модель, любая модель бинарного выбора нуждается более, чем в 90%-ом корректном прогнозировании. И как следствие, доля корректных прогнозов A — wr\) как таковая, не го- ворит много о качестве модели. Возможно, что и для плохой модели она будет 0,9 (90%). 7.1.6. Пример: влияние пособий по безработице на их получение В качестве примера мы рассмотрим выборку 3^ из 4877 наемных фаб- ричных работников, которые потеряли свои рабочие места в США 3) Данные для этого примера доступны как BENEFITS.
7.1. Модели бинарного выбора 307 за период с 1982 года по 1991 год. Эта выборка заимствована из исследования (McCall, 1995). Не все безработные, имеющие право на пособие социального страхования по безработице (СБ-пособия), подают заявление на его получение, вероятно из-за связанных с этим денежных и психологических затрат. Процент имеющих право на по- собие безработных, которые фактически обращаются с заявлением на получение СБ-пособия, называется «нормой приема» (the take-up rate), и в имеющейся выборке он составляет только 68%. Поэтому интересно исследовать, что заставляет людей принимать решение не подавать заявление о получении СБ-пособия. Размер СБ-пособия, которое может получить безработный, за- висит от штата места жительства, года перехода в состояние без- работного, и его или ее предыдущего дохода. Норма возмещения, определяемая как отношение еженедельного СБ-пособия к преды- дущему еженедельному доходу, изменяется от 33% до 54% с вы- борочным средним равным 44%, и является потенциально важным фактором для безработного при принятии решения об обращении с заявлением на получение СБ-пособия. Конечно, другие переменные могут также влиять на норму приема. Из-за личных характеристик некоторые люди в большей степени, чем другие, способны найти новую работу за короткий промежуток времени, и поэтому не будут обращаться за получением СБ-пособия. Показателями таких личных характеристик являются образование, возраст, и, из-за потенциаль- ной дискриминации на трудовом рынке (положительной или отрица- тельной), такие фиктивные переменные, как раса и пол. Кроме того, могут быть важными предпочтения и причины, связанные с семей- ным бюджетом, которые отражаются на семейной ситуации. Из-за существенных различий в уровнях безработицы штатов, вероятность найти новую работу изменяется по штатам, и поэтому мы включаем в анализ переменную уровня безработицы штата. Последний тип переменных, которые могли бы быть уместны, имеет отношение к причине потери работы. В анализ мы включим фиктивные пере- менные причин потери работы: неинтенсивная работа, сокращение штатов, и окончание сезонной работы. Мы оценили три разные модели, результаты которых представ- лены в таблице 7.1. Линейная модель вероятностей оценивалась МНК, и поэтому в отношении гетероскедастичности не проверялись никакие коррекции, и не делались никаких попыток ограничить предполагаемые вероятности между 0 и 1. Логит и пробит-модели оценивались ММП. Поскольку логистическое распределение имеет
308 7. Модели с ограниченными зависимыми переменными Таблица 7.1. Модели бинарного выбора подачи заявления о получении пособия по безработице (СБ-пособия) (наемные фабричные работники) Переменная константа норма возмещения норма возмещения в квадрате возраст возрастг/10 собственность неинтенсивная работа сокращение штатов сезонная работа глава семьи состояние в браке дети малолетние дети проснсивание в метрополии небелый год увольнения более 12 лет обучения в школе муоючина максимальное пособие штата Линейная модель вероятностей Оценка -0,077 0,629 -1,019 0,0157 -0,0015 0,0057 0,128 -0,0065 0,058 -0,044 0,049 -0,031 0,043 -0,035 0,017 -0,013 -0,014 -0,036 0,0012 Ст. ош. @,122) @,384) @,481) @,0047) @,0006) @,0012) @,014) @,0248) @,036) @,017) @,016) @,017) @,020) @,014) @,019) @,008) @,016) @,018) @,0002) Л огит- модель Оценка -2,800 3,068 -4,891 0,068 -0,0060 0,0312 0,625 -0,0362 0,271 -0,211 0,242 -0,158 0,206 -0,170 0,074 -0,064 -0,065 -0,180 0,0060 Ст. ош. @,604) A,868) B,334) @,024) @,0030) @,0066) @,071) @,1178) @,171) @,081) @,079) @,086) @,097) @,070) @,093) @,015) @,082) @,088) @,0010) Пробит-модель Оценка -1,700 1,863 -2,980 0,042 -0,0038 0,177 0,375 -0,0223 0,161 -0,125 0,145 -0,097 0,124 -0,100 0,052 -0,038 -0,042 -0,107 0,0036 Ст. ош. @,363) A,127) A,411) @,014) @,0018) @,0038) @,042) @,0718) @,104) @,049) @,048) @,052) @,059) @,042) @,056) @,009) @,050) @,053) @,0006)
7.1. Модели бинарного выбора 309 Окончание таблицы 7.1 Переменная процент безработ- ных штата Правдоподобие Псевдо R2 Макфаддена R Rp Линейная модель вероятностей Оценка 0,018 Ст. ош. @,003) 0,035 Л огит- модель Оценка 0,096 Ст. ош. @,016) -2873,197 0,066 0,057 0,046 Пробит-модель Оценка 0,057 Ст. ош. @,009) -2874,071 0,066 0,057 0,045 дисперсию 7г2/3, то оценки для вектора неизвестных параметров /3, полученные для логит-модели, примерно в rc/vS раза больше, чем для пробит-модели, что отражает небольшие различия в виде рас- пределений. Точно так же оценки для линейной модели вероятностей сильно отличаются по величине и примерно в четыре раза меньше, чем оценки для логит-модели (за исключением свободного члена). Посмотрев на результаты в таблице 7.1, мы видим, что знаки ко- эффициентов идентичны для разных спецификаций наряду с тем, что статистическая значимость объясняющих переменных также со- поставима. Это обычные выводы. Как правило, разные модели не приводят к качественно различным выводам. Для всех спецификаций норма возмещения имеет незначимый положительный коэффициент, в то время как его квадрат значимо отрицателен. Таким образом при прочих равных условиях эффект нормы возмещения будет зависеть от его значения. Например, для пробит-модели мы можем получить, что оцененный предельный эффект4^ от изменения нормы возмещения (нв) равен значению нормальной функции плотности, умноженной на 1,863 — 2 х 2,980 нв, который является отрицательным для 85% наблюдений в выборке. Это противоречит интуиции и предполагает, что при объяснении нормы приема возможно более важны другие переменные. Фиктивная переменная, которая показывает, была ли работа потеряна из-за неинтенсивной работы, очень значима во всех спе- О вычислении предельных эффектов в линейной модели см. параграф 3.1.
310 7. Модели с ограниченными зависимыми переменными цификациях,! что не удивительно при условии, что, как правило, такие рабочие считают, что новую работу получить трудно. Многие другие переменные статистически незначимы или только предель- но значимы. Это особенно следует учитывать из-за того, что при таком большом количестве наблюдений, возможно, более уместен ^ уровень значимости, равный 1% или менее, чем традиционные 5%. Две переменные, касающиеся штата места жительства статистически значимы. Чем выше уровень безработицы штата и выше максималь- ный уровень пособия, тем более вероятно, что безработные обратятся с заявлением на получение СБ-пособия, и это интуитивно разумно. При прочих равных условиях эффект «состоять в браке» оценивает- ся положительно, тогда как, несколько удивительно, что состояние — глава семьи имеет отрицательный эффект на вероятность принятия решения о получении СБ-пособия. Тот факт, что данные модели не очень хорошо работают при объяснении вероятности обращения безработного с заявлением на получение СБ-пособия, отражается в вычисленных мерах качества подгонки данных моделью. Обычно для моделей дискретного выбора качество подгонки данных моделью довольно низкое. В этом при- ложении альтернативные меры качества подгонки данных моделью показывают, что специфицированные модели подогнаны к данным на 3,5%-6,6% лучше, чем модель со спецификацией постоянной вероятности. Чтобы уточнить это, рассмотрим критерий Rp для логит-модели. Если мы получаем прогноз щ на основе оцененных вероятностей логит-модели, прогнозируя единицу, если оцененная вероятность больше 0,5 и равна нулю в противном случае, то мы можем представить итоговые результаты в сводной таблице 7.2. Недиагональные элементы в этой таблице указывают на число наблюдений, для которых прогнозирование по модели некорректно. Ясно, что для большинства индивидуумов мы прогнозируем, что они обратятся с заявлением на получение СБ-пособия, тогда как для 171 индивидуума мы прогнозируем, что они не обратятся, в то время как фактически все наоборот. Критерий Я1 можно вычислить непосредственно из этой таблицы как р2_1 171 + 1300 Rv-l~ 1542 ' См. обсуждение по этой проблеме в п. 2.5.7.
7.1. Модели бинарного выбора 311 Таблица 7.2. Сводная таблица фактических и прогнозных исходов (логит-модель) Уг 0 1 Сумма по столбцу Уг 0 242 171 413 1 1300 3164 4464 Сумма по строке 1542 3335 4877 где 1542 соответствует числу некорректных прогнозов простой моде- ли, где вероятность принятия заявления на получение СБ-пособия постояна р = 3335/4877). Значение логарифма правдоподобия для простой модели равняется log L0 = 3335 log + 1542 log -^^ = -3046,187, 4877 4877 что позволяет нам вычислить меры псевдо R2 и Макфаддена R2. 7.1.7. Спецификационные тесты в моделях бинарного выбора Хотя ММП-оценки и обладают свойством состоятельности, должно выполнятся одно важное условие: функция правдоподобия должна быть специфицирована корректно 6^. Это означает, что мы должны быть уверены в правильности постулируемого общего вида распре- деления, характеризующего наши данные. Отклонения будут приво- дить к несостоятельным оценкам, и, как правило, в моделях бинар- ного выбора это возникает, когда вероятность yi — 1 как функция от вектора объясняющих переменных xi специфицирована некоррект- но. Обычно такие некорректные спецификации мотивируются моде- лью латентной переменной и отражают гетероскедастичность или ненормальность распределения (в случае пробит-модели) остатка*\ Кроме того, мы можем захотеть протестировать модель на наличие ' Отчасти мы можем ослабить это требование, говоря, что должны быть спра- ведливы условия первого порядка проблемы максимального правдоподобия (для генеральной совокупности). Если это так, то мы можем получить со- стоятельные оценки далее с некорректной функцией правдоподобия. Такое оценивание называется КМПП-оцениванием (см. параграф 6.4). *) См. соотношение G.10) в п. 7.1.3 (примеч. научн. ред. перевода).
312 7. Модели с ограниченными зависимыми переменными существенных не включенных в нее переменных без необходимости повторного оценивания модели. Оптимальной структурой для таких тестов является структура множителей Лагранжа (МЛ), которая обсуждалась в параграфе 6.2. МЛ-тесты основываются на условиях первого порядка для более общей модели, которая специфицирует альтернативную гипотезу, и проверяется, нарушаются ли эти условия, если мы вычисляем их в точках оценок параметров текущей, ограниченной, модели. Таким образом, если мы хотим протестировать наличие J не включенных в модель существенных объясняющих переменных Zi, то мы должны оценить, отличается ли значимо от нуля значение выражения Т \ У1~ ПХ'^] ^ Цх'ф)} zt. G.22) Обозначая член в квадратных скобках как обобщенный регрессион- ный остаток £^, такая проверка означает выполнение условия кор- релированное™ £^G и Z{. Как мы видели в параграфе 6.2, простой способ вычисления критической статистики МЛ-теста получается из регрессии вектора единиц на К + J переменных ei xi и ei zi^ и вычисления N умноженного на нецентрированный R (см. пара- граф 2.4) этой вспомогательной регрессии. При нулевой гипотезе, что Zi входит в модель с нулевыми коэффициентами, критическая статистика имеет асимптотическое хи-квадрат распределение с J степенями свободы. При гетероскедастичности остатков €{ ММП-оценки будут несо- стоятельными, и мы можем довольно легко это протестировать. Рассмотрим альтернативную гипотезу, что дисперсия Si зависит от экзогенных переменных7^ zi как Viei} = kh(zfr) G.23) для некоторой функции h > О с h@) = 1, к = 1 или 7Г /3 (в за- висимости от того, имеем ли мы пробит-модель или логит-модель), Поскольку модель описывает вероятность события гц = 1 при заданных зна- чениях объясняющих переменных Жг, то в этом множестве условий также должны быть переменные, от которых гипотетически зависит дисперсия ре- грессионного остатка Si. Это означает, что zi является подмножеством (функ- ций) переменных вектора xi. Отметим, что возможно наложение априорных ограничений на вектор /3, чтобы исключить некоторые переменные вектора Xj из функции «среднего» х'ф.
7.1. Модели бинарного выбора 313 и Л/@) ф 0. Логарифмическая функция правдоподобия приводится при этом к виду N + +SA-*,k*('-F(A))- G-24) Производные по a, оцененные при нулевой гипотезе, что a = 0, имеют вид EL ^й.,./(-м ас^, G.25) где ас — константа, которая зависит от вида функции h. Следователь- но, легко протестировать нулевую гипотезу Но : a = 0, используя МЛ-тест, вычислив iV, умноженное на нецентрированный R2 регрес- сии единиц по e'f'x' и (е? • х[0)г[. И опять критическая статистика имеет хи-квадрат распределение с J степенями свободы (где J — размерность вектора zi). Из-за нормировки (дисперсия не оценива- ется) вектор Zi не должен включать константу. Также отметим, что по построению г из-за условий первого порядка. Хотя в выражении для производных G.25) участвует константа ас, она всего лишь только константа и поэтому несущественна при вычислении критической статистики. Следовательно, тест на наличие гетероскедастичности не зависит от вида функции h(-), а зависит только от переменных zi, которые вли- яют на дисперсию (сравните со статьей (Newey, 1985)). Он подобен тесту Бреуша—Пагана на гетероскедастичность в линейной модели регрессии, как обсуждалось в п. 4.4.3 и в п. 6.3.2. И, наконец, мы обсудим тест на нормальность остатков Si из G.10) для пробит-модели. Для непрерывно наблюдаемой переменной тесты на нормальность обычно проверяют наличие асимметрии (тре- тий момент) и избыточного эксцесса (четвертый момент), то есть, проверяют справедливость соотношений Е{е\} = 0 и E{ef — За4} = 0 (сравните со статьей (Pagan, Vella, 1989)). Таким же образом тесты на нормальность можно получить для случая с не непрерывными наблюдениями. Альтернативно, и часто эквивалентно, мы можем
314 7. Модели с ограниченными зависимыми переменными остаться в пределах структуры множителей Лагранжа и специфи- цировать альтернативное распределение, которое является более об- щим, чем нормальное распределение, и протестировать ограничения, предполагаемые последним распределением. Параметризация ненор- мальности получается утверждением, что Si имеет функцию распре- деления (сравните с работами (Bera, Jarque, Lee, 1984), (Ruud, 1984), или (Newey, 1985)). Р{ег <t} = ФA + 7it2 + 72*3), G.26) которая характеризует семейство распределений Пирсона (применя- ются некоторые ограничения на 71 и 72) • Это семейство распределе- ний учитывает асимметрию G1 ф 0) и избыточный эксцесс (тяжелые хвосты) G2 ф 0) и сводится к нормальному распределению, если 7i = 72 = 0. Следовательно, тест на нормальность является просто тестом на ограничения для двух параметров. В пробит-модели веро- ятность события у% — \ описывалась бы в более общем виде P{Vi = l\Xi) = Ф(х'{р + Ъ(х'{0J + 12(х'^K). G.27) Это показывает, что в этом случае тест на нормальность соответству- ет критерию на не включенные в модель существенные переменные (х[CJ и (х^/?K. Следовательно, критическая статистика для нуле- вой гипотезы 7i — 72 = 0 легко получается с помощью построения вспомогательной регрессии единиц по ^ ж', ^ (х[/3J и £^ (х[C) и вычисления iV, умноженного на R . При нулевой гипотезе критиче- ская статистика имеет хи-квадрат распределение с двумя степенями свободы. Два дополнительных члена в регрессии соответствуют асимметрии и эксцессу соответственно. 7.1.8. Ослабление некоторых предположений в моделях бинарного выбора Для заданного вектора объясняющих переменных Xi модель бинар- ного выбора описывает вероятность того, что yi = 1, в виде функции этих переменных. Существует несколько способов, с помощью кото- рых можно ослабить наложенные на модель ограничения. Почти без исключения эти расширения находятся внутри класса одноиндекс- ных моделей, в котором существует одна функция от переменных вектора х^, определяющая все вероятности (подобно х[/3). Сна- чала, непосредственно используя результаты предыдущего пункта параграфа, и по аналогии с линейными моделями регрессии, в каче- стве дополнительных объясняющих переменных следует включить
7.1. Модели бинарного выбора 315 нелинейные функции от объясняющих переменных вектора Xi. На- пример, если в вектор Xi включена переменная возраста, то можно было бы включить также переменную квадрата возраста. Большинство обобщений моделей бинарного выбора основано на структуре латентной переменной и включает ослабление предполо- жений на распределение регрессионного остатка. Например, можно позволить, чтобы регрессионный остаток Si в соотношении G.8) был гетероскедастичным. Если вид гетероскедастичности известен, например, ^{бг} = exp{z^a}, где zi включает (функции от) ком- поненты вектора х^, a a — неизвестный вектор параметров, то, по существу, изменение состоит в том, что вероятность события i/i = 1 также зависит от дисперсии ошибки, то есть Р{у^1\х^ = р(^Щ==\ Vvexpi>;c*}/ Параметры в векторах C и а можно оценить одновременно с по- мощью максимизации логарифмической функции правдоподобия, которая задается выражением G.24), с экспоненциальной функцией в качестве функции h(-). Как и в стандартном гомоскедастичном случае мы должны наложить ограничение нормировки, которое наи- более легко делается без включения в вектор Zi свободного члена. В этом случае a = 0 соответствует V{£i} = 1- Альтернативно мож- но установить один из параметров в векторе j3 равным 1 или —1, предпочтительно для переменной, которая, как «известно» должна иметь не нулевой эффект на yi, не налагая ограничение на диспер- сию регрессионного остатка Si. Это является общим ограничением нормировки, когда используется полу параметрическая оценка. Вектор неизвестных параметров /3 также можно оценить полу- параметрически, то есть без наложения предположений на рас- пределение регрессионного остатка Si за исключением того, что он имеет медиану в нуле и независим от вектора объясняющих пере- менных Х{. Хотя интерпретировать коэффициенты вектора C без функции распределения F тяжело (если только возможно), пред- ставляют интерес их знаки и значимость. Известный метод называет- ся оценкой максимальной метки Майского (Manski, 1975, 1985). По существу этот метод пытается максимизировать число корректных прогнозов, на основе схемы G.20). Это эквивалентно минимизации числа некорректных прогнозов /_^{Уг — ViJ относительно /?, где yi г определяется из условий G.20). Поскольку эта целевая функция не
316 7. Модели с ограниченными зависимыми переменными дифференцируема относительно /?, то для решения такой проблемы максимизации Манский предоставил численный алгоритм. Другая проблема состоит в том, что скорость сходимости (для получения со- стоятельности) не viV, как обычно, а меньше (iV1//3). До некоторой степени обе проблемы решены в сглаженной оценке максимальной метки в статье (Horowitz, 1992), которая основана на сглаженной версии приведенной выше целевой функции. Дополнительные де- тали и обсуждение можно найти в работах (Horowitz, 1993, 1998), (Lee, 1996, Sect. 9.2) и (Pagan, Ullah 1999, Chapter 7). 7.2. Модели с множественным откликом Во многих приложениях число альтернатив, из которых можно про- изводить выбор, больше двух. Например, мы можем различать выбор между работой, занимающей полный рабочий день, неполный рабо- чий день и отсутствием работы; или различать выборы вложения капитала компании в Европу, Азию или США. Для некоторых коли- чественных переменных можно наблюдать, что они принимают зна- чения только в определенных интервалах. Это может быть, потому, что респонденты анкетного опроса не желают давать точные ответы, или неспособны их дать, возможно, из-за концептуальных трудно- стей в ответе на вопрос. Примерами такого рода вопросов являются вопросы о доходе, стоимости дома, или об удовлетворении доходом или работой. Модели с множественным откликом разработаны для описания вероятности каждого из возможных исходов в виде функ- ции личностных или альтернативно специфицированных характери- стик. Основная цель состоит в том, чтобы описать эти вероятности ограниченным числом неизвестных параметров и логически согла- сующимся образом. Например, вероятности должны принимать зна- чения между 0 и 1 и по всем альтернативам в сумме давать единицу. Важное различие существует между моделями с упорядочен- ным множественным откликом и моделями с неупорядоченным мно- жественным откликом. Модели с упорядоченным множественным откликом, в общем, более экономны, но могут применяться, если только существует логическое упорядочивание альтернатив. При- чина заключается в том, что предполагается существование одной, лежащий в основе, латентной переменной, которая приводит к вы- бору между альтернативами. Другими словами результаты будут
7.2. Модели с множественным откликом 317 чувствительны к упорядочиванию альтернатив, так что упорядо- чивание должно иметь смысл. Модели с неупорядоченным множе- ственным откликом не чувствительны к порядку, в котором альтер- нативы нумеруются. Во многих случаях они могут основываться на предположении, что каждая альтернатива имеет случайный уровень полезности, и что индивидуумы выбирают альтернативу, которая приводит к наивысшей полезности. 7.2.1. Модели с упорядоченным откликом Рассмотрим выбор между М альтернативами, пронумерованными от 1 до М. Если существует логическое упорядочивание в этих альтернативах (например, нет автомобиля, 1 автомобиль, большее одного автомобиля), то можно использовать так называемую модель с упорядоченным откликом. Такая модель также основана на одной, лежащей в основе, латентной переменной, но с множественным соответствием латентной переменной у* и наблюдаемой переменной уi (уi = 1, 2,... , М). Обычно полагают, что у; = х№ + еи G.28) Уг = j, если 7j-i < У* < 7j> G-29) для неизвестных 7j с 7о = —сю, 7i = О и 1м — оо. Следователь- но, вероятность выбора альтернативы j является вероятностью, что латентная переменная у* находится между двумя границами 7j-i и 7j- Предположение, что Si являются независимо и одинаково распределенными стандартными нормальными случайными величи- нами, приводит к пробит-модели с упорядоченным откликом. Логистическое распределение приводит к логит-модели с упоря- доченным откликом. При М = 2 мы возвращаемся к моделям бинарного выбора. Рассмотрим пример из литературы — предложения труда. Пред- положим, что женщины, состоящие в браке, отвечают на вопрос, «Сколько бы вы хотели работать?» выбором одной из трех катего- рий «не хочу», «неполный рабочий день» и «полный рабочий день». Согласно неоклассической теории желаемое предложение труда, ко- торое измеряется этими ответами, будет зависеть от предпочтений и семейных бюджетных ограничений. Так что могут быть важными переменные, связанные с возрастом, составом семьи, доходом мужа и уровнем образования. Чтобы смоделировать исходы, yi = 1 (не ра- ботающая), yi — 2 (работающая неполный рабочий день) и yi — 3
318 7. Модели с ограниченными зависимыми переменными (работающая полный рабочий день), отметим, что в этом примере в ответах, по-видимому, существует логическое упорядочивание. Точ- нее, разумно ли предположить, что здесь существует единственный показатель х[C такой, что более высокие значения этого показателя в среднем соответствуют большим значениям yi. Если это так, то мы можем написать модель с упорядоченным откликом в виде # = *;/?+*, G.зо) Уг = 1, если у* < 0, Уг = 2, если 0 < у* < 7, G.31) Уг = 3, если у* > 7, где мы можем свободно интерпретировать латентную переменную у* как «желание работать» или «желаемые часы работы». Одна из границ нормирована нулем, который фиксирует положение, но нам также требуется нормировка масштаба латентной переменной у*. Самая естественная нормировка заключается в том, что Si име- ет фиксированную дисперсию. В пробит-модели с упорядоченным множественным откликом это означает, что е ~ НОНР@, 1). Пред- полагаемые вероятности получаются в виде P{Vi = l\Xi} = Р{У* < 0\Х{} = Ф{-Х'ф), Р{Уг = 3\Xi} = Р{у* > 7|*i} = 1 - ФG - Х'ф), И P{Vi = 2\Xi) = ФG - Х'ф) - Ф(-Х'ф), где 7 ~~ неизвестный параметр, который оценивается одновремен- но с вектором неизвестных параметров /3. Оценивание основано на ММП, где приведенные выше вероятности входят в функцию правдоподобия. Коэффициенты /3 интерпретируются в терминах лежащей в основе модели латентной переменной (например, поло- жительные значения коэффициентов в векторе /3 означают, что соответствующая переменная увеличивает желание женщины рабо- тать), или в терминах влияния на соответствующие вероятности, как мы видели выше для модели бинарного выбора. Предположим, что в представленной выше модели к-ът коэффициент, /3/~, является положительным. Это означает, что латентная переменная у* возрас- тает, если возрастает объясняющая переменная х^. Соответственно будет возрастать вероятность исхода yi = 3, тогда как вероятность
7.2. Модели с множественным откликом 319 исхода yi = 1 будет убывать. Однако эффект на промежуточные ка- тегории неоднозначен; вероятность исхода г/i = 2 может возрастать или убывать. 7.2.2. О нормировке Для иллюстрации разных требуемых ограничений нормировки, рас- смотрим модель, на которую такие ограничения не накладываются: у\ = Л + х'ф + eu Si ~ HOHP@, а2). Уг = 1, если у*<7ь Уг = 2, если 7i < Уг* < 72, уг- = 3, если у* > 72, где из вектора объясняющих переменных хг исключена константа. Так как мы только можем наблюдать, приняла ли переменная уг зна- чение 1, 2 или 3, то единственными элементами, которые возможно идентифицировать по данным, являются вероятности этих трех ис- ходов для заданных значений вектора объясняющих переменных Xi. Не случайно, что они в точности являются вероятностями, которые входят в функцию правдоподобия. Для иллюстрации рассмотрим вероятность исхода yi = 1 (при заданных значениях объясняющих переменных хг), определенную в виде Р{Уг - l\Xi} = Р{0г + Х'ф + Si < 71 \Xi} = Ф Из этого выражения видно, что изменение /?, /?i, а и 71 не приводит к разным вероятностям до тех пор, пока /?/ст, и G1 — /3\)/а остаются одними и теми же. Это отражает проблему идентифицируемости: различные комбинации значений параметров приводят к одному и тому же значению логарифма правдоподобия и однозначно опре- деляемого максимума не существует. Чтобы обойти эту проблему, налагаются ограничения нормировки. В стандартной модели налага- ются ограничения а — 1 и 71 = 0, но также было бы можно наложить другие ограничения, например, а — 1 и /?i = 0. Коэффициенты интерпретируются условно по специфицированному ограничению нормировки, но вероятности к этому нечувствительны. В некоторых приложениях границы соответствуют наблюдаемым значениям, а не неизвестным параметрам, и можно оценить дисперсию £г. Пример такого приложения приводится в следующем пункте параграфа. 7i -Pi а
320 7. Модели с ограниченными зависимыми переменными 7.2.3. Пример: готовность платить за природные области, не затрагиваемые деятельностью человека Интересной проблемой в общественной экономике является опре- деление стоимости блага, которое не продается. Например, какова экономическая стоимость общественного блага, подобная лесу или «чистому воздуху»? В этом пункте параграфа мы рассмотрим при- мер из литературы по контингентному определению ценности. В об- следованиях из этой области используется выявление готовности оплачивать ценность (ГОЦ) гипотетических изменений, связанных с доступностью некоторого нерыночного товара, например леса. Начиная с обширного исследования измерения потери благосостоя- ния американскими гражданами в результате огромного нефтяного пятна из-за посадки на мель нефтяного танкера (Exxon Valdez) в за- ливе Аляска (март 1989 года), контингентальный метод определения ценности играет важную роль в измерении полезности широкого диапазона экологических благ 8). В этом пункте параграфа мы рассмотрим обследование, которое проводилось в Португалии в 1997 году. В обследовании устанавлива- лись отклики индивидуумов, связанные с вопросом, какую цену они готовы заплатить, чтобы избежать коммерческого и туристического пути развития природного парка Алентийо (Alentejo) на юго-западе Португалии9^. Чтобы узнать, какова ГОЦ индивидуума, непосред- ственно не спрашивалось, какую цену индивидуум готов заплатить, чтобы сохранить парк. Вместо этого каждый индивидуум i в выборке сталкивается с потенциально различным начальным предложением цены В{, и у него спрашивалось, готов он заплатить эту цену или нет. Интервьюеры использовали так называемую двойную ограниченную процедуру: каждый индивидуум опрашивался о готовности платить последующую предложенную цену, которая выше (ниже), если им было принято (отклонено) начальное предложение цены. Таким об- разом, для каждого респондента мы имеем начальное предложение цены Bi и одно из последующих предложений цены, В^ или Вг , где Bi < Bi < Bf. Каждый индивидуум в выборке сталкивался Обсуждение контингентального оценивания (на «нетехническом» уровне) при- водится в работах (Portney, 1994), (Hanemann, 1994) и (Diamond, Hausman, 1994). Я благодарен Пауло Нунесу (Paulo Nunes) за предоставленные данные, исполь- зуемые в этом пункте параграфа. Используемая здесь совокупность данных доступна как WTP в схеме анализа ГОЦ.
7.2. Модели с множественным откликом 321 с вопросом о готовности платить случайно предложенную началь- ную цену, а последующее предложение цены зависело от величины начального предложения в соответствии со следующей схемой:10) Схема 1 Схема 2 Схема 3 Схема 4 Начальное предложение 1200 2400 4800 9600 Повышенное предложение 3600 4800 9600 24 000 Пониженное предложение 600 1200 2400 4800 Готовность оплачивать ценность (ГОЦ) индивидуумом, нена- блюдаема и будет обозначаться латентной переменной J5*. Чтобы смоделировать, как латентная переменная J3* изменяется с личност- ными характеристиками, представленными в векторе х^, мы можем специфицировать линейное соотношение В: = ^0 + еи G.32) где Si — ненаблюдаемый остаток, не зависимый от вектора объ- ясняющих личностных характеристик Х{. Могут наблюдаться че- тыре возможных результата, индексируемые зависимой переменной Уг — 1, 2, 3, 4. В частности, уi — 1, если оба предложения цены отклоняются (В* < Вг ); уi = 2, если первое предложение цены отклоняется, а второе принимается (J5f < J5* < В{)\ Уг = 3, если первое предложение цены принимается, а второе предложение отклоняется (В( < В* < В^)\ Уг = 4, если оба предложения цены принимаются (В* > Вг). Если мы предполагаем, что Si ~ НОНР@,а2), то приведенная выше постановка соответствует пробит-модели с упорядоченным множественным откликом. Поскольку границы Вг , J5/ и Bi на- блюдаются, то никакой нормировки на дисперсию а2 не требуется, Цены приведены в эскудо. Двести эскудо приблизительно равны 1 евро.
322 7. Модели с ограниченными зависимыми переменными и ее можно оценить. Отметим, что в этом приложении латентная пе- ременная В* имеет ясную интерпретацию — готовность оплачивать ценность (ГОЦ) человеком, измеренную в эскудо. Согласно выше- упомянутым предположениям вероятность наблюдения последнего исхода (yi = 4) задается в виде11) P{yi = 4\Xi} = Р{х'гC + ег > BY\Xi] = 1 -ф(В^~Х'^\ G.33) Точно так же вероятность наблюдения второго исхода равна Р{Уг = 2\Xi} = Р{В^ < х'ф + £i< В(\х{} = = Ф(Д^)_Ф(^-^). G.34) Другие две вероятности можно получить аналогично. Эти вероятно- сти непосредственно входят в логарифмическую функцию правдо- подобия, максимизация которой приводит к состоятельным оценкам для вектора неизвестных параметров E и дисперсии а2. Первая модель, которую мы оцениваем, содержит только сво- бодный член. Она представляет интерес, поскольку может интер- претироваться как описание (безусловного) распределения готовно- сти оплачивать ценность населением. Вторая модель включает три объясняющие переменные, которые могут влиять на ГОЦ инди- видуумов. Это переменные возраста, пола и дохода индивидуума. Следовательно, применяя ММП, мы оцениваем две различные моде- ли, одну только со свободным членом и другую, которая включает возрастную группу (от 1 до 6 группы), женскую фиктивную пере- менную и группу дохода (проранжированные от 1 до 8 группы). Результаты представлены в таблице 7.3. В подвыборке, которую мы использовали, в общей сложности бралось интервью у N — 312 человек, из которых 123 человека C9%) ответили Нет на оба пред- ложения цены, 18 человек ответили Нет-Да, 113 человек — Да-Нет и 58 человек ответили Да на оба предложения. Для модели только со свободным членом мы видим, что оценен- ное среднее ГОЦ равно почти 3748 эскудо (приблизительно 19 ев- ро) с довольно большим среднеквадратичным отклонением, равным Поскольку латентная переменная В* распределена непрерывно, то вероят- ность каждого исхода равна нулю. Это означает, что равенства заменяются соответствующими неравенствами.
7.2. Модели с множественным откликом 323 Таблица 7.3. Пробит-модель с упорядоченным множественным откликом готовности оплачивать ценность (ГОЦ) Переменная константа возрастная группа женщина группа дохода Э Логарифм правдоподобия Тест на нормальность (^2) I: только свободный член Оценка 3747,7 7722,4 Ст. ош. D99,4) E86,6) -409,00 10,2758 (р = 0,006) II: с характеристиками Оценка 7058,2 -1386,6 -1036,7 977,5 7295,4 Ст. ош. B116,6) C33,1) (936,8) C81,9) E49,7) -391,40 3,9033 (р = 0,142) 7722,4 эскудо. Поскольку мы предполагали, что распределение ла- тентной переменной В* нормально, то это означает, что 31% населе- ния имеет отрицательную готовность оплачивать цену К Так как это невозможно, то мы даем иное толкование латентной переменной, как «желаемой ГОЦ», фактическая ГОЦ будет максимумом из ну- ля и желаемой величины13'. В этом случае фактическая ГОЦ при условии, что она положительна, описывается усеченным нормаль- ным распределением, оцененное математическое ожидание которого равно 7738 эскудо ы\ Оценка для ожидаемого ГОЦ по всей выборке тогда равна 7738,2 х 0,69 = 5310 эскудо (приблизительно 27 евро), по- скольку 31% имеет нулевую готовность платить цену. Ее умножение на общее количество семей населения (приблизительно 3 миллиона) приводит к оцененной общей готовности платить цену приблизи- тельно в сумме 80 миллионов евро. Отметим, что Р{В* < 0} = Ф(—/i/cr), если латентная переменная В* рас- пределена нормально со средним /i и среднеквадратичным отклонением о. Подстановка оцененных значений приводит к вероятности, равной 0,31. Эта интерпретация подобна интерпретации, используемой в тобит-моделях. См. ниже. Если у rsj JV(/x, сг2), то мы имеем, что Е{у\у > с} = /i -f a\(\c — /x|/tr), где \(t) = </>(—£)/Ф(—£) > 0. Подробности см. в Приложении Б.
324 7. Модели с ограниченными зависимыми переменными Для устранения проблемы отрицательных значений латентной переменной В* включение личностных характеристик не очень полезно. Очевидно, что существует относительно большая группа людей, которая говорит Нет обоим предложениям цены, так что налагаемое нормальное распределение порождает существенную ве- роятностную меру в отрицательной области. Включенными объяс- няющими переменными являются возраст, с шестью возрастными группами (< 29,29 — 39,..., > 69), женская фиктивная переменная и доход (с восемью группами). При включении этих переменных свободный член больше не имеет ту же интерпретацию, что и преж- де. Теперь, например, ожидаемая готовность заплатить мужчиной, попавшем в группу дохода 1 (< 75 000 эскудо), и в возрасте между 20 и 29 годами, равна 7058,2 — 1386,6 + 977,5 = 6649 эскудо, или, при- нимая во внимание цензурирование, 7366 эскудо (приблизительно 37 евро). Мы видим, что ГОЦ существенно уменьшается с возрастом и увеличивается с доходом, тогда как нет никакого статистического свидетельства о наличии эффекта пола. Как и в бинарной пробит-модели предположение о нормально- сти здесь является критическим для состоятельности оценок, так же как и для интерпретации оценок параметров (в терминах ожидаемо- го ГОЦ). Тестирование на нормальность можно провести в пределах схемы множителей Лагранжа, обсужденной в параграфе 6.2. Как и прежде, альтернативная гипотеза состоит в том, что соответствую- щее распределение принадлежит семейству распределений Пирсона, и критерий на нормальность тестирует два параметрических ограни- чения. К сожалению, аналитические выражения довольно сложные, и здесь приводится не будут (см. (Glewwe, 1997)). При нулевой гипотезе нормальности критические статистики имеют хи-квадрат распределение с двумя степенями свободы. Две статистики в таб- лице указывают на отклонение нормальности для простой модели только со свободным членом, но не приводят к отклонению модели с индивидуальными характеристиками. 7.2.4. Мультиномиальные модели В некоторых случаях никакого естественного упорядочивания в аль- тернативах не существует, и нереально предполагать, что между единственной лежащей в основе латентной переменной и наблю- даемыми исходами существует монотонное соотношение. Рассмот- рим, например, моделирование способа транспортировки (автобусом,
7.2. Модели с множественным откликом 325 поездом, автомобилем, велосипедом, пешком). В таких случаях сле- дует использовать альтернативную структуру, чтобы предложить некоторую структуру различных вероятностей. Общим отправным пунктом является случайная структура полезности, в которой полез- ность каждой альтернативы является линейной функцией от наблю- даемых характеристик (индивидуальных и/или специфицирован- ных альтернативно) плюс аддитивный остаток. Предполагается, что индивидуумы выбирают альтернативу с наивысшей полезностью. С соответствующими предположениями об общем распределении этих остатков такой подход приводит к управляемым выражениям для вероятностей, подразумеваемых моделью. Для формализации предположим, что существует выбор между М альтернативами, индексированными как j — 1, 2,... , М, отме- тив, что их порядок произвольный. Затем предположим, что уровень полезности, который индивидуум г приприсывает каждой из альтер- натив, задается Uij, j = 1, 2,... , М. Тогда индивидуумом г выбира- ется альтернатива j, если она обладает наивысшей полезностью, то есть, если Uij — maxjC/^i, • • • , £^м}- Конечно эти уровни полезности не наблюдаются, и мы должны сделать некоторые дополнительные предположения, чтобы сделать эту постановку оперативной. Пред- пол ожим, что Uij = Uij + Sij, где fiij — нестохастическая функция наблюдаемых переменных и небольшого числа неизвестных парамет- ров, a Sij — ненаблюдаемый случайный остаток. Отсюда следует, что р{Уг = j} = P{Uij = max{C/ii,... , UiM}} = = P\ Vij + ?ij > max {fiik +€ik}\' G.35) l fc=l,. . ., J, кфз ) Чтобы оценивать эту вероятность, мы что-то должны сказать о мак- симуме некоторого количества случайных переменных. В общем, это сложно, но для получения результата очень удобно предположить, что все Sij взаимно независимы и подчиняются так называемому логарифмическому распределениею Вейбулла (также известным как распределение экстремальных значений типа I). В этом случае функ- ция распределения каждого е^ имеет вид F(*) = exp{-e-*}, G.36) которая не включает неизвестные параметры. При этих предполо- жениях можно показать, что Р{У> = Л = °P{W> G.37) exp {fin} + exp {fjLi2} + ... + ехр {[цм}
326 7. Модели с ограниченными зависимыми переменными Заметим, что эта структура автоматически подразумевает, что О < P{Vi = j} < 1 и что м Х>0" = :?} = !• Распределение sij отражает масштабный параметр полезности (который является неопределенным), но не параметр локализации. Чтобы решить вопрос местоположения, обычно нормируют один из детерминированных уровней полезности к нулю, например, /лц — 0. Обычно предполагается, что /л^ является линейной функцией на- блюдаемых переменных, которые могут зависеть от индивидуаль- ного (г) или от альтернативы (j), или от того и другого. Таким образом, мы пишем /л^ = х'^/З. Тогда мы получаем P{Vi=3} = ехр {а^/?} 1 + exp {x'i2C} + ... + ехр {х'шР} ' G.38) j = l,2,...,M. Что является так называемой мультиномиальной логит-моделью или независимой логит-моделью; подробности происхождения этой модели, см. у Грина (Greene, 2000, Sect. 19.7). Если существуют толь- ко две альтернативы (М = 2), то эта модель сводится к стандартной бинарной логит-модели. Вероятность индивидуальной альтернати- вы выбора j имеет простое выражение от объясняющих перемен- ных и коэффициентов C из-за удобного предположения, сделанного о распределении ненаблюдаемых остатков. Например, если бы мы предположили, что Sij имеют независимые стандартные нормальные распределения, то вероятности включали бы М — 1 интегралов 15\ которые в вычислительном отношении непривлекательны. Как и прежде, мультиномиальная модель оценивается ММП, где приве- денные выше вероятности входят в функцию правдоподобия. ' Вероятность, что случайная переменная Xj является наибольшей из сово- купности случайных переменных х\, Х2, . • • , #м? является вероятностью, что Xj — хь > О для /с = 1, ... , М, к ф j. Это является (М — 1)-мерным подпро- странством R , и, таким образом, вероятность равна интегралу функции совместной плотности распределения х\, ... , хм по этому (М — 1)-мерному пространству. Для умеренных значений М интеграл легко поддается обработ- ке только при очень ограниченных предположениях о совместной плотности распределения xi, ... , хм-
7.2. Модели с множественным откликом 327 Обычной ситуацией является включение в х'^/З альтернативных специфических характеристик. Для объяснения способа транспорти- ровки молено включить такие переменные как время в пути и затра- ты, которые могут изменяться по индивидуумам. Отрицательный коэффициент в векторе C тогда означает, что полезность альтерна- тивы уменьшена, если время в пути увеличивается. Следовательно, если время в пути одной из альтернатив уменьшается (в то время как другие альтернативы не затрагиваются), то эта альтернатива полу- чит более высокую вероятность выбора. Другими обстоятельствами для включения характеристик в х'^/З являются личностные характе- ристики (как, например, возраст и пол) с коэффициентами, которые являются альтернативно специфическими. Например, при прочих равных условиях молено показать, что мужчины будут путешество- вать более вероятно на машине, чем женщины. Несмотря на привлекательность аналитических выражений в мультиномиальной логит-модели, имеется один большой недоста- ток, который возникает из-за предположения, что все остатки eij являются независимыми. Это означает, что (условные по наблюдае- мым характеристикам) уровни полезности любых двух альтернатив независимы. Это особенно противоречиво, если две или больше альтернатив очень похожи. Типичный пример состоял бы в разло- жении категории «путешествие автобусом» на «путешествие в синем автобусе» и «путешествие в красном автобусе». Ясно, мы ожида- ли бы, что высокая полезность красного автобуса подразумевает высокую полезность синего автобуса. Другой способ увидеть про- блему состоит в том, чтобы отметить, что отношение вероятности двух альтернатив не зависит от природы любой из других альтер- натив. Предположим, что альтернатива 1 обозначает путешествие на машине, а альтернатива 2 обозначает путешествие (в синем) автобусе. Тогда отношение вероятности (или отношение шансов) имеет вид 2^= ехр{*;2/3) G.39, независимо от того, является ли третья альтернатива красным ав- тобусом или поездом. Ясно, что это иногда нежелательно. Мак- фадден (McFadden, 1974) назвал это свойство мультиномиальной логит-модели независимостью несущественных альтернатив (ННА). Свойство ННА можно ослабить, но в общем это приводит (концептуально и в вычислительном отношении) к более сложным
328 7. Модели с ограниченными зависимыми переменными моделям (см., например, (Amemiya, 1981), или (Maddala, 1983)). Поэтому в прикладной работе, тем не менее, очень часто применяется мультиномиальная логит-модель. Завершим этот параграф небольшим примером из маркетинга, который подразумевает, скорее, установление предпочтения, чем на- блюдаемый выбор. Предположим, что респондентов просят опреде- лить предпочитаемую ими кофеварку, скажем, из пяти альтернатив- ных комбинаций характеристик (вместимости, цены, специального фильтра (да/нет) и термоса (да/нет)). Как правило, комбинации неодинаковы для всех респондентов. Будем ссылаться на эти ха- рактеристики как на Xij. Чтобы удостовериться, что 11ц = 0, xij измеряются в разностях от кофеварки, взятой, без потери общности, для определения начала отсчета, соответствующей альтернативе 1. Вероятность, что респондент выбирает альтернативу j, может быть (предполагается, что это так) описана мультиномиальной логит- моделью exp {x'ij/3} Р{Ш = j} = 1 + exp {x'i2f3} + ... + ехр {л4/3} ' G-40) Положительный коэффициент в векторе C подразумевает, что ин- дивидуумы приписывают соответствующей характеристике положи- тельную полезность. Согласно соответствующим предположениям оцененную модель можно использовать для прогнозирования индивидуальной вероят- ности выбора альтернативы, которая еще не находится на рынке при условии, что эта альтернатива является (новой) комбинацией существующих характеристик. Для иллюстрации предположим, что текущий рынок для кофеварок состоит из двух продуктов: машина на 10 чашек без фильтра и термоса за 25 евро (z\) и машина на 15 чашек с фильтром за 35 евро B2). В то же время марка X рассмат- ривается в качестве ее выведения на рынок как нового продукта: кофеварка на 12 чашек с фильтром и термосом за 33 евро (z$). Если респонденты представительны для тех, кто покупает кофеварки, то ожидаемую долю на рынке этого нового продукта, соответствую- щую вероятности предпочтения новой машины двум существующим, можно оценить как exp^zs-z^P} 1 + exp {(z2 - *i)'/?} + exp {(^3 - zJ'P}
7.3. Тобит-модели 329 где /3 — оценка максимального правдоподобия для вектора неиз- вестных параметре C, Фактически, было бы возможно выбрать оптимальную комбинацию характеристик 23, чтобы максимизиро- вать эту оцененную долю на рынке 16\ 7.3. Тобит-модели В определенных приложениях зависимая переменная непрерывна, но ее диапазон может быть ограничен. Часто это происходит, когда зависимая переменная равна нулю для существенной части генераль- ной совокупности, но положительна (со многими различными исхо- дами) для остальной ее части. Например, расходы на товары дли- тельного пользования, часы работы, и величина прямых иностран- ных инвестиций фирмы. Тобит-модели особенно подходят для мо- делирования переменных такого типа. Оригинальная тобит-модель предложена Джеймсом Тобином (Tobin, 1958), который проводил анализ семейных расходов на товары длительного пользования, при- нимая во внимание их неотрицательность, но только в 1964 году Артур Голдбергер назвал эту модель тобит-моделью из-за ее по- добия пробит-моделям. С тех пор оригинальная модель обобщалась разными способами. В частности, начиная с обзора (Amemiya, 1984), экономисты также называют эти обобщения тобит-моделями. В этом и следующем параграфе мы представим оригинальную тобит-модель и некоторые ее обобщения. Более детальное описание можно найти в работах (Maddala, 1983), (Amemiya, 1984) и (Lee, 1996). 7.3-7. Стандартная тобит-модель Предположим, что мы интересуемся объяснением расходов на табак в американских домашних хозяйствах в данном году. Пусть у обо- значает расходы на табак, в то время как с помощью z обозначены все другие расходы (все расходы в долларах США). Общий распо- лагаемый доход (или общие расходы) обозначим через х. Мы можем Ясно, что этот пример упрощен. В приложениях к маркетингу свойство независимости несущественных альтернатив часто является неприемлемым. Кроме того, модель не принимает во внимание наблюдаемую и ненаблю- даемую гетерогенность по потребителям. Более подробное обсуждение этих проблем см. в работах (Louviere, 1988) или (Caroll, Green, 1995).
330 7. Модели с ограниченными зависимыми переменными думать о простой проблеме максимизации полезности, описывающей решение проблемы домашним хозяйством, как о задаче вида: maxU(y,z), G.41) y + z<x, G.42) V,z > 0. G.43) Конечно, решение этой проблемы зависит от вида функции полезно- сти U. Поскольку нереально предполагать, что некоторые домашние хозяйства потратили бы все свои деньги на табак, то граничное реше- ние z = 0 можно исключить априорно. Однако решение для у может быть нулевым или положительным, и мы можем ожидать граничное решение у = 0 для большой доли домашних хозяйств. Обозна- чим решение проблемы максимизации G.41)-G.42) без ограничения G.43) как у*. При соответствующих предположениях о функции полезности U это решение будет линейно по х. Как экономисты мы не наблюдаем ничего, что определяет полезность, которую семьи приписывают табаку. Принимая во внимание ненаблюдаемую гетеро- генность в функции полезности, а, следовательно, и ненаблюдаемую гетерогенность в решении, мы можем принять, что У* =Pi+ fox + e, G.44) где е соответствует ненаблюдаемой гетерогенности К Так что, если бы не было никаких ограничений на у и потребители могли бы потра- тить какую-либо сумму на табак, то они потратили бы у*. Поэтому решение исходной проблемы при ограничениях будет иметь вид у = у* если у* > О, У G.45) у — О, если у* < 0. Так, если семье хотелось бы потратить отрицательную сумму у*, то на табак не будет потрачено ничего. По существу, это приводит нас к стандартной тобит-модели, которую мы формализуем следую- щим образом. у*1=х'ф + еи г = 1,2,... ,7V, yi = Vi, если у*>0, G.46) yi = 0, если у* < О, ^ Альтернативные интерпретации е возможны. Они могут включать ошибки в оптимизационном решении, принятом домашним хозяйством или ошибки измерения.
7.3. Тобит-модели 331 где предполагается, что е^, есть НОНР@,а2) и не зависит от век- тора объясняющих переменных Х{. Заметим сходство этой модели со стандартной пробит-моделью, которая задается выражениями G.10); различие состоит в отображении латентной переменной в наблюдаемую переменную. (Также отметим, что здесь мы можем идентифицировать масштаб, так что мы не должны налагать огра- ничение нормировки.) Модель G.46) также называется цензурированной моделью регрессии. Такая модель является стандартной моделью регрессии, где все отрицательные значения отображаются в нуль. То есть, наблюдения цензурированы (снизу) в нуле. Таким образом, модель описывает два обстоятельства. Первое обстоятельство заключается в том, что вероятность yi — 0 (при заданном векторе объясняющих переменных х{) имеет вид P{Vi = 0} = Р{у- < 0} = P{et < -х',13] = />|| < -^| = = Ф(_^)=1_ф(^Г). G.47) И второе обстоятельство — это распределение переменной yi при условии, что оно положительно. Распределение переменной yi яв- ляется усеченным нормальным распределением с математическим ожиданием Е{Уг\Уг > 0} = х'ф + E{£i\ei > -х'ф} = х'ф + v^fjfjy G-48) Последний член в этом выражении обозначает условное математиче- ское ожидание нормально распределенной переменной Е{ с нулевым средним при условии, что она больше — х[/3 (см. Приложение Б). Очевидно, что это математическое ожидание больше нуля. Резуль- тат G.48) также показывает, почему не следует ограничивать внима- ние только положительными наблюдениями и оценивать линейную модель из этой подвыборки: условное математическое ожидание yi больше не равняется х^/3, оно также зависит нелинейно от объясня- ющих переменных вектора xi через отношение ф(-)/Ф(-). Коэффициенты в тобит-модели можно интерпретировать несколь- кими способами в зависимости от нашего интереса. Например, тобит- модель описывает вероятность нулевого исхода как P{Vi = 0} = 1-ф(^
332 7. Модели с ограниченными зависимыми переменными Это означает, что C/ог может интерпретироваться так же, как C в пробит-модели для определения предельного влияния изменения в переменной Xik на вероятность наблюдения нулевого исхода (срав- ните п. 7.1.2). То есть, вР1* = 0К-ф(&)Ь. G.49) dXik \ (Т ) G Кроме того, как показывает выражение G.48), тобит-модель опи- сывает математическое ожидание yi при условии, что значения yi положительны. Тогда предельное влияние изменения в переменной Xik на значение у^ учитывая цензурирование, будет отличаться от коэффициента Ck. Он также будет включать предельное изменение во втором члене выражения G.48), соответствующее цензурирова- нию. Из выражения G.48) следует, что математическое ожидание yi имеет вид18^ E{Vi} = x№Dp) +**(£*г)- G-5°) Отсюда следует, что предельный эффект изменения в переменной Xik на математическое ожидание yi задается как19^ <"**>= A,(^Y G.51) OXik V a Это говорит нам, что предельное влияние изменения в перемен- ной Xik на ожидаемый исход yi задается коэффициентом модели, умноженным на вероятность реализации положительного исхода. Если эта вероятность равна единице для конкретного индивидуума, то предельный эффект просто равен /3&, как в линейной модели. И, наконец, предельное влияние на латентную переменную легко получить как « = /*, G.52) OXik Если латентная переменная не имеет ясной интерпретации, что не является типичным случаем, то, по-видимому, более естественно ин- тересоваться соотношением G.51). 18) Используйте, что Е{у} = Е{у\у > 0}Р{у > 0} + 0. ' Это выражение получается дифференцированием по переменной х^ • Несколь- ко членов при этом сокращаются (сравните с (Greene, 2000, Sect. 20.3)).
7.3. Тобит-модели 333 7.3.2. Оценивание Оценивание тобит-модели обычно выполняется с помощью метода максимального правдоподобия. Вклад в функцию правдоподобия на- блюдения либо равняется вероятностной мере (в точке наблюдения уi = 0), либо условной плотности Hi при условии, что она поло- жительна, умноженной на вероятностную меру наблюдения yi > 0. Таким образом, логарифмическую функцию правдоподобия можно записать в виде logL1(/3,(r2) = J]logP{yi = 0} + ^[log/{yi|yi>0} + logP{^>0}] = =5>6р{у<=о}+5>е/ы, G-53) где /(•)— общее обозначение для функции плотности, а последнее ра- венство следует из определения условной плотности К Множества индексов /о и Д определяется как множества тех индексов, которые соответствуют нулю и положительным наблюдениям соответствен- но. То есть, Iq = {г = 1,..., N: у^ = 0}. Используя соответствующие выражения для нормального распределения, мы получаем logL1(C,a2) = Е1о41-ф(^I + ieio + Е1о§ 1 5 1 . L/A.U 2 <т2 G.54) Максимизация G.54) относительно f3 и а2 приводит к ММП-оценкам. Предполагая, что модель специфицирована корректно, получаем состоятельные и асимптотически эффективные оценки для C и а (при умеренных условиях регулярности). Компоненты вектора /3 имеют двойную интерпретацию: пер- вая интерпретация касается влияния изменения в Х{ на вероятность ненулевых затрат, а вторая связана с оценкой влияния изменений в Xi на уровень этих затрат. Таким образом, оба эффекта автоматически имеют один и тот же знак. Хотя выше мы мотивировали применение тобит-модели с помощью схемы максимизации полезности, обычно в 20) Напомним, что f(y\y > с) = f(y)/P(y > с) для у > с и f(y\y >c) = 0 в про- тивном случае (см. Приложение Б).
334 7. Модели с ограниченными зависимыми переменными прикладной работе этот момент не является отправной точкой: ла- тентная переменная у* могла бы просто интерпретироваться в виде «желаемых затрат», с фактическими расходами, равными нулю, ес- ли желаемая величина отрицательна. В некоторых приложениях наблюдения полностью отсутствуют, если латентная переменная у* < 0. Например, наша выборка может быть ограничена семьями только с положительными расходами на табак. В этом случае, мы можем все еще предполагать ту же самую лежащую в основе схему, но с немного другим правилом наблюдения. Это приводит к так называемой усеченной модели регрессии. Формально, она имеет вид у* =x'.f3 + £i, i = 1,2,..., TV, yi = y*, если у*>0, G.55) (уг, Xi) не наблюдается, если у* < О, где, как и прежде, предполагается, что остаток Si является НОНР@, а2) и не зависит от объясняющих переменных вектора Х{. В этом случае мы больше не имеем случайную выборку, и, когда делаем выводы (например, оценивание параметров /3, сг2), должны принимать это во внимание. Вклад в правдоподобие наблюдения г не просто плотность, оцененная в точке наблюдения у^, а плотность в точке уг, условная по ограничению при формировании выборки, то есть условная по у^ > 0. Таким образом, логарифмическая функция правдоподобия для усеченной модели регрессии задается как L2(/3,<72) = ^log/(yi|yi>0) = ^[log/(yi)-logP{№>0}]. G.56) ieii ieh которая для нормального распределения сводится к выражению logL2(/?,a2) = Несмотря на то, что нет никакой необходимости наблюдать, какие характеристики индивидуумов связаны с у* = 0, и знать, сколько индивидуумов «пропущено», мы должны предполагать, что инди- видуумы не наблюдаемы только потому, что их характеристики таковы, что у* < 0. Максимизация log L2 относительно C и а2 снова приводит к состоятельным оценкам. Если наблюдения с у* = 0 дей- ствительно отсутствуют, это наилучшее, что можно сделать. Однако
7.3. Тобит-модели 335 даже если наблюдения с г/i — 0 доступны, все еще возможно вместо log L\ максимизировать log L2, то есть, возможно оценивать усечен- ную модель регрессии, даже если будет применяться тобит-модель. Интуитивно очевидно, что последний (тобит-модельный) подход ис- пользует больше информации и поэтому, в общем, будет приводить к более эффективным оценкам. Фактически, можно показать, что информация, содержащаяся в тобит-модели, объединяет информа- цию, которая содержится в усеченной модели регрессии, с инфор- мацией пробит-модели, описывающей нулевое/ненулевое решение. Этот факт легко следует из того результата, что логарифмическая функция правдоподобия тобит-модели является суммой функций логарифмов правдоподобия усеченной регрессии и пробит-модели. 7.3.3. Пример: расходы на алкоголь и табак (часть 1) В экономике для анализа влияния на потребительский спрос, на- пример, дохода, налоговых изменений или изменения цен часто используются (системы) уравнения спроса. Возникает практическая проблема, которая состоит в том, что расходы на специфические предметы потребления могут быть нулевыми, особенно если това- ры не агрегированы в широкие категории. Несмотря на то, что, как правило, это имеет место с товарами длительного пользования, здесь мы сконцентрируемся на другом типе предметов потребления: алкогольных напитках и табаке. Начиная с предположения, что потребитель максимизирует свою полезность как функцию от количеств товаров потребления, можно получить функцию спроса Маршалла (Marshallian demand function) для каждого товара как Qj = 9j(x,P), где qj обозначает количество товара j, х обозначает общие расходы, а р является вектором цен всех соответствующих товаров. Функция gj зависит от предпочтений потребителя. В эмпирическом приложении мы рассмотрим пространственные ("cross-sectional") данные, когда цены по наблюдениям не изменяются. Поэтому вектор цен р можно исключить из функции спроса, и мы получаем Qj =9j(x). Это соотношение обычно называется кривой Энгеля (см., напри- мер, (Deaton, Muellbauer, 1980, Chapter 1)). Отсюда можно опреде- лить эластичность количества потребляемого товара qj по общим
336 7. Модели с ограниченными зависимыми переменными расходам как _ dg*(x) х 3 dx qj' Эта эластичность измеряет относительный эффект 1%-ого увеличе- ния общих расходов и ее можно использовать для классификации то- варов на предметы роскоши, предметы первой необходимости и това- ры низкого качества. Товар называется предметом роскоши, если по- требляемое количество возрастает более чем пропорционально с воз- растанием общих расходов {cj > 1), в то время как он является пред- метом первой необходимости, если €j < 1. Если при возрастании об- щих расходов количество покупок товара уменьшается, то, говорят, что это товар низкого качества, что подразумевает отрицательную эластичность ej. Удобная параметризация кривой Энгеля имеет вид Wj — aj + f3j log x, где Wj = Pjqj/x обозначает бюджетную долю товара j. При этом просто получается вывод, что эластичности по общим расходам для этой функции задаются как €j = l + ^. G.58) Wj Вспомним, что товар j является предметом первой необходимости, если €j < 1 или /3j < 0, в то время как предмет роскоши соответ- ствует f3j > 0. Ниже мы сосредоточимся на двух специфических товарах, ал- когольных напитках и табаке. Кроме того, мы явно сосредоточимся на гетерогенности по домашним хозяйствам, и индекс i будет приме- няться для индексирования индивидуального номера наблюдаемого домашнего хозяйства. Система почти идеального спроса Деатона и Мюлльбауэра (Deaton, Muellbauer, 1980, Section 3.4) предполагает кривые Энгеля вида Wji = (Xji + Cji log Xi + £ji, где Wji — доля бюджета семьи г потребления предмета j, a Xi обозначает общие расходы. Параметры otji и /3ji могут зависеть от таких характеристик семьи, как, например, состав семьи, возраст и образование главы семьи. Случайные члены Sji улавливают нена- блюдаемые различия между семьями. Поскольку f3ji изменяется
7.3. Тобит-модели 337 по семьям, вид функции вышеупомянутой кривой Энгеля позволя- ет товарам являться предметами роскоши или предметами первой необходимости в зависимости от характеристик семьи. Когда мы рассматриваем расходы на алкоголь или табак, то ожидается, что число нулей будет существенным. Первый способ объяснить эти нули состоит в том, что они являются результатом граничных решений, когда ограничение неотрицательности на до- лю бюджета (wji > 0) становится обязательным. Это означает, что семьи предпочитают не покупать алкогольные напитки или табак при текущих ценах и доходе, но снижение цены или возрастание дохода (в конечном счете) изменят это. Обсуждение, реалистическое это предположение или нет, откладывается до п. 7.4.4. Поскольку граничные решения не удовлетворяют условиям первого порядка для внутреннего оптимума, лежащим в основе проблемы максими- зации полезности, то кривая Энгеля не применяется к наблюдениям с долями бюджета Wj% = 0. Вместо этого предполагается, что если не налагается ограничение неотрицательности, то отрицательное ре- шение, соответствует нулевым расходам на специфический товар, и кривая Энгеля должна описывать решение проблемы максимизации полезности домашнего хозяйства. Таким образом, мы можем скор- ректировать модель, представив ее в виде wji = a3i + fyi 1о§ Хг + ejn Wji — Wji, если Wj{ > 0, Wji = 0 в противном случае. Теперь эта модель соответствует стандартной тобит-модели, если предполагается, что Sji ~ НОНР@, а2) для данного товара j. Ана- логичный подход применяется в статье (Atkinson, Gomulka, Stern, 1990). В статье проводится оценивание кривой Энгеля для алкоголя, но в ней предполагается, что Sji имеет не нормальное скошенное распределение. Для оценивания приведенной выше модели мы используем дан- ные21^ из обследования семейных бюджетов в Бельгии за период с 1995 года по1996 год, представленные Национальным институтом статистики (НИС). Выборка содержит 2724 семьи, для которых на- блюдались расходы по широкому диапазону товаров, а также ряд Я благодарен НИС за разрешение, использовать эти данные; доступные как TOBACCO.
338 7. Модели с ограниченными зависимыми переменными статусных и количественных переменных, касающихся, например со- става семьи и профессионального статуса ее членов. В этой выборке 62% семей имеют нулевые расходы на табак, тогда как 17% нисколь- ко не тратили на алкогольные напитки. Средние доли бюджета для соответствующих подвыборок положительных расходов составили 3,22% и 2,15%. Ниже мы оценим две кривые Энгеля для алкоголя и табака по отдельности. Это означает, что мы не принимаем во внимание возможность, что обязательное ограничение неотрицательности на табак также может влиять на расходы на алкоголь, или наоборот. Мы предположим, что ос^ является линейной функцией от возраста главы семьи 22\ числа взрослых в семье и числа детей, меньше 2 лет и 2 года и старше, a Cji является линейной функцией от возраста и числа взрослых. Это означает, что в тобит-модель в качестве объяс- няющих переменных включаются произведения логарифмов общих расходов с возрастом и числом взрослых. Результаты оценивания для стандартных тобит-моделей представлены в таблице 7.4. Для табака есть существенное свидетельство, что возраст явля- ется важным фактором в объяснении доли бюджета, как отдельно, так и в комбинации с общими расходами. Для алкогольных напитков индивидуально значимы только переменные — число детей и общие расходы. Из результатов в таблице 7.4 видно, что тесты Вальда для проверки гипотезы равенства всех коэффициентов нулю, кроме сво- бодного члена, характеризуются высоко значимыми значениями для обоих товаров. При нулевой гипотезе эти критические статистики сравнимы с F-статистикой, которая, как правило, вычисляется для линейной модели (см. п. 2.5.4), и имеют асимптотическое хи-квадрат распределение с 7 степенями свободы. Если мы предполагаем, что рассматриваемые домашние хозяй- ства имеют достаточно большую долю бюджета, чтобы пренебречь изменениями во втором члене выражения G.48), то эластичность по общим расходам можно вычислить на основе выражения G.58) как 1 + f3ji/wji. Она измеряет полную эластичность для тех, ко- торые потребляют алкоголь и тех, которые курят соответственно. Если мы вычисляем вышеупомянутые эластичности как выборочные средние по тем семьям, которые имеют положительные расходы, то Возраст измерен в возрастных группах с десятилетним интервалом, упо- рядоченных от нулевой возрастной группы (моложе 30 лет) до четвертой возрастной группы F0 лет и старше).
7.3. Тобит-модели 339 Таблица 7.4. Тобит-модели для долей семейных бюджетов, расходуемых на алкоголь и табак Переменная константа возрастная группа число взрослых число детей свыше 2 лет число детей меньше и 2 года log х возрастная группа х log x число взрослых х log ж а Логарифм правдоподобия Тест Вальда {\7) Алкогольные напитки Оценка -0,1592 0,0135 0,0292 -0,0026 -0,0039 0,0127 -0,0008 -0,0022 0,0244 Ст. ош. @,0438) @,0109) @,0169) @,0006) @,0024) @,0032) @,0088) @,0012) @,0004) 4755,375 117,86 (р = 0,000) Табак Оценка 0,5900 -0,1259 0,0154 0,0043 -0,0100 -0,0444 0,0088 -0,0006 0,0480 Ст. ош. @,0934) @,0242) @,0380) @,0013) @,0055) @,0069) @,0018) @,0028) @,0012) 758,701 170,18 (р = 0,000) мы получаем оцененные эластичности ', равные 1,294 и 0,180 со- ответственно. Это показывает, что алкогольные напитки являются предметами роскоши, в то время как табак является предметом пер- вой необходимости. Фактически, эластичность по общим расходам на табак довольно близка к нулю. В этом приложении тобит-модель предполагает, что все ну- левые расходы являются результатом граничных решений, и что достаточно большое изменение в доходе или относительных ценах, в конечном счете, привело бы к положительным расходам для любой Мы сначала берем средние, а затем вычисляем отношение.
340 7. Модели с ограниченными зависимыми переменными семьи. В частности для табака это, по- видимому, не соответствует действительности. Например, многие люди не курят из-за сохране- нья здоровья или по социальным причинам, и не стали бы курить, даже если сигареты были бесплатные. Если это так, то, по-видимому, более уместно моделировать решение курить или нет, в виде про- цесса, не связанного с решением, сколько расходовать на это. Так называемая тобит-модель II, одна из обобщений тобит-модели, кото- рая будет обсуждаться ниже, могла бы подойти для такой ситуации. Поэтому мы возвратимся к этому примеру в п. 7.4.4 ниже. 7.3.4. Спецификационные тесты для тобит-модели Нарушение предположений о распределении остатка ei, в общем, будет приводить к несостоятельным МПП-оценкам для неизвестных вектора параметров /3 и дисперсии а2. В частности, не нормальность распределения и гетероскедастичность вызывают беспокойство. Мы можем протестировать эти альтернативы, так же как и наличие не включенных в модель существенных переменных, в рамках схем множителей Лагранжа. Чтобы начать обсуждение, сначала отме- тим, что условия первого порядка логарифма правдоподобия log L\ относительно f3 задаются как у: -ф^э1 Xi+тиХг=у: sfXi=о, G.59) где мы определяем обобщенный остаток ^° как масштабированный остаток e~i/a — (уг — xiP)/^ для положительных наблюдений и как значение —ф(-)/A — Ф(-))? вычисленное в точке х[Р/Э, для нулевых наблюдений. Таким образом, мы получаем условия первого поряд- ка, которые имеют тот же самый вид, как и в пробит-модели, или линейной модели регрессии. Единственное различие состоит в опре- делении соответствующего (обобщенного) остатка. Поскольку <т2 также является оцениваемым параметром, то нам, чтобы получить спецификационные тесты, также требуется условие первого порядка для а2. За исключением несущественного множителя масштабирования, условие первого порядка для а2 имеет вид х'Р ф(х$/а) i ^{е2 Л A^GB) ге/0 х ^y^i^/^J ieh ч 7 г=1 Е^ n^"' +SRr-i =Е5сB) = о, G-60)
7.3. Тобит-модели 341 где мы определяем 'ei , как обобщенный остаток второго поряд- ка. Условие первого порядка относительно а2 говорит, что выбо- рочное среднее ei должно равняться нулю. Можно показать (см. (Gourieroux et al., 1987)), что обобщенный остаток второго по- рядка является оценкой для Е{(е2/а2) — l|y;, #г}> точно так же? как обобщенный остаток (первого порядка) *ef* является оценкой для E{si/a\yii Xi}. В рамках этого текста нет возможности провести та- кой вывод, тем не менее, интуитивно ясно: если Si нельзя определить по yi, xi yl вектору параметров /3, то мы заменяем выражения зна- чениями условных математических ожиданий при условии, что все, что мы знаем о у*, отражается в yi. Просто это была бы наилучшая догадка о том, что мы думаем об остатке при условии, что мы знаем только, что удовлетворяется Si < —х'ф. Из выражения для условий первого порядка G.59) непосред- ственно ясно, как мы могли бы протестировать невключение в мо- дель J существенных переменных Z{. Поскольку дополнительные условия первого порядка означали бы, что N то мы просто можем построить регрессию единиц по К + 1 + J пере- -G / -GB) -G / менным е{ х{, ei и ei z , и вычислить критическую статистику как 7V, умноженное на нецентрированный В2. При нулевой гипо- тезе соответствующим асимптотическим распределением является хи-квадрат распределение с J степенями свободы. Тестирование на гетероскедастичность может быть основано на альтернативной гипотезе, что V{£i} = аЧ(г'га), G.61) где h(-) — неизвестная дифференцируемая функция с /i@) = 1 и h(-) > 0, a Zi — J-мерный вектор объясняющих переменных, не вклю- чающий свободный член. Нулевая гипотеза соответствует а — О, означая, что 1^{^г} = о2. Дополнительные метки относительно а, вычисленные по текущим значениям оценок параметров /3, а2, легко получаются как nei z{, где к — несущественная константа, кото- рая зависит от функции h. Следовательно, критическая статистика МЛ-теста для гетероскедастичности легко получается как 7V, умно- женное на нецентрированный R2 регрессии единиц по К +1 + J пере-
342 7. Модели с ограниченными зависимыми переменными ^G i ^G{2) ^G i r\ менным ei xi^ei и ei z . Отметим, что в этом случае критическая статистика также не зависит от вида функции h, а только от Zi. Если гомоскедастичность отклоняется, то мы можем оценить модель с гетероскедастичными остатками, если мы специфицируем вид функции /г, например, h{z[a) — ехр{^а}. В логарифмиче- ской функции правдоподобия мы просто заменяем дисперсию <т2 функцией а2 ехр {z[а} и оцениваем а одновременно с неизвестны- ми вектором параметров C и а2. Альтернативно возможно, что гетероскедастичность может обнаружиться из-за того, что в модели неправильно что-то еще. Например, может не соответствовать общий вид функции, и следует включить нелинейные функции от векто- ра объясняющих переменных Х{. Проблему гетероскедастичности также можно исключить преобразованием зависимой переменной. Например, этим объясняется, почему во многих случаях модель спе- цифицируется для логарифма заработной платы, а не для самой заработной платы непосредственно. И, наконец, мы обсудим тест на выявление ненормальности рас- пределения. Этот тест может основываться на структуре Пагана и Велла (Pagan, Vella, 1989) и предполагает тестирование следующих двух условий для условных моментов, которые следуют из нормаль- ности: E{e^/a3\xi} — 0 и E{ej/a4 — 3|x^} = 0, что соответству- ет отсутствию асимметрии и избыточного эксцесса, соответственно (см. параграф 6.4). Сначала рассмотрим величины Е{е^/a3\yi, Xi} и E{sf /a4 — 3\yi, Xi}, отметив, что взятие математических ожиданий по Уг (при заданном векторе Xi) приводит к двум интересным моментам. Если yi > 0, то мы просто можем оценить выборочные эквиваленты как ?f/<т3, так и £^4/<т4 — 3, соответственно, где е^ = Уг — х'ф. Для уi = 0 условные математические ожидания более сложны, но их мож- но вычислить, используя следующие формулы (Lee, Maddala, 1985): L2i Е Е Xi,yi = 0 > = + 2 + а Е1£-± Хг,Уг =0 G.62) £1 а2 а - 1 Е Xi,yi = 0 Xi,Vi = 0 G.63) Эти две величины легко можно оценить из ММП-оценок /3 и а2 и обобщенных остатков е^ и ?• . Обозначим полученные оценки
7.4. Обобщения тобит-моделей 343 как е. GC) „ ~СD) ei = ^7) если Уг > О, аз: -GC) £г = 2 + 2-| G.64) е^ в противном случае ^4 ^D) = ^-3, если уг>0, а4 ~GD) 0-GB) . /^гР \ -G е{ w = Зе • + I -£- ч в противном случае. Согласно закону итеративных математических ожиданий нулевая ги- потеза нормальности означает, что (асимптотически) E\isi |х^} = О и Е{£± \xi} = 0. Следовательно, тест условных моментов на ненор- мальность распределения можно получить построением регрессии вектора единиц по А + 3 переменным е{ х{, ei , ^ v y и ^ , и вычислением iV, умноженного на нецентрированный R2. При нулевой гипотезе асимптотическое распределение полученной в ре- зультате критической статистики имеет хи-квадрат распределение с 2 степенями свободы. Хотя вывод различных критических статистик может казать- ся сложным, их вычисление относительно легкое. Они могут быть вычислены, используя вспомогательную регрессию после некоторых прямых вычислений, включающих ММП-оценки и данные. Посколь- ку состоятельность ММП-оценок кардинально зависит от коррект- ной спецификации функции правдоподобия, тестирование на некор- ректную спецификацию должно быть стандартной общепринятой практикой в эмпирической работе. 7.4. Обобщения тобит-моделей Стандартная тобит-модель имеет структуру, которая часто слиш- ком ограничена: в точности одни и те же переменные, влияющие на вероятность ненулевого наблюдения, определяют уровень поло- жительного наблюдения и, кроме того, с тем же самым знаком. Например, это подразумевает, что те, кто более вероятно расходуют положительную сумму, в среднем также являются теми, которые
344 7. Модели с ограниченными зависимыми переменными тратят больше на товар длительного пользования. В этом разделе мы обсудим модели, которые ослабляют это ограничение. Приво- дя определенный пример расходов на отпуск, представляется, что многодетные семьи менее вероятно будут иметь положительные рас- ходы, в то время как, если отпуск оплачивается, то ожидаемый уровень расходов для таких семей выше. Предположим, что мы интересуемся объяснением заработной платы. Очевидно, что заработная плата наблюдается только для людей, которые фактически работают, но в экономических целях мы часто интересуемся (потенциальной) заработной платой совокуп- ности индивидуумов, не ограниченной этим условием. Например: изменение в некоторой переменной х может привести к снижению чьей-то заработной платы настолько, что он решает прекратить ра- ботать. Следовательно, его заработная плата больше не наблюдалась бы, и эффект этой переменной х может быть недооценен из име- ющихся данных. Поскольку возможно, что выборка работников не является случайной выборкой из генеральной совокупности (потен- циальных работников) — в частности можно ожидать, что люди с более низкой (потенциальной) заработной платой более вероятно бу- дут безработными — эта проблема часто называется проблемой, свя- занной с ограничениями на процесс формирования выборки ("sample selection problem") *'. 7.4.1. Модель тобит II Традиционной моделью для описания проблем, связанных с огра- ничениями на процесс формирования выборки, является модель тобит II 24\ также называемая моделью с выборочной селек- тивностью. В этом контексте она состоит из линейного уравнения заработной платы w* =х'иРг +£i», G.66) где хц обозначает вектор экзогенных характеристик (возраст, обра- зование, пол, ...), a w* обозначает заработную плату г-го индиви- дуума. Здесь имеется в виду заработная плата w* для неработающих индивидуумов (что пояснено звездочкой *), и она не наблюдается. В дальнейшем мы будем называть это «проблемой выборочной селек- тивности» (примеч. научн. ред. перевода). Такая классификация тобит-моделей исходит из статьи (Amemiya, 1984). Тогда стандартная тобит-модель параграфа 7.3 называется моделью тобит I.
7.4. Обобщения тобит-моделей 345 если h* > 0, если h* < 0, G.68) G.69) Для описания, работает индивидуум или нет, специфицировано вто- рое уравнение, которое является моделью бинарного выбора. Таким образом, h* = x2if32 + e2i, G.67) где для наблюдений мы имеем следующее правило: w* = Wi, hi = 1, и w* не наблюдается /г^ = 0, где Wi обозначает фактическую заработную плату г-го индивиду- ума 25\ Бинарная переменная hi просто указывает, работает г-ый индивидуум (hi = 1) или нет (hi = 0). Постановка модели завер- шается предположением о распределении ненаблюдаемых остатков (£Н)£2г)- Обычно предполагается двумерное нормальное распреде- 2 2 ление с нулевым математическим ожиданием, дисперсиями а1, а2, соответственно, и ковариацией <Ti2. Модель G.67) фактически яв- ляется стандартной пробит-моделью, описывающей выбор, работает индивидуум или нет. Поэтому, как и ранее требуется ограничение нормировки и обычно полагается а\ — 1. Переменные вектора х2% с коэффициентами C2 влияют на выбор — работать. Уравнение G.66) описывает (потенциальную) заработную плату как функцию от переменных вектора хц с коэффициентами C\. Знаки и величи- на коэффициентов /3 в этих двух уравнениях могут различаться. В принципе переменные в векторах х\ и Х2 могут отличаться, хотя в этом отношении следует быть очень осторожным (см. ниже). Легко ЗамеТИТЬ, ЧТО еСЛИ бы МЫ НаЛОЖИЛИ УСЛОВИЯ x'u[3i = х'2ф2 И Ец = £2г, то вернулись бы к стандартной тобит-модели (модели тобит I). Условное математическое ожидание заработной платы при усло- вии, что индивидуум работает, задается в виде Е{ил\Ы = 1} = х'ирг + Е{еи\Ы = 1} = = x'H/?i + Е{ец\е2г > -х'2М = = x'uPi + -^E{e2i\s2i > -x2M = = х^1+а12Щ^У G-70) ' В большинстве приложений модель формулируется в терминах логарифми- ческой заработной платы.
346 7. Модели с ограниченными зависимыми переменными где в последнем равенстве используются нормировка а\ — 1 и вы- ражение для математического ожидания усеченного стандартного нормального распределения, подобного тому, которое использова- лось при выводе выражения G.49). В третьем равенстве использу- ется тот факт, что для двух нормальных случайных переменных £'{^i|^2} = (o'i2/o'2)s2' В Приложении Б эти результаты описаны более детально. Отметим, что мы можем написать а\2 = р\2&\-> гДе pi2 — коэффициент корреляции между двумя остатками. Тем са- мым снова показывается общность модели в сравнении с выражением G.49). Из выражения G.70) непосредственно следует, что условное ожидание заработной платы равно х'иC\, если только о\2 — р\2 — 0. Так, если остатки этих двух уравнений являются некоррелирован- ными, то уравнение заработной платы можно оценить состоятельно обычным МНК. Смещение из-за селективности выборки в МНК- оценке возникает, если а\2 ф 0. По Хекману (Heckman, 1979) член 0(х2^/?2)/Ф(#2г/^2) обозначается в виде Л(х^/?2) и поэтому иногда он называется лямбдой Хекмана. Критическим параметром, который делает модель с выборочной селективностью отличающейся от просто модели регрессии и пробит- модели, является коэффициент корреляции (или ковариация) между остатками этих двух уравнений. Если остатки некоррелированы, то мы просто могли бы оценить уравнение заработной платы с помощью МНК и игнорировать уравнение с выборочной селективностью (если в нем мы не заинтересованы). Теперь, почему мы можем ожидать корреляцию между этими двумя остатками? Хотя модель тобит II можно мотивировать по-разному, мы будем более или менее следо- вать за ее обсуждением в статье (Gronau, 1974). Предположим, что проблему максимизации полезности индивидуума (в случае статьи (Gronau, 1974): домохозяйки), можно охарактеризовать заработной платой сохранения работы w\ (стоимостью времени). Индивиду- ум будет работать, если фактическая заработная плата, которую ему предлагают, превысит эту заработную плату сохранения работы. Ко- нечно, заработная плата сохранения работы зависит от личностных характеристик, через функцию полезности и бюджетное ограниче- ние, так что мы пишем (предполагаем) где Zi — вектор личностных характеристик, a щ не наблюдаем. Обычно заработная плата сохранения работы не наблюдается.
7.4. Обобщения тобит-моделей 347 Теперь предположим, что заработная плата, которую индивиду- уму предлагают, зависит от его личностных характеристик (и неко- торых характеристик работы) как в уравнении G.66), то есть. wi =xuPi + Вн- если эта заработная плата ниже w\, то предполагается, что индиви- дуум г не будет работать. Таким образом, мы можем написать его решение по предложению рабочей силы как hi = 1, если w* — wl > О, hi = 0, если W* — wl < 0. Неравенство можно написать в терминах наблюдаемых характери- стик и ненаблюдаемых остатков как К = < ~ < = xuPi - zh + (eii ~ Vi) = 4i#2 + ^2г, G.71) соответственно определяя Х2% и Е2%- Следовательно, наша простая экономическая модель, где предложение рабочей силы основано на заработной плате сохранения работы, приводит к модели вида тобит П. Для соотношения G.71) стоит отметить несколько поло- жений. Во-первых, на решение, работать или нет, влияет размер предлагаемой заработной платы. Это подразумевает, что остаток £2г включает ненаблюдаемую гетерогенность, влияющую на предложе- ние заработной платы, то есть включает бц. Если r\i не коррелирован с бц, то ожидается, что корреляция между остатками Е2% и ец будет положительной. Следовательно, мы можем ожидать смещение из-за выборочной селективности в МНК-оценках по экономическим дово- дам. Во вторых, все переменные вектора хц плюс все переменные вектора z$, которые не содержатся в хц, включаются в вектор Х2%. Таким образом, экономические доводы убеждают нас в том, что в вектор Х2г следует включить, по крайней мере, те переменные, которые содержатся в векторе хц. Чтобы лучше почуствовать обобщение, повторим статистиче- скую модель, модель тобит II, подставляя у вместо w V^x'uPt+eu, G-72) К=х'2ф2+е2г, G.73) Vi = Vi, hi = l, если h* > 0, G.74) Уг не наблюдаемо, hi = 0, если h* < 0, G-75)
348 7. Модели с ограниченными зависимыми переменными где (-)~ЯОЯР(@),(;? -)). (,76) Эта модель имеет две наблюдаемые эндогенные переменные yi и hi. Статистически она описывает совместное распределение yi и hi, условное по обоим векторам переменных хц и x^i. To есть, уравнение G.72) описывает условное распределение у*, условное по обоим век- торам переменных Хц и x2i- Единственная причина, побуждающая нас не включать определенную переменную из вектора х2% в вектор x\i, заключается в нашей уверенности, что в уравнении заработной платы эта переменная имеет нулевой коэффициент. Например, к таким переменным можно было бы отнести переменные, которые влияют только на заработную плату сохранения работы, но не на саму заработную плату. Некорректное исключение переменной из уравнения G.72), и в то же время ее включение в уравнение G.73), может серьезно повлиять на результаты оценивания и привести к ложным выводам о существовании смещения из-за ограничений при формировании выборки. 7.4.2. Оценивание В целях оценивания о модели можно думать как состоящей из двух частей. Первая часть описывает бинарную проблему выбора. Вклад в функцию правдоподобия есть просто вероятность наблю- дения hi = 1 или hi = 0. Вторая часть описывает распределение заработной платы для тех, кто фактически работает, так что вклад в правдоподобие есть f(yi\hi — 1). Таким образом, для логарифми- ческой функции правдоподобия мы имеем log L3(/?, a\, a12) = YI 1о§ Pihi = °} + + ]T [log/Ы/гг = 1) + log P{hi = 1}]. G.77) ieh Часть модели, описывающая бинарный выбор стандартна; един- ственная сложная часть — это условное распределение переменной yi при условии hi — 1. Поэтому общепринято анализировать сов- местное распределение у^ и Ы иначе, используя тот факт, что /ШЫ = l)P{hi = 1} = Р{Ы = 1\Уг}/(Уг). G.78)
7.4. Обобщения тобит-моделей 349 В правой части последний член является просто функцией плотности нормального распределения, в то время как первый член является вероятностью из условной функции плотности нормального распре- деления, характеризуемой (см. Приложение Б), E{K\yi}=x'2ifo + ^{yi-x'M, а\ У{Щ\уг} = 1-^-, а\ где последнее равенство обозначает дисперсию h* условную по г/г и данным экзогенным переменным. Таким образом, мы напишем логарифм правдоподобия в виде log L3@, а\, a12) = J^ log Р{Ы = 0} + iei0 + ^[log f(Vi) + log Р{Ы = l\yi}\ G.79) ieh со следующими равенствами P{hi = 0} = 1 - Ф(х'2ф2), G.80) Р{Ы = %> = ф^ + (^)(Ц-^)), G.81) /ы = 7ЩехрН—ц—Г G-82) Максимизация log Ьз(/?, о\, а^) относительно неизвестных парамет- ров приводит (при умеренных условиях регулярности) к состоя- тельным и асимптотически эффективным оценкам, которые имеют асимптотическое нормальное распределение. В эмпирической работе модель с выборочной селективностью чаще оценивается двухшаговым способом. В вычислительном отно- шении это проще, а также обеспечивает хорошие начальные значе- ния для процедуры максимального правдоподобия. Двухступенчатая процедура исходит из статьи (Heckman, 1979) и основана на следую- щей регрессии (сравните с выражением G.70) выше), Уг = xfuCi + a12\i + гц, G.83) где = ф{х'2гC2) 1 Ф(^&)'
350 7. Модели с ограниченными зависимыми переменными Остаток в этой модели равняется r]i = ец ~ E{eu\xi, hi = 1}. Учитывая предположение, что распределение ец не зависит от Xi (но не от /ii), остаток r\i не коррелирован с хц и Л^ по построению. Это означает, что мы могли оценить параметры j3\ и g\2 в виде МНК- оценок регрессии по исходным регрессорам хц и дополнительной переменной Л^. Тот факт, что Л^ не наблюдается, в действительно- сти не является проблемой, поскольку единственный неизвестный элемент в А; есть вектор /?2, который можно оценить состоятель- но с помощью ММП, примененного к пробит-модели с выборочной селективностью. Это означает, что в регрессии G.83) мы заменяем Xi ее оценкой А^, и МНК все еще будут приводить к состоятельным оценкам для C\ и о\2. В общем же, эта двухшаговая оценка не будет эффективна, но ее просто вычислить и она состоятельна. Одна из проблем двухшагового оценивания состоит в том, что обычно вычисляемые стандартные ошибки МНК являются некор- ректными, если о\2 ф 0. Эта проблема часто игнорируется, потому что все еще правомерно протестировать нулевую гипотезу отсут- ствия смещения из-за выборочной селективности, используя стан- дартный i-критерий для проверки, что о\2 — 0. Однако, в общем, стандартные ошибки следует скорректировать, поскольку остаток r\i в уравнении G.83) гетероскедастичен, и поскольку оценивается вектор /?2- Подробности см. в книге (Greene, 2000, Sect. 20.4). Если векторы хц и X2i идентичны, то модель идентифицируема только из-за факта, что А^ является нелинейной функцией. Поэтому эм- пирически двухшаговый подход не будет работать очень хорошо, если существует небольшая вариация в А^, и А^ — близка к линейной функции по X2i. Эти обстоятельства являются предметом многих ис- следований методами Монте-Карло, например, исследование (Leung, Yu, 1996). Включение переменных в вектор X2i дополнительно к тем, которые содержатся в векторе хц, может быть важным для идентифицируемости на втором шаге, хотя для включения таких переменных часто нет никаких естественных претендентов, и любой выбор легко критикуется. По крайней мере, некоторый анализ чув- ствительности к наложенным исключающим ограничениям следует выполнить, чтобы убедиться, что член А корректно улавливает эф- фект невключенных существенных переменных. Модель, которая оценивается на втором шаге, описывает услов- ное математическое ожидание у^ Для данного Xi и при условии,
7.4. Обобщения тобит-моделей 351 что hi = 1, например, математическое ожидание заработной платы при условии, что индивидуум работает. Эта информация непосред- ственно не предоставляется, если модель оценивается ММП, хотя это условное математическое ожидание можно легко вычислить из оценок. Часто интересно математическое ожидание yi для данного Х{, безусловное по hi — 1, и оно задается х\ф\, которое также предо- ставляется последней регрессией. Таким образом, прогнозирование заработной платы для произвольного индивидуума может быть осно- вано на уравнении G.83), но не должно включать член о\2\{х'2^2). Положительная ковариация а\2 указывает, что существует нена- блюдаемая гетерогенность, которая положительно влияет как на заработную плату, так и на вероятность наличия работы. То есть, более правдоподобно, что будут работать те индивидуумы, зара- ботная плата которых выше чем ожидаемая (условная при данном множестве значений Xi). Двухшаговая оценка модели с ограничениями при формирова- нии выборки является одной из оценок, наиболее часто используе- мых в эмпирической микроэконометрической работе. По-видимому, существует вера, что включение в модель члена коррекции Л ис- ключает все проблемы смещения, обусловленного выборочной се- лективностью. В общем, это конечно неверно. Наличие неслучайной выборки приводит к фундаментальной проблеме идентифицируемо- сти и, следовательно, правомерность любого решения будет зависеть от правомерности сделанных предположений, которые можно проте- стировать только частично. В параграфе 7.5 ниже больше внимания уделяется смещению из-за выборочной селективности и связанной с ним проблеме идентифицируемости. 7.4.3. Дальнейшие обобщения Структуру модели с одной или более латентными переменными, нормальными остатками и правилом наблюдения, отображающим ненаблюдаемые эндогенные переменные в наблюдаемые, можно ис- пользовать в разнообразных приложениях. В статье (Amemiya, 1984) характеризуются несколько тобит-моделей в форме функций правдо- подобия, так что различные структуры могут приводить к моделям, которые являются статистически неразличимыми. Очевидным обоб- щением, приводящим к модели тобит III, является такое обобщение, когда /г* в вышеупомянутых моделях уравнений предложения труда и заработной платы частично наблюдается как часы работы. В том
352 7. Модели с ограниченными зависимыми переменными случае мы наблюдаем Уг = у*, hi = /i*, если h* > О, G.84) Уг не наблюдается, hi = О, если /г* < О, G.85) с одной и той же в основе лежащей латентной структурой. По су- ществу, это говорит, что модель с выборочной селективностью не является моделью типа пробит-модели, а относится к моделям ти- па стандартной тобит-модели. Приложения, в которых применяются модели таких и более сложных структур, часто можно найти в эконо- мике труда, где объясняется заработная плата в различных секторах с учетом членства в профсоюзах и т.п., принимая во внимание, что выбор секторов, вероятно, не является экзогенным, но основан на потенциальной заработной плате в сравниваемых секторах, или что не экзогенно предложение труда, или что не экзогенно ни то, ни другое. Другие типы моделей выбора также возможны, включая, например, модель с упорядоченным множественным откликом. Для более подробного обсуждения этой темы см. статью (Vella, 1998). 7.4.4. Пример: расходы на алкоголь и табак (часть 2) В п. 7.3.3 мы рассматривали оценивание кривых Энгеля для алко- гольных напитков и табака, принимая во внимание проблему нуле- вых расходов. Стандартная тобит-модель предполагает, что нулевые расходы являются результатом граничных решений. То есть, огра- ничение бюджета семьи и предпочтения таковы, что оптимальные доли бюджета на алкоголь и табак, которые определяются условиями первого порядка, при отсутствии ограничения неотрицательности, были бы отрицательными. Как следствие, оптимальными для семьи являются нулевые расходы, соответствующие граничному решению, которое не характеризуется обычными условиями первого порядка. Можно обсуждать, насколько такое предположение реалистично, и в этом пункте параграфа рассматриваются некоторые альтернати- вы модели тобит I. Альтернативами являются просто МНК для положительных наблюдений, возможно объединенный с моделью бинарного выбора, с помощью которой объясняется, являются рас- ходы положительными или нет, и объединенная модель тобит II, которая моделирует расходы долей семейного бюджета совместно с бинарным решением, потреблять или нет. Очевидно, что можно подумать о других причинах, кроме под- разумеваемых в тобит-модели, почему в семьях не потребляют табак
7.4. Обобщения тобит-моделей 353 или алкоголь. Например, по социальным причинам или по причи- нам здоровья многие некурящие не курили бы, даже если бы табак был доступен бесплатно. Это подразумевает, что, наблюдаем мы или нет, нулевые расходы можно определить совершенно независимо от общих сумм расходов тех семей, которые потребляют этот товар. Возможно, что некоторые предметы потребления подлежат воздер- жанию26^. Имея это в виду, мы можем рассмотреть альтернатив- ные спецификации для тобит-модели. Первая альтернатива очень проста и предполагает, что воздержание определяется случайным образом в том смысле, что ненаблюдаемые значения, которые опре- деляют расходы долей семейного бюджета, не зависят от решения потреблять или нет. Если это так, то мы можем специфицировать просто кривую Энгеля, которая правомерна для людей, которые не воздерживаются и игнорируют решение воздержания. Она поз- волила бы нам оценить эластичность общих расходов для людей, которые имеют положительные расходы доли семейного бюджета, но не позволила бы нам проанализировать возможные эффекты, возникающие вследствие изменяющегося состава населения с по- ложительными значениями расходов. Статистически, это означает, что мы можем оценить кривую Энгеля просто обычным МНК, но используя только те наблюдения, которые имеют положительные расходы. Результаты такого оценивания представлены в таблице 7.5. По сравнению с результатами для тобит-модели, представленными в таблице 7.4, удивительно, что коэффициент при логарифме общих расходов в кривой Энгеля для алкоголя является отрицательным и статистически не значимо отличается от нуля. Оценивание эластич- ностей общих расходов, которые определяются выражением G.58), на основе результатов МНК-оценивания приводит к значениям 0,923 и 0,177 для алкоголя и табака соответственно. Эластичности, основанные на МНК-оценках, правомерны, если воздержание определяется на основе наблюдаемых переменных мо- дели, а не на основе ненаблюдаемых переменных, которые улавли- ваются остатком. Кроме того, эластичности являются условными по тому факту, что семья имеет положительные расходы. Чтобы понять, каковы причины потребления или непотребления семьями этих двух товаров, мы можем использовать модель бинарного вы- бора, самой очевидной версией которой является пробит-модель. Некоторые авторы относят эти товары к «вредным
354 7. Модели с ограниченными зависимыми переменными Таблица 7.5. Модели долей семейного бюджета, расходуемых на алкоголь и табак, оцененных МНК с использованием только положительных наблюдений Переменная константа возрастная группа число взрослых число детей в возрасте не менее 2 лет число детей меньше 2 лет log а; возрастная группа х logx число взрослых х logx Алкогольные напитки Оценка 0,0527 0,0078 -0,0131 -0,0020 -0,0024 -0,0023 -0,0004 0,0008 Ст. ош. @,0439) @,0110) @,0163) @,0006) @,0023) @,0032) @,0008) @,0012) R2 = 0,051 s = 0,0215 N = 2258 Табак Оценка 0,4897 -0,0315 -0,0130 0,0013 -0,0034 -0,0336 0,0022 0,0011 Ст. ош. @,0741) @,0206) @,0324) @,0011) @,0045) @,0055) @,0015) @,0023) Я2 = 0,154 s = 0,0291 N = 1036 Если все нулевые расходы объясняются воздержанием, а не гранич- ными решениями, то пробит-модель должна включать переменные, которые определяют предпочтение, и не должна включать пере- менные, которые определяют ограничение семейного бюджета. Это так, поскольку в этом случае изменения в ограничениях семейного бюджета никогда не будут побуждать семью начать потреблять ал- коголь или табак. Тогда подразумевалось бы, что общие расходы и относительные цены не должны включаться в пробит-модель. При отсутствии вариации в ценах по семьям, общие расходы являются очевидной кандидатурой на исключение из пробит-модели. Однако представляется, что уровень образования является важным пока- зателем воздержания от алкоголя или табака, и, к сожалению, в
7.4. Обобщения тобит-моделей 355 нашей выборке никакой информации об образовании не имеется. Причина, по которой, несмотря на нашу оговорку, мы включаем общие расходы в пробит-модель, состоит в том, что мы думаем об общих расходах как о приближенном заменителе уровня образова- ния, социального статуса или других переменных, которые влияют на предпочтение семьи. В дополнение к переменным, включенным в кривую Энгеля, модель для воздержания также включает две фик- тивных переменные для рабочих и служащих К Предполагается, что эти две фиктивные переменные не влияют на расходы доли се- мейного бюджета на алкоголь и табак, а влияют только на решение, потреблять или нет. Как любое ограничение исключения влияния, это обстоятельство также можно обсуждать, и мы возвратимся к этой проблеме ниже, оценивая объединенную модель для расходов долей семейного бюджета и воздержания. Результаты оценивания для этих двух пробит-моделей представ- лены в таблице 7.6. По-видимому, для объяснения воздержания от алкогольных напитков статистически значимы общие расходы, число взрослых в семье, а также число детей в возрасте не менее двух лет. Для воздержания от табака статистически важными объясняющи- ми переменными являются общие расходы, число детей в возрасте не менее двух лет, возраст и принадлежность к рабочим. Чтобы проиллюстрировать результаты оценивания, рассмотрим семью, со- стоящую из двух взрослых, главы семьи, являющимся 35-летним рабочим, и двух детей в возрасте не менее двух лет. Если для приме- ра общие расходы такой семьи равны общему выборочному среднему, то предполагаемые оцененные вероятности положительных расходов долей семейного бюджета на алкоголь и табак равняются 86,8% и 51,7% соответственно. Увеличение общих расходов на 10% изменяет эти вероятности только незначительно до 88,5% и 50,4%. Предполагая, что спецификации кривой Энгеля и модели воз- держания корректны, результаты оценивания, представленные в таблицах 7.5 и 7.6, приемлемы при условии, что остаток в пробит- модели независим от остатка в кривой Энгеля. Наличие корреляция между этими остатками делает результаты МНК неправомерными, и тогда была бы более уместна модель тобит II. Выражаясь иначе, две модели уравнений, которые были оценены, являются частным Исключенная категория (группа начального (нулевого) отсчета) включает экономически не активное население и людей, занятых собственным бизнесом.
356 7. Модели с ограниченными зависимыми переменными Таблица 7.6. Лробит-модели для воздержания от алкоголя и табака Переменная константа возрастная группа число взрослых число детей в возрасте не менее 2 лет число детей меньше 2 лет logx возрастная группа х logx число взрослых х logx рабочие служащие Логарифм правдоподобия Тест Вальда (хэ) Алкогольные напитки Оценка -15,882 0,6679 2,2554 -0,0770 -0,1857 1,2355 -0,0448 -0,1688 -0,0612 0,0506 Ст. ош. B,574) @,6520) A,0250) @,0372) @,1408) @,1913) @,0485) @,0743) @,0978) @,0847) -1159,865 173,18 (р = 0,000) Табак Оценка 8,244 -2,4830 0,4852 0,0813 -0,2117 -0,6321 0,1747 -0,0253 0,2064 0,0215 Ст. ош. B,211) @,5596) @,8717) @,0308) @,1236) @,1632) @,0413) @,0629) @,0834) @,0694) -1754,886 108,91 (р = 0,000) случаем модели тобит II, в которой остатки в соответствующих урав- нениях являются некоррелированными. Наличие ненулевой корре- ляции можно протестировать, если мы оценим более общую модель. Как обсуждалось выше, для модели тобит II очень важно, какие переменные включены в каждое из этих двух уравнений. Если в оба уравнения включаются одни и те же переменные, то модель является идентифицируемой только при предположении нормально- сти, которое налагается на остатки28'. Как правило, такая ситуация Чтобы увидеть это, отметим, что вид функции Л определяется предположени- ями о распределении регрессионного остатка. См. обсуждение в параграфе 7.5 ниже.
7.4. Обобщения тобит-моделей 357 рассматривается как нежелательная. Исключение переменных из модели воздержания не решает эту проблему. Вместо этого в модель воздержания желательно включить переменные, относительно кото- рых мы уверены, что они не определяют расходы семейного бюджета непосредственно. Проблема поиска таких переменных аналогична проблеме поиска соответствующих инструментальных переменных по отношению к эндогенным регрессорам (см. главу 5), и нам сле- дует быть одинаково критичными и осторожными при их выборе; наши результаты оценивания будут критически зависеть от выбо- ра, который мы сделаем. В вышеупомянутой модели воздержания фиктивные переменные принадлежности к рабочим или служащим включались для обсуждения их роли. Если мы уверены, что эти пе- ременные не влияют на расходы доли семейного бюджета непосред- ственно, то оценивание модели тобит II может быть правомочным. Используя двухшаговую процедуру оценивания, которая пред- ложена Хекманом (Heckman, 1979), мы можем повторно оценить эти две кривые Энгеля, принимая во внимание проблему выборочной селективности, обусловленную возможной эндогенностью решения о воздержании. Результаты такого оценивания представлены в таб- лице 7.7, и для оценивания применен МНК, но стандартные ошибки скорректированы с учетом гетероскедастичности и ошибки в оцени- вании Л. Для алкогольных напитков включение Л не очень сильно повлияло на результаты, и мы получили оценки, которые доста- точно близки к тем, которые представлены в таблице 7.5. Значение t-статистики для коэффициента Л не дает оснований для отклонения нулевой гипотезы об отсутствии корреляции, поскольку результаты оценивания говорят, что оцененный коэффициент корреляции (вы- численный как отношение коэффициента Л и среднеквадратичного отклонения остатка Э\) равен только —0,01. Вычисление таких коэф- фициентов корреляции важно, поскольку двухшаговый метод может легко повлечь за собой корреляции вне интервала [—1, 1], указывая, что модель тобит II, возможно, неправомерна, или что некоторые ограничения исключения неуместны. Отметим, что эти результаты оценивания означают, что общие расходы имеют значимое влияние на вероятность наличия положительных расходов на алкоголь, но значимо не влияют на расходуемую на это долю семейного бюджета. С другой стороны, для табака мы действительно нашли значимое влияние члена Л, связанного с выборочной селективностью, и соот- ветствующий оцененный коэффициент корреляции, равный —0,31.
358 7. Модели с ограниченными зависимыми переменными Таблица 7.7. Двухшаговое оценивание кривых Энгеля для алкоголя и табака (модель тобит II) Переменная константа возрастная группа число взрослых число детей возраста не менее 2 лет число детей меньше 2 лет logx возрастная группа х log х число взрослых х logx А Эх р Алкогольные напитки Оценка 0,0543 0,0077 -0,0133 -0,0020 -0,0024 -0,0024 -0,0004 -0,0008 -0,002 0,0215 -0,01 Ст. ош. @,0487) @,0110) @,0166) @,0006) @,0023) @,0035) @,0008) @,0012) @,0028) не вычислено не вычислено N = 2258 Табак Оценка 0,4516 -0,0173 -0,0174 0,0008 -0,0021 -0,0301 0,0012 -0,0041 -0,009 0,0291 -0,31 Ст. ош. @,0735) @,0206) @,0318) @,0010) @,0045) @,0055) @,015) @,0023) @,0026) N = 1036 Однако представляется, что качественно эти результаты не очень отличаются от результатов в таблице 7.5. Отрицательный коэф- фициент корреляции указывает на существование ненаблюдаемых характеристик, которые положительно влияют на решение курить, но отрицательно влияют на долю семейного бюджета, расходуемую на табак. И, наконец, мы вычислили эластичности общих расходов алкоголя и табака на основе результатов оценивания, представлен- ных в таблице 7.7. Применив для этого, как и ранее, аналогичные
7.5. Смещение, обусловленное выборочной селективностью 359 вычисления, мы получили оцененные эластичности, равные 0,920 и 0,243 соответственно. Очевидно, и не удивительно, что табак являет- ся предметом первой необходимости для тех, кто курит. Фактически, расходы на табак близки к неэластичным. 7.5. Смещение, обусловленное выборочной селективностью Если выборка, используемая в статистическом анализе, не извле- кается случайным образом из генеральной совокупности, то может возникнуть так называемое «селективное смещение». То есть, стан- дартные оценки и тесты могут привести к ложным выводам. По- скольку существует много таких ситуаций, и в таких случаях модель тобит II не обязательно предоставляет адекватное решение, то же- лательно некоторое дополнительное обсуждение этой проблемы. На общем уровне мы можем сказать, что селективное смещение возникает, если вероятность включения в выборку отдельного наблюде- ния зависит от феномена, который мы можем объяснить. Есть множе- ство причин, почему может происходить такое. Во-первых, это могло бы быть обусловлено схемой выборочного обследования. Например, если бы Вы брали интервью у людей в университетском ресторане и спросили, как часто они его посещают, то те, которые приходят туда каждый день, намного более вероятно оказались бы в выборке, чем те, которые посещают его раз в две недели. Во-вторых, к селективному смещению может приводить феномен «отказа от ответа». Напри- мер, люди, которые отказываются сообщить о своем доходе, как пра- вило, имеют относительно высокий или относительно низкий уровень дохода. В-третьих, это обстоятельство могло бы быть обусловлено са- мопроизвольным выбором своих экономических характеристик. То есть, индивидуумы сами выбирают себе определенное состояние, например, рабочий, член профсоюза, работа в государственном сек- торе, неслучайным образом на основе экономических аргументов. В общем, те, кто извлекает наибольшую выгоду из выбора опреде- ленного состояния, более вероятно, будут в этом состоянии. 7.5.1. Природа проблемы выборочной селективности Предположим, что мы интересуемся условным распределением пе- ременной yi при заданных значениях других (экзогенных) перемен-
360 7. Модели с ограниченными зависимыми переменными ных в векторе Xi, то есть, f(yi\xi). Обычно мы формулируем его как функцию ограниченного числа параметров и заинтересованы в оценке этих параметров. Факт попадания в выборку (селективность) обозначается фиктивной переменной Г{ так, что yi и Х{ наблюдаются, если Ti — 1, и либо yi, либо одновременно и yi и Xi не наблюдаемы, если гi = 0. Все выводы, игнорирующие правило селекции являются (неяв- но) условными по Т{ — 1. Однако, нас интересует условное распре- деление yi для данного х^, а не при условии Г{ — 1. Таким образом, мы можем сказать, что правило селекции наблюдений является иг- норируемым (Rubin, 1976; Little and Rubin, 1987), если наложение этого условия не оказывает никакого влияния на исход процесса. То есть, если f(Vi\xi, n = 1) = f(yi\xi). G.86) Если нас интересует только условное математическое ожидание yi для данного а^, то мы можем ослабить соотношение G.86) до соот- ношения Е{У{\Хг,П = 1}=Е{уг\Хг}. G.87) Утверждение, которое эквивалентно соотношению G.86), есть Р{гг = l\Xi, уг} = Р{гг = 1|хг}, G.88) которое говорит, что вероятность включения наблюдения в выборку не должна зависеть от у^ при условии, что она зависит от перемен- ных вектора Х{. Это уже показывает некоторые важные результаты. Прежде всего, селективное смещение не возникает, если селекция зависит только от экзогенных переменных. Таким образом, если мы оцениваем уравнение заработной платы, которое в правой части содержит переменную семейного положения, то не имеет никакого значения, если более вероятно, что люди, состоящие в браке, выйдут из выборки, чем люди, не состоящие в браке. На более общем уровне из этого следует, что решение проблемы существования селективно- го смещения зависит от интересующего нас распределения. Если правило селекции неигнорируемое, то при получении выводов его следует принимать во внимание. Как подчеркивалось в статье (Manski, 1989), в этом случае возникает фундаментальная проблема идентифицируемости. Чтобы увидеть это, отметим, что E{yi\Xi) = E{yi\Xi, Г{ = 1}Р{п = l\Xi} + + E{yi\xi, гг = 0}P{n = 0\хг}. G.89)
7.5. Смещение, обусловленное выборочной селективностью 361 Если значения Х{ наблюдаются, несмотря на т^, то вероятность, что Гг — 1. можно идентифицировать как функцию от Х{ (например, используя модель бинарного выбора). Таким образом, Р{т{ = \\xi\ и Р{т{ — 0|хг} можно идентифицировать, и тогда E{i/i\xi,ri = 1} также идентифицируемо по селективной выборке. Однако посколь- ку относительно E{yi\xi,ri = 0} никакой информации данными не предоставляется, то без дополнительной информации или принятия дополнительных (нетестируемых) предположений, E{yi\xi} иденти- фицировать невозможно. Как отмечалось в статье (Manski, 1989), при отсутствии априорной информации проблема, связанная с се- лективностью выборки, является фатальной для получения вывода О Е{уг\Хг}. Если можно ограничить диапазон возможных значений E{yi\x{, гi — 0}, то для E{yi\xi} можно определить границы, что может оказаться полезным. Чтобы проиллюстрировать это, предположим, что нас интересует безусловное распределение yi (значит, никакие переменные вектора Х{ не фигурируют), и бывает, мы знаем, что это распределение нормально с неизвестным средним \i и дисперсией, равной единице. Если 10% наблюдений отсутствуют, то самые экстре- мальные случаи возникают, когда все эти 10% наблюдений находятся в левом или в правом хвосте распределения. Используя свойства усе- ченного нормального распределения29', можно получить, что -1,75 <%|гг-0}< 1,75, так что 0,9Е{Уг\гг = 1} - 0,175 < Е{уг} < 0,9Е{уг\гг = 1} + 0,175, где E{yi\ri = 1} можно оценить выборочным средним по селек- тивной выборке. Таким образом, мы можем оценить верхнюю и нижнюю границы для безусловного среднего значения Уг, не делая никаких предположений относительно правила селекции выборки. Цена, которую мы платим за это, состоит в необходимости делать предположения о форме распределения у^, которые не являются те- стируемыми. Если нам интересны другие аспекты распределения у^ для данного вектора Х{, а не среднее значение этого распределения, то такие предположения могут не потребоваться. Например, если мы интересуемся медианой распределения, то мы можем получить Для стандартной нормальной переменной у справедливо, что Р{у > 1,28} = 0,10 и Е{у\у > 1,28} = <£A,28)/0,10 = 1,75 (см. Приложение Б).
362 7. Модели с ограниченными зависимыми переменными ее верхнюю й нижнюю границы из вероятности отбора элементов в выборку, не делая никаких предположений о виде распределения 30'. В работах (Manski, 1989, 1994) описаны дополнительные подробно- сти и представлено обсуждение таких проблем. Более общий подход в прикладной работе налагает дополни- тельную структуру на проблему, чтобы идентифицировать интере- сующие нас величины. Пусть E{yi\xi} = gi(xi) G.90) и E{yi\xu n = l} = gi(xi) + g2{xi), G.91) которые не связаны ограничениями, пока мы не делаем никаких предположений о функциях д\ и #2- Предположения о виде функ- ций д\ и 52 требуются, чтобы идентифицировать функцию <?i, которой мы интересуемся. Самое общее предположение — это пред- положение единственного показателя, которое состоит в том, что ^2 зависит от Xi только через некоторый единственный показатель, например, х'ф. Этот показатель часто интерпретируется как латент- ная переменная: Уг = 9i(xi) +eu, G.92) г;=х'& + е2ь G.93) гi — 1, если г* > 0; гi = 0 в противном случае, G.94) где Е{ец\хг} — 0 и £2г не зависит от Xi. Тогда справедливо, что Е{Уг\хг, п = 1} = gi(xi) + Е{еи\е2г > -х'М, G.95) где последний член зависит от Х{ только через единственный индекс х[02. Таким образом, мы можем написать Е{Уг\хг, п = 1} = gi(Xi) + g*2(xM, G.96) для некоторой функции д^. Поскольку /?2 можно идентифициро- вать с учетом знания процесса селекции выборки, при условии, что наблюдения относительно Xi доступны независимо от г г, то иденти- фикация д\ достигается с помощью предположения, что эта функция Вспомним, что медиана случайной переменной у определяется как значение га, для которой Р{у < га} = 0,5 (см. Приложение Б). Если 10% наблюдений отсутствуют, то мы знаем, что га находится между (теоретическими) 40%-ым и 60%-ым квантилями наблюдаемого распределения. То есть, rai < га < ГП2, с Р{у < rai|r = 1} = 0,4 и Р{у < т2\г = 1} = 0,6.
7.5. Смещение, обусловленное выборочной селективностью 363 не зависит от одной или более компонент вектора Х{ (хотя эти ком- поненты имеют ненулевые коэффициенты в /Зг). Это означает, что на функцию д\ наложены исключающие ограничения. Из выражения G.70) легко заметить, что тобит-модель II явля- ется частным случаем вышеупомянутой структуры, где д\ (xi) = х[/3, а функция #2 задается в виде о\2ф{х\Р<1) j^{х'фъ). Предположение, что E\i и 82% являются независимо и одинаково распределенными, имеющими совместное нормальное распределение, приводит к виду функции #2- Кроме того, ограничение, что д\ является линейной функцией (в то время как д% нет), означает, что модель идентифи- цируется даже при отсутствии исключающих ограничений на функ- цию д\(xi). Хотя практически из наложенных нулевых ограничений на вектор параметров C для эмпирической идентификации можно извлечь выгоду. Если распределение ец и E2i не является нормаль- ным, то выражение G.96) все еще правомерно, и это используется во многих полупараметрических оценках модели с ограничениями при формировании выборки. 7.5.2. Полупараметрическое оценивание модели с ограничениями при формировании выборки Хотя в рамках этого текста нет возможности полностью обсудить полупараметрические оценки для моделей с ограниченными зависи- мыми переменными, в этом пункте параграфа мы проведем неко- торое обсуждение этого вопроса на интуитивном уровне. Наряду с тем, что для получения полу параметрических оценок предполо- жение о совместном нормальном распределении остатков ец и 82% ослабляется, в общем, сохраняется предположение «единственного показателя». То есть, условное математическое ожидание остатка ец при условии заданного правила селекции выборки (и при условии эк- зогенных переменных) зависит от объясняющих переменных вектора Xi только через единственный показатель х'ф2- Это требует, чтобы мы могли моделировать процесс выбора довольно однородным обра- зом. Если наблюдения отсутствуют по разнообразным причинам, то предположение о единственном показателе, возможно, уже не будет приемлемым. Например, индивидуумы, которые не имеют работы, возможно, не работают, потому что их заработная плата сохране- ния работы оценивается слишком высокой (аргумент со стороны предложения), как в стандартной модели, но также и потому что предприниматели не интересуются их наймом (аргумент со стороны
364 7. Модели с ограниченными зависимыми переменными спроса). Эти два процесса не обязательно хорошо описываются с помощью модели единственного показателя. Другое критическое предположение во всех полупараметриче- ских подходах состоит в том, что существует, по крайней мере, одна переменная, которая входит в уравнение выбора (ж^), и которая не входит в интересующее нас уравнение gi(xi). Это означает, что мы нуждаемся в исключающем ограничении для функции #1? что- бы идентифицировать модель. Это очевидно, поскольку мы никогда не были бы в состоянии отделить функцию д\ от функции д2, ес- ли обе зависят от одной и той же совокупности переменных и не накладывается никаких ограничений на вид функции. Поскольку константу в функции д\ нельзя отличить от константы в функции д2 •> то постоянный член в модели идентифицироваться не будет, что не является проблемой, если свободный член нас не интересует. Если свободный член в функции д\ представляет интерес, то его можно оценить (Heckman, 1990; Andrews, Schafgans, 1998) из наблюдений, для которых известно, что они должны иметь значения функции д*2 близкие к нулю (индивидуумы, которые имеют высокие значения для единственного показателя х'ф2)- Большинство полупараметрических оценок являются двухшаго- выми оценками, точно так же как у Хекмана (Heckman, 1979). На пер- вом шаге параметр единственного показателя /?2 оценивается полупа- раметрически, то есть, без наложения специфического условия на вид распределения остатка 62% • Из этого строится оценка для единствен- ного показателя так, чтобы на втором шаге неизвестная функция д2 оценивалась одновременно с функцией д\ (обычно постулируя не- который общий вид функции <?i, к^к например, линейный). Простой способ аппроксимировать неизвестную функцию д^хфъ) состоит в применении аппроксимации некоторым рядом, например, полиномом от единственного показателя х'$2 • Альтернативный подход основан на исключении функции д2 (ж^/Зг) из модели с помощью рассмотрения раз- ностей между наблюдениями, которые имеют близкие значения х'фъ • Все полупараметрические методы включают некоторые допол- нительные условия регулярности и предположения. Обзор альтерна- тивных методов оценивания для модели при селективности выборки, на интуитивном уровне, представлен в статье (Vella, 1998). Более по- дробное описание предоставлено в книге (Pagan, Ullah, 1999). Эмпи- рическая реализация приложений обычно проводится не напрямую; см. (Newey, Powell, Walker, 1990) или (Melenberg, van Soest, 1993).
Упражнения 365 Упражнения Упражнение 7.1 (модели бинарного выбора) Имея выборку из 600 женщин, состоящих в браке, мы интересуемся объяснением их участия на рынке труда с помощью экзогенных характеристик в векторе Х{ (возраст, состав семьи, образование). Пусть yi = 1, если женщина i имею оплачиваемую работу и у\ — 0 в противном случае. Предположим, что мы оцениваем линейную модель регрессии Уг = х'ф + Si обычным МНК. а. Приведите две причины, почему соответствующая модель нере- алистична. В качестве альтернативы мы могли бы моделировать решение работать с помощью пробит-модели. б. Объясните пробит-модель. в. Приведите выражение для логарифмической функции правдо- подобия пробит-модели. г. Как бы вы интерпретировали положительный коэффициент в векторе /3 при компоненте «образование» в пробит-модели? д. Предположим, что вы рассматриваете женщину со значением х'ф — 2. Каково ваше прогнозирование ее трудового статуса на рынке у{1 Почему? е. В какой степени логит-модель отличается от пробит-модели? Теперь предположите, что мы имеем выборку из женщин, ко- торые не работают (yi — 0), работают неполный рабочий день {yi — 1), или работают полный рабочий день (yi = 2). ук. Уместно ли в этом случае, специфицировать линейную модель в виде yi = х'ф + Si? з. Какую альтернативную модель можно применить вместо ли- нейной модели п. ж, которая использует информацию, содер- жавшуюся в работе с неполным рабочем днем по сравнению с работой полный рабочий день? и. Как бы вы интерпретировали положительный коэффициент в векторе /3 для образования в этой последней модели? к. Уместно ли объединить два исхода yi = 1 и yi — 2 и оценить модель бинарного выбора? Почему да или нет?
366 7. Модели с ограниченными зависимыми переменными Упражнение 7.2 (пробит и тобит модели) Чтобы прогнозировать спрос на свой новый инвестиционный фонд, банк интересуется вопросом, инвестируют ли люди часть своих сбережений в рисковые активы. С этой целью сформулирована тобит-модель следующего вида где Xi2 обозначает возраст человека, х^з обозначает доход и сумму сбережений, которые инвестируются в рисковые активы. Модель задается соотношением Уг = У*, если у*>0, Hi = 0 в противном случае. Предполагается, что ei есть НОНР@, а2) и не зависит от всех объ- ясняющих переменных. Первоначально, банк интересуется только вопросом, вкладыва- ет ли человек свой капитал в рисковые активы, что обозначается дискретной переменной di, которая удовлетворяет di — 1, если у* > О, di = 0 в противном случае. а. Получите выражение для вероятности, что di — 1, в виде функ- ции от Xi — A, х^2, эаз)' в соответствии с приведенной выше моделью. б. Покажите, что модель, которая описывает di, является пробит- моделью с коэффициентами 71 = Pi/v, 72 = /W0"? 7з = Ps/^- в. Напишите логарифмическую функцию правдоподобия log LG) пробит-модели для di. Каковы общие свойства оценки макси- мального правдоподобия 7 Для 7 — Gъ 72, 7з)'? г. Приведите общее выражение для асимптотической ковариаци- онной матрицы ММП-оценки. Опишите, как ее можно оценить в данном приложении. д. Напишите условие первого порядка относительно 71 и исполь- зуйте его для определения обобщенного остатка пробит-модели. е. Опишите, как обобщенный остаток можно использовать для те- стирования гипотезы, что пол человека не влияет на вероятность инвестирования в рисковые активы. (Сначала сформулируйте гипотезу, а затем опишите, как можно вычислить критическую
Упражнения 367 статистику и, каково соответствующее распределение или кри- тические значения.) К какому классу принадлежит этот тест? ж. Объясните, почему невозможно идентифицировать а2, исполь- зуя информацию только относительно di и xi (как в пробит- модели). з. Возможно ли оценить /3 = (/?i, fo, РзУ и а2 для тобит-модели (используя информацию относительно yi)l Напишите логариф- мическую функцию правдоподобия этой модели. и. Предположим, что мы интересуемся гипотезой, состоящей в том, что возраст не влияет на сумму рисковых сбережений. Сформулируйте математически эту гипотезу. Объясните, как эту гипотезу можно протестировать, используя критерий отно- шения правдоподобия. к. Также возможно протестировать гипотезу из п. и на основе результатов пробит-модели. Почему вы предпочли бы тест, ис- пользуя результаты тобит-модели? Упражнение 7.3 (тобит-модели — эмпирические) Рассмотрим данные, используемые впп.7.3.3и7.4.4 при оценивании кривых Энгеля для алкогольных напитков и табака. В статье (Banks, Blundell, Lewbel, 1997) предлагается так называемая «квадратичная почти идеальная система спроса», которая подразумевает квадра- тичные кривые Энгеля вида Wji = Oiji + fiji log Xi + <yji log2 Xi + Sji. Этот вид функций имеет хорошее свойство, которое позволяет то- варам быть предметами роскоши при низких уровнях дохода, в то время как они могут стать предметами первой необходимости при более высоких уровнях дохода (при общих расходах). Отвечая на следующие вопросы, используйте данные из TOBACCO. а. Снова оцените стандартную тобит-модель для алкоголяиз п. 7.3.3. Назовите эту модель моделью А. Проверьте, что ваши резуль- таты такие же, как в тексте. б. Расширьте модель, включив квадрат логарифма общих расхо- дов, и оцените эту модель с помощью ММП. в. Протестируйте, нужно ли включать в модель квадратный член, используя для этого тест Вальда и тест отношения правдоподо- бия.
368 7. Модели с ограниченными зависимыми переменными г. Вычислите обобщенный остаток для модели А. Проверьте, что он имеет нулевое среднее. д. Вычислите обобщенный остаток второго порядка для модели А, как определено в выражении G.60). Проверьте, что он также имеет нулевое среднее. е. Реализуйте тест множителей Лагранжа в модели для проверки гипотезы, что квадратный член log x является статистически незначимым. ж. Выполните МЛ-тест на наличие в модели А гетероскедастично- сти, обусловленной возрастом и числом взрослых. з. Протестируйте на нормальность модель А. Упражнение 7Л (тобит-модели) Один из ведущих университетов требует от всех абитуриентов, ко- торые подали заявления на прием, чтобы они сдали вступительный экзамен. Абитуриентов, которые получают менее 100 баллов, в уни- верситет не принимают. Для абитуриентов, которые получают свыше 100 баллов, баллы регистрируются, после чего из этой группы уни- верситет выбирает абитуриентов для приема в университет. У нас имеется выборка из 500 потенциальных студентов, которые сдавали свои вступительные экзамены в 1996 году. Для каждого студента мы имеем результат экзамена в виде: — «отклонен», если меньше 100 баллов, или — баллы, если они равны 100 или больше. Кроме того, мы наблюдаем дополнительные характеристики каж- дого кандидата в студенты, включая образование родителей, пол и среднюю оценку в средней школе. Декан интересуется соотношением, связывающим эти дополни- тельные характеристики с баллами на вступительном экзамене. Он специфицирует следующую модель у* = А) + *</?1 + eu Si ~ Я ОЯ Р@, а2), Vi = y*, если у* > 100; = «отклонен», если у* < 100, где yi — наблюдаемые баллы абитуриента г, а Х{ вектор дополни- тельных характеристик (исключая свободный член). а. Покажите, что приведенную выше модель можно написатьв виде стандартной тобит-модели (модели тобит I).
Упражнения 369 б. Сначала декан строит регрессию yi no xi и константе (с помощью МНК), используя наблюдаемые баллы от 100 и выше (yi > 100). Покажите, что этот подход не приводит к состоятельным или несмещенным оценкам для вектора неизвестных параметров /?i. в. Объяснить подробно, как можно оценить состоятельно вектор параметров C — (/?о, /3[У, используя только наблюдаемые баллы. г. Объясните, как вы оценили бы эту модель, используя все на- блюдения. Почему эта оценка предпочтительнее оценки из п. в? (Никаких доказательств или выкладок не требуется.) д. Декан рассматривает спецификацию модели тобит II (модель с выборочной селективностью). Опишите эту модель. Действи- тельно ли эта модель подходит для решения вышеупомянутой проблемы?
8 Одномерные модели временных рядов Одна из целей анализа экономических данных состоит в предска- зании или прогнозировании будущих значений экономических пере- менных. Один из подходов в достижении этой цели заключается в том, чтобы построить более или менее структурированную экономет- рическую модель, описывающую соотношение связывающее интере- сующую нас переменную с другими экономическими переменными, оценить эту модель, используя данные выборки, и применить ее в качестве основы для прогнозирования и вывода. Хотя этот подход привлекателен тем, что позволяет дать экономическую интерпре- тацию предсказаниям, он не всегда оказывается практически по- лезным. Например, можно адекватно смоделировать одновременное соотношение между безработицей и уровнем инфляции, «привязан- ными» к одному и тому же моменту времени, но пока мы не сможем предсказать будущие темпы инфляции, мы также не способны про- гнозировать будущую безработицу. В этой главе мы последуем по другому пути, применяя подход «чисто временного ряда». В этом подходе текущие значения эко- номической переменной связаны с ее прошлыми значениями (либо напрямую, либо косвенно). Для прогнозирования будущих значе- ний переменной используется информация только о прошлых зна- чениях этой переменной. Кроме того, для построения прогнозов модели временного ряда также оперируют с распределениями буду-
Одномерные модели временных рядов 371 щих значений, условными по прошлому, и тогда эти распределения можно применить для оценивания правдоподобности определенных событий. В этой главе мы обсудим класс так называемых моделей АРПСС, которые разработаны для моделирования поведения временного ря- да. В параграфах 8.1 и 8.2 мы проанализируем свойства этих моделей и их взаимосвязь. Важной проблемой является проблема стационар- ности процесса временного ряда, которая подразумевает, что рас- пределение интересующей нас переменной не зависит от времени. Нестационарность может проявляться по-разному, но важным ее признаком является наличие так называемых единичных корней. В параграфах 8.3 и 8.4 обсуждается проблема наличия единичных корней и тестирование нестационарности этого типа, в то время как в параграфе 8.5 приводится эмпирический пример, касающийся обменных курсов валют и рыночных цен. В параграфе 8.6 обсуж- дается оценивание параметров статистических моделей, тогда как в параграфе 8.7 объясняется процесс выбора подходящей модели АРПСС. В параграфе 8.8 демонстрируется, как полученную в ре- зультате оценивания одномерную модель временного ряда можно применить для прогнозирования будущих значений экономической переменной. Чтобы проиллюстрировать использование таких про- гнозов в экономическом контексте, в параграфе 8.9 анализируется теория ожиданий в териминах структуры процентных ставок. И, на- конец, в параграфе 8.10 представлены авторегрессионные условно гетероскедастичные модели, которые объясняют дисперсию рядов (остаточных членов) по их предистории. Основополагающей работой по оцениванию и идентификации моделей АРПСС является монография Бокса и Дженкинса (Box and Jenkins, 1976)*). Дополнительные детали и обсуждение более свежих тем можно найти во многих учебниках по анализу временных рядов. Для экономистов особенно подходят Миллс (Mills, 1990), Эндерс (Enders, 1995) и Дайболд (Diebold, 1998). Превосходное изложение на более глубоком уровне предоставлено Гамильтоном (Hamilton, 1994). Русский перевод: Бокс Дсис., Дэюенкинс Г. Анализ временных рядов. Прогноз и управление. Вып. 1, 2. М.: Мир, 1974 (примеч. научн. ред. перевода).
372 8. Одномерные модели временных рядов 8.1. Введение В общем случае мы рассмотрим временной ряд наблюдений неко- торой переменной, например, уровень безработицы, обозначаемый Уг ? • • • ? Ут • Эти наблюдения будут рассматриваться как реализации случайных переменных, которые описываются некоторым стохасти- ческим процессом. Анализируемый ряд обладает свойствами этого стохастического процесса, который мы попытаемся описать относи- тельно простой моделью. Особенно важна взаимосвязь наблюдений, соответствующих разным периодам времени, для того, чтобы мы могли использовать динамические свойства ряда для предсказаний на будущие периоды времени. 8.1.1. Некоторые примеры Один из простых способов смоделировать зависимость между по- следовательными наблюдениями мог бы состоять в том, что Yt равняется постоянному среднему /i, плюс сумма случайной перемен- ной St и константы а, умноженной на ее значение, запаздывающее на один период, то есть, Yt = fJL + et + aet-u et ~ #OP@, a2), (8.1) где НОР@, а2), как и прежде, обозначает независимость и оди- наковую распределенность случайных величин (в данном случае £i, £2? • • •) с нулевым математическим ожиданием и дисперсией а2. Случайная переменная et не предсказуема из предыстории процесса, и поэтому не зависит от 1^-1,^-2, ••• • Процесс (8.1) называется процессом скользящего среднего (процессом СС): кроме средне- го /i, Y\ включает в себя взвешенное среднее Е\ и ео, ^2 — взвешенное среднее еъ и е\, и т. д. В частности, процесс (8.1) называется про- цессом скользящего среднего первого порядка или процессом ССA), поскольку максимальная длина лага равна единице. Величины Yt определяются в терминах ненаблюдаемых величин st, которые явля- ются независимо и идентично распределенными случайными пере- менными. Мы будем говорить о процессе et как о процессе белого шума. Если не указано иное, то в этой главе Et всегда будет таким процессом, который гомоскедастичен, и не обнаруживает никакой автокорреляции. Модель (8.1) является экономным способом описания процесса Yt с определенными свойствами. Таким образом, модель (8.1) под- разумевает ограничения на свойства временного ряда. В общем,
8.1. Введение 373 совместное распределение всех величин Yt характеризуется так на- зываемыми автоковариациями, ковариациями между Yt и одним из его лагов Yt-k- В случае процесса скользящего среднего ССA) мы имеем V{Yt} = E{(et + aet-iJ} = E{e2t} + а2Е{е2_1} = (а + а2)а2, cov {Yt, Yi_i} = E{{et + aet-i){et-i + aet-2)} = aE{e2_x} = aa2, cov {Yt, Yt-2} = E{(et + aet-i){et-2 + ае*-з)} = О, или, в общем, cov{Ft,Y(_fc} = 0 для к = 2,3,4,... . Следовательно, если мы рассматриваем Г-мерный вектор Y = (Y1,Y2,...,YT)', то его ковариационная матрица полностью описывается предполо- жениями модели (8.1). Таким образом, мы можем написать V{Y} = Е, где Е — ТхТ матрица с элементами cov {Yu Yi-fc} в позиции (£, t—k). Эта матрица на диагонали имеет элементы, равные A + а )а , и только ниже и выше диагонали — элементы, равные оса1 ^ тогда как остальные элементы равны нулю. Таким образом, простая структу- ра скользящего среднего подразумевает, что наблюдения, которые разделяются двумя или более тактами времени, являются некорре- лироваными. Возможно, что такая структура слишком ограничена, и нам захочется поискать более общие представления временного ряда. Обобщение модели (8.1) имеет вид Yt = V + Е aJSt-^ а° = !' £t ~ НОР{0, а2). (8.2) з=о Обычно веса оу в этом бесконечном суммировании будут уменьшать- ся при возрастании j и будут сходиться к нулю для «бесконечного» j. Это означает, что влияние прошлых значений et-j на настоящие зна- чения Yt становятся все более и более малыми. Например, мы могли бы предположить, что olj — Qi для некоторого #, \0\ < 1. (8.3) В этом случае справедливо, что оо Yt=li + Y,6*et-j. (8.4) 3=0
374 8. Одномерные модели временных рядов Поскольку мы можем также написать, что оо 3=0 то из этого следует, что оо оо Yt - QYt-i =v-0v + Yl eJ£*-J ~eYl eJ£t-J-i = j=0 j=0 oo oo = (л-вц + ^ Pet-j ~ J2 eJ£t~i =S + et> (8-5) 3=0 j=l где 6 = [i — 6/л. Таким образом, мы имеем выражение Yt = 6 + 6Yt-i + et, (8.6) которое, определив yt = Yt — /л, мы можем написать как yt = Oyt-i + eu et ~ ЯОР@, а2). (8.7) Процесс (8.7) называется процессом авторегрессии первого по- рядка или процессом АРA). Он говорит, что текущее значение yt рав- няется #, умноженное на его предыдущее значение, плюс непредска- зуемая компонента et- Мы видели процессы, подобные этому, ранее, когда обсуждали автокорреляцию (первого порядка) в линейной мо- дели регрессии. Запись моделей временных рядов в терминах yt, а не Yt, более удобна в обозначениях, и такую запись мы будем применять часто в этой главе. Ненулевые средние можно учесть добавлением в модель свободного члена, который для моделей скользящего средне- го соответствует среднему значению /i переменной Yt. Для моделей авторегрессии среднее значение является функцией свободного чле- на 6 и параметров модели АР. Напомним, что 1^C^} = V{yt}- Динамические свойства ряда yt можно определить, используя либо выражение (8.7), либо (8.4). Последнее выражение называет- ся представлением процесса авторегрессии процессом скользящего среднего: процесс АР (8.7) записывается как процесс С С бесконечно- го порядка. Как мы увидим, для некоторых целей одно представле- ние более удобно, чем другое. Выводы, основанные на представлении (8.7), являются несложными, если мы налагаем условие, что диспер- сии и автоковариации не зависят от индекса t. Это условие является так называемым предположением стационарности, и мы возвратим- ся к нему ниже. Записывая V{yt} = V{eyt-X + et} = 92V{yt--,} + V{et},
8.1. Введение 375 и накладывая условие V{yt} = V{yt-i}, мы получаем У{Ш) = -^Т2- (8-8) Из полученного в результате выражения ясно, что мы можем нало- жить условие V{yt} = V{t/t_i}, только если |0| < 1, как предполага- лось ранее. Кроме того, мы можем определить, что cov{yt,yt_i} = E{yt,yt-i) = E{@yt-i +et)yt-i] = 2 = eV{yt-1} = eT^¥, (8.9) и, вообще (для к = 1, 2, 3,...), cov{j/t,j/t-*} = 0fej-^2. (8.10) Следовательно, ковариационная матрица Е вектора у является пол- ной Т хТ матрицей (при условии, что в Ф 0). Элемент (s,t) этой матрицы равен cov{ys,yt} = e^-t^Y^. (8.11) Пока в не равно нулю, любые два наблюдения над yt имеют нену- левую корреляцию, и в то же время эта зависимость уменьшается (и, потенциально, может быть сколь угодно близкой к нулю), если наблюдения отстоят друг от друга все дальше и дальше. Заметим, что ковариация между yt и yt-k зависит только от /с, но не от t. Это отражает стационарность процесса. 8.1.2. Стационарность и автокорреляционная функция Стохастический процесс, как говорят, является строго стационар- ным, если на его свойства не влияет изменение начала отсчета времени; другими словами, на совместное распределение вероят- ностей вектора (у*1?у*2, ... ,ytk) ПРИ любом заданном множестве отсчетов времени ii, t<i, ..., tk не влияет произвольный сдвиг по оси времени. Это означает, что распределение у\ то же самое, что и для любого другого значения у^, а также, например, что ковариации между yt и yt-k для любого к не зависят от t. Обычно, мы будем рассматривать только средние, дисперсии и ковариации ряда, и до- статочно наложить условие, что от времени не зависят эти моменты, а не все распределение. Такое условие называется слабой стаци-
376 8. Одномерные модели временных рядов онарностью или ковариационной стационарностью*'. Формально, процесс {Yt} определяется как слабо стационарный, если для всех t справедливо: E{Yt) = ц < оо (8.12) V{Yt) = E{(Yt - /хJ} = 7о < оо (8.13) cov{Yt,Yt-k} = E{(Yt-n)(Yt-k-n)} = >yk, fc = 1,2,3,... . (8.14) В последующем термин «стационарность» употребляется для обо- значения «слабой стационарности». Условия (8.12) и (8.13) требуют, чтобы процесс имел постоянные конечные среднее и дисперсию, в то время как условие (8.14) утверждает, что автоковариации Yt, за- висят только от временного интервала между двумя наблюдениями. Таким образом, среднее, дисперсии и автоковариации не зависят от времени. Строгая стационарность является более сильным услови- ем г\ поскольку она требует, чтобы изменение временного горизонта не влияло на полное распределение, а не только на моменты первого и второго порядка. Очевидно, что совместное нормальное распре- деление полностью характеризуется моментами первого и второго порядка, поэтому в этом случае строгая и слабая стационарность эквивалентны. При условии ковариационной стационарности мы можем опре- делить автоковариацию к-го порядка 7fc • 7fc = cov {yu yt-k} = cov {yt, yt+k], (8.15) которая при к = 0 будет дисперсией yt. Так как автоковариации за- висимы от единиц, в которых измеряются переменные, то обычно их стандартизируют с помощью перехода к автокорреляциям pk как cov {yt,yt-k} 1к (Л Л Лч Рк = т// г = —• (8.15) Заметим, что ро = 1? в то время как — 1 < рь < 1. Автокорреляции, рассматриваемые как функции от fc, называются автокорреляци- онной функцией (АКФ) или, иногда, коррелограммой ряда yt. Автокорреляционная функция играет важную роль в моделировании зависимостей между наблюдениями, потому что она характеризует *^ Для определения такого типа стационарности используется также термин «стационарность в широком смысле» (примеч. научн. ред. перевода). ' Строгая стационарность, в частности не обязательно означает, что первые и вторые моменты конечны.
8.1. Введение 377 процесс, описывающий развитие yt с течением времени. Процесс yt описывается, помимо АКФ р&, своим средним и своей дисперсией 7о- Из АКФ мы можем сделать вывод о степени коррелированно- сти одной из величин процесса с предшествующими величинами, и, таким образом, продолжительность и силу памяти процесса. Авто- корреляционная функция показывает, как долго (и как сильно) «воз- мущение» процесса (et) влияет на значения yt. Для двух процессов, как мы видели выше, имеем следующее. Для процесса авторегрессии АРA) yt = 9yt-i +et мы имеем коэффициенты автокорреляции рк = е\ в то время как для процесса скользящего среднего ССA) yt = et + ocst-i мы имеем Pi а 1 + а2 и рк = 0, к = 2,3, 4,... . АРA)с а=0.9 -? I i i i i I i i i i I i i i i I i i i i I i i i i I i i i i I i i i i I i i i i I i i i i I i i i i I О 10 20 30 40 50 60 70 80 90 100 Время Теоретическая автокорреляционная функция: АРA), 0=0 5 i 11111 11111 11111 11111 11111 11111 i 0 10 20 30 40 50 60 70 80 90 100 Время Теоретическая автокорреляционная функция: АРA), 0=O.S 1 1ж^ 2 4 6 8 10 12 14 JI1JJI 10 12 14 Рисунок 8-1- Процессы авторегрессии первого порядка: ряды данных и автокорреляционные функции
378 8. Одномерные модели временных рядов Следовательйо, возмущение в процессе ССA) влияет на yt только в течение двух периодов, в то время как возмущение в процессе АРA) воздействует на все будущие наблюдения с убывающим эффектом. В качестве иллюстрации, мы сгенерировали несколько искус- ственных временных рядов в соответствии с процессом авторегрес- сии первого порядка, а также с процессом скользящего среднего первого порядка. Данные для смоделированных процессов АРA) с параметром #, равным 0,5 и 0,9, изображены на рисунке 8.1 сов- местно с их автокорреляционными функциями. Все ряды стандар- тизированы и имеют дисперсию, равную единице, и среднее, равное нулю. Если мы сравним ряды процесса АР с в = 0,5 и в = 0,9, то окажется, что последний процесс более гладкий, то есть, имеет более высокую степень инерции. Это означает, что, после возмущения для этого ряда требуется более длительный период, чтобы возвратиться к своему среднему значению. В обоих случаях автокорреляционные функции показывают экспоненциальное затухание, хотя для АКФ ряда с в = 0,9 требуются большие лаги, чтобы АКФ достигла нуля. ССA)с а=0.5 ССA)с а=0.9 •f I i i i i I i i i i I i i i i I i i i i I i i i i I i i i i I i i i i I i i i i I i i i i I i i i i I 0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 к к Теоретическая автокорреляционная функция: ССA), а=0.5 Теоретическая автокорреляционная функция: ССA), а=0 9 I 10 12 14 10 12 14 Рисунок 8.2. Процессы скользящего среднего первого порядка: ряды данных и автокорреляционные функции
8.2. Общие процессы авторегрессии-скользящего среднего (АРСС) 379 Например, после 15 периодов, эффект возмущения все еще равен 0,9 = 0,21 от его исходного эффекта. Для ряда с 9 = 0,5 эффект в лаге 15, фактически, нулевой. Данные и АКФ для двух смоделированных процессов скользя- щего среднего с a = 0,5 и a = 0,9 показаны на рисунке 8.2. Разница между этими двумя процессами менее явная, чем в случае процесса АР. Для обоих рядов возмущения имеют эффект только в двух последующих периодах. Это означает, что при отсутствии новых возмущений, ряды возвращаются к своим средним значениям после двух периодов. Коэффициенты автокорреляции первого порядка не отличаются намного, и равняются 0,40 и 0,50 соответственно. 8.2. Общие процессы авторегрессии-скользящего среднего (АРСС) 8.2.1. Формулировка процессов АРСС В этом разделе мы определим более общие процессы авторегрессии и скользящего среднего. Сначала мы определим процесс скользящего среднего порядка q или, кратко, процесс CC(q): yt = et + aiet-i + ... + aqet-q, (8.17) где et является процессом белого шума. Таким образом, наблюдае- мый ряд yt является взвешенной комбинацией q + 1 членов белого шума. Процесс авторегрессии порядка р, процесс АР(р), имеет вид Vt = 0iyt-i + 02yt-2 + ... + epyt-p + et. (8.18) Очевидно, что спецификации авторегрессии и скользящего средне- го можно объединить в модель авторегрессии-скользящего среднего АРСС(р, q), которая состоит из компоненты АР порядка р и компо- ненты СС порядка q yt = 6iyt-i + ... + 9pyt-p + et+ axet-i + • •. + aq£t-q- (8.19) Фактически, нет никакого фундаментального различия между про- цессом скользящего среднего и процессом авторегрессии. При подхо- дящих условиях (см. ниже) модель АР можно записать как модель СС и наоборот. Порядок одной из них обычно весьма большой, и
380 8. Одномерные модели временных рядов выбор из моделей СС, AR или объединенного представления АРСС является вопросом экономии*'. Например, мы видели выше, что модель АРA) можно записать как модель скользящего среднего бесконечного порядка СС(оо). Для некоторых целей удобно АР представление модели, тогда как для других целей удобно представ- ление СС. Это станет ясным ниже. Часто удобно использовать оператор сдвига, обозначаемый L (некоторые авторы применяют 5, оператор обратного сдвига). Он определяется в виде Lyt = yt-i. (8.20) Большей частью с оператором сдвига можно обращаться так же просто, как и с константой. Например, L2yt = L(Lyt) = Lyt-i = yt-2, так что более обще Lpyt = yt-p с L° = 1. Операция L на константе оставляет константу неизменной, например, Lfi = /i. Применение этого оператора сдвига позволяет нам записывать модели АРСС кратко. Для модели АРA) мы можем написать yt = eLyt+et, (8.21) или (l-eL)yt = et. (8.22) Это говорит, что комбинация yt и его лага с весами 1 и — в равняется процессу белого шума. Аналогично, мы можем написать общую модель АР(р) как e(L)yt=et. (8.23) где в(Ь) — полином порядка р от оператора сдвига L, обычно называемый полиномом от оператора сдвига, задаваемый в виде в{Ь) = 1 - 01L - в2Ь2 - ... - 9PLP. (8.24) Мы можем интерпретировать полином от оператора сдвига как фильтр, который, если применяется к временному ряду, генерирует новый временной ряд. Таким образом, когда фильтр 6(L) применя- ется к процессу АР(р), yt, то генерирует процесс белого шума £*. С полиномами от оператора сдвига обращаться относительно легко. Например, преобразование ряда двумя такими полиномами одним за другим является тем же, что и преобразование ряда один раз То есть—лаконичности параметризации модели (примеч. научн. ред. перевода).
8.2. Общие процессы авторегрессии-скользящего среднего (АРСС) 381 полиномом, который является произведением двух исходных поли- номов. Таким способом мы можем определить обращение фильтра, который естественно задается обращением полинома. Таким обра- зом, обращение 0(L), обозначаемое #_1(L), определяется так, что должно удовлетворяться соотношение 9~1(L)9(L) = 1. Если 6(L) яв- ляется полиномом от оператора сдвига L конечного порядка, то его обращение будет полиномом бесконечного порядка. В случае модели АРA) находим оо A-6L)-1 =^ejLj, (8.25) 3=0 при условии, что \6\ < 1. Это аналогично результату, что беско- оо нечная сумма Y^ #J равна A — #)-1, если \0\ < 1, в то же время 3=0 эта сумма расходится при \6\ > 1. В общем, обращение полинома 6(L) существует, если он удовлетворяет некоторым условиям на свои параметры, и в этом случае мы называем полином 6(L) обрати- мым. Обратимый полином будет обсуждаться в следующем пункте параграфа. С помощью (8.25) мы можем написать модель АРA) как A - 9L)-l{\ - 9L)yt = A - 9L)-let ИЛИ оо оо 3=0 3=0 что соответствует модели (8.4) выше. При соответствующих условиях обращение также возможно, и мы можем написать модель скользящего среднего в форме авторе- грессии. Используя оператор сдвига, мы можем написать процесс ССA) как yt = (l + aL)eu а общий процесс CC(q) в виде yt = a(L)et, где a(L) = 1 + axL + a2L2 + ... + aqLq. (8.27) Заметим, что мы определили полиномы так, что полином СС имеет знаки плюс, в то время как полином АР имеет знаки минус. Теперь,
382 8. Одномерные модели временных рядов если а г(Ь) существует, то мы можем написать выражение a-\L)yt=eu (8.28) которое, в общем, будет моделью АР бесконечного порядка. В случае модели ССA) мы используем, аналогично модели АРA) (8.25), оо A + aL)-1 = ]T(-a)'L', (8.29) з=о при условии, что \а\ < 1. Следовательно, модель ССA) можно запи- сать в виде оо Vt = a Y,(~a)Jyt-j-i + d- (8-3°) 3=0 Необходимое условие для существования бесконечного АР (АР(ос)) представления модели, состоит в том, что полином С С является обратимым, которое в случае ССA) требует, чтобы \а\ < 1. В част- ности, представления АР очень удобны для того, чтобы строить прогнозы, условные по наблюдаемому прошлому (см. раздел 8.8 ниже). Представления СС часто удобны для определения дисперсий и ковариаций. Для более экономного представления можно работать с моделью АРСС, которая содержит как авторегрессионную компоненту, так и компоненту скользящего среднего. Общую модель АРСС можно написать как e(L)yt = a(L)et, (8.31) которую (если полином от оператора сдвига компоненты АР общей модели АРСС является обратимым) можно записать в представле- нии СС(оо)): yt = e-\L)a(L)eu (8.32) или (если полином от оператора сдвига компоненты С С является обратимым) в представлении АР (ос) : a-l(L)e(L)yt = et. (8.33) Как ^_1(L)a(L), так и a~1(L)9(L) являются полиномами от опера- тора сдвига бесконечной длины с ограничениями на коэффициенты.
8.2. Общие процессы авторегрессии-скользящего среднего (АРСС) 383 8.2.2. Обратимость полиномов от оператора сдвига Как мы видели выше, полином от оператора сдвига первого порядка 1 — 6L является обратимым, если \9\ < 1. В этом разделе мы обобщим это условие на полиномы от оператора сдвига любого более высокого порядка. Сначала рассмотрим случай полинома второго порядка, заданного в виде 1 — 9\L — 92L2. В общем, мы можем найти значения ф\ и ф2 такие, что полином можно записать как 1 - 0iL - 62L2 = A - фхЬ){1 - ф2Ь). (8.34) Легко проверить, что ф\ и ф2 можно решить из2^ ф\ + ф2 ~ 6\ и —0102 = 02. Условия обратимости полинома второго порядка — это просто условия, что оба полинома первого порядка 1 — ф\Ь и 1 — ф2Ь являются обратимыми. Таким образом, условие обратимости состоит в том, что как \ф\\ < 1, так и |02| < 1. Эти условия также можно сформулировать в терминах, так называемого, характери- стического уравнения: A-<МA-<М = 0. (8-35) Это уравнение имеет два решения, скажем z\ и z2, которые называ- ются, характеристическими корнями. Условие |0i| < 1 соответ- ствует \zi\ > 1. Если какое-нибудь решение удовлетворяет \z{\ < 1, то соответствующий полином является необратимым. Решение, ко- торое равно единице, называется единичным корнем. Наличие единичного корня в полиноме от оператора сдвига 9{L) можно обнаружить относительно легко без решения характеристи- ческого уравнения, заметив, что полином 6(z), вычисленный в z = 1, р равен нулю, если \_\ 9j'• = 1 • Таким образом наличие первого еди- ничного корня можно проверить ответив на вопрос, равняется ли единице сумма полиномиальных коэффициентов. Если сумма пре- вышает единицу, то полином не является обратимым. В качестве примера рассмотрим модель АРB): yt = l,2yt_i - 0,32у,_2 + et. (8.36) Ее можно записать как (l-0,8L)(l-0,4L)yt = et, (8.37) Возможно, что ф\ и ф2 являются парой комплексных чисел, например, если 6\ = 0 и 92 < 0. В этом тексте мы будем игнорировать эту возможность.
384 8. Одномерные модели временных рядов с характеристическим уравнением 1 - l,2z + 0,32z2 = A - 0,8z)(l - 0,4z) = 0. (8.38) Решения (характеристические корни) равны 1/0,8 и 1/0,4, которые больше единицы. Следовательно, полином АР в выражении (8.36) является обратимым. Заметим, что модель АРA) yt = l,2yt-i+et (8.39) описывает необратимый процесс AR. Вопрос, действительно ли полином от оператора сдвига обратим, важен по нескольким причинам. Для моделей скользящего среднего или, более обще, для моделей с компонентой скользящего среднего, обратимость полинома СС важна для оценивания и предсказания. Для моделей с авторегрессионной компонентой, полином АР об- ратим, если и только если, процесс стационарен. В параграфе 8.3 исследуется этот последний вопрос. 8.2.3. Общие корни Разложение полиномов скользящего среднего и авторегрессии на произведения линейных функций от L также ставит проблему об- щих или аннулируемых (исключаемых из рассмотрения) корней. Это означает, что компоненты АР и СС модели АРСС имеют оди- наковые корни, и соответствующие линейные функции от L аннули- руются (исключаются). Чтобы проиллюстрировать это, рассмотрим процесс, описываемый моделью АРСС B, 1): (l-e1L-e2L2)yt = (l + aL)st. Тогда мы можем записать этот процесс в виде A - фгЩ1 - ф2Ь)¥г = A + aL)et. (8.40) Теперь, если окажется, что а = — ф\, то мы можем разделить обе части на A + aL), тогда получим выражение A - ф2Ь)уг = еи которое точно то же, что и выражение (8.40). Таким образом, в случае одного аннулируемого корня модель АРСС(р, q) можно записать эквивалентно в виде модели АРСС(р — 1, q — 1). В качестве примера рассмотрим модель Vt = Vt-i ~ 0,25yt_2 + et- 0,5^-ь (8-41)
8.3. Стационарность и единичные корни 385 которую можно переписать как A - 0,5L)A - 0,5L)yt = A - Q,5L)et. Ясно, что ее можно свести к модели АРA) A - 0.5L)yt = st или yt = 0,5j/*_i +et, которая в точности описывает тот же процесс, что и модель (8.41). Проблема общих корней иллюстрирует причину проблематич- ности практического оценивания модели АРСС с компонентами АР и СС высокого порядка. Причина состоит в том, что идентифика- ция и оценивание являются сложными, если корни полинома СС и полинома АР почти идентичны. В этом случае упрощенная модель АРСС(р— 1, q — 1) приведет к почти эквивалентному представлению. 8.3. Стационарность и единичные корни Стационарность стохастического процесса требует, чтобы дисперсии и автоковариации были конечны и независимы от времени. Легко проверить, что процессы СС конечного порядка являются стацио- нарными по построению, потому что они соответствуют взвешенной сумме фиксированного числа стационарных процессов белого шума. Конечно, этот результат нарушается, если бы мы позволили коэффи- циентам модели СС изменяться во времени, как, например, в модели yt = et + g(t)et-u (8.42) где g(t) — некоторая детерминированная (неслучайная) функция от t. Тогда мы имеем дисперсию Е{уП = а2 + g\t)o\ которая является зависимой от t. Следовательно, процесс (8.42) является нестационарным. Стационарность процессов авторегрессии или процессов АРСС менее тривиальна. Рассмотрим, например, процесс АРA) Vt = 0yt-i+et, (8.43)
386 8. Одномерные модели временных рядов с 9 = 1. Взятие дисперсий от обеих сторон последнего соотношения приводит к уравнению V{yt} = V{yt-i} + cr2, которое не имеет реше- ния для дисперсии процесса, согласующегося со стационарностью, за исключением а1 — 0, когда существует бесконечность решений. Процесс (8.43) является процессом авторегрессии первого порядка с единичным корнем F = 1) и обычно этот процесс называется слу- чайным блужданием. Безусловной дисперсии yt не существует, то есть, она является бесконечной, и этот процесс является неста- ционарным. Фактически, для любого значения 9 с \в\ > 1 модель (8.43) описывает нестационарный процесс. Мы можем формализовать вышеизложенные результаты сле- дующим образом. Процесс АРA) является стационарным, если и только если, полином 1 — 9L является обратимым, то есть, если корень характеристического уравнения 1 — 9z = 0 больше единицы. Этот результат непосредственно обобщается на произвольные моде- ли АРСС. Модель АРСС(р, q) 9{L)yt - a(L)st (8.44) соответствует стационарному процессу, если и только если, решения zi,... , zp для 9{z) — О больше единицы (по абсолютному значению), то есть, когда полином АР является обратимым. Например, процесс АРССB,1), заданный в виде yt = 1,2у,_! - 0,2yt_2 +st- 0,5et_i, (8.45) является нестационарным, так как z = 1 является решением для l-l,2z + 0,2z2 = 0. Специальный, особенно интересный случай возникает, когда один корень в точности равен единице, в то время как другие корни больше единицы. Если такой случай возникает, то мы можем написать процесс для yt как в*(Ь)A - L)yt = 0*(L)Ayt = a(L)et, (8.46) где 9*(L) — обратимый полином от L порядка р — 1. Поскольку корни полинома АР являются решениями для 6*(z)(l — z) — 0, то существует одно решение z — \ или, другими словами, единственный единичный корень. Таким образом уравнение (8.46) показывает, что приращение Ayt можно описать стационарной моделью АРСС, если процесс для yt имеет один единичный корень. Следовательно, мы можем устранить эту нестационарность, преобразованием ряда в
8.3. Стационарность и единичные корни 387 первые разности (приращения). Запись процесса (8.45) в виде (l-0,2L)(l-L)yt = (l-0,5L)et показывает, что Ayt описывается стационарным процессом АРСС A,1), задаваемым как Ayt = 0,2Ду,_! +et- 0,5^-1- Временной ряд, который становится стационарным после первого взятия разностей, называется интегрируемым порядка один и обозначается 1A). Если Ayt описывается стационарной моделью АРСС(р, д), то говорят, что yt описывается моделью авторегрес- сии — проинтегрированного скользящего среднего (АРПСС) поряд- ка р, 1, q или кратко модель АРПСС(р, 1, q). Первое взятие разностей весьма часто может преобразовать нестационарный ряд в стационарный. В особенности это может иметь место для агрегированных экономических рядов или их натуральных логарифмов. Например, заметим, что когда Yt является логариф- мом национального дохода, AYt соответствует темпу роста дохода, который вряд ли не будет стационарным. Заметим, что полином АР обязан иметь точный единичный корень. Если истинной моделью является АРA) с в = 1,01, то мы имеем процесс Ayt = Ofllyt-i + £*, который является нестационарным процессом, поскольку он зависит от нестационарного процесса yt. Следовательно, процесс АРA) с в = 1,01 не является интегрируемым процессом порядка один. В некоторых случаях взятия первых разностей недостаточно, чтобы получить стационарность, и требуется второй шаг взятия разностей. В этом случае стационарный временной ряд задается в виде A(Ayt) = Ayt — Ayt-i, который соответствует приращению темпа роста для логарифмических переменных. Если разности вре- менного ряда должны браться дважды, прежде чем ряд станет стационарным, то такой временной ряд называется интегрируе- мым порядка 2, обозначается 1B), и должен иметь два единичных корня. Таким образом, временной ряд yt является 1B), если ряд Ayt является нестационарным, но ряд A2yt является стационарным. Более формальное определение интегрирования дано у Энгеля и Гранджера (Engle, Granger, 1987), где определены также более вы- сокие порядки интегрирования, которые имеют слабое отношение к экономическим приложениям. Таким образом, временной ряд, инте- грируемый порядка нуль, является стационарным, в то время как для временного ряда, интегрируемого порядка один, стационарна первая
388 8. Одномерные модели временных рядов разность. Ряд белого шума и стабильный процесс АРA), являются примерами временного ряда 1@), в то время как процесс случайного блуждания, который описывается моделью (8.43) с 9 — 1, является примером временного ряда 1A). В долгосрочной динамике возможна непредсказуемость разли- чия, имеет ли ряд точный единичный корень, или корень является немного больше единицы. Это различие между тем, является ли временной ряд 1A), или 1@). Вообще, главное различие между процессами, которые являются 1@) и 1A), можно резюмировать сле- дующим образом. Временной ряд 1@) флуктуирует вокруг своего среднего с конечной дисперсией, которая не зависит от времени, в то время как временной ряд 1A) долго блуждает. Обычно говорят, что временной ряд 1@) является возвращающимся к среднему, поскольку в долгосрочной динамике существует тенденция возвра- щения к своему среднему значению. Кроме того, временной ряд 1@) имеет ограниченную память о своем прошлом поведении (пред- полагая, что эффекты специфической случайной являются только кратковременными), в то время как процесс 1A) имеет бесконеч- но длинную память (предполагая, что et будет постоянно влиять на процесс). Этот последний аспект становится ясным из автокор- реляционных функций: для временного ряда 1@) при возрастании лага автокорреляции быстро уменьшаются, в то время как для про- цесса 1A) оцененные коэффициенты автокорреляции приближаются к нулю очень медленно. Последнее свойство делает наличие единичного корня интерес- ным вопросом с экономической точки зрения. В моделях с еди- ничными корнями случайные возмущения («шоки», которые могут возникать из-за политических вмешательств) имеют устойчивые эф- фекты, которые длятся нескончаемо долго, в то время как в случае стационарных моделей возмущения («шоки») могут иметь только временный эффект. Конечно, долгосрочный динамический эффект возмущения не обязательно имеет такую же величину как кратко- срочный эффект. В результате, с начала 1980-х издавалось3' обшир- ное количество литературы о наличии единичных корней во многих макроэкономических временных рядах, иногда с противоречивыми Самое влиятельное исследование провели Нельсон и Плоссер (Nelson, Plosser, 1982). Они привели аргументы, что многие экономические временные ряды лучше характеризуются единичными корнями, чем детерминированными трендами.
8.4. Тестирование единичных корней 389 заключениями (в зависимости от применяемых специфических мето- дов). Тот факт, что автокорреляции стационарного ряда постепенно ослабевают или быстро затухают, может помочь в определении по- рядка взятия разностей, требуемого для достижения стационарности (обычно обозначаемого d). Кроме того, в современной литературе предлагалось несколько формальных критериев проверки наличия единичного корня, некоторые мы обсудим в параграфе 8.4 ниже. Ряды процентных ставок являются эмпирическими рядами, для которых выбор между единичным корнем (нестационарность) и «по- чти единичным корнем» (стационарность) особенно неоднозначен. Высокая степень устойчивости в процентных ставках весьма ча- сто делает гипотезу наличия единичного корня статистически не отклоняемой, хотя нестационарные процентные ставки кажутся не очень вероятными с экономической точки зрения. В параграфе 8.9 эта проблема поясняется на эмпирическом примере. 8.4. Тестирование единичных корней Чтобы ввести процедуры проверки гипотезы о наличии единич- ного корня, мы сконцентрируемся на моделях авторегрессии. По- видимому, это не особенно ограничивает общность, так как любая модель АРСС будет всегда иметь представление АР (при условии обратимости полинома СС, a(L)). 8.4.1. Тестирование единичных корней в модели авторегрессии первого порядка Прежде всего, рассмотрим процесс АРA) yt = 0yt-i+et. (8.47) Проверка гипотезы наличия единичного корня является провер- кой, что 9 = 1, и кажется очевидным использовать оценку 9 для 9 из обычной процедуры наименьших квадратов (которая являет- ся состоятельной оценкой, независимо от истинного значения в) и соответствующую стандартную ошибку для проверки нулевой ги- потезы. Однако как показано в основополагающей статье Дики и Фуллера (Dickey, Fuller, 1979), при нулевой гипотезе 9 = 1 стандарт- ное t-отношение не имеет ^-распределения даже асимптотически. Причина этого заключается в нестационарности процесса, которая
390 8. Одномерные модели временных рядов делает несправедливыми стандартные результаты о распределении МНК-оценки 9 (как обсуждалось в главе 2). Например, если 9 = 1, то дисперсия yt, обозначенная 7о, неопределена (или, если хотите, яв- ляется бесконечно большой). Однако для любого конечного объема выборки будет получена конечная оценка дисперсии для yt. Чтобы проверить нулевую гипотезу 9 — 1 можно применить стандартную t- статистику т=~, (8.48) se{9) где se{9) обозначает обычную стандартную ошибку МНК-оценки. Однако критические значения следует брать из соответствующе- го распределения, которое при нулевой гипотезе нестационарности является нестандартным. В частности, распределение имеет пра- востороннюю асимметрию, так что критические значения меньше чем для (нормальной аппроксимации) ^-распределения. Используя 5%-ый уровень значимости для односторонней проверки нулевой гипотезы Но : 9 — 1 (единичный корень) против альтернативной гипотезы Н\\9\ < 1 (стационарность), корректное критическое зна- чение равно —1,95, а не —1,65 как для нормальной аппроксимации. Следовательно, если вы пользуетесь стандартными t-таблицами, то вы можете отклонять гипотезу единичного корня слишком часто. Выборочные процентили соответствующего распределения опубли- кованы в нескольких работах Дики и Фуллера. В таблице 8.1 мы представили 1%-ые и 5%-ые критические значения для этого теста, обычно называемого тестом Дики—Фуллера, для определенного диапазона различных объемов выборок. Обычно применяется немного более удобная процедура регрес- сии. В этом случае модель переписывается как Aj/t = @-l)yt_i+et, (8.49) из которой t-статистика для проверки гипотезы 0 — 1 = 0 идентична статистике г выше. Основанием к этому служит факт инвариант- ности метода наименьших квадратов по отношению к линейным преобразованиям модели. При нулевой гипотезе, yt описывается процессом случайного блуждания, в то время как при альтернативой гипотезе yt является моделью авторегрессии первого порядка с нулевым средним. Если мы рассматриваем временной ряд Yt, который может иметь не нуле- вое среднее значение, то в регрессии Дики—Фуллера целесообразно
8.4. Тестирование единичных корней 391 Таблица 8.1. 1%-ые и 5%-ые критические значения для тестов Дики—Фуллера (Fuller, 1976, р. 373) Объем выборки Т = 25 Т = 50 Т= 100 Т = 250 Т = 500 Т = оо Без константы Без тренда 1% -2,66 -2,62 -2,60 -2,58 -2,58 -2,58 5% -1,95 -1,95 -1,95 -1,95 -1,95 -1,95 Константа Без тренда 1% -3,75 -3,58 -3,51 -3,46 -3,44 -3,43 5% -3,00 -2,93 -2,89 -2,88 -2,87 -2,86 Константа Тренд 1% -4,38 -4,15 -4,04 -3,99 -3,98 -3,96 5% -3,60 -3,50 -3,45 -3,43 -3,42 -3,41 включить постоянный член. Так как константа в стационарной моде- ли АРA) удовлетворяет 6 = A — 0)/i, где \i — среднее значение ряда, то нулевая гипотеза наличия единичного корня также подразуме- вает, что свободный член должен равняться нулю. Таким образом, тестируемая регрессия имеет вид ДУ* = Д + @-ВД_1+е*, (8.50) где нулевой гипотезой является совместная гипотеза Но : 5 — 0, 0 — 1 = 0. Хотя можно проверить эти два ограничения совместно, легче (и более обще) проверить только, что 0 — 1 = 0. Распределение t-отношения для этой гипотезы, обозначаемое тм, при предположе- нии, что справедлива Hq (совместная гипотеза), тоже нестандартно. Критические значения для статистики тм, также представленные в таблице 8.1, меньше, чем для статистики т. Для больших выборок гипотеза наличия единичного корня отклоняется на 5%-ом уровне значимости, если тм < —2,86. Возможно, что регрессия (8.50) справедлива с 0 = 1 и ненуле- вым свободным членом 5 ф 0. Поскольку в этом случае 6 не может равняться A — 0)/i, то регрессию (8.50) нельзя вывести из чистой модели АРA). Это видно при рассмотрении получающегося в ре- зультате процесса AYt = 5 + et, (8.51)
392 8. Одномерные модели временных рядов который известен как случайное блуждание с дрейфом, где 5 — параметр дрейфа. В модели для переменной уровня Yt, S соот- ветствует линейному временному тренду. Поскольку процесс (8.51) подразумевает, что E{AYt} = 5, то в этом случаем (для заданно- го начального значения Уо) E{Yt} = Yo + St. Это показывает, что интерпретация свободного члена в регрессии (8.50) сильно зависит от наличия единичного корня. В стационарном случае S отражает ненулевое среднее ряда; в случае наличия единичного корня S от- ражает детерминированный тренд в Yt. Поскольку в последнем случае первое взятие разностей порождает стационарный временной ряд, то процесс Yt называется разностно-стационарным. Вооб- ще, разностно-стационарный процесс является процессом, который можно сделать стационарным с помощью взятия разностей. Возможно также, что нестационарность вызывается присутстви- ем в процессе детерминированного временного тренда, а не наличием единичного корня. Это случается, когда модель АРA) расширяется до модели Yt = 6 + eYt-1+>yt + et, (8.52) с|#|<1и77^0-В этом случае мы имеем нестационарный процесс из-за линейного тренда jt. Эту нестационарность можно устранить построением регрессии Yt по константе и £, а затем рассматри- вать остатки этой регрессии, или просто включением t в качестве дополнительной переменной в модель. Процесс Yt в этом случае на- зывается тренд-стационарным. Таким образом, нестационарные процессы можно охарактеризовать наличием детерминированного тренда, подобно jt, стохастическим трендом, подразумевающим на- личие единичного корня, или присутствием того и другого. Можно проверить, соответствует ли процесс Yt процессу случай- ного блуждания против альтернативы, что он соответствует процессу (8.52), стационарному с точностью до наличия детерминированного тренда. Это можно проверить, построением регрессии AYt = S + (9 - ВД_! + 7t + et. (8.53) Нулевая гипотеза, которую хотелось бы проверить, состоит в том, что процесс является случайным блужданием, а не стационарным в тренде и соответствует гипотезе Hq : S = j — 9 — 1 = 0. Вместо про- верки этой совместной гипотезы обычно используют t-отношение, соответствующее 9 — 1, обозначаемое тт, предполагая, что другие ограничения в нулевых гипотезах удовлетворяются. Хотя нулевая
8.4. Тестирование единичных корней 393 гипотеза все еще та же, что и в двух предыдущих проверках гипо- тезы о наличии единичного корня, тестирование регрессии от них отличается, и таким образом мы снова имеем другое распределе- ние тестовой статистики. Критические значения для статистики тт, представленные в последних двух столбцах таблицы 8.1, все же мень- ше чем для статистики тм. Фактически, с включенным свободным членом и детерминированным трендом вероятность, что в — 1 поло- жительно (при условии, что истинное значение в — 1 равно нулю), пренебрежимо мала. Однако следует заметить, что, если гипотеза наличия единичного корня #—1 = 0 отклоняется, то мы не можем за- ключить, что процесс Yt, вероятно, должен быть стационарным. При альтернативной гипотезе, 7 может быть не нулевым, так что процесс Yt является нестационарным (но только тренд-стационарным). Выражение «тест Дики—Фуллера» или просто «тест ДФ» ("DF" в латинской терминологии) применяется для любого из описанных выше тестов и таким образом тест Дики—Фуллера строится на основе регрессии с константой или без константы, и с трендом или без трен- да. Однако обычно в регрессии включается постоянный член. Важно подчеркнуть, что гипотеза наличия единичного корня соответствует нулевой гипотезе. Если мы не способны отклонить гипотезу наличия единичного корня, то это не обязательно означает, что эта гипотеза верна. Возможно только, что информация, содержащаяся в данных, недостаточна для отклонения этой гипотезы. Конечно, это просто об- щее различие понятий «принять» гипотезу и «не отклонить ее». По- скольку долгосрочные динамические свойства процесса кардинально зависят от того, установлено наличие единичного корня или нет, это нечто, в чем следует отдавать себе отчет. Не все временные ряды, для которых мы не можем отклонить гипотезу о наличии единичного корня, являются обязательно интегрируемыми порядка единица. Чтобы обойти проблему, заключающуюся в том, что тесты о наличии единичного корня часто имеют малую мощность, Квятков- ски, Филлипс, Шмидт и Шин (Kwiatkowski, Phillips, Schmidt, Shin, 1992) предложили альтернативный тест, в котором нулевой гипоте- зой является стационарность, а альтернативная гипотеза — наличие единичного корня. Этот тест обычно называется тестом КФТТТТТТ (KPSS). Основная идея состоит в том, что временной ряд разлага- ется на сумму детерминированного временного тренда, случайного блуждания и стационарного (остаточного) члена ошибки (обычно не белый шум). Нулевая гипотеза (о тренд-стационарности) определяет,
394 8. Одномерные модели временных рядов что дисперсия компоненты случайного блуждания равна нулю. Этот тест, фактически, является тестом множителей Лагранжа (см. гла- ву 6) и вычисление критической статистики довольно простое. Сна- чала получают вспомогательную регрессию Yt по свободному члену и временному тренду t. Затем сохраняют МНК-оцененные остатки, et, и вычисляют частные суммы t $ = £>* 8 = 1 для всех t. Тогда критическая статистика имеет вид т о2 кфшш = У ^, ^—' а2 t=i где а — оценка для дисперсии ошибки. Эта последняя оценка а мо- жет включать коррекции, учитывающие автокорреляцию, основан- ные на формуле Невье—Веста (см. главу 4). Асимптотическое распре- деление нестандартно, и Квятковски и др. (Kwiatkowski at al., 1992) вычислили 5%-ое критическое значение, равное 0,146. Если нулевой гипотезой является стационарность, а не тренд-стационарность, то член тренда должен исключаться из вспомогательной регрессии. То- гда тестовая статистика вычисляется тем же самым способом, но 5%-ое критическое значение равно 0,463. 8.4.2. Тестирование единичных корней в моделях авторегрессии более высокого порядка Тест наличия единственного единичного корня в процессах АР более высокого порядка можно легко получить расширением процедуры теста Дики—Фуллера. Общая стратегия состоит в том, что в регрес- сию включаются лаговые разности, типа Ayt-i, Дуг-2>... , так что ее остаточный член ошибки соответствует белому шуму. Это приводит к так называемому расширенному тесту Дики—Фуллера (тесту РДФ) ("ADF" в латинской терминологии), для которого справедли- вы те же самые асимптотические критические значения, которые приведены в таблице 8.1. Рассмотрим модель АРB) yt = Om-i + 02yt-2 + eu (8.54) которую можно записать в факторизованном виде как A-ф1Щ1-ф2Ь)уь = еь. (8.55)
8.4. Тестирование единичных корней 395 Условие стационарности требует, чтобы ф\ и 02 оба были меньше единицы по абсолютному значению, но если ф\ — 1 и \<j>2\ < 1, то мы имеем единственный единичный корень, 6\ + #2 — 1 и #2 = —02- Уравнение (8.54) можно использовать, чтобы проверить гипотезу о наличии единичного корня, тестируя в\ + 02 — 1 при условии |021 < 1- Это удобно сделать, переписав модель (8.54) в виде Ayt = (в1 +в2- l)yt-i - 62Ayt-i + et. (8.56) Коэффициенты в модели (8.56) молено оценить состоятельно мето- дом наименьших квадратов, а оценка коэффициента для yt-\ предо- ставляет способы тестирования нулевой гипотезы 7г = #1+#2 —1 = 0. Получающееся в результате ^-отношение, 7?/se(n), имеет то же самое распределение, что и статистика г выше. В духе процедуры Дики— Фуллера к тестируемой регрессии можно добавить свободный член или свободный член и временной тренд. В зависимости от того, какой вариант используется, получающееся в результате значение критической статистики должно сравниваться с критическим значе- нием, взятым из соответствующей строки таблицы 8.1. Эту процедуру можно легко обобщить для проверки гипотезы о наличии единственного единичного корня в процессе АР (р). Прием состоит в том, что любой процесс АР(р) можно записать как Ayt = 7ryt_i + ciAyt-i + ... + cp_iAyt-p+i + ей (8.57) с 7г = #1 + ... + #p — 1 и соответственно выбранными константами ci, ... ,cp_i. Так как 7г = 0 означает, что 0A) = 0*^, то это так- же означает, что z = 1 является решением характеристического уравнения 6(z) = 0. Таким образом, как и прежде, гипотеза тт = 0 соответствует гипотезе наличия единичного корня, и мы можем ее проверить, применяя соответствующее t-отношение. Если специфи- кация АР (р) корректна и при нулевой гипотезе наличия единичного корня, то асимптотические распределения статистик г (тт или гм, вычисленных из процесса (8.57), включая, где уместно, свободный член и временной тренд), те же самые, что и прежде. Критические значения для малых выборок несколько отличаются от табулирован- ных критических значений и предоставлены, например, МакКинно- ном (MacKinnon, 1991). Напомним, что 0(L) = 1 — 9\Ь — 62b2 — .. . — 0PLP — полином порядка р от лагового оператора L см. выше (8.24) (примеч. научн. ред. перевода).
396 8. Одномерные модели временных рядов Таким образом, когда процесс yt является процессом АР(р), тест на наличие единственного единичного корня можно построить из регрессии Ayt на yt-\ и Дуг-ь • • • 5 Ayt-p+i» тестируя значимость «уровневой» переменной г/^—i (используя соответствующие односто- ронние критические значения). Интересно заметить, что при нулевой гипотезе наличия единственного единичного корня все переменные в процессе (8.57) являются стационарными за исключением перемен- ной yt-i- Поэтому равенство в процессе (8.57) может иметь смысл, только если не появляется yt-i и 7Г = 0, что интуитивно объясняет, почему гипотеза наличия единичного корня соответствует 7Г = 0. Включение дополнительных лагов по сравнению со стандартным тестом Дики—Фуллера сделано, чтобы остаточный член в процессе (8.57) асимптотически был процессом белого шума, что требует- ся для справедливости результатов о распределениях. Поскольку обычно р неизвестно, то желательно выбирать р довольно большим. Если включить слишком много лагов, то это несколько уменьшит мощность тестов, но если включить слишком мало лагов, то асимп- тотические распределения из таблицы просто недействительны и тесты могут привести к значительно смещенным выводам. Можно пользоваться критериями выбора модели, обсужденными в п. 8.7.4 ниже, или статистической значимостью дополнительных перемен- ных, чтобы выбирать длину лагирования в тестах РДФ. Для тестирования единичного корня общей (обратимой) модели АРСС также можно использовать регрессию вида (8.57). Сэйд и Дики (Said, Dickey, 1984) привели аргумент, что, когда теоретически число лагов в регрессии возрастает с объемом выборки (с искусно вы- бранной скоростью), то справедливы те же самые асимптотические распределения и тесты РДФ также обоснованы для модели АРСС с компонентой скользящего среднего. Этот аргумент существенен, поскольку ранее мы видели, что любую модель АРСС (с обрати- мым полиномом СС) можно написать в виде бесконечного процесса авторегрессии. Это объясняет, почему при тестировании единичных корней компоненты СС обычно не тревожат исследователей Филлипс и Перрон (Phillips, Perron, 1988) предложили аль- тернативу расширенным тестам Дики—Фуллера. Вместо добавле- ния дополнительных лагов в регрессии для получения остаточного члена не имеющего никакой автокорреляции, они сохраняют ис- ходные регрессии Дики—Фуллера, но корректируют т-статистики, чтобы принять во внимание (потенциальную) структуру автокор- реляции остатков. Эти корректировки на основе коррекций, подоб-
8.4. Тестирование единичных корней 397 ных тем, которые применяются для вычисления гетероскедастично- автокоррелированно-состоятельных стандартных ошибок Невье— Веста (ГАС) (см. главу 4), весьма сложны, и здесь обсуждаться не будут. Критические значения (асимптотические) снова являются теми же, что и в таблице 8.1. Тест Филлипса—Перрона, иногда на- зываемый непараметрическим тестом на наличие единичного корня, как и тест Сэйда—Дики (или тест РДФ), применим к общим моделям АРСС (подробности см. в книге Hamilton, 1994, pp. 506-515). Иссле- дования Монте-Карло не выявляют четкого ранжирования двух тестов относительно их мощности (вероятности отклонения нулевой гипотезы, когда она ложная) в конечных выборках. Если тест РДФ не позволяет отклонить нулевую гипотезу о наличии одного единичного корня, то можно тестировать гипотезу наличия второго единичного корня, оценивая регрессию A2yt по Ayt-i, А2Ш-ь •••, Д2у*-Р+1 и сравнивая i-отношение коэффициента при переменной Ayt-i с соответствующим критическим значением из таблицы 8.1. Альтер- нативно наличие двух единичных корней можно тестировать сов- местно, оценивая регрессию A2yt по yt-u Дш-ъ A2Vt-u •••> Д2уг_р4_1 и вычисляя обычную ^-статистику, чтобы тестировать совместную значимость yt-i и Ayt-\. И снова при нулевой гипотезе наличия двойного единичного корня эта тестовая статистика имеет распре- деление, которое все-таки является не обычным F-распределением. Процентили этого распределения предоставлены Хасза и Фуллером (Hasza, Fuller, 1979). 8.4.3. Пример: ежеквартальный располагаемый доход В этом разделе мы рассмотрим ежеквартальный располагаемый доход Великобритании за период с первого квартала 1971 г. по вто- рой квартал 1985 г. (всего 58 кварталов, Т = 58) 4\ измеряемый в миллионах фунтов и текущих ценах. График ряда представлен на рисунке 8.3. Как и ожидалось, график ряда показал структуру бо- лее или менее монотонного возрастания, и трудно утверждать, что этот ряд является стационарным. Используя вышеизложенную ме- тодологию, мы протестировали наличие одного или двух единичных 4) Данные доступны в INCOME.
398 8. Одномерные модели временных рядов 7000(H 60000 А / 50000 "J ^S 40000 A /f ЗОООСН s^ 20000 А ^^^ 0 I i i i | i i i | i i i | i i i i i i i | i i i | i i i | i i i | i i i | i i i | i i i i i i i i i i i | i i i | i 72 74 76 78 80 82 84 Рисунок 8.3. Квартальный располагаемый доход Великобритании, первый квартал 1971 г. - второй квартал 1985 г. корней в чистом доходе. Сначала мы оценили стандартную регрес- сию Дики—Фуллера со свободным членом и получили AYt = 496,2 + 0,0131 rt-i+et, (8.58) B15,0) @,0064) что в результате привело к значению ДФ-критической статистики 2,064. Поскольку соответствующее критическое значение на 5%-ом уровне равно —2,93, это не позволило нам отклонить нулевую гипо- тезу наличия первого единичного корня. Однако мы должны были убедиться, что мы включали достаточное количество лагов в эту те- стируемую регрессию, чтобы сделать остаточный член белым шумом. Таким образом, желательно было также применить диапазон рас- ширенных тестов Дики—Фуллера, подразумевая, что мы добавляем дополнительные лаги AYt к правой части регрессии. Ограничивая внимание только критическими статистиками, результаты с шестью дополнительными лагами оказались следующими:
8.4. Тестирование единичных корней 399 ДФ РДФA) РДФB) РДФ(З) РДФD) РДФE) РДФF) 2,064 2,693 1,648 1,792 0,712 0,564 0,912 Хотя тестовые статистики несколько изменились с числом включен- ных лагов, вывод не изменился, и мы не смогли отклонить наличие первого единичного корня. Если мы предполагаем наличие первого единичного корня, то мы можем протестировать наличие второго единичного корня. Это тестирование включает регрессии вида A2Yt = 6 + тгДУ*_1 + a A2lf_! + ... + et и нулевая гипотеза соответствует тт = 0. Результаты оказались следующими: ДФ АДФA) АДФB) АДФ(З) АДФD) АДФE) АДФF) -8,904 -3,926 -3,768 -2,189 -1,856 -2,160 -2,075 4000 3000 2000 1000 -1000 i i i I i i i I i i i I i i i I i i i I i i i I i i i I i i i I i i i | i i i | i i i | i i i | i i i [ i i i | i 72 74 76 78 80 82 84 Рисунок 8.4. Квартальные приращения чистого дохода Великобритании, второй квартал 1971 г. — второй квартал 1985 г.
400 8. Одномерные модели временных рядов Для тестов более низкого порядка нулевая гипотеза должна быть отклонена, но для тестов от АДФ(З) до АДФF) мы больше не могли отклонить наличие второго единичного корня. Если мы посмотрим на график первых разностей временного ряда доходов, который изображен на рисунке 8.4, то там не увидим никаких признаков наличия единичного корня. Фактически, результаты тестов АДФ показывали опасность проверки только критических статистик и ре- шения, что нулевая гипотеза должна быть справедлива, если тест ее не отклоняет. Если мы посмотрим на результаты из регрессий АДФ, то мы увидим, что стандартные ошибки для коэффициента 7Г очень большие. Это означает, что тесты не имели большой мощности, и что много альтернативных гипотез также не отклонялось бы (хотя они не могут быть истинными одновременно). Например, тестовая ста- тистика АДФD) является отношением оценки для 7г, равной —0,491, с большой стандартной ошибкой, равной 0,265. Кажется разумным заключить, что ежеквартальный располагаемый доход Yt имеет один единичный корень, но не два. Ниже в п. 8.7.5 мы рассмотрим про- блему построения соответствующей модели АРСС для AYt. 8.5. Пример: долгосрочный динамический паритет покупательной способности (часть 1) Чтобы проиллюстрировать скозанное выше, в этом разделе мы уделим внимание эмпирическому примеру, касающемуся цен в двух странах и обменному курсу между этими странами. Если две страны производят торговые товары и нет никаких препятствий к между- народной торговле, таких как пошлины или операционные затраты, то должен быть справедливым закон единой цены, то есть, St = ^, (8-59) где St — наличный обменный курс (внутренняя валютная цена за единицу иностранной валюты), Pt-(совокупная) цена во внутренней стране, а Р£ — цена в зарубежной стране. Логарифмируя, мы можем написать st=pt-pl (8.60)
8.5. Пример: долгосрочный динамический паритет 401 5.0- 4.8- 4.6- 4.4- 4.2- 4.0- 3.8- Q ft - О.О ^^^^ / / / / / / / 1 1 1 1 1 1 г 1 1— Italy ____,--'' „ — ' s^^ France —i 1 1 1 i i— 82 84 86 88 90 92 94 96 Рисунок 8.5. Логарифм индекса потребительских цен Франции и Италии, январь 1981 г. - июнь 1996 г. (где строчные буквы обозначают соответствующие натуральные ло- гарифмы). Условие (8.60), которое называется абсолютным парите- том покупательной способности (абсолютным ППС), означает, что возрастание уровня внутренней цены должно приводить к равно- му пропорциональному возрастанию обменного курса. Очевидно, что это условие никогда не будет удовлетворяться практически. Обыч- но ППС видится как определение обменного курса в долгосрочной динамике. Ниже мы проанализируем вопрос, действительно ли со- отношение (8.60) справедливо в долгосрочной динамике. Первым необходимым шагом для этого является анализ свойств перемен- ных, включенных в соотношение (8.60). Наш эмпирический пример касается Франции и Италии за пери- од с января 1981 г. по июнь 1996 г. (Г = 186) 5). Сначала мы построи- ли график двух рядов для логарифма индекса потребительских цен на рисунке 8.5. Ясно, что на этом рисунке видна нестационарность этих двух рядов, в то же время также очевидно, что два ряда име- Данные доступны в РРР.
402 8. Одномерные модели временных рядов ют различные темпы роста. Конечно, формальные тесты наличия единичного корня, можно получить из регрессий подобных регрес- сии (8.56) или (8.57). Для р£, логарифма французского индекса потребительских цен, мы получили следующие результаты, включая константу, но без лаговых разностей в модели: Др* = 0,0694 - 0,0146 pt*_i+et. @,0042) @,0009) Значение критической статистки Дики—Фуллера равно —15,67, в то время как 5%-ое критическое значение равно —2,87, означая, что нулевая гипотеза наличия единичного корня должна откло- няться на любом приемлемом уровне значимости. Однако весьма вероятно, что простая модель АРA), примененная в этой регрессии, является слишком ограниченной. Некоторые пакеты программного обеспечения (как, например, MicroFit) имеют опцию выполнения для широкого диапазона тестов РДФ одновременно. Реализация этой оп- ции привела к результатам, представленным в двух первых столбцах таблицы 8.2. Критические значения равны —2,877 для тестов без тренда и —3,435 для тестов с трендом6^. Результаты ясно показали опасность тестирования наличия еди- ничного корня для слишком ограниченной модели. Очевидно, что 12-ый лаг важен при включении в регрессии РДФ, и это неуди- вительно при условии, что мы имели ежемесячные данные и что сезонные структуры в ценах являются весьма обычными. Таким образом, несмотря на то, что большинство тестовых значений в вы- шеприведенной таблице предполагает отклонение гипотезы наличия единичного корня, мы не смогли отклонить эту гипотезу, когда мы рассмотрели подходящий тест РДФ, соответствующий 12-ти лагам, включенным в регрессию. В пользу такого решения также приводит просмотр графиков, которые ясно показывают некоторый источник нестационарности. Для логарифмического индекса потребительских цен в Италии Pt, мы пришли к довольно похожим результатам, которые показа- ны в последних двух столбцах таблицы 8.2. Вывод такой же: мы не отклоняем нулевую гипотезу, что логарифмический ценовой вре- менной ряд содержит единичный корень. Для логарифма обменного ' Критические значения несколько изменяются от одной строки к другой. Это обусловлено изменением числа наблюдений, которые доступны для оценивания регрессий РДФ.
8.5. Пример: долгосрочный динамический паритет 403 Таблица 8.2. Тесты наличия единичного корня для логарифмического индекса цен Франции и Италии Статистики ДФ РДФA) РДФB) РДФ(З) РДФD) РДФE) РДФF) РДФG) РДФ(8) РДФ(9) РДФ(Ю) РДФ(П) РДФA2) Франция (р*{) Без тренда -15,67 -7,147 -7,003 -4,964 -5,118 -4,115 -3,019 -3,183 -2,878 -2,688 -2,655 -2,408 -1,763 С трендом -9,462 -6,272 -6,933 -5,294 -6,077 -5,382 -3,919 -4,146 -3,728 -3,451 -3,591 -3,691 -2,908 Италия (pt) Без тренда -13,16 -6,378 -5,479 -4,407 -3,88 -3,692 -3,771 -3,26 -2,344 -2,039 -2,113 -1,687 -0,866 С трендом -8,403 -5,389 -5.131 -4,644 -4,289 -4,58 -5,474 -5,525 -4,529 -4,064 -3,742 \ -3,797 -2,997 курса st, измеренного в лирах по отношению к франку, тесты Дики— Фуллера и расширенные тесты Дики—Фуллера приводят к резуль- татам таблицы 8.3, в которой мы сообщаем о тестах РДФ только до лага 6. Результаты здесь совершенно ясны. Ни в одном из случаев мы не может отклонить нулевую гипотезу наличия единичного корня. Если паритет покупательной способности между Францией и Италией справедлив в долгосрочной динамике, то можно ожидать, что краткосрочные динамические отклонения St — (pt ~Pt)i соот- ветствующие реальному обменному курсу, ограничены и не имеют значительных отклонений. Другими словами, можно ожидать, что временной ряд из отклонений st — (pt — Pt) будет стационарным. Таким образом, тестирование ППС возможно на основе анализа ло- гарифма реального обменного курса rst = st — (pt — Pt)• Временной
404 8. Одномерные модели временных рядов Таблица 8.3. (Тесты наличия единичного корня для логарифмического обменного курса Италия—Франция Статистика ДФ РДФA) РДФB) РДФ(З) РДФD) РДФE) РДФF) Без тренда -0,328 -0,361 -0,16 -0,291 -0,366 -0,463 -0,643 С трендом -1,9 -1,884 -1,925 -2,012 -2,026 -2,032 -2,262 Таблица 8.4. Тесты наличия единичного корня для логарифма реального обменного курса Италия—Франция Статистика ДФ РДФA) РДФB) РДФ(З) РДФD) РДФE) РДФF) Без тренда -1,93 -1,874 -1,93 -1,987 -1,942 -1,966 -2,287 С трендом -1,942 -1,892 -1,961 -2,022 -1,981 -2,005 -2,326 ряд логарифмов реального обменного курса представлен графиком на рисунке 8.6, в то время как результаты расширенных тестов Дики—Фуллера для этой переменной представлены в таблице 8.4. Результаты показывают, что нулевую гипотезу наличия единич- ного корня в rst (соответствующую нестационарности) отклонить невозможно. Следовательно, нет никакого свидетельства представ- ления паритета покупательной способности (ППС) в такой форме. Одна из причин, почему мы не можем отклонить нулевую гипотезу,
.6. Оценивание моделей АРСС 5.8 405 Рисунок 8.6, Логарифм реального обменного курса Италия—Франция, январь 1981 г. - июнь 1996 г. просто, состоит в том, что наша выборка содержит недостаточную информацию, то есть: наша выборка слишком коротка, и стандарт- ные ошибки просто слишком высоки, чтобы отклонить гипотезу единичного корня. Эта проблема, часто встречается при тестирова- нии паритета покупательной способности. Критический обзор этой литературы можно найти у Фрута и Рогоффа (Froot, Rogoff, 1996). В следующей главе мы также проанализируем, справедлива ли неко- торая более слабая форма ППС. 8.6. Оценивание моделей АРСС Предположим, мы знаем, что временной ряд данных у\,у2,--- ,Ут порожден процессом АРСС порядка р, q. В зависимости от спе- цификации модели и предположений о распределениях, мы гото- вы оценить неизвестные параметры обычным методом наименьших квадратов, нелинейным методом наименьших квадратов или мето- дом максимального правдоподобия.
406 8. Одномерные модели временных рядов 8.6.1. Метод наименьших квадратов С помощью метода наименьших квадратов параметры модели вы- числяются так, что остаточная сумма квадратов является минималь- ной. Применение МНК особенно легко для моделей авторегрессии. Рассмотрим модель АР (р) yt = 9iyt-i + 02yt-2 + •.. + Opyt-p + eu (8.61) где St ~ остаточный член белого шума, который не коррелирован ни с каким членом, датированным t — 1 или ранее. Следовательно, мы имеем, что E{yt-jet} = 0 для j = 1, 2,..., р, то есть, остаточные члены и объясняющие переменные являются одновременно некоррелироваными, и МНК, примененный к модели (8.61), обеспечивает состоятельные оценки. Таким образом, оцени- вание модели авторегрессии не отличается от оценивания линейной модели регрессии с лагированной зависимой переменной. Для моделей скользящего среднего оценивание несколько более сложное. Предположим, что мы имеем модель СС A) yt = et + aet-i. Поскольку St-i не наблюдается, то здесь мы не можем применить методы регрессии. В теории обычный метод наименьших квадратов минимизировал бы т S(a) = ^2(yt -aet-iJ. t=2 Возможное решение появиться, если мы запишем St-i в этом вы- ражении как функцию от наблюдаемых yt. Это возможно только, если полином С С является обратимым. В этом случае мы можем использовать, что оо e*-i = ^{-<хKУг-з-и з=о (см. выше) и записать Т s <э<а v 2 S(a) = £(tt-«£(-oOJ'w-i-i) • (=2 ^ j=0 J
8.6. Оценивание моделей АРСС 407 На практике yt не наблюдается для t = 0, —1,... , поэтому мы должны исключить бесконечную сумму в этом выражении, чтобы получить приближенную сумму квадратов IT1 4- О О S(a) = £ (и - а £(-a)Vi-i) . (8.62) Поскольку асимптотически разность между S(a) и S(a) исчезает, если Г стремиться к бесконечности, то минимизация приближенной суммы квадратов (8.62) относительно а приводит к состоятельной оценке а для а. К сожалению, выражение (8.62) является полино- мом высокого порядка по а и поэтому имеет очень много локальных минимумов. Поэтому численная минимизация суммы (8.62) является сложной. Однако, поскольку мы знаем, что — 1 < а < 1, то можно выполнить поиск по сетке (например, —0,99, —0,98, —0,97, ..., 0,98, 0,99). Получающаяся в результате оценка нелинейного метода наи- меньших квадратов для а является состоятельной и асимптотически нормальной. 8.6.2. Метод максимального правдоподобия Альтернативная оценка для моделей АРСС получается с помощью метода максимального правдоподобия (ММП). Для этого метода необходимо сделать допущение о виде распределения £j, которое обычно предполагается нормальным. Хотя предположение нормаль- ности строгое, тем не менее, ММП-оценки очень часто состоятельны даже в случаях, когда St имеет другое распределение. Условную по начальному значению функцию логарифма правдоподобия можно написать как log L(a, 0, а2) = -~ log Bтг<т2) - \ ]Г §, где St — функция коэффициентов а и #, yt и ее предистории. Для модели АРA): Et — yt — Qyt-\, а для модели ССA): £-2 £-1 et = yt-a ^2(~a)Jyt4-i = ^(-aKyt-j. j=0 j=0 Обе полученные таким образом логарифмическте функции правдо- подобия условны по начальному значению. Для случая АРA), у\ рассматривается как заданное, в то время как для случая ССA)
408 8. Одномерные модели временных рядов начальное условие есть £q = 0. Поэтому получающиеся в результате оценки называются оценками условного максимального правдо- подобия. Оценки условного максимального правдоподобия для а и 9, как легко видеть, идентичны оценкам наименьших квадратов. Точная оценка максимального правдоподобия объединяет услов- ное правдоподобие с правдоподобием от начальных наблюдений. Например, в случае АРA) к логарифму правдоподобия добавляется следующий член: который следует из того факта, что маргинальная плотность у\ является нормальной плотностью со средним значением нуль и дис- персией <т2/A — 92). Для процесса скользящего среднего точная функция правдоподобия несколько более сложная. Если Г большое, то способ, с помощью которого мы вводим в рассмотрение началь- ные значения, оказывает пренебрежимо малое влияние, так что условные и точные оценки максимального правдоподобия являются асимптотически эквивалентными в случаях, когда полиномы АР и С С являются обратимыми. Подробности можно найти у Гамильтона (Hamilton, 1994, Chapter 5). Из результатов, приведенных выше, ясно, что оценивание мо- делей авторегрессии проще, чем оценивание моделей скользящего среднего. Оценивание моделей АРСС, которые объединяют ком- поненту авторегрессии и компоненту скользящего среднего, тесно связано с поведением ММП-оценок параметров СС. Поскольку лю- бую (обратимую) модель АРСС можно аппроксимировать моделью авторегрессии бесконечного порядка, то общая практика все более и более приходит к тому, что вместо спецификаций СС или АРСС применяется спецификация авторегрессии, учитывающая достаточ- ное число лагов. В частности, если число наблюдений не слишком мало, то практически этот подход может работать вполне прилично. Конечно, представление С С того же самого процесса может быть более экономным. Другое преимущество моделей авторегрессии со- стоит в том, что они легко обобщаются на многомерные временные ряды, с помощью которых одновременно хотят смоделировать мно- жество экономических переменных. Это приводит к так называемым векторным моделям авторегрессии (ВАР-ам), которые обсуж- даются в следующей главе.
8.7. Выбор модели 409 8.7. Выбор модели В большинстве случаев не существует никаких экономических резо- нов для выбора конкретной спецификации модели. Поэтому подходя- щую модель временного ряда в большой степени определяют данные. Перед оцениванием любой модели обычно оценивают коэффициен- ты автокорреляций и частных автокорреляций непосредственно из данных. Часто это приводит к некоторой идее о подходящей моде- ли. После проведения оценивания одной или более моделей об их качестве позволяет судить проверка остатков, являются ли остатки более или менее белым шумом, и сравнение оцененных моделей с их альтернативными спецификациями. Эти сравнения молено делать на основе тестов статистической значимости или с помощью примене- ния критериев выбора индивидуальной модели. 8.7.7. Автокорреляционная функция Автокорреляционная функция (АКФ) описывает корреляцию между yt и ее лаговым значением yt-k как функцию от к. Напомним, что коэффициент автокорреляции k-го порядка определяется в виде _ coy {yt, yt-k] _ lk_ Рк ~ V{yt} " то " Для модели ССA) мы видели, что Ct Pl = T~i 2' ^2 = 0, #3=0, ..., 1 + az то есть, только первый коэффициент автокорреляции отличается от нуля. Для модели ССB) yt = et + aiSt-i + a2st-2 мы имеем E{y2t} = {l+a\ + al)a\ E{ytyt-i} = («i + aia2)a2, E{ytyt-2} = <y2<J2, E{ytyt_k} = 0, к = 3, 4, 5,... . Эти выражения следуют непосредственно из того, что после двух лагов значения АКФ равны нулю. Результат являются общим для моделей скользящего среднего: для модели СС (q) после q лагов АКФ равна нулю.
410 8. Одномерные модели временных рядов Выборочная автокорреляционная функция предоставляет оце- ненные коэффициенты автокорреляции как функцию от к. Коэф- фициент pk можно оценить в виде 7' 1 Т —т Y1 у*у*-* Pk = : ^ . (8.63) t=l Таким образом, теоретические ковариации в этом отношении заме- нены их выборочными оценками. Альтернативно рк можно оценить с помощью регрессии yt на yt-к, что даст немного другую оценку, так как суммирование в числителе и знаменателе будет проводить- ся по одному и тому же множеству наблюдений. Конечно, обычно несправедливо, что р/с равно нулю для модели СС порядка q < к. Но мы можем использовать р/с, чтобы проверить гипотезу, что pk — 0. Для этого мы можем применить асимптотический результат где vk = 1 + 2р\ + 2р\ + ... + 2р\, если q < к. Поэтому, чтобы проверить гипотезу, что истинная модель является СС@) против альтернативы ССA), мы можем проверить гипотезу р\ — 0 сравнением критической статистики vTpi с критически- ми значениями стандартного нормального распределения. Проверка гипотезы СС(А: — 1) против альтернативной гипотезы CC(fc) прово- дится тестированием рь — 0 и сравнением критической статистики >/Т Рк (8.64) y/l + 2p* + ... + 2p*_1 с критическими значениями из стандартного нормального распреде- ления. Как правило, границы с двумя стандартными ошибками для р/с на основе оцененной дисперсии 1 + 2р 2 +... + 2р^_ х отображаются на графике выборочной автокорреляционной функции (см. пример в п. 8.7.5 ниже). Таким образом, порядок модели скользящего среднего можно определить из обследования выборочной АКФ. По крайней 7) Возможны альтернативные состоятельные оценки, которые имеют несколько другое скорректированное число степеней свободы.
8.7. Выбор модели 411 мере, это даст нам приемлемое значение для д, чтобы с него начать, а диагностическая проверка, которая обсуждается ниже, должна показать, подходит это значение или нет. Для моделей авторегрессии АКФ менее полезна. Для модели АРA) мы видели, что коэффициенты автокорреляции не обрыва- ются на конечной длине лага. Вместо этого они стремятся к нулю экспоненциально в соответствии с рк = 0к. Для моделей авторегрес- сии высшего порядка автокорреляционная функция более сложная. Рассмотрим общую модель АРB) yt = 0i2/i_i +92yt-2 +et. Чтобы получить автоковариации, удобно взять ковариацию с yt-k от обеих частей последнего соотношения: cov {yt, yt-k} = 0! cov {yt-u Vt-k]+02 cov {yt-2, yt-k}+cov {eu yt-k]- Для к = 0,1, 2 приходим к выражениям 7о = 0i7i +0272 + ^2, 7i = #17о + 027ь 72 = 0i7i +027O- Это множество уравнений, известное как уравнения Юла—Уолке- ра (Yule—Walker), можно решить относительно автоковариации 7о •> 7i и 72 как функций параметров модели 0i, 02 и а2. Ковариации высшего порядка можно определить рекурсивно из соотношения 7/с = 0i7/c-i + 027fc-2, к = 2, 3,... , которое соответствует дифференциальному уравнению второго по- рядка. В зависимости от в\ и 02 структуры АКФ могут быть совсем разными. Следовательно, вообще только реальный эксперт может идентифицировать процесс АРB) из структуры АКФ, уж не говоря о выборочной структуре АКФ. Альтернативный источник полезной информации предоставляется частной автокорреляционной функ- цией, обсуждаемой в следующем пункте. 8.7.2. Частная автокорреляционная функция Определим теперь выборочный частный коэффициент автокор- реляции fc-ro порядка как оценку для 0& в модели АР (А:). Мы обозначим его 9kk- Так что, при оценивании yt = Oiyt-i + et
412 8. Одномерные модели временных рядов мы получаем 9ц, в то время как при оценивании yt = 6iyt-i + 02yt-2 +£t мы будем иметь в качестве #22, оценку коэффициента при yt-2 в мо- дели АРB). Частная автокорреляция вкк измеряет дополнительную корреляцию между yt и yt-k после корректировок, сделанных для промежуточных значений yt-ъ • • , Vt-k+i • Очевидно, что если истинной моделью является процесс АР(р), тогда МНК-оценивание модели АР (к) приводит к состоятельным оценкам для параметров модели, если к > р. Следовательно, мы имеем plimflfcfc = 0, если к > р. (8.65) Кроме того, можно показать, что асимптотическое распределение является стандартным нормальным распределением, то есть. у/Т{екк-0)-+ЛГ@,1), если к>р. (8.66) Следовательно, частные коэффициенты автокорреляции (или част- ную автокорреляционную функцию (ЧАКФ)) можно использовать для определения порядка процесса АР. Тестирование модели АР (к — 1) против модели АР (к) означает проверку нулевой гипотезы бкк — 0. При нулевой гипотезе, что модель является моделью АР (/с — 1), приближенная стандартная ошибка бкк, основанная на асимптоти- ческом распределении (8.66), есть 1/vT, так что гипотеза Окк = 0 отклоняется, если \\Т9кк\ > 1,96. С точки зрения такой процедуры можно посмотреть на ЧАКФ и протестировать, для каких лагов частный коэффициент автокорреляции отличается от нуля. Для ис- тинной модели АР (р) частные автокорреляции будут близки к нулю после р-го лага. Для моделей скользящего среднего можно показать, что частные автокорреляции не имеют точки обрыва, но убывают к нулю, точно так же как автокорреляции в модели авторегрессии. В итоге процесс АР(р) описывается: 1. АКФ, которая бесконечна по протяженности (она убывает). 2. ЧАКФ, которая равна (близка к) нулю для лагов болыних,чем р. Для процесса CC(q) мы имеем: 1. АКФ, которая равна (близка к) нулю для лагов больших, чем q. 2. ЧАКФ, которая бесконечна по протяженности (она убывает).
8.7. Выбор модели 413 При отсутствии любой из этих двух ситуаций, экономное представ- ление данных можно получить с помощью объединенной модели АРСС. 8.7.3. Диагностическая проверка В качестве последнего шага в цикле построения модели требуются некоторые проверки ее адекватности. Такую возможность предо- ставляет анализ остатков и переподгонка специфицированной модели. Например, если выбрана модель АРСС(р, q) (на основе вы- борочных АКФ и ЧАКФ). то мы также можем оценить модели АРСС(р + 1, q) и АРСС(р, q + 1) и протестировать значимость до- полнительных параметров. Анализ остатков обычно основан на том факте, что остатки адекватной модели приближенно должны быть белым шумом. Гра- фик остатков может быть полезным инструментом при проверке выбросов. Кроме того, обычно исследуют оцененные автокорреля- ции остатков. Напомним, что для ряда белого шума автокорреляции равны нулю. Поэтому значимость автокорреляций остатков часто проверяется сравнением с двумя границами, аппроксимированными стандартной ошибкой ±2/vT. Чтобы проверить полную приемле- мость автокорреляций остатков, часто применяется критическая статистика Льюнга—Бокса (Ljung, Box, 1978), К 1 Qk=T{T + 2)YjT^rl (8.67) fc=i Здесь rk — оцененные коэффициенты автокорреляций остатков £$, а К — число, выбранное исследователем. Значения Q для разных К можно вычислить в анализе остатков. Для процесса АРСС(р, q) (для yt) статистика Qk приближенно имеет хи-квадрат распреде- ление с К — р — q степенями свободы (при нулевой гипотезе, что модель АРСС(р, q) специфицирована верно). Если на этой стадии модель отклоняется, то цикл построения модели следует повторить. Заметим, что этот тест имеет смысл, только если К > р + q. 8.7.4. Критерии для выбора модели Так как экономическая теория не обеспечивает никакого руковод- ства для соответствующего выбора модели, то можно использовать некоторые дополнительные критерии, чтобы произвести выбор из
414 8. Одномерные модели временных рядов альтернативных моделей, которые являются приемлемыми со ста- тистической точки зрения. Поскольку общая модель всегда будет обеспечивать лучшую подгонку (в пределах выборки), чем ее огра- ниченная версия, то все такие критерии являются компромиссами между согласием модели и числом параметров, используемых для получения такой подгонки. Например, если бы модель ССB) обес- печила бы то же самое соответствие как модель АР A0), то мы предпочли бы первую модель, поскольку она более экономна. Как обсуждалось в главе 3, хорошо известным критерием является ин- формационный критерий Акаике (АИК) (Akaike, 1973). В на- стоящем контексте он имеет вид: АИК -log а2 + 2^, (8.68) где а2 — оцененная дисперсия et- Альтернативным критерием яв- ляется байесовский информационный критерий Шварца (ШК, БИК или ШБК), предложенный Шварцом (Schwarz, 1978), который имеет вид: БИК = log а2 + ^-^- log Т. (8.69) Оба критерия основаны на правдоподобии и представляют компро- мисс между качеством «подгонки», которое измеряется значением логарифма правдоподобия, и «экономией», которая измеряется чис- лом свободных параметров p + q. Если константа включена в модель, то число параметров увеличивается до p+q+1. Обычно модель с наи- меньшим значением АИК или БИК предпочтительнее, хотя можно отклоняться от этого, если разности в значениях критерия являются малыми для подмножества моделей. В то время как оба эти критерия основаны на компромиссе меж- ду подгонкой и экономией, критерий БИК, возможно, предпочти- тельнее, так как он имеет свойство выбирать истинную модель почти наверное, если Т —■» ос при условии, что истинная модель находится в классе моделей АРСС(р, q) для относительно малых значений р и q. Критерий АИК имеет тенденцию к получению (асимптотически) перепараметризованных моделей (см. Hannan, 1980). 8.7.5. Пример: моделирование ежеквартального располагаемого дохода В п. 8.4.3 мы видели, что было невозможно отклонить нулевую ги- потезу наличия единичного корня в ежеквартальном располагаемом
8.7. Выбор модели 415 9Р Выборочная АКФ Выборочная ЧАКФ Рисунок 8.7. Выборочные АКФ и ЧАКФ приращений ежеквартального дохода доходе Великобритании. Поэтому в этом пункте мы будем пытаться моделировать временной ряд первых разностей, т. е. приращений в доходе. Выборочная автокорреляционная функция и частная авто- корреляционная функция представлена на рисунке 8.7. Мы видим, что и коэффициенты автокорреляции и частные коэффициенты ав- токорреляции значимо отличаются от нуля в лагах один, два и четыре, в то время как для ЧАКФ существенное значение найдено также в лаге 10. Относительно большую (частную) автокорреляцию в лаге 4 можно объяснить ежеквартальной природой ряда данных. Анализ выборочных АКФ и ЧАКФ не приводит нас к выбору какой-либо модели, которая приходит на ум. Поскольку можно было бы полагать, что и АКФ, и ЧАКФ равны нулю после лага 4, то можно попытаться рассмотреть оценивание модели АР D) или ССD). При условии значимости 10-го лага ЧАКФ спецификация ССD) априори несколько предпочтительнее. Две модели четвертого порядка оценены после того, как из наблюдений было вычтено среднее значение с тем, чтобы можно было исключить свободный член. Все модели оценены обычным методом наименьших квадратов.
416 8. Одномерные модели временных рядов Для модели АРD) мы получили: Ayt = -0,121 Ayt-i+ 0,234 Ayt„2- 0,053 Ayt.3+ 0,483 Ayt-4+eu @,122) @,127) @,134) @,137) Q6 = 2,07 (p = 0,354), Qi2 = 8,12 (p = 0,422), a - 632,926, АИК = 901,888, БИК = 910,060, тогда как оценивание модели ССD) привело к модели: Ayt = 0,186 st-i- 0,355 et-2+ 0,138 et-3- 0,432 et.A + eu @,128) @,129) @,131) @,132) Q6 = 1,70 (p = 0,428), Q12 = 9,24 (p = 0,323), 5 = 656,387, АИК = 906,072, БИК = 914,244. Ни для одной из спецификаций мы не могли отклонить нулевую гипо- тезу, что остатки соответствуют процессу белого шума. Статистики Льюнга—Бокса не отклонили автокорреляции остатков для первых К = 6 и К = 12. Спецификация модели авторегрессии обеспечила лучшую подгонку к данным, чем модель скользящего среднего, хотя обе спецификации содержат, по крайней мере, два незначимых лага. Интересно увидеть, могла ли более экономная модель обеспе- чить почти то лее самое соответствие (но с меньшим числом парамет- ров). Поскольку (частный) коэффициент автокорреляции третьего порядка Ayt является очень маленьким, то мы рассматривали спе- цификации АР и С С четвертого порядка, но с исключенным третьим лагом. Это привело к следующей модели авторегрессии: Ayt= -0,143 Ayt-i- 0,241 Ду*-2+ 0,490 Ayt_4 + et, 5 = 622,663, @,115) @,126) @,133) Q6 = 2,13 (р = 0,546), Q12 = 7,88 (р = 0,546), АИК = 900,074, БИК = 906,203, в то время как модель скользящего среднего имела вид: Ayt = 0,133 et-i- 0,336 et-2- 0,413 et-4 + eu Э = 656,284, @,129) @,129) @,137) Q6 = 3,13 (p = 0,372), Q12 = 10,62 (p = 0,303), АИК = 905,060, БИК = 911,189. На основе критериев АИК и БИК обе спецификации можно предпочесть их более общим аналогам, которые включают третий
8.8. Прогнозирование с помощью моделей АРСС 417 лаг. Модель авторегрессии, по-видимому, обеспечивает лучшее соот- ветствие, хотя два из ее коэффициентов индивидуально не значимо отличны от нуля (на 5%-ом уровне). И, наконец, мы рассмотрели модель АР четвертого порядка, которая включает только лаги 2 и 4. Это привело к следующим результатам: Ayt = 0,266 Ayt-2+ 0,513 Ayt-4 + eu Э = 626,791 @,126) @.133) Q6 = 4,62 (p = 0,329), Q12 = 11,66 (p = 0,309), АИК = 899,890, БИК = 903,976. Опять оба критерия, АИК и БИК, поддержали бы эту более эко- номную модель. Вспомним, что критерий БИК имеет более высокое наказание за дополнительные параметры по сравнению с АИК. Если теперь мы рассмотрели бы исключение второго лага модели, то по- лученная в результате спецификация больше не была бы приемлема. В частности, статистики Льюнга—Бокса и критерии АИК и БИК имели вид: Q6 = 12,03 (р = 0,034), Q12 = 19,23 (р = 0,057), АИК = 902,750, БИК = 904,793. Заметим, что такую модель следует отклонить, хотя модельные остатки являются белым шумом, в то же время критерии АИК и БИК увеличились снова. Таким образом, мы можем заключить, что модель АРD) с включенными лагами 2 и 4 обеспечивает адекватное описание процесса изменения в ежеквартальном доходе. 8.8. Прогнозирование с помощью моделей АРСС Главная цель построения модели временного ряда состоит в прогно- зировании будущей траектории экономических переменных. Молено заметить, что модели АРСС обычно выполняют это весьма успешно и часто превосходят более сложные структурные модели. Конечно, модели АРСС не дают никакого экономического толкования прогно- зов и при альтернативных экономических сценариях оказываются непригодными для прогнозирования. В этом параграфе мы обсудим оптимальную прогнозирующую функцию, которая является просто
418 8. Одномерные модели временных рядов условным математическим ожиданием будущего значения при дан- ной доступной информации, а также ее вывод для моделей АРСС. Кроме того, мы уделим внимание вопросам точности прогнози- рования. 8.8. 7. Оптимальная прогнозирующая функция Предположим, что мы находимся в моменте времени Т и интере- суемся предсказанием ут+h, т.е. значением yt на h тактов времени вперед. Прогноз для ут+н будет основан на информационном множестве, обозначенном 1т, содержащем информацию, которая доступна и потенциально применима на момент времени построения прогноза. Идеально это множество содержит всю информацию, ко- торая наблюдается и известна на момент времени Г. При моделиро- вании одномерного временного ряда мы будем обычно предполагать, что информационное множество в любой точке момента времени t содержит значение yt и всех его лагов. Таким образом, мы имеем 1т = {у-оо, • • •, ут-u Ут}- (8-70) Вообще прогноз ут+н\т (т-е- прогноз для ут+h, который построен в момент времени Т) является функцией переменных этого информа- ционного множества 1т- Наш критерий для выбора такой функции из многих возможных функций должен минимизировать (по ут+н\ т) математическое ожидание квадрата ошибки предсказания E{(yT+h-yT+h{TJ\lT}, (8.71) где Е{-\1т} обозначает условное математическое ожидание при усло- вии заданности информационного множества 1т- Не очень сложно показать, что наилучшим прогнозом для ут+h, при условии задан- ного информационного множества в момент времени Г, является условное математическое ожидание ут+н при заданной информа- ции 1т- Мы обозначим эту оптимальную функцию как Ут+н\т = Е{ут+н\1т}- (8.72) Поскольку оптимальный прогноз является условным математи- ческим ожиданием, то он удовлетворяет обычным свойствам опе- раторов математического ожидания. Наиболее важно, что условное математическое ожидание суммы является суммой условных мате- матических ожиданий. Далее справедливо, что условное математи- ческое ожидание ут+н при условии информационного множества 1'т->
8.8. Прогнозирование с помощью моделей АРСС 419 где Т'т — подмножество 1т, в лучшем случае столь же хорошо как Ут+н\т, основанное на Хт- В соответствии с нашей интуицией спра- ведливо, что чем более богатое информационное множество приме- няется для определения прогноза (большее Хт), тем лучше прогноз. Например, Е{ут+н\ут, Ут-\, Ут-2, • • •} обычно будет лучшим пре- диктором, чем Е{ут+и\ут} или Е{ут+и} (пустое информационное множество). Для упрощения в последующем мы предполагаем, что парамет- ры в модели АРСС для yt известны. Практически можно было бы заменить неизвестные параметры просто их состоятельными оцен- ками. Теперь, как нам определить эти условные математические ожидания, если yt описывается процессом АРСС? В качестве перво- го примера рассмотрим процесс АРA), где yt = 0yt-i +st- Поэтому для ут+i по предположению справедливо, что yT+i = Оут + ет+i- Следовательно, Ут+1|т = Е{ут+\\ут, г/г-ь • • •} = = 9ут + Е{ет+\\ут, Ут-ь • • •} = Оут, (8.73) где последнее равенство следует из того факта, что процесс белого шума непредсказуем. Чтобы предсказать на два такта времени впе- ред (h = 2), мы напишем 2/Т+2 = #УТ+1 + £Т+2, откуда следует, что Е{ут+2\ут, Уг-ь • • •} = 9Е{ут+1\ут, ут-ь •. •} = 02ут. (8.74) В общем мы получаем ут+и\т — 9НУт- Таким образом последнее наблюдаемое значение ут содержит всю информацию, чтобы опре- делить прогноз для любого будущего значения. Когда h является большим, прогнозирующая функция для ут+h сходится к 0 (без- условное математическое ожидание yt) при условии, что (конечно) |0| < 1. С ненулевым средним значением наилучший прогноз для Yr+h непосредственно получается как \± + ут+и\т — ^ + 0 (Yt — аО- Заметим, что он отличается от 9hYT. В качестве второго примера рассмотрим процесс ССA), где yt = et + aet-i.
420 8. Одномерные модели временных рядов Тогда мы имеем Е{ут+г\ут, Ут-1, • • •} = аЕ{ет\ут, Ут-ь • • •} = ает, где неявно мы предполагали, что ет наблюдается (содержится в 1т)- Это предположение является законным при условии, что процесс СС является обратимым. В этом случае мы можем написать оо j=o Следовательно, оо yT+i\T = a^2(-a)JyT-j. (8.75) Прогнозируя на два такта времени вперед, получаем Ут+2|г = Е{ет+2\ут, Ут-\, •..} + &Е{ет+\\ут, Ут-\,...} = 0. (8.76) Прогнозирование на два такта времени вперед на основе модели ССA) является неинформативным: наилучшим прогнозом является просто значение математического ожидания yt, которое при нашей нормировке равно 0. Это также следует из автокорреляционной функции процесса, потому что АКФ равна нулю после одного лага. То есть, «память» процесса — только один период. Для общей модели АРСС(р, д), Уг = Oiyt-i + • •. + Opyt-p + et + axst-i + ... + aqet-q, мы можем получить следующую рекурсивную формулу для опреде- ления оптимальных прогнозов Ут+и\т= 91Ут+н-1\т+ • • • + 9pyT+h-P\T + + £т+н\т + а\£т+н-1\т + • • • + aqeT+h-q\T, (8.77) где вт+к\т является оптимальным прогнозом для ет+к в момент времени Т и Ут+к\т = Ут+/с, если к < 0, ет+к\т — 0, если к > 0, £т+/с|г = £т+ь если к < 0, где последнее нововведение может быть определено из авторегресси- онного представления модели. Для этого мы использовали тот факт, что процесс является стационарным и обратимым, когда инфор- мационное множество {ут-> Ут-ъ • • •} эквивалентно {ет? £т-ъ • • •}•
8.8. Прогнозирование с помощью моделей АРСС 421 То есть, если все St известны от — оо до Т, то и все yt известны от — сю до Г и наоборот. Чтобы проиллюстрировать это, рассмотрим модель АРССA, 1), где yt = 9yt-i + st + aet-\, так что 2/t+i|t = OyT\T + sT+i\T + aeT\T = Оут + а£т- Пользуясь тем, что (предполагая обратимость) соотношение yt -9yt-i = A + aL)et молено переписать в виде сю et = (l + aL)-\yt - 9yt-{) = Y,(-a)JLJ(yt ~ %*-i). j=0 для прогноза на один такт времени вперед мы можем написать оо Ут+цт = Оут + a ^2(-aY(yT-j - вут-j-i). (8.78) j=0 Прогнозируя на два такта времени вперед, получим Ут+2\т = 9ут+1\т + £т+2\т + ает+1\т = Оут+цт- (8.79) Заметим, что это не равно 62ут- 8.8.2. Точность прогнозирования В дополнение к самому прогнозу важно знать (иногда даже бо- лее существенно), насколько точен этот прогноз. Чтобы судить о точности прогнозирования, мы определим ошибку прогноза как Ут+h — Ут+н\т, а математическое ожидание квадрата ошибки пред- сказания как Ch = Е{{ут+н - Ут+н\т?} = У{ут+н\1т}, (8.80) где последний шаг следует из того факта, что УТ+/г|Т = Е{ут+н\1т}. Определение Ch, соответствующее дисперсии ошибки прогноза на h тактов времени вперед, является относительно легким с представле- нием в виде скользящее среднего.
422 8. Одномерные модели временных рядов Чтобы йачать с самого простого случая, рассмотрим модель ССA). Тогда мы имеем С\ = У{ут+1|ут,Ут-ь...} = = V{eT+i + ает\ет, еТ-и • • •} = V{eT+i} = °2- Альтернативно для прогноза мы получаем решение в явном виде, которое есть ут+1\т — &£т, и определяем дисперсию Ут+1-2/т+1|т = £т+ъ что приводит к тому же самому результату. Для прогноза на два такта времени вперед мы имеем С2 = У{ут+2\ут, Ут-i, • • •} = = V{st+2 + olst+i\£t, £t-i, ...} = A + а2)а2. Как и ожидалось, точность предсказания уменьшается, если мы про- гнозируем дальше в будущее. Однако точность нисколько не будет увеличиваться дальше, если h будет увеличиваться более чем на 2 такта времени. Это становится ясным, если мы сравним математи- ческое ожидание квадрата ошибки прогноза с простым безусловным прогнозом, Ут+и\т = E{yT+h] = 0 (пустое информационное множество). Для этого прогноза мы имеем Ch = E{{yT+h - ОJ} = V{yT+h} = A + а2)а2. Следовательно, это дает верхнюю границу погрешности прогнозов. Таким образом, модель ССA) дает более эффективные прогнозы, если она прогнозирует только на один такт времени вперед. Однако более общие модели АРСС дадут выигрыш в эффективности при прогнозировании на большее число тактов времени вперед. Предположим, что общей моделью является модель АРСС (р, q), которую мы запишем как модель СС(ос) с коэффициентами ау : оо Прогноз на /i-тактов времени вперед (в терминах £t"x) имеет вид Ут+к\т = Е{ут+н\ут, Ут-1, • • •} = со оо = 5Z ajEi£T+h - j\er, ег-1, • • •} = Yl aj£r+h-j, j=o j=h
8.8. Прогнозирование с помощью моделей АРСС 423 так что h-l Ут+h ~ Ут+н\т = Yl a3eT+h-j- Следовательно, мы имеем /i-i Е{(ут+н - Ут+н\тJ} = ст2 ]Г а). (8.81) i=o Это показывает, насколько легко можно определить дисперсии оши- бок прогноза по коэффициентам модели в представлении сколь- зящего среднего. Вспомним, что для вычисления прогноза самым удобным было авторегрессионное представление. В качестве иллюстрации рассмотрим модель АРA), где olj — в3. Математическое ожидание квадрата ошибки прогноза имеет вид С1=а2, С2 = а2A + в2), С3 = а2A + в2 + в4), и т. д. Для h стремящегося в бесконечность, мы имеем выражение Coo = a2(i + e2 + e4 + ...) = Y^, которое является безусловной дисперсией yt, и, следовательно, — математическим ожиданием квадрата ошибки постоянного прогноза Ут+н\т = Е{ут+н} = 0. Следовательно, полезность информации, содержавшейся в процессе АРA) медленно убывает во времени. В долгосрочной динамике оп- тимальный прогноз равен безусловному прогнозу, который является средним значением ряда yt (что имеет место во всех стационарных моделях временного ряда). Заметим, что для случайного блуждания с в = 1 дисперсия ошибки прогноза возрастает линейно с горизонтом прогноза. В практических случаях параметры в моделях АРСС будут неизвестными и мы заменяем их оцененными значениями. Это вво- дит дополнительную неопределенность в предикторы. Однако обыч- но эта неопределенность игнорируется. Мотивация состоит в том, что дополнительная дисперсия, которая возникает из-за ошибки оценивания, асимптотически исчезает, когда объем выборки Г стре- мится к бесконечности. На практике увеличение дисперсии ошибки прогноза, если его принимать в расчет, обычно является довольно маленьким.
424 8. Одномерные модели временных рядов 8.9. Пример: теория ожиданий временной структуры Очень часто построение модели временного ряда не цель сама по себе, а необходимый компонент экономического анализа. Чтобы проиллю- стрировать это, в настоящем разделе мы уделим внимание временной структуре процентных ставок. Этой временной структуре уделялось значительное внимание, как в макроэкономической литературе, так и в литературе по финансам (см., например, Pagan, Hall, Martin, 1996), а гипотеза ожиданий играла центральную роль во многих из этих исследований. Чтобы ввести проблему, мы рассмотрим n-срочную дисконтную облигацию, которая является просто требованием оплаты одного доллара, за п периодов от настоящей даты. Цена (рыночная) в мо- мент времени t (в настоящее время) этой дисконтной облигации обозначается pnt. Тогда подразумеваемую процентную ставку rnt можно определить решением уравнения 1 Кривая доходности описывает rnt как функцию от ее срока по- гашения п и может изменяться от одного периода t к другому. Эта кривая отображает временную структуру процентных ставок. Мо- дели временной структуры пытаются одновременно смоделировать, как связаны различные процентные ставки и как кривая доходности изменяется с течением времени. Теоретическую гипотезу ожиданий в линеаризованном ви- де можно записать как rnt = -Y]E{rltt+h\It}, (8.83) п *-^ h=0 где Xt обозначает информационное множество, содержащее всю ин- формацию, имеющуюся на момент времени t. Эта гипотеза говорит, что долгосрочная процентная ставка является средней величиной математических ожиданий краткосрочных ставок с одинаковым ин- тервалом. Левую часть этого выражения можно интерпретировать как определенный доход n-срочного вклада, в то время как правая (8.82)
8.9. Пример: теория ожиданий временной структуры 425 часть соответствует ожидаемому ' доходу от вклада в одно-срочные облигации n-срочного горизонта. Таким образом, ожидаемая при- быль на облигации с различными моментами погашения, как пред- полагают, должна быть одинаковой. Гипотеза ожиданий в более общей форме учитывает премию за риск, предполагая, что ожидаемые доходы на различные обли- гации могут отличаться на константы, которые могут зависеть от момента погашения, но не от времени. В более общей форме выра- жение (8.83) можно написать как .. 71—1 гш = - У] E{rht+h\lt} + Фп, (8.84) п f—' /i=0 где Фп обозначает рисковую или временную премию, которая изме- няется со сроком погашения п. Вместо проверки гипотезы ожиданий в такой форме, которая является предметом многих исследований (см. Campbell, Shiller, 1991), мы будем рассматривать простое вы- полнение соотношения (8.84). При условии, что временная премия является константой, мы можем завершить описание модели, сде- лав предположение о релевантном информационном множестве Xt и процессе временного ряда одно-срочной процентной ставки. Для простоты предположим, что It = {rit,rM_i,rM_2, . ..}, так что релевантное информационное множество содержит только текущие и лагированные краткосрочные процентные ставки. Если Гц можно описать процессом АРA): Гц - М = 0(ri,t-i - АО + еи с 0 < 9 < 1, то оптимальный прогноз на s периодов вперед (см. выражение (8.74)) имеет вид E{rl9t+h\It} = iJL + eh(rlt-ii). Подстановка этого выражения в соотношение (8.84) приводит к вы- ражению 1 п— 1 Tut = ~ У][/Х + eh(rlt - /i)] + Фп = h=0 Мы предполагаем рациональные ожидания, которые означают, что экономи- ческие факторы имеют ожидания, которые соответствуют математическим ожиданиям, условным по некоторому информационному множеству.
426 8. Одномерные модели временных рядов = // + £п(г1*-//) + Фп, (8.85) где для 0 < 9 < 1 h=0 в то время как для 9 = 1 мы имеем £п = 1 для каждого срока пога- шения п. Довольно простая модель временной структуры (8.85) подра- зумевает, что долгосрочные процентные ставки зависят линейно от краткосрочных ставок, и что приращения краткосрочных ставок имеют меньшее влияние на более долгосрочные ставки, чем на более краткосрочные ставки, так как £п уменьшается с п, если 0 < 9 < 1. Например, заметим, что дисперсия V{rnt} = enV{ru}, (8.87) что при 0 < 9 < 1 означает, что краткосрочные процентные ставки более изменчивы, чем долгосрочные ставки. Результат (8.85) также означает, что существует просто один фактор, который управляет процентными ставками в любом сроке погашения, и соответственно один фактор, который сдвигает временную структуру. Если вся премия за риск равна нулю (Фп = 0), то возникает об- ратная кривая процентного дохода (с краткосрочными процентными ставками, превышающими долгосрочные ставки), если краткосроч- ная ставка выше своего среднего значения //, которая случается в 50% случаев (если распределение £^, является симметрическим от- носительно нуля (например, нормальное распределение)). Причина состоит в том, что, если краткосрочная ставка ниже своего среднего значения, то ожидается ее возрастание опять к своему среднему значению, которое увеличивает долгосрочные процентные ставки. На практике мы видим обратные кривые процентного дохода менее чем в 50% периодов. Например, на рисунке 8.8 мы представили одномесячные и 5-летние процентные доходы по облигациям для Соединенных Штатов 9) за период с января 1970 г. по февраль 1991 г. Данные, использованные в этом разделе, взяты из совокупности данных МакКаллоша и Квона (McCulloch, Kwon, 1993). Они доступны в IRATES.
8.9. Пример: теория ожиданий временной структуры 427 2 н—i—\—\—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—г 70 72 74 76 78 80 82 84 86 88 90 одномесячная ставка пятилетняя ставка Рисунок 8.8, Одномесячные и пятилетние процентные ставки (в %), январь 1970 г. - февраль 1991 г. (Г = 254). Обычно, долгосрочная ставка выше краткосрочной, но есть несколько периодов изменения соотношения на обратное, на- пример, за период с июня 1973 г. по март 1974 г. Ясно, что свойства временного ряда краткосрочных процентных ставок важны для пространственных соотношений между процент- ными ставками с различными сроками погашения. Если краткосроч- ная ставка следует процессу АРA), то мы получаем довольно простое выражение (8.85), из которого, в частности, следует, что значения £п являются очень чувствительными к точному значению в, особен- но для больших сроков погашения, если 9 близко к единице. Для более общих процессов временных рядов мы получаем аналогичные выражения, но результат не будет включать только текущую кратко- срочную ставку. Поскольку оптимальный предиктор, например, для модели АРB) зависит от двух последних наблюдений, то процесс АРB) для краткосрочной ставки дал бы выражение, аналогичное (8.85), которое включает Гц и rij-i-
428 8. Одномерные модели временных рядов Спорной проблемой является стационарность. Во многих слу- чаях, наличие единичного корня во временном ряде краткосрочной временной процентной ставки невозможно отклонить статисти- чески, но это не обязательно означает, что мы должны принять гипотезу наличия единичного корня. Экономически, по-видимому, сложно отрицать нестационарность процентных ставок, несмотря на то, что их постоянство, как известно, является высоким. Таким образом, даже для стационарного временного ряда требуется очень много времени, чтобы этот ряд возвратился к своему среднему значе- нию. Различные авторы имеют разные суждения по этому вопросу, и можно найти эмпирические исследования временной структуры процентных ставок, в которых обнаруживается как стационарность, так и нестационарность. Сначала оценим модель АРA) для одноме- сячной процентной ставки. Оценивание с помощью МНК приводит к соотношению (стандартные ошибки в круглых скобках): rlt = 0,350 + 0,951 rM_i + eu Э = 0,820. (8.88) @,152) @,020) Это означает, что оценка для /х равна 0,350/A — 0,951), которая соот- ветствует приблизительно 7,2%, в то время как выборочное среднее равно 7,3%. Мы можем определить из этой регрессии критическую статистику теста Дики—Фуллера как @,951 — 1)/0,020 = —2,49 и это означает, что мы не можем отклонить нулевую гипотезу наличия единичного корня ни на 5%-ом, ни на 10%-ом уровне значимости10^. Поскольку модель АРA) возможно слишком ограничена, мы также выполнили ряд расширенных тестов Дики—Фуллера с дополнитель- но включенными лагами 1, 3 и 6. Полученные критические статисти- ки были равны: —2,63, —2,29 и —1,88 соответственно. Только первый тест подразумевает отклонение нулевой гипотезы на 10%-ом уровне значимости. Таким образом, мы находим, что наличие единичного корня в краткосрочной временной процентной ставке отклонить ста- тистически не представляется возможным. Несмотря на это, мы не будем полагаться на этот результат в последующем априорно. Краткосрочная процентная ставка удивительно хорошо описы- вается процессом авторегрессии первого порядка в (8.88). Например, оценивание спецификаций АРB) или АРССA, 1) не приводит к зна- чимо лучшим результатам. Оцененная автокорреляционная функция Приведенные в таблице 8.1 соответствующие критические значения равны —2,88 и —2,57 соответственно.
8.9. Пример: теория ожиданий временной структуры 429 1 2 3 4 5 6 7 9 10 11 12 13 14 Рисунок 8.9. Автокорреляционная функция остатков, модель АРA), Гц, январь 1970 г. - февраль 1991 г. остатков модели АРA) представлена на рисунке 8.9. Она показы- вает, что мы не можем отклонить нулевую гипотезу о том, и что остаточный член в (8.88) является процессом белого шума. Способ проверить гипотезу ожиданий состоит в том, чтобы полу- чить регрессию долгосрочной процентной ставки по краткосрочной ставке, то есть rnt = 0i+forit + ut. (8.89) Если соотношение (8.85) считать в точности истинным, то остаточ- ный член в регрессии (8.89) должен быть пренебрежимо малым (то есть, R2 должен быть довольно близок к единице), а истин- ное значение /?2 должно равняться £п. Результаты этих регрессий для сроков погашения п = 3, 12 и 60 представлены в таблице 8.5. При условии высокой чувствительность £п относительно 0, которое значимо не отличалось от единицы, оцененные значения для £п апри- орно не кажутся конфликтующими с моделью временного ряда для краткосрочной ставки. Однако следует сказать, что R регрессии с пятилетним доходом по облигациям является довольно низким.
430 8. Одномерные модели временных рядов Таблица 8.5. Временная структура процентных ставок значение £„ с 9 = 0,95 значение £п с в = 1 МНК-оценка £„ (стандартная ошибка) R регрессии Ежеквартальные п — 3 0,951 1 1,009 @,009) 0,982 Ежегодные 71 = 12 0,766 1 0,947 @,017) 0,929 Пятилетние 71 = 60 0,318 1 0,739 @,028) 0,735 Это подразумевает, что в дополнение к краткосрочной ставке на долгосрочный процентный доход влияют другие факторы. Одним из объясняющих факторов является временная вариация страховой премии за риск Фп. Альтернативно наличие ошибок измерений в процентных ставках может уменьшать их пространственные ("cross- sectional") корреляции. На более общем уровне рассмотренный пример иллюстрирует тонкую зависимость долгосрочных динамических прогнозов от нали- чия единичного корня. Несмотря на то, что оцененное значение 0,95 отличается от единицы незначимо, принятие гипотезы наличия еди- ничного корня означало бы, что процентные ставки следуют случай- ному блужданию, и что последнее наблюдаемое значение является прогнозом на любой будущий период. В данном случае это значение равно 5,68%. Используя в — 0,95, оптимальный прогноз на 10 пери- одов вперед равен 6,3%, тогда как прогноз на пятилетний горизонт фактически идентичен безусловному среднему значению ряда 7,2%. 8.10. Авторегрессионная условная гетероскедастичность (АРУГ)*^ В финансовых временных рядах часто наблюдается феномен, ко- торый называется объединением в кластеры волатильности В оригинале англоязычная аббревиатура — это ARCH, что соответствует "AutoRegressive Conditional Heteroskedasticity" (примеч. научн. ред. перевода).
8.10. Авторегрессионная условная гетероскедастичность 431 (изменчивости). В этом случае большие возмущения (остатки) имеют тенденцию к последующим большим возмущениям в лю- бом из двух направлений, а малые возмущения имеют тенденцию к последующим малым возмущениям. Например, фондовые биржи обычно характеризуются периодами высокой волатильности и более «ослабленными» периодами низкой волатильности. Это особенно верно для краткосрочной периодичности, например, в ежедневных или еженедельных отчетах, но менее ясно для более долгосрочной периодичности. Один из способов моделировать такие структуры со- стоит в том, чтобы принять предположение зависимости дисперсии остатков St от ее предыстории. 8.70.7. АРУГ- и ОАРУГ-модели*) Основополагающей статьей в этой области является статья Энгле (Engle, 1982), в которой вводится понятие авторегрессионной условной гетероскедастичности (АРУГ). Смысл понятия со- стоит в том, что дисперсия остаточного члена в момент времени t зависит от квадратов остаточных членов из предыдущих периодов. Самая простая форма имеет вид a2 = E{e2t\lt-i} = w + ае2_±, (8.90) где Xt-i обозначает информационное множество, обычно включаю- щее Et-i и всю его предысторию. Такая спецификация называется процессом авторегрессионной условной гетероскедастичности поряд- ка 1, АРУГA). Чтобы гарантировать, что а2 > 0 вне зависимости от £t_i, мы должны наложить ограничения го>0иа>0. Моде- лью АРУГA) описывается следующее: если в периоде t — 1 случается большое возмущение, то более вероятно, что St также имеет большое (по абсолютной величине) значение. Таким образом, когда е2_х яв- ляется большим, дисперсия следующего остатка et является также большой. Спецификация модели (8.90) не означает, что процесс St явля- ется нестационарным. Просто подразумевается, что значения квад- ратов е\ и е\_х коррелированны. Безусловная дисперсия St имеет вид: а2 = Е{е2} = ш + аЕ{е2_1} *) Англоязычная версия ОАРУГ-модели — это GARCH-Model, Generalized ARCH- Model (примеч. научн. ред. перевода).
432 8. Одномерные модели временных рядов и для стационарного временного ряда имеет решение при условии, что 0 < а < 1. Заметим, что безусловная дисперсия не зависит от момента времени t. Модель АРУГA) легко расширяется на процесс АРУГ(р), ко- торый можно написать как о\ = zu + aiSt-i + a2£t-2 + • • • + aPet-P = w + a(L)st_n (8.92) где a(L) — полином от оператора сдвига порядка р — 1. Чтобы гарантировать не отрицательность условной дисперсии, из, должны быть неотрицательными и коэффициенты в a(L). Чтобы обеспе- чить стационарность процесса, требуется также, чтобы а3 < 1, j = 1, 2,... ,р. Влияние Et-j (при сдвиге на j периодов назад) на текущую волатильность определяется коэффициентом ау. В моде- ли АРУГ(р) старые возмущения более чем на р периодов ранее не имеют никакого эффекта на текущую волатильность. Присутствие ошибок АРУГ в регрессии или модели авторегрес- сии не лишают законной силы МНК-оценивание. Однако предпо- лагается, что существуют более эффективные (нелинейные) мето- ды оценивания, чем обычный метод наименьших квадратов. Более важным является возможность предсказывать будущие дисперсии, например, потому что они могут соответствовать степени риско- ванности инвестиций. Следовательно, уместно тестировать наличие эффектов АРУГ и, если требуется, оценивать модель с учетом этого. Тестирование на авторегрессионную гетероскедастичность поряд- ка р можно провести последовательно с помощью теста на гете- роскедастичность Бреуша—Пагана (Breusch—Pagan), обсужденного в главе 4. Достаточно построить вспомогательную регрессию квад- ратов МНК-оцененных остатков е\ по лагированным квадратам e?_i, • •. , е^_р и константе, и вычислить Г раз R2. При нулевой гипотезе гомоскедастичности (а1 = ... = ар = 0) полученная в ре- зультате критическая статистика асимптотически имеет хи-квадрат распределение с р степенями свободы. Другими словами, тестирова- ние гипотезы гомоскедастичности против альтернативной гипотезы, что ошибки следуют процессу АРУГ(р), очень простое. Модели АРУГ обобщались по-разному многими способами. По- лезной модификацией является обобщенная модель АРУГ или мо- дель О АРУГ, предложенная Боллерслевом (Bollerslev, 1986). В об-
8.10. Авторегрессионная условная гетероскедастичность 433 щей форме модель ОАРУГ(р, q) можно написать как р q <% = w+Е че?-з + Е fo°t-i (8-93) 3=1 3=1 или a2 = w + oc{L)e2_x + A{1)о2_х (8.94) где a(L) и /3(L) — полиномы от оператора сдвига. На практике специ- фикация ОАРУГA, 1) часто выполняется очень хорошо. ОАРУГA, 1) можно записать в виде a2 = w + а^2_! + Z?^2.! (8.95) где для оценивания имеется только три неизвестных параметра. Для неотрицательности а2 требуется, чтобы vj , a и /3 также были неотри- цательны. Если мы определим vt = е2 — а2, то процесс ОАРУГA,1) можно переписать как е2 = w + {a + C)е2_г + щ- Cvt-\, который показывает, что квадраты ошибок следуют процессу АРССA,1). Несмотря на то, что ошибка щ является сериально некоррелированной, она является гетероскедастичной. Коэффици- ент компоненты авторегрессии равен а + /3, поэтому для стацио- нарности требуется, чтобы а + f3 < 1. Значения а + C близкие к единице подразумевают высокое постоянство в волатильности11'. Заметим 12\ что при условии стационарности остатков должно вы- полняться E{el1} = E{all} = a2, и тогда безусловную дисперсию st можно написать в виде а2 = w + аа2 + (За2 или о2 = г-^-д. (8-96) 1 — а — C 11' Процесс интегрированной ОАРУГA, 1) или ИОАРУГA, 1) возникает, когда а-\-C = 1 и возмущения волатильности имеют постоянный эффект (см. Engle, Bollerslev, 1986). 1 2^ ) Равенство, которое следует, справедливо, если только et не имеет автокорре- ляции.
434 8. Одномерные модели временных рядов Мы можем рекурсивно подставлять лаги в выражение (8.95), чтобы получить соотношение a2 = w(l + f3 + /32 + ...) + a(e2_1+Ce2t_2 + 02e2_3 + ■••) = = ГГд+а£^'-1е*2-;. (8-97) которое показывает, что спецификация модели ОАРУГA, 1) эк- вивалентна спецификации модели АРУГ бесконечного порядка с геометрически убывающими коэффициентами. Это означает, что эффект возмущения на текущую волатильность уменьшается с те- чением времени. Следовательно, спецификация процесса ОАРУГ может обеспечить экономную альтернативу процессу АРУГ выс- шего порядка. Уравнение (8.97) можно также переписать в виде, удобном для прогнозирования: а*-а* = а^РЭ-\е2г-3-°2)- (8-98) В литературе предложено много альтернативных спецификаций для моделирования условной волатильности, которые соответству- ют различным акронимам (для обзора см. Bollerslev, Chou, Kroner, 1992; Bera, Higgins, 1993; Bollerslev, Engle, Nelson, 1994; Diebold, Lopez, 1995). Важным ограничением вышеприведенных специфи- каций моделей АРУГ и ОАРУГ является их симметрия: имеют значение только абсолютные значения возмущений, а не их знак. Та- ким образом, большое отрицательное возмущение имеет то же самое воздействие на будущую волатильность, что и большое положитель- ное возмущение той же самой величины. Содержательное обобщение находится в направлении асимметричных моделей волатильности, в которых положительные и отрицательные возмущения одной и той же величины имеют разное воздействие на будущую волатильность. Заметим, что различие между положительными и отрицательными возмущениями более ощутимо для фондовых бирж, чем для обмен- ных курсов, где агенты обычно находятся по обе стороны рынка. Таким образом, положительные возмущения для одного агента мо- гут быть отрицательными возмущениями для другого. Асимметричная модель должна учитывать возможность того факта, что неожиданное снижение цены («плохие новости») имеет большее воздействие на будущую волатильность чем неожиданное
8.10. Авторегрессионная условная гетероскедастичность 435 увеличение цены («хорошие новости») на ту же величину. Осново- полагающий подход, улавливающий такие асимметрии, представлен моделью экспоненциальной ОАРУГ или ЭОАРУГ Нельсона (Nelson, 1990), которая имеет вид log a2 = w + C log o2_x + 7— + alf*zli5 (8.99) O't-l (Tt-l где a, C и 7 — постоянные параметры. Так как модель ЭОАРУГ включает уровень et-i/&t-i, то она асимметрична поскольку 7^0- Когда 7 < 0, то положительные возмущения порождают меньшую волатильность, чем отрицательные возмущения («плохие новости»). Включением дополнительных лагов возможно получить расшире- ние модели ЭОАРУГ. Заметим, что можно переписать модель (8.99) в виде: log a2 = из + /3 log a2_x + G + а)-—-, если et-i > 0, °t-\ log a2 — w + /3 log a2_x + G — a) —=—, если et-i < 0. crt-i Логарифмическое преобразование гарантирует, что дисперсии нико- гда не будут отрицательными. Обычно следовало бы ожидать, что 7 + ос > 0, несмотря на то, что 7 < 0. Энгле и Нг (Engle, Ng 1993) охарактеризовали диапазон аль- тернативных моделей для условной волатильности так называемой кривой воздействия новостей, которая описывает воздействие последнего возмущения доходности (новости) на текущую вола- тильность (содержащую всю информацию, датированную t — 2 или ранее, в виде константы и фиксации всех лагированных условных дисперсий в безусловной дисперсии а2). По сравнению с моделью ОАРУГ A, 1) модель ЭОАРУГ имеет асимметричную кривую воз- действия новостей (с более высоким воздействием для отрицатель- ных возмущений). Кроме того, поскольку эффект на а2 экспонен- циальный, а не квадратичный, кривая воздействия новостей модели ЭОАРУГ как правило имеет более крутые наклоны (см. Engle, Ng, 1993). Финансовая теория говорит нам, что определенные источники риска оцениваются рынком. То есть, активы с большим количеством «риска» могут обеспечить более высокую среднюю доходность для их компенсации. Если а2 является подходящим измерителем риска, то условная дисперсия может быть одним из факторов, определяющих
436 8. Одномерные модели временных рядов условное среднее значение функции yt. Один из вариантов модели АРУГ — модель АРУГ-в среднем или АРУГ-С Энгле, Лилина и Робертса (Engle, Lilien, Roberts, 1987) специфицируется в виде где St описывается процессом АРУГ(р) (с условной дисперсией of). Кампбелл, Ло и МакКинлей (Campbell, Lo, MacKinlay, 1997, Section 12.2) представили дополнительное обсуждение взаимосвязей между моделями АРУГ-С и моделями ценообразования активов, подобных модели оценки финансовых активов, обсужденной в параграфе 2.7. 8.10.2. Оценивание и прогнозирование Существуют различные подходы к оцениванию условных моделей волатильности. Предположим, что et — остаточный член модели типа1 ) yt — xft6 + £t, где xt может включать лагированные значе- ния yt. В качестве частного случая xt является просто константой. Кроме того, пусть условная дисперсия et описывается процессом АРУГ(р). Теперь, если мы сделаем предположения об (условном) распределении et, то мы можем оценить эту модель методом макси- мального правдоподобия. Чтобы понять, как это делается, положим: st = (Jtut с vt~HOHP@, 1)*>. Это означает, что условное (по информации Z*-i) распределение возмущения et является нормальным со средним нуль и дисперсией ol. Однако это не подразумевает, что безусловное распределение et является нормальным, поскольку at может быть случайной перемен- ной, если мы не накладываем условие It-i. Как правило, безусловное распределение имеет более тяжелые хвосты, чем нормальное распре- деление. Поэтому мы можем записать условное распределение yt как где о\ = w + axel + ... + aps2t_p и et = yt- Xt°- Чтобы избежать путаницы с параметрами ОАРУГ коэффициенты регрессии обозначаются в. Напомним, что — это «Независимые Одинаково Нормально Распределенные» случайные величины со средним значением а и дисперсией о (примеч. научн. ред. перевода).
8.10. Авторегрессионная условная гетероскедастичность 437 Отсюда логарифмическую функцию правдоподобия можно опреде- лить как сумму (по всем t) логарифмов вышеприведенного выраже- ния, подставляя соответствующие выражения для о\ и et- Логариф- мическую функцию правдоподобия можно максимизировать обыч- ным способом относительно #, ai. ... , ар и w. Наложение условий р стационарности (S_\ aj < 1) и неотрицательности (otj > 0 для Bcexj) j=i может быть трудным на практике, поэтому большие значения для р не рекомендуются. Если vt не имеет в точности стандартного нормального распре- деления, то вышеприведенная процедура максимального правдопо- добия может дать состоятельные оценки для параметров модели, несмотря на то, что функция правдоподобия при этом специфици- рована некорректно. Причина состоит в том, что при некоторых довольно слабых предположениях условия первого порядка проце- дуры максимального правдоподобия справедливы также, когда щ не имеет нормального распределения. Такой метод оценивания называ- ется методом максимального квазиправдоподобия (см. пара- граф 6.4). Однако для вычисления стандартных ошибок оценок сле- дует сделать некоторые корректировки (подробности см. у Hamilton, 1994, р. 663). В вычислительном отношении более простой подход был бы осу- ществлен с помощью ОМНК (см. главу 4). В этом случае, во-первых, в оценивается состоятельно применением обычного МНК. Во вторых, поскольку строится регрессия квадратов МНК-оцененных остатков е\ по е^_1?..., е^_р и константе, то она является той же регрессией, которая используется для вышеописанного теста гетероскедастично- сти. Расчетные значения из этой регрессии являются оценками для g\ и могут использоваться для преобразования модели и вычисле- ния оценки взвешенных наименьших квадратов (РОМНК-оценки) для 9. Этот подход работает хорошо, только если расчетные значения для at все строго положительны. Кроме того, подход не приводит к асимптотически эффективным оценкам для параметров АРУГ. Прогнозирование условной дисперсии из модели АРУГ(р) осу- ществляется напрямую. Чтобы пояснить это, перепишем модель «в отклонениях от средних» в виде: 2 2 /2 2\ , , / 2 2\ 2 W a -a =a1{st_1-<7 ) + ...+ap(st -a ) с a =- . y 1 — a\ — ... — a^
438 8. Одномерные модели временных рядов Предположив для удобства обозначений, что параметры модели известны, получим прогноз на один период вперед ^2+1|* = £{4fi|Zt} = <J2 + cxi^t ~ °2) + • • • + Met-p+i|t ~ ^2)' Это аналогично прогнозу, получаемому с помощью модели АР(р) для у^, как обсуждалось в параграфе 8.8. Прогноз условной во- латильности более чем на один период вперед можно получить, используя рекурсивную формулу °tW - EieUh\It} = v2 + ai(^2+h-i|t ~ a2) + • • • + ^P^hh-pit ~ a2)i где Gt2+.it = el+j если j < 0. Прогноз на /г-периодов вперед сходится к безусловной дисперсии а2, если h становится большим (предполагая, что а\ + ... + ар < 1). В случае модели ОАРУГ прогнозирование и оценивание мож- но осуществить таким же образом, если мы используем выражения (8.97), (8.98) или обобщение более высокого порядка. Например, про- гноз на один период вперед с помощью модели ОАРУГ A, 1) имеет вид ^llt = a2 + (a + p)(a2-a2), где Прогноз на /i-периодов вперед можно написать как Из последнего выражения видно, что прогнозы волатильности схо- дятся к безусловной дисперсии со скоростью а + C. В случае моделей ЭОАРУГ оценивание можно выполнить также методом максималь- ного правдоподобия, хотя простые выражения в аналитическом ви- де для прогнозов на /г-периодов вперед недоступны. Эмпирически функция правдоподобия для модели ЭОАРУГ более трудна для мак- симизации и иногда имеют место проблемы отсутствия сходимости. 8.10,3. Пример: волатильность в ежедневных обменных курсах Для того, чтобы проиллюстрировать некоторые обсужденные выше модели волатильности, мы рассмотрим ряд ежедневных обменных курсов между долларом США и немецкой маркой за период с 1 ян- варя 1980 по 21 мая 1987. За исключением дней, в течение которых
8.10. Авторегрессионная условная гетероскедастичность 439 0.06 т 0.04 Н -0.04 ' 1111111111111111111111111111111111111111111111111111 и 111111111111111111111111111111111111111 500 1000 1500 Рисунок 8.10. Ежедневные приращения логарифма обменного курса (доллары США к немецким маркам), 2 января 1980 г. - 21 мая 1987 г. нет котировальных цен (Новый год и т.д.), в итоге имеем Г = 1867 наблюдений. Поскольку логарифмы обменных курсов приближенно аппроксимируются процессом случайного блуждания, мы рассмат- риваем модель, в которой yt является приращением логарифма обменного курса, а условное среднее включает только свободный член. Временной ряд для yt представлен графиком на рисунке 8.10 и показывает существование периодов с низкой волатильностью и периодов с высокой волатильностью. МНК-оцененные остатки et построенной регрессии yt по кон- станте, конечно, представляют собой значения yt минус их выбороч- ное среднее. На основе этих остатков мы можем выполнить тесты для эффектов АРУГ, построив регрессию е% по константе и р лагирован- ным возмущениям. Проверка гипотезы гомоскедастичности против ошибок АРУГA) дает критическую статистику (вычисленную как Г, умноженное на R2 вспомогательной регрессии), равную 21,77, которая является высоко значимой для распределения хи-квадрат с
440 8. Одномерные модели временных рядов Таблица 8.6. Оценки ОАРУГ для приращений логарифма обменного курса (отношение долларов США к немецким маркам) константа eU eU eU 4 £t-4 2 Et-Ъ £*-6 2 CTt-1 АРУГF) 0,000 @,000) 0,091 @,027) 0,080 @,025) 0,123 @,029) 0,138 @,033) 0,123 @,029) 0,102 @,03) ОАРУГA, 1) 0,016 @,005) 0,110 @,016) 0,868 @,018) |et_i|/crt-i log(at2_!) £t-l/(?t-l ЭОАРУГ -0,483 @,090) 0,215 @,26) 0,968 @,009) -0,017 @,013) одной степенью свободы. Аналогично мы можем проверить гипотезу гомоскедастичности против ошибок АРУГF) со статистикой, равной 83,46, которая также приводит к явному отклонению предположения гомоскедастичности. Оценивались следующие три модели: АРУГ(б), ОАРУГA, 1) и стандартная экспоненциальная модель ОАРУГ14) (ЭОАРУГA,1)). Результаты оценивания представлены в таблице 8.6. Все специфи- цированные модели оценивались методом максимального правдопо- Стандартное программное обеспечение для этих моделей доступно, например в MicroFit или ЕViews. В зависимости от рутинных методов оптимизации, начальных значений и критериев сходимости, используемых в этих програм- мах, результаты оценивания могут немного различаться.
8.10. Авторегрессионная условная гетероскедастичность 441 добия, предполагая, что условное распределение ошибок нормаль- но. Результаты для спецификации АРУГF) показывают, что все 6 лагов имеют значимый и положительный эффект. Кроме того, оказалось, что коэффициенты не снижаются до нуля очень быстро. Более экономная модель ОАРУГA. 1) также показывает, что вияние лагированных возмущений снижается очень медленно. Оцененное значение a + /3 равно 0,976, так что оцененный процесс близок к нестационарному процессу. Для экспоненциальной модели ОАРУГ, мы не находим свидетельства асимметрии, поскольку коэффициент 7 имеет t-отношение, равное только —1.37. Как показано выше, это не является необычным открытием для обменных курсов. Большой коэффициент для log of также отражает высокую степень постоян- ства в волатильности обменного курса. Чтобы сравнить альтернативные модели волатильности, на ри- сунке 8.11 представлен график оцененных стандартных отклонений <?£, который построен с учетом оценок параметров моделей. Чтобы 0,4 11111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111 1770 1780 1790 1800 1810 1820 1830 1840 1850 1860 I ARCH6 EGARCH11 GARCH11 Рисунок 8.11. Условные стандартные отклонения, получаемые из разных моделей, 1 января - 21 мая 1987 г.
442 8. Одномерные модели временных рядов минимизировать воздействие начальных условий и оценить различие моделей, мы представили результаты только для последних пяти ме- сяцев 1987 г. На графике видно, что волатильность, предполагаемая спецификацией модели АРУ Г F) менее гладкая, чем для специфика- цией моделей ОАРУГA, 1) и ЭОРУГA, 1). Очевидно, что шесть ла- гов недостаточны, чтобы зафиксировать постоянство волатильности. 8.11. Что можно сказать о многомерных моделях? В этой главе мы сконцентрировались на описании подхода более или менее «чистого временного ряда», т. е. статистического подхода построения адекватной модели (из класса моделей АРСС) для од- ного наблюдаемого временного ряда. Эту тему мы представили как «одномерные модели временных рядов». Очевидно, что на практике многие экономические (динамические) переменные связаны друг с другом. Однако это не означает, что «чистый» анализ одномерных временных рядов является ошибочным. Построение структурных моделей, в которых переменные связаны друг с другом (часто на ос- нове экономической теории) является другой ветвью эконометрики. Построение структурных моделей приводит к пониманию взаимо- связей между переменными и того, как определенная политика (воз- мущение) воздействует на экономику (а не просто, каким является ее конечный эффект). Конечно, эти преимущества действительно тре- буют «корректного» представления лежащей в основе экономики. Подход одномерного временного ряда в большей степени касается прогноза будущих значений, включая будущую неопределенность (дисперсию). В своих выводах «чистый» анализ одномерного вре- менного ряда принимает во внимание только предысторию перемен- ной. Как отмечалось ранее, с прогностической точки зрения подход одномерного временного ряда часто выигрывает у более структури- рованного подхода. Чтобы проиллюстрировать соотношения*\ предположим, что связь между двумя переменными yt и Xt описывается следующей Имеются в виду соотношения, анализируемые в структурном подходе, т. е. при моделировании многомерных временных рядов (примеч. научн. ред. пе- ревода) .
Упражнения 443 моделью регрессии yt = 0xt +eu где €t — остаточный член белого шума. Если xt можно описать некоторой моделью АРСС, то yt является суммой процесса АРСС и процесса белого шума и поэтому является процессом АРСС. Напри- мер, если xt можно описать моделью скользящего среднего первого порядка xt = щ + aut-i, где щ — остаток в виде белого шума, не зависящий от St, тогда мы можем написать yt = Рщ + aCut-i +et. Отсюда можно легко получить, что автоковариации yt равны V{yt} = <J2£+C2(l + a2)al cov {yt, yt-i} = P2ota2u и cov {yu yt-k] = 0 для к = 2, 3,... . Следовательно, yt является процессом скользя- щего среднего первого порядка с параметрами, оценку для которых можно получить из уравнений для представленных выше ковари- аций. Таким образом, тот факт, что две переменные связаны, не подразумевает, что «чистый» подход одномерных временных рядов не нужен или ошибочен. В следующей главе мы расширим подход одномерного времен- ного ряда до многомерной постановки. Это позволит нам рассматри- вать свойства множества временных рядов одновременно, вместе с их краткосрочными и долгосрочными динамическими зависимостями. Упражнения Упражнение S. 1 (модели АРСС и единичные корни) Исследователь использует выборку из 200 ежеквартальных наблюде- ний относительно Yt, числа безработных (в тысячах), чтобы смоде- лировать поведение временного ряда и построить прогнозы. Сначала он вычислил выборочную автокорреляционную функцию со следу- ющими результатами: /с123456789 10 рк 0,83 0,71 0,60 0,45 0,44 0,35 0,29 0,20 0,11 -0,01
444 8. Одномерные модели временных рядов а. Что мы подразумеваем под выборочной автокорреляционной функцией? Что показывает вышеупомянутая структура, явля- ется ли более подходящим представление анализируемой пере- менной в виде авторегрессии или в виде скользящего среднего? Почему? Затем он определил выборочную частную автокорреляционную функцию. Она представлена в виде £123456789 10 9кк 0,83 0,16 -0,09 0,05 0,04 -0,05 0,01 0,10 -0,03 -0,01 б. Что мы подразумеваем под выборочной частной автокорреляци- онной функцией? Почему первая частная автокорреляция равна первому коэффициенту автокорреляции @,83)? в. Что показывает вышеупомянутая структура, является ли более подходящим представление процесса в виде авторегрессии или в виде скользящего среднего? Почему? Исследователь в качестве первой попытки решает оценить модель авторегрессии первого порядка, имеющей вид Yt = 6 + 0Yt-1+et. (8.100) Оцененное значение для 6\ равно 0,83 со стандартной ошибкой 0,07. г. Какой метод оценивания подходит для оценки модели АРA)? Объясните, почему этот метод является состоятельным. д. Исследователь хочет протестировать наличие единичного корня. Что означает понятие «единичный корень»? Какие последствия влечет наличие единичного корня? Почему мы интересуются этим? (Приведите статистические или экономические причины.) е. Сформулируйте гипотезу наличия единичного корня, и выпол- ните ее тестирование, основанное на вышеупомянутой регрессии. ж. Протестируйте нулевую гипотезу, что 6 — 0,90. Затем исследователь расширяет модель авторегрессии первого по- рядка до модели АРB) со следующими результатами (в круглых скобках стандартные ошибки): У, = 50,0 + 0,74 yt_x+ 0,16 Yt-2+et. (8.101) E,67) @,07) @,07) з. Предпочли бы Вы модель АРB) модели АРA)? Как бы Вы про- верили, может ли быть модель АРССB, 1) более подходящей?
/ -ражнения 445 н. Что вышеупомянутые результаты говорят Вам об обоснованно- сти теста наличия единичного корня е? к. Как бы Вы протестировали наличие единичного корня в модели АРB)? л. Используя вышеупомянутые оценки, вычислите оценку среднего числа безработных E{Yt}. м. Предположим, что последние два ежеквартальных уровня без- работицы для третьего и четвертого кварталов 1996 г. были равны 550 и 600 соответственно. Вычислите прогнозы для пер- вого и второго кварталов 1997 г. н. Можете ли Вы сказать что-то существенное о предсказанном значении для первого квартала 2023 г.? (И его точности?) Упражнение 8.2 (моделирование ежедневной доходности — эмпирическое) В файлах SP500 доступна ежедневная отчетность по индексу S&P 500 за период с января 1981 г. по апрель 1991 г. (Т = 2783). Отчетные данные вычисляются как первые разности логарифма американского индекса S&P 500 курса акций. а. Постройте график ряда и определите выборочную автокорреля- ционную функцию и выборочную частную автокорреляционную функцию. б. Оцените модели АРA)-АРG) и протестируйте индивидуальную и совместную значимость коэффициентов каждой модели АР. Почему 1%-ый уровень значимости или менее был бы более уместным, чем обычный 5% уровень значимости? в. Выполните тесты Льюнга—Бокса на остаточную автокорреля- цию для этих семи моделей для К = 6 (когда это приемлемо), 12 и 18. г. Сравните значения статистик АИК и БИК. Используйте их наряду с результатами статистических тестов, чтобы выбрать предпочтительную спецификацию. Следующие вопросы относятся к предпочтенной вами спецификации. д. Сохраните остатки вашей модели и проверьте нулевую гипо- тезу против гипотезы р-го порядка авторегрессионной гетерос- кедастичности (выберите несколько альтернативных значений для р).
446 8. Одномерные модели временных рядов е. Повторно оцените вашу модель, учитывая остатки АРУГ(р) (где р выбрано на основе вышеупомянутых тестов). Сравните эти оценки с оценками из протестированных регрессий. ж. Повторно оцените вашу модель, учитывая остатки О АРУ Г A, 1). Имеется ли какой-либо признак нестационарности? з. Повторно оцените вашу модель, учитывая ошибки ЭОАРУГ. (С помощью проверки убедитесь, что программа сошлась.) Име- ется ли какое-либо свидетельство асимметрии?
9 Многомерные модели временных рядов В предыдущей главе мы рассматривали модели для стохастическо- го процесса единственного экономического временного ряда. Одна из причин, почему более интересно рассматривать одновременно несколько временных рядов, состоит в том, что это может улуч- шить прогнозы. Например, история второй переменной, например Xt, может помочь прогнозированию будущих значений Yt. Возмож- но также, что какие-то особенные значения переменной Xt связаны с определенными изменениями в переменной Yt. Например, резкие изменения цен на нефть могут помочь в объяснении потребления бензина. В дополнение к проблеме прогнозирования одновременное исследование нескольких временных рядов позволяет нам также рассматривать вопросы «что если». Например, какой уровень по- требления бензина ожидается в будущем, если в следующую пару лет цены на нефть снизятся более чем на 10%? В этой главе мы рассмотрим многомерные модели временных ря- дов. В параграфе 9.1 мы обсудим объяснение поведение одной пере- менной ее собственным прошлым, а также — текущем или лаговыми значениями второй переменной. Таким способом можно моделиро- вать и оценивать динамические эффекты влияния изменений в Xt на Yt. При использовании стандартных процедур оценивания или тести- рования динамической модели временного ряда, обычно требуется, чтобы всевозможные переменные были стационарными, поскольку
448 9. Многомерные модели временных рядов большая часть эконометрической теории строится на предположении стационарности. Например, регрессия нестационарной переменной Yt на нестационарную переменную Xt может привести к так называ- емой ложной регрессии, в которой общепринятые оценки и крити- ческие статистики вводят в заблуждение. Применение нестационар- ных переменных необязательно приводит к недостоверным оценкам. Важное исключение возникает, когда две или более переменных, ин- тегрируемых порядка 1, (т. е. /A)), коинтегрированы, то есть, если существует специфическая линейная комбинация этих нестационар- ных переменных, которая является стационарной. В таких случаях между этими переменными существует долгосрочное динамическое соотношение. Часто экономическая теория предполагает существова- ние таких долгосрочных динамических соотношений или соотноше- ний равновесия, например, паритет покупательной способности или количественная теория денег. Существование долгосрочного (равно- весного) динамического соотношения также имеет свои следствия для краткосрочного динамического поведения переменных /A), по- скольку должен быть некоторый механизм, который приводит пере- менные к долгосрочному динамическому соотношению равновесия. Этот механизм моделируется механизмом коррекции остатков, в котором «остаток равновесия» также управляет краткосрочной ди- намикой ряда*\ В параграфе 9.2 вводится понятие коинтеграции и это понятие связывается с моделями коррекции остатков в случае, ко- гда рассматриваются только две переменные. В параграфе 9.3 приво- дится эмпирическая иллюстрация на примере паритета покупатель- ной способности, который можно охарактеризовать как соответству- ющее долгосрочное динамическое коинтегрирующее соотношение. Другой отправной точкой многомерного анализа временных ря- дов является многомерное обобщение процессов АРСС из главы 8. Эта тема параграфа 9.4, в котором особый акцент делается на век- торные модели авторегрессии (ВАРы). Существование коинте- грирующих соотношений между переменными в векторной модели авторегрессии существенно влияет на способ оценивания и представ- В англоязычной литературе для обозначения этого механизма (и, соответ- ственно, модели) используется термин "error-correction mechanism (model)", т. е. «механизм (модель) коррекции ошибок». Поскольку, по существу, речь идет о регрессионных остатках, а не об ошибках (см. наше замечание по этому поводу в сноске в начале параграфа 2.2), мы и в этой главе будем при переводе придерживаться этой позиции (примеч. научн. ред. перевода).
9.1. Динамические модели со стационарными переменными 449 ления ВАР. В параграфе 9.5 обсуждается, как можно проверить гипотезы относительно числа коинтегрирующих соотношений и как можно оценить модель коррекции остатков, представляющую дан- ные. Наконец, в параграфе 9.6 представлен эмпирический пример. Анализу временных рядов посвящено довольно большое коли- чество современных учебников, в которых обсуждается коинтегра- ция, векторные модели авторегрессии и модели коррекции остат- ков. Для экономистов привлекательными являются работы: Миллс (Mills, 1990), Эндерс (Enders. 1995), Харрис (Harris, 1995), и Фрэнсис (Franses, 1998). Больше технических деталей представлено, напри- мер, у Бэнерджи, Долэйдо, Галбрэйт и Гендри (Banerjee, Dolado, Galbraith, Hendry, 1993), Гамильтона (Hamilton, 1994), Иогансена (Johansen, 1995) и Босвиджика (Boswijk, 1999). В большинстве этих текстов также обсуждаются темы, которые не охвачены в этой главе, включая структурные модели ВАР, причинно-следственную зависи- мость по Грэнжеру (Granger), сезонность и структурные резкие падения. 9.1. Динамические модели со стационарными переменными Рассматривая одномерный экономический временной ряд, и приме- няя методы предыдущей главы для его моделирования, во многих случаях можно построить хорошие прогнозы. Однако одномерный временной ряд не позволяет нам определить, какое влияние оказы- вают на него, например, изменения в политике. Для того, чтобы выявить это влияние, возможно, следует включить в модель допол- нительные переменные. Рассмотрим две (стационарные) перемен- ные ^ Yt и Xt, и предположим, что справедливо Yt = 6 + OYt-г + ф0Хг + фгХг-г + st. (9.1) В качестве примера мы можем представлять Yt как «объемы продаж компании», a Xt, как «затраты на рекламу» в месяце t. Если пред- положить, что at является процессом белого шума, независимым от В соответствии с предыдущей главой мы используем заглавные буквы, чтобы обозначить исходный ряд и строчные буквы для отклонений от среднего зна- чения.
450 9. Многомерные модели временных рядов Xti -Xt-ъ • • • и lt-i, 5^-2? • • • 5 то вышеуказанное соотношение ино- гда называется авторегрессионной моделью распределенных лагов 2^. Чтобы оценить эту модель состоятельно, мы можем просто использовать обычный метод наименьших квадратов. Интересной составной частью модели (9.1) является описание текущих и будущих значений переменной Yt в зависимости от дина- мических эффектов изменения в переменной Xt. Взяв частные про- изводные, получим, что непосредственный отклик задается в виде Ц = 0с (9.2) Иногда этот отклик называется мультипликатором воздействия. Увеличение X на одну единицу влечет непосредственное изменение Y на фо единиц. Эффект после одного периода равен а после двух периодов »£=,»£ =Wo + *) (9.4) и так далее. Это показывает, что после первого периода эффект уменьшается, если \0\ < 1. Наложение этого так называемого усло- вия устойчивости позволяет нам определить долгосрочный динами- ческий эффект единичного приращения Xt. Оно задается долго- срочным динамическим мультипликатором (или мультипли- катором равновесия) Фо + (вф0 + фх) + в(вф0 + фх) + ...= = ф0 + A + в + 92 + ...)(вф0 + ф1) = ^^. (9.5) Таким образом, если затраты на рекламу Xt возрастают на одну единицу, то ожидаемое кумулятивное увеличение в объемах продаж выражается в виде (фо + ф\)/A — 9). Если возрастание Xt является постоянным, то долгосрочный динамический мультипликатор так- же имеет интерпретацию математического ожидания долгосрочного динамического постоянного возрастания Yt. Из соотношения (9.1) ' Больше деталей молено найти, например, у Дэвидсона и МакКинона (Davidson, MacKinnon, 1993, Sect. 19.4) или у Джонстона и Динардо (Johnston, Dinardo, 1997, Chapter 8).
9.1. Динамические модели со стационарными переменными 451 можно показать, что долгосрочное динамическое соотношение рав- новесия между Y и X должно быть (полагая E{Yt} = E{Yt-i}) E{Yt] = 5 + 0E{Yt} + <foE{Xt} + фгЕ{Х^ (9.6) или что представляет альтернативный вывод долгосрочного динами- ческого мультипликатора. Запишем выражение (9.7) короче, как E{Yt} = a + /3E{Xt} с очевидными определениями а и /3. Существует альтернативный способ сформулировать авторе- грессионную модель распределенных лагов из выражения (9.1). Вы- читая Yt-i из обеих частей выражения (9.1) и используя некоторые преобразования, получим AYt = 6- AВД-1 + фоАХг + (фо + Фх)Хг-1 + et или AYt = фоАХг - A - 0)\Yt-i - а - №-i] + st. (9.8) Эта формулировка является примером модели коррекции остат- ков. Согласно данной модели приращение в переменной Yt про- исходит из-за текущего приращения в переменной Xt плюс член коррекции остатков. Если Yt-\ является значением равновесия, ко- торое соответствует Xt-\, то есть, если «остаток равновесия» в квадратных скобках положителен, то производится отрицательная дополнительная коррекция в переменной Yt. Скорость коррекции определяется коэффициентом 1 — 0, который является параметром коррекции. Предположение устойчивости гарантирует, что 1 — 0 > 0. Модель коррекции остатков можно также состоятельно оце- нить методом наименьших квадратов. Поскольку остаточная сумма квадратов, которая минимизируется с помощью выражения (9.8), является той же самой, что и в выражении (9.1), то получающиеся оценки численно идентичны 3'. Как авторегрессионная модель распределенных лагов (9.1), так и модель коррекции ошибок (9.8) предполагают, что значения Xt Модель (9.8) можно оценить нелинейным методом наименьших квадратов или обычным методом наименьших квадратов после перепараметризации и отыскания решений относительно исходных параметров из получившихся оценок «новых» параметров. Результаты будут одни и те же.
452 9. Многомерные модели временных рядов можно рассматривать как заданные, то есть, как некоррелирован- ные с членами ошибок уравнений. По существу выражение (9.1) соответствующе описывает математическое ожидание переменной Yt, задаваемое ее собственной историей и условное по текущим и лагированным значениям переменной Xt. Если бы переменная Xt определялась одновременно с переменной Yt и E{Xt£t} ф 0, то обыч- ный метод наименьших квадратов, примененный или к модели (9.1), или к модели (9.8), был бы несостоятельным. Типичное решение в этом контексте состоит в том, чтобы рассмотреть двумерную модель для Y и X (см. параграф 9.5 ниже). Специальные случаи модели (9.1) можно получить из альтер- нативных моделей, которые имеют некоторую экономическую ин- терпретацию. Например, пусть Y£ обозначает оптимальный или желаемый уровень Yt и предположим, что Yt* = a + CXt + rh, (9.9) где а и j3 — некоторые неизвестные коэффициенты, а щ — остаточ- ный член, независимый от Xt, ^Q-i, •. • . Фактическое значение Yt отличается от У/, потому что коррекция ее оптимального уровня, соответствующая Xt, не является мгновенной. Предположим, что коррекция является только частичной в том смысле, что Yt - rt-i = A - 0)(Yt* - Y^), (9.10) где 0 < 9 < 1. Подставив в последнее соотношение выражение (9.9), получим Yt = Yt-i + A - 6)а + A - 0)pXt - A - 0)Yt-X + A - 0)щ = = 5 + 9Yt-i + (t>oXt + et, (9.11) где 6 = A-в)а, фо = A-вH, et = (l-e)Vt. Эта модель является частным случаем модели (9.1), поскольку она не включает Xt-\. Модель, заданная соотношениями (9.9) и (9.10), называется моделью частичного приспособления. Авторегрессионную модель распределенных лагов (9.1) можно легко обобщить. Принимая во внимание только две переменные, можно написать общий вид модели: e(L)Yt = 5 + ct)(L)Xt+eu (9.12) где 9{L) = 1 - 9ХЬ - ... - 9pLp, ф(Ь) = ф0 + ф1Ь + ... + ф^
9.2. Модели с нестационарными переменными 453 являются двумя полиномами от оператора сдвига. Заметим, что константа в ф(Ь) не ограничена единицей. Предполагая, что 9(L) является обратимым полиномом (см. п. 8.2.2), можно записать Yt = е~\1M + О^ЩфЩХг + e-\L)et. (9.13) Коэффициенты в полиноме от оператора сдвига 9~ (Ь)ф(Ь) опи- сывают динамическое влияние Xt на текущие и будущие значения Yt. Долгосрочный динамический эффект Xt получается в виде: гш1=T-Z-::.-t (9л4) и обобщает результат (9.5). Вспомним из п. 8.2.2, что обратимость по- линома от оператора сдвига 9{L) требует, чтобы в\ + 02 + ... + вр < 1. Это условие гарантирует, что знаменатель в выражении (9.14) отли- чается от нуля. Специальный случай возникает, если 9{L) — 1, при этом модель (9.13) не содержит никаких лагов Yt. Такая модель называется моделью распределенных лагов. Иногда ограничения налагаются на коэффициенты ф^ с целью уменьшения проблем коллинеарности и экономии в степенях свободы (обсуждение см. у Green, 2000, Sect. 17.2, или у Judge et al., 1988, Sect. 17.3). До тех пор, пока можно предполагать, что остатки Et являются процессом белого шума, или — более обще — стационарным и неза- висимым от Xt, Xt-i, .. • и lt-i, 1^-2? • • • ^ модели распределенных лагов могут быть оценены состоятельно обычным методом наимень- ших квадратов. Однако проблемы могут возникнуть, если наряду с Yt и Xt стохастический остаток et также является нестационарным. Эти проблемы обсуждается в следующем параграфе. 9.2. Модели с нестационарными переменными 9.2.1. Ложные регрессии Предположение стационарности переменных Yt и Xt является ре- шающим для свойств стандартных процедур оценивания и проверки гипотез. Например, для того, чтобы показать состоятельность МНК- оценок, обычно используется факт сходимости выборочных ковари- аций и дисперсий к теоретическим при неограниченном возрастании
454 9. Многомерные модели временных рядов объема выборки. К сожалению, если ряды нестационарны, ковари- ации и дисперсии генеральной совокупности неопределены, так как ряды не флуктуируют вокруг постоянного среднего значения. В качестве иллюстрации рассмотрим две переменные Yt и Xt, порождаемые двумя независимыми случайными блужданиями, Yt = Yt.l+elt, elt~HOP@,aj), (9.15) Xt = Xt_1+e2t, e2t~HOP@,a22), (9.16) где en и S2t взаимно независимы. Не существует механизма, по- рождающего эти данные, который приводил бы к какой-либо связи между Yt и If Исследователь, не знакомый с этими процессами, возможно, захочет оценить регрессионную модель, объясняющую Yt в зависимости от Xt и константы 4', Yt = a + /3Xt + et. (9.17) Результаты этой регрессии, вероятно, будут охарактеризованы до- вольно высоким значением статистики R , высоко автокоррелиро- ванными остатками и значимым значением для /3. Этот феномен является хорошо известной проблемой абсурда или ложных ре- грессий (см. Грэнжер и Ньюболд (Granger, Newbold, 1974)). В этом случае два независимых нестационарных ряда ложно связаны бла- годаря тому факту, что они оба имеют тренд. Как обсуждалось Грэнжером и Ньюболдом, в этих случаях с высоким R2 и низ- кой статистикой Дурбина—Ватсона (dw) обычные t- и F-тесты, касающиеся параметров регрессии могут быть очень ошибочными. Причина таких заблуждений заключается в том, что распределения стандартных критических статистик сильно отличаются от распре- делений, полученных при предположении стационарности. В частно- сти, как показал Филлипс (Phillips A986)), МНК-оценка не сходится по вероятности к истинному параметру регрессии при возрастании объема выборки, t- и ^-критические статистики не имеют хорошо определенных асимптотических распределений, а статистика dw схо- дится к нулю. Причина этого состоит в том, что с переменными Yt и Xt, которые являются интегрируемыми порядка 1, /A), остаток St также будет нестационарной переменной 7A). Чтобы гарантировать согласованную систему обозначений, повсюду в этой главе свободный член обозначен а, а коэффициент наклона /3. В дальнейшем будет ясно, что роль константы часто фундаментально отлична от коэффици- ентов наклона, если переменные нестационарны.
9.2. Модели с нестационарными переменными 455 Таблица 9.1. Ложная регрессия: обычный метод наименьших квадратов на данных, порожденных двумя независимыми случайными блужданиями Переменная константа X Зависимая переменная: Y Оценка 3,9097 -0,4435 Стандартная ошибка 0,2462 0,0473 ^-отношение 15,881 -9,370 s = 3,2698, R2 = 0,3072, В2 = 0,3037, F = 87,7987, dw = 0,1331. В качестве варианта ложной регрессии мы сгенерировали два временных ряда, начинающиеся с Уо — Хо — 0, из 200 наблюдений ' в соответствии со случайными блужданиями (9.15) и (9.16), нор- мальными остатками и при допущении, что <т1 = о2 — 1 • Результаты регрессии Yt на Xt и константу стандартным МНК представле- ны в таблице 9.1. Несмотря на то, что оценки параметров в этой таблице полностью отличались бы от одного моделирования к дру- гому, t-отношения, R2 и статистика dw показывают очень типичную структуру: применение обычных уровней значимости, как к посто- янному члену, так и Xt высоко значимо, i?2, равный 31%, кажется приемлемым, хотя статистика Дурбина—Ватсона чрезвычайно низ- ка. (Вспомните из главы 4, что значения близкие к 2 соответствуют нулевой гипотезе об отсутствии автокорреляции.) К результатам оценивания подобно этим нельзя отнестись серьезно. Ведь МНК стремится найти значимую корреляцию между двумя рядами, даже если они никак не связаны, используя для этого факт наличия сто- хастических трендов у Yt и Xt- Статистически проблема состоит в том, что ряд St является нестационарным. Если лагированные значения зависимых и независимых пере- менных включены в регрессию, как в соотношении (9.1), то никакой проблемы ложной регрессии не возникает, потому что существу- ют значения параметра (а именно 9 = 1 и фо — ф\ — 0) такие, что остаток et является 7@), даже если Yt и/или Xt являются 7A). В этом случае МНК-оценка состоятельна для всех парамет- ров. Таким образом, включение лагированных значений в регрессию Эти смоделированные ряды доступны в SPURIOUS.
456 9. Многомерные модели временных рядов достаточно для решения многих проблем, связанных с ложной ре- грессией (см. Hamilton, 1994, р. 562). 9.2.2. Коинтеграция Важное исключение из выводов предыдущего раздела возникает, если существует специфическое соотношение между двумя нестаци- онарными временными рядами. Снова рассмотрим два ряда случай- ного блуждания Yt и Xt, но на этот раз предположим, что существует некоторое действительное (линейное) соотношение между Yt и Xt. Существование этого соотношения отражается в утверждении, что существует некоторое значение /3 такое, что ряд Yt — /3Xt является интегрируемым порядка 0, /@), хотя оба ряда Yt и Xt являют- ся интегрируемыми порядка 1, /A). В этом случае говорят, что временные ряды Yt и Xt являются коинтегрированными. Хотя относящаяся к этому случаю асимптотическая теория нестандарт- на, можно показать, что состоятельное оценивание /3 регрессии Yt по Xt такой же, как регрессия (9.17) возможно. Действительно, в этом случае обычная оценка наименьших квадратов 6, как говорят, является суперсостоятельной для /3, поскольку она сходится к /3 с намного более высокой скоростью, чем в обычной асимптоти- ке. В стандартном случае уТ(Ъ — /3) асимптотически нормально, и мы говорим, что Ъ является vT-состоятельной для /3. В случае коинтеграции уТ(Ъ — /3) вырождено, что означает, что Ъ сходится к /3 с такой высокой скоростью, что разность Ъ — /3, умноженная на возрастающий \Т множитель, по-прежнему сходится к нулю. Вме- сто этого соответствующее асимптотическое распределение является распределением для Т(Ь — C). Следовательно, обычные процедуры статистического вывода не применимы. На интуитивном уровне идея понятия суперсостоятельности довольно проста. Предположим, что оцененная модель регрессии имеет вид Yt = a + bXt + et. (9.18) Для истинного значения /3, Yt — CXt является интегрируемым по- рядка 0, /@). Ясно, что для Ъ ф C МНК-оцененный остаток et будет нестационарным и, следовательно, будет иметь очень большую дис- персию по любой конечной выборке. Однако для Ъ — C оцененная дисперсия et будет значительно меньше. Так как обычный метод наименьших квадратов выбирает а и b таким образом, чтобы мини-
9.2. Модели с нестационарными переменными 457 мизировать выборочную дисперсию е*, то он является чрезвычайно хорошим в обнаружении оценки близкой к /3. Если Yt и Xt оба являются интегрируемыми порядка 1, /A), и существует /3 такое, что Zt — Yt — f3Xt является /@), то ^ и It являются коинтегрированными, с C называемым коинтегрирующим параметром, или более обще A. —&)' называется коинтегрирую- щим вектором. В этом случае на долгосрочные динамические компоненты Yt и Xt действует особое ограничение. Так как оба временных ряда Yt и Xt являются /A), они будут подчиняться «длинноволновым» компонентам, a Zt, будучи /@), нет: поэтому Yt и /3Xt должны иметь долгосрочные динамические компоненты, которые фактически уравновешиваются, чтобы порождать Zt. Эта идея связана с понятием долгосрочного динамического равновесия. Предположим, что такое равновесие определяется со- отношением Yt = a + 0Xt. (9.19) Тогда zt = Zt — a является «остатком равновесия», который измеряет величину отклонения значения Yt от своего «значения равновесия» a — f3Xt. Если zt является 1@), то остаток равновесия стационарен и флуктуирует вокруг нуля. Следовательно, в среднем система будет находиться в равновесии. Однако, если Yt и Xt некоинтегрированы и, следовательно, zt является /A), остаток равновесия может блуж- дать долго, и пересечения нуля будут очень редкими. При таких обстоятельствах не имеет смысла рассматривать Yt = a + CXt как долгосрочное динамическое равновесие. Следовательно, наличие ко- интегрирующего вектора может интерпретироваться как наличие соотношения долгосрочного динамического равновесия. Из вышеприведенных рассуждений очевидно, что важно разли- чать случаи существования коинтегрирующего соотношения между Yt и Xt и случаи ложной регрессии. Предположим, что из предыду- щих результатов мы знаем, что Yt и Xt является интегрируемыми порядка один, и предположим, что мы оцениваем «коинтегрирую- щую регрессию» Yt = a + CXt + et. (9.20) Если Yt и Xt коинтегрированы, то член ошибки в регрессии (9.20) является /@). В противном случае et будет /A). Следовательно, можно протестировать наличие коинтегрирующего соотношения с помощью теста наличия единичного корня в МНК-оцененных остат- ках et из регрессии (9.20). Кажется, что это можно сделать примене-
458 9. Многомерные модели временных рядов нием тестов Дики—Фуллера, рассмотренных в предыдущем разделе. Например, можно построить регрессию Aet = 7о + 7iet-i + Щ (9.21) и протестировать, равно ли 7i нулю (наличие единичного корня). Однако тестирование наличия единичного корня в МНК-оцененных остатках е^, а не в самих остатках et, имеет дополнительное ослож- нение. Так как метод наименьших квадратов «выбирает» остатки в регрессии (9.20) с насколько возможно малой выборочной диспер- сией, то даже если переменные не являются коинтегрироваными, МНК может приводить к ряду остатков, «выглядящему» настолько стационарным, насколько это возможно. Таким образом, используя стандартные тесты ДФ или РДФ, мы можем отклонять нулевую гипотезу нестационарности слишком часто. В результате соответ- ствующие критические значения, представленные в таблице 9.2, должны иметь более высокие (по абсолютной величине) отрицатель- ные величины, чем критические значения для стандартных тестов Дики—Фуллера. Если et соответственно не описываются процессом авторегрессии первого порядка, то в регрессию (9.21) следует доба- вить лагированные значения для Де*, приводящие к расширенным тестам Дики—Фуллера (РДФ) с теми же самыми асимптотическими критическими значениями. Этот тест можно расширить до теста наличия коинтеграции между тремя или более переменными. Если в коинтегрирующую регрессию включаются более одной переменной Xt, критические значения сдвигаются влево. Это отражено в допол- нительных строках таблицы 9.2. Таблица 9.2. Асимптотические критические значения тестов наличия единичного корня в остатках для коинтеграции (с константой) (Davidson, MacKinnon, 1993) Число переменных (включая Yt) 2 3 4 5 Уровень значимости 1% -3,90 -4,29 -4,64 -4,96 5% -3,34 -3,74 -4,10 -4,42 10% -3,04 -3,45 -3,81 -4,13
9.2. Модели с нестационарными переменными 459 Таблица 9.3. 5% критические значения теста КРДУ для коинтеграции (Banerjee et al.,1993) Число переменных (включая Yt) 2 3 4 5 Число наблюдений 50 0,72 0,89 1,05 1,19 100 0,38 0,48 0,58 0,68 200 0,20 0,25 0,30 0,35 Альтернативный тест на коинтеграцию основан на обычной статистике Дарбина—Уотсона из регрессии (9.20). Заметим, что на- личие единичного корня в ряде et асимптотически соответствует нулевому значению для статистики dw. Таким образом, при нулевой гипотезе наличия единичного корня соответствующий тест состоит в проверке, значима ли больше нуля статистика dw. К сожалению, критические значения для этого теста, обычно называемого тестом коинтегрирующей регрессии Дарбина—Уотсона или тестом КРДУ (см. Sargan. Bhargava, 1983), зависят от процесса, который порождает данные. Если данные порождены процессом случайного блуждания, 5%-ые критические значения представлены в таблице 9.3 для трех разных объемов выборок. Подчеркнем, что если Yt и Xt не являются коинтегрированными, то при Г стремящемся к бесконеч- ности статистика dw сходится к нулю (по вероятности). Заметим, что обсуждаемые здесь тесты коинтеграции проверя- ют наличие единичного корня в остатках регрессии. Это подразуме- вает, что нулевая гипотеза наличия единичного корня соответствует отсутствию коинтеграции. Так, если мы не можем отклонить нали- чие единичного корня в МНК-оцененных остатках, то это означает, что мы не можем отклонить, что Yt и Xt, кекоинтегрированы. И наоборот, если бы мы отклонили наличие единичного корня, то тем самым, отклонили бы, что эти две переменные некоинтегрированы. Если Yt и Xt являются коинтегрированными, то применение МНК к регрессии (9.20) приводит к суперсостоятельной оценке ко- интегрирующего вектора, даже если допущена некорректность нев- ключением в уравнение краткосрочной динамики. Причина этого состоит в том, что нестационарность асимптотически доминирует
460 9. Многомерные модели временных рядов над всеми формами некорректной спецификации в стационарной части регрессии (9.20). Таким образом, в стационарной части ре- грессии такими проблемами как неполная краткосрочная динамика, автокорреляция в et, не включенные (стационарные) переменные, эндогенность Xt, можно пренебречь (то есть, эти проблемы более низкого порядка) при рассмотрении асимптотического распределе- ния суперсостоятельной оценки Ь. Таким образом, асимптотически ' никогда не существует необходимости, например, включать сезон- ные фиктивные переменные в коинтегрирующую регрессию. Можно даже поменять ролями Yt и Xt, и оценить Xt = a*+P*Yt+ul (9.22) чтобы получить суперсостоятельные оценки а* = —а//3 и /3* = 1//3. Важно заметить, что это было бы неверно, если ряды Yt и Xt ста- ционарны и различие между эндогенными и экзогенными перемен- ными является решающим. Например, если (Yt, Xt) — независимые одинаково распределенные, имеющие двумерное нормальное распре- деление с нулевым математическим ожиданием, с дисперсиями а^, ах и ковариацией аху, то условное математическое ожидание Yt при заданном Xt равно (axy/ax)Xt = CXt, а условное математическое ожидание Xt при заданном Yt равно (crxy/ay)Yt = /3*Yt (см. Прило- жение Б). Заметим, что /?* ф 1//3, если только Yt и Xt полностью не коррелированны (тогда аху = <тх<ту). Поскольку полная корреляция также подразумевает, что R равно единице, то из этого следует, что 7?2, полученный из коинтегрирующей регрессии, должен быть весьма высоким (поскольку он сходится к единице при возрастании объема выборки). Хотя долгосрочное (равновесное) динамическое соотношение между двумя переменными представляет интерес, возможно, что еще более важное значение для анализа имеют краткосрочные ди- намические свойства двух рядов. Их исследование можно провести, используя тот результат, что наличие коинтегрирующего соотно- шения подразумевает существование модели коррекции остатков, Следует упомянуть, что исследования с помощью Монте-Карло-моделирова- ния показывают, что при малых выборках в оцененном коинтегрирующем соотношении смещение может быть существенным, несмотря на свойство су- персостоятельности (см. Banerjee el at., 1993, Sect. 7.4). Как правило, эти смещения являются малыми, если R2 коинтегрирующей регрессии близок к единице. В литературе предлагалось большое число альтернативных оценок (для обзора см. Hargreaves, 1994).
9.2. Модели с нестационарными переменными 461 которая описывает краткосрочную динамику в соответствии с дол- госрочным динамическим соотношением. 9.2.3. Механизмы коинтеграции и коррекции остатков Теорема представления Грэнжера (Granger, 1983; Engle, Granger, 1987) утверждает, что, если множество переменных коинтегрирован- но, то существует адекватное представление коррекции остатков для данных. Таким образом, если оба ряда Yt и Xt являются интегрируе- мыми порядка 1, 1A), и имеют коинтегрирующий вектор A, — /?)', то существует представление коррекции остатков с Zt = Yt — f3Xt вида 9{L)AYt = 6 + <p{L) AXt-i - jZt-i + a(L)et (9.23) где St — белый шум7', a 0(L), ф(Ь) и a(L) — полиномы от оператора сдвига L (с во = 1). Рассмотрим частный случай модели (9.23) AYt = 5 + 0i AXt-i - 7(^-1 " №-i) + eu (9.24) где остаточный член не имеет никакой компоненты скользящего среднего, и систематическая динамика насколько возможно проста. Интуитивно ясно, почему теорема представления Грэнжера должна быть справедливой. Если оба ряда Yt и Xt являются 7A), но имеют долгосрочное динамическое соотношение, то должна быть некото- рая сила, которая возвращает ошибку равновесия к нулю. Модель коррекции остатков полностью отображает это: она описывает, как Yt и Xt ведут себя в краткосрочной динамике в соответствии с дол- госрочным динамическим коинтегрирующим соотношением. Если параметр коинтеграции /3 известен, то все члены в регрессии (9.24) являются /@) и никаких проблем вывода не возникает: мы можем оценить эту регрессию с помощью МНК обычным способом. Когда AYt = AXt-i = 0 мы получаем «отсутствие изменения» устойчивого состояния равновесия Yt-CXt = -, (9.25) 7 которое соответствует соотношению (9.19), если a = 8/j. В этом случае модель коррекции остатков молено написать как AYt = 0i AXt-i - j(Yt-! -a- 0Xt-i) + et, (9.26) Остаток типа белого шума Et, как предполагается, является независимым и от Yt-ъ Yt-2, ... и от Xt-i, Xt-2, ....
462 9. Многомерные модели временных рядов где константа присутствует только в долгосрочном динамическом со- отношении. Однако, если модель коррекции остатков (9.24) содержит константу, которая равна 5 = cry+ ^с^7^0, то это означает наличие детерминированных трендов как в Yt, так и в Xt, и долгосрочное динамическое равновесие соответствует устойчивому состоянию тра- ектории роста с AYt = AXt-i = —^—. 1-01 Вспомним из главы 8, что ненулевой свободный член в одномерной модели АРСС с единичным корнем также подразумевает, что ряд имеет детерминированный тренд. В некоторых случаях имеет смысл предполагать, что коинте- грирующий вектор известен априори (например, когда единственное видимое равновесие Yt = Xt). В этом случае статистический анализ из регрессии (9.23) или (9.24) можно сделать стандартным спосо- бом. Если C неизвестно, то коинтегрирующий вектор можно оценить (супер)состоятельно из коинтегрирующей регрессии (9.20). Следо- вательно, можно игнорировать тот факт, что C оценивается, да еще в нестандартной асимптотике, и применяется обычная техника оце- нивания параметров в регрессии (9.23). Заметим, что точная лагированная структура в представлении (9.23) не специфицируется теоремой, таким образом мы вероятно должны сделать некоторый анализ спецификации в этом направле- нии. Кроме того, теория является симметричной при рассмотрении Yt и Xtl поэтому также должно существовать представление кор- рекции остатков с AXt в качестве лево- сторонней переменной уравнения (9.23). Поскольку, по крайней мере, одна из переменных должна корректировать отклонения от долгосрочного динамическо- го равновесия, то, по крайней мере, один из параметров коррекции 7 в двух уравнениях коррекции остатков должен отличаться от нуля. Если Xt не корректирует остаток равновесия (имеет нулевой пара- метр коррекции), то эта переменная является слабо экзогенной для C (как определено у Engle, Hendry, Richard, 1983). Это означает, что мы можем включить AXt в правую часть соотношения (9.24), не затрагивая члена коррекции остатков —j(Yt-i — /3Xt-i). Таким образом, мы можем наложить условие на Xt в модели коррекции ошибок для Yt (см. параграф 9.5 ниже). Теорема представления также справедлива и в обратном смысле; то есть если оба ряда Yt и Xt являются 1A) и имеют представление
9.3. Пример: долгосрочный динамический паритет 463 коррекции остатков, то они обязательно коинтегрированы. Важ- но уяснить, что понятие коинтеграции можно применить только к (нестационарному) интегрированному временному ряду. Если Yt и Xt являются 7@), то порождающий процесс всегда можно запи- сать в форме коррекции остатков (см. параграф 9.1). 9.3. Пример: долгосрочный динамический паритет покупательной способности (часть 2) В предыдущей главе мы ввели тему паритета покупательной способ- ности (ППС), который требует, чтобы обменный курс между двумя валютами равнялся отношению уровней цен двух стран. В логариф- мической форме абсолютный паритет покупательной способности (ППС) можно записать в виде st=Pt-p*t, ' (9-27) где st — логарифм наличного обменного курса, pt — логарифм внутренних цен страны, apt* - логарифм зарубежных цен. Лишь немногие из сторонников ППС привели бы доводы в пользу строгой приверженности паритету покупательной способности. Скорее ППС обычно видится как определение обменного курса в долгосрочной динамике, в то время как разнообразие других факторов, таких как торговые ограничения, производительность и изменения в льготных таможенных пошлинах, может влиять на обменный курс в условиях нарушения равновесия. Следовательно, соотношение (9.27) рассмат- ривается как равновесие или коинтегрирующее соотношение. Используя ежемесячные наблюдения во Франции и Италии с января 1981г. по июнь 1996 г., как и прежде, мы ищем коинте- грирующее соотношение между ptl pi и st. В параграфе 8.5 мы уже показали, что гипотезу нестационарности реального валютного курса г St = st — pt + Pt отклонить невозможно. Это подразумева- ет, что гипотеза коинтегрирующего вектора A, —1,1)' отклоняется. В этом разделе мы протестируем, существует ли какое-либо другое коинтегрирующее соотношение, сначала используя только две пере- менные: логарифм обменного курса st и логарифм отношения цен ratiot = pt — pi. Интуитивно кажется, что такое соотношение под- разумевало бы, что изменение в относительных ценах соответствует
464 9. Многомерные модели временных рядов Таблица 9.4. Тесты наличия единичного корня для логарифма отношения цен Италии к Франции Статистика Дф РДФA) РДФB) РДФ(З) РДФD) РДФE) РДФF) Без тренда -1,563 -0,993 -1,003 -1,058 -1,014 -1,294 -2,015 С трендом -2,692 -2,960 -2,678 -3,130 -2,561 -2,493 -3,096 меньшему (или большему) пропорциональному изменению в обмен- ном курсе, при условии сохранения симметрии. Соответствующая коинтегрирующая регрессия st — а + /3 ratiot + et, (9.28) где /3 = 1 соответствует соотношению (9.27). Заметим, что pt и р$ ос- нованы не на ценах, а на индексах цен. Поэтому можно ожидать, что константа в регрессии (9.28) отличается от нуля. Следовательно, мы можем тестировать только относительную, а не абсолютную ППС. Доводы параграфа 8.5 подтвердили, что St был интегрируе- мым порядка один, 1A). Для логарифма отношения цен, ratiot, результаты (расширенных) тестов Дики—Фуллера представлены в таблице 9.4. Ясно, что мы не можем отклонить нулевую гипотезу наличия единичного корня в ratiot, и этот вывод соответствует дан- ным графика на рисунке 8.5. Теперь мы готовы оценить коинтегрирующую регрессию и про- верить коинтеграцию между st, и Pt — Pt - Сначала мы оценили регрессию (9.28) обычным методом наименьших квадратов. Резуль- таты представлены в таблице 9.5. Тест на наличие коинтегрирующе- го соотношения является тестом на стационарность МНК-оцененных остатков в этой регрессии. Мы можем протестировать наличие еди- ничного корня в остатках с помощью теста КРДУ, основанного на статистике Дарбина—Уотсона. Ясно, что значение 0,055 незначимо
9.3. Пример: долгосрочный динамический паритет 465 Таблица 9.5. Результаты обычного метода наименьших квадратов Зависимая переменная: st (логарифм обменного курса) Переменная константа ratiot = pt - Pt Оценка 5,4872 0,9822 Стандартная ошибка 0,00678 0,05133 ^-отношение 809,706 19,136 s = 0,0860, R2 = 0,6638, R2 = 0,6638, F = 366,191, dw = 0,055, Т = 186. Таблица 9.6. РДФтесты*^ (коинтеграции) остатков ДФ РДФA) РДФB) РДФ(З) -1,904 -1,850 -1,896 -1,952 РДФD) РДФE) РДФF) -1,910 -1,946 -2,249 на любом приемлемом уровне значимости, и, следовательно, мы не можем отклонить нулевую гипотезу наличия единичного кор- ня в остатках. Вместо теста КРДУ мы можем также применить расширенные тесты Дики—Фуллера**\ результаты которых приве- дены в таблице 9.6. Соответствующее 5%-ое критическое значение равно —3,37 (см. таблицу 9.2). Снова нулевую гипотезу наличия еди- ничного корня отклонить невозможно и, следовательно, данные не подтверждают, что наличный обменный курс и отношение цен коин- тегрированы. Этот вывод соответствует, например, выводу Корбея и Оулайриса (Corbae, Ouliaris, 1988), которые заключили, что для обменных курсов и отношений цен нет никакой долгосрочной дина- мической тенденции, которая вела бы к установлению равновесия. Потенциальное объяснение отклонения гипотезы наличия коин- тегрирующего соотношения состоит в том, что наложенное ограниче- ние, а именно, что pt и р^ вводят коинтегрирующую регрессию (9.28) с коэффициентом /3 и — /3 соответственно, несправедливо, например, Речь идет, конечно, о модифицированных ДФ и РДФ-тестах, ориентиру- ющихся на критические значения из таблиц, разработанных Дэвидсоном и МакКинноном (примеч. научн. ред. перевода). ^ См. предыдущую сноску (примеч. научн. ред. перевода).
466 9. Многомерные модели временных рядов из-за транспортных расходов или ошибки измерения. Мы можем оценить регрессию (9.28) без ограничений на коэффициенты таким образом, чтобы можно было протестировать существование более общего коинтегрирующего соотношения между этими тремя пере- менными, St, Pt к Pt- Однако, когда мы рассматриваем более чем двумерные системы, число коинтегрирующих соотношений может быть больше одного. Например, могут быть два разных коинте- грирующих соотношения между тремя переменными /A), которые делают анализ несколько более сложным, чем в двумерном случае. В параграфе 9.5 мы рассмотрим более общий случай. Когда существует только один коинтегрирующий вектор, мы можем оценить коинтегрирующее соотношение, как и прежде с по- мощью регрессии одной переменной по другим переменным. Однако требуется, чтобы коинтегрирующий вектор включал левостороннюю переменную этой регрессии, потому что ее коэффициент неявно нор- мируется к минус единице. В нашем примере мы строим регрессию St no pt и р\ и получаем результаты, представленные в таблице 9.7. Тесты РДФ*) на МНК-оцененных остатках приводят к результатам в таблице 9.8, где соответствующее 5%-ое критическое значение равно —3,77 (см. таблицу 9.2). Снова приходим к выводу, что мы не можем отклонить нулевую гипотезу, и что нет никакого коинтегрирующего соотношения между логарифмом обменного курса и логарифмом индексов цен Франции и Италии. Это не дает оснований полагать, что мы находимся в обстоятельствах, в которых некоторая (слабая) форма паритета покупательной способности справедлива для этих Таблица 9.7. Результаты обычного метода наименьших квадратов Зависимая переменная: St (логарифм обменного курса) Переменная константа Pt Pt Оценка 12,5092 3,0964 -4,6291 Стандартная ошибка 0,5170 0,1508 0,2710 ^-отношение 24,194 19,372 -17,085 s = 0,0609, R2 = 0,8335, R2 = 0,8316, F = 357,902, dw = 0,1525, Т = 186. См. предыдущую сноску (примеч. научн. ред. перевода).
9.4. Векторные модели авторегрессии 467 Таблица 9.8. РДФ тесты*' (коинтеграции) остатков ДФ РДФA) РДФB) РДФ(З) -2,806 -3,159 -2,964 -2,872 РДФD) РДФE) РДФF) -2,863 -2,923 -2,918 двух стран. Конечно, возможен случай, что наш выборочный период просто не слишком длительный, чтобы найти достаточное свиде- тельство для коинтегрирующего соотношения. Как представляется, эти выводы согласуются с теми, которые можно найти в литера- туре по данной проблеме. Выборки, обладающие более длительной протяженностью, вплоть до столетия или более, в большей степени согласуются с некоторой долгосрочной динамической тенденцией ППС (см. обзор у Фрута и Рогоффа (Froot, Rogoff, 1994)). 9.4. Векторные модели авторегрессии Модели авторегрессии-скользящего среднего из предыдущей главы можно легко распространить на многомерный случай, когда мо- делируется стохастический процесс, порожденный векторным вре- менным рядом переменных. Самый общий подход состоит в том, чтобы рассмотреть векторную модель авторегрессии (ВАР). ВАР описывает динамическое развитие множества переменных на основе их общей истории. Если мы рассматриваем две переменные, скажем Yt и Xtl то говорят, что ВАР состоит из двух уравнений. Модель ВАР первого порядка задавалась бы в виде Yt = 6!+ OnYt-x + 0i2Xt-i + eiu (9.29) Xt = S2 + e2iYt-1 + 022*t-i + £2u (9.30) где e\t и E2t — Дв& процесса белого шума (независимые от истории Y и X), которые могут быть коррелированы. Если, например, в\2 Ф 0, то это означает, что предыстория X помогает объяснению Y. Систему См. предыдущую сноску (примеч. научн. ред. перевода).
468 9. Многомерные модели временных рядов (9.29)-(9.30) можно написать как или при соответствующих обозначениях, как Yt = 6 + Q1Yt-1+?u (9.32) где Yt — (Yi, Xt)f vie — {ец, £2t)''• Это распространяет модель авторе- грессиии первого порядка из главы 8 на случай большей размерности. В общем, модель ВАР(р) для /с-мерного вектора Yt задается в виде Yt = 5 + GiU-i + • • • + epyt-P + eu (9.33) где каждая Qj есть afcxfc матрица, a St — /с-мерный вектор членов белого шума с ковариационной матрицей Е. Как и в одномерном случае, мы можем использовать оператор сдвига, чтобы определить матричный полином от оператора сдвига вЩ=1к-в1Ь-...-врЬр, где Ik — fc-мерная единичная матрица, поэтому мы можем написать ВАР в виде e(L)Yt = S + et. Матричный полином от оператора сдвига есть к х к матрица, в ко- торой каждый элемент соответствует полиному р-го порядка от L. Аналогичные векторные обобщения моделей АРСС (ВАРСС) можно получить, умножая слева st на (матричный) полином от оператора сдвига. Модель ВАР состоит из одномерных моделей АРСС, каждая из которых является компонентой ВАР. Преимущества одновремен- ного учета компонент заключаются в том, что модель может быть более экономной, включать меньше лагов, и возможно более точно прогнозировать, поскольку информационное множество расширено включением истории также других переменных. С различных то- чек зрения Симе (Sims, 1980) пропагандировал применение моделей ВАР вместо моделей структурных одновременных уравнений (СОУ), потому что различие между эндогенными и экзогенными перемен- ными не следует делать априорно, и не требуются «произвольные» ограничения, которые гарантируют идентификацию (см., например, обсуждение у Кэнова, (Canova, 1995)). Подобно приведенной форме СОУ ВАР всегда идентифицируется.
9.4. Векторные модели авторегрессии 469 Математическое ожидание Yt можно определить, если мы нала- гаем условие стационарности, что приводит к выражению E{Yt} = 8 + QiEiYt} + ... + QPE{Yt} или ц = E{Yt} = (I - в: - ... - вр)-Ч = вAГЧ которое показывает, что стационарность требуется для обратимо- сти8^ к х к матрицы 0A). В настоящий момент мы предположим, что это так. Как и прежде, мы можем вычесть среднее значение и рассмотреть у — Yt — /х, для которого мы имеем yt = 6iyt-i + ... + ерШ-Р + et. (9.34) Мы можем использовать модель ВАР для прогнозирования непо- средственно. Для прогнозирования с конца выборочного периода (периода Т), релевантное информационное множество теперь уже включает векторы yV, ут-i,... , и мы получаем оптимальный про- гноз на один период вперед yT+i|T = Е{ут+\\ут,Ут-ъ •••} = 01Ут+ ... + 0рУг-Р+1. (9.35) Дисперсия ошибки прогноза на один период вперед есть просто У{ут+1\ут, Ут-i, • • •} = S. Прогнозы, больше чем на один период вперед, можно получить рекурсивно. Например, УТ+2| Т = 01УТ+1| Т + • • • + ©рУТ-р+2 = 0i@iyV + . • • + ©рут-р+i) + • • • + 6рут-р+2. (9.36) Векторная модель авторегрессии довольно просто оценивается уравнение за уравнением 9^ применением обычного метода наимень- ших квадратов, который является состоятельным, поскольку члены белого шума предполагаются независимыми от истории yt. Из МНК- оцененных остатков каждого из к уравнений eit,. • • , е^, мы можем Вспомним из главы 8, что в случае АР(р) стационарность требует, чтобы 0A) ф 0, так что 0A)-1 существует. Поскольку объясняющие переменные для каждого уравнения одни и те лее, то метод оценивания системы, как, например, SUR (см. у Грина (Greene, 2000, Sect. 15.4)), приводит к тем лее самым оценкам, что и МНК, применяемый к каждому уравнению отдельно. Если на уравнения накладываются различные ограничения, то оценивание SUR более эффективно, чем МНК, хотя МНК- оценивание остается состоятельным.
470 9. Многомерные модели временных рядов оценить (г, j)-элемент в Е как10) т (J a — гз~Т-р у t=p+l Е enejt, (9.37) так что S = ^— J2 *%, (9.38) где et = (en,... ,efct)'. Длина лагирования р на эмпирическом уровне не всегда легко определяется, при этом даже одномерные автокорреляционные или частные автокорреляционные функции могут не помочь; см. обсуж- дение у Кэновея (Canova, 1995). Приемлемая стратегия состоит в том, чтобы оценить модель ВАР для различных значений р, а затем выбрать длину лагирования на основе информационных критериев Акаике или Шварца, которые обсуждались в главах 3 и 8, или на основе статистической значимости. Если матрица 6A) является обратимой, то это означает, что мы можем написать векторную модель авторегрессии в виде векторной модели скользящего среднего (ВСС), умножая слева на матрицу O(L)-1, по аналогии с представлением скользящего среднего одно- мерной модели авторегрессии. Получаем выражение Yt = e(l)-x5 + e(L)^ = // + Q{L)-leu (9.39) которое описывает каждый элемент в Yt как взвешенную сумму всех текущих и прошлых et в системе. Записав e(L)-1=Ik + A1L + A2L2 + ..., мы имеем следующее: Yt = \i + et + Axst-i + A2et-2 + • • • . (9.40) Если вектор белого шума St возрастает на вектор d, то эффект на Yt+s (s > 0) задается в виде Asd. Таким образом в матрице As = ^ (9.41) oet ^ Предполагая, что имеются наблюдения t = 1, ...,Т, число используемых наблюдений равно (Т — р). Заметим, что молено использовать скорректиро- ванные степени свободы, как и в линейной модели регрессии (см. главу 2).
9.5. Коинтеграция: многомерный случай 471 каждый ее (г, ^-элемент измеряет влияние на Yjj+S увеличения на одну единицу Ец. Если изменяется только первый элемент вц из £$, то эффекты задаются первым столбцом As. Динамические эффекты на j-ую переменную такого увеличения на одну единицу задаются элементами в первом столбце и j-ой строке Д, Лх, Аг,... • График этих элементов как функция от s называется функцией отклика на импульс. Эта функция измеряет отклик lj,t+s на импульс в Y*it, сохраняя постоянными все другие переменные, датированные t и ранее. Хотя возможно трудно получить выражения для элементов в O(L)-1, отклики на импульс можно определить совершенно легко методами моделирования (см. Гамильтон (Hamilton, 1994)). Если матрица 0A) необратима, то все переменные в It не могут быть стационарными рядами /@). По крайней мере, должен присут- ствовать один стохастический тренд. В чрезвычайном случае, когда мы имеем к независимых стохастических трендов, все к переменных являются интегрируемыми порядка один наряду с тем, что никаких коинтегрирующих соотношений не существует. В этом случае мат- рица 0A) равна нулевой матрице. Промежуточные варианты более интересны: ранг матрицы 0A) равняется числу линейных комбина- ций переменных в Yf> которые являются /@), что определяет число коинтегрирующих векторов. Эта тема следующего параграфа. 9.5. Коинтеграция: многомерный случай Когда включается больше двух переменных, анализ коинтеграции несколько более сложен, потому что в этом случае обобщением ко- интегрирующего вектора является коинтегрирующее простран- ство, размерность которого априори не известна. Таким образом, когда мы имеем множество из к переменных /A), то может су- ществовать вплоть до к — 1 независимых линейных соотношений, которые являются /@), в то время как любая линейная комбинация этих соотношений, по построению, также является /@). Это озна- чает, что индивидуальные коинтегрирующие векторы статистически больше не идентифицируемы; а есть только пространство, натянутое на эти векторы. В идеале, в коинтегрирующем пространстве можно найти векторы, которые имеют экономическую интерпретацию и могут интерпретироваться как представляющие долгосрочное дина- мическое равновесие.
472 9. Многомерные модели временных рядов 9.5.7. Коинтеграция в векторных моделях авторегрессии Если интересующие нас переменные образуют /с-мерный вектор Yt, элементы которого предполагаются /A), то могут быть различные векторы /3 такие, что Zt = C'Yt является /@). Таким образом, мо- жет быть больше одного коинтегрирующего вектора C. Очевидно, что управлять долгосрочным динамическим поведением к пере- менных могут несколько соотношений равновесия. В общем, может быть г < к — 1 линейно независимых коинтегрирующих векторов п', которые собраны в к х г коинтегрирующую матрицу12^ /3. По по- строению, ранг матрицы13^ C равен г, и называется коинтегриру- ющим рангом Yt. Это означает, что каждый элемент в г-мерном векторе Zt — CrYt есть /@), в то время как каждый элемент в /с-мерном векторе Yt есть 1A). Теорема представления Грэнжера (Engle, Granger, 1987) непо- средственно распространяется на этот общий случай и утверждает, что если Yt коинтегрированный, то существует обоснованное пред- ставление данных в виде модели коррекции остатков. Хотя суще- ствуют различные способы получить и описать такое представление, здесь мы начнем с векторной модели авторегрессии для Yt ? введен- ной в предыдущем параграфе: Yt = 6 + 6iyt_i + ... + SpYt.p + ер (9.42) или e{L)Yt = 6 + st. (9.43) Для случая р — 3 мы можем написать ВАР в виде AYt=6 + {e1 + e2-Ik)Yt_1-e2AYt-1+e3AYt--3+st = -5 + (в1+в2 + вз-4)У^-в2Д^_1-в3(А^-1+А^_2) + ^ или AYt = S + Г1 ДУ*-1 + Г2ДУ,_2 + @! + 62 + 6з - А)У*-1 + eu Существование к коинтегрирующих соотношений между к элементами в Yt означало бы, что существуют к независимых линейных комбинаций, которые являются /@), такие, что, обязательно, все индивидуальные элементы в Yt должны быть /@). Ясно, что это противоречит определению коинтеграции как свойства переменных /A), и отсюда следует, что г < к — 1. Мы придерживаемся принятого в литературе по коинтеграции обозначения коинтегрирующей матрицы греческой строчной буквой /3. См. Приложение. А для определения ранга матрицы.
9.5. Коинтеграция: многомерный случай 473 где Г*1 = — Oi — 63 и Г2 = — Оз. По аналогии в общем случае, т.е. для любого значения р мы можем написать, что ' AYt = 6 + Г1 ДУ*_1 + ... + Гр_! ДУ,_р+1 + 1Щ_1 + еи (9.44) где «долгосрочная динамическая матрица» П = -еA) = -(Д-01-...-вр) (9.45) определяет долгосрочные динамические свойства Yt - Это урав- нение является прямым обобщением регрессий, применяемых в рас- ширенном тесте Дики—Фуллера. Поскольку AYt и tt являются стационарными (по предположению), то вектор nit-i B соотноше- нии (9.44) должен быть также стационарным. Это может отражать три различные ситуации. Во-первых, если все элементы в Yt инте- грируемые порядка один, и никаких коинтегрирующих соотношений не существует, то в этом случае П = 0 и соотношение (9.44) пред- ставляет (стационарную) модель ВАР для Alt- Во вторых, если все элементы в Yt являются стационарными переменными /@), то матрица П = — 0A) должна иметь полный ранг и быть обратимой, так что мы можем написать векторное представление скользящего среднего Yt = —Q~1(L)E + St). В-третьих, если матрица П имеет ранг г @ < г < /с), то элементы в векторе 1Щ_1 являются ли- нейными комбинациями, которые стационарны. Если переменные в Yt являются /A), то эти линейные комбинации должны соответ- ствовать коинтегрирующим векторам. Этот промежуточный случай наиболее интересен. Если матрица П имеет редуцированный ранг г < к — 1, то это означает, что существует г независимых линейных комбинаций из к элементов в Yt, которые являются стационарными, то есть: существует г коинтегрирующих соотношений. Заметим еще раз (см. выше сноску 11), что существование к коинтегрирующих соотношений невозможно: если к независимых линейных комбина- ций анализируемых к переменных порождают стационарный ряд, то все к переменных сами должны быть стационарными. Если матрица П имеет редуцированный ранг, то ее можно записать в виде произведения к х г матрицы j на г х к матрицу /?', ) Возможно переписать ВАР так, что любой из лагов появляется в уровнях в правой части с теми же самыми коэффициентами, что и в «долгосрочной ди- намической матрице» П. Для сравнения с одномерным случаем мы выбираем включение первого лага. ' В одномерном случае долгосрочные динамические свойства определяются #A) где в(Ь) — полином АР (см. главу 8).
474 9. Многомерные модели временных рядов которые обе имеют ранг г 16К Таким образом, П = jCf. Подстановка этого выражения в соотношение (9.44) порождает модель в форме коррекции остатков Д? = S + Г1 ДУ4_1 + ... + Гр_х AYt-p+1 + 70'Yt-i + et. (9.46) Линейные комбинации /3'Yt-i представляют г коинтегрирующих со- отношений. Коэффициенты в 7 измеряют, как элементы в А1^ кор- ректируются относительно г «остатков равновесия» Zt-\ — j3it-i. Таким образом, модель (9.46) является обобщением модели (9.24) и называется векторной моделью коррекции остатков (ВМКО). Если взять математические ожидания всех членов модели кор- рекции остатков, то получаем: (/ _ Г1 - ... - Tp^EiAYt} = S + -yEiZt-г}. (9.47) Нет никакого детерминированного тренда в любой из переменных, если E{AYt} — 0. Для того, чтобы согласно предположению, мат- рица (/ — Ti — ... — Tp_i) была невырожденной, требуется, чтобы 5 + ^E{Zt-\} — 0 (ср. п. 9.2.3), где E{Zt-i) соответствует вектору свободных членов в коинтегрирующих соотношениях. Если мы на- лагаем это ограничение, то свободные члены появляются только в коинтегрирующих соотношениях. Но мы можем переписать модель коррекции остатков в терминах zt — Zt-\ — E{Zt-i} и тем самым освободиться от всех свободных членов, то есть: AYt = Г1АУ4-1 + • • • + Гр_1 Д^-р+1 + 7(-<* + ^Yt-i) + stl где а — r-мерный вектор констант, удовлетворяющий E{0'Yt„1} = E{Zt_l} = a. В результате все члены в этом выражении имеют нулевое среднее, и никаких детерминированных трендов не существует. Если мы добавляем одну общую константу к векторной модели коррекции остатков, то мы получаем AYt = А + Г1 ДУ*-1 + ... + Гр_!Дй-р+1 + 7(-<* + P'Yt-i) + eu где А — /с-мерный вектор с идентичными компонентами Ai. Теперь долгосрочное динамическое равновесие соответствует устойчивому Это означает, что г столбцов в 7 линейно независимы, и что г строк в C являются независимыми (см. Приложение А).
9.5. Коинтеграция: многомерный случай 475 состоянию траектории роста с темпами роста для всех переменных, заданных в виде Е{ДУ<} = (/-Г1-...-Гр_1)-1Л. Предполагается, что детерминированные тренды в каждом Yjt в долгосрочной динамике должны уравновешиваться (т. е. в итоге исчезать), так что никакой детерминированный тренд не будет при- сутствовать в модели коррекции остатков. Мы можем даже учиты- вать отдельные к — г детерминированные тренды, которые урав- новешиваются в коинтегрирующих соотношениях, в случае когда мы обращаемся к спецификации (9.46) без ограничений на 6. При этом 5 включает г свободных членов в долгосрочных динамических соотношениях и к — г различных детерминированных трендов в переменных в Yt. Если есть больше, чем к — г отдельных детерми- нированных трендов, они не могут уравновеситься в /3'Yt-i, и мы должны включить детерминированный тренд в коинтегрирующие уравнения. Дополнительное обсуждение и некоторые альтернативы см. у Харриса (Harris, 1995, р. 96). 9.5.2. Пример: коинтеграция в двумерной векторной модели авторегрессии В качестве примера рассмотрим случай к — 2. В этом случае число коинтегрирующих векторов может быть равным нулю или единице (г = 0, 1). Рассмотрим (нестационарную) модель ВАР первого по- рядка для Yt — (Yt, Xt)f. Таким образом, (Yt\ = (вп в12\ (Yt-Л (elt\ \Xt) \в21 е22) \Xt-J \e2t)> где, для простоты, мы не включили свободные члены. Матрица П имеет вид Данная матрица является нулевой, если 6ц = 622 — 1 и #12 — #21 — О, а значит Yt и Xt — два случайных блуждания. Матрица П имеет редуцированный ранг, если @11 -1)@22-1)- 021012=0. (9.48) В таком случае /з' = @ц -1 е12)
476 9. Многомерные модели временных рядов является коинтегрирующим вектором (при условии, что мы выбрали произвольную нормировку), и мы можем написать \ П = 7/7 = 1 #21 (Ян -1 М- hi -1 / Используя эту матрицу, мы можем записать модель в форме кор- рекции остатков. Сначала напишем #12 #22 — 1 Yt-i + £2t ду' = \AXt sit S2t (9.49) ^ (@ii-l)yt-i+0i2Xt-i) + #n-l ' Форма коррекции остатков, таким образом, весьма проста, поскольку она исключает любую динамику. Заметим, что как Yt, так и Xt кор- ректируются остатком равновесия, поскольку исключается #21—0. (Также заметим, что #2i = 0 означало бы, что 9ц = #22 = 1 и коин- теграции отсутствует.) Из этого результата также следует вывод, что линейная ком- бинация Zt = (#ц — l)Yt + 0i2Xt является /@). Заметим, что мы можем написать / \ #21 Zt-i + (#11 - 1 #12) £it £2t AZt = (вц - 1 #12) V #11 - 1 / или (используя условие (9.48)): Zt = Zt_i + (#11 - 1 + #22 - l)Zt-i +"t = (On + #22 - l)Zt-i + щ где vt — (#11 — 1)ец + 0\2^2t — остаточный член в форме белого шума. Следовательно, Zt описывается стационарным процессом АРA), еСЛИ #ц ф 1 И #22 ф 1. 9.5.3. Тестирование на коинтеграцию Если известно, что существует только один коинтегрирующий век- тор, то наиболее простым подходом для тестирования существования
9.5. Коинтеграция: многомерный случай 477 коинтеграции является подход Энгле—Грэнжера (Engle—Granger), описанный в п. 9.2.3. Этот подход требует построения регрессии Y\t (переменной, являющейся первым элементом Yt) по другим к — 1 пе- ременным У2£, • • • , Ykt и тестирования на наличие единичного корня в МНК-оцененных остатках. Это можно сделать, используя тесты РДФ*) на МНК-оцененных остатках, имея в виду критические зна- чения из таблицы 9.2. Если гипотеза наличия единичного корня отклоняется, то это значит, что отклоняется и гипотеза «отсутствие коинтеграции». В данном случае, статическая регрессия дает состо- ятельные оценки коинтегрирующего вектора, тогда как на второй стадии можно оценить модель коррекции остатков, используя оце- ненный коинтегрирующий вектор из первой стадии. Однако в подходе Энгле—Грэнжера существуют некоторые про- блемы. Во-первых, результаты тестов чувствительны к переменной в левой части регрессии, то есть, к нормировке, применяемой к коин- тегрирующему вектору. Во вторых, в случае, если коинтегрирующий вектор, не включает Fit, а только Y^t, •.. , Ykt, тест не приемлем и коинтегрирующий вектор не будет состоятельно оценен регрессией Y\t по Y2t,... , Ykt. В-третьих, возможно, что между переменными Yit, .. • , Ykt существует более, чем одно коинтегрирующее соотноше- ние. Если, например, существуют два различных коинтегрирующих соотношения, то обычно МНК оценивает их линейную комбина- цию (см. Гамильтон (Hamilton, 1994, р. 590)). К счастью, поскольку нулевая гипотеза для тестов коинтеграции состоит в отсутствии коинтеграции, то тесты все же соответствуют своей цели. Альтернативный подход без предыдущих недостатков был пред- ложен Иохансеном (Johansen, 1988), который разработал процеду- ру оценивания максимального правдоподобия, с помощью которой также возможно тестировать число коинтегрирующих соотношений. Детали процедуры Иогансена очень сложны и мы рассмотрим только некоторые аспекты. Более детально с этим подходом можно озна- комиться у Иохансена и Джуселиуса (Johansen, Juselius, 1990) и Иохансена (Johansen, 1991), или в учебниках, таких как Бейнрджи и др. (Banerjee et al, 1993, Глава 8); Гамильтон (Hamilton, 1994, Гла- ва 20); Иохансен (Johansen, 1995, Глава 11) и Стюарт и Гилл (Stewart, Gill, 1998, Разделы 9.4 и 9.5). Отправной точкой процедуры Иохан- *) Речь идет о модифицированных РДФ-тестах, использующих критические значения из таблиц, разработанных Дэвидсоном и МакКинноном (примеч. научн. ред. перевода).
478 9. Многомерные модели временных рядов сена является представление векторной модели авторегрессии Yt, заданной соотношением (9.44), в виде: AYt = 5 + Г1 ДУ*-1 + ... + Гу_! ДУ,_р+1 + ГЩ_! + еи (9.50) где St является HOHP@,T,). Напомним, что применение метода максимального правдоподобия требует, чтобы мы постулировали общий вид закона распределения для элементов белого шума. Пред- полагая, что Yt является вектором 1A) переменных, в то время как г линейных комбинаций Yt являются стационарными, мы можем написать П = 7/5', (9.51) где, как прежде, 7 и Р имеют размерность к х г. Снова, C обозначает матрицу коинтегрирующих векторов, в то время как 7 представля- ет матрицу весов, с которыми каждый коинтегрирующий вектор входит в каждое из уравнений AYt. Подход Иохансена основан на оценивании методом максимального правдоподобия системы (9.50), с наложением ограничения (9.51) для заданного значения г. Первый шаг в подходе Иохансена включает тестирование ги- потезы о ранге долгосрочной динамической матрицы П или, что равнозначно, о числе столбцов в C. При заданном г, можно по- казать (см., например, Гамильтон (Hamilton, 1994, Sect. 20.2)), что оценка максимального правдоподобия для /3 равняется матрице, со- держащей г собственных векторов, соответствующих г наибольшим (оцененным) собственным значениям к х к матрицы, которую можно легко оценить, используя программы, реализующие МНК. Обозна- чим (теоретические) собственные значения этой матрицы в порядке убывания: Ai > Л2 > ... > А&. Если существуют г коинтегрирую- щих соотношений (и П имеет ранг г), то для к — г наименьших собственных значений j=r + l,r + 2,...,fc должно иметь место log A — Xj) = 0. Мы можем использовать оцененные собственные зна- чения, скажем Ai > А2 > ... > А&, чтобы протестировать гипотезы о ранге П. Например, гипотезу Щ : г < го против альтернативной ги- потезы Н1 : го < г < к можно протестировать, используя статистику к Atrace(ro) = "Г ^ log A- АД (9.52) Это так называемый тест следа. С его помощью проверяется, отли- чаются ли значимо от нуля к — го наименьших собственных значе- ний. Кроме того, мы можем протестировать Hq : г < г о против более
9.5. Коинтеграция: многомерный случай 479 ограниченной альтернативной гипотезы Н\ : г = г о + 1, используя АтахЫ = "Г log A - ЛГ0 + 1). (9.53) Этот альтернативный тест называется тестом максимального соб- ственного значения, поскольку он основан на оцененном (го + 1)-ом наибольшем собственном значении. Два описанных здесь теста, фактически, являются тестами от- ношения правдоподобия (см. главу 6), но не имеют обычных рас- пределений хи-квадрат. Вместо этого соответствующие распределе- ния являются многомерными расширениями распределений Дики— Фуллера. Как и в случае с тестами наличия единичного корня, про- Таблица 9.9. Критические значения тестов отношения правдоподобия LR Иохансена наличия коинтеграции (Pesaran, Shin, Smith, 2000) \ k-r0 Atrace -статистика Но : г < го против Hi : г > го 5% 10% Ащах-статистика Но : г < го против Hi : г = го + 1 5% 10% Случай 1: ограниченные свободные члены в ВАР (только в коинтегрирующих соотношениях) 1 2 3 4 5 9,16 20,18 34,87 53,48 75,98 7,53 17,88 31,93 49,95 71,81 9,16 15,87 22,04 28,27 34,40 7,53 13,81 19,86 25,80 31,73 Случай 2: неограниченные свободные члены в ВАР 1 2 3 4 5 8,07 17,86 31,54 48,88 70,49 \ 6,50 15,75 28,78 45,70 66,23 8,07 14,88 21,12 27,42 33,64 6,50 12,98 19,02 24,99 31,02
480 9. Многомерные модели временных рядов центили распределений зависят от факта наличия константы (и вре- менного тренда). Критические значения для этих двух случаев представлены в таблице 9.9. Случай 1 предполагает, что нет ни- каких детерминированных трендов, и включает г свободных членов в коинтегрирующие соотношения. Случай 2 основан на включении к свободных членов в ВАР (без ограничений), которые подразумевает наличие к — г отдельных детерминированных трендов и г свободных членов в векторах коинтеграции. Критические значения зависят от к — го, числа нестационарных компонентов при нулевой гипотезе. Заметим, что, когда к — го = 1, эти две критические статистики идентичны и таким образом имеют одно и то же распределение. Важно понимать, что параметры j и /3 идентифицируются не однозначно, в том смысле, что различные комбинации 7 и Р мо_ гут порождать одну и ту же матрицу П = j/3f. Это потому, что 7/3' = 7jPjP1/3/ Для любой обратимой г х г матрицы Р. Други- ми словами, данные могут определить пространство, натянутое на столбцы /?, пространство коинтеграции, и пространство, натяну- тое на 7- Следовательно, коинтегрирующие векторы в /3 должны нормироваться некоторым образом, чтобы получились однозначные коинтегрирующие соотношения. Часто надеются, что эти соотноше- ния могут иметь разумную экономическую интерпретацию. 9.5.4. Пример: долгосрочный динамический паритет покупательной способности (часть 3) В этом пункте параграфа мы рассмотрим вышеприведенный пример, касающийся долгосрочного динамического паритета покупательной способности. Мы проанализируем существование одного или более коинтегрирующих соотношений между тремя переменными st, pt и pi, используя метод Иохансена, описанный в предыдущем пункте. Эта стандартная опция доступна, например, в пакете программ MicroFit. Первым шагом этой процедуры является определение р, мак- симального порядка лагов в представлении авторегрессии (9.42). По-видимому, в общем случае слишком мало лагов в модели до- вольно легко приводит к отклонению нулевых гипотез, в то время как слишком много лагов в модели снижают мощность тестов. То есть, существует некоторая оптимальная длина лагирования. Кроме определения р, мы должны решить вопрос о том, включать или нет временной тренд в представление авторегрессии (9.42). При отсут-
9.5. Коинтеграция: многомерный случай 481 Таблица 9.10. Тесты на коинтеграцию, основанные на максимальном собственном значении Нулевая гипотеза Но : г = 0 Но : г < 1 Но : г < 2 Альтернативная Hi : г = 1 Я! : г = 2 tfi : г = 3 Атах-статистика 65,509 22,032 6,371 5% критическое значение 22,04 15,87 9,16 Длина лагирования р = 3. Свободные члены включены. Т = 183. Оцененные собственные значения: 0.3009. 0.1134, 0,0342. ствии временного тренда, свободный член автоматически включает- ся в коинтегрирующее соотношение(я). Рассмотрим более или менее произвольный случай р = 3 (без временного тренда). Первый шаг в процедуре Иохансена приводит к результатам 17\ представленным в таблице 9.10. Эти результаты представляют оцененные собственные значения Ai,...,Afc (fc = 3) в порядке убывания. Вспомним, что каждое ненулевое собственное значение соответствует коинтегриру- ющему вектору. Также представлен набор критических статистик, основанный на этих оцененных собственных значениях. Эти резуль- таты показывают, что: 1. Нулевую гипотезу отсутствия коинтеграции (г = 0) при тести- ровании против гипотезы наличия одного коинтегрирующего вектора (г = 1) следует отклонить на 5%-ом уровне значимости, поскольку 65,5 превышает критическое значение 22,04. 2. Нулевую гипотезу отсутствия или наличия одного коинтегри- рующего вектора (г < 1) против альтернативной гипотезы двух коинтегрирующих соотношений (г = 2) также следует откло- нить. 3. Нулевая гипотеза наличия двух или менее коинтегрирующих векторов против альтернативной гипотезы г = 3 не отклоняет- ся. Вспомним, что гипотеза г = 3 соответствует стационарности каждого из трех рядов, которая также была отклонена одномер- ными тестами наличия единичного корня. Результаты в этом пункте получены с помощью программного обеспечения MicroFit 4.0, Oxford University Press.
482 9. Многомерные модели временных рядов Таблица 9.11. Тесты максимальных собственных значений на коинтеграцию Нулевая гипотеза Но : г = 0 Но : г < 1 Но : г < 2 Альтернативная Hi : г = 1 #1 : г = 2 Нг : г = 3 Атах-статистика 19,521 16,437 6,180 5% критическое значение 22,04 15,87 9,16 Длина лагирования р = 12. Свободные члены включены. Т = 174. Оцененные собственные значения: 0,1060, 0,0901, 0,0349. Опираясь на эти результаты, мы должны выбрать число коинтегри- рующих векторов. Принимая во внимание описанные выше резуль- таты, несколько удивительно, что тесты Иохансена, по-видимому, указывают на наличие двух коинтегрирующих соотношений. На первых шагах процедуры Энгле—Грэнжера мы не смогли отклонить отсутствие коинтеграции в любом из случаев, которые мы рассмат- ривали. Возможное объяснение этого факта может состоять в том, что число лагов в ВАР-модели является слишком малым. Подобную ситуацию мы встречали прежде с одномерными тестами наличия единичного корня для pt и р£, когда включение слишком малого числа лагов могло привести нас к неправильному выводу о том, что ряды являются стационарными, или, — в данном случае, — что ряды Pt, Pt и st являются коинтегрированными18^. В таблице 9.11 пока- зано, что происходит в случае, если мы повторяем вышеупомянутую процедуру с длиной лагирования р — 12, на основе того факта, что мы используем ежемесячные данные. Что является наиболее ясным из этих результатов, так это то, что резоны для подтверждения наличия одного или двух коинтегри- рующих векторов намного слабее, чем прежде. Первый тест, который рассматривает нулевую гипотезу отсутствия коинтеграции (г = 0) против альтернативной гипотезы наличия одного коинтегрирующего соотношения (г = 1) не приводит к отклонению нулевой гипотезы. Второй тест однако, подразумевает «неуверенное» отклонение ги- потезы отсутствия или существования одного коинтегрирующего вектора. Заметим, например, что «коинтегрирующий» вектор @, 0, 1)' соответствует стационарности последнего элемента.
9.6. Пример: спрос на деньги и инфляция 483 Таблица 9.12. Результаты оценивания по Иохансену Оцененный коинтегрирующий вектор Переменная St Pt Pt -0,092 0,583 -1,354 Нормированное -1,000 6,347 -14,755 На основе ВАР с р = 12. Предположим, что мы продолжаем наш анализ, несмотря на эти наши замечания, и принятием решения, что число коинтегрирующих векторов равно единице (г = 1). Следующая часть результатов, пред- ставленная в таблице 9.12, состоит из оцененного коинтегрирующего вектора /3. Нормированный коинтегрирующий вектор находится в третьем столбце этой таблицы и соответствует выражению st = 6,347р* - 14,755р*, (9.54) которое, по-видимому, не согласуется с экономически интерпретиру- емым долгосрочным динамическим соотношением. Поскольку вывод о наличии в данном примере одного коинтегри- рующего соотношения между нашими тремя переменными, скорее все- го, неправилен, мы не рассматриваем этот пример дальше. Для со- ответствующего тестирования долгосрочного динамического паритета покупательной способности с помощью процедуры Иохансена, нам, вероятно, потребовался бы более длинный временной ряд. Альтерна- тивно, некоторые авторы используют одновременно отдельные группы стран и применяют методы коинтеграции панельных данных (см. главу 10). Еще одна проблема может возникнуть по поводу точности измерения двух индексов цен при их сравнении в двух странах. 9.6. Пример: спрос на деньги и инфляция Одно из преимуществ коинтеграции в многомерных моделях времен- ного ряда заключается в том, что с ее помощью можно улучшить прогнозы. Дело в том, что прогнозы, построенные из коинтегриро- ванной системы взаимосвязаны в силу существования одного или
484 9. Многомерные модели временных рядов более долгосрочных динамических соотношений. Как правило, это преимущество реализуется при среднесрочном и долгосрочном про- гнозировании (ср. Engle, Yoo, 1987). Хоффман и Ращ (Hoffman, Rasche, 1996), Лин и Тсей (Lin, Tsay, 1996) эмпирически исследова- ли эффективность прогнозов на основе коинтегрированной системы. В этом параграфе, основанном на исследованиях Хоффмана и Раща, мы рассмотрим эмпирический пример пятимерного векторного про- цесса. Эмпирические вычисления проводились на ежеквартальных данных Соединенных Штатов Америки с первого квартала 1954 г. по четвертый квартал 1994 г. (Т = 164) по следующим переменным:19' mt — логарифм денежных остатков Ml в реальном выражении; in fit — ежеквартальный уровень инфляции (в % ежегодно); cprt — оценочная стоимость коммерческих бумаг; yt — логарифм валового внутреннего продукта в реальном вы- ражении (в миллиардах долларов 1987 г.); tbrt — ставка по казначейским векселям. Оценочная стоимость коммерческих бумаг и ставка по казначейским векселям рассматриваются как рисковая и безрисковая доходности, соответственно, на ежеквартальном горизонте. Ряды для Ml и вало- вого внутреннего продукта имеют сезонные циклы. Хотя можно было бы обсудить наличие единичного корня в некоторых из этих рядов, мы будем следовать за Хоффманом и Ращем (Hoffman, Rasche, 1996) и предполагать, что эти пять переменных все хорошо описываются процессом 1A). Априорно можно было предполагать наличие трех возможных коинтегрирующих соотношений, управляющих долгосрочным ди- намическим поведением этих переменных. Во-первых, мы можем специфицировать уравнение спроса на деньги в виде mt = ai+ puyt + Pistbrt + e\t, где /?i4 обозначает эластичность по доходу, а C\§ эластичность по процентной ставке. Можно ожидать, что C\± близко к единице и соответствует унитарной эластичности по доходу, и что /З15 < 0. Во вторых, если реальные процентные ставки являются стационарными, мы можем ожидать, что in flt = a2 + fostbrt + e2t ') Данные доступны в MONEY.
9.6. Пример: спрос на деньги и инфляция 485 соответствует коинтегрирующему соотношению с /З25 = 1. Оно на- зывается соотношением Фишера, где мы используем фактическую инфляцию вместо ожидаемой инфляции 20^. В-третьих, можно ожи- дать, что рисковая премия, которая измеряется разностью между оценочной стоимостью коммерческих бумаг и ставкой по казначей- ским векселям, является стационарной, так, что третье коинтегри- рующее соотношение задается в виде cprt = a3 + 33btbrt + est с /?35 = 1- Прежде чем перейти к анализу векторного процесса этих пяти переменных, рассмотрим МНК-оценки трех вышеприведенных ре- грессий. Они представлены в таблице 9.13. Для более удобного срав- нения с последующими результатами, наложим условия, в соответ- ствии с которыми левосторонние переменные включаются в коинте- грирующий вектор (если он существует) с коэффициентом —1. Заме- тим, что стандартные ошибки МНК-метода неприемлемы, если пере- менные в регрессии имеют нулевой порядок интегрируемости. За ис- Таблица 9.13. Одномерные коинтегрирующие регрессии, полученные с помощью МНК (стандартные ошибки в круглых скобках); оценки свободного члена не сообщаются mt infk cprt Vt tbrt R2 dw РДФF) Спрос на деньги -1 0 0 0,423 @,016) -0,031 @,002) 0,815 0,199 -3,164 Уравнение Фишера 0 -1 0 0 0,558 @,053) 0,409 0,784 -1,888 Премия за риск 0 0 -1 0 1,038 @,010) 0,984 0,705 -3,975 Реальная процентная ставка определяется как номинальная процентная став- ка минус оснеидаемый уровень инфляции.
486 9. Многомерные модели временных рядов ключением уравнения рисковой премии, Д2-ты не близки к единице, что является неформальным требованием для коинтегрирующей ре- грессии. Статистики Дарбина—Уотсонамалы, и если бы критические значения из таблицы 9.3 являлись приемлемыми, то мы отклонили бы нулевую гипотезу отсутствия коинтеграции на 5%-ом уровне зна- чимости для последних двух уравнений, но не для уравнения спроса на денежные средства. Вспомним, что критические значения в табли- це 9.3 опираются на условие, что все временные ряды являются слу- чайными блужданиями, что возможно корректно для временного ря- да процентной ставки, но может быть несправедливым для денежной массы и валового внутреннего продукта. С другой стороны мы можем протестировать наличие единичного корня в остатках этих регрес- сий с помощью модифицированных (по Девидсону—МакКиннону) расширенных тестов Дики—Фуллера. Результаты не очень чувстви- тельны к числу включенных лагов, и тестовые статистики 6 лагов представлены в таблице 9.13. Как видно из таблицы 9.2 5%-ое асимп- тотическое критическое значение для регрессии, включающей три переменные, равно —3,77, а для регрессий с двумя переменными рав- но —3,37. Таким образом, только для уравнения рисковой премии мы можем отклонить нулевую гипотезу отсутствия коинтеграции. Эмпирические свидетельства существования предполагаемых коинтегрирующих соотношений между этими пятью переменными являются несколько неоднозначными. Только для уравнения рис- ковой премии мы находим, что R2 близок к единице, статистика Дарбина—Уотсона достаточно высокая, и что отклонение гипотезы наличия единичного корня в МНК-оцененных остатках значимо по РДФ тесту. Для двух других регрессий существуют лишь весьма слабые причины отклонить нулевую гипотезу отсутствия коинте- грации. Потенциально это вызвано недостатком мощности тестов, которые мы применяем, и возможно, что многомерный векторный анализ представит более сильное свидетельство существования ко- интегрирующих соотношений между этими пятью переменными. Некоторая дополнительная информация предоставляется, если мы построим график МНК-оцененных остатков для этих трех регрессий. Если регрессии соответствуют коинтеграции, то эти остатки могут интерпретироваться как ошибки долгосрочного динамического рав- новесия, которые должны быть стационарными и флуктуировать вокруг нуля. Для этих трех регрессий остатки показаны в рисун- ках 9.1, 9.2 и 9.3, соответственно. Хотя визуальный анализ этих
9.6. Пример: спрос на деньги и инфляция 487 0.15 0.10 0.05 Н 0.00 -0.05 -0.10 -0.15 I i i м Рисунок 9-1- Остатки регрессии спроса на деньги -4 i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i 55 60 65 70 75 80 85 90 Рисунок 9.2. Остатки регрессии Фишера графиков неоднозначен, однако на основе графиков остатков регрес- сий спроса на деньги и рисковой премии возможно сделать вывод в пользу стационарности. Для уравнения Фишера текущий выбороч- ный период предоставляет меньше подтверждений возвращения к среднему значению.
488 9. Многомерные модели временных рядов Рисунок 9.3. Остатки регрессии рисковой премии Первый шаг в подходе Иохансена включает тестирование на- личия коинтегрирующего ранга г. Чтобы вычислить эти тесты, мы должны выбрать максимальную длину лагирования р в векторной модели авторегрессии. Выбор р слишком малым будет приводить к недостоверным тестам, а выбор р слишком большим может при- вести к потере мощности. В таблице 9.14 представлены результа- ты21^ тестов коинтегрирующего ранга для р = 5 и р — 6. Как видно из результатов, существует некоторая чувствительность от- носительно выбора максимальной длины лагирования в векторных авторегрессиях, хотя качественно вывод изменяется совсем незна- чительно. На 5%-ом уровне все тесты отклоняют нулевые гипотезы отсутствия или наличия одного коинтегрирующего соотношения. Тесты проверки нулевой гипотезы о том, что г — 2, отклоняют эту гипотезу только на 5%-ом уровне значимости, хотя и в самой малой степени, если мы выбираем р = б и применяем критическую статистику следа. Как и прежде, мы должны определить коинте- грирующий ранг г, опираясь на эти результаты. Самый очевидный выбор г = 2, хотя можно рассмотреть также г = 3 (см. Hoffman, Rasche, 1996). 21) Результаты, представленные в этой таблице, получены с помощью MicroFit 4.0; критические значения взяты из таблицы 9.9.
9.6. Пример: спрос на деньги и инфляция 489 Таблица 9.14. Тесты следа и максимального собственного значения на коинтеграцию Нулевая гипотеза Альтерна- тивная Критическая статистика р = 5 р = 6 5% критическое значение Atrace-статистика Н0 : г = 0 Н0 : г < 1 Но : г < 2 Я0 : г < 3 Hi : г > 1 Hi:r>2 Hi:r>3 Нг : г > 4 108,723 59,189 29.201 13,785 127,801 72,302 35,169 16,110 75,98 53,48 34,87 20,18 Ащах-статистика #о : г = 0 Я0 : г < 1 Я0 : г < 2 Я0 : г < 3 #1 : г = 1 #1 : г = 2 Я1 : г = 3 Hi : г = 4 49,534 29,988 15,416 9,637 55,499 37,133 19,059 11,860 34,40 28,27 22,04 15,87 Свободные члены включены. Т = 164. Если мы ограничиваем ранг долгосрочной динамической мат- рицы рангом два, то мы можем оценить коинтегрирующие векторы и модель коррекции ошибок методом максимального правдоподо- бия с помощью процедуры Иохансена. Напомним, что статистически определяется только пространство, натянутое на коинтегрирующие векторы, а не сами эти векторы по отдельности. Чтобы иденти- фицировать индивидуальные коинтегрирующие соотношения, мы, соответственно, должны каким-либо образом нормировать коинте- грирующие векторы. Если г — 2, то необходимо наложить два огра- ничения нормировки на каждый коинтегрирующий вектор. Заметим, что в коинтегрирующих регрессиях в таблице 9.13 априорно накла- дывается ряд ограничений, включая —1 для переменных в левых ча- стях и нулевые ограничения на некоторые из коэффициентов других переменных. В настоящем случае мы должны наложить два ограни- чения и, предполагая, что соотношения спроса на деньги и рисковой
490 9. Многомерные модели временных рядов Таблица 9.15. Оценки максимального правдоподобия коинтегрирующих векторов (после нормировки) на основе ВАР-модели с р = 6 (в круглых скобках стандартные ошибки), оценки свободных членов не приводятся mt inflt срп Vt tbrt Спрос на деньги -1 -0,023 @,006) 0 0,425 @,033) -0,028 @,005) Премия за риск 0 0,041 @,031) -1 -0,037 @,173) 1,017 @,026) Значение правдоподобия равно 808,2770. премии являются наиболее вероятными кандидатами, мы наложим ограничения, что mt, и cprt имеют коэффициенты —1, 0 и 0, —1, со- ответственно. По экономическим соображениям можно ожидать, что inflt не входит ни в один из коинтегрирующих векторов. При этих сформулированных выше ограничениях коинтегрирующие векторы оценены методом максимального правдоподобия вместе с коэффи- циентами векторной модели коррекции остатков. Результаты для коинтегрирующих векторов представлены в таблице 9.15. Коинтегрирующий вектор для уравнения рисковой премии име- ет близкое соответствие с нашими априорными ожиданиями по пово- ду коэффициентов при inflt, yt и tbrt, которые оказались незначимо отличающимся от нуля, нуля и единицы, соответственно. В соотно- шение, соответствующее уравнению спроса на деньги, переменная inflt входит значимо. Напомним, что mt соответствует реальному спросу на деньги, который обычно не должен зависеть от уровня инфляции. Оценка коэффициента, равная —0,023, означает, что при прочих равных условиях номинальный спрос на деньги (mt + inflt) возрастает с уровнем не пропорционально инфляции, а несколько меньше. Можно протестировать наши априорные коинтегрирующие век- торы с помощью тестов отношения правдоподобия. Эти тесты требу-
9.6. Пример: спрос на деньги и инфляция 491 ют, чтобы модель была оценена повторно с наложением некоторых дополнительных ограничений на коинтегрирующие векторы. Таким образом, мы можем протестировать следующие гипотезы:22' Щ : /?i2 = 0, /?14 = 1; #0 = 022 = #24 = О, 025 = 1 И Щ : /?12 = 022 = 024 = 0, 014 = 025 = 1, где 012 обозначает коэффициент при in fit в уравнении спроса на деньги, а 022 и 024 — коэффициенты при инфляции и валовом внут- реннем продукте в уравнении рисковой премии, соответственно. Зна- чения логарифмической функции правдоподобия для полной модели, оцененной при ограничениях, наложенных в соответствии с гипотеза- ми Щ,Н%иЩ, соответственно, равны 782,3459, 783,7761 и 782,3196. Критические статистики отношения правдоподобия, определенные как удвоенная разность между значением безусловной функции правдоподобия (808.277) и значениями логарифмических функций правдоподобия для этих трех нулевых гипотез, таким образом, равны 51,86, 49,00 и 51,91. При нулевых гипотезах асимптотические распре- деления критических статистик являются обычными хи-квадрат рас- пределениями с числом степеней свободы, заданным числом тестиру- емых ограничений (см. главу 6). Сравнения с критическими значени- ями хи-квадрат распределения с 3, 2 или 5 степенями свободы, ясно показывают, что каждую из нулевых гипотез следует отклонить. В качестве последнего шага мы рассмотрим векторную модель коррекции остатков для этой системы. Эта модель соответствует ВАР-модели порядка р — 1 = 5 для рядов первых разностей анализи- руемых переменных с включением двух членов коррекции остатков в каждое уравнение. Заметим, что число параметров, оцененных в этой векторной модели коррекции остатков, намного больше 100, поэтому мы ограничимся только частью результатов. Два выражения для модели коррекции остатков (МКО) имеют вид MKOlt = -mt - 0,023m//* + 0,425у* - 0,028tbrt + 3,362; MK02t = -cprt - 0,041mA + -0fi37yt + lfil7tbrt + 0,687. ) Здесь тесты фактически являются тестами со сверхидентифицируемыми ограничениями (см. главу 5). Мы интерпретируем их как регулярные тесты проверки гипотез с априорно принятыми ограничениями, которые представ- лены в таблице 9.15.
492 9. Многомерные модели временных рядов Таблица 9.16. Оцененная матрица корректирующих коэффициентов (в круглых скобках стандартные ошибки), — показывает значимость на 5% уровне Уравнение Amt Ainflt Acprt Ay* Atbrt Член уравнения коррекции остатков MKOlt-i 0,0276* @,0104) 1,4629 B,3210) -2,1364 A,1494) 0,0687* @,0121) -1,2876 A,0380) MK02t_i 0,0090* @,0024) -1,1618* @,5287) 0,6626* @,2618) -0,0013 @,0028) 0,3195 @,2365) Коэффициенты коррекции в 5 х 2 матрице 7 с их соответствующими стандартными ошибками представлены в таблице 9.16. Долгосрочное динамическое уравнение спроса на деньги значимо вносит вклад в краткосрочную динамику как спроса на деньги, так и дохода. Краткосрочное динамическое поведение спроса на деньги, инфляции и оценочной стоимости коммерческих бумаг оказывает значимое воздействие на долгосрочное динамическое соотношение рисковой премии. Нет никакого статистического подтверждения, что ставка по казначейским векселям корректирует какое-либо отклонение от долгосрочного динамического равновесия так, чтобы ее молено было бы рассматривать как слабо экзогенную. 9.7. Заключительные замечания Информация по коинтеграции и связанным с ней вопросами отража- ет темы последних исследований, которые постоянно развиваются. В этой главе мы вкратце обсуждали некоторые темы, в то время как часть из них вообще не рассматривали. К счастью, существует значительное число специализированных учебников по этой теме,
Упражнения 493 которые обеспечивают более широкий охват материала. Примера- ми относительно «нетехницизированных» учебников являются: Mills A990); Enders A995); Harris A995) и Franses A998). Техническое об- суждение доступно в работах Liitkepohl A991); Cuthbertson, Hall, Taylor A992); Banerjee et al. A993); Hamilton A994); Johansen A995); и Boswijk A999). Упражнения Упражнение 9.1 (теория коинтеграции) а. Предположим, что два ряда yt и xt являются интегрируемыми порядка 1, 7A), и предположим, что yt—fiiXt и Vt—foxt являются 1@). Покажите, что /3i — fo, продемонстрировав тем самым, что может быть только один (единственный) коинтегрирующий параметр. б. Объясните интуитивно, почему статистика Дарбина—Уотсона в регрессии 1A) переменных yt no xt информативна в вопросе существования коинтеграции между yt и Xt- в. Объясните, что означает «суперсостоятельность». г. Рассмотрите три 1A) переменные yt, xt и zt. Предположите, что yt и xt коинтегрированы, и что Xt и zt коинтегрированы. Озна- чает ли это, что yt и zt также коинтегрированы? Почему (нет)? Упражнение 9.2 (коинтеграция) Рассмотрим следующее очень простое соотношение между агреги- рованными сбережениями St и агрегированным доходом Yt. St = a + 0Yt + eu t = l,...,T. (9.55) Для некоторой страны это соотношение оценивалось методом наи- меньших квадратов в период с 1946 г. по 1995 г. (Г = 50). Результаты представлены в таблице 9.17. Предположим, что ряды St и Yt являются стационарными. (Указание: если нужно, по первой совокупности вопросов обратитесь к главе 4.) а. Как бы Вы интерпретировали оценку коэффициента 0,098 для переменной дохода?
494 9. Многомерные модели временных рядов Таблица 9.17. Агрегированные сбережения, объясненные агрегированным доходом; результаты применения МНК Переменная константа доход Коэффициент 38,90 0,098 Стандартная ошибка 4,570 0,009 ^-отношение 8,51 10,77 Т = 50, s = 22,57, R2 = 0,93, dw = 0,70. б. Объясните, почему результаты показывают, что возможна про- блема положительной автокорреляции. Можете ли Вы привести аргументы, почему в экономических моделях положительная автокорреляция более вероятна, чем отрицательная автокорре- ляция? в. Каковы эффекты влияния автокорреляции на свойства оценки наименьших квадратов? Подумайте о несмещенности, состоя- тельности и о свойстве наилучшей линейной несмещенной оцен- ки (НЛНО). г. Опишите два различных подхода для решения проблемы авто- корреляции в вышеупомянутом случае. Какой подход Вы бы предпочли? Теперь предположим, что St и Yt являются нестационарными 1A) -рядами. д. Существуют ли признаки, что соотношение между этими двумя переменными является «ложными»? е. Объясните, что мы подразумеваем под понятием «ложных ре- грессий». ж. Есть ли доводы в пользу существования коинтегрирующего соотношения между St и Ytl з. Объясните, что мы подразумеваем под понятием «коинтегриру- ющее соотношение». и. Опишите два различных теста, которые можно использовать для тестирования нулевой гипотезы, что St и Yt некоинтегрированы. к. Как Вы интерпретируете оценку коэффициента 0,098 в случае гипотезы, что St и Yt являются коинтегрированными? л. Существуют ли причины, чтобы откорректировать автокорре- ляцию в остаточном члене, при оценивании коинтегрирующей регрессии?
Упражнения 495 м. Объясните интуитивно, почему оценивание коинтегрирующего параметра суперсостоятельно. н. Предположив, что St и Yt являются коинтегрированными, опи- шите, что мы подразумеваем под механизмом коррекции остат- ков. Приведите пример. О чем он говорит? о. Как мы можем состоятельно оценить модель коррекции остат- ков? Упражнение 9.3 (коинтеграция — эмпирический анализ) В файлах INCOME мы находим ежеквартальные данные относи- тельно британского номинального потребления и дохода за период с первого квартала 1971г. по второй квартал 1985 г. (Г = 58). Часть этих данных использовалась в главе 8. а. Протестируйте наличие единичного корня в ряде потребления, используя несколько расширенных тестов Дики—Фуллера. б. Постройте МНК-регрессию, объясняющую зависимость потреб- ления от дохода. Протестируйте наличие коинтеграции, исполь- зуя два различных теста. в. Постройте МНК-регрессию, объясняющую зависимость дохода от потребления. Протестируйте наличие коинтеграции. г. Сравните результаты оценивания и Я2-ты последних двух ре- грессий. д. Определите член коррекции остатков в одной из этих двух ре- грессий и оцените модель коррекции остатков для приращения в потреблении. Протестируйте, является ли коэффициент кор- рекции нулем. е. Оцените модель коррекции остатков для приращения в доходе. Протестируйте, является ли коэффициент коррекции нулем.
10 Модели, основанные на панельных данных Совокупность панельных данных содержит повторные наблюдения для одних и тех же выборочных единиц (людей, домашних хо- зяйств, фирм), собранные за ряд тактов времени. Хотя панельные данные, как правило, собираются на микроэкономическом уровне, все более и более становится практикой объединять индивидуальные временные ряды множества стран или множества отраслей промыш- ленности и анализировать их одновременно. Применение повторных (для разных тактов времени) наблюдений относительно одних и тех же выборочных единиц позволяет экономистам специфицировать и оценивать более сложные и более реалистические модели, чем приме- нение одной пространственной ("cross-section") выборки или одного временного ряда. Неудобства имеют скорее практическую природу: поскольку мы повторно наблюдаем одни и те же выборочные едини- цы, то обычно больше нереалистично предполагать, что различные наблюдения независимы. Это может усложнить анализ, особенно для нелинейных и динамических моделей. Кроме того, совокупности панельных данных очень часто страдают от пропущенных наблю- дений. Даже если эти наблюдения отсутствуют случайным образом (см. ниже), стандартный анализ должен быть скорректирован. Эта глава является введением в анализ панельных данных. В параграфе 10.1 представлена простая линейная модель панель- ных данных и в контексте этой модели обсуждены определенные
10.1. Преимущества панельных данных 497 преимущества по сравнению с пространственными данными или данными одномерного временного ряда. В параграфе 10.2 уделяется внимание так называемым моделям с фиксированными эффектами и моделям со случайными эффектами, и обсуждаются проблемы, относящиеся к выбору между этими двумя основными моделями. В параграфе 10.3 приводится эмпирический пример. Введение да- тированной зависимой переменной в линейную модель усложняет состоятельное оценивание, и, как обсуждается в параграфе 10.4, методы инструментальных переменных или ОММ предоставляют интересные альтернативы. В параграфе 10.5 приводится эмпириче- ский пример оценивания краткосрочных и долгосрочных динами- ческих эластичностей спроса на рабочую силу относительно зара- ботной платы. Другие сложности возникают, когда интересующая нас модель включает ограниченные зависимые переменные. Расши- рение логит, пробит и тобит моделей на случай панельных данных обсуждается в параграфе 10.6. И, наконец, в параграфе 10.7 мы обсуждаем проблемы, связанные с неполными панельными данны- ми и смещениями, обусловленными ограничениями в способе отбора выборочных единиц*^. Обширные обсуждения эконометрического анализа цанельных данных можно найти в работах (Hsiao, 1986), (Baltagi, 1995) и (Matyas, Sevestre, 1996). 10.1. Преимущества панельных данных Важное преимущество панельных данных по сравнению с данными одномерного временного ряда или пространственной совокупностью данных состоит в том, что панельные данные позволяют идентифи- цировать определенные параметры или вопросы без необходимости делать ограничительные допущения. Например, панельные данные позволяют анализировать изменения на индивидуальном уровне. Рассмотрим ситуацию, в которой средний уровень потребления по- вышается на 2% ежегодно. Панельные данные могут идентифициро- вать, является ли это повышение результатом, например, увеличения на 2% уровня потребления для всех индивидуумов или увеличения на 4% уровня потребления приблизительно для одной половины ин- дивидуумов и никакого изменения уровня потребления для другой В общем плане эта проблема («проблема выборочной селективности») обсуж- далась в параграфе 7.5 (прим. научн. ред. пер.).
498 10. Модели, основанные на панельных данных половины (или результатом любой другой комбинации). Таким обра- зом, панельные данные подходят не только для моделирования или объяснения, почему выборочные единицы ведут себя по-разному, но также и для моделирования, почему конкретная выборочная едини- ца ведет себя по-разному в различные периоды времени (например, из-за различного прошлого). В последующем мы будем индексировать все переменные индек- сом г для индивидуумов1' (г = 1,... , N) и индексом t для периодов времени (t — 1,... , Т). В общем виде мы могли бы специфицировать линейную модель как у и = x'itPit +eit, где вектор коэффициентов /Зц измеряет частные эффекты вектора объясняющих переменных хц в период t для выборочной едини- цы г. Конечно, такая модель является слишком общей, чтобы быть полезной, и мы должны наложить более ограниченную структуру на вектор коэффициентов Eц. Стандартное предположение, исполь- зуемое во многих эмпирических случаях, состоит в том, что вектор Pa является вектором констант для всех г и £, за исключением, возможно, свободного члена. Такую модель можно написать как Ун = оц + x'itfi + eit, A0.1) где хц — if-мерный вектор объясняющих переменных, не вклю- чающий константу2'. Это означает, что влияние от изменений в компонентах вектора х на у одинаковы для всех выборочных еди- ниц и всех периодов, но средний уровень для выборочной единицы г может отличаться от среднего уровня для выборочной единицы j. Таким образом, коэффициент щ улавливает эффекты тех перемен- ных, которые являются специфическими для г-го индивидума, и которые являются постоянными во времени. В стандартном случае предполагается, что остатки бц являются независимыми и одинако- во распределенными по индивидуумам и времени с нулевым средним и дисперсией а\. Если мы рассматриваем коэффициенты щ как N Несмотря на то, что мы ссылаемся на пространственные выборочные единицы как на индивидуумов, они могут также относиться к другим выборочным еди- ницам, например, фирмам, странам, отраслям промышленности, домашним хозяйствам или активам. Элементы в векторе /3 индексируются от элемента /3± до /З^, где первый элемент в отличие от предыдущих глав не относится к свободному члену.
10.1. Преимущества панельных данных 499 фиксированных неизвестных параметров, то модель A0.1) называ- ется стандартной моделью с фиксированными эффектами. Альтернативный подход предполагает, что свободные члены ин- дивидуумов различны, но их можно рассматривать как извлечения из распределения со средним /л и дисперсией <т^. Существенное предположение здесь состоит в том, что эти извлечения являются независимыми от объясняющих переменных в векторе хц (см. ниже). Это приводит к модели со случайными эффектами, где инди- видуальные эффекты а{ рассматриваются как случайные. Член ошибки в этой модели состоит из двух компонент: не зависящей от времени компоненты 3^ с*; и остаточной компоненты бц, которая некоррелирована во времени 4'. Такую модель можно написать как yit = /л + x'itC + &i + eit, A0.2) где /л обозначает свободный член. Возможность рассматривать эффекты щ как фиксированные параметры имеет несколько больше преимуществ, но также и неко- торые неудобства. Большинство моделей панельных данных оце- нивается либо в предположении фиксированных эффектов, либо в предположении случайных эффектов, и мы будем обсуждать это подробно в параграфе 10.2. Но сначала в следующих двух пунктах обсудим более подробно некоторые потенциальные преимущества панельных данных. 10.1.1. Эффективность оценивания параметров Поскольку совокупности панельных данных, как правило, обшир- нее, чем совокупности пространственных данных или совокупности данных одномерного временного ряда, и объясняющие переменные изменяются в двух измерениях (индивидуумы и время), а не в одном измерении, то оценки, построенные на основе панельных данных, весьма часто точнее, чем те, которые построены на основе других источников данных. Даже при одинаковых объемах выборок при- менение совокупности панельных данных часто будет приводить к более эффективным оценкам, чем ряд независимых совокупностей пространственных данных (где различные выборочные единицы из- влекаются в каждом такте времени). Чтобы проиллюстрировать это, В модели случайных эффектов случайные величины oti переопределены таким образом, что они имеют нулевое среднее значение. Модель иногда называется (однофакторной) моделью остаточных ошибок.
500 10. Модели, основанные на панельных данных рассмотрим следующий специальный случай модели со случайными эффектами A0.2), в которую мы включим временные фиктивные переменные (манекены), то есть Ун = Vt + ai +eiu A0.3) где каждый \it является неизвестным параметром, соответствующим среднему значению генеральной совокупности для такта времени t. Предположим, что мы не интересуемся средним fit для определен- ного такта времени £, а интересуемся изменением /j,t от одного такта времени к другому. Вообще дисперсия эффективной оценки для раз- ности fit — lis (s Ф t), /2t — /2S, задается в виде V{/2t - ДЛ = V{jlt} + V{j2s} - 2 cov {&, /2S} A0.4) с 1 N & = jyj^*' t= 1,...,T. t=l Как правило, если используется совокупность панельных данных, то ковариация между средними /^ и /2S будет положительна, в частности, если справедливы допущения, принятые для модели со случайными эффектами A0.2), то эта ковариация равна cr^/N. Од- нако, если используются две независимые совокупности простран- ственных данных, то разные периоды времени будут содержать различных индивидуумов, поэтому средние Д^ и /2S будут иметь нулевую ковариацию. Другими словами, если интересуются изме- нениями параметра модели от одного такта времени к другому, то методы анализа панельных данных приводят к более эффективным оценкам, чем методы анализа пространственных данных, применен- ные к той же совокупности исходных данных. Однако заметим, что обратное также справедливо, в том смысле, что повторные пространственные данные будут более информатив- ны, чем панельные данные, когда, например, речь идет об оценке суммы или среднего значения [it по совокупности нескольких тактов времени. На интуитивном уровне панельные данные могут предоста- вить лучшую информацию, поскольку одни и те же индивидуумы наблюдаются повторно. С другой стороны, наличие одних и тех же индивидуумов, а не различных, может подразумевать меньшую вариацию в объясняющих переменных и таким образом снижать эффективность построенных по ним оценок. Всесторонний анализ
10.1. Преимущества панельных данных 501 выбора между чисто панельными данными, чисто пространствен- ными данными и совместной комбинацией этих двух источников данных представлен в работе (Nijman, Verbeek, 1990). Результа- ты работы показали, что, когда речь идет об оценке параметров, определяющих эффект влияния включенных в модель экзогенных переменных, то анализ совокупности панельных данных, как пра- вило, будет приводить к более эффективным оценкам, чем анализ, основанный на выборке пространственных данных с тем же самым числом наблюдений. 70.7.2. Идентификация параметров Другое преимущество наличия панельных данных состоит в том, что ослабляются проблемы идентификации и, хотя такое преимущество может проявляться в разных ситуациях, во многих случаях оно включает идентификацию при наличии эндогенных регрессоров или ошибки измерения, устойчивость по отношению к не включенным в модель переменным и идентификацию индивидуальной динамики. Начнем с примера последнего. Существует два альтернативных объяснения часто наблюдаемого явления, что индивидуумы, кото- рые испытали некоторое событие в прошлом, более вероятно, испы- тают то же событие в будущем. Первое объяснение состоит в том, что факт испытания события индивидуумом изменяет его предпочтения, ограничения, и т.п. таким образом, что он более вероятно испытает такое событие в будущем. Второе объяснение говорит, что индиви- дуумы могут отличаться ненаблюдаемыми особенностями, которые влияют на вероятность испытания события (но испытание события не влияет на ненаблюдаемые особенности индивидуума). Хекмэн (Heckman, 1978) назвал первое объяснение истинной зависимостью состояния, а последнее — мнимой зависимостью состояния. Извест- ный пример относится к «событию» — быть безработным. Наличие панельных данных ослабит проблему различения между истинной и мнимой зависимостью состояния, поскольку наблюдаются индиви- дуальные предыстории, которые можно включить в модель. Смещение от невключения переменной возникает, если пере- менная, которая коррелированна с включенными переменными, не включена в модель. Классическим примером является оценивание производственных функций (Mundlak, 1961). Во многих случаях, особенно в случае малых фирм, в качестве производственных за- трат в производственную функцию желательно включить качество
502 10. Модели, основанные на панельных данных менеджмента. Однако вообще качество управления не наблюдаемо. Предположим, что производственная функция типа Кобба—Дугласа задана в виде yit= fJL + x'itfi + тфк+\ + eiu A0.5) где уц обозначает логарифмический объема производства, хц ~ X-мерный вектор логарифмических производственных затрат для фирмы г в момент времени t, a rrii обозначает качество управления для фирмы г (которое, как предполагается, является постоянным во времени). Ожидается, что ненаблюдаемая переменная rrii будет отрицательно коррелированна с другими производственными затра- тами в векторе хц, так как высококачественное управление вероятно приведет к более эффективному использованию производственных затрат. Поэтому кроме случая (Зк+i = 0, исключение rrii из модели A0.5) приведет к смещенным оценкам других параметров модели. Если доступны панельные данные, то такую проблему можно ре- шить, введя специфический эффект фирмы oti — /a + тфк+\ и рассматривая его в качестве фиксированного неизвестного парамет- ра. Заметим, что без дополнительной информации идентифициро- вать неизвестный параметр (Зк+i невозможно; ограничение, которое идентифицирует параметр Дк+ъ состоит во введении условия по- стоянной отдачи от масштаба 5'. Подобным образом в модель можно включить фиксированный временной эффект, чтобы уловить эффект всех (наблюдаемых и ненаблюдаемых) переменных, который не изменяется на индивиду- альных единицах. Этим поясняется утверждение, что для панельных данных можно снизить эффекты смещения из-за невключенных пе- ременных, или, другими словами, оценки, построенные по совокуп- ности панельных данных, могут быть более устойчивыми к неполной спецификации модели. И, наконец, во многих случаях панельные данные предоставля- ют «внутренние» инструментальные переменные для регрессоров, которые являются эндогенными переменными или переменными, подверженными ошибке измерения. То есть, часто можно аргумен- тировать такие преобразования исходных переменных, при которых Постоянная отдача от масштаба производства подразумевает, что Рк+1 = 1 - (ft + ... + /Зк).
10.2. Статическая линейная модель 503 они станут некоррелированными с остатками модели и коррелиро- ванными с самими объясняющими переменными, и никакие внешние инструментальные переменные не требуются. Например, если век- тор хц коррелирован с эффектом а^ то можно утверждать, что разность хц — Xi, где Xi — среднее по времени для индивидуума г, некоррелирована с эффектом oti и предоставляет действительную инструментальную переменную для вектора хц. Более обще, оцени- вание модели при предположении фиксированных эффектов устра- няет эффект oti из остаточного члена и, следовательно, устраняет все связанные с этим проблемы эндогенности. Это будет проиллюстриро- вано в следующем параграфе. Обширное обсуждение преимуществ и ограничений панельных данных представлено в работе (Hsiao, 1985). 10.2. Статическая линейная модель В этом параграфе мы обсудим статическую линейную модель для панельных данных. Мы начнем с двух основных моделей, модели с фиксированными эффектами и модели со случайными эффектами, и последовательно обсудим выбор между этими двумя моделями, а также обсудим альтернативные процедуры, которые можно рас- сматривать как промежуточные между обработкой фиксированных эффектов и обработкой случайных эффектов. 10.2.1. Модель с фиксированными эффектами Модель с фиксированными эффектами является просто линейной моделью регрессии, в которой свободные члены изменяются по ин- дивидуальным единицам г, то есть yit = а* + х\ф + eiu sit ~ #ОР@, ^2), A0.6) где обычно предполагается, что все хц независимы от всех ец. Мы можем написать это в обычной структуре регрессии включением фиктивной переменной для каждой единицы г в модели. Таким образом, N Vit = Yl aJdiJ + Xit@ + £iti A0-7) где dij — 1, если г — j, и di3; = 0 в противном случае. Таким обра- зом, мы имеем множество из N фиктивных переменных в модели.
504 10. Модели, основанные на панельных данных Параметры а\,... , а к и C можно оценить с помощью МНК в ре- грессии A0.7). Соответствующая оценка для вектора неизвестных параметров C называется оценкой метода наименьших квадра- тов с фиктивными переменными (МНК ФП-оценкой). Од- нако, возможно, непривлекательно с вычислительной точки зрения иметь модель регрессии с таким большим количеством регрессоров. К счастью можно вычислить оценку для вектора неизвестных па- раметров /3 более простым способом. Можно показать, что точно та же самая оценка для вектора C получается, если регрессия стро- ится в отклонениях от индивидуальных средних. По существу, это подразумевает, что сначала с помощью преобразования данных мы исключаем индивидуальные эффекты а^- Чтобы увидеть это, сна- чала заметим, что у^аг+х'^ + ёг, A0.8) где t и аналогично для других переменных. Следовательно, мы можем написать Vit -Vi = {Хц ~ Xi)'C + (sit ~ ё»). A0.9) Это — модель регрессии в отклонениях от индивидуальных средних и она не включает индивидуальные эффекты аг. Преобразование, которое переводит наблюдения в отклонения от индивидуальных средних как в регрессии A0.9), называется внутригрупповым преобразованием. МНК-оценку для вектора неизвестных парамет- ров /3, полученную из этой преобразованной модели, часто называют внутригрупповой МНК-оценкой или оценкой с фиксирован- ными эффектами, и она в точности идентична МНК ФП-оценке, описанной выше. Эта оценка задается в виде , N т ч -1 N т ДфЭ = ( Yl ^2(Xit ~ ^){xit - Xi)' J Y2 ^2(Xit - Xi)(yit - Vi). 4=1 t=l ' 2=1 t=l A0.10) Если предполагается, что все хц независимы от всех Ец (срав- ните с предположением (А2) из главы 2), то можно показать, что оценка с фиксированными эффектами будет несмещенной для век- тора неизвестных параметров /3. Кроме того, если накладывается
10.2. Статическая линейная модель 505 условие нормальной распределенности остатков £^, то /Зфэ также имеет нормальное распределение. Для состоятельности6' требуется, чтобы Е{(хц-хг)ец} = 0 A0.11) (сравните с предположением (А7) из глав 2 и 5). Для этого достаточ- но, чтобы Хц был некоррелирован с ец, и чтобы Xi не имел никакой корреляции с остатками модели. Эти условия в свою очередь обес- печиваются условиями Е{хцбц} = 0 для всех s, t, A0.12) при выполнении которых, мы называем переменные в векторе хц строго экзогенными. Строго экзогенная переменная не долж- на зависеть от текущих, будущих и прошлых значений остатков. Возможно, что в некоторых приложениях такое условие является ограничительным. Ясно, что оно исключает включение лагирован- ных зависимых переменных в вектор хц, но любая переменная вектора хц, которая зависит от предыстории уц, также нарушила бы это условие. Например, если мы объясняем предложение труда индивидуума, то мы можем захотеть включить в модель годы трудо- вого опыта, несмотря на то, что совершенно ясно, что опыт работы зависит от трудовой предыстории человека. Если объясняющие переменные независимы от всех остатков, то N свободных членов оцениваются несмещенно как a{ = yi - х'ффэ, г = 1, • • • , N. По предположению A0.11) эти оценки состоятельны для фиксиро- ванных эффектов Oii (no T стремящемуся к бесконечности). Причи- на, почему оценки 3^ несостоятельны по N —> сю при фиксирован- ном Т, ясна: если Т фиксировано, то индивидуальные средние yi и Х{ при возрастании числа индивидуумов никуда не сходятся. Предполагая, что остатки ец являются независимо и одинаково распределенными (по индивидуумам и по времени) с дисперсией а\, ковариационная матрица для оценки с фиксированными эффектами Если не утверждается иное, то в этой главе мы рассматриваем состоятельность по числу индивидуумов N, стремящемся к бесконечности. Это соответствует общей ситуации, когда мы имеем панельные данные с большим N и относи- тельно малым Т.
506 10. Модели, основанные на панельных данных /Зфэ задается: в виде /N т X У{РФЭ} =Ve[J2 J2^Xit ~ г»)(Ж« " **У ) ' A0ЛЗ) 4=i t=i ' Если Г не является большим, то применение стандартной МНК- оценки для ковариационной матрицы, основанной на внутригруп- повой регрессии A0.9), будет недооценивать истинную дисперсию. Причина заключается в том, что в этой преобразованной регрессии ковариационная матрица ошибок является вырожденной (посколь- ку Т преобразованных ошибок каждого индивидуума дают в сумме нуль), и дисперсия разности Ец — ei равна ((Г — 1)/T)af, а не а\. Состоятельная оценка для дисперсии а\ получается как внутри- групповая остаточная сумма квадратов, деленная на множитель N(T — 1). Таким образом, N Т ~2 - р—J} ]C J2 (у* ~ s* ~ х'АэJ = 1 N Т = N(T_i) ]С £ (^ " ^ " (Xit ~ ^О'ДфэJ. (Ю.14) ^ > г=1 £=1 Можно скорректировать обычные степени свободы вычитанием К в знаменателе. Заметим, что применение стандартной ковариационной матрицы МНК в модели A0.7) с N индивидуальными фиктивными переменными (манекенами) оправдано, поскольку коррекция степе- ней свободы включает N дополнительных неизвестных параметров, соответствующих индивидуальным свободным членам. При слабых условиях регулярности оценка с фиксированными эффектами асимп- тотически нормальна, так что можно использовать обычные стати- стические процедуры (например, t-критерий и критерий Вальда). По существу, модель с фиксированными эффектами сфокусиро- вана на различиях «внутри» индивидуумов. То есть, на объяснении, до какой степени уц отличается от yi, а не на объяснении, почему yi отличается от у^. С другой стороны параметрические предположе- ния о векторе C накладывают условие, что изменения в х влияют на у одинаково (при прочих равных условиях), является ли это измене- нием от одного такта времени к другому или изменением от одного индивидуума к другому. Однако, интерпретируя результаты для регрессии с фиксированными эффектами, возможно, важно понять, что параметры идентифицируются только через внутрииндивиду- альную (или, что то же, внутригрупповую) размерность данных.
10.2. Статическая линейная модель 507 10.2.2. Модели со случайными эффектами В регрессионном анализе обычно предполагается, что все факторы, которые влияют на зависимую переменную, но которые не были включены в качестве регрессоров, соответственно могут в итоге суммироваться в случайном остаточном члене уравнения. В нашем случае это приводит к предположению, что эффекты ai являются случайными факторами, независимо и одинаково распределенными по индивидуумам. Таким образом, мы записываем модель случайных эффектов в виде yit = ц + ХнР + щ + ен, (ЛСЛ 1СЧ о о (KJ.15) е« ~ ЯОР@, a2£); at ~ HOP@, a2a), где oti + en рассматривается как остаточный член, состоящий из двух компонент: индивидуальной специфической компоненты, ко- торая не изменяется во времени, и компоненты остатка, которая, как предполагается, является некоррелированной во времени. Та- ким образом, вся корреляция остаточных членов во времени при- писывается индивидуальным эффектам а$. Предполагается, что щ и 8ц взаимно независимы и независимы от XjS (для всех j и s). Это означает, что МНК-оценки для /х и j3 в модели со случайны- ми эффектами A0.15) являются несмещенными и состоятельными. Структура компонент остатков подразумевает, что составной оста- ток cti + eu будет иметь определенный вид автокорреляции (если только о\ ф 0). Следовательно, обычно вычисляемые стандартные ошибки для МНК-оценок некорректны, и можно получить более эффективную оценку (ОМНК-оценку), используя структуру кова- риационной матрицы остатков. Чтобы получить ОМНК-оценку 7), сначала заметим, что для инди- видуального г все члены ошибок можно скомпоновать в виде ctitT+Si, где ьт = A, 1, • • • , 1)' размерности Г и Si — (вц, ..., вгтУ'• Ковариа- ционная матрица этого вектора равна (см. (Hsiao, 1986, р. 34)) У{ацт + Si} = ft = (tIlti't + °\1т, (Ю.16) где It — Т-мерная единичная матрица. Эту ковариационную мат- рицу можно использовать, чтобы получить ОМНК-оценку для па- раметров модели со случайными эффектами A0.15). Для каждого Возможно полезно снова прочитать общее введение в ОМНК-оценивание в па- раграфе 4.2.
508 10. Модели, основанные на панельных данных индивидуума мы можем преобразовать данные, умножая слева век- торы г/г = (уц,... , УгтУ и т. д. на матрицу Г2-1, которая задается как Q -1 сг, -2 К rt+Ta* iTirj, и которую также можно записать в виде П -1 -2 1 Л , ! /' где v> = ^? + ГаЯ' Заметив, что /т — A/Т)стс'т преобразует данные в отклонения от индивидуальных средних, а A/Т)ьт^т-, принимает индивидуальные средние значения, ОМНК-оценку для вектора неизвестных парамет- ров C можно написать как N т (IV ± IV \ —1 У] ^2(xit - Xi)(xit - XiY + фТ ^2{Xi - x){Xi -X)'\ X г=1 t=l г=1 ' ,NT N ч Х ( 5Z £(Х** " S*)(j/*t - Уг) + </>Г Х^Х* ~ W^Vi ~ У) ) ' 4=1 t=l г=1 ' A0.17) где ж= л?тЕх« г,£ обозначает общее среднее вектора хц. Легко видеть, что при ^ = О приходим к оценке с фиксированными эффектами. Поскольку ф —> 0 при Т —> ос, то из этого следует, что для большого Г оценка с фиксированными эффектами и оценка со случайными эффектами эквивалентны. Если ф — 1, то ОМНК-оценка просто является МНК- оценкой (и Q, является диагональной матрицей). Из общей формулы для ОМНК-оценки можно получить, что где Ромнк = А/Зм + (h ~ Д)/Зфэ, ^ ( N v -1 N Дм = ( ^2& - x)(Xi - Х)' J ^(Хг ~ Х)(Щ ~ У)' М=1 ' г=1
10.2. Статическая линейная модель 509 является так называемой межгрупповой оценкой для вектора неизвестных параметров C. Она является обычной МНК-оценкой вектора параметров /3 в модели для индивидуальных средних y. = fl + x'iC + al+ Iit, г = 1,..., N. A0.18) Матрица А является матрицей весов, она пропорциональна обра- щению ковариационной матрицы оценки /Зм (подробности см. в ра- боте (Hsiao, 1986, р. 36)). Таким образом, ОМНК-оценка является матрично-взвешенным средним межгрупповой и внутригрупповой оценок, где веса зависят от соотношения дисперсий этих двух оце- нок (более точная оценка получает больший вес). Межгрупповая оценка игнорирует любую внутригрупповую ин- формацию. ОМНК-оценка при сделанных предположениях является оптимальной комбинацией внутригрупповой и межгрупповой оце- нок, и поэтому более эффективна, чем любая из этих двух оценок в отдельности. МНК-оценка (с ф = 1) также является линейной ком- бинацией этих двух оценок, но не является эффективной оценкой. Таким образом, как обычно, ОМНК-оценки более эффективны, чем обычные МНК-оценки. Если объясняющие переменные независимы от всех бц и всех аг. то ОМНК-оценка является несмещенной. Она является состоятельной оценкой по N или Г, или N и Г, одновре- менно стремящимся к бесконечности, если в дополнение к условию A0.11) также справедливо, что Е{х{£ц} = 0 и наиболее важно, что E{xiai} = 0. A0.19) Заметим, что эти условия также требуются для состоятельности межгрупповой оценки. Легкий способ вычисления ОМНК-оценки получается, если за- метить, что ее можно определить как обычную МНК-оценку для преобразованной модели (см. главу 4), имеющей вид (Vit ~ $Уг) = Ml " Я) + Ы ~ tfXi) + UiU A0.20) где 1? = 1 — ф1'2. Остатки в этой преобразованной регрессии явля- ются независимо и одинаково распределенными по индивидуумам и времени. Опять заметим, что Ф = 0 соответствует внутригрупповой оценке (# = 1). В общем, фиксированная доля # индивидуальных средних вычитается из данных, чтобы получить эту преобразован- ную модель @ < 1? < 1). Конечно, компоненты дисперсии о1^ и а\ на практике неизвест- ны. В таком случае мы должны использовать реализуемую ОМНК- оценку (РОМНК), где на первом шаге состоятельно оцениваются
510 10. Модели, основанные на панельных данных неизвестные дисперсии. Оценка дисперсии ае легко получается из внутригрупповых остатков, как это дано в выражении A0.14). В меж- групповой регрессии дисперсия остатка равна а\ + A/Т)а^, которую можно оценить состоятельно в виде N -2 = N °м = -j; E (Vi - Дм - х'фмJ. (Ю.21) г=1 где Дм — межгрупповая оценка /а. Отсюда следует состоятельная оценка для дисперсии о\ Ъ1 = &м-^д2е. A0.22) Снова возможно скорректировать эту оценку применением коррек- ции степеней свободы, подразумевая, что число регрессоров К + 1 вычитается в знаменателе выражения A0.21) (см. (Hsiao, 1986, р. 38) или (Baltagi, 1995, р. 15)). Полученная РОМНК-оценка называется оценкой со случайными эффектами для вектора неизвестных параметров /3 (и /л) и ниже обозначается как (Зсэ- При слабых условиях регулярности оценка со случайными эф- фектами асимптотически нормальна. Ее ковариационная матрица задается как N / iV 1 4=1 t=l N v -1 + фТ ^(Xi - x)(Xi -Х)'\ , A0.23) г=1 ' которая показывает, что оценка со случайными эффектами более эффективна, чем оценка с фиксированными эффектами до тех пор, пока ф > 0. Выигрыш в эффективности обусловлен применением межгрупповой вариации в данных (#$ — ж). Ковариационная матрица A0.23) обычно оценивается по МНК для преобразованной модели A0.20). В итоге мы увидели ряд оценок для вектора неизвестных пара- метров /3. Основные две оценки следующие: 1. Межгрупповая оценка, использующая межгрупповую раз- мерность данных (различия между индивидуумами), определен- ная как МНК-оценка для регрессии индивидуальных средних у
10.2. Статическая линейная модель 511 по индивидуальным средним х (и константе). Состоятельность при N —> сю требует, чтобы выполнялись условия E{x{ai} = 0 и E{xiei} = 0. Обычно это означает, что объясняющие пере- менные являются строго экзогенными и некоррелированными с индивидуальным специфическим эффектом щ. 2. Внутригрупповая оценка с фиксированными эффекта- ми, использующая внутригрупповую размерность данных (раз- личия внутри индивидуумов), определенная как МНК-оценка для регрессии в отклонениях от индивидуальных средних. Она состоятельна для вектора неизвестных параметров /3 при Г —> ос или N —> оо при условии, что справедливо Е{(хц — Х{)ец} = 0. И опять состоятельность требует, чтобы х-переменные были строго экзогенными, но это не налагает никаких ограничений на соотношение между oti и хц. Другие две оценки следующие: 3. МНК-оценка, использующая обе размерности (внутригруп- повую и межгрупповую), но не эффективно. Определяется (конечно) как МНК-оценка для исходной модели. Состоятель- ность при Т —> ос или N —> оо требует выполнения условия Е{хц(ец + oti)} — 0. Состоятельность требует, чтобы объясня- ющие переменные были некоррелироваными с с^, но не требует наложения условия их строгой экзогенности. Требуется так- же, чтобы хц и ец были «одновременно» некоррелированными (contemporaneously uncorrelated). 4. РОМНК-оценка со случайными эффектами, комбиниру- ющая информацию из межгрупповой и внутригрупповой раз- мерности эффективным образом. Она состоятельна при Г —» оо или при N —> сю при допущениях, сформулированных для оце- нок в пп. 1 и 2. Ее можно определить как взвешенное среднее межгрупповой и внутригрупповой оценок или как МНК-оценку в регрессии, где переменные преобразованы к виду уц — ^yi, где Ь является оценкой для # = 1 — ф1^2 с ф = <J2/(&2 + Тст^)- 10.2.3. Фиксированные эффекты или случайные? Как рассматривать индивидуальные эффекты oti, как фиксирован- ные или как случайные? — вопрос нелегкий для ответа. Можно привести удивительные различия в оценках неизвестных парамет- ров /3 в случаях, если Т мало, а N является большим. Когда для
512 10. Модели, основанные на панельных данных каждого индивидуума имеется только несколько наблюдений во вре- мени, очень важно наиболее эффективное использование данных. Самая общая точка зрения состоит в том, что обсуждение не долж- но касаться «истинной природы» эффектов щ. Соответствующая интерпретация заключается в том, что подход фиксированных эф- фектов является условным по значениям эффектов о^. То есть, по существу рассматривается распределение уц при заданных эффек- тах а^, где эффекты oil можно оценить. Интуитивно такая интер- претация имеет смысл, если индивидуумы в выборке «одного типа», и не могут рассматриваться как случайные извлечения из некоторой лежащей в основе генеральной совокупности. Вероятно, что такая интерпретация наиболее уместна, когда г обозначают страны, боль- шие компании или отрасли промышленности, и мы хотим получить прогнозы для конкретной страны, компании или отрасли промыш- ленности. Таким образом, выводы относятся только к тем эффектам, которые находятся в выборке. Напротив, подход случайных эффектов не является условным по индивидуальным эффектам а^, а «исключает их объединени- ем в одно целое». В этом случае обычно мы не заинтересованы в конкретном значении эффекта щ для некоторого индивидуума; мы просто сфокусированы на случайно выбранных индивидуумах, которые имеют определенные характеристики. Подход случайных эффектов позволяет сделать вывод относительно характеристик ге- неральной совокупности. Один из способов формализовать различие в подходах состоит в том, чтобы отметить, что в модели со случай- ными эффектами утверждается E{yit\xit} = x'uP, A0.24) тогда как в модели с фиксированными эффектами оценивается Е{уц\хц, a{} = x'itE + щ. A0.25) Заметим, что коэффициенты C в этих двух условных математиче- ских ожиданиях будут одинаковыми, если только справедливо усло- вие E{ai\xa} — 0. Суммируя эти соображения, можно сказать, что первая причина, почему можно предпочесть оценку с фиксирован- ными эффектами заключается в том, что эффекты щ представляют некоторый интерес, который имеет смысл, если число индивидуаль- ных единиц относительно мало и имеет определенную природу. То есть, важна идентификация индивидуальных единиц.
10.2. Статическая линейная модель 513 Однако даже если мы заинтересованы в большей генеральной совокупности индивидуальных единиц, и кажется подходящей струк- тура случайных эффектов, оценка с фиксированными эффектами может быть предпочтительнее. Причина состоит в том, что возможен случай коррелированности о^ и хц, в котором подход случайных эффектов, игнорирующий эту корреляцию, приводит к несостоя- тельным оценкам. Мы видели это в вышеприведенном примере, в котором эффекты о^ включали качество управления и аргумен- тировалась их коррелированность с другими производственными затратами, включенными в производственную функцию. Проблему корреляции между индивидуальными эффектами сх{ и объясняю- щими переменными в векторе хц можно решить, применив подход фиксированных эффектов, который по существу исключает эффек- ты oti из модели, и тем самым устраняет любые проблемы, которые могут быть связаны с этими эффектами. Хаусман (Hausman, 1978) предложил тестирование нулевой ги- потезы некоррелированности хц и щ. Общая идея теста Хаусмана состоит в том, что сравниваются две оценки: оценка, которая состоя- тельна как при нулевой гипотезе, так и при альтернативной гипотезе; и оценка, которая состоятельна (и, как правило, эффективна) только при нулевой гипотезе. Значимое различие между этими двумя оцен- ками указывает, что нулевая гипотеза вряд ли будет справедлива. В настоящем случае предположим, что для всех s Hi выполняется условие Е{ецХ{8} = 0, так что оценка с фиксированными эффектами (Зфэ является состоятельной для вектора неизвестных параметров /3 независимо от того, коррелированы ли хц и щ, тогда как оценка со случайными эффектами (Зсэ состоятельна и эффективна, толь- ко если хц и cti некоррелированны. Рассмотрим вектор разностей (Зфэ — Рсэ- Чтобы оценить значимость этих разностей, нам потребу- ется ковариационная матрица вектора разностей. В общем, требова- лось бы оценить ковариационную матрицу между векторами (Зфэ и (Зсэ , но поскольку последняя функция оценивания эффективна при нулевой гипотезе, то можно показать, что (при нулевой гипотезе) У0фэ - Рсэ} = У0фэ} - У0сэ}. (Ю.26) Следовательно, мы можем вычислить критическую статистику Ха- усмана как 6/ = Ффэ - РсэУ[У0фэ} - У{0сэ}]~\дфэ - Рсэ), (Ю.27)
514 10. Модели, основанные на панельных данных где V обозначают оценки истинных ковариационных матриц. При нулевой гипотезе, которая неявно говорит, что рИт(/Зфэ — Рсэ) — 0, статистика £я имеет асимптотическое хи-квадрат распределение с К степенями свободы, где К — число элементов в векторе /3. Таким образом, критерий Хаусмана тестирует, значимо ли раз- личие оценок с фиксированными и случайными эффектами. В вы- числительном отношении провести такое тестирование относительно легко, поскольку ковариационная матрица удовлетворяет соотноше- нию A0.26). Важная причина, почему эти две оценки могут быть различны, заключается в существовании корреляции между хц и oti хотя другие виды неправильной спецификации также могут объяс- нить отклонение нулевой гипотезы (мы увидим такой пример ниже). Практическая проблема при вычислении критической статистики A0.27) состоит в том, что ковариационная матрица в квадратных скобках, может быть неположительно определенной в конечных вы- борках, так что ее обращение нельзя вычислить. В качестве альтерна- тивы можно проводить такое тестирование лишь для подмножества элементов в векторе /3. 10.2.4. Качество подгонки данных моделью Вычисление мер качества подгонки данных моделью в приложениях панельных данных несколько необычно. Одна из причин состоит в том, что можно по-разному оценивать важность объяснения внут- ригрупповой и межгрупповой вариации в данных. Другая причина заключается в том, что обычный или скорректированный ("adjusted") критерии R2 уместны только тогда, когда модель оценивается с по- мощью МНК*}. Наша отправная точка состоит в определении R в терминах квадрата коэффициента корреляции между фактическими и прогнозными значениями, как это представлено в параграфе 2.4 (см. соотношение B.44)). Такое определение имеет определенное пре- имущество, поскольку приводит к значениям, находящимся внутри интервала [0, 1] независимо от вида функции оценивания, которая применяется для получения прогнозных значений. Напомним, что это определение соответствует стандартному определению R2 (в тер- минах сумм квадратов), если модель оценивается с помощью МНК (при условии включения свободного члена). В текущем контексте См. соотношения, соответственно, B.42) и B.45) в главе 2 (примеч. научн. ред. перевода).
10.2. Статическая линейная модель 515 полную вариацию переменной г/ц можно записать в виде суммы внутригрупповой и межгрупповой вариаций, то есть, ^ Х>« -у^2 = ш ^2{m ~ViJ + ti ^iVi ~ vJ> A0-28) i,t i,t г где у обозначает общее выборочное среднее. Теперь, мы можем опре- делить альтернативные версии меры R2 в зависимости от размерно- сти анализируемых данных. Например, оценка с фиксированными эффектами выбирается, чтобы наиболее полно объяснить внутригрупповую вариацию, и поэтому максимизируется «внутригрупповой i?2», заданный в виде КпФфэ) = corr2(у*э - у*э, yit - у,), A0.29) где у®э — yf3 — (хц — Xi) (Зфэ, a corr2 обозначает квадрат коэффи- циента корреляции. Межгрупповая оценка, являясь МНК-оценкой для модели в терминах индивидуальных средних, максимизирует «межгрупповой i?2», который мы определяем как Rleo*0M) = COn2(yf, у,), A0.30) где угм = ~х'фм- МНК-оценка максимизирует общую меру качества подгонки данных моделью и таким образом максимизирует общий R2, который определяется в виде КбщиМ = СОТТ2(уги Уи), (Ю.31) где у it = x'itb. Возможно определить внутригрупповой, межгруппо- вой и общий R2 для произвольной оценки J3 вектора неизвестных параметров /?, применяя в качестве прогнозных значений значения Уи = ДчД ft = у 5^ £t и V=J^fJ2 У*> t i,t где свободные члены исключены (и неуместны)8'. При этом, оценка- ми с фиксированными эффектами игнорируется вариация, улавлива- емая эффектами dti. Если мы учитываем вариацию, объясненную N оцененными свободными членами й^, то модель с фиксированными эффектами полностью «подгоняет» межгрупповую вариацию. Хотя это несколько неудовлетворительно, поскольку трудно утверждать, Эти определения соответствуют мерам R , которые вычисляются в статисти- ческом пакете программ Stata 5.O.
516 10. Модели, основанные на панельных данных что фиксированные эффекты Si объясняют вариацию между инди- видуумами, они только улавливают ее. Выражаясь по-другому, если мы спрашиваем себя: почему индивидуум г в среднем потребляет больше, чем другой индивидуум, то ответ, предоставляемый эффек- тами S^ есть просто: «потому, что это индивидуум г». Учитывая этот аргумент, и что эффекты oti часто не вычисляются, кажется уместным игнорировать эту часть модели. Приняв данное выше определение в терминах квадратов коэф- фициентов корреляции, три определенные выше меры можно вы- числить для любой из оценок, которые мы рассматривали. Если мы берем оценку со случайными эффектами, которая является (асимп- тотически) наиболее эффективной, при условии справедливости на- шего предположения о действии случайных эффектов, то внутриг- рупповая, межгрупповая и общая меры R2 обязательно меньше, чем соответствующие меры для фиксированных эффектов, межгруппо- вой и МНК-оценок, соответственно. Это опять подчеркивает, что меры качества подгонки данных моделью нецелесообразно исполь- зовать при выборе между альтернативными методами оценивания. Однако эти меры предоставляют возможные критерии выбора меж- ду альтернативными (потенциально не вложенными) спецификаци- ями модели ;. 10.2.5. Альтернативные оценки метода инструментальных переменных Метод оценивания с фиксированными эффектами исключает из мо- дели все, что не зависит от времени. Возможно это высокая цена, которую следует заплатить, чтобы позволить включить в модель помимо переменных х индивидуальную специфицированную гете- рогенность oil. Скажем, мы можем интересоваться влиянием не зависящих от времени переменных (например, пола) на заработную плату индивидуума. В действительности, не существует никакой по- требности ограничить внимание предположениями существования только фиксированных и случайных эффектов, поскольку возможно получить оценки методом инструментальных переменных, который можно рассматривать в качестве промежуточного подхода между подходами фиксированных и случайных эффектов. В рамках одного и того лее метода оценивания. Речь может идти, например, о формировании набора объясняющих переменных (прим. научн. ред. перевода.).
10.2. Статическая линейная модель 517 Чтобы это увидеть, прежде всего, заметим, что оценку с фик- сированными эффектами можно записать в виде , N т \ -1 N т РФЭ = ( ]Р Yl^Xit ~ %i)(Xit ~ Xi)' J ]P Yl^Xit ~ г*)(У« - Vi) = 4 = 1 t=l ' 2=1 t=l , N T ч -1 TV T = ( J] Z^** ~ ^^ ) 5Z Z^** ~ ^^ A0.32) M=l t=l ' г=1 t=l Такая запись оценки показывает, что она может быть интерпре- тирована как оценка метода инструментальных переменных ' для вектора неизвестных параметров C в модели yit = fi + XitP + ai + eit, где каждая объясняющая переменная инструментована своим значе- нием отклонения от индивидуального специфицированного среднего значения. То есть, вектор хц инструментован векторной разно- стью хц —Xi. Заметим, что по построению справедливо условие Е{(хц —Xijcti} = 0 (если мы берем математические ожидания по индексам г и £), так что ИП-оценка является состоятельной при условии Е{(хц — Xi)eu} — 0, которое подразумевает строгую экзо- генность переменных в векторе хц. Ясно, если известно, что спе- цифическая переменная в векторе Хц некоррелирована с эффектом ai, то ее обеспечение инструментальной переменной не требуется; то есть, эту переменную можно использовать в качестве ее собственной инструментальной переменной. Такой способ может позволить нам оценивать также влияние переменных, не зависящих от времени. Чтобы описать общий подход, рассмотрим линейную модель с че- тырьмя группами объясняющих переменных (Hausman, Taylor, 1981) yit= fl + X'litCi + X'2itC2 + W'ull + UJil2 + &i+ Sit, A0.33) где ж-переменные изменяются во времени, а ги-переменные не за- висят от времени. Предполагается, что переменные с индексом 1 некоррелированы с эффектом о^ и со всеми членами ошибок SiS. Пе- ременные #2,it и w2i коррелированы с эффектом о^, но не с любым членом ошибки в{3. При этих предположениях функция оценива- ния фиксированных эффектов была бы состоятельной для векторов ^ Возможно, полезно освежить в памяти параграф 5.3, где дается общее обсуж- дение оценивания методом инструментальных переменных.
518 10. Модели, основанные на панельных данных неизвестных параметров C\ и /?2, но не идентифицировала бы коэф- фициенты при переменных, не зависящих от времени. Кроме того, она неэффективна, поскольку вектор x\^t в этом случае инструмен- тован без необходимости. Хаусман и Тэйлор (Hausman, Taylor, 1981) предложили оценивать модель A0.33) методом инструментальных переменных, используя в качестве инструментальных следующие переменные: х\,ц, уоц и X2,a — ~X2i-> хц. То есть, экзогенные пере- менные служат в качестве их собственных инструментов, вектор Х2,ц инструментован своим отклонением от вектора индивидуаль- ных средних (как в подходе фиксированных эффектов), а вектор W2i инструментован вектором индивидуальных средних для вектора #1,г£- Очевидно идентификация требует, чтобы число переменных в векторе x\^t было бы, по крайней мере, не меньше числа переменных в векторе г^г- Полученная оценка, оценка Хаусмана—Тэйлора, позволяет нам оценивать эффекты переменных, не зависящих от времени, даже, несмотря на то, что изменяющиеся во времени ре- грессоры коррелированны с эффектом о^- Если переменные, не зависящие от времени, предполагаются также коррелированными с эффектом о^, то их также следует обеспечить инструментальными переменными, и мы потребуем, чтобы включалось достаточное коли- чество переменных, зависящих от времени, которые не коррелиро- ванны с эффектом cti. Конечно, существует прямое расширение для включения дополнительных инструментальных переменных в про- цедуру, которые не основаны на переменных, включенных в модель. К такому приему прямого расширения прибегают в случае простран- ственных данных, где не существует никаких доступных преобразо- ваний, которые могли бы быть аргументированы для предоставления обоснованных инструментальных переменных. Сильное преимуще- ство подхода Хаусмана—Тэйлора состоит в том, что не требуется применение внешних инструментальных переменных. При достаточ- ных предположениях инструментальные переменные можно полу- чить внутри модели. Несмотря на это важное преимущество, оценка Хаусмана—Тэйлора играет удивительно незначительную роль в те- кущей эмпирической работе. Хаусман и Тэйлор также показали, что множество инструмен- тальных переменных эквивалентно применению х\,ц —хц, Х2,ц — ^2г и х\,ц, иоц. Это следует непосредственно из того факта, что взятие разных линейных комбинаций исходных инструментальных пере- менных не влияет на оценку. Хаусман и Тэйлор также показали,
10.2. Статическая линейная модель 519 как в модели A0.33) можно использовать недиагональную кова- риационную матрицу остатков, чтобы улучшить эффективность оценки. В настоящее время оценивание, как правило, проводится в рамках обобщенного метода моментов (ОММ), что мы увидим в параграфе 10.3 (см. (Arellano, Bover, 1995)). В двух статьях, последовавших за (Hausman, Taylor, 1981), дела- лись попытки улучшить эффективность оценки методом инструмен- тальных переменных Хаусмана—Тэйлора, с помощью введения боль- шего множества инструментальных переменных. В статье (Amemiya, MaCurdy, 1986) предлагается также применение не зависящих от времени инструментальных переменных от Х\,ц — хц вплоть до x\,iT — хц. Это требует, чтобы для каждого t выполнялось условие Е{(х\,ц — ~xu)oti} = 0. Такое предположение имеет смысл, если кор- реляция между oti и х\,ц обусловлена наличием не зависящей от вре- мени компоненты в векторе х\,ц такой, что E{x\^tai} для данного t не зависит от t. В статье (Breusch, Mizon, Schmidt, 1989) представлен подробный обзор литературы по этой тематике и в качестве допол- нительных инструментальных переменных предлагается применение не зависящих от времени переменных от Х2,п — ~Х2г до я?2,гТ — ^2г- 10.2.6. Альтернативные структуры остатков В моделях со случайными эффектами и моделях с фиксированны- ми эффектами предполагается, что присутствие щ улавливает всю корреляцию между ненаблюдаемыми переменными в различные пе- риоды времени. Таким образом, предполагается, что остатки вц, являются некоррелированными по индивидуумам и времени. При условии, что переменные в векторе хц строго экзогенны, присут- ствие автокорреляции в остатках Вц не приводит к несостоятельно- сти стандартных оценок. Однако стандартные ошибки и получаю- щиеся критерии становятся недействительными, точно так же, как в главе 4. Кроме того, это будет означать, что оценки больше не эф- фективны. Например, если истинная ковариационная матрица О не удовлетворяет выражению A0.16), то оценка со случайными эффек- тами больше не соответствует РОМНК-оценке вектора неизвестных параметров /3. Как мы знаем, присутствие гетероскедастичности в остатках вц или в эффектах щ для модели со случайными эффек- тами имеет аналогичные последствия. Один из способов избежать вводящих в заблуждение выводов без необходимости налагать альтернативные предположения на струк-
520 10. Модели, основанные на панельных данных туру ковариационной матрицы остатков Я, состоит в использовании МНК-оценки для вектора неизвестных параметров /3 и одновре- менно коррекции ее стандартных ошибок в соответствии с общими формами гетероскедастичности и автокорреляции. Рассмотрим сле- дующую модель10) Ун = oti + x'itC + uit, A0.34) без предположения, что иц имеет некоторую структуру из компонент остатков. Состоятельность МНК-оценки у N Т ч -1 N Т 6 = ( 5Z Е XitXit ) Yl Yl XitVit A0.35) вектора параметров /3 требует, чтобы выполнялось условие E{xituit} = 0. A0.36) Предполагая, что остатки для различных индивидуумов являются некоррелированными (E{uitUjs} = 0 для всех г ф j), ковариацион- ную матрицу МНК-оценки можно оценить по Невье—Весту из главы 4, то есть: , N Т ч-liVTT /NT ч-1 V{b} = ( S Е ^^ ) SEE Uituisxitx'is I Y^ Yl XitXit ) ' A0.37) где й^ обозначает МНК-оцененный остаток. Эта оценка учитывает общие формы гетероскедастичности, так же как и автокорреляции (внутригрупповой). Если гетероскедастичность исключается априо- ри, среднюю матрицу в выражении A0.37) можно заменить матрицей N Т Т , N v Y1 Е Е ( N ^ ^is ) X*X'is> A0-38) г=1 t=l s=l ^ г=1 ' где 1 " — ]Г UitUia г=1 — состоятельная оценка для матрицы fits — i?{i^£^s}- 10) Для удобства обозначений предполагается, что в вектор хц включена кон- станта.
10.2. Статическая линейная модель 521 Если бы остаток иц имел не зависящую от времени компоненту ai, которая могла бы быть коррелированна с объясняющими пере- менными, то оценка с фиксированными эффектами была бы более уместна, чем МНК-оценка, и могла бы быть использована аналогич- ная коррекция для гетероскедастичности и автокорреляции (в остат- ках Sit) (Arellano, 1987). Получающееся выражение было бы подобно выражению A0.37), но каждый вектор хц заменялся бы внутригруп- повым преобразованием хц — ~xi, а МНК-оцененный остаток внутри- групповым МНК-оцененным остатком (см. (Baltagi, 1995, р. 13)). Если нелишне специфицировать определенные предположения о форме гетероскедастичности или автокорреляции, то можно полу- чить более эффективные оценки, чем МНК-оценка или оценка с фик- сированными эффектами, используя известную структуру ковариа- ционной матрицы остатков и применяя РОМНК или метод макси- мального правдоподобия. Краткий обзор ряда таких оценок, которые в вычислительном отношении являются, как правило, малопривле- кательными, представлен в (Baltagi, 1995, Chapter 5). В монографии (Kmenta, 1986) предлагается относительно простая РОМНК-оценка, которая учитывает автокорреляцию первого порядка в остатках иц вместе с индивидуальной специфической гетероскедастичностью, но не учитывает компоненту, зависящую от времени в остатках иц (см. Baltagi, 1996). 10.2.7. Тестирование на наличие гетероскедастичности и автокорреляции Большинство тестов, которые можно применить для тестирования на наличие гетероскедастичности или автокорреляции в модели со слу- чайными эффектами, вычислительно обременительны. Для модели с фиксированными эффектами, которая по существу оценивается с помощью МНК, проведение такого тестирования относительно менее сложно. К счастью, можно использовать оценку с фиксированны- ми эффектами, даже если мы делаем предположение о случайных эффектах, то есть о том, что эффекты ai являются независимо и одинаково распределенными случайными величинами, независимы- ми от объясняющих переменных. Поэтому и в случае модели со случайными эффектами можно использовать процедуры тестирова- ния, как это делается в модели с фиксированными эффектами. Довольно простое тестирование на наличие автокорреляции в модели с фиксированными эффектами основано на тесте Дарбина—
522 10. Модели, основанные на панельных данных Уотсона, обсужденном в главе 4. Альтернативная гипотеза состоит в том, что en = p€i,t-i + Щг, A0.39) где уц являются независимо и одинаково распределенными по инди- видуумам и времени. Этим учитывается автокорреляция во времени с ограничением, что каждый индивидуум имеет один и тот же ко- эффициент автокорреляции р. Нулевой гипотезой при тестировании является гипотеза Hq : р = 0 против односторонней альтернативной гипотезы р < 0 или р > 0. Пусть е'ц обозначают остатки внутриг- рупповой регрессии A0.9) или, что эквивалентно, остатки регрессии с фиктивными переменными A0.7). Для такого случая в статье (Bhargava, Franzini, Narendranathan, 1983) предлагается следующее обобщение статистики Дарбина—Уотсона N Т / „ Z^i^it -eijt-iJ dWP = i=lt=l T ' A0'4°) i=l t=l Используя такую же логику вывода, как Дарбин и Уотсон, авторы статьи смогли получить нижнюю и верхнюю границы для истин- ных критических значений, которые зависят только от iV, T, и К. В отличие от случая «чисто» временного ряда, область неопределен- ности теста Дарбина—Уотсона в панельных данных является малой, особенно когда число индивидуумов в панельных данных большое. В таблице 10.1 мы представили некоторые выбранные нижние и верхние границы для истинных 5% критических значений, которые можно использовать для тестирования против альтернативной ги- потезы наличия положительной автокорреляции. Числа в таблице подтверждают, что области неопределенности являются малыми, а также показывают, что варьирование критических значений, обу- словленное изменением К, N или Т, весьма ограничено. В модели с тремя объясняющими переменными, оцененными для 6 периодов времени, нулевая гипотеза Hq : р — 0 отклоняется на 5% уровне значимости, если dwp меньше 1,859 для N = 100, или меньше 1,957 для N = 1000, против односторонней альтернативной гипотезы р > 0. Для панельных данных при больших N авторы статьи пред- ложили простое правило тестирования нулевой гипотезы против альтернативной гипотезы наличия положительной автокорреляции:
10.2. Статическая линейная модель 523 Таблица 10.1. 5%-ные нижняя и верхняя границы теста Дарбина—Уотсона для панельных данных Т = 6 Г= 10 к = з К = 9 К = 3 К = 9 N = 100 dL 1,859 1,839 1,891 1,878 du 1,880 1,902 1,904 1,916 TV = 500 dL 1,939 1,935 1,952 1,949 du 1,943 1,947 1,954 1,957 N = 1000 dL 1,957 1,954 1,967 1,965 du 1,950 1,961 1,968 1,970 нулевая гипотеза отклоняется, если вычисленная статистика dwp меньше двух. Поскольку оценка с фиксированными эффектами со- стоятельна и для модели со случайными эффектами, то этот тест Дарбина—Уотсона для панельных данных можно использовать так- же и в модели со случайными эффектами. Чтобы протестировать наличие гетероскедастичности в остатках бц, мы можем опять воспользоваться остатками модели с фиксиро- ванными эффектами ё*ц. Вспомогательная регрессия для проведения тестирования строится в виде регрессии квадратов внутригруппо- вых МНК-оцененных остатков e\t по константе и J переменным гц, которые, как предполагается, могут повлиять на гетероскедастич- ность. Такой тест является вариантом теста Бреуша—Пагана11^ на наличие гетероскедастичности, обсужденного в главе 4. Альтерна- тивная гипотеза для теста заключается в предположении, что V{eit} = a2h(z'ita), A0.41) где h — неизвестная, непрерывно дифференцируемая функция с условием /i@) = 1, а тестируемая нулевая гипотеза задается в виде if о : а = 0. При нулевой гипотезе критическая статистика, вычислен- ная как N(T — 1), умноженное на R2 вспомогательной регрессии, бу- дет иметь асимптотическое хи-квадрат распределение с J степенями свободы. Альтернативный тест можно построить с помощью вычис- В контексте панельных данных термин «тест Бреуша—Пагана» обычно связы- вается с тестом множителей Лагранжа для модели со случайными эффектами при нулевой гипотезе, что никаких индивидуальных специфических эффек- тов не существует (<т^ = 0); см. (Baltagi, 1995, Sect. 4.2.1). В приложениях этот тест почти всегда отклоняет нулевую гипотезу.
524 10. Модели, основанные на панельных данных ления остатков межгрупповой регрессии, и критическая статистика равна N, умноженному на R2 вспомогательной регрессии межгруп- повых остатков по ~zi или, более обще, по гц, ... , zit- При нулевой гипотезе о гомоскедастичности остатков критическая статистика имеет асимптотическое хи-квадрат распределение со степенями сво- боды, равными числу переменных, включенных во вспомогательную регрессию (за исключением свободного члена). Альтернативная ги- потеза такого теста является менее определенной. 10.3. Пример: объяснение индивидуальной заработной платы В этом параграфе, чтобы оценить уравнение индивидуальной за- работной платы, мы применим ряд описанных выше методов оце- нивания. Данные12' взяты из Молодежной выборки национального протяженного во времени обследования*^, проведенного в США, и представляют собой выборку из 545 работников-мужчин, занятых полный рабочий день, которые закончили свое обучение в 1980 г., а затем работали в течение 1980-1987гг. Мужчины в выборке моло- дые, в возрасте от 17 до 23 лет (по состоянию на 1980 год), и вышли на трудовой рынок довольно недавно, в среднем с тремя годами опыта работы на начало выборочного периода. Данные и специфи- кации, которые мы выбираем, аналогичны тем, что в статье (Vella, Verbeek, 1998). Логарифм заработной платы объясняется с помощью следующих переменных: времени обучения (в годах), опыта работы (в годах) и его квадрата, фиктивных переменных (манекенов) — членства в профсоюзе (состоит, не состоит), работы в общественном секторе (общественный сектор, частный сектор), семейного положе- ния (женат, холост) и двух расовых фиктивных переменных. Оценивание13' проводилось с помощью межгрупповой оценки, основанной на индивидуальных средних, и с помощью внутриг- рупповой оценки, основанной на отклонениях от индивидуальных ^ Данные, используемые в этом прарграфе, доступны в MALES. *) Речь идет о: "Youth Sample of the National Longitudinal Survey" (примеч. научн. ред. перевода). ' Результаты оценивания в этом параграфе получены с помощью статистиче- ского пакета программ St at a 5.0.
10.3. Пример: объяснение индивидуальной заработной платы 525 средних. Результаты оценивания представлены в первых двух столб- цах таблицы 10.2. Прежде всего, следует заметить, что оценка с фиксированными эффектами (или внутригрупповая оценка) ис- ключает из модели любые переменные, не зависящие от времени. Это означает, что в этом случае влияние времени обучения и ра- совых фиктивных переменных не учитываются. Различия между двумя рядами оценок кажутся существенными, и мы возвратим- ся к этому ниже. В следующей колонке представлены результаты МНК-оценивания, примененного к модели со случайными эффекта- ми, в котором стандартные ошибки не скорректированы с учетом структуры компонент остатков. Последний столбец представляет результаты применения РОМНК-оценивания случайных эффектов. Как обсуждалось в п. 10.2.2, дисперсии компонент ошибок с^ и бц можно оценить по внутри- и межгрупповым остаткам. В частности мы имеем д2м — 0,1209 и а2 — 0,1234. Отсюда можно состоятельно оценить а\ как Э\ — 0,1209 — 0,1234/8 = 0,1055. Следовательно, множитель ф оценивается как ? 0,1234 w = = 0,1276, ^ 0,1234 + 8x0,1055 что приводит к д — 1 — ф1'2 — 0,6428. Это значит, что РОМНК- оценку можно получить из преобразованной регрессии, где 0,64, умноженное на индивидуальное среднее значение, вычитается из исходных данных. Вспомним, что в МНК-оценке полагают, что д — 0, в то время как в оценке с фиксированными эффектами используется условие # = 1. Заметим, что значения МНК-оценок и оценок со случайными эффектами находятся внутри интервала с границами: межгрупповые оценки и оценки с фиксированными эффектами. Если удовлетворяются предположения модели со случайными эффектами, то все четыре оценки в таблице 10.2 состоятельны и оценка со случайными эффектами является самой эффективной. Однако, если индивидуальные эффекты щ коррелированны с одной или более объясняющими переменными, то только оценка с фик- сированными эффектами является состоятельной. Такую гипотезу можно протестировать, сравнивая межгрупповую и внутригруппо- вую оценки, или внутригрупповую оценку с оценкой со случайными эффектами. Оба сравнения приводит к эквивалентным тестам. Са- мое простое тестирование состоит в проведении теста Хаусмана, обсужденного в п. 10.2.3, основанного на сравнении внутригруп- повой оценки и оценки со случайными эффектами. Критическая
526 10. Модели, основанные на панельных данных Таблица 10.2. Результаты оценивания уравнения заработной платы, мужчины 1980-1987гг. (в круглых скобках стандартные ошибки) Зависимая переменная: log (wage) Переменная модели константа время обучения опыт работы опыт работы в квадрате членство в профсоюзе семейное положение афро- американец латино- американец работа в об- щественном секторе внутригруп- повой R межгруппо- вой R общий R Межгруппо- вая оценка 0,490 @,221) 0,095 @,011) -0,050 @,050) 0,0051 @,0032) 0,274 @,047) 0,145 @,041) -0,139 @,049) 0,005 @,043) -0,056 @,109) 0,0470 0,2196 0,1371 Оценка с фик- сированными эффектами — — 0,116 @,008) -0,0043 @,0006) 0,081 @,019) 0,045 @,018) — — 0,035 @,039) 0,1782 0,0006 0,0642 МНК- оценка -0,034 @,065) 0,099 @,005) 0,089 @,010) -0,0028 @,0007) 0,180 @,017) 0,108 @,016) -0,144 @,024) 0,016 @,021) 0,004 @,037) 0,1679 0,2027 0,1866 Оценка со случайными эффектами -0,104 @,111) 0,101 @,009) 0,112 @,008) -0,0041 @,0006) 0,106 @,018) 0,063 @,017) -0,144 @,048) 0,020 @,043) 0,030 @,036) 0,1776 0,1835 0,1808
10.3. Пример: объяснение индивидуальной заработной платы 527 статистика принимает значение, равное 31,75, и отражает различия в коэффициентах при переменных опыта работы, квадрата опыта ра- боты и при манекенах членства в профсоюзе, семейного положения и работы в общественном секторе. При нулевой гипотезе критическая статистика подчиняется хи-квадрат распределению с 5 степенями свободы, так что нам следует отклонить нулевую гипотезу на любом разумном уровне значимости. Семейное положение является фиктивной переменной, которая, вероятно, будет коррелированна с ненаблюдаемой гетерогенностью в эффектах ос{. Как правило, можно было бы не ожидать значимо- го причинного влияния семейного положения на заработную плату, поскольку манекен семейного положения обычно улавливает другие (ненаблюдаемые) различия между женатыми и холостыми рабочи- ми. Это подтверждается результатами в таблице. Если мы исклю- чаем индивидуальные эффекты из модели и рассматриваем оцен- ку с фиксированными эффектами, то влияние манекена семейного положения снижается до 4,5%, тогда как, например, в случае меж- групповой оценки оно составляет почти 15%. Заметим, что влияние манекена семейного положения в подходе фиксированных эффек- тов идентифицируется только через людей, которые изменяют свое семейное положение в течение периода выборочного обследования. Подобные замечания можно сделать для влияния манекена членства в профсоюзе на заработную плату работника. Однако вспомним, что все оценки предполагают некоррелированность объясняющих пере- менных с остатками вц. Если бы такие корреляции существовали, то даже оценка с фиксированными эффектами была бы несостоя- тельной. В статье (Vella, Verbeek, 1998) уделяется особое внимание влиянию эндогенного статуса принадлежности к членам профсоюза на заработную плату работников этой группы, и рассматриваются альтернативные, более сложные методы оценивания. Меры качества подгонки данных моделью подтверждают, что оценка с фиксированными эффектами приводит к наибольшему внутригрупповому R2 и таким образом насколько возможно объ- ясняет внутригрупповую вариацию. МНК-оценка максимизирует обычный (общий) критерий Д2, в то время как оценка со случай- ными эффектами приводит к приемлемым значениям критериев R2 для всех случаев. Вспомним, что стандартные ошибки МНК-оценки вводят в заблуждение, поскольку они не принимают в расчет корре- ляцию различных остатков. Корректные стандартные ошибки для
528 10. Модели, основанные на панельных данных МНК-оценки должны быть больше, чем стандартные ошибки для эффективной РОМНК-оценки, которая учитывает эти корреляции. 10.4. Динамические линейные модели Способность моделировать индивидуальную динамику относится к главным преимуществам панельных данных. Во многих экономи- ческих моделях предполагается, что текущее поведение зависит от прошлого поведения (постоянство, формирование навыков, частич- ная корректировка, и т. д.) , поэтому во многих случаях хотелось бы оценить динамическую модель на индивидуальном уровне. Спо- собность моделировать индивидуальную динамику с помощью па- нельных данных уникальна. 70.4.7. Модель авторегрессии панельных данных Рассмотрим линейную динамическую модель с экзогенными пере- менными и лагированной зависимой переменной в роли регрессоров, то есть, модель у it = x'itC + 72/m-i + oti + eit, где предполагается, что остатки ец являются НОР@, сг^). Для ста- тической модели мы проводили обсуждение состоятельности (устой- чивости) и эффективности при выборе между моделями с фикси- рованными и случайными эффектами ос{. В динамической модели ситуация существенно отличается, поскольку лагированная зависи- мая переменная yij-i будет зависеть от эффекта ос\ независимо от способа, с помощью которого мы анализируем эти эффекты. Чтобы проиллюстрировать проблемы, которые возникают при этом, сначала рассмотрим случай модели, где не включаются никакие эк- зогенные переменные, и модель представляется в виде: Ун = 7УМ-1 +ai + eiu Ы < 1. A0.42) Предположим, что мы имеем наблюдения относительно переменной Ун для тактов времени t — О,1,... , Т. Об этих свойствах динамических моделей речь шла в предыдущих двух главах (примеч. науч. ред. перевода).
10.4. Динамические линейные модели 529 Оценка с фиксированными эффектами для неизвестного пара- метра 7 имеет вид N Т Y ^2(Vit - Уг)(У%*-1 ~ Уг-l) 1фэ = i=lty T , (Ю.43) г=1 t=l Т ЕЕ^ -Уг,-1J г=1 t=l где _ 1 Т _ 1 Т у*= f 5Еу*> a ^,-i = f Yl y^-1' t=i t=i Чтобы проанализировать свойства оценки 7фэ5 мы можем подста- вить выражение A0.42) в выражение A0.43) и получить оценку в виде 1 N т jff Y Y(£it ~ ei)(Vi,t-i - 17*,—i) 1ФЭ = 7 + *=1У т • (Ю.44) ^ЕЕ^-1-^) NT Однако эта оценка при 7V —> сю и фиксированном Г смещенная и несостоятельная, поскольку последний член в правой части выра- жения A0.44) не имеет нулевого математического ожидания и не сходится к нулю при iV, стремящемся к бесконечности. В частности можно показать, что (Nickell, 1981; Hsiao, 1986, p. 74) N т plim — J2 J2(eit ~ г*)(УМ-1 - Vi,-i) = N—юо ^v^ ._- ... -i'^lli^r7^0- A045) Таким образом, при фиксированном Г мы имеем несостоятельную оценку. Заметим, что эта несостоятельность не вызывается ничем из того, что мы предполагали о эффектах ос{, поскольку они исключают- ся при оценивании. Проблема состоит в том, что внутригрупповая преобразованная лагированная зависимая переменная коррелиро- ванна с внутригрупповым преобразованным остатком. Если Т —>• ос, то вероятностный предел A0.45) сходится к нулю, так что оценка
530 10. Модели, основанные на панельных данных с фиксированными эффектами является состоятельной для 7> если Г —► ос и N —► ос. Можно было бы думать, что асимптотическое смещение для фиксированного Г является весьма малым и поэтому реальной про- блемы, вроде бы, нет. Конечно, это не так, поскольку для конечного Г смещение едва ли можно игнорировать. Например, если истинное значение параметра 7 равняется 0,5, то можно легко вычислить, что (при N —► оо) рИт7ФЭ — ~0,25, если Т = 2, рИт7ФЭ — —0,04, если Г = 3, рИгп7ФЭ — 0,33, если Г = 10, поэтому даже для средних значений Т смещение существенно. К счастью, существуют относительно легкие способы избежать таких смещений. Для решения проблемы несостоятельности, прежде всего, нач- нем с другого преобразования, чтобы устранить индивидуальные эффекты aj, в частности, мы возьмем первые разности. Это приво- дит к модели Ун ~ г/г,*—1 = 7(Уг,*-1 - Ум-г) + (eit - £;,t-i), t = 2,..., Г. A0.46) Если мы оцениваем ее с помощью МНК, то мы не получаем состоя- тельную оценку для неизвестного параметра 7 даже при Г —> ос, по- скольку лагированная зависимая переменная y^t-i и остатки e^t-i по определению коррелированны. Однако такая преобразованная спецификация наводит на мысль о применении метода инструмен- тальных переменных. Например, лагированная зависимая перемен- ная j/i,t—2 коррелированна с разностью j/i,t-i — Ум-2? но не с лаги- рованным остатком £г,*-ъ если только остаток Ец не обнаруживает автокорреляцию (наличие который мы исключаем по предположе- нию). Тем самым для оценивания неизвестного параметра 7 можно воспользоваться методом инструментальных переменных1 > N Т Yl 5Z Vi,t-2(yit - Ум-l) 1ип = ~р-^ . (Ю.47) У] Y2 Уъг-2(У1,г-1 ~ УМ-2) г=1 t=2 См. параграф 5.3 для общего введения в оценивание методом инструменталь- ных переменных.
10.4. Динамические линейные модели 531 Необходимое условие для состоятельности этой функции оценивания заключается в том, что N т Plim тт_г) Е Х>« " ebt-i)Vi,t-2 = 0 A0.48) для Т или для iV, или одновременно для Т и 7V, стремящихся к бесконечности. Оценка A0.47) является одной из оценок Андерсона— Хсяо, предложенных в статье (Anderson, Hsiao, 1981). Авторы статьи также предложили альтернативу, где в качестве инструменталь- ной переменной используется разность Уг,г-2 — Уг,г-з- Тогда аль- тернативная оценка методом инструментальных переменных будет иметь вид N Т У^ 5^(j/M-2 - yi,t-s)(yit - Vi,t-i) 1{и]п = iF4^ > A0-49) Y2 ]0У^~2 ~ yi,t-3)(yi,t-l ~ J/t,t-2) г=1 £=3 которая является состоятельной (при условиях регулярности), если 1 N т plim N(T - о\ Е J2(£it " £M-i)(J/M-2 - Ум-з) = 0. A0.50) iV^ L> i=i t=3 Состоятельность этих двух оценок гарантируется предположением, что остаток вц не имеет никакой автокорреляции. Заметим, что для второй МИП-оценки при построении ин- струментальной переменной требуется дополнительный сдвиг, так что эффективное число наблюдений, используемых для оценивания, уменьшается (один такт времени «потерян»). Вопрос, какую из этих оценок следует выбрать не является, по существу, спорным. Под- ход, основанный на методе моментов, позволяет унифицировать эти оценки и устранить недостатки, связанные со снижением объемов выборок. На первом шаге этого подхода следует отметить, что N т pUm N(T-l) ^ ^£it " £M-i)s/M-2 = ^ ' г=1 t=3 - E{(eit - еМ-1)ум-2} = 0 A0.51)
532 10. Модели, основанные на панельных данных является условием моментов (см. главу 5). Точно так же условием моментов является 1 N т рИШ N(T - 2) S X^ ~ eM-i)(l/t,t-2 " Ум-з) = ^ > г=1 t=3 - Д{(г« - eM-i)yt,t-3} = 0. A0.52) Таким образом, при оценивании для обеих МИП-оценок налагается одно условие моментов. Известно, что наложение большего количе- ства условий моментов повышает эффективность оценок (конечно, если действительны дополнительные условия). В статье (Arellano, Bond, 1991) предлагается расширить перечень инструментальных переменных с помощью введения дополнительных условий момен- тов, позволяя количеству этих условий изменяться с t. Для этого авторы статьи положили Г фиксированным. Например, при Г = 4 мы имеем E{(ei2 -ец)уго} = 0, как условие моментов для t = 2. Для t — 3 мы имеем E{(si3 -ei2)yii} = 0, но также справедливо, что E{(si3 -£г2)Уго} = 0. Для такта времени t = 4 мы имеем условия трех моментов и можем ввести, соответственно, три инструментальных переменных E{(Si4 -£гз)Уго} = 0, Е{(ец -si3)yii} = 0, E{(si4 -£гз)Уг2} = 0. Все эти условия моментов можно использовать в схеме реали- зации обобщенного метода моментов (ОММ). С целью построения ОММ-оценки определим Д^г = ... A0.53)
10.4. Динамические линейные модели 533 как вектор преобразованных остатков, и Zi = ( [Уго] 0 о [УгО,Уп] о о о A0.54) V 0 ... О [уМ, ...,Уг,Т-2]/ как матрицу значений инструментальных переменных*'. Каждая строка в матрице Zj содержит инструментальные переменные, ко- торые правомочны для данного такта временна. Следовательно, совокупность всех условий моментов можно записать кратко в виде Е{г1Авг} = 0. A0.55) Заметим, что число этих условий равно 1 + 2 + 3 + ... + Т — 1. Чтобы получить ОММ-оценку, напишем это в виде E{Z't(Ayi - 7Ду»,-1)} = 0. A0.56) Поскольку число «моментных» условий, как правило, будет пре- вышать число неизвестных коэффициентов, мы оцениваем 7 мини- мизацией квадратичного выражения в терминах соответствующих выборочных моментов (см. главу 5), то есть mm 7 г=1 ^ J2 2'г(АУг ~ 7Ayi,-l)| WN\± J2 Z'i^ ~ ТДЯ-1) г=1 A0.57) где Wn — симметрическая положительно определенная матрица весов15). Дифференцируя это выражение по 7 и решая полученное уравнение относительно 7> приходим к выражению 1омм = ((JT A<-i^W(E z'AVi,-^ х 1=1 г=1 JT Ay'^Z^wJf^ %Ьуг,-г)\ (Ю.58) г=1 ' \=1 ' ' *) Матрица Zi в A0.54) имеет размерность (Т— 1) X A+2+. . . + (Т—1)), поскольку нули-строки, стоящие над и(или) под 1-тым выражением в квадратных скоб- ках, имеют размерность /, / = 1, 2, ... , Т — 1 (примеч. научн. ред. перевода). ' Подстрочный индекс N отражает возможную зависимость матрицы Wpj от объема выборки JV, а не отражает размерность матрицы.
534 10. Модели, основанные на панельных данных Свойства этой оценки зависят от выбора матрицы весов Wn, несмот- ря на то, что хотя она будет состоятельной до тех пор, пока матрица Wjq положительно определенна, например, для матрицы Wn — /, где / — единичная матрица. Оптимальной матрицей весов является такая матрица, ко- торая приводит к эффективной оценке, то есть дает наимень- шую асимптотическую ковариационную матрицу для оценки 7омм- Из общей теории ОММ (см. главу 5) мы знаем, что оптимальная мат- рица весов (асимптотически) пропорциональна матрице, обратной к ковариационной матрице выборочных моментов. В данном случае это означает, что оптимальная матрица весов должна удовлетворять plim WN = VWAei}-1 = Е{г'гАегАе%}-\ A0.59) N—юо В стандартном случае, когда на ковариационную матрицу Si ника- кие ограничения не налагаются, оптимальную матрицу весов можно оценить, используя на первом шаге состоятельную функцию оцени- вания 7 5 и заменяя оператор математического ожидания выбороч- ным средним. Тогда оптимальная матрица весов имеет вид — /1 N \~l ^^hvE^A^A?/^ , (Ю.60) ^ г=1 ' где Aei — вектор оцененных на первом шаге остатков, например, при оценивании 7 с использованием матрицы Wn — I - В общем подходе ОММ не предполагается, что остатки ец яв- ляются независимо и одинаково распределенными по индивидуумам и времени, и, таким образом, оптимальная матрица весов тогда оценивается без наложения этих ограничений. Однако заметим, что отсутствие автокорреляции было необходимо, чтобы гарантировать выполнение «моментных» условий. Вместо оценивания оптимальной матрицы весов без ограничений, также возможно (и потенциально желательно для малых выборок) наложить ограничение отсутствия автокорреляции в остатках ец одновременно с предположением их гомоскедастичности. Отметив, что при таких ограничениях /2-10 ...\ Е{Ае'гАе[} = a2£G = <т; -1 0 0 '•. -1 -1 2/ A0.61)
10.4. Динамические линейные модели 535 оптимальную матрицу весов можно определить как / 1 N \-1 wNt = [uYlziGZ*) • A0-62) ^ г=1 ' Заметим, что эта матрица не включает неизвестные параметры, так что оптимальную ОММ-оценку можно вычислить в рамках одного шага, если исходные остатки ец, как предполагается, являются го- москедастичными и не обнаруживают никакой автокорреляции. В общем, ОММ-оценка для неизвестного параметра 7 асимпто- тически нормальна с ковариационной матрицей, заданной в виде рЦ(^|>и^) (jfEzlAeMZi) (^X>^,-i))-1- A0.63) Это следует из более общих выражений из параграфа 5.6. С независи- мо и одинаково распределенными остатками средний член в правой части выражения A0.63) сводится к 10.4.2. Динамические модели с экзогенными переменными Если модель к тому же содержит экзогенные переменные, то мы напишем модель в виде yit = х\ф + 72/i,t-i + oti + eit. A0.64) Такую модель можно оценить также с помощью метода обобщенных инструментальных переменных или с помощью подхода О ММ. В за- висимости от предположений, сделанных о переменных в векторе Хн, можно построить разные совокупности дополнительных инстру- ментальных переменных. Если переменные в векторе хц строго экзогенны в том смысле, что они не коррелированны с любым из остатков Sis 5 то мы также имеем, что E{xiS Asa} = 0 для каждого s, £, A0.65) так что к списку инструментальных переменных для уравнения пер- вых разностей в каждый такт времени можно добавить хц,... , #гт- Таким образом, число строк в матрице Zi стало бы весьма большим.
536 10. Модели, основанные на панельных данных Вместо этого можно сохранить почти тот же самый уровень инфор- мации, если использовать первые разности переменных вектора хц в качестве их собственных инструментальных переменных16^. В этом случае мы налагаем «моментные» условия следующего типа Е{АхцАвц} = 0 для каждого t. A0.66) Тогда матрица инструментальных переменных может быть записана в виде*) f{yi0,Ax'l2} 0 ... 0 \ 0 [угО,УгЬ Ах-3] 0 Zi= , о [угО,---,УгТ-2, Ах-Т]/ A0.67) Если переменные вектора Хц не строго экзогенны, а предопреде- лены, что соответствует случаю, когда текущие и лагированные пе- ременные в векторах хц не коррелированны с текущими остатками, то мы имеем только, что E{xitSiS} — 0 для s > t. Тогда действитель- ными инструментальными переменными для уравнения первых раз- ностей в период t являются только переменные хц-i,... , хц. Таким образом, соответствующие «моментные» условия будут иметь вид: E{xij-j&£it} = 0 для j = 1,..., t — 1 (для каждого t). A0.68) На практике может возникнуть комбинация строго экзогенных и предопределенных х-переменных, а не один из этих двух крайних случаев. Тогда матрицу Zi следует подкорректировать соответству- ющим образом. В монографии (Baltagi, 1995, Chapter 8) представлено дополнительное обсуждение и примеры. В статье (Arellano, Bover, 1995) описывается структура объеди- нения вышеупомянутого подхода с оцениванием методом инстру- ментальных переменных Хаусмана, Тэйлора и др. (Hausman, Taylor, ' Мы отказываемся от потенциальной выгоды эффективности, если некоторые переменные в векторе хц помогают «объяснению» лагированных эндогенных переменных. *} Матрица Z; в A0.67) имеет размерность (Т - 1) х ((К + 1) + (К + 2) + ... + (К + Т—1)), поскольку нули-строки, стоящие над и(или) под l-тым выра- жением в квадратных скобках, имеют размерность К + I, / = 1,2, .. . , Т — 1 (примеч. научн. ред. перевода).
10.4. Динамические линейные модели 537 1981, обсужденная в п. 10.2.5. Наиболее важно, что авторы обсуж- дают, каким образом при оценивании можно также использовать информацию в уровнях*^. Таким образом, в дополнение к представ- ленным выше условиям моментов возможно также использование наличия обоснованных инструментальных переменных для уравне- ния уровней A0.64) или их среднего по времени (межгрупповая регрессия). Это имеет особое значение, когда коэффициент 7 близок к единице; см. также статью (Blundell, Bond, 1998). 10.4.3, Единичные корни и коинтеграция Последняя литература показывает возрастающую интеграцию мето- дов и идей анализа временных рядов с моделированием панельных данных, таких, например, как единичные корни и коинтеграцион- ный анализ. Основная причина таких разработок заключается в том, что исследователи все более и более понимают, что пространствен- ные данные являются полезным дополнительным источником ин- формации, который следует использовать. Чтобы проанализировать эффект определенного политического решения, например принятия дорожного налога или налога на загрязнение окружающей среды, возможно, более полезно провести сравнение с другими странами, чем пробовать извлечь информацию об этих эффектах только из предыстории собственной страны. Объединение данных различных стран может также помочь преодолеть проблему довольно малых объемов выборок временных рядов, когда критерии анализа долго- срочных динамических свойств не являются достаточно мощными. В ряде недавних статей обсуждаются проблемы единичных корней, ложных регрессий и коинтеграции в панельных данных. Следует подчеркнуть, что эти понятия являются долгосрочными динамическими понятиями и, как правило, приводят к проблемам вывода при Г стремящемся к бесконечности. Во многих случаях, предполагая Т фиксированным, а N стремящимся к бесконечности, такие проблемы обходят, по крайней мере, теоретически. Критической проблемой при анализе временных рядов, зареги- стрированных на некотором количестве выборочных единиц одно- временно, является проблема гетерогенности этих единиц. До тех пор, пока мы рассматриваем каждый временной ряд (одномерный По-видимому, речь идет об информационном прошлом разного уровня глу- бины лагирования (примеч. научн. ред. перевода).
538 10. Модели, основанные на панельных данных или многомерный) индивидуально, и ряд имеет достаточную длину, нет никаких нарушений в применении методов временных рядов из глав 8 и 9. Однако если мы объединяем ряды для разных выбороч- ных единиц, мы должны отдавать себе отчет в том, что временные процессы не все имеют одни и те же свойства или описываются од- ними и теми же параметрами. Например, возможно, что временной ряд уц является стационарным для страны 1, но интегрируемый порядка один для страны 2. Допуская, что все включенные перемен- ные являются /A), предположим, что в каждой стране г переменные у и и хц являются коинтегрированными с параметром коинтеграции Pi. В таком случае линейная комбинация ун — РгХц является /@) для каждого г, но не существует общего параметра коинтеграции /?, который приводит у и — Рхц к стационарности для всех г (если только параметры коинтеграции Pi не одинаковые для всех стран). Точно так же нет никакой гарантии, что пространственные средние, У* ~ ~м Z-^ Уи и ^ являются коинтегрированными, даже если все г лежащие в основе индивидуальные ряды коинтегрированные. Чтобы проиллюстрировать некоторые из введенных проблем, рассмотрим модель авторегрессии Ун = oci + 7i2/i,t-i +£it, которую можно написать как Д?/г* = OLi + 7ГгУг,г-1 + Sit, где 7Гг = 7г — 1- Тогда нулевой гипотезой, что все временные ряды имеют единичный корень, является Hq : 7Гг = 0 для всех г. Альтер- нативной гипотезой может быть гипотеза, что все ряды являются стационарными с одним и тем же параметром среднего возвращения, то есть Н\ : 7Г; = 7г < 0 для всех г. В работах (Levin, Lin, 1992), (Quah, 1994) и (Harris, Tzavalis, 1999) альтернативная гипотеза под- разумевается неявно. Менее ограниченная альтернативная гипотеза специфицируется в виде: Н\ : 7T^ < 0 для всех г, которая позволяет параметрам TXi различаться по группам, и которая использовалась в работе (Im, Pesaran, Shin, 1997). Альтернативные критические ста- тистики выводятся вместе с их асимптотическими распределениями, если N —> (X) или Г —■> оо, или одновременно N —> оо и Т —» ос, но обсуждение таких статистик выносится вне рамок этого текста. В любом случае центральная гипотеза состоит в том, что временные ряды всех индивидуальных выборочных единиц имеют единичный
10.5. Пример: эластичности спроса на труд по заработной плате 539 корень против альтернативной гипотезы, что все временные ряды являются стационарными. Поэтому можно было бы критиковать вышеупомянутые подходы, говоря, что возможно существование от- личной от нуля вероятности, что один или более индивидуальных временных рядов являются стационарными, тогда как все другие имеют единичный корень или наоборот. В этом случае не удовлетво- ряется ни нулевая, ни альтернативная гипотеза, и неясно, желали бы мы отклонения нулевой гипотезы в результате нашего тестирования или нет. Другая техническая проблема заключается в возможно- сти пространственной зависимости между остатками ец для разных стран, которая делает неправомерным использование совокупности упомянутых критериев. В работах (Robertson, Symons, 1992) и (Pesaran, Smith, 1995) под- черкивалась важность параметрической гетерогенности в динамиче- ских моделях панельных данных, и анализировались потенциально серьезные смещения, которые могут возникать в результате об- работки параметрически гетерогенных данных несоответствующим образом. Такие смещения особенно вводят в заблуждение в неста- ционарном мире, поскольку соотношения между индивидуальными временными рядами могут полностью лишаться силы. Результаты по методам тестирования панельных данных на ложные регрессии и коинтеграцию относительно ограничены; см. (Као, 1999) и (Phillips, Moon, 1999). 10.5. Пример: эластичности спроса на труд по заработной плате В этом разделе мы рассмотрим модель, которая объясняет спрос фирм на труд в зависимости от заработной платы, объема производ- ства, лагированного спроса на труд и некоторых других переменных. Наша цель состоит в том, чтобы получить оценки для краткосроч- ных и долгосрочных динамических эластичностей спроса на труд по заработной плате в Бельгии. Данные и модели взяты из статьи (Konings, Roodhooft, 1997), в которой используются панельные дан- ные более 3000 больших бельгийских фирм за период 1986-1994 гг. Статический спрос на труд задается моделью log La = Pi + 02 bg Wit + fa bg rit + /?4 log Yit + /?5 log Wjt + UiU
540 10. Модели, основанные на панельных данных где Ьц обозначает желаемую занятость на фирме г в период t (спрос на рабочую силу), wu и г и удельные издержки на труд и основ- ные фонды соответственно, а Уц обозначает уровень объема про- изводства. Последняя переменная Wjt обозначает среднее реальной заработной платы в промышленности. Это соотношение интерпре- тируется как долгосрочный динамический результат, поскольку оно игнорирует издержки «настройки» (регулирования) модели. Для краткосрочной динамики авторы статьи (Konings, Roodhooft, 1997) экспериментировали с альтернативными динамическими спе- цификациями. Самая простая спецификация предполагает, что log Ьц = Pi + fa log wit + Рз log rit + /?4 log Yit + + /?5 log Wjt + 7 log Lij-i + uit. При оценивании величина Гц аппроксимировалась акционерным капиталом К и, а Уц добавленной стоимостью. Тогда динамическая модель, которую мы оцениваем, имеет вид log Lu = Pi + Р2 log wit + Рз bg Ku + Pa log Yu + + /?5 log Wjt + 7 log Liit-i + &i + eit, где предполагается, что остатки состоят из двух компонент. Ком- понента ai обозначает ненаблюдаемую гетерогенность фирм, специ- фицированную не зависящей от времени. Первое взятие разности в этом уравнении, как и в предыдущем параграфе, исключает ком- поненту с^г, но не приводит к уравнению, которое можно оценить состоятельно с помощью МНК. Во-первых, разность AlogL^t-i и разность Asu коррелированны (как и выше). Во вторых, ни в ко- ем случае не очевидно, что факторные издержки заданы экзогенно. В частности, для удельных издержек на труд wu можно представить несколько альтернативных ситуаций, в которых заработная плата определяется одновременно с занятостью. Например, профсоюзы могут заключить сделку с предпринимателями по заработной плате и занятости. Таким образом, мы можем ожидать, что E{AlogwitA£it}^0. Поэтому логарифмическая разность Д log wu также инструменто- вана при оценивании. Правомочные инструментальные переменные задаются переменными logu^t-2, logWij-з, • • • > подобными инстру- ментальным переменным для логарифмической разности Д logL^-i. Таким образом, число доступных инструментальных переменных возрастает вместе с ростом t.
10.5. Пример: эластичности спроса на труд по заработной плате 541 Таблица 10.3. Результаты оценивания уравнения спроса на труд (Konings, Roodhooft, 1997) Зависимая переменная: log La Переменные logLi,t-i log Ун log wu log Wjt log Ku тест на сверхидентифи- цирующие ограничения число наблюдений Статическая модель — 0,021 -1,78 0,16 0,08 29,7 (df = 15) 10599 @,009) @,60) @,07) @,011) (Р = 0,013) Динамическая модель 0,60 0,008 -0,66 0,054 0,078 51,66 (df = 29) 10 599 @,045) @,005) @,19) @,33) @,006) (р = 0,006) В таблице 10.3 мы представили результаты оценивания для статической и динамической моделей, обсужденных выше. Эти ре- зультаты являются подмножеством результатов, представленных в работе (Konings, Roodhooft, 1997), в которой также рассматривались модели с другими дополнительными лагированными переменными. В первом столбце приведены оценки для статической (т. е. долго- срочной динамической) функции спроса на труд. Заработная плата рассматривается, как эндогенная, и инструментована, как указано выше. Во второй столбец включен лагированный спрос на труд, ко- торый тоже инструментован, как описано выше. Обе спецификации также включают региональные и временные фиктивные переменные (манекены). Чтобы протестировать модель против неспецифициро- ванной альтернативной гипотезы, мы можем использовать тесты на сверхидентифицирующие ограничения, как обсуждалось в главе 5. Критические статистики, равные 29,7 и 51,66, должны сравнивать- ся с критическими значениями из хи-квадрат распределения с 15 и 29 степенями свободы соответственно. С р-значениями, равны- ми 0,013 и 0,006, сверхидентифицирующие ограничения, на 1%-ом уровне значимости, отвергаются, — на границе отклонения для обе- их спецификаций. Значимость лагированной зависимой переменной
542 10. Модели, основанные на панельных данных (стандартные ошибки даны в круглых скобках) предполагает, что следует предпочесть динамическую спецификацию. Оцененная краткосрочная динамическая эластичность по зара- ботной плате из последнего столбца равна —0,66, в то время как дол- госрочная динамическая эластичность равна —0,66/A — 0,60) = —1,6, которая близка к оценке, равной —1,78, из статической долгосрочной динамической модели. Обе эти оценки весьма высокие. Например, они предполагают, что в долгосрочной динамике увеличение зара- ботной платы на 1% приводит к снижению на 1,6% в спросе на труд. Эти оценки намного выше, чем представлялось вначале на основе макроэкономических данных временных рядов. Очевидно, что возможность корректировать гетерогенность для наблюдаемых и ненаблюдаемых фирм имеет существенное влияние на оценки. Потенциальная проблема результатов в таблице 10.3 лежит в на- правлении структурного логического построения данных. Во-первых, панельные данные несбалансированы (см. параграф 10.7 ниже), в то время как модель игнорирует изменения в спро- се на труд, обусловленные включением или невключением фирм в выборку (например, из-за финансовых затруднений). Кроме того, занятость измеряется средним числом занятых в данном году, в то время как заработная плата (удельные издержки на труд) вычисля- ется в виде общих трудовых издержек, деленных на число занятых. Ясно, что тем самым игнорируется проблема сокращения среднего трудового времени рабочего, которая, возможно, в это десятиле- тие имела место. Например, если фирма заменяет одного рабочего, занятого полный рабочий день, двумя рабочими, занятыми непол- ный трудовой день, то занятость возрастает, а трудовые издержки снижаются, в то время как в действительности никаких реальных изменений не происходило. Более подробное обсуждение проблемы см. в (Konings, Roodhooft, 1997). 10.6. Модели с ограниченными зависимыми переменными Панельные данные относительно часто используются в микроэко- номических проблемах, где интересующие нас модели включают нелинейность. Дискретные или ограниченные зависимые перемен- ные являются важным феноменом в этой области, а их комбинация
10.6. Модели с ограниченными зависимыми переменными 543 с панельными данными обычно усложняет оценивание. Причина заключается в том, что для панельных данных обычно нельзя аргу- ментировать, что различные наблюдения относительно одной и той же выборочной единицы независимы. Корреляции между различ- ными членами ошибок, как правило, усложняют функции правдо- подобия таких моделей и, следовательно, усложняют их оценивание. В этом разделе мы обсудим оценивание логит-модели, пробит-модели и тобит-модели панельных данных. Больше деталей относительно моделей панельных данных с ограниченными зависимыми перемен- ными можно найти в статье (Maddala, 1987). 10.6.1. Модели бинарного выбора Как и в случае пространственных данных, модель бинарного выбора обычно формулируется в терминах лежащей в основе латентной модели. Как правило, мы пишем17' yly^x'^ + ai + Sit, A0.69) где мы наблюдаем, что уц — 1, если y*t > 0, и уц — 0 в противном случае. Например, уц может служить показателем, работает или нет индивидуум г в период t. Предположим, что специфические остатки Ец имеют симметричное распределение с функцией распределения F(-), независимо и одинаково распределенные по индивидуумам и времени, и независиммые от всех X{S. Даже при таких допущениях присутствие эффектов oti усложняет оценивание в обоих случаях: и когда мы рассматриваем их в качестве неизвестных фиксированных параметров, и когда мы рассматриваем их в качестве случайных остатков. Если мы рассматриваем щ как фиксированные неизвестные параметры, то по существу мы включаем в модель N фиктивных переменных. Таким образом функция логарифма правдоподобия задается (сравните с функцией логарифма правдоподобия G.12)) как log ЬЦЗ, аь • • • , &n) = ^2 Ун bg F{pti + x'itC) + + J> - Vit) bg [1 - F{oi + x'M- (Ю.70) i,t Для упрощения обозначений мы предположим, что хц включает константу, всякий раз, когда это уместно.
544 10. Модели, основанные на панельных данных Максимизация этой функции относительно C и щ (г = 1,... , N) приводит к состоятельным оценкам при условии, что число тактов времени Т стремится к бесконечности. Для фиксированного Г и N —> ос, оценки несостоятельны. Причина заключается в том, что для фиксированного Г число параметров возрастает с ростом объема выборки TV, и мы имеем проблему, которая известна как про- блема «побочных (incidental) параметров». То есть, любой эффект о^ можно оценить состоятельно, если только мы имеем возрастающее число наблюдений для каждого фиксированного г, следовательно, если Т стремится к бесконечности. В общем, несостоятельность щ для фиксированного Г переносится на функцию оценивания вектора неизвестных параметров C. Проблема побочных параметров, когда число параметров растет с числом наблюдений, возникает в любой модели с фиксированными эффектами, включая линейную модель. Однако для линейного слу- чая можно исключить параметры с^, так что вектор параметров C можно оценить состоятельно, даже при том, что все параметры с^ оценить нельзя. Тем не менее, для большинства нелинейных моделей, несостоятельность с^ также приводит к несостоятельности оценок для других параметров. К тому же заметим, что с практической точки зрения оценивание более, чем N параметров, по- видимому, не очень привлекательно, если N является довольно большим. Несмотря на то, что латентную модель можно преобразовать таким образом, что индивидуальные эффекты о^ исключаются, в данном контексте это не помогает, поскольку нет никакого отобра- жения, например, y\t — у*г_г в наблюдаемые переменные, подобные переменным уц — y%,t-\ • Альтернативная стратегия состоит в приме- нении условного максимального правдоподобия (см. (Andersen, 1970), (Chamberlain, 1980)). В этом случае мы рассматриваем функ- цию правдоподобия условную по множеству статистик ^, которые являются достаточными для параметров oti. Это означает, что услов- ный по ti вклад в правдоподобие индивидуума больше не зависит от параметра а^, но все еще зависит от других параметров C. В модели бинарного выбора для панельных данных, существование достаточной статистики зависит от функционального вида функции распределения F, то есть, зависит от распределения специфических остатков бц. На общем уровне напишем совместную плотность распределе- ния случайных величин уц,... , yiT как f(yn,... , Угт|^ь /?)» которая зависит от вектора параметров /3 и параметра о^. Если существует
10.6. Модели с ограниченными зависимыми переменными 545 достаточная статистика ^> то это значит, что существует стати- стика U такая, что f(yiU ..., yiT\U, ai} 0) = f(yn,..., yiT\U, 0)*\ и поэтому она не зависит от параметра а^. Следовательно, мы можем максимизировать функцию условного правдоподобия, основан- ную на ДугЪ • • • » Угт|^г, /?), и получить состоятельную оценку для вектора параметров /?. Кроме того, мы можем использовать все относящиеся к законам распределения результаты главы б, только заменить в них логарифмическую функцию правдоподобия условной логарифмической функцией правдоподобия. Для линейной модели с нормальными ошибками достаточная статистика для параметра щ есть yi. Таким образом, условное распределение уц при заданном у{ не зависит от параметра о^, и можно показать, что максимизация функции условного правдоподобия воспроизводит оценку с фикси- рованными эффектами для вектора неизвестных параметров f3. К сожалению, этот результат автоматически не распространяется на нелинейные модели. Например, для пробит-модели было показано, что никакая достаточная статистика для параметра о^ не существует. Это означает, что мы не можем оценить пробит-модель фиксирован- ных эффектов состоятельно для фиксированного Г. 10.6,2. Логит-модель с фиксированными эффектами Для логит-модели с фиксированными эффектами, ситуация отлича- ется. В этой модели t{ — yi является достаточной статистикой для параметра о^, и состоятельное оценивание возможно в соответствии с условным максимальным правдоподобием. Следует отметить, что условное распределение УгЪ--->УгТ является вырожденным, если ti = 0 или ti = 1. Следовательно, такие индивидуумы не вносят свой вклад в условное правдоподобие, и надо отказаться от них при оценивании. Выражаясь иначе, их поведение полностью улавлива- лось бы их индивидуальным эффектом щ. Это значит, что только индивидуумы, которые изменяют свой статус, по крайней мере, хотя Математически несколько небрежная формулировка. Точнее: если — совместная плотность распределения случайных величин уц, ... , 2/гТ> зави- сящая от параметров ос{ и /3, и если ti — достаточная статистика в оценивании параметра о^, то условная совместная плотность f(yn, ... , ViT-> аЬ 0\t{) (при условии заданного фиксированного значения ti) не будет зависеть от c*i (примеч. научн. ред. перевода).
546 10. Модели, основанные на панельных данных бы один раз, уместны для оценивания вектора параметров /3. Чтобы проиллюстрировать логит-модель с фиксированными эффектами, мы рассмотрим случай Г — 2. Существует два возможных исхода, условных по ti = 1/2, @,1) и A,0). Условная вероятность первого исхода равна ^■*-Д^-ЭД1Д"^я' Aа71) Используем, что Р{@,1)|а<, /?} = Р{ш = 0|а<, /?}Р{^2 = 1|а<, /?} с18' РЫ = На,,/?} = Т^^^Ж- 1 + exp {«i + х\ф) Откуда следует, что условная вероятность задается в виде Р{@,1) << = 1/2,оц,Р} = — г- —--, A0.72) 1 + ехр{(х»2 -хаур} которая действительно не зависит от «j. Аналогично, Р{A,0)|<, = 1/2,«,, Д = 1+ехр{(х;а_Дат. (Ю.73) Это означает, что мы можем оценить логит-модель с фиксирован- ными эффектами для Г = 2, используя стандартную логит-модель с #г2 ~~ хг1 в качестве объясняющих переменных и изменение в пере- менной уа в качестве эндогенного события (с 1 для положительного изменения и с 0 для отрицательного изменения). Отметим, что в этой модели бинарного выбора с фиксированными эффектами еще более ясно, чем в линейном случае, что модель идентифицируется только через «внутригрупповую размерность» данных; от индивиду- умов,которые не изменяют статус, при оценивании просто отказыва- ются, поскольку они вообще не обеспечивают никакой информации о векторе параметров j3. Для случая с большими значениями Г все необходимые условные вероятности получить несколько сложнее, но в принципе они являются прямым обобщением вышеприведенно- го случая (см. (Chamberlain, 1980) или (Maddala, 1987)). В статье См. выражение G.6) в главе 7 для логистической функции распределения.
10.6. Модели с ограниченными зависимыми переменными 547 (Chamberlain, 1980) также обсуждается, как подход условного мак- симального правдоподобия можно обобщить на мультиномиальную логит-модель. Если можно предположить, что эффекты oti независимы от объясняющих переменных в векторе хц, то, по-видимому, схема случайных эффектов более уместна. Она оказывается более легко реализуемой в контексте пробит-модели. 10.6.3. Пробит-модель со случайными эффектами Начнем со спецификации с латентной переменной Vit =xflt3 + Uit, с у it = 1, если y\t > 0 yit = 0, если y*t < 0, где uu — остатки с нулевым средним и дисперсией, равной единице, независимые от {хц,... , Жгт)- Чтобы оценить вектор параметров /3 методом максимального правдоподобия, мы должны сделать до- полнительное предположение о совместном распределении остатков ошибок иц,... , щт- Вклад в правдоподобие индивидуума г есть (совместная) вероятность наблюдения Г исходов УгЪ--->УгТ- Эта совместная вероятность определяется из совместного распределения латентных переменных у*х,... , у*т интегрированием по соответству- ющим интервалам. Таким образом, в общем, будет Г интегралов, которые для оценивания следует, как правило, вычислять численно. Когда Г = 4 или более, то оценивание методом максимального прав- доподобия осуществимо. Можно обойти эту «напасть размерности» применением функций оценивания на основе моделирования, напри- мер, как описано в справочнике (Кеапе,1993) и статье (Weeks, 1995). Такое обсуждение выходит за рамки этого текста. Ясно, если можно предполагать, что все Чц независимы, то мы имеем, что совместная условная плотность вероятностей ДУгЪ • • • , У%т\Ххи • • • > xiT, 0) = Л f{Vit\Xit, P), t которая включает только Г одномерных интегралов (как и в слу- чае пространственных данных). Если мы делаем предположение о компонентах ошибок, и предполагаем, что чц = щ + ец, где бц не зависит от времени (и индивидуумов), то совместную условную A0.74)
548 10. Модели, основанные на панельных данных вероятность можно написать как / Д?/гЪ • • • , Virgil, • • • , #гТ, ^г, P)f{<*i) doti ■/[п f{yit\xit,on,C) L t /(a<)dai, (Ю.76) которая требует одномерного численного интегрирования. Это прак- тически реализуемая спецификация, которая допускает коррелиро- ванность остатков для разных тактов времени, хотя и ограниченным образом. Критический момент в реализации выражения A0.76) со- стоит в том, что условные по с^ остатки были бы независимыми при разных t. В принципе о распределениях с^ и ец можно делать произ- вольные предположения. Например, можно было бы предположить, что остатки Ец независимо и одинаково распределены по нормаль- ному закону, в то время как с^ имеет логистическое распределе- ние. Однако это может привести к распределениям для остатков &i + €ц, которые являются нестандартными. Например, сумма двух логистически распределенных переменных, в общем, не имеет логи- стического распределения. Это подразумевает, что индивидуальные вероятности, подобные /(уц\хц,C), трудны для вычисления, и не соответствуют пространственной пробит-модели или пространствен- ной логит-модели. Поэтому, обычно следует начинать с совместного распределения остатков иц,... ,Щт- Многомерное логистическое распределение имеет такое неудобство, что все корреляции должны ограничиваться 1/2 (Maddala, 1987), так что на практике это не очень привлекательно. Следовательно, самый общий подход состоит в том, чтобы начать с многомерного нормального распределения, которое приводит к пробит-модели случайных эффектов. Предположим, что совместное распределение иц,... , щт нор- мально с нулевыми средними значениями, дисперсиями, равными 1, и cov {иа}щ8} = сга, s ф t. Это соответствует предположению, что cti является HOHP@,a2a), а Ец есть НОНР@,1-al). Вспом- ним, что, как и в случае пространственных данных, нам требуется нормировка дисперсий остатков. Выбранная здесь нормировка под- разумевает, что дисперсия остатка в заданный такт времени равна
10.6. Модели с ограниченными зависимыми переменными 549 f(at) = ^== exp {---t\. (Ю.78) единице, так что оцененные коэффициенты C непосредственно срав- нимы с оценками, полученными из оценивания модели по данным одного такта времени (выбранного из общих панельных данных), используя пространственное пробит максимальное правдоподобие. Для пробит-модели со случайными эффектами выражения в функ- ции правдоподобия задаются в виде f(Vit\xiuOLi,P) = Ф( lt/ ), если yit = 1, ^?+«л <№77) f(yit\xiu oti, P) = 1 - Ф ( lt ), если yit = 0, V V1 - °1 / где Ф обозначает функцию распределения стандартного нормально- го закона. Плотность at задается в виде 1 Г_1а| v/2^eXPl 2 о* Интеграл в выражении A0.76) следует вычислять численно, что мож- но сделать, используя алгоритм, описанный в статье (Butler, Moffitt 1982). Несколько пакетов программ (например, LIMDEP и Stata) имеют стандартные подпрограммы для того, чтобы оценивать про- бит-модель случайных эффектов. Можно показать (Robinson, 1982), что игнорирование взаимных корреляций остатков по времени и оценивание коэффициентов /?, использующее стандартное максимальное правдоподобие пробит- модели для объединенных данных, является состоятельным, хотя и неэффективным. Кроме того, обычно вычисляемые стандартные ошибки некорректны. Однако их значения можно использовать в ка- честве начальных оценок в итерационной процедуре максимального правдоподобия, основанной на совместной вероятности A0.76). 10.6,4. Тобит-модели Тобит-модель случайных эффектов очень похожа на пробит-модель случайных эффектов, единственное различие состоит в правиле на- блюдения. Следовательно, мы можем быть довольно краткими. Нач- нем с модели V*t = *itP + <*i + eiu A0.79) вместе с тем, что yit = y*t, если y*t > 0 yit = 0, если уп < 0.
550 10. Модели, основанные на панельных данных Мы сделаем обычное предположение случайных эффектов, что эф- фекты oti и остатки бц являются независимо и одинаково распреде- ленными по нормальному закону с нулевыми средними значениями и дисперсиями, равными о2^ и о2Е соответственно, и независимыми от хц,... , XiT- Используя / как общее обозначение для функции плотности или функции вероятностной меры, функцию правдоподо- бия можно написать, как выражение A0.76), в виде сю f(yiU...,yiT\xiU... ,£гт,/?) = / Д f(yit\xuiai,P)f(ai)dai, ^ t — оо где f(o(.i) задается выражением A0.78), а /(уц\хи, oti, C) задает- ся выражением f{yit\Xit,ai,0)= г-—^ехр<^ г— У, если yit>0, ^2тгсг| I ^ ст£ ) 1{ун\хц,аь13) = 1-ф(^ — ), если yit = 0. A0.81) Заметим, что последние два выражения аналогичны вкладам в функ- цию правдоподобия в случае пространственных данных, как обсуж- далось в главе 7. Единственное различие состоит во включении эффекта oci в условном смысле. Полностью подобным же образом можно рассмотреть другие формы цензурирования, чтобы получить, например, пробит-модель с упорядоченными случайными эффектами. Во всех случаях инте- грирование по Oii должно проводиться численно. Тобит-модель можно оценить состоятельно, так же как и усе- ченную модель регрессии с фиксированными эффектами, применяя обобщенный метод моментов с использованием моментных условий, представленный в статье (Нопоге, 1992) или статье (Нопоге, 1993) для динамической модели. Эти функции оценивания являются полу- параметрическими в том смысле, что на вид функции распределения остатков бц никакие предположения не налагаются. 10.6.5. Динамика и проблема начальных условий Возможность включения лагированной зависимой переменной в вы- шеупомянутые модели представляет экономический интерес. Напри- мер, предположим, что мы объясняем, действительно ли индивиду-
10.6. Модели с ограниченными зависимыми переменными 551 ум является безработным (или нет) за ряд последующих месяцев. Как правило, справедливо, что индивидуумы, которые имеют бо- лее длинную предысторию находиться в состоянии безработного, менее вероятно оставят состояние безработицы. Как обсуждалось в вводном разделе этой главы существует два объяснения этого: ин- дивидуум с более длинной предысторией безработного может быть обескуражен в своих поисках работы, или для работодателя, возмож- но (по любой причине), менее привлекательно нанять его на работу. Это называется зависимостью от статуса: чем дольше вы нахо- дитесь в определенном состоянии, тем менее вероятно, что Вы его оставите. Альтернативно, возможно, что присутствует ненаблюда- емая гетерогенность такая, что индивидуумы с определенными ненаблюдаемыми характеристиками менее вероятно оставят статус безработного. То есть, факт, что мы наблюдаем мнимую зависимость от статуса в данных, происходит просто из-за механизма выбора: безработные с продолжительными периодами имеют определенные ненаблюдаемые (не зависящие от времени) особенности, которые делают менее вероятным найти ему работу каким-либо образом. В обсужденных выше моделях бинарного выбора индивидуальные эффекты Oii улавливают ненаблюдаемую гетерогенность. Если мы включаем лагированную зависимую переменную, то мы можем раз- личить вышеупомянутые два объяснения. Рассмотрим пробит-модель со случайными эффектами, хотя подобные результаты справедливы и для случая тобит-модели со случайными эффектами. Предположим, что спецификация латент- ной переменной изменена на у* = х\ф + -ууц-1 + оц + eiu A0.82) где уц = 1, если y*t > 0, и уц = 0 в противном случае. В этой модели 7 > 0 указывает на положительную зависимость от статуса: при прочих равных условиях вероятность, что у и = 1 больше, если уц~\ также равна единице. Рассмотрим оценивание методом максимального правдоподобия такой динамической пробит-модели со случайными эффектами, сделав те же самые предположения о распределениях как прежде. В общем виде вклад правдоподобия индивидуума г имеет вид19' Для удобства обозначений индекс времени определяется так, что первое наблюдение есть (уц,х!ц).
552 10. Модели, основанные на панельных данных оо = / f(yii,---,yiT\xii,...,yiT,ai,l3)f(ai)dai = ОО гр = / Y[f(Vit\Vi,t-ltOti,0) — оо где t=2 f(yn\xiu <^г, P)f{oti) don, A0.83) f(yit\yi,t-i,<Xi,C) = Ф — , , если j/it = 1, V V ! ~ < J /(г/«|г/м-1,аг,/?) = 1-Ф1 — > J 2 1, если j/it = 0. Это полностью аналогично стационарному случаю, а переменная Уг,г-1 просто включена как дополнительная объясняющая перемен- ная. Однако член /(уц\хц, оц, C) в функции правдоподобия может вызвать проблемы. Он дает вероятность наблюдения уц = 1 или г/ii = 0, без знания предыдущего состояния, но условную по гетеро- генности ненаблюдаемого члена с^. Если начальное значение экзогенно в том смысле, что его рас- пределение не зависит от с^, то вне интеграла мы можем положить член f(yn\xn, oti, C) — /(уп\хц, /3). В этом случае мы можем просто рассмотреть функцию правдоподобия условную по уц и игнориро- вать член /(уп\хц, C) при оценивании. Единственным последствием может быть потеря эффективности, если f(yn\xn, C) обеспечивает информацию о векторе параметров C. Этот подход был бы уместен, если необходимым условием для всех индивидуумов было бы оди- наковое начальное состояние, или если бы для индивидуумов оно назначалось случайно. Пример первой ситуации приведен в статье (Nijman, Verbeek, 1992), где моделируется «неотклик» относительно потребления, и начальный такт времени соответствует месяцу перед панельными данными, и «неотклик» необязательно наблюдался. Однако во многих приложениях, возможно, трудно аргумен- тировать, что начальное значение уц экзогенно и не зависит от ненаблюдаемой гетерогенности индивидуума. В таком случае мы нуждались бы в выражении для f(yn\xn, oti, /?), а это проблематич- но. Если процесс, который мы оцениваем, продолжался в течение многих тактов времени перед текущим выборочным тактом времени, то f(yn\xn, oti, C) является сложной функцией, которая зависит от
10.7. Неполные панельные данные и смещение 553 ненаблюдаемой предыстории индивидуальных г. Это означает, что, как правило, невозможно получить выражение для маргинальной вероятности f(yn\xn, a,i, /?), которая является непротиворечивой с остатком модели. В работе (Heckman, 1981) предлагается прибли- женное решение этой проблемы начальных условий, которое, по- видимому, на практике работает достаточно хорошо. Это решение основано на аппроксимации маргинальной вероятности начально- го состояния пробит- функцией, использующей насколько возмож- но больше доступной предвыборочной информации, без наложения ограничений на ее коэффициенты и структурные параметры /3 и 7- В статье (Vella, Verbeek, 1999) приведен пример такого подхода к динамической тобит-модели со случайными эффектами. Влияние начальных условий снижается при возрастании числа выборочных тактов времени X, поэтому, если Т является довольно большим, то проблему можно игнорировать. 10.7. Неполные панельные данные и смещение, обусловленное выборочной селективностью По разнообразным причинам эмпирические совокупности панель- ных данных часто неполные. Например, после того как прошло несколько тактов времени индивидуумы, включенные в обследова- ние, предполагающее сбор панельных данных, могут отказаться от сотрудничества; для одних домашних хозяйств не возможно опре- делить их новое местонахождения, другие распались; фирмы могут завершить свой бизнес или слиться с другими фирмами; а инвести- ционные фонды могут закрыться. С другой стороны, фирмы могут войти в бизнес на более поздней стадии; можно извлечь обновленную выборочную информацию, компенсирующую потерянную; или па- нельные данные могут собираться в виде панели ротации. В панели ротации на каждом такте времени определенная доля выборочных единиц заменяется другими выборочными единицами. Последствие всех таких событий состоит в том, что получающаяся совокупность панельных данных больше не является «прямоугольной». Несмотря на то, что общее количество индивидуумов равно TV, а число тактов времени равно Т, общее количество наблюдений оказывается суще- ственно меньшим, чем NT.
554 10. Модели, основанные на панельных данных Первая особенность, присущая работе с неполными панельны- ми данными, это возникновение вычислительных проблем. Если наблюдения отсутствуют, то большинство выражений для представ- ленных выше оценок больше просто неприемлемо. Простое «реше- ние» состоит в том, чтобы любого индивидуума, по которому мы имеем неполную информацию, исключить из панельных данных, и работать только с полностью наблюдаемыми выборочными еди- ницами. При таком подходе для оценивания используются только «сбалансированная субпанель». В вычислительном отношении этот подход заманчив, но потенциально очень неэффективен: можно «потерять» существенное количество информации. Потери в эффек- тивности можно устранить, учитывая все имеющиеся наблюдения, включая тех индивидуумов, которые наблюдались в Т периодах вре- мени только частично. В этом случае используется «несбалансиро- ванная субпанель». В принципе применение несбалансированных панельных данных является прямой процедурой, но в вычислитель- ном отношении требуются определенные корректировки формул, представленных в предыдущих разделах. Мы обсудим некоторые из корректировок в п. 10.7.1. К счастью, большая часть программного обеспечения, которое может обрабатывать панельные данные, также учитывает несбалансированные данные. Другое потенциальное и еще более серьезное последствие при- менения неполных панельных данных заключается в опасности сме- щения, обусловленного ограничениями в отборе выборочных еди- ниц, т. е. так называемой выборочной селективностью ("selection bias"). Если индивидуумы наблюдаются неполностью из-за эндо- генной причины, использование сбалансированной субпанели или несбалансированных панельных данных может привести к смещен- ным оценкам и вводящим в заблуждение критериям. Для пояснения этого предположим, что интересующая нас модель задается в виде Ун = х^Р + си + eiu A0.84) Кроме того, определим индикаторную переменную Гц («отклик») в виде: rit = 1, если (хц,уц) наблюдалось, и Гц — 0 в противном случае. Наблюдения (хц^уи) отсутствуют (пропущены) слу- чайным образом, если Гц не зависит от эффекта oti и остатка Ец. Это означает, что заданные условия процесса отбора выбороч- ных единиц не влияют на условное распределение уц для данного хц. Если мы хотим сконцентрироваться на сбалансированной суб- панели, то условия процесса отбора определяются соотношениями
10.7. Неполные панельные данные и смещение 555 т%\ — • • • = Tit = 1, и мы требуем, чтобы индикатор Гц был незави- сим от эффекта cti и остатков ец,..., вгт- В этих случаях обычные свойства состоятельности функций оценивания не изменяются, ес- ли мы ограничиваем внимание только доступными или полными наблюдениями. Если процесс отбора зависит от МНК-оцененных остатков уравнения, то оценки случайных и фиксированных эффек- тов могут пострадать от «выборочного» смещения (см. главу 7). В п. 10.7.2 описываются подробности по этой проблеме, включая некоторые простые тесты. В случаях с выборочным смещением, следует использовать альтернативные оценки, которые в вычисли- тельном отношении являются, как правило, непривлекательными, что обсуждается в п. 10.7.3. Дополнительные детали и обсуждение методов анализа, основанного на неполных панельных данных, и во- просов «селективного» смещения можно найти в статьях (Verbeek, Nijman, 1992, 1996). 70.7.7. Оценивание со случайно пропущенными данными Выражения для оценок с фиксированными и случайными эффекта- ми легко обобщить на несбалансированный случай. Оценку с фик- сированными эффектами, как и прежде, можно определить как МНК-оценку в линейной модели, где для каждого г (номера инди- видуума) определен свой свободный член. Альтернативно, оценку вектора неизвестных параметров /3 можно получить непосредствен- ным применением МНК к внутригрупповой преобразованной моде- ли, где теперь все переменные являются отклонениями от среднего значения по доступным наблюдениям. Индивидуумы, которые на- блюдаются только один раз, не обеспечивают никакой информации относительно /3 и их следует исключить из процесса оценивания. Определив «доступные средние значения» как20' - _ t=l . — _ t=l У г rp 1 %i rp J2rit Er* t=i t=i T ' Мы предполагаем, что V^ rit > 1? то есть каждый индивидуум наблюдался, t=i по крайней мере, один раз.
556 10. Модели, основанные на панельных данных функцию оценивания фиксированных эффектов можно кратко на- писать в виде , N Т v -1 N Т РфЭ = ( Yl Y1 Ги(хц-Хг)(хц-ХгУ ) ^ ^ Гц(хц -Xi)(yit -щ)' M=l t=l ' г=1 t=l A0.85) Таким образом, просто все суммируется только по доступным на- блюдениям. Аналогичным образом можно обобщить оценку со случайными эффектами. Для несбалансированного случая ее можно получить в виде , N т РОМНК = [Y1Y1 Tit(Xit ~ Zi)(Xit - Xi)f + 4=1 t=l N ч -1 + ^ ^ФгЩхи - X)(xit -X)'\ X г=1 ' , N Т X ( Yl Yl Г*(Х* ~ Й*)Ы - Уг) + 4=1 t=l N . + ^2фгТг(хг-х)(уг-уI A0.86) г=1 ' Т где Т; = 2. ru обозначает число тактов времени, когда наблюдался индивидуум г, а * = al tf + Tia* г"а Иначе эту функцию молено получить с помощью МНК, применен- ного к следующей преобразованной модели (Vit ~ #гУг) = /"A - #i) + (Xit ~ $iXi) + Uit, A0.87) 1 /2 где г&г — \ — гф{1 . Отметим, что применяемое здесь преобразование является индивидуальной спецификацией, поскольку оно зависит от числа наблюдений для индивидуального г. По существу, более общие формулы для оценок с фиксированны- ми и случайными эффектами характеризуются тем, что все суммы и средние значения вычисляются только по доступным наблюдениям,
10.7. Неполные панельные данные и смещение 557 и что Г заменяется на Т{. Полностью аналогичные корректировки применяются к выражениям для ковариационных матриц этих двух оценок, которые задаются выражениями A0.13) и A0.23). Состоя- «2 2 тельные оценки неизвестных дисперсии aa и а£ имеют вид ^2 1 N Т Е Е т* (У* ~Уг- ^ - ЪУРфэJ (Ю.88) ZTi-N ^=l t=l г=1 1 N i=l (Уг ~ х'гРмJ ~ 7^1 A0.89) соответственно, где дм — межгрупповая оценка для вектора пара- метров /3 (вычисляемая как МНК-оценка в выражении A0.18), где средние значения теперь отражают «доступные средние значения»). Поскольку эффективность оценок для сг^ и а£ асимптотически не влияет на эффективность оценки со случайными эффектами, то в вычислительном отношении можно использовать более простые со- стоятельные оценки для о\ и а£. Например, можно использовать стандартные оценки, вычисленные только по остаткам, полученным из оценивания, основанного на сбалансированной субпанели, а за- тем использовать выражение A0.86) или A0.87), чтобы вычислить оценку со случайными эффектами. 10.7.2. Смещение, обусловленное выборочной селективностью и некоторые простые тесты В дополнение к обычным условиям для состоятельности оценок со случайными и фиксированными эффектами, основанных на сба- лансированной субпанели или на несбалансированных панельных данных, выше предполагалось, что индикатор отклика Гц независим от всех ненаблюдаемых переменных в модели. Такое предположение может быть нереалистичным. Например, основанное на таком пред- положении объяснение работы фондов может быть некорректным из-за того, что менее вероятно продолжение существования фондов с плохой работой (Тег Horst, Nijman, Verbeek, 1998), исследование эксперимента по эффективности политики использования дохода может пострадать от смещений, если более вероятен отказ от уча- стия в панельном обследовании людей, которые извлекают меньшую
558 10. Модели, основанные на панельных данных выгоду из эксперимента (Hausman, Wise, 1979), или оценивание воз- действия уровня безработицы на индивидуальную заработную плату может нарушаться, если в случае увеличивающейся безработицы бо- лее вероятен уход с трудового рынка людей с относительно высокой заработной платой (Keane, Moffitt, Runkle, 1988). Если Гц зависит от эффекта о^ или остатка ец, то в стандарт- ных оценках может возникнуть смещение, которое в дальнейшем мы будем называть селективным смещением (см. главу 7). Это означает, что распределение у при заданном х и условное по способу отбора выборочных единиц в выборке отличается от распределения у при заданном х (которое нас интересует). Для состоятельности оценки с фиксированными эффектами теперь требуется, чтобы Е{(Хц - Xi)Sit\riU . . . , riT} = 0. A0.90) Это означает, что оценка с фиксированными эффектами несосто- ятельна, если факт, находится ли индивидуум в выборке или нет, говорит нам кое-что об ожидаемом значении остатка, который свя- зан с Хц. Ясно, что если справедливо условие A0.11) и Гц не зависит от эффекта с^ и всех остатков вг8 (для данного x^s), то сформулиро- ванное выше условие удовлетворяется. Заметим, что отбор единиц в выборку может зависеть от эффекта о^, не влияя на состоятельность оценки с фиксированными эффектами для вектора параметров /3. Фактически, даже Ец может зависеть от Гц до тех пор, пока их соот- ношение не зависит от времени (подробности см. в работах (Verbeek, Nijman, 1992, 1996)). В дополнение к условию A0.90), условия для состоятельности оценки со случайными эффектами теперь задаются в виде E{XiEit\riU . .. ,riT} = 0 и E{xiai\riU...,riT} = 0. A0.91) Условия не позволяют математическому ожиданию любой компонен- ты остатка зависеть от индикаторов пропущенных данных (наблю- дений). Если менее вероятно, что индивидуумы с определенными значениями для их ненаблюдаемой гетерогенности oti будут на- блюдаться в некотором такте времени панельных данных, то, как правило, это будет приводить к смещению оценки со случайными эффектами. Аналогично, если более вероятно, что индивидуумы с определенными возмущениями Ец, имеют пропущенные данные
10.7. Неполные панельные данные и смещение 559 (наблюдения), то оценка со случайными эффектами, как правило, несостоятельна. Заметим, что поскольку оценка с фиксированными эффектами позволяет пропущенным данным зависеть от эффектов cti и от возмущений ец, независимо от времени, то она является более устойчивой к смещениям из-за пропущенных данных, чем оценка со случайными эффектами. Другое важное наблюдение, сде- ланное в статье (Verbeek, Nijman, 1992) состоит в том, что оценки для несбалансированных панельных данных не обязательно стра- дают меньше от смещения из-за пропущенных данных, чем оценки для сбалансированных подпанельных данных. В общем, смещения из-за пропущенных данных в оценках для несбалансированных и сбалансированных выборок не обязательно будут одинаковыми, и их относительная величина априори не известна. В статье (Verbeek, Nijman, 1992) предлагается ряд простых те- стов на смещение из-за пропусков в данных. Эти тесты основаны на вышеупомянутых наблюдениях. Во-первых, поскольку условия для состоятельности утверждают, что остатки модели должны, в том или другом смысле, не зависеть от индикаторных переменных, то их можно протестировать, просто включая некоторую функцию от ггЪ • • • > ггТ в модель и проверяя ее значимость. Ясно, что нулевая гипотеза, говорящая о том, что индивидуум наблюдался в любом из тактов времени от 1 до Г, не давала бы нам никакой информации о его ненаблюденных значениях в модели. Очевидно, что добавле- ние Гц в модель A0.84) приводит к мультиколлинеарности, так как Гц = 1 для всех наблюдений в выборке. Вместо этого следует доба- вить некоторые функции от Гц,..., г^, такие, например, как r^t-i, т т Ci = 1 [ Гц или Ti — \_. rit, показывающие, соответственно, наблю- t=i t=i далась ли выборочная единица г в предыдущем временном такте, или она наблюдалась в течение всех тактов времени, или какое общее число тактов времени эта единица наблюдалась. Заметим, что в сба- лансированной субпанели все значения переменных таких функций идентичны для всех индивидуумов, и таким образом включаются в свободный член. В статье (Verbeek, Nijman, 1992) предполагается, что включение q и Ti может обеспечить приемлемую процедуру, чтобы проверить наличие смещения из-за пропущенных данных. От- метим, что это требует, чтобы модель оценивалась в рамках схемы со случайными эффектами, поскольку внутригрупповое преобразо- вание исключило бы С{ и Т{. Конечно, если нулевые гипотезы не
560 10. Модели, основанные на панельных данных отклоняются, то это еще не является основанием для их принятия, т. е. для утверждения об отсутствии смещения из-за пропущенных данных, поскольку мощность критериев может быть низкой. Другая группа тестов основана на идее, что четыре различных оценки для моделей со случайными и фиксированными эффек- тами, основанные либо на сбалансированной субпанели, либо на несбалансированных панельных данных, обычно имеют различные смещения из-за пропуска данных. Поэтому сравнение этих оценок может служить показанием правдоподобия смещения из-за пропу- щенных данных. Однако, хотя и можно сравнить любую пару оценок (см. (Verbeek, Nijman, 1992) или (Baltagi, 1995, Section 10.5)), извест- но, что оценки с фиксированными и случайными эффектами могут различаться и по другим причинам, чем смещение из-за пропущен- ных данных (см. п. 10.2.3). Поэтому, наиболее естественно сравнивать либо оценки с фиксированными, либо оценки со случайными эффек- тами, использующие сбалансированную субпанель, с их аналогами, использующими несбалансированные панельные данные. Если раз- личные выборки, отобранные на основе индикаторов гц,... , Пт, приводят к значимо различным оценкам, то процесс отбора дол- жен говорить нам кое-что о пропущенных наблюдениях в модели. Таким образом, значимо различные оценки указывают на наличие смещения из-за пропущенных данных. Поскольку оценки, использу- ющие несбалансированные панельные данные, эффективны внутри специфического класса оценок, то мы опять можем использовать результат Хаусмана и вывести критическую статистику, основанную на оценке со случайными эффектами, в виде (сравните с критиче- ской статистикой A0.27)), Исэ = {Шэ - Рсэ)'[У{Ш - У{ЩЭ}]_1 Фсэ - Рсэ), (Ю.92) где V обозначают оценки ковариационных матриц, а надстроч- ные прописные буквы С и Н относятся к сбалансированной и несбалансированной выборке соответственно. Точно так же мож- но получить тест, основанный на двух оценках с фиксированными эффектами. При нулевой гипотезе критическая статистика подчиня- ется хи-квадрат распределению с К степенями свободы. Заметим, что неявная нулевая гипотеза для такого теста состоит в том, что plim {/Зсэ — Рсэ) = 0- Если такая гипотеза верна приближенно, или обе эти оценки страдают от смещения из-за пропущенных данных
10.7. Неполные панельные данные и смещение 561 в равной степени, то тест не имеет никакой мощности К Отметим, что можно проводить такое же тестирование и лишь для подмноже- ства элементов вектора C. 10.7.3. Оценивание с неслучайно пропущенными данными Как и в пространственном ("cross-sectional") случае (см. параграф 7.5) смещение из-за пропущенных данных порождает проблему иденти- фикации. В результате при наличии смещения из-за пропущенных данных, если не наложить дополнительные предположения, состоя- тельное оценивание параметров модели невозможно. В качестве при- мера предположим, что индикатор пропущенных данных тц можно объяснить пробит-моделью со случайными эффектами, то есть, 4=47 + £ + %, A0.93) где r^t = 1, если r*t > 0 и Гц — 0 в противном случае, a za — (хорошо-мотивированный) вектор экзогенных переменных, который включает хц. Интересующая нас модель задается в виде yit = x'ltf3 + аг + eit. A0.94) Предположим, что компоненты остатков модели в этих двух урав- нениях имеют совместное нормальное распределение. Тем самым приходим к обобщению пространственной выборочной модели с про- пущенными данными, которая рассматривалась в п. 7.4.1. Влияние ограничений на формирование выборки для модели A0.94) отра- жается в математических ожиданиях ее ненаблюдаемых компонен- тов, условных по экзогенным переменным и индикаторам пропуска, то есть E{ai\ziU ..., ziT, Гц,..., riT} A0.95) и E{eit\ziU ... , ziT, Гц,... , ггТ}. A0.96) Можно показать (Verbeek и Nijman, 1992), что условное математиче- ское ожидание A0.96) не зависит от времени, если cov {бц, г]ц} = 0, Предложенный здесь тест реально не является тестом Хаусмана, поскольку при альтернативной гипотезе ни одна из оценок не является состоятельной. Тем не менее, тест, сам по себе, является корректным; просто, при применении в определенных обстоятельствах он может характеризоваться ограниченной мощностью.
562 10. Модели, основанные на панельных данных или если zfit^ не зависит от времени. Это требуется для состоя- тельности оценок с фиксированными эффектами. Далее, условное математическое ожидание A0.95) равно нулю, если cov {a;, £;} = 0, тогда как условное математическое ожидание A0.96) равно нулю, если cov {£;*, т)ц} = 0, так что оценка со случайными эффектами со- стоятельна, если ненаблюдаемые переменные в основном уравнении A0.94) и в уравнении для индикатора пропуска A0.93) некоррели- рованы. В общем случае оценивание относительно более сложное. В ста- тье (Hausman, Wise, 1979) рассматривается случай, когда панельные данные включают два такта времени, и пропущенные наблюдения имеют место только на втором такте. В более общем случае при- менение метода максимального правдоподобия для одновременного оценивания этих двух уравнений требует численного интегрирования в пространстве размерности выше двух (чтобы с помощью интегри- рования исключить эти два индивидуальных эффекта). В статьях (Nijman, Verbeek, 1992) и (Vella, Verbeek, 1999) представлены альтер- нативные оценки, основанные на двухшаговом методе оценивания для пространственной выборочной модели с пропущенными данны- ми. По существу, идея состоит в том, что члены в условных мате- матических ожиданиях A0.95) и A0.96), кроме константы, можно определить из пробит-модели A0.93), так что оценки этих членов могут включаться в основное уравнение. В статье (Wooldridge, 1995) представлены некоторые альтернативные оценки на основе несколь- ко других предположений. Упражнения Упражнение 10.1 (линейная модель) Рассмотрим следующую простую модель панельных данных Ун = xitp + a* + eiu г = 1,..., N, t = 1,..., Г, A0.97) в которой /3 — одномерный неизвестный параметр, и предполагается, что at* = XiX + оц с а* ~ ЯОЯР@, о\), eit ~ ЯОЯР@, <т2е\ взаимно независимыми, и независимыми от всех хц, где
Упражнения 563 Параметр C в модели A0.97) можно оценить с помощью оценки с фиксированными эффектами (или с помощью внутригрупповой оценки), заданной в виде N (Зфэ = 1 t=l N Т ^2^2(xit - ХгJ г=1 t=l Как альтернатива, корреляция между остатком а* + ец и пе- ременной хц может быть учтена с помощью применения метода инструментальных переменных. а. Приведите выражение для МИП-оценки (Зип параметра C в модели панельных данных A0.97), используя в качестве инстру- ментальной переменной для хц переменную хц — Xi. Покажите, что /Зип и (Зфэ идентичны. Другой способ исключать индивидуальные эффекты а* из модели состоит во взятии первых разностей. В результате приходим к вы- ражению yit - yitt-i = [xit - xiit-i)P + {eit - eiit-i), A0.98) i = l,...,N, t = l,...,T. б. Обозначьте МНК-оценку, основанную на модели первых разно- стей (ПР) A0.98), через /Зпр> Покажите, что оценка /Зпр иден- тична оценкам (Зип и (Зфэ, если Г = 2. Эта идентичность для Г > 2 больше не справедлива. В таком случае какую из этих двух оценок Вы бы предпочли? Объясните. (Примечание: для дополнительного обсуждения см. (Verbeek, 1995).) в. Рассмотрите межгрупповую оценку (Зм параметра /3 в модели A0.97). Дайте выражение для оценки (Зм и покажите, что она является несмещенной для векторного параметра C + А. г. И, наконец, предположите, что мы подставляем выражение для а* в модель A0.97) и получаем уц = х'нC + хг\ + аг + ец, г = 1,...,ЛГ, * = 1,...,Г. A0.99) Вектор (/3, А)' можно оценить с помощью ОМНК (случайные эффекты) из модели A0.99). Можно показать, что полученная
564 10. Модели, основанные на панельных данных таким образом оценка параметра /3 идентична оценке (Зфэ- Озна- чает ли это, что никакого реального различия между подходами случайных и фиксированных эффектов нет? Примечание: для дополнительного обсуждения см. (Hsiao, 1986, Sect. 3.4.2a.) Упражнение 10.2 (модель Хаусмана—Тейлора) Рассмотрим следующую линейную модель панельных данных УН = x'hitPl + Х'2М02 + Ц,Л1 + И>2,*72 + <*i + SiU A0.100) в которой Wk,i не зависит от времени, а Хк,ц, являются объяс- няющими переменными, изменяющимися во времени. Переменные с индексом 1 (#1,гг и w\,i) строго экзогенны в том смысле, что E{xi,itai} = 0, Е{х\^8ец} = 0 для всех s и £, E{wi^ai\ = 0 и E{wijSit} — 0. Также предполагается, что E{w2,i€u} = 0, и что выполняются обычные условия регулярности (обеспечивающие со- стоятельность и асимптотическую нормальность). а. При каких дополнительных предположениях, МНК, применен- ный к модели A0.100), обеспечивает состоятельную оценку для векторов параметров /3 = (/?i, /З2У и 7 = Gъ 72)'? б. Рассмотрите (внутригрупповую) оценку с фиксированными эф- фектами. При каких дополнительных предположениях она яв- лялась бы состоятельной оценкой для вектора параметров C1 в. Рассмотрите МНК-оценку для вектора параметров /3 на основе регрессии в первых разностях. При каком (каких) дополнитель- ном предположении (ях) эта оценка является состоятельной для вектора параметров C1 г. Обсудите одну или более альтернативных состоятельных оце- нок для векторов параметров /3 и 7 ПРИ предположениях: E{x2,iS£it} — 0 (для всех s и *), и E{w2,i£it} — 0. Каковы ограничения в этом случае на число переменных в каждой из категорий? д. Обсудите оценивание вектора параметров /3, если Х2,а равняет- ся yi,t-i- е. Обсудите оценивание вектора параметров /3, если Х2,а включает Vi,t-i' ж. Можно ли оценить состоятельно, как вектор параметров /3, так и вектор параметров 7, если #2,it включает y^t-i? Если можно, то как? В противном случае, почему нет? (В случае необходимости сделайте дополнительные предположения.)
Упражнения 565 Упражнение 10.3 (динамические модели и модели бинарного выбора) Рассмотрим следующее динамическое уравнение заработной платы wit = х\ф + 7Wi,t-i + ai + eit, A0.101) где wn обозначает логарифм почасовой ставки заработной платы индивидуума, а хц — вектор персональных характеристик и харак- теристик работы (возраст, время обучения, пол, отрасль промыш- ленности, и т. д.). а. Объясните на словах, почему МНК, примененный к модели A0.101), является несостоятельным. б. Объясните также, почему оценка с фиксированными эффекта- ми, примененная к модели A0.101), является несостоятельной при iV —► ос и фиксированном Г, но состоятельная при N —> ос и Г —» ос. (Предположите, что остатки ец являются независимо и одинаково распределенными.) в. Объясните, почему результаты из пунктов а и б также означа- ют, что оценка со случайными эффектами (ОМНК-оценка) для модели A0.101) будет несостоятельной и при фиксированном Г. г. Опишите простую состоятельную (при N —> ос) оценку для век- тора параметров C и параметра 7> предполагая, что ai и ей являются независимо и одинаково распределенными и незави- симыми от всех хц . д. Опишите более эффективную оценку для вектора параметров C и параметра 7 при тех же самых предположениях. В дополнение к уравнению заработной платы предположим, что существует модель бинарного выбора, объясняющая, работает индивидуум или нет. Пусть Гц = 1, если индивидуум г работал в такте времени t, и Гц — 0 в противном случае. Тогда модель можно написать как rit =ZitS + t>i+Vit, r^ - 1, если r*t > 0, A0.102) г^ = 0 в противном случае. где zu — вектор персональных характеристик. Предположим что £i ~ НОНР@, о-|) и rjit ~ НОНР@,1 — о-|), взаимно независимы и независимы от всех Zit. Модель A0.102) можно оценить методом максимального правдоподобия.
566 10. Модели, основанные на панельных данных е. Дайте выражение для вероятности того, что Гц = 1, при задан- ных Zit И &. ж. Используйте выражение из пункта е, чтобы получить выраже- ние вклада индивидуума г в правдоподобие, легко поддающееся обработке в вычислительном отношении. з. Объясните, почему невозможно рассмотреть эффекты £; как фиксированные неизвестные параметры и оценить 5 состоятель- но (при фиксированном Г) из пробит-модели с фиксированными эффектами? С этого момента предположим, что соответствующее уравнение за- работной платы является статическим и задается выражением A0.101) с параметром 7 = 0. и. Каковы последствия для оценки со случайными эффектами модели A0.101), если г)ц и 8ц коррелированны? Почему? к. Каковы последствия для оценки с фиксированными эффектами модели A0.101), если £; и с^ коррелированны (в то время как r\it и eit нет)? Почему?
А Векторы и матрицы Периодически в этом тексте используются понятия и результаты линейной алгебры. Это приложение предназначено для краткого изложения этих понятий и результатов. Более детальное описание можно найти в учебниках по линейной алгебре или, например, в главе 2 книги (Greene, 2000) или в приложении А книги (Davidson, MacKinnon, 1993). Здесь представлены и относительно сложные те- мы, которые использовались в ограниченном числе мест в тексте. Например, собственные значения и ранг матрицы встречаются толь- ко в главе 9, в то время как правила дифференцирования необходимы только в главах 2 и 5. А.1. Терминология В этой книге вектор всегда является вектором-столбцом чисел, обозначаемым /«Л «2 а — \ \ап/ Транспонирование вектора, обозначаемое о! = (ai, a2,... , an), яв- ляется строкой чисел, иногда называемой вектором-строкой. Мат- рица — это прямоугольная таблица чисел. Для размерности п х к
568 А. Векторы и матрицы ее можно написать как А = ( о>\\ «21 «12 «22 «1п\ «2п \«п1 «п2 ••• «п/с/ Первый подстрочный индекс элемента а^ обозначает номер строки, а второй подстрочный индекс — номер столбца. Обозначая j-ый стол- бец этой матрицы через aj, можно сказать, что матрица А состоит из к вектор-столбцов от а\ до ак, которые мы можем обозначить как A=[ai a2 ... ак]. Символ ' обозначает транспонирование матрицы или вектора, приводящее к виду /«11 «21 ••• «nl\ «12 «22 «п2 \«1/с ••• «п/с/ Столбцы матрицы А являются строками транспонированной мат- рицы А! и наоборот. Матрица является квадратной, если п = к. Квадратная матрица А является симметрической, если А = А'. Квадратную матрицу А называют диагональной матрицей, если dij = 0 для всех г ф j'. Отметим, что диагональная матрица является симметрической по построению. Единичная матрица / — это диа- гональная матрица со всеми диагональными элементами, равными единице. А.2. Действия с матрицами Если две матрицы или два вектора имеют одинаковые размерности, то их можно складывать или вычитать. Пусть А и В — две матрицы размерности п х к с элементами а^ и Ь^ > соответственно. Тогда матрица А + В состоит из элементов а^ + hj, в то время как матрица А — В состоит из элементов а^ — bij. Отсюда легко следует, что А + В = В + А и (А + В)' - А' + В'. Матрицу А размерности пхк можно умножить на матрицу В размерности к х га, тогда получим матрицу размерности п х га.
А. 2. Действия с матрицами 569 Сначала рассмотрим специальный случай к = 1. Тогда А — о! есть вектор-строка, а В = Ъ — вектор столбец. И мы определяем АВ = а'Ъ = (аь а2,... , ап) ь2 \Ъп) a\b\ + a2b2 + ... + anbn. Мы называем произведение о!Ъ скалярным произведением век- торов а и Ъ. Отметим, что о!Ъ — У а. Два вектора называются ортогональными, если о!Ъ = 0. Для любого вектора а*\ кроме нулевого вектора, имеем, что а а > 0. Внешнее произведение а есть аа!, которое имеет размерность п х п. Другой частный случай возникает для m = 1, когда А — п х к матрица, а В = Ь — вектор размерности к. Тогда с = АВ также является вектором, но размерности п. Его элементами являются элементы Ci = ацЪ\ + ai2b2 + ... + ciikbk, которые является скалярным произведением вектора, полученного из г-ой строки матрицы А и вектора Ъ. Если m > 1, то В является матрицей, и С = АВ — матрица размерности п х m с элементами Cij — 0>ilblj + di2b2j + • • • + dikbkj, являющимися скалярными произведениями между векторами, по- лученными из г-ой строки матрицы А и j-ro столбца матрицы В. Отметим, что это может иметь смысл, если только число столбцов в матрице А равняется числу строк в матрице В. В качестве примера рассмотрим А = В = /1 3 0 2\ 4 V0 Ч и АВ = С действительными компонентами (примеч. научн. ред. перевода).
570 А. Векторы и матрицы Важно отметить, что АВ ф В А. Даже если матрица АВ существует, то матрица В А может быть не определена, поскольку размерности В и А не соответствуют. Если матрица А имеет размерность п х fc, а матрица В имеет размерность k x п, то матрица АВ существует и имеет размерность п х п, в то время как матрица В А существует с размерностью к х /с. В вышеприведенном примере мы имеем / 9 12 з\ В А = 19 26 9 . \20 25 О/ Для транспонирования произведения двух матриц справедливо, что (АВ)' = В'А'. Из этого (и (А'У — А) следует, что матрицы AfА и АА1 существуют и они симметрические. И, наконец, элементы матрицы с А произведе- ния скаляра с и матрицы А равны произведению каждого элемента матрицы А на этот скаляр с. Таким образом, для скаляра с мы имеем, что матрица с А имеет элемент caij. А.З. Свойства векторов и матриц Если мы рассматриваем ряд векторов от вектора а\ до а/~, то мы можем построить линейную комбинацию этих векторов. Со скаляр- ными весами с\,... , Ск линейная комбинация порождает вектор С\а\ + C2CL2 + ... + с^а/с, который мы можем кратко записать как Ас, где, как и прежде, A=[ai a2 ... ак] и с= (сь ... ,ск)'> Множество векторов линейно зависимо, если любой из векто- ров можно записать в виде линейной комбинации других векторов. То есть, если существуют значения ci,... , с^, не все равные нулю, так что с\а\ + с2а2 + ... + Ckdk = О (нулевой вектор). Эквивалентно, множество векторов линейно независимо, если единственное решение уравнения с\а\ + с2а2 + ... + Скак = О
А.4. Обратные матрицы 571 относительно скалярных весов с\, ... , с/- равно с\ = с2 = ... = ск = 0. То есть, если единственное решение для Ас = 0 есть с = 0. Если мы рассмотрим все возможные векторы, которые мож- но получить как линейные комбинации векторов ai, a2,... , а/-, то эти векторы образуют векторное пространство. Если векторы, ai, a2,... , ak линейно зависимы, то мы можем уменьшить число векторов, не изменяя векторное пространство. Минимальное число векторов необходимое, чтобы натянуть векторное пространство, на- зывается размерностью этого пространства. Таким способом мы можем определить пространство столбцов матрицы как простран- ство, натянутое на ее столбцы, а ранг столбцов матрицы — как размерность ее пространство столбцов. Ясно, что ранг столбцов ни- когда не может превышать число столбцов. Матрица имеет полный ранг столбцов, если ранг столбцов равняется числу столбцов. Ранг строк матрицы — размерность пространства, натянутого на строки матрицы. В общем, справедливо, что ранг строк и ранг столбцов мат- рицы равны, и, таким образом, мы можем однозначно определить ранг матрицы. Отметим, это не означает, что матрица, которая имеет полный ранг столбцов, имеет автоматически полный ранг строк (это справедливо, если только матрица квадратная). Полезный результат в регрессионном анализе состоит в том, что для любой матрицы А rank (A) = rank (A'A) = rank {АА'). А.4. Обратные матрицы Матрица £?, если она существует, называется обратной к матрице А, если АВ — I и В А — I. Необходимое условие состоит в том, что матрица А является квадратной матрицей и имеет полный ранг, то- гда матрицу А называют также обратимой или невырожденной. В этом случае, мы можем определить матрицу В — А~1, и АА'1 =1 и А'1 А = I. Отметим, что это определение предполагает, что А — В~1. Таким образом, мы имеем (А-1)-1 = А. Если обратная матрица А~1 не су- ществует, то мы говорим, что матрица А вырождена. Аналитически, легко получить обращение диагональной матрицы и матрицы 2x2.
572 А. Векторы и матрицы Например, an О О \ (о{1 О О \ О а22 0 = 0 а^1 О О 0 а33/ V О О а^1/ и [ an ai2 | = 1 | а22 -ai2 ] \ci21 &22 J «11^22 - tti2a2i ^-a2i any Если аца22 — &12&21 — 0, то 2 x 2 матрица А вырождена: ее столбцы линейно-зависимы, и также линейно зависимы ее строки. Мы назы- ваем ацй22 — &12&21 определителем этой 2x2 матрицы (см. ниже). Предположим, что нас просят решить матричное уравнение Ac — d для заданных матрицы А и вектора d, где матрица А имеет размерность пхп, асис!- n-мерные векторы. Такое матричное уравнение является системой из п линейных уравнений с п неиз- вестными. Если обратная матрица А~г существует, то мы можем написать A~1Ac = c = A-1d, чтобы получить решение. Если матрица А необратима, тогда система линейных уравнений имеет линейные зависимости. Есть две возмож- ности. Либо решению системы уравнений (матричного уравнения) Ас — d удовлетворяет более чем один вектор с, и тогда единствен- ного решения не существует; либо уравнения несовместны, и тогда решение системы не существует совсем. Если d — нулевой вектор, то остается только первая возможность. Непосредственно получается, что (Л-1)' = (А1)-1 И (АВ)'1 =В~1А-1. (предполагая, что обе обратные матрицы существуют). А.5. Идемпотентные матрицы Специальный класс матриц — класс симметрических и идемпотент- ных матриц. Матрица Р является симметрической, если Р' — Р, и идемпотентной, если РР = Р. Симметрическая идемпотентная
А.6. Собственные значения и собственные векторы 573 матрица Р имеет интерпретацию проекционной матрицы. Это означает, что вектор проектирования Рх находится в пространстве столбцов матрицы Р, в то время как остаточный вектор х — Рх ортогонален к любому вектору в пространстве столбцов матрицы Р. Проекционную матрицу, которая проецирует на пространство столбцов матрицы А можно построить как Р = А(А'А)~ А'. Яс- но, что эта матрица является симметрической и идемпотентной. Проецирование дважды на одно и то же пространство должно остав- лять результат неизменным, и таким образом, мы должны иметь соотношение РРх = Рх, которое следует непосредственно. Оста- ток от проецирования есть х — Рх — (I — А(А'А)~1А')х, так что М — I — А(А'А)~1 А' также является проекционной матрицей с MP = РМ = 0 и ММ = М = Л/'. Таким образом векторы Мх и Рх ортогональны. Интересная проекционная матрица (которая используется в гла- ве 10) — это Q — I — A/п)а\ где i — n-мерный вектор единиц (так что а! является матрицей единиц). Диагональные элементы в этой матрице равны 1 — \/п. а все не диагональные элементы равны — 1/п. Тогда Qx является вектором, содержащим отклонения х от своего среднего значения. Вектор средних значений порождается матрицей преобразования Р = A/п)а7. Отметим, что РР = Р и QP = 0. Единственной невырожденной проекционной матрицей явля- ется единичная матрица. Все другие проекционные матрицы вы- рожденны, каждая имеет ранг равный размерности пространства, на которое они проектируют. А.6. Собственные значения и собственные векторы Пусть А — будет п х п симметрической матрицей. Рассмотрим следующую проблему поиска комбинаций вектора с (кроме нулевого вектора) и скаляра Л, которые удовлетворяют Ас = Лс. В общем, существует п решений Л,... , Лп, называемых собствен- ными значениями (характеристическими корнями) матрицы А, соответствующих п векторам с\, ... , сп, называемых собственны- ми векторами (характеристическими векторами). Если с\ явля- ется решением, тогда, кс\ для любой константы к тоже является
574 А. Векторы и матрицы собственным, вектором, поэтому собственные векторы определены с точностью до константы. Собственные векторы симметрической матрицы ортогональны, то есть c[cj = О для всех г ф j. Если собственное значение равно нулю, соответствующий век- тор с удовлетворяет Ас = О, тогда подразумевается, что матрица А неполного ранга, и, следовательно, вырождена. Таким образом, вы- рожденная матрица имеет, по крайней мере, одно нулевое собствен- ное значение. В общем, ранг симметрической матрицы соответствует числу ненулевых собственных значений. Симметрическую матрицу называют положительно опреде- ленной, если все ее собственные значения положительны. Ее назы- вают положительно полуопределенной, если все ее собственные значения неотрицательны. Положительно определенная матрица об- ратима. Если матрица А положительно определенная, то для любого вектора х (не нулевого вектора) справедливо, что х'Ах>0*\ Причина состоит в том, что любой вектор х можно написать в виде линейной комбинации собственных векторов как х = d\C\ + ... + dncn для скаляров d\,... , dn, и мы можем написать х'Ах = {d\c\ + ... + dncn)'A{diCi + ... + dncn) = = Xid\cfxci + ... + \nSndncn > 0. Точно так же для положительно полуопределенной матрицы А мы имеем, что для любого вектора х х'Ах>0*\ Определитель симметрической матрицы равен произведению ее п собственных значений. Определитель положительной определенной матрицы положителен. Симметрическая матрица вырождена, если определитель равен нулю (то есть, если одно из собственных значе- ний равно нулю). Верно и обратное утверждение, поэтому это свойство используется также и как определение положительной (неотрицательной) определенности матрицы (примеч. научн. ред. перевода).
А. 8. Некоторые матричные действия 575 А.7. Дифференцирование Пусть х будет n-мерным вектор-столбцом. Если с также является n-мерным вектор-столбцом, с'х является скаляром. Рассмотрим с'х как функцию от вектора х. Тогда мы можем рассмотреть вектор производных с'х относительно каждого элемента в векторе х, то есть дс'х _ дх Вектор производных является вектор-столбцом из п производных и типичный элемент равен с*. Более обще, для векторной функции Ах (где А — матрица) мы имеем, что дАх _ , дх Элемент в столбце г, строке j этой матрицы является производной j-ro элемента функции Ах относительно Х{. Далее, для симметрической матрицы А дх' Ах —— - 2Ах. ох Если матрица А не является симметрической, то мы имеем OX J\.X , А ., ч — = (А + Л)Х. Все эти результаты следуют из результатов поэлементного диффе- ренцирования. А.8. Некоторые матричные действия, связанные с методом наименьших квадратов ПуСТЬ Х{ = {хц,Хг2, • • • , XiK)' С Хц = 1 И C = (ft, /?2, • • • , Рк)' - Тогда х\ = /?1 + /?2^г2 + . . . + PKXiK- Матрица ( хц \ N 7 , XiXi — 2-j г=1 i=l Xi2 (ХЦ,Х{2, ... ,XiK) = \XiK/
576 А. Векторы и матрицы г=1 ЛГ г=1 У^ ^iA^i! г=1 ЛГ 7 ,Хг2 г=1 ЛГ ^ХцХж г=1 ЛГ г=1 X гК / является КхК симметрической матрицей, содержащей суммы квад- ратов и перекрестных произведений. Вектор / " \ г=1 ЛГ г=1 ЛГ У] ^г2Уг г=1 ЛГ \ г=1 / имеет длину К, так что система ЛГ t=l N ^2 Wi J 6 = ]Р я* г=1 является системой If уравнений с if неизвестными (в векторе Ь). N Если матрица у, xix'i обратима, то существует единственное реше- г=1 ЛГ ние. Обращение требует, чтобы матрица Y^ x^x^ была полного ранга. г=1 Если она неполного ранга, то существует ненулевой if-мерный век- тор с такой, что х\с = О для каждого г и существует линейная N зависимость между столбцами/строками матрицы \_. %i%i- г=1
А. 8. Некоторые матричные действия 577 В матричной системе обозначений N х К матрица X определя- ется как (Хц Х12 ... Х1К\ :■■■■:) XN1 XN2 ••• XNK/ и у = (?/i, J/2? • • • ? Vn)'- Отсюда легко проверить, что N Х'Х = ]Г xix'i i=l и N X;y = ^2xiyi. г=1 Матрица X'X не является обратимой, если матрица X неполного ранга. То есть, если между столбцами матрицы X («регрессорами») существует линейная зависимость.
в Теория статистики и теория распределений В этом приложении кратко рассматриваются основы теории стати- стики и теории распределений, которые используется в этом тек- сте. Подробности можно найти, например, в книге (Greene, 2000, Chapter 3) или (Davidson, MacKinnon, 1993, Appendix В). B.1. Дискретные случайные переменные Случайная переменная — это переменная, которая может при- нимать различные значения (исходы) в зависимости от «состояния природы». Например, исход одного броска игральной кости случаен, с возможными исходами 1, 2, 3, 4, 5, и 6. Обозначим произволь- ную случайную переменную через Y. Если Y обозначает исход эксперимента игры в кости (а кость предполагается честной, т. е. симметричной), вероятность каждого исхода равна 1/6. Мы можем обозначить ее как Р{У = У} = \ Для у =1,2,...,6. Функция, которая связывает возможные исходы (в этом случае у = 1,2,...,6) с соответствующими вероятностями, называется
В.2. Непрерывные случайные переменные 579 функцией вероятностной меры или, более обще, функцией, за- дающей закон распределения вероятностей. Мы можем обозначить ее как f(y) = P{Y = у). Отметим, что f{y) не является функцией случайной переменной У, а является функцией от всех ее возможных исходов. Функция f(y) имеет свойство, что, если мы просуммируем ее по всем возможным исходам, то в результате получим единицу. То есть г Математическое ожидание дискретной случайной переменной равно взвешенному среднему всех возможных исходов, где веса соответствуют вероятностям отдельных исходов. Мы обозначаем E{Y} = J2yif(Vi)- г Отметим, что E{Y} не обязательно соответствует одному из воз- можных исходов. Например, в эксперименте с игрой в кости мате- матическое ожидание равно 3,5. Распределение является вырожденным, если оно сосредото- чено только в одной точке, то есть, если P{Y = у} = 1 для одного отдельного значения у и P{Y = у} = О для всех других значений. В.2. Непрерывные случайные переменные Непрерывная случайная переменная может принимать бес- конечное число различных исходов, например, любое значение в интервале [0,1]. В этом случае каждый отдельный исход имеет нулевую вероятность. Вместо функции вероятностной меры, мы определим функцию плотности вероятностей f(y) > 0 как ъ P{a<Y<b} = J f(y)dy. a На графике вероятность P{a < Y < b} равна площади под функцией f(y) между точками а и Ь. Взяв интеграл от функции f(y) по всем
580 В. Теория статистики и теория распределений возможным исходам, получим сю J f(y)dy = l. — оо Если случайная переменная Y принимает значения только в преде- лах определенного интервала, то неявно предполагается, что функ- ция /(у) = 0 везде вне этого интервала. Мы также можем определить кумулятивную функцию плот- ности (кфп) как*) У F(y) = P{Y<y} = J f(t) dt, — оо так что /(у) = Ff{y) (производной). Кумулятивная функция плот- ности имеет такое свойство, что 0 < F{y) < 1, и является монотонно возрастающей функцией, то есть F(y) > f(x), если у > х. Из этого легко следует, что P{a < Y < b} — F(b) — F(a). Математическое ожидание или среднее значение непре- рывной случайной переменной, часто обозначаемое //, определяется в виде V = E{Y}= J yf(y)dy. — оо Другой мерой положения является медиана, которая является зна- чением га, для которого мы имеем P{Y<m}>± и Р{у<т}<^. Таким образом, 50% наблюдений располагается ниже медианы, а 50% наблюдений — выше. Мода — это просто значение у, для которого функция f(y) принимает свое максимальное значение. Она нечасто используется в эконометрических приложениях. Распределение является симметрическим относительно свое- го среднего значения, если /(// — у) = /(// + у). В этом случае среднее значение и медиана распределения идентичны. Широко распространено также определение функции F(y) как функции распределения вероятностей (примеч. научн. ред. перевода).
В.З. Математическое ожидание и моменты 581 В.З. Математическое ожидание и моменты Если Y и X — случайные переменные, а а и Ъ — константы, тогда справедливо, соотношение E{aY + ЬХ} = aE{Y} + ЪЕ{Х], которое показывает, что математическое ожидание является линей- ным оператором. Аналогичные результаты необязательно справед- ливы, если мы рассматриваем нелинейное преобразование случайной переменной. Для нелинейной функции д, в общем, не справедливо, что E{g(Y)} = g(E{Y}). Если д является вогнутой функцией, то неравенство Иенсена говорит, что E{g(Y)} < g(E{Y}). Например, £"{log (Y)} < log E{Y}. Отсюда вытекает следствие, что мы не можем определить математическое ожидание функции от случайной переменной Y только из математического ожидания Y. Конечно, по определению справедливо, что оо Е{д(Х)}= J g(Y)f(Y)dy. — оо Дисперсия случайной переменной, часто обозначаемая а2, яв- ляется мерой разброса распределения. Она определяется как a2 = V{Y} = E{{Y-tf) и равняется математическому ожиданию квадрата отклонения от среднего значения. Ее иногда называют вторым центральным моментом. Полезным результатом является соотношение E{(Y - /хJ} = E{Y2} - 2E{Y)n + ц2 = E{Y2} - »2, где E{Y2} — второй момент. Если случайная переменная Y имеет дискретное распределение, то его дисперсия определяется как *w = Dy-"J/(vi). г где г индексирует различные исходы. Для непрерывного распреде- ления мы имеем оо V{Y] = J\y- /zJ/(t/) dy. — оо
582 В. Теория статистики и теория распределений Используя эти определения, легко проверить, что V{aY + b} = a2V{Y}, где а и Ь — произвольные константы. Часто мы будем также исполь- зовать среднеквадратичное (стандартное) отклонение случайной пе- ременной, обозначаемое сг, определяемое как квадратный корень из дисперсии. Среднеквадратичное отклонение выражается в тех же самых единицах, что и случайная переменная Y. В большинстве случаев распределение случайной переменной не описывается полностью только ее средним значением и дисперсией, и мы можем определить fc-ый центральный момент в виде E{(Y-»)k}, k = 1,2,3,... . В частности, третий центральный момент является мерой асиммет- рии, нулевое значение которого указывает на симметричное распре- деление, и четвертый центральный момент измеряет эксцесс. Он является мерой тяжести «хвостов» распределения. В.4. Многомерные распределения Функция совместной плотности двух случайных переменных Y и X, обозначаемая /(у, х), определяется в виде Р{аг <Y <Ъг,а2<Х <Ъ2} = / / /(ж, у) dy dx. Если Y и X независимы, то справедливо соотношение f(y,x) = f(y)f(x), так что Р{аг <Y <Ъ1,а2<Х <Ъ2} = Р{аг < Y < h}P{a2 < X < Ъ2}. В общем, частное (маргинальное) распределение случайной переменной Y характеризуется функцией плотности оо f(y) = / f(y, x) dx. — оо
В.4. Многомерные распределения 583 Это подразумевает, что математическое ожидание Y имеет вид оо оо оо E{Y) = J yf(y) dy= J J Vf(y, x) dx dy. — oo —oo —oo Ковариация между случайными переменными Y и X является мерой линейной зависимости между этими двумя переменными. Она определяется как axy = cov {Y, X} = Е{(¥- цу){Х - цх)}, где цу = E{Y} и цх = Е{Х}. Коэффициент корреляции зада- ется в виде ковариации, стандартизированной двумя среднеквадра- тичными отклонениями, то есть, _ cov {У, X] _ аху Рул ^V{Y}V{X} аха. х^у Коэффициент корреляции всегда лежит между —1 и 1, и не зависит от масштаба переменных. Если ковариация cov {У, X} = 0, то гово- рят, что случайные переменные Y и X — некоррелированны. Если а, 6, с, d — константы, то справедливо, что cov {aY + 6, сХ + d} = ас cov {У, X}. Кроме того, cov {aY + ЬХ, Х} = а cov {У, X} + Ъ cov {X, X} = = acov {Y, X} + bcov {X}. Из этого также следует, две случайные переменные Y и X кор- релированны полностью (рух — 1), если Y = аХ для некоторого ненулевого значения а. Если переменные Y и X коррелированны, то дисперсия линейной функции от переменных Y и X зависит от их ковариации. В частности, V{aY + ЪХ} = a2V{Y} + b2V{X} + 2ab cov {У, X]. Если мы рассматриваем If-мерный вектор случайных пере- менных Y — (Yi,..., Yk)', то мы можем определить его вектор математических ожиданий в виде E{Y} =
584 В. Теория статистики и теория распределений а его дисперсионно-ковариационную матрицу дисперсии (или просто ковариационную матрицу) как 1ф1} ••• V{YUYK}\ ViYjcY!} ... V{YK} J Отметим, что эта матрица является симметрической. Если мы рас- сматриваем одну или более линейных комбинаций элементов в Y, скажем RY, где R имеет размерность J x К, то справедливо, что V{RY] = RV{Y}R'. В.5. Условные распределения Условное распределение описывает распределение случайной пере- менной, скажем, У, при заданном условии на значения другой слу- чайной переменной X. Например, если мы бросаем две игральные кости, то переменная X могла бы обозначать исход первой играль- ной кости, и переменная Y могла бы обозначать исход суммы этих двух игральных костей. Тогда мы могли бы интересоваться рас- пределением переменной У, условным по исходу первой игральной кости. Например, чему равна вероятность броска с исходом суммы, равной 7, если первая игральная кость имела исход, равный 3. Или исход 3 и меньше? Условное распределение следует из совместного распределения анализируемых двух переменных. Мы определяем f(y\X = x)=f(y\x) = l^. Если случайные переменные Y и X независимы, то из этого непо- средственно следует, что f(y\x) — f(y). Из определения, данного выше, следует соотношение f(y,x) = f(y\x)f(x), которое говорит, что совместное распределение двух случайных переменных можно разложить на произведение условного и частного (маргинального) распределения. Аналогично мы можем написать v{9} = f(y,x) = f(y\x)f(y),
В.5. Условные распределения 585 Условное математическое ожидание случайной переменной Y для данного значения переменной X — х является математическим ожиданием условного распределения Y. То есть, E{Y\X = x} = Jyf(y\x)dy. Условное математическое ожидание является функцией х, если толь- ко переменные Y и X не являются независимыми. Аналогично мы можем определить условную дисперсию как V{Y\x} = J (у - E{Y\x}ff{y\x) dy, которую можно написать в виде V{Y\x) = E{Y2\x] - (E{Y\x}f. Справедливо, что V{Y} = EX{V{Y\X}} + VX{E{Y\X}}, где Ex и Vx обозначают математическое ожидание и дисперсию, соответственно, на основе маргинального распределения перемен- ной X. Члены У{У|Х} и £?{У|Х} являются функциями случайной переменной X и поэтому эти члены сами являются случайными переменными. Рассмотрим соотношение между двумя случайными перемен- ными Y и X, где E{Y} = 0. Тогда отсюда следует, что переменные Y и X являются некоррелированными, если E{YX} = cov{Y,X} = 0. Если переменная Y (при EY = 0) является условно независимой в среднем от переменной X, то это означает, что E{Y\X} - E{Y} = 0. Это условие более строгое, чем нулевая корреляция, поскольку i?{y|X} = 0 предполагает, что E{Yg(X)} = 0 для любой функ- ции д. Если переменные Y и X независимы, то снова это условие более строгое, и оно означает, что E{9l{Y)g2{X)} = E{9l(Y)}E{g2(X)} для произвольных функций ji и й- Легко проверить, что это условие предполагает условную независимость в среднем и нулевую корреляцию. Отметим, что ^JFIX} = 0 необязательно означает, что E{X\Y} = 0.
586 В. Теория статистики и теория распределений В.6. Нормальное распределение В эконометрике нормальное распределение играет центральную роль. Функция плотности для нормального распределения со сред- ним ji и дисперсией а2 имеет вид Vb^2 12 а2 Этот факт обычно обозначается как Y ~ Л/"(/х, с2). Легко проверить, что нормальное распределение является симметрическим. Стандарт- ное нормальное распределение получается, если \i — 0 и а = 1. Отме- тим, что стандартизированная переменная (Y — \i)j(J распределена, как Л/*@,1), если Y ~ Л/*(/х, а2). Плотность стандартного нормаль- ного распределения, как правило, обозначаемая 0, имеет вид 0(y) = J=exp{-iy2 Полезное свойство нормального распределения состоит в том, что линейная функция от нормальной переменной является также нор- мальной. Таким образом, если Y ~ Л/"(/х, а2) тогда aY + Ь ~ Л/*(а/х + 6, а2а2). Кумулятивная функция плотности нормального распределения вы- ражается в виде (у-^)/сг — оо где Ф обозначает кумулятивную функцию плотности стандартного нормального распределения. Отметим, что Ф(у) = 1 — Ф(—у) из-за симметрии. Симметрия также подразумевает, что третий центральный мо- мент нормального распределения равен нулю. Можно показать, что четвертый центральный момент нормального распределения имеет вид Отметим, что это подразумевает это правило, эти свойства третьего и четвертого центральных моментов используются в тестах проверки нормальности распределения.
В.6. Нормальное распределение 587 Если вектор (У, X)' имеет двумерное нормальное распреде- ление с вектором средних ц = (//у, цх)' и ковариационной матрицей Е = ( Gl Gv* \ ? обозначаемое, как (У, X/ ~ Л/*(/х, Е), то функция совместной плот- ности распределения имеет вид f(y,x) = f(y\x)f(x), где как условная плотность переменной Y при условии заданной переменной X, так и маргинальная плотность X являются нор- мальными. Условная функция плотности задается как 1 Г 1 (У - ^у|х) /(У|я) = / ехР <\ ~ о / 2ТГG 2 3/| а: 1 ^1. /' где /ху|х — условное математическое ожидание переменной Y для данного X, имеет вид ^х а а \х — условная дисперсия переменной Y для данного X, 2 2 2 ^уя 2/1 2 \ °"г/|х = °"у - ~л = ауУ1 ~ Ру*)' U X с рух? обозначающим коэффициент корреляции между переменными Y и X. Эти результаты имеют некоторые важные следствия. Во- первых, если две (или больше) переменных имеют совместное нор- мальное распределение, то все маргинальные и условные распреде- ления также нормальны. Во вторых, условное математическое ожи- дание одной переменной при заданном значении другой(их) перемен- ной является линейной функцией (со свободным членом). В-третьих, если рух — 0, то из этого следует, что f(y\x) = f(y), так что ну\х) = mm, и переменные Y и X независимы. Таким образом, если переменные Y и X имеют совместное нормальное распределение с нулевой кор- реляцией, тогда, они автоматически независимы. Вспомним, что в общем случае для независимости имеется более строгое требование, чем некоррелированность.
588 В. Теория статистики и теория распределений Другой важный результат состоит в том, что линейная функция от нормальных переменных является также нормальной, то есть, если (У, X)f ~ Л/*(/х, Е), тогда aY + ЬХ ~ Я{aiiy + Ъцх, a2a* + Ь2а2х + 2abayx). Эти результаты можно обобщить на if-мерное нормальное распре- деление. Если К -мерный вектор имеет нормальное распределение с вектором средних \i и ковариационной матрицей Е, то есть У-Л/^Е), то справедливо, что распределение ЯУ, где R — J x К матрица, является J-мерным нормальным распределением, заданным как*) BY ~N{R^RY>R'). В моделях с ограниченными зависимыми переменными мы часто сталкиваемся с формами усечения. Если случайная переменная Y имеет плотность /(у), то распределение У, усеченное снизу в данной точке с (Y > с), дают f ( \ f(y\Y > с) = г г? если у > с, и 0 в противном случае. P{Y > с\ Если Y — стандартная нормальная переменная, усеченное распре- деление Y > с имеет среднее значение E{Y\Y>c} = X1(c), где Л1(с)= Ф{С) 1 - Ф(с)' и дисперсию V{y|y>c} = l-Ai(c)[Ai(c)-c]. Если распределение усечено выше (Y < с), то справедливо, что E{Y\Y<c} = \2(c), ш = ~ф{с) Ф(с) *' Это утверждение справедливо при условии, что матрица преобразования (R) является матрицей полного ранга (примеч. научн. ред. перевода).
В.7. Распределения, связанные с нормальным распределением 589 Если Y имеет нормальную плотность со средним /х и дисперсией а2, то усеченное распределение Y > с имеет среднее значение E{Y\Y>c} = v + a\1(c*) >//, где с" — {с — n)jo■, и, точно так же E{Y\Y <с}-/х + аЛ2(с*) <//, Когда вектор (У < X)' имеет двумерное нормальное распределение, как и выше, мы получаем, что E{Y\X >с} = 1лу + Ц-[Е{Х\Х > с} - цх] = цУ + ^Ai(c*). Подробности можно найти в книге (Vaddala, 1983, Appendix). В.7. Распределения, связанные с нормальным распределением Помимо нормального распределения важными являются несколько других распределений. Сначала, мы определим хи-квадрат рас- пределение следующим образом. Если Yi,... , Yj — совокупность независимых стандартных нормальных переменных, то справедливо, что имеет хи-квадрат распределение с J степенями свободы. Мы обозна- чим £ ~ х j • Более обще, если Y\,... , Y3-, — совокупность независимых нормальных переменных со средним /х и дисперсией сг2, то тогда следует, что 3 = 1 имеет хи-квадрат распределение с J степенями свободы. Более об- ще, если Y = (Fi,... , YjY — вектор случайных переменных, который имеет совместное нормальное распределение с вектором средних /х и (невырожденной) ковариационной матрицей Е, то из этого следует, что
590 В. Теория статистики и теория распределений Если £ имеет хи-квадрат распределение с J степенями свободы, то справедливо, что Е{£} = J и V{£} = 2J. Теперь рассмотрим t -распределение (или распределение Стью- дента). Если X имеет стандартное нормальное распределение, X ~ Л/*@,1), и £ ~ %j, и если X и £ независимы, то отношение _ X имеет t-распределение с J степенями свободы. Как и стандартное нормальное распределение, i-распределение является симметриче- ским около нуля, но оно имеет более тяжелые хвосты, особенно для малых J. Если J стремится к бесконечности, то ^-распределение стремится к нормальному распределению. Если £i ~ Xj и £2 ~ Xj, и если £i и £2 независимы, то отношение f = 6M 1 ЫЗч имеет F-распределение с J\ и J2 степенями свободы в числителе и знаменателе соответственно. Из этого легко следует, что обратное отношение также имеет F-распределение, но с J2 и J\ степенями свободы соответственно. Таким образом, F-распределение является распре- делением отношения двух независимых хи-квадрат разделенных пе- ременных, деленных на их соответствующие степени свободы. Если J\ — 1, то £i — квадрат нормальной переменной, скажем, £i = X , и из этого следует, что Таким образом, F-распределение с одной степенью свободы числи- теля является просто квадратом t-распределения. Если J2 является большим, то распределение хорошо аппроксимируется хи-квадрат распределением с J\ степеня- ми свободы. Таким образом, для большого J2 знаменатель прене- брежимо мал.
В.7. Распределения, связанные с нормальным распределением 591 И, наконец, мы рассмотрим логарифмически нормальное распределение. Если log У имеет нормальное распределение со средним jjl и дисперсией а2, тогда Y > 0 имеет так называемое ло- гарифмически нормальное распределение. Плотность логарифмиче- ски нормального распределения часто используется, чтобы описать распределение генеральной совокупности (трудового) дохода или распределения доходностей активов (см. Campbell, Lo, MacKinlay, 1997). Если E{\ogY} = ц, то справедливо, что £{У} = ехр{м+^т2} (сравните с неравенством Иенсена выше).
Литература Akaika H. A973). Information Theory and an Extension of the Maximum Likelihood Principle. In: B. N. Petrov and F. Cszaki, eds., Second Interna- tional Symposium on Information Theory, Akademiai Kiado, Budapest, 267-281. Amemiya T. A981). Qualitative Response Models: A Survey. Journal of Economic Literature, 19, 1483-1536. Amemiya T. A984). Tobit Models: A Survey. Journal of Econometrics, 24, 3-61. Amemiya Т., MaCurdy T. A986). Instrumental-Variable Estimation of an Error- Components Model. Econometrica, 54, 869-881. Andersen E. B. A970). Asymptotic Properties of Conditional Maximum Like- lihood Estimation. Journal of the Royal Statistical Society, Series B, 32, 283-301. Anderson T. W., Hsiao C. A981). Estimation of Dynamic Models with Error Components. Journal of the American Statistical Association, 76, 598- 606. Andrews D. W. K., Schafgans M. A. A998). Semiparametric Estimation of the Intercept of a Sample Selection Model. Review of Economic Studies, 63, 497-517. Anglin P.M., Gencay R. A996). Semiparametric Estimation of a Hedonic Price Function. Journal of Applied Econometrics, 11, 633-648. Angrist J. D., Krueger A. B. A991). Does Compulsory School Attendance Affect Schooling and Earnings? Quarterly Journal of Economics, 106, 979-1014.
Литература 593 Arellano M. A987). Computing Robust Standard Errors for Within-Groups Estimators. Oxford Bulletin of Economics and Statistics, 49, 431-434. Arellano M., Bond S. A991). Some Tests of Specification for Panel Data: Monte Carlo Evidence and an Application to Employment Equations. Review of Economic Studies, 58, 277-294. Arellano M., Bover O. A995). Another Look at the Instrumental Variable Estimation of Error-Components Models. Journal of Econometrics, 68, 29-51. Atkinson А. В., Gomulka J., Stern N. H. A990). Spending on Alcohol: Evidence from the Family Expenditure Survey 1970-1983. Economic Journal, 100, 808-827. Baltagi В. Н. A995). Econometric Analysis of Panel Data. John Wiley and Sons, New York. Baltagi B. H. A996). Specification Issues. In: L. Matyas and P. Sevestre, eds., The Econometrics of Panel Data. A Handbook of the Theory with Applications, 2nd revised edition, Kluwer Academic Publishers, Dordrecht, 293-306. Banerjee A., Dolado J., Galbraith J. W. and Hendry D. F. A993). Co- Integration, Error-Correction, and the Econometric Analysis of Non- Stationary Data. Oxford University Press. Banks J., Blundell R., Lewbel A. A997). Quadratic Engel Curves and Consumer Demand. Review of Economics and Statistics, 74, 527-539. Banz R. A981). The Relation between Returns and Market Value of Common Stocks. Journal of Financial Economics, 9, 3-18. Bera A. K., Higgins M. L. A993). ARCH Models: Properties, Estimation and Testing. Journal of Economic Surveys, 7, 305-366. Bera A. K., Jarque C. M., Lee L. F. A984). Testing the Normality Assumption in Limited Dependent Variable Models. International Economic Review, 25, 563-578. Berndt E. R. A991). The Practice of Econometrics, Classic and Contemporary. Addison-Wesley, Reading. Berndt E. R., Hall B. H., Hall R.E., Hausman J. A. A974). Estimation and Inference in Nonlinear Structural Models. Annals of Economic and Social Measurement, 3, 653-665. Bhargava A., Franzini L., Narendranathan W. A983). Serial Correlation and the Fixed Effects Model. Review of Economic Studies, 49, 533-549. Blundell R., Bond S. A998). Initial Conditions and Moment Restrictions in Dynamic Panel Data Models. Journal of Econometrics, 87, 115-143. Bollerslev T. A986). Generalized Autoregressive Conditional Heteroskedastic- ity. Journal of Econometrics, 31, 307-327.
594 Литература Bollerslev Т., Chou R. Y., Kroner K. F. A992). ARCH Modeling in Finance. A Review of the Theory and Empirical Evidence. Journal of Econometrics, 52, 5-59. Bollerslev Т., Engle R. F., Nelson D. B. A994). ARCH Models. In: R. F. Engle and D. L. McFadden, eds., Handbook of Econometrics, Volume IV, Elsevier Science, Amsterdam, 2961-3038. Boswijk H. P. A999). Asymptotic Theory for Integrated Processes. Oxford University Press, Oxford. Box G. E. P., Jenkins G. M. A976). Time Series Analysis: Forecasting and Control. Revised edition, Holden-Day. Breusch T. A978). Testing for Autocorrelation in Dynamic Linear Models. Australian Economic Papers, 17, 334-355. Breusch Т., Pagan A. A980). A Simple Test for Heteroskedasticity and Random Coefficient Variation. Econometrica, 47, 1287-1294. Breusch Т., Mizon G., Schmidt P. A989). Efficient Estimation Using Panel Data. Econometrica, 57, 695-700. Butler J. S., Moffitt R. A982). A Computationally Efficient Quadrature Procedure for the One-Factor Multinomial Probit Model. Econometrica, 50, 761-764. Cameron A. C, Trivedi P. K. A998). Regression Analysis of Count Data. Cambridge University Press. Cameron A. C, Windmeijer F. A. G. A997). An -squared Measure of Goodness of Fit for Some Common Nonlinear Regression Models. Journal of Econometrics, 77, 329-342. Campbell J. Y., Shiller R. A991). Yield Spreads and Interest Rate Movements: A Bird's Eye View. Review of Economic Studies, 58, 495-514. Campbell J. Y., Lo A. W., MacKinlay A. C. A997). The Econometrics of Financial Markets. Princeton University Press, Princeton. Canova F. A995). The Economics of VAR Models. In: K.D.Hoover, ed., Macroeconometrics: Developments, Tensions and Prospects, Kluwer Aca- demic Publishers, Boston, 57-97. Card D. A995). Using Geographical Variation in College Proximity to Es- timate the Return to Schooling. In: L. N. Christofides, E. K. Grant and R. Swidinsky, eds., Aspects of Labour Market Behaviour: Essays in Hon- our of John Vanderkamp, University of Toronto Press, Toronto, 201-222. Card D. A999). The Causal Effect of Education on Earnings. In: O. Ashenfelter and D. Card, eds., Handbook of Labor Economics, Volume IIIA, Elsevier Science, Amsterdam. Carhart M. M. A997). On Persistence in Mutual Fund Performance. Journal of Finance, 52, 57-82.
Литература 595 Carroll J. D., Green P. E. A995). Psychometric Methods in Marketing Re- search: Part 1 Conjoint Analysis. Journal of Marketing Research, 32, 385-391. Chamberlain G. A980). Analysis of Covariance with Qualitative Data. Review of Economic Studies, 47, 225-238. Charemza W. W., Deadman D. F. A992). New Directions in Econometric Practice. General to Specific Modelling, Cointegration and Vector Au- toregression, Edward Elgar, Aldershot. Cochrane D., Orcutt G. A949). Application of Least Squares Regression to Relationships Containing Autocorrelated Error Terms. Journal of the American Statistical Association, 44, 32-61. Cochrane J. H. A996). A Cross-Sectional Test of an Investment-Based Asset Pricing Model. Journal of Political Economy, 104, 572-621. Corbae D., Ouliaris S. A988). Cointegration and Tests of Purchasing Power Parity. Review of Economics and Statistics, 70, 508-511. Cuthbertson K., Hall S. G., Taylor M. P. A992). Applied Econometric Tech- niques. Philip Allan, Hemel Hempstead. Davidson R., MacKinnon J. G. A981). Several Tests for Model Specification in the Presence of Alternative Hypotheses. Econometrica, 49, 781-793. Davidson R., MacKinnon J. G. A993). Estimation and Inference in Econo- metrics. Oxford University Press. Deaton A., Muellbauer J. A980). Economics and Consumer Behavior. Cam- bridge University Press, Cambridge. Diamond P. A., Hausman J. A. A994). Contingent Valuation: Is Some Number Better than No Number? Journal of Economics Perspectives, 8, 45-64. Dickey D. A., Fuller W. A. A979). Distribution of the Estimators for Au- toregressive Time Series with a Unit Root. Journal of the American Statistical Association, 74, 427-431. Diebold F.X. A998). Forecasting. South-Western College Publishing, Cincin- nati, Ohio. Diebold F. X., Lopez J. A. A995). Modeling Volatility Dynamics. In: K. D. Hoo- ver, ed., Macroeconometrics: Developments, Tensions and Prospects, Kluwer Academic Publishers, Boston, 427-466. Durbin J., Watson G. A950). Testing for Serial Correlation in Least Squares Regression - I. Biometrika, 37, 409-428. Eicker F. A967). Limit Theorems for Regressions with Unequal and De- pendent Errors. In: L. LeCam and J. Neyman, eds., Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, Berkeley, 59-82. Elton E. J., Gruber M.J. A995). Modern Portfolio Theory and Investment Analysis. 5th edition, John Wiley and Sons, New York.
596 Литература Enders W. A995). Applied Econometric Time Series. John Wiley and Sons, New York. Engle R. F. A982). Autoregressive Conditional Heteroskedasticity with Esti- mates of the Variance of United Kingdom Inflation. Econometrica, 50, 987-1007. Engle R. F. A984). Wald, Likelihood Ratio and Lagrange Multiplier Tests in Econometrics. In: Z. Griliches and M. D. Intriligator, eds., Handbook of Econometrics, Volume II, Elsevier Science, Amsterdam, 775-826. Engle R. F., Bollerslev T. A986). Modelling the Persistence of Conditional Variances. Econometric Reviews, 5, 1-50. Engle R. F., Granger C.W.J. A987). Cointegration and Error Correction: Representation, Estimation and Testing. Econometrica, 55, 251-276. Engle R. F., Ng V. K. A993). Measuring and Testing the Impact of News on Volatility. Journal of Finance, 48, 1749-1778. Engle R. F., Yoo B. S. A987). Forecasting and Testing in Co-Integrated Systems. Journal of Econometrics, 35, 143-159. Engle R. F., Hendry D. F., Richard J.-F. A983). Exogeneity. Econometrica, 51, 277- 304. Engle R. F., Lilien D. M., Robins R. P. A987). Estimating Time Varying Risk Premia in the Term Structure: The ARCH-M Model. Econometrica, 55, 591-407. Fama E. F. A970). Efficient Capital Markets: A Review of the Theory and Empirical Work. Journal of Finance, 25, 383-417. Fama E. F., French K. R. A988). Permanent and Temporary Components of Stock Prices. Journal of Political Economy, 81, 246-273. Frankel J. A993). On Exchange Rates. MIT Press, Cambridge. Franses P. H. B. F. A998). Time Series Models for Business and Economic Forecasting. Cambridge University Press, Cambridge. Froot K. A., Rogoff K. A996). Perspectives on PPP and Long-run Exchange Rates. In: S. Grossman and K. Rogoff, eds., Handbook of International Economics, Volume III, Elsevier Science, Amsterdam. Fuller W. A. A976). Introduction to Statistical Time-Series. John Wiley & Sons, New York. Glewwe P. A997). A Test of the Normality Assumption in the Ordered Probit Model. Econometric Reviews, 16, 1-19. Godfrey L. A978). Testing against General Autoregressive and Moving Av- erage Error Models when the Regressors Include Lagged Dependent Variables. Econometrica, 46, 1293-1302. Godfrey L. A988). Misspecification Tests in Econometrics. The Lagrange Multiplier Principle and Other Approaches. Cambridge University Press, Cambridge.
Литература 597 Goldfeld S., Quandt R. A965). Some Tests for Homoskedasticity. Journal of the American Statistical Association, 60, 539-547. Gourieroux C, Monfort A., Trognon A. A984). Pseudo-maximum Likelihood Methods: Theory. Econometrica, 42, 681-700. Gourieroux C, Monfort A., Renault E., Trognon A. A987). Generalized Residuals. Journal of Econometrics, 34, 5-32. Granger C.W.J. A983). Co-Integrated Variables and Error-Correcting Mod- els. Unpublished Discussion Paper 83-13, University of California, San Diego. Granger C.W. J., Newbold P. A974). Spurious Regressions in Econometrics. Journal of Econometrics, 35, 143-159. Greene W. H. A997). Econometric Analysis. 3rd edition, Prentice Hall. Greene W. H. B000). Econometric Analysis. 4th edition. Prentice Hall. Gregory A. W., Veall M. R. A985). On Formulating Wald Tests of Nonlinear Restrictions. Econometrica, 53, 1465-1468. Griliches Z. A977). Estimating the Returns to Schooling: Some Econometric Problems. Econometrica, 45, 1-22. Gronau R. A974). Wage Comparisons: A Selectivity Bias. Journal of Political Economy, 82, 1119-1143. Hall A. A993). Some Aspects of Generalized Method of Moments Estimation. In: G. S. Maddala, C. R. Rao and H. D. Vinod, eds., Handbook of Statis- tics, Volume XI, Elsevier Science, Amsterdam, 393-417. Hamilton J. D. A994). Time Series Analysis. Princeton University Press, Princeton. Hanemann W. M. A994). Valueing the Environment through Contingent Valuation. Journal of Economic Perspectives, 8, 19-44. Hannan E.J. A980). The Estimation of the Order of an ARMA Process. Annals of Statistics, 8, 1071-1081. Hansen L. P. A982). Large Sample Properties of Generalized Method of Moments Estimators. Econometrica, 50, 1029-1054. Hansen L. P., Singleton K. A982). Generalized Instrumental Variables Esti- mation of Nonlinear Rational Expectations Models. Econometrica, 50, 1269-1286. Hargreaves С P. A994). A Review of Methods of Estimating Cointegrating Relationships. In: C. P. Hargreaves, ed., Nonstationary Time Series Anal- sysis and Cointegration, Oxford University Press, Oxford. Harris R. D. F., Tzavalis E. A999). Inference for Unit Roots in Dynamic Panels Where the Time Dimension is Fixed. Journal of Econometrics, 91, 201-226. Harris R. I. D. A995). Using Cointegration Analysis in Econometric Modelling. Prentice Hall-Harvester Wheatsheaf, London.
598 Литература Hasza D. P., Fuller W. A. A979). Estimation for Autoregressive Processes with Unit Roots. Annals of Statistics, 7, 1106-1120. Hausman J. A. A978). Specification Tests in Econometrics. Econometrica, 46, 1251- 1271. Hausman J. A., Taylor W. E. A981). Panel Data and Unobservable Individual Effects. Econometrica, 49, 1377-1398. Hausman J. A., Wise D. A. A979). Attrition Bias in Experimental and Panel Data: The Gary Income Maintenance Experiment. Econometrica, 47, 455-473. Heckman J. J. A978). Simple Statistical Models for Discrete Panel Data De- veloped and Applied to Test the Hypothesis of True State Dependence against the Hypothesis of Spurious State Dependence. Annales de l'IN- SEE, 30/31, 227-269. Heckman J.J. A979). Sample Selection Bias as a Specification Error. Econo- metrica, 47, 153-161. Heckman J. J. A981). The Incidental Parameters Problem and the Problem of Initial Conditions in Estimating a Discrete Time-Discrete Data Stochastic Process. In: C. F. Manski and D. F. McFadden, eds., Structural Analysis of Discrete Data with Econometric Applications, MIT Press, Cambridge, 179-195. Heckman J. J. A990). Varieties of Selection Bias. American Economic Review, 80, 313-318. Hildreth C, Lu J. A960). Demand Relations with Autocorrelated Distur- bances. Technical Bulletin No. 276, Michigan State University. Hoffman D. L., Rasche R. H. A996). Assessing Forecast Performance in a Cointegrated System. Journal of Applied Econometrics, 11, 495-517. Honore В. Е A992). Trimmed LAD and Least Squares Estimation of Truncated and Censored Regression Models with Fixed Effects. Econometrica, 60, 533-565. Honore В. Е A993). Orthogonality Conditions for Tobit Models with Fixed Effects and Lagged Dependent Variables. Journal of Econometrics, 59, 35-61. Horowitz J. L. A992). A Smoothed Maximum Score Estimator for the Binary Response Model. Econometrica, 60, 505-531. Horowitz J. L. A993). Semiparametric and Nonparametric Estimation of Quantile Response Models. In: G. S. Maddala, С R. Rao and H. D. Vinod, eds., Handbook of Statistics, Volume XI, Elsevier Science, Amsterdam. Horowitz J. L. A998). Semiparametric Methods in Econometrics. Springer- Verlag, New York. Hsiao C. A985). Benefits and Limitations of Panel Data. Econometric Reviews, 4, 121-174. Hsiao C. A986). Analysis of Panel Data. Cambridge University Press.
Литература 599 Im К., Pesaran M. H., Shin Y. A997). Testing for Unit Roots in Heterogeneous Panels. Discussion Paper, Department of Applied Economics, University of Cambridge, Cambridge. Isard P. A995). Exchange Rate Economics. Cambridge University Press. Jarque C. M., Bera A. K. A980). Efficient Tests for Normality, Homoskedastic- ity and Serial Independence of Regressions Residuals. Economics Letters, 6, 255-259. Johansen S. A988). Statistical Analysis of Cointegration Vectors. Journal of Economic Dynamics and Control, 12, 231-254. Johansen S. A991). Estimation and Hypothesis Testing of Cointegrating Vectors in Gaussian Vector Autoregressive Models. Econometrica, 59, 1551-1580. Johansen S. A995). Likelihood-Based Inference in Cointegrated Vector Au- toregressive Models. Oxford University Press, Oxford. Johansen S., Juselius K. A990). Maximum Likelihood Estimation and Infer- ence on Cointegration — with Applications to the Demand for Money. Oxford Bulletin of Economics and Statistics, 52, 169-210. Johnston J., Dinardo J. A997). Econometric Methods. 4th edition, McGraw- Hill, New York. Judge G. G., Hill R. C, Griffiths W. E., Liitkepohl H., Lee T. S. A988). Introduction to the Theory and Practice of Econometrics. 2nd edition, John Wiley and Sons, New York. Kao С A999). Spurious Regression and Residual-Based Tests for Cointegra- tion in Panel Data. Journal of Econometrics, 90, 1 -44. Keane M. P. A993). Simulation Estimation for Panel Data Models with Lim- ited Dependent Variables. In: G. S. Maddala, C. R. Rao and H. D. Vinod, eds., Handbook of Statistics, Volume XI, Elsevier Science, Amsterdam, 545-571. Keane M. P., Moffitt R., Runkle D. A988). Real Wages over the Business Cycle: Estimating the Impact of Heterogeneity with Micro Data. Journal of Political Economy, 96, 1232-1266. Kmenta J. A986). Elements of Econometrics. MacMillan, New York. Konings J., Roodhooft F. A997). How Elastic is the Demand for Labour in Belgian Enterprises? Results from Firm Level Panel Data. 1986-1994, De Economist, 145, 229-241. Kwiatkowski D., Phillips P. СВ., Schmidt P., Shin Y. A992). Testing the Null Hypothesis of Stationarity Against the Alternative of a Unit Root: How Sure Are We That Economic Time Series Have a Unit Root? Journal of Econometrics, 54, 159-178. Lafontaine F., White K. J. A986). Obtaining Any Wald Statistic You Want. Economics Letters, 21, 35-40. Learner E. A978). Specification Searches. John Wiley and Sons, New York.
600 Литература Lee L. F., Maddala G. S. A985). The Common Structure of Tests for Selectivity Bias, Serial Correlation, Heteroskedasticity and Non-Normality in the Tobit Model. International Economic Review, 26, 1-20. Lee M. J. A996). Methods of Moments and Semiparametric Econometrics for Limited Dependent Variable Models. Springer-Verlag, New York. Leung S. F., Yu S. A996). On the Choice Between Sample Selection and Two-Part Models. Journal of Econometrics, 72, 197-229. Levin A., Lin C.-F. A993). Unit Root Tests in Panel Data: New Results. Discussion Paper, Department of Economics, University of San Diego. Lin J.-L., Tsay R. S. A996). Co-Integration Constraint and Forecasting: An Empirical Examination. Journal of Applied Econometrics, 11, 519-538. Little R.J. A., Rubin D. B. A987). Statistical Analysis with Missing Data. John Wiley and Sons, New York. Ljung G. M., Box G. E. P. A978). On a Measure of Lack of Fit in Time Series Models. Biometrika, 65, 297-303. Lo A., MacKinlay C. A990). Data-Snooping Biases in Tests of Financial Asset Pricing Models. Review of Financial Studies, 3, 431-468. Louviere J.J. A988). Conjoint Analysis Modeling of Stated Preferences. A Review of Theory, Methods, Recent Developments and External Validity, Journal of Transport Economics and Policy, 22, 93-119. Lovell M. C. A983). Data Mining. Review of Economics and Statistics, 65, 1-12. Liitkepohl H. A991). Introduction to Multiple Time Series Analysis. Springer- Verlag, Berlin. MacKinnon J. G. A991). Critical Values for Cointegration Tests. In: R. F. En- gle and C. W. J. Granger, eds., Long-Run Economic Relationships: Read- ings in Cointegration, Oxford University Press, 267-276. MacKinnon J. G., White H., Davidson R. A983). Test for Model Specification in the Presence of Alternative Hypotheses: Some Further Results. Journal of Econometrics, 21, 53-70. Maddala G. S. A983). Limited-Dependent and Qualitative Variables in Econo- metrics. Cambridge University Press, Cambridge. Maddala G. S. A987). Limited Dependent Variable Models Using Panel Data. The Journal of Human Resources, 22, 307-338. Maddala G. S. A992). Introduction to Econometrics. 2nd edition, Prentice- Hall, Englewood Cliffs. Manski C. F. A975). Maximum Score Estimation of the Stochastic Utility Model of Choice. Journal of Econometrics, 3, 205-228. Manski C. F. A985). Semiparametric Analysis of Discrete Response. Journal of Econometrics, 27, 313-333. Manski C. F. A989), Anatomy of the Selection Problem, The Journal of Human Resources, 24, 243-260.
Литература 601 Manski С. F. A994). The Selection Problem. In: C.A.Sims, ed., Advances in Econometrics, Sixth World Congress, Volume I. Cambridge University Press, Cambridge, 143-170. Marquering W., Verbeek M. A999). An Empirical Analysis of Intertemporal Asset Pricing Models with Transactions Costs and Habit Persistence. Journal of Empirical Finance, 6, 243-265. Matyas L., Sevestre P. A996), eds.. The Econometrics of Panel Data. A Handbook of the Theory with Applications, 2nd revised edition, Kluwer Academic Publishers, Dordrecht. McCall B.P. A995). The Impact of Unemployment Insurance Benefit Levels on Recipiency. Journal of Business and Economic Statistics, 13, 189-198. McCulloch J.H., Kwon H.C. A993). U.S. Term Structure Data, 1947-1991, Ohio State working paper 93-6, Ohio State University, Columbus, OH. McFadden D. F. A974). Conditional Logit Analysis of Qualitative Choice Behavior. In: P. Zaremba, ed., Frontiers in Econometrics, Academic Press, New York, 105- 142. Mehra R., Prescott E. A985). The Equity Premium: A Puzzle. Journal of Monetary Economics, 15, 145-161. Melenberg В., van Soest A. A993). Semiparametric Estimation of the Sample Selection Model. CentER Discussion Paper 9334, Tilburg University. Mills T.C. A990). Time Series Techniques for Economists. Cambridge Uni- versity Press,Cambridge. Mizon G. E. A984). The Encompassing Approach in Econometrics. In: K. F. Wallis and D. F. Hendry, eds., Quantitative Economics and Econo- metric Analysis, Basil Blackwell, Oxford, 135-172. Mizon G. E., Richard J. F. A986). The Encompassing Principle and its Application to Testing Non-Nested Hypotheses. Econometrica, 54, 657- 678. Mundlak Y. A961). Empirical Production Function Free of Management Bias. Journal of Farm Economics, 43, 44-46. Nelson C.R, Plosser C.I. A982). Trends and Random Walks in Macro- economic Time Series: Some Evidence and Implications. Journal of Monetary Economics, 10, 139-162. Nelson D. A990). Conditional Heteroskedasticity in Asset Returns: A New Approach. Econometrica, 59, 347-370. Newey W. K. A985). Maximum Likelihood Specification Testing and Condi- tional Moment Tests. Econometrica, 53, 1047-1070. Newey W. K., West K. A987). A Simple Positive Semi-Definite, Heteroskedas- ticity and Autocorrelation Consistent Covariance Matrix. Econometrica, 55, 703-708.
602 Литература Newey W. К., Powell J. L., Walker J. R. A990). Semiparametric Estimation of Selection Models: Some Empirical Results. American Economic Review, 80, 324- 328. Nickell S. A981). Biases in Dynamic Models with Fixed Effects. Econometrica, 49, 1417-1426. Nijman Th. E. A990). Estimation of Models Containing Unobserved Rational Expectations. In: F. van der Ploeg, ed., Advanced Lectures in Quantative Economics, Academic Press, London. Nijman Th. E., Verbeek M. A990). Estimation of Time Dependent Parameters in Linear Models Using Cross Sections, Panels or Both. Journal of Econometrics, 46, 333-346. Nijman Th. E., Verbeek M. A992). Nonresponse in Panel Data: The Impact on Estimates of a Life Cycle Consumption Function. Journal of Applied Econometrics, 7. 243-257. Pagan A., Ullah A. A999). Nonparametric Econometrics. Cambridge Univer- sity Press, Cambridge. Pagan A., Vella F. A989). Diagnostic Tests for Models Based on Individual Data:A Survey. Journal of Applied Econometrics, 4, S29-S59. Pagan A., Hall A. D., Martin V. A996). Modeling the Term Structure. In: G. S. Maddala and C. R. Rao, eds., Handbook of Statistics, Volume XIV, Elsevier Science, Amsterdam, 91-118. Pesaran M.H., Smith R. A995). Estimation of Long-Run Relationships from Dynamic Heterogeneous Panels. Journal of Econometrics, 68, 79-113. Pesaran M. H., Shin Y., Smith R.J. B000). Structural Analysis of Vec- tor ErrorCorrection Models with Exogenous 1A) Variables. Journal of Econometrics, 97, 293-343. Phillips P. С. В. A986). Understanding Spurious Regressions in Econometrics. Journal of Econometrics, 33, 311-340. Phillips P. С. В., Moon H. R. A999). Linear Regression Limit Theory for Nonstationary Panel Data. Econometrica, 67, 1057-1111. Phillips P. С. В., Park J. Y. A988). On the Formulation of Wald Tests of Nonlinear Restrictions. Econometrica, 56, 1065-1083. Phillips P. С. В., Perron P. A988). Testing for a Unit Root in Time Series Regression. Biometrika, 75, 335-346. Portney P. R. A994). The Contingent Valuation Debate: Why Should Econo- mists Care? Journal of Economic Perspectives, 8, 3-18. Prais S., Winsten C. A954). Trend Estimation and Serial Correlation. Cowles Commission Discussion Paper 383, Chicago. Quah D. A994). Exploiting Cross-Section Variation for Unit Root Inference in Dynamic Data. Economics Letters, 44, 9-19.
Литература 603 Ramsey J. В. A969). Tests for Specification Errors in Classical Linear Least Squares Regression Analysis. Journal of the Royal Statistical Society B, 32, 350-371. Robertson D., Symons J. A992). Some Strange Properties of Panel Data Estimators. Journal of Applied Econometrics, 7, 175-189. Robinson P. M. A982). On the Asymptotic Properties of Estimators of Models Containing Limited Dependent Variables. Econometrica, 50, 27-41. Rosen S. A974). Hedonic Prices and Implicit Markets: Product Differentiation in Perfect Competition. Journal of Political Economy, 82, 34-55. Rubin D.B. A976). Inference and Missing Data. Biometrika, 63, 581-592. Ruud P. A. A984). Test of Specification in Econometrics. Econometric Re- views, 3, 211-242. Said S. E., Dickey D. A. A984). Testing for Unit Roots in Autoregressive Moving Average Models of Unknown Order. Biometrika, 71, 599-607. Sargan J. D., Bhargava A. S. A983). Testing Residuals from Least Squares Regression for Being Generated by the Gaussian Random Walk. Econo- metrica, 51, 213-248. Savin N. E., White K. J. A977). The Durbin—Watson Test for Serial Correla- tion with Extreme Sample Sizes or Many Regressors. Econometrica, 45, 1989-1996. Schwarz G. A978). Estimating the Dimension of a Model. Annals of Statistics, 6, 461-464. Sims C. A. A980). Macroeconomics and Reality. Econometrica, 48, 1-48. Stewart J., Gill L. A998). Econometrics. 2nd edition. Prentice Hall, London. Stoll H. R., Whaley R. E. A993). Futures and Options. Theory and Applica- tions. South-Western Publishing Co., Cincinnati, Ohio. Sullivan R., Timmermann A., White H. A998). Dangers of Data-Driven Inference: The Case of Calendar Effects in Stock Returns. Discussion Paper, University of California, San Diego. Tauchen G. E. A985). Diagnostic Testing and Evaluation of Maximum Like- lihood Models. Journal of Econometrics, 30, 415-443. Ter Horst J. R., Nijman Th. E., Verbeek M. A998). Eliminating Biases in Evaluating Mutual Fund Performance from a Survivorship Free Sample, CentER Discussion Paper 9855, CentER, Tilburg University. Theil H. A953). Repeated Least Squares Applied to Complete Equation Systems, mimeo, Central Planning Bureau, The Hague. Tobin J. A958). Estimation of Relationships for Limited Dependent Variables. Econometrica, 26, 24-36. Vella F. A998). Estimating Models with Sample Selection Bias: A Survey. Journal of Human Resources, 33, 127-169.
604 Литература Vella F., Verbeek M. A998). Whose Wages Do Unions Raise? A Dynamic Model of Unionism and Wage Rate Determination for Young Men. Journal of Applied Econometrics, 13, 163-183. Vella F., Verbeek M. A999). Two-Step Estimation of Panel Data Models with Censored Endogenous Variables and Selection Bias. Journal of Econometrics, 90, 239-263. Verbeek M. A995). Alternative Transformations to Eliminate Fixed Effects. Econometric Reviews, 14,205-211. Verbeek M., Nijman Th. E. A992). Testing for Selectivity Bias in Panel Data Models. International Economic Review, 33, 681-703. Verbeek M., Nijman Th. E. A996). Incomplete Panels and Selection Bias. In: L. Matyas, and P. Sevestre, eds., The Econometrics of Panel Data. A Handbook of the Theory with Applications, 2nd revised edition, Kluwer Academic Publishers, Dordrecht, 449-490. Wallis K. F. A979). Topics in Applied Econometrics. 2nd edition, Basil Blackwell, Oxford. Weeks M. A995). Circumventing the Curse of Dimensionality in Applied Work Using Computer Intensive Methods. Economic Journal, 105, 520-530. White H. A980). A Heteroskedasticity-Consistent Covariance Matrix Estima- tor and a Direct Test for Heteroskedasticity. Econometrica, 48, 817-838. White H. A982). Maximum Likelihood Estimation of Misspecified Models. Econometrica, 50, 1-25. Wooldridge J. A995). Selection Corrections for Panel Data Models under Conditional Mean Independence Assumptions. Journal of Econometrics, 68, 115-132. Дополнительный список литературы (добавлен при научном редактировании русского издания книги) Айвазян С. А., Енюков И. С, Мешалкин Л. Д. Прикладная статистика: исследование зависимостей. М.: Финансы и статистика, 1985. Айвазян С. А. Основы эконометрики. М.: Юнити, 2001. Т. 2. Берндт Э. Практика эконометрики. Классика и современность / Пер. с англ. под ред. С. А. Айвазяна. М.: Юнити, 2005. Бокс Дж., Дженкинс Г. Анализ временных рядов: прогнозирование и управление / Пер. с англ. под ред. В. Ф. Писаренко. М.: Мир, 1974. Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Началь- ный курс G-е изд.). М.: Дело, 2005. Магнус Я. Р., Нейдеккер X. Матричное дифференциальное исчисление с приложениями в статистике и эконометрике / Пер. с англ. под ред. С.А.Айвазяна/. М.: Физматлит, 2002.
Предметный указатель Автоковариация 373, 376 автокорреляционная функция (АКФ) 376 автокорреляция 44, 165 скользящее среднее 180 стандартные ошибки СГА (состоятельные стандартные ошибки МНК-оценок, учитывающие гетероскедастичность и автокорреляцию) 186 стандартные ошибки в форме Невье—Веста (Newey—West) 186 авторегрессионная модель панельных данных 528 авторегрессионная модель распределенных лагов 450 авторегрессионная условная гетероскедастичность (ARCH) 431 АРУГ-в среднем 436 интегрированный ОАРУГ 433 кривая воздействия новостей 435 модель ОАРУГ 432 оценивание моделей АРУГ 436 прогнозирование 436 процесс АРУГ (р) 432 процесс АРУГA) 431 процесс ЭОАРУГ - экспоненциальная обобщенная АРУГ (EGARCH) 435 экспоненциальный процесс ОАРУГ 435 альтернативная гипотеза 57 анализ остатков 413 АРСС (АКМА)-модели 379 АРУГ см. авторегрессионная условная гетероскеда- стичность (ARCH) асимптотическая эффективность 268 асимптотическое распределение 73 Байесовский информационный критерий (БИК) 414 Вектор ограничений скрытых цен 277
606 Предметный указатель векторная авторегрессионная модель (ВАР) 408, 467 определение длины лагирования 470 оценивание 469 прогнозирование 469 стационарность 469 функция отклика на импульс 471 векторная модель коррекции остатков (ВМКО-модель) 474 векторная модель скользящего среднего (ВСС-модель) 470 веса Бартлетта (Bartlett) 186, 187 взвешенные наименьшие квадраты 144 вложенные модели 274 внутригрупповая МНК-оценка 504 возвращение к среднему 388 временная структура процентных ставок 424, 428 вспомогательная регрессия 113 выборка 40 выборочный процесс 40 Гедонистическая цена 113 генеральная совокупность 39, 40 гетероскедастичность 142, 143 МЛ-тест (тест множителей Лагранжа) в линейной модели 155, 276 мультипликативная гетероскедастичность 151 тест Бреуша—Пагана 155 тест Голдфельда—Куандта (Goldfeld-Quandt) 154 тест Уайта (White) 155 гипотеза ожиданий 425 гипотеза эффективного рынка 23 гомоскедастичность 44 Двухсторонний критерий 57 двухшаговый метод наименьших квадратов BМНК) 240 детерминированные тренды 475 детерминированный тренд 392 динамический прогноз 185 дисперсия 581 дихотомические модели 298 доверительный интервал 58 долгосрочное динамическое равновесие 457 долгосрочный динамический мультипликатор 450 достаточная статистика 545 дрейф см. детерминированный тренд Единичный корень 383 в панельных данных 537 тесты на наличие единичного корня в модели АРA) 389 тесты на наличие единичного корня в процессе АР более высокого порядка 394 единственный показатель 362 Зависимость состояния 501, 551 закон больших чисел 72 заработная плата сохранения работы 346 значимый 441 Идентифицируемость 217 идентичность 563 избыточный эксцесс 292 инструмент см. инструменталь- ная переменная инструментальная переменная 220 интегрируемость 387 интервал прогноза 87
Предметный указатель 607 информации критерий Акаике (Akaike) (АИК) 414 информационная матрица 268 информационный матричный тест 291 информационное множество 418 информационный критерий Акаике (Akaike) 105 информационный критерий Шварца (Schwarz) 105 информационный просмотр данных 102 ИП-оценка (оценка метода инструментальных переменных) 517 исключающее ограничение 223, 350, 363 Качество «подгонки» данных моделью 51, 304 в линейных моделях 51 в моделях бинарного выбора 304 в моделях панельных данных 514 индекс отношения правдоподобия 304 квази-максимальное правдоподобие 288 в моделях ОАРУГ 437 кейнсианская модель 217 ковариационная матрица 584 ковариация 583 коинегрирующий ранг 472 коинтеграция 456 в векторных моделях авторегрессии 472 в панельных данных 483 долгосрочная динамическая матрица 473 долгосрочное динамическое равновесие 457 коинегрирующий ранг 472 коинтегрирующая матрица 472 коинтегрирующая регрессия 457 коинтегрирующее пространство 471 коинтегрирующий вектор 457 коинтегрирующий параметр 457 многомерный случай 471 процедура Иохансена (Johansen) 477 суперсостоятельность 456 теорема представления Грэнжера (Granger) 461 тест КРДУ (коинтегрирующей регрессии Дарбина—Уотсона (Durbin—Watson)) 459 тест коинтегрирующей регрессии Дарбина—Уотсона (Durbin—Watson) 459 тест максимального собственного значения 479 тест следа 478 тестирование в векторных моделях авторегрессии 475 тестирование на наличие коинтеграции 476 коинтегрирующая матрица 472 коинтегрирующее пространство 471 коинтегрирующий вектор 457 коинтегрирующий параметр 457 коррекция степеней свободы 265, 506 коррелограмма см. автокорреля- ционная функция коэффициент корреляции 583
608 Предметный указатель коэффициент относительной несклонности к риску 257 кривая Энгеля 335 кривая воздействия новостей 435 кривая доходности 424 критическая статистика 56 критические значения 56 кумулятивная функция плотности (кфп) 580 Латентная модель 300 латентная переменная 301 линейная модель вероятностей 299 линейная модель регрессии 29 линия регрессии 35 ловушка фиктивных переменных 129 логарифмическая функция правдоподобия 262 логарифмически линейная модель 96 логарифмически нормальное распределение 591 логарифмическое распределение Вейбулла 325 логистическое распределение 307, 548 логит-модель 299, 301, 311 логит-модель с фиксирован- ными эффектами 546 обобщенный остаток 302 функция правдоподобия 313 логит-модель с упорядоченным откликом 317 логит-модель с фиксированными эффектами 546 ложная регрессия 448, 454, 455 в панельных данных 537 лямбда Хекмана (Heckman) 346 .Максимальное правдоподобие 261 «метки» 268 вклады правдоподобия 267 критерий отношения правдоподобия 276 логарифмическая функция правдоподобия 262 функция правдоподобия 262 маргинальная функция плотности 587 маргинальное (частное) распределение 582 математическое ожидание 579, 580 матрица весов 236 матрица преобразования 144, 168, 588 матричный полином от оператора сдвига 468 медиана 580 межвременная предельная ставка замещения 251 межгрупповая оценка 509 «метки» 268 метод квази-максимального правдоподобия 288 МИП-оценка (оценка обобщенного метода инструментальных переменных) 203 МЛ-тест см. тест множителей Лагранжа МНК (обычный метод наименьших квадратов) 29-31, 43 МНК-оценка 40 МНК-оценка с фиктивными переменными (манекенами) (МНК ФП-оценка) 504 мода 580
609 Предметный указатель модели с множественным откликом 316 моделирование от общего к частному 103 модель ВАРСС (векторная модель авторегрессии и скользящего среднего) 468 модель бинарного выбора 297, 298 линейная модель вероятностей 299 логит-модель 299 обобщенный остаток 302 одноиндексная модель 314 полупараметрическое оценивание 315 модель бинарноговыбора пробит-модель 299 модель в условиях выборочной селективности 344 модель коррекции остатков 448, 451 модель одновременных уравнений идентифицируемость 217 приведенная форма 215 структурная форма 215 модель остаточных компонент см. модель со случайными эффектами модель с упорядоченным откликом 317 модель с фиксированными эффектами 499, 503 модель со случайными эффектами 499, 507 модель ценообразования финансовых активов (ЦФАМ) 30, 75 модель частичного приспособления 452 «модельная ошибка оценивания» 254 модельный тест 62 моментные условия 220 мощность критерия 67 мультиколлинеарность 32, 81, 82 точная мультиколлинеарность 82 мультиномиальная логит-модель 326 мультиномиальные модели 326 мультипликатор воздействия 450 мультипликатор равновесия 450 МУ-тест (тест моментных условий) 291 Наилучшая линейная аппроксимация 32 наилучшая линейная несмещенная оценка 46 невключенные переменные 165 невложенные модели 118 невложенный F-критерий 109 независимая логит-модель см. мультиномиальная логит-модель независимость несущественных альтернатив 327 некоррелированность 585 нелинейный метод наименьших квадратов 111 ненаблюдаемая гетерогенность 551 неполные панельные данные 553 неправильная спецификация 182 неравенство Иенсена (Jensen) 581 неравенство Чебышева 69 несбалансированная субпанель 554 несмещенная оценка 45 несмещенный прогноз 86 нецентрированный Д-квадрат 52
610 Предметный указатель нижняя граница Крамера—Рао (Cramer—Rao) 269 НОНР (независимо и одинаково нормально распределенные) 264 НОР (независимо и одинаково распределенные) 167 норма возмещения 309 норма приема 307 нормальное распределение 586 двумерное 587 нулевая гипотеза 56 Область неопределенности 174 обобщенные наименьшие квадраты 141 обобщенный метод моментов (ОММ) 245 оптимальная матрица весов 534 обобщенный остаток 340 общие корни 384 объединение в кластеры волатильности (изменчивости) 430 ограниченные зависимые переменные 542 в панельных данных 497 одноиндексная модель 314 односторонний критерий 57 ОМНК-оценка (оценка обоб- щенного метода наименьших квадратов) 141, 144 оператор обратного сдвига см. оператор сдвига оператор сдвига 380 оптимальный предиктор 427 ортогональность 100 остаток 33 остаточная сумма квадратов 33 отдача от образования 227, 229, 232, 257 отношение «шума-к-сигналу» 213 охват 107 оценка (estimate) 42 оценка Андерсона—Хсяо (Anderson—Hsiao) 531 оценка Прейза—Уинстена (Prais—Winsten) 169 оценка Хаусмана—Тэйлора (Hausman—Taylor) 518 оценка квази-максимального правдоподобия (КММП-оценка) 290 оценка максимальной метки 315, 316 оценка методом инструмен- тальных переменных 221 оценка обобщенным методом инструментальных переменных 238 оценка со случайными эффектами 510 ковариационная матрица 510 с несбалансированными данными 556 оценка фиксированных эффектов 504 в динамической модели 529 как ИП-оценка (оценка метода инструментальных переменных) 517 ковариационная матрица 505 с несбалансированными данными 556 ошибка второго рода 67 ошибка измерения 209, 211 ошибка первого рода 67 ошибка прогноза 86, 421 Панельные данные 496 параметры приведенной формы 216
611 Предметный указатель паритет непокрытых процентных ставок 189 паритет покрытых процентных ставок 188 паритет покупательной способности 401 перекрывающиеся выборки 207 « переподгонка» (« перепараметризация ») 413 подвыборка 36, 130 полином от оператора сдвига 380 полупараметрическое оценивание 363 пособия по безработице 306, 308 почти идеальная система спроса 367 ППС см. паритет покупательной способности правило игнорируемого отбора 360 правило отбора 105 предел по вероятности (plim) 71 предельная склонность к потреблению 214, 216 предиктор 51, 423 предмет роскоши 336 предопределенные регрессоры 536 предположения Гаусса—Маркова 44 преобразование Бокса—Кокса (Вох-Сох) 109 при прочих равных условиях (ceteris paribus condition) 42, 64, 94 приведенная форма 215, 227, 231 причинная интерпретация 214 причинное соотношение 42 причинный эффект 219 пробит-модель 299 качество «подгонки > данных моделью 304 критерий нормальности 313 обобщенный остаток 302 пробит-модель с упорядо- ченным откликом 317 пробит-модель случайных эффектов 547, 548 функция правдоподобия 312 пробит-модель с упорядоченным откликом 317 пробит-модель с упорядоченными случайными эффектами 550 проблема выборочной селективности 344 проблема идентификации 217 проблема начальных условий 553 проблема несущественных параметров 100 проверка статистических гипотез 54 альтернативная гипотеза 57 критические значения 56 нулевая гипотеза 56 односторонний критерий 57 прогнозирование 86 с помощью моделей АРСС 417 с помощью моделей ОАРУГ 438 проекционная матрица 573 простая линейная регрессия 34 простота 105 процесс С С (скользящего среднего) 372 процесс авторегрессии 374 процесс белого шума 372 процесс скользящего среднего 181, 379 пуассоновская регрессионная модель 295
612 Равновесие 463 устойчивое состояние равновесия 475 устойчивое состояние траектории роста 475 размер критерия 67 разностно-стационарный процесс 392 «разработка данных» 102 распределение 578 асимметрия 582 вырожденное 579 дискретное распределение 578 медиана 580 мода 580 непрерывное распределение 579 симметрическое распре- деление 580 условное 584 хвосты 582 распределение Пуассона 295 распределение Стьюдента см. t-распределение распределение экстремальных значений типа I 325 расширенный тест Дики— Фуллера (Dickey—Fuller) 394 РДФ-тест см. расширенный тест Дики—Фуллера (Dickey- Fuller) реальный обменный курс 188, 400 рисковая премия 189 РОМНК (реализуемый обоб- щенный метод наименьших квадратов) 141, 147 рыночный портфель 75 рыночный риск 76 Самопроизвольный выбор 359 сбалансированная субпанель 554 Предметный указатель сверхидентифицируемость 237 сезонность 449 селективное смещение см. смещение от «выборочной селективности » семейство распределений Пирсона 314 сериальная корреляция см. автокорреляция система нормальных уравнений 32 систематический риск 76 скорость сходимости 73, 316 скорректированный Д-квадрат 54 слабая экзогенность 462 случайная выборка 41, 334 случайная переменная 40, 578 случайная структура полезности 325 случайное блуждание 386 случайное блуждание с дрейфом 392 случайные пропуски 554 смещение см. смещение от «выборочной селективности» смещение из-за не включенных переменных 100 смещение от «выборочной селективности» 359 в панельных данных 554 соотношение Фишера 485 состоятельная оценка 71 состоятельность 71 скорость сходимости 73 состоятельные оценки стандартных ошибок МНК-оценок при наличии гетероскедастичности 150 состоятельные стандартные ошибки МНК-оценок, учитывающие
613 Предметный указатель гетероскедастичность и автокорреляцию 186 специфический риск 80 среднеквадратичное отклонение 322, 323 стандартная ошибка 49 стандартные ошибки Уайта 150 стандартные ошибки в форме Невье—Веста (Newey—West) 138, 198 статистическая модель 39 стационарность 167, 375 единичные корни 385 ковариационная стационарность 376 разностно-стационарный процесс 392 слабая стационарность 375, 376 стационарность в широком смысле см. слабая ста- ционарность трендовая стационарность (или стационарность с точностью до тренда) 393 стохастический коэффициент дисконтирования 251 стохастический процесс 467 структурная модель 215 структурная форма 215 структурные параметры 216, 217, 553 структурные резкие падения 449 суперсостоятельность 456 Теорема Гаусса—Маркова 46 теоретическая гипотеза ожиданий 424 тест «меток» см. тест множителей Лагранжа тест Бреуша—Годфри (Breusch—Godfrey) 171 тест Бреуша—Пагана (Breusch—Pagan) 155 в моделях панельных данных 523 тест Вальда 66, 146, 274, 275 тест Голдфельда—Куандта (Goldfeld-Quandt) 154 тест Дарбина—Уотсона 172 в моделях панельных данных 523 тест Дарбина—Уотсона (Durbin—Watson) в коинтегрирующей регрессии 459 тест Джарка—Бера (Jarque—Вега) 293 тест Дики—Фуллера (Dickey-Fuller) 390 тест КФШШ (KPSS) 393 тест РЕ 110 тест Сэйда—Дики (Said—Dickey) 397 тест Филипса—Перрона (Phillips—Perron) 397 тест коинтегрирующей регрессии Дарбина—Уотсона (Durbin—Watson) 459 тест множителей Лагранжа 274 версия ВПГ (внешнего про- изведения градиента) 280 тест отношения правдоподобия 274 тест сверхидентифицируемых ограничений 240, 247 тест сверхидентифицирующих ограничений 222, 491 тестирование гипотезы нормальности 292 в линейной модели 292 в тобит-модели 340 в пробит-модели 314
614 Предметный указатель тест Джарка—Бера (Jarque—Вега) 293 тесты установки 113 тобит-модель 329 бобщенный остаток второго порядка 341 гетероскедастичность 341 граничное решение 330 модель тобит II см. модель в условиях выборочной селективности модель тобит III 351 ненаблюдаемая гетерогенность 330 обобщенный остаток 340 расширения 297 спецификационные тесты 340 стандартная тобит-модель (типа I) 330 тест на нормальность 342 тобит-модель с фиксиро- ванными эффектами 550 тобит-модель со случайными эффектами 549 усеченная модель регрессии 334 функция правдоподобия 333 тобит-модель со случайными эффектами 549 товар низкого качества 336 товар первой необходимости 336 точная (полная) мультиколлинеарность 82 точность прогнозирования 84 тренд-стационарный процесс 392 трендовая стационарность 393 тяжелые хвосты 55 У равнение денежного спроса 486 уравнения Юла—Уокера (Yule-Walker) 411 уровень значимости 56 усечение 588 усеченная модель регрессии 334 усеченное нормальное распределение 323, 331 условная дисперсия 142, 435, 587 нормального распределения 587 условная независимость в сред- нем 203, 585 условная функция плотности 587 условное максимальное правдоподобие 408 модели панельных данных 544 условное математическое ожидание 585, 587 нормального распределения 585 Феномен «отказа от ответа» 359 фиктивная переменная (манекен) 36 форвардный дисконт 190, 193 функцией оценивания (estimator) 42 функциональная форма 110 тест установки 113 тестирование 112 функция вероятностной меры 579 функция отклика на импульс 471 функция оценивания (estimator) наилучшая линейная несмещенная оценка 46 состоятельная оценка 71 функция плотности вероятностей 266, 579 функция совместной плотности распределения 582 функция правдоподобия 262
615 Предметный указатель Характеристические корни 383 характеристическое уравнение 383 хи-квадрат распределение 589 Цензурирование 324, 332 цензурированная модель регрессии см. тобит-модель Чакф см. частная автокорреляционная функция частная автокорреляционная функция 412, 415 частный коэффициент автокорреляции 411 член взаимодействия 118 член возмущения см. остаток Экзогенность 42, 215 предопределенность 536 слабая экзогенность 462 строгая экзогенность 505 эксцесс 582 эластичность 95 эластичность по общим расходам 338, 339 эндогенность регрессоров 209 эффект малых фирм 252 эффект отсутствия отклика («неотклик») 552 эффективный портфель среднего и дисперсии 75 F-критерий 62 F-критерий охвата 108 не вложеный F-критерий 108 F-критерий охвата 108 F-распределение 590 J-тест 109 Д-квадрат 51 Д-квадрат Макфаддена (McFadden) 304 внутригрупповой Д-квадрат 515 межгрупповой Д-квадрат 515 нецентрированный Д-квадрат 52 общий Д-квадрат 515 t-распределение 590 р-значение 68 ^-значение 57 ^-критерий 55, 59, 60, 62, 64, 81 t-отношение 57 2МНК-оценка 238
Научное издание Марно Вербик Путеводитель по современной эконометрике Перевод с английского В. А. Банников Научная редакция и предисловие С. А. Айвазян Дизайн переплета М. Овчинникова и Л. Орлова Компьютерная верстка М. Копаницкая ООО «Издательский дом «НАУЧНАЯ КНИГА» 119992 Москва, ул. Остоженка, 53/2, стр. 1, оф. 115 (Дипломатическая академия МИД России) тел. D95) 246-82-47, факс. D95) 246-21-13 e-mail: flerus@mail.ru Подписано в печать 26.12.2007 г. Формат 70x100/16. Объем 35,45 уел п. л. Тираж 3000 экз. Заказ № 899 Отпечатано с готовых файлов заказчика в ОАО «ИПК «Ульяновский Дом печати». 432980, г. Ульяновск, ул. Гончарова, 14