Text
                    Е.З. Демиденко
ЛИНЕЙНАЯ
И НЕЛИНЕЙНАЯ
РЕГРЕССИИ

Е. 3. Демиденко ЛИНЕЙНАЯ И НЕЛИНЕЙНАЯ РЕГРЕССИИ Москва «Финансы и статистика» 1981
ББК Й 172 ДЗО Г Е. Z. Demidenko LINEAR AND NONLINEAR REGRESSIONS ЧЕЛЯБИНСКИЙ ГОСУНИС’гРСИТЕТ БИБЛИОТЕКА „ 10805-054 д mm--», |5~81 <с> 1™2™00 © Издательство «Финансы и статистика», 1981
Предисловие Методы регрессионного анализа в последнее время ста- ли широко популярными. Они с успехом применяются при анализе экспериментальных данных в различных облас- тях науки: психологии, экономике, социологии, физике, химии, геологии, автоматике и др. В экономике, например, эти методы используются при построении многофакторных моделей производительности труда и функций спроса, про- изводственных функций и экономико-статистических моде- лей. Во многом этому способствовало быстрое развитие вычислительной техники, которое позволило переложить на ЭВМ большую часть трудоемкой вычислительной работы. В то же время на практике часто применяются традицион- ные, иногда устаревшие, далекие от реальности подходы и методы. Цель книги — познакомить широкий круг чита- телей с современными методами оценивания в области ре- грессионного анализа: робастным (устойчивым) оценива- нием в условиях разнородности наблюдений и возможного присутствия выбросов (загрязненные наблюдения); оце- ниванием в условиях мультиколлинеарности, т. е. силь- ной «коррелируемости», сопряженности независимых пере- менных регрессий; оцениванием параметров регрессии при наличии ошибок измерения, присутствующих практически в любой ситуации; нелинейным оцениванием, т. е. оцени- ванием параметров в нелинейных регрессиях, широко раздвигающим рамки применения регрессионного анализа. В книге сделана попытка исследовать две схемы ре- грессии: регрессии как безусловного математического ожи- дания и регрессии как условного математического ожида- ния. В первом случае независимые переменные считаются неслучайными (детерминированными). Эта схема хорошо изучена. В схеме регрессии как условного математическо- го ожидания независимые переменные, также как и зави- симая переменная, являются случайными (стохастическими). Исследование подобных регрессий только начинается. Книга состоит из трех частей. В первой части подробно исследуется классическая линейная регрессия, в которой основным моментом является предположение о детермини- рованности матрицы независимых переменных. Во второй 3
части рассматриваются альтернативные схемы регрессии и соответствующие им методы оценивания. Здесь изучают- ся регрессии со случайными независимыми переменными, оценивание в условиях засоренности, сильной коррелируе- мое™ факторов регрессии и присутствия ошибок измерения. Существенным является то, что схема линейной модели с ошибками в независимых переменных не является част- ным случаем регрессии как условного математического ожидания (параграф 4.1). Третья часть книги посвящена нелинейной регрессии. В этой части излагаются методы численного нахождения оценки метода наименьших квад- ратов и ее статистические свойства. Автор выражает глубокую благодарность А. В. Коле- маеву, А. М. Дуброву и Г. Г. Пирогову за ряд ценных за- мечаний, высказанных в процессе подготовки рукописи к изданию.
Часть первая ЛИНЕЙНАЯ РЕГРЕССИЯ КАК БЕЗУСЛОВНОЕ МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ Глава 1 КЛАССИЧЕСКАЯ РЕГРЕССИЯ. СВОЙСТВА ОЦЕНКИ МИК 1.1. Основные предположения. Оценка МНК Рассмотрим случайную величину, характеризующую не- которое явление. Обозначим эту величину у, а последова, тельность отдельных ее значений ух, у2, ..., уп. Допустим- у зависит от целого ряда явлений, характеризуемых при- знаками xlt х2, ..., хт. Каждый из этих признаков описы- вается своим рядом значений. Естественно, что для анализа зависимости у от х±, х2, ..., хт регистрация значений при- знаков должна производиться одновременно. Итак, у — зависимая, а х1г х2, .... хт— независимые переменные. Далее предположим, что между переменными имеется ли- нейная связь. Однако из-за влияния различных неучтенных факто- ров, а также воздействия случайности и помех наблюде- ния у будут в большей или меньшей мере отклоняться от линейной зависимости. В силу этого зависимость у от xlt х2,..., хт будет нефункциональная, а стохастическая. Последнюю можно записать в виде: yt = axxtl + a2x/2+...4-amxtm Д £(, /=1, ..., п. (1.1) В уравнении (1.1), которое в дальнейшем будем назы- вать регрессией, t означает номер наблюдения; ах, а2, ..., ат — параметры, которые необходимо оценить; — случай- ное отклонение. Наличие ef в уравнении (1.1) приводит к тому, что эта зависимость будет стохастической. Анализ уравнения (1.1) и методика определения параметров ста- новятся более наглядными, а расчетные процедуры сущест-
bshho упрощаются, если воспользоваться матричной запи- сью уравнения (1.1): у = Ха + е. (1-2) Здесь у — вектор зависимой переменной размерности п X 1, представляющий собой п наблюдений значений у, X — матрица независимых переменных, элементы которой суть п-т наблюдений значений т независимых переменных х±, х2, ..., хт', размерность матрицы X равна п X т; а — подлежащий оцениванию вектор неизвестных параметров размерности т X 1; в — вектор случайных отклонений (возмущений) размерности п X 1. Таким образом, «1 |_А> J Классический регрессионный анализ базируется на сле- дующих предположениях, определяющих требования к па- раметрам а, случайным отклонениям в и независимым переменным xti. Предположение А. На вектор неизвестных параметров регрессии (1.1) не наложено ограничений. Это значит, что 0 = Rm, где 0 — множество априорных зна- чений параметров а. Предположение Б. Вектор s = (в1, е2, ..., еп)' — случайный. Отсюда следует, что у = (z/x, у2, ..., уп)' — также случайный вектор. Предположение В. Математическое ожида- ние (м. о.) в( равно нулю, т. е. Е (е() = 0, t = 1, 2, ..., п; Е (в) = 0. Предположение Г. Для любых =£ /2 Е (в^ X X В(2) — 0, Е (в2) = о2 для всех t = 1, 2, .... п. Другими словами, cov (в) =-- па1„. Здесь о2 — дисперсия отклонений-, 6
cov (e) — матрица ковариаций отклонений размерности п х л; 1п — единичная матрица размерности п х п, т. е. о2 cov (е) = О ст3 Предположение Д. Матрица X детермини- рована, т. е. xti не являются случайными переменными. Предпол о ж е н и е Е. rank (X) = т. Эти предположения (они подробно обсуждаются в сле- дующем параграфе) дают возможность исследовать свойст- ва и статистическое содержание получаемых оценок век- тора параметров а. В дальнейшем выдвинутые предположения мы будем последовательно ослаблять. Так, в параграфе 2.3 рассмо- трен случай, когда на вектор неизвестных параметров а наложены линейные ограничения. В параграфе 2.1 рассмо- трена ситуация коррелируемых отклонений, имеющих раз- ные дисперсии. Главы 3 и 4 книги посвящены изучению ре- грессии при случайной матрице X. Случай rank (X) < т изучается в параграфе 6.2. По предположению Д независимые переменные детер- минированы, поэтому уравнение регрессии (1.2) можетбыть переписано следующим образом: Еу — Ха. Таким обра- зом, регрессия, рассматриваемая в первой части книги, имеет вид безусловного математического ожидания. Уравнение (1.1) содержит значения неизвестных пара- метров аи а2, ..., ат. Эти величины оцениваются на основе выборочных наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки. Модель линейной регрес- сии, в которой вместо истинных значений параметров под- ставлены их оценки (а именно такие регрессии и приме- няются на практике), имеет вид у = Хае = уе, где а — вектор оценок параметров; е — вектор «оценен- ных» отклонений регрессии, е = у — Ха; у—оценка значе- ний у, равная Ха. Для оценивания неизвестного вектора параметров а воспользуемся методом наименьших квадратов (МНК). Со- 7
гласно этому методу минимизируется сумма квадратов от- клонений Q-Q(a)- V (yl — a1xll—... — amxlm)* = t= i = (у — Ха)' (у—Xa) -- у' у — 2у' Xa-|-a' X' Xa=>min. (1-3) Оценкой метода наименьших квадратов в линейной мно- жественной регрессии называют вектор, минимизирующий сумму квадратов отклонений. Для нахождения миниму- ма этой суммы продифференцируем (1.3) по а и приравняем полученное выражение нулю; получим (см. приложение П.2) dQldn = — 2Х'у + 2Х'Ха = 0. Если матрица наблюдений независимых переменных X имеет полный ранг, т. е. rank X = т, то, решая послед- нее уравнение относительно а, найдем а - (Х'ХИХ'у. (1.4) Оценка (1.4) является оценкой метода наименьших квадра- тов. Т е о р е м а 1.1. Если предположение Е выполнено, то оценка МНЕ. (1.4) единственна. Доказательство. Дважды дифференцируя сумму квадратов отклонений Q по а, получим (см. (П.6)) d2Q/da2 — -= 2Х'Х. Матрица X в силу предположения Е имеет пол- ный ранг, поэтому матрица Х'Х положительно определена. Значит, функция Q выпукла вниз и поэтому имеет единст- венный глобальный минимум, в котором dQ (a)/da = 0 (см. приложение П.З). Геометрически Q (а) представляет собой параболоид в евклидовом пространстве Rm. Рассмотрим, например, слу- чай т=2 (рис. 1.1). Минимальное значение Q = Q (а) характеризуется вектором а = (п^, а2)'. Предположим, что rank X < т, а именно rank X = 1. Тогда график Q (а) будет напоминать «бесконечное корыто», а минимум Q наблюдаться на всей прямой, образующей «дно корыта» (рис. 1,6). При этом в качестве минимизирующего векто- ра а будет выступать целое семейство точек, расположенных на прямой в плоскости (ах, а2). Иначе говоря, оценка МНК всегда существует, однако если rank X < т, то оценка МНК не единственна и образу-
ст целое семейство оценок. Формула (1.4) для нахождения оценок в этом случае неприменима (обобщение формулы (1.4) на случай rank X < т рассмотрено в параграфе 6.2). Рис. 1.1. Геометрическая интерпретация минимизации суммы квадратов отклонений, m=2: a) rankX = 2; б) rankX=l Для иллюстрации модели регрессии обратимся к при- меру. При подборе данных для примера учитывалось основ- ное требование классического регрессионного анализа: детерминируемость независимых переменных (предположе- ние Д). 9
Допустим, имеются три независимые переменные (фак- торы), воздействующие на зависимую переменную. Для большей конкретности рассмотрим химический экспери- мент. Предположим, нас интересует результат реакции не- которого вещества Вх с веществом В2. В ходе реакции по- лучается вещество В3. Реакция Вх и В2 происходит в при- сутствии катализатора/С. Результат эксперимента, назовем его выходом реакции (вещество В3), зависит от пропорции веществ Вг и В2. Пусть количество вещества В2 во всех экспериментах одно и то же, количество же вещества Вх будем менять. Проведем 15 экспериментов, в каждом из которых количество вещества В± варьирует. Каждый экс- перимент проводим при некоторой температуре и некото- ром количестве катализатора К- Очевидно, что схема линейной регрессии применима к разным ситуациям в различных областях практики. На- пример, прирост массы скота (П) зависит от количества и соотношений кормов (Ki, Кг) и условий содержания скота. Данные регрессионного анализа могут представлять собой временные ряды; они могут быть также элементами пространственно-структурной выборки. Так, у может быть числом дорожно-транспортных происшествий за определен- ный год по районам, хл — численностью населения дан- ного района, х2 — числом транспортных средств в районе, х3 — общей протяженностью районных шоссейных дорог, xt — численностью персонала ГАИ и т. п. Однако все воз- можные примеры должна объединять одна общая особен- ность: независимые переменные в таких регрессиях мы считаем детерминируемыми, т. е. не случайными. Случай- ность несут только зависимые переменные регрессии. Вернемся к примеру с химическим экспериментом. Вве- дем обозначения: yt — выход реакции (количество вещества В3, кг) в Гм эксперименте; замер выхода реакции делаем по истечении некоторого времени т; xtl — количество вещества В, (кг) в 1-м. эксперименте; xt2 — температура реакции (Сс) в t-м эксперименте; xt3 — количество катализатора (г) в t-м эксперименте. Остальные условия проведения экспериментов остают- ся неизменными: количество вещества В2, величина давле- ния, среда проведения эксперимента и т. п. Результаты и условия 15 экспериментов представлены в табл. 1.1. Предположим, выход реакции, количество вещества Вь температура и количество катализатора связаны линейной Ю
зависимостью типа (1.1). Таким образом, имеется урав- нение регрессии yt = aixti + «2*1-2 + «3*43 -|- а4хи + et, t = 1, .... 15, (1.5) где xti = 1 для всех t (причины, по которым фактор введен в уравнение (1.5), объяснены ниже). Оценим параметры регрессии (1.5) с помощью МНК, ис- пользуя информацию, приведенную в табл. 1.1. По ре- зультатам 15 экспериментов получим следующие вектор у п матрицу X: 140,28 252,36 96,67 8,37 1 142,02 262,54 100,07 9,07 1 149,90 285,70 96,78 9,35 1 147,12 277,52 101,30 9,67 1 163,62 307,95 100,35 9,45 1 173,40 322,44 104,8 10,12 1 178,86 334,88 106,17 10,35 1 186,26 1 х- 350,11 109,2 11,03 1 183,53 346,10 104,48 10,38 1 198,7(1 374,91 106,88 12,15 1 205,30 378,49 113,14 12,98 1 20(1,77 397,48 112,38 11,34 1 198,42 378,39 109,07 10,95 1 210,48 393,44 114,45 12,89 1 221,45 403,84 115,23 13,71 1 Ппхицпм необходимые для оценивания ос значения Х'Х, (Х'Х) 1 и Х'у (матрицу Х'Х часто называют матри- 11-it n.'i.ina)' XX xt2 ^хк *** х1з 2*42*43 S*?3 Sx(3 П “1747425,6 541505,3 55592,1 5066,2 169276,4 17254,3 1590,9 1774,7 161,4 15 11
(Х'Х)-1 = 0,0002735 —0,001650 —0,001926 0,1033 0,02810 —0,05288 —1,1852 *** 0,2696 3,3584 125,4 935358,3 289935,3 29782,1 2712,2 а = (Х'Х)-1Х'у = 0,3947 0,2290 3,7460 — 17,083 Оцененная регрессия выглядит следующим образом: у - 0,3947%! 0,2290х2 + 3,7460х3 — 17,083 (1.6) На рис. 1.2 показаны графики yt и yt, i — 1, ..., 15. Таблица 1.1 Номер эк- сперимен- та Выход реакции Количество вещества Температу- ра Т Количество катализато- ра К Оценки выхода реакции Отклонение У Лх х з У е 1 140,28 252,36 96,67 8,37 136,01 4,27 2 142,02 262,54 100,07 9,07 143,42 — 1,41 3 149,90 285,70 96,78 9,35 153,90 —4,00 4 147,12 277,52 101,30 9,67 147,09 0,03 5 163,62 307,95 100,35 9,45 162,83 0,79 ' 6 173,40 322,44 104,8 10,12 172,08 1,32 7 178,86 334.88 106,17 10,35 180,41 — 1,55 8 186,26 350,11 109,2 11,03 187,42 — 1,16 9 183,53 346,10 104,48 10,38 182,32 1,21 10 198,76 374,91 106 88 12,15 200,87 —2,11 11 205,30 378,49 113,14 12,98 206,83 — 1,53 12 206,77 397,48 112,38 11,34 208,00 — 1,23 13 198,42 378,39 109,07 10,95 198,25 0,18 14 216,48 393,44 114,45 12,89 212,69 3,79 15 221,45 403,84 115,23 13,71 220,04 1,41 12
После того как получена оценка МНК, можно перейти к интерпретации регрессии. В регрессии (1.5) при фиксиро- ванных х2 их3 увеличение хг на единицу его измерения ведет к изменению математического ожидания у на ах единиц. В таком случае говорят, что изменение самого значения у происходит «в среднем» и ах может служить оценкой величины изменения у при изменении Рис. 1.2. Графики исходных значений yi и значений Qt, вычислен- ных на основе регрессии (1.6) Таким образом, если в приведенном примере темпера- туру проведения реакции и количество катализатора за- фиксировать и изменять только количество вещества Blt то введение в реакцию дополнительно 1 кг Вх приведет к увеличению выхода реакции приблизительно на 0,4 кг («приблизительно», поскольку иа выход реакции могут повлиять помехи е). При фиксированном количестве Вх и фиксированной температуре увеличение 1 г катализатора ведет к увеличению Bs на 3,7 кг. Однако такое толкование коэффициентов регрессии до- пустимо в весьма ограниченных пределах. В самом деле, пусть Xi = 0, х3 = 0, а х2 = 100. Получим выход реакции у — 22,9— 17,1 = 5,8 кг. В действительности же в этих условиях ни о какой реакции речь не может идти (нет не- 13
обходимых составляющих). Уравнение регрессии, как пра- вило, имеет смысл только в том диапазоне значений хг, ..., хт, который имел место в эксперименте. В нашем примере — в диапазоне тех значений количества вещества Blt участ- вующего в реакции, температуры реакции и катализатора, на основе которых была оценена регрессия (1.5). Так как регрессия (1.5) учитывала только те значения независимых переменных, которые были охвачены наблюдениями, то Рис. 1.3. Истинная зависимость у от х3 и регрессия (1.G) при выходе за эти рамки модель становится неадекватной действительности. Вполне вероятно, модель (1.5) нелиней- на вне охваченного диапазона значений xlt х2, х3 и ее ис- пользование в виде (1.6) в этом случае ошибочно. Так, на рис. 1.3 истинная зависимость между выходом реакции у и количеством катализатора х3 существенно нелинейна вне заштрихованного интервала изменения х3. Упражнения 1.1 1. Пусть X — матрица порядка п X т, rank X = г. Покажите, что rank (Х'Х) = rank X = г. В частности, проверьте, что предпо- ложение Е влечет | Х'Х | =f= 0. 2. Найдите семейство оценок МНК в регрессии п = 6, т = 2, где yt = 1, t = 1, 2, 3; yt = 0, t = 4, 5, 6; хц = 1, x;2 = 2, t = = 1, ..., 6. 3. Проверьте, что оценка МНК в общем случае есть множество а ~ {а £ Rln: Х'Ха = Х'у). Пусть rank X = г < т; покажите, что тогда а — линейное многообразие размерности т — г. 4. Найдите оценку МНК, если т = п. 5. Чему равна оценка МНК для случая т. = 1, 2? 6. Что означает предположение Е для случая т = 1? 14
7. Постройте график суммы квадратов отклонений для парной регрессии без свободного члена у = (1, 3, 4, 2, 5)', х = (1, 2, 3, 4, 5)', yt = «*» + i х= 1, 2, 3, 4, 5. Найдите оценку МН К. 8. По предположению Г et и (t =/= j) не коррелируют между собой. Верно ли это для их «оценок» et н ej? Будут ли «оценки» от- клонений гомоскедастич иы?* 1.2. Геометрия МН К На минимизацию суммы квадратов отклонений можно взглянуть по-иному. Имеется т + 1 векторов в евклидовом пространстве Rn: у, хь х2, ..., хт. Обозначим Sx— ли- нейное подпространство, натянутое на векторы хх, х2, .... хт (семейство линейных комбинаций xlt х2, ..., хт). Из фор- Рис. 1.4. Геометрия МНК, n=3, т=2 мулы (1.3) видим, что задача оценивания предполагает на- хождение такого вектора у £ Sx, для которого расстояние между у и у минимально, т. е. 11У —У II2 = (У—Ха)' (у—Ха) => min, у 6 Sx. Таким образом, для нахождения оценки МНК необхо- димо сначала найти у, а затем разложить его по векторам Отклонения называются гомоскедастнчнымн, если они имеют одинаковую дисперсию. 1
х1( х,п. Коэффициенты разложения и будут координата- ми оценки МНК at- Как известно, минимальное расстояние между вектором и гиперплоскостью есть длина перпенди- куляра, опущенного из конца вектора на гиперплоскость (линейное многообразие). Итак, у •— проекция у на Sx (рис. 1.4), || у — у2|| = Q. Отсюда, в частности, следует, что вектор у единствен при любых ситуациях (т. е. и тог- да, когда rank X < т). Для того чтобы найти оценку МНК, т. е. а, необходимо разложить затем у по xlt х2, ..., хт. На рис. 1.4 у = хх + х2, где х; = а;Хг. Если rank X < т, то такое разложение не будет единственным. Мы рассмотрели задачу оценивания вектора неизвест- ных параметров сточки зрения наилучшего приближения — чисто алгебраической задачи. Однако в силу стохастичности у задача является вероятностной. В дальнейшем нас не столько будет интересовать значение а для фиксированно- го у, сколько средние характеристики оценки при варьиро- вании у. Упражнения 1.2 1. В задаче 2 упражнений 1.1 найдите у и Sx. 2. Что геометрически означает а = О? 3. Покажите, что в парной регрессии у; = axt -ф- ег а > О тогда и только тогда, когда угол между векторами х и у острый. 4. Допустим, угол между у и х, острый для всех i = 1, ..., т. Верно ли тогда, что в множественной регрессии (1.1) at > 0 для всех i = 1, ..., m? Будет ли это верно, если угол между любой па- рой х/ и х^ (I = 1, .... т\ j = 1, ..., т) острый? 1.3. Обсуждение предпосылок классической регрессии Предположение А означает, что априори нам ничего неизвестно о параметресс. Иногда определенная ин- формация все же существует. Например, в регрессии(1.5) мы вправе предположить, что alt а2, а3>0. Априорные ограничения иногда выступают в виде линейных уравнений относительно ос с известными коэффициентами. В этом слу- чае оценка МНК будет отличаться от обычной. Исследова- ние линейной регрессии (1.1) при линейных ограничениях на параметры отложим до параграфа 2.3. Предположение Б констатирует стохастиче- скую природу зависимой переменной. Так, в примере с хи- мическим экспериментом у — случайная переменная. Слу- 16
чайность выхода реакции есть результат большого числа «неучтенных» факторов: чистоты вещества Въ В2 и катали- затора, присутствия посторонних веществ и т. в. В то же время математическое ожидание у есть линейная функция количества вещества Blt температуры и катализатора. Предположение В означает, что Е (в*) — 0 для всех / = 1, ..., л, т. е. среднее каждого отклонения равно нулю. При описании химического эксперимента мы. требовали неизменность условий проведения эксперимента: количества вещества В2, давления, времени проведения реакции. Вооб- ще говоря, эти условия также могут меняться. Например, можно представить ситуацию, когда трудно определить ко- нец реакции или точно измерить давление, при котором происходит реакция. Для того чтобы предположение В выполнялось, достаточно потребовать, чтобы условия экс- перимента изменялись случайным образом и независимо друг от друга. Чем сильнее вариация условий эксперимен- тов, тем выше значение а2. Это в свою очередь ведет к ухуд- шению свойств оценок (точность оценивания падает). Если отклонения трактовать как суммарный эффект неучтенных факторов, то по предположению В требуется, чтобы этот эффект в среднем был равен нулю. Вообще го- воря, такое предположение достаточно обременительно. Достаточно трудно подобрать факторы хт так, что- бы оставшийся эффект «свести па нет». Можно ослабить рассматриваемое предположение и вместо него выдвинуть предположение В'. Предположение В'. Математическое ожида- ние et равно константе; Е (е() = am+1 — неизвестный пара- метр; — оо < аты < Таким образом, мы требуем про- сто, чтобы остаточный эффект в среднем был постоянен. Покажем, как в условиях сделанного предположения свести задачу к предыдущей. Положим е< — e.t — am+1, тогда Е (е<) = 0 и условие В выполнено. Рассмотрим регрессию yt Ч” “f” "Т пг+1 "Т > (1-7) где x( m+1 s= 1, t — 1, 2, ..., я, т. е. t/t — Т ... -ф ~Г 6/ • (1.8) Если дополненная система векторов (хъ ..., хт, хга+1) = ~ (хг, ..., xm, 1) осталась линейно-независимой, то урав- нение (1.7) полностью удовлетворяет всем предположениям 17
А—Е. При этом, оценивая вектор параметров сс£Дт+1, мы найдем и оценку для ат+1. В связи с вышеизложенным предпочтительнее пользоваться регрессией со свободным членом; при этом предположение В заменяется более сла- бым предположением В'. Коэффициент ат+1 трактуем тогда как суммарный эффект неучтенных факторов. Теперь ясны причины, по которым в регрессии (1.5) присутствует постоянный член а4. Этим самым мы сможем оценить остаточный эффект воздействия на величину выхо- да реакции. Мы предполагаем, что этот эффект одинаков для всех 15 экспериментов. Как следует из (1.6),суммарный эф- фект неучтенных факторов равен — 17,т. е. неучтенные факторы оказывают отрицательное воздействие. Дадим воз- можное объяснение отрицательного значения «суммарного эффекта» неучтенных факторов для рассматриваемого при- мера. Возможно, отрицательный знак а4 есть результат того, что реакция между В4 и В2 не может начаться ниже опре- деленной температуры Т. Таким образом, если количество вещества В4 и количество катализатора К равны нулю, а температура проведения реакции Т, выход реакции будет равен нулю. Другими словами, уравнение (1.6) может быть переписано следующим образом: у х 0,4X1 + 0,23 (х2 — 73,9) + З,75х3, т. е. пороговое значение температуры Т = 73,9°. Вообще говоря, интерпретация свободного члена ре- грессии как суммарного эффекта неучтенных факторов воз- можна далеко не всегда. Такая интерпретация правильна, если регрессия продолжает оставаться адекватной в окрест- ности малых значений независимых переменных хг, х.2, ..., • • > Хцг Очень часто регрессию рассматривают со свободным чле- ном, т. е. в виде (1.8). Если формальное нахождение всех параметров (1.8) по формуле (1.4) связано с обращением матрицы (tn + 1) х (т + 1), то, используя специфический вид регрессии со свободным членом, можно свести нахож- дение а к обращению матрицы меньшего порядка т X т. Процедура такова: 1) находят средние у и всех х: У = У it I ” 1,2,..., /И, « t « t 18
2) вычисляют новые векторы у и всех х: У1~У1 У’ 3) находят оценку МНК для ос = (ап ат)': а = О о о о = (Х'Х)-1 Х'у; т 4) находят оценку для ат^ = у — ^сух^ »=1 Можно показать, что полученная оценка для (aj, а2, am+i)' совпадает с оценкой МНК уравнения (1.7), которая непосредственно получается из формулы (1.4). Предположение Г означает, что отклонения регрессии (а значит, и сама зависимая переменная) не коррелируют. Иногда требуют большего —независимости отклонений. Условие некоррелируемости довольно огра- ничительно, например в случае временного ряда yt. Тог- да предположение Г означает отсутствие автокорреляции ряда ef. Другим требованием к отклонениям в классиче- ской линейной регрессии является условие гомоскедастич- пости, т. е. о2 (ег) = а2 (уг) = о2 = const — однородности отклонений, в противном случае говоримо гетероскедастич- пости. Это условие также довольно часто не выполняется. Даже если ег трактовать как ошибки измерения, то вполне вероятно, что большим значениям yt будет соответствовать и большее значение 8(. Принятие гипотезы гомоскедастич- иости означает, что «величина» случайных отклонений в (1.1) должна быть постоянной1. Параметр о2>0 неизвестен. Случай о2 = 0 тривиален. Действительно, тогда с вероят- ностью 1 у = Ха и у — детерминированный вектор. По- скольку rank X ~ tn, существует единственный вектор а, удовлетворяющий этому равенству, т. е. 0 вырождается и точку и оценка тривиальна. В дальнейшем будем пред- полагать о2 > 0. Принятие предположения Г в регрессии (1.5) означа- ет, что, во-первых, в отклонениях нет автокорреляции, т. е. неучтенные фкторы б( действуют случайно от экспери- мента к эксперименту. Автокорреляция отклонений могла наблюдаться, если после каждого эксперимента реактор промывался недостаточно хорошо, и результат (t + 1)-го эксперимента в определенной степени зависел от /-го экс- перимента. Вторая часть предположения Г означает, что разброс неучтенных факторов в (1.5) постоянен. 1Под «величиной» мы подразумеваем разброс отклонений, т. е. эффект случайности yt. 19
Предположение Д фиксирует матрицу неза- висимых переменных. Матрицу X в условиях данного пред- положения можно рассматривать как систему заданных коэффициентов. В регрессии (1.5) считаем, в частности, что данные пят- надцати экспериментов х1г х2, х3 не содержат ошибок из- мерения. Переменные х±, х2, хт по предположению не явля- ются стохастическими и часто контролируемы. Предположение Е влечет единственность оцен- ки МНК и применимость формулы (1.4). Случай, когда это условие не выполняется, рассмотрен в [4], [60], а также в параграфе 5.2. Предположение Е влечет т п, т. е. число неизвестных параметров должно быть не больше числа наблюдений. Можно проверить, что предположение Е выполняется для регрессии (1.5) (см. табл. 1.1). Упражнения 1.3 1. Найдите оценку МНК в задаче 2 упражнений 1.1, если 0 = (а=(а1, а2) £ R2: ах-[-а^ = 1}. 2. Выпишите формулы для вычисления оценки МНК в парной регрессии со свободным членом. 3. Допустим, все предположения классической регрессии вы- полнены, за исключением Г. Известно, что отклонения не коррели- руют, но гетероскедастичны: о2 (et) = of const, t = 1, ..., п, при- чем at известны с точностью до постоянного множителя. Как свести подобную регрессию к гомоскедастичной? Будут лн для нее выпол- нены все предположения? 4. Рассмотрим простейшую регрессию yt = a.V; 4- е(, для ко- торой выполнены все предположения Б—Е (et независимы). Апри- орное множество ® = {а 0}. Докажите, что с положительной вероятностью а § Q, где а — обычная оценка МНК. Верно ли ана- логичное утверждение для множественной регрессии с ® = {а С Rm : а, > 0, ..., ат 0}? 1.4. Методология статистического оценивания Кратко остановимся на основных моментах современ- ного подхода к теории оценивания. Это поможет читателю глубже понять статистические свойства оценок, изучаемых в книге. Более подробно соответствующие вопросы изложе- ны в [33]. Допустим, имеется «-мерная случайная величина у = = («/и ... уп), т. е. выборка, распределение которой неиз- 20
вестно и зависит от некоторого неизвестного параметра а, про который известно лишь, что он принадлежит некото- рому априорному множеству 0. Функцию распределения, соответствующую а, обозначим Fa. Статистикой, или оцен- кой, называют функцию на Rn, зависящую от у, но не за- висящую от а. Рассмотрим одну из оценок, которую, на- пример, обозначим а = а (у) = а (г/х, ..., уп). Для про- стоты будем считать, что число неизвестных параметров равно единице, т, е. а £ R1. Как ввести критерий качества оценивания а неизвестного параметра а? Предположим, Рис. 1.5. Несравнимые функции риска что а известно, тогда для заданного у можно выбрать квад- ратичный критерий (квадратичную функцию потерь), т. е. ।'.низость а (у) и а будем измерять величиной (а (у) — а)2. 11<тйдем для данного а усредненную точность оценивания. Опа равна: ЯаИ = Еа(О(у)-а)2= J(a(y)-«)2dFa(y). (1.9) Функция Ra (а) называется функцией риска оценки а. Легко видеть, что для несмещенной оценки функция рис- ка есть не что иное, как ее дисперсия. Для каждой оценки функция риска — неотрицательная функция параметра а. Теперь, казалось бы, имеется критерий, по которому можно намерять эффективность оценок и возможно определить наи- лучшую оценку. Однако многие оценки оказываются не- сравнимыми. Действительно, рассмотрим функции риска R, (а) и А’2 (а), соответствующие оценкам (у) и а2 (у) (рис. 1.5). 21
Какая из них лучше? Однозначно ответить на этот вопрос нельзя. Если истинное значение параметра лежит между 1 и 2, то предпочтительнее пользоваться оценкой а2> в про- тивном случае — ах. Но мы как раз и не знаем, лежит ли неизвестный параметр в заданных границах или нет! Благоприятная ситуация для сравнения изображена на рис. 1.6. Здесь видно, что первая оценка лучше. Невоз- можность сравнения любых функций риска делает задачу нахождения оптимальной оценки в классе всех оценок не- разрешимой. Действительно, допустим имеется некоторая «наилучшая» оценка а (у), функция риска которой Ra (а) минимальна, т. е. для любой другой оценки b (у) имеем Ra (а) С Rb («) Для всех «• Очевидно Ra (а) 0, так как в противном случае а('у)- я и0 вырождается в точку. Итак, пусть R (а0) >0. В качестве новой оценки а положим b = b (у) ==s а0 для всех у Е Rn. Найдем функцию риска такой оценки. По формуле (1.9) Rb (а) = Еа (а — — а0)2 = (а — а0)2 (рис. 1.7). Очевидно, в заштрихованной окрестности а0 оценка b будет лучше «наилучшей» оценки а. Существует несколько способов обхождения трудностей, связанных с несравнимостью функций риска. Байесовский подход. Как правило, не все точки априор- ного множества параметров для нас одинаковы. Так, если 0 = (0, 1), то весьма возможно, что гораздо важнее хо- рошо оценить неизвестный параметр, лежащий в окрест- ности 0, 5, чем по краям отрезка (0, 1). Таким образом, мож- но ввести функцию предпочтения, или весовую функцию. Ее можно рассматривать и как априорное распределение параметра а £ 0. Так, в нашем случае в качестве функции предпочтения можно взять р (а) = а (1 — а). В общем случае р (а) есть неотрицательная функция на 0. С по- 22
мощью функции предпочтения можно найти усредненную функцию риска Ва — (а) р (а) da. Теперь каждой оценке соответствует фиксированное число — задача срав- нения оценок решена. Оптимальная байесовская оценка минимизирует усредненную функцию риска Ва. Минимаксный подход. При этом подходе ориентируют- ся на худшую возможность, т. е. на максимальное значение функции риска Ма = sup Ra (а). Наилучшей минимакс- Рис. 1.7. Функция риска тривиальной оценки Ьэа» ной оценкой в этом смысле является та, которая миними- зирует максимальный риск Ма- Существует другой способ регуляризации задачи оцени- вания — сужение класса рассматриваемых оценок. Часто ограничивая класс оценок, мы можем найти оптимальную оценку из этого класса. Наиболее часто рассматривают класс несмещенных оценок. В этом случае даже можно вы- числить нижнюю границу функции риска J?* (а); она называется границей Крамера—Рао. Для любой несмещен- ной оценки а (у) имеем Ra (а) > R* (а) (рис. 1.8). Гра- ница Крамера—Рао для дисперсии несмещенной оценки на- ходится довольно просто: это обратная величина информации по Фишеру I (а), т. е. для любой несмещенной оценки а (у) имеем Ra (а) = Еа (а (у) — а)2 > 1/1 (а) = 7?* (а), (1.10) где /(«) = Еа[ а1П^'; а> J" , (1.И) 23
a f (•; a) — функция плотности выборки z/1; z/2, у,,1. Поэтому если мы докажем, что дисперсия некоторой оцен- ки равна 1/7 (а) для любого a £ 0, то эту оценку можно, считать эффективной в классе несмещенных оценок. Можно рассмотреть еще более узкий класс — класс линейных несмещенных оценок. Каждую оценку из это- го класса можно записать в виде п а = а(у) = У ctiji, 4=1 где Ci — некоторые константы, удовлетворяющие в силу несмещенности а условию (а) = а, где ц; (а) = = Ег/г. В этом классе также можно найти эффективную оценку. Она находится, как правило, весьма просто. До- кажем, что средняя арифметическая является эффективной в этом классе оценкой математического ожидания при любой функции распределения с неизвестным математическим ожиданием ц и единичной дисперсией (уъ у2, ..., уп — случайная выборка, т. е. у, независимы и одинаково рас- пределены). Итак, пусть т1 = т1 (у) = Sc,z/;, причем в силу несмещенности Sc; = 1. Тогда Rmi (Н) = °2 (mi) = 2 cl => min. Легко показывается, что решением этой оптимизацион- ной задачи является сг = ... = сп = Мп, т. е. тг — т — = ^ytln. Шри этом должны быть выполнены определенные условия ре- гулярности (см., например, [63, с. 360]). 24
Если ylt у2, уп нормально распределены, то можно показать, что средняя является эффективной оценкой в классе всех несмещенных оценок. Действительно, в этом случае х 1 — f(Vt< Р) = ——е 2 У2л — плотность распределения t-й координаты вектора у; плотность распределения вектора у равна в силу незави- симости произведению таких плотностей: /(У; |1) = (2л)“,1/2ехр —^2(уг-|1)2 , 1п/(у; н)= —In 2л— и)2, Информационное количество в выборке у1г у2, ..., уп по Фишеру равно: = 2E(i/i-p)2=n. I Итак, нижняя граница дисперсий несмещенной оценки Кра- мера—Рао равна 1/п, но дисперсия средней тоже равна 1/п, откуда следует, что средняя — эффективная оценка в классе несмещенных оценок. Мы доказали^ что средняя является эффективной в клас- се несмещенных оценок, если выборка подчинена нормаль- ному закону. Предположение нормальности существенно. Если взять другой закон распределения, то эта оценка может оказаться уже не эффективной. Может быть введен еще один класс оценок: оценки с ограниченной функцией риска. Оценка а = а (у) принадле- жит классу оценок с ограниченной функцией риска, если найдется такое число М, что 7?о (а) < М для всех а Е 0. Класс оценок с ограниченной функцией риска вводится для того, чтобы не рассматривать оценки плохие при неко- торых значениях неизвестных параметров. 25
Допустим, у = (ух, у2, у„) —• случайная выборка из распределения Fa, а Е 0 cz Д1. Предположим также, что о2 (У;) — о2, которая известна. Нетрудно показать, что тогда класс линейных несмещенных оценок параметра а уже класса линейных оценок с ограниченной функцией риска. Действительно, пусть а — а (у) — линейная не- смещенная оценка, т. е. а(у)= 2 Ес(У) = «- i = 1 Тогда ее функция риска ограничена (не зависит от а): Ra (а) = о2 (а) = о2 (2 О у{ ) = о2 2 с/. \ i ) i Если в качестве неизвестного параметра а выступает мате- матическое ожидание у;, т. е. Еу, = а, то можно показать, что класс линейных несмещенных оценок и класс линейных оценок с ограниченной функцией риска совпадают. Пример. Пусть у = (уъ ..., уп) — случайная выбор- ка из совокупности с нормальным распределением с неиз- вестным математическим ожиданием р и единичной диспер- сией, т. е. уг ~ М (pi, 1). Предположим, что априорное множество р есть вся числовая прямая (—оо, + оо). В ка- честве оценок р рассмотрим три оценки: первая — хорошо известная средняя т = т (у) = ^yjn‘, вторая — полусум- ма первого и последнего наблюдений k = k (у) = (yj+ + упУ2 и третья — «глупая» оценка I = I (у) = yjn. Най- дем функцию риска каждой оценки. Прежде всего заметим, что первая и вторая оценки — несмещенные. Далее, Rm (н) = Ен (т (У) — И)2 = о2 И = —; п ЯНн) = (Ш-н)2 = °2 (£) ==4: Rг (|Х) = Eg (/ (У) - Р)2 = Eg /2 - 2}1ЕМ (/) + р2 = П2 П2 Очевидно, для всех п > 2 первая оценка будет лучше второй (рис. 1.9). Может ли «глупая» оценка быть лучше средней? Легко проверить, что это возможно, если истин- ное значение математического ожидания заключено в пре- делах (— 1V»—1, MY п—1). На интервале (—1/2, 1/2) «глупая» оценка будет лучше при п = 5. 26
Перейдем к случаю многомерного оценивания, т. е. 1. Пусть А — некоторая положительно определенная детерминированная (весовая) матрица, а = а (у) — оцен- ка, случайный вектор т х 1 параметра ос £ 0 с. Rm. Обоб- щенной квадратичной функцией потерь назовем величину /?а(а) = Е [(а (у)-ос)' А (а (у) -а)]. (1.12) Вместо (1.12) можно рассмотреть матрицу средних квадра- тов отклонений (ошибок) (СКО): Е 1(а (у)—ос) (а (у)—ос)']. (1.13) Оценка at (у) не хуже оценки а2 (у) в случае (1.13), если для всех истинных значений параметров ос разность СКО между второй и первой оценками есть неотрицательно Рис. 1.9. Функции риска различных оценок средней при п=5 определенная матрица. Для несмещенных оценок матрица СКО превращается в матрицу ковариаций cov (а) = Е (а (у) — а) (а (у) — а)' = Е (а (у) — Еа) X X (а (у) — Еа)'. Таким образом, несмещенная многомерная оценка ах не хуже несмещенной оценки а2, если cov (а2) — cov (at) неотрицательно определена, что будем в дальнейшем запи- сывать как cov (at) cov (а2). Если разность cov (а2) — — cov (ах) — неотрицательно определенная и ненулевая матрица, то аг лучше а2. В этом случае будем иногда гово- рить, что ai имеет меньшую матрицу ковариаций, чем а2. Каждый из критериев эффективности многомерных оценок 27
(1.12) и (1.13) имеет Свои преимущества и недостатки. Пре- имущества первого критерия: сравнимость эффективностей любых двух оценок. Недостаток (1.12): необходимо вы- брать весовую матрицу А, которая априори часто неизвест- на. Недостаток (1.13) — несравнимость эффективностей не- которых оценок. Можно показать, что оба критерия в оп- ределенном смысле приводят к одним и тем же оптималь- ным оценкам: если оценка at (у) не хуже оценки а2 (у) в смысле (1.13), то а, (у) не хуже а2 (у) в смысле (1.12) для любых весовых матриц А, и наоборот (см. [191]). Часто в критерии (1.12) в качестве весовой матрицы вы- бирают единичную. Тогда приходим к минимизации сред- ней суммы квадратов ошибок (ССКО): La («) = Е [(а (у) — а)' (а (у) — а)] = tr Е [(а (у) — — а) (а (у)—а)']. (1.14) Неравенство Крамера—Рао (1.10) обобщается на много- мерный случай. Пусть a g 7?т, а — несмещенная оценка, тогда cov (а) I-1 (а), (1.15) где 1 (а) — е |7 Д111 Н-; и) W-al!?AL,; ; (1.16) L\ да ) \ да ) J здесь I (а) — положительно определенная матрица т X т. Неравенство (1.15) следует понимать так, что разность меж- ду левой и правой частями — неотрицательно определен- ная матрица. Упражнения 1.4 1. Рассмотрим схему последовательных независимых испыта- ний. Пусть число испытаний равно п\ при каждом испытании собы- тие А наступает с вероятностью 0 и не наступает с вероятностью 1 — 0, 0 Q 0 = (0, 1). В качестве оценки 0 выбирается 0 = = т/гг, гдет— число появлений события А. Покажите, что 0— несмещенная оценка. Постройте ее функцию риска. Будет ли 0 ли- нейной оценкой? 2. Пусть ух, у2, , уп — независимы и одинаково распреде- лены, yt ~ R (0, 0) — равномерное распределение на (0, 0), 0 £ 0 = (0, оо). Требуется оценить 0. Рассмотрим оценку 0т = = max у(. Будет ли она несмещенной? Найдите ее функцию риска. Найдите несмещенную оценку с минимальной дисперсией; чему рав- 28
на ее функция риска. Постройте линейную несмещенную оценку. Сравните ее функцию риска с функцией риска 0т Какая оценка лучше? 3. При условии задачи 1 нас интересует оценка 02. Будет ли оценка (m/п)2 несмещенной? 1.5. Теорема Гаусса—Маркова Оценка МНК является статистикой, т. е. случайной ве- личиной. Разные наблюдения у приводят к разным зна- чениям оценки, причем зависимость а от у линейная (а— линейная оценка). Вычислим математическое ожидание и матрицу ковариаций оценки а. Используя (1.4), получим Еа = Е [(Х'Х)-1 Х'у]. Так как по предположению Д X есть матрица детермини- рованная, то ее можно выносить за знак математического ожидания, т. е. Еа = Е [(Х'Х)’1 Х'у] = (Х'Х)’1 Х'Е (у) = = (Х'Х)’1 Х'Ха = а. (1.17) Таким образом, математическое ожидание оценки равно истинному значению параметра. Итак, оценка МНК не- смещена. Найдем матрицу ковариаций оценки МНК- По опреде- лению cov (а) = Е (а — Еа) (а — Еа)'. Из несмещенности оценки МНК следует а — Еа = а — а=(Х' X)-1 Х'(ХаДе)—а= а + + (Х'Х)"1Х'е—а = (Х'Х)-1Х'е, откуда cov (а) = Е [(X' X)-1 X' ев' X (X' X)-1] = = (X' X)-1 X' Е (ее') X (X' X)-1 = = (X' X)-1 X' a21„ X (X' X)-1 = а2 (X' X)-1; окончательно cov (а) = о2 (Х'Х)-1. (1-18) Нельзя считать (1.18) статистикой, поскольку cov (а) за- висит от неизвестного параметра а2. Позднее мы оценим о2 и найдем оценку для cov (а). 29
Приведем известную теорему Гаусса—Маркова, в ко- торой говорится о важнейших статистических свойствах оценки МНК- Теорема Гаусса — Маркова 1.2. Пусть пред- положения А — Е выполняются, оценка МНК является а) несмещенной, б) эффективной в классе несмешанных оценок, линейных по у. Доказательство. Несмещенность уже была нами доказана. Докажем линейную эффективность МНК- Пусть b— другая несмещенная оценка, линейная по у. Тогда Ь= Ну, где Н — некоторая детерминированная матрица т X п. Из условия несмещенности b имеем ЕЬ = Е [Ну] = НЕу = НХа = а для любого a g Rm, откуда HX=Im. (1.19) Обозначим С = Н — (Х'Х)-1 X'. Тогда из условия (1.19) СХ = [Н —(Х'Х)-1Х']Х-НХ —(Х'Х)-1Х'Х = = НХ — 1= о, Ь— а = Ну— а — НХа | Не — а — Не. Вычислим матрицу ковариаций для оценки Ь: cov (b) = Е (Ь — а) (Ь — а)' = Е (Нее' Н') = а2 НН' — = о2 [С + (X' X)-1 X'] [С' + X (X' X)-1] - = а2[СС,+СХ (Х'Х)-1 + (Х' Х)-1Х'С' + + (X' X)-1 X' X (X' X)-1] = о2 СС' + а2 (X' X)-1 = а2СС' +cov (а). Поскольку матрица СС' неотрицательно определена, полу- чаем cov (b) Дг cov (а), т. е. разница матриц ковариации любой линейной несмещенной оценки и оценки МНК не- отрицательно определена (см. параграф 1.4). Замечания: 1. Как видно из доказательства, С =£= 0, поэтому хотя бы один диагональный элемент ма- трицы о2 СС' больше нуля. Это, в частности, означает, что если b — какая-либо другая несмещенная линейная оценка, то дисперсия i-й координаты о2 (bt) о2 (а,-) — дисперсии i-й координаты оценки МНК, причем хотя бы для одной координаты о2 (bf) > о2 (аД. 30
2. Еще раз подчеркнем оптимальность свойств оценок МНК в своем классе. Как следует из предыдущего парагра- фа, можно построить смещенные оценки, которые для не- которых значений а будут лучше оценок МНК- Существен- ным условием является требование линейности оценок. Весьма вероятно, что можно построить несмещенные нели- нейные оценки, которые будут для всех а более оптималь- ными, чем оценка ЛАН К- Однако в дальнейшем нами по- казано,. что если распределение в нормально, то оценка МНК будет наилучшей в классе всех (линейных и нели- нейных) несмещенных оценок. Дж. Ходжес и Е. Леман доказали минимаксность оцен- ки МНК Н29]. Иногда нам интересны не сами оценки вектора парамет- ров аь а2, ..., ат, а некоторые их линейные комбинации. Допустим, нас интересуют оценки вектора 0 = Ва, где В — известная матрица k х пг, 0 — неизвестный вектор, подлежащий оцениванию, размерности k X 1. Можно до- казать, что оценка b = Ва является: а) несмещенной, б) эффективной в классе несмещенных оценок, линейных по у. Это позволяет прояснить еще одно свойство оценки МНК- Предположим, в регрессии нас интересует только один параметр, скажем аР Мы стараемся получить наи- лучшую линейную несмещенную оценку только этого пара- метра. Что это будет за оценка? Как следует из последнего факта, это будет оценка МНК- Действительно, положим В = (1, 0, ..., 0) — матрица 1 X т, тогда 0 = aj и наи- лучшей оценкой будет b = Ва = alt т. е. первая коорди- ната оценки МНК- Итак, можно сделать вывод: МНК явля- ется одновременно эффективным и с точки зрения оценива- ния индивидуального параметра регрессии, и с точки зре- ния оценивания всех параметров совместно. Можно также рассмотреть линейные несмещенные оцен- ки, минимизирующие сумму дисперсий параметров. Эти оценки совпадают с оценками МНК- До сих пор мы интересовались оцениванием параметров регрессии аь а2, ..., ат. Однако существует еще один не- известный параметр — дисперсия отклонений регрессии о2. Как найти удовлетворительную оценку для этого пара- метра? Обозначим е = у — у = у — Ха. Положим = —L_ (120) n—т п—т 31
Теорема 1.3. Статистика s2 несмещенно оценивает о2. Доказательство дано в параграфе 1.11. Как мы уже отмечали, выражение (1.18) нельзя счи- тать статистикой, поскольку о2 неизвестно. Теперь, имея оценку s2, можно построить несмещенную оценку для ма- трицы ковариации оценки МНК: cov(a) = s2(X'X)-1. (1.21) На практике матрицу ковариаций довольно затрудни- тельно интерпретировать, так как она зависит от единиц измерения оценок, что в свою очередь зависит от единиц измерения переменных у, xlt ..., хт. С этой точки зрения удобнее пользоваться матрицей корреляций параметров. Она рассчитывается на основе (1.21), (i, /)-й элемент кото- рой равен: cor;j (а) = (X' Х),7*/Г(Х'Х)й‘(Х'ХДЛ где (X'X)i)1 —(i, /)-й элемент матрицы (Х'Х)-1. По зна- чению соГ;; мы можем оценить, как i-я координата оценки МНК коррелирует с /-й координатой. Грубо говоря, мы как бы оцениваем линейную взаимозаменяемость параметров регрессии. Поскольку сог (а) не зависит от выборки у, ее можно считать «абсолютно точной оценкой». Это освобож- дает нас от необходимости проверять эти коэффициенты на значимость, так как мы сразу получаем истинные зна- чения коэффициентов корреляции между at и а;-. Найдем статистику s2, матрицу ковариаций и корреля- ций для регрессии (1.6). В предпоследней и последней ко- лонках табл. 1.1 даны соответственно у и е = у — у. Сум- ма квадратов отклонений Q = 68,46, поэтому s2 = Q/(n—m)= = 68,46/11 — 6,22 — несмещенная оценка дисперсии о2. Используя матрицу (Х'Х)-1, вычисленную в параг- рафе 1.1, найдем оценку матрицы ковариаций оценки МНК: cov(a) = s2 (Х'Х)-1 = 0,001702 —0,0103 —0,01198 0,6425" 0,1747 — 0,3289 — 7,3712 *** 1,677 20,889 780,64 32
Исходя из этой матрицы можно найти дисперсию и сред- неквадратические отклонения для оценки а (табл. 1.2). Матрица корреляций параметров равна: 1,00 —0,595 —0,224 0,558 1,000 —0,608 —0,987 *** 1,000 0,578 1,000 Таблица 1.2 Дисперсия оценки, sf aj a2 a3 a4 0,001702 0,1747 1,677 780,64 Среднее квадратическое отклонение (стандартная ошибка), si 0,04126 0,4180 1,295 27,94 Таким образом, можно утверждать, что коэффициенты кор- реляции между а4 и а2, аг и а4, а2 и а3, а3 и а4 прибли- зительно одинаковы по абсолютной величине. Максималь- ный коэффициент корреляции равен — 0,987 и соответст- вует корреляции между а2 и а4. Как интерпретировать г (a.i, aj)? Рассмотрим, например, а4 и а2- Мы получили г (а4, а2) = — 0,595. Это означает, что если повторять на- блюдения за у (при фиксированной матрице X) и каждый раз вычислять оценку МНК, то, расположив пару (alt а2) на плоскости, получим облако рассеяния с коэффициентом корреляции, равным — 0,595. Знак минус означает, что при увеличении а4 мы должны скорее ожидать уменьшение а2, и наоборот. Упражнения 1.5 1. Покажите, что оценка МНК линейна по у. 2. Пусть А и В — матрицы т X т. Докажите, что если А^В, то А;; > В,:; для I = 1, ..., т. Верно ли обратное? 3. Пусть b = Ну — несмещенная линейная оценка а. Как сле- дует из доказательства теоремы Гаусса—Маркова, cov (Ь) = о2НН'. Найдите b из условия tr cov (b) = о2 tr НН' => min. 4. Под обобщенной дисперсией несмещенной оценки понимают определитель ее матрицы ковариаций. Покажите, что оценка МНК минимизирует обобщенную дисперсию. 5. Является ли оценка s несмещенной оценкой о? 2 Зак. 2067 33
6. Дана регрессия yt — axt + et- В качестве оценки для а выбирается b = HyjUxt (Sxt =(=- 0) — коэффициент наклона пря- мой, соединяющей начало координат и «среднюю» точку (х, у); а) докажите, что оценка b — линейная несмещенная оценка; б) найдите ее дисперсию. Во сколько раз оценка МНК эффективнее Ь? Когда эффективности оценок совпадают? 7. Дана регрессия yt = otjXf а2 et. Разобьем пары на- блюдений (ху, у^ на две группы. В первую войдут k первых наблю- _ k _ k дений, во вторую — оставшиеся. Найдем хг= S хг/&, уг= S z=i _ п _ п х2 = S xj (n—k), у2 — S yt!(n—k). Проведем через две пары то- i~k+l _ _ / = й+1 чек (лу, у,) и (х2, у2) прямую. В качестве оценки а2) выберем К = (У2 — У1У (х2 — xi), Ь2 = у — bjx; а) докажите, что эта оценка является линейной и несмещенной; б) найдите о2 (6j), о2 (62), cov (6j, b2). Во сколько раз оценка МНК а,1 эффективнее оценки ^? Когда эффективности совпадают? 8. Используя метод множителей Лагранжа, найдите несмещен- ную оптимальную оценку аг = Sctyt параметра в парной линей- ной регрессии yt = oyxf + а2 + et. 9. В задаче7х( = П у;=1Д, я = 10. Найдите s2, несмещенную оценку матрицы ковариации оценок МНК, стандартные отклоне- ния оценок параметров <xlt а2 и матрицу коэффициентов корреля- ций параметров. 10. Пусть 2kxm—любая подматрица матрицы Хп*т. Как ее выбрать, чтобы оценка МНК, построенная на основе матрицы Z, была наилучшей? 11. Покажите, что точность оценивания по методу наименьших квадратов увеличивается при увеличении объема выборки (покажи- те, что Х„+1 Хп+1 > Х„ Х„, где Хт> — матрица независимых пере- менных, построенная на выборке объема п). 1.6. Коэффициент детерминации и его интерпретация Этот коэффициент вводится в курсах математической статистики (см. [42], [63]). Рассмотрим т ф- 1 случайную величину у, xlt ..., хт. Регрессией у на xlt ..., хт в математической статистике называют условное математическое ожидание у при фикси- рованных значениях х1т х2.....хт, которое обозначают как Е (///%!, х2, .... хт). Условной дисперсией у при заданных xlt ..., хт называется дисперсия у относительно регрессии Е (у/%!, ..., хт). Таким образом, о2 (y/xlt ..., хт) = Е [(у — Е (у/хъ .... хт)УЧХ1, ..., хт1. (1.22) Предположим, что условная дисперсия (1.22) не зависит от значений, которые принимают независимые переменные, 34
н равна а2. Коэффициент детерминации определяется сле- дующим образом: оЧ.’Л'М.....хт) = | О2 о2 (у) о2 (у) (1.23) где о2 (у) — дисперсия случайной величины у. Можно по- казать, что о2=С о2 (у), поэтому 0 r2< 1, причем г2 = 1 тогда и только тогда, когда у и ..., хт связаны функцио- нальной зависимостью, точнее, у = Е (ylxlt ..., хт) с ве- роятностью 1. Чем ближе коэффициент детерминации (1.23) к 1, тем «функциональнее» статистическая зависимость между у и Xi, ..., хт. Таким образом, г2 является показате- лем адекватности, или качества соответствия, регрессии Е (у'хх, х2, ..., хт) исходной системы случайных величин у, %!, ..., хт. Величина 1 — г2 есть доля дисперсии у, ко- торая не смогла быть «объяснена» с помощью регрессии U (y/xlt хт), величина г2 — доля «объясненной» дис- персии у. В курсах по регрессионному анализу коэффициент де- терминации вводится следующим образом. Пусть дана линейная регрессия со свободным членом У1 -|- ... -|- CLm—1 , Tn —1 "Ь Н- &t> t = 1, .... п. (1.24) Оценка МНК равна: а = (Х'Х)-1 Х'у. (Напомним, что пос- ледний столбец матрицы X состоит из единиц.) Далее мож- но найти расчетный вектор зависимой переменной у = Ха п оценку вектора отклонений е = у — у = у — Ха. По определению оценка МНК удовлетворяет уравнению - Х'у Н- Х'Ха --- 0, откуда X' (у — Ха) = Х'е = 0. (1.25) Обозначим 1 = (1, 1, ..., 1)' — вектор размерности и, все координаты которого равны единице. Тогда, переписы- вая (1.25) для последнего столбца матрицы X, получим Ге = Sgj = 0, т. е. среднее е = 0. Отсюда следует, что среднее у равно среднему у, так как у = у + е = у + 0 = = У- о* 35
Далее, е'у = е'Ха = 0, поэтому е'у — уе'1 = 0. Вы- веденные уравнения используем для разложения суммы квадратов отклонений у от средней: SGi—У)2 = (У~У’)' (У—У1) = [(У—у1) + е]'х t х [(у—yl) + e] = (y—yl)'(y—yl) + 2(y—у!)'е + е'е = = (у—у1)'(у —У 0 + е'е, которое перепишем как SGi —У)2 = 2(У/—у)2+2 (1.26) t t t Таким образом, разброс объясняемой переменной около средней равен сумме разброса, «объясняемого регрессией», и разброса, который не удалось объяснить. Коэффициент детерминации регрессии (1.24) опреде- ляется следующим образом: _ объясняемая сумма квадратов вся сумма квадратов = 2 (yt-У)2 _ J/1 27) S(m-T)2 2(Щ-У)2’ Коэффициент детерминации легко интерпретируется ге- ометрически. Перенесем начало координат выборочного про- странства в точку (у, у, ..., у)' = у £ Rn. Тогда *2=Ж-Р)2/Ж-у)2 t I t есть отношение квадрата длины катета к квадрату гипо- тенузы. Таким образом, коэффициент детерминации равен квадрату косинуса угла между у и у или между у и Sx. Часто величину (1.27) интерпретируют так же, как и коэффициент детерминации г2 (1.23), т. е. как показатель адекватности модели, как долю дисперсии у, объясняемой регрессией (1.24). Однако если независимые переменные де- терминируемы, то такое толкование коэффициента (1.27) недопустим.о. Покажем, почему это происходит. Коэффи- циент (1.27) может быть переписан следующим образом: S еЦп ^(yt — yyin (1-28) Числитель дроби в (1.28) есть оценка условной дисперсии о2, знаменатель — оценка дисперсии у, причем у — оцен- 36
ка математического ожидания случайной величины ^Та- ким образом, для того чтобы статистика 2 (yt — у)2/п была приемлемой оценкой дисперсии у, необходимо прежде всего, чтобы Eyt — const. Но в силу детерминируемости хц это влечет Е«/г = -t- ... 4- a,n-iX tiin^ Ц- am -= const, t = I, .... n. (1.29) Уравнение (1.29) означает линейную зависимость вектор- столбцов матрицы X, что противоречит предположе- нию Е. Забвение того факта, что yL, у2, ..., уп в регрессии (1.24) имеют разное математическое ожидание, приводит к тому, что оценка 2 (yt — уУЧп. оказывается завышенной, Рис, 1.10. Две модели для растущего ряда а № близким к 1. Особенно высокие значения возника- ют в тех случаях, когда yt — временной монотонный (в среднем) ряд (рис. 1.10). Величина 2 [yt — у)г будет тем больше, чем выше скорость возрастания (или убывания) ряда yt. Таким образом, ъ регрессиях с монотонными за- висимыми переменными скорее есть показатель не адек- ватности модели, а роста (падения) yt- Автору приходилось сталкиваться с регрессиями, у которых коэффициент детер- минации оказывался 0,998 и выше. Толкование коэффициента (1.27) как показателя адек- ватности модели, часто приводит к парадоксам, один из ко- 37
торых рассмотрим. Допустим, нас интересует зависимость объема выпуска некоторого предприятия от других его по- казателей, например от наличия основных фондов и фонда заработной платы. Имеется выборка соответствующих пока- зателей за п лет. Предполагается следующая мультиплика- тивная зависимость z/, = ea*‘ (1.30) или In = аД а2 In -ф а3 -ф 8(, Lt Lt где а3 = In аф Предположения А—Е считаем выполнен- ными. Коэффициент детерминации, отвечающий этой мо- дели, обозначаем Дф Теперь рассмотрим конкурирующую модель тренда У; = е₽и|^еЧ (1.31) или In yt = |ЗД -ф |32 + £t« где ₽2 = In рф Коэффициент детерминации, вычисленный для этой мо- дели, обозначим через Дф Ясно, что модель (1.30) более правдоподобна, чем модель (1.31), так как выпуск пред- приятия должен зависеть от основных фондов и фондов заработной платы. В то же время наверняка R2Z > R[. Объясним, почему это произойдет. Ряд yt будет иметь рез- ко выраженную тенденцию, таковым будет и ряд In yt, поэтому У, (In yt — У In ytlnYln будет большой величи- t t ной, a R\ будет близок к 1. Наоборот, ряды yt и Lt ско- рее всего имеют одинаковую тенденцию, и поэтому ряд In ytlLt не будет ни возрастающим, ни убывающим, т. е. R{ не должен принимать очень больших значений. Однако, что же означает R2, рассчитанный по формуле (1.27). Помимо исходной регрессии (1.24) рассмотрим дру- гую регрессию —модель среднего !й = ₽вП>*=1.......... п. (1.32) Оценкой МНК уравнения (1.32) является Ьт = у = Ъу^п с минимальной суммой квадратов, равной 2 (yt — г/)2. Тогда отношение Se</2 (yt — у)2 есть показатель того, на- сколько модель среднего (1.32) лучше модели регрессии (1.24), т. е. показатель эффекта присутствия переменных 38
Xj, x2, xm-i: чем выше это отношение, тем меньше эф- фект введения переменных .... хт_х в уравнение (1.32). Разность 1 — Se’/S (yt — у)2 отражает, насколько мо- дель (1.24) лучше модели среднего (1.32). Итак, в регрессиях с детерминированными независимыми переменными коэф- фициент детерминации необходимо трактовать как по- казатель, отражающий, насколько модель регрессии лучше модели среднего. Если принять такую трактовку R2, то становятся ясными большие значения этого коэффициента для растущих временных рядов. По определению модель среднего для таких рядов не удовлетворительна, а значит R2 должен быть близким к 1. Вместо коэффициента (1.27) для монотонных рядов у мож- но предложить другие более приемлемые показатели. Прежде всего отметим, что по тем же соображениям, по которым в уравнение регрессии мы вводили свободный член, в уравнение регрессии с монотонным рядом предла- гается вводить член pm_xZ + рт. Поскольку у — возрастающий (убывающий) ряд, то, вероятно, таковыми будут и неучтенные факторы etco сред- ней тенденцией. pm_2 t + pm. Тогда уравнение регрессии будет выглядеть следующим образом: yt = axxtl + ... + am_2x{,m_2 -I- + am + et. (1.33) Вместо модели (1.32) уместно теперь рассмотреть другую, конкурирующую с (1.33), модель тренда: yt = + Pm + U (1.34) Пусть bm~i и bm— оценки МНК модели-тренда (1.34). Тогда коэффициент детерминации предлагаем считать по формуле # = 1 - Stf/2 (yt - Ьт_, t - bm)2, где Se’ — минимальная сумма квадратов отклонений, со- ответствующая регрессии (1.33). R? отражает эффект присутствия переменных ..., хт_2 в регрессии (1.33). Можно показать, что О Ri 1, причем если Rj — 0, то аг = ... = am_2 = 0; чем Rr ближе к 1, тем лучше модель (1.33) модели-тренда (1.34). Трактуя R2 как показатель адекватности модели исход- ным данным, иногда его предлагают выбирать в качестве критерия присутствия некоторой независимой переменной в регрессии. При этом не надо забывать одно обстоятельст- во: с добавлением новых переменных коэффициент детерми- 39
нации не уменьшается. Докажем это. Пусть регрессия у на хь .... хга привела к коэффициенту детерминации Дт, при этом Sm = < Хх, хт > , проекция у на Sm есть Ут, ет = У — Ут Д- Ут- Дополняя множество независи- мых переменных, приходим к множеству Sra+i = < хъ хга, xm+i>; проекцию у на Sm+1 обозначим ут+1, Рис. 1.11. К доказательству того, что коэффициент детерминации не уменьшается с добавлением пе- ременных em+i = У — Ут+i- По определению em+i _1_ Sra+1, но ут — — Ут+1 € sm+1, поэтому ет+1 J- Ут — Ут+1- По теореме Пифагора II ет ||2= Цу — Ут II2 = II У — Ут+1 (Г + |1 Ут —Ут+1 |Г> >1|у —Ут+11Г = ||ет+1||2, Т. е. II ет ||2 > II ет+1||2. Из последнего неравенства следует требуемое: Ы = 1 -II ет ||2/£ Gi-y)2 1 -II ет+1 1|2/Ж -~уУ = —Дтф1 • На рис. 1.11 показаны соответствующие величины для т = 1, п = 3. При этом Sj = {ctXj), S2 — плоскость, на- тянутая на Xj и хг. 40
Часто вместо R* (формула (1.27)) рассматривают прав- ленный коэффициент детерминации Суть поправки сводится к тому, что вместо смещенных оценок для о2 и о2 (у) рассматривают несмещенные s2 = и s« = = • Таким образом, ЯЙ = 1 — Sef/S (yt -уУ Х(п- = = (7?2(п—1)—m-f-l)/(n—tri). (1.35) Правленный коэффициент детерминации является луч- шей оценкой истинного значения коэффициента детермина- ции, чем обычный коэффициент (1.27). Для регрессии без свободного члена неявно предпола- гается, что у = 0, поэтому формула (1.27) перепишется следующим образом: я*=1—-V. (1.зб) byj Коэффициент детерминации (1.36) отражает, насколько модель без свободного члена yt = аххп + ... + amxtjn луч- ше модели yt = 0. Упражнения 1.6 1. Покажите, что коэффициент детерминации (1.27) в парной регрессии yt = atxt + аа + et равен квадрату коэффицента кор- реляции между у и х. 2. Что геометрически означает fi* = 0 и /?* = 1? 3. Покажите, что оценка МНК соответствует максимальному значению R2 (1-27). 4. Покажите, что 0 <; Rt 1. Что означает Rt = 0 и Rt = 1? 5. Верно ли, что Rt R2? 6. Покажите, что Rn С R2. 7. Введите понятие правлеиного коэффициента Rt. 8. В каком случае введение нового фактора в регрессию ие из- менит коэффициента детерминации? Дайте геометрическую интер- претацию. 9. Докажите, что коэффициент детерминации не зависит от выбора масштаба измерения переменных. 1.7. Состоятельность и асимптотическая нормальность оценки МНК Рассмотрим поведение оценки МНК при увеличении числа наблюдений, т. е. остановимся на ее асимптотиче- ских свойствах. 41
По-видимому, самым слабым, и поэтому самым жела- тельным, необходимым свойством любой оценки является состоятельность. Под состоятельностью оценки понимается возрастающая до бесконечности точность оценивания при увеличении числа наблюдений.Таким образом, статистика ап состоятельно оценивает а (здесь индекс п указывает на то, что оценка а построена на основе п первых наблюдений У1, У2, •••> У-п), если при п ->оо разброс ап около истинного значения а стремится к нулю. Исходя из различных толкований понятия «разброс» получают различные виды состоятельности. Приведем не- которые, наиболее часто встречающиеся виды состоятель- ности (сходимости). 1. Просто состоятельность, или слабая состоятель- ность, опирается на понятие сходимости случайных вели- чин по вероятности. Последовательность (одномерных) оце- нок а1У а2, ... состоятельно оценивает (одномерный) пара- метр а, если для любого числа 8 > 0 вероятность того, что \ап—а|>8, стремится к нулю при п ~>оо: Р{|ап — а|>8}~>0, п ~>оо. Это записываем как plim ап = а. 2. Сильная состоятельность опирается на понятие схо- димости с вероятностью 1. Так, последовательность аг, а2, ... сильно состоятельно оценивает а, если вероятность того, что lim ап = а, равна 1, т. е. Z2—>00 Р/ lim ап = а\ = 1. I 72->ОО / 3. Состоятельность в среднем квадратичном. ап схо- дится к (оценивает) а в среднем квадратичном, если м. о. квадрата отклонения стремится к нулю при п ->оо, т. е. Е (ап — ос)2->0, п->оо. Это записываем как l.i.m. ап — а. И хотя эти три определения состоятельности различны с математической точки зрения, все они отражают одну качественную картину — «сведение на нет» разброса оцен- ки около истинного значения при п->оо. Первое определение самое слабое: состоятельность в среднем квадратичном и сильная состоятельность влекут 42
состоятельность в слабом смысле. Первое утверждение сле- дует из неравенства Чебышева Р {| gn-a | > в} < А(ад~«)а . (1.37) еа При любом в > О, если п->оо, левая часть (1.37) стре- мится к нулю. Второе утверждение здесь доказывать не будем1. Если нет дополнительной информации, нельзя доказать, что сильная состоятельность влечет состоятель- ность в среднем квадратичном, или наоборот. В статистике чаще используют слабую состоятель- ность. Однако часто легче доказать состоятельность в сред- нем квадратичном. Состоятельность тогда следует из не- равенства Чебышева (1.37). Многомерная статистика со- стоятельно оценивает многомерный параметр а в каком- либо смысле 1—3, если соответствующая состоятельность имеет место для каждой координаты aj. В частности, лег- ко показать, что an ->a £ Rm в среднем квадратичном тог- да и только тогда, когда Е (ап —а) (ап —а)' ->0 — нуле- вая матрица т X т. Этим фактом мы часто будем пользо- ваться. Очевидно, для доказательства состоятельности оценки МНК необходимо сделать какие-либо ограничения на рост независимых переменных, т. е. на матрицу Хп. (В этом па- раграфе оценку МНК а и матрицу X будем сопровождать индексом п.) Как правило, используют условие сильной регулярности матриц Хп. Сильная регулярность независимых переменных'. lim — ХдХп = А, (1.38) п->со П где А — невырожденная конечная матрица т X т. Теорема 1.4. Если предположения А—Е выпол- нены, а матрицы Хп сильно регулярны, то оценка МНЕ состоятельна в среднем квадратичном. Доказательство. Теорема будет доказана, ес- ли мы докажем, что Е (an — а) (а„ — а)' = cov (ап) = а2 (х;хп)"г ->0, п —>оо. 'Доказательство можно найти, например, в [63]. 43
Из условия регулярности Хп и невырожденности А сле- дует; lim п (Х„ Хп)-1 = А-1, п->оо поэтому lim (ХлХп)-1 = 0, что доказывает теорему. 72—>00 Условие сильной регулярности является слишком об- ременительным. Оно, в частности, не выполняется в ре- грессиях на время, т. е. при выделении трендов. Можно доказать, что если rlt г2, ... — последовательность неотри- цательных чисел, причем 1 " lim rn = 1 im — V rt < оо, П—>ОО П—>ОО И то последовательность гх, г2, не стремится к оо, т. е. можно выбрать ограниченную подпоследовательность. Если последовательность гх, г2, ... возрастающая, то ограничен- ность средних гп влечет ограниченность самой последо- вательности. Данные рассуждения могут быть перенесены на элементы матрицы Хл, если положить rt = Xti. Пример. Рассмотрим регрессию на время yt = at + ег, 7=1, 2, ..., п. Оценка МНК а=2уг//2 72 состоятельна, так как Е (а — а)2 = а2 (а) = o2/S72 = 6а2/[п(и + 1) X [ X (2п + 1)] ->0, п -> оо. С другой стороны, условие сильной регулярности не выпол- няется: 1- I с (л + 1)(2«+1) lim — S/2 = lim v v= оо. п 6 Аналогично можно показать, что в любой регрессии, в ко- торой присутствует монотонно возрастающий фактор вре- мени, предположение (1.38) неверно. Существует необходимое и достаточное условие состоя- тельности оценки МНК, которое выражается через харак- теристические числа матрицы ХАХП. Условие Эйкера [97]: минимальное характеристическое число матрицы ХАХП стремится к + оо при п ->оо: Zmln (ХАХ„)-+оо, п-^оо. (1.39) 44
Теорема 1.5. Пусть предположения к—Е выпол- няются для всех п, начиная с некоторого п0^ т. Тогда условие Эйкера (1.39) эквивалентно состоятельности оцен- ки МНК в среднем квадратичном. Доказательство этой теоремы дано в параграфе 1.11. Насколько жестким является условие состоятельности оценки МНК? Насколько «вероятно» его выполнение на практике? Для того чтобы ответить на эти вопросы, за- метим, что Z,mln (Х„ Хп) есть квадрат минимальной длины вектора, являющегося линейной комбинацией вектор-стол- бцов хх, х2, ..., хт матрицы Хп. Более строго, пусть (дах, ау2, ..., wm)' = w — вектор коэффициентов линейной ком- бинации, ||w|| = 1, тогда min ||Xnw||2= min (Xnw)'(Xnw) = II W ||= 1 II w ||= 1 = min w'X^Xnw = Xmln(XnXn), II W 11= 1 Таким образом, Z,mln (X„Xn) можно трактовать как по- казатель вырожденности Х„Хп или как меру линейной за- висимости переменных ху, х2, ...,хт (более подробно об из- мерении степени линейной зависимости см. параграф 5.1). Поэтому можно сказать, что оценка МНК состоятельна тогда и только тогда, когда степень линейной независимости Х], х2, ..., хт растет до бесконечности. Использовать на практике условие Эйкера весьма слож- но. Часто легче непосредственно установить факт (Х„ХП)_1 ->• >0, чем доказать (1.39). Можно предложить более про- стой критерий состоятельности оценки МНК- Для этого построим для матрицы Хп матрицу сопряженности Rn. По определению 2 хы ха (Rn>H = - - -------- , t,/=l,...,m. (1.40) |/ 2 хн • 2 xii Другими словами, (Rn);j есть косинус угла между вектора- ми X; и Xj в евклидовом пространстве Rn. Матрица сопря- женности похожа на матрицу корреляций х^.-рх™, отличие лишь в том, что в матрице корреляций рассматриваются отклонения xti от соответствующей средней хг. Выбирая термин «матрица сопряженности», мы тем самым подчер- киваем, что х1г ..., хт не случайные векторы, как это не- обходимо считать при вычислении матрицы корреляций. 45
Более точно, Rn есть матрица парных коэффициентов со- пряженности. Теорема 1.6. Если'. a) ->оо для любого i = 1, ..., т при п б) Rn ->-R, |R] 4 О, то оценка МНЕ. состоятельна (в среднем квадратичном). Доказательство этой теоремы дано в параграфе 1.11. Пример. Докажем с помощью теоремы 1.6 состоя- тельность оценки МНК в регрессии на время yt = аД 4- + а2 + e,t, t — 1, .... п. Применим формулы 2/ = п (п + + 1)/2, S/2 = п (п + 1) (2п + 1)/6. Условие а) очевидно выполняется, проверим выполнимость условия б). Для данной регрессии т. е. условие б) теоремы 1.6 выполнено, значит, оценка МНК состоятельна. Говоря об оценке МНК, мы имеем в виду оценку пара- метров регрессии а. Однако имеется еще один неизвестный параметр о2. В качестве несмещенной оценки этого пара- метра мы предлагаем статистику s2 (1.20). Замечательно, что состоятельность s2 верна без какого-либо предположе- ния об изменении матрицы Хп. Теорема 1.7 [146]. Пусть все предположения А—Е выполнены для всех п~^ пй. Тогда plim s2 = а2. Доказательство см. в параграфе 1.11. Прежде чем приступить к исследованию асимптотиче- ской нормальности оценки МНК, дадим определение асим- птотически нормальной последовательности оценок. Пусть 46
dlt d2, ... — последовательность некоторых одномерных оценок. Эта последовательность асимптотически нормаль- на, если найдутся такие константы ап, рп (|3П > 0), что оценка bn = (dn — ап)/$п сходится по распределению к случайной нормальной величине N (0, 1). Если математиче- ское ожидание и дисперсия dn конечны, то их можно ис- пользовать в качестве нормирующих констант, т. е. поло- жить ап = Edn, = о2 (d„), тогда Ebn = 0, a2 (bn) = 1. Аналогичное определение вводится и в многомерном случае; здесь нормирующими константами будут невырож- денная матрица и вектор. Как правило, мы выбираем квадратный корень из матрицы1 ковариаций dn и вектор математического ожидания, тогда bn = S7I/2(dn —где S„ = cov (d„), = Edn и предельное распределение есть /V (0, I). Легко проверить, что стандартизованной по такому пра- вилу оценкой МНК является Ьп= — (Х'Х7))->/2Х'8 = А„8, (1.41) а где A„ = -L(X'Xn)-1/2X' (1.42) а матрица т X п. Теорема 1.8. Допустим, {sf} независимы и одина- ково распределены. Оценка МНК асимптотически нормаль- на тогда и только тогда, когда для каждого i = 1, ..., т max{A&lt А^-2,..., А^-Д -*0, п-+оо, (1.43) где Апц — элемент матрицы А„. Доказательство см. в параграфе 1.11. Замечания: 1. Так же как и в состоятельности, здесь накладывается определенное ограничение на изме- нение независимых переменных при п ->оо. Это ограниче- ние определяется условием (1.43), которое отражает рав- номерное убывание элементов матрицы А„. 2. Для доказательства асимптотической нормальности оценки МНК мы требуем выполнения более жесткого ус- ловия, чем предположение Г: независимости и одинаковой распределенности отклонений. 1Под квадратным корнем положительно определенной матрицы Л понимается квадратная положительно определенная матрица В = А]/ 2, такая, что В2 = А. Можно доказать, что такая матрица существует и единственна [58]. 47
Широко распространено ошибочное мнение, что оценка МНК асимптотически нормально распределена в условиях сильной регулярности матриц Х,г (1.38). Э. Маленво даже «доказывает», что если отклонения независимы и одинаково распределены, а матрицы Хп сильно регулярны, то оценка МНК асимптотически нормальна. Его доказательство со- держит ошибку [48, с. 232]. Дело в том, что из условия (1.38) не следует, что шах хн/п стремится к нулю при п -> оо t для любого г, а именно последнее условие необходимо для применения центральной предельной теоремы при доказа- тельстве асимптотической нормальности оценки МНК- В параграфе 1.11 приведен соответствующий пример. Теорема 1.9. Если {ег} независимы и одинаково распределены, матрицы Хп сильно регулярны (уравнение (1.38)), причем для любого i = 1, 2, .... т — max xh ->0, п t=l,...,n п-^оо, то оценка МНК асимптотически нормальна, более того, У п (ап—а) ~ ЛЦо, а2 А-1). Доказательство. Докажем, что условия теоре- мы приводят к (1.43). Действительно, 1 1 / XI Хл \ —1/2 X' A„=-L XAxn)-’/®xA=-i-(-^- о о \ п / Уп Но, как следует из условия теоремы, Из второго условия теоремы следует — max хц ->0, и->оо, что окончательно ведет к выполнению (1.43). Доказательство последнего утверждения теоремы предостав- ляем читателю. Пример. Рассмотрим регрессию yt = axt + st, где xt = (Уд)1, i=l, 2, ..., d — некоторое число, большее 1. Тогда 2 xt ~ д1 ~d ——> оо, п—> оо, 48
т. е. (1,39) выполнено, но шах---- - ----max xt = 2-f 4 dn dn—l d—1 d d—1 >0, t. e. (1.43) не выполнено. Значит, оценка МНК состоятель- на, но не асимптотически нормальна. В данном примере )го объясняется быстрым (экспоненциальным) ростом ря- да xt. Применение теоремы 1.8 довольно затруднительно. При- ведем более простое условие — достаточный критерий Ан- дерсона [6, с. 35—37). Теорема 1.10 (достаточный критерий асимптоти- ческой нормальности). Если (et) независимы, одинаково рас- пределены и a) Rn -► R, |R| #= 0 (см. уравнение (1.40)), б) max Xfi/JjX/i —>0 для любого i = 1, ..., т при t t и ->оо, то оценка МНК асимптотически нормальна. Доказательство см. в параграфе 1.11. Пример. Докажем, применяя теорему 1.10, асимп- тотическую нормальность оценки МНК в регрессии на вре- мя: yt = axt + а2 + 8t, t — 1, ..., п. Условие а) было про- верено ранее при доказательстве состоятельности оценки. Рассмотрим условие б): max хЛ 1 t 6«2 п 1=1;-------- ----------------> 0, п —> оо, п(л+1)(2и+1) t max i — 2; — ---= ——> 0, п -> оо. 2-й п t Условия теоремы выполняются, значит, оценка МНК асим- птотически нормальна. Что дают нам теоремы о состоятельности и асимптоти- ческой нормальности оценки МНК? С теоретической точки .трения первое свойство заключается в том, что с ростом числа наблюдений при определенных ограничениях на не- зависимые переменные точность оценивания бесконечно возрастает. Второе свойство делает возможным при боль- ших п и опять же при определенных условиях на независи- мые переменные считать распределение оценки МНК при- близительно нормальным N (а, о2 (ХАХП)-1). Это свойство 49
является весьма важным, так как построение удовлетво- рительных доверительных интервалов и проверка гипотез относительно параметров регрессии возможны только при известном распределении отклонений регрессии. Вместе с тем использовать условия состоятельности и асимптотичес- кой нормальности оценки МНК можно практически только в регрессиях, где правая часть есть функция времени (/), т. е. в регрессиях-трендах. В регрессиях планируемого эксперимента эксперименты необходимо ставить таким об- разом, чтобы с ростом it условия (1.39) и (1.43) выполнялись. Тогда оценка МНК будет сходиться к истинному значению параметров а, и распределение оценки будет близко к нормальному. Упражнения 1.7 1. Докажите, что если plim ап = a, plim bn = Р, то plim (ап Ьп) = а-p Р, plim anbn = оф. Перенесите эти фор- мулы на многомерный случай. Верны ли эти формулы для других видов сходимости? 2. Пусть ап — m-мерная случайная величина. Докажите, что plim а,,. = а тогда и только тогда, когда plim || ап — а|| = 0. 3. Постройте последовательность случайных величин, которая сходится в смысле определений 1 и 2, но не сходится в смысле опре- деления 3. 4. Покажите, что матрица А в условии (1.38) положительно оп- ределена. 5. Докажите непосредственно состоятельность оценки МНК в регрессии yt = «Д-р а2-р et- Выполняется ли условие регуляр- ности независимых переменных? Используя теорему 1.6, докажите состоятельность оценки МНК в параболической регрессии yt = = ар2-р а2?-р а3-)- e,t. 6. Является ли ограниченность матриц Хп достаточным ус- ловием для ее регулярности? 7. Покажите, что из условия сильной регулярности следует условие Эйкера. 8. Будут ли оценки МНК состоятельны для следующих регрес- сий: a) yt=a+et; б) yt =<x1/]/i-}-8(; в) yt = a1/t + a1 + et-, г) «/t = aiN-a2/^+eb д) yi = aie^ + et; е) yt = a1sinwt^et, Р, w — некоторые действительные числа. 9. Проверьте выполнимость теоремы 1.6 для регрессии yt = s= (1 -р l/l)oCj-p a2-р et- Состоятельна ли оценка МНК? 10. Докажите асимптотическую нормальность оценки МНК Для регрессий на время: a) yt = at -р ег, б) yt = <М-р «2 -р ег, в) yt 0*212 -р Vzt -р Otg -р 11. Для каких регрессий из задачи 8 оценка МНК будет асимп- тотически нормальна? 12. Будут ли и при каких условиях состоятельны и асимптоти- чески нормальны оценки из задач 6 н 7 упражнения 1.5? 50
1.8. Свойства оценки МНК при нормальных отклонениях До сих пор мы не делали какого-либо предположения относительно распределения отклонений et. Сейчас мы предположим, что эти отклонения распределены по нор- мальному закону с нулевым математическим ожиданием и одинаковой неизвестной дисперсией о2. Имея конкретное распределение для ег, а значит и для yt, мы можем приме- нить метод максимального правдоподобия (ММП). Теорема 1.11. Если ef со N (0, о2), то оценки МНК. и ММП совпадают. Д,о к а з а тел ьств о. Из условия теоремы и неза- висимости {ег} следует £ со N (О, о2 1П), значит, уоо ооМ (Ха, а2 1п) с плотностью, равной п п = 2 (а2) 2 X Хехр[----^-(у—Ха)'(у—Ха)] . (1.44) Оценка ММП соответствует максимуму этой функции. Возь- мем логарифм этой функции, отбросим константу, не влияю- щую на максимизацию, и поменяем знак. Получим ф (у; а, а2) е= п 1п а2 4- —— (у—Ха)' (у —Ха) min. а® Необходимым условием минимума является обращение первых производных функции в точке минимума в нуль. Найдем производную по а: дф/да = — (—2Х' у + 2Х' Ха) = 0. о® Решением этого уравнения и будет оценка ММП а = — (Х'Х)-1 Х'у, которая совпадает с оценкой МНК- Итак, если отклонения нормально распределены, то оценка МНК совпадает с общестатистическим методом оце- нивания — методом максимального правдоподобия. Иногда, ссылаясь на совпадение оценок МНК и ММП в условиях нормальных отклонений, утверждают, что все известные.оптимальные свойства ММП приобретает в этом случае и МНК: состоятельность, асимптотическую норма- льность и эффективность. Без дополнительных оговорок подобный перенос свойств оценок для регрессий не имеет места. Дело в том, что указанные асимптотические свойст- 51
ва оценок ММП доказываются в условиях одинакового рас- пределения наблюдений у1г у2, уп. В регрессиях наблюде- ния распределены неодинаково, они имеют разные матема- тические ожидания: Eyf = + а2х/3 + ... + amxtm const, t = 1,2, ... Поэтому и состоятельность, и асимптотическую нормаль- ность оценок метода наименьших квадратов необходимо пе- редоказывать. Для того чтобы указанные асимптотические свойства выполнялись, необходимо наложить определенные ограничения на поведение независимых переменных на бесконечности, т. е. при увеличении объема выборки, что и было сделано в предыдущем параграфе. Наиболее ценным с практической точки зрения являет- ся то, что в условиях нормальной гипотезы распределение оценки МНК принимает конкретный вид и является тоже нормальным. Теорема 1.12. Если е ~ Д (О, о21п), то а) оценка МНЕ. имеет нормальное распределение N (а, о3 (Х'Х)"1), т. е. распределена по нормальному зако- ну с м. о. а и матрицей ковариаций о3 (Х'Х)-1; б) статистика (у — Ха)' (у — Ха)/о3 = (п — т}в21а2 распределена по %2с п — т степенями свободы', в) оценки а и s3 независимы. Доказательство, а) Оценка МНК а — = (Х'Х)-1Х'у является линейной по у, значит, имеет нор- мальное распределение. Ранее было показано, что Еа = а, cov (а) = о3 (Х'Х)-1, поэтому распределение а есть N (а, о3 (Х'Х)-1). б) Имеем е = у—Ха = [1п —Х(Х'Х)-1Х']е, (y-Xa)'(y-Xa) = 8'[In-X(X'X)-1X'][I„- — Х(Х'Х)-1Х']е = е'Ае, где А = 1п — X (Х'Х)-1Х' — идемпотентная матрица1, причем trA = trIn — tr(X (X'X)-1X') = n —tr(X'X)-1X'X = — n — tr Iro = n — tn. Теперь воспользуемся утверждением (П.14) приложения, что и доказывает б). 1Квадратная симметричная матрица А называется идемпотент- ной, если А3 = А [61]. 52
в) Применим теорему (П.15). Для доказательства незави- симости а и s2 достаточно показать, что ВА = 0, где В = = (Х'Х)-1Х'. И действительно, BA = (X' X)-1 X' [1п—X (X' X)-1 Х'] = (Х'Х)-1Х'— — (X'Х)-1Х'X (Х'Х)^Х'^О. Значение доказанной теоремы велико. Факт нормально- сти а, независимости а и s2 дает нам возможность проверять статистические гипотезы, строить критерии, находить дове- рительные интервалы. Большое значение имеет также следующая теорема. Теорема 1.13. Если отклонения нормальны, то оценка МНК является эффективной в классе всех несмещен- ных оценок с минимальной матрицей ковариаций, равной cov (а) = о2 (Х'Х)-1. Доказательство см. в параграфе 1.11. Теорема 1.13 утверждает, что если b — другая несме- щенная оценка а, то cov (b) cov (а) = о2 (Х'Х)-1. Существует много критериев проверки гипотезы о нор- мальном распределении отклонений. Однако они требуют большого числа наблюдений n. С некоторыми из этих кри- териев можно познакомиться в [1]. Упражнения 1.8 1. Покажите, что оценкой ММП ст2 при нормальных отклоне- ниях будет з2 — (у — Ха)' (у — Ха)/п. 2. Докажите, что необходимое условие минимума функции ф является в данном случае и достаточным, т. е. что ф имеет единст- венный минимум относительно а и о2. 3. Как найти оценку ММП для линейной регрессии, если откло- нения подчиняются закону распределения Лапласа? 4. Методом максимального правдоподобия найдите оценку не- известного параметра А в распределении Пуассона Р {х = й) = = е—\ k = 0, 1, 2, ... Будет ли эта оценка несмещенной? Дости- гает ли она нижией границы Крамера—Рао? 1.9. Общие принципы проверки статистических гипотез и построения доверительных интервалов 1 Допустим, распределение n-мерной случайной величи- ны у зависит от некоторого (может быть многомерного) неизвестного параметра а, который принадлежит априори ‘Основные принципы проверки статистических гипотез более подробно изложены, иапример, в [45, 30 и 19]. 53
заданному множеству ©. Далее, задано разбиение множе- ства© на два подмножества ©// и 0« (&и U ©к = ©,©н Л Л ®к=0). Выдвигаем гипотезу Н, которую мы впоследст- вии будем проверять: истинное значение параметра а при- надлежит множеству ©//. Если <ЭН состоит из одной точки, гипотезу И называют простой. Каждый раз, когда значение случайной величины у известно (т. е. имеется выборка), мы должны определенно ответить, верна наша гипотеза или нет. Таким образом, выборочное пространство Д'1 раз- бивается в свою очередь на два подмножества Ен и £« (Ен (J Ек = Rn, Ен Л Ек = 0)- Если у попадает в Ен, то гипотезу Н принимаем, если у £ Ек — отвергаем. При этом мы можем совершить ошибку двух родов: 1) ги- потеза Н верна, а мы ее отвергаем, 2) гипотеза И неверна, а мы ее принимаем. Ошибки могут иметь разные последствия. Например, если гипотеза Н состоит в наличии у пациента некоторой тяжелой болезни, то ошибка 2) не так существенна, как 1). Одновременно свести обе ошибки к минимуму невоз- можно. Целесообразно поступить следующим образом. За- дадим верхнюю границу к максимальной ошибки первого рода и при этом условии будем минимизировать ошибку второго рода; к называют уровнем значимости. Как же под- считать ошибку, совершаемую нами для каждого у? Разу- меется, в такой постановке ответить на такой вопрос не- возможно. Однако мы можем подсчитать вероятность со- вершения ошибок первого и второго родов. Вероятность ошибки первого рода: Ра(гипотеза Н неверна) — Ра(У £ ЕК) ~= Ра (Ек) С (1-45) где а — истинное значение параметра, принадлежащее ©и (гипотеза на самом деле верна). Вероятность ошибки второго рода: Ра (гипотеза Н верна) = Ра (Д’ € Ен) = 1 — Ра (Ец)=> min, где a g 0К (гипотеза на самом деле неверна). Минимиза- ция предыдущего выражения эквивалентна максимизации вероятности отвергнуть гипотезу, когда она на самом деле неверна, т. е. Ра (£/<)=> max, a g 0К. (1-46) Множество Ек называют критической областью критерия, или критическим множеством. Функцию Р(а) = Ра(£'к)- (Е47) 54
называют функцией мощности. Таким образом, критерий проверки гипотезы Н полностью определяется подмно- жеством Ек выборочного пространства Rn. Множество Еп, разумеется, не должно зависеть от неизвестного пара- метра а. Пример. Рассмотрим пример из параграфа 1.4. До- пустим, мы хотим проверить простую гипотезу Н: р = = 0. В наших обозначениях 0 = {—оо < р < оо) = R1, Qu = {[х = 0), 0к = {р 4= 0}- Допустим, мы задались некоторым уровнем значимости X (как правило, выбира- ют X = 0,05 или X = 0,01). В качестве критического мно- жества рассмотрим множество Ек = {у € R" |2i/i/n| > > <р}, где ф — некоторое фиксированное число, завися- щее от X. Найдем функцию мощности предложенного кри- терия __п ₽(Р) = Рц(£к) = (2л) 2 J ехр[—'-2(У1 — — |л)2 dytdyz... dyn. Заметим, что Ъу^п ~ N (р, 1/л), поэтому №) = —== ( Г-------------J-U—|*)’]|1г = V*»/" 1 2 J В точке р = 0 функция мощности имеет минимум. Это очевидно, так как если истинное значение р близко к ну- лю, то мы легко можем совершить ошибку второго рода (т. е. принять гипотезу р = 0, тогда как р =/= 0). Вероят- ность ошибки первого рода равна: Ро (Ек) = Рц=о(Ек) = —= f ехр(—^dZ<X. У2Л/Л J \ 2 / V ' I z |>ф Обозначим функцию распределения статистики Ъу^п. при р = 0 через F (/), тогда Ро (Ек) = 2F (—ф). Для заданно- го X ф является решением уравнения Х = Р0(Ек) — 2F (—ф) (рис. 1.12). Значение ф находится из таблиц нормального распределения. 55
Естественный путь сравнения различных Критериев — сравнение их функций мощности. Чем выше функция мощ- ности, тем лучше критерий. Однако здесь возникает та же проблема, что и при сравнении функций риска (см. пара- граф 1.4). Функции мощности могут оказаться несравни- мыми, но оптимальные критерии все же могут существо- вать. Их функция мощности в каждой точке а £ имеет большее значение, чем у других критериев с фиксирован- Рис. 1.12. Функция распределения средней 'S.yiln и зависимость Ро (Ек) от ср ным уровнем значимости. Такие критерии в математичес- кой статистике называют равномерно наиболее мощными (РИМ). Желаемым и естественным свойством критерия являет- ся следующее: вероятность принятия гипотезы, когда она неверна, меньше вероятности принятия гипотезы, когда она верна. В наших обозначениях Ра (Ен) < Рр (Ен) для любых а £ 0К, р g &н- Такие критерии называются несме- щенными. РНМ несмещенный критерий соответствует эф- фективной несмещенной оценке в теории оценивания. Существует общий способ построения критериев про- верки статистических гипотез. Он аналогичен методу мак- симального правдоподобия в статистическом оценивании и называется критерием отношения правдоподобия. Суть его заключается в следующем. Пусть плотность распреде- ления у равна f (у; а), т. е. зависит от неизвестного вектора 56
параметров а Е 0. Для каждого у найдем max f (у; а) и а 6 ©н max/(у; а) (считаем, что максимум достигается), а 6 0 В качестве критического множества при проверке ги- потезы Н : а Е выбираем Ек = ( У € Rn'- max f (у; a) I max f (у; а) < <р\ , (1.48) ( /а£0 J где <р — фиксированное число, зависящее от %, которое в свою очередь задает верхнюю границу вероятности совер- шения ошибки первого рода Ра (Ек.) для всех а Е ®н- Статистика max f (у; a)/ max f (у; а) называется статис- «Е®д «Е® тикой критерия отношения правдоподобия. В случае про- стой случайной выборки, т. е. когда независимы и оди- наково распределены, известны асимптотические оптималь- ные статистические свойства критерия отношения правдо- подобия [63]. Продолжение примера. Применим крите- рий отношения правдоподобия для проверки гипотезы Н: ц = 0. Функция плотности у равна: п /6>;Н) = (2л) 2 ехр [—^-2(уг—р.)2]’ далее --------2(у.-ц)2 max f (у; р) = max (2л) 2 е 2 = HS0H ц = о П I „ 9 ---------------2//2 = (2л) 2 е 2 --------2(0;-Ц)2 maxf(у; ц) = max(2л) 2 е 2 =2л 2е 2 |1£0 Ц Последнее выражение следует из того, что минимальное значение 2 (уг — р)а достигается при р = у = ^yjn. Кри- тическим множеством будет: Ек = {у € Еп : ехр [ —(2у?—2 (yt—у)2) j < <р' j = = (у Е Д" '• —-S (уг—у)2> —21п<р'} = = {У Е ДЯ : 2у2уг —ш/2 > —2 In <р'} = ^уеК":Й>|/ ~2{П(р'} = {УЕДп:Ы><р}- (1.49) 57
Как видим, это множество совпадает с найденным ранее. Значение <р находится, как и раньше, из решения уравнения К = 2F (—ф). Перейдем к построению доверительных интервалов. Пусть распределение случайного вектора у £ Rn известно с точностью до а £ 0 с Rm. Оценим а с помощью довери- тельного интервала или в общем случае с помощью довери- тельного множества. Доверительное множество каждый раз зависит от наблюдения у, т. е. является его функцией. Обозначим его через D (у). Важно, с какой вероятностью доверительное множество D (у) накрывает истинный пара- метр. Аналогично проверке гипотез можно ввести коэффи- циент доверия доверительного множества. D (у) является доверительным множеством с коэффициентом доверия не менее 1 — К, если для каждого а £ 0: Ра {у £ Rn : а £ D (у)) > 1 — X. (1.50) Слева записана вероятность того, что D (у) накроет а. Эта вероятность вычисляется при условии, что истинное значе- ние параметра также равно а. Вероятность ошибки, т. е. вероятность того, что дове- рительное множество не накроет истинное значение пара- метра, равна: Ра {У Е Р": а е D (j)) — Ра {у Е Р": а Е (У)! 1 ~ —(1 —Х) = Х. Таким образом, X можно трактовать как максимальную вероятность ошибки накрытия. Можно ввести понятие несмещенности доверительного множества, аналогичное несмещенности статистического критерия. Допустим, а — истинное значение парамет- ра, 0У=а. Мы же ошибочно предполагаем, что именно [J является истинным, и поэтому наше доверительное мно- жество D (у) направлено на оценивание параметра (3. Вероятность такого (ошибочного) оценивания равна Ра {РЕ D (у)}. Естественно считать, что эта вероятность будет меньше, чем если бы мы не делали ошибки и а — р; тогда вероятность накрытия равна Pa [a £ D (у)} 1 — X (по условию (1.50)). Говорим, что D является несмещенным доверительным множеством, если для любых а, 0 £ 0 име- ем Ра {У Е Р" : Р 6 D (у)}^ Ра [у £ Rn : a g D (у)}. (1.51) 58
Теперь дадим определение наиболее точного доверитель- ного множества. Представим себе ситуацию, когда истин- ное значение параметра а нам неизвестно и мы ошибочно оцениваем 0 вместо а. Пусть имеются два метода довери- тельного оценивания, т. е. два доверительных множества D (у) и £ (у); D будет точнее S, если D накрывает ошибочное значение 0 реже, чем S: Ра{у £ Rn : 0 £ D(y)] Ра{у £ Rn : 0 £ S (у)). (1.52) В частном случае, когда 0 с R1, естественно вместо произвольных доверительных множеств рассматривать до- верительные интервалы. Такой интервал будет характери- зоваться парой статистик аг (у) и а2 (у), причем аг (у) а2 (у) Для любых у. Вероятность накрытия равна: Ра{Уб^П:«1(5’Ха<а2(У)}, «£0. Задача доверительного оценивания теснейшим образом связана с проверкой простой гипотезы. Будем проверять простую гипотезу Н'. а = 0, где 0 — фиксированное зна- чение из 0. Допустим, имеется некоторый критерий провер- ки этой гипотезы. Область принятия гипотезы обозначим Ен или £р. Предположим, что критерий имеет уровень зна- чимости К, причем Ра (Ен) = Ра (£р) =1 — X для всех а £ 0. На основе Е$ построим довер ительное множество для оценивания а, которое обозначим D (у). Положим у £ Е$ тогда и только тогда, когда 0 £ О (у); другими словами, £> £у) = [0 £ 0 :у £ £р). (1.53) Как объяснить выбор (1.53)? Множество £р есть множество тех возможных наблюдений у, которые «скорее всего» по- лучаются, если в качестве неизвестного параметра высту- пает параметр 0. Поэтому множество всех параметров, ко- торые «порождают» это множество Е$, будет «близко рас- положенным» к 0 и будет хорошей доверительной оценкой этого параметра. Легко убедиться в том, что если крите- рий имеет уровень значимости К, то построенное довери- тельное множество D (у) (1.53) имеет коэффициент доверия 1 — к. Ра {у € Rn : а £ D (у)] = Ра {у £ Rn : у £ £р) = = Ра(£₽) = 1-^. 59
Основная связь между проверкой гипотез и довери- тельным оцениванием выражается в виде следующей тео- ремы, доказательство которой весьма просто. Теорема 1.14. Пусть имеется РИМ. несмещенный критерий проверки простой статистической гипотезы И: — р с уровнем значимости К. Тогда доверительное множе- ство D (у) (1.53) является несмещенным, имеет коэффици- ент доверия 1 —X и является равномерно наиболее точным (РИТ), т. е. эффективным. Обратно, РНТ несмещенные доверительные множества приводят к РИМ несмещенным критериям. Сформулированная теорема предлагает нам большие возможности в построении доверительных множеств. За- дачи построения гипотез и доверительного оценивания можно считать эквивалентными. Пример. Несколько обобщим предыдущий пример. Предположим, мы хотим проверить простую гипотезу Н: истинное значение м. о. равно р. Легко проверить, что область принятия гипотезы будет Ец={уеЯп-\у — 0-54) Тогда £> (У) = : У € Hl <= = {р :у—Ф<р<у + ср}. Значение ср, как и раньше, является решением уравнения % = 2F (—ср). Множество D (у) имеет коэффициент доверия 1 —К. Можно показать, что критерий (1.54) является не- смещенным РИМ. Отсюда вытекает, что доверительный ин- тервал (аъ «2) для оценивания р, где ау = у — <р, а2 = у + + ф, является несмещенным РНТ. Упражнения 1.9 1. В задаче проверки гипотезы р = 0 из примера параграфа 1.4 с неизвестной дисперсией а2 а = (р, а2) £ 0 = {верхняя пол\ плоскость в системе координат (р, а2)} покажите, что критерий <>i ношения правдоподобия приводит к критическому множеству {I y\/s± > <р), где s2 = 2 (г/, — у)*'п. Как найти <р для данного зил чения X? 2. Найдите в том же примере критерий проверки гипотезы //: р = р0, где Ро — фиксированное значение. 60
1.10. Проверка гипотез и доверительное оценивание в линейной регрессии Сначала построим критерий проверки общей линейной гипотезы относительно параметров регрессии, применяя критерий отношения правдоподобия. На основе критерия проверки гипотез мы сможем найти доверительные множе- ства и интервалы. Рассмотрим линейную гипотезу в самом общем виде Н: Ra = г, (1.55) где R — известная матрица k X т, rank R = k < т\ г—заданный вектор k X 1. Таким образом, в гипотезе Н наа накладывается k линейных независимых ограничений. Будем минимизировать сумму квадратов отклонений при условии (1.55). Другими словами, решаем следующую оп- тимизационную задачу с ограничениями (у—Ха)' X X (у — Ха) => min при условии Ra = г. Можно показать, что оценка, приводящая сумму квадра- тов отклонений к минимуму при условии, что гипотеза Я верна, равна: aR = а 4- (X' X)-1 R' [R (X' X)"1 R']-1 (r-Ra) = = а+(Х' X)-1 R' S (г-Ra), (1.56) где S = (R (Х'Х)-1 R']-1; а — оценка МНК; вывод оценки дается в параграфе 2.3. Минимальное значение суммы квад- ратов отклонений равно: Qr = (У—Хая)' (у—Хая) = = (у—Ха—X(X'X)-1R'S(r— Ra)]' х X [у-Ха—X(X'X)-1R'S(r-Ra)] = -(у—Ха)' (у-Ха)-(у-Ха)' X' (X'X)-1R'S(r-Ra)+ + (г—Ra)' SR (X' X)-1 X' X (X' X)-1 R' S (г-Ra). Второе слагаемое равно нулю. Последнее слагаемое пос- ле сокращений равно (г — Ra)'S (г — Ra), поэтому Qa = Q + (r-Ra)'S(r-Ra), (1.57) где Q соответствует сумме квадратов отклонений оценки МНК- Для проверки гипотез и доверительного оценивания не- обходимо знать вид распределения у. Предположим, что у имеет нормальное распределение N (Ха, а21п). В этом слу- 61
чае плотность распределения у зависит- от т + 1 неизвест- ных параметров и равна: __п п f (у; а, о2) = (2л) 2 (о2) ~ х X *«) • I za* Для проверки гипотезы Н: Ra = г применим критерий от- ношения правдоподобия. Для этого необходимо найти max f (у; а, о2) при условии (1.55). Максимуму / соответ- ствует минимум суммы квадратов отклонений Q, что приво- дит к оценке (1.56). Легко видеть, что значением о2, об- ращающим f в максимум, является sA = — (у-Хад)' (у- Хад) = -LQR, (1.58) п п где Qr задается (1.57); шах f (у, а, <т2) без ограничений приводит к обычной оценке МНК а и s2, равной *м = — (у—Ха)'(у —Ха) = — Q. (1.59) п п Индекс М указывает здесь на то, что эта оценка явля- ется оценкой метода максимального правдоподобия. По определению критическое множество критерия от- ношения правдоподобия равно (1.48), т. е. £\= {max /(у; а, о2)/шах/(у; а, о2)<ср} = Яа=г сс, ( (2л)—"/2 («Д)-л/2 е~"/2 1 | (2n)-n/2(s^)-"/2 e~n/2 J С учетом (1.57), (1.58) и (1.59), введя новую константу и разделив числитель на k, а знаменатель на п — т1, полу- чим: Е = [v • (r~Ra)' s(r~Ra)^ > р 1 = К I/ (у — Ха)' (у—Ха)/(я—т) J = (у; > р I (1-61) ( s2 J где s2 — несмещенная оценка о2 (1.20). 1Суть этой операции будет ясна из дальнейшего изложения. 62
Наша ближайшая задача — найти распределение статис- тики критерия (1.61). Прежде всего найдем распределение числителя. Имеем г — Ra = г — R (Х'Х)-1 Х'у = = г — R (Х'Х)-1Х'Ха — R (Х'Х)-1 Х'в = = — R (Х'Х)-1 Х'е, поэтому (г- Ra)' S (г- Ra) = е' X (X' X)-1 R' SR (X' X)-1 X' е = = e'De, (1.62) где D — идемпотентная матрица, причем tr D = tr R (X' X)-1 X' X (X' X)-1 R' S = — trR(X'X)-1 R'S = trIft = A. Применяя формулу (П.14) приложения, утверждаем, что %2 (й). Ранее было доказано, что (у—Ха)' X X (у—Ха)/о2 ~ %2 (п—т). Теперь покажем, что две квадра- тичные формы независимы. Как следует из (П.16),для этого достаточно показать, что D (In —Х( X'X)-1 X') = 0. (1.63) Это равенство проверить нетрудно. Учитывая вышесказан- ное, можно утверждать, что статистика критерия отношения правдоподобия имеет распределение F с k и п — т степе- нями свободы. Рассмотрим процедуру проверки гипотезы Н: Ra = г. Прежде всего необходимо задаться уровнем значимости X. Для данного уровня X находим соответствующее зна- чение F\ (k, и — т) следующим образом: обозначим } (/; k, п — т) — плотность распределения Фишера с /г и п — т степенями свободы. Найдем такое F%, чтобы ОО [ f (/; k, п — m)di — X. Значение F% находят из таблиц. Если (Qr—QW = (r-Ra)' S (r-Ra)/fe2> FK (k, n-m), (1.64) то гипотезу H: Ra = г отвергаем, в противном случае при- нимаем. Рассмотрим прежде всего три специальных случая при- менения критерия (1.64). Сначала построим критерий проверки гипотезы Н: at = р, где р — некоторое фикси- 63
рованное число. Для этой гипотезы k = 1, R = (0, 1,,.. 0), где на i-м месте стоит 1. Далее 5 = [R(X' X)-1 R']-1 = [(X' Х)« ‘Г1 = 1/(Х' X)Z7 поэтому (г-Ra)' S (г- Ra) = (р - Й,)2/(Х' Х),71 Таким образом, (р —a£)2/(X,X)J1s2^F(l, п—tri), а (аг —p)/s]/(X' Х)г7‘ оо t (п—tri) •— распределение Стъюдента с п — т степенями свободы. С учетом общей формулы (1.61), если |аг — P|/Sf > t\, (1.65) где 5г = s р^(Х'Х)п1 — оценка стандартного отклонения дг, гипотезу о равенстве а, = р отвергаем, в противном слу- чае принимаем. Если обозначить через t (z, п — tri) функ- цию плотности /-распределения с п — т степенями свобо- ды, то Д для данного уровня значимости Л находится из решения уравнения f / (z; ft — m)dz = %. Значение оп- I z f > «х ределяют также из таблиц, например см. [37]. Статистику | ai — р | /si называют /-статистикой. Для примера вернемся к регрессии (1.6). Рассмотрим поочередно гипотезы Ht: аг = 0, i = 1, 2, 3, 4. В данном случае Р = 0; значения s; вычислены в параграфе 1.5. /- статистики для каждого параметра равны: Д = 9,632, /2 = = 0,548, /3 = 2,893, /4 = 0,611. Зададимся 5%-ным уров- нем значимости; тогда с учетом того, что степень свободы для нашей регрессии равна: п — т = 15 — 4 = 11, таб- личное значение /-статистики равно: /5% = 2,201. Таким образом, с 95%-ной уверенностью можем утверждать, что гипотезы Н2 : а2 — 0 и Я4 : а4 = 0 верны, /Д : = 0 и Н2 = 0 не верны. Проверка гипотез Hi : а, = 0 имеет большое значение в регрессиях. От ответа на вопрос: «Считать ли параметр нулем?» — зависит, оставлять или выбросить переменную- фактор из уравнения регрессии. Если гипотеза at — 0 под- твердилась с большой вероятностью, то фактор, как прави- ло, удаляют из регрессии, если нет — оставляют. Подоб- ную процедуру выбора существенных факторов называют иногда процедурой автоматического отсева переменных. 64
Рассмотрим гипотезы Hi. at = 0 в свете общих идей проверки статистических гипотез. Не теряя общности, ос- тановимся на случаев = 1, при этом гипотеза Нс а, = 0. В данном случае 0 = (—оо <z а, < оо], 0Н = (ах = 0], = {«1 #= 0], Ек = {у Е Rn : I «il > s^] — критическая область; Ен = {у Е Rn • I «11 С Sj/x,} — область принятия гипотезы ах = 0. Ошибка первого рода: ах = 0, а мы делаем вывод, что ах 0, и поэтому оставляем в уравнении регрессии. Ве- роятностью этой ошибки мы задаемся заранее; она состав- ляет X. Ошибка такого рода ведет к перебору факторов в регрессии. Ошибка второго рода: ах ф 0, а мы делаем вывод, что ах = 0, а поэтому хх исключаем из регрессии. Вероятность совершения этой ошибки не постоянна и зависит от конкрет- ного значения ах. Ошибка второго рода ведет к недобору. Недобор связан со смещением в оценках и является более серь- езной ошибкой спецификации регрессии, чем перебор (см. па- раграф 2.4). Если при диагнозе тяжелой болезни (см. параграф 1.9) мы стараемся минимизировать ошибку первого рода, то в регрессионном анализе, наоборот, целесообразнее миними- зировать ошибку второго рода. Приведенные соображения показывают, что не следует увлекаться низкими значениями Л, так как при этом повыша- ется вероятность недобора, что ведет к смещению в оцен- ках. Теперь рассмотрим второй специальный случай гипоте- зы (1.55). Пусть задана линейная регрессия со свободным членом У1 (ХуХц “Ь • • • “Ь t, т-1 СХ-тп (1.66) Проверим линейную гипотезу Н: ах = а2 = ... = ат_х = = 0. Другими словами, мы проверяем на взаимную кон- куренцию две модели: (1.66) и модель среднего yt = (1.67) Неформально мы проверяем, есть ли эффект от введения в уравнение (1.67) факторов хх, ..., хт_г. Очевидно, Qr = = Е (yt — у)2. Выразим Q через R2 (уравнение (1.27)): Q = S (yt — у)2 (1 — R2), поэтому 3 Зак. 2067 65
(Qr — Q)/(”i — 1) n—m , R3 Q/ (n—m) m — 1 1—R3 (1.68) Таким образом, если для данного наблюдения у выражение (1.68) больше F% (т — 1, п — т) — значения, получаемо- го из F — распределения с т — 1 и п — т степенями сво- боды, соответствующего данному уровню значимости %, то гипотеза Н: cq = ... = ат_! = 0 отвергается, в против- ном случае принимается. Рассмотрим проверку линейной гипотезы на нашем при- мере—регрессии. Для этой регрессии R2 = 0,9935, и поэ- тому (л — т)! (т — 1) • R2! (I — R2) = 560,4. Как и преж- де, выберем % = 5%, тогда A (mlt т2) = 8,76 с тх = 3 и щ2== 11 степенями свободы. Поскольку 560,4 > 8,76, де- лаем вывод, что гипотезу Н : cq = а2 = а3 = 0 необхо- димо отвергнуть. Рассмотрим третий случай применения линейной ги- потезы (1.55). Допустим, кроме данного набора наблюде- ний имеется дополнительный. Являются ли регрессии, по- строенные по двум выборкам, одинаковыми? Формально задачу можно записать следующим образом. Имеются две регрессии: У! = + Ej; у2 = Х2а2 + 82, (1.69), (1.70) где У1 и Ej — векторы размерности пг; у2 и 82 — векторы размерности n2; Xi — матрица пг X т; Х2 — матрица п2 X т; и а2 — векторы размерности т. Предпола- гаем, что Ej и е2 независимы, причем е, ~ N (0, о2 1П1), в2 ~ N (0, о21П2). Регрессии (1.69) и (1.70) могут быть объединены в одну: Для этой регрессии проверяется линейная гипотеза Д:а1 = а2, (1.72) что в терминах R и г (1.55) означает R = 1 0 1 О' 1 — 1 о —матрица mx2m, г = 0. 0 —1 66
Для проверки гипотезы (1,72) необходимо найти QR и Q. С учетом (1.72) регрессии (1.69) и (1.70) могут быть пере- писаны следующим образом: ^1] = ГХ1 Уг_ . Х2 «+ ei .«2. (1-73) Таким образом, QR равно сумме квадратов отклонений оцен- ки МНК составной регрессии. Найдем теперь сумму квад- ратов отклонений оценки МНК регрессии (1.71). Имеем: <2 = У1~"Х1 <%! .Уг Х2 а2. У1 — Хх «1 ______ .5^2 Х2 <х2 = (Ji—Хх «1)' (Jx — Xi <Xj) + (у2 — Х2 а2)' (у2— Х2 аг). Обозначим Qi — сумму квадратов отклонений оценки МНК регрессии (1.69), Q2 — сумму квадратов отклонений рег- рессии (1.70). Тогда, как следует из предыдущего выраже- ния, минимальное значение Q, т. е. Q, равно Qj Д- Q2. Итак, Qr — Q = Qr — Qi — Q2. Далее учтем, что Q Qi~FQ2 «i + «2—2m n!-{-na—2in Поэтому если (QR-Qi-Q2)/m r , 7~- ~-r-,---------> F(m, tu + nz—2m), (Q1 + Q2)/Oi + «a—2m) гипотезу (1.72) отвергаем, в противном случае принимаем. Остановимся на оптимальности критерия отношения правдоподобия, применяемого для регрессии с нормально распределенными отклонениями. Было показано, что не существует РНМ критерия для проверки общей линейной гипотезы (1.55). Более того, доказано, что не существует и РНМ несмещенного критерия для случая k 2. В то же время для k=\ критерий отношения правдоподобия яв- ляется эффективным, т. е. РНМ несмещенным критерием. [ I тем не менее для k 2 критерий отношения правдопо- добия является оптимальным в более узком смысле1.Вы- шесказанное позволяет утверждать, что критерий (1.61) является достаточно эффективным. Подробнее см. [37, с. 334, 342—344; 45]. 3* 67
Для построения доверительных интервалов и областей воспользуемся общим методом построения, изложенным в предыдущем параграфе. Суть его основывается на связи с критерием проверки гипотез. Начнем с индивидуальных доверительных интервалов для параметров регрессии. Как следует из (1.65), множеством принятия решения при про- верке гипотезы Hi : аг = Р является Et= \у £ Rn ' : |£Zf — P | < fosj. Таким образом, оптимальной довери- тельной областью с коэффициентом доверия 1 — X явля- ется интервал Dt = {р : |аг-р|< М. (1-74) Оптимальность этого интервала заключается в том, что он является несмещенным и равномерно наиболее точным (см. параграф 1.9). Значение R находится так же, как и в слу- чае проверки гипотез. Доверительные 95%-ные интервалы для рассматривае- мой регрессии (1.6) приведены в табл. 1.3. Таблица 1.3 Параметры а1 Яз а4 Нижняя граница Верхняя граница 0,304 0,4854 —0,691 1,149 0,896 6,596 --77,6 —44.5 Как видим, доверительные интервалы для всех парамет- ров, исключая первый, достаточно широки. Это позволяет выдвинуть гипотезу о преобладающем значении присутст- вия вещества в реакции с веществом В2. Остальные фак- торы имеют второстепенное значение (что является вполне естественным). Найдем совместную доверительную область D для всех параметров (аъ а2, ..., ат)' = а. Для этого необходимо проверить гипотезу Н : ах = а2 = ₽2, ..., ат = ₽т, т. е. а = (₽!, ..., рт)' = ₽. Очевидно, QR = (у — Х₽)' X X (у— ХР), поэтому критическим множеством,как следу- ет из (1.61), является Ep = \yeRn 68
но Qr = (у - X ₽)' (у - X 0) = [ (у - Ха) + X (а - 0)]' х х [y—Xa) + X(a—0)] — Q + 2(y—Xa)'X(a—0) + + (0—а)'X'X (0—а). Второе слагаемое равно нулю, поэтому QR = (0 — а)'Х'Хх X (р — а) + Q и D = ^Rm'. (p-a)'X'X(P-a)C-^-FvQ] = = {р 6 Rm: (0—а)' X' X (р—а) < ms2 Fx} (1.75) — доверительная область с коэффициентом доверия 1 — X. Очевидно, D есть эллипсоид в Rm. Центр его находится в а. Для т > 3 графическое построение эллипсоида прак- тически невозможно, да и при т = 3 эта задача весьма за- труднительна. Достаточное представление о расположении доверительного эллипсоида дает вычисление характеристи- ческих чисел и векторов матрицы плана Х'Х. В регрессии (1.6) ими будут (расположены в порядке возрастания ха- рактеристических чисел): Ал = 0,00963; s4 = (0,000766; —0,0147; 0,00283; 0,999); Х2 = 5,61; s2 = (—0,0261; —0,0179; 0,999; —0,0285); Х3 = 1344,8; s3 =(—0,296; 0,955; 0,00979; 0,0140); Х4 = 1917144,1; s4 = (0,955; 0,296, 0,0303; 0,00277). Величина, характеризующая обусловленность матри- цы Х'Х, Xmax(X'X)/Xmln (Х'Х) = 1917144,1/0,00963 «2 X X 108 очень велика; следовательно, матрица Х'Х плохо обусловлена (подробнее см. параграф 6.1). Отношение мак- симального характеристического числа к минимальному равно отношению длины максимальной полуоси эллипсоида к минимальной. Таким образом, эллипсоид, соответствую- щий матрице Х'Х, сильно вытянут в одном направлении и сжат в другом. Направление, в котором вытянут эллип- соид, соответствует вектору s4. В свою очередь s4 почти сов- падает с направлениями оси 04. Следующая ось D направ- лена близко к и т. д. Таким образом, эллипсоид может быть достаточно хорошо аппроксимирован только одним фактором х4; еще лучшую аппроксимацию даст введение факторов х4, х2, и т. д. (подробнее см. параграф 6.1). Дей- 69
ствительно, если оставить только первый фактор то регрессия будет не намного хуже первоначальной: yt ~ 0,535xfl Д et, (1.76) (0,0027) s2 = 12,4, что соответствует сумме квадратов отклонений 173,6 (полной регрессии (1.6) отвечает сумма квадратов отклонений Q = 68,46). В регрессии у на х2 сумма квадратов отклонений будет уже 4256. Таким образом, если в рассматриваемом химическом эксперименте температура проведения реакции лежит в окрестности 100°, а количество катализатора, участвую- щего в реакции, находится в пределах 10 г, то вместо мо- дели (1.6) возможно использование более грубой модели (1.76). Привлечение дополнительного килограмма вещества Вг приведет к увеличению выхода реакции в среднем на 535 г. Доверительная область в виде эллипсоида несет на себе большую информацию. Однако, как уже отмечалось, его построение и интерпретация затруднительны уже для т = 3. Встает вопрос о возможности построения довери- тельной области, которую легче интерпретировать. В ка- честве такой области (множества) выберем обобщенный прямоугольник (прямоугольный параллелепипед). Это мно- жество будем строить на основе индивидуальных довери- тельных интервалов. Рассмотрим один из способов построе- ния совместных доверительных интервалов [63, с. 3021, пред- ложенный Тьюки. Теорема 1.15. Пусть Di (i = 1, 2, ..., m) — инди- видуальные доверительные интервалы для параметров at (1.74) с коэффициентом доверия 1 —Х/m. Эти интервалы будут совместными с коэффициентом доверия не менее 1 — 7. Доказательство. Обозначим через At множе- ство тех у, для которых Dt накрывает истинное значение параметров аг, т. е. Дг = {у : at ED;}. По условию тео- ремы Р (Д;) = 1 — X/m. Множество одновременного (со- вместного) накрытия равно: А = П ••• Л Ат. Оценим вероятность этого множества: Р(Д)=Р(А л ... ЛЛт)=1-Р(Д^ и ... и Аст)^ > 1— Р(Л±С) —... — р(4,)= 1— т%/т=1 — X, где At —дополнение к множеству Аг и Р (At) = 1 — — Р (Лг) = %/т. 70
Построим совместную доверительную область в виде обобщенного прямоугольника для регрессии-примера (1.6) с коэффициентом доверия 1 — % = 95%, т. е. X = 5%. Для этого надо построить индивидуальные доверительные ин- тервалы с коэффициентом доверия 1 — 0,05/4 = 0,9875. Приближенное значение /0,0125 при 11 степенях свободы равно 3, поэтому одновременным 95%-ным доверительным прямоуголвником для (аь а2, а3, а4) будет (0,27366; 0,5212); (—1,017; 1,475); (—0,139; 7,631); (—100,9; 66,74). Как видим, границы доверительных интервалов стали весь- ма широкими. Это результат того, что число степеней сво- боды в регрессии-примере (1.6) невелико и равно 11. Чем больше значение т, тем сильнее индивидуальные довери- тельные интервалы будут отличаться от совместных, по- строенных по методу Тьюки. В [63] обсуждается еще один метод построения совместных доверительных интервалов. Важным моментом теории проверок гипотез и построе- ния доверительных интервалов является предположение о нормальном распределении отклонений. Если отклонения регрессии не являются нормально распределенными, но выполняются условия асимптотической нормальности оценки МНК, можно показать, что построенные таким об- разом доверительные интервалы и критерии проверок ги- потез являются асимптотически оптимальными. В некото- рых работах исследуется, насколько эффективность прове- рок гипотез и доверительного оценивания теряется при отклонениях от нормальности. Если отклонения имеют рас- пределения с легкими хвостами (см. гл. 5), то построенные в этом параграфе критерии и интервалы не теряют практи- чески своих свойств. Для распределений с тяжелыми хвос- тами ситуация меняется. Вопросы устойчивости (робаст- ности) см. в [371. Можно предложить грубый метод построения довери- тельных интервалов, не зависящий от распределения е, основанный на неравенстве Чебышева. Пусть at — i-я ко- ордината вектора оценки МНК, — ее стандартная ошибка (вернее, оценка этой величины), тогда по неравен- ству Чебышева для любого т > 0 Р { I di —а; I < TS;J 1 — 1/т2. (1-77) Доверительным интервалом для параметра а; является ин- тервал (аг — TS;, di + Т5г) с коэффициентом доверия не ме- нее 1 — 1/т2. Так, если положить т == 3, то коэффициент доверия будет не менее 8/9 « 0,889. Точность выполнения 71
неравенства (1.77) зависит оттого, насколько s2 эффектив- но оценивает истинное значение стандартной ошибки от- клонений о2. Применяя процедуру Тьюки, на основе (1.77) можно построить совместные доверительные интервалы. Упражнение 1.10 1. Используя метод Лагранжа, найдите aR (1.56). 1.11. Доказательства 1. Доказательство теоремы 1.3. Имеем е = у—у = Хае—Ха —- X (а—а) + е = = —Х(Х'Х)-1Х'е + е = [ —Х(Х'Х)-1Х' + 1п]е = Ае, (1-78) где А = —X (Х'Х)-1Х' + In; In — единичная матрица п X п. Матрица А идемпотентна: А2 = [In-X (X' X)-1 X'] [I,. -X (X' X)-1 X'] = ^1П + Х(Х'Х)-1Х'Х(Х'Х)-1Х' — —2Х (X' Х)-!Х' = In —X (X' Х)-ХХ' = А. (1.79) Применяя формулу (П. 13), получим Ее' е = Е (s' Ав) = о2 tr А = о2 (tr In — tr X (X' X)"1 X'), но tr X (Х'Х)-1Х' = tr (Х'Х)-1Х'Х = т, поэтому Ев'Ав = = о2 (п — т), откуда Es2 = о2, что и требовалось доказать. 2. Доказательство теоремы 1.5. 1) Пусть Xmln (ХАХП)->ОО, п-+оо. Тогда Чах дад-1 = I/Чи (х;хд +о, п ^оо. Применим левое неравенство (П.17) для матрицы (Х^ХД-4; имеем max {| (X; Хп),7 * |)< ХШах (ХА X Д’1 -> 0, i, ! откуда (ХпХД-1 ->0, т. е. cov (аД -^-0, п ->оо. 2) Пусть ап сходится к а в среднем квадратичном, т. е. cov (аД = о2 (Х^ХД^1 ->0, и —> оо. Применим правое не- равенство (П.17) для матрицы (Х^ХД-1, получим Чах(х;хд-х2|(х;х),7*|->о, i, i 72
откуда \пах X,,)'1-* 0 и Xmln(X' Хп)-> оо. 3. Доказательство теоремы 1.6. Обозна- чим тогда Rn = Dn^AXnDn1 и X„Xn = DnRnDn. Поскольку 1RI ¥= О, то ^min (R) > б > О, и начиная с некоторого п0 для всех п Xmlll (Rn) б1. Поэтому, применяя неравен- ство (П.12), получим (ХПХП) ^пНп (DnRnDn) (Вл) • б = б min -^-оо по условию теоремы. i t Итак, условие Эйкера выполнено, поэтому оценка МНК состоятельна. 4. Доказательство теоремы 1.7. Как сле- дует из (1.78) и (1.79), s2 = — е' (к -Хп (Хп Хп)~1 X') е = п—т Se/ e,xn(x;xn)-ix;e п—т п—т В силу нцкоррелируемости е1, е2, ..., бп первое слагаемое по закону больших чисел при п ->оо стремится по вероят- ности к о2. Докажем, что второе слагаемое стремится по вероятности к нулю. В силу положительной определенно- сти Х'пХп найдется невырожденная матрица Рп, такая, что РПРА = (Х'Хп)-\ откуда Р;Х'ХПРП = 1ГО. Обозначим = :— Р'пХ'пе, тогда второй член в у п — т (1.80) перепишется: -^-е'Хп (ХпХп)-^гп = 1п1п, п—т 1Мы пользуемся фактом непрерывности характернстичесиих чисел матрицы от ее элементов [53, с. 206]. 73
Ho E£n = 0, поэтому cov (У = Е|п & = Р’ ХА Хп Рп а2 п—т 'т -*" О, т. е. plim — 0, поэтому plims^ = а2. 5. Доказательство теоремы 1.8 основано на теореме сходимости суммы элементарной системы слу- чайных величин (см. [18, с. 2881). Фиксируем i g [1, т\. Тогда i-я координата стандартизированной оценки МНК равна: bni = 2 Aniiet = 2Snt> где Znt = Anitnt, Anit — i=l f=l (i, t)-a элемент матрицы An, 1 sC t sC п. Проверим выпол- нимость аксиом, позволяющих считать систему случайных величин {^nt} элементарной [18, с. 2831. Прежде всего за- метим, что ^Anit = 1/<А что следует из AnAA = 1/сга. t Далее, 1) а2(^;) = Л^-а2<1; 2) о2(М = 1; 3) max {ЛАц, ЛА/2,..., AL™} ->0 — условие теоремы. Применим теперь теорему 2 [18, с.288]. Условие ее переписывается следующим образом: (1-81) где F — функция распределения 8г. Таким образом, для доказательства теоремы достаточно показать, что условия (1.81) и (1.43) эквивалентны. Достаточность. Докажем сначала, что для любого 8 > О найдется такое N, что для всех п N и t п j х2 dF < 8. т*/л2 nit (1.82) Пусть 8j > 0 такое, что J x2dF < 8. Пусть N такое, что х* > хг/е^ для любого п > N шах {А^/} 82, т. е. А„и е2 для t^n, N. Имеем У х2 dF J x2dF < е, хг > Xs > т‘/е2 74
откуда и следует (1.82). Далее, начиная с М для любого n > М 2^ J 2 л"“=8/°а’ <=1 I * I > */| Anit I <=I т. е. условие (1.81) выполнено. Необходимость. Допустим, (1.43) не имеет места. Тогда найдется такая последовательность 1 tn п, что Anitn б, для всех п N. В таком случае [ x2dF^ J х2 dF б > 0. х*>т’/Л2п Х!>гг/е2 Поэтому 2^ С x2dF^A2nitn j x2dF^ = 1 I Xf > t/| Anit | I xl > T/| Anitn I 6>0, т. e. условие (1.81) не выполняется. Теорема доказана. Замечание. Доказательство теоремы нельзя считать полным в достаточной мере, так как мы доказали асимпто- тическую нормальность только i-й координаты оценки МНК- Для полноты доказательства теперь необходимо рас- смотреть линейную комбинацию координат оценок МНК и доказать, что она асимптотически нормальна. Доказа- тельство будет аналогично приведенному. По известной тео- реме тогда и весь вектор оценки МНК будет асимптотичес- ки нормален. 6. Пример регрессии, в которой матрица Хп сильно регулярна, а оценка МНК не асимптотически нор- мальна. Для простоты рассмотрим регрессию с одним оце- ниваемым параметром: yt = axf Д- et. Отклонения sf счи- таем независимыми и одинаково распределенными. Пусть последовательность Xt такова: xt^= если t = 2k, то Yt, в противном случае_1, 75
где k = О, 1, 2, ... Тогда — ( У Л4-V 1^ = —nog2(n)]([log2(«)]-Ь1)/2Н- П \ г. / ft \k < log2 п t^2k / + (n-log2 n) = 1 + — [log2 n]([log2 n] 4-1)/2-, n n n где [•] означает целую часть числа. Нетрудно проверить, что последняя сумма имеет предел 1 при и —>оо. С другой стороны, если взять п — 2k, то для построенной последовательности 1 max х] = 1. Таким об- П 1<п разом, условие теоремы 1.8 не выполняется, и оценка МНК не будет асимптотически нормальной. 7. Доказательство теоремы 1.10. Прежде всего более подробно рассмотрим, как условие (1.39) свя- зано с (1.43). Для этого обозначим Xnt — t-ю вектор-стро- ку 1 X т матрицы Хп; Ап( — t-и вектор-столбец rn х 1 матрицы An, t = 1, 2, ..., п. По определению (1.42) Ant= — (х;хп)->/2Х;г, а II ап/ |р = J- xn( (х; xn)->/2 (х' xn)-v2 x'nt = а2 --^-ХпДХ'Хп)-^^. (1.83) о2 Теперь покажем, что условие (1.43) эквивалентно max || AnJ|2->0, п->оо. (1-84) Этот факт следует из очевидных неравенств Л^<|| Апг ||2</n-max А^и. i Условие (1.84) теперь позволяет понять, почему (1.43) силь- нее (1.39). Из (1.83) следует 1|АПЛ2^Ц- IIxnjp^raas (х;хпи = о2 = -^l|xn(||2Amln(x;xn). (1.85) 76
Для того чтобы выполнялось условие (1.84), необходимо, чтобы не только Хга1п (Х^ХП) ->оо, но чтобы отношение || Xnt||2/Xmin (Х«ХП) равномерно стремилось к нулю. По определению Rn имеем (XAXn)-1 = D~ * R„ * Dn‘, от- куда по неравенству (П.11) \пах (Хп Хп) 1 ^max (Dn 2) ' \пах (Rn *) — = 1 /(R«) •mirl 2 *u < 1 /6 min 2 it it Поэтому из (1.85) следует max || Хл{ ||« max || Anf ||2 ^7---- —----------—— i 11 nt" 6-а2 v 6-а2 min Zj х?, min max x(2. Сходимость (1.84) следует из условия б) теоремы. 8. Доказательство теоремы 1.13. Лога- рифм функции плотности (1.44) равен: In/(у; а, а2) = = — yin (2л) — ~ In а2 — ~ (у — Ха)' (у—Ха), ее производные по а и а2 равны: J—(X'у—X'Ха) = J- Х'(у-Ха) да а2 а2 Э1п / п , (у —Ха)' (у—Ха) За2 2а2 2a4 a2 X'e; n, в' e 2a2 2a4 Число искомых параметров равно т 4- 1; обозначим общий вектор параметров 0£AJm+*: 9 = a a2 Найдем „ d In f тогда -------- ae 1 V' ----X e a2 —+ - 2cr- e' e 2a4 Eg (d In /700) (d In f/dQ)' = E Ац . A2i A-12 A 22. = 1(0). 77
Имеем ЕAu = Е — X' ss' X = — X' Еее' X = — (Х'Х); 1 о4 О2 ’ А12 =~— X' в(— п + е' s/о2) g Rm; Е (Ац), = Е 2 xti et — п + 2 е^°2) = = - E2x«iе*+Е 2х" Et •2е’• В силу того что Eet = 0, первое слагаемое обращается в нуль. В силу независимости et и es Extietes = xtiEetx ХЕе/ = 0, поэтому второе слагаемое равно: — ЕУ xti ^ = -^-У,ХцЕе!=0, 2о» Ж tl так как для нормального распределения 3-й момент равен нулю. Итак, ЕА12 = 0, поэтому i-lf0)=r(EAH)_1 0 LRX'X)-1 0 ’ L 0 (EA^-iJ [ О (ЕА22)-1. • Но матрица ковариации оценки МНК как раз равна о2 (Х'Х)"1, т. е. нижняя граница в неравенстве Крамера— Рао (1.15), (1.16) достигается, и оценка МНК будет эффек- тивна в классе всех несмещенных оценок — теорема дока- зана. Глава 2 ДРУГИЕ ВОПРОСЫ ЛИНЕЙНОЙ РЕГРЕССИИ 2.1. Взвешенный МНК. Оценка Эйткена В классической регрессии предполагается, что откло- нения в регрессии не коррелируют друг с другом (предпо- ложение Г параграфа 1.1). Это довольно жесткое условие, которое весьма редко выполняется для временных рядов; вероятно тогда, что отклонения Его момента времени тес- но связаны с отклонениями (/ ф- 1)-го момента. Ослабим 78
предположение Г и допустим, что ковариационная матри- ца отклонений не обязательно имеет вид о21, хотя и извест- на с точностью до постоянного множителя. Предположение Г', cov (s) = о2Я, где О — известная положительно определенная матрица, о2>0—не- известный параметр. На протяжении этого параграфа бу- дем считать, что предположение Г' выполнено. Уравнение регрессии у = Ха + s, cov (в) = а2Я (2.1) некоторым преобразованием может быть сведено к класси- ческому v = Za + |, cov(g) = a2 In. (2.2) Известно, что любую положительно определенную мат- рицу О можно представить в виде Я = ТТ', где Т — невы- рожденная матрица, алгоритм вычисления которой да- ется в [27, с. 287]. Положим v = T-1y; Z=T1X; ^=T-1s. (2.3) Легко проверить, что для нового уравнения регрессии вы- полняются все предположения А — Е параграфа 1.1, при этом параметры, которые необходимо оценивать, остаются без изменения. Естественно для их оценивания воспользо- ваться МНК, который применим к уравнению (2.2): Q (a) = (v—Za)' (v —Za) = (у—Ха)' Я-1 (у—Ха) =>min. (2-4) Как видно из этого выражения, для оценивания а в ис- ходном уравнении (2.1) необходимо применять взвешенный МНК. Суть его нетрудно понять. Матрица ковариаций Я представляет собой совокупность ковариаций и дисперсий у. Чем больше разброс yt, тем менее это наблюдение должно учитываться при оценивании параметров регрессии. Оценку взвешенного (обобщенного) МНК можно получить, непосредственно минимизируя (2.4) или же как обычную оценку МНК из «нормализованной» регрессии (2.2): a--(Z'Z)-1Z'v = [X'(T“1)' T^XHX'fF-1)' Т~гу = = [X' (ТТ')-1 X]-1 X' (ТТ')"1 у = = (Х'Я-1Х)-1Х' Я"1 у. (2.5) В экономико-статистической литературе оценку (2.5) называют оценкой Эйткена [71], в теоретической литерату- ре по математической статистике — оценкой Гаусса—Мар- 79
кова. Мы ее будем называть оценкой Эйткена. Читатель может убедиться в том, что cov(a) = a2(X'Q_1X)_1. (2.6) Аналогично теореме Гаусса—Маркова в случае cov (б) = = cr2S2 может быть доказана следующая теорема. Теорема 2.1 (обобщенная теорема Гаусса—Марко- ва). Оценка Эйткена является: а) несмещенной: б) эффективной в классе несмещенных оценок, линейных по у. Несмещенной оценкой о2 в нашем случае является о2=(у—Ха)'Й-1 (у — Ха)/(/г—т). (2.7) Теорема 2.2. Если отклонения нормальны, то: а) оценка Эйткена совпадает с оценкой ММП: б) оценка Эйткена имеет распределение N (а, о2 X Х(Х'Й-1Х)-1); в) £2 (п — т)!а2 ~ %2 (п — т); г) а2 и а независимо распределены: д) оценка Эйткена является эффективной в классе всех несмещенных оценок. Аналогично (1.39) в условиях предположения Г' воз- можно разложение (у — yl)'Q-i(y— yl) = (y—yl)' Й-х(у—у1) + + (у—Х^'Й'Чу—Ха). (2,8) Можно определить эффект перехода от модели yt — ат + + 8г к модели (2.1) со свободным членом ^2=1— (j, ~ х“)' n~1(j>—х«) (2.9) См —ТО'и-1 (j»—i/i) Процедура проверок гипотез и доверительного оцени- вания также практически мало изменится при переходе к модели (2.1). Всюду вместо обычной суммы квадратов отклонений необходимо брать взвешенную. Например, сов- местный доверительный интервал для а с коэффициентом доверия 1 — 1 равен: D = {Р Е Rm: (Р—а) X' Q-1 X (Р — а) сХ таЧДт, п—т)\, (2.Ю) А где а2 рассчитывается по формуле (2.7). 80
Из асимптотических свойств оценки Эйткена остановим- ся только на состоятельности. Теорема 2.3. При условии Эйкера (1.39) и условии Хтах (Йп) d оценка Эйткена состоятельна. Доказательство опирается на неравенство (П. 12). Используя его, получим ^min (Хп Дп 1 Х„) ^min (Дп 1)'^min (Хп Х;1) ~ ^min (Х„ Хп) ОО , d откуда следует, что cov (а„) = о2 (Х„ Дп1 Хп)-1 -> 0, и оо. Использование эффективной оценки Эйткена предпо- лагает знание матрицы Д. На практике она, как правило, неизвестна. Оценить Д на основе наблюдения у также не- возможно хотя бы уже потому, что для этого необходимо оценить п (п + 1)72 величин по имеющейся информации из п наблюдений. Рассмотрим, какие свойства будет иметь обычная оцен- ка МНК, если все-таки Д =Д I. Т е о р е м а 2.4. Если все предположения А — Е (за исклю- чением Г) верны, cov (г) = о2 Д, то оценка МНК является: а) несмещенной: б) состоятельной, если Хтах (Дп) d < оо. Доказательство. а) а = а + (Х'Х^Х'е, Еа = = а. б) Прежде всего найдем матрицу ковариаций оценки МНК в условиях предположения Г'. Имеем cov (а)=Е (а—а) (а—а)'=Е (Х„ ХД-1 Х^ ее' Хп (Х^ Хп)-1= = о2 (х; хд-1 х; д„-1 хп (х; х„)-\ Применяя неравенство (П.11), получим 7niax cov (а) о2 Zmax ((Х„ХП) 1ХпХ,г(ХпХп) 1)А,тах(Дп) = = О2 Хтах (Хп Хп) 1 X 7.тах (Дд) < О2 ^тах (ХХфЧ-Д П-^-ОО. Условие состоятельности довольно естественно: необхо- димо, чтобы дополнительная информация, даваемая наблю- дениями при п -*-оо, не убывала до нуля. В литературе предлагаются достаточные условия состоятельности оценки МНК в случае, когда отклонения 81
регрессии являются стационарными, т. е. когда матрица <г2Й имеет вид [3]: (00 (0х (02 ... (0п о2й = о2 “° ®i •" ®n-i (2.И) Эти условия похожи на условия теоремы 1.6. Рассмотрим частный случай использования взвешенно- го МНК, на котором отчетливо видна суть взвешивания. Допустим, в предположении Г' матрица й является диа- гональной и Qtt = of. Другими словами, мы по-прежнему, как и в классическом предположении Г, считаем отклоне- ния {е4} (дисперсии которых известны статистику с точно- стью до постоянного множителя) некоррелируемыми, од- нако имеющими разную дисперсию. Такие отклонения на- зывают гетероскедастичными. Взвешенный МНК приводит к минимизации (2.4) или 2 (Z/t — «1 Mi — • • • — <*т xtmW = t t am (2-12) Для нахождения оценки параметров можно было бы воспользоваться формулой (2.5). Однако, как видно из (2.12), оценка Эйткена (2.5) совпадает с оценкой МНК взвешенной регрессии yt _ „ *ti — — «х------ Ot nt М или = aiztl + •• + amzim + £t, z = 1, ..., /I (2.13) Легко видеть, что все предположения А — Е для взве- шенной регрессии (2.13) выполнены, причем cov (£) = = o2In. Можно показать, что cov (а), Д2, доверительные интервалы для уравнения (2.1) равны соответствующим ве- личинам из взвешенной регрессии (2.13). Вернемся к регрессии-примеру (1.5). Относительно от- клонения ег примем следующую гипотезу: отклонения не коррелируют друг с другом, но имеют разные дисперсии. Будем считать, что стандартное отклонение yt пропорцио- нально (приближенно) самому значению yt. Это имеет ос- нование, например, если принимается, что yt содержит 82
только ошибки измерения. Тогда мы считаем, что относи- тельная ошибка измерения yt постоянна. Поскольку yt растет одновременно с номером эксперимента, можно по- ложить at = aot, где о0 = const, т. е. о’ = «Д2. Примем эту гипотезу. Для того чтобы найти оценки МНК, рассмот- рим регрессию ~ =^1-^- + ^—- +«3-^- +“4-^- + -^, *=1............15. t Г I i Т I Оценим ее методом наименьших квадратов: yt — 0,453 ха Д- 0,917 х/2Д- 4,17 xt3 Д- 78,8, (0,0721) (0,909) (4,41) (58,4) о„ = 0,63. Все параметры, за исключением аъ оказывают- ся незначимыми. Иногда гетероскедастичность отклонений связывают с одним или несколькими независимыми переменными. На- пример, Дж. Джонстон [26] в парной регрессии yt = arxt Д- Д а2 Д 8f предлагает выбирать о/ = а20х2. Р. Парк [170] обобщает зависимость ot от xt и предлагает считать о? = = а20х^, где х(> 0 и v — неизвестный параметр, который находится следующим образом. Сначала находим обычную оценку МНК «1 и а2; строим отклонения et = yt — arxt — — tz2. Дальше рассуждаем следующим образом: е2 может служить оценкой о/, поэтому можно приближенно записать е/ л: или In е2 = In о* Д- v In xt Д- r)f, t — 1,2, Рассматривая это равенство как регрессию In е2 на In xt, можно найти оценку МНК для о„ и v. Затем применяем взвешенный МНК к исходной регрессии с весом х]. В [111] предлагается схема, в которой о2 есть функция некоторо- го полинома от xt. Очевидно, эти приемы можно перенести и на случай множественной регрессии. И все же описанные спецификации гетероскедастичности нам кажутся искусственными и малоправдоподобными. Почему дисперсия отклонений зависит от xf? По нашему предположению xt детерминирован. Если же xt содержит ошибки измерения, то оценка МНК вообще неприемлема (это показано в гл. 4). Почему дисперсия отклонений про- порциональна степени независимой переменной? Чем это аргументируется? Нам кажется, что при спецификации ге- тероскедастичности 8, необходимо отталкиваться от зависи- мой переменной yt, а не от независимых х2, , хт, по- 83
скольку в наших предположениях только yt может содер- жать ошибки измерения. Предположим, af пропорционально | Eyt |, т. е. о/ = (“ДД + ••• + amXtm)2, t = 1, П. (2.14) Гипотеза (2.14) весьма естественна, например, когда откло- нения et трактуются как ошибки измерения зависимой пе- ременной. Тогда (2.14) утверждает, что относительная ошиб- ка постоянна, т. е. отношение а{/| Eyt | = const. Гипотеза (2.14), очевидно, противоречит независимости Й от а. Для нахождения оценок а можно воспользоваться различными методами. Большинство из них приводят к нелинейному оцениванию (см. часть III книги). Однако можно предло- жить следующую двухшаговую процедуру, которая исполь- зует только МНК: 1) оцениваем обычным МНК исходную регрессию; 2) находим yt = с^Хц Д ... Д amxtm-, далее полагаем <yf = | yt | и применяем взвешенный МНК- В [180] предложена более общая схема, в которой стан- дартная ошибка отклонений регрессии есть линейная ком- бинация независимых переменных. Другими словами, = I ₽0 + ₽ДД + + PmXfm |> (2.15) где р0, [Д ..., рт — неизвестные коэффициенты, подлежа- щие оцениванию. Схема (2.15) является более общей, чем схема (2.12): если в последней мы считаем, что at зависит от Eyf, т. е. является линейной комбинацией лд ..., хт с ко- эффициентами регрессии, то в (2.15) эти коэффициенты могут быть любыми. Схема (2.15) применима, если предпо- лагается, что гетероскедастичность зависит от переменных регрессионной модели ..., хт, но вид зависимости неиз- вестен. Для оценивания регрессии в предположении (2.15) можно применить ММП. Предположим, отклонения ef нормальны, т. е. et ~ N (0, о/) = N (0, (ро + Р1Д1 Ч~ ... Д pmxfm)2). Тогда можно найти функцию плотности распределения выборки уъ ..., уп, которая зависит от 2т Д 1 неизвестных параметров аь ..., ат, ро, рп ..., рт. Максимизируя эту плотность, найдем оценки ММП для а и р. В литературе предлагаются некоторые методы выявле- ния гетероскедастичных наблюдений и борьбы с ними [75, 76]. Иногда для выявления гетероскедастичности строят график квадратов отклонений et. 84
В некоторых случаях оценка МНК совпадает с оценкой Эйткена, даже если Я =/= I. Теорема 2.5. Оценка Эйткена (2.5) и оценка МНК сов- падают тогда и только тогда, когда существуют такие невырожденная матрица СтХт и матрица \[п*т, причем вектор-столбцы последней линейно независимы и являются характеристическими векторами матрицы Я, что X = VC. (2-16) Доказательство этой теоремы дано в [6]. Выражение (2.16) можно трактовать так: независимые переменные суть линейная комбинация некоторых характе- ристических векторов матрицы й. Рассмотрим для при- мера простейшую регрессию yt = axt + st, где Z = 1, 2 и cov (е) = о2Я (т = 1, п = 2). Допустим, характеристи- ческий вектор, соответствующий максимальному характе- ристическому числу Я, равен е1( минимальному — е2. Оцен- ки МНК и Эйткена совпадают, если х = (хп х2) лежит ли- бо на еъ либо на е2. В противном случае оценка Эйткена эффективнее. С помощью теоремы 2.5 можно находить условия на мат- рицу независимых переменных X, для которой оценка МНК и оценка Эйткена совпадают. Пример. Рассмотрим модель регрессии (2.1). Откло- нения регрессии считаем гетероскеда стачными и независи- мыми. Другими словами, cov (е) = о2 Я — диагональная матрица: (2-17) Значения о2 отличны друг от друга: of =/= of, если i #= /. Спрашивается, когда оценка МНК и оценка Эйткена бу- дут совпадать? С помощью теоремы 2.5 ответ найти нетруд- но: п — т строк матрицы X должны быть нулевыми. До- кажем это утверждение. Прежде всего отметим, что ха- рактеристическими векторами матрицы (2.17) являются е1; ..., еп, где е; = (0, ...1, ...0), а единица расположена на i-м месте. Вектору е, соответствует характеристическое чис- ло о,2. Пусть вектор-столбцы матрицы Vnxm составлены из ех, ..., еп — матрица полного ранга. Оценка МНК и 85
оценка Эйткена совпадают тогда и только тогда, когда ма- трица X может быть представлена в виде произведения: Число нулевых строк матрицы V равно п — т. Столь- ко же нулевых строк будет иметь матрица X. В частности, при т — 1 оценка МНК и оценка Эйткена совпадают, только если ряд {xt} содержит лишь одно не- нулевое значение. В задачах 7 и 8 упражнения 2.1 иссле- дуются другие возможности совпадения двух оценок. Нетрудно догадаться, что чем больше матрица ковари- аций отклонений регрессии имеет кратных корней, тем ве- роятнее оценки МНК и Эйткена будут совпадать. Однако совпадение двух оценок — факт весьма редкий на практи- ке. Упражнения 2. 1 1. Получите оценку Эйткена, непосредственно минимизируя (2.4). 2. Докажите,что в условиях предположения Е (параграф 1.1) оценка Эйткена единственна. 3. Покажите, что доверительные интервалы параметров регрес- сий (2.1) и (2.2) с преобразованиями (2.3) совпадают. 4. В модели среднего yt = am4- ef, где Й —диагональная матрица, ot = сф2. Покажите, что ни оценка Эйткена, ни оценка МНК не будут состоятельны. 5. Можно показать, что если cov (е) = о21, то оценка МНК в регрессии yt = alt-{- et, несостоятельна. Предположим теперь, что cov (е) — диагональная матрица и о2 (ef) = о§/72. Покажите, что оценка МНК по-прежнему будет несостоятельной, а оценка Эйтке- на — состоятельной. 6. Чему равна оценка МНК в регрессии yt = axt 4" е(, где a2 (et) = kxf, {et} не коррелируют? 7. Допустим, отклонения гетероскедастичны и of = ... = о* =4= =4= 0*4-1 = ... = On- Какой должна быть матрица X, чтобы оценка МНК совпадала с оценкой Эйткена? Начните со случая т = 1. 8. При каких {xj оценки МНК и Эйткена в регрессии задачи 6 совпадают? 86
2.2. Прогноз по регрессии На основе регрессионной модели yt = + ••• + amxtm + 8t, t = h •••, n (2-18) можно находить прогноз зависимой (эндогенной) перемен- ной у, зная соответствующие значения независимых (эк- зогенных) переменных ху, ..., хт. Допустим, для линейной регрессии (2.18) выполняются все предположения А — Е. По статистике за прошлое мы можем оценить вектор а. Пе- ред нами стоит задача оценки ух, где т > п. Предполо- жим, прогноз вектора независимых переменных хт = — (Хть Хтт)' известен точно. В качестве оценки ух ес- тественно рассмотреть yx = xxa= (2.19) /= 1 Поскольку ух есть величина случайная, то употребление термина «оценивание» будет несколько некорректно. Го- ворим, что некоторая оценка несмещенно оценивает ух, если математическое ожидание этой оценки равно Еух = = CCjXri + ... + Т е о р е м а 2.6. Прогноз (2.19) является несмещенным, эффективным в классе линейных несмещенных прогнозов с дисперсией1 = о2 (1-фх^ (X'Х)-1хт). (2.20) Доказательство. Несмещенность прогноза дока- зывается просто: Еух = Хх Еа = х£ а~ Еух- Докажем его эффективность. По условию прогноз yt будем искать в классе линейных несмещенных прогнозов. Необ- ходимо найти наилучший прогноз ух. По договоренности ух может быть записан в виде линейной комбинации преды- дущих наблюдений ylt у2, ..., уп, т. е. Sctyt = c'y, (2.21) t где с = (сь ..., сп)' — вектор коэффициентов при у. В си- лу несмещенности (2.21) Еух = с'Еу = с'Х а = х^ а для 1В данном параграфе под дисперсией несмещенного прогноза ух понимается величина Е (ух — z/x)2. 87
любых Поэтому условие несмещенности может быть записано: Х'с = хт. (2.22) Найдем дисперсию прогноза (2.21). Имеем Е(Уг—Уг)3= Е(ут—х^а —8т)2= Е(ут —х;а)2+ Ее^ в силу некоррелируемости 8Т и ylt ..., уп. Далее Е(Гг~ Ут)2^о2(уг)-|-о2 = с' cov(у)сДо2 = о2(с' сД 1). Итак, задача оптимального линейного несмещенного прогноза сводится к нахождению такого вектора с £ Rn, что с'с => min при условии несмещенности (2.22). Постро- им функцию Лагранжа ^(сД) = с'с-Х(Х'с-хт)Д6Г (2.23) Тогда дМдс = 2с — Ха = 0, откуда К = 2 (Х'Х)”1 Х'с. Подставим это значение к в выражение (2.23) и снова про- дифференцируем по с, получим dF/dc = 2с — 4Х Д 2Х (X'X)”1xt = О, но с учетом (2.22) 2с — 4Х (Х'Х)-1хт Д 2Х (Х'Х)-1хт = О, откуда окончательно с = X (Х'Х)-1 хт, а это как раз соот- ветствует с при использовании оценки МНК. Таким образом, оптимальный линейный несмещенный прогноз также приводит к оценке МНК. Замечания: 1. При построении прогноза естест- венно допускается, что ух удовлетворяет уравнению регрес- сии (2.18). Таким образом, считается, что структура моде- ли в будущем не изменится. 2. Вместо «оценивания» реального значения ух можно оценивать его м. о., т. е. кха. Тогда за счет отсутствия слу- чайной ошибки 8Т дисперсия прогноза (2.19) будет на о2 меньше, т. е. будет равна: оД^ДхДХ' Х)-1хт. (2.24) 3. Формулы (2.20) не годятся в качестве статистик, так как содержат неизвестный параметр о2. Несмещенной оцен- кой дисперсии прогноза в форме (2.20) будет Sx = s2(l Дх' (Х'Х)-1хт), где s2 — несмещенная оценка о2; s2 =—— (У ~у)'(у~ У) =—5—е'е. п—т п—т 88
Наиболее часто регрессионную модель используют в двух целях: 1) исследователя интересуют сами коэффициенты alt a2, .... — качественный анализ регрессии. При этом оптимальным является метод наименьших квадратов; 2) коэффициенты необходимы постольку, поскольку они необходимы для построения прогноза для ут. Как следует из теоремы 2.6, оптимальной оценкой здесь также будет оценка МНК- Разумнее прогноз делать не точечный, а интервальный. Для построения доверительного интервала необходимо задаться распределением ошибок. Допустим, как и ранее, е ~ N (0, о21), отклонение ет ~ А (0, о2) независимо от е. Можно показать, что доверительный интервал Dx = [ух—h Sx <ух<Ух+ Дзт} (2.25) является несмещенным, равномерно наиболее точным с коэффициентом доверия 1 — X, т. е. Р (УД) =1 — X. Упражнения 2. 2 1. Какой вид принимает формула (2.20) при т = 1, 2? 2. Предположим, прогноз хх найден не точно, т. е. о2 (хх ) = = af > 0, Ехт; = хх[, причем xTt- не коррелируют между собой и не коррелируют с «прошлым» у1( ..., уп и ет. Найдите дисперсию прогноза ух = а'хт. 3. Допустим, имеется k экспертных несмещенных прогнозов г/т1 yxk с одинаковой дисперсией V2. Считаем, что ух1 не кор- релируют между собой и с ух, .... уп. Как экспертные прогнозы учесть при построении прогноза по регрессии (2.18)? 4. Обобщите формулу (2.20) на случай, когда cov (е) = <т2Я, причем ет не коррелирует с у1г уп- 5. Предыдущую задачу решите для случая, когда Е (eTef) = = rt известно, t = 1, .... п. 2.3. Регрессия с ограничениями на параметры В этом параграфе ослабим предположение А. Будем считать, что априорное множество 0 не совпадает со всем пространством R1’1, а является лишь его частью. Рассмотрим случай, когда 0 представляет собой гиперплоскость в Rm некоторой размерности k < т. Это означает, что на истин- ный вектор параметров наложено k линейно-независимых априорных ограничений в виде уравнений с известными 89
коэффициентами. С такого рода ограничениями мы сталки- вались в параграфе 1.10 при проверке линейной гипоте- зы (1.55). Итак, предположим, неизвестный вектор пара- метров а удовлетворяет соотношению Ra = г, (2.26) где RAxm, rank R = k, г заданы. Остальные предположе- ния Б — Е считаем выполненными. Т е о р е м а 2.7. Оценка, минимизирующая сумму квад- ратов отклонений при ограничениях (2.26), равная a/? = a + (X,X)-1R'S(r—Ra), (2.27) где S = [ R (Х'Х)-1 R']-1, а — оценка МН К, является несме- щенной и эффективной в классе несмещенных оценок, линей- ных по у1, удовлетворяющих (2.26); матрица ковариации (2.27) равна: cov (ал) — V И — R' SR(Х'Х)-1] (2.28) где V = cov (а) — о2 (Х'Х)-1. Доказательство. Для нахождения ад воспользу- емся МНК при ограничениях (2.26). Таким образом, ми- нимизируем QR (а) = (у — Ха)' (у — Ха) при условии Ra = г. Введем множители Лагранжа и построим функцию Qr (а; X) = (у—Ха)' (у—Ха) —К' (Ra—г); dQR/da= — 2Х'у + 2Х' Ха— R'k==0. Выразим отсюда а и подставим его в (2.26), откуда найдем X = 2 [R (X'X)-1R')]-1 (г — Ra), что при подстановке в (2.29) ведет к оценке (2.27). Несмещенность оценки (2.27) доказывается просто: в силу (2.26) EaR = Еа + (X' X)-1 R' SE (г—Ra) = = а-)-(Х' X)-1 R' S (г—Ra) = а. Доказательство линейной эффективности оценки предостав- ляем читателю (см. также [58, с. 202—204]). Найдем cov (aR): cov (aR) = cov (a—(X' X)-1 R' SRa) = = cov {(I—(X'X)-1 R' SR) a} = cov (Pa) = = Pcov(a) = P' = a2P(X'X)-ip'. ОЗ данном случае оценку b называем линейной по у, если ь = = Ну Ц- с, где Н — матрица т X п, с — вектор т X 1. 90
Далее P(X'X)-1P' = [1-(X'X)-1R'SR] (X' X)-1 [1— — R'SR(Х'Х)-1] = (X'X)-!-2(X' X)-1 R'SR(X' X)-1 + + (X'X)-1R'SR(X'X)-1R,SR(X'X)-1 = = (X' X)-1 — (X' X)-1 R' SR (X' X)-1 = = (X'X)-1[I-R'SR(X' X)-1], откуда следует (2.28). Несмещенной оценкой для а2 является s2 = (у - XaR)' (у - XaR)/ (n - tn + k). (2.30) В условиях нормально распределенных отклонений можно построить доверительные интервалы для параметра а и проверять статистические гипотезы [581. Вкратце рассмотрим регрессии с ограничениями на па- раметры в виде неравенств. Вместо (2.26) будем предпола- гать, что Ra С г, (2.31) где условия на R и г те же, что и в (2.26)1. Оценка МНК минимизирует сумму квадратов отклонений Q = = (у — Ха)' (у — Ха) при ограничениях (2.31). Нетруд- но показать, что во-впервых, эта оценка Ь единственна; во- вторых, либо b совпадает с обычной оценкой МНК а, что верно, если Ra г, либо (Ra)t = г, хотя бы для одного i = 1, ..., т. Итак, в тривиальном случае b = а, в против- ном случае некоторые неравенства в (2.31) оценка b обра- щает в равенства. Последнее обстоятельство является не- желательным. Действительно, допустим, исследуется вза- имосвязь производительности труда у и материального стимулирования х : yt = cqxy + а2 + е4. Разумно пред- положить, что ссг 0. Минимизируя Q при ограничении аг 0, мы столкнемся с двумя ситуациями: а) b совпада- ет с оценкой МНК; в этом случае ограничение аг 0 ста- новится «лишним», б) аг < 0, тогда Ьх = 0, что малопри- емлемо. Спецификация (2.31) неудовлетворительна тем, что в случае неравенств с ненулевой вероятностью оценка b при- нимает крайние значения. Неслучайно поэтому в неко- торых случаях оценка МНК а оказывается лучше b [179]. Исследование оценки Ь, ее свойств и вычисление можно Ja <; Ь тогда и только тогда, когда а, bi для всех i. 91
найти в [153]. Там же есть ссылки на другие работы по этому вопросу. Можно показать, что оценка МНК при ограничениях (2.31) является смещенной. Упражнения 2. 3 1. Докажите, что ближайшей оценкой (в смысле расстояния), удовлетворяющей (2.26), к оценке МНК является b = = а+ R' (R'R)-1 (г - Ra). Докажите, что эта оценка несме- щенная. Найдите ее матрицу ковариаций. Покажите, что ее матрица ковариаций больше, чем cov (а^). 2. Докажите, что оценка а^, минимизирующая Q(a) и удовле- творяющая (2.26), единственна. 3. Пусть предположение Е не выполняется. Докажите, что ГХ 1 единственность aR обеспечивается условием rank — = т. 4. Так же как и в задаче 1, будем искать ближайшую оценку. В качестве меры близости рассмотрим (Ь — а)'Х'Х (Ь — а), где Rb = г и а — оценка МНК. Докажите, что тогда b = &R. Исполь- зуя это, дайте геометрическую интерпретацию aR. Напомним, что cov (а) = о2 (Х'Х)-1. 5. Докажите, что aR — линейно эффективная несмещенная оценка. 6. Докажите, что s2 — несмещенная оценка о2. 7. Покажите, что оценка МНК, минимизирующая Q при огра- ничениях (2.31), является смещенной (начните со случая т — 1). 2.4. Перебор и недобор факторов в регрессии Как правило, исследователю неизвестна истинная модель регрессии, т. е. неизвестно, какие факторы вхо- дят в регрессию. Поэтому ошибка перебора факторов или их недобора является весьма вероятной. Исследуем, к че- му приводят эти ошибки спецификации, а также выяс- ним, какие из них ведут к более серьезным последствиям. Перебор. Истинная модель есть yt = + ••• + amxtm + et, t == 1, ..., n, (2.32) или у = Ха + в, cov (в) = о21т, относительно которой выполнены все предположения А — Е. Мы предполагаем, что yt = 61*tl + + TlPtl + ••• + (fkpth + (2.33) 92
или y-Zp + 8, Z = [XP], р' = (6',ф'), где РяХ\ ср**1, tynxi, £ггх («+*), p(m+A)хi. Оценкой МН1С в (2.33) является b = (Z'Z)-1 Z'y. (2.34) Докажем, что b несмещенно оценивает а. Другими слова- ми, если обозначим b' = (d'f'), то Ed = a, Ef = 0; d и f — вектор-столбцы размерности т и k соответственно. Обо- значим F = Р'Р — Р'Х (Х'Х)-1Х'Р; тогда по формуле Фробениуса (П.2) ЕЬ = Х'Х Р'Х (X' Х)-1 + (Х' Х)“»Х' PF^P'X (Х'Х)-1 — (X'X)-1X'PF’1 — F1 Р'Х (Х'Х)"1 F"1 I + (X' X)’1 X' PF1 Р' X — (X' X)-1 X' PF1 Р' X — F’P'XF'PX (2.35) что доказывает несмещенность (2.34). Математическое ожидание оценок «лишних» параметров cp2, ср2, ..., cph рав- но нулю, т. е. они также оцениваются несмещенно. Можно доказать, что оценка (у — Zb)' (у — Zb)/(n — — т — k) является несмещенной оценкой о2. Докажем, что оценка МНК в случае перебора является также состоятельной. Для этого предположим, что матри- ца Z сильно регулярна. Таким образом, накладываем ог- раничение на матрицу дополнительных переменных Р: в пределе лишние переменные plt pk линейно независимы с истинными переменными ~ X' х X' Р Z' Z п п п р' X Р' Р п п *1. ..., Хт. Ан А12 _А]2 А22 = ь, |А|^0 93
при п ->-оо. Найдем сначала предельную ковариационную матрицу «лишних» параметров <р. Учитывая формулу ^2.35), получим F Р'Р Р'X /Х'Х\-!Х'Р . 1А =----------I ---- |----—> А22 А] 2А11 А12, fl —> ОО . п п п \ п J п Корректность этого выражения следует из того, что | Ап |=7^0. Далее, предельная матрица для F/n невырож- дена в силу разложения определителя | А | по формуле (П.З). Таким образом, cov (f) = o2F-1 ->0. Теперь распишем ковариационную матрицу для пара- метров d: —> Ап-]- Аи А12 (А22—- А12 Ап1 А12) Ai2 Au, это также невырожденная матрица, т. е. cov d ->- 0, п -> оо. Итак, вектор b в среднем квадратичном сходится к ис- тинному значению (6, 0)'. Оценка, получаемая в регрессиях с «лишними» незави- симыми переменными, как было показано, обладает по- прежнему рядом оптимальных свойств. Однако точность при переборе теряется. Покажем, почему это проис- ходит. Матрица ковариаций оценки МНК для истинной модели равна о2 (Х'Х)-1, а матрица ковариаций оценки d для модели (2.33) с использованием (2.35) равна: cov (d) = о2 [(X' X)-1 + (X' Х)-1 X' PF-1 Р' X (X' X)-1] = = со v (а) Ц-о2 (X' X)-1X'PF-1P'X(X'X)-1. (2.36) Матрица F неотрицательно определена, так как F = = Р' (In — X (Х'Х)-1Х')Р, где In — X (Х'Х)-1Х' — сим- метричная идемпотентная, а значит, и неотрицательно оп- ределенная матрица. Неотрицательная определенность F влечет и неотрицательную неопределенность второго сла- гаемого в (2.36), т. е. cov (d) cov (а). Нетрудно заметить, что если «лишнее» множество не- зависимых переменных ортогонально истинному набору переменных, т. е. Х'Р = 0, то cov (d) = cov (а). Отсюда можно сделать вывод: если круг основных независимых пе- ременных очерчен, то дополнительные переменные (которые могут оказаться лишними) надо стараться вводить в урав- нение (2.32) так, чтобы они не «коррелировали» сильно с основным множеством переменных. Тогда потери точности 94
при переборе будут незначительны. Наоборот, если лиш- ние переменные сильно сопряжены с исходным множеством переменных xlt х2, •••, хт, то потери точности будут велики (матрица F-1, а значит и cov (d), будет принимать большие значения). Недобор. В этом случае истинным уравнением является (2.32), а мы оцениваем регрессию yt = Ti^ti + + ykwtk + S(, (2.37) или y = WY + |, X = [WV]; другими словами, wr = xt, ..., wh = xk входят в регрес- сию (2.37), а остальные m — k переменных = xk+1, ... ..., vm_h = xm в регрессии отсутствуют. Докажем, что тогда используемая оценка g = (W,W)~1W,y (2.38) в общем случае является смещенной. Действительно, Eg = (W' W)-1 W'Ey = (W'W)-1W'Xa = = (W' W^W'IWV] где а1 и a2 — подвекторы вектора а размерности k и tn — k соответственно. Перемножая члены в последнем равенст- ве, получим а1 а2 Eg-[Is (W'W^W'V] = a1-)-(W/W)-1 W'Va2. (2.39) Поскольку второе слагаемое в уравнении (2.39) отлично от нуля, делаем вывод, что оценка (2.38), т. е. оценка МНК для регрессии с недобором (2.37), является смещенной оценкой подвектора а1. Оценка g будет несмещенной, когда матрицы переменных W и V ортогональны, т. е. W'V = 0. Случай ортогональности является идеальным для двух рассмотренных возможностей: перебора и недобора. Одна- ко на практике независимые переменные сильно сопряже- ны. Если же в планируемом эксперименте мы полностью контролируем значения независимых переменных, то их желательно брать близко к ортогональным. 95
Объясним суть смещения (2.39). Прежде всего заметим, что /-й столбец матрицы (W'W)-1W'V формально является оценкой МНК в регрессии vz = Wt ф- 6. Рассмотрим для примера случай / = 1. Тогда смещение gl равно 2/;а2г, где t — первая вектор-строка матрицы (W'W)-1W 'V, а tt — оценка МНК неизвестной тх в предыдущей регрессии. Ничего нет удивительного в том, что оценка МНК в рег- рессии с недобором является смещенной: неучтенная часть уравнения регрессии равномерно распределяется в оценке g с помощью «довесков». Суть этих «довесков» — регрес- сия неучтенных факторов на учтенные (2.37). Теперь сравним, какая из оценок — g или b — явля- ется более приемлемой с точки зрения точности оценивания истинного параметра а. Поскольку d несмещенно оценивает а, то Е (d—a) (d—«)' дается выражением (2.36). В ка- честве оценки а в регрессии (2.37) фактически выбирается - Г g] g = 0 , поэтому Е (g —a)(g—a)'= = ‘Е (g —a1) (g —a1)' —(Eg—a1) a2 —a2 (Eg —a1)' a2a2' Ho g = (W'W)-1W'Xa + (W'W)-1W,£ = Eg + (W' W^W'e, поэтому E(g—a1) (g—аУ = Е [(g —Eg) + (Eg—a1)] X X [(g —Eg)'4-(Eg —a1)'] = o2 (W'W)-14- + (W' W)-1 W' Va2a2' V' W (W' W)-1. Окончательно E(g—a)(g—a)' = '<t2(W' W)“1 + (W' W^W' Va2a2' V' W(W' W)"1 = — (W' WfiW' Va2a2' a2 a2' V' W(W' W)-1 a2 a2'. (2.40} Сравнивая эту матрицу с матрицей (2.36), делаем вывод: в общем случае нельзя утверждать, что (2.36)меньше или больше (2.40). Например, если а2 = 0, то легко видеть, что разница между (2.36) и (2.40) будет положительно опреде- 96
лена. Значит, если а2 достаточно близко к 0, то оценка g предпочтительнее. Наоборот, приое2->оо матрица (2.40) неограниченно возрастает и оценка b лучше. Таким обра- зом, единственное, что можно утверждать, это то, что в не- которой окрестности ое2 = 0 (2.38) лучше (2.34), вне этой окрестности наоборот (2.34) лучше (2.38). Здесь наблюда- ется такая же ситуация, как в параграфе 1.4. Для любой несмещенной оценки можно найти тривиальную смещен- ную оценку, которая в некоторой окрестности неизвестно- го параметра будет лучше несмещенной. Докажем, что оценка МНК в случае недобора является несостоятельной. Доказательство для простоты будем про- водить в условиях сильной регулярности матрицы X. Итак, предположим X' X п Тогда Таким образом, ) ВДВ12а2а2 —а2 а2' В12 (W' W)-1 W' Va2 а2' V' W (W' W)-1 = /W'W\-1W'V , „'V'W/W'W\-1 ----- -----а2 а2 --- ---- -> \ п / п п \ п } ВД в12а2 а2' в;2 ВД ^0. E(g—а) (g~ «)'-> В(2 ВД — ВДВ12а2а2' Д а2 а2' при п -> оо и оценка g не состоятельна. Подведем итоги: в случае перебора оценка МНК теря- ет в эффективности, зато остается несмещенной и состоя- тельной; в случае же недобора оценка МНК является сме- щенной и несостоятельной. По изложенным выше причи- нам недобор считаем более существенной ошибкой специ- фикации, чем перебор, так как он ведет к более тяжелым по- следствиям. Проблема оптимального выбора множества независи- мых из данного набора переменных исследуется в [114, 93, 157, 182, 28,]. 4 Зак. 2067 97
В качестве показателя правильности выбора множества переменных в [61] предлагается брать статистику ха. Ре- зультат основывается на следующем: пусть, как и ранее, (2.32) будет истинной моделью, тогда как мы предполагаем, что модель имеет вид: y = Qt + l, (2.41) где Qn4 т/*1, Е| = 0. 2 | Строим оценки хт = (у — Qt)' (у — Qt) и s“ = п~т & ~ Ха) (У ~ Ха)> гДе * и а — оценки МНК для регрессий (2.41) и (2.32) соответственно. Показано, что Ext Esa. Поэтому для неправильно специфицированных моделей в среднем оценка хт будет больше, чем для правиль- но специфицированных (см. также [52]). Изложенный резуль- тат может быть применен к частным случаям неправильно специфицированных моделей: перебору и недобору. И в том, и в другом случае оценка Хт будет (в среднем) больше оценки Ха. 2.5. Псевдонезависимые регрессии До сих пор мы имели дело с оцениванием одной регрес- сии. Часто требуется оценить одновременно несколько регрессий, некоторое семейство их. Совокупность таких регрессий будем называть псевдонезависимыми регрессиями (seemingly unrelated regressions). Этот термин был впервые введен А. Зеллнером в [197], откуда и начинается сис- тематическое изучение псевдонезависимых регрессий. Псевдонезависимыми считаем регрессии потому, что, во- первых, независимые переменные могут одновременно вхо- дить сразу в несколько регрессий; во-вторых, отклонения разных регрессий могут коррелировать. В то же время псев- донезависимые регрессии отличаются от эконометрических моделей (синхронных регрессий), поскольку зависимые пе- ременные в первом случае присутствуют только в левых частях уравнений. Псевдонезависимые регрессии допускают применение МНК к каждому уравнению регрессии в отдельности. Од- нако в данном случае такой метод не будет эффективным в классе несмещенных линейных оценок. Дело в том, что от- клонения в псевдонезависимых регрессиях в общем случае 98
коррелируют для разных уравнений, поэтому оценка Эйт- кена является более эффективной, чем МНК- Ранее (см. параграф 2.1) метод Эйткена был практически неприменим из-за отсутствия весовой матрицы или ее оценки. В слу- чае псевдонезависимых регрессий удается построить состоя- тельную оценку этой матрицы, использование которой приводит к стохастическому эквиваленту оценки Эйткена — оценке Зеллнера. Естественным обобщением оценки Зел- лнера является итеративная оценка Зеллнера s-ro порядка, которая по своей природе близка к оценке ММП в предпо- ложении нормальности отклонений. Не всегда исследование свойств оценок псевдонезави- симых регрессий проводилось на достаточно строгом уров- не. Многие предположения опускались, использовалось большое число недоказанных результатов (см., например, [197]). По возможности мы старались доказательства де- лать наиболее полными, а утверждения формулировать строго. Итак, пусть имеется k линейных регрессий уг = Х;а; + вг, i = 1, ..., k, (2.42) гдеу"х1, Х"х'\ e"xl—соответственно вектор за- висимой переменной, матрица независимых переменных, вектор неизвестных параметров, подлежащий оцениванию, вектор случайных отклонений. Систему (2.42) будем назы- вать системой псевдонезависимых регрессий. Относительно Хь a;, &i всюду в дальнейшем будем предполагать, что: а) Xj — детерминированные матрицы, rank Xf = б) щ £ 0j — априорное множество параметров совпадает с Rmt ; в) Ее; = О, EetietJ = EEtieti = 0, t =/= т. Предположение в) влечет стохастическую зависимость регрессий системы (2.42). Если через е' обозначить вектор- столбец отклонений, соответствующий номеру наблюдения или моменту времени t и составленный из отклонений систе- мы (2.42), то cov (в') = Оой1. Естественно, мы считаем | й | 0. Таким образом, необходимо оценить дополни- тельно k (k 4* 1)/2 неизвестных параметров. Система (2.42) может быть сведена к одной регрессии. Для этого построим новые векторы и матрицы размерности 1В целях идентифицируемости будем считать, что по заданной матрице можно единственным образом найти и так, ЧТОбЫ Одй = Т. 4* 99
1 соответственно, где т = X 1, nk X т, kn X 1 и т X k «1 <х2 XftJ L«ft J в виде у = Ха + 8. Легко видеть, что rank X = т, а g 0 Найдем матрицу ковариаций вектора е. По определе- нию имеем Система (2.42) перепишется (2-43) = Rm и Ее = 0. О cov (в) = Еее' = Е fl е2 [е( £2 ... £/г] = '«ц1 81 8! £1 п Ю12 ‘л = оо Ik, J 8х82 ... 8i 8ft" ,8й82 ... 8fe 8^ • (ol/i In = о§(Й®1„), = Е _ю/>1 Ei ®/<2 ы/ к Ei. где ® — знак кронекерова произведения матриц (см., на- пример, [9]); 1п — единичная матрица п X п. Если матрица й известна, то, применяя обобщенный метод наименьших квадратов, придем к оценке Эйткена, которая является несмещенной и линейно эффективной (параграф 2.1)1: Ь = [Х'(Й®1)-1Х]-1Х'(й®1)-1у = = [Х' (Й-ЭДХНХ'ф-1®!^. (2.44) ’Воспользуемся следующим свойством кронекерова произведе- ния: (А ® В) '1 = А-1 ® В-1 [9]. 100
Оценка МНК для составной регрессии (2.43) также явля- ется несмещенной, но уже не будет эффективной: а = (Х'Х)-1Х'у, (2.45) Легко проверяется, что "Х{ Хх X' X = О и поэтому ~(X'Xx)-i (Х'Х)-1 = О Тогда (2.45) переписывается следующим образом: Другими словами, оценка (2.45) совпадает с оценкой МНК, примененного к каждому уравнению системы (2.42) в от- дельности. При некоторых условиях оценка Эйткена (2.44) совпа- дает с оценкой МНК (2.45), как показано в [96]. Ясно, что эти оценки будут совпадать, если Я = 1Й, т. е. когда кор- реляции между разными уравнениями регрессий отсутст- вуют. В этом случае, применяя МНК к каждому уравне- нию (2.42), получаем несмещенные линейно эффективные оценки. Однако существует другая нетривиальная ситуа- ция, когда а = Ь. Покажем, что если все матрицы Хг совпа- 101
дают, то а = b. Итак, пусть Х; = ZnX'”>, i = 1, ..., k. Преобразуем сначала оценку МНК1: a = [(I®Z)'(I®Z)]-1(I®Z)'y = [I®(Z'Z)]-1 (I®Z')y = = [I®(Z'Z)-1](I®Z') у = [I®(Z'Z)-1 Z']y. Распишем оценку Эйткена: Ь= [X/ (Й-^ХНХ'ф-1®!^ = [(I®Z)'(Q-1®I)(I®Z)]-1 (I®Z)' (Й-1®1)у = = [(I®Z') (Й-i® I) (I ® Z)]~3 (I®Z') (Й-1® I) у = = [й-1®г') (I ® Z)]-1 (й-*®г' у) = = [й-!®(г' Z)-1] (й-!®г' у) - [й®(г' z)-i] (й-^z' у) = --[W'Z^Z'ly, что совпадает с оценкой а. Таким образом, если матрицы Хг одинаковы во всех регрессиях, то оценка МНК, эффектив- на. Как правило, матрица Й неизвестна. Однако в случае псевдонезависимых регрессий можно построить весьма удовлетворительную оценку для Й. Пусть а; = = (Х;'Хг)_1Х/у; — оценка МНК параметра аг. Обозначим ег = уг-Х;аг = (1п-Хг(х; Х^Х/)^, г = 1, k. Положим 0f0i.=JL е; е. = ± (1п-хг (х; хг)-г X/')' х х(1п-хдх; x^x;)Ej. (2.46) Можно доказать, что при весьма слабых предположе- ниях оценка матрицы о^Й на основе (2.46) является состоя- тельной. При этом мы не будем накладывать на матрицу X каких-либо ограничений при п Теорема 2.8. Допустим, отклонения eti для разных t независимы и имеют конечный четвертый момент v4. Тог- да оценка (2.46) является состоятельной оценкой о^Й в смысле сходимости в среднем квадратичном. Доказательство теоремы дано в [23]. воспользуемся следующими свойствами кронекерова произве- дения: (А ® В)' = А' ® В' и (А ® С) (В ® D) = АВ ® CD (см. [9]). 102
Состоятельную оценку Й можно подставить в формулу (2.44). Соответствующую оценку будем называть оценкой Зеллнера: 2 = [Х,(Й®1Г1Х]‘1Х'(Я®1)-1У. (2-47) Получив оценку Зеллнера, можно по аналогии построить целый класс оценок неизвестного вектора параметра а, которые назовем итеративными оценками Зеллнера s-ro порядка; этй оценки строятся рекурсивно: пусть zs-1 — итеративная оценка Зеллнера (s— 1)-го порядка; построим на ее основе оценку <г„Й: о^-Чу.-Х^УЬ-Х^-1), (2.48) п тогда zs определим как zs = [X' (&-1QI)’1 X]-1 X' (Й*~1 QI)-1 у, (2.49) где Й3-1 рассчитывается по формуле (2.48); z° примем за оценку МНК; z1 — оценка Зеллнера (2.47). Теоретически процесс можно продолжать до бесконечности. Если предел zs, s-^- оо существует, назовем его итеративной оценкой Зеллнера z°°=limzs. (2.50) S->OO В работе [23] доказано, что при выполнении условия Эйкера оценка Зеллнера состоятельна и что оценки (2.49) будут состоятельны, если матрицы Хп сильно регулярны. При этом условии может быть доказана асимптотическая нормальность оценки Эйткена, итеративной оценки Зел- лнера zs и оценки z°° [64, 197]. Если закон распределения отклонений с точностью до матрицы ковариаций известен, то возможно применение метода максимального правдоподобия. Предположим, что 8 — нормально распределенные случайные векторы, т. е. 8f ~ N (0, а’ Й). Обозначим S = (о^Й)-1, тогда, как не- трудно проверить, функция плотности распределения век- тора у запишется: _ nk f (у; a, S) = (2л) ~ | S® 1„ |1 /2 exp J-~ (у — Ха)' X X (S0I) (у—Ха) . 103
Оценка ММП соответствует максимуму f (у; a, S), т. е. ми- нимуму функции р (у; a, S)=(y—Ха)' (S®I) (у — Ха) — п In | S | = = 8'(S®I)8—п 1п |S|. (2.51) Объясним, что мы понимаем под аргументом функции р. Матрица S представляется набором k (k + 1)/2 чисел, т. е. вектором из 7?*<й+1)/2. обозначим через Е a. Д*(Н-1)/2 мно- жество тех векторов, которые соответствуют положительно определенным матрицам. Общий вектор-аргумент 0 функ- ции р принадлежит F = Rm X £ с £m+ft(®+1>/2. Можно по- казать, что F — открытое множество. Минимизация функции (2.51) почти наверное корректна. А именно функция (2.51) ограничена снизу почти для всех 8 (см. задачу 6 упражнения 2.5). Однако можно показать, что эта функция не является выпуклой вниз, поэтому мини- мизировать ее необходимо с определенной осторожностью (см. приложение П.З). Необходимым условием обращения (2.51) в минимум в некоторой точке является равенство нулю в этой точке производных р по а и S. Легко проверить, что = = 2Х' (S ® I) Ха — 2 X' (S ® I) у (приложение П.2). Далее очевидно, что ГО 0~ a(s®i) = — dSjj । _0 / 0_ где — единичная матрица, расположенная в (i, /)-блоке. Имеем др , v ,, д (S®I) , v . д In | S I —— -- (у—Ха) —1~ (у—Ха) — п------------. dSij u dsi} dsi} Но по формуле (П.9) S1 = (S-1)f7, поэтому с учетом (2.52) dpldSij = (yt — Xt a;)' (yt — X, a})—nSij1 = = (уг —X; аг-)' (y7—Хуа,-) —штоЙгг (2.53) Допустим, значение S = известно, тогда, прирав- нивая dp/da к нулю, получаем оценку a=[X' (S<8>!) X]"1 X' (S®I)y. (2.54) 104
Обратно, если а известно, то, приравнивая (2.53) к нулю, найдем aloQlj^--^-(yi—Xl а,)'(уу—- Х;а;). (2.55) На нулевом шаге итерационной процедуры в качестве приближения можно взять оценку МНК, по ней построить по формуле (2.55) оценку ajfl, затем снова найти оценку (2.55) и т. д. Процедуры (2.54) и (2.55) полностью совпадают с итеративной оценкой Зеллнера s-ro порядка, а предел, если он существует, равен z°°. Естественно встает вопрос о сходимости итеративной процедуры (2.54) и (2.55) к оценке ММП. Если бы функция (2.51) была выпуклой вниз, то сходимость установить было бы нетрудно. Однако это не так. Поэтому вместо сходимости zs к глобальному минимуму функции (2.51) можно говорить лишь о сходимости точек, градиент в которых равен нулю. Доказательство того, что если z°° существует, то это значе- ние удовлетворяет уравнению dp/dfi = 0, дано в [168]. Доказано [172], что найдется такая окрестность истин- ного вектора параметров а, что почти для всех у существует п= п (у), начиная с которого последовательность zs сходит- ся к оценке ММП, если начальное приближение лежит в вы- бранной окрестности а. До сих пор мы рассматривали асимптотические свойства оценок, наибольший интерес из которых представляет оцен- ка Зеллнера z. Остановимся на свойствах оценки z при конеч- ных объемах выборки. Единственное, что доказано в общем случае, это несмещенность оценки Зеллнера при условии, что 8 имеют симметричное распределение (см. [142]). Этот факт доказывается весьма просто: оценку (2.47) можно пере- писать как z = [X'(Q® I)-1 Х]-1 Х'(Й® I)’1 Хаф- + [Х'(й® I)"1 X]-1 Х'(й® 1)8 = = а + [Х'(й® I)-’ ХГ1Х'(42® О^в. (2.56) В силу симметричности распределения 8 второе слагае- мое в (2.56) также симметрично распределено, а значит, Ez = а. Осталось показать, что Е {[Х'(Й® О^Х^Х'ф® I)’1) <оо. 105
Обозначим случайную матрицу, стоящую под знаком ма- тематического ожидания, через А. Тогда АХ = I и (ЕА)Х = = I. Поэтому все элементы матрицы ЕА конечны, так как в противном случае не было бы выполнено тождество (ЕА)Х = = I. Других свойств z, доказанных в общем случае, найдено не было. В работах [175,164, 198] исследуется система псевдонеза- висимых регрессий для случая k = 2. В [175] разбирается частный случай, когда Хх является подматрицей Х2. Более того, берется так называемая «оценка <гД2 без ограничений», т. е. iji регрессирует на множество всех х системы (2.42). Оценка (2.46) является оценкой <ДЙ с учетом ограничений. Первую оценку Я обозначим £2, а соответствующую оценку Зеллнера — через z. Далее предполагается нормальность отклонений. При сделанных предположениях доказано, что оценка z2 (т. е. оценка Зеллнера для второго уравнения) совпадает с оценкой МНК а2, в то же время #= alf т. е. zx является линейно эффективной оценкой. Основной ре- зультат, полученный в [175], состоит в том, что если р2 > > 1/(п — 1), то оценка zx более эффективна, чем аг Наобо- рот, при малых значениях р оценка МНК может быть эф- фективнее оценки Зеллнера. Полученный результат можно было предугадать. При уменьшающихся значениях р оценка МНК приближается к линейно эффективной, а в условиях «нормальной» гипотезы — к эффективной несмещенной оценке. Аналогичное исследование проведено в [164]; там при- няты те же предположения, что и в [175], но не считается, что Хх является подматрицей Х2, а рассматривается общий случай. Результаты, полученные этими авторами, также похожи на результаты [175]: при малых |р| более эффек- тивен МНК, при высоких |р| — метод Зеллнера. Кроме значения р, на сравнительную эффективность МНК и ме- тода Зеллнера оказывает зависимость между независимыми переменными в первом и втором уравнениях. В качестве ко- эффициента зависимости между Ххи Х2в [164] предложено брать характеристические числа матрицы Х[Х2 (Х2Х2)-1Х X ХгХ! (XiXj)"1. Можно показать, что 0 ^7 X; Х7 1. В [199] показано, что Х; — квадраты коэффициентов канониче- ской корреляции между Хх и Х2. В [164] приведена таб- лица, с помощью которой для значений п = 3,5,9, 13 и 23 для различных значений р и X можно вычислить относитель- 106
ную эффективность оценки МНК по отношению к оценке z. Например, оказывается, что если 13 + К п <1 23 + К, где Д' — общее число независимых переменных, и |p|i> 0,5 и Хг- <1 0,7, то оценка z заметно эффективнее оценки МНК; с другой стороны, если | р | <0,5 или > 0,7, то вы- игрыш будет либо равен нулю, либо незначителен. Для ма- лых выборок, т. е. если 3 + К<п<13 + К, область «неэффективности» z весьма широка: |р| <1 0,8. Оконча- тельный вывод, к которому приходят авторы, следующий: если | р | > 0,3 и п — К 23, то предпочтительнее вы- бирать z, а не оценку МНК; если | р |<0,3, эффективность z будет не высока по сравнению с а; при малых выборках z будет по-прежнему более эффективна, если ] р | достаточ- но велико, а близки к нулю. В [198] рассматривается другой частный случай, когда экзогенные переменные в разных уравнениях ортогональны друг другу, т. е. Х'Х2 = 0. В этом случае = 0, поэтому рассмотренная там ситуация является наиболее благоприят- ной для оценки z. Там же табулируется функция сравни- тельной эффективности z для разных значений р= со12/ /VС0ий)2г И п. В работе [147] проведено тщательное исследование мето- дом Монте-Карло конкурирующих оценок псевдонезависи- мых регрессий: оценки МНК, оценки Зеллнера, итератив- ной оценки ММП. Авторы рассмотрели 4 модели: первая модель состояла из двух уравнений, вторая — небольшая модификация первой, третья — из четырех уравнений и пятая — из двух уравнений, где в качестве некоторых неза- висимых переменных рассматривались независимые пере- менные с лагом. Кроме этого было выбрано 10 различных спецификаций для случайных отклонений. Например, в од- ной из спецификаций ОдСОц = = 1, для первой, вто- рой и четвертой моделей р (е1, е2) полагался равным 0,925 и 0,6; для третьей модели — 0,941; 0,640 и 0. В других спе- цификациях (0и =0= со22. Основной вывод, к которому пришли авторы, следую- щий: оценка Зеллнера, итеративная оценка Зеллнера и оценка ММП оказались практически одинаковыми. По этой причине предпочтительнее оценка Зеллнера, как наи- более простая из трех оценок. Оценка МНК оказалась менее эффективной, чем оценка Зеллнера для большинства экспериментов. 107
Упражнения 2. 5 1. Докажите, что если условие а) (см. с. 99) выполняется, то ранг составной матрицы X равен т = imt. 2. Используя теорему 2.5, докажите, что если матрица незави- симых переменных одна и та же для всех регрессий системы (2.42), то оценка Эйткена и оценка МНК совпадают. 3. Докажите состоятельность (2.46) при условии сильной регу- лярности матриц X,. 4. Докажите, что Xmln (XzX j) —> оо для всех I =. 1, ...; k влечет Лга1п (XX') -> оо. Верно ли обратное? 5. Докажите, что матрицы ХЕ-, i = 1, ...; k, сильно регулярны тогда и только тогда, когда матрица X сильно регулярна. 6. Найдите условия ограниченности снизу функции (2.51). На- чать со случая k— 1. 7. Докажите, что функция (2.51 ) не является выпуклой вниз функцией. (Сведите функцию (2.51) к функциям одного аргумента, для которой затем найдите вторую производную — см. приложе- ние П.З.) 2.6. Вычислительные трудности МНК Оценка МНК является решением системы нормальных уравнений Х'Ха = Х'у. (2.57) Таким образом, вычисление оценки МНК соответствует решению системы линейных уравнений. В настоящее время число методов решения линейных систем очень велико, ис- следованы свойства этих методов, разработаны многочис- ленные программы. В регрессионном анализе вычисляет- ся не только оценка МНК, но и ее матрица ковариаций о2 (Х'Х)-1. Поэтому задачу нахождения а в системе (2.57) целесообразно решать обращением матрицы плана Х'Х, что ведет к отысканию эффективного алгоритма обращения сим- метричной матрицы. Основные трудности МНК возникают, когда матрица плана плохо обусловлена. В параграфе 6.1 введены меры плохой обусловленности матрицы Х'Х. Под плохой обусловленностью матрицы можно понимать, напри- мер, близость ее определителя к нулю. Показателем обус- ловленности служит также отношение максимального ха- рактеристического числа (х.ч.) матрицы к минимальному (см. [165]), т. е. х (Х'Х) = Xmax (Х'Х)Ат1и (Х'Х). (2.58) Чем больше отношение (2.58), тем хуже обусловленность мат- рицы Х'Х. Вычисление обратной матрицы, производится ли оно вручную или на ЭВМ, несет на себе ошибки округле- 108
ния промежуточных результатов. В [165] показано, что чем хуже обусловленность матрицы (Х'Х), тем сильнее ошибки округления влияют на конечный результат (Х'Х)-1. Это заставляет плохо обусловленные матрицы обращать с большим количеством знаков в промежуточных вычисле- ниях. Часто точности в 8 знаков не хватает для нахождения хорошего приближения оценки МНК в регрессиях. Так, уже при расчетах оценки МНК в параболическом тренде yt = аК2 + a.2t + аз + ег (2.59) на ЭВМ с обычной точностью (8 знаков) результаты оказы- ваются очень грубыми. Только счет с двойной точностью (16 знаков) позволяет найти приемлемое приближение к ис- тинной оценке МНК на ЭВМ. Проверка различных программ, реализующих МНК> дана в [154]. Рассмотрена линейная регрессия от семи фак- торов: у — общее число занятых в экономике США (тыс. чел.); Xj — дефлятор (индекс) цен (%); х2 — валовой нацио- нальный продукт (млрд, дол.); х3—общее число безработ- ных (тыс. чел.); х4 — число военнослужащих (тыс. чел.); х5 — неработающее население от 14 лет (тыс. чел.); х6 — год; i'jsl.B табл. 2.1 приведены статистические данные регрессии Дж. Лонгли [154]. Расчеты проводились на раз- ных ЭВМ по разным алгоритмам. Часто результаты, т. е. Таблица 2.1 У Х2 *3 X 5 хв 60323 83,0 234,289 2356 1590 107608 1947 61122 88,5 259,426 2325 1456 108632 1948 60171 88,2 258,054 3682 1616 109773 1949 61187 89,5 284,599 3351 1650 110929 1950 63221 96,2 328,975 2099 3099 112075 1951 63639 98,1 346,999 1932 3594 113270 1952 64989 99,0 365.385 1870 3547 115094 1953 63761 100,0 363,112 3578 3350 116219 1954 66019 101,2 397,469 2904 3048 117388 1955 67857 104,6 419,180 2822 2857 118734 1956 68169 108,4 442,769 2936 2798 120445 1957 66513 110,8 444,546 4681 2637 121950 1958 68655 112,6 482,704 3813 2552 123366 1959 69564 114,2 502,601 3931 2514 125368 1960 69331 115,7 518,173 4806 2572 127852 1961 70551 116,9 554,894 4007 2827 130081 1962 109
оценки МНК, отличались не только первыми и вторыми значащими цифрами, но и знаками. Даже вычисления с двой- ной точностью не приводили к удовлетворительному резуль- тату. Истинное значение оценки МНК для дашной регрессии удалось получить с помощью специального настольного калькулятора, работавшего с 40 значащими цифрами. Оце- ненная регрессия на этом калькуляторе имела следующий вид у = 15,0619 ху — 0,0358 х2— 2,0202 х3 — 1,0332х4— — 0,0511 х5 + 1829,15 х6 — 3482258,635. (2.60) В большинстве программ, рассмотренных Дж. Лонгли, мат- рица плана вычислялась по формуле 1 (Х'Х),-; =2(Мг— Xi){xtJ— Xj). (2.61) При переходе к эквивалентной записи (X X)jy = S Xfi Xfj tlXj Xj удалось число верных значащих цифр в оценке МНК уве- личить в некоторых случаях на две. Как мы уже говорили, вычислительные трудности МНК связаны с обращением матрицы плана. Обращению матриц посвящена обширная литература (см., в частности, [68]). Существует много методов обращения матриц. Лонгли об- наружил, что в регрессионных задачах лучше работает ал- горитм ортогонализации Грамма — Шмидта, в частности алгоритм обращения матриц, основанный на исключении по Гауссу. Основной причиной расхождения результатов для разных алгоритмов и ЭВМ Лонгли считает то обстоятельст- во, что алгоритмы обращения матриц, реализованных на ЭВМ, предназначены для ручных вычислений или с приме- нением калькуляторов. При переходе на ЭВМ алгоритмы теряют свою эффективность. Часто исследователь не подозревает, что «машинное ре- шение» неверно. Хорошим индикатором правильного реше- ния в случае регрессий со свободным членом является сум- ма отклонений регрессии 2ег, где et = yt — агх(1 — ...— — amxtm. Как следует из параграфа 1.6, эта сумма должна быть равна нулю. Если значение отличается от нуля достаточно заметно, то регрессия оценена неверно. Однако ’Имеются в виду регрессии со свободным членом. ПО
равенство нулю Set еще не означает, что регрессия оценена правильно. Часто для проверки правильности решения бы- вает полезно поменять местами независимые переменные и сравнить результаты. Решения будут содержать меньшие ошибки, если матрицу плана перед обращением привести к корреляционной, т. е. вычисления производить с мат- рицей (Х'Х)г;/|Л(Х'Х)гг (Х'Х);;. Этот метод будет наиболее эффективен, если независимые переменные имеют разные масштабы измерения. Результаты, полученные Дж. Лонгли, а также практика автора показывают, что к полученным с помощью ЭВМ оцен- кам МНК, особенно для многофакторных регрессий, сле- дует относится осторожно, не делая скоропалительных выводов. В любом случае вычисления следует проводить с двойной точностью. В работе [84] вновь обращено внимание на регрессию Лонгли (2.60). Был поставлен следующий вопрос: является ли решение Лонгли, проведенное с 40 значащими цифрами, в действительности удовлетворительным? Авторы [84] спра- ведливо заметили, что поскольку данные представляют собой результат округления и если хи = 83, то истинное значение хп вполне может находиться в интервале (82,5; 83,4). Аналогичное замечание верно для всех независимых переменных 4- х5. Авторы просчитали 1000 регрессий. В каждом варианте значения независимых переменных х2 4- 4- х6 отличались от опубликованных (табл. 2.1) на случай- ную величину с равномерным распределением в разряде, следующем за истинным значением. Так, для хп значение независимой переменной выбиралось на интервале (82,5; 83,499). Результаты 1000 регрессий превзошли все ожида- ния. В табл. 2.2 приводится выдержка табл. 4 из [84]. Как видим, средние значения 1000 регрессий далеки от «истин- ных» значений, найденных Лонгли. Значения оценок МНК лежат в очень широких границах. Результаты испытаний говорят сами за себя. Регрессию (2.60) нельзя считать удов- летворительной. Вероятно, регрессию Лонгли вообще не имеет смысла оценивать методом наименьших квадратов, так как в данных присутствует мультиколлинеарность. Идея проверки регрессии на устойчивость относительно ошибок округления, примененная в [84] к регрессии (2.60), заслуживает внимания. Аналогичные расчеты могут быть проделаны для любой другой регрессии. Для каждого чис- ла (конечной десятичной дроби) N может быть указан ин- тервал чисел, каждое из которых после округления дает 111
Таблица 2.2 Статистика ct2 а3 «4 «5 «6 сс7 Регрессия Лонгли 15,0619 —0,0358 —2,0202 —1 ,0332 —0,0511 1829,15 —3482258 Средняя оценок —26,4404 0,0344 -0,9637 —0,2804 —0,2804 637,098 — 1152648 Стандартное откло- нение 59,7 0,024 0,351 0,15 0,161 326 637918 Нижняя граница —232,3 —0,089 —2,423 —1 ,326 —0,939 — 1707 —3483281 Верхняя граница 237,0 0,196 1 ,767 0,363 0,481 1800 3452563 Процент соответст- вия1 2 3.9 0,7 6,4 94,6 0,9 1 plim —32,455 0,0449 —0,8104 —0,6794 —0,3148 460,01 —806545 1Т. е. процент регрессий, у которых оценка совпадает с оценкой Лонгли в первом знаке.
число N. Так, если N = 25,3, то таким интервалом будет [25,25; 25,35). Аналогичный интервал может быть построен для каждого хц, t = 1,..., п, i = 1, ..., т. Таким образом, матрице независимых переменных X соответствует целое множество матриц, каждая из которых после округления дает X. Обозначим это множество Г — множество матриц п X т. На место оценки ах = (Х'Х)-1 Х'у приходит семей- ство оценок ах, X £ Г. Вообще говоря, матрица X равно- правна с любой другой матрицей из Г, поэтому имеет смысл найти минимальные и максимальные координаты оценки МНК при X g Г. Итак, обозначим через йг i-ю координа- ту оценки МНК, тогда можно определить пипаДХ), тахаг(Х), 1=1,..., т. (2.62) хсг хег Вообще говоря, можно найти более общее множество а (Г) = {а е Rm : а = (X' X)-1 X' у, X £ Г}. (2.63) Прежде всего необходимо выяснить, существует ли матрица Xg Г, для которой rank X < т. Ясно, что если такая матри- ца существует, то оценка МНК будет некорректной. Далее, если для всех X £ Г rank X = т, могут быть найдены зна- чения (2.62). Однако отыскание этих значений весьма слож- но. Для их приближенного определения можно применить процедуру статистических испытаний: случайным образом отбирать X g Г и вычислять значения (2.62). Минималь- ное значение i-й координаты оценки МНК по всем испыта- ниям соответствует min at (X), максимальное значение — ХеГ max at (X). Эта процедура может служить хорошей провер- Х^Г кой устойчивости оценки МНК по матрице независимых переменных. Перейдем к определению эффекта от округления значе- ний независимых переменных. В [84] введен «индекс возму- щения» (perturbation index) следующим образом. Пусть, как и прежде, матрица X — матрица независимых перемен- ных регрессии. На основе имеющейся матрицы X будем образовывать новые матрицы Z = X + Л, так что после округления матрица Z превращается в X, Л — матрицу от- клонений, причем ЕЛ = О, — ЕЛ'Л= D = п <*1 о О 113
Пусть имеется k матриц Z;. Обозначим — составные матрицы независимых и зависимой перемен- ных размерности nkXni и nkxl соответственно. Найдем а. = (Z' ZJ-1 Z' уф = [ЛX' X + X' 2 Л/ + I + 2 Л/ х -|- 2 л i 1 Г /с х у 2 л,- у . , SA; Найдем вероятностный предел а*: plim a* = plim Х'ХЦ-Х'-^-Ч fe->oo k SA/ SA/A, --L.;_—f--- k k SAt k SA/ X y+plim—— у k k Г SA/ 1 Г X X' у H-------у = X' X + X' plim k SA/ , SA' A, + plim-----X-J-plim-------- k k = (X'X + D)-iX'y в силу закона больших чисел. Тогда a—plima# = [I —(I + (XZ X)-1D)-1]a. (2.64) Ясно, что чем ближе матрица (Х'Х)-1 D к нулю, тем мень- ше будет разность (2.60), т. е. тем менее будет отличаться а от а*. Индексом возмущения авторы [84] назвали след мат- рицы (Х'Х)-1 D, т. е. PI = tr (X' X)-1 D. (2.65) Если регрессия устойчива к округлениям независимых пере- менных, то PI должен быть близким к нулю. Для регрес- сии (2.60) индекс (2.61) был равен 2,98. С окончательным выводом авторов [84] о том, что вычис- лительная программа часто является далеко не самым важ- ным фактором при вычислении регрессий, в некоторых слу- чаях целесообразнее вообще отказаться от вычислений, нель- зя не согласиться. Часто ошибки в данных на порядок вы- ше ошибок, привносимых программой. Для устойчивых рег- рессий даже самые плохие программы давали хорошие ре- зультаты. Одним из примеров, когда необходимо вообще отказаться от вычислений по методу наименьших квадра- тов, как показано в [84], является регрессия Лонгли.
Часть вторая АЛЬТЕРНАТИВНЫЕ СХЕМЫ И МЕТОДЫ ОЦЕНИВАНИЯ Глава 3 РЕГРЕССИЯ КАК УСЛОВНОЕ МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ 3.1. Основные предположения В первых двух главах независимые переменные считались детерминированными. В качестве независимых переменных выступали либо контролируемые, управляемые величины, которые задавались экспериментатором — регрессии управ- ляемого эксперимента, либо функции номеров наблюдений— регрессии-тренды. В этой главе будем считать зависимые, и независимые переменные случайными (стохастическими). В математической статистике под регрессией случайной ве- личины у на случайную величину х понимают условное ма- тематическое ожидание Е (у!х). В смысле этого определения модель (1.1) нельзя считать регрессией. Правильнее было бы назвать ее линейной моделью математического ожида- ния (не условного). Однако в силу традиций и установившейся терминоло- гии модель (1.1) была названа регрессией. В данной главе мы будем изучать модель условного математического ожи- дания, т. е. термин «регрессия» будем употреблять в кор- ректном смысле. Итак, примем следующие предположения: Предположение Д'. X — случайная матрица. Предположение Е'. rankX=m с вероятностью 1. Предполагаем также, что условное математическое ожи- дание у при заданном X есть линейная функция, неизвест- ная с точностью до коэффициентов а = (а1( ..., ат)' ЕТ?"1: Е (у/Х) = Ха. Схема «математической регрессии» обхо- дится без введения отклонений е, поэтому предположение В здесь излишне. Предположение Г необходимо перепи- сать в терминах условного математического ожидания. 115
Предположение Г". Ковариационная матрица у при фиксированной матрице X имеет вид а21п, т. е. cov (у/Х) = Е{(у - Ха) (у - Ха)7Х) = а21п. Итак, в данной главе считаем предположения А, Б (па- раграф 1.1), Г", Д' и Е' выполненными. Распределение матрицы X может быть известно или не- известно с точностью до конечного числа неизвестных па- раметров. 3.2. Свойства оценки МНК Прежде всего в схеме регрессии Е (у/Х) = Ха (3.1) изучим свойства оценки метода наименьших квадратов а = (Х'Х)“1Х'у. (3.2) Предположение Е' позволяет утверждать, что оценка (3.2) существует почти наверное, т. е. с вероятностью 1. Для дальнейшего исследования свойств оценки МНК нам понадобится следующая формула. Пусть х и у — две слу- чайные величины и z = z (х, у) — третья случайная вели- чина, которая является их функцией. Тогда Е z (х, у) = Ех {Е (z (х, у)/х)}. (3.3) В фигурных скобках стоит условное м. о. z при фиксирован- ном х. Для получения м.о. (безусловного) случайной вели- чины z необходимо взять м. о. (безусловное) Е (z (х, у)/х) функции х. Доказательство (3.3.) для абсолютно непре- рывных функций плотностей х и у приводится в параграфе 3.4. Очевидным образом формула (3.3.) переносится на многомерный случай. Докажем несмещенность оценки МНК- Применяя много- мерный аналог формулы (3.3), получим Еа = Ех (Е (а/Х)) = Ех [Е ((X' X)-1 Х'у)/Х] = = Ех ((X' X)-1 X' Е (у/Х)) = Ех (X' X)-1 X' Ха = Еха = а. Легко находится матрица ковариаций оценки МНК: cov (а) = Е (а— а) (а— а)' = Ех {Е ((а— а) (а— а)'/X)} =: = Еха2(Х'Х)-1 = о2Е(Х'Х)-1. (3.4) 116
Формула (3.4) отличается от соответствующей формулы в случае постоянной матрицы X наличием знака математи- ческого ожидания. Таким образом, для вычисления матри- цы ковариаций оценки МНК в регрессии (3.1) необходимо знание истинного распределения случайных величин х1г х2, ..., хт. Попытки оценивать матрицу Е (Х'Х)-1 на ос- нове оценки матрицы Е (Х'Х) приводят к занижению ре- зультата. Это следует из матричного аналога неравенства Коши: I = Е[(X' X) (X' X)-1] Е (X' X) • Е (X' X)-1, откуда [Е (X' Х)]-1^Е(Х'Х)-1, где знак неравенства понимается в том смысле, что разность между правой и левой частями есть неотрицательно опре- деленная матрица. В качестве иллюстрации рассмотрим следующий при- мер. Пусть х1( х2, ..., хп — независимые одинаково распре- деленные случайные величины, xt ~ N (0, 02), т. е. мате- матическое ожидание Xi равно нулю, а дисперсия 02 > 0. Зависимая переменная у связана схь х2, хп таким обра- зом, что Е (ух1хг, х2,... , xn) = axt, t = 1, ..., п. Найдем дисперсию оценки МНК- По формуле (3.4) для этого не- обходимо найти Е——. Воспользуемся следующей форму- Sx? (=1 лой: гдеф — некоторая непрерывная функция (см., например, [7, с. 307]), Г— гамма-функция. По этой формуле Е—^-=(2л02) 2 [ е е! dX1...dxn*= ^xt J ^xt Rn __n r* = (2л02) 2 -2n— (>-3e 202 dr. Ц 2 J ° 117
По формуле 130 [7, с. 297] находим окончательно _ 1 02 (п—2) ’ Итак, дисперсия оценки МНК равна о2/(п — 2)02. Легко видеть, что для п 2 дисперсия оценки МНК является бесконечной. Подсчет по формуле 1/Е приводит к зна- чению 1 /02п < 1/02 (п — 2), т. е. дает заниженное значение дисперсии. При больших п разница, однако, будет ничтожна. Оценка s2 (1.20) также остается несмещенной: Es2 = Ex (Е (s2/X)) = Exo2 = о2. Перейдем к оптимальным свойствам оценки МНК в смыс- ле ее эффективности. Естествен вопрос: верна ли теорема Гаусса — Маркова для схемы условного математического ожидания (3.1). Полностью ответить на этот вопрос мы не можем. Покажем, что если известны некоторые характерис- тики случайной матрицы X, то существует линейная несме- щенная оценка, которая имеет меньшую матрицу кова- риаций, чем оценка МНК- Построение такой оценки нач- нем со случая т = 1. Все математические ожидания будем предполагать конечными. Пусть {yt, xt} — система слу- чайных величин, причем Е (ytlxL, х2, xn) = axt, t = 1, ..., п. (3.5) Оценкой МНК для регрессии (3.5) является а = Ъх^Г^х* с дисперсией о2 (а) = о2Е^Ц . Пусть а. = Sctz/f, ct = Ct (x) — другая линейная по у несмещенная оценка. Не- смещенность влечет для любых а равенство Еах = ESctt/t = Еж (Е (Sctt/t/x)) = Еж (2сгхг) а = а. t Таким образом, аг будет несмещенной оценкой, только если Е (Sctxf) = 1. Обозначим bt = bt (х) = ct — xtI^Xt, тогда условие несмещенности переписывается: Е2Ьгхг = 0. (3.6) Далее нетрудно показать, что о2 (ах) = а2 • ESc/+ 118
T-a^c^Sc/Xf). Выражая сг через bt, получйм ^(a^^-Ej/^ + -7—Y+a2<*2(.sx, bt) = / 24 \ t J 1 2 xt Sx? = o2-E — +o2-E Sb? Sx? + a2 о2 (Sx( bt) или ESb? + 2E-^^ Sx? a2 (аг)—a2 (a) =o2 + a2o2 (Sx( bf), (3.7) где о2 (Sx/bt) — дисперсия случайной величины Sxtbt. Для того чтобы оценка аг имела меньшую дисперсию, чем оценка МНК, необходимо и достаточно показать, что пра- вая часть (3.7) отрицательна. Найдем такие bt = b( (х), что (3.7) будет отрицательно. Обозначим g (х) = Е —— Sx; ----Ц. Легко показать, что Eg (х) = 0 и Sx/ eJ-^-=E2-J--------Е—?—= — Eg2(x)^0, (3.8) Sx? Sx? (Sx»)2 s v \ где Eg2 (x) — дисперсия случайной величины 1/Sx?. Пред- t положим теперь, что Sx? const с вероятностью 1. Тогда неравенство (3.8) будет строгим, так как в противном слу- чае с вероятностью 1 —— — const = — >0; Sx? =k — const. Sx? k Допустим, E 1/Sx? известное p >0 — некоторое число, по- ложим bt = pg (x)/xt. (3.9) Тогда 'ZbfXt — npg (x) и условие несмещенности (3.6) бу- дет выполнено: ESbtx( = 0. Далее из (3.9) находим w-P2g2w24- t xt откуда E =•• npE = —npEg* (x) < 0. Sx; r sx? v ’ ] 19
Правая часть выражения (3.7) переписывается следующим образом: о2р2Е —2np Eg2 (х) + а2 р2 Eg2 (х) t xt Если р выбрать из интервала О р < 2«Eg2 + «2 Eg2(x) , то выражение (3.7) будет отрицательным и оценка аг будет иметь меньшую дисперсию, чем оценка МНК- Таким обра- зом, нами доказана следующая теорема. Теорема 3.1. Если математическое ожидание 1/2 xl известно, то оценка МНК в классе линейных несме- щенных оценок в условной регрессии (т = 1) не является эф- фективной, а линейная несмещенная оценка __ ?yt Xf ip 1_________J) V yt __ 1 2xz2 + Р | 2х2 2х2 | xt = « + pg(x)2 —> (ЗЛО) t xt где g (х) = Е—-----Ц , р > 0 достаточно мало, причем 2х/ const с вероятностью 1 и Р {хг = 0} = О для всех t = 1,..., п, для данного а имеет меньшую дисперисию, чем оценка МНК. Замечания: 1. Можно найти непрерывные случай- ные величины хп х2, ..., хп, для которых Sxj2= const, и по- этому Е—Ц ----Ц = 0, что в свою очередь означает а1 ~ а, Sxt Sr; Действительно, пусть х2 — случайная величина, равномер- но распределенная на (0,1). Положим х2 = 1—xi. Как легко заметить, хТ -J- xl = 1 с вероятностью 1. 2. Если найдется такое /0, что х<0 будет неограниченной случайной величиной, т. е. Р {|xt01 > Л} > 0 для любого А, то условие 2х’ 7^ const автоматически выполняется. Предположим противное: Sxf2 = k = const, причем, на- пример, х2 — неограниченная случайная величина. Тогда 120
Xi == k ——S%2 k — %2- Если ВЗЯТЬ A = Yk +1, i=3 то приходим к противоречивому соотношению О < Р {х2 > k + 1} с Р {х?> < -1}. Теорема 3.1 без труда переносится на многомерный слу- чай регрессии (3.1). Пусть X — матрица порядка п X т, причем rank X = т < п. Найдется такая марица X- порядка п х т; что (X-)' X = Im — единичная матрица. Построение X- осуществляем следующим образом. Обо- значим хх, х.2, ..., хт— вектор-столбцы матрицы X. По предположению они линейно независимы. Пусть е2— перпендикуляр, опущенный из конца вектора х2 на ли- нейное подпространство, порождаемое остальными векто- рами х2, х3, ..., хт. Очевидно, ех 0, так как в противном случае Xj линейно выражался бы через х2, ..., хт. Нор- мируем е2 таким образом, чтобы е[хг = 1. Аналогично по- строим векторы е2, ..., е,п. Матрица X тогда состоит из вектор-столбцов е1( е2, ... , ет. Легко проверяется, что (Х-)'Х = Im. Введем обозначение G = G (X) = Е (Х'Х)’1 — (Х'Х)"1. (3.11) Предыдущая теорема может быть перенесена на много- мерный случай. Теорема 3.2. Если Е(Х'Х)-1 известно, то оценка МНЕ в классе линейных несмещенных оценок в условной рег- рессии не является эффективной, а несмещенная линейная оценка ах = (Х' X)-1 Х'у + р[Е(Х'Х)-1-(Х'Х)-1]Х-у = а + -}-pGX~ у, где р > О достаточно мало и G т^= 0, с вероятностью 1 для любого заданного а имеет меньшую матрицу ковариаций, чем оценка МНК (в смысле cov (ar) С cov (а)). Доказательство теоремы приведено в [25]. Практическое использование теорем 3.1 и 3.2 весьма проблематично, но ценность их в том, что они показывают возможное ухудшение свойств оценки МНК при переходе к модели (3.1). Остановимся на результатах, приведенных в [85]. Вмес- то класса линейных несмещенных оценок был рассмотрен класс линейных оценок с ограниченной функцией риска 121
(см. параграф 1.4), т. е. с ограниченной матрицей средних квадратов отклонений Е (Ь — а) (Ь — а)', (3.12) где b — линейная статистика по у. Матрица (3.12) есть функция а. Статистика b будет принадлежать к классу статистик с ограниченной функцией риска, если матрица (3.12) ограничена постоянными матрицами, не зависящими от а £ 0 для любого распределения матрицы X из заданного класса распределений. В параграфе 1.4 показано, что если в качестве неизвестного параметра выступает математичес- кое ожидание, то класс линейных несмещенных оценок и класс линейных оценок с ограниченной функцией риска совпадают. Покажем, что это не происходит в схеме регрес- сии (3.1). Можно доказать, что класс линейных оценок с ограниченной функцией риска уже класса линейных не- смещенных оценок. Для этого рассмотрим лемму. Л е м м а 3.1. Если b = с (X) у — линейная, по у оцен- ка неизвестного вектора параметров а с ограниченной функ- цией риска, то Е(Ь/Х) = а, (3.13) или, что то же самое, СХ = I т почти для всех X. Легко проверяется и обратное: если b—линейная статис- тика и CX=Im, тоЪ имеет ограниченную функцию риска. Доказательство леммы см. в [85]. Покажем, почему класс линейных оценок с ограниченной функцией риска уже класса линейных несмещенных оце- нок. Пусть b — линейная оценка по у, т. е. b = Су, где С = С (X). Условие несмещенности оценки b записывается в виде ЕЬ = Ех (Е (b/Х)} = Ех {Е (Су/X)} = Ех (СХа) =Е (СХ) а = а для всех а, т. е. Е (СХ) = Im, (3.14) тогда как условие ограниченности функции риска по лемме 3.1 — в виде (3.13). Ясно, что условие (3.13) более сильное. Если оно выполняется, то выполняется и (3.14). На основе (3.13) нетрудно показать, что в более узком классе—классе линейных оценок с ограниченными функция- ми риска—оценка МНК уже будет оптимальной, что и сос- тавляет содержание следующей теоремы. 122
Т е о р е м а 3.3. Оценка МНК является эффективной оценкой в классе линейных оценок с ограниченными функция- ми риска. Доказательство. Пусть b = Су — линейная оценка с ограниченной функцией риска. По лемме 3.1 эта оценка также является несмещенной, причем равенство (3.13) выполняется почти для всех матриц X. Найдем мат- рицу ковариаций оценки Ь: cov(b)=-Ex (Е (b—a)(b—а)7Х) = оа Е (СС'). (3.15) Оптимальной является оценка, которая приводит к мини- мальной матрице (3.15) при ограничении (3.13) х. Для фик- сированной матрицы X оценке МНК соответствует матри- ца С = (Х'Х)-1 X', которая приводит к минимальному зна- чению СС'. Теперь воспользуемся тем, что из условия СС'<СХС; (3.16) следует Е (СС')СЕ (СХС[). (3.17) Теорема доказана. Нетрудно убедиться, что оценка at (теоремы 3.1 и 3.2) не принадлежит к классу оценок с ограниченной функцией риска. С помощью некоторых дополнительных предположений в [85] доказывается минимаксность оценки МНК в классе линейных оценок с ограниченной функцией риска. Подведем итоги: оценка Л!НК в классе линейных не- смещенных оценок перестает быть оптимальной в регрес- сии (3.1). В классе линейных оценок с ограниченной функ- цией риска оценка МНК продолжает быть оптимальной. Таким образом, если не рассматривать оценок, которые яв- ляются весьма плохими для некоторых значений парамет- ров регрессии, то оценка МНК будет эффективной. Коротко остановимся на асимптотических свойствах оценки МНК- Аналогично детерминированному случаю мож- но показать, что условие Эйкера (1.39) эквивалентно квад- ратичной сходимости. Т е о р е м а 3.4. Предположим, Е (Х,',ХП) < оо, тогда оценка МНК сходится к истинному значению в среднем квадратичном тогда и только тогда, когда с вероятностью 1 xmln(x;xn)^oo, ОО. (3.18) Доказательство теоремы приведено в параграфе 3.4. гМетод сравнения матриц, принятый в книге, изложен в пара- графе 1.4. 123
Можно было бы найти условия асимптотической нор- мальности оценки МНК в регрессии (3.1), однако это пред- ставляет лишь теоретический интерес. Асимптотическая нормальность далее исследована в частном и важном слу- чае случайной повторной выборки (параграф 3.2). Рассмотрим, как влияет схема условного математичес- кого ожидания (3.1) на другие характеристики регрессии. Начнем с коэффициента детерминации. Раньше этот коэф- фициент терял статистический смысл в силу того, что Eyt Ф const, что в свою очередь являлось результатом того, что независимые переменные хи хг, ..., хт представ- ляли собой неслучайные (детерминированные) числа. В схе- ме регрессии (3.1) условие постоянства математического ожидания yt может быть выполнено, например, в случае, когда Е Хц = с,, т. е. не зависит от t. При этом условие не- вырожденности (предположение Е') с этим фактом не свя- зано. Подобная ситуация наблюдалась в приведенном выше примере, где Ех( = Eyt = 0, t = 1, ..., п. Далее, если °2 (уд = Е (yt — Е yt)2 = const, т. е. не зависит от t, то коэффициент детерминации несет на себе первоначальный статистический смысл, а именно является показателем функциональности, адекватности регрессии. В частности, R2 показывает, какая часть дисперсии была объяснена за- висимостью (3.1). Если хотя бы одно из перечисленных ус- ловий не выполняется, R2 теряет статистический смысл и остается показателем, отражающим, насколько модель рег- рессии лучше модели среднего. Поэтому для временных ря- дов, имеющих тренд, коэффициент детерминации регрессий как условных м.о. имеет тот же смысл, что и для классиче- ской регрессии. Далее очевидно, распределение оценки МНК в схеме (3.1) перестает быть нормальным, даже если отклонения нормально распределены. Распределение а зависит от рас- пределения независимых переменных. В схеме регрессии как условного математического ожидания оценка МНК не будет эффективной в классе несмещенных оценок с нормаль- но распределенными отклонениями. Для регрессии (3.1) изменится и критерий отношения правдоподобия. Он будет также зависеть от распределения независимых переменных. Критерии проверок гипотез, раз- работанные в параграфе 1.10, также не будут равномерно наиболее мощными. Однако очень важно, что доверитель- ные интервалы, построенные для случая, когда матрица X стохастическая, имеют по-прежнему коэффициент до- 124
верия 1 — X. Это следует из того, что если множество D — = D (у, X) имеет постоянную условную вероятность Р (D (у, Х)/Х) = 1 — X, то Р (D (у, X)) = 1 — X. Это утверждение следует непосредственно из формулы (3.3). Таким образом, доверительные интервалы, построенные в параграфе 1.10, переставая быть равномерно наиболее точ- ными, по-прежнему накрывают истинное значение парамет- ров с вероятностью 1 — X. Дополнительная информация о распределении X может сузить доверительный интервал (или увеличить мощность критерия), однако если диспер- сия xti очень мала, то построенные критерии проверки ги- потез будут близки к оптимальным. Упражнения 3.2 1. Эквивалентна ли запись (3.5) записи Е (yt/xt) = axt? Рас- смотрите пример авторегрессии первого порядка Е (z/j/z/j-i) = = ayt-1’ гДе xt = Vt-n * = 1, 2. , п. 2. При каких условиях Е (g^Xlxf) < оо? 3. Постройте аналог оценки щ для случая, когда найдется /0 С lb «1, что Р {xi() = 0) ф 0 и для всех t =£ ta Р {xt == 0} = 0. 4. Докажите, что матрица X" имеет ранг, равный т. 5. Докажите, что Е (Ь — а) (Ь — а)' < D не зависит от а тог- да и только тогда, когда для любой матрицы ЯЕ (Ь — а)' Я (Ь —• — а) d (Я) не зависит от а. 6. Докажите, что Е (Х'Х)-1 < оо влечет Е (Х'Х)-1Х' < оо. 3.3. Схема случайной выборки Важнейшим частным случаем схемы регрессии (3.1) яв- ляется случай независимых, одинаково распределенных наблюдений., т. е. случайной выборки. Итак, имеется т -ф 1 случайных величин у, xlt х2, ..., хт. Эти величины имеют свою функцию распределения, математические ожидания, дисперсии и т. д. (считаем, что все они конечны). Обозначим Ро = Ег/, рг = Е Xi, i =1, ..., т, о2 (г/) = о02 = Е (г/— — Ро)2 > 0, С = cov (х) = Е (х — р) (х — р)' положи- тельно определена и х = (хъ ..., хт)', р = (рг, ..., рт)'. Относительно случайных величин у, х известно, что Е (г//х) Е(г//х^, ..., хт) Ч- сх2Х2 Ч- ...Ч- zxmxm — = а'х, (3.19) где (ccj, а2, ..., ат)' = а — вектор неизвестных парамет- ров. Таким образом, регрессия у на х линейна и неизвестна 125
с точностью до своих коэффициентов. Предположим, раз- брос около регрессии постоянен, т. е. о2 (z//x) = ЕХ{Е (у — Е (у/х))2/х} = const = о2 (3-20) также неизвестно. Из случайной величины (у, х) £ /?т+1 производится случайная выборка (yt, хг), t= 1, ..., п, т. е. (yt, хг) независимы и одинаково распределены. Наблю- дения образуют вектор у £ Rn и матрицу XnXm. В силу независимости {yt, xj равенство (3.19) эквивалентно уравнению Е(у/Х) = Ха. Далее можно показать, что в силу положительной определенности С = cov (х) rank X = т с вероятностью 1. Из независимости [yt] следует выполни- мость предположения Г" (параграф 1.1). Итак, все пред- положения для схемы случайной выборки выполняются. Существует много задач, в которых наблюдения можно считать результатом случайной выборки. Так, если иссле- дуется зависимость урожая некоторой однолетней сель- скохозяйственной культуры от средней температуры лета и количества выпавших осадков, то наблюдения за п лет дают нам: xtl — среднюю температуру лета в году /; xt2— количество осадков, выпавших в течение вегетации культу- ры в году t. Мы предполагаем, что урожай yt так зависит от xtl и xt2, что Е xt2) = агхи ф- a2xt2 + а3. Ясно, что величины (yt, xtl, xi2) можно считать независимыми по t. В экономике большое число примеров рассмотренной схемы регрессии со случайной выборкой имеется в иссле- дованиях пространственно-структурных зависимостей. Рас- смотрим один из таких примеров. Допустим, изучается про- изводительность труда в некоторой отрасли. Отрасль пред- ставляется совокупностью предприятий. Обозначим у — производительность труда; у имеет свое распределение (ге- неральная совокупность — показатели производительно- сти труда всех предприятий). Имеется средняя производи- тельность, разброс производительности труда и т. д. Далее, рассматриваются три случайные величины: xt — основные фонды (генеральная совокупность — множество значений основных фондов всех предприятий отрасли); х2—фондо- вооруженность (генеральная совокупность — множест- во значений фондовооруженности всех предприятий); х3— энерговооруженность (генеральная совокупность — множество значений энерговооруженности всех предприя- тий). Предположим, что при фиксированных хг, х2, х3, 126
математическое ожидание yt есть линейная функция Xi х2 и х3, т. е. Е (у/хъ х2, х8) = + а2х2 + а-зХз + а4. (3.21) Свободный член введен в это уравнение регрессии по при- чинам, объясняемым в параграфе 1.3. Считаем, что услов- ная дисперсия у (3.20) постоянна. Допустим, из множества всех предприятий отрасли (генеральная совокупность) ото- брано определенное число предприятий, для каждого из них известны статистические данные по производительно- сти труда (у), основным фондам (хт), фондовооруженно- сти (х2) и энерговооруженности (х8). Выборку считаем слу- чайной. Наблюдения образуют вектор у и матрицу X, связанные между собой уравнением регрессии (3.1). Можно было бы рассмотреть исследуемую отрасль в целом, а в ка- честве статистики — показатели у, хг, х2, х3 за ряд лет. Даже если наблюдения будут независимы, они уже не будут одинаково распределены! Производительность (средняя) наверняка будет повышаться (изменяется р0). Скорее всего будут повышаться средние и остальных показателей: хх, х2, х3 — «временная» регрессия не подпадает под схему слу- чайной выборки. Свойства оценки МНК, доказанные в общем случае, бу- дут верны и для схемы случайной выборки: несмещенность, неэффективность в классе несмещенных линейных оценок и эффективность в классе линейных оценок с ограниченной функцией риска. В параграфе 1.6 отмечено, что в схеме классической рег- рессии (матрица X детерминирована) коэффициент детерми- нации не имеет статистического смысла. В схеме случайной выборки R2 восстанавливает свое истинное статистическое содержание. Обычный коэффициент детерминации R2== 1 Se? = 1 __ ^(yt-y)2 s(yt-y)2/n теперь является естественной оценкой истинного значения (1.23): Selin является оценкой о2 (у/х), 2 (yt — у)21п— оценкой Оу. Коэффициент детерминации (3.22) можно трак- товать как показатель «функциональности» зависимости у и х или показатель адекватности регрессии, 7?2 есть доля объясняемой дисперсии у. 127
В схему случайной выборки естественно вписываются асимптотические свойства. В силу независимости и одина- ковой распределенности переменных почти наверное (п.н.) lim — X'X = C + |li|li'. (3.23) n->0O Предел (3.23) легко доказывается с помощью усиленного закона больших чисел. Состоятельность оценки МНК можно доказать непосредственно, используя (3.23) или применив теорему 3.4. Теорема 3.5. Оценка МНК в схеме случайной выбор- ки асимптотически нормальна. Доказательство. Обозначим е = у — Ха, тог- да Kn(a—a)=Kn(X'X)-! x'e= (2L2LV’ \ п ) Уп но из условия (3.23) следует п.н. ( ——) -> (С + цц')-1. Исследуем вектор Х'я/Уп. Его t-я компонента равна; -^2 (3-24> Vn Vn где = xtizt. Ho ES( = EZz. [E ^lxti)} =KXl. \xti E (ef/xif)] -0; [St} — независимы, одинаково распределены. Найдем их дисперсию: о2 (У) == ЕУ = EXf [Е (У/хг)} = ЕХ( {хЛ Е = = EXz \xh Е (у — Е (y/x))Hxt] = <г2Е4 - о2 Сп. По центральной предельной теореме последовательность (3.24) асимптотически нормальна. Окончательно можно за- писать: ]Кп(а— а)5М(0, о2(С + |ф')~’). (3.25) Замечание. Для доказательства асимптотической нормальности оценки МНК в схеме случайной выборки мы не налагаем условий на поведение матриц Хп при п ->оо. Асимптотические свойства оценки являются результатом предположений о независимости и одинаковой распреде- ленности наблюдений (yt, х?) == (yt, хг11..., xtm), t = l,...,n. 128
Иногда в схеме регрессии предполагают нормальность случайных величин у и х. Нормальное распределение обла- дает одним хорошим свойством: регрессия у на х оказыва- ется линейной. Напомним, что линейность регрессии в (3.19) в общем случае является достаточно строгим условием. Как было отмечено, оценка МНК не является, вообще говоря, в схеме «математической, регрессии» оценкой макси- мального правдоподобия. Однако, если наблюдения неза- висимы и одинаково распределены по нормальному закону, оценки МНК и ММП совпадают. Теорема 3.6. В схеме случайной выборки из нормаль- ного распределения оценки МНК и ММП совпадают. Доказательство теоремы дано в параграфе 3.3. В заключение отметим, что схема регрессии как услов- ного математического ожидания является более общей, а по- этому и более сложной. Окончательные свойства тех или иных оценок или процедур зависят от распределения неза- висимых переменных. Классическая регрессия является первым шагом схемы (3.1) — исследование линейной зави- симости для фиксированных значений матрицы X. Второй шаг — исследование полученных свойств при флуктуаци- ях X, которая изменяется в соответствии с законами рас- пределения, задаваемыми априорно исследователем. Ясно, что дисперсия оценок, полученных при фиксированных X, будет меньше, чем при ее флуктуировании. Зато мы осво- бождаемся от конкретного вида X, и наши оценки будут более общими. Часто трудно решить, является ли данная совокупность X случайной или детерминированной. Так, в примере с ана- лизом производительности труда в отрасли матрицу дан- ных X можно считать либо случайной, либо детерминиро- ванной в зависимости от поставленных целей. В чем конкретно заключается разница между безуслов- ной и условной регрессиями? В безусловной регрессии на- ши выводы касаются только данного, имеющегося в нали- чии набора независимых переменных, тогда как в условной регрессии полученные выводы и оценки имеют более об- щий характер; эти выводы могут быть распространены на всю генеральную совокупность независимых переменных. Упражнения 3.3 1. Используя свойства условных математических ожиданий; покажите, что (3.19) влечет (3.1). 2. Докажите, что | С | Ф 0 влечет rank X _= т почти наверное. 5 Зак. 2067 12g
3.4. Доказательства 1. Доказательство Ez = Еж (Е (z/x)). Обо- значим f (х, у) — плотность распределения случайной вели- чины (х, у), тогда Ez = Ez (х, у) = jjz (х, у) f (х, у) dxdy. (3.26) Известно, чтс) плотность распределения условной случай- ной величины! (х, уух есть f (х, y)lf (х), поэтому в, (z (х, у) /х) = j z (X, у) dy. Окончательно, что совпадает с (3.26). Формула Ez = Ех (Е (z/x) доказана. 2. Доказательство теоремы 3.4. Для доказательстве! теоремы достаточно показать, что (3.18) эквивалентно E(XAXn)-i->0, п-+<х>. (3.27) Достаточность. Пусть (3.18) имеет место. В силу неотри- цательной определенности матрицы (Х,'гХД-1 для любого 1=1,..., т (х; х„)£71 zmax (х,; х д- > = шт1п (х; х д -> о. Нетрудно показать, что (ХА+1 Х„+1)й’ С (ХАХДй1, i = 1,о-.., т. Применяя теорему об интегрировании моно- тонной последовательности, получаем Е (Х^ХД»1 0, а значит, и Е (Х/ХД'1 -> 0. Необходимость. Пусть условие состоятельности (3.27) имеет место. 13оспользуемся следующим фактом: пусть 2ц 0 — случайные интегрируемые величины, причем 2п+1 и Е£п _> 0, тогда Zn -> 0 п. н. (Доказательство: пусть Z = lim zn> положим А = [Z > 0} и Zn — суже- ние Z на А, то1Гда Е2п EZ„ 0, но EZn -> EZ: мера А равна нулю.) Поскольку последовательность (X,'tXn),7 1 не- возрастающая, то (Х„ХД;7* ->0 п. н., значит, Хга1п (Х'ХД -> 3. Доказательство теоремы 3.6. Обозна- чим z = (у, хх, хт). По условию z N (v , fl), где V = (р0, р!, ..., Ит)\ Q = Со р'1 Р С J ’ 130
р = cov (у, х). Регрессия у на х будет равна [5]: Е (уIх) = уо + Р'С-1 (х—ti) — p' С-1 x-f-fio —р' С-’ р,. Поскольку в регрессии свободный член отсутствует, то р'С-1ц = р0. (3.28) Пусть zlt z2, .... zn — независимы,одинаково распределены с N (v, й). Известно (см., например, [5]), что оценками ММП для ц0, р., С, р являются соответственно у, х, -i- Х'Х — хх', — Х'у— ху. Далее воспользуемся следующим элемен- п тарным фактом: если 0 — оценка ММП параметра 0, то g (0) является оценкой ММП для g (0). Поэтому для дока- зательства равенства оценок МНК и ММП достаточно пока- зать, что а = (Х'Х)-> X' y = C-ip. (3.29) Формально перепишем (3.29). (Х'Х — их х')-1 (X' у —пух) = (Х'Х)-< Х'у. (3.30) Умножим (3.30) слева на матрицу Х'Х — пхх': Х'у— пу х = Х'у— их х' (Х'Х)-1 Х'у, или ух = хх'(Х'Х)-1Х'у. Но для оценки МНК имеет место равенство у = у (см. параграф 1.6), т. е. у = = — 1' X (X' Х)-1Х'у = х (Х'Х)-1 Х'у. Делая обратные пре- п образования, приходим к (3.29)—теорема доказана. Глава 4 ОШИБКИ В НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ 4.1. Постановка задачи. Оценка МНК В этой главе обобщается классическая регрессия на случай, когда независимые переменные измеряются сюшиб- кой. В принципе случайные отклонения в независимых пере- менных можно трактовать шире, однако в любом случае эти отклонения должны удовлетворять определенным тре- бованиям. Важное место в классической регрессии (независимые переменные детерминированы) занимают регрессии плани- 5* 131
руемого эксперимента. Основным требованием к ним явля- ется, как уже указывалось в начале книги, отсутствие оши- бок измерения управляемых, т. е. независимых пере- менных. На практике они чаще всего все же существуют. Система предположений в схеме с ошибками в независи- мых переменных такова. Существуют истинные значения переменных (они детерминированы) yt, xti, /=1, ..., и; t= 1, ..., т. Между этими ненаблюдаемыми переменными сущест- вует функциональная линейная связь У1 = ВД1 + ааХ<2 + ••• + ^mXtm, ^=1, •••, П, (4.1) где ах, а2, ..., ат нам неизвестны и подлежат оцениванию. Истинные значения yt и xti нам также не известны, зато из- вестны наблюдения vt, wti, которые отличаются от первых на случайные отклонения, т. е. на ошибки измерения: vt=yt + lt, wti = xti-\-zti, i = l, ..., m; (4.2) Поскольку Zt, мы интерпретируем как ошибки измере- ния, то естественны следующие гипотезы: = Eefi = 0; о2 (^ = <т?; о2 (ен) = (4.3) Ен} — система независимых случайных величин. Первое уравнение в (4.3) означает, что измерения yt и Xti не содержат смещений. Вторая система предположений (4.3), касающаяся дисперсий, означает, что каждый ряд из- меряется своим инструментом, чувствительность которого не зависит от номинальной величины ряда. Например, ес- ли у есть сила тока в цепи и эта величина измеряется ампер- метром с делением h, то, предполагая равномерное распре- деление ошибки на [—h/2, hJ2], мы можем утверждать, что = №/12. Вообще говоря, некоторые из переменных могут изме- ряться без ошибок, например если эти переменные—функ- ции номера эксперимента или наблюдения; тогда а? = 0. В частности, если о, > 0, а о/ = 0, i = 2, ..., m-ф 1, то приходим к классической регрессии vt = аххп + ... + +amxtm + It- в дальнейшем, как правило, будем считать о/ = 0 для всех i. Для иллюстрации продолжим рассмотрение примера, на- чатого в параграфе 1.1. Будем считать, что если все другие условия эксперимента фиксированы, a yt, хц, xi2 и xt3 измерены без ошибок, то между ними наблюдается точная функциональная связь: yt = Д аах<а + Здз + t = 1, ..., 15. 132
Другими словами, нам известна формула реакции и из- вестен закон взаимодействия веществ с точностью до неиз- вестных параметров ах, а2, а3, а4. Однако в силу ошибок измерения на место функциональной связи приходит ста- тистическая. Считаем, что математическое ожидание оши- бок измерения равно нулю. Если выход реакции (yt), ко- личество вещества Вг (хг1) и количество катализатора (xi3) измеряются на одних весах, то можно считать о2 = о2 = = о|. Приближенно можно считать даже о, = hs/12, где h — цена деления весов. «Функциональность» уравнения (4.1) на первый взгляд может привести к мысли, что изложенная схема пригодна только для функциональных же зависимостей, т. е. зави- симостей, встречающихся только в естественнонаучных дис- циплинах. На самом деле это не так. Перепишем уравнение (4.1) в более привычном виде: У = (XjXfj 062^12 ~Ь ••• "Е "Е ^1* Оно очень похоже на уравнения регрессий, с которыми мы работали до сих пор. При этом не обязательно есть ошибка измерения. Случайные величины eti также не обя- зательно трактовать как ошибки измерения. Так, Э. Мален- во приводит пример [48, с. 391, 392], где yt — расход на данный продукт в семье t, xtl — доход семьи t и случайные отклонения и ei; трактуются не как ошибки измерения. Единственные условия, которым должны подчиняться ошибки, это условия (4.3) и условие независимости. Схема (4.1)—(4.3), в которой yt и Хц детерминированы, называется функциональной. В другой схеме yt и хц— случайные величины. Последняя схема называется струк- турной. Можно показать, что структурная схема в прос- тейшем случае сводится к функциональной. Обозначим в структурной схеме Ехц = ри, xti — pti = фц, Eyt = qt, yt — qt = it- Переходя к математическому ожиданию в (4.1), получим = ах/?» + ... + a.mptmi где vt = qt + St, wti = ptl + 0{i, 6t = + rt, 9tl= — &ti -ЕФи- Еслифгг и Ti независимы и гомоскедастич- ны, то таковыми будут и и eti. В литературе изучался простейший случай структурной зависимости yt = a1xi+a2, где xt~N (р, Qj), (xj — независимы. В матричных обоз- начениях (4.1) и (4.2) переписываются следующим образом: у = Ха; v = у + |; W = X + 8, (4.4;, (4.5), (4.6) 133
где у, X, a, v, I, W й в имеют порядок соответственно пХ1, пУт, /их 1, и \ 1, «X 1, пУт. и пУт. Как и ранее, будем предполагать, что rank X = т. Подставляя (4.5) и (4.6) в уравнение (4.4) получим v = Wa + (|—ea)=Wa + T], (4.7) где т] = |—еа. Схему (4.4) не надо путать со схемой условного матема- тического ожидания, рассмотренной в предыдущей главе. Различие вытекает из; того факта, что вектор отклонений т) зависит от е. Более Подробно: Е (v/W) = Wa + Е (iq/ W) = Wa+ Е (|—еа/ W) = Wa + Ч-Е‘ (VW)—E(e/W)a. В силу независимости | и е средний член в последнем равен- стве обращается в нуль. Из равенства (4.6) окончательно следует Е (v/W) ь= Wa—ea = Xa =£ Wa, что противоречит схеме регрессии как условного математи- ческого ожидания (3.1). По наблюдениям W и v можно построить оценку МНК1: aH4 = (W' W)-> W'v. (4.8) В классической регрессии оценка МНК была несмещен- ной, линейно эффективной в классе несмещенных оценок и при некоторых условиях состоятельной. Покажем, что в схеме с ошибками в независимых наблюдениях эти свойства оценки пропадают. Начнем с несмещенности. Строго дока- зать смещенность оценки (4.8) затруднительно. Относитель- но смещенности оценки МНК приведем следующие сообра- жения. Пгрепищем (4.8) следующим образом: анк = (W' W)-1 W' (Wa Ц-т]) = a -|~ (W' W)-1 W' т], но EW' л=Е (X' +е') (|—ea)=E(X'|—Х'еа + е'|— —в' ек) = ЕХ.' |—ЕХ' еа + Ев' | — Ее' еа = —nDa, где D — гиагональнак матрица т X т с i-м диагональ- ным элеьентом 0/4-1. Вероятно, что E(W'W)-1W'ri также отлично ст нуля. 1В этол главе мы рассмотрим несколько оценок, каждую из ко- торых сна5жаем своим Индексом. 134
Оценка МНК не будет состоятельной даже при весьма сильных предположениях. Покажем, что если матрица X сильно регулярна, оценка МНК не будет состоятельна. Распишем (4.8) следующим образом: aHK=“ + (W' W)-1 W' т] = а~р f - А 1 / w. Я А , \ п ) \ п ) Рассмотрим первый предел по вероятности: plim — W' W = plim — (X (X + е) — plim — X' Х + п п п + plim — X' е + plim —- е' X + plim — е' е. п п п По предположению plim — Х'Х = А, IА|=И=0. (4.9) п Легко показать, что в условиях сильной регулярности из закона больших чисел следует plim — X' е= plim— е' X = 0; (4.10) п п plim— e'e = D, (4.11) п где D — диагональная матрица, описанная ранее. Таким образом, plim -i- W'W = А 4- D. Второй предел по вероятности plim — W' т]= pHm — (Х + е)' (|—ea) = plim — X' |— п п п — plim — X' ea + plim — е' |— plim — е' еа. п п п Из закона больших чисел следует, что первые три слагае- мых в последнем выражении равны нулю, таким образом plim — W' т]= —Da, п окончательно plim аНк = a — (А + D)-1Da. (4.12) 135
становится спорным. Теперь и у, и х попадают в одинаковую ситуацию. Так, можно минимизировать отклонение от пря- мой вдоль оси х (рис. 4.1). На этом рисунке АВ соответст- вует отклонению вдоль оси х (ошибки только в независимой переменной), AD — отклонению вдоль оси у (ошибки толь- ко в зависимой переменной). Компромиссом здесь может быть, например, отклонение, равное расстоянию от точки, отвечающей выборке у, до прямой. Регрессия, оцененная минимизацией суммы квадратов расстояний от точек вы- борки до прямой, или в общем случае плоскости, называет- ся ортогональной х. Перейдем к общему случаю. Поскольку у и xt в схеме ошибок в независимых переменных становятся с теорети- ческой точки зрения равноправными, следующие переобо- значения являются целесообразными. Объединим все наб- людения в одну матрицу, т. е. обозначим Z=[y, X], V = [v, W], 0 = [|, s], (4.13) ₽=(₽!, IV = (-1, «о am)’, (4.14) где k = т + 1- Соотношения (4.4), (4.5) и (4.6) переписы- ваются следующим образом: Z0 = O; V = Z + ©, (4.15) (4.16) причем Е0<г = 0, о2 (Qtt) = Е0ц = о?, i ~ 1,2, ..., k = = т + 1- При нахождении оценок ортогональной регрес- хЧасто регрессию, оцененную таким методом, называют взве- шенной. 137
сии удобнее пользоваться другой нормировкой вектора 0, а именно положим ||0|| = 1, т. е. k 2₽’ = 1- (4.17) i= I Можно было бы оставить условие 0Х = — 1, но для прос- тоты исследования (4.17) более целесообразно. Для отыс- кания оценок ортогональной регрессии нам понадобится следующая лемма. Лемма 4.1. Пусть в Rk задана гиперплоскость (ли- нейное подпространство размерности k — 1): П<= ri+...-Ь pftrfe = p'r=O}, (4.18) где вектор 0 фиксирован, ||0|| = 1. Тогда расстояние от произвольной точки s g Rk до плоскости П есть p(s, H)==min||s—г || = ls'0[. Г Г-Ц Доказательство леммы несложно, его можно провести с помощью множителей Лагранжа. Принцип ортогональной регрессии заключается в мини- мизации суммарных квадратов расстояний от точек вы- борки, т. е. v* = (yfl, vt2, ..., vtky £Rk, до гиперплоскости П ортогональной регрессии (4.18). В силу леммы 4.1 п п $(Р)=2 p2(vf, Н)= (p'v‘r= /=i <=1 = 2(Pi«a + -+Pfi W- (4.19) /=1 Минимизируем S (0) при условии ||0|| = 1. Для этого построим функцию Лагранжа: Ф(РД)=2(Р'^-*(0'0-1). Ее производные по0, равны: дФ/д& = 2 2 (Pi vа + ... + pft vtb) vti -2XPi ₽ О, или в матричном виде: V'V0—Х0 = О. Для того чтобы последнее уравнение имело решение относительно 0, необходимо и достаточно, чтобы | V' V-Мй| = 0; 138
при этом значение 0, минимизирующее S (0), является ха- рактеристическим вектором (х. в.) матрицы V'V, а л — соответствующим характеристическим числом. Однако число разных характеристических векторов и характерис- тических чисел может быть равно k. Какое же из них вы- брать? Покажем, что для минимизации S (0) необходимо вы- брать минимальное х. ч. матрицы V'V и соответствующий минимальный х.в. Действительно, V' V^SvW, t но S (Р)=2 (Р' +)2=2 0' v‘ (v9' 0=0' 2 v V)' 0= = 0'VV0. (4.20) Минимальное значение квадратичной формы будет наблю- даться, если в качестве 0 взять характеристический вектор, соответствующий минимальному характеристическому чис- лу матрицы V'V. Обозначим его bop, тогда min S(0) = b6PV' Vb6P = ^mln(V' V). II ₽ II”1 Возвращаясь к старым обозначениям, можно найти оценку ортогональной регрессии параметра а: (tfop)i = —(^ор)г+1/(Мъ г = 1,..., tn. Рассмотрим геометрический смысл ортогональной рег- рессии. Для простоты остановимся на случае т = 1, т. е. zti 0i + z/2 0, / = п. Матрица V'V задает характеристический эллипсоид Ev = {гg Rfe : г' V' Vr — у), у>0. Величина у определяет размеры характеристического эл- липсоида. Каждый эллипсоид из семейства Ev является пропорциональным растяжением другого. В случае т = 1, т. е. k = 2, эллипсоид превращается в эллипс. Ортогональ- ная регрессия имеет направление характеристического век- тора Ет, отвечающего его максимальному характеристи- ческому числу. Диаметром эллипса, сопряженным данному направлению р, как известно, называется геометрическое место точек середин отрезков параллельных р, отсекаемых 139
эллипсом. Очевидно, ортогональная регрессия есть диаметр эллипса, сопряженный направлению х. в., отвечающего минимальному х. ч. матрицы V'V (рис. 4.2). Регрессия оценки МНК есть диаметр характеристического эллипса Е7, который сопряжен с направлением оси у. Регрессия, соответствующая оценке МНК «х на «/», есть диаметр, со- пряженный направлению оси х. Длина отрезка ОР = Хто1п, длина отрезка ОТ = Вектор СР соответствует характеристическому вектору с Регрессия х на у Рис. 4.2. Ортогональная регрессия и регрессии, сопряженные данному направлению для т = 1 Ортогональная регрессия Регрессия у на. Xmin, вестор ОТ — Регрессия у на х делит отрезок АВ в точке Е пополам, регрессия х на у делит отрезок СД в точке К пополам, угол РОС — прямой. В качестве примера рассмотрим регрессию (1.5). До- пустим, данные табл. 1.1 есть результаты измерений величин yt, xti’ *42, xt3- Считаем, что в отсутствии ошибок измере- ния количество вещества Blf получившегося в результате реакцик, есть линейная функция количества вещества Ва, температуры и количества катализатора, т. е. yt «iXti 4" txaXf2 4* asxt3 4- (4.21) Ошибк! измерения делают эту зависимость стохастической. Перепишем (4.21) в виде (4.15), т. е. Р1Д1 4- 4~ Р3ztз + — О- (4.22) Для тою чтобы избавиться от постоянного члена, перейдем к центрированным рядам, т. е. вместо i»fj будем рассматри- 140
вать vti — Vi, где vt = ^Vuln1. Матрица V'V в регрессии (1.5) равна: 10459,0 19341,0 2269,9 597,3 19341,0 36367,2 4165,8 1076,9 2269,9 4165,8 533,7 134,4 597,3 1076,9 134,4 37,78 Ниже приведены характеристические векторы и числа этой матрицы в порядке их убывания: (0,4684; 0,8773; 0,1012; 0,0263) Х4 = 47206 (0,7889; — 0,4683; 0,3710; 0,1439) %3 = 154,2 (— 0,3808; 0,0964; 0,9190; 0,0319) Х2 = 34,7 (—0,1150; 0,04173; —0,0864; 0,9887) ^ = 2,06 Выбираем последний вектор, отвечающий XmIn (V'V) = = 2,06: bop = (—0,115; 0,04173; — 0,0864; 0,989)'. Оценка а ортогональной регрессии равна: (Яор)1 = — (^ор)г/(^op)i — 0,363 (аор)г — — (^ор)з/(&op)i = — 0,751 (аор)з=-—(^ор)4/(^ор)1 =8,600 (йор)4 = Щ — (aOP)i о2—(аОР)2 и3—(аОР)3ц4 = 3, 034 Итак, зависимость (4.21), оцененная методом ортого- нальной регрессии, равна; yt = 0,363хп — 0,751 xi2+8,600xi3 + 3,034, /=1, ..., п. Универсальным методом оценивания параметров явля- ется метод максимального правдоподобия. К каким оцен- кам приведет этот метод, если применить его к задаче (4.15), (4.16)? Применение ММП еще отчетливее позволит понять трудности оценивания в модели с ошибками в независимых переменных. Целесообразность процедуры центрирования объяснена в сле- дующем параграфе. 141
Упражнения 4.2 1. Найдите оценку ортогональной регрессии для случая yt = = ах^, yt = а. и оценку регрессии x на у в этих случаях. 2. Найдите оценку регрессии, когда направление минимизи- рующих ошибок р произвольно. Сравните ее с оценкой МНК, с оцен- кой ортогональной регрессии, с оценкой регрессии х на у. Дайте гео- метрическую интерпретацию такой оценки. 4.3. Метод максимального правдоподобия Предположим, случайные отклонения Qtt имеют нор- мальное распределение, другими словами, Qti ~ N (0,о2). Тогда vti также нормально распределены, причем vti оо ~ N (zti, ст’). Параметрами, которые необходимо оценить в первую очередь, являются alt а2, ..., ат, так называемые «структурные параметры». Остальные параметры мешаю- щие: ст’,..., ст*, zti. Таким образом, всего необходимо оце- нить 2k — 1 + nk неизвестных параметров, тогда как число наблюдений равно nk. Ясно, что все параметры удовлет- ворительно оценить невозможно. Для нас основной инте- рес представляют структурные параметры а1( ..., ат. Однако и для них далеко не всегда существует оценка ММП. Можно показать, что она существует, только если ст’ извест- ны по крайней мере с точностью до постоянного множите- ля [37]. Поэтому предположим, что известен вектор весов <р = (фи Фг---! Фй), причем Ст/2 = ст2ср/2, где ст2 — неизвест- ный параметр. Нормализуем переменные vtt, zti, |Зг, т. е. вместо них рассмотрим Vti/qt, zti/(pi, |Зг:р;, i~ 1, ..., k; t = 1, ..., n. (4.23) Нормализованные переменные по-прежнему удовлетворяют исходным уравнениям (4.15) и (4.16), причем ст2 (vti) = = ст2 (0//) = ст2. Поскольку vti независимы, то их совмест- ная плотность равна: кп _ — р (V; ₽, ст2, Z) = (2л)“~ (ст2) 2 ехр Г--L- -?/г)г' • I 2.(5“ i Возьмем логарифм этой функции, отбросим постоянные члены и поменяем знак, получим п k Pi(V;P,ct2, Z) = /./Hno2+--b2 2 ^ч^гчУ^т'т- (4.24) 142
Необходимым условием экстремума функции является об- ращение ее частных производных в точке экстремума в нуль. Таким образом, _____________L У <v ._z,.’)2 = o Эо2 о2 °4 ’ откуда °2==~“ 2ц)2- п1г ~ Подставим это значение в минимизирующую функцию (4.24), получим p2(V; ₽, Z) = 2(y(i-z(i)2-S||v'-zq^, t, i t где v< = (t>n, ..., vth)', z* = (ztl, ..., zth)' — t-e строки мат- риц V и Z соответственно. По определению zti удовлетво- ряют уравнению P'zz = рхг(1 + ••• + = О, т. е. гг принадлежат гиперплоскости П (4.18). Величина || zz — vf||2 есть квадрат расстояния от точки vf £ Rk до точки z( g П. Это расстояние по условию необходимо минимизировать. Минимальная величина ||vf — z*|| есть р (v;, П), по лемме 4.1 она равна |P'vz|. Таким образом, получаем Рз (V; Р) = ^j (Р'v^)2 => min. (4.25) t Как видим, р3 совпадает с S (4.19). Поэтому оценка ММП для стандартизованной зависимости (4.23) сов- падает с ортогональной регрессией. Оценка ММП является характеристическим вектором стандартизованной мат- рицы V'V, отвечающим минимальному х. ч. этой матрицы. Если <рг = 1, то оценка ортогональной регрессии bop и оценка ММП Ьмп совпадают. Для получения оценок ис- ходной зависимости необходимо произвести операции, об- ратные (4.23), т. е. положить (ЬмпМфь i = 1,2, ..., k. При желании новый вектор Ьмп может быть пронормиро- ван так, чтобы || Ьмп || = 1 или(Ьмп)1=Е Если переменные имеют разные дисперсии, то оценки ММП и ортогональной регрессии будут отличаться друг от друга. Другими словами, выбирая направление минималь- ного х. ч. матрицы V'V в ортогональной регрессии, мы тем 143
самым неявно предполагаем, что переменные (у, xlt х2,..., хт) имеют одинаковые ошибки {имеются в виду стандарт- ные отклонения). Если ошибки будут разными, направле- ние должно быть другим, учитывающим эту разницу. Оценки ММП в схеме с ошибками в независимых пере- менных более гибкие, чем оценки ортогональной регрессии. Действительно, представим ситуацию, когда ошибки в х незначительны по сравнению с ошибками в у. Тогда направ- ление минимизации ошибок должно быть близко к у, в то время как в ортогональной регрессии оно не зависит от ве- личин ошибок в у и х. С учетом того, что а, > а’, направ- ление в ММП, как нетрудно проверить, будет близко к на- правлению у. Иногда помимо переменных, в которых присутствуют ошибки, в зависимость (4.1) входят переменные, которые измеряются без ошибок. В первую очередь это относится к уравнениям со свободным членом. Нахождение оценок ММП в этом случае несложно. Рассмотрим подход, предло- женный в [90]. Итак, пусть yt = агха + ... + amxtm + + ... stp, (4.26) где относительно yt, Хц выполняются все предположения, сделанные ранее, a st; детерминированы, rank S = р. Обозначим Л1 = In — S (S'S)-1S'. Найдем х.в. матрицы W'MW; характеристический вектор, соответствующий ее минимальному х. ч., обозначим 6. Тогда, как и ранее, at = — б/+1/б1; i = 1, ..., т. Оценка для у равна: g = (S' S)-1S'(у—Wa). На основе этого результата легко показать, что если в урав- нении (4.26) р =1 hs(1s1,t. е. уг — свободный член, то для нахождения вектора а необходимо сначала центриро- вать матрицу W, т. е. положить wtt — wti —иу, где 1 - - = — оценка gr равна у — — ... — атхт. п t Найдем оценки метода максимального правдоподобия для регрессии-примера. В табл. 4.1 приведены 9 вариан- тов стандартных отклонений (оу, о2, о3, о4) соответственно для переменных yt, Хц, xt2 и xt3. Выбор значений объясняет- ся в параграфе 4.7. Варианты — S5 соответствуют рав- ным дисперсиям, поэтому оценка ММП в этом случае совпа- дает с оценкой ортогональной регрессии. В табл. 4.2 при- 144
Таблица 4.1 o2 °S o4 Si 0,00289 0,00289 0,00289 0,00289 sa 0,0289 0,0289 0,0289 0,0289 S3 0,289 0,289 0,289 0,289 S’a 2,89 2,89 2,89 2,89 *^Б 28,9 28,9 28,9 28,9 se 2,89 0,289 0,289 0,289 S, 0,289 2,89 0,289 0,289 s8 0,289 0,289 2,89 0,289 s9 0,289 0,289 0,289 2,89 ведены оценки ММП для остальных вариантов S6 — S9. Для сравнения в нижней строке приведены оценки ортого- нальной регрессии. Проанализируем полученные оценки. Как видим, оцен- ка ММП во всех вариантах, за исключением S8, для пер- вого параметра относительно стабильна. Максимальное отклонение оценок ММП от оценок ортогональной регрес- сии и вообще от всей массы оценок наблюдаются для вари- анта S8. Другими словами, оценки ММП наиболее чувст- вительны к ошибкам измерения в х2. Оценки второго и четвертого параметров резко отличаются друг от друга в зависимости от дисперсий, поэтому являются наиболее не- стабильными и резко реагирующими на априорные значе- ния стандартных отклонений о2, а3, о4. Оценки третьего параметра относительно устойчивы (хотя и не в такой сте- пени, как оценка ах), опять же за исключением варианта S8. Остановимся несколько подробнее на свойствах оценки ортогональной регрессии и оценки ММП. Во-первых, можно Т а б л и ц а 4.2 cct a2 a3 a4 Se 0,3895 0,0925 4,449 —0,5618 S7 0,393 —0,484 6,640 1,878 S8 —0,259 11,92 — 19,4 —52,48 se 0,3594 —0,7384 8,680 2,957 Si-S6 0,363 —0,753 8,598 3,034 145
показать, что оценка Ьор будет смещена, даже если <рг= 1, а 0(г нормально распределены. Будет ли оценка Ьор обла- дать самым необходимым и слабым свойством — свойством состоятельности? Ответ положительный. Теорема 4.1. Если о® = о® = ... = al, а матрицы Zn сильно ^регулярны, т. е. lim Z',, Zn = А, где А — детерминированная матрица, rank А — т, то оценка Ьор сильно состоятельна, т. е. lim Ьор = Р с вероятностью 1. П -> ОО Доказательство теоремы дано в параграфе 4.8. Замечания: 1. Поскольку Ьор — ограниченные случайные величины (||Ьор|| = 1), то ЕЬор->Р, Е |1 Ьор — — РН2->0, т. е. оценки Ьор являются асимптотически несмещенными и состоятельными в среднем квадратичном. 2. Если Pi 0, то сильно состоятельными являются также оценки аор. 3. Существенным условием теоремы является равенство дисперсий of. В противном случае оценки Ьор и аор не являются состоятельными. 4. В теореме не делается предположений о конкретном виде распределения 0fj. Поэтому оценки ММП (при из- вестных <рг) также будут состоятельны. В условиях регулярности матриц Zn может быть иссле- довано асимптотическое распределение Хт1д (V'V) (см., на- пример, [48, с. 382]). Можно показать, что оценкой ММП для о2 является Xmin (V'V)/n&, где V — нормализованная матрица. Исполь- зуя асимптотическую нормальность оценки ММП, Э. Мале- нво доказывает, что матрица асимптотических ковариаций С оценки Уп (Ьмп — Р) определяется из системы уравне- ний — Z'ZCZ'Z = — Z'Z + o2Ift— & рр', Ср = О, (4.27) п2 п где Е0Д = of. Непосредственно использовать (4.27) не- возможно, так как С участвует в этом выражении неявно. В параграфе 4.8 показано, как матрица С может быть вы- ражена из (4.27) явно. Там же даются приближенные фор- мулы для нахождения дисперсий оценок аор. В [72] подробно изучена оценка ММП для регрессии yt = apct а2 для конечного п, в частности построена при- ближенная функция распределения этой оценки. 146
Упражнения 4. 3 1. Найдите оценку ММП для а в регрессии yt = axt и t/( = = aLxt 4- а2, о/ = о2(р/, i = 1, 2. 2. Найдите оценку ММП величин zti. 3. Найдите оценку ММП для о2. 4. Примените ММП для случая, когда at полностью известны. 5. Как направление минимизации отклонений зависит от <р;? 6. Докажите, что для нахождения оценки ММП в регрессии со свободным членом надо сначала центрировать матрицу наблю- дений. 7. Докажите, что ранг матрицы в теореме 4.1 не более т. 4.4. Метод группировки Этот метод был впервые предложен А. Вальдом для случая парной регрессии [193]. Суть его заключается в том, что наблюдения разбиваются на две группы, а оценкой рег- рессии является прямая линия, проходящая через центры групп. Итак, допустим vt = 9t + St! wt — xt + etJ yt = a±xt + a2, t = 1, ..., n. Схема (4.28) соответствует общей схеме (4.1) для т = 2 со свободным членом а2. Разобьем п пар наблюдений (wt, vt) на две группы Gl и б2; число элементов группы G± обо- значим через nlt G% — через п2, пг Ц- п2 = п. Найдем центры этих групп: <4 = — 2 “V’ = ~ 2 ”1 (ео, teG, (4.28) Соединим центры прямой; угловой коэффициент этой пря- мой а{ берем в качестве оценки метода группировки (МТ) af, свободный коэффициент прямой а\ — оценка МГ пара- метра «21 (рис. 4.3). Очевидно, а\ — — с*)/^ — сг)- В дальнейшем будем интересоваться только оценкой угло- *В задаче 7 упражнения 1.5 необходимо было показать, что в классической регрессии подобный метод приводит к несмещенным и состоятельным оценкам, но менее эффективным, чем оценки МНК. 147
вого наклона а\. В [193] доказано, что если группировка не зависит от ошибок ef и lim inf | х2—xt | > 0, (4.29) n->00 где *2==—- 2 xt’ *i=~ 2 xf n2 teo2 ni teGi то оценка состоятельна. Доказательство весьма простое. Ниже мы его проведем для более общего случая. А. Вальд построил доверительные интервалы для параметра [193]. М. Бартлетт, например, предложил вместо двух групп рас- смотреть три [81]. Он разбивает п пар наблюдений (wt, vt) на три группы: Gx, G2, G3 с соответственным числом эле- ментов «J, п2, п.3; + /z2 + п3 = п. В качестве оценки ах Бартлетт рассмотрел S Vfln3~ 2 »t/"l b = -^------------------- (4.30) 2 Wl/n3— 2 Wl/rii t e o3 tea, Обозначим числитель (4.30) через b2, знаменатель — blt аналогично ^1==2^(/»з—^2=2ус/н3— Gi G3 Gi легко проверить, что = d2/d]. Докажем, что при усло- вии (4.29) оценка Ь состоятельна. Для этого покажем, что 148
plim b2 = d2, plim b1 = d1. Поскольку et в разных группах независимы, то Е (&а-4)2= о2 (1/и3 + 1/Л1) -> 0; Е — dj2 = о2 (l/n3 + 14) 0, если min 4, п3)-> оо при п->оо. Далее, plim b = = plim &2/plim b-i = djdr = aj, если предел в знаменателе не равен нулю, т. е. если liminf ^xt/ns— Sxf4 > 0> I Ga g, I (4-31) что совпадает с условием (4.29) для двух групп. Условие (4.31) означает, что средние х для разных групп должны быть асимптотически различимы. Интуитивно понятно, что в противном случае информация основывалась бы только на случайных ошибках и ожидать состоятельности b трудно. Условия (4.31) и независимость ег при разбиениях на группы—довольно жесткие условия. Например, разбиение на группы не может быть случайным: условие (4.31) при этом нарушится. Формально нельзя воспользоваться раз- биением на группы после ранжирования wt, так как при этом будут зависимыми г. Оптимальному выбору групп разбиения посвящен ряд работ 1110, 190, 155]. Авторы их сходятся на том, что опти- мальным разбиением является разбиение на три равные группы. Приведем табл. 4.3 из [155]. Способ группировки, основанный на ранжировании, предложен в [166], где рассмотрена структурная схема, т. е. xt и yt случайны, причем е( и xt одинаково распределе- ны (е{ имеет функцию распределения Flt xt — F2). Итак, пусть wt ранжированы; авторы предлагают две оценки для ах. Первый метод: допустим, известны такие два числа А и В, что Р {wt < А} > 0, Р {wt > В} > 0. Определим две группы следующим образом: Gi = { (wt, vt):wt < A), G3 = {(&yf, vt): wt > B}. Оценка b (4.30) при таком разбиении приводит нас к оценке fj. Второй метод: пусть заданы два положительных числа 1 Можно проверить, что e(1) = min е(, В(п) = тах е( будут зави- симыми при независимых еь е2; ..., еп. 149
Таблица 4.3 Плотность распределения Область изме- нения X Оптимальные значения Эффектив- ность rijn П3/п 1 Нормальное — - X V 2л Хехр(—х2/2) — 00<Х<00 0,27 0,27 0,81 Прямоугольное 1/2 и<1 0,33 0,33 0,89 Полуокружность 3/4Х Х(1—х2) |х|<1 0,31 0,31 0,86 [/-образное 10/9(1/4+ +х*) |х|< 1 0,39 0,39 0,93 J-образное е—2—х —2<х<оо 0,45 0,15 0,79 Скошенное 96х3е~х/2 0<х<оо 0,36 0,19 0,80 Pi> Pi + Рч 1- Группы Gx и G3 определяются следую- щим образом: Gi = {(ayf, vtY t < «Pi), G3 = {(ayf, vtY / >(1 — p2) n}. Соответствующую оценку обозначим f2. В [166] доказаны следующие теоремы о состоятельности оценок Д и f2. Теорема 4.2. Пусть ц +/ v такие, что P{ii С г, v) = 0. Тогда Y состоятельна тогда и только тогда, когда Р {Л — v < xt +/ А — ц) = Р {В — v < xt +/ В — ц} - 0* Теорема 4.3. Пусть <рР1 и <р;’2 — и р2-квантили распределения wt. Тогда состоятельна тогда и только тогда, когда Р {фР1—v< xt С cpp>—pt) = == Р [ф'-Рг — V < Х( гр' “р= —|х) =0. Как видн о из теорем, основным условием состоятель- ности оценок является ограниченность ошибок и истинных значений xt. Эти условия не выполняются, когда ошибки распределены по нормальному закону. 150
В [177] предлагается групповая оценка МНК- Для ее нахождения выборку разбивают на группы, для каждой группы находят среднюю, а затем, используя эти средние, находят оценку МНК- Очевидно, разбиение на две группы приводит к оценке Вальда. В той же работе приводится плотность распределения групповой оценки МНК, эта плотность совпадает с плотностью обычной оценки МНК- В статье С. А. Айвазяна и И. М. Богдановского [2] также рассматривается случай оценивания парной зави- симости (4.28), однако их условия ограничительны. Так, требуется, чтобы истинные значения были упорядочены: М < х2 <. ... < хп, оценки дисперсий и о* известны независимо от схемы (4.28), разброс ошибок ef был мень- ше разности xf+1 — xt. В этих условиях доказывается асимптотическая нормальность оценки метода группиров- ки, на основе которой строятся доверительные интервалы и проверяются статистические гипотезы. Нетрудно обобщить метод группировки на общий случай множественной регрессии. Метод группировки для многомерного случая. До- пустим, у^ 4“ -•• “Ь ttm-i Xt,m—1 “Ь ССтХ(т “Ь ®т+1- Разобьем п векторов sf = (yt, wtl, ..., wtm)' на m + 1 групп Glt G2, Gm+1. Пусть число элементов i-й груп- пы равно ni, = п. Найдем центр каждой группы: сг = — 2 s,, 1 = 1, 2, ..., т + 1 - Проведем через точки г [с4 в пространстве гиперплоскость у = + ... + «mxm + «m+i- Векторы сг принадлежат этой плоскости, поэтому с11 = а1с1г + ••• + ат с1, т+1Д ат Т1'> с21 = а1 с22+ ... + <xm с2, m+i +«т+1; ст+1, 1 -‘а1 ст+1, г+ ••• + ат ст+1, т+1 + ат+1- Обозначим СтХ£т+’)= [сС], с — первый вектор-столбец матрицы С, ct = ctl — cm+1(1, i = 1, ..., m; Сц = = Ci] — cm+1J, i = 1, ..., m; j = 2, .... m+1. Тогда a-i — (Q) 1C, flm+i Cn C11C12 ... — dmci,m+i вСТЬ m _ оценка метода группировки. 151
Найдем оценку метода группировки для регрессии-при- мера (1.5). Для этого 15 наблюдений разобьем на 4 груп- пы. Пусть в первую группу войдут первые четыре наблюде- ния, во вторую — вторые четыре, в третью — третьи четы- ре, в четвертую — последние три наблюдения. Матрица С и вектор с при таком разбиении будут следующими: Г122.3 с 63,03 17,63 14,21 3,652 ’ 7,787 2,129 3,697 0,8042 ’67,29" 36,58 13,53 Оценка группового метода для (аг, аг, а3) равна (0,229; 1,49; 4,93), оценка а4 = — 107,9, т. е. yt = 0,229 xtl + 1,49 xt2+ + 4,93 xi3 — 107,9. Оценка группового метода отличается от оценки МНК» Каковы основные преимущества и Рис. 4.4. Пример неудовлетворительного разбиения на группы недостатки группового метода? Преимущест- ва два: 1) простота, 2) при некоторых ус- ловиях разбиения этот метод дает со- стоятельные оценки. Однако групповой ме- тод имеет один серь- езный недостаток: эффективность его резко зависит от раз- биения наблюдений на группы. В частно- сти, не любое разбие- ние ведет к состоя- тельным оценкам. Для того чтобы раз- биение было эффективным, необходима дополнительная априорная информация о значениях xt, t — 1,2, ..., п. На рис. 4.4 показана ситуация плохого разбиения: по- лученная прямая при таком разбиении, очевидно, является неудовлетворительной. Иногда, в особенности для временных рядов, реальным является наличие в рядех4 тренда. В этом случае априорная информация заключается в том, что ряд xt «в среднем» 152
можно считать монотонным. Удовлетворительным тогда является следующее разбиение: 01 = {(*t. f/t), t = 1, «1), G2 = {(xf, t/t). t = ra2, n9 + 1, n}. He пытаясь быть строгими в рассуждениях, покажем, что если xt возрастают с большой вероятностью, то условие со- стоятельности (4.31) при указанном разбиении на группы выполняется. В силу возрастания ряда {xt} для каждого t х/+1 — xt d > 0, поэтому приблизительно У xtl(n — —^Xt/n^dln - ^-+Па')>0, feG, Gt \ 2 1 и условие (4.31) заведомо выполняется. Упражнения 4. 4 1. Докажите, что если группировка не зависит от ег и (4.29) выполняется, то оценка Вальда состоятельна. 2. Допустим, оценка Вальда аг состоятельна. Будет ли оценка а? = у — а\х состоятельной оценкой «2? 3. Будет ли оценка Бартлетта параметра а2 состоятельна, если условие (4.31) выполняется? 4.5. Метод инструментальных переменных Допустим, помимо переменных yt и xti имеется другая переменная зц, которая также измеряется с ошибкой, а наб- людаемая величина равна: Pti = sti + Ttii (4.32) где cpf, для простоты, опять интерпретируем как ошибки измерения, т. е. {срег} независимы между собой, независи- мы с {|f, et,} и Е (pt; = 0, о2 (срег) = vf. В матричной запи- си (4.32) перепишется следующим образом: Р = S + т|>, (4.33) где Р, S и т|> — матрицы порядка пХт, первая и последняя стохастические, а вторая детерминированная. Другим су- щественным предположением, накладываемым на S, явля- ется поведение этой матрицы при п ->оо: lim — S'X = B, I В|^=0, lim — S'S = H, | HI^O. (4.34) n n 153
Переменные, удовлетворяющие (4.33) и (4.34), называем инструментальными (ИП). Объяснение термина дано ниже. Теперь вместо оцещи МНК рассмотрим другую оценку: aH = (P'W)~1 P'V. (4.35) Допустим, X сил1но регулярна, т. е. lim (Х'Х)/п = А. Докажем, что оцеша аи при условии (4.34) в отличие от оценки МНК буде'- состоятельна. Имеем aH = (P'W)-ip'(Wa + T]) = a + (P'W)-1P'i]. Найдем предел по зероятности: plim — P'W=pliii — S'X + plim — S'e + plim — if'/X -Ц n П II n 4- plim — n Из существования пределов (4.34) следует, что последние три слагаемые равзы нулю, поэтому plim — Р' W= В. п Далее, plim-^- р т] = plim J_ s'i]+ plim — nun В силу независимости г|> от i] и условия (4.34) этот предел также равен нулю, поэтому plim аи = а J-plim f—P'W^ plim —Р'ц = а, \ n J II т. e. оценка аи состоятельна. Что означает условие (4.34)? Покажем, что оно влечет асимптотическую сопряженность X и S. Сначала точно оп- ределим, что понижается под сопряженностью двух матриц X и S. Матрица R порядка тХт называется матрицей со- пряженности матриц X и S, если (/, /)-й элемент этой матри- цы равен коэффициенту сопряженности между i-м столб- 154
Тогда матрица сопряженности между X и S равна: R = R(X, S)= Dr1/2 X' SDf1/2. Покажем, что при п ->оо матрица R имеет предел. Дей- ствительно, = Diag (А)~1/2 В' Diag (Н)“1/2 = R*, (4.36) очевидно ] R* | 0. Теперь понятно, почему матрицу S называют матрицей инструментальных переменных. Переменные sti являются «заменителями» переменных xti, причем их ошибки изме- рения независимы от ошибок измерения матрицы X. Это влечет независимость наблюдаемых переменных W и Р. Если случайные отклонения трактуются как ошибки изме- рения, то подобная независимость естественна. В противном случае мы не вправе ожидать независимости Р и W. То, что S является удовлетворительным заменителем X, обеспечивается условием сопряженности (4.34). Таким об- разом, S выступают в качестве инструмента измерения X, поэтому соответствующие переменные и называют инстру- ментальными. В качестве примера инструментальной переменной рас- смотрим регрессию из примера с химическим эксперимен- том параграфа 1.1. Допустим, измерение температуры реак- ции термометром невозможно. В качестве инструменталь- ной переменной для температуры реакции может выступать спектр некоторого вещества. Таким образом, вместо тем- пературы в регрессии (4.21) подставляем некоторую харак- теристику спектра. При этом считаем, что ошибки в опреде- лении спектра независимы с остальными ошибками. Со- пряженность температуры и спектра следует из их тесной взаимосвязи. Таким образом, инструментальные переменные должны обладать двумя непременными условиями: а) для каждого t вектор (pn, pt2, ... р1т) не зависит от вектора (еп, е(2, •••> Ejm); б) матрицы S и X асимптотически сопря- жены. Проверить эти условия на практике невозможно. 155
Поэтому неудивительно, что метод инструментальных пере- менных неоднократно подвергался критике. Можно указать на три трудности применения этого метода: во-первых, вы- бор инструментальной переменной произволен, поэтому имеется возможность получения большого спектра оценок, соответствующих разным инструментальным переменным. Во-вторых, очень трудно проверить предположение о неза- висимости инструментальной переменной от ошибок изме- рения. В-третьих, подход инструментальных переменных возводит свойство состоятельности в ранг особой важности, которое не является таковым в случае больших выборочных дисперсий. В общем случае применение метода ИП весь- ма проблематично. В случае же временных динамических рядов примене- ние метода ИП может быть иногда весьма эффективным. Для таких рядов матрица X, как правило, самосопряжена. По- этому, если в качестве инструментальной переменной взять матрицу, сдвинутую на единицу времени, то мы вправе ожидать хороших свойств оценок метода ИП. Обозначим X<n-i)xm — матрицу X без последней строки; пусть х° = = (х01, ..., хот) — вектор-строка истинных значений х, соответствующая первому моменту времени. Обозначим — матрица пхт. Аналогично введем пХт матрицы Wo и е0. Предположим, что сопряженность между Хо я X ненулевая, в частности существует предельная матрица сопряженности R: limDF1/2X'XDx-1/2=;R, |R|^0, (4.37) где Dx = Diag (Х'Х). Далее легко проверить, что из усло- вия регулярности матрицы X следует регулярность и мат- рицы Хо, т. е. условие (4.34) выполнено: lim —ХдХ0 = lim — Х'Х = А. (4.38) п п Больше того, 1 / Dx \ 1/2 , Dx \ 1/2 lim— х: Х = lim| — ) R| —| = DV RDA/2, (4.39) п \ п ) \ п / где Da = Diag (А). В качестве оценки ИП рассматриваем a0 = (W' W)-iW' v. (4.40) 156
Матрица ИП Wo не обладает в точности теми свойствами, которые мы требовали от инструментальных переменных. Ошибки измерения для Wo, {е» = е^,,}, вообще говоря, зависят от ошибок измерения {£f, егг}, однако для каждого t эти ошибки независимы. Оценка (4.40) состоятельна. Рас- смотрим теорему. Теорема 4.4. Если. X строго регулярна, а условие (4.37) выполняется, то оценка (4.40) состоятельна. Доказательство дано в параграфе 4.8 Может быть доказана асимптотическая нормальность оценки (4.40). Запишем Гп(ао-а) = (^Т^К \ п ) у п Из доказательства теоремы (4.4) следует, что вероятност- ный предел (W'W/n)-1 — невырожденная матрица. Вектор W'rj/j/n разлагается на сумму четырех векторов: wo Ч/К« = хо VKп—Xо е«/К« + Sgl/j/n — So s«/ Vn. Легко проверить, что первые три вектора имеют нормаль- ное распределение с нулевым математическим ожиданием. Можно показать, что и последнее слагаемое асимптотичес- ки нормально х. Таким образом, можно считать асимптоти- чески нормальным и сам вектор ц (а0 — а). Для практических применений оценки а0 необходимо, хотя бы приближенно, знать ее матрицу ковариаций. В па- раграфе_4.8 дана асимптотическая матрица ковариаций век- тора ]/ц (а0 — а). На ее основе может быть получена при- ближенная матрица ковариаций вектора а0 — а: Е (а,-а) (ао-а)' « (W' W)-1 [h (W' W) + + n^+s2)S](W'W0)-1, (4.41) где 2 а‘ s*+i; i= i S = Diag (s|, sf,..., s£+i), a st — оценки at или же их точные значения, если at из- вестны. Можно показать, что при at = 0, i = 2,..., т +1, Необходимо применить центральную предельную теорему с зависимыми слагаемыми. Доказательство проводится так же, как и в работе [143]. 157
формула (4.41) превращается в точную. Приближение ее будет тем точнее, чем меньше а/, I = 2, .... т + 1. В [101] предлагаются два метода оценивания зависимо- стей с ошибками в переменных, каждый из которых есть комбинация метода ИП и МНК- Автор рассматривает про- стейший случай зависимости: yt = axt, t = 1, ..., п', vt = yt+ It, о2 (Ъ) = a2; wt = xt + ef, a2 (e4) = aj, причем xt регулярны, т. e. lim ILxtln = A > 0. Пусть zt — n->00 инструментальная переменная, такая, что zt — pxt + + xt, где vt — случайная ошибка, Evf = 0, a2 (vt) = A1, независима co всеми остальными ошибками ег. Для оценки МНК а и инструментальной переменной а0 = = '^fZfllLztWt находится асимптотический квадрат откло- t нения. На основе сравнения асимптотического квадрата отклонения предлагается выбирать либо а0, либо а. Вторая оценка есть линейная комбинация оценки МНК и ИП: Ха + (1 — А) й0, 0 < А 1. Вычисляется асимптотический квадрат отклонения этой оценки от истинного значения и А выбирается таким обра- зом, что эта величина обращается в минимум. Оценки сравниваются здесь методом Монте-Карло. Вто- рая оценка оказалась более предпочтительной. Упражнения 4. 5 1. Приведите примеры инструментальных переменных в эконо- мике. 2. Будет ли оценка (4.40) несмещенной? 4.6. Оценка Картни—Вайссмана В [143] Е. Картни и И. Вайссман предложили оценку па- раметров в регрессии с ошибками в независимых пере- менных yt = + a2 в предположении (4.37). Обобщим их результат и получим соответствующую оценку в общем 1 Это условие не ограничивает рассмотрения. 158
виде. Итак, допустим предел (4.37) имеет место, матрица X сильно регулярна. Рассмотрим вероятностный предел plim-i-(W0—W)'(W0—W), (4.42) где Wo = Хо + е0, W = X + е. Вычисление этого предела проводится стандартным об- разом, он равен 2A + 2D-Dk/2(R + R') DV2, (4.43) где матрицы A, DA и R имеют прежний смысл; D — диа- гональная матрица, (/, ()-й элемент которой равен о^-щ. Теперь найдем предел plim — (Wo—W)' v, (4.44) который вычисляется так же, как и (4.42). Он равен Dk/2RDl/2a—Аа. (4.45) Введем следующие обозначения: Ai = — W'W; А2=— W'v; А3 = — (Wo — W)' (Wo — W); n n n (4.46) A4 = — (W0-W)'(v0-v); P = 2A--Dl/2(R + R')Dk/2. n Тогда формально можно записать: Ах = А + D; А2 = Aa; А3 = 2 D + Р; А4 = Pa. (4.47) Решая эту систему относительно а, найдем а = (2АХ - Аз)’1 (2А2 — А4). (4.48) Оценкой Картни — Вайссмана назовем статистику aKB = [2W'W-(W0-W)'(W0 — W)]-1[2W'v — -(W0-W)'(v0-v)], (4.49) которая получается после подстановки (4.46) в (4.48). Со-» стоятельность (4.49) можно проверить непосредственно, все необходимые пределы найдены ранее (см. параграф 4.5). В [143] доказывается, что оценка (4.49) для случая простой регрессии асимптотически нормальна; там же при- водится асимптотическая дисперсия оценки. Картни и Вайс- сман доказали, что их оценка более эффективна, чем оцен- ка а0 в асимптотическом смысле. 159
Упражнение 4.6 1. Найдите оценку аКБ для регрессий yt = axt -f- et и yt = = аЛ + a2 + ei- 4.7. Сравнение оценок Отличительной чертой всех рассмотренных оценок явля- ется требование наличия априорной информации. Априор- ная информация о системе (4.1) может выступать в разных видах. Так, в случае ММП мы'должны знать дисперсии ве- личин хотя бы с точностью до постоянного множителя. Ес- ли таковой информации не имеется, то оценок ММП не существует, а оценки ортогональной регрессии не являются состоятельными. В методе разбиения выборки на группы (А. Вальд, М. Бартлетт) мы должны иметь дополнитель- ную информацию о неизвестных истинных значениях неза- висимых переменных. В противном случае оценка группово- го метода будет неудовлетворительной. В методе инстру- ментальных переменных информация выступает в виде зна- ния инструментальных переменных, на которые наклады- ваются жесткие условия. В частности, в оценках а0 и аКв мы требовали асимптотической автосопряженности независимых переменных. По-видимому, без дополнитель- ной информации невозможно вообще состоятельно оценить параметры зависимости (4.1), даже в предположении силь- ной регулярности матриц X. Основным критерием допустимости той или иной оценки является ее состоятельность. Однако состоятельность — свойство теоретического характера. Ясно, что несостоятель- ная оценка для данного, конкретного п может быть намно- го лучше состоятельной оценки. И это скорее будет наблю- даться для не очень больших п. Этот вывод, в частности, подтверждается следующими расчетами. Каждая переменная регрессия (1.5), по предположению, измерялась с ошибкой. Стандартные отклонения этих оши- бок приведены в табл. 4.1. Объясним их выбор. Допустим, точность весов, измеряющих выход реакции, равна 10 г. Тогда = 140 кг 280 г, а ошибка измерения лежит в пределах от — 0,005 до 0,005 г. Поэтому можно предполо- жить, что, например, равномерно распределена на интер- вале (— 0,005;”0,005), равномерно распределена на интер- вале (140, 275; 140, 285), а истинное значение 140, 275 <«А< < 140, 285. При этом стандартное отклонение равно: оу = 0,01/jKi2=0,00289. Аналогичное рассуждение про- 160
водим для остальных случайных величин vt, wtt. Таким образом, случай соответствует предположению о точно- сти измерения до 0,01. Случай 32 соответствует гипотезе о точности измерения до 0,1 и т. д. Случай 36 соответствует экстремальной ситуации, когда точность весов равна 100 кг, а точность термометра 100°. Набор стандартных отклонений 38 отвечает ситуации, когда у, xlt xs измеряются на одних весах с точностью деле- ния 1 кг. Температура при этом замеряется не- точно, ее точность рав- на 10°. Для данной регрес- сии для различных ва- риантов Зх — 38 ими- тировались измерения yt, Xtl, xt2 и xts. в каче- стве истинных значений выбирались значения из табл. 1.1. Для каждой имитации (всего было 500 испытаний) вычис- лялись оценки МНК. Рнс- 4-5- Распределение мест 6 оценок ММП, ИП, ортогональ- параметров регрессии-примера ной регрессии (ОР), Картни — Вайссмана (КВ), группового метода (ГМ). В групповом методе в первую группу вошли наблюдения первых четырех экспериментов, во вторую — наблюдения вторых четырех экспериментов и т. д., в последнюю — последних трех экспериментов. В качестве «истинных» параметров были взяты параметры cq = 0,3974; а2 = = 0,229; а3 = 3,746; = — 17,083. После 500 испы- таний были вычислены средние квадратов отклонений оце- нок от истинных значений, т. е. 500 где at — значение j-й оценки (/ = 1, 2, 3, 4, 5, 6) в t-м ис- пытании. Во всех случаях лучшей оказалась оценка МНК- Распределение мест показано на рис. 4.5. Чем можно объяс- нить на первый взгляд странный вывод при сравнении эф- фективностей шести оценок? Ведь все оценки, за исключени- ем оценки МНК. были при некоторых условиях состоятель- 6 Зак. 2067 161
ны. Дело в том, что объем выборки в пашей регрессии очень невелик, равен 15. А при таких объемах несостоятельные оценки могут быть лучше состоятельных. Приведенные ре- зультаты статистических испытаний с регрессией (1.5)— хорошая иллюстрация этому. Если бы объем выборки в рег- рессии (1.5) был равен 100 или более, то результаты по сравнению оценок, возможно, были бы другие. Исследование статистических свойств оценок, рассмот- ренных в этой главе, практически не проводилось. Иссле- дованы лишь простейшие зависимости yt = axt и yt = = ахх4+а2 (оценка МНК [177], оценка ММП [72]), которые на практике применяются весьма редко. 4.8. Доказательства 1. Доказательство теоремы 4.1. Прежде всего докажем следующий факт: пусть Ап — стохасти- ческая симметричная матрица порядка тхт, причем plim Ап = А — детерминированная матрица, тогда plim Z,mln (An) ~ ^min (А) следует из непрерывности характе- ристических чисел относительно элементов матрицы [53, с. 206]. Отсюда plim %mln (А„) Xmijl (plim Ал) Дшп (A). (4.o0) Перейдем к доказательству теоремы. Поскольку раз- мерность матрицы А равна kXk, а ее ранг т = k — 1, то А| = 0. Для любого истинного значения вектора парамет- ров 0, удовлетворяющих (4.15), имеем Ар = lim— Z;Z„₽ = 0, ||р|| = 1. п Поскольку rank А = k — 1, то существует единственный вектор ||р|]= 1, для которого Ар = 0. Пусть (ЬорД— — любая сходящаяся подпоследовательность последова- тельности (Ьор)п, причем Р {lim (Ьор)й. = у} = 1. Сильная сходимость (Ьор)й к у влечет сходимость по вероятности, т. е. plim (Ьор)ь = У- Докажем, что тогда у = р. Для это- го достаточно показать, что Ау = 0. Ранее было показано, что plim— V' V = А До2 Ift, поэтому Ау — (plim — V'V— п \ k — o2Ift 'j р I i m (Ьор)л = р 1 i m V' V (bOP)ft—o2y = J k = plim %mln(1- V'V) (bop)R. 162
С учетом (4.50) plim Ч1л (4 v'vMm»n (A+o2U \ к / поэтому Ay Klinf 4 V' v) plim (bop)ft — o2y = o2y — oy = 0. \ k ) Теперь покажем, дто lim (bop)„. 0 с вероятностью 1. n->0O Пусть w — любая точка выборочного пространства. По- скольку || bop(w) || = 1, то найдется хотя бы одна сходя- щаяся подпоследовательность (ЬОр),( ->у. Но было пока- зано, что тогда у=р. Значит, с вероятностью 1 lim (bop)n = - ₽• 2. Нахождение матрицы С из выражения (4.27). Перепишем (4.27), подставляя вместо Z ее оценку Z, вместо р — его оценку Ьор = Ь, вместо о2 — оценку о2 = Л min (V'V)/n&: — Z'ZCZ'Z= — Z'Z + o2Ift—o^bb', (4.51) n3 n причем С находим из условия Cb = 0. Обозначим К Л2 ^ ... К — характеристические числа матрицы Z'Z, К = Kin (Z'Z) =0. Характеристические векторы, соответствующие этим числам, обозначим рь р2, ..., p/t =b. Пусть Р — ортогональная матрица, столбцы которой — суть х.в. матрицы Z'Z. По определению Z'Z — PAP', где Л = Diag (Ль А,т, 0). Умножим (4.51) слева на Р' и справа на Р, получим — АР'СРЛ=; —Л + о21—^Р'ЬЬ'Р. (4.52) п2 п Обозначим Л~ = Diag(1/Лп---> 0), Е~ = Diag (1,... , 1,0). Умножим (4.52) слева и справа на Л“, получим ^-ЕР'СР'Е = — Л-4-о2(А-)2—о2А-Р'ЬЬ'РЛ- (4.53) н3 п Обозначим РЕ- = Ро—матрица, совпадающая с Р, за исключением последнего столбца, который равен нулю. Очевидно, PqP0 = P0Pq = Е-. Умножим (4.53) слева на Ро и справа на Р6, получим 4 Со=4 есе =—ро л- р ' + о2 р0 (Л-)2 р; - «з п2 п — о* P0A-bb' PA-PJ, (4.54) 6* 163
где матрица Со совпадает с матрицей С, за исключением по- следней строки и последнего столбца, которые в матрице Со равны нулю. По построению матрицы Р, в которой по- следний столбец равен Ь, имеем РЬ = (0,0,..., 1)' откуда Л“РЬ = 0, что в свою очередь ведет к тому, что последнее слагаемое в выражении (4.54) обращается в нуль. Оконча- тельно матрица ковариаций для (blt b2, ..., Ьт) может быть приближенно определена как covto, ..., М^Р0Л-р; + о2Р0(Л-)2Р; П. (4.55) Для того чтобы найти дисперсию bh — Р/, (т. е. cfth), вос- пользуемся условием СЬ = 0. Разбивая матрицу V и век- тор b на подвекторы, получим С = Со Со со chk. bo _ Со b0 + с0 bk . .со b0+ cftft bk O' 0 (4.56) здесь Co — матрица mxm, c0 — вектор-столбец mxl, b0— вектор-столбец m X 1. Из выражения (4.56) получаем Cq = Cobo, откуда ckh ^2 boC0b0. Часто нас интересуют параметры, нормализованные ус- ловием |3j = 1, что соответствует уравнению исходной мо- дели (4.1). Поэтому нас также интересуют асимптотичес- кие дисперсии btlbi, i = 2,..., k. Их можно вычислить на основе матрицы (4.54). Рассмотрим отношение bi!bl как функцию двух переменных. Разложим эту функцию в ряд Тейлора до линейных членов в окрестности (рг, pj, тогда bj bt Pi. Pi pi pi откуда Е('Г"Т'Г=Е[(&г“рг)Т~(&1'р1)|г12 = \ bi bL ) L Px p* ] = -2 > E(fe;-p;) (&! - Pi) + E (^-px)« = * = 2, .... m. (4.57) Pi \ Pi Pi / С помощью формулы (4.57) можно находить приближенные дисперсии оценок Ьг. Для этого необходимо вместо истин- ных значений Р; подставить в (4.57) их оценки bt. 164
3. Доказательство теоремы 4.4. Имеем а0 = а + (W; W)-1 w; Т) = а + [YYY'r1 Ill \ n / п Далее plim = plim J_ (х; + 8') (X Д е) = lim х; Хо Д п п п Д plim — X' 8 Д plim — в' X ДрПт — в' в. п п п Первое слагаемое равно (4.39); второе и третье — нули, не- трудно видеть, что и последнее слагаемое — нуль. Итак, plim^-^- = Dl/2RD\/2 п — невырожденная матрица т х т. Далее, plim — W' т] = plim — X' |—plim — X' ва Д Д plim — —plim— в' ва, п . п Первые три предела, очевидно, равны нулю, последний так- же равен нулю. Окончательно plim а0 = а Д (plim Wf)Wl Xplim — а. \ п j п 4. Доказательство формулы (4.41). Снача- ла найдем lim — Е (W' n) (W; ц)' - lim W; ipf Wo. п п Имеем Y (Wo1)) (я' w0) = -у- (Х'о х; еа+б; ва) (|'х0— —а' 8' Хо ДI' £0 — а' 8' £0) = — X; IV Хо — — X; |а'е'Х0+ 11 п + — х; п' Во ~ — х; |а'£'Во- — х; ва|'Х0 + п п п + — X' ваа' в' Хо--— X' ва|'е0 + — X's.aa'g.'e.o — п п п 165
--- е' 8<х£' Х0‘4- — 8' гаа'е' Хо-- 80' ва%' е0 4- п п п + —в; ваа'в'80 4-— в'й' Хо~ — в; £а'е' Хо4- п п п 4-—% и' ®0 + — в; е' 80. п п Рассмотрим первое слагаемое. В силу предположения Е||' — о21п, поэтому — ех; х0=& х; ха -> о2 а. п п Математические ожидания второго—пятого слагаемых рав- ны нулю в силу независимости £ и 8. Далее имеем E(8aa'8')ift = E2 ®м8*за7аз» h i.i В этой сумме слагаемые не равны нулю, только если / — s и i = k. При этом Е (eaa'8)ii = 2E®f/«/ = П0‘ j j этому — E(X'eaa'в'Xo)-> 2 °/a/?‘A> n Математическое ожидание седьмого слагаемого в силу не- зависимости 8 и | также равно нулю. В восьмом слагаемом типичным является присутствие ей. Предположим, что Еей = 0, для этого достаточно предположить, что eti имеют симметричное распределение относительно нуля. Тогда м.о. восьмого слагаемого также равно нулю. Девятое слагаемое равно нулю в силу независимости s и £. М. о. десятого и одиннадцатого слагаемых равны нулю по тем же причинам, что и восьмого. Далее имеем для i, р = 1. т Е(8^8аа'8'8о)г,=Е S ®j-i, i ®jhEs-i.p®sr «л а,- з. к, i.r Слагаемые в последней сумме не равны нулю, только если / — s, i = р, г — k. Тогда Е(воeaa' в'80)гг — Е 2 3 <)2Ei-= j—ik=i — noi^cskal. к 166
Поэтому 1 т — Е (ej есса'е'е0)-> Vo/a’ ZI i=i М. о. тринадцатого и четырнадцатого слагаемых в силу не- зависимости 5 и е равны нулю. Для пятнадцатого слагае- мого Е (еб |80)г;1 == Е 2 е;_1, г ss_j, гЛ - по2 о* 1, S при i = k и равно нулю при i =# k, т. е. М. о. последнего слагаемого равно нулю. Обозначим /1=О2 + 2 i=l в силу независимости | и е тогда окончательно lim—EW^ т]т]' W0 = /iA-}-/iS-}-cr2S=/iA-|-(/i-|-o2)S, л. Еп(а0—а) (а0-а)' ->(Dl/2RDV2)"lX X [/iA + (/i+o2)S](dV2R' dV2)-1. Глава 5 РОБАСТНЫЕ ОЦЕНКИ 5.1. Робастные оценки параметра положения В условиях нормальной гипотезы метод наименьших квадратов является оптимальным. Отметим характерную особенность нормального распределения — основная мас- са распределения сосредоточена на конечном интервале 167
(—За, 3 а), Вне этого интервала находится лишь 0,27 % распределения \ Другими словами, нормальное распреде- ление имеет «легкие хвосты». Таким образом, принимая гипотезу нормальности, мы автоматически предполагаем, что основная масса отклоне- ний сосредоточена на некотором интервале. Вероятность большого отклонения при этом весьма мала. В реальной си- туации эта гипотеза является чересчур жесткой. Дело в том, что предполагаемая модель редко является абсолют- но точно специфицированной; в частности, наблюдения мо- гут быть засорены. Разумнее поэтому предположить, что от- клонения с большей вероятностью могут принимать и боль- шие значения. Это заставляет нас отказаться от распределе- ния с легкими хвостами (в частности, от нормального рас- пределения) и перейти к распределениям с тяжелыми хво- стами. Оценки, ориентированные на распределения с лег- кими хвостами (в частности, оценка МНК), в новой ситуа- ции оказываются далекими от эффективных. В распределе- ниях с тяжелыми хвостами более эффективными будут ме- нее чувствительные оценки, а именно такие, которые не ме- няют резко своих значений при возникновении боль- ших отклонений (выбросов). Такие оценки будем называть робастными (от английского слова robust — устойчи- вый), или устойчивыми. Робастные оценки устойчивы от- носительно априорного распределения отклонений. Если отклонения не засорены, т. е. вероятность больших откло- нений мала, робастные оценки будут менее эффективны, за- то если отклонения содержат выбросы, то эти оценки будут малочувствительны к ним, а потому более удовлетворитель- ными. Таким образом, переходя к распределениям с более тяжелыми хвостами, мы теряем в эффективности, но при- обретаем в надежности. Соответствующие методы будут менее чувствительны к ошибкам спецификации отклоне- ний регрессии. Специально проблеме робастного (устойчивого) оцени- вания посвящена книга Б. А. Смоляка и Б. П. Титарен- ко [621, а также работы [56] и [32]. Чтобы не усложнять проблему робастного оценивания техническими деталями, рассмотрим сначала простейший случай: оценивание параметра положения. 1Как следует из неравенства Чебышева; максимальный процент расположения вне этого интервала равен 11,1, что соответствует рас- пределению, сосредоточенному в двух точках. 168
Итак, пусть перед нами стоит следующая статистическая задача: наблюдения уъ у2,...,уп — независимы и одинако- во распределены с функцией распределения F (х; 0) = = Ф (х — 0), где 0 — параметр положения; 0 £ (—оо, оо). Параметр 0, определяющий «центр» распределения случай- ной величины, подлежит оцениванию. Для простоты пара- метр масштаба о считаем равным единице Е Известно, что если Ф — пропорциональна е-Л'^, т. е. выборка извлече- на из нормальной генеральной совокупности, то средняя у = Ъу>1п является эффективной оценкой в классе несме- щенных оценок 0 (см. параграф 1.4). Однако если Ф име- ет тяжелые хвосты, оценка у уже не будет эффективной. Действительно, оценка у направлена на минимизацию сум- мы квадратов отклонений: Ж-0)2. (5.1) Если же Ф имеет тяжелые хвосты, то весьма вероятно по- лучение больших отклонений е; = yi — 0; возведение их в квадрат в сумме (5.1) приведет к резкому смещению у в сторону больших отклонений. Наиболее простой способ нивелировки у состоит в сле- дующем: отбросим минимальное и максимальное наблюде- ния в выборке ylt у2,..., уп. На основе оставшихся наблю- дений найдем новую среднюю где yt — ранжированный ряд, составленный из первона- чальной выборки. Можно отбросить первые два и послед- ние два члена ранжированного ряда и затем построить но- вую среднюю и т. д. Наконец, можно задаться долей р > О и отбрасывать члены вариационного ряда, для которых i< < «р, i > п (1 — Р). Полученная средняя называется P-усеченная средняя и будет робастной (устойчивой) оцен- кой. Обычная средняя также будет неэффективной в случае, когда Ух,..., уп распределены неодинаково, и некоторые наб- людения имеют большую дисперсию, т. е. являются выбро- 1Для наглядности под параметром масштаба можно понимать стандартное отклонение наблюдений. 169
сами. Сильно реагируя на такие выбросы, у будет иметь большую дисперсию. Другой робастной оценкой является медиана. Напом- ним, что медиана выборки ylf уг, ..., уп есть величина,по левую и по правую стороны от которой лежит одинаковое количество наблюдений. Интуитивно ясно, что медиана вы- борки будет устойчивее к виду распределения генеральной совокупности, чем обычная средняя. Вес наблюдения при построении медианы не зависит от его значения и равен 1. Поэтому даже большие отклонения не так резко изменяют значение медианы, как это произойдет в средней. Мы еще вернемся к медиане как робастной оценке параметра поло- жения при рассмотрении оценок ММП. П. Хюбер [136] предложил целый класс робастных оце- нок (М-оценки). Вместо квадратичной функции в сумме (5.1) он рассмотрел минимизацию суммы вида £р(</г-0). (5.2) /=1 где р — некоторая выпуклая функция. Значение 0, кото- рое обращает (5.2) в минимум для некоторой функции р, называется М-оценкой. Легко видеть, что М-оценку 0 можно рассматривать как оценку метода максимального правдопо- добия. Действительно, пусть yt имеют функцию плотности f (Vi — б)- Тогда в силу независимости и одинаковой рас- пределенности ylt у2, ..., уп функция плотности выборки равна: F(y, 0) = П f (yi - 0). 1= 1 Если обозначить р = — In f, то после логарифмиро- вания F приходим к выражению — In F (у; 0)= 2 р(у,—0)=>min. i=i Для того чтобы оценка 0 = 0 (у) была робастной, не- обходимо чтобы р была «менее возрастающей», чем х2. На- пример, Хюбер предложил следующую функцию: Р (х) = 1 2 11^- — х2, если х < с; 2 1 с|х|---~с2, если (5.3) 170
Идея заключалась в том, чтобы вклад значений у, — 0, которые меньше по абсолютной величине некоторого поро- гового значения с> 0, в сумму измерять в квадратах от- клонений (на рис. 5.1 этим значениям соответствует интер- вал [—с, с]); для наблюдений, для которых | yt — 0 | боль- ше с, вклад измерять в более умеренных единицах — про- порционально \yt — 0|, на рисунке этим значениям соот- ветствует интервал (—оо,с) и (с, + оо). Очевидно, что если с = = + оо, то придем к оценке МНК- Можно рассмотреть целый класс оценок, соответствую- щих функциям pv (х)= = | х |v, 0 < v < 2, что приводитк минимизации сумм вида (рис. 5.2) Рис. 5.2. Различные функции р(х) = = |х|v, х>0 21^-0 Г. I 0<v<2. (5-4) Оценки 0, получаемые в результате минимизации суммы (5.4), будем называть Lv-оценками. Эти оценки малочувст- вительны к большим отклонениям yt — 0. Чем меньше значение v, тем эта чувствительность меньше. В частности, можно показать, что медиана есть Lx-оценка параметра по- ложения. В качестве р можно предложить и другие функ- ции. Большой набор функций р предлагается в [74]. Там 171
же исследуется эффективность робастного оценивания для некоторых из вводимых функций. До сих пор мы считали параметр масштаба о известным. В случае когда он неизвестен, минимизируемая сумма (5.1) трансформируется в £.Р ((у— 0)М (5.5) i= 1 где о также подлежит оцениванию. Для функции р типа | х |v введение параметра масштаба не меняет оценки (о выносит- ся за ;нак суммы). Если же р есть, например, функция Хюберц то о может существенно повлиять на оценку. Для оценивания о можно взять следующую статистику: s = медиана {\yt — М |, i = 1,2, ..., п}, где М — медиана выборки уь у2, уп. Помимо М-оценок, введенных Хюбером, существуют два других класса робастных оценок: L-оценки, основанные на упорядоченной выборке yw, у<2), ..., ум [138], и R- оценки. основанные на критериях рангов, впервые пред- ложенное Ходжесом и Леманом [128] (см. также [861, [1411, [70]). Упражнения 5. 1 1. Байте точное определение распределения с тяжелыми хвос- тами. 2. Допустим, наблюдения уц уг, ...; уп независимы и нормаль- но распределены, yi& N (р, о;), где ц — неизвестный параметр, подлежащий оцениванию, a at известны. Является ли оценка сред- него т = Zyjn эффективной оценкой? Допустим, а/ = const, i = = 1, ...;п — 1; Сп > Будет ли оценка т робастной оценкой? Какую сценку можно предложить еще? 5.2. Прэстейшие методы робастного оценивания регрессии Допустим возможность присутствия в ряду наблюдений ylt ..., выбросов, т. е. наблюдений, удовлетворяющих ис- ходной регрессии и имеющих большие дисперсии либо вообще неудовлетворяющих исходной модели. И в том и другом <лучаях включение таких наблюдений в ряд равно- правны? членов выборки ylf ..., уп приведет к заметному смещение оценок параметров и ухудшению их свойств. Как отмщает П. Хюбер [137], даже одно далеко лежащее от общей ?ассы наблюдение может испортить оценкуМНК;
более того, выбросы в случае эегрессии приводят к боль- шим искажениям, чем в задаче оценивания параметра по- ложения. Выбросы могут быть результатом нарушения ус- ловия эксперимента, неправильного измерения, засорения данных и т. п. В случае оценивания параметров положения наиболее простой способ получения робастных, т. е. устой- чивых, оценок заключался в отбрасывании ряда экстре- мальных значений выборки и оценивании параметра поло- жения по усеченной выборке. Этот метод легко обобщается на случай регрессии. Доля отсечения экстремальных зна- чений не должна быть очень высокой. Разумеется, если все отброшенные наблюдения в действительности оказались вы- бросами, то эффективность усеченной оценки только воз- растет. Однако если среди отброшенных наблюдений есть и «хорошие», т. е. удовлетворяющие гипотезам классической регрессии, то эффективность новой оценки снизится. Про- стейшим компромиссом здесь может служить отбрасывание тех наблюдений, которые приводят к максимальному и ми- нимальному отклонениям после оценивания МНК- Полез- ную информацию при этом дает график отклонений регрес- сии. Возможно мы и ошибемся, если примем некоторые на- блюдения за выбросы, однако з любом случае расчет новой регрессии весьма полезен. Найдем робастную оценку по указанному правилу для регрессии-примера (1.5). В табл. 1.1 приведены отклоне- ния et = yt — yt после применения МНК- Максималь- ное отклонение, равное 4,27, соответствует первому, а ми- нимальное — 4,00 — соответствует третьему наблюдению. Подозревая первое и третье наблюдения в выбросах, пере- считаем уравнение регрессии МНК по оставшейся выборке из 13 наблюдений; получим yt = 0,397хп + 0,310 xt2 + 3,56 xts — 24,6 (0,034) (0,327) (0,997) (21,6) На рис. 5.3 пунктирной линией показаны отклонения новой регрессии, сплошной •— оцененной по МНК. Как видим, в результате отброса экстремальных наблюдений характер отклонений слабо изменился: разброс отклонений умень- шился. Получение робастных оценок методом исключения выбро- сов имеет один недостаток. Как было отмечено, оценка МНК резко реагирует на наличие выбросов в исходной информа- ции. Поэтому выявление выбросов с помощью регрессии, 173
Рис. 5.3. Отклонения регрессии-примера оцененной методом наименьших квадратов, может привести к тому, что подозреваемые наблюдения окажутся на самом деле «хорошими». Для удовлетворительной «оценки выбро- сов» необходимо пользоваться оценкой, малочувствитель- ной к ним, т. е. робастной, а ее мы как раз и хотим найти. 5.3. Lv -оценки Перейдем к Lv -оценкам регрессий, являющимся част- ным случаем оценок ММП Хюбера. Прежде всего заметим, что функция плотности fix', v) =Де~ст1x|v, q<v<2 (5.6) имеет более тяжелые хвосты, чем функция плотности нор- мального распределения f (х; 2) = Ае~ахг . При v = 1 рас- пределение (5.6) называется распределением Лапласа. 174
Предположим, еь е2, .... еп — независимы, одинаково распределены с функцией плотности (5.6). В силу незави- симости функция плотности выборки ylt у2, уп равна: f (У’> v) — Ап ехр п —о 2 \yt—aiXn — t=i Xlm lV Максимум функции f соответствует оценкам ММП. Легко видеть, что оценка ММП минимизирует сумму Qv(«)“2 li't—“i^i—•••—aTOXfM|v = f=l n = 2|ejv. (5.7) t = i Оценки, минимизирующие (5.7), назовем Lv-оценками. Устойчивость суммы (5.7) относительно больших откло- нений по сравнению с соответствующей суммой квадратов отклонений Set2 очевидна. Действительно, допустим, v =1, п = 100 и основная масса отклонений сосредоточена на от- резке (—1, 1), а одно отклонение равно 3, тогда этот член в сумме квадратов отклонений соответствует 9, а в сумме (5.7) — 3. Поэтому при нахождении оценки в сумме (5.7) это слагаемое не должно произвести значительного эффекта, тогда как при v = 2 эффект будет весьма существенным. В этом смысле v можно интерпретировать как фильтр боль- ших отклонений (выбросов). Остановимся на существовании и единственности мини- мума функции (5.7). Можно легко убедиться, что функция действительного переменного ф (и) = | и |v для v 1 вы- пукла вниз, для О < v < 1 выпукла вверх. Как сумма вы- пуклых вниз функций, таковой будет и функция ф ип) = 21 Ui lv, а значит, и (5.7) как функция, совпадающая сфна подмножестве Rn—линейном многообразии размерно- сти т. Таким образом, для функции (5.7) при v 1 суще- ствует единственный локальный минимум, который совпа- дает с глобальным. Для 0 < v <1 это неверно, и мини- мизируемая функция может иметь несколько локальных минимумов (см., например, [51]). При v = 1 необходимо минимизировать сумму абсолют- ных модулей отклонений (невязок) п f=l (5.8) 175
Минимизация (5.8) сводится к задаче линейного програм- мирования (см., например, 11921, 11871). Решение ее на- много упростится, если перейти к двойственной задаче ли- нейного программирования. Число ограничений задачи бу- дет равно числу оцениваемых параметров, т. е. т, [192]. Таким образом, при нахождении параметров регрессии, которые минимизируют сумму абсолютных отклонений, можно воспользоваться стандартными программами линей- ного программирования. В [31] предложен простой итера- тивный метод минимизации (5.8), который основан на том, что регрессия, минимизирующая (5.8), проходит через т+1 точек выборки (yt, xtl, ..., xtm), t = 1,..., n. Для нахождения минимума функции Qv(a) для v 1 можно, разумеется, применить общие методы оптимизации: градиентный, метод Ньютона, метод сопряженных градиен- тов и т. д. Однако существует более простой метод миними- зации Q-v(a), опирающийся на обычный МНК- Этот метод впервые был предложен Р. Флетчером, Дж. Грантом и X. Хебленом [102] и получил название «итеративного МНК». Идея его заключается в следующем. Найдем част- ные производные функции Qv(a) по параметру а и прирав- няем их к нулю. Поскольку v 1, то решение соответст- вующей системы уравнений приведет к точке глобального минимума. Имеем dQ-^дщ — — v2 sign (е() | е(|v~1 xti =0, i — 1,.,., т, откуда Zetxti |е( |v~2 = Хвгха wt=0, где wt = |ef|v-2. Данная система приводит нас к систе- ме линейных нормальных уравнений относительно alt ..., am: «i 2 wt +... + ат 2 xtl х-i т w. = 2 yt хп wt t t t .............................................. (5.9) ai 2 xtl xtm wt + ... + am 2 xt2m wt = ^yt xtm wt Нетрудно заметить, что эта система линейных уравнений соответствует схеме взвешенного МНК с весами wt, при этом веса могут быть «оценены» на основе параметров, полученных из предыдущей итерации. Таким образом, на 176
нулевой итерации оцениваем регрессию каким-либо мето- дом (например, МНК), получаем вектор оценок а®. Исходя из этого вектора «оцениваем» веса = = я® Mi — •••—amXtmlv~2. Решая систему линейных уравнений (5.9), т. е. применяя взвешенный МНК с весами wt, находим следующее значе- ние вектора оценок а1 и т. д. Этот же способ предлагают В. И. Мудров и В. Л. Кушко 151], называя его методом ва- риационно-взвешенных квадратических приближений. Ар- гументация применения итеративного МНК здесь намного проще. Сумму (5.7) перепишем следующим образом: S|ef |ег [v“ 2 = 2ie? wt, что опять приводит к взвешенному МНК с весами ауг. В [51] доказана сходимость итеративного МНК для 1 v < 2. Найдем оценки по этому методу для v = 1 и 1,5 нашей регрессии-примера (табл. 5.1). Метод сходится уже на первой итерации. Это говорит о высокой эффективности его. Наиболее мобильной оказалась оценка второго пара- метра. Легко заметить также, что для v = 1,5 оценки ближе к оценкам МНК, чем для v = 1, что вполне естест- венно. Даже при уменьшении чувствительности к большим отклонениям оценка параметра cq увеличивается, аа2иа3 уменьшаются (по абсолютной величине). Таблица 5.1 V Номер итера- ции ССх а2 «3 а4 0 0,395 2,229 3,747 — 17,14 1 1 0,399 0,171 3,749 — 12,42 2 0,399 0,171 3,750 — 12,42 0 0,395 0,229 3,747 — 17,14 1,5 1 0,397 0,200 3,748 — 14,80 2 0,397 0,200 3,748 — 14,'8О Иногда полезно выяснить, что происходит с оценкой, если, наоборот, ориентироваться на большие отклонения, в частности найти оценку, которая минимизирует максималь- ное отклонение. Такую оценку вправе назвать антиробаст- ной. Подобным оценкам отвечают большие значения v, 177
т. e. v > 2. Остановимся на минимизации (5.7) для v>2. При этих значениях Мудрову и Кушко не удалось дока- зать сходимость итеративного МНК- Однако Флетчером, Грантом и Хебленом было предложено в этом случае по- правку к новому вектору оценок брать не полностью, а только ее часть [102]. Пусть ak — значение вектора оценок на /е-й итерации Применяя итеративный МНК, можно най- ти •‘следующий вектор Ь^’1, при этом поправка (F+1 = = bfc+i —а*. Следующее значение а полагается равным: а4 +1 с= а* -5— сК = (1 — —-—а* + v—1 \ v—1 / —у- Ь*+1 =(1 —у) а* + ybfc+1, (5.10) где у = 1/(1 — v). Оказалось, что модифицированный ите- ративный МНК уже является сходящимся с квадратичной скоростью сходимости для v 3. Там же показано, что метод (5.10) совпадает с методом Ньютона. В табл. 5.2 приведены Lv-оценки регрессии-примера для v = 3, 4, 10, 20. Отметим равномерное снижение значений оценки параметра ах. Lv-оцепки для v = 10 и 20 парамет- ров а2, а3, «4 сильно отличаются от предыдущих значений. Число итераций, необходимых для получения Lv-оценок при v = 10 и 20, намного больше, чем для v = 3 и 4. Таблица 5.2 V Общее число итераций a2 a8 a4 3 3 0,384 0,298 3,84 —21,8 4 3 0,380 0,269 4,08 — 19,9 10 17 0,344 0,000605 6,19 —2,311 20 16 0,335 —0,0959 6,82 4,04 К идее минимизации суммы (5.7) можно подойти с дру- гой точки зрения. Естественным методом оценивания пара- метров регрессии является следующий. Обозначим оцен- ку параметров а, тогда Ха является оценкой, приближе- нием вектора данных (выборки) yg Rn. Поэтому минимиза- ция расстояния между у и Ха приведет нас к соответствую- щей оценке. Метод оценивания будет различным в зависи- мости от того, как мы будем измерять расстояние в Rn. В частности, если брать евклидово расстояние, то придем 178
к МНК- Большую группу составляют Lv-метрики, где рас- стояние между z, у g R'1 задается по формуле IIz—у||=(2lzi— ytlvY/v> v>°- Если v = 1, приходим к минимизации (5.8), в общем слу- чае получаем Lv-оценки. В. Хоганом была доказана несмещенность Ly-оценки при некоторых условиях на распределение вектора (ej,..., еп)' [135]. Условие регулярности, которое накладывается на распределение отклонений, является следующим: мате- матическое ожидание в при условии, что е £ L—линейному подпространству Rn, равно нулю для любого L, короче говоря, Е (в/8 £ L) = 0. Хоган доказал, что если 8 удов- летворяют условию регулярности, то Ly-оценка для 1 несмещена, т. е. Еа = a, a£Lv. Проанализируем усло- вие регулярности Хогана. Ясно, что для п = 1 оно совпа- дает с условием Ее = 0. Для п > 1 это условие сильнее Ее = 0. Однако нетрудно проверить, что если еп е2, ..., еп — независимы и одинаково распределены с симметрич- ной функцией плотности, то 8 удовлетворяет условию регу- лярности. Действительно, тогда функция плотности 8 равна /(gj), ..., f (еа) и также симметрична, значит и Е (e/L) =0 для любого L cz Rn. Таким образом, Ly-оценки с распре- делениями Коши, Лапласа, Гаусса (нормальное), равно- мерным и т. д. будут несмещенными. Упражнения 5. 3 1. Почему выброс в случае регрессии может привести к боль- шим искажениям оценки МНК, чем в случае оценивания параметра положения? 2. Пусть в регрессии о2 (&() = о2, t = 1, ...; п — 1; о2 (уп) = -- о2- В каком случае оценка МНК, построенная на выборке t = 1, ...; п — 1, лучше оценки МНК, построенной по всей выборке t = 1, 2, ...; п? 3. Покажите, что найдется такое и0, что Рдапласа (?>«)> > Рнорм (П > и) для всех и > и0. 5.4. Оценки Хюбера, Андрюса и Рамсея Каждой М-оценке в случае оценивания параметра поло- жения соответствуют две оценки: минимизирующая сумму (5.5) и минимизирующая сумму (5.2). Введение параметра масштаба о в случае Lv-оценок не играет роли: обе оценки совпадают. Однако в других случаях это не так. 179
Для того чтобы полученные М-оценки были робастными, необходимо, чтобы на интервале, содержащем 0, т. е. на ин- тервале (— с, с), функция р была близка к параболе (про- порциональна квадрату аргумента), а вне интервала ско- рость роста р заметно снижалась и зависимость р от х ста- новилась меньше. Так, в функции Хюбера (5.3) на интер- вале (— с, с) р (х) совпадает с квадратичной функцией (ско- рость роста пропорциональна аргументу), а вне этого ин- тервала — равна линейной функции (скорость роста по- стоянна). Значение с, т. е. то значение аргумента, при кото- ром происходит уменьшение скорости роста р, исследова- телю неизвестно и его тоже приходится каким-либо обра- зом оценивать. Если исследователь имеет представление о возможных отклонениях, то в качестве с можно выбрать критическое значение «нормального» отклонения, начиная с которого вклад в минимизируемую сумму должен измеряться не квадратичной, а менее чувствительной функцией. Если же априорное значение о возможных отклонениях отсутствует, то имеет смысл воспользоваться робастной оценкой с прив- лечением параметра масштаба о. Тогда отклонения изме- ряются в стандартных единицах. Используя о, можно, нагример, предложить следующее правило определения с. Пусть в фУнкЦии Р с — значение аргумента, при котором квадратичность р переходит в функцию меньшего роста. Полагаем с — 3s, vjyes — оценка о. Предложенное правило нагоминает известное правило «трех сигм». Итак, пусть р (х) — непрерывная, кусочно дифферен- цируемая, симметричная относительно нуля, возрастающая на (0, оо) функция, р (0) = 0. М-оценкой назовем вектор, обращающий сумму Sp(et) = Sp(«/t — aiXfi —— amximlG) (5.11) t t в минимум, где a — параметр масштаба, также подлежащий оцениванию. По сути дела, (5.11) определяет целый класс оценок; каждая оценка зависит от выбора функции р. Обозначим р' = <р — производную функцию р. Вместо ми- нимизации суммы (5.11) можно искать решение уравнений ф/ J'j~~ ~xi-m \хц = 0, i = l,..., tn. (5.12) t \ > Для оценивания о выберем простейшую статистику: s равно медиане &t yt ^i^ti • • • ^m^tm' 180
При минимизации (5. П) в принципе можно воспользоваться общими методами минимизаций функций многих перемен- ных (градиентный метод, метод Ньютона и др.). Однако не- трудно обобщить известный нам итеративный МНК и на более общий случай (5.12). Если же для функции р (х) = = \х |v подходы Флетчера — Гранта — Хеблена и Мудрова — Кушко совпадают, то для произвольной функции они приведут, вообще говоря, к разным итерационным процес- сам. Итеративный МНК Флетчера — Гранта — Хеблена. Преобразуем уравнения (5.12) следующим образом: S<p(et/o)xti = Seexu wtl, t веса равны: wtl = <Р (ег/о)/ег, t = 1, .... п. (5.13) Итерации производятся так же, как в итеративном МНК- Метод вариационно-взвешенных квадратических прибли- жений Мудрова—Кушко. Функция (5.11) сводится к сумме квадратов отклонений: Р (е;/о) = 2 е2 [р (et/сг)/е®] = S е(2 wt2, t t t ®;2 = р(е«/о)/е2, (5-14) Ясно, что в общем случае веса wtl (5.13) и wt2 (5.14) будут отличны друг от друга, что приведет и к разным ите- рационным процессам. Однако и в том и в другом случаях мы должны получить одинаковые пределы для оценок па- раметров. Легко проверить, что для р (х) = |x|v wtl = = wt2. Рассмотрим робастные оценки ММП, обращающие сум- му (5.11) в минимум для разных р. Оценка Хюбера (5.3). Правило «трех сигм» предлагает с взять равным 3. Использование итеративного МНК Флет- чера — Гранта — Хеблена для регрессии-примера не при- вело к оценке, процесс оказался расходящимся. С другой стороны, метод Мудрова — Кушко (вернее, его обобщение) сошелся уже на второй итерации. Полученные оценки мало отличаются от оценок МНК- Вектор оценок равен (0,395; 0,228; 3,75; — 17,12). Оценка параметра масштаба рав- на 1,33. Оценка Андрюса [73]. Автор обобщает Л4-оценку, введен- ную им для оценивания параметра положения на случай 181
регрессии. В качестве р Андрюс предлагает следующую функцию (рис. 5.4): с (1—cos (х/с)), | х | лс; 2с, | х | > лс. (5.15) Идея заключается в том, что на интервале (—лс/2, лс/2) функция р близка к квадратичной, на интервалах (лс/2, лс) и (—лс, — л с/2) скорость роста функции (5.15) уменьшается. Для |х|>• лс вклад отклонений не зависит от их величины и равен 2с. Используя правило «трех сигм», найдем зна- чение с. Робастные свой- ства функции (5.15) проявляются для значе- ний | х [ лс/2, причем в точках ±лс/2 вторая производная (5.15) обра- щается в нуль. Таким образом, полагаем лс/2=3, откуда с = = 6/л « 1,91. Исполь- Рис. 5.4. Функция Андрюса для х>0 зование метода Мудрова — Кушко после пяти итераций в регрессии-примере привело к оценке (0,398; 0,212; 3,71; — 16,1), которая также незначительно отличается от оценки МНК. Оценка Рамсея [173] основана на функции Р(х) = у [l-(l+YM)e-vlx'],Y>0. (5.16) Легко показать, что при у ->0 функция Рамсея переходит в квадратичную. Для малых значений |х| функция (5.16) близ- ка к функции |х|. При х -> оо р имеет асимптоту, равную I/у2. Найдем значение у, используя правило «трех сигм». Для этого найдем вторую производную функции Рамсея и приравняем ее к нулю: р' (х) = e-v<x| (1 —у|х|) = 0, от- куда х=±1/у—точки перегиба функции (5.16). Полагаем 1/у = 3, откуда у = 1/3. После восьми итераций по методу Мудрова — Кушко для регрессии-примера была получена следующая оценка параметров: (0,404; 0,159; 3,73;—12,6); s= 1,21. Все три функции привели к параметрам, мало отличающимся от оценок МНК. Это говорит о том, что в регрессии-примере нет ярко выраженных выбросов, поэ- тому оценка МНК вполне приемлема. 182
5.5. Сравнение оценок методом статистических испытаний Сравнение начнем с исследования свойств Lv-оценок. В [176] исследована эффективность оценки, минимизи- рующей (5.7) для разных v и разных распределений откло- нений. Рассмотрено семь альтернативных распределений: равномерное, квадратный корень1, треугольное2 , квад- ратное 3 *, нормальное, Лапласа, Коши. Результаты статис- тических испытаний представлены графически на (рис, 5.5). Анализ графиков а) — ж) показывает, что если распреде- ление близко к равномерному, то более оптимальной будет оценка, соответствующая норме L», т. е. для которой || х || = max | Xi |, i что приводит к критерию min max |ej, (5.17) a, t ГДе Sf - IJt OCjXji ... Задача (5.17) сводится к задаче линейного программирова- ния [192]. Для распределений с конечной дисперсией и легкими хвостами (типа нормального) наиболее эффектив- ной будет оценка МНК (v = 2). Для распределений с тя- желыми хвостами оптимальная оценка достигается для значений v, близких к 1, причем чем тяжелее хвост, тем ближе v к 1. Вывод, к которому приходят авторы, следую- щий: оптимальный выбор v зависит от распределения е. Нельзя заранее сказать, какое значение v приведет к эффективной оценке. В случае выбросов хорошо зарекомен- довала себя оценка, минимизирующая сумму абсолютных отклонений (5.8). В работе [103] отклонения имеют смешанное нормаль- ное распределение с плотностью f (х; G, R, S) = G <Гхг/2 + (I -G) ^-s^2Ri, 1 Функция плотности равна 2"|/1—л2/л для |х| 1 и 0 для I х I > 1. 2 Функция плотности равна 1 — "]/2 | х I дли | х | 1~|/2 и О для | х | > 1/Д/2. 3 Функция плотности равна 3 (х — "]/з72)2/2 дли—~|/з/2<: < х < — 1/_21/з, 3/4 — Зх2 дли I х I < 1/2 j/з и 3 (х+Д/з/2)2/2 для 1/2"]/3 С х Д/3/2 и 0 дли | х | Д/3/2. 183
где 0 гС G I — параметр смеси; R — стандартное откло- нение второй смеси; S — математическое ожидание второй смеси. Если S ф 0, распределение будет асимметричным. Если R 1, то 1 — G есть доля выбросов в распределе- нии с плотностью /. В ПОЗ] оценка МНК для парной регрес- Рис. 5.5. Зависимость средних абсолютных отклонений оценок, мини- мизирующих S| Bi |v, от v для.разных распределений: а) равномерное; б) квадратный корень; в) треугольное; г) квадратное; д) нормаль- ное; е) Лапласа; ж) Коши сии со свободным членом yt — ахх« + а2 + е( сравнивается с Lv-оценкой для v = 1,25; 1,5 и 1,75. Величины относи- тельных отклонений S («! — ax)2/2 (а\ — aJMOO'Jo, рас- считанные по методу Монте-Карло, приведены в табл. 5.3. Приведенная таблица позволяет сделать следующие вы- воды: 1. Даже если распределение отклонений нормально, но загрязнено другим нормальным распределением с большей дисперсией или с м.о., не равным нулю, эффективность оценки МНК значительно падает, 184
Таблица 5.3 V S = 0. R=4 при G= S = 4, R - I при G= 1,000 0,975 0,950 0,925 0,900 1,000 0,975 0,950 0,925 0,900 1,25 90 105 115 145 170 90 100 120 125 140 1,50 95 115 120 150 160 95 100 125 125 135 1,75 100 по 115 130 135 100 105 115 115 115 2,00 100 100 100 100 100 100 100 100 100 110 2. Оценка Lv, соответствующая, например, v = 1,5 в случае незагрязненного нормального распределения (иде- альный случай), теряет лишь 5% эффективности по срав- нению с оценкой МНК, зато для загрязненных распределе- ний выигрыш по сравнению с оценкой МНК доходит до 50%. Таким образом, оценка L16 является хорошим компро- миссом между классической оценкой МНК и робастными оценками. В работе [173] Дж. Рамсей методом Монте-Карло срав- нивает эффективность различных методов оценивания пар- ной регрессии yt = аххг + а2 -|- %t. Он рассмотрел три группы Л4-оценок Хюбера: Е7-оценки Рамсея (у = 0,1; 0,3; 1,0), оценку Андрюса и Дооценки (v = 2,0; 1,8; 1,5; 1,0). Отклонения регрессии et были независимы с распреде- лением, представляющим смесь нормальных распределе- ний N (0,1) и N (0, о2) с параметром смеси q. Другими сло- вами, распределение et было равно (1 — q) + qF2, где F± — функция распределения А (0,1), —то же Л/(0, ст2). Значение п выбиралось равным 5, 20 и 50, значе- ние q— равным 0; 0,01; 0,05; 0,1; 0,25, значение ст— рав- ным 3 и 10. Основные выводы, к которым пришел автор, следующие: а) оценки Ег и Lx оказались неудовлетворительными из-за низкой эффективности для q < 0,25; б) оценка МНК (^2) также оказалась неудовлетворитель- ной из-за низкой эффективности при высоких значениях q-, в) оценки Еод и Li 18 близки к оценке МНК, поэтому их нельзя считать в полной мере робастными; при высоких зна- чениях q их эффективность резко падала; г) оценка £0,5 оказалась слишком плохой в случае нормального распределения (q = 0); 185
д) оценки Ео,з и Ll r, показали себя одинаково хорошо; их эффективность не падала слишком низко при больших значениях q и была достаточно высоко! для q, близких к нулю; однако почти во всех вариантах оценки £0 3 были лучше L15; е) оценки £0 3 оказались более устойчивыми по отноше- нию к априорному распределению отклонений регрессии, т. е. более робастными по сравнению с оценкой Андрюса, однако оценка Андрюса более эффективна для нормального распределения (q = 0). Таким образом, автор [173] заключает, что равномерно эффективными оценками оказались оценки £0(3, оценка Андрюса и отчасти оценка £06. В исследовании, проведен- ном Рамсеем, Т^-оценки оказались в большинстве случаев хуже £у-оценок и оценки Андрюса. Глава 6 МУЛЬТИКОЛЛИНЕАРНОСТЬ. СМЕЩЕННЫЕ ОЦЕНКИ 6.1. Мультиколлинеарность и ее измерение Мультиколлинеарность — одно из основных препятст- вий эффективного применения аппарата регрессионного ана- лиза. Что такое «мультиколлинеарность» и в чем ее смысл? Как и чем измерять мультиколлинеарность? Попытаемся ответить на поставленные вопросы. Под мультиколлинеар- ностью в дальнейшем будем понимать сопряженность не- зависимых переменных1. Мультиколлинеарность обычно называют сильной (harmfull), если оценки параметров или проверки гипотез зависят скорее от взаимозависимости независимых переменных модели регрессии, чем от зависи- мости у и хь х2, ..., хт. Д. Фаррар и Р. Глаубер [100] счи- тают мультиколлинеарность сильной, если коэффициент корреляции одной из пар независимых переменных боль- ше коэффициента корреляции регрессии. Обозначим через хг t-й вектор-столбец матрицы независимых переменных X; тогда мультиколлинеарность означает «почти линейную за- аМы употребляем термин «сопряженность независимых перемен- ных» вместо более распространенного «коррелируемость», тем самым подчеркивая детерминируемость независимых переменных регрес- сии. 186
висимость» векторов хп xm, т. е. существование чисел ft, ..., vm, таких, что + v2x2 + ... + vmxm & 0, (6.1) Чем ближе левая часть (6.1) к нулевому вектору из Rn, тем сильнее мультиколлинеарность. Предельный случай соответствует точному равенству в (6.1). Тогда говорим о строгой мультиколлинеарности. Этот случай разобран в следующем параграфе. Сейчас же мы по-прежнему счи- таем, что строгой линейной зависимости между вектор- столбцами матрицы X не существует, т. е. rank X = т, однако имеет место приближенная зависимость (6.1). Труд- ность установления факта мультиколлинеарности связана с тем, что на практике равенство (6.1) никогда не бывает точным. В первую очередь этому мешает наличие, может быть, с практической точки зрения незначительных ошибок измерения ..., хт. Точное равенство может отсутствовать также из-за ошибок округления. Поэтому мы согласны с Фарраром, Глаубером [100], которые говорят, что мульти- коллинеарность есть не вопрос существования, а вопрос степени. Чем опасна мультиколлинеарность? Для регрессионного анализа она опасна тем, что оценки МНК становятся мало- эффективными, т. е. дисперсия оценок будет весьма большой. Для наглядности рассмотрим случай т = 2. Сначала предположим, что хх и х2 имеют одинаковый масштаб изме- рения. Этого можно добиться нормировкой векторов хх и х2, т. е. рассмотреть х[ = Xj/IIxjH, х2 = х2/||х2||. В таком случае матрица плана является матрицей сопряженности, т. е. Х'Х= Г 1 Г12], . Г12 1 J где r12 = COS(Xb X2) = 2X*lXi2/l/ Тогда (Х'Х)-1^ ’А1— 'Ь) — Г12/(1— Н2)' L-п2/(1-н2) i/(i—г?2) и = ст2 (aL) = ст2/(1 — Г|2) = о2 («а) = 187
есть дисперсия оценок МНК для и сс2 в регрессии у = = агхг + сс2х2 + е. Если между переменными х, и х, существует тесная линейная зависимость, т. е. rh близок к 1, то, как следует из последнего выражения, дисперсии = оценок МНК будут иметь большие значения. В об- щем случае при наличии (6.1) матрица Х'Х становится пло- хо обусловленной, в частности |Х'Х| л; 0, т. е. Zmiu (Х'Х)— = Лх « 0. В качестве критерия качества оценки выберем сумму квадратов дисперсий т т 2 о-;2 = о-чг (х'Х)-1 = о2 2 (6-2) <=i Если Хх « 0, то значение суммы (6.2) будет велико. В част- ности, если Zj -4-0, то -4-00. Остановимся на вопросе измерения мультиколлинеар- ности. Вообще, мультиколлинеарность — понятие доста- точно многогранное, и трудно предложить меру, которая была бы во всех отношениях хороша. Рассмотрим пять раз- личных мер. Первые три из них — характеристики матри- цы плана Х'Х. а. Определитель матрицы плана Х'Х. Поскольку при наличии приближенной линейной зависимости (6.1) мат- рица Х'Х становится плохо обусловленной, т. е. близкой к вырожденной (имеющей нулевой определитель), то опре- т делитель |Х'Х| = Плг может выступать в качестве меры ;=1 мультиколлинеарности. При рассмотрении проблемы муль- тиколлинеарности большую наглядность дает геометричес- кий подход, который возможен для т = 2,3. В дальней- шем мы часто будем изображать ту или иную оценку геомет- рически для случая т = 2. Особенно нагляден при геомет- рическом подходе характеристический эллипс (эллипсоид при т = 3). Как известно, геометрическим местом точек, составляющих доверительное множество при т = 2, в слу- чае нормального распределения отклонений регрессии яв- ляется внутренность эллипса Sv = {a g : (а — а)'Х'Х (а — а) = у}, (6.3) где а = (аъ а2)'—оценка МНК1. Нетрудно показать, что S? является уровнем суммы квадратов отклонений Q (а). ХЭ. Маленво [48] определяет характеристический эллипс не- сколько по-иному. 188
Характеристические числа матрицы Х'Х суть длины полу- осей эллипса Sv, а характеристические векторы матрицы плана — направления соответствующих осей эллипса. Центр эллипса находится в точке плоскости, отвечающей оценке МНК- Характеристический эллипс (6.3) является геометрическим представителем матрицы Х'Х. Выбор у не имеет решающего значения, так как форма и положение эллипса от него не зависят. Рис. 6.1. Характеристический, эллипс регрессии: а) мультиколлинеар- ность отсутствует; б) мультпколлинеарность Можно показать, что | Х'Х | пропорциональна площади внутренности характеристического эллипса Sv. Поэтому малость | Х'Х | означает малость площади, охватываемой Sv. На рис. 6.1, а показан некоторый характеристический эллипс; О — центр эллипса имеет координаты (йъ а2)— оценка МНК- Длина отрезка ОА — большая полуось, рав- на > Xj — длины отрезка ОВ — малая полуось эллипса. Вектор ОА совпадает с направлением х.в. матрицы Х'Х, отвечающим Х2, вектор ОВ — с направлением х.в., отве- чающим Определитель | Х'Х] численно равен площади прямоугольника ОВСА. На рис. 6.1, б показан характе- ристический эллипс другой регрессионной задачи. Этот эл- липс более вытянут в одном направлении и сжат в другом. При этом минимальное х.ч. уменьшилось в 4 раза, а макси- мальное х.ч. увеличилось в 4 раза. Ясно, что в случае б) мультиколлинеарность сильнее, но выбранный критерий | Х'Х | приводит к одному и тому же значению. Форма харак- теристического эллипса позволяет сделать вывод, насколько «идентифицируемы» параметры и а2. Если эллипс сильно 189
вытянут в одном направлении и сжат в другом, то можно утверждать, что параметры слабо различимы. Грубо говоря, параметры приближенно линейно зависимы, т. е. плохо идентифицируемы: при оценивании может произойти «пере- лив» из одного параметра в другой. Так, для рис. 6.1, б мы можем грубо записать: а2 — ссх — 1 « 0. б. Минимальное характеристическое число матрицы плана. Очевидно, чем меньше = Хга1п(Х'Х), тем сильнее мультиколлинеарность (см. теорему 6.1). На Хх не оказыва- ют влияния другие характеристические числа матрицы Х'Х. Имеется еще одно веское обстоятельство использова- ния величины Хц как показателя мультиколлинеарности. Обозначим левую часть (6.1) через w. Если в качестве приближения w к 0 взять квадрат евклидова расстояния ||w— 0||2= ||w||2, то, переходя к матричной форме, полу- чим || w ||2 = + ...-I- vmxm||2 = v'X'Xv, откуда min||w||2=Xraln(X'X) = A1. I|VJ|=1 Вектор v = (vx, ..., vm)', соответствующий минимальному характеристическому числу дает тот набор коэффициен- тов, который приводит к максимально приближенной к ну- лю линейной комбинации векторов хх, хт. О другом положительном качестве Хх мы уже упоминали. Оно связано с непосредственным влиянием лх на точность оценивания регрессии МНК (6.2). Помимо того, что Хх отражает взаимную сопряженность независимых перемен- ных Xj, ..., хга, она несет на себе эффект выбора масштаба измерения этих переменных. Действительно, пусть, на- пример, хъ ..., хт измерены в рублях, и мы решили перей- ти в другие единицы, например млн. рублей, тогда X* = = 6Х = 10-6Х. Поэтому Xmln(X*' Х*)= Ю-12 Ч.п(Х'Х). Если судить по величине минимального х. ч. матрицы плана, то преобразованная модель будет мультиколлинеарна. По- лезно будет рассмотреть модель, в которой отсутствует со- пряженность независимых переменных (ортогональная модель), а масштаб измерения хх, ..., хтодинаков. Матема- тически это означает: Х'Х = Slm, где 6 > 0. Тогда лх = ... = = 6 и оценка МНК равна а = (Х'Х)-1 Х'у = = Х'у/6, т. е. at = <ф/6, dt = (Х{у)г, i = 1, ..., m. 190
Найдем f-статистику для каждого параметра -----м(„1.............................т, (6.4) ./(Х'Л)Г- 6 ' Таким образом, даже если б да 0, т. е. сумма дисперсий (6.2) будет иметь большое значение, относительная точность оце- нивания (^-статистика (6.4)) может быть достаточно высока (например, больше 2). Поэтому мера Хх есть показатель ка- чества оценивания в абсолютном смысле. в. Мера обусловленности матрицы по Нейману — Голд- стейну [165]. Дж. Нейман и X. Голдстейн, исследуя методы обращения матриц, заметили, что удобной характе- ристикой вырожденности матрицы является отношение максимального х.ч. к минимальному. Эту меру можно предложить и для измерения мультиколлинеарности. Гео- метрически отношение Хтах (Х'Х)/Хш1п (Х'Х) означает, насколько сжат характеристический эллипсоид в одном направлении и вытянут в другом. А чем отличается новая мера от предыдущей? Во-первых, так же, как и отно- шение может нести на себе эффект сильной сопряжен- ности независимых переменных. Однако этого может и не быть. Тогда Xj и Xm/Xj несут на себе эффект выбора масштаба. Однако если Xj зависит от масштаба измерения х15 хт одновременно для всех переменных, то Xm/Xj отражает разницу в масштабах. Можно показать, что 1) Xj -э-0 не влечет Xm/Xj -э-оо и не влечет | X' X | ->0; 2) Хщ/Х-ц н-ооне влечет Xj -э-0 и не влечет |Х'Х| ->0; 3) |Х'Х| -э-0 не влечет Xj ->0 и не влечет Xm/Xj ->оо. г. Максимальная парная сопряженность Xj,..., xm. Боль- шую пользу при анализе регрессии приносит рассмотрение матрицы сопряженности где Гц = cos (хг, Xj). В качестве показателя мультикол- линеарностн может выступить величина max |гг>|, i =/= /. (6.6) и i 191
Интуитивно понятно, чем больше значение (6.6), тем силь- нее мультиколлинеарность (см. теорему 6.1). Однако (6.6) выражает только парную коллинеарность, т. е. мультикол- линеарность второго порядка х. Например, три перемен- ные х1; х2, х3 могут быть коллинеарны, но парно не сопря- жены. На рис. 6.2 показаны три коллинеарных вектора, принадлежащие плоскости (по терминологии аналитичес- кой геометрии векторы х1; х2, х3 компланарны), в то же время матрица сопряженности для этого случая равна: 1_ 1/К2 1/К 2 1 1/К 2 О 1/J/T 1 Максимальный коэффициент сопряженности не несет на себе эффекта масштаба. Он отражает только степень кол- линеарности независи- мых переменных. Верны следующие соотноше- ния: 1) |Х'Х|->0, ->0, Xm/Xi -> оо не влекут обязательно шах |г;7-|—>-1; 2) max |r£j-| -> 1 вле- чет Xj -> () и не влечет обязательно | Х'Х| -> 0, 00 • д. Максимальная со- пряженность х1( ... хт. Предыдущая мера муль- тиколлинеарности имеет существенный недоста- ток: она ориентирована только на парную колли- неарность. Поэтому да- же если | rtj | < 1, i /, Рпс. 6.2. Строгая мультиколлинеар- ность при попарно линейно-независи- мых векторах, т=2 возможна строгая муль- тиколлинеарность. От этого недостатка свободна другая мера, которую мы сейчас и рассмотрим. Зафиксируем не- зависимую переменную и найдем косинус угла 7?;, кото- рый составляет эта переменная, т. е. вектор хг £ Rn с под- пространством Si, натянутым на остальное множество не- 1Под порядком мультиколлннеарности понимаем число векторов, входящих в уравнение (6.1) с ненулевым коэффициентом. 192
зависимых переменных хх, хг_х, хг+1,хта. В качестве меры мультиколлинеарности регрессионной задачи рассмот- рим тах|Рг|. (6.7) i Формально R? есть коэффициент детерминации в регрессии хг на хх, х{_г, хг+1, хт. Для нахождения Ri не обя- зательно вычислять регрессию хг на остальные пере- менные. Укажем более простой способ одновременного на- хождения всех Ri, i — 1, ..., т. Не теряя общности най- дем, например, R2r. Будем считать [|хг|| = 1; это ограниче- ние, очевидно, не повлияет на величину R2. Разобьем мат- рицу X на две подматрицы Х = [ххХ2], где х'1Х1 —первый вектор-столбец матрицы X, Х"х(т~^ — остальные вектор- столбцы матрицы X. Тогда х,х Г х)хх х) Х2 [х;Х1 х; х2 ‘ Далее по формуле (П.З) =_______________Б2У_________________= |х;х2цх; Х1-х'1х2(х;х2)-1х;Х1| =------------1------------= —1------. (6.8) x^Xj—х'Х2(Х'2Х2)-‘Х2Х! 1-^1 Откуда в общем случае R2 = 1-----!—, i = 1,..., т, (6.9) где RrR — (i, i)-элемент матрицы, обратной к сопряжен- ной (6.5). С помощью соотношения (6.9) можно, например, выяс- нить, скажется ли коллинеарность хх и х2 на оценке МНК третьего параметра аа в регрессии (т = 3) yt = ах, xtl + a2xt, + a3xt3 + ег, t = 1, ..... п, где хх и х2 сильно сопряжены, а хх и х3, х2 и х3 — нет. За- метим, что Ях = R2 (хх; х2, х3) > R2 (хх, х2) = r212 « 1; = R2 (х2; хх, х3) > R2 (хх, х2) = rx% « 1. 7 Зак. 2067 193
Однако 7?; = R2 (х3; Хр х2) « 1. Для простоты приведем xlt х2, хя к одному масштабу, т, е. нормируем их. Тогда по формуле (6.8) (Х'Х)-1 =----1---, i = 1, 2, 3; V hl поэтому первые два параметра будут иметь большую диспер- сию, а третий — нет. Другими словами, мультиколлинеар- ность не влияет на точность оценивания параметров, соот- ветствующие независимые переменные которых не порожда- ют мультиколлинеарность. Мера (6.7) является хорошей мерой мультиколлинеар- ности. Она не связана с масштабом измерения независимых переменных, отражает их внутреннюю сопряженность и хорошо интерпретируется. Между введенными мерами мультиколлинеарности су- ществуют следующие соотношения: 1) max | R, 1 влечет -> 0; 2) max | гц | ->1 влечет max |7?г| ->1. Зависимости между рассмотренными мерами мультикол- линеарности а — д показаны на рис. 6.3. Как видно из этого Рис. 6.3. Зависимость между различными мерами мультиколли- неарностц 194
рисунка, между мерами а — д мало зависимостей. Все ойй отражают определенную сторону мультиколлинеарности. На практике целесообразно пользоваться по меньшей мере Xm/Z1( и шах | fa | как величинами, отражающими сте- пень мультиколлинеарности независимых переменных. Можно показать, что при увеличении степени мульти- коллинеарности по каждой из рассмотренных мер, за иск- лючением меры в, точность оценивания параметров мето- дом наименьших квадратов убывает. Предельные случаи соответствуют строгой мультиколлинеарности. Остановимся еще на одном вопросе. Как узнать, какие переменные порождают мультиколлинеарность? Как было отмечено, наилучшее приближение левой части (6.1) к нулю наблюдается, если за v взять характеристический вектор, отвечающий Если в (6.1) входят не все векторы, то соот- ветствующие координаты в векторе v будут близки к нулю. Остальные переменные и порождают мультиколлинеар- ность. 6.2. Строгая мультиколлинеарность Напомним, что под этим понимается случай rank X — = г < т. Тогда обычная формула для нахождения оценки МНК неприменима, так как матрица Х'Х, также имеющая ранг г < т, необратима в обычном смысле слова, а регрес- сия становится неидентифицируемой [24]. Однако если под оценкой МНК понимать по-прежнему те значения а^..., ат, которые обращают сумму квадратов отклонений в ми- нимум, то в случае строгой мультиколлинеарности сущест- вует целое линейное многообразие оценок МНК: а = {а £ Rm : Х'Ха = Х'у}. (6.10) Размерность а равна т — г (см. задачу 3 упражнения 1.1). Как найти семейство (6.10)? Для этого воспользуемся по- нятием обобщенной обратной матрицы или g-обратной мат- рицы. Пусть А — матрица порядка пХт, rank А = г; g-обратной или обобщенной обратной матрицей к Матрице А назовем такую матрицу А- порядка тХп, что АА_А = = А [58, с. 39]. Основные свойства обобщенных обратных матриц: 1. Для любого у g Rn, для которого система Ах = у совместна, х — А- у является ее решением. 2. Н = А- А — идемпотентная матрица. 7» 195
3. Для любой матрицы существует хотя бы одна обоб- щенная обратная матрица, которая не обязательно един- ственна. 4. Пусть Л — диагональная матрица т X т, послед- ние г диагональных элементов которой равны нулю, а пер- вые т — г — ненулевые. Обозначим через Л+ такую диаго- нальную матрицу т X пг, что A/j = 1/Л;; для i = 1, ..., т — г и — С для i = т — г 4- 1, ..., т. Тогда Л+ является обобщенной обратной матрицей к матрице Л. 5. Если А — квадратная и симметричная матрица тут, то А- может быть построена следующим образом. Обозначим через Р ортогональную матрицу тхт, сводя- щую А к диагональной, т. е. Р'АР=Л, где Ли — харак- теристическое число матрицы А. Тогда матрица А~ = = РЛ*Р' является обобщенной обратной матрицей к мат- рице А. Эта матрица называется обратной матрицей Му- ра— Пенроуза [56, с. 40] и обозначается А+. Как следует из свойства 1, оценка а = (Х'Х)+Х'у (6.11) является одним из членов семейства оценок МНК. Более подробно об оценках МНК (6.11) см. [4]. На практике мультиколлинеарность в строгом смысле не встречается. Как правило, независимые переменные яв- ляются результатом измерения и поэтому содержат ошибки. Это ведет к тому, что даже если истинные значения х,, ... ..., хт линейно зависимы, то теоретически матрица Х'Х невырождена, хотя и плохо определена. 6.3. Смещенные оценки Если в классической линейной регрессии предположе- ния А — Е выполняются, то оценка МНК а=(Х'Х)-1Х'у (6.12) является эффективной в классе несмещенных оценок, ли- нейных по у (теорема Гаусса—Маркова, параграф 1.5). Ес- ли к тому же предположить, что отклонения модели-рег- рессии имеют нормальное распределение, то оценка МНК оказывается эффективной в классе всех несмещенных оце- нок (линейных и нелинейных). Однако даже если откло- нения нормальны, то в некоторых ситуациях оценки МНК становятся нестабильными. Это происходит при сильной 196
сопряженности независимых переменных, т. е. при мульти- коллинеарности. Как было показано в параграфе 6.1,при усилении мультиколлинеарности точность оценки МНК падает. В частности, мультиколлинеарность ведет к тому, что координаты вектора оценки принимают очень большие значения. Это утверждение следует из равенства Еа'а = Е (а + (Х'Х)-1Х'е)' (а + (Х'Х)-1Х'е) = = а'а + <т2 tr (Х'Х)-1 ->оо при Хга1п (Х'Х) -> (). При сильной мультиколлинеарности оценка МНК становится настолько неудовлетворительной, что даже знаки некоторых координат а, часто не соответ- ствуют истинным. Таким образом, задачу оценивания можно сформулиро- вать следующим образом: найти оценку параметров рег- рессии, которая была бы устойчивой даже при сильной со- пряженности независимых переменных, т. е. такую оценку, точность которой не падала бы до нуля при усилении муль- тиколлинеарности1. Ограничимся классом линейных оценок как наиболее простым. Следующим ограничением, связанным с оценкой МНК, является условие несмещенности оценки. Для того чтобы оценка была устойчивой по отношению к мультикол- линеарности, необходимо отказаться от этого условия, т. е. рассматривать и смещенные оценки. Итак, допустим о2 фиксировано. В качестве критерия оценки (функции риска) выберем среднюю сумму квадратов ошибок (ССКО) Li (а) = = Е (d — a)' (d—а), где d — некоторая оценка парамет- ра а 6 Rm. Обозначим через М класс линейных оценок, каждая из которого имеет ограниченную ССКО для всех X (в том числе для тех матриц, для которых rank X < т) и всех а из некоторого априорного множества © с Rm. Ясно, что несмещенная линейная оценка не принадлежит М. Действительно, пусть b — линейная несмещенная оцен- ка и b £ М. Тогда cov (b) cov (а), где а — оценка МНК и Ьь (а) = Amin(X'X)-»0, ЧЛод точностью несмещенной оценки можно, например, пони- мать величину, обратную к дисперсии или 1/ tr cov (а) в многомер- ном случае. 197
т. е, ССКО оценки b не ограничена, b С М — возникает противоречие. Итак, для того чтобы построить оценки, которые были бы хороши и в случае мультиколлинеарности, необходимо отказаться от условия несмещенности. Таким образом, при- ходим к более широкому классу линейных оценок (смещен- ных и несмещенных). Отказ от несмещенности имеет поло- жительные и отрицательные стороны: 1) положительным является то, что возможно найти смещенную оценку, ко- торая является устойчивой относительно сильной сопря- женности независимых переменных, т. е. в случае плохо обусловленной матрицы Х'Х; 2) отрицательным фактом перехода в класс линейных смещенных оценок является то, что в этом классе нельзя найти оптимальной оценки в смысле минимальной матрицы средних квадратов отклоне- ний. Аналогичная ситуация имела место в параграфе 1.4, где для каждого а0 6 R1 существует смещенная оценка d, для которой Еа, (d — а0)2 = 0. Отсутствие оптимальной оценки в классе всех линейных оценок приводит к тому, что число оценок будет велико. Покажем, что класс линейных оценок с ограниченной ССКО (т.е. класс М) имеет смысл рассматривать только для ограниченных 0. Обозначим вг = : ||а|| г), г > 0. В частности, при г = оо 0Г = /?т, в остальных слу- чаях 0Г — ограниченное множество. Теорема 6.1. Класс М не пуст тогда и только тог- да, когда г — конечное число. Доказательство. Достаточность. Пусть г — конечное число, т. е. 0Г — ограниченное множество. Пусть d — линейная оценка параметра а, т. е. d = Су, где С — детерминированная матрица т X п. Найдем ССКО оцен- ки d. Имеем Ld (а) = Е (d-а)' (d-а) = а' (СХ- lm)' (СХ - 1и) а + 4-o2trCC'. (6.13) Полагаем С sO, т. е. d^O. Тогда То («) — а.'а г2, а С 0Г, т. е. d — 0 £ М и класс М не пуст. Необходимость. Пусть М — непустое множество, т. е. некоторая линейная оценка d 6 М.. Было показано, что d не может быть несмещенной оценкой, т. е. СХ — Im =# 0. Отсюда следует, что матрица (СХ — 1т)' (СХ — 1т) имеет хотя бы одно ненулевое характеристическое число т, т > 0. Пусть v — характеристический вектор матрицы 198
(СХ — Im)'(СХ — Im), отвечающий т. Тогда, если г = оо, то Li (vX) = X2 v' (СХ — Im)' (СХ — Im) v +<? tr СС' > Х2т, так как ||v|| = 1 и при X ->оо Li (vX) ->оо, т. е. оценка d имеет неограниченную ССК.0 — противоречие. Из теоремы 6.1 следует, что не существует линейной оценки для 0 = Rm, которая имела бы ССК.0 меньшую, чем у оценки МНК- Итак, займемся отысканием оптимальных оценок в клас- се М, где 0 = {||ос]| < г}. Обозначим этот класс Мг. Теорема 6.2. В классе Мг не существует оптималь- ной оценки в смысле минимума ССКО. Доказательство. Преобразуем выражение (6.13): Li (а) = а' Х'С'СХ а—а' Х'С' а —а' СХ а 4-a'a-J- + a2trCC'. Но а' Х'С' а = а' СХ а, поэтому L(a)=Ld (а) = а'Х'С'СХ а —2а' CXa + a2trCC'. (6.14 Найдем min L (а) по С при фиксированном а и а2. Продиф- ференцируем выражение (6.14) по С и приравняем произ- гт Л. dtrCC' водную к нулю. Применим следующие формулы: — = dx'C'Cx , = 2С, —gg— = 2Схх , которые можно доказать, исполь- зуя приложение П.2. Принимая во внимание формулу (П.8) получим — = 2СХ аа' X'—2aa' Х' + 2о2С = 0, дС или С (Xaa'X' + a2In) = aa'X', откуда С = aa'X' (Xaa'X' + a2In)^. (6.1?) В последнем выражении обращение матрицы корректно> так как матрица Xaa'X' + a2I„ положительно определен^- Далее воспользуемся следующим элементарным фактов- Для любого b Е Rn b'(bb' + o2In)-- o2-|-b'b b. (6.16) 199
Равенство (6.16) легко проверяется умножением обеих час- тей на матрицу bb' + о21л. Используя (6.16), выражение (6.15) перепишем следую- щим образом: С* — аа х о2-f- «'X' х« (6-17) Таким образом, «оценка», минимизирующая ССКО, за- висимо? а и о2 и равна: d* = С*у =___мсс- х'у а2+«' Х'Ха (6.18) Для окончательного доказательства теоремы предпо- ложим, что d — оптимальная оценка в классе Мг, т. е. для всех b Е Мг Ld (а) < £ь (а), а Е @г. Выберем некото- рое а0 Е ®г и построим оценку do = Coy=—. UJ о2+«^Х'Х«о Тогда Ld0 («о) Дь (а), причем равенство будет наблю- даться, если d = d0. Теперь, если взять ай =^=а0, то соот- ветствующая оценка dt будет иметь меньшую ССКО, чем оценка d — противоречие; теорема доказана. Доказанные теоремы подсказывают нам, что, во-первых, нельзя найти устойчивую относительно мультиколли- неарности оценку для всех а Е Rm, т- е. априорное множе- ство параметров необходимо ограничить; во-вторых, отсут- ствие эффективной оценки в смысле минимальной ССКО приводит к существованию большого числа несравнимых оценок, оптимальных каждый раз в некотором заранее оп- ределенном смысле. В следующих параграфах рассмотрим некоторые оценки из класса Л1Г. Имеется еще один путь обхождения трудностей, свя- занных с несравнимостью некоторых функций риска, а именно ССКО. Рассмотрим минимаксные оценки (см. па- раграф 1.4). Начнем с простейшего случая т = 1. Итак, имеется регрессия yt = axt + st, t = 1, ..., n. Требуется найти линейную оценку, минимизирующую максимальное значение ССКО для а Е ®г- Пусть с = (с1; ..., с„) и d = — 'StCty t -— линейная оценка а. t Найдем min max Ld(a)=min тахДа2(2сгxt—1)2 + о22с/]. с II a || < г с [I a | < г 200
Пусть вектор с фиксирован, тогда max[a2(Sc(xf—1)2+ о22с/] = г2 (^ctxt— 1? + o22jc/. I al Cr ( i ] t Теперь будем минимизировать функцию L (с) = № (£ctxt — t — I)2 + . Найдем ее производную no Cj и прирав- t няем ее к нулю. Получим =2r2 (Sctxt — 1) Xj + 2o2Cj = 0, j = 1, п. (6.19) Умножим каждое из предыдущих уравнений на х?- и про- суммируем по / от 1 до п. Получим r2(ScfXt—1) 2 */+ °2 2 С; *7 = О, i i откуда г2 Sx? у . — ' 1 o24-Sx? ’ Подставляя найденное значение в /-е уравнение (6.19), окон- чательно найдем с. =------1--- / = 1, 1 Sx/+a2/r2 Соответствующая оценка равна: d =—(6 20) Sx/ +<T2/Z-2 Минимаксная оценка (6.20) является ридж-оценкой (см. параграф 6.4). При г ->оо эта оценка переходит в оценку МНК- Для конечного г оценка (6.20) устойчива относи- тельно мультиколлинеарности. В случае т = 1 мульти- коллинеарность означает близость Sx/ к нулю. Можно про- верить, что при 2х/ -> 0 Е (d — а)2 не стремится к оо, тог- да как Е (а — а)2 = а2 (а) ->оо, где а — оценка МНК. Вы- числения минимаксной оценки для т > 1 весьма затруд- нительны. Как же поступить при наличии мультиколлинеарности? На практике часто идут по следующему пути. Как было показано, наличие мультиколлинеарности ведет к большим дисперсиям некоторых координат вектора оценки МНК- Будем считать, что отклонения регрессии гомоскедастич- 201
Ны и нормально распределены. Тогда, проверяя гипотезы Hi : а, = 0, мы можем в случае их принятия отбросить соответствующие независимые переменные и пересчитать регрессию заново. Назовем такую процедуру отсеивания автоматической. На рис. 6.4 показана оценка МНК для случая т = 2 — вектор ОА; Sy — характеристический эллипс. Оценка ав- томатического отсева переменных характеризуется тем, что характеристический эллипс 1 _ . Рис. 6.4. Геометрия оценки автомати- ческого отсева переменных касается оси oq (при отбросе переменной %2). Вектор этой оценки есть ОВ. Оценка (&ь 0) есть оцен- ка МНК при условии, что вторая координата равна нулю. Автоматический от- сев переменных предпо- лагает равенство нулю некоторых координат оценки. При этом, ве- роятно, длина оценки уменьшается, и мы не будем получать боль- значений оценок. Однако ших по абсолютной величине подобная процедура имеет и недостатки. Во-первых, для гарантии того, что употребляемые статистические критерии достаточно эффективны, мы обязаны предположить, что отклонения имеют нормальное распределение или близкое к нему. Во-вторых, процедура приравнивания нулю неко- торых координат оценки — весьма грубая. У нас мало уве- ренности в том, что истинное значение параметра в точно- сти окажется равным нулю. Например, часто в правую часть регрессии входят переменные, которые тесно «корре- лируют» между собой. И тем не менее мы не хотим ни одну из переменных выбросить из анализа, поскольку они час- то имеют большой физический смысл. Разумеется, одно- временно хорошо оценить параметры при этих переменных в силу мультиколлинеарности не удастся. Однако нас впол- не устроит более или менее удовлетворительная оценка. В случае же схемы автоматического отсева одна из пере- менных была бы выброшена из анализа, т. е. нашей оценкой при выброшенной переменной был бы нуль! Далее рассмотрены оценки, которые «смягчают» оценку МНК, не прибегая к экстраординарным мерам — считать 202
оценку некоторой координаты неизвестного вектора нулем, как это делается в схеме автоматического отсева перемен- ных. Все описанные оценки уменьшают длину оценки МНК, таким образом являясь более устойчивым. Мультиколлинеарность не сказывается на точности оце- нивания о2. Другими словами, обычная несмещенная оцен- ка s2 = —— (у—Ха)'(у—Ха), п—т использующая оценку МНК, является вполне удовлетво- рительной. Действительно, s2 = ^^8'Ае, где A=In—Х(Х'Х)-1Х'— идемпотентная матрица п X п. Найдем дисперсию оценки s2, т. е. Е (s2 — о2)2 = Es4 — о4. Очевидно Е (n—m)2s4 = Ee'Аее'Ае = Е 2 е< ^е.к e.t Дг.- Ahl. (6.21) Л I, k, г Будем предполагать еь ..., еп независимыми симметрично распределенными, т. е. Ее’ = 0, имеющими одинаковый четвертый момент Ее4 = v, t = 1, ..., п. Тогда слагаемые суммы не равны нулю, только если индексы i, j, k, I удов- летворяют одному из следующих условий: 1) i = j = k = I—сумма (6.21) равна Е 2 е/ Ah; t 2) i = j Ф k = /—сумма (6.21) равна Е V е/ Аа AhJl; t k 3) / = & =0. j = l— сумма (6.21) равна Е 2 е/ ej Ан; 4) i =/#=/ = & —сумма (6.21) равна Е 2 е, е? Дгу A}i. i * I Сумма (6.21) перепишется следующим образом: E(n—m)2s4= v24/+ о2 2 2о4 2 AJj. t i k i 7^ J Обозначим 2-^« = Р- В силу идемпотентности %Ац = Z l,j = 2И а = п — т, откуда z (2M = 2Av+ 2 Д;;Д?7=(п-т)2; 2 = \ J У i t 7^ / i k = (п—т)2—р; 2 Aij = n—т—р. i ¥ i 203
Поэтому Es4 = —vp + о» (1 + (п—т)2 \ (п—mj2 / Е (& — о2)2 =------к о4 2(n-m)-3p . v (п—т)2 (п—т)2 Но п — т — р О, т. е. р п — т, поэтому E(s2—о2)2^ v+2q-. п—т Таким образом, даже если Лт1п (Х'Х) ->0, дисперсия оцен- ки s2 не стремится к бесконечности, как это наблюдается в оценке МНК- Упражнения 6. 3 1. Докажите, что оценка МНК является эффективной в классе линейных несмещенных оценок с априорным множеством &г = = {а £ Rm : |[«|| </}, г > 0. 2. Допустим, класс оценок М не пуст. Верно ли тогда, что 0 — ограниченное множество? 3. Докажите, что если А — матрица п X п и А =}= 0, то ^тах (А А) > 0. 4. Для каких г и а2 минимаксная оценка (6.20) имеет ССКО меньшую, чем оценка МНК? 6.4. Ридж-оценки В предыдущих параграфах показано, что оценка МНК имеет большую дисперсию в случае мультиколлинеарно- сти и при усилении мультиколлинеарнссти становится не- устойчивой. Если же выйти за рамки несмещенных оценок, то оказывается можно построить более устойчивые оценки, с меньшим квадратом ошибки. К таким оценкам прежде всего относятся так называемые ридж-оценки (ridge — гре- бень, хребет), впервые введенные А. Гоэрлом. Такое назва- ние оценкам он дал при анализе регрессии, представляю- щей собой поверхность второго порядка [130]. В общем ви- де ридж-оценка вектора параметров а линейной регресси- онной модели записывается так: а (К) = (Х'Х + КНХ'у, (6.22) где К — некая неотрицательно определенная матрица tn X т. Суть оценки (6.22) ясна: добавление к матрице плана Х'Х неотрицательно определенной матрицы делает ее лучше определенной, а оценки — более устойчивыми, 204
Часто матрицу К выбирают диагональной, причем ее диаго- нальные элементы пропорциональны диагональным эле- ментам исходной матрицы плана Х'Х, т. е. Kfi = k (Х'Х);;, к;; = о (i #= /), (6.23) где k 0. Еще более простой способ — прибавление к диа- гональным элементам матрицы Х'Х некоторого неотрица- тельного числа, т. е. К = klm. Можно показать, что случай (6.23) сводится к последнему. Действительно, обозначим ’(Х'Х)И D = 0 (X' X)mm_ Z=XD-’/2, p=D'/2a. (6.24) Тогда модель (1.2) сведется к следующей модели: у = Zp 4- е, (6.25) причем матрица Z'Z = D-I''2X'XD~I/2 является «корре- ляционной матрицей» независимых переменных xlf ..., хт. Ридж-оценкой (6.22) с матрицей К = klm для модели (6.25) является b (k) = (Z'Z + &I)-1Z'y = [D-VSX'XD-1/2 + + HHD-^X'y = D-42 (X'X + K)-1X'y, Ku = - k (X'X)it. Поэтому a (k) = D->/2b (k) (6.26 есть ридж-оценка (6.22) исходной модели (1.2) с выбором К по правилу (6.23). Итак, вместо (6.24) можно рассмотреть приведенную регрессионную модель (6.25), у которой ридж- оценка имеет более простую структуру b (£) = (Z'Z + &I)-1Z'y. (6.27) Кратко остановимся на свойствах этой оценки: 1) b (0) — оценка МНК; 2) b (k) —является линейным преобразованием оценки мнк- b (k) = Bb; В = [I + k (Х'Х)-1]’1, (6.28) 205
где b — оценка МНК уравнения (6.25). Поскольку ЕЬ = = 0, а В =# Im, то ридж-оценка является смещенной; 3) в классе оценок с фиксированной длиной ридж-оценка (6.27) минимизирует сумму квадратов отклонений. Для доказательства достаточно показать, что (6.27) является решением следующей за- дачи: Рис. 6,5. Ридж-оценка как оценка с данной длиной и минимизирую- щая сумму квадратов отклонений, т=2 (у — Zd)' (у — Zd) => min, d'd = с. Построим функцию Лаг- ранжа Ф(й, £) = (у—Zd)'(y—Zd)+ 4~&(d'd—с). Необходимым условием ми- нимума функции Ф яв- ляется дФ/dd = —2Z'y + 2Z'Zd 4~ 2&d = О, откуда (Z'Z 4- klm) d = Z'y и оценка (6.27) d = b (fe) = (Z'Z + felmHZ'y. На рис. 6.5 эта оценка есть точка соприкосновения ок- ружности Sx с радиусом Ус и эллипса S2 = {d : (у — — Zd)' (у — Zd) = const }. Можно показать, что верно и обратное утверждение: ридж-оценка имеет минимальную длину в классе оценок с данным значением суммы квадратов. В случае мультиколлинеарности средняя сумма квад- ратов ошибок оценки МНК оказывается высокой. Что мож- но сказать об оценке (6.27)? Обозначим S = (Z'Z -j- felm) -1Z'Z — Im. По опре- делению L (0) = E (b (fe) - 0)' (b (6) - 0) = E [S0 + ф (Z'Z + Ail)-1 Z' £)]' X [S0 + (Z' Z + Ail)-1 Z'e] = = 0'S'S0 + E0'S' (Z' Z + + Ее' Z (Z' Z + + /si)"1 S0 4- Ее' Z (Z' Z 4- fel)-2 Z'e. 206
Второе и третье слагаемые в последнем выражении об- ращаются в нуль в силу равенства Ее = 0. К последнему слагаемому применим формулу (ПЛЗ). Тогда L (0) = p'S'Sp + о2 tr Z (Z' Z + £I)-2Z'. Преобразуем матрицу S' следующим образом: S' = Z' Z (Z' Z + &I)-1 — I = (Z' Z + &I)-1 [Z' Z— — Z'Z + U] = —k (Z' Z + И)-1; аналогично преобразуется матрица S. Таким образом, S'S = k2 (Z' Z 4- &I)-2. Далее, легко видеть, что харак- теристические векторы матриц Z'Z, Z'Z + kl, (Z'Z + + (Z'Z + 6I)~2 совпадают. Если t-e характеристиче- ское число матрицы Z' Z обозначить л;, то t-м х. ч. матрицы Z'Z + ki будет к; + k, а матрицы (Z'Z + &I)-2 — - (Хг + k)~2. Лемма 6.1. Пусть А, В — симметричные матрицы с совпадающими х. в. и характеристическими числами, рав- ными соответственно^, ...» лт; р,х, ..., р,т. Тогда tr АВ = = i Доказательство. Покажем, что i-e х. ч. матрицы АВ есть Х;р,;. Действительно, пусть Р — матрица, со- ставленная из х. в. матрицы А, такова, что Р'АР = Ад; тогда>Р'ВР = Ав и АВ = РАдР'РАдР' = РАдАдР', от- куда и следует утверждение леммы. Используя лемму, находим tr Z (Z' z + 6I)-2 Z' = tr (Z' Z + 6I)-2 Z' z = У —Ai—. Далее, пусть P — ортогональная матрица, столбцы ко- торой составлены из х. в. матрицы Z' Z; тогда P'Z'ZP = = A, A;i = X; и (Z' Z + 6I)-2 = Р'А*Р; А;; = 1/ (Xf + k)2t Обозначим у = РР; W = ZP; у = Wy + 8, (6. 29) тогда т /и 1 207
Окончательно m v2 m L(k) = Lbw = k2 У --------------ho2 У -----— ,= 1 (Ki + A = у k2yt+o2Ki £ tti + W (6.30) Исследуем среднюю сумму квадратов ошибок (6.30) ридж-оценки как функцию k. Ясно, что L (0) = o2S 1/Х; = = о2 tr (Z'Z)-1 есть средняя сумма квадратов ошибок оценки МНК. Найдем первую и вторую производные L(ky. tn L'(k) = 2^ i— 1 Ki у? k — u2Ki (Ki+k)3- m i= 1 3O2Ki + y?K?-2Kiyf k (W Как видим, L' (0) < 0, т. e. в точке k = 0 функция L (k) убывает, а при k ->oo L(k) имеет асимптоту (рис. 6.6): Рис. 6.6. График среднего квадрата ошибки для случая Р'0>ог2 — i Ki m limL(^) = 2 Y/ = 7?->oo i = P'P'PP=P'P. Легко видеть, что для всех 0 < k < о2/ /шаху2 L' (k) меньше t нуля. Это значит, для всех таких k L (k) < <L (0). Далее, можно найти оптимальное значение k: L (k*) = = min L (£). Для приближенного вычисления k* можно вос- k>0 пользоваться методом Ньютона—Рафсона. Аппроксимируем L (k) в окрестности точки k = 0 параболой, т. е. L(k)^L (0) + kL ’ (0) 4- -j- k2 L" (0). Значение k, обращающее (6.31) в минимум, равно: ^=__L40L==q2______2W______ L"(0) 2(3o2 + v?M)/\? ' (6.31) (6.32) 208
Для нахождения k* необходимо знание искомых парамет- ров о2, у1( ут, поэтому непосредственное применение (6.32) невозможно. Однако можно предложить следующую итеративную процедуру: 1) оцениваем исходное уравнение обычным МНК, полу- чаем оценку а. С помощью преобразований (6.24) и (6.29) переводим ее в оценку g параметра у: 2) находим значение k* по формуле (6.32), где о2 и заменяются на их оценки s2 и g;; 3) находим на основе k* ридж-оценку Ь(&*) по формуле (6.27) и возвращаемся на второй шаг. Вычисления продол- жаются до тех пор, пока результаты соседних итераций не совпадут. В табл. 6.1 приводятся ридж-оценки регрессии-примера для разных значений k. Таблица 6.1 k Сумма квадратов отклонений (Q) «1 а2 а» а. 10-6 68,6 0,395 0,229 3,77 —17,0 10-6 69,0 0,386 0,226 3,97 —16,3 Ю-з 91,4 0,336 0,232 5,12 —12,3 IO-2 437,9 0,226 0,303 5,89 8,77 ю-1 1793,1 0,148 0,393 4,53 36,5 1 21956,0 0,109 0,341 3,41 35,6 На рис. 6.7 показан график изменения суммы квадратов отклонений в зависимости от k. При k 0,001 сумма квад- ратов отклонений растет медленно, далее рост резко увеличивается. Удовлетворительным ридж-оценкам отве- чают 0,001. Применение формулы (6.32) для оптимального k* при- вело к сходимости процесса 1)—3) на втором шаге. Значе- ние k* для регрессии -примера на первом шаге, т. е. с при- менением оценки МНК, равно k* = 0,000029, L (k*) = = 36401 < 47332 = L (0). Ридж-оценка привела к умень- шению средней суммы квадратов ошибок на 23%. Второй шаг дал практически то же значение k*, и ридж-оценка оказалась равной а (0,000029) = (0,392; 0,228; 3,82;—16,9)'. При исследовании ридж-оценок как критерия ка- чества оценки мы рассматривали среднюю сумму квадра- 209
Рис. 6.7. Сумма квадратов отклонений как функция k регрессии-примера тов ошибок. Этот критерий имеет один недостаток: веса оце- нок разных координат совпадают. Более оправданным кри- терием для несмещенных оценок является сравнение матриц ковариаций оценок. Для смещенных оценок матрицу ковариаций необходи- мо заменить на матрицу средних квадратов ошибок, т. е. Е (dj — a) (d — а)', где d — оценка век- тора а. Так, для не- которого k ридж- оценка лучше оценки МНК, если разность между матрицей кова- риаций оценки МНК и матрицей средних квадратов ошибок ридж-оценки положи- тельно определена. В (191] показано, что при специальном вы- боре k ридж-оценка будет лучше оценки МНК и в смысле кри- терия матрицы сред- них квадратов оши- бок. Вернемся к проблеме выбора k. А. Гоэрл, Р. Кеннард и К- Болдвин [134] предлагают k брать равным /nsVg'g, где g — оценка МНК ортогонального уравнения регрессии (6.29). Этот метод имеет существенный недостаток: при силь- ной мультиколлинеарности оценка МНК является неустой- чивой, т. е. значение g'g велико, что ведет к малому k. Это в свою очередь приведет к тому, что ридж-оценка будет ма- ло отличаться от оценки МНК- В действительности же должно происходить обратное. Г. Макдональд и Д. Галарню [163] предлагают два ва- рианта выбора k. Предположим, что независимые перемен- ные представлены в стандартизованном виде, т. е. Z'Z — корреляционная матрица. Как и прежде, b — оценка МНК- Легко видеть, что Eb' b= Е (0 + (X' X)-1 X' в]' (0 + (X' Х)-‘ X' е] = = 0'0 + o2tr(X'X)-1, (6.33) 210
а, (В) 0,40 0,3В 0,32 0,28 0,24 10 5 10-“ /у Рис. 6.8. Ридж-след первой координа- ты ах (k) — ридж-оценки си поэтому в качестве оценки 6'0 можно взять I = b'b — — s2 tr (Х'Х)"1. По первому варианту k выбирается так, чтобы ||Ь(£)[|2= = I для I > 0, в противном случае k = 0. По второму ва- рианту для I > 0 k выбирается так же, как и по первому, а при I 0 значение k полагается бесконечно большим, т. е. b (k) = 0. Корректность выбора k в указанных правилах следует из того, что ||Ь(&)||2— убывающая функция k. Оба правила направле- ны на уменьшение дли- ны вектора оценки. Су- щественным недостатком обоих правил является отсутствие теоретиче- ской аргументации; при наличии мультиколли- неарности оценка b бу- дет не наилучшей, поэто- му оценка I также яв- ляется не весьма удовле- творительной. Свойства оценок МНК, оценок, построенных по описан- ным правилам, исследо- вались методом Монте-Карло. При наличии мультикол- линеарности в большинстве случаев ридж-оценки оказы- вались лучше оценки МНК- А. Гоэрл и Р. Кеннард [131] предлагают строить так на- зываемый «ридж-след» для каждой координаты b; (k), a k выбирать на основе визуального анализа ридж-следа. Кон- кретных рекомендаций по выбору k* они не дают. На рис. 6.8 приведен ридж-след для ат (fe) регрессии-примера. Аргу- ментированно выбрать k на основе этого графика затрудни- тельно. Мы предлагаем исследовать не ридж-след оценок, а ридж-след суммы квадратов отклонений. При этом зна- чение k может быть выбрано следующим образом. При на- личии мультиколлинеарности на отрезке (—оо, k*) рост суммы квадратов отклонений не очень большой, а на отрез- ке (k*, оо) — значительно выше, полагаем, k = k*. Остановимся на геометрии ридж-оценки. Рассмотрим для простоты случай т = 2. Ридж-оценку будем искать для ортогонализованной модели (6.29). Ридж-оценкой в этом случае являются 211
= (6.34) Мт « Aa-r k где d = W'y. При изменении k от 0 до оо ридж-оценка g = (gL (k), g2 (fe)) определяет некую кривую. Установим вид этой кри- вой. Выразим g2 через glt исключив тем самым k : „ = dtgi_________ 1\ (Хз — Xj) gl + dl X3 —Xj \ (Хз — Xj) gi + d 1 / (6.35) Как следует из (6.35), графиком g2 от gx является гипер- бола (рис. 6.9). Асимптотой гиперболы является d2/(X2 — — XJ. Не теряя общности, можно считать %2 > и dj > 0, тогда 0 < gj < dji^. При переходе к модели (6.25) необходимо сделать обратное ортогональное преоб- разование, т, е. перейти к системе координат (0Ь 0j). Рис. 6.9. Зависимости gi(gi) и b(k) при 0<k<oo, b(oo)=0, Sv — уровень суммы квадратов отклонений, Ь(0)—Ь — оценка МНК уравнения (6.25) До сих пор мы рассматривали простейший вариант ридж- оценки, когда в качестве матрицы К в выражении (6.22) бралась матрица, пропорциональная матрице D. Рас- смотрим более общий случай, когда К — диагональная матрица, т. е. "А О К = О ft— 212
Ридж-оценкой для ортогонализованной модели (6.29) является g (К) = (W'W + K)-1W'y = (А + K^W'y. Аналогично оценке (6.27) может быть найден средний квадрат ошибки &i+kiy* Необходимым условием минимума L (klt ..., km) явля- ется равенство первых производных этой функции нулю, т. е. dL -2 dkt ~ (М+М3 ~ О, i — 1, tn, откуда ki = о2/у2, i = 1, ..., т. (6.36) Значения (6.36) дают глобальный минимум L (klt ..., km). Найдем гессиан L (&1; ..., km): Q2L _ 2 'Р,?М+3сг2— 2Ау? i — 1, т; d-L =0, dki dkj i =/= j. Таким образом, гессиан L представляет собой диаго- нальную матрицу, которая будет положительно определе- на в Rm: kt Т/М+За» 2?/ <6-37> Поскольку kt = о2/уг? < 1/2Х; + 3/2о2/у2, то решение (6.36) дает локальный минимум на множестве (6.37). Этот минимум будет глобальным, так как для kt > о2/у2 функ- ции 2 (ktyl — о2)/ (X; + kt? — положительные. На основе (6.36) А. Гоэрл и Р. Кеннард [132] предложи- ли итеративную процедуру оценивания: с помощью МНК строится оценка s2, находятся значения ki по формуле (6.36), затем — ридж-оценка, следующие значения ki и т. д. В. Хеммерл [126] нашел условия сходимости этого процес- са, а также дал аналитическую форму предельной оценки. <j2 Обозначим с; = -----j , i = 1, .... т, big! 213
где g = (glf gmy — оценка МНК ортогонализованной регрессии (6.29) Теорема 6.3 [126]. Если ег 1/4, то последователь- ность kl, kt, ..., имеет предел, равный k, = 1—2е,- — ~|/1—4е^ .= j........т (6,38) Set Если et > 1/4, то kl -> оо, г —оо (k* = оо). На основе этой теоремы с учетом (6.36) может быть лег- ко найдеи аналитический вид предельной оценки: • _ (gj/(l + £*)• ё1 [ 0, е,>1/4. (6.39) Найдем предельную ридж-оценку для регрессии-при- мера, используя теорему Хеммерла. Все результаты пока- заны в табл. 6.2. В данной регрессии е4 = 0,503 > 1/4, поэтому fej = оо и $ = 0. Для i = 1,2,3 значения k* на- ходятся по формуле (6.38), значение вектора g* — по фор- муле (6-39). Последняя строка таблицы есть ридж-оценка исходного уравнения регрессии. Как видим, ридж-оцен- ка сильно отличается от оценки МНК- Таблица 6.2 Оценка at a, g (0) 93,9 340,9 315,3 292,9 е 0,00018 0,0047 0,037 0,503 k* 0,00018 0,0047 0,04 oo g* 93,9 393,4 303,3 0 a (fe») 0,279 —0,253 3,50 —56,3 Упражнения 6. 4 1. Докажите, что матрицы А и А*, где А — симметричная мат- рица, k =/= 0 — целое число (в том числе отрицательное), имеют оди- наковые характеристические векторы. 2. Докажите, что длина ридж-оценки (6.27) является убываю- щей функцией k. 3. Докажите, что Q (k) = (у — Ха (fe))' (у — Ха (fe)), где a (fe) — ридж-оцеика (6.26), является возрастающей функцией fe. 214
6.5. Редуцированные оценки Как было показано в предыдущих параграфах, мулЬ- тиколлинеарность ведет к увеличению длины оценки. Есте- ственно поэтому вместо обычных оценок, т, е. оценок МНК, рассматривать «укороченные», редуцированные оценки, т. е. оценки с меньшей длиной. В. Джеймс и Ч. Стейн [139] показали, что в случае нор- мальной случайной выборки в классе всех оценок может быть найдена оценка, которая лучше обычной средней в смысле наименьшего среднего квадрата ошибки. В отличие от средней оценка Джеймса—Стейна является смещенной оценкой. Для регрессии результат Джеймса — Стейна может быть сформулирован следующим образом [181]. Предположим, отклонения регрессии ги е2, ..., еп незави- симы и одинаково распределены N (0, о2). Для простоты будем считать матрицу плана регрессии у = Wy + е еди- ничной, т. е. W'W = I. Сумму квадратов отклонений, от- вечающую оценке МНК, обозначим Q (g); средняя, сумма квадратов ошибок оценки МНК тогда равна: L (g) = = Е (g — у)' (g — у) = тс2. Теорема Джеймса — Стейна [181] 6.4. Для т^З оценка Джеймса—Стейна gjs = (1 — cQ (g) \ g IlgIF ) для всех 0 < с < 2п™т+2 имеет среднюю сумму квад- ратов ошибок меньше та2 при любых а g Rm. Наименьшее значение L (gjs) достигается при с* = (т — 2)/(п — — т + 2). Очевидно, что при с =#= 0 для оценки Джеймса—Стейна коэффициент редукции II в 11“ поэтому оценку gjS и называют редуцированной (shrunken estimator). В оценке Джеймса — Стейна каждая координа- та оценки МНК уменьшается в одинаковое число раз. Для оптимального с* = (т — 2)/ (и — т + 2) L (с*) = — 2псЧ (п — т + 2) « 2о2 для больших п. Отсюда следует, что для больших п оценка Джеймса—Стей- на лучше оценки МНК приблизительно в т/2 раз. При боль- ших т эффект будет значительным. Для т = 1 и 2, как по- 215
казано в [183], оценка МНК будет наилучшей в классе всех оценок (смещенных и несмещенных). В [181] приведены фор- мулировки теорем более общих, чем теорема Джеймса— Стейна. Оценку МНК возможно подправить и для некоторой час- ти вектора. Так, допустим, т — р + q, причем р перемен- ных xlt ..., хр считаем предпочтительными и для них не бу- дем исправлять оценку МНК- Разобъем вектор оценки МНК на два подвектора g — (g1, g2); первый размерности р X 1, второй — q X 1. Положим g}s = (1--------g2, \ llgll21 где 0 < с < 2 (q — 2)/ (и — т + 2), тогда оценка gjS = = [|з ] имеет средний квадрат ошибки, меньший, чем сред- ний квадрат ошибки оценки МНК для всех а, о2. Теорему Джеймса—Стейна нетрудно применить для слу- чая W'W I. Действительно, пусть модель задана в ис- ходном виде у = Ха + е. Нормируя независимые перемен- ные (6.24), придем к модели (6.25). Подходящим поворотом осей координат трансформи- руем модель (6.25) в ортогональную (6.29), при этом W'W= — Л — диагональная матрица. Далее положим Wo = = WA-V2, тогда W'W0 = I и У — woYo + е. (6-40) где у0 = A1/2 Y- Находя оценку Джеймса—Стейна для мо- дели (6.40) и делая обратные преобразования, найдем соот- ветствующую оценку для исходной модели. Можно показать, что оценкой Джеймса—Стейна для модели (6.25) является редуцированная оценка bj$ = Xb, где b — оценка МНК регрессии (6.25); Х = 1-----^-(ь)—• b' Z' Zb (6-41) Q (Ь) — минимальная сумма квадратов уравнения (6.25). В общем виде редуцированную оценку можно записать в виде Ха, где X — коэффициент редукции 0 < X < 1. До- пуская некоторую вольность, будем считать d стохасти- ческой редуцированной оценкой, если X — стохастический коэффициент, в противном случае d = Ха — детерминиро- ванная редуцированная оценка. В последнем случае легко найти математическое ожидание, матрицу ковариаций, 216
среднюю сумму квадратов ошибок и матрицу средних квад- ратов ошибки: Ed = Ха; cov (d) = X2 cov (а) = о2Х2 (Х'Х)-1; L (d) = Х2о2 tr (Х'Х)’1 + (1 — Х)2а'а; (6.42) Е (d — а) (d — а)' = X2 о2 (Х'Х)-1 + аа'(1 - X)2. Если d — стохастическая редуцированная оценка, ма" тематическое ожидание, матрицу ковариаций и т. д. найти весьма сложно, так как X = X (у) теперь имеет свое распре- деление. Легко показать, что для любого а существует такое О < X < 1, что L (Ха) < L (а). Оценка Джеймса—Стейна является представителем сто- хастической редуцированной оценки. Обобщенной редуцированной оценкой Л. Мейер и Т. Уил- лке [161] называют оценку, которая является линейным преобразованием оценки МНК, т. е. d = Ca, где С— не- вырожденная матрица т X т. Если С — детерминирован- ная матрица, говорим, что d — детерминированная реду- цированная оценка, в противном случае — стохастичес- кая. Математическое ожидание, матрица ковариаций, сред- няя сумма квадратов ошибок и матрица средних квадра- тов ошибок обобщенной редуцированной оценки d = Са равны соответственно: Ed = Са; cov (d) = С cov (а)С' = о2С (Х'Х)"^'; L(d) = о2 tr С' (Х'ХНС + а' (С — Im)' (С — 1т)а; (6.43) Е (d —а) (d-a)' = о2 С (Х'Х^С' + (С-1т)аа' (C-IJ. При использовании обобщенной редуцированной оцен- ки, естественно, возникает вопрос о выборе матрицы пре- образования С. Мейер и Уиллке поступают следующим об- разом. Как известно, при заданном значении суммы квад- ратов отклонений ридж-оценка минимизирует длину оцен- ки. Аналогичный путь можно предложить для получения матрицы С. Нетрудно проверить, что Q (d) = (у - Xd)' (у - Xd) = (у - ХСа)' (у - ХСа) = = (у — Ха)' (у — Ха) + а' (С — I)'X'X (С — 1)а = = Q (а) + а' (С - I)'Х'Х (С - 1)а. (6.44) Очевидно, обобщенной детерминированной редуциро- ванной оценкой d = Са, имеющей данную сумму квадратов 217
отклонений, с минимальной длиной является ридж-оценка, для которой С = (Х'Х + /г1)-1Х'Х = (Im + k (Х'Х)-1)"1. Как показали Мейер и Уиллке [161], обобщенной редуцированной оценкой с данной суммой квадратов отклонений (6.44) и минимальным следом tr cov (d) = = о2 tr С (Х'Х)-1 С' является оценка d — баа' (I + баа')-1а, (6.45) где 6 > 0 определяется данным значением Q (d). Оценка (6.45) может быть преобразована следующим образом. Матрицы аа' и I + баа' имеют одинаковые характеристи- ческие векторы, поэтому аа' = PA.jP'; I + баа' = РЛ2Р', где А, и Л2 — диагональные матрицы, причем Тогда с учетом этого d«= баа' (I + 6aa')-1as=6PA1P' РЛ21 Р' а — ₽6PAxA2 ‘Р' а=----- 1 + 8а' PAjP'a- 8 1 + 8а' а аа' а = 6а' а 1+6а' а а = Ха, 6а' а 1 1-р8а' а (6.46) Как видим, оценка (6.46) есть не что иное, как стохас- тическая редуцированная оценка, коэффициент редукции 0< Х< 1. Напомним, что 6 зависит от выбранного зна- чения суммы квадратов отклонений. Мейер и Уиллке минимизировали след ковариационной матрицы редуцированной оценки. Можно выбрать и другие критерии. Например, в качестве критерия можно взять среднюю сумму квадратов ошибки. Найдем для данных а и о2 значение X, минимизирующее L (d) = L (Ха). Имеем (см. (6.43)) dL/dX = 2Хо2 tr (Х'Х)-1 — 2 (1 — Х)сс'сс = О, хМейер и Уиллке при преобразовании допустили ошибку; их ошибочная оценка равна 8 (а'а + 8 (а'а)2/ (1 + 8а'а))а. При до- кааательстве (6.46) можно воспользоваться формулой (П.4). 218
откуда Л----------------------- I О. ( ) а'«+°2^г (Х'Х)-1 ' ' Очевидно, для данных а и о2 L (ajs) = L (Va) < L (а) = о2 tr (Х'Х)’1. Использовать коэффициент редукции (6.47) на практи- ке невозможно, поскольку он содержит неизвестные пара- метры. Однако вместо а и о2 можно подставить их оценки, например можно положить a' a+S2 tr (X' X)-i ’ что приведет к стохастической редуцированной оценке a/s = Va. Оценку a/s можно использовать для нахожде- ния следующего значения V, по которому найдем новое зна- чение ajs, и т. д. Между ридж-оценками и редуцированными оценками существует тесная взаимосвязь: ридж-оценки являются частным случаем редуцированных оценок [113]. Действи- тельно, сведем исходную модель к ортогональной (6.29). Для нее обобщенной ридж-оценкой является g (К) = (W'W + K)-1W'y = (Л + K)-1W'y, где К — диагональная матрица. Обозначим W'y = d, тог- да gi (К) = di/^i + ki), i = 1, ..., tn. (6.48) Обобщенной редуцированной оценкой для (6.29) является gr = Lg, где L будем считать диагональной матрицей. Тог- да (§г)г = Ligi = Lidi/hi. Если в качестве взять V (Хг+ + kt), то приходим к ридж-оценке (6.48). Упражнение 6. 5 1. Докажите, что для некоторой области а £ Rn детермини- рованная редуцированная оценка будет иметь меньшую ССЁ,О,чем оценка МНК. 219
6.6. Оценка метода главных компонент Эта оценка впервые была предложена М. Кендэллом I145)1. Как и прежде, вместо исходной модели регрессии рас- смотрим преобразованную ортогональную модель у = Wy е, (6.49) где Л = W'W — диагональная матрица с элементами на диагонали, равными характеристическим числам матрицы Z'Z (см. уравнения (6.29)), причем Х2 ^ ... ^ Хт. Оценками МНК для (6.49) являются gi = dilKt, i = 1, ..., т. Если xlt ..., xm сильно коррелируют, то для неко- торого г кт-т близко к нулю, а значения git 1 = 1, ..., т — г будут большими по абсолютной величине. Дисперсии оценок, соответствующих малым значениям Лг, т. е. о2/Х;, также будут велики; таким образом, оценки МНК при ма- лых X; будут неудовлетворительными. Идея оценки метода главных компонент (principal components estimator) за- ключается в том, чтобы для малых значений Хг соответству- ющую координату оценки считать равной нулю; более точ- но оценка главных компонент есть t' (°’ gm w = I gi, iZ>m — r. Оценку gp (г) можно рассматривать как частный слу- чай обобщенной редуцированной оценки, матрица редук- ции которой диагональна, диагональные элементы равны О или 1. Производя обратное преобразование над регрес- сией (6.49), получим оценку главных компонент для моде- лей (6.25) и (1.2): bp (г) = Pg,, (г); ар (г) = D"% (г). Оценка метода главных компонент имеет много общего с оценкой автоматического отсева переменных. Оба метода предлагают считать оценкой некоторой координаты нуль, если первоначальная оценка оказалась неудовлетворитель- ной. Разница заключается в том, что отсев переменных про- изводится для исходной модели, а оценка метода главных компонент «работает» с преобразованной моделью (6.49). Легко показать, что отсев переменных на основе /-статис- тики не инвариантен относительно линейных преобразова- 1Более подробно см. [116, 125, 160]. 220
ний модели. Далее, при отсеве переменных основным пока- зателем является ^-статистика оценки МНК, а в методе главных компонент — величина характеристического чис- ла матрицы X;. Можно проверить, что оценка метода главных компо- нент Ьр (г) для модели у = Z0 + в выражается в виде ли- нейной комбинации характеристических векторов р1; рт матрицы Z' Z следующим образом: т bP(r) = 2 (6-5°) i = m—r-|- I На основе (6.50) нетрудно определить основные статисти- ческие характеристики оценки Ьр (г): т — г ЕМг) = р-£ (pz'p)Pi; (6.51) t= 1 т cov(bp (r)) = oa 2 PiP/An (6-52) m L (Ьр (r)) = E (bp (r) - p)' (bp (r) -P) = o2 2 1 + i = m — r + 1 m—r + 2 (Pi P)a. (6.53) t=i Заметим, что CCKO оценки МНК равна: т L(bp(m))₽L(b) = aa (6-54) z=i Учитывая (6.53), легко сделать следующий вывод: отбра- сывая в (6.54) первые т — г членов, мы выигрываем в пер- вой сумме квадратов ошибок (6.53) и проигрываем во вто- рой. Чем меньше значения ..., Хт_г, тем шире область р £ Rm, где ССКО оценки метода главных компонент мень- ше ССКО оценки МНК- Помимо значений вектора неиз- вестных параметров р для L (Ьр (г)), имеет значение нап- равленность pi и р. На рис. 6.10 показаны оценки метода главных компо- нент gp (0), gp (1) и gp (2). В системе координат (у1? уа) эти оценки относятся к модели (6.49), в системе (рь |32) — к модели (6.25). 221
Рис. 6.10. Оценки главных компонент, т=2, М~0 Практическое применение оценок метода главных ком- понент наталкивается на трудности, связанные с выбо- ром г. 6.7. Оценка Марквардта Д. Марквардтом [159] предложены более общие оценки! чем рассмотренные выше. На практике матрица Z'Z всег- да имеет полный ранг т, поскольку Z несет на себе ошибки измерения. Другими словами, значение Xmln (Z'Z) может быть очень малым, но все-таки отличным от нуля. По Мар- квардту очень малые значения %; можно считать результа- том случайных помех, поэтому их необходимо приравни- вать к нулю. Итак, пусть 0 < ... ^ Хт — характеристичес- кие числа матрицы Z'Z, Р — ортогональная матрица, составленная из х. в. матрицы Z'Z. Марквардт предлага- ет считать Kt = 0, если 6, где 6 — достаточно малое наперед выбранное число. В частности, первые т — г х. ч. можно взять равными нулю, если (6.55) где со может колебаться от Ю"1 до 10“7 (Марквардт предла- гает выбирать со в окрестности 10~5). Если считать первые т — г характеристических чисел матрицы Z'Z равными нулю, то rank Z'Z = г. Обратная матрица для Z'Z не существует, однако можно найти обобщенную обратную. 222
Как следует из параграфа 6.2, обобщенная обратная матрица к Z'Z равна: (Z'Z)r+~PAr+P', (6.56) где U, ])-н элемент матрицы (Z'Z)r+ равен т 2 PikPjk/k- k = m—r-f- 1 Далее Марквардт вводит понятие обратной матрицы с дроб- ным рангом. Определим сначала обратную матрицу к диа- гональной матрице Л с дробным рангом г. Итак, пусть О г «С т. обозначим е = [г] — целая часть г, 0 = = г — [г] — дробная часть. Зададим Л* для любого дей- ствительного г следующим образом: (6.58) Разница в (6.57) и (6.58) заключается в том, что мы вводим в (6.58) член 1/1т_в с коэффициентом, равным дробной части г. Под обратной матрицей к Z'Z с приписываемым дробным рангом г будем понимать (6.56), где Л* задается (6.58). Очевидно, в этом случае ((Z'Z)/)jy — 2 Pih Pjk/^k + QPi, m-ePj, k = m—e-t-1 Оценка Марквардта есть функция выбранного ранга г и равна: bM(r) = (Z'Z)pZ'y. (6.59) Оценкой а для исходной модели (1.2) является 3r+ = aw(r) = р-*/2 Ъл< (г). (6.60) 223
Между оценкой Марквардта и оценкой метода главных ком- понент существует тесная взаимосвязь. Теорема 6.5. Если г — целое, то оценки совпадают, в противном случае первая оценка выражается через вторую следующим образом: ам (г) = (1 — 0)а₽ (е) + 0а/> (е 4- I). Доказательство. Сначала проведем его для орто- гонализованной модели у = Wy -f- е, где W' W = Л, т. е. докажем gM(r) = (l-0)gp(e) + 0gp(e+l), (6.61) По определению бм (0 = О, i < т—е\ Qdm_e/km_e, i=m — е\ i>m—е. Покоординатно расписывая правую часть (6.61), придем к выражению, которое и необходимо было доказать. Посколь- ку оценки совпали для ортогонализованной модели, то они совпадут и для исходной модели (1.2). Как следует из доказанной теоремы, оценки Марквар- дта лежат на отрезке, соединяющем оценки главных ком- понент ближайших рангов е и е Ч~ 1. На рис. 6.10 оценки Марквардта лежат на отрезке NP. Приведем основные свойства оценки Марквардта. 1. Квадрат длины оценки (6.61) есть возрастающая функ- ция г, т. е. Ца*||2 растет с ростом г. 2. Оценка (6.60) есть линейная функция оценки МНК: аг+=(Х'Х)г+Х'Ха. 3. Оценка (6,60) смещена: Еа+ = (X' X)/ X' Ха=#а; матрица ковариаций оценки Марквардта равна: cov (ar+) =о2 (X' Х)+ X' X (X' X)/. 4. Аналогично ридж-оценке можно найти среднюю сум- му квадратов ошибок оценки (6.60): L (г) = La+ (г) = Е (аг+ — а)' (ar+ — a)=a'S'Sa-|- + o2trX(X'X)r+(X'X);X'; где 224
S = (X'X)r+X'X — - PA P'PAP I P (Fr I)P'; 0 0 Аналогичное выражение может быть получено и для S', используя его, найдем S'S = Р (I - ЕГ)Р'. Таким об- разом, если, как и раньше, положить у = Р'0, получим a' S' Sa= 2 yt- t=i Далее, матрицы (Х'Х)/ и Х'Х имеют одинаковые х. в., поэ- тому, по лемме 6.1 tr X (X' X)/ (X' Х)+ X' = tr (X' Х)г+ (X' Х)+ Х'Х- т - 2 W i~m—г 4-1 Окончательно средняя сумма квадратов ошибок оценки Марквардта равна: т—г т L(r)=2tf+°2 2 W 1=1 i=m—r+l Основное достоинство оценки Марквардта содержится в следующей теореме. Теорема 6.6 [159]. Если > ₽'₽/о2, то i — 1 т L (г) < L (т) = о2 2 — средняя сумма квадратов оши- t= 1 бок для оценки МНК- Доказательство несложно: т—г т т L(r)-L(O)= 2 V/+H2 2 l/^-o22V^ = 1=1 i = —1 z = l m—r m—r = 2 2 i=l 1=1 Ho m — r m 2 2<’M'P. 1=1 <=i 8 Зак. 2067 225
Поэтому если условие теоремы выполнено, то L (г)<Е(О). Доказанная теорема показывает, что в некоторой об- ласти (р, о2) оценки Марквардта будут лучше оценок МНК- Если некоторые характеристические числа матрицы Z'Z близки к нулю, то эта область будет значительной; други- ми словами, при наличии мультиколлинеарности оценки Марквардта, весьма вероятно, будут лучше оценок МНК- Для задания области (Р, о2) можно привлечь некоторые ап- риорные знания о возможных значениях р и о2. Так, впол- не возможно, что имеет смысл оценивать р только в неко- тором интервале С; Р; d;, i = 1, ..., т. Далее, можно предположить, что о о0 — точности «измерения» у, xlt хт, поэтому можно считать Р' p/о2 М = У max (с/, d2)/oo. t m-r Теперь, если найдено такое г, что то можно i= i утверждать, что, если наши априорные предположения верны, оценка Ьм (г) будет лучше оценки МНК- Оценка для Р'Р может быть получена также на основе равенства ЕЬ'Ь = Р' Р+оа21Дь i откуда Р'Р = ЕЬ'Ь —о2 2 1/Х{ ^ЕЬ' Ь. /= 1 (6.62) В качестве оценки р'р можно взять просто b'b. Если » 0, то неравенство (6.62) даст приемлемую область для Р'Р. В качестве оценки о2 может быть выбрана s2, рассчи- танная на основе МНК- Найдем оценку Марквардта для регрессии-примера. В табл. 6.3 приводятся х. ч и х. в. матрицы Z'Z, при этом Xj = 0,000144; = 3,983 и ] Z'Z [ = 1,45 10~8, = — 27660. Полученные характеристики матрицы Z'Z го- ворят о наличии мультиколлинеарности. Далее, KJ4 = = 3,6 • Ю-5, поэтому можно предположить, что ранг Z'Z равен 3, т. е. считать равным нулю. 226
Таблица 6.3 Характеристические векторы Характеристи ческие числа Pl 0,1546 —0,8273 —0,1586 0,5162 0,000144 Рг —0,7127 0,00516 0,7014 0,00617 0,00171 Рз —0,4671 0,2543 —0,4826 0,6959 0,0148 Pi 0,500 0,5008 0,4999 0,4992 3,983 Используя формулу (6.56), находим (Z'Z)3+ = 316,4 —12,44 —272,9 —30,83 — 12,44 5,715 —8,51 15,5 — 272,9 —8,51 308,4 —26,66 —30,83 15,5 —26,66 42,77 Оценка Марквардта равна: Ьл<(3) = (568,8; 63,77; 206,6; —131,6)'; оценка исходной модели: ам(3) = (0,430; 0,155; 4,90; —34,0)'. Оценка Марквардта с приписанным рангом 3 значитель- но отличается от оценки МНК- Подойдем к проблеме смещенного оценивания регрес- сии с более общих позиций [127]. Как и прежде, остановим- ся на ортогонализованной модели у = Wy + е, где по оп- ределению W'W = Л — диагональная матрица с диаго- нальными элементами Xm. Оценка МНК для этой модели равна g = A-1d, где d = W'y, т. е. gi = dj^i, i = 1, ..., tn. Для ортогонализованной модели рассмотрим систему т оценок метода главных KOMnoHeHTgp (1), gp (2), ..., gp (m). Эта система оценок почти наверное линейно-независима в Rm, поэтому любая оценка е £ Rm представима в виде ли- нейной комбинации оценок метода главных компонент, а именно: m 7=1 (6.63) 8* 227
Зависимость (6.63) может быть переписана следующим образом: е = Fg, (6.64) где F — диагональная матрица, причем гп S ch (6.65) l=m-i+ 1 a g — оценка МНК- Для оценки (6.64) легко найти сред- нюю сумму квадратов ошибок т' т X HIK+ 2 (Л-i)2 (6.66) /—1 i=l и среднюю взвешенную сумму квадратов ошибок т т 7-л = о2 2 А?+ 2 тМНЛ (6.67) 1=1 1=1 Очевидно, оценка Марквардта представима как в виде (6.63), так и в виде (6.67). Применяя теорему 6.4, находим, что С; = О, если j < е; 1—0, если j = e; 0, если / — е -ф 1; О, если / > е 1. В обозначениях матрицы F коэффициенты равны: h ~ О, если /</п— е; 0, если j = т— е\ 1, если j>m — е. Функция (6.66) для оценки gM (г) перепишется следую- щим образом: /71 L(gM(r)) = o2 у + + тд_е(1-е)2 + i=zn-e+l т~е т—е — I + s W- (6.68) 1=1 Выражение (6.68) может быть использовано для нахож- дения оптимального ранга г. Допустим, целая часть [г] = = е известна и необходимо найти только дробную часть 228
0. Минимизируя (6.68) относительно 0, найдем оптималь- ное значение 0* = т”_е (1 + тД_е), (6.69) гдет/ = у,2?.;/о2, i = 1, ..., tn. После того как дробная часть найдена, займемся отысканием оптимальной целой части е = [г]. Для этого подставим 0* в (6.68). После неслож- ных преобразований получим L = L(g)-o2 V —1- + -—- (6.70) где L (g) — средняя сумма квадратов для оценки МНК g. Как видно из (6.70), уменьшение средней суммы квадратов ошибок оценки Марквардта зависит от значений т2. Если т,-2 < 1, i — 1, ..., т —е, выражение в квадратных скоб- ках (6.70) будет положительным, значит, gw (г) лучше оцен- ки МНК- Однако гарантий того, что т2< 1, у нас нет, по- скольку порядок возрастания Х2, ..., Хт не совпадает, вообще говоря, с порядком возрастания т2, т2, ..., тД. Если же х. ч. расположить в порядке возрастания т2, т2, ..., тД, то оптимальный целый ранг е будет равен числу т2, мень- ших 1 (если, конечно, таковые существуют). Другими словами, для номеров /: т/ < 1 будем считать X, = 0. Этот метод предложен в [127], назовем его модифицированным методом Марквардта. Разумеется, в изложенном виде модифицированный ме- тод Марквардта неприменим, поскольку значения о2, у нам неизвестны, а задача как раз заключается в их оцени- вании. Однако можно взять их оценки, например $2 и g. Что касается первой оценки, то она, как было показано, явля- ется удовлетворительной даже при наличии мультикол- линеарности. Таким образом, оцененные значения т,2 рав- ны: т2 = gfkils2, i = 1, .... т. Но тг = |gi| / (s;/Xi) = = Igil/s;, где Si — стандартная ошибка оценки git т. е, тг есть /-статистика i-го параметра. Итак, в модифици- рованном методе Марквардта ранжирование производит- ся не по значениям Х;, а по значениям /-статистик, причем критической величиной /-статистики является 1. Допустим, значение е выбрано, тогда, найдя значение 0* по формуле (6.69), можно найти новый вектор gM (е 4- + 0*), на основе которого получим следующую поправ- ку к рангу е, и т. д. Будет ли сходиться этот процесс? Положительный ответ дается следующей леммой. 229
Лемма 6.2 [127]. Пусть р0, pt, ... — последователь- ность чисел, таких, что pi+1 = pf/ (pt + Р), i = О, 1, ... Обозначим р* = lim pi, тогда 1) если Р > 1/4, то р* = О; 2) если Р 1/4, то а) если р0 > р", то р* = р'; б) если р0 < р", то р* = О; в) если ро = р", то р* = р", где р' = 1/2 + V1/4 — Р, р" = 1/2 — V1/4 — Р. Используя эту лемму, можно найти предельное значе- ние 0*. Пусть 0/г — значение 0* на £-й итерации, тогда №м)т-е = Qkgm-e, ПОЭТОМу ёгт-е^т-еИг 9f + Р ’ где Р = s^/gnt-ehn-e, р0 = V (1 + Р)- Таким обра- зом, предельное значение О, еСЛИ tm— е — —е I ~----Р —в противном случае, где 1т-е — статистика для (т — е)-го параметра. Случай 0* = О соответствует оценке метода главных компонент. На основе предельного значения 0* можно пересчитать значения rf, которые могут привести и к другому выбору нулевых координат. Эти итерации будут продолжаться до тех пор, пока tm_e < 2. 6.8. Оценка Хокинса [124] Эта оценка по идее близка к оценке метода главных компонент. Суть ее заключается в следующем. Объединим вектор зависимой пе- ременной у и матрицу независимых переменных Z в одну матрицу п X (т 1), т. е. положим Т = [yZ]. Пусть Р — ортогональная матрица порядка (т + 1) X (т + 1), сводящая Т'Т к диагональ- ной, a Xj, ..., 7m+1 — характеристические числа матрицы Т'Т. Ра- ро 1 зобьем матрицу следующим образом: Р = , где р0 — вектор- [Pi 1 строка размерности (т Ц- 1), Рх — матрица т X (т-[- 1), тогда Г У' У] У'Х 1 = Гро [х'у X'XJ [Pi л [ро p;i = Ро А ро Pi А ро ро ар; j PiAPj (6-71) 230
Очевидно, (Г TJ-^PA"1?' = ГРо А 1р0, 1 LPiA-ipi poA-ip; i PiA-ip;J (6.72) Выразим оценку МНК через элементы матриц Р и Л. Для это- го рассмотрим аналог формулы Фробениуса (П. 2). Пусть имеется блочная симметричная матрица А В' В1 d] ' (6.73) Обратная к ней будет также симметричной, обозначим ее гс |е' Е F По определению ГА В1 ГС Е1ГАС + ВЕ' AE + BF 1 П 01 [в' d] [е' f]_[b'c+de' B'E + DFJ [О l] ’ откуда — D i В' =Е' С. (6-74) Пусть матрицы (6.71) и (6.73) совпадают, в частности D = Х'Х, В' = Ху. В обозначениях (6.73) оценка МНК равна D-1B', откуда с применением (6.72) и (6.74) следует b = —Е' С-х= — PM-ip'/po A-ipJ. (6.75) Обозначим i-й вектор-столбец матрицы Рх через pj, тогда (6.75) перепишется: zn-f-1 2 Poi/^i ' 1 < = 1 Ясно,что если х 0, то оценка МНК будет неустойчивой. Поэто- му, как и в оценке метода главных компонент, члены, содержащие аннулируем. Итак, приходим к модифицированной оценке МНК —оценке Хокинса1: т+1 bL(s) = —----------- "У PiPoi/^i- (6.76) m+ 1 2 ^/V=s+1 i=s + 1 Существует несколько причин ограниченности применения оценки (6.76). Во-первых, неясно, чем эта оценка лучше оценки ме- тода главных компонент; во-вторых, не было предложений по вы- гВ иностранной литературе ее часто называют latent root — оценка характеристического корня, этим объясняется нижний индекс у оценки. 231
бору числа х.ч.; которые можно считать равными нулю; т. е. выбо- ру s; в-третьих, невозможно найти аналитический вид для матема- тического ожидания оценки Хокинса, матрицы ковариации; сред- ней суммы квадратов ошибок. 6.9. Сравнение оценок методом статистических испытаний Рассмотрим результаты исследования, проведенного Дж. Вебстером, Р. Гунстом и Р. Мазоном [117], по выяв- лению предпочтительной оценки из 5 оценок: МНК, оцен- ки метода главных компонент, ридж-оценки, редуциро- ванной оценки и оценки Хокинса. Сравнение проводилось на основе метода статистических испытаний (метода Мон- те-Карло). При этом варьировались три характеристики: 1) ориентация неизвестного вектора 0 по отношению к ха- рактеристическим векторам матрицы плана Z'Z; 2) от- носительная длина вектора 0, т. е. 0'0/ст2; 3) степень муль- тиколлинеарности. Во всех расчетах значение п было рав- но 30, т = 10. Матрица Z выбиралась двумя способами: в первом способе столбцы матрицы были почти ортогональ- ны (отсутствие, мультиколлинеарности), во втором — пер- вый столбец представлял собой с небольшими отклоне- ниями линейную комбинацию второго, третьего и четвертого (наличие мультиколлинеарности). Длина «истинного» век- тора 0 во всех расчетах была равна 1, при этом ст2 принима- ло четыре значения, так что р = 0’0/ст2 : 0,04; 1; 100; 10000. Вектор 0 принимал три значения: 0 = р10, 0 = (Pi + + Р2 + Ps + Рю)/2. 0 = Pi*» косинус угла между 0 и рх поэтому был равен 0; 0,5 и 1 соответственно. Таким образом, имелось 2 • 4 • 3 = 24 варианта. Для каждого варианта проводилось 100 испытаний, на основе которых вычислялась средняя сумма квадратов ошибок, деленная на ст2, т. е, L (d)/o2. В ридж-оценке значение k выбиралось равным ms2/b'b; представителем редуцированной оценки была выбрана оценка Джеймса—Стейна. В «почти ортого- нальной» модели для оценки метода главных компонент считалось г — т, в случае мультиколлинеарности г = = т — 1, т. е. Xj равно нулю. Очевидно, в почти ортогональной модели оценка МНК совпадает с оценкой главных компонент и оценкой Хокинса. Во всех вариантах наилучшей оценкой в «почти ортого- нальной» модели оказалась ридж-оценка. Наиболее замет- ное преимущество эта оценка (по сравнению с оценками 232
b, bp (m), bL (m + 1)) имела в случае небольших значений р = р'р/о2; для предельного р = 10000 все оценки привели приблизительно к одной и той же ССКО. Оценка Джейм- са—Стейна была немного хуже ридж-оценки, но опять же намного лучше оценок МНК для.рС 10000. Полученный результат можно было предсказать из теоретических сооб- ражений: для ортогональных моделей оценка Джеймса— Стейна имеет ССКО меньшую, чем оценка МНК, для всех 0. Ридж-оценка есть частный случай редуцированной оцен- ки. В случае мультиколлинеарности положение несколько изменилось. Во-первых, оценка Хокинса во всех расчетах имела сходные свойства с оценкой метода главных компо- нент, поэтому будем говорить только о последней. Во-вто- рых, оценка Джеймса—Стейна была лишь немногим луч- ше оценки МНК во всех ситуациях. Оценка метода главных компонент и оценка Хокинса имели наименьшую ССКО в случае р < 10000. В то же время в наихудшем для них ва- рианте р = 10000 и Pj = pj отношение их ССКО к ССКО оценки МНК было приблизительно равно 40. Ридж-оценка давала не такое низкое значение ССКО для р < 10000, как оценки Ьр и К., зато для экстремальной ситуации р = 10000 ССКО этой оценки была не намного выше оценки МНК- Это позволяет сделать вывод: предпочти- тельнее пользоваться ридж-оценкой; если мультиколлинеар- ности нет, ее ССКО практически совпадает с ССКО оцен- ки МНК, в случае мультиколлинеарности, исключая экстре- мальные ситуации, она значительно лучше оценки МНК- Есть еще одно обстоятельство, которое заставляет смотреть на предпочтение оценок Ьр и bt в случае р <; 10000 с опре- деленной осторожностью. Известно, что в приведенном эксперименте существовала только одна приближенная линейная зависимость (zY w z2 + z3 + z4), поэтому значе- ние г = т — 1 было известно. На практике неизвестно, сколько зависимостей существует между столбцами матри- цы Z. Допуская ошибки в определении г, мы тем самым можем резко повысить ССКО для оценки метода главных компонент и оценки Хокинса. К тому же авторы исследова- ния использовали не лучший вариант выбора k (см. параграф 6.5). Р. Гунст, Дж. Вебстер и Р. Мазон [117] сравнили также эффективность оценивания отдельных параметров. В ка- честве первого параметра был выбран |34 — параметр при переменной, которая «завязана» в мультиколлинеарность, и 233
07 — при переменной, которая не «завязана» в мультикол- линеарность. Сравнение проводилось по величине юо 2 2/100, i>= 1,2,..., 7, /=1 rjiedj — одна из пяти рассматриваемых оценок. Оказалось, что при оценивании рх ситуация остается такой же, как и при использовании в качестве критерия ССКО. При оце- нивании р7 все пять методов мало отличаются друг от дру- га. Полученный вывод весьма ценен: задаваясь целью хо- рошо оценить параметры, «завязанные» в мультиколлине- арность, мы тем самым оцениванием остальные параметры не хуже, чем методом наименьших квадратов. Можно прийти к выводу, что наиболее предпочтитель- на ридж-оценка. Исследование, проведенное в [134], специально посвяще- но сравнению оценки МНК и ридж-оценок. Авторы рас- смотрели три регрессии. Значения п и т в них были соот- ветственно равны 13 и 4, 13 и 10, 50 и 17. В экспериментах варьировались значения р'р и р'р/ст2. Для первых двух регрессий было рассмотрено 342 варианта, для третьей — 180. Для каждого варианта моделировались случайные от- клонения распределенные по нормальному закону N (0, ст21). Значение k в ридж-оценке вычислялось по фор- муле то21Ь'Ь. Выводы, к которым пришли авторы, сводят- ся к следующему: 1) ридж-оценка была лучше оценки МНК в более чем 50% всех вариантов; 2) число вариантов, в которых ридж-оценка лучше оценки МНК, увеличивалось с ростом т; 3) процент предпочтения ридж-оценки увеличивался также при увеличении разброса спектра матрицы Z' Z, т. е. при усилении мультиколлинеарности; 4) процент предпочтения ридж-оценки возрастал также с ростом величины р'р/ст2. Выявлением эффективных оценок методом Монте-Кар- ло занимались А. Демпстер, М. Шатзофф и Н. Вермут [94]. В первой группе проведенных ими экспериментов мульти- коллинеарность отсутствовала (32 варианта), во второй группе — мультиколлинеарность присутствовала (128 ва- риантов). Было исследовано 57 методов оценивания: ридж- оценки, оценки метода главных компонент, редуцирован- ные оценки, оценки метода автоматического отсева пере- 334
менных и многие другие. В качестве критерия выбиралась средняя сумма квадратов ошибок. Не вдаваясь в подробно- сти проведения экспериментов, сразу перейдем к основным выводам, полученным в ходе исследования: 1) обычный МНК в некоторых случаях оказался хуже тривиальной оценки, когда все координаты считались рав- ными нулю. МНК занял одно из последних мест; 2) наиболее эффективной оказалась ридж-оценка; 3) редуцированные оценки, представителем которых была модифицированная оценка Джеймса—Стейна, также зарекомендовали себя относительно хорошо. Как видим, авторы исследований по сравнению эффек- тивностей методов оценок параметров регрессий в усло- виях мультиколлинеарности, рассмотренных в этой гла- ве, приходят к общему выводу: ридж-оценка является одной из наиболее эффективных. При применении ридж-оценок сталкиваются с труд- ностью выбора параметра регуляризации k. Как правило, наиболее аргументированные методы выбора этого пара- метра приводят к тому, что он становится стохастиче- ским, поэтому аналитическое исследование статистиче- ских свойств оценки затруднительно. Метод Монте-Кар- ло оказывает здесь неоценимую услугу.
Часть третья НЕЛИНЕЙНАЯ РЕГРЕССИЯ Глава 7 ЧИСЛЕННОЕ НАХОЖДЕНИЕ ОЦЕНКИ МНК 7.1. Основные определения. Постановка задачи Основным предположением рассматриваемых до сих пор взаимосвязей было предположение линейности входя- щих параметров. Теперь мы откажемся от него и будем рас- сматривать нелинейные регрессии. По аналогии с (1.1) не- линейную регрессию можно записать в следующем виде: yt = (Хп, xth-, cti, ..., am) + et, t = 1/..., n (7.1) В уравнении (7.1) по-прежнему yt — зависимая перемен- ная, xtl, .... xtk— независимые переменные, отвечающие номеру наблюдения /, (а1? а2, ..., ат)' = а — вектор не- известных параметров, подлежащий оцениванию, ef — слу- чайное отклонение. Функция гр может иметь самый общий вид. Для нелинейной регрессии (7.1) так же, как и для ее прототипа (1.1), будем считать выполненными следующие предположения: множество априорных значений а есть все пространство Rm\ Eef =0, cov (в) = o-2In, xtl, ..., xth — детерминированы. Вместо (7.1) удобнее пользоваться другой тождествен- ной записью нелинейной регрессии: Rt ~ ft •••’ аш) “Ь &t> (7.2) где ft (<%!, ..., ccm) = 4' (xtl, ..., xtk-, a1( ..., am). Число типов нелинейных регрессий, встречающихся в практике расчетов, так велико, что мы не будем даже пы- таться описывать их. Заметим лишь, что часто можно встре- тить регрессии, линейные в логарифмах, для которых ft (oci, •••, осm) = ехр {cLiXft ... 4- ocmXfm) = ехр (oc'xf), t — 1, ..., п, (7.3) где хп х2, ..., xn С Rm. В этот класс входят тренды ft (“i, сс2) = е“*+“*ft (“i- а2, «з) — е“ l+“2 (+“’(2. 236
Класс (7.3) содержит также производственные функции Кобба—Дугласа /Даь а2,а3,а4) = е“*+“з<К“3Л“1; ^,^>0. (7.4) Продолжим пример с регрессией результатов химичес- кого эксперимента (параграф 1.1). Вместо линейной зависи- мости между переменными (1.5) теперь будет нелинейная. Допустим, зависимость между у и х1г х2, х3 выражается ли- нейной функцией (относительно параметров) в логарифмах: l/t ~ Ра xfy xfy Д g^, / = !,..., 15 или в виде (7.3): yt ~ ехр Д Д tXgZts Д сс4) Д (7.5) где ztt = In xti, щ = P; (i = 1, 2, 3), a4 = In |34. Значения |Зг могут быть интерпретированы следующим образом: при изменении Xi на 1% (при остальных фиксированных не- зависимых переменных) значение у увеличивается на |Зг %, Величины |Зг называют эластичностями (i = 1, 2, 3). Функции /Д f3, ..., fn будем считать непрерывными на Rm. Часто, кроме непрерывности, будем требовать диф- ференцируемость функций. Основным методом оценивания в линейной регрессии является метод наименьших Квадратов. Принцип миними- зации суммы квадратов отклонений легко обобщается и на нелинейную регрессию. Под оценкой МНК нелинейной регрессии (7.2) будем понимать то значение вектора а £ Rm, для которого сумма квадратов отклонений <2(«)=2Ж~М«))2 (7-6) f = l принимает минимальное значение, т. е. оценка МНК есть a = arg inf Q(a). (7.7) Нетрудно показать, что если отклонения нормальны, т. е. 8 ~ N (0, о21), то оценка МНК совпадает с оценкой метода максимального правдоподобия. Действительно, в случае нормальных -отклонений yt — N (ft (а), с2),’^, •••, Уп независимы между собой. Поэтому плотность выборки у = (ylt у2, уп) £ равна. п р (у; ос, о2) = (2л) 2 о~пехр t=l 237
Максимизация плотности р, очевидно, соответствует ми- нимизации суммы квадратов отклонений (7.6), т. е. опенки МНК и ММП совпадают. В линейной регрессии минимизируется аналогичная сумма квадратов отклонений. Однако в линейном случае минимум Q находится сравнительно просто — как решение системы линейных нормальных уравнений. В нелинейном случае система нормальных уравнений dQ/da = 0 ничего не дает, так как теперь она нелинейна по а, и поэтому не- Рис. 7.1. Возможные графики суммы квадратов отклонений: а) оценка МНК неединствеина, Q(ai) =Q(a2) =min; б) а — истин- ная оценка, ai — ложная оценка, отвечающая локальному мини- муму Q(a) посредственно ее решить нельзя. На практике чаще бывает удобнее найти минимум Q (а), чем решить соответствующую систему нормальных уравнений. Более того, оценка МНК для нелинейной регрессии во- обще может не существовать', таким образом, запись (7.7) в некоторых случаях является некорректной. Для примера рассмотрим нелинейную регрессию yt = е“* et, t = 1, .... п, т. е. ft (а) = еа,,а( 7?1. Пусть наблюдения таковы, что t/t = 0, t = 1, ..., п. Тогда соответствующая сумма квадратов отклонений равна: Q (а) = 2 е2оК (7.8) t = 1 Инфимум функции (7.8) равен нулю. Он не достигается ни в одной точке, так как Q (а) ->0 при а —оо, оценки МНК не существует. В [109] приведен практический при- мер, где оценка МНК не существует. 238
В нелинейной регрессии может существовать несколь ко оценок МНК, приводящих к одному и тому же значению суммы квадратов отклонений (рис. 7.1). По определению оценка МНК отвечает глобальному минимуму суммы квад- ратов отклонений. На практике случай, показанный на рис. 7.1, а, встречается редко. Как правило, имеем ситуа- цию, изображенную на рис. 7.1, б, где аг — ложное зна- чение оценки МНК, отвечающее локальному минимуму Рис. 7.2. Геометрия МНК нелинейной регрессии, т=2, п=3 Q (а), а — истинная оценка МНК. Распознать, какое из значений оценок является ложным, а какое — истинным, довольно затруднительно. Эта проблема подробно обсуж- дается в параграфе 7.6. Остановимся на геометрическом смысле оценки МНК в нелинейной регрессии. Совокупность функций-регрессий fi («), fi (“)> •••> fn («) задает отображение из пространства R,n в пространство Rn. Это отображение будем обозначать f (а) = (/1 (а), /2 (а), ..., fn (а)): Rm-> Rn. При отображении Rm переходит в некоторое множество в пространстве Rn, т. е. в образ Rm. Обозначим это множество F = f (/?'”); оно представляет собой поверхность размерности т (рис. 7.2). Помимо F в Rn задана точка у, отвечающая выборке рег- рессии. Задача заключается в том, чтобы на поверхности F найти точку, наименее удаленную от у. При этом значение суммы квадратов отклонений (7.6) будет минимальным. Обозначим эту точку у С F, т. е. |у—у|Г== 2 (yt—y()2 = min. t=i 239
Для того чтобы найти оценку МНК, необходимо совершить обратную операцию: по заданному значению образа ото- бражения f, т. е. у, восстановить значение аргумента: f (а) = у; а является оценкой МНК. Напомним, что в ли- нейной регрессии поверхность F представляет собой ли- нейное пространство размерности пг, натянутое на векторы х1> х2» •••> хтп- Обратное отображение к f, заданное на F, должно су- ществовать, т. е. каждой точке у £ F должна соответство- вать единственная точка а б Rm, для которой f (а) — у (см. рис. 7.2). В противном случае оценка МНК не будет единст- венной. Нелинейную регрессию, в которой отображение f взаимно-однозначно, будем называть идентифицируемой. Другими словами, регрессия (7.2) идентифицируема, если для любых ах, а2 £ Rm из равенства f (ах) = f (а2) следует ах = а2. В дальнейшем все рассматриваемые регрессии бу- дем считать идентифицируемыми1. Найдем условия, при которых регрессия (7.3) с функ- циями, линейными в логарифмах, идентифицируема. Пусть «1, а2 £ Rm и ft (ах) = ft («2) для всех t = 1, ..., п, т. е. e“ix* = е““х‘, или а[х4 — «2X4 = 0; (7.9 (otj —a2)'xj =0, t = 1, ..., n. Ясно, что (7.9) влечет равенство сех = а2, только если сис- тема векторов хп х2, ..., хт имеет ранг, равный т. Таким образом, регрессия, линейная в логарифмах, идентифици- руема, если rank X = т, где матрица X имеет своими строками Х(. Упражнения 7. 1 1. Докажите, что сумма квадратов отклонений (7.8) является Возрастающей выпуклой вниз функцией. 2. Установите условия идентифицируемости производственной функции Кобба—Дугласа (7.4) при а3оц = 1. 3. Найдите условия идентифицируемости регрессии yt = = 04-ф а2 et. 4. Найдите условия идентифицируемости регрессии yt = = 0 + «2е“а/) + е1- 1Более подробно о понятии идентифицируемости и о критериях идентифицируемости при наличии ограничений см. [24]. 240
5. Найдите условия идентифицируемости регрессии yt = = sin et- 6. Докажите, что оценка МНК в регрессии yt = а-|- —j— , — оо < а < -р оо, существует (xt 0 хотя бы для одного t = К •••; «)• 7.2. Существование оценки МНК Рассмотрим критерий, с помощью которого можно уста- навливать существование оценок МНК- Прежде всего да- дим определение ограниченности снизу функции на беско- нечности. Пусть ф = ф (хх, х2, ..., хт) — Ф (х) — функция т аргументов, заданная на всем пространстве Rm. Она огра- ничена снизу на бесконечности числом В, если для любой по- следовательности векторов xlt х2, ..., такой, что ||х;,|) ->оо, найдется такое р, что ф (х₽) > В. Данное определение может быть аргументировано следующим образом. Обозна- чим g(r)= inf ф(х). (7-10) функция g (г) — неубывающая функция действительного переменного г > 0, что позволяет нам говорить о ее преде- ле при г -> оо (даже если этот предел равен бесконеч- ности). Тогда функция <р будет ограничена на бесконеч- ности снизу любым числом В < limg(r). Г->оо Теорема 7.1. Пусть функция <р (х) непрерывна и ограничена снизу числом В. Тогда, если найдется такая точ- ка х°£ Rm, в которой ф (х°) В, то абсолютный минимум функции ф (х) достигается. Доказательство см. в параграфе 7.8. Применим теорему 7.1 к вопросу о существовании оцен- ки МНК в нелинейной регрессии (7.2). В качестве ф теперь будет выступать сумма квадратов отклонений (7.6). Пусть функция Q (а) ограничена снизу на бесконечности числом В. Тогда если найденное нами начальное приближе- ние а0 приводит к сумме квадратов отклонений Q (а0) = = 2 (yt — ft (а0))2 < В, то оценка МНК существует. Так, на рис. 7.3 сумма квадратов отклонений имеет асимптоту С = lim g (г) при а -> +оо и Q (а) -> + оо при а -э—оо. Поскольку В < С, оценка МНК в этом случае существует. Как правило, начальное приближение а0 найти нетрудно. Основная задача заключается в том, чтобы найти значение В или, еще лучше, limgfr) для разных функций регрес- сий. Найдем оценку снизу для этого предела для регрессий, функции которых линейны в логарифмах. Итак, пусть за- 241
дана регрессия yt = ft (а) + е«, t = 1, п, где ft (а) = = е“\ t= 1, ..., п, а = («х, ат)', xt = (xtl, xtm)’. Могут возникнуть два взаимоисключающих случая. Случай А: векторы хь х2, хп разнонаправлены. Это означает, что для любого а 0, а £ Rm найдется вектор Xj из системы векторов хъ хп, чтоа'х; > 0. Докажем, что в случае А число В может быть выбрано любым. Действи- тельно, пусть ах, а2,...—такая последовательность точек из Рис. 7.3. График суммы квадратов отклонений, т=\ Rm, что ||aj|->oo, &->оо. Рассмотрим нормированную систему векторов pfc = ccft/|| ah|| . Так как pft принадлежит компактному множеству, то существует сходящаяся под- последовательность последовательности {РД. Обозначим эту подпоследовательность через {ps}, ps->-р*, s->oo. В силу разнонаправленности векторов хп ..., хп найдется /, для которого х/р* > 0, т. е. cos (х/, р*) = у > 0. Посколь- ку cos есть функция непрерывная, то начиная с некоторого номера можно утверждать, что cos (х>, ps) у' > 0, р' <у. Поэтому «s' X; HI «з II II Хх II cos (as, Ху) > II as || || Ху II у' -> оо при s ->оо. В силу этого для любого наперед заданного числа найдется номер р, для которого сумма квадратов от- клонений 2(yt-eaPx92>(%—еаР^)2 будет больше выбранного числа. Итак, в случае разнона- правленных векторов limg(r) = оо, г ->оо. 242
Случай Б: векторы х1т ...,хп равнонаправлены. Это оз- начает, что найдется такой вектор а 0, а Rm, что для всех t = 1, п a'xf 0. Здесь нам потребуется ха- рактеристика «степени линейной зависимости» векторов хь х8, хп. Обозначим р — такое наименьшее число, что р любых векторов из системы векторов хь х2, хп обра- зуют базис пространства Rm. Минимальное значение р, очевидно, равно т. Итак, пусть задана такая последовательность векторов а2, ...,что [|осй[] оо. Определим 6f = lim cos (aft, xf), k t = 1, ..., n. Рассмотрим три возможности: 1) 6f > 0 для некоторого t. Тогда для некоторой под- последовательности {as} (cosas, xt) ->6f. Поэтому <*s xt = || as || || xt || cos (as, x4) -* + oo, s-»-oo. Таким образом, число В может быть выбрано сколь угодно большим; 2) 6f < 0 для некоторых t из 1, ..., п. Тогда «а xf == || aft || || xf || cos (aft, xt) || ah || || xt || — oo, k-+oo. Это приводит к тому, что ехр (asxt) ->-0, и соответствую- щие слагаемые в сумме квадратов отклонений стремятся К yf; 3) 6t = 0. Число номеров, для которых 6f = 0, обоз- начим nv Докажем, что пг «С р — 1. В силу 6f = 0 для каждого t найдется такая подпоследовательность {as}, что cos (as, xf) ->0. Рассуждая, как в случае А, можно выбрать единую подпоследовательность as, для которой для всех t, таких, что 6f = 0, cos (as, xf) ->0. В силу зам- кнутости и ограниченности сферы (|a|| = 1 найдется предельная точка а* этой подпоследовательности. В этой точке cos (a*, xt) = 0, т. е. a* J_ xt (||a* || = 1). Теперь ясно, почему tix не может быть больше р — 1, так как в противном случае система векторов, дополненная а*, была бы линейно-независимой, что противоречит определе- нию р. Таким образом, сумму квадратов отклонений Q (а) в случае Б можно разложить на две суммы: 2 (yt-“'kXt)2+ 2 t'.6t < 0 f:6, = 0 „г П п > 2 2 у*> 2 у*- 2 4:ве<0 t:6t<0 t —I t = n—р + 2 243
где (/(1) С У(2> У(П) — ранжированный ряд. Окон- чательно п п g(r)^ % yt — 2 Ут r^°° t=l t = n — р + 2 (7.Н) и В может быть выбрано любым, меньшим числа в правой части (7.11). Рассмотрим регрессию (7.5). Для всех 1 = 1, ..., 15, i = 1, 2, 3, 4, zu > 0, поэтому для всех i, j = 1, 2, 3, 4 ZiZj > 0. Как следует из задачи 2 упражнения 7.2, век- торы {zt} при этих условиях будут однонаправлены. Да- лее, легко показать, что для регрессии (7.5) р = 4 и «/<i 3> = = 206,77; i/(i4) =216,48; «/(i5) = 221,45 (см. табл. 1.1). По- этому для регрессии (7.5) g(oo) > 2 У? + У^ = 330211,7. t=i Для регрессий (7.3), линейных в логарифмах, начальное приближение находится просто. Прологарифмируем обе части регрессии; тогда формально можно записать In yt = czmXtm (7.12) Применяя к уравнению (7.12) метод наименьших квадратов, найдем а°. Как правило, а° является хорошим приближением к ис- комой оценке МНК а. Оцененная таким способом регрес- сия (7.5) выглядит следующим образом: In yt = 0,7465гп + 0,1529zi2 ф- 0,2025zi3—0,3381; (7.13) (0,0784) (0,262) (0,0925) (0,896) <2(а°) = 2(Л~Л(а0)) = 66,36. t Поскольку 330211,7 > 66,36, то оценка МНК по теоре- ме 7.1 регрессии (7.5) существует. Упражнения 7. 2 1. Будет ли функция g (г) непрерывной? 2. Докажите, что если х; х;- > 0 для всех i, j = 1; ...; п, то век- торы хх; ...; хп будут однонаправлены. 244
3. Докажите, что если хц > 0 для всех / = 1,2, п, то век- торы Xj, х2; хп будут равнонаправлены. 4. Дайте геометрическую интерпретацию однонаправленности векторов. п 5. Покажите, что g (оо) = 5 У? для регрессии /t (а) = е“Д t=l 7.3. Метод Ньютона—Гаусса и его модификации Специфический вид суммы квадратов отклонений поз- воляет построить методы минимизации, более эффективные, чем общие методы1. Основой является метод Ньютона — Гаусса. Найдем первые и вторые производные суммы квадратов отклонений: ...<7-14> я =_^_ = 2У-^ • ----2У(уг-Л (а))-^_, dat da.j да, daj Эа; да? i = 1,..., т, j = 1,..., т. (7.15) Значения q, = —g, образуют вектор антиградиента q = = (qlt..., qm)', значения Нц образуют гессиан, симметрич- ную матрицу Н порядка /тгх/тг (естественно предполагаем, что функции ft дважды непрерывно дифференцируемы). Обозначим через Р матрицу пХ/тг, (/, г)-й элемент которой равен dftldut. Эта матрица является матрицей производных отображения f : Rm -> Rn. В силу (7.15) гессиан суммы квад- ратов отклонений Н может быть разложен в сумму двух матриц:. Н = Нх — Н2, где Hi = 2Р' Р. Предположим, матрица Hx положительно определена. Для этого необхо- димо и достаточно предположить, что матрица Р имеет полный ранг т в любой точке a g Rm. Далее предположим: а) нелинейная регрессия (7.2) имеет невысокий порядок нелинейности: вторые производные dzft!да,да; принимают не очень большие значения; б) гессиан Н рассматривается в достаточно малой ок- рестности минимизирующего вектора а, для которого при- ближение ft (а) к у достаточно хорошо, т. е. величины yt — — ft (а) близки к нулю. ХК общим методам минимизации функций многих переменных относятся такие методы, как градиентный; сопряженных градиен- тов, Ньютона и т. д. [15, 55, 57]. 245
С учетом условий а) и б) приближенно можно считать Н2 « 0, поэтому Н « Н[. Общий метод минимизации, метод Ньютона, предлага- ет двигаться из данного начального приближения а° к следующему по правилу a1 = a°+H-1q, (7.16) где q — антиградиент, равный — g (7.14), который в мат- ричной форме записывается в виде q = 2Р' (у — f (а0)). Окончательно (7.16) переписывается следующим образом: а1 = а°4-2НГ1 Р'(у—f (а°)) = а°-г(Р'Р)"1 Р'(у—f (а0)). Вычислив следующее значение приближения а1, на его основе можно построить а2 и т. д. В общем виде метод Ньютона—Гаусса записывается следующим образом: а^^НРДГ'РИу-Ца*)), k = (7.17) Формула (7.17) может быть получена также из других соображений. Пусть приближение afe известно; разложим функцию регрессии в окрестности ak в ряд Тейлора до линейных членов: /t(a)«fi(a^)+2-^L(ai-^), / = 1,...,п. да; ‘ i=l 1 В матричном виде это равенство может быть переписано как f (a) — f (aft)-J-Pft(a—a'1), поэтому регрессия (7.2) линеаризуется y = f(a*) + Pft(a-a*) + 8 (7.18) или у —f (aft) = Pft (а—а*) + е. Применяя МНК к линеаризованной регрессии (7.18), най- дем следующее значение вектора приближения: а4+>—а* = (Р^ Pft)-1 Рй (у —f (а*)), которое совпадает с ранее полученным (7.17). Метод Ньютона—Гаусса является в некотором смысле интерполяцией градиентного метода и метода Ньютона. Действительно, как и в градиентном методе, здесь вычис- ляются только первые производные; таким образом, время, 246
затрачиваемое на одну итерацию, не намного больше, чем в градиентном методе (как правило, время, необходимое на обращение и перемножение матриц, намного меньше, чем на вычисление значения функций или их производных). Этот метод близок и к методу Ньютона, так как по смыслу является его приближением. В нем отсутствует существен- ный недостаток метода Ньютона — если в последнем ма- трица вторых производных должна быть положительно определена, то в методе Ньютона — Гаусса матрица Нх по построению неотрицательно определена, а при условии, что Р имеет полный ранг, определена положительно. Длина шага в методе Ньютона—Гаусса (7.17) равна единице. Метод будет более гибким, если длину шага сде- лать переменной. Таким образом может быть построен мо- дифицированный метод Ньютона—Гаусса: а^+'^ + ЫР^-'РИу-Ца*)), Xft>0. (7.19) Значение коэффициента A,fe, определяющего длину ша- га, в оптимальном случае находится из условия минимиза- ции Q (а) в направлении бГ = (Р,: Pft)-' Рй (У—Г (а*)). (7.20) Приведем теорему, с помощью которой можно легко получать условия сходимостей тех или иных методов. Прежде всего заметим, что любой итерационный метод минимизации функций задается неким отображением Rm в себя. Действительно, при минимизации функции ср (х) каждому приближению xfe мы должны поставить в соот- ветствие направление движения pft к следующему прибли- жению х/г+1. Таким образом, итерационный процесс зада- ется функцией р(х), х Е Rm- Так, в градиентном методе р(х) — q(x), а в методе Ньютона р(х) = Н-1 (х) q(x) и т. д. По определению х*+> =. х* + р (х*) = х* + рй, (7.21) где выбрано тем или иным образом. В оптимальном случае ф (х* + К. Рь) = min <р (xfe + Xpft). (7.22) Х>0 Теорема 7.2. Пусть функция ф (х) непрерывна на Rm вместе со своими первыми и вторыми производными. Пусть ф (х) ограничена снизу на бесконечности числом В (см. параграф 7.2) и начальное приближение итерацион- ного процесса (7.21) х° выбрано так, что ф(х°)^В. Пред- 247
положим, итерационный процесс, задаваемый наем р(х), удовлетворяет соотношению ( л \ cos (р (х), q (х)) е > 0, х £ Rm. отображе- (7.23) Тогда, если выбирать в интервале v - 2-feP-ft - < < (1 — v) 2qfePfe , (7.24) м ПрйН2 М ||pft|p v 7 где v — любое число: 0 < v 1/2 и М (Мо задается равенством (7.25)), то для всех предельных точек х* по- следовательности х0, х1, х2,... имеемдц> (х*)/дх = О, <р (х*) = = const. Доказательство теоремы приводится в параграфе 7.81. Сделаем некоторые замечания. Очевидно, в силу условий теоремы множество So = {х g Rm : ср (х°) В} является замкнутым и ограниченным (см. теорему 7.1), и минимум функции ф достигается. В силу непрерывности гессиана функции и непрерывности максимального характеристиче- ского числа матрицы от своих элементов существует Мо = sup Xmax Н (х). (7.25) XG<Sq Поскольку мы не делали предположений о выпуклости функции, постольку нельзя доказать, что пределом после- довательности итераций служит точка, обращающая ф в минимум. Единственное, что можно утверждать в этом слу- чае, что градиент в предельных точках равен нулю. Далее, из доказательства теоремы следует, что если выбирать из условия (7.22), то (7.23) достаточно для выполнения теоремы. С помощью теоремы 7.2 легко проверяется сходимость различных методов. Для примера рассмотрим градиентный метод. Здесь cos (р, q) = cos (q. q) = 1, поэтому условие (7.23) автоматически выполняется. Если отыскивается по правилу (7.22), то сходимость градиентного метода к ста- ционарным точкам следует из теоремы 7.2. Допустим те- перь, что в градиентном методе = 1, k = 0, 1, 2, ... Найдем условия сходимости такого метода. Выражение (7.24) переписывается следующим образом: р2-М-<1<(1-Р)-2Ж, М ||qft|P М HqfelP 1Теорема 7.2 с оптимальным выбором (7.22) приводится в [55, с. 47]. 248
или v M/2, v 1 — М/2. Ясно, что если Л40 < 2, то значение 0 < v <. 1/2 существует, неравенство (7.24) вы- полняется, и градиентный метод сходится. Выясним условия сходимости итерационных методов минимизации суммы квадратов отклонений. Начнем с ме- тода Ньютона—Гаусса (7.17). В [17] предлагаются условия сходимости метода Ньютона—Гаусса, однако они трудно проверяемы и завышены. Как и ранее, будем считать, что матрица Р имеет пол- ный ранг, таким образом, матрица Р'Р положительно оп- ределена для всех х б So. Обозначим [6 = 2 inf Xmln (Р' (х) Р (х)) > 0. В методе Ньютона — Гаусса p/l = Hrfelqft, Хь=1. Докажем сначала, что для этого метода выполняется условие (7.23). Обозначим m* = sup Xmax Hlfl (х) = 2 sup Xmax Р' (х) Р (х X=S0 X=So Тогда, как легко показать, — q'qCq'Hf1 qC-^-q'q.; /77* о Л_Ч'Ч<Ч’НГ>,<ХЧ’Ч. Но cos(pfc, qft) = cos(H?A‘ qft, qft)= , К M 1 1 /77* — >0, /п» ф<),/2 т. е. в качестве е можно взять отношение 6/т*. Так же, как в градиентном методе, для существования 0<ц^1/2 достаточно, чтобы t м» Ча НД2 > а (7-26) 2Ч* Hlfe Можно показать, что < 1 % ни % б ’ 549
поэтому условие (7.26) переписывается как МО< 26. (7.27) На основе (7.27) можно сделать вывод: если нелинейные регрессии «не очень нелинейны» (Af0 не велико), а сингу- лярность матрицы Р'Р не очень велика (6 достаточно велико), то метод (7.17) сходится к стационарным точкам. Этот вывод полностью подтверждается на практике. В [87] предлагается другой критерий сходимости метода Нью- тона — Гаусса: KQ (а) < 6, (7.28) где а — оценка МНК, минимизирующая Q (а); К — число, имеющее ту же природу, что и Af0. Условие сходимости (7.28) нам кажется несколько искусственным, поскольку значение Q (а) неизвестно, его-то и требуется найти. Не представляет труда выяснение условий сходимости модифицированного метода Ньютона—Гаусса (7.19). Если |Р'Р| =# 0 на So, а минимизирует Q (а) вдоль направле- ния (7.20), то метод (7.19) сходится к стационарным точкам. Сходимость в (7.19) будет выполняться, если выбирать иа интервале v 2<1а нй' Чй ; (1 — ц) 2Я/‘ Hlftl q,i ’ Mq;H7/qfc J’ где v — некоторое выбранное заранее положительное чис- ло, и < 1/2; М — оценка сверху максимального х. ч. гессиана Q (а) на So. В частности, если и = 1/2, то X - Н~* qfe . Mq* Hpft2 qfc X. Хартли [121] для выбора Xk предложил следующую про- цедуру. Вдоль выбранного направления в методе Нью- тона—Гаусса аппроксимируем сумму квадратов отклоне- ний Q параболой. Для этого подсчитаем значение Q для lb = 1/2 и = 1 (метод Ньютона—Гаусса). Нам извест- но Q (0) = Q (а/г). Проведем через полученные три точки параболу Р (А) = аХ2 + Ь\ 4- с. Найдем ее коэффициенты. Очевидно, Р (0) = Q (0) = с, так как парабола проходит через точку А, = 0. Далее, Р (1) = Q (1) = а + b + Q (0) 250
и Р (1/2) = Q (1/2) = а/4 4- Ы2 + Q (0). Отсюда легко най- ти а и Ь. Имеем а = 2Q (1) — 4Q (1/2) + 2Q (0); b = 4Q (1/2) - Q (1) - 3Q (0); с = Q (0). Как известно, парабола Р (X) принимает минимальное зна- чение при А, = — Ь/2а. Подставляя полученные значения для а, Ь, с, получим: х 1 Q(l)+4Q(l/2)+3Q(0) 1 4 Q (1)-2Q (l/2)+Q (0) 2 1 Q(O)-Q(i) 4 Q (1)-2(2 (l/2) + Q (0) (7.29) При приближении к оценке МНК, как правило, стре- мится к 1. Это и понятно, так как говорит о том, что вблизи минимизируемого вектора Q (а) хорошо аппроксимируется квадратичной функцией, для которой = 1 является оптимальным. Выбор Xk может быть осуществлен и по другому прин- ципу. Выберем некоторое число 0,5 s < 1 и положим = sf>, где q = 0, 1, ... — такое максимальное число, что Q (afe_1 + Aft6*G) < Q (а*-1). Замечено, что стратегия выбора Xk не имеет решающего значения. Рассмотрим теперь отыскание оценки МНК для функций регрессий, линейных в логарифмах ft (а) = exp (a'xf), t = = 1, п. Прежде всего покажем, что в случае идентифи- цируемости на любом ограниченном множестве S с Rm ма- трица производных этой функции имеет полный ранг. Дей- ствительно, легко проверить, что матрица производных Р = DX, где D — диагональная матрица п X п, (t, /)-й элемент которой равен еа'\ X — матрица порядка п х т, в качестве строк имеет векторы x't. Из условия идентифи- цируемости следует, что rank X = т, поэтому Ат1а (Х'Х) = = р > 0. Далее, из неравенства (П.12) следует 4in (Р'Р) = kmin (X'D2X) > Amln (D2) %пцп(Х'Х) > 2>min е2а Xf -р = 6/2. t, а. Очевидно, если S—ограниченное множество, то mine2“xi> t, а > 0 и 6 > 0. 251
Упражнение 7. 3 1. При каких условиях |Hj| =/= 0 в регрессиях а) (7.4), а3 + а4 = 1; б) ft (а1> а2, аз) = ai+ a2e““z — модифицированная экспонента; в) ft (аъ а2, аз) = ai / (1 + а2е~а‘*) — логистическая кривая. 7.4. Метод Левенберга—Марквардта Суть этого широко используемого метода проста. При минимизации по методу Ньютона—Гаусса мы требовали невырожденность матрицы Нх. Иногда матрица Нх ста- новится настолько плохо обусловленной, что практически обратить ее невозможно. К- Левенберг [152] предложил такие матрицы «подправлять» следующим образом. Вместо Нх рассмотрим матрицу Нх + 2ц Im, ц > 0. Тогда матрица Нх + 2ц Im = 2 (Р'Р + ц1т) всегда невырож- дена и обратима. Итерационный процесс минимизации сум- мы квадратов отклонений в методе Левенберга строится по формуле afc+* =aft +(Р;Рй + цй I)-1 РДу—f (а*)), £=0, 1,2,..., (7.30) где цй > 0. Поскольку считаем, что матрица Нх может быть вырождена, можно даже предположить 6 = 0, зато цй7^ц0> 0 Для всех & = 0, 1, 2, ... Формула (7.30) имеет много общего с ридж-оценкой (6.27). Рассмотрим условия сходимости процесса (7.30). Вос- пользуемся теоремой 7.2. Условие (7.23), очевидно, выпол- няется. В методе Левенберга = 1, что накладывает опре- деленные ограничения на поправки цй. Можно доказать, что если Мо < 2ц0, то метод Левенберга сходится (точнее, во всех предельных точках последовательности а0, а1, а2, ... градиент Q (а) равен нулю). Обозначим 6/< поправку в методе Левенберга к преды- дущему вектору параметров а*: чк?; ₽.+!* о-’ ₽ду-ца‘))"4- (>; р»+н )- «к- Свойства этой поправки при изменении параметра ц при- водятся в теореме 7.3. Поскольку (7.30) является ридж-оценкой линеаризован- ной регрессии (7.18), оценка (7.30) дает минимальную сум- му квадратов отклонений регрессии (7.18) в классе оценок с фиксированной длиной (см. параграф 6.4). 252
Теорема 7.3. а) длина вектора поправки ||б£|| является убываю- щей функцией р, при увеличении р от 0 до + оо ||6* || мо- нотонно убывает от || 6*^ || до 0; б) cos (qfe6£) является возрастающей функцией р и при изменении р от 0 до + оо изменяется от cos (qfij t£°) до 1; в) cos (t>k,i>k ) является убывающей функцией р и при изменении р от 0 до + оо изменяется от 1 до cos (q/( Д G). Доказательство этой теоремы дано в параграфе 7.8. Суть теоремы заключается в том, что, варьируя зна- чением р, можно изменять направление вектора поправки. При малых р вектор поправки 6* расположен ближе к вектору поправки метода Ньютона—Гаусса, при больших р имеет направление, близкое к антиградиенту минимизи- руемой функции. Д. Марквардт [158] предложил другую поправку для корректировки матрицы Р'Р: W = (Р; Pft +pftDfe)-i р; (y-f (а*)), (7.31) где Dfe = diag (Р* РД. Марквардт корректирует диаго- нальные элементы матрицы P* Pft в зависимости от их величины. Метод Марквардта часто используется при мини- мизации суммы квадратов отклонений. Используя теоре- му 7.2, можно найти условия сходимости этого метода. Остановимся теперь на стратегии выбора p,h. Градиент- ный метод хорошо работает в начале итерационного про- цесса, т. е. когда начальное приближение находится на достаточном расстоянии от минимизирующего вектора. Наоборот, метод Ньютона—Гаусса, как правило, быстро сходится в случае, когда приближение лежит в непосредст- венной близости к оценке МНК. Поэтому алгоритм, кото- рый на первых итерациях работал бы как градиентный метод, а в конце итерационного процесса — как метод Ньютона—Гаусса, вобрал бы в себя лучшие характеристи- ки обоих процессов. При надлежащем выборе р можно до- биться того, чтобы методы Левенберга и Марквардта об- ладали этими свойствами. Действительно, пусть в начале процесса минимизации значения (i будут относительно большими, а в конце процесса — малыми. Марквардт, в частности, предложил следующую процедуру: 253
1) на нулевом шаге полагаем р,0 = 0,01; 2) на k + 1 шаге полагаем р,* = p,ft/10: а) если Q (р,*) Q (а/г), то увеличиваем значение р* (р.* = 10р.*) и снова проверяем выполнение неравенства Q (11 **) Q (а&)- Таким способом увеличиваем р* до тех пор, пока новое значение суммы квадратов отклонений не будет меньше прежнего значения Q (а), и полагаем р,ь+1 = = н*; б) если Q (р,*) < Q (а4), то полагаем р.й+1 = р*. В [22] приведена программа на Алголе метода Марк- вардта с описанной процедурой выбора р.. Предложенная процедура выбора р. имеет один недо- статок. Если матрица Р&Рь плохо обусловлена, то в не- которых случаях для выполнения неравенства Q (afe+1) < < Q (а&) необходимо увеличивать р. до чрезвычайно боль- ших значений. Хотя при увеличении р. направление век- тора 6L приближается к направлению вектора q, длина вектора 6L стремится к нулю, что может стать препятствием для уменьшения Q (а). В таких ситуациях можно модифи- цировать описанную процедуру следующим образом. Вме- сто того чтобы увеличивать рдо слишком высоких значений, будем уменьшать длину шага вдоль направления, соот- ветствующего пороговому значению р. Таким образом, полагаем afe+1 = afe + (р), где X > 0 выбрано так, чтобы Q (a&+1) < Q (а&). Поскольку угол между (р.) и q острый, такое X всегда существует. В качестве порогово- го р, мы предлагаем брать р. = I1. Для примера рассмотрим оценивание регрессии (7.5). В качестве а0 положим оценку МНК логарифмированной регрессии (7.13). В табл. 7.1 показана минимизация Q (а) методом Марквардта. Отметим медленную скорость сходимо- сти, а также равномерное снижение значения р,. Таким образом, а = (0,733; 0,199; 0,207; 0,615)'. Остановимся теперь на сравнении методов Ньютона— Гаусса и Хартли и методов Левенберга—Марквардта. Как показывает практика расчетов, методы второй группы яв- ляются более «осторожными». Для регрессий, в которых нелинейности не очень велики (к таким, в частности, отно- сятся регрессии, линейные в логарифмах), методы Нью- тона—Гаусса и Хартли сходятся быстрее методов второй 1Марквардт [158] (см. также [49]) предлагает несколько иной метод модификации этой процедуры. 254
Таблица 7.1 Номер итерации 01 О» О3 а4 С И 0 0,7456 0,1529 0,2025 0,7131 66,36 10-2 1 0,7451 0,1522 0,2092 0,7060 65,58 10-3 2 0,7426 0,1550 0,2134 0,7000 65,42 10-4 3 0,7409 0,1580 0,2140 0,6961 65,39 10-4 22 0,7326 0,1982 0,2070 0,6156 65,20 IO-6 23 0,7326 0,1986 0,2070 0,6149 65,20 10-* группы. Для регрессий же с высокой степенью нелиней- ности более предпочтительными оказываются методы второй группы. При этом их скорость сходимости невысока, зато методы Ньютона—Гаусса и Хартли вовсе расходятся. Иногда ни один из описанных методов не приводит к оценке МНК- В частности, сходимость часто отсутствует в регрессиях с функцией ft (“ь «2. «з) = «1 («2К?’ + (1 —а2) /<Х’’ (7.32) которая представляет собой производственную функцию с постоянной эластичностью замены [12]. Остановимся на вопросе окончания процесса счета. Практически счет может быть остановлен, когда выпол- няются следующие условия: а) поправка вектора afc+1 — afc мала; б) градиент dQJda близок к нулю. Таким образом, при произвольно выбранных числах б, х процесс минимизации оканчивается, если выполняются оба условия: а) |а*+1 — а*|<б(|аг|* +1), 1 = 1, б) |[t?Q (ak )/dtz|| < х. На практике значения б и х выбирают равными 10-5. Прак- тика автора показывает, что часто вычисления приходит- ся выполнять с двойной точностью. Как правило, это про- исходит с «плохо идентифицируемыми» регрессиями, для которых ] Р' Р ] « 0. Большое значение для скорости сходимости процессов минимизации имеет выбор начального вектора параметров. В [123], например, предлагается следующая общая процеду- 255
ра: из п наблюдений выберем т, для которых решим систе- му уравнений Уц =ftt («i> «2,•«,«) (7.33) Решение этой системы примем в качестве начального при- ближения процесса минимизации. Однако такой метод име- ет существенный недостаток. Решение системы (7.33) тре- бует привлечения нелинейных итерационных методов, если ft не сводятся к линейным функциям некоторым преобра- зованием. Однако если функция регрессии сводится к ли- нейной с помощью некоторого преобразования, то хорошее начальное приближение может быть получено другим пу- тем (см. параграф 7.6). Если же ft (а) «действительно» не- линейны, то задача решения системы (7.33) может оказать- ся сложнее исходной задачи минимизации Q (а). В том случае, когда начальное приближение не может быть найдено какими-либо способами, можно предложить следующую процедуру. Часто даже если регрессии не сво- дятся к линейным с помощью некоторого преобразования, можно найти такую трансформацию регрессии, в которой основная часть параметров становится линейной. Так, если число нелинейных параметров после преобразования не больше двух, то, задаваясь сеткой для этих параметров, обычным МНК оцениваем остальные линейные параметры и в качестве начального приближения выберем то значение, которое приводит к минимальному Q. Этот метод, в част- ности, приемлем для нахождения начального приближения для функции (7.32). Упражнения 7. 4 1. Докажите, что условие (7.23) для метода Левенберга выпол- няется. 2. Докажите, что если Ма < 2ц0, то метод Левенберга схо- дится. 3. Найдите условия сходимости метода Марквардта. 4. Какие пункты теоремы 7.3 остаются верными для поправки в методе Марквардта (7.31)? 7.5. Единственность оценки МНК Обсудим вопросы, связанные с наличием у минимизи- руемой функции нескольких локальных минимумов. Как только минимизируемая функция многих перемен- ных <р (х) становится выпуклой вниз, то все методы миними- зации будут сходиться. То же самое можно сказать и о спе- 256
циалышх методах минимизации суммы квадратов отклоне- ний: если в некоторой области S cz функция Q (а) выпукла и а £ S, то а дает единственный глобальный минимум Q (а) на S. Сумма квадратов отклонений не может быть выпуклой на всем пространстве и для всех на- блюдений у £ Rn. Действительно, если хотя бы для одного t = 1, ..., п, i, j = 1, т, а £ d2ft (a)/datdaj 0, то специальным выбором yt можно добиться того, что гессиан Н (см. уравнение 7:15) не будет положительно определен. Другими словами, если ft (а) нелинейна, то найдутся на- блюдения, для которых Q (а) не будет выпукла. В работе [22] доказывается более сильное утверждение: найдется у 6 Rn, для которого Q (а) будет иметь несколько локаль- ных минимумов. Если же считать, что у имеет, например, нормальное распределение, то вероятность наличия у Q (а) больше двух локальных минимумов больше нуля. Все это говорит о том, что минимизировать Q необходимо с боль- шой осторожностью, чтобы не принять ложное значение оценки МНК за истинное. В работе [22] предлагается метод определения соответствия найденного вектора глобально- му минимуму суммы квадратов отклонений. Этот критерий доказан для случая т = 1 и для его использования необ- ходимы оценки некоторых характеристик поверхности F = = f (а), а £ Rm. Для каждой конкретной регрессии может быть предложен, однако, свой способ определения области S, на которой соответствующая сумма квадратов отклонений была бы выпукла. Так, рассмотрим следующий простой критерий для регрессии, линейной в логарифмах. Легко видеть, что уравнение (7.15) для регрессии (7.3) переписывается следующим образом: /7^ = 2^ е“ Xf xtixtj {2еа х‘ — уг), i, tn. t В матричном виде гессиан Q (а) для регрессии (7.3) равен: H = 2X'DX, (7.34) где D — диагональная матрица с элементом еа xt (2еа Xf — — yt) на главной диагонали. Ясно, что на множестве S = {а С Rm : еа х< > yt/2, t = 1, ..., п} гессиан (7.34) будет положительно определен, а сумма квадратов откло- нений выпукла вниз. Множество S представим в другом виде: S = {a Е R,n u'x.t>\nyt— In2, t— 1.n}. (7.35) 9 Зак. 2067 257
Очевидно, S есть выпуклый многогранник в прост- ранстве Rm (рис. 7.4). Далее, легко видеть, если Q (а) < — min yj, (7.36) 4 t то а Е S. Множество векторов, удовлетворяющих (7.36), обозначим S'. Тогда S' cz S. Критерий проверки един- ственности оценки МНК для регрессии (7.3) прост. До- пустим, один из методов минимизации суммы квадратов Рис, 7.4. Множество, на котором функция Q (а) ре- “1*0+“аЪ2 I грессин t/i=e 11 +е( выпукла отклонений привел нас к точке а, в которой dQ (а)/да = О, причем а £ S', т. е. Q (а) < -j- min у?. Тогда можно ут- верждать, что на S' точка а отвечает глобальному миниму- му. Далее, для всех a g S' Q (а) > 1/4 min yl и поэтому Q (а) > Q (а). Таким образом, а — единственная оценка МНК- Оценка (7.36) завышена, и иногда доказательство единственности оценки МНК по критерию (7.36) «не про- ходит». В предыдущем параграфе найден вектор, который обра- щает градиент Q (а) регрессии (7.5) в нуль. Является ли этот вектор оценкой МНК? Ответ положительный, посколь- ку 65,2 < (140,28)2 «7711. Часто для того чтобы убедиться в том, что а отвечает глобальному минимуму Q (а), начинают процесс минимиза- 258
ции с другого начального приближения. Если процесс сой- дется к старому значению а, есть уверенность в том, что Q (а) — минимальное значение функции. Упражнения 7. 5 1. Докажите, что если Q(a) выпукла вниз на множестве SczR"1, то любая точка, приводящая к локальному минимуму Q (а) и лежа- щая в S, дает глобальный минимум. 2. Докажите, что если d2ft (a)/da.ida.j =)= 0, то специальным выбором ylt ..., уп можно добиться того, что Q (а) не будет вы- пуклой вниз функцией. 7.6. Сведение нелинейной регрессии к линейной Иногда некоторым преобразованием функцию регрес- сии ft (а) можно свести к линейной относительно парамет- ров. В дальнейшем регрессию (7.2) будем называть сводя- щейся к линейной (квазилинейной [1481), если существует такая функция действительного переменного g, что ё (ft («)) — CCjftl + «2^2 + ••• + Umftm’ w> (7.37) где ftt — некоторые константы. Так, для регрессии (7.3) g— логарифмическая функция. Формально производя пре- образование g над регрессией (7.2), получим редуцирован- ную регрессию1: ё (yt) = а1Л1 + ••• + ttrnftm + (7.38) Применяя обычный МНК к регрессии (7.38), получим на- чальное приближение для оценки МНК исходной регрес- сии а° = (f'f)“1f'g(y), (7.39) где f — матрица п X т, g (у) — вектор п X 1. Чем «менее аддитивна» функция g, тем более заметно будет различие между оценкой а0 (7.39) и оценкой МНК, минимизирующей Q (а) (7.6). Различие между а0 и а может быть уменьшено следую- щим способом. Произведем над обеими частями нелиней- ной регрессии (7.2) преобразование g. Разложим функцию g в ряд Тейлора до линейных членов в окрестности ft (а). Тогда ё (yt) = ё (ft («) + 8() = g (ft (а)) + g' (st) et, (7.40) 1 «Формально»; поскольку g (/> (а) ф- е() #= g (/> (а)) ф- g (ef). 9* 259
где st лежит между ft (а) и yt. Допустим, ft (а) хорошо ап- проксимирует выборку yt, тогда ft (а) « yt, и (7.40) пере- писывается следующим образом: g {yt) = «1Л1 + ••• + a-mfim 4- It, It = ё' (yt) 8t. t = 1.... n. (7.41) Очевидно, Eli 0; o2 (lf) « o2-(g' (г/г))2- Если [ef] неза- висимы, то таковыми будут и {1J. Регрессия (7.41) явля- ется гетероскедастичной, что ведет к оценке Эйткена a1=(f'W-1f)“1f'W-1g(y), (7.42) где W — диагональная матрица с элементом (g' (г/г))2 на диагонали (см. параграф 2.1). Оценка Эйткена может быть найдена и без применения формулы (7.42). Для этого обе части уравнения (7.41) необходимо разделить на | g' (gf) | и применить МНК- Описанная процедура для некоторого частного случая предложена С. А. Айвазяном [1, с. 172— 177]. В более общем случае она рассмотрена в [148]. Как показывает практика, оценка (7.42) является лучшим при- ближением к оценке МНК, чем (7.39). Вернемся к регрессиям, линейным в логарифмах. Как следует из вышеизложенного, а1 есть оценка МНК регрес- сии yt In yt ^lyt^tl ••• ^myt^tm “Ь минимизирующая Qi(a) =2 (Inz/t—ajXt!—... — amxtm)2-yf. (7.43) Оценка а0 минимизирует Qo («) = 2(1пг/(— Oixa—...—ат xtm)2. (7.44) Сравнивая (7.43) и (7.44), можно утверждать, что а° ориентируется по сравнению с а1 больше на наблюдения с малыми значениями yt, чем с большими. Для конкрет- ности будем считать, что yt — наблюдения во времени, причем yt+1 > yt. Тогда регрессия ft (а0) будет смещена в прошлое, так как наблюдения для малых t входят в (7.44) по сравнению с (7.43) с большим весом. Регрессия ft (а0), как видно из рисунка, лучше аппроксимирует дан- ные для малых значений /, тогда как /<(а1)=/[(а) дает рав- номерное приближение (рис. 7.5). 260
До сих пор предполагалось, что отклонения et аддитив- ны в регрессии, линейной в логарифмах, т. е. ^ = e«'xt+£i. (7.45) В этом случае оценка логарифмированной регрессии будет иметь систематическое смещение в сторону малых yt. Однако если регрессию специфицировать по-другому, то оценка а0 будет оптимальной. Это произойдет, если от- клонения входят в модель мультипликативно: yt — (7-46) Тогда (7.46) эквивалентна линейной регрессии In yt = = a'xt + и оценка а0 обладает всеми присущими ей оптимальными свойствами (по теореме 1.2 оценка а1 будет хуже оценки а0). Таким образом, вопрос о выборе оценок а0 или а1 упирается в выбор спецификации с аддитивной или мультипликативной ошибкой. Разумеется, спецификация регрессии остается за исследователем, однако при выборе (7.45) или (7.46) могут помочь следующие рассуждения. Допустим, исследователь выбрал модель с мультипликатив- ной ошибкой (7.46). Тогда еа' xf-| ut _ еа' хг егц « еа' х* (1 + «г); т, ( yt—еа'хг \2 с 2 г Е —----------- та Euj — const. I е«' xt j 261
Последнее уравнение означает, что в записи (7.46) близ- кой к постоянной оказывается относительная ошибка, а в модели (7.45) по определению постоянной является абсолютная ошибка. Таким образом, если исследователь считает, что дисперсия отклонений не будет расти с ростом yt, то необходимо выбрать модель с аддитивной ошибкой. Если предполагается, что дисперсия отклонений растет вместе с ростом yt, предпочтительнее выбрать модель (7.46). Вопросу выбора мультипликативной или аддитивной ошибки в статистической литературе посвящено несколько работ. В [112] рассматривается регрессия, линейная в ло- гарифмах, одновременно с аддитивной и мультипликатив- ной ошибками yt = ea' x*+e* + rii, t= 1,..., n, (7.47) где Eet = Ет^ - 0, о2 (et) = <т,, а2 (пе) = <т’, EetlT]ta = °. 4 = 1, ..., п; = 1, ..., п. Оба отклонения считаются нормально распределенными. Критерий отношения прав- доподобия (см. параграф 1.9) приводит к решению задачи о проверке гипотез oj = 0 и Н2: о’ = 0. Однако опи- санный подход при выборе конкурирующих моделей весь- ма сложен с точки зрения вычислений. При выборе специ- фикаций регрессии (7.47) в [151] предлагается использо- вать ^-преобразование Бокса—Кокса [89]: Ьы=№-1)1К, Х^О; 11п6, Х = 0. Применив ^-преобразование к нелинейной регрессии, по- лучим ^) = 1Л(а)](М + 6„ *=1...л, где 6t — отклонение; Е6< = 0; cov (6) = о2 1п. Допустим, 6 имеет нормальное распределение, тогда, применяя метод максимального правдоподобия, можно найти оценку для а и X. Легко проверить, что если X — 0, то исходная мо- дель имеет мультипликативную ошибку, если X = 1, то — аддитивную. Упражнения 7. 6. 1. Как найти оценку а1 для квазилинейных регрессий: a) yt=aleettt6)jfe=at/(l+a» х«)+в/; в) f't=Va1+a2xt+Ee? 262
7.7. Доказательства 1.Доказательство теоремы 7.1. Рассмо- трим множество 5= [х£ Rm : ф (х) < 5}, замкнутое в силу непрерывности функции ф. Оно будет также ограничено, так как в противном случае найдется такая последовательность точек х1, х2, ... из S, что|]х*[| -> ->оо. По условию ограниченности ф на бесконечности снизу найдется такая точка хР ( S в этой последователь- ности, что ф (хр) > В — противоречие с определением мно- жества S. Таким образом, S — ограниченное замкнутое множество в Rm, значит, ф достигает на нем своего инфиму- ма (глобального минимума). 2. Доказательство теоремы 7.2. Введем в рассмотрение функцию действительного переменного Фа (ty = Ф (х* + Xpft), X 0. Легко проверить, что Ф* = = q' (xfe + Xph) pfe; Ф'к = р*Н (x* + Xpft) pft. Разложим функцию (X) в ряд Тейлора до членов второго порядка в окрестности X = 0: Фа W = фа (0) — Ма Рл+-у- P* н (х'г + Ра) Ра- где X* £ [0, X]. Допустим, =/= 0, в противном случае теорему можно считать доказанной. В силу того что q^Ps^ е > 0, найдется такое X**, что для всех 0 < X < X** Ф (X) < Ф (0). Положим х*** = sup %**, где для всех 0 < X < X** Ф (X) < Ф (0). Тогда Ф (X***) = Ф (0) и для всех 0 < X < А,*** Ф (X) < Ф (0), т. е. ф (xfe + + ^Ра) ф (х4)- Действительно, неравенство Ф (X***) > > Ф(0) невозможно в силу непрерывности Ф и определения X***. Неравенство Ф (X***) < Ф (0) также неверно в си- лу определения X***. По построению So для всех 0 < <Х<Х*** xk + Хр/( g So. Далее, по определению Мо для всех М Мо Ф (X) - Ф (0) < - Ма Ра + ~ М Ра Р/! - Ph (К). Очевидно, при всех 0 < X < 2q*pft/Alp*pfl Р (X) < 0. Лег- ко показать, что X*** > 2qXp?./Alp/Sp?t. Пусть v£ (0, 1/2); выберем X/t так, чтобы v < Mp*pftV2qApft <1—о. 263
В этом случае Принимая во внимание условие (7.23), последнее неравен- ство можно переписать следующим образом: 9 II qJ|2<0, или окончательно ф(х* + Ч pft)<F(x*)— л II qj|2, где А = 2е2 (у — v-)/M > 0, причем х*+‘ = xfe + + A’fePh Е So. Последовательность х°, х1, ... имеет хотя бы одну пре- дельную точку х* £ So. Докажем, что ||g (х*)|| = 0. Допустим противное. Тогда можно найти такую подпосле- довательность z°, z1, ..., для которой ||g (z*)|] 6 > 0. Но тогда Ф (zft+’) < ф (zk) — Ы62, или ф (z*+’) < — /еЛб2 + ф (х°). Переходя к пределу при k ->оо, получим ф (z*+I) -> ->— оо, что противоречит ограниченности ф на So. По- следнее утверждение теоремы очевидно. 3. Доказательство теоремы 7.3. Оче- видно, ||6iH2=Yq*(Р" Pfe + ^’2qft- Используя формулу (П.5), легко показать, что d (Р£ Pfe Д И1)"2/ф = - 2 (Р, Pft + Hl)"3, поэтому d II 1Г/Ф = - у q'k (Pk Pfe + pl)-3 qfe. Матрица P*Pft + p.1 положительно определена, такой будет и матрица (P^Pfe + р!)-3. Таким образом, про- изводная квадрата длины поправки метода Левенберга по р отрицательна, что доказывает первую часть утверждения а). Вторая часть этого утверждения очевидна. 264
Докажем теперь, что cos (q&, fif) является возрастающей функцией ц. По определению cos(qs, ей =------->»+-)--;------------ (4i [ч;(р;р*+с1)-! чЧ1'2 Для доказательства достаточно показать, что функция дЦР^РН-Н»)-1 Ча [Ча(РА Ра + ^-Ча]1/2 является возрастающей по р. Найдем производную этой функции. Она равна: Ча(ра Ра+р1)-1 qfe4fe(pA Ра+н'ДЧа— [ч£ (р£ Ра+^ДЧа]2 [ча(рарй+р«)-2чМ3/2 (7.48) Теперь заметим, что если А, В, С — квадратные симмет- ричные матрицы, С = АВ, то по неравенству Шварца (х' Сх)2= (х' АВх)2 = [(Ах)' (Вх)]2^ х' А2х-х' В2х. Применяя полученное выше неравенство для числителя (7.48), где A=(P^Pfe+pI)-1/2; В=(Р^Ра + ц1)-з/2; С = (РаPfe +ц!)-2, приходим к выводу о положительности производной (7.48) — утверждение б) доказано. Аналогично доказывается ут- верждение в). Глава 8 СТАТИСТИЧЕСКИЕ СВОЙСТВА ОЦЕНКИ МНК 8.1. Непрерывность и асимптотические свойства оценки МНК Исследование статистических свойств оценок МНК в нелинейной регрессии технически весьма сложно. При ко- нечном объеме выборки для установления свойств оценки МНК необходимо знать конкретный вид функции регрес- сии. Прежде чем переходить к рассмотрению статистических свойств оценки МНК, обратим внимание на следующий 265
факт: оценка МНК может не существовать с вероятностью, большей нуля. Для примера рассмотрим регрессию ye = e<“-t-ee, (8.1) в которой а Е 0 = (— оо, оо). Если yt <С 0 для всех t = 1, 2, ..., п, то оценка МНК не существует. Если же предположить, например, что &t ~ N (0, о2), то P{yt О, t = 1, n) > О, и оценка МНК не существует для ре- грессии (8.1) с вероятностью, большей нуля. Естественно, говорить о непрерывности, состоятельности и других свой- ствах оценки невозможно, если с положительной вероят- ностью она не существует. Поэтому в дальнейшем будем предполагать, что 0 — компактное (т. е. замкнутое и огра- ниченное) множество в Rm. Практически это ограничение не будет жестким, поскольку всегда 0 может быть выбрано произвольных размеров; компактность 0 нам необходима только из теоретических соображений. По-прежнему будем считать ft (а) непрерывными функциями на 0, а регрес- сию — идентифицированной. Компактность 0 и непрерыв- ность f влечет компактность образа F (см. параграф 7.1). Идентифицируемость регрессии означает существование об- ратного отображения f-1 на F. Нетрудно показать, что отображение f-1 будет также непрерывным (см., например, [39, с. 951). Компактность 0 влечет существование оценки МНК а = ап (у) для любого у С Rn. Оценка МНК по определе- нию минимизирует сумму квадратов отклонений Qn(«;y)= 2 (i/t—л («))2- (8.2) <= 1 В общем случае может существовать несколько оценок МНК- Р. Дженрич [140]-показал, что в этом случае для каждого у можно выбрать ап (у) так, чтобы оценка МНК стала измеримой функцией. В статье [22] показано, что если оценка МНК единственна, то она непрерывна по у. Теорема 8.1. Пусть вышеперечисленные условия вы- полняются. Если для любого у б Rn существует единствен- ная оценка МНК., то она является непрерывной функцией у. Теорема 8.1 означает, что малые изменения в наблюде- ниях приводят к малым изменениям оценки МНК- Теперь перейдем к асимптотическим свойствам оценки МНК- Начнем с состоятельности. Под состоятельностью 266
в слабом смысле понимаем сходимость по вероятности оце- нки к истинному значению вектора параметров а0, т. е. го- ворим, что ап (у) — состоятельная оценка, если для любого е > О Р{Уб^:||ап(у)-ао||<8}^1, м->оо. (8.3) Оценка строго состоятельна, если сходимость к истинному значению вектора параметров происходит почти наверное, т. е. с вероятностью, равной 1. Можно показать, что стро- гая состоятельность влечет состоятельность в слабом смысле. Теорема 8.2 [140]. Пусть © — компактное мно- жество, ft (а) — непрерывные функции регрессий на 0. Допустим, отклонения регрессии еъ е2, ... независимы и одинаково распределены. Предположим также, что для лю- бых а, р Е 0 существует предел lim— V 1Л(а)-Л(Р)12= <р(а, р), (8.4) 71—>оо Л причем сходимость в (8.4) равномерная, и <р (а, Р) = 0 тогда и только тогда, когда а — р. Тогда оценка МНК строго состоятельна, т. е. Р {an (у) -> а0) = 1, где а0 — истинное значение вектора параметров. Доказательство этой теоремы приведено в параграфе 8.5. Рассмотрим, что означает условие (8.4) для линейной регрессии ft (а) = a'xt. Имеем — 2 [ft (а)-ft (Р)]2=— 2 [(«-₽)' х/]2 = п ** п t= 1 t= 1 = (а_р)'2^Ь. (а_р), п где Хп — матрица п X т, вектор-строками которой яв- ляются х[. Таким образом, (8.4) означает, что lim -ХАХП = — А, | А [ Ф 0, т. е. сильную регулярность матриц Хп (1.38). Э. Маленво [1561 также доказал состоятельность оцен- ки МНК при условии (8.4), однако он не предполагал компактности 0. Вместо этого он рассмотрел другую ги- потезу: оценка МНК. существует и единственна, причем существует действительное число 0 и компактное мно- 267
жество К с 0, содержащее истинное значение а0, такие, что, начиная с некоторого /г0, + (8.5) t для любого а £ К. Проанализируем условия состоятельности оценки МНК. Дженрича и Маленво. Существование предела (8.4) соот- ветствует регулярному поведению матриц Хп в линейной регрессии (1.38). Это условие, как правило, не выполняет- ся для регрессий-трендов и поэтому является весьма огра- ничительным. Маленво сделал попытку отказаться от ком- пактности 0, однако, во-первых, он вынужден был пред- положить существование оценки МНК, а, во-вторых, для этого необходима выполнимость (8.5), что накладывает ог- раничение на о2 сверху. Было найдено необходимое условие состоятельности оценки МНК в нелинейной регрессии. Можно показать, что если ег ~ N (0, о2), то для состоятельности оценки МНК необходимо, чтобы п У [ft (“)— А(“о)]2-^ П-+оо, t= 1 при условии, что все остальные стандартные условия, налагаемые на нелинейную регрессию, выполнены. При- веденное условие является необходимым и достаточным для линейной регрессии. Докажем это. В линейной регрессии ft (а) = a'xf, t = 1, ..., п, поэтому 2 (а' хг — а'о хг)2 = (а—а0)' ХА Хп (а — а0), t= 1 где Хп — матрица п х т, вектор-строки которой суть х/. Докажем, что если для любого v £ Rm v' XhXnv -> oo при n->oo, то %mln (XAXn)->oo, и выполнено условие Эйкера (1.39). Положим фп (v) = v'XAXnv, причем || v|| = = 1. Имеем XA+iXn+1 = XAXn + xn+1xA+i, поэтому ХА+1 Хп+1 > ХАХП и фп+1 (v) > ф„ (v) для любого v Е S — единичной сфере в R'n В силу компактности S и монотонности последовательности функций ф„ сходимость Фп (*) ->00 будет равномерной на S, поэтому min <pn (v) - Xnijn Хп Хп —>- оо, п —>- оо, V6S что требовалось показать. Обратное очевидно. 268
Если ег независимы и одинаково распределены с плот- ностью, вторая производная которой не обращается в нуль вне некоторого интервала, и существуют а и а0, для ко- торых 2 [ft (а) — ft (ао)]2 < оо, то вообще состоятельной оценки не существует [44]. Перейдем к асимптотической нормальности оценки МНК- Помимо (8.4), предположим, что вторые производные d^ft/da? равномерно ограничены в совокупности, т. е. найдется такое число М, что для всех а С 0 I /= 1,2,.2..........т. (8.6) dat да 4 i 1 j * Далее предположим, что при п -> оо max 1 у 2 (аЛ/^)2 t=l t= i IlJL.+ A-- i /-1 da t day ..., m (8.7) равномерно no a £ 0, где Ац — матрица m X m, причем I A (a0)| 0. Теорема 8.3. Пусть условия теоремы 8.2 выпол- няются, т. е. ап (у) — строго состоятельная оценка а0. Предположим также, что ап (у) является внутренней точ- кой & почти наверное. Тогда если условия (8.6) и (8.7) вы- полняются, то оценка М.НК. является асимптотически- нормальной: Vп (ап (у)—«о) 7? N (0, о2 а-1 (а0)). Доказательство теоремы приведено в параграфе 8.5. Теорема 8.3 помогает найти приближенную матрицу ковариаций оценки МНК. Так, положим cov(an)« s2 2(Уг-Л(аД)2 (8-8) где 2 1 S2 =----- п — состоятельная оценка а2. Матрица (8.8) совпадает с мат- рицей ковариаций оценки МНК линейной регрессии (7.18), которая является линеаризацией исходной регрессии (7.2) в точке ап; здесь Р = Р (an) = 5f (an)/da. 269
Упражнения 8.1 1. Рассмотрим нелинейную регрессию f (i) (а) = алг/1 + а2х/2, у которой матрица Хп, вектор-строки которой равны хц, xt2/), регулярна, т. е. lim X 'п Хп/п = В, |В|=^=0. Пусть 0 = {a^Ri:O<C <Са<Са*}. Докажите, что условие Дженрича (8.4) для этой рег- рессии выполняется. 2. При каком условии оценка МНК для регрессии из задачи 1 будет асимптотически-нормальна? 3. Предположим 0={а£/?1:а> 0). Существует ли тогда оцен- ка МНК для регрессии из задачи 1? Для каких оа выполняется условие Маленво (8.5)? Будет ли оценка МНК состоятельной? 4. Выполняется ли условие Дженрича (8.4) для регрессии; линейной в логарифмах ft (а) = ехр (а'х^), у которой limX^Xn/n= = В, |В| 0, а £ 0 — компактное множество? Будет ли оценка МНК асимптотически-нормальной? 5. Пусть в нелинейной регрессии yt =а-\- a2xt -ф ег сущест- вуют пределы = 2х4/п, с2 = Ъх?1п >0, сх > 0, а £ [0, 6]. Будут ли условия (8.4) и (8.7) для этой регрессии выполняться? 8.2. Оценка смещения МНК В линейной регрессии оценка МНК является несмещен- ной оценкой. Это свойство не сохраняется для оценки МНК в нелинейной регрессии. Даже в простейшей нелинейной регрессии yt = ]/сс + вг, t = 1,..., п, где уи ..., уп незави- симы и одинаково распределены по нормальному закону, оценка МНК (2уг/н)2 параметра а будет иметь смещение. М. Бокс попытался [88] оценить величину смещения оценки МНК в нелинейной регрессии. Оценка МНК удов- летворяет матричному уравнению (система нормальных уравнений): Р (а) (у - f (а)) = 0, (8.9) где Р (а) — матрица производных п X т, а — оценка МНК- Разложим функцию регрессии в ряд Тейлора до членов второго порядка ft (a) = ft («о) + (а—ао)'-^-(а0) + + -|- (а—ао)' Ht («о)(а—а0), где а0 — истинное значение параметра, Нг (а0) — матрица вторых производных ft. Последнее выражение может 270
быть переписано в матричном виде f (а) = f (во) + Р («о) (а—«о) + у G (а—а0), (8.10) где G(afl) ---{H1 (а^ао), Н2(а—а0)> Нп (а—а0)}' — составная матрица п X т. С учетом (8.10) y_f (а) = е—р(а)(а—а0)—1-G (а) (а—ао). (8.11) Матрицу производных также разложим в ряд Тейлора до линейных членов Р (а) = Р (а0) + G (а0). (8.12) Разность а—а0 есть функция наблюдений у2, ..., уп и неизвестного параметра а0, т. е. функция еь ..., вд и а0. Приближенно она может быть аппроксимирована квадра- тичной функцией, т. е. a—a0=Ae-|-q, (8.13) где q = {e' Bi 8, г' В2е,..., г' Вте}', А — матрица т X п, Вг — матрица п X п. В формуле (8.13) отсутствует постоянный член, так как при о2 = О (8Х — е2 - ... = еп = 0 п.н.) а — а0 — 0. Нас в дальней- шем будет интересовать математическое ожидание Е (а — — «о) = Е q. Подставим (8.12) и (8.11) в (8.9), получим (P+G)'(8-P(a-a0)-y G(a-ao)) = O, где Р и G рассчитаны в точке а = а0. Теперь подставим в полученное уравнение выражение (8.13): (Р + G)' (в—РА8— Pq—у GAe —L Gq) = 0. Приравняем к нулю члены при в: Р' — Р'РА = 0, откуда А = (Р'Р)-ХР'. Теперь приравняем к нулю члены второго порядка Р' /—Р' q — у JAej + Г (8—РАв) = 0, (8.14) 271
где J — матрица п X т J={HX Ае, Н2Ае...Нп Ае}. Возьмем математическое ожидание от обеих частей (8.14). Можно показать, что Е [J (е — РАе)] = 0, поэтому P'jPE(q)-|-^d) = O, (8.15) где dt = о2 tr (А' Нг А) = о2trР (Р' Р)-1 Н; (Р' Р)-1 Р'= =<та tr Нг (Р' Р)-1 Р' Р (Р' р)-1 = о2 tr Нг (Р' р)-1. Выражая E(q) из уравнения (8.15), окончательно получаем E(q)=-^(P'P)-1P'd. (8.16) В формуле (8.16) значения матрицы Р и вектора d могут быть приближенно заменены их значениями в точке — оценке МНК. М. Бокс проверял формулу (8.16) методом Монте- Карло. Формула (8.16) давала хорошее приближение к истинному смещению оценки МНК- В качестве иллюстрации формулы (8.16) рассмотрим нелинейную регрессию z/z=]/cc-[-ez, / = п, (8.17) rpfift (сс) = ]Ах, 0 = {сс : а 0}. Оценкой МНК для рег- рессии (8.17) является а = (2 r/z)2. Найдем смещение оценки МНК непосредственно: Ей = 2 Е^ + 2 Е (У‘ У1\ п t п w Но Ez/Z = Е (У а + ez)2 = а + о2, Е(#(У>) = Е(j/сс + 8г) (уЛа+Е;) = а, /#=/. Поэтому Еа = —J—[/г (аа2) + а (п2—«)] =аН—— , п2 п Т- °2 т. е. смещение равно Е а — а = —. 272
Найдем смещение оценки МНК, используя формулу (8.16). Для регрессии (8.17) ±Л_=______LC£-3/2j да 2 Д/а да2 4 поэтому Р'Р = и/А. а и dt = — <т2/|/а п, t= 1, п. Та- ким образом, с 1 Eq — — 2 ‘ 4сс п а2 2п а2 п что совпадает с истинным смещением. Упражнения 8.2. 1. Оцените смещение МНК в регрессии ft (а) = е“\ t = 1, ...; п по формуле (8.16). 2. То же самое сделайте для регрессии ft (а) = е г. 3. Пусть распределены по нормальному закону N (0, о2) и yt ~ + Bf Найдите истинные смещения оценок МНК и срав- ните их со смещениями, полученными по формуле (8.16). 8.3. Проверка статистических гипотез и доверительное оценивание Начнем с проверок статистических гипотез в нелинейной регрессии. Имеется нелинейная регрессия (7.2), относительно ко- торой выполнены стандартные предположения: 0 — ап- риорное множество а компактно, оценка МНК ап (у) един- ственна, ft (а) непрерывны на Е) и т. д. В дополнение предположим, что е1( е2, ..., еп имеют нормальное распре- деление, т. е. е ~ Л; (0, о2 1п). Выдвигается простая статистическая гипотеза До:се = «о* (8-18) где а0 — фиксированная точка в 0. Требуется построить критерий проверки гипотезы (8.18). Необходимо отметить, что поскольку мы не ограничиваемся специальным классом нелинейных регрессий, т. е. ft (а), вообще говоря, могут быть любыми, то оптимальность любого критерия при фик- сированном п установить невозможно. В лучшем случае говорим об асимптотической оптимальности критерия: асимптотическая несмещенность, асимптотически наиболее мощный критерий и т. д. Даже если класс функций регрес- сий известен, например функции, линейные в логарифмах, 10 Зак. 2067 273
исследование критериев для данного п — задача, техни- чески весьма сложная. Простейший путь проверки статистической гипотезы (8.18) состоит в следующем. Аппроксимируем регрессию (7.2) линейной: т АГ I- \ Л(а)^А(а) + У ^(«(—«Д (8.19) Л", где а — оценка МНК- Уравнение (7.2) с учетом (8.19) в мат- ричном виде может быть переписано следующим образом: z = Ра + е, (8.20) где z = у — f (а) Ра — вектор п X 1, Р — матрица про- изводных dft/da-,, вычисленных в точке а. Условия (8.4) и (8.6) гарантируют хорошую замену исходной нелинейной регрессии линеаризованной (8.20) при больших п. Таким образом, первый метод проверки статистических гипотез состоит в том, чтобы вместо исходной нелинейной модели (7.2) рассматривать линеаризованную модель (8.20). Про- верка линейных гипотез для линейной регрессии подробно рассмотрена в параграфе 1.10. Разумеется, подобный метод проверок гипотез является весьма грубым. Он будет тем точнее, чем «линейнее» будет исходная модель. Более точный метод предложил А. Галлант [104, 108]. Он основан на критерии отношения правдоподобия (см. па- раграф 1.9). Отношение правдоподобия для гипотезы (8.18) равно: шах р (у; а0, о2) ----------------= (Т (у))"'’/2, max р (у; а, о2) а, <т2 где плотность равна: п р(у; а, о2)-(2 л о2) 2 ехр Г—(у—f (ос))' (у — f («))]. Статистика критерия 2 (?/t—ft («о))2 Т(у)—--------------- S (yt— ft (а))2 274
Критическим множеством проверки простой гипотезы (8.18) является Ек ::= {у 6 Т (у) > ср}, где ф выбрано так, чтобы Ра„ {Т (у) > ф} = X — вероят- ности совершения ошибки первого рода. Галлантом до- казано, что статистика Т(у) может быть разложена в сумму двух случайных величин Т (у) = х 4- сп, где псп по вероят- ности стремится к нулю при п ->оо, а случайная величина х имеет определенное распределение, которое затабулнровано для некоторых значений ф Галлантом в 1104]. Распреде- ление х весьма сложно, однако с применением ЭВМ оно может быть вычислено для любого <р. Таким образом, ото- ждествляя Т (у) и х, задаваясь некоторым ср, мы можем найти соответствующий уровень значимости X. Расчеты по методу Монте-Карло для регрессии ft (at, а2) = а^2'1 показали, что критерий отношения правдоподобия Галланта приводит к хорошим результатам. В следующей его статье 1108] разбирается случай проверки сложной гипотезы И ; at = а°, i = 1, 2, ..., k < m, где a ~ (ее?, ..., ее*)' g 4 Rk—фиксированный вектор. Применяя тот же метод, Галлант строит аппроксимацию распределения статистики критерия отношения правдоподобия, по которой для задан- ного значения <р может быть вычислено соответствующее значение X. Перейдем теперь к построению доверительных интер- валов и областей для параметров нелинейной регрессии. Простейший способ доверительного оценивания в этом случае — вместо исходной регрессии рассматривать ее ли- нейный аналог (8.20). Матрица ковариаций оценки МНК, вычисленная на основе (8.20), приближенно равна s2 (Р'Р)-1. Стандартной ошибкой параметра at является s, = s (Р'Р)^1, i = l,,,.,m, а 95%-ным доверительным интервалом для будет (at—to,o5$i’, аг-Но,о58г), (8.21) где 10 05 — критическая точка ^-распределения с п — m степенями свободы, т. е. Р{| 11 > Z0>06} = 0,05. Можно про- верять гипотезы о значимости параметров, т. е. Hi : а, = 0. Так, если > %>05, то гипотезу аг = 0 отвергаем. А. Галлант исследовал распределение a,7s,- для рег- рессии + + e^'i* у б, (8.22) 10* 275
методом Монте-Карло [105]. Для данных значений xti, t = 1, 30; i = 1, 2, 3, 4; а = (0; 1;—1;—0,5)'; о2 = = 0,001, были смоделированы gf, распределенные по нор- мальному закону N (0, о2). Затем вычислялись yt, регрессия (8.22) оценивалась модифицированным методом Ньютона — Гаусса и вычислялось значение /г = ai/si, i = 1, 2, 3, 4. Такие эксперименты были проделаны 5 тыс. раз. Для заданных значений с были вычислены эмпирические вероят- ности Р (/ < с) и теоретические, основанные на /-распре- делении. В табл. 8.1 приведены выдержки из табл. 1 [105], где Р (0 «С с) — эмпирические значения вероятностей. Таблица 8.1 С Р (£<с ) Р (Ц<с) Р (GCc) Р Р (?4^) 0,0 0,5000 0,5152 0,4800 0,4974 0,5196 1,315 0,9000 0,9038 0,8914 0,8776 0,9004 1,706 0,9500 0,9552 0,9498 0,9314 0,9486 2,779 0,9950 0,9950 0,9940 0,9852 0,9936 Как видим, расхождения между Р (( <с) и Р < с) весьма малы, что указывает на то, что доверительные ин- тервалы (8.21) для регрессии (8.22), вероятно, будут хо- рошими, и, в частности, Р (аг—/0,05 + + ^о,о5 s0 = 0,95. Однако необходимо отметить следующее: во-первых, регрессия (8.22) является «не очень нелинейной»: три из четырех параметров — линейны, а, во-вторых, в эк- сперименте было взято малое значение о2, при котором расхождение между моделью (8.22) и ее линейным ана- логом будет невелико. Можно предложить другую формулу для вычисления ковариационной матрицы оценки МНК в нелинейной ре- грессии. В линейной регрессии 2 Х'Х=~ , поэтому cov (а)— о2 (X'X) 1 = о2— . —— v v ’ \2 да? ) Эту же формулу используем в нелинейной регрессии, но теперь е'н*(а)’ (8-23) Г=1 276
где Hf (а) — матрица вторых производных /Да), вычислен- ная в точке а. Стандартной ошибкой параметра п, является t — 1,..., т. Аналогично (8.21) могут быть построены доверительные интервалы. Как видно из формулы (8.23), матрица ковариа- ций, построенная на основе гессиана суммы квадратов отклонений, учитывает нелинейность регрессии, которая от- ражается во вторых про- изводных (а). Если а принадлежит внут- ренности априорного множества 0, то 52Q (а)/дсс2 по крайней мере будет неотрицательно определена (в против- ном случае в окрест- ности V (а) нашлась бы точка а, в которой Q(a)<Q(a)). Чем остро- вершинней будет поверх- ность Q (а) в окрестно- сти точки а, тем меньше Рис. 8.1. Пример суммы квадратов от- клонений, имеющей овражный харак- тер будут дисперсии оценки МНК; чем поверхность Q (а) будет положе, тем дисперсии а, будут болыпе.Чем ближе d2Q(a)/da2 к вырожденной мат- рице, тем сложнее «отделить» один параметр от другого. Так, на рис. 8.1 линии уровня S вытянуты в одном направ- лении и сжаты в другом, поэтому матрица t?2Q/'<5tz2 близка к вырожденной. Перейдем к построению одновременных доверительных областей. Как и прежде, предполагаем, что ef распределены по нормальному закону. Ранее показано, что критерий отношения правдоподобия проверки простой гипотезы (8.18) приводит к множеству принятия гипотезы = {у £ Rn : Q (а', У) < TQ (а; у)}, ср > 1, или Ен = {у 6 Rn : Q (а; у) — Q (а, у) < q>'Q(a, £/)}, ср' > 0. (8.24) 277
В параграфе 1.9 установлена связь между проверкой простой гипотезы и доверительным оцениванием. В част- ности, если имеется критерий проверки гипотезы, то по нему может быть построен метод доверительного оценива- ния. Используя (8.24), найдем соответствующеедоверитель- ное множество D (у) = {а £ Rm : Q (а; у) — Q (а, у) < ср' Q (а; у)}. (8.25) Значение ср' должно быть выбрано таким образом, чтобы {Р [£> (у) накрывает истинное значение параметра а0}>1— к (8.26) В линейной регрессии множеству (8.25) соответствует множество (1.75), так как Q (а; у) — Q (а; у) = (а — а)'Х'Х (а — а). В случае линейной регрессии <р' = —F% (т, п—т), (8.27) п — т где F (т, п — т) обозначает /-распределение с т и п — т степенями свободы, a F^ (т, п — in) — такая точка, что Р (/ > F%(m, п — т)) = к Значение ср' (8.27) может быть выбрано различными мето- дами и для нелинейной регрессии. Первый метод выбора ср' совпадает с методом выбора в линейной регрессии. Оче- видно, в этом случае у нас нет уверенности, что неравен- ство (8.26) будет выполнено, можно лишь надеяться, что оно выполняется с достаточной точностью. Второй метод выбора ср' = 1—ср основан на рассмот- ренной работе А. Галланта [104]. Третий метод нахождения ср' предложен Е. Билом [83]: ср' выбирается как в линейной регрессии (8.27), но с учетом поправки на нелинейность. Рассмотрим этот метод более подробно. Коэффициент нелинейности регрессии yt = ft («) + t = 1 , ... , п, (8.28) который обозначим Na, определяется следующим образом. Пусть а — оценка МНК; выберем в окрестности a k произ- вольных точек а1( а2, ..., а&, которым на образе F = f (а), а £ © соответствуют точки f (at), f (а2), ..., f (ай). После линеаризации регрессия (8.28) превращается в регрессию (8.20), которая соответствует касательному линейному многообразию размерности п — т: I (а) = / (а) 4 Р (а — а), а £ 0, I (а) £ Rn. (8.29) 278
Тогда сумма квадратов расстояний в точках а]5 а;! будет характеризовать отклонение нелинейной регрессии (8.28) от ее линейного приближения (8.29): £ |Ц(аг)-1(аг)||2. (8.30) Сумма (8.30) зависит, во-первых, от числа выбранных то- чек k, во-вторых, от расстояния точек f (а;) от f (а). Для нормировки суммы (8.30) введем величину 2 Ilf (а,) — f (а)]|4. Окончательно коэффициентом нелинейности регрессии (8.28) по Билу называется число k 2 1Н(аг)-1(аг)||2 = ----------------------’ (8-31) 2 П f (аг) —f (а) И* г = 1 где s2 — оценка параметра о2, рассчитанная по формуле £2 2(у;^Л(а)у- п—т Коэффициент Na отражает нелинейность регрессии отно- сительно параметра а. Теперь рассмотрим другой коэффициент, выступающий показателем внутренней нелинейности регрессии (8.28) и от- ражающий степень нелинейности образа F. При взаимно- однозначных отображениях © на себя, т. е. ф: ©_>.©, образ F = f (©) остается неизменным, тогда как величина (8.31) меняется. В качестве показателя нелинейности F Бил называет минимальное значение Na при всех преоб- разованиях параметрического множества © (репарамет- ризация а) при условии, что точки f (аД ..., f (aft) остаются неизменными: Nt = min Na- Очевидно, для нахождения Л/f необходимо из точек f (а;) опустить перпендикуляр на про- странство (8.29), сумма этих перпендикуляров составит числитель Nt". 2II е; II2 A/'f = ms2-----------------, 2lU(a;)-f (а) |Р t 279
где е; — перпендикуляр, опущенный из точки f (а;) на линейное многообразие (8.29). Практически ||ег||2 может быть вычислен как сумма квадратов отклонений в регрессии f (аг) = f (а) Ц-Р (а — аг) + |. Е. Билом была установлена тесная взаимосвязь коэффициента Nt с вероятностью мно- жества {а0 £ D (у)}. В [83] предлагаются следующие окон- чательные рекомендации: в случае т = 1 ср' брать равным f=fl+-!LjVfV; \ п — 1 / в случае т > 1 ср" = (1 + п Nt 1 ср', (8.32) \ (п— т) т ! ср' вычисляется по формуле (8.27). Бил утверждает, что с большой степенью приближения Р {Q («0; у) — Q («; у) < ф"<2 (а; у)} > 1 — Построение доверительных областей (8.25) технически может оказаться весьма сложным. Дело может осложниться тем, что область D (у) будет несвязной. Для облегчения построения области D можно предложить следующий спо- соб. Разложим функцию Q (а) в точке а = а в ряд Тей- лора до членов второго порядка: Q («; у)—Q (а; у) « (а — а)' + Н---(а — а) — (а — а). 2 V ' да? ' ’ Но если а является внутренней точкой 0, то dQ (а)/да = О, поэтому вместо (8.25) можно найти его приближение 7У(у) = 1а6Я«:(а-а)'[-^^|Щ X [ [2 J X (а—a)s^ ср' Q (a; y)j, (8.33) где 1 /2 d2Q (а)/да2 рассчитывается по формуле (8.23). Об" ласта D' представляет собой эллипсоид в пространстве Rm. Строить эллипсоид D' не обязательно, достаточно опреде- лить положение его осей и их длины. Направление осей эллипсоида D' совпадает с характеристическими векторами матрицы 1/2 d2Q (а)/да2. Длина t-й полуоси эллипсоида D' равна |/(p'Q(a; у)Л,-, где Хг — характеристическое число матрицы 1/2 d2Q (a)/da2. 280
В некоторых случаях нелинейная регрессия после ре- параметризации превращается в линейную. Нелинейная регрессия (7.2) репараметризуема, если ее функция регрес- сии представима в виде ft («)=£1(«) Л1+22 («) М + -+27П («) ftm, t = где fa — константы, причем матрица, составленная из этих чисел, имеет ранг m; gi (а) — непрерывные взаимно- однозначные функции, отображающие К"! на Rm. Исход- ная нелинейная регрессия может быть репараметризована следующим образом: Ut Pl/il 4“ fizftz 4“ Ч- Ч- где |3; = gi (а) — новые параметры. Ясно, что оценка МНК нелинейной регрессии (7.2) равна а = g-1 (b), где b — оценка МНК соответствующей линейной регрессии, g-1— отображение, обратное к g = (g^, ...,gm). X. Хартли [122] справедливо замечает, что если D — доверительное мно- жество с коэффициентом доверия 1 — X для параметров рь ..., |Зт, то доверительное множество g-1 (D) для парамет- ров исходной регрессии аъ а2, ..., ат имеет тот же коэффи- циент доверия. Коротко остановимся на вопросе оценивания нелинейной регрессии в случае, когда ковариационная матрица откло- нений имеет общий вид и известна с точностью до постоян- ного множителя. Допустим, в регрессии (7.2) cov (е) = = о20, где о2 > 0 — неизвестный параметр, ай — извест- ная весовая матрица п X п, | О | ф 0. Так же, как в случае линейной регрессии, обобщенная оценка МНК минимизирует взвешенную сумму квадратов отклонений Q (а) = = (у — f (а))' й-1 (у — f (а)). Пусть Т — такая невырож- денная матрица п X п, что Т'Т = 42, тогда исходная регрессия преобразуется в новую нелинейную регрессию, у которой ковариационная матрица отклонений пропорцио- нальна единичной. Действительно, положим v = Т-1 у, ф (а) = ТД (а), тогда в нелинейной регрессии v = ф (а) + ф 1 cov (|) = о21. Таким образом, случай cov (е) = = о2й с известной О практически не отличается от обыч- ного предположения cov (е) = о21. В литературе рассмотрен также случай, когда ef имеют стационарное распределение. Тогда О имеет простую струк- туру и возможно ее оценивание. В простейшем случае отклонения имеют автокорреляцию первого порядка: 281
et = ре,-! + г]г. При некоторых условиях регулярности обобщенная оценка МНК также будет состоятельной и асим- птотически-нормальной (более подробно см. [120, 178, 106]). 8.4. Псевдонезависимые нелинейные регрессии Системой псевдонезависимых нелинейных регрессий на- зывается совокупность нелинейных регрессий уг = 1‘ (а) + st, i = 1, ..., k, (8.34) где у; — вектор зависимой переменной /г х 1; F (а) — векторная функция, отображающая Rm в Rn; а £ Rm — общий вектор неизвестных параметров; е; — случайный вектор отклонений п X 1. Употребление термина «псевдонезависимые» объяс- няется следующими предположениями, накладываемыми на систему (8.34): а) Е stist} = о2®г/> Ееггег, = 0 (т =#= i), где Е 8г = 0. Другими словами, если через ег обозначить вектор откло- нений, i-я координата которого соответствует i-му урав- нению i-ro наблюдения, то cov (ef) = о2 ft, |й| 0; б) неизвестный вектор параметров является общим для всех уравнений системы (8.34). При рассмотрении линейных псевдонезависимых регрессий предполагалось, что вектора дизъюнктивен (множества неизвестных параметров разных уравнений не пересекались друг с другом). Система (8.34) легко может быть сведена к одной не- линейной регрессии. Действительно, обозначим — векторы порядка nk X 1. Тогда (8.34) перепишется сле- дующим образом: у — f (а) -[- е, где, как легко показать, cov (е) = о2' (й ® 1ГО) (см. параграф 2.5). Обозначим далее у‘ — вектор-столбец, i-я координата которого соответствует i-му уравнению системы (8.34), которая в свою очередь отвечает i-му наблюдению. Аналогично введем вектор-функ- цию f, (а) и е*. Тогда (8.34) перепишется следующим обра- зом: у, = Е (а) + st, t = 1, 2, ..., п, причем cov (в() = = о2 й. При известной матрице Й взвешенный МНК 282
(см. параграф 2.1) приводит нас к минимизации следующе- го выражения: <?(«) = £ (У;-f' (аП'П-1^-f' («))• (8.35) /=i Пусть Т — такая невырожденная матрица k X k, что ft = ТТ' (см. параграф 2.5). Тогда, обозначая vz=T-1yt; ф7 («) = Т*1 В («); = t = приходим к регрессии v = <р (а) + Z, (8.36) где v—вектор-столбец nk X 1, составленный из vf; ф (а) — вектор-функция, отображающая Rm в Rn&, составленная из ф/ (а); £— вектор порядка nk X 1, со- ставленный аналогично V. Важно отметить, что cov (|) = = о21пь, и поэтому все методы, разработанные в гл. 7 и 8, применимы к регрессии (8.36). В частности, нетрудно по- казать, что если для каждого уравнения (8.34) имеют место условия теорем 8.1, 8.2 и 8.3, то оценка взвешенного МНК, минимизирующая (8.35) или сумму квадратов отклонений регрессии (8.36), будет непрерывной, состоятельной, асимп- тотически-нормальной. До сих пор речь шла о ситуации, когда Я известна. Этот случай имеет скорее теоретическую ценность, чем практи- ческую. Допустим, Я — неизвестная матрица. В этом случае возможны два пути. Первый — оценить матрицу Я на ос- нове (8.34) и использовать ее при минимизации (8.35). Полученную оценку будем называть оценкой Зеллнера х. Процесс можно продолжить: на основе оценки Зеллнера оценить матрицу Я, найти новую оценку и т. д. Такие оценки так же, как и в линейной регрессии, будем называть итеративными оценками Зеллнера. Если число итераций оценивания Я равно 1, итеративная оценка превращается в оценку Зеллнера. В условиях теоремы 8.2 можно доказать состоятельность итеративной оценки Зеллнера. Наклады- вая на регрессию (8.34) условия, аналогичные условиям теоремы 8.3, можно показать, что итеративные оценки Зеллнера асимптотически нормальны [48, с. 1061. х Иногда эту оценку называют оценкой по минимальному рас- стоянию [48]. 283
Перейдем ко второму пути оценивания системы (8.34,) Предположим, что &t нормально распределены. Тогда, минимизируя функцию плотности вектора у, найдем оцен- ку метода максимального правдоподобия. Можно исполь- зовать эту оценку, даже если отклонения распределены не нормально. Такие оценки называются оценками метода квазимаксимального правдоподобия (МКМП). В [172] до- казано, что в условиях регулярности типа (8.4) оценка МКМП является состоятельной оценкой а. Филлипс также показывает, что при некоторых условиях итеративная оценка Зеллнера для больших п устойчива (т. е. сходится) и ее предел равен оценке МКМП. Барнетт [80] также уста- навливает сходимость оценки МКМП, ее асимптотическую нормальность и эффективность. 8.5. Доказательства 1. Доказательство теоремы 8.2. Рассмот- рим следующую последовательность случайных величин: — Qn («; У) = ~ 2 (Уt ~ft («))г = п п t =—2 tft (а<>) ft (a)i ~ 2е* + + —2tf‘(«o)-M«)]2. (8.37) « t Существование предела (8.4) ведет к тому, что первое сла- гаемое правой части выражения (8.37) по закону больших чисел стремится к нулю с вероятностью, равной 1. В силу независимости и одинаковой распределенности ех, е2, ... предел второго слагаемого (8.37) равен о2. Таким образом, lim — Qn (а; у) = а2 + <р (а, а0) (8.38) Л->оо П с вероятностью 1. В силу компактности 0 для каждой последовательности наблюдений у2, ... существует предельная точка после- довательности оценок МНК аПо (у), а^ (у), ..., которую обозначим а*. По определению оценки МНК —Qn (а„ (У); У) — Qn (а0; у). (8.39) п п 284
Воспользуемся следующим результатом Уилкса [63, с. 1161. Пусть Х„ (с) — случайная величина, зависящая от параметра с. Предположим, что равномерно по с Xn (с) ->g (с) по вероятности при п -э-оо, где g (с) — непрерывная функция. Тогда, если plim Yn .= с0, то plim Хп Уп) ~ S (со)- Так как сходимость (8.4) равномерна по а при фикси- рованном а0 (таковой является и сходимость (8.38)), нера- венство-^.39), как следует из предыдущего, будет верно и для предельной точки а*: lim — Qn (а*; у) С lim — Qn (а0; у), П—>оо rt П—>оо rt или с учетом (8.38) о2 + <р (а*, а0) о2, откуда tp (а*, а0) гС 0, что влечета0 = а*. 2. Доказательство теоремы 8.3 имеет много общего с доказательством асимптотической нормаль- ности оценки максимального правдоподобия [63, с. 369— 371]. Поскольку а„ (у) — внутренняя точка 0 п. н., то, раз- лагая в этой точке градиент суммы квадратов отклонений в ряд до линейных членов, получим dQn («о; у) _ dQn (ап (у); у) . , / чч^(<2>г(Уп (у); У) да да ~ Л ° п{У да2 (8.40) где а0 — истинное значение параметра; уп (у) — случай- ная величина, удовлетворяющая неравенству 1|а„ (у) —Yn(y)IKHMy) —М- (8.41) В силу того что а,г (у) — внутренняя точка, минимизи- рующая Qn (а; у), градиент Qn в этой точке равен нулю, т. е. первое слагаемое в правой части (8.40) равно нулю. Пе- репишем (8.40) следующим образом: 1 д<2п («о; у) _ ")/ч да . (8.42) п да2 285
Легко показать, что случайный вектор 1 dQn («0; у) _ 2 -у g dft (а0) Уп ’ да Д/n Т ' да имеет предельное распределение N (0,4 о2 А (а0)). Далее, I . &<1п (?„, (у); у) = п да? _ 2 У РЬ (Чп (У)) ] ^(Уп(У)) 1' 2Х п t L да J [ да ] . X — 2 (Yn (У)) . (8.43) П W Воспользуемся опять результатом Уилкса [63, с. 116]. Из неравенства (8.41) следует, что plim у„ (у) = а0. По- этому в силу (8.7) и вышеизложенного результата первое слагаемое правой части выражения (8.43) сходится по ве- роятности к 2 А (а0). Аналогично, используя (8.6), можно показать, что второе слагаемое (8.43) сходится по вероят- ности к нулю. Далее пользуемся следующим хорошо из- вестным фактом (см., например, [58, с. 1181). Если — случайный вектор т X 1, Ап — случайная матрица т X т и векторы Ап|п имеют предельное распределение F, plim Ап = А —детерминированная матрица, | А | 0, то вектор У имеет асимптотическое предельное распределение, совпадающее с распределением вектора A-Lq, где вектор т] имеет распределение F. Поэтому предельным распределением вектора У~п (а0— а„ (у)) будет А/(0, о2А-1 (а0)) — теорема доказана.
Приложение. Некоторые дополнительные формулы П.1. Разбиение матрицы на блоки. Формула Фробениуса. Пусть А,В—прямоугольные матрицы одинакового порядка тх«. Разобь- ем их одинаковым же образом на подматрицы д_'А11 А12 В=[В11 В12 А21 А 22 . L В2х В22 . так что матрицы Ац и Ви имеют порядок mLX«i, матрицы Ai2 и В12 — m1X«2I матрицы А21 и B2i — т2хп1 и матрицы А22 и В22 — — т2Хп% (/ПхЦ- т2 = т; «х Ц- п2 = п). Существуют простые фор- мулы для блочного сложения и умножения матриц: , „ ГАц+Вц Ацг + Вхг! ”j ® ~ I I > [А21-|-В21 А22 + В22] , „ [Ац Вп-[-А12 В21 Ац В12-|-А12 В221 АВ = , (1*.1) ,А2х В|х | -А22 Вц А21 Вх2“[-А22 b22j При умножении блочных матриц можно руководствоваться прави- лом «строка па столбец». Приведем формулы блочного обращения матрицы. Для просто- ты будем рассматривать только симметричные матрицы. Итак, пусть А — симметричная матрица, разбитая на блоки: Г Ац А12 i_a;2 а22 Тогда А_1 = ГА- А12-1-1 rA.V+FE-F' — FE-11 1а; 2 А22] L-E-1F' Е-1.1’ ’ где Е = А22 — А,', АГг’Ахг’, F = Доказательство этого не- сложно, оно следует непосредственно из определения обратной мат- рицы. Далее, существует формула для вычисления определителя блоч- ной матрицы: I А | — [ 1 —[ Ац | | А22 — A2i А, ,* А121. (П.З) 1_Ах2 a22j Доказательство можно найти В [58, с. 44]. Нам понадобится следующая формула: (А + BDB')-1 = А-1 — А1 В (В'А-1В + D1)1 В А1 (П.4) где А и D — невырожденные матрицы тхт и пхп соответственно, В—прямоугольная матрица тх«- П.2. Матричное дифференцирование. Пусть А — прямоуголь- ная матрица порядка тхп, элементы которой являются функциями некоторой действительной переменной t, т. е. ац = а-ц (/), I = 1,..., tn, j = 1, .... п. По определению полагаем dA Г da-ц dt [ dt 287
Легко показать, что если В*х"! не зависит от t, а С,гхт = С (/), то верны следующие формулгы: ; ^л>_ус_ м_. dt dt dt dt dt Пусть f = f (tlr t2, ..., tm) — функция т аргументов (дифферен- цируемая). Производной этой функции является вектор-столбец /пх 1 3/ Г df 1т dt L dtt J' = i Легко доказываются следующие формулы; где х — постоянный вектор-столбец т X 1; А — симметричная матрица т X т. Теперь предположим, что f есть векторная функция или отобра- жение, т. е. f; тогда dt/di— прямоугольная матрица nX т, (i, j)-a элемент которой по определению равен dfe/dty, i = 1, ..., п, j = 1, ..., т. В частности, если А — постоянная матрица АХ п и у = у (х), ynxl, xmxl, то дАу ду дх дх Можно рассматривать дифференцирование по матрице. Пусть А — матрица т X п н f f (К) — действительная функция матри- цы. По определению df/d\ есть матрица того же порядка, т. е. т X п и (П.7) Of__Г о/ ОА ЗА,-; Легко проверить, например, что дх' Ау ~^Г=ху ’ i — 1,..., т, j = 1 ., п. (П.8) (П-9) де xmxl, ynxl. Если S — матрица nt X т с положительным определителем, то нетрудно убедиться в том, чт> д1п |s I , ^~-,s >-• ‘,-1...........” П. 3. Выпуклые функции и оптимизация. Допустим, / = = f (х) = f (xlt .... хт) есть дифференцируемая функция на Rm. Нас интересует глобальный минимум этой функции. Хорошо извест- но необходимое условие минимума функции; если х* — минимум (может быть и локальный) функции f, то (П.10) 288
Строго выпуклой вниз функцией называется функция, для которой при любых 0 < а < У: / (ахх+(1 —а) х2) < af (хх) + (1—а)/(х2) для всех Xi^=x2 С Rm- Класс строго выпуклых вниз функций важен тем, что любой локальный минимум является и глобальным. Если / — дважды дифференцируемая функция, то выпуклость вниз сле- дует из положительной определенности матрицы вторых производ- ных (гессиан функции) Исследование выпуклости функции мож- но свести к исследованию выпуклости функции одной переменной. Пусть хх, х2 Е Rm — любые, определим новую функцию одной пе- ременной F(a) = /(xx + ax2). Функция f является строго выпуклой вниз функцией тогда и только тогда, когда F — строго выпуклая вниз функция. П.4. Характеристические числа и векторы. Для симметричных неотрицательно определенных матриц часто максимальное х. ч. обозначаем ктах, минимальное — ^min- В книге неоднократно ис- пользуется следующий факт. Пусть А — симметричная матрица т X т, В — прямоугольная матрица т х п, тогда' ^тпах (В АВ) kmax (А) ктах (В В); (П.11) ^mln (8х АВ) > >.т1п (А) >.т1п (В' В). (П. 12) Докажем сначала (П.11). Пусть v Е R'r\ l|v|l = 1, тогда v' В' ABv = (Bv)' A(Bv)<kmax(A)||Bv||2 = =^'max (А) v В Bv kmax (A)-Xmax (В В), откуда и следует (П.11). Аналогично доказывается (П.12): v' В' ABv = (Bv)' A (Bv) > >.mln (А) || Bv |р = = ^mln (A) v' В' Bv > kmin(A) (В' В). П.5. Случайные квадратичные формы. Пусть d — случайный вектор, А — детерминированная симметричная матрица. Рассмот- рим случайную квадратичную форму d'Ad. Предположим, cov(d) = = o2I, Ed = 0 (1 — единичная матрица), тогда Ed'Ad = o2tr (А). (ПЛЗ) Действительно, Ed' Ad = E 2 dj A/j = S (Edj dj) =o2tr (A). G / i, 1 i Допустим, случайный вектор d имеет многомерное нормальное распределение с нулевым математическим ожиданием; компоненты вектора считаем некоррелируемыми, имеющими единичную диспер- сию. Коротко это может быть записано как d ~ N (0, 1). Тогда квадратичная форма d'Ad имеет ^-распределение с k степенями сво- боды тогда и только тогда, когда А — идемпотентная матрица (А2 = = А) и rank А = tr А = k: d'Ad ~ %2 (k) <=> А — идемпотентная матрица, rank А — — tr А = k. (П. 14) 289
Далее, пусть В —детерминированная матрица и d ~ N (pi, о31). Тогда ВЛ = 0 => Bd и Ad'd независимы. (П.15) Пусть по-прежнему d ~ N (О, I), тогда две квадратичные формы d'Ad и d'Cd независимы тогда и только тогда, когда АС = 0: d'Ad и d'Cd независимы <=> АС = 0. (П. 16) Доказательство (П.13) — (П.16) можно найти в [115]. П.6. Неравенства, связывающие элементы положительно опре- деленной матрицы с ее максимальным характеристическим числом. Для любой положительно определенной матрицы D имеют место сле- дующие неравенства: max Dij |} ^тах (О) <7 | Dij |. (П.17) «, i i , J Пусть z — вектор единичной длины. Тогда z Dz = Zj Zj Dtj <7 | Z; Zj Da | <7 | Da |, i. / i, j I. i поскольку z'z = l влечет ] ?; I С 1 Для всех i. Таким образом, правая часть неравенства (П. 17) доказана. Для доказательства левой части неравенства (П.17) представим D в виде произведения Т'Т, где Т — невырожденная матрица. При- меняя неравенство Коши, получим <7 VО;/ • Djj или |DZ-7| <7 max {Du, Djj}. Далее легко видеть, что i.max (D) > Da. С уче- том этого неравенства получаем Zmax (D) > тах{| Иц |). 290
Список использованной литературы 1. А й в а з я и С. А. Статистическое исследование зависи мостей. М., Металлургия, 1968. 2. Айвазян С. А., Богдановский И. М. Методы статистического исследования парных зависимостей в схемах кон- флюентного анализа и их применения. — Заводская лаборатория, 1974, т. 40, № 3. 3. Айвазян С. А., Розанов Ю. А. Некоторые замеча- ния к асимптотически эффективным линейным оценкам коэффициен- тов регрессии. — Труды математического института им. В. А. Стек- лова. М., Наука, 1964, т. 71. 4. Алберт А. Регрессия, псевдорегрессия и рекуррентное оценивание. М., Наука, 1977. 5. Андерсон Т. Введение в многомерный статистический анализ. М., Физматгиз, 1963. 6. А и д е р с о н Т. Статистический анализ временных рядов. М., Мир, 1976. 7. А р а м а н о в и ч И. Г. и др. Математический анализ. Дифференцирование и интегрирование. М.,Гос. изд-во физ.-мат. лит., 1961. 8. Б а р д Я- Нелинейное оценивание параметров. М., Статис- тика, 1979. 9. Веллман Р. Введение в теорию матриц. М., Наука, 1969. 10. Бородкин Ф. М. Статистическая оценка связей эко- номических показателей, М., Статистика, 1968. 11. Б р а и дт 3. Статистические методы анализа наблюдений. М., Мир, 1975. 12. Браун М. Теория и измерение технического прогресса М., Статистика, 1971. 13. В а п н и к В. Н. Восстановление зависимостей по эмпири- ческим данным. М., Наука, 1979. 14. В а р ы г и н В. Н., Казарян С. А., Рафаелян Р. С. Выбор начального вектора при адаптивных методах построе- ния моделей, нелинейных по параметрам.— Автоматика и телеме- ханика, 1978, № 3. 15. В а с и л ь е в Ф. П. Лекции по методам решения экстре- мальных задач. М., изд-во МГУ, 1974. 16. В е н е ц к и й И. Г., В е н е ц к а я В. И. Основные ма- тематико-статистические понятия и формулы в экономическом ана- лизе. М., Статистика, 1980. 17. Г а в у р и н М. К-> Ф а р ф о р о в с к а я Ю. Б. Об од- ном итеративном методе разыскания суммы квадратов отклонений. — Журнал вычислительной математики и мат. физики, 1966, т. 6, № 6. 291
18. Гнеденко Б. В. Курс теории вероятностей. М., Физ- матгиз, 1961. 19. Головач В. А.; Ер и на А. М., Трофимов В. П. Критерии математической статистики в экономических исследова- ниях. М., Статистика, 1973. 20. Демиденко Е. 3. Регрессионный анализ в случае сто- хастической матрицы независимых переменных.— В кн.: Матема- тические методы в экономике и международных отношениях. М., изд. ИМЭМО АН СССР, 1974. вып. 3. 21. Демиденко Е. 3. О некоторых вопросах применения регрессионного анализа к временным экономическим рядам. — В кн.: Математические методы в экономике и международных отно- шениях. М., изд. ИМЭМО АН СССР, 1974, вып. 3. 22. Д е м и д е н к о Е. 3. Нелинейная регрессия.— В кн.: Математические методы решения экономических задач. М., Наука, 1977. 23. Демиденко Е. 3. Псевдонезависимые регрессии и их оценивание.— В кн.: Малоразмерные модели экономического рос- та. М.; изд. ИМЭМО АН СССР, 1978. 24. Д е м й д е н к о Е. 3. Идентификация линейных экономет- рических моделей.— Экономика и математические методы, 1978, т. 14 вып. 6. 25. Демиденко Е. 3. Линейная и нелинейная регрессия. Фортран IV. М., изд. ИМЭМО АН СССР, 1979. 26. Джонстон Дж. Эконометрические методы. М.; Ста- тистика, 1980. 27. Д е м и д о в и ч Б. П., М а р о и И. А. Основы вычисли- тельной математики. М., Наука, 1970. 28. Дрейпер Н.; Смит Г. Прикладной регрессионный анализ. М., Статистика, 1973. 29. Д р у ж и н и н Н. К- Математическая статистика в эко- номике. М., Статистика, 1971. 30. Дружинин Н. К. Логика оценки статистических ги- потез. М., Статистика, 1973. 31. Е п и ш и н Ю. Г. Об оценках параметров регрессии по методу наименьших абсолютных отклонений.— Экономика и мате- матические методы, 1974, т. 10, вып. 5. 32. Е р ш о в А. А. Стабильные методы оценки параметров (обзор). —• Автоматика и телемеханика, 1978, № 8. 33, 3 а к с Ш. Теория статистических выводов. М.; Мир, 1975. 34. И в а н о в А. В. Состоятельность оценок нелинейной регрессии.•— Теория вероятностей и математическая статистика. Киев, 1972, вып. 6. 35. И в а н о в А. В. Асимптотическое поведение оценок НК в случае нелинейной регрессии. •— Теория вероятностей и математи- ческая статистика. Киев, 1972, вып. 7. 36. Иванов А. В. Асимптотическое разложение для распре- деления оценки наименьших квадратов параметра нелинейной рег- рессии. — Теория вероятностей и ее применения, 1976, т. 21, № 3. 292
37. Кендэлл М. Дж. Стьюарт А. Статистические вы- воды и связи. М., Наука, 1973. 38. К о л ем а ев В. А. Регрессионный анализ в случае схе- мы с двумя дисперсиями.— Экономика и математические методы, 1971, т. 7, вып. 1. 39. КолмогоровА. Н., Фомин С. В. Элементы теории функций и функционального анализа. М., Наука, 1972. 40. К о л м о г о р о в А. Н. Несмещенные оценки.— Изв. АН СССР. Сер. мат., 1950, № 4. 41. К о ш е е в В. А. Метод учета априорной информации в ли- нейном оценивании параметров. М., Наука, 1978. 42. К р а м е р Г. Математические методы статистики, М., Наука, 1975. 43. К р а с т и н ь О. П. Методы анализа регрессий и корреля- ций при определении агроэкономических функций. Рига, 1970. 44. К у з н е ц о в С. Е. Статистический анализ моделей дина- мики поведения планируемых экономических показателей.— В кн.: Прикладной многомерный статистический анализ. М., Наука, 1978. 45. Л е м а н Э. Проверка статистических гипотез. М., Наука, 1979. 46. Лизер. С. Эконометрические методы и задачи. М_, Ста- тистика, 1971. 47. Линник Ю. В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений. М., Фпз- матгиз, 1962. 48. Маленво Э. Статистические методы эконометрии. М., Статистика, 1975, вып. 1; 1976, вып. 2. 49. М е к л е р С. Г.; Павлов Н. В. Метод максимальной окрестности для оценки параметров нелинейной функции по спосо- бу наименьших квадратов.— Экономика и математические методы, 1974, т. 10, вып. 1. 50, Мироновский Л. А.; Ю д о в и ч В. С. Об одном подходе к идентификации линейных стационарных объектов.— Ав- томатика и телемеханика, 1972, № 1. 51. М у д р о в В. И., К у ш к о В. Л. Методы обработки изме- рений. М., Сов. радио, 1976. 52. Орлов А. И. Предельное распределение одной оценки базисных функций в регрессии.— В кн.: Прикладной многомерный статистический анализ. М., Наука, 1978. 53. О с т р о в с к и й А. М. Решение уравнений и систем уравнений. М., ИЛ. 1963. 54. Перегудов В. Н. Метод наименьших квадратов и его применение в исследованиях. М., Статистика, 1965. 55. Полак Э. Численные методы оптимизации. М.; Мир, 1974. 56. Поляк Б. Т.; Цыпкин Я. 3. Помехоустойчивая идентификация.— Труды IV симпозиума ИФАК «Идентификация и оценка параметров систем». Тбилиси, 1976, ч. 1. 57. Пшеничный Б. Н., Данилин Ю. М. Численные методы в экстремальных задачах. М.; Наука, 1975. 293
58. Рао С. Р. Линейные статистические методы и их примере ния. М.; Наука, 1968. 59. Романовский В. И. Математическая статистика. Ташкент, 1963, кн. 2. 60. СирлС., Гоем а пУ. Матричная алгебра в экономике, М., Статистика, 1974. 61. Тей л Г. Экономические прогнозы и принятие решений. М., Статистика, 1971. 62. С м о л я к С. А., Т и т а р е и к о Б. П. Устойчивые мето- ды оценивания. М., Статистика, 1980. 63. У и л к с С. Математическая статистика. М., Наука, 1967. 64. Хенна п Э. Многомерные временные ряды. М., Мир, 1974. 65. X о л е в о А. С. Об оценках коэффициентов регрессии.— Теория вероятностей и ее применения, 1969, т. 14, № 1. 66. X о л е в о А. С. Об асимптотической нормальности оценок коэффициентов регрессии.— Теория вероятностей и ее применения, 1971, т. 16, № 4. 67. Худсон Д. Статистика для физиков, М., Мир, 1970.. 68. Форсайт Дж., Молер К. Численное решение систем линейных алгебраических уравнений. М., Мир., 1969. 69. Ч ет ы р к и н Е. М. Статистические методы прогнозиро- вания. М., Статистика, 1977. 70. A d 1 с h i е J. N. Estimation of regression parameters based on rank tests.— AMS, 1967, v. 38, № 4. 71. Aitken A. C. On least squares and linear combination of observation.— Proc, of the Royal Society, 1936, v. 55, № 1. 72. Anderson T. W. Estimation of linear functional relations- hips: approximate destribiitions and connections with simultaneous equations in econometrics.— JRSS, ser. B, 1977, v. 38, № 1. 73. Andrews D. F. A robust method for multiple linear regres- sion. — Technometrics, 1974, v. 16, №4. 74. Andrews D. F. et al. Robust estimates of location. Prin- ceton U. P., 1972. 75. A n s с о in b e F. I. Examination of resudals.— Proc. 4-th Berkley Symp. Math. Stat. Prob., 196.1, v. 1, California Press. 76. Anscombe F. I,, Tukey I. W. Analysis of resu- dals. — Technometrics, 1963, v. 5, № 1. 77. Arm st r ong R. D.; Fro me E. L. A comparison of two algorithm for absolute deviation curve fitting.—JASA, 1976, v. 71, № 354. 78. В a г d Y. Comparison on gradient methods for the solution of nonlinear parameter estimation problems.—SIAM Journal on Numerical Anal., 1970, v. 7, № 1. 79. В ar ham R. H.; Drane W. Ati algorithm for least squares estimation of nonlinear parameters when some of the parame- ters are linear.— Technometrics, 1972, v. 14, № 3. 80. В a г л e t t W. A. Maximum likelhood and iterated Aitken estimation of nonlinear systems of equations. — JASA, 1976, v. 71,- № 354. 294
81, Bartlett M. S. The fitting of straight lines if both va- riables are subject to error.— Biometrics, 1949, v. 5, № 2. 82. Beach С. M., MacKinnon J. Cl. A maximum likelhood procedure for regression with autocorrelated errors.— Econo- metrica, 1978, v. 46, № 1. 83. Beale E. M. L. Confidence regions in nonlinear estima' tion.— JRSS, ser. B., 1960, v. 22, № 1. 84. В e a t о n A. E.; R u b i n D. В.; В а г о n e J. L. The acceptability of regression solutions: another look at computa- tional accuracy. — JASA, 1976, v. 71, № 353. 85. В h a t t a c h а г у a P. K- Some properties of the least squares estimator in regression analysis when the predictor variables are stochastic.— AMS, 1963, v. 34, № 4, 86. Bickel P. I. Using resudals robustly I: tests for hete- roskedasticity, nonlinearity. — AS, 1978, v. 6, №2. 87. В г о w n К. M., Dennis. J. E. Jr. Derivative-free ana- logues of the Levenberg — Marquardt and Gauss algorithm for non- linear least squares approximation. —Numerische Mathematik, 1972, v. 18, № 2. 88. Box M. J. Bias in nonlinear estimation.—JRSS, ser B.i 1971, v. 33, № 2. 89. Box G. E. P., CoxD. R, An analysis of transformation.,— JRSS, ser B, 1964, v. 26, № 2. 90. Casson M. C. Generalised errors in variables regression.— — Review of Economic Studies, 1974, v., 41, №127. 91. Charmbcrs J. M. Fitting nonlinear models; numerical techniques. — Bioinetiika, 1973, v- 60, № 1. 92. Chipman J. S.; R а о M. M. The treatment of linear restrictions in regression analysis.— Econometrics, 1964, v. 32, № 1—2, 93, DanielC., Woo dF. S. Fitting equation to data. N.-Y. J. Willey, 1971. 94. Dempster A. P., Schatsoff M.,' Wermuth N. A simulation study of alternatives to ordinary least squares.— JASA, 1977, v. 72, № 357. 95. D e n n i s J. E, Jr. Some computational techniques for the nonlinear least squares problem.— In: Numerical solution of systems. N. Y., 1973. 96. D hr у me S P. J. Econometrics. Harper and Row. N. Y„ 1970. 97. Eickcr F. Asymptotic normality and consisttency of the least squares estimators for families of linear regressions.— AMS, 1963, v. 34, № 2. 98, Farebrother R. W. Further results on the mean square error of ridge regression.— JRSS, ser Б, 1976, v.38,№ 3. 99. fareb rotli er R. W. The minimum mean square error linear estimator and ridge regression.— Technomet!ics, 1975, v. 17, № 1. 295
100. Farrar D. E.; Glauber R. R. Multicollinearity in regression analysis. The problem revisited.— The Review of Eco- nomics and Statistics, 1967, v. 49, № 1. 101. Feldstein M. Errors in variables: a consistent esti- mator witli smaller MSE in finite sample.— JASA, 1974, v. 69, № 348. 102. F! etcher R., Grant J. A.; Heblen H. D. The calculation of linear lest Ln-approximations.— Computer Journal, 1971, v. 14, № 3. 103. F о r s у t h e A. B. Robust estimation of straight line reg- ression coefficients by minimising p-th power deviations.'— Techno- metrics, 1972, v. 14, № 1. 104. Ca 1 lant A. R. The Power of the likelhood ratio test of location in nonlinear regression models.— JASA, 1975, v. 70, № 349. 105. Gallant A. R. Nonlinear regression.— The American Statistician, 1975, v. 29, № 2. 106. Gallant A. R., Goebel J. J. Nonlinear regression with autocorrelated errors.— JASA, 1976, v. 71, № 356. 107. G a 1 1 a и t A. R. Seemingly unrelated nonlinear regressi- ons.— Journal of Econometrics, 1975, v. 3, № 1. 108. G a 1 1 a n t A. R. Testing a subset of the parametrs of a nonlinear regression model.— JASA, 1975, v. 70, № 352. 109. Gallant A. R. Testing a nonlinear regression specifi- cation: a nonregular case. — JASA, 1977, v. 72, № 359. 110. Gibson W. M., J о w e t t G. H. Three-group regres- sion analysis, part I, simple regression analysis.— Applied Statis- tics, 1957, v. 6, № 1. 111. G 1 e j s e r H. A new test for heteroskedasticity.— JASA, 1969, v. 64, № 325. 112. G о 1 d f e 1 d S. M., Quandt R. E. Nonlinear methods in econometrics, Amsterdam, North-Holland, 1972. 113. Goldstein M.; S m i t h A. F. M. Ridge-type esti- mators for regression analysis.— JRSS, ser B, 1974, v. 36, № 2. 114. G о г m a n J. W., Toman R. J. Selection of variables for fitting equations to data.— Technometrics, 1966, v. 8, № 1. 115. G г a у b i 1 1 F. Introduction to Linear Statistical Met- hods,N. Y. McGraw-Hill, 1961. 116. Greenberg E. Minimum variance properties of prin- cipal component regression.— JASA, 1975, v. 70, № 349. 117. Gunst R.F., Web st erJ.T., Mason R.L. A com- parison of least squares and latent root regression estimators.— Tehnometrics, 1976, v. 18, № 1. 118. Halperin M. Fitting of straight lines and prediction when both variables are subject to error.— JASA, 1961, v. 56, № 295. 119. Halperin M. Confidence interval estimation in non- linear regression.— JRSS, ser B, 1963, v. 25, № 2. 120. Hannan E. J. Non-linear series regression.— Journal of Appl. Probab.; 1971, v. 8, № 3. 296
121. H a r t 1 е у Н. О. The modified Gauss-Newton method for the fitting of поп-linear regression function by least squares.— Technometrics, 1961, v. 3, № 2. 122. Hartley H.O. Exact confidence regions for the para- metrs in non-linear regression laws.— Biometrika, 1964, v. 51, № 384. 123. Hartley H. О., В о о к e r A. Nonlinear least squares estimation.— AMS, 1965, v. 36, № 2. 124. Hawkins D. M. On the investigation of alternative regressions by principal component analysis. — Applied Statistics, 1973, v„ 22 №3. 125. H a w к i n s D. M. Relations between ridge regression and eigenanalysis of the augmented correlation matrix.— Technometrics, 1975, v. 17, № 4. 126. H e m m e r 1 e W. J. An explicit solution for generalised ridge regression.— Technometrics, 1975, v. 17, № 3. 127. H о с к i n g R. R., S p e e d F. M.; L у n n M. J. A class of biased estimators in linear regression. — Technometrics, 1976. v. 18, № 4. 128. Hodges J. L. Jr. Lehman F. L. Estimates of lo- cation based on rank tests.— AMS, 1963, v. 34, Ks 3. 129. Hodges J. L. Jr, Lehman E. L. Some problems in minimax point estimation.— AMS, 1950, v. 21, № 2. 130. H о e r 1 A. E. Application of ridge analysis to regression problems.— Chemical Engineering Progress, 1962, v. 58, № 1: 131. Hoerl A. E.; Kennard R. W. Ridge, regression: application to nonorthogonal problems.— Technometrics, 1970, v. 12, № 1. 132. Hoerl A. E.; Kennard R. W. Ridge regression: biased estimation for nonorthogonal problems. — Technometrics, 1970, v. 12, Ks 1. 133. H oer 1 A. E., Ken n ar d R. W. A note on a power generalised of ridge regressions.— Technometrics, 1975, v. 17, № 2. 134. Hoerl A. E., Kennard R. W., Baldwin K. F. Ridge regression: some simulation.— Communications in Statistics, 1975, v. 4, № 2. 135. H о g a и W. W. Norm minimisation and unbiasedeness.— Econometrica, 1976, v. 44, №3. 136. H uberP. J. Robust estimation of a location parameters.— AMS, 1964, v. 35, № 1. 137. H ub er P. J. Robust regression: asymptotic, conjectures and Monte-Carlo.— AS, 1973, v. 1, №5. 138. J а с к e 1 L. B. Robust estimation of location: symmetry and assymptotic contamination.— AMS, 1971, v. 42, № 4. 139. James W., S t e i n C. Estimation with quadratic loss.— Proceedings of the 4-th Berkley simp. UCP, 1961. 140. Jennrich R. I. Asymptotic properties of nonlinear le- ast squares estimation.— AMS, 1969, v. 40, № 2. 141. J urecho va J. Asymptotic linearity of a rank statistic in regression parameters.— AMS, 1969, v. 40, № 6. 297
142. К a к w a n IN. C. The unbiasedness of Zellner’s seeming- ly unrelated regression equations estimators.— JASA, 1967, v. 62, № 317. 143. Kartni E., Weissman I. A consistent estimator of the slope in regression model with errors in variables.—JASA, 1974, v. 69, № 345. 144. К e 1 1 у J. E. An application of linear programming to curve fitting. — Journal of the Society for Industrial and Appl. Mathe" matics, 1958, v. 6 № 1. 145. Kendall M. G. A course in multivariate analysis, London, Griffin, 1957. 146. К 1 о e к T. Note on consistent estimation of the variance of the disturbances in the linear model.— Econometrica, 1972, v. 40, № 5. 147. Km ent a J.; Gilbert R. F. Small sample properties of alternative estimators of seemingly unrelated ragressions. — JASA, 1968, v. 63, № 324. 148. К u b i с с к M.; Marek M., E с к e r t E. Quasilinearised regression.— Teclmometrics, 1971, v. 13, №3. 149. L a w t о n W. H.; Sylvestre E. A. Elimination of linear parameters in nonlinear regression.— Teclmometrics, 1971, v. 13, № 3. 150. L e a ni e r E. E. Least-squares versus instrumental variab- les estimation in a simple error in variables model.— Economet- rica, 1978, v. 46, № 4. 151. Leech D. Testing the error specification in nonlinear regression. — Econometrica, 1975, v. 43, № 4. 152. LevenbergK. A method for the solution of certain non-linear problems in least squares. — Quarterly of Applied Mat- hematics, 1944, v. 2, № 2. 153. L i e w С. K. Inequality constrained least squares estimati- on.— JASA, 1976, v. 71, № 355. 154. Longley J. W. An apprisal of least-squares programs for the electronic computer from the point of view the user. — JASA, 1967, v. 72, № 3. 155. MadanskyA. The fitting of straight lines when both variables a subject to error.— JASA, 1959 v. 54, № 285. 156. Malinvaud E. The consistency of nonlinear regressi- on.— AMS, 1970, v. 41, № 3. 157. M a 1 1 о w s C. L. Some comments on Cp.— Technometrics, 1973, v. 15, K° 4 158. Marquardt D. W. An algorithm for least squares estimation of nonlinear parameters. — Journal Society of Appl. Math., 1963, v. 2, № 4. 159. Marquardt D. W. Generalised inverses, ridge regres- sion, biased linear estimation and nonlinear estimation.— Techno- metrics, 1970, v. 12, №'3. 160. Massy W. F. Principal components regression in explo- ratary statistical research. — JASA, 1965, v. 60, № 2. 298
161. M a у e r L. S.; W i 1 1 к e T. A. On biased estimation in linear models.— Technometrics, 1973, v. 15, №3., 162. McCallum В. T. Relative asymptotic bias from er- rors of omission and measurement.— Econometrica, 1972, v 40, № 4. 163. McDonald Cl. C., GalarneauO. I. A Monte- Carlo evalution of sonime ridge-type estimators.— JASA, 1975, v. 70, № 350. 164. Mehta J. S., S w a m у P. A. Further evidence of the relative efficiences of Zellner’s seemengly unrelated regression equa- tions. — JASA, 1976, v. 71, № 355. 165. Neuman J., Gol dstine H. Numerical inversion of matrix of high order.— Bullityn of the American Mathematical Society, 1947, v. 53, № 11. 166. N e у m a n J., S с о t t E. L. On certain methods of estimating the linear structural relations. — AMS, 1961, v. 22, Ns 3. 167. О b e n c h a i n R. L., Vinod H. D. Ridge analysis following a preliminary test of a shrunken hypothesis.— Technonietri- cs, 1975, v. 17, № 4. 168. О b e r h о f f e г W., Kmenta J. A general procedure for obtaining maximum likelhood estimates in generalised regressi- on models.— Econometrica, 1974, v. 42, № 3. 169. Osborne M. R. Some aspects of non-linear least squares calculation, In: Numerical methods for non-linear optimisation, ed. by Lootsma, NY., 1972. 170. Park R. E. Estimation witli heteroscedastic error terms. — Econometrica, 1966, v. 34, № 4. 171. Pesaran M. H., Deaton A. S. Testing nonnested nonlinear regression models.— Econometrica, 1978, v. 46, № 3. 172. Phillips P. С. B. The iterated minimum distance estimator and the qusi-maximum likelhood estimator.— Econometri- ca, 1976, v. 44, № 3. 173. Ramsay J. O. A comparative study of several rubust estimates of slope, intersept, and scale in linear regression.— JASA, 1977, v. 72, №3. 174. Ramsey J. B. Nonlinear estimation and asymptotic approximation.— Econometrica, 1978, v. 46, № 4. 175. Revankar N. S. Some finite results in the context of two seemigly unrelated equations.— JASA, 1974, v. 69, № 345. 176. R i c e J. R., W h i t e J. S. Norms for smoothing and es- timation.—-SIAM Review, 1964, v. 6, № 3. 177. R i c h a r d s о n D. H., Wu D.-M. Least squares and gro- uping method estimators in the errors in variables model.—JASA, 1970, v. 65, № 3. 178. Robinson P. M. Non-linear regression for multiple time—series.—Journal of Applied Probab., 1972, v. 9, № 4. 179. Rothenberg T. J. Efficient estimation witli a priori restrictions, New Haven, 1973. 180. R ut emi Her H. C., Bower s D. A. Estimation in a heteroskedasfic regression model.— JASA, 1968, v. 63, № 322. 299
181. Sclove S. L. Improved estimators for coefficients in linear regression.— JASA, 1968, v. 63, № 322. 182. S p j о t v о 1 1 E. Alternatives to plotting Cp in multip- le regression.-— Biometrika, 1977, v. 64, № 1. 183. Stein C. Inadmissibility of the usual estimator for the mean multivariate normal distribution.— Proceedings of the 3-th Berkly Simp, on Math. Stat, and Probab, 1956, v. 1, UCP, BerKly. 184. Stein C. Multiple regression. — In: Contributions to probab. and statistics, N. Y., 1960. 185. S t i g 1 e r S. M. Do robust estimators work with real data? — Annals of Statistics, 1977, v. 5, № 6. 186. Stone C. Consistent nonparametric regression.-— Annals of Statistics, 1977, v. 5, № 4. 187. Taylor L. D. Estimation by minimising the sum of absolute errors — In: Frontiers in econometrics, ed. Zarembka, N. Y., 1974. 188. Tay 1 or W. E. Small sample properties of a class of two stage Aitken estimators.— Econometrica, 1977, v. 42, № 2. 189. Taylor W. E. The heteroscedastic linear model: exact finite sample rusults.— Econometrica, 1978, v. 46, № 3. 190. T h e i 1 H., van I j z e r e n J. On the efficiency of Wald’s method of fitting straight lines.—Review of International Statistics. Inst., 1956, v. 24, № 1. 191. Theobald С. M. Generalisation of mean square error applied to ridge regression.— JRSS, ser. B, 1974, v. 36, № 1. 192. W a g и e r H. M. Linear programming techniques for regres- sion analysis — JASA, 1959, v. 54, № 285. 193. Wald A. The fitting of straight lines if both variables a subject to error.— AMS, 1940, v. 11, № 2. 194. W e b s t e r J. T., Gunst R. F., M a s о n R. L. Latent root regression analysis.— Technometrica, 1974, v. 16, №4.. 195. White J. S. Norms for smoothing and estimation.— SIAM Review, 1964, v. 6, № 3. 196. WickensM. R. A note on the use of proxy variables.— Econometrica, 1972, v. 40, № 4. 197. Z e 1 1 n e r A. An eficient method of estimating seemingly unrelated regressions and tests for aggregation bias. — JASA, 1962, v. 57, № 299. 198. Zellner Б. Estimators for seemingly unrelated regres- sion equations: some exact finite sample results. — JASA, 1963, v. 67, № 255. 199. Zellner A.; Huang D. S. Further properties of efficient estimators for seemingly unrelated regression equations.— International Economic Review, 1962, t. 3, Ks 3.
ОГЛАВЛЕНИЕ Предисловие............................................ 3 Часть первая. ЛИНЕЙНАЯ РЕГРЕССИЯ КАК БЕЗУСЛОВНОЕ МАТЕМА- ТИЧЕСКОЕ ОЖИДАНИЕ....................................... 5 Глава 1. Классическая регрессия. Свойства оценки МНК 5 1.1. Основные предположения. Оценка МНК • • 5 1.2. Геометрия МНК..............................15 1.3. Обсуждение предпосылок классической регрессии . . ..........................16 1.4. Методология статистического оценивания . 20 1.5. Теорема Гауссщ — Маркова.................29 1.6. Коэффициент детерминации и его интерпре- тация .................................... 34 1.7. Состоятельность и асимптотическая нор- мальность оценки МНК .......................41 1.8. Свойства оценки МНК при нормальных от- клонениях ..................................51 1.9. Общие принципы проверки статистических гипотез и пострсэения доверительных ин- тервалов....................................53 1.10. Проверка гипотез и доверительное оцени- вание в линейной регрессии..................6! 1.11. Доказательства............................72 Глава 2. Другие вопросы линейной регрессии .... 78 2.1. Взвешенный МНК. Оценка Эйткена ... 78 2.2. Прогноз по регрессии.......................87 2.3. Регрессия с ограничениями на параметры 89 2.4. Перебор и недобор факторов в регрессии . 92 2.5. Псевдонезависимые регрессии................98 2.6. Вычислительные трудности МНК • ... 108 Часть вторая. АЛЬТЕРНАТИВНЫЕ СХЕМЫ И МЕТОДЫ ОЦЕНИВАНИЯ 115 Глава 3. Регрессия как условное математическое ожида- ние ...................................................115 3.1. Основные предположения..............115 3.2. Свойства оценки МНК . . 1...........116 3.3. Схема случайной выборки.............125 3.4. Доказательства......................130 Глава 4. Ошибки в независимых переменных...................131 4.1. Постановка задачи. Оценка МНК • • . . 131 4.2. Ортогональная регрессия.............136 4.3. Метод максимального правдоподобия . . . 142 4.4. Метод группировки...................147 4.5. Метод инструментальных переменных . . 153 301
4.6. Оценка Картин — Вайссмана...............158 4.7. Сравнение оценок........................160 4.8. Доказательства..........................162 Глава 5. Робастные оценки.................................167 5.1. Робастные оценки параметра положения . 167 5.2. Простейшие методы робастного оценивания регрессии ...................................172 5.3. Lv-оценки...............................174 5.4. Оценки Хюбера, Лндрюса и Рамсея. . . 179 5.5. Сравнение оценок методом статистических испытаний....................................183 Глава 6. Мультиколлинеарность. Смещенные оценки . . 186 6.1. Мультиколлинеарпость и ее измерение 186 6.2. Строгая мультиколлинеарность............195 6.3. Смещенные сцепки........................196 6.4. Ридж-оцепки.............................204 6.5. Редуцированные оценки ...........215 6.6. Оценка метода главных компонент . . 220 6.7. Оценка Марквардта.......................222 6.8. Оценка Хокинса..........................230 6.9. Сравнение оценок методом статистических испытаний....................................232 Часть третья. НЕЛИНЕЙНАЯ РЕГРЕССИЯ........................236 Глава 7. Численное нахождение оценки МНК .... 236 7.1. Основные определения. Постановка задачи 236 7.2. Существование оценки МНК.........241 7.3. Метод Ньютона — Гаусса и его модифи- кации .......................................245 7.4. Метод Левенбсрга — Марквардта . . . 252 7.5. Единственность оценки МНК...........". 256 7.6. Сведение нелинейной регрессии к линейной 259 7.7. Доказательства..........................263 Глава 8. Статистические свойства оценки МНК .... 265 8.1. Непрерывность и асимптотические свойства оценки МНК..............................265 8.2. Оценка смещения МНК....................270 8.3. Проверка статистических гипотез и довери- тельное оценивание.......................273 8.4. Псевдонезависимые нелинейные регрессии 282 8.5. Доказательства..........................284 Приложение. Некоторые дополнительные формулы .... 287 Список использованной литературы..........................291
Евгений Зямович Демиденко ЛИНЕЙНАЯ И НЕЛИНЕЙНАЯ РЕГРЕССИИ Рецензенты Г. Г. Пирогов, В. А. Колемаев Зав. редакцией Р. А. Казьмина Редактор Л. И. Вылегжанина Мл. редакторы Н. М. Лопарева, О. Л. Борисова, М. В. Ульянова Техн, редактор Р. Н. Феоктистова Корректоры Т. М. Васильева, Г. В. Хлопцева, 3. С. Кандыба Худож. редактор Э. А. Смирнов Переплет художника Т. Н. Погореловой ИБ № 1051 Сдано в набор 25.08.80. Подписано в печать 17.04.81. А08336. Формат 84X108’/32. Бум. кн.-журн. Гарнитура «Литературная». Печать высокая. П. л. 9,5- Усл. п. л. 15,96 Уч.-изд. л. 15,94. Тираж 5000 экз. Заказ 2067 Цена 2 р. 60 к. Издательство «Финансы и статистика», Москва, ул. Чернышевского, 7. Московская типография № 4 Союзполиграфпрома при Государственном комитете СССР по делам издательств, полиграфии и книжной торговли, 129041, Москва, Б. Переяславская ул., 46