Регрессия, псевдоинверсия и рекуррентное оценивание - Алберт А.

Author: Алберт А.
Tags: регулирование и управление машинами, процессами анализ данных обработка данных математическое моделирование теория управления
Year: 1977
Similar
Матричные вычисления
Численное решение задач методом наименьших квадратов
Вычисления в среде Matlab
Основы матричных вычислений
Text
                    РЕГРЕССИЯ,
ПСЕВДОИНВЕРСИЯ
И РЕКУРРЕНТНОЕ
ОЦЕНИВАНИЕ
А. АЛБЕРТ
РЕГРЕССИЯ,
ПСЕВДОИНВЕРСИЯ
И РЕКУРРЕНТНОЕ
ОЦЕНИВАНИЕ
Перевод с английского Р. Ш. ЛИПЦЕРА
Под редакцией Я. 3. ЦЫПКИНА
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
Москва 1977
6ф6.5
А 15
УДК 62-50
СОМ V
REGRESSION AND THE
MOOR-PENROSE PSEUDOINVERSE
Arthur Albert
Departament of Mathematics
Boston University
Boston, Massachusets
1972
ACADEMIC PRESS
» mott	York and London
—f----Irth—f-ftftetrnrA	f  -	    "
Регрессия, псевдоинверсия и рекуррентное оценивание,
Алберт А., перев. с англ., Главная редакция физико-матема-
тической литературы изд-ва «Наука», 1977, М., 224 стр.
Книга посвящена систематическому изложению теории обоб-
щенного обращения (псевдообращения) матриц, находящей широ-
кое применение в теории управления.
Первая часть книги содержит общую ^теорию псевдообращения
матриц по Муру — Пенроузу, а также примеры применения псевдо-
обратных матриц в теории линейных уравнений, методе наимень-
ших квадратов с ограничениями, линейном программировании,
задачах, связанных с марковскими цепями. Вторая часть посвящена
применению псевдообратных матриц в статистических задачах.
Рассмотрены статистические тесты проверки линейных гипотез,
рекуррентные уравнения для оценок наименьших квадратов, урав-
нения фильтрации Калмана (в наиболее общей формулировке) для
случайных процессов с дискретным временем.
Книга рассчитана на широкий круг научных работников,
математиков и специалистов в теории управления. Она доступна
аспирантам и студентам старших курсов.
Илл. 1, библ. 65.
30501—015
053 (02)-77
151-77
© Перевод-на русский язык,
Главная редакция
физико-математической литературы
издательства <Наука>, 1977
СОДЕРЖАНИЕ
От редактора перевода ............................... 6
Предисловие.........................................  7
ЧАСТЬ I. ОБЩАЯ ТЕОРИЯ И ВЫЧИСЛИТЕЛЬНЫЕ
МЕТОДЫ
Глава I. Введение.................................... 9
Глава II. Общие основы...............................11
Линейные многообразия в конечномерных евклидовых
пространствах ................................. 11
Теорема о приведении симметрической матрицы к диаго-
нальному виду...................................20
Глава III. Геометрические и аналитические свойства псевдо-
обращения по Муру — Пенроузу.........................22
Существование и единственность решения по методу наи-
меньших квадратов...............................22
Представление решения задачи среднеквадратической оп-
тимизации. Проекционные матрицы ................26
Частный случай симметрических матриц Н..........32
Упражнения ......................................34	.
Свойства матриц Я+, Я+Я, ЯЯ+....................36
Характеризация Пенроуза псевдообратной	матрицы . . 38
Упражнения .....................................40
Исследование всех решений метода наименьших квадра-
тов. Применения к теории линейных уравнений, к зада-
чам оценивания по методу наименьших квадратов с огра-
ничениями, к линейному программированию, к опреде-
лению проекционных матриц и к марковским цепям. . 41
Теоремы о сингулярном разложении................51
Итеративный метод отыскания наибольшего собственного
значения и собственного вектора матриц А Ат и АТА . 56
1*
4
содержание
Глава IV. Псевдообращеиие блочных матриц, матричных
сумм и произведений матриц...................57
Блочные матрицы, I ..................................57
Приложение к последовательной регрессии, I .... 58
/ т	\ + /т+1	\ +
Соотношение между ( сус/ j и (	)	... 62
\/=i	J \/=i	/
Блочные матрицы, II...............................64
Псевдообращение возмущенных матриц................65
Понятие ранга ................................... 68
Псевдообращение произведений .....................69
Упражнения ...........‘...........................73
Глава V. Вычислительные методы.......................74
Метод ортогонализации Грамма—Шмидта ............74
Метод исключения Гаусса—Жордана ................82
Метод градиентных проекций .....................87
Метод Кэли—Гамильтона...........................93
ЧАСТЬ II. СТАТИСТИЧЕСКИЕ ПРИЛОЖЕНИЯ
Глава VI. Общая линейная гипотеза ....................103
Наилучшая линейная несмещенная оценка. Теорема
Гаусса—Маркова.................................. 104
Распределение квадратичных форм от нормальных слу-
чайных величин...................................113
Допускающие оценку векторные параметрические функ-
ции и доверительные эллипсоиды в случае нормально
распределенных невязок...........................118
Тесты общей линейной гипотезы....................122
Связь между доверительными эллипсоидами для Gx
и тестами общей линейной гипотезы................125
Ортогональные планы..............................128
Глава VII. Метод наименьших квадратов с ограничением,
штрафные функции и наилучшие линейные
несмещенные оценки ...................................145
Штрафные функции.................................145
Оценки метода наименьших квадратов—предельный
случай НЛНО .....................................149
СОДЕРЖАНИЕ
5
Глава VIII. Рекуррентное вычисление оценок наимень-
ших квадратов .................................151
Метод наименьших квадратов без ограничений . . . . 151
Рекуррентный метод наименьших квадратов с ограни-
чением, I....................................160
Рекуррентный метод наименьших квадратов с ограни-
чением, II ..................................163
Дополнительные члены в уравнении регрессии, II (по-
шаговая регрессия).........................  177
Связь между анализом дисперсий и анализом ковариа-
ций .........................................178
Недостающие наблюдения.....................  182
Глава IX. Неотрицательно определенные матрицы, услов-
ные математические ожидания, фильтр Калмана 189
Неотрицательно определенные матрицы .........189
Условные математические ожидания для нормальных
случайных величин............................193
Фильтр Калмана...............................203
Соотношение между оценками метода наименьших квад-
ратов и условными математическими ожиданиями . . 205
Добавление переводчика............................208
Литература .......................................216
Предметный указатель . ...........................221
ОТ РЕДАКТОРА ПЕРЕВОДА
Интерес к проблеме псевдообращения матриц, сформулированной
в 1920 г, Муром, возник сравнительно недавно, в конце 50-х годов,
в связи с решением разнообразных задач линейной алгебры и ста-
тистики (решение систем линейных уравнений, метод наимень-
ших квадратов, рекуррентные соотношения при оценивании слу-
чайных последовательностей и т. п.). Оказалось, что применение
псевдообратных матриц позволяет получить обобщение классических
решений, наглядно представить себе структуру полученных резуль-
татов, уяснить смысл часто возникающей некорректности решения
и увидеть пути регуляризации таких решений. В отечественной
литературе псевдообращению матриц посвящен лишь один пара-
граф книги Ф. Р. Гантмахера.
Книга состоит из двух частей.
Первая часть посвящена общей теории псевдообращения, вто-
рая—содержит статистическое приложение.
Наряду с общей теорией псевдообращения матриц в книге ра-
зобраны численные методы для отыскания псевдообратных матриц,
применение к теории линейных уравнений, к задачам оценивания
по методу наименьших квадратов с ограничениями, к линейному
программированию, к последовательной регрессии, к распределению
квадратичных форм от гауссовских случайных величин, к проверке
общих линейных гипотез, к планированию экспериментов, к теории
рекуррентной фильтрации.
Книга, несомненно, будет полезна широкому кругу читателей:
студентам и аспирантам, специализирующимся по линейной алгебре,
теории управления, инженерам и научным работникам, заинтере-
сованным в применениях псевдообратных матриц в различных зада-
чах оптимизации.
Перевод снабжен добавлением, написанным Р.' Ш. Липцером,
которое дополняет некоторые разделы книги.
Я» Цыпкин
MamepiTu. отцу
в день их годовщины
ПРЕДИСЛОВИЕ
В течение последних десяти лет мои профессиональ-
ные интересы были связаны с различными аспектами
регрессионного анализа. Мне удалось ощутить всю
универсальность идеи псевдообращения, что дало воз-
можность объяснить (и переоткрыть) многие класси-
ческие результаты статистики, а также установить
ряд новых результатов.
Эта книга была задумана как гибрид монографии
и учебника. Содержание книги соответствует прибли-
зительно полугодовому лекционному курсу. При пре-
подавании такого курса оставшаяся часть учебного
времени может быть посвящена изучению дополни-
тельного материала, например, многомерным регресси-
онным задачам, нелинейным .проблемам регрессии,
асимптотическим методам и оптимальному планирова-
нию регрессионных экспериментов. В связи с этим
изложение материала носит дидактический характер.
С другой стороны, большинство результатов заимство-
вано из периодических литературных источников.
Значительное количество результатов, приведен-
ных в книге, получено автором (часть из них уже
опубликована).
Фактически все содержание книги связано с рег-
рессионными задачами (главы VI —IX —непосредствен-
но, главы I—V—как содержащие обоснование теории).
8
ПРЕДИСЛОВИЕ
Ограничивая <круг исследуемых задач, мы получи-
ли возможность достаточно подробного изложения
материала и, как я надеюсь, смогли сохранить повсюду
единство стиля.
В то время как завершалась работа над руко-
писью, по моим сведениям, не было учебника, посвя-
щенного использованию теории псевдообращения. С того
времени появились две превосходные, дополняющие
друг друга монографии, использующие псевдообраще-
ние по Муру—Пенроузу в более общей обстановке. Пер-
вая монография (Бульон и Оделл [2]) появилась в начале
1971 года и интересна главным образом исследованием
алгебраических и структурных свойств псевдоинверсий.
Вторая книга (Рао и Митра [1]) появилась несколько
позднее, также в 1971 году. Ее содержание является
исчерпывающим по отношению ко всей имеющейся в
настоящее время литературе, посвященной теории
псевдообращения. Обе книги содержат обширную биб-
лиографию.
ЧАСТЬ I
ОБЩАЯ ТЕОРИЯ
И ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
ГЛАВА I
ВВЕДЕНИЕ
В 1920 году Мур [1] ввел понятие обобщенного обра-
щения матриц. Интерес к этой идее, бездействовавшей
около 30 лет, был вновь возрожден в 50-х годах,
о чем можно судить даже по беглому взгляду на биб-
лиографию.
В настоящее время существует стройная теория,
имеющая разнообразные приложения (например, наи-
меньшие квадраты, линейные уравнения, проекций,
статистический регрессионный анализ, фильтрация
и линейное программирование), и, что гораздо важнее,
достигнуто более глубокое понимание перечисленных
проблем, когда они рассматриваются с позиций псев-
дообращения. Большая часть результатов, изложенных
в книге, разбросана в периодической литературе
и «препринтах», что и явилось стимулом для написа-
ния настоящей монографии.
Для восприятия материала первой половины книги
предполагается знакомство с понятием «предела» и не-
которыми фундаментальными свойствами конечномер-
ных евклидовых пространств. Вторая часть книги
посвящена статистическим приложениям, для понима-
ния которых было бы полезно знакомство с вводным
курсом теории вероятностей или статистики.
В книге имеется большое количество упражнений.
Некоторые из них дополняют основной материал, в то
время как другие являются вспомогательными пред-
ложениями для последующих теорем, что вынуждает
читателя делать эти упражнения, поскольку они явля-
ются ключевыми к пониманию материала.
10
ГЛ. 1. ВВЕДЕНИЕ
Разделы и уравнения нумеруются в соответствии
с десятичной системой. Например, уравнение (6.3.1)
расположено после раздела 6.2 и перед определением
6.3.1.9, которое находится перед уравнением (6.4).
Все усилия были направлены на то, чтобы была вы-
держана следующая система типографских обозначений:
множества—заглавные рукописные буквы,
матрицы—заглавные латинские буквы,
векторы—строчные латинские буквы,
скаляры—строчные греческие буквы,
случайные векторы—строчные латинские полужир-
ные буквы,
случайные величины—строчные греческие полу-
жирные буквы.
Библиографические ссылки даны в квадратных скоб-
ках. Номера уравнений и разделов—в круглых скоб-
ках в левой части страницы. Иногда номер раздела
или уравнения появляется в середине строки или даже
с правой стороны. В этом случае утверждение, пред-
шествующее ссылке на соответствующее соотношение,
является прямым следствием этого (предварительно
установленного) результата.
ГЛАВА II
ОБЩИЕ ОСНОВЫ
Линейные многообразия в конечномерных
евклидовых пространствах
В этой главе будет дан обзор необходимых ключевых
результатов и определений из теории действительных
линейных пространств. Этот обзор не является стро-
гим, поскольку предполагается предварительное зна-
комство читателя с указанной темой. (Более строгое
изложение имеется в приложении А у Карлина [1].
Строгие результаты можно найти у Халмоша [1] или
в первой части у Веллмана [1].)
Начнем с напоминания того факта, что линейные
преобразования из одного евклидова пространства
в другое могут быть заданы с помощью матриц, если
оба эти пространства снабжены системой координат.
Заметим, что векторы также можно представлять
в виде одностолбцовых матриц. Если А—матрица, мы
будем обозначать через Ат матрицу, транспонирован-
ную по отношению к матрице А. Везде в дальнейшем
все матрицы, векторы (и скалярные величины) имеют
действительные элементы.
Операция транспонирования матриц обладает сле-
дующими свойствами:
(АВ)Т = ВТАТ, (АТ)Т = А, (A + B)T = AT + fiT.
Для векторов х и у одинаковой размерности опре-
деляется скалярное произведение х'у.

12
ГЛ. И. ОБЩИЕ ОСНОВЫ
Здесь и далее нормой вектора х будем называть
величину (хтх)1/2. Говорят, что векторы х и у орто-
гональны (этот факт обозначают так: х _]_«/), если их
скалярное произведение равно нулю.
Линейное многообразие 3—непустое подмножество
евклидова пространства, замкнутое по отношению
к операциям сложения и умножения на скалярную
величину (если х и у—элементы 3, то при любых
скалярных величинах аир элементом 3 является
ах + рг/).
Вектор х является ортогональным к линейному
многообразию 3 (х I J?), если х ортогонален каждому
вектору из 3.
Символ £ зарезервирован для обозначения при-
надлежности (х С 3 обозначает, что х принадлежит
множеству jg’). Символ 's обозначает включение,
а символ а точное включение.
Следующее утверждение будет играть важнейшую
роль в дальнейшем. Мы приведем его без доказа-
тельства.
(2.1)	Теорема. Пусть х и 3—вектор и линейное
многообразие в конечномерном евклидовом пространстве.
Тогда существует единственный вектор х£3, обладаю-
щий тем свойством, что х—х | 3.
(2.1.1) Примечание. Утверждение 'теоремы можно
сформулировать и таким образом: существует единст-
венное разложение вектора х, а именно
х = х4-х,
где х£3, а х±_3.
Вектор х называют проекцией х на 3. Этот вектор,
принадлежащий 3, является «ближайшим» к вектору х,
что будет показано в нижеследующей теореме.
(2.2)	Теорема. Пусть х—вектор и 3—линейное
многообразие. Если х = х4-х, где х£3, а х_]_3, то
И—1/11 > к—*11
для любого у£<3? такого, что у^=х.
ЛИНЕЙНЫЕ МНОГООБРАЗИЯ
13
Доказательство; Если то
h— у||2=И*+*—у F=ll(*— у)+ *112 =
=11*—у II2 + Й2.
поскольку Х_]_=2\ а *—У<~£- Поэтому
k—yF>IM2.
Строгое неравенство выполняется для всех тех случаев,
когда -||х—1/|| = 0. □
Теоремы (2.1) и (2.2) являются «теоремами суще-
ствования». В качестве следствия к последней теореме
покажем, как можно определение х свести к решению
совместной системы линейных уравнений. Сначала на-
помним читателю, что линейное многообразие £ натяну-
то на (z/j, z/a.t/„), если каждый вектор из £ мо-
жет быть выражен линейной комбинацией векторов yj.
(2.3)	Теорема, (а) Если х—вектор и £—линейное
многообразие, то вектор х, называемый проекцией х
на £, является единственным вектором из £, удов-
летворяющим уравнениям
(2.3.i)	хТу = хТу для всех у££.
(6)	Если £ натянуто на (ylt у2, ..., уп), то х—
единственный вектор из £ такой, что
(2.3.2)	xTz// = xTz/7,	/=1, ..., п.
Доказательство. Утверждение (а) вытекает
непосредственно из (2.1). Соотношения (2.3.2) для х
являются следствием (а). Если х*—некоторый вектор
из £, отличный от х и такой, что
x*Tz/y = xTz/y, /=1...п,
то
(2.3.3)	(х*—х)«/у==0,	/=1....п.
Поскольку {yj} являются линейной оболочкой £,
каждый из векторов £ является линейной комбина-
цией векторов {yj}. Отсюда следует, что х*—хорто-
14
ГЛ. II. ОБЩИЕ ОСНОВЫ
гонален каждому вектору из 3. Но х* — х^Зи,
значит, (х*—х)т(х*—х) = ||х*—х||2 = 0. Тем самым век-
тор х* должен совпадать с х, если он является эле-
ментом 3 и удовлетворяет условию (2.3.2). □
(2.4) Упр	ажнение. Если 3 натянуто на (#х, у2, ... ,уп),
то х является единственным вектором, допускающим
представление
п
x = ^aiyi,
где скалярные величины а(-, 1 = 1, ..., п, опреде-
ляются совместной системой уравнений
п
(2.4.1) 2 <хАу1У,)==у1х,	j=\, п.
i=l
(2.5) Упр	ажнения.
(2.5.1)	Пусть 3 натянуто на (//х, ..., г/„), тогда
х 1 3, если х ортогонален к каждому из векторов
у,, j= 1, .... п.
(2.5.2)	Пусть х, у и 3—векторы и линейное мно-
гообразие одного и того же евклидова пространства.
Тогда проекция ax-j-Py на 3 задается формулой
ах-ЬР#, где х и у—проекции х и у'на 3.
Пусть у19 ..., уп—множество векторов на одном
и том же евклидовом пространстве. Обозначим через
3(ylt ..., «/„) линейное многообразие, натянутое на
(z/1( ..; , z/„). Это многообразие—наименьшее много-
образие, содержащее векторы {yj} и все векторы,
которые можно получить в виде линейных комбина-
ций yj.
(2.5.3)	Проекция х на 3 (у) задается формулой
если
Пусть х, у19 ..., уп—произвольное множество век-
- «торов одного и того же евклидова пространства. Су-
ществует простое соотношение между х„ и x„_t—про-
С екциями х на 3	.... уп) и 3(у1г ..., «/„-J соот-
ветственно, при условии, что вектор уп ортогонален
векторам ylt .... у„_х.
ЛИНЕЙНЫЕ МНОГООБРАЗИЯ
15
(2.6)	Теорема. Пусть х,у1У .. .,уп—векторы одного и
того же евклидова пространства иуп J_ (*/х, ..., i/n_x).
Тогда
(2.6.1) х„ = хй+1 +
( 0, если Уп = ®,
I (х'У^УЛУпГ остальных
v	случаях.
Доказательство. Очевидно, чтох,,..^	..
•••»	хп^.^(уг, ..., г/„). Легко также прове-
рить, что правая часть (2.6.1) удовлетворяет (2.3.2),
если только вектор уп ортогонален ^(ylt ..., yn_j
(и, в частности, ортогонален х„_х). Требуемое равен-
ство следует теперь в силу теоремы (2.3b). □
В качестве прямого следствия сформулированной
выше теоремы мы сможем получить так называемую
теорему разложения Фурье.
(2.7)	Теорема. Пусть ult ..., ип—взаимно орто-
нормальные векторы и х—произвольный вектор на том
же самом евклидовом пространстве. Тогда х—проекция
х на <2 (ии ..., ип) задается формулой
/ п X
или
(2.7.2)	х =	(u}x) Uj.
Примечание. Если {иу}—векторы, содержащие k
п
элементов, 2 w/u/—матрица размера (ft х ft), то (2.7.1)
представляет матрицу, которая проектирует х на
2? (и1г ..., ип). Равенство (2.7.2), с другой стороны,
задает явное представление х как линейной комбина-
ции {«,}.
Если «5^ и .2%—линейные многообразия h.^S.2»,
определим 22—2Х как множество векторов из
ортогональных
(2.7.3)	Упражнение. Если 2-^22, то 22—
является линейным многообразием.
ИАУЧМаЙ L-b.L.rfiTKA'
ьм. * о
М Г У
16
ГЛ. II. ОБЩИЕ ОСНОВЫ
(2.7.4)	Упражнение. Пусть х—вектор и S\.
Определим векторы х2, х21, и х21 как проекции х
на ^2, х2 на J?!, х на и х на —3\ соответ-
ственно.
Тогда
(a)	х21 = хх (проекция х на может быть полу-
чена с помощью проектирования х -на а затем
проектирования найденного вектора на ag’1).
(b)	х2 — Х1-\~х21.
(с)	||х——х2|| (строгое неравенство имеет
место, если является собственным подмножеством
и если х не принадлежит 3-^.
(2.8) Процесс ортогонализации Грамма—Шмидта.
В соответствии с этим процессом произвольный набор
векторов /ц, .... h„ превращается в набор взаимно
ортогональных векторов ии ..., ип, обладающих тем
свойством, что
(2.8.1)	^(Ы1, ..., Ыу) = (7гх....hj) для / = 1, .... п
и
(2.8.2)	||«у|(=1, если му-^=0, /= 1, ..., п
Процесс ортогонализации:
/Л О 04	( М1М» ^#=0,
(2.8.3)	Ы1 = |	0	hi = Q.
для /=1, .... п—1 определим
(2.8.4)	fy-t-i=	(^}+iua) ик
и
(2.8.5)
н _____J (fy+г A/+i)/|l fy+i Л/+1II* fy+i
/+1 ~ (	0 в остальных случаях.
Свойства (2.8.1) и (2.8.2) устанавливаются по ин-
дукции, в предположении, что
*2? (^1» ^2* • • • »	(^1> • • • »
ЛИНЕЙНЫЕ МНОГООБРАЗИЯ
17
И
У] a-x^'S’ (Цх' • • •» Uy).
По определению их: S (их) = 3? (Лх) и согласно (2.5.3)
h2 является проекцией h2 на ^(их). В силу (2.1)
h2—fi2 J? (tii), так что «2 ортогонален ^(Uj), т. е.
предположение индукции при /=1 справедливо. Если
предполагать теперь верными утверждения индукции
для всех j = k, то, поскольку ик+1 является линейной
комбинацией hk+1 и hk+1 (hk+1 £ 3? (ии ..., ик) =
= 3 (ht, ..hk)), нетрудно видеть, что любой вектор,
являющийся линейной комбинацией их, ..., ик+1,
также линейным образом выражается через йх, .. .,hk+1.
Это означает, что =2’(и1, ..., uft+1) Е 3 (йх, . ..,Л*+Х).
С другой стороны,
^л+1= II ^а+1 ^k+i :| и^4-14" ^к+1.
Правая часть этого равенства является линейной
комбинацией ненулевых элементов, порожденных
{их, «2, ..., uA+xJ, (2.8.4). Поскольку, по предполо-
жению индукции, 3 (hlt ..., ЛА) = =2!’(их, ..., ик),
каждый вектор, выражаемый через Лх, ..., hk+1, мо-
жет быть также представлен линейной комбинацией
их, • • •, ик+1. Поэтому S (Лх, .... ft*+x)=JT (ux,... ,uft+1),
что вместе с полученным выше включением устанавли-
вает первое утверждение индукции при j = k +1.
Второе утверждение индукции имеет место в силу
того, что йй+а является проекцией /ift+2 на^ (их,..., uA+x)t
(2.7.2). Согласно (2.1) Лй+2—ЛА+2£ ^(Uj, ...,uA+1j
и, следовательно, таковым же свойством обладает uft+2.
(2.8.6) Упражнение. Вектор Uy = 0 тогда и только
тогда, когда ~hj является линейной комбинацией
(/tx, ...» /ly_x).
Отсюда следует, что два характерных линейных
многообразия, обозначаемых <ЛР(Я) и	будут
представлять особый интерес.
Пусть Н—произвольная матрица. Ядро матрицы Н,
обозначаемое через <ЛГ(Я), суть множество векторов,
которое Н отображает в нуль:
«^ (#) = {*: Hx = Q}.
18
ГЛ. II. ОБЩИЕ ОСНОВЫ
(Ядро <ЛГ (Я) матрицы Н всегда имеет по крайней мере
один элемент, а именно — нулевой вектор.)
Множество 5? (Я) образов матрицы Я есть множе-
ство векторов, являющихся образами векторов евкли-
дова пространства из области определения Я, другими
словами,
5?(Я) = {г: z = Hx для некоторого х}.
Легко понять, что <№(Я) и 5? (Я)—линейные много-
образия.
(2.9)	Упражнения.
(2.9.1)	Обозначим столбцы матрицы Я через hlt
h2, .... h„. Покажите, что Sfl(H) = 2(hly ..., hn).
(2.9.2)	Покажите, что Ят является сопряженной
матрицей по отношению к матрице Я. Другими сло-
вами, если Я—матрица размера пхт, то для любого
щ-мерного вектора х и любого «-мерного вектора у
скалярное произведение х на Ну совпадает со скаляр-
ным произведением у на Ятх.
Пусть 2—линейное многообразие в евклидовом
пространстве Ортогональное дополнение к 2, обо-
значаемое J?-1, определяется как множество векторов
в <£, каждый из которых ортогонален 2.
Легко видеть, что и 2*- является линейным мно-
гообразием.	ч
(2.9.3)	(2^ = 2.
(2.9.4)	Если х—вектор из и xry — Q для всех
у€4>, то х = 0.
Ядро матрицы связано с множеством образов тран-
спонированной к ней матрицы. В самом деле, ниже-
следующая теорема "показывает, что ядро Я содержит
векторы, ортогональные к столбцам матрицы Я*
(т. е. строкам Я). Этот факт указывает другой путь
к определению off (Я) и 3?(Я).
(2.10)	Теорема. Для любой матрицы Н
Доказательство. Векторх€<№(Я),если итоль-
ко если Ях = 0. Поэтому, в силу (2.9.4), х€<№(Я),если
и только если y^Hx = Q для всех у (естественно предпо-
ЛИНЕЙНЫЕ МНОГООБРАЗИЯ
19
лагается, что векторы у имеют соответствующую размер-
ность). Поскольку у'Нх = (Н'у)'х, то Их = 0, если и толь-
ко если х ортогонален всем векторам вида Н'у. Векторы
Н'у образуют 51 (Ят). Отсюда и из определения 9lL(H)
вытекает требуемое утверждение. □
Используя теорему об ортогональном разложении,
получаем в качестве следствия к теореме (2.10) утвер-
дение о том, что каждый вектор г (соответствующей
размерности) может быть единственным образом пред-
ставлен в виде суммы из двух слагаемых: первое из
них принадлежит 51 (Я), второе—<№(ЯТ). □
(2.11)	Теорема. Если И—матрица размера пхт
и z—п-мерный вектор, то имеет место единственное
разложение
z — z-\-z,
где z£ 91(H), a z£<^(H').
(2.11.1)	Упражнение. В (2.11) г является проекцией
z на 5?(Я), a z—проекцией г на <ЛР(ЯТ). Следовательно,
ЯГг = Ят£-
Матрица называется симметрической, если она
совпадает со своей транспонированной. Очевидно, что
симметрическая матрица квадратная.
(2.11.2)	Упражнение. Матрицы вида Н'Н и НН'
всегда симметрические.
В силу (2.10) для симметрической матрицы А спра-
ведливы соотношения
(2.11.3)	оГ(4) = 5Щ4) и 91(А) = <№1-(А).
Более того, если И—произвольная матрица, спра-
ведлива
(2.12) Теорема. 5? (Я) = 54 (ЯЯТ), 91 (Ят) = 5? (ЯТЯ),
<Г(Я) = о№(ЯтЯ) и <№(Н') = <№(НН').
Доказательство. Достаточно установить, что
<№(Н') = <№(НН') и о¥-(Я) = <Г(ЯтЯ).
Для этой цели будут использоваться теоремы (2.9)
и (2.10). Чтобы доказать совпадение <№ (Ят) и <№ (НН'),
заметим, что НН'х — 0, если Н'х = 0. С другой сто-
роны, если НН'х = 0, то х'НН'х — 0, т. е. ||Ятх||2 = 0,
20
ГЛ. II. ОБЩИЕ ОСНОВЫ
что влечет за собой равенство //тх = 0. Итак, Ятх = 0,
если и только если ЯЯтх = 0. То же самое доказа-
тельство устанавливает, что (#) = <№ (ЯТЯ). □
Квадратная матрица называется невырожденной,
если ее ядро содержит только нулевой вектор. В про-
тивном^случае квадратную матрицу называют вырож-
денной.
(2.12.1)	Упражнение. Если строки матрицы Н ли-
нейно независимы, то ядро о№(Ят) состоит лишь из
нулевого вектора.
(2.12.2)	Упражнение. Пусть hlt ..., hn—линейно
независимые векторы. Пусть G—матрица размера пхп
с элементами (G),y = hfhj (матрица G называется матри-
цей Грамма). Покажите, что G невырождена. (Указа-
ние. G = ННТ, где Н — матрица со строками Я}, ...,/£.
Примените (2.12.1) и (2.12).)
Если] А— невырожденная матрица, то существует
единственная матрица Д-1, являющаяся левой и пра-
вой обратной матрицей по отношению к матрице А:
Д(Д-1) = (Д-1) А = 1,
где /—единичная матрица.
(2.13) Теор	ема. Если Н—произвольная матрица и
б=/=0, то	—невырожденная матрица.
Доказательство. Если (НШ + 62/)х = 0, то
величина хт (НГН 62/)х = || Ях ||2 + б2 j|x||2 может быть
равна нулю, лишь если х = 0. □
Теорема о приведении симметрической матрицы
к диагональному виду
Мы завершим эту главу известной теоремой о ди-
агонализации симметрических матриц (доказательство
имеется у Веллмана [1]).
Число X (возможно, комплексное) называется соб-
ственным значением (квадратной) матрицы А, если
А — KI—вырожденная матрица.
(2.13.1) Упражнение. Если А—симметрическая
матрица с действительными элементами, то ее собст-
венные значения—действительные числа. (Указание.
ПРИВЕДЕНИЕ СИММЕТРИЧЕСКОЙ МАТРИЦЫ	21
Если (Д— М)х = 0, то и (Д — Х/)х = 0, где X—комп-
лексно сопряженная величина по отношению к %.)
(2.14) Теорема. Если А—симметрическая матрица
с действительными элементами и собственными числа-
ми	Х„, то существует матрица Т такая,
что 7'т = 7’-1 и
Т’ДТ = diag(Xx....Х„).
Символ diag (Хх, ..., Х„) обозначает диагональную
матрицу с элементами Х1( ...» Л,и. Если
то говорят, что Т—ортогональная матрица.)
(2.14.1) Упражнение. Если Т—ортогональная ма-
трица, то строки Т взаимно ортогональны и имеют
единичную длину. Этим же свойством обладают и
столбцы матрицы Т.
ГЛАВА III
ГЕОМЕТРИЧЕСКИЕ И АНАЛИТИЧЕСКИЕ СВОЙСТВА
ПСЕВДООБРАЩЕНИЯ ПО МУРУ — ПЕНРОУЗУ
Существование и единственность решения
по методу наименьших квадратов
Изучение операции псевдообращения начнем с харак-
теристики решения с минимальной нормой классичес-
кого метода наименьших квадратов.
(3.1)	Теорема. Пусть z—п-мерный вектор и Н —
матрица размерапхт.
(а)	Найдется вектор х, единственный, если это век-
тор с минимальной нормой, минимизирующий
\\z-Hxf. "
(Ь)	Вектор х является единственным вектором из
91 (НТ), удовлетворяющий уравнению
Нх — г,
где z—проекция z на 31(H).
Доказательство. Имеем, в силу (2.11),
z = z-[-z,
где z—проекция z на <Л’(ЯТ). Поскольку для каждо-
го х Нх € 91(H) и z g 91±(Н), то"г—Нх £ 91 (Н)п z_[_z—Нх.
Поэтому
||z—Ях||а = ||г—Ях + < =|| г-Ях||2 +j|z||2 >h||3.
•МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
23
Эта нижняя грань достигается, поскольку г при-
надлежит множеству образов И, т. е. z является об-
разом некоторого х0:
z = Hx(s.
Тем самым для этого х0 достижима нижняя грань:
С другой стороны, уже показано, что
||г_Ях||2 =||г—Ях||2+||?||2
и, следовательно, нижняя грань достигается только
для тех х*, для которых Нх* = г. Каждый вектор х*,
в соответствии с (2.11), может быть представлен в виде
суммы двух ортогональных векторов
х* =х* + х*,
где
х*езцят), %*€<№(#).
Поэтому
Ях* = Ях*
и, следовательно, || z—Ях*||2 = ||г—Ях*||2. Заметим да-
лее, что
||х*||2 = (|х*||2 + Цх*||2> ||х*||2,
где строгое неравенство возможно, когда х*=/=х*
(т. е. если х* не совпадает со своей проекцией на 5? (Ят)).
Выше было показано, что х0 минимизирует || z—Нх ||2,
если и только если Нх9 = г, и что среди векторов,
минимизирующих || z—Яг||2, каждый вектор с мини-
мальной нормой должен принадлежать множеству об-
разов Ят. Чтобы установить единственность вектора
с минимальной нормой, предположим, что х и х* при-
надлежат 91 (Ят) и что
Ях = Ях* = г.
24 ГЛ. Ill. ПСЕВДООБРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
Тогда
х*—хС^(Ят),
Но
Н(х* — х)=0,
так что
х*—х£Х (Я) = 5?1(/Я).	(2.10) .
Поскольку .вектор х*—х ортогонален самому себе,
||х*—х||2 = 0, т. е. х* —х. □
(3.1.1)	Примечание. Имеет место другое и, возмож-
но, более наглядное утверждение, эквивалентное тео-
реме (3.1).
Существует я-мерный вектор у такой, что
\\z—HHTyf = int\\z—Hx^.	|
х	i
Если	’
||г—77х0 Ц2 = inf ||z —77х||а,
х	I
то || х01|	(I Ят у || со строгим неравенством при х0 Ф \\Нту ||.	;
Вектор	у удовлетворяет уравнению	1
HH'y — z, ч	j
где z—проекция z на 5? (Н).
(3.1.2)Уп	ражнение. Вектор х0 минимизирует || z—Ях||2
тогда и только тогда, когда Hx0 = z, где z—проекция
г на 5? (Я).
Решение задачи среднеквадратической минимиза-
ции (3.1) сводится к решению так называемой систе-
мы нормальных уравнений.
(3.2) Тео	рема. Среди всех векторов х, минимизирую-
щих || z—Ях||2, вектор х, имеющий минимальную норму,
является единственным .вектором вида
(3.2.1)	х = Ятг/,	।
удовлетворяющим уравнению
(3.2.2)	ЯтЯх = Ятг.
л»
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
25
Примечание. Теорема указывает, что х может быть
получен с помощью любого вектора у0, удовлетворяю-
щего уравнению
по формуле
х^Н'у^
Доказательство. Согласно (2.12) 5?(ЯТ)=
=5ЦЯТЯ). Поскольку вектор Нгг принадлежит мно-
жеству образов Нг, он должен принадлежать множе-
ству образов НГН и тем самым должен быть образом
некоторого вектора х по отношению к преобразова-
нию ЯТЯ. Другими словами, уравнение (3.2.2) (по от-
ношению к х) имеет по крайней мере одно решение.
Если х является решением уравнения (3.2.2), то тог-
да х—проекция х на 5?(ЯТ), поскольку Нх = Нх,
(2.11). В силу того, что xg5?(/ZT), вектор х является
образом некоторого вектора у по отношению к преоб-
разованию Ят:
х = Нгу.
Итак, установлено, что по крайней мере одно ре-
шение уравнения (3.2.2) в форме (3.2.1) существует.
Чтобы установить единственность этого решения, пред-
положим j что
х1 = Нгу1 и х2 = Нлу2
удовлетворяют уравнению (3.2.2). Тогда
Я’Я(Я^1-Я’^) = 0
и, следовательно,
^т(У1-«/2)€<Г(ЯтЯ) = <Г(Я),	(2.12)
что влечет за собой равенство
#ят0/1-*/2)=о.
Поэтому
^-^ё<Г(ЯЯт) = <^(Ят)	(2.12)
26 ГЛ. III. ПСЕВДООВРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
и, значит,
Xi =	= Н*у2 — Хц.
Таким образом, существует в точности одно решение
уравнения (3.2.2) в. форме (3.2.1). Доказательство тео-
ремы будет закончено, если удастся показать, что
найденное в форме (3.2.1) решение является также,
в силу (3.1b), решением уравнения
Hx = z,
где z—проекция z на 5? (Я). Но в соответствии с (2.11.1)
(3.2.3)	Я’г = Ят£
В теореме (3.1) было установлено, что существует
единственное из 5£(ЯТ) решение уравнения
(3.2.4)	Нх=г.
Это (единственное) решение, следовательно, удовлетво-
ряет уравнению
ЯтЯх = Ятг.
В соответствии с равенством H^z — H^, (3.2.3), един-
ственное решение уравнения (3.2.4), принадлежащее
5£(ЯТ), должно совпадать с х—едйнственным решени-
ем уравнения (3.2.2), также принадлежащим ^(/7Т).
Наконец, вектор х, упоминаемый при доказательст-
ве (3.2), в точности совпадает с вектором х из тео-
ремы (3.1). □
Представление решения задачи
среднеквадратической оптимизации.
Проекционные матрицы
Теперь мы готовы дать явное представление решения
(с минимальной нормой) задачи среднеквадратической
минимизации. Нам потребуется вспомогательная лем-
ма, которую, чтобы не прерывать изложения основ-
ного материала, мы докажем позднее.
СРЕДНЕКВАДРАТИЧЕСКАЯ ОПТИМИЗАЦИЯ
27
(3.3) Лемма. Для любой симметрической матрицы А
с действительными элементами матрица
РА = lim (Л + 6Z)-1 А = lim А (А 4- 81)-'
0	д->0
существует. Для любого вектора г
z = PAz
является проекцией z на 5? (Л).
(3.4) Теорема. Для всякой матрицы Н размера пхт
матрицы
(3.4.1)	Я+ = Ит(Я’Я + 62/)-1Я’ =
(3.4.2)	=НтЯт(ЯтЯ+68/)-1
б-*0
существуют. Для любого п-мерного вектора г
x = H*z
является вектором с минимальной нормой среди всех
векторов, минимизирующих
||г-Ях|Г
Примечание. Здесь и далее используется символ I
для обозначения единичной матрицы, размерность
которой может быть уяснена из контекста. Например,
в выражении НТН-{-1 матрица 1 имеет размер тхт,
в то время как в НН*+1 размер у матрицы I—пхп.
Доказательство. Так как
(ЯТЯ//Т + 62Я) = Дт (ЯЯТ + 84) = (Н'Н 4- б2/) Нг
и матрицы (НН’Т 4-б2/) и (ЯтЯ4-б2/) невырождены,
когда 8г > 0, (2.13), то очевидно, что правые части
(3.4.1) и (3.4.2), если только они существуют, равны
друг другу.
Пусть z—n-мерный вектор, который, в соответст-
вии с (2.11), разлагается на сумму двух проекций на
St (И) и <№(Н'):
z~z + z, z£3L(H),	z£<N(HT).
Поскольку
Ятг = Ят?
(2.11.1)
28 ГЛ. III. ПСЕВДООБРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
и z должен быть образом некоторого вектора х0 по
отношению к преобразованию Н, то
(3.4.3)	(ЯТЯ + 6V)"i HJz = (ЯТЯ + 62/)"1 Hrz =
= (ЯтЯ4-62/)-1ЯтЯх0.
Предел последнего выражения всегда существует и
совпадает, в соответствии с (3.3), с х0—проекцией х0
на Э^Н'Н). Согласно (2.12) 5?(ЯТ) = 5?(ЯТЯ), и так
как
г = Ях0=Ях0,	(2.11.1)
можно сделать вывод, что
x0 = lim (tfT# + 62/)-itfTz
d-*0
всегда существует, является элементом 5? (Ят) и удов-
летворяет соотношению
Нха = z,
где z является проекцией z на 5?(Я). Требуемое за-
ключение следует непосредственно из (3.1). □
(3.5) Следствие. Для любого вектора z вектор HH+z
является проекцией z на 91(H), ^вектор (/—HH+)z
является проекцией z на <№(№). Для любого векто-
ра х Н+Нх—проекция х на 51 (Ят), а (/—Н+Н)х —
проекция х на # (Н).
Доказательство. В силу (3.4.2) и (3.4.1)
НН+^ИтННЦНН' + ЬЧ)-1	и Я+Я = Ит(ЯтН +
6—>0	б—>0
+ Ьг1)~1НТН. По лемме (3.3) HH+z является проек-
цией z на 91 (НН1), которая совпадает с проекцией z
на 5?(/7), (2.12). Аналогичным образом выводится,
что Н+Нх является проекцией х на 91(НТН) = 91 (Н1)
в силу (3.3) и (2.12).
Если z—проекция z на 91(H), то, (2.11), z—z
является проекцией z на <№(/7т). Это означает, что
z—HH+z—проекция г на off (Нг). Такими же рассуж-
дениями устанавливается, что(/—Н+Н)х—проекциях
на <К(Н). □
СРЕДНЕКВАДРАТИЧЕСКАЯ ОПТИМИЗАЦИЯ
29
Матрица Н+, определенная в теореме (3.4), и
есть, так называемая, обобщенная обратная матрица
Мура—Пенроуза для матрицы Н. Далее мы будем
называть эту матрицу более кратко—псевдообратной
матрицей к Н.
Следствие (3.5) заслуживает чрезвычайного внима-
ния. Оно дает способ определить четыре наиболее важ-
ных проекционных оператора в терминах псевдообрат-
ных матриц. Утверждение (3.4) (с незначительными
изменениями в доказательстве) приписывается Брэдеру
и Чарнсу [1].
(3.5.1)	Упражнение. Я+=Я-1, если Н—квадрат-
ная, невырожденная матрица.
(3.5.2)	Упражнение. Z/+ = НТ (Я//т)-1, когда строки И
линейно независимы. {Указание. Используя (2.12.2),
покажите, что НН'1—невырожденная матрица, а затем
используйте (3.4.2).)
(3.5.3)	Упражнение. Я+ = (ЯТЯ)-1ЯТ, когда столбцы
Н линейно независимы.
Прежде чем продолжать исследование свойств псев-
дообратных матриц, докажем лемму (3.3).
Доказательство леммы (3.3). Если А—про-
извольная симметрическая матрица и 60—ненулевая
скалярная величина, абсолютное значение которой не
превосходит наименьшего по модулю ненулевого соб-
ственного значения матрицы А, то для любого 6 та-
кого, что
0<|6|<|6о|,
матрица (Л + 81) невырождена и, следовательно, для
всех таких 6 матрица (A-j-SZ)"1 существует.
Для всякого вектора z имеем -
Z = Z + Z,
где
z£tt(A), z^Jf(A),	(2.11)
и
Az = Аг.
(2.11.1)
30 гл. III. ПСЕВДООВРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
Поскольку z$3l(A), то г=Лх0 для некоторого х0 и
тем самым
(Л +6/)-Uz=G4 + 67)-Mz =
= (Л +б/)-*Л (Лх0).
В силу теоремы (2.14) (теорема о приведении мат-
рицы к диагональному виду) следует, что
Л = ТРТТ,
где
D = diag(A,1..%„)
является диагональной матрицей, ..., кп—собст-
венные значения матрицы Л, Т—ортогональная мат-
рица:
'rt — 'p-i
Таким образом,
(Л + 67)-Mz = (А + 6/)-1Л2х0 = Т (D + 6/)-ф*Т%.
Легко видеть, осуществляя предельный переход над
каждым элементом матрицы, что
lim(D + 6Z)-1D2«D
- б->0
и, следовательно,
lim (Л + 6/)-1 Л z = Т DTTx0 — Лх0 = z,
д->о
где z является проекцией z на (Л).
Такие же аргументы справедливы при вычислении
Иш Л (Л 4-6/)-1 z. □
б->0
В (3.5.1)—(3.5.3) формулы для Н+ даны были в том
случае, когда строки или столбцы матрицы Н+ были
линейно независимы, что позволило воспользоваться
обратными матрицами (ЯЯТ)-1 или (ЯТЯ)-1. Однако
имеет место случай, когда условие линейной незави-1
СРЕДНЕКВАДРАТИЧЕСКАЯ ОПТИМИЗАЦИЯ
31
симости строк или столбцов не выполнено. Например,
В таких случаях матрица Н+ не имеет простой фор-
мулы в терминах обратных матриц, как в (3.5.1)—
(3.5.3).
Для лучшего понимания структуры матрицы Н+
обратимся сначала к рассмотрению следующих част-
ных случаев: Н—матрица размера (1x1), Н—диаго-
нальная матрица, Н—симметричная матрица, Н—пря-
моугольная матрица.
Если Н имеет размер (1x1), то
( 0, если Я = 0,
Я+=Иш(Я2 + 62/)-1Я = < ’
б8_>о	'	( 1/Я, если Я^=0.
Если Н—диагональная матрица:
/7 = diag(M, ...,%„),
ТО
H+ = diag(Xt, ...,Х+),
где
^+_( 0, если Ау=О,
I 1/Лу, если Хут4=0.
В терминах наименьших квадратов это означает,
что, если
Л\
г = 1 ' ),	^ = diag(Xn ... , Х„)
Ч/
32 ГЛ. III. ПСЕВДООБРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
выбирается с целью минимизации
п
к-^ц2 = 2(^-М/Л
/=1
то, очевидно,
если
(произвольно, если Ау = О,
будут минимизировать соответствующую сумму квад-
ратов, а величина
п
/=1
будет наименьшей, когда £/=0 при Ху = 0. Таким об-
разом, решение с минимальной нормой в методе наи-
меньших квадратов с диагональной матрицей Н задается
формулой
где	„ч
= т. е. х = Я+г.
(3.6) Частный случай симметрических матриц Н
Пусть И—симметрическая матрица размера тхт.
Согласно теореме о приведении симметрических мат-
риц к диагональному виду имеем
Н— TDTT,
где Т—ортогональная, a D—диагональная матрицы.
В силу (3.4)
Н+ = lim Т (D* + 62/)"1 £>ТТ =
6—>0
= Т Qim (D2 + 62/)-!£>J Тт = TD+T.
ЧАСТНЫЙ СЛУЧАЙ СИММЕТРИЧЕСКИХ МАТРИЦ Н 33
Итак, псевдообращению симметрической матрицы
соответствует псевдообращение диагональной матрицы
ее собственных значений. Поскольку Н невырождена
тогда и только тогда, когда все ее собственные зна-
чения ненулевые (в том случае D+ — D~1), то
Я+ = TD-i7’T,
если Н—симметрическая и невырожденная матрица.
Далее, поскольку ТТг = TtT = I, легко видеть, что в
случае невырожденной симметрической матрицы Н
НН+ = Н+Н — 1 и, значит, Н+=Н~1.
Следующий результат может быть выражен в дру-
гих обозначениях. Он оказывается полезным при фор-
мулировках так называемых теорем о спектральном
представлении (ср. с (3.15)).
Если столбцы матрицы Т обозначить tj, / = 1,
..., т, то Т можно представить в виде блочной мат-
рицы
В соответствии с теоремой о приведении матрицы
к диагональному виду
(3.6.1)	Н = TDT* = 5 Ь.ЫЧ.
i=i '
Более того, поскольку
Т'Т = 1
имеем
( 1, если I = /,
= \ л
7 I 0, в остальных случаях,
так что столбцы матрицы Т ортогональны и имеют
единичную длину. Далее имеет место равенство
НТ = TDTTT = TD,
которое можно представить в виде
2 А. Алберт
34 ГЛ. III. ПСЕВДООБРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
Таким образом, каждый вектор tj является собст-
венным вектором Н, отвечающим собственному значе-
нию Ху. Если не все Ху различны, векторы tj тем не
менее взаимно ортогональны.
Тот факт, что Н+ = TD+T'1, может быть выражен
в форме
(3.б'2)	Я+ = 2х%7}.
/=1
(3.7)	Упражнения
(3.7.1)	Пусть Н—симметрическая матрица размера
тхт, первые k (k^m) собственных чисел Хх, ..., Xft
которой ненулевые.
(а)	Покажите, что для Н существует представление
H = TDT\
где
/	m-k \
D — diag \Ч» • • •,	0, ..., 0 /
и Т—ортогональная матрица. (Указание. Если!) не уст-
роена нужным образом, можно использовать матрицу
перестановок, которая всегда ортогональна, чтобы по-
лучить требуемое свойство).
(Ь)	Обозначим столбцы матрицы Т через tu ..tm.
Покажите, что
5?(//) = ^(^, ...,М и <Г(Я) = ^(^+1........ta).
(3.7.2)	Покажите, без использования теоремы о при-
ведении матрицы к диагональному виду, что у сим-
метрической матрицы Н собственные векторы х и у,
отвечающие различным собственным значениям, орто-
гональны (х | у).
Представление (3.6.2) особенно интересно тем, что
отчетливо указывает на разрывный характер операции
псевдообращения. Две матрицы могут иметь элементы,
мало отличающиеся друг от друга. Однако, если их
ранги различны (например, одна из них сингулярна,
а другая невырождена), отвечающие им псевдообратные
матрицы обычно очень сильно отличаются друг от друга.
УПРАЖНЕНИЯ
35
Для примера рассмотрим диагональные матрицы
п /4 0\ л _	0 А
\0 0; и 272	\0 10-10У
с почти одинаковыми элементами. Очевидно, что
М <Л /Ч- ° А
^1 = \0 О/ И ^=\0 Ю10/
имеют сильно отличающиеся элементы. Используя
представление (3.6.2), легко понять этот факт. Дейст-
вительно, функция
I 1/Х, если ^=/=0,
V =<
( 0, если X = 0,
имеет разрыв вточкеХ = 0. Отсутствие непрерывности
операции псевдообращения приводит к серьезным вы-
числительным трудностям, которые будут обсуждаться
в следующем разделе.
В теореме (3.8) будет показано, что операция псев-
дообращения прямоугольной матрицы может быть за-
дана с помощью операции псевдообращения симметри-
ческих матриц:
Н+= (Н*Н)+НТ = Н* (НН*)+,
что позволяет, по крайней мере для теоретических
исследований, вычислять псевдообратные матрицы с по-
мощью псевдообращения симметрических матриц, ко-
торые предварительно приводятся к диагональному
виду каким-нибудь подходящим, хорошо изученным
способом. Однако существует другой, менее утомитель-
ный, способ для вычисления Н+ (гл. V). Вычисление
Н+ в случае прямоугольной матрицы Н является до-
статочно серьезной проблемой, что, по-видимому, уда-
лось ощутить и читателю.
(3.7.3)	Пусть Н—матрица размера п х т и , хг,
г^т,—ортонормальная система векторов таких, что
^(Н) = ^>(х1,	хг).
Тогда
36 ГЛ. 111. ПСЕВДООБРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
(Указание. Воспользуйтесь соотношениями (3.5) и (2.7).)
Симметрическая матрица Р называется проекционной
матрицей, если она идемпотентна (т. е. Р2 = Р).
(3.7.4)	Собственные числа проекционной матрицы
принимают два значения: 0 и 1.
(3.7.5)	Если Р—проекционная матрица, то Р+ = Р
и Рх—проекция хна5?(Р). Если х € 91 (Р), то Рх = х.
(3.7.6)	НН+, Н+Н, I—HH+, / — Я+Я—проекцион-
ные матрицы.
(3.7.7)	Если Ру, ..., Рп—проекционные матрицы,
обладающие тем свойством, что PtPj = 0 при i j, и
если Р еще одна проекционная матрица такая, что
Р) = ^( -S Pj ). то Р = 2 Pj.
\/=1	/	/=ь
п
(Указание. Покажите вначале, что Q = 2^/ является
проекционной матрицей. Тогда Q+ = Q и QQ+x = Qx,
где Qx—проекция х на 5?(Q). С другой стороны,
РР+х=-Рх является проекцией х на 91 (Р). Поскольку
.“Л (Р) = 9i(Q), отсюда следует, что Рх = Qx для всех х.)
(3.7.8)	Пусть Ну, .... h„—столбцы матрицы Н. Тогда
для любого х вектор НН+х является проекцией х на
^{hy, ...,hn).
(3.7.9)	Если И—произвольная матрица, то лх = 0
тогда и только тогда, когда найдется такой вектор у,
что х = (/—Н+Н)у.
(3.7.10)	Если Н—произвольная матрица, то z £ 91 (Н)
в том и только в том случае, если найдется вектор и
такой, что z = HH+u.
Свойства матриц Н+, Н+Н, НН+
Теперь обратимся к исследованию наиболее важных
свойств матрицы Н+.
(3.8)	Теорема. Для любой матрицы Н
(3.8.1)	Н+=(Н'Н)+НТ,
(3.8.2)	(ЯТ)+=(Я+)Т,
(3.8.3)	Я+=ЯТ(ЯЯТ)+.
СВОЙСТВА МАТРИЦ Н+, Н+Н, НН+
37
Доказательство. Заметим, что
(ЯТД)+ДТ = Him [(НТН)2 + 62/]’1 (ЯТН)| Нт
и
Н+ = lim \Н'Н4- 6s/]-1 Н\	(3.4)
6-*0 '
Согласно (2.11) любой вектор z может быть представлен
в форме
Z = Нхй + Z
для некоторого х0, где
Ятх = 0.
Поэтому
(3.8.4)	(Ят//)+Ятг = Нт [(Ят//)24- 62/]-1(/7т//)2х0
б-> о
и
(3.8.5)	//+z = lim [ЯтД4-б2/]-1ЯтЯх0.
«-►о
Используя теорему (2.14) о приведении матрицы к диаго-
нальному виду, имеем
H'tH = TDTr,
где D—диагональная, Т —ортогональная матрицы., а
вместо (3.8.4) получаем равенство
(ЯтЯ)+Ятг = Т /Ит [D2 + 62/]-1D2| Ттх0,
и в то же время (3.8.5) приобретает вид
H+z = T { Иш [D4-62/]-1Dj 7%.
Диагональные элементы матриц в фигурных скобках
в выражениях для (НТЯ)+ЯТ и Н+ совпадают, что и
доказывает (3.8.1).
38 ГЛ. III. ПСЕВДООБРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
Чтобы доказать (3.8.2), заметим, что (ЯЯТ 4- 62/)"1 —
симметрическая матрица и, следовательно, в силу (3.4.1),
(Дт)+ = lim (ШГ + б2/)"1 Н =
в-*о .
= Пт[Ят(ЯЯт + б27)-1]т=	(3.4.2)
б -* о
= (Н+)Т-
Справедливость утверждения (3.8.3) вытекает из
(3.8.2), поскольку
(3.8.6)	[(/7Т)+]Т = Я+,
и (3.8.1), согласно которому
(3.8.7)	(Я’)+=(ЯЯ’)+Я.
В силу того, что (ННГ)+—симметрическая матрица,
(3.8.3), следует из (3.8.6) после операции транспонирова-
ния в (3.8.7). □
Характеризация Пенроуза
псевдообратной матрицы
В своей работе 1955 г., которая, по всей вероятности,
возродила интерес к обобщенному обращению, Пен-
роуз [1] характеризовал псевдообратную матрицу как
(единственное) решение совокупности матричных урав-
нений. Псевдообратная матрица Н+, введенная выше,
удовлетворяет условиям Пенроуза.
(3.9)	Теорема. Для любой матрицы Н В~Н+,если
и только если
(3.9.1)	НВ и ВН—симметрические матрицы,
(3.9.2)	НВН = Н,
(3.9.3)	ВНВ = В.
Доказательство. Необходимость. Согласно оп-
ределению
НН+ = lim ННТ\ННТ + б2/)"1
б-* о
и
Н+Н - lim (ЯТЯ+б2/) Н'Н'
б-* о
ХАРАКТЕРИЗАЦИЯ ПЕНРОУЗА
39
являются симметрическими матрицами. Это доказывает,
что Н+ удовлетворяет (3.9.1). В силу (3.5) НН+ яв-
ляется проектором на 91 (Н). Действительно, Нх g 91 (Н)
для всех х, а (3.7.5) гарантирует, что (НН+){Нх} = Нх.
Этот факт, в силу произвольности х, указывает на
справедливость (3.9.2). В силу (3.8.1)
(3.9.4)	Я+Я = (ЯТЯ)+(ЯТЯ),
и, согласно (3.8.1) и (3.9.2),
Н+ = (ЯТЯ)+ Ят = (ЯТЯ)+ [Н (Я+Я)]т =
= (ЯТЯ)+ЯТ(ЯЯ+)Т.
Поскольку НН+ является симметрической матрицей,
(3.7.6), то
Н+ = (ЯТЯ)+ Ят (НН+) = (Я’Я)+ (ЯТЯ) Н+
и в соответствии с (3.9.4) правая часть последнего
равенства совпадает с
(Н+Н)Н+,
что доказывает справедливость (3.9,3).
Достаточность. Предположим, что матрица В удов-
летворяет (3.9.1)—(3.9.3). Поскольку
ВН = (ВНу и Н = НВН,
то
Н = НВН = НН'В\
Далее, в силу равенства
НН+Н = Н,
имеем
Н+Н = Я+ (ННТВГ) = [Н (Я+Я)]т Вт
и, следовательно,
(3.9.5)	Я+Я = ЯТ5Т = ВЯ.
Так как В = ВНВ и поскольку НВ—симметриче-
ская матрица,
(3.9.6)	В' = НВВ\
40 ГЛ.-111. ПСЕВДООБРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
Умножая слева (3.9.6) на НН*, находим, что
НН+ВТ = НН+НВВ' = НВВТ, (3.9.2)
где, согласно (3.9.6), правая часть последнего равен-
ства совпадает с Вг. Поэтому
(3.9.7)	=
Отсюда, после транспонирования в обеих частях (3.9.7),
следует, что
В = В(НН+)Т = (ВН)Н+.
Наконец, отсюда и из (3.9.5) можно заключить, что
В = Н+НН+.
Требуемое равенство В — Н+ имеет место, поскольку
Н+НН+=Н+. Q
Рассматриваемая Пенроузом характеризация псев-
дообратных матриц чрезвычайно полезна при выводе
матричных тождеств. Например, если предполагается,
что некоторое выражение совпадает с матрицей, псев-
дообратной к данной матрице Н, удобный путь про-
верки этого предположения состоит в проверке соотно-
шений (3.9.1)—(3.9.3).	ч
Упражнения
(3.10) Упражнение. Если Ли//—невырожденные мат-
рицы, то, как хорошо известно, (АВ)~1 = В~1 Л-1. Ис-
пользуя (3.9), покажите, что, вообще говоря, равенство
(АВ)+=В+А+ неверно. Какие условия нарушаются?
Придумайте конкретный пример. (Для детального изу-
чения этой проблемы см. (4.10)—(4.16).)
(3.11) Упражнение. Докажите следующие соотно-
шения:
(3.11.1)	(Я+)+ = Я.
(3.11.2)	(ЯТЯ)+ = Н+ (Н'У, (ЯЯТ)+ = (Ят)+ Н+.
ПРИМЕНЕНИЯ К МАРКОВСКИМ ЦЕПЯМ
41
(3.11.3)	Если А—симметрическая матрица и а > О,
то (Да)+=(Л+)“ и Аа(Ла)+ = (Ла)+ Аа = АА + .
(3.11.4)	(ЯТЯ)+ = Н+ (ННГ)+ Н = Н* (НН')+ (И*)*.
(3.11.5)	5?(Я+) = 34(Я+Я) = Я(//Т),
<АГ (Я) = <№ (Н+Н) = оГ [(ЯТЯ)+].
(3.11.6)	Если А—симметрическая матрица, АА+ —
= А+А.
(3.11.7)	НН+ = (ЯЯТ) (ЯЯТ)+ = (ЯЯТ)+ (ЯЯТ)
и
Н+Н = (ЯТЯ) (Нгиу = (ЯТЯ)+ (ЯТЯ).
(3.11.8)	Если А — симметрическая матрица и а > О,
Л+Ла = ЛаЛ + .
(3.11.9)	Если Н—ненулевая матрица размера их 1
(вектор-столбец), то Я+ = ЯТ/ЯТЯ и НН+ =’ЯЯТ/||Я||2.
Исследование всех решений
метода наименьших квадратов.
Применение к теории линейных уравнений,
к задачам оценивания по методу
наименьших квадратов с ограничениями,
к линейному программированию,
к определению проекционных матриц
и к марковским цепям
Свойства псевдообратных матриц и проекций, введен-
ных выше, могут легко быть использованы в теории
среднеквадратического приближения с ограничениями.
Однако сначала мы сформулируем на языке псевдооб-
ратных матриц общие результаты для среднеквадра-
тического приближения без ограничений.
(3.12) Теорема, (а) Вектор х0 минимизирует
(3.12.1)	|| г— Ях||2
тогда и только тогда, когда ха имеет вид
(3.12.2)	x0 = H+z + (I—H+H)y
для некоторого у.
42 ГЛ. III. ПСЕВДООБРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
(Ь)	Вектор х, минимизирующий (3.12.1), является
единственным тогда и только тогда, когда Н+Н = 1.
Последнее равенство справедливо в том и только в том
случае, если только нулевой вектор составляет ядро
матрицы Н.
(с)	Уравнение
(3.12.3)	Hx = z
имеет решение .тогда и только тогда, когда
HH+z==z.
Равенство HH+z=z имеет место тогда и только тогда,
когда z£ 91(H). Вектор х0 является решением (3.12.3)
тогда и только тогда, когда он задается в виде (ЗЛ2.2).
Уравнение, (3.12.3) имеет единственное решение (=H+z)
тогда и только тогда, когда HH+z = z и Н+Н=1.
Доказательство, (а) Вектор х0 минимизирует
|| z—Ях||2, если и только если Нхй — г, где г — проек-
ция z на 91(H), (3.12). Согласно (3.4) H+z минимизи-
рует (г—Ях||2, так что Нх„ — Н(Н+г). Это означает,
что х„—H+z принадлежит ядру матрицы Н (если х0
минимизирует (3.12.1). Последнее утверждение верно,
если и только если х0—H+z = (I—Н+Н) у для неко-
торого у, (3.7.9). Обратно, если хй задается формулой
(3.12.2), то Нхй = Н(Н+г), поскольку Н (/—Д+Я) = 0,
(3.9.2). Это доказывает утверждение (а).
(Ь)	Вектор Xi минимизирующий (3.12.1), является
единственным, если и только если (I—Н+Н)у = Ъ для
всех у. Это может произойти тогда и только тогда,
когда проекции всех векторов на оЛГ (/У) равны нулю.
А  это в свою очередь означает, что <ЛГ (Н) состоит
только из нулевого вектора. Следует отметить, что
равенство (I—Н+Н)у = 3 для всех у имеет место, если
и только если H+H — I, что доказывает утверждение (Ь).
(с)	Уравнение (3.12.3) имеет решение, если и только
если z является образом некоторого х по отношению
к Н. Это означает по определению, что z £ 91 (Н), если
и только если
z = HH+u
ПРИМЕНЕНИЯ К МАРКОВСКИМ ЦЕПЯМ
43
для некоторого и. Поскольку НН+ является проек-
тором, (3.7.6), то отсюда следует, что
HH+z = (НН+У и = НН+и = z.
Когда уравнение (3.12.3) имеет решение х0, это ре-
шение должно минимизировать || г—Ях||2 (минимальное
значение в этом случае равно нулю) и, следовательно,
вектор х0 должен задаваться формулой (3.12.2). Ре-
шение уравнения (3.12.3) единственно, если и только
если Н+Н = 1 (см. (Ь)). Справедливость утверждения
(с) вытекает теперь из изложенных выше фактов. □
Следствие. Пусть G—прямоугольная матрица и и —
вектор из 5i(G). Тогда
(а)	Множество = {х: Gx = и} непусто, и х0 мини-
мизирует || z—Ях||2 над множеством если и только
если
xn = G+u+H+l+(J—G+G)(l— Н+Н)у
для некоторого у, где
z = z—HG+u и H = H(I—G+G).
(b)	Вектор с минимальной нормой среди всех век-
торов, минимизирующих || z—Нх [|2 над <5Р, задается
формулой
G+u-\-H+~z.
Доказательство, (а) Если и %. 91(G), то, со-
гласно (3.12), zf—непустое множество и
^—{х: x = G+u + (/—G+G)v для некоторого у}.
Поэтому
min ||z—77x|| = min||z—Яу||,
о
где последний минимум достигается в точке у0, если и
только если
v0 = H+z+(I—Н+Н)у	(3.12а)
44 ГЛ. III. ПСЕВДООБРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
для некоторого у, так что х0 минимизирует ||z—77х||
над if, если и только если
х0 = G+и 4- (7 — G+G) [Н+г + (7 — Н+Н) у]
для некоторого у. Поскольку
Н+=НТ(НН1)+	(3.8.3)
и
(7 —G+G)2 = (7—G+G) = (7 —G+G)T,	(3.7,6)
то отсюда следует, что
(3.12.4.1) (7—G+G) Н+ = (7—G+G)277T (НН')+ = Н*,
и тем самым очевидно, что любой вектор х, миними-
зирующий [|z—Нх\\ над if, задается формулой
хй — G+u + li+z + (7-G+G) (7—Н+Н)у
для некоторого у.
(Ь) Так как матрицы 7 — G+G и 7 — 77 + 77—симме-
трические, то
[(7—G+G) (7—Н+Н) г/]г G+u =
= «/т (7— H+H)(I — G+G)G+u =0,
где мы воспользовались тем, что
(7—G+G)G+=G+—G+GG+ =0.
Поэтому
(3.12.4.2)	(7— G+G)(I —H+H)y±G+u.
С другой стороны,
[(7 —G+G) (7 — Н+Н) i/]T H+z =
= z/T (7 -71+71) (I—G+G) H+z =
= y l (I—H+71)7i+z. (3.12.4.1)
Поскольку H+ -H+HH^Q, отсюда следует, что
(7 — G+G) (7—Н+Н)у \^H+z. Следовательно, если х0
минимизирует || г—Hxf над if, то
II х0 II2 = || G+« + H+z ||2 +1| (7 -G+G) (7-Н+Н) у ||2
-	>||С+Щ-/7+г||2,
ПРИМЕНЕНИЯ К МАРКОВСКИМ ЦЕПЯМ
45
причем строгое неравенство имеет место, если
x0^G+u-{-H+z. □
(3.12.5)	Упражнение, (а) Уравнение Hx — z имеет
решение для всех z, если строки матрицы Н линейно
независимы.
(Ь) Если у уравнения Нх — г имеется решение, то
это решение единственно тогда и только тогда, когда
столбцы матрицы Н линейно независимы.
(3.12.6)	Упражнение. Пусть //—матрица размера
пхт с линейно независимыми столбцами. Обозначим
Н = Н(1—G+G), где G—произвольная матрица раз-
мера kxtn. Покажите, что (/—G+G)(I—H+H) — Q.
(Указание. Если w = (I—G+G)(I—H+H)v, то Hw = Q.
Используйте (2.12.1).)
Примечание. Если столбцы Н—линейно.независимы
и и принадлежит множеству образов G, то из (3.12.6)
и (3.12.4) вытекает, что существует единственный век-
тор, минимизирующий ||z—Hxf над хотя в общем
случае этот вектор не обязан быть единственным.
Однако вектор xa — G+u H+z имеет минимальную
норму среди всех векторов, минимизирующих ||z —Нх\\2
над &. Вектор x — H+z является вектором с минималь-
ной нормой среди векторов, минимизирующих ||z—//х||2
без ограничений. Векторы х и х0 отличаются на G+u —
вектор с минимальной нормой в &.
(3.12.7)	Упражнение (см. (3.12.4)). Если &—пустое
множество, то х* = G+u-\-H+z является вектором
с минимальной нормой, который минимизирует || z—Нх||
над &*, где &* = {х: || Gx—u||2 = min}. (Указание.
«У* = {х: х — G+u = (/—G+G)v для некоторого v}. Дока-
зательство является дословным повторением (3.12.4).)
(3.12.8)	Приложение к линейному программированию
(Бен-Израиль и Чарнс [2], Бен-Израиль и др. [1].)
Пусть а, b и с—заданные векторы и А—матрица
размера тхп. Рассмотрим проблему минимизации
величин стх относительно х при ограничениях
a sC Ах b
46 ГЛ. HI. ПСЕВДООВРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
(где векторные неравенства понимаются как неравен-
ства для всех компонент).
Следуя принятой терминологии, будем говорить,
что задача разрешима, если множество ограничений
не является пустым, и ограничена, если минимальное
значение на множестве ограничений для GTx является
конечным.
Предполагая, что задача разрешима, легко вывести,
что она ограничена, если и только если А + Ас = с.
Чтобы установить последнее равенство, допустим сна-
чала, что задача ограничена. Если <Л',(Л) = {0}, то
/ — А + А = 0, (3.5), и, следовательно, Л+Лс = с. С дру-
гой стороны, если О^г/^^Л) и если х0 принадлежит
области ограничений, то и хоН-ои/ принадлежит области
ограничений, где а — произвольная скалярная вели-
чина. Следовательно,
min стх ст (х0 + ау) = стх0 + асту
b
и минимальное значение GTx может быть сделано от-
рицательным и сколь угодно малым, если только с не
является ортогональным ко всем векторам £из ядра
матрицы Л. Поэтому задача является ограниченной,
если и только если
с€ХЧЛ) = $(Лт)'	(2.10)
Поскольку
А+Ас является проекцией с на ^(Лт), (3.5)
то очевидно, что ограниченность задачи влечет за собой
равенство Л + Лс = с.
Обратно, если Л+Лс = 0, то с£5£(Лт) и, следова-
тельно, с = Лгг для некоторого z. Поэтому стх = гтЛх.
Каждая компонента Ах ограничена снизу в силу
заданных ограничений, так что величина гтЛх также
ограничена снизу, когда х определяется областью
ограничений. Далее предположим, что с£5£(Лт).
Пусть, кроме того, строки матрицы А линейно не-
зависимы. В этом случае уравнение Ах —г имеет ре-
ПРИМЕНЕНИЯ К МАРКОВСКИМ ЦЕПЯМ
47
шение для каждого m-мерного вектора г, (3.12.5), и,
следовательно,
min стх = min mincTx.
a^Ax^b a^.z^b z=Ax
Множество векторов x, для которого z = Ах, описы-
вается соотношением
A+z + (Z — A+A)y,
где у принимает любые значения в n-мерном простран-
стве, (3.12). Поскольку с С 5? (Лт) = qW’-L (Л), т. е. орто-
гонален всем векторам из ядра матрицы Л (к этим
векторам принадлежит и вектор (7— А+А)у), то
cTx = cTA+z, если Ах = г.
Следовательно,
min стх = min стЛ+г= min [(Л + )тс]тг,
a^z^b
и, если z минимизирует правую часть, любой вектор х,
заданный формулой
х = Л+z + (7—Л + Л) у,
будет минимизировать левую часть над областью огра-
ничений.
Минимизация правой части тривиальна. Обозначим
компоненты а, Ь, (Л+)тс и z через а,-, Р/, у,- и соот-
ветственно. Тогда
п
min [(Л+)тс]тг= min S V&
0-^.2^ b	bj 7=1
*= 1, .... п
и компоненты вектора г задаются формулой
любое число между
и pz,
если
если
если
Y, < О,
У, > 0.
V; = 0.
Полученное решение существенным образом зависит
от предположения о независимости строк матрицы Л.
48 ГЛ. Ш. ПСЕВДООБРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
Однако существует модифицированный (и более слож-
ный) метод решения этой задачи, свободный от пред-
положения линейной независимости строк матрицы А
(Бен-Израиль, Робертс [1]).
(3.13)	Упражнения.
(3.13.1)	Если А и В—матрицы с одним и тем же ко-
личеством строк, тогда .5? (Д) ^ .5? (В), если и только если
ВВ+Д = Д.
(3.13.2)	Если А и В—матрицы с одним и тем же
количеством строк, то матричное уравнение
ВХ = А
имеет решение, если и только если 5? (Д) = (В).
В этом случае любая матрица вида
Х = В+А +(/—B+B)Y
(где матрица Y имеет размер матрицы X) является
решением данного матричного уравнения.
Решение матричного уравнения единственно, если
и только если B+B — I (т. е. JV’(B) = {0}).
(3.13.3)	Если Л!—невырожденная, А—прямоуголь-
ная (с тем же самым числом строк, что и у М) ма-
трицы, то
(Л4Д)+ МД = Д+Д.
Если М—невырожденная, А—прямоугольная (с тем
же самым числом .столбцов, что и у М) матрицы, то
(ДХ)(ДЛ^)+ = дд + .
(3.13.4)	Матричное уравнение (относительно X)
АХВ — С
имеет решение, если и только если
АА+СВ+В=С.
В этом случае общим решением является матрица
Х = А+СВ++М — А+АМВВ + ,
где М—произвольная матрица того же размера, что
и матрица X.
(3.13.5)	Для любой матрицы А
A+ = WAY,
ПРИМЕНЕНИЯ К МАРКОВСКИМ ЦЕПЯМ
49
где W и Y являются соответственно решениями урав-
нений
WAAT = Ar
и
ATAY = AT
(Деселл [1]).
(3.13.6)	Матрица А называется нормальной, если
она коммутирует с своей транспонированной. Покажите,
что в этом случае
А+А = АА + .
(3.13.7)	Если Т—ортогональная матрица, то
(ДТ)+ = ТМ+.
(3.13.8)	Пусть 5i(B)s5i(X). Тогда среди всех
матриц X, которые удовлетворяют уравнению
АХ = В,
матрица Х — А+В такова, что след матрицы Х'Х ми-
нимален, т. е. если Л2 = В, то trZTZ > trХ7Х, если
Z¥=x.
(3.13.9)	Следующие условия эквивалентны:
(а)	ХН+=0,
(Ь)	ХЯТ = О,
(с)	ХД+Я = 0.
(3.13.10)	Если Р — проекционная, Н—прямоуголь-
ная (с тем же числом столбцов, что и у Р) матрицы,
то
НТН= Р(ЁРН)+=(НТН)+Р, РН+=Н+
и
Н+ =(ЯТЯ)+ Ят,
где
Н=Н.Р.
50 ГЛ. III. ПСЕВДООБРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
(3.14)	Упражнения.
(3.14.1)	Пусть hlt ...» hn—последовательность век-
торов. Определим
А„ = 1,
Л„_п если hn линейно выражается
через hlt ..
А =
Ап-!—•---,т; ,------в остальных случаях.
hnAn-!h„
Покажите, что для каждого п
(а)	А„ является проектором на .........../гп).
(b)	Anhn+1 является (ненормализованным) (п — 1)-м
вектором в методе ортогонализации Грамма—Шмидта
системы векторов Лх, ..., hn.
(3.14.2)	Стационарная вероятность для марковской
цепи. Матрица Р называется стохастической матри-
цей, если ее элементы неотрицательны и сумма эле-
ментов в каждой строке равна единице. Такие матрицы
могут использоваться в качестве матриц переходной
вероятности за один шаг для однородных марковских
цепей. Если марковский процесс является эргодиче-
ским (условие эргодичности можно установить непо-
средственно по матрице переходной вероятности, Феллер
[1, гл. XV]), то
lim (РТ)п = (х | х |... i х),
где х является единственным вероятностным решением
(т. е. вектором с неотрицательными элементами, сумма
которых равна единице), удовлетворяющим уравнению
РТХ = Х.
Этот вероятностный вектор является установившимся
(стационарным) вероятностным распределением мар-
ковской цепи. Компонента под номером i вектора х
представляет стационарную вероятность события, что
процесс в любой фиксированный момейт времени на-
ходится в состоянии г.
ТЕОРЕМЫ О СИНГУЛЯРНОМ РАЗЛОЖЕНИИ
51
Используйте этот факт в качестве отправного момента
и покажите, что
(a)	y = Pty, если только у кратен вектору х,
(Ь)	строки матрицы /—Рт линейно независимы.
Обозначая столбцы матрицы / — Р через qlt ..., qn,
покажите, что
(с)	qu ..., qn линейно независимы,
(d)	если До = /,
= ^п-1
п = \, N — 1,
и и является АГ-мерным вектором с одинаковыми ком-
понентами, то
х = AN_ iii/ii1 A ги.
Указание. AN.t является проекционной матрицей на
& (<7i, • • •. 9»); Деселл, Оделл [1].)
Теоремы о сингулярном разложении
В (3.6.1) и (3.6.2) мы показали, что симметрическая
матрица и псевдообратная к ней могут быть представ-
лены с помощью собственных чисел и собственных век-
торов. Используя развитую ранее теорию, можно вы-
вести аналогичный результат в терминах собственных
значений и векторов матриц АТА и ААТ для произ-
вольной, прямоугольной матрицы А (см. Гуд [1]).
Начнем с напоминания читателю известного факта,
что любая матрица АТА имеет единственный симметри-
ческий квадратный корень, допускающий явное пред-
ставление
(ATA)1/2 = TDl^TT,
где Т—ортогональная матрица, с помощью которой
матрицу АТА можно получить из^ диагональной ма-
трицы D:
АТА = TDTT,
и D1!i—диагональная матрица, элементы которой суть
арифметические корни из (неотрицательных) элементов
52 ГЛ. III. ПСЕВДООБРАЩЕНИЕ ПО МУРУ-ПЕНРОУЗУ
матрицы D. (Элементы D, очевидно, неотрицательны,
поскольку
£> = 7’ТАТА7’,
так что для любого х
xTDx = ||A7’x||2>0.
В частности, если Z) = diag(d1( ..., dn) и вектор х
имеет все элементы, равные нулю, за исключением
элемента на /-м месте, который равен единице, то
xlDx = dj 0.)
(3.15) Теорема. Пусть А—матрица размера пхт
и L—диагональная матрица размера гхг, состоящая
из ненулевых собственных значений матрицы (ЛЛТ),
расположенных произвольным образом.
Тогда существуют матрицы Р и Q размеров пхг
и гхт соответственно такие, что следующие условия
имеют место:
(3.15.1)
(3.15.2)
(3.15.3)
(3.15.4)
(3.15.5)
(3.15.6)
(3.15.7)
A = PLl/2Q.
AAr = PLPT.
АА+ = РРТ.
РТР = 1.
ATA = QTLQ.
A+A = QTQ.
QQT = I.
Примечание. Согласно (3.15.4) и (3.15.7) столбцы Р
и строки Q ортогональны. Согласно (3.15.2) и (3.15.4)
AA'P—PL. Это указывает, что столбцы Р являются
собственными векторами матрицы ААТ; J-й столбец
является собственным вектором, отвечающим собствен-
ному значению Ху—элементу с /-го места диагонали
матрицы L. Согласно (3.15.5) и (3.15.7) то же самое
можно сказать и о /-м столбце матрицы QT (являю-
щимся j-й строкой матрицы Q). Этот результат часто
упоминается как теорема о сингулярном разложении.
Доказательство. В силу (3.11.3) и (3.11.7)
АА+ = (ААТ)1/2 [(ААт)1/2]+
ТЕОРЕМЫ О СИНГУЛЯРНОМ РАЗЛОЖЕНИИ
53
и в силу (3.9.2)
(3.15.8)	Л = (ЛЛт)1/г[ИЛт)1/2]+л-
Из (3.7.1) следует, что
(3.15.9)	ЛЛТ = 7’О7'Т,
где
п-г
D — diag (Xj, ..., Xr, 0, 0, ..., 0),
X,- > О и Т —ортогональная матрица. Представим Т
и D в виде блочных матриц:
г
L
6"
г
D =
п—г
п-г~
о
6
где
L = diag(X1, ..., Хг).
Тогда (3.15.9) может быть переписано в виде
(3.15.10)	ЛЛТ = Р£РТ,
что доказывает (3.15.2). Определим
(3.15.11)	(? = Рт[(ЛЛт)1/г]+Л.
Поскольку
(ЛЛт)1/2 = 7’£>1/27’т
и
L^iO
£>1/2 = ---•...
0 io
(ААту/2 = Р1А/2Р\
можно записать
(3.15.12)
Поэтому, согласно (3.15.11),
PL1/aQ = (PL1/2PT) [(ЛЛг)'/2]+Л = Л, (3.15.12)
и (3.15.8)
что доказывает (3.15.1).
54 ГЛ. HI. ПСЕВДООБРАЩЕНИЕ ПО МУРУ - ПЕНРОУЗУ
Далее,
• ЛЛ+=(ЛЛТ)(ЛЛТ)+=
= (TDTT)(7’D+TT) = 7’DD+TT= (3.11.7)
= РРТ,
что устанавливает (3.15.3). Поскольку Т —ортогональ-
ная матрица, ее столбцы ортонормальны и, следова-
тельно, Р'Р — 1, что устанавливает (3.15.4).
Отметим, что
Q CLQ = Лт [(ЛЛт)1/2]+РЛРт [(ЛЛт)1/2]+Л = (3.15.11)
= Лт[(ЛЛт)1/2]+(ЛЛт)[(ЛЛт)1/*] + Л= (3.15.12)
= ЛТ[(ЛЛ+)]Л=	(3.11.3) и (3.11.7)
= ЛТЛ.
Следовательно, справедливо (3.15.5).
Чтобы доказать (3.15.6), воспользуемся тем, что
QTQ = Дт [(ДДт)1/2]+ррт [(ДДт)1/2] + Д> (3.15.11)
Согласно (3.15.9)
(Д Дт)+=7’£>+7’т =
= PL~1PT,
а в силу (3.11.3)
[(ЛЛт)1/2]+ =[(ДДт)+]1/2 = Р£-1/2рт
Поэтому	4
QTQ = Лт (РЬ-^грт) (ррт) (PL-1/2рт) д =
= ЛТР£-1РТД =
= ЛТ(ЛДТ)+Л=	(3.8.3)
= Л+Л.
Наконец, согласно (3.15.11)
Q QT = Рт [(Л Л*)1'*]* Л Лт [(Л Лт)‘/2]+Р =
= РТ(ЛЛ+)Р=	(3.11.3) и (3.11.7)
= рт(ррТ)р=	(3.15.3)
= /. □	(3.15.4)
(3.15.13)	Упражнение. Ненулевые собственные числа
матриц ЛТЛ и ЛЛТ совпадают.
ТЕОРЕМЫ О СИНГУЛЯРНОМ РАЗЛОЖЕНИИ
55
(3.15.14)	Упражнение. А+= Q1L~ll2P1, Q+ = QT,
Р+=РТ.
(3.16) Упражнение. Матрица А допускает следую-
щее представление:
(3.16.1)
i
где %у-—ненулевые собственные числа матрицы ЛТЛ
(или ЛЛТ), повторенные столько раз, какова их крат-
ность. Кроме того,
(3.16.2)	ЛЛтру = Х,ру,	ЛтЛ<7у = ЛуАу
и
( 0, если 1#=/ )
(3.16.3)	PlPf={ .	.	. l=qlq,.
V	/ !lr]	1, если t = ]	| 1HJ
Представление (3.16.1) для матрицы Л не является
единственным. Однако не все представления такого
типа с pj и qj, удовлетворяющие (3.16.2), (3.16.3),
оказываются представлениями типа (3.16.1) для Л.
(3.17) Упражнение. Любая матрица Л может быть
представлена в виде следующей линейной комбинации:
л = 2ь/1/2 ЩМ»
где Ау—различные Ненулевые собственные числа мат-
рицы ЛЛТ и
U (%) = Х-1/М {/—(ЛТЛ—V)+ (ЛТЛ—%/)}.
При этом матрицы U (X) обладают такими свойствами:
t7(X/)IZT(Xft) = O, если k^j,
t7T(Ay) U (кк) = 0, если k^j,
\ л+=2а71/2^т(М-
(Указание. Матрица I—(ЛТЛ—Х7)+(ЛТЛ—KI) яв-
ляется проекционной на ядро матрицы ЛТЛ—Л/, ко-
торое натянуто на собственные векторы матрицы Л’Л,
отвечающие собственному значению X. Далее восполь-
зуйтесь представлением (3.16.1).) См. также Бен-Из-
раиль, Чарнс [1]; Пенроуз [1]; Голуб, Кахан [1].)
56 ГЛ. III. ПСЕВДООБРАЩЕНИЕ ПО МУРУ — ПЕНРОУЗУ
Итеративный метод отыскания
наибольшего собственного значения
и собственного вектора матриц ААТ и АТА
(3.19) Упражнение. Интеративный метод отыскания
наибольшего собственного значения и соответствую-
щего ему собственного вектора матриц ЛА1 и АТА.
Пусть
У О =	^Хд II»
xn+1 = ATyn/^ATyJ,
Уп + 1~	+1/|| А%п+1 II"
Тогда существуют пределы
lim x„== q и lim уп~р
П-* <0	п~* 00
при условии, что х0 не является ортогональным
к <ЛГ(АТА—Xj/), где —наибольшее собственное зна-
чение матрицы АТА. Более того,
ААтр = %1р и ATAq=X1q,
так что
А,!= lim ЦАту„||’= Нт ||Лх„||а.
п -* ®	п -► ее
ГЛАВА IV
ПСЕВДООБРАЩЕНИЕ БЛОЧНЫХ МАТРИЦ,
МАТРИЧНЫХ СУММ И ПРОИЗВЕДЕНИЙ МАТРИЦ
Блочные матрицы, I
Пусть clt	ст—набор векторов в «-мерном про-
странстве. Зададим матрицу размера пхт
— (pl: С2 : • . • : Ст),
столбцами которой служат векторы <у, /= 1, 2, ... , т.
Используя очевидное обозначение Cm_lt эту матрицу
можно представить в виде
(4.1)	С^С^с»),	/га=2, 3, ’...
Псевдообращение матрицы С1( очевидно, осуществ-
ляется по формуле
(4.2)
Поэтому, если удастся вывести удобное соотношение
между матрицами и C^-i, мы будем иметь хоро-
шую вычислительную процедуру псевдообращения
прямоугольной матрицы, в которой номера столбцов
будут играть роль «временного» параметра.
(4.3)	Теорема (Гревиль [2]). Если
(4.3.1)
то
(4.3.2)
Ст + 1 — (Ст ; ^т + 1),
58
ГЛ. IV. ПСЕВДООБРАЩЕНИЕ ВЛОЧНЫХ МАТРИЦ
где		
		— ^т^т)	+ 1
(4.3.3)	^т + 1—	II U “ СтСт) ст + 11]2 если (/ CmC^j Ст+1 0, (C/n)TC/ngm-H 1+l|CmC/B+i||2 I в остальных случаях.
Примечание. Равенство нулю вектора (/—CmC^,)cm+1
возможно, если и только если СтСтСт+1 = ст+1 (т. е.
если и только если ст+1 принадлежит множеству об-
разов Ст, (3.7.5)). Множество образов Ст натянуто на
векторы ..., ст (почему?), и, следовательно, km+1
определяется первой частью (4.3.3), если и только
если ст+1 не является линейной комбинацией clt ..., с„.
Доказательство. Утверждение теоремы уста-
навливается с помощью прямых подсчетов, состоящих
в достаточно простых проверках того факта, что пра-
вая часть (4.3.2) удовлетворяет условиям (3.9). По-
этому детали этих проверок оставим читателю. (Дока-
зательство, принадлежащее Гревилю, является кон-
структивным. Оно может оказаться поучительным для
заинтересованного читателя.)
(4.4)	Приложение к последовательной регрессии, I
Очень часто рассматривается следующая задача. Пред-
положим, что неизвестная функция независимой пере-
менной (например, времени) может наблюдаться
экспериментатором при некоторых значениях ее аргу-
мента. Требуется дать описание поведения этой функ-
ции, например, чтобы затем ее экстраполировать.
Типичным предположением для решения таких задач
является предположение о том, что в распоряжении
у экспериментатора имеется семейство функций «рДт),
<ра (т), ..., <рв (т) и задача описания неизвестной функ-
ции состоит в подборе соответствующих весовых
коэффициентов, образующих вместе срДт)—линейную
комбинацию, аппроксимирующую неизвестную функцию.
ПРИЛОЖЕНИЕ К ПОСЛЕДОВАТЕЛЬНОЙ РЕГРЕССИИ, I 59
Чтобы дать более точное описание процесса аппрок-
симации, обозначим Ci, |2, •••>?» наблюдения значе-
ний неизвестной функции в моменты времени тп
т2, ..., т„((ту, £у)—точка на плоскости в декартовой
системе координат). Решение задачи аппроксимации
неизвестной функции состоит в выборе скалярных
величин £>, ..., 5И, с помощью которых график
искомой функции, как функции т, задается формулой
т
и таких, что данная линейная комбинация наилучшим
образом приближена (в моменты ..., т„) к данным
наблюдаемым значениям.
Наиболее популярным методом выбора весов
§1» • • •. Вт (или поводом к решению этой задачи)
является метод наименьших квадратов (вертикальных)
отклонений искомой функции в точках ..., т„ от
кривой, заданной с помощью линейной комбинации
функций <Ру(т), или с более формальной точки зре-
ния выбираются так, чтобы минимизировать
п / т	\ 2
(4.4.1)	•
А=1 \	/=1	/
Заметим, используя векторно-матричные обозначения
/51\	/11\	/Ф/СиК
z = ( • )	х = 1 : 1, Cj = (	;	}
'	'Im'	'Ф/(^л)'
И
Ст = (tj j С2 i • • •  Cm)
(Cm—матрица размера nx/ft), что минимизация (4.4.1)
подбором ..., 5m есть не что иное, как минимиза-
ция по х:
(4.4.2)	|| г-C,„x||2.
В теореме (3.4) было показано, что вектор
(4.4.3)	=
60
ГЛ. IV. ПСЕВДООБРАЩЕНИЕ БЛОЧНЫХ МАТРИЦ
минимизирует (4.4.2) и имеет минимальную норму
среди всех векторов, которые также доставляют ми-
нимум величине (4.4.2). Допустим, что вектор х(т’
вычислен и минимальное значение суммы квадратов
II г- Стх^Т
(показывающее степень расхождения между экспери-
ментальными данными и модельной функцией) является
неприемлемо большим.
Стандартный прием в такой ситуации состоит
в том, чтобы пополнить семейство функций фД-),
Ф2.(’), ••••» Фя('). присоединяя к ним функцию фя+1(-),
и подобрать новый набор весовых коэффициентов
• • • > £я»+1 с целью минимизации новой суммы
квадратов,
п /	т 4- 1	\ 2
которую можно выразить с помощью векторно-матрич-
ных обозначений в виде
II2 С т+1Х IN
где вектор z определяется так же7 как в предыдущем
случае,
+ 1 — Pm •	+
/Фт + 1 (т1)'
'Ф/я +1 (тл)
а вектор х имеет теперь размерность (/п + 1):
/L \
х=( :
+1 *
Решение этой задачи задается вектором (с мини-
мальной нормой)
(4.4.4)
ПРИЛОЖЕНИЕ К ПОСЛЕДОВАТЕЛЬНОЙ РЕГРЕССИИ, I 61
а теорема (4.3) показывает, как х('я+1) связан с век-
тором х(<я):
”+1	\	*m+lZ
__/	—(^m+iz)CmCm+i
\	^m+lZ
(4.5) Упражнение. Пусть
z<m) = Cmx(mi и elm} = \\z—г(да)||2.
(а) е('в+1) причем строгое неравенство имеет
место, если ст+1 не является линейной комбинацией
с1г- ..., ст или если вектор ся+1 не ортогонален
к (z—г(Я1))-
(b) e‘'»+«=(l-pl.m+llm)e<“>,
Рг, m + i |	[(г—>»)т Си + 1] Ц] Z — г‘«)||||ся+1|[|+
^т + 1~ (J	СтСт) Ст + 1-
Величина рг, ш+цт называется частным коэффициен-
том корреляции между г и ст+1 при данных си ..., ст.
Дайте геометрическую интерпретацию частному коэф-
фициенту корреляции.
(с)
(d) Множественный коэффициент корреляции между
г и	ст определяется таким образом:
Gl» = *T>V(MllHl).
Дайте геометрическую интерпретацию множественному
коэффициенту корреляции и покажите, что
т
Д(1-р1/|У-1)=1-г?|й.
, Наводящим соображением для такой интерпрета-
ции мож:ет послужить (4.5а).
В большинстве случаев функции, для которых
строятся модели в виде описанных выше линейных
62
ГЛ. IV. ПСЕВДООБРАЩЕНИЕ БЛОЧНЫХ МАТРИЦ
комбинаций, является достаточно гладкими. Поэтому
тот факт, что остаточная сумма квадратов может быть
уменьшена при увеличении числа аппроксимирующих
функций фД-), не является достаточной причиной
для увеличения числа членов в аппроксимирующей
линейной комбинации. Лучшим результатом должен
считаться,тот, в котором модель достаточно экономна
(модельная функция содержит лишь несколько членов
разложения), а среднеквадратическая ошибка допу-
стима.
Во многих статистических задачах число членов раз-
ложения обуславливается несмещенностью оценок.
Специфическим фактом при слишком большом коли-
честве членов разложения является потеря точности.
На вопрос, «сколько же достаточно иметь членов
разложения?», частичный ответ дают корреляционная
и дисперсионная теории. Вопрос, «какое семейство
членов разложения выбрать?», является более труд-
ным, и на него нелегко дать количественный ответ.
/ т \ +	/т+1	\ +
Соотношение между ( 2 с/у) и (2 cjcj}
Теорема (4.3) дает возможность получить псевдообра-
щенце некоторых типов матричных сумм.
(4.6) Теорема. Пусть clt cit ... — набор п-мерных
векторов и
т
Sm= 2	с А	т — 1, 2, ...,
где матрица Ст определена формулой (4.1). Тогда
(4.6.1)	5*+х=
' 51+Г1±£ЦЛа±1-| (ЛЛ„)(ЛЛ,1Г_
ст+1^тст + 1 J
__+ (^/лст + 1)Т~Ь (^тся> + 1) ($тст + 1)Г
== '	cm+lAmcm + l
| если стне является линейной комбинацией с19...»
S+ + 1) (&£«+1). в остальных случаях.
СООТНОШЕНИЕ МЕЖДУ СУММАМИ
63
где
(4.6.2)	Am = I-SmS^.
Примечание. Матрица Ат является проекционной
матрицей на оЬГ(5^)= 91 (Sm), (3.5). Поскольку Sm —
~ Сц£т И
Я (СЯС5,) = &(<?„) =	(2.12)
= ^(си ...,ст)г	(4.3.4)
то Ат является проекционной матрицей на =2?х(с1, ..., ст)
и, следовательно, ст+1 £ «S’ (сх, ..., ст), если и только
если Атст+1 = 0. Поэтому ст+1 не является линейной
комбинацией . ct, с2, ..., ст, если и только если
^тст+1
Кроме того, в силу (3.14.1), матрицы Ат, т =
= 1,2,..., вычисляются рекуррентным способом
(в (3.14.1) hm следует заменить на сга).
Доказательство (4.6). Заметим, что
(4.6.3)	S++1=(COT+1CTm+1)+ =
= (C5.+i)T(a+1).	(3.11.2) и (3.8.2).
Требуемое представление (4.6.1) имеет место в силу
(4.3.2), (4.3.3) и (4.6.3) и того факта, что
I-CmC+m=I-SmS*m= Ат. □
(4.6.4) Упражнение (обобщение (3.14.1)). Пусть
Ст = (^1 i ^2 I • • • i ^т)
И
Dm = D0-D0Cm (С^О0С,в)+ ОД,
где Do—произвольная матрица вида D0 = RrR. Тогда
(a)	Dm = RrQmR,
где Qm—проекционная матрица на	(Rcr....Rcm)=
= ^(RCm).
f Dm ^D^^HDmcm+lY , если RCm+i
I	cm+iDmcm + i
(b) Dm+ i = < не является л. к. (линейной комби-
нацией)/?^, ..., Rcm,
Dm в остальных случаях.
64
ГЛ. IV. ПСЕВДООБРЛЩЕНИЕ БЛОЧНЫХ МАТРИЦ
(с) Если 7?т7?—невырожденная матрица, Rcm+1 яв-
ляется линейной комбинацией Rclt ..., Rcm, если
и только если Dmcm+1 = 0, так что Dm+1 определяется
первой половиной рекуррентной формулы, если
^mcm+i¥=0, и второй ее частью в противном случае.
Примечание. Если Ат = 1—СтС^ и Ао = 7, то
I	+ (^mcm+i)T рспи 4 г -У-П
4	— J ЛА с^,	’ еСЛИ ЛтСт + 1^,
^/л+1	\ . Ст+1 т
I Ат в остальных случаях.
Если RTR— невырожденная матрица, матрицы Dm и Ат
удовлетворяют одному и тому же рекуррентному урав-
нению. Они отличаются лишь различными начальными
условиями.
(4.6.5) Упражнение. Если А—симметрическая, не-
вырожденная матрица и hTA~1h^=—1, то
Блочные матрицы, II
Теоремы (4.3) и (4.6) могут быть, распространены на
матрицы с блоками большой размерности. Доказатель-
ства подобных утверждений носят вычислительный
характер, но в основном они такие же, как и дока-
зательства теорем (4.3) и (4.6). Мы сформулируем
аналоги теорем (4.3), (4.6) без доказательства, отправ-
ляя заинтересованного читателя к статьям Клайна [2, 3].
(4.7)	Теорема.
(4.7.1)	(U ; К)+ =	J ,
где
(4.7.2)	J = C+ + (I—C+C)KVt(U+yU+(I—VC+),
(4.7.3)	C = (I-UU+)V
и
(4.7.4)	К = {I + [77+У (7 —С+С)]т [U+V (7 —С+С)]}"1.
ПСЕВДООБРАЩЕНИЕ ВОЗМУЩЕННЫХ МАТРИЦ
65
Примечание. Поскольку любая матрица вида DTD
невырождена, (2.13), матрица 7( всегда существует.
Матрица К имеет тот же размер, что и матрица СТС,
размер которой в свою очередь совпадает с разме-
ром VTV. Если 1/+ известна, то матрицу (U ; У)+ можно
вычислить, обращая квадратную матрицу, имеющую
тот же размер, что и матрица VTV, и отыскивая I—С+С—
проекционную матрицу на <АГ (С).
Обобщением теоремы (4.6) на блочные матрицы
с блоками большой размерности является
(4.8)	Теорема.
(4.8.1)	(7777T + VVT)+=(CCT)++[7 — (VC+)T]x
X[(UU')+— (7777*)+х
X V (I—С+С) КУ' (U 77т)+] х
X[Z—VC+],
где С и К определяются так же, как в (4.7).
Примечание. Имеют место соотношения
(4.8.2)	С = [7 —(7777т) (77 77Т)+]У
и
(4.8.3)	К = {I + [(/ — С+С) VT (7777т)+V (/—С+С)]}-1.
Поскольку матрицы U и V симметричным образом вхо-
дят в левую часть (4.8.1), равенство (4.8.1) сохраняет
свою силу, если в его правой части U и V поменять
местами.
(4.8.4)	Упражнение. (77 i0)+ =	.
(4.8.5)	Упражнение. В частном случае, когда U—Cm
и V = ст+1, покажите, что утверждения теорем (4.7)
и (4.8) превращаются в утверждения теорем (4.3) и (4.6)
соответственно.
Псевдообращение возмущенных матриц
Теорема (4.8) является чрезвычайно важной, если нет
других оснований, кроме указанных выше, для раз-
вития теории псевдообращения матриц, заданных в фор-
ме АТА.
3 А. Алберт
66
ГЛ. IV. ПСЕВДООБРАЩЕНИЕ БЛОЧНЫХ МАТРИЦ
(4.9)	Теорема.
(4.9.1)	[ЯТЯН-А.-2ОТС]+=(ЯТЯ+ +V (l-H+H) (GTG)+ х
X (Z — Н+Н)*—К* (Z — Н+Н) [Н (GTG)+]T X
X QM (X) Q [Н (GTG)+] (Z — Н+НУ,
где
(4.9.2)	H = H(J + G+G) = H [Z—(GTG)+ (GTG)],
(4.9.3)	Q=Z— HH+
и
(4.9.4)	М (X) = [Z + MQH (GTG)+#TQ]-1.
Доказательство. Полагая Z7 = GTA,. V = ZZT
и используя (4.8), находим, что
[ZZTZZ-|-X_2GTG]+=
= (СС1)* + V [Z —(ЯТС+)]Т x[(GTG)+ —
—X4 (GTG)+ 77т (Z —С+С) КН (GTG)+] х (Z —ЯТС+),
где
С = (/—G+G)/ZT = Z7T,	I—C+C = Q
и
К = [Z 4- X2Q/Z (G^J+^QJ"1 = М (X).
Но
(Z— ZZTC+)T = (Z—ZZ+ (tfT)+)T = Z—ZZ+tf
и
(GT)+Z/T = (HG+)T.
Наконец, если Z + Л—невырожденная матрица, то
(Z + Л)-1 = Z-(Z + Л)-1Л,
так что
(Z+C+C)/< = QM(X) = QM(X)Q.
Отсюда непосредственно следует (4.9.1). □
Говорят, что скалярная функция <р (•) действитель-
ного переменного X есть О(Х") при X—>0, если вели-
чина <р(Х)/Х" ограничена при X—>0. Матричнозначная
ПСЕВДООБРАЩЕНИЕ ВОЗМУЩЕННЫХ МАТРИЦ
67
функция является функцией G(X"), если каждый эле-
мент матрицы есть О(Х”).
(4.9.5)	Следствие.
(а)	Л4(Х) = / + О(Х2) при Х->0,
(Ь)	[/РЯ + (X2)-XGTG]+ = (М)+ +
4-X2(Z — 77+ff)(GTG)+(Z — Н+Ну + О(М) при Х->0.
Доказательство, (а) Матрица М (X), очевидно,
есть 0(1), поскольку ПтЛ4(Х)=1. В силу тождества
Х.-.0
(/ + Л)-1 = /-Л(7 + А)-‘,
I	М(Х) —/ = - K2QH(GTG)+HrQM(K).
Следовательно, [Л4 (X)— /]/Х2—постоянная матрица,
умноженная на М (X). Итак, как и утверждалось,
j	Л1(Х)—/ = 0(Х2).
।	(Ь) Проверяется прямым подсчетом. □
(4.9.6)	Упражнение. Покажите, что существует пре-
дел lim М (X) и найдите его. (Указание. При е= 1/Х
СО
примените (4.9.5b) к матрице [/ 4-е_МтА]-1, где А =
= (GT)+HTQ.) ,
(4.9.7)	При каких условиях будет существовать пре-
дел lim (НТН H-82GtG)+?
Е -> О
Примечание. (4.9.7) также иллюстрирует сущест-
венно разрывные свойства операции псевдообращения.
(См. предшествующее упражнению (3.7.3) обсуждение,
а также Стьюарт [1], Бен-Израиль [1].)
(4.9.8)	Упражнение, (а) Если матрица LHU невы-
рожденная и А (X) = О (1) при X —► 0, тогда UHJ 4- ХА (X)
также невырожденная матрица для всех достаточно
малых X и
(b) [t7Tt/ 4-ХА (X)]’1 = (U4J)-1 + 0 (X) при X—<-0.
(4.9.9)	Упражнение. Пусть С—произвольная сим-
метрическая матрица. Тогда
(а)	(С4-Х2/)-1 и (/4-^2С+)-1 существуют всякий
раз, когда X2 достаточно велико или достаточно мало,
а также
(Ь)	[/ 4- Х2С]~х = (/ —СС+) 4- Х2С+ (7 4- Х2С+)-х,
з*
I
к
68
ГЛ. IV. ПСЕВДООБРАЩЕНИЕ БЛОЧНЫХ МАТРИЦ
если V достаточно велико или достаточно мало, и
(с)	(/ + КС)-1 = (/ —СС+) + С+ (С+ + V/)”1,
если X2 достаточно велико или достаточно мало.
(d)	[/+А,-2С]-1 = (/—СС+)—2 (- Х2)/(С+)/ +
7 = 1
4-0(Vn+2) при А,—>0.
(Указание. Представьте матрицу С в виде С = ТтйТ,
где Т —ортогональная, D—диагональная матрицы,
и воспользуйтесь (3.6).)
(4.10)	Понятие ранга
Пусть 3—линейное многообразие в n-мерном евклидо-
вом пространстве. Размерностью 3 (сокращенно dim 3}
называется максимальное число линейно независимых
векторов из 3. Фундаментальный факт, который мы
будем считать сам собой разумеющимся, заключается
в том, что произвольный базис в 3 имеет ровно г
линейно независимых векторов, где г = dim(e2:’).
(4.10.1)	Упражнение. Если 3^32, то
dim	= dim (32)~ dim (3J.
Если А—произвольная матрица, ранг А (сокра-
щенно rk Л) определяется как размерность множества
образов матрицы Л:
гк(Л) =dim [5?(Л)].
Отдельные свойства ранга играют важную роль в тео-
рии псевдообращения произведений матриц и в стати-
стических приложениях (гл. VI). Они являются пря-
мыми следствиями уже установленных результатов
и поэтому даются в виде упражнений.
(4.10.2)	Упражнение, (а) Для любой матрицы Л
rk (Л) = rk (Л Лт) = rk (Лт) = rk (ЛТЛ).
(Ь)	Для любых матриц Л и В (соответствующих
размеров)
гк(ЛВ) = гк(Л + ЛВ) = гк(ЛВВ+).
(с)	гк(ЛВ)<min[rk(Л), rk(В)].
ПСЕВДООБРАЩЕНИЕ ПРОИЗВЕДЕНИЙ
69
(d)	Если гк(А) = гк(АВ),то 5i(A) = 5i(AB) и урав^
нение (относительно х)
АВХ = А
имеет решение.
(4.10.3) Упражнение, (а) Если Р—проекционная
матрица,
rk(P) = trP.
(b) Если Ро, Pt и Р2—проекционные матрицы
с 9L (Pt) = 91 (Ро), 9L (Р2) (Ро) и PjP2 = 0, то
Р0 = Р1 + Ра,
если и только если rk(P0) = rk(P1) + rk (Р2) (ср. с тео-
ремой Кохрейна у Шеффе [1]).
Теперь мы обратимся к задаче псевдообращения
произведений матриц. Если А и В—невырожденные
матрицы, то (АВ)~1=В~1А~1. Однако равенство (АВ)+ =
=В+А + , вообще говоря, не является верным, что под-
тверждается таким примером:
А = (1 0), £ = (})> (АВ)+ = 1, В + А+=1.
Псевдообращение произведений
Тревиль [3] указал необходимые и достаточные усло-
вия, обеспечивающие справедливость равенства (АВ)+ =
=В+А+, которые мы сформулируем в виде теоремы.
(4.11) Теорема. Равенство (АВ)+=В+А + имеет
место тогда и только тогда, когда
(4.11.1)	5J(BBtAt)s5J(At)
и
(4.11.2)	5i(ATAB)<= 91(B).
Доказательство. Поскольку А+А = АТ(АТ)+,
включение (4.11.1) имеет место, если и только если
выполняется равенство
(4.11.3)	А+АВВ-'А' = ВВТА\	(3.13.1)
70
ГЛ. IV. ПСЕВДООБРАЩЕНИЕ БЛОЧНЫХ МАТРИЦ
и, аналогично, включение (4.11.2) имеет место, если
и только если
(4.11.4)	ВВ + АТАВ = АТАВ.
Покажем, что (4.11.3) и (4.11.4) являются необхо-
димым и достаточным условием для того, чтобы
(АВ)+=В+А + .
Предположим, что равенства (4.11.3) и (4.11.4) спра-
ведливы. Умножая (4.11.3) слева на В + и справа на
[(АВ)Т]+, имеем
В+ [А+ А (ВВТАТ)] (ВТАТ)+ =
= В+А + (АВ) [(А В)+ (АВ)]Т = В+А + (АВ).
Но в то же время
В+ [ВВТАТ] [(АВ)Т]+ = В+ВВТАТ [(АВ)Т] =
= (АВ)Т [(АВ)Т]+ = (АВ)+ (АВ).
Отсюда следует, что, если равенство (4.11.3) справед-
ливо, то
(4.11.5)	В+А+(АВ) = (АВ)+(АВ).
Повторяя аналогичные выкладки (умножая обе
части (4.11.4) на (АВ)Т слева и на А+ справа), нахо-
дим, что
(4.11.6)	(АВ) В+А+= (АВ)(АВ)+.
Правые части равенств (4.11.5) и (4.11.6) являются
симметрическими матрицами, и, следовательно, мат-
рица В+А+ удовлетворяет (3.9.1). Доказательство дос-
таточности будет "закончено, если можно будет пока-
зать, что В+А+ удовлетворяет (3.9.2) и (3.9.3).
Если обе части равенства (4.11.5) умножить слева
на АВ, то видно, что (3.9.2) на самом деле имеет
место. Свойство (3.9.3) для матрицы В+А+ является
следствием более тонких вычислений.
Поскольку
В+А+ = (В+ВВ+)'(А+АА + ) =
= [В+ (В+)’](ВТАТ)[(А+)ТА+],
(4.10.2) указывает на тот факт, что
(4.11.7) rk(B + A+)^rk(BTAT) = rk(AB).
ПСЕВДООВРАЩЕНИЕ ПРОИЗВЕДЕНИЙ
71
С другой стороны, (4.10.2b) утверждает, что
(4.11.8)	гк (АВ) = гк[(АВ)+ (АВ)] =
= гк[(В+А+)(АВ)Х	(4.11.5)
<гк(В+А+).	(4.11.2с)
Объединяя (4.11.7) и (4.11.8), находим, что
(4.11.9)	гк (В+А+) = гк(В+А+АВ),
так что уравнение (относительно X)
(4.11.10)	В+А+АВХ = В+А +	(4.10.2d)
имеет решение.
Умножая слева (4.11.10) на АВ и используя (4.11.6),
выводим отсюда, что
.	(АВ)(В+А+)(АВ)Х = (АВ)(АВ)+(ЛВ)Х =
к ’	=(ЛВ)Х=(ЛВ)(В+Л+).
Наконец, подставляя последнее выражение для ЛВХ
в (4.11.10), получаем, что
(В+Л+)(ЛВ)(В+Л+) = В+Л + .
Это равенство и есть требуемое равенство (3.9.3). Из
него вытекает, что В+Л+ = (ЛВ)+, если (4.11.3) и
(4.11.4) имеют место.
Чтобы доказать обратное утверждение (необходи-
мость), предположим, что (АВ)+ = В+А + . Тогда
(ЛВ)Т = [(ЛВ) (АВ)+ (АВ)]Т =
= (АВ)+ (АВ) (АВ)Т = В+А+ (АВ) (АВ)Т.
Если левую и правую части этого равенства умножить
слева на АВВХВ и использовать тождество
Вт = (ВВ+В)Т - ВТВВ+,
то легко найти, что
АВВТВ (АВ)Т= АВВТВВ+А+ (АВ) (АВ)Т
или, что эквивалентно,
(4.11.12)	АВВТ (/—А+А) ВВтАт = 0.
Так как равенство НтН = 0 влечет за собой равен-
ство Н = 0, то (4.11.12) указывает на тот факт, что
72
ГЛ. IV. ПСЕВДООБРАЩЕНИЕ БЛОЧНЫХ МАТРИЦ
(/—Л+Л)ВВТЛТ = О (в качестве Н следует взять мат-
рицу Н — {1—Л+Л)ВВТЛТ), где последнее равенство
эквивалентно (4.11.3). Равенство (4.11.4) устанавли-
вается тем же способом, заменой повсюду Лт на В в
предыдущем доказательстве. □
Общее представление для матрицы (ЛВ)+ получил
Клайн [1].
(4.12) Теорема (ЛВ)+ = В+Л*.
где
(4.12.1)	' Вг = А+АВ
и
(4.12.2)	A^ABiBt.
Доказательство. Очевидно,
(4.12.3)	АВ = А1В1.
К тому же
(4.12.4)	В^^Л+Л,,
поскольку
Л+Ai = А+ (AB^t) = (Л+Л)(Л+Л) BBf = Л +АВВ$.
Аналогично устанавливается
(4.12.5)	4Mi = ^+4.
Действительно, в силу равенств
(ЛМх) = Л? (ABJit) BtBf = Л+ (ABjBj) = ЛМ1.
операции транспонирования, примененной к ним, и
(4.12.4), получаем (4.12.5).
Теперь легко показать, что Лх и В± удовлетворяют
(4.11.3) и (4.11.4). Имеем
ЛМ1В1 (ЛА)Т = (Л+ЛО В, (А.В.У^	(4.12.5)
= Л+ (ЛВ)(Л1В1)Т=	(4.12.3)
= В1(Л1В1)Т,	(4.12.1)
так что равенство (4.11.3) выполняется.
УПРАЖНЕНИЯ
73
Аналогично
B.BfAl (А&) = (ЯЧ) (AJJ =	(4.12.4)
= (ЛМ1)М1)(А1В1)= (4.12.5)
= А1А1В1,	' -
что доказывает (4.11.4). Тем самым
(A^J+^BtAt.
Требуемое утверждение вытекает из (4.12.3). |П
Упражнения
(4.13)	Упражнение. Пусть А и В—матрицы размеров
пхг и гхт соответственно. Тогда
(АВ)+=В+А+,
если rk(A) = rk(B) = r.
(4.14)	Упражнение. (АВ)+=В+А+, если
(а)	АТА = /,	или
(Ь)	ВВГ = 1,	или
(с)	В — Ат,	или
(d)	В = А+.
(4.15)	Упражнение. Если Н—прямоугольная, S—
симметрическая и невырожденная матрицы, то
(Stf)+ = H+S-1 [I—lQS-'y (QS-1)],
где
Q = (/—НН+).
ГЛАВА V
ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
В последние годы наряду с теоретическими исследо-
ваниями появились работы, посвященные вычислению
псевдообратных матриц. В этой главе будут описаны
четыре различных способа псевдообращения. Первый
метод основывается на процедуре ортогонализации
Грамма—Шмидта (далее сокращенно ГШО), второй
является модификацией «старого верного» метода исклю-
чения Гаусса—Жордана, третий основан на идеях
градиентных проекций, а последний представляет собой
экзотическую процедуру, полученную с помощью тео-
ремы Кэли—Гамильтона.
Метод ортогонализации Грамма—Шмидта
(5.1) Метод I (Раст, Баррус, Шнеебергер [1]).
Пусть А—матрица размера пхт, ранга £sgZtnin(n, т).
Всегда имеется возможность так перенумеровать
столбцы А, чтобы первые k столбцов были линейно
независимы, а остальные столбцы—их линейные ком-
бинации.
Это замечание есть не что иное, как утверждение
о том, что найдется некоторая матрица перестановок Р
(квадратная матрица [из [нулей и единиц такая, что
любая строка и столбец содержат ровно одну единицу),
обладающая тем свойством, что
(5.1.1)	ЛР = (Я|$),
где R—матрица размера пх£, ранга k, а столбцы
[МЕТОД ОРТОГОНАЛИЗАЦИИ ГРАММА - ШМИДТА
75
матрицы S являются линейными комбинациями столб-
цов матрицы 7?:
(5.1.2)	S = RU для некоторой матрицы U. (3.13.2)
Матрица Р является ортогональной матрицей, так
что
А = (7? | RU) Рт
и
4+ = Р [7? (/i £/)]+.	(4.14)
Ранг матрицы (7 i U) совпадает с рангом матрицы
(/ i U) (/ i U)T= I + UUT, (4.10.2a), и, значит, равен k.
Поэтому строки матрицы (/ i U) линейно независимы.
Следовательно,
[7?(7Ш)]+ = (/^)+7?+=	(4.13)
= (/|7/)т(7 + (/77т)-17? + ,	(3.5.2)
откуда
(5.1.3)	Л+ = Р(/:{/)т(/ + (7(7т)-17?+.
Последнее равенство является отправной точкой
для вычислительной процедуры, основанной на методе
ГШО. Метод ГШО используется для вычисления Р,
R+, U и (/ + (/£/т)-\
(а) Вычисление Р.
Применим метод ГШО к столбцам матрицы А с той
лишь поправкой, что новые столбцы будут ортогональны,
но не обязательно ортонормальны, т. е., обозначая
столбцы А через alt .... ат, определим
Т *
г*__п _______zy __ 7 aici г*
— #1»	11	* ||2	>
ieSyllcill2
где
—	— 1 и Cf#=0}.
Векторы с] взаимно ортогональны, и
S (с*, ..., с*) = 2 (ах,..., at) для каждого I, (2.8.1).
Если cl,. ..., с*т перенумеровать так, чтобы нену-
левые векторы (которых должно быть ровно k) были
первыми, то та же самая перенумерация alt ..ат
приведет к тому, что первые k столбцов матрицы будут
линейно независимы, в то время как последние т—k
76
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
столбцов будут линейными комбинациями первых, по-
скольку равенство с;* = 0 имеет место тогда и только
тогда, когда a.j являются линейными комбинациями
предыдущих векторов. Итак, если Р—произвольная
матрица, для которой
(5.1.4)	...	=	...
где
/=1, 2, .... k.
>0,
= 0,
т,
то
(5.1.5)	ЛР = (а1|а8|...\am)P = (R\S),
где R—матрица размера nxk, ранга k, и S является
линейной комбинацией столбцов R.
(Ь) Вычисление R+.
Ненулевые векторы ..., ск, определенные выше,
являются результатом применения процедуры ГШО к
столбцам матрицы R. Если обозначить
то
и, следовательно, согласно (3.13.2) существует матри-
ца В. размер a kxk такая, что
(5.1.7)	RB = Q.
Действительно, поскольку матрица R имеет ранг k,
матрица В определяется формулой В — (RTR)~1RTQ.
Алгоритм для определения В задается далее форму-
лами (5.1.16). Поскольку Q—ортонормальная матрица,
QJQ — I, следовательно, В—невырожденная матрица
(QT7?B = Z), откуда
(5.1.8)	R = QB~\
Используя упражнение (4.14), находим, что
(5.1.9)	Z?+=BQ+ = B(QTQ)+QT = BQT.
МЕТОД ОРТОГОНАЛИЗАЦИИ ГРАММА — ШМИДТА
77
Переходим теперь к вычислению В, U и (/ +
(с) Вычисление В и U.
Обозначим столбцы R через г1г ..., rk и столбцы S
через $1( .... sm_k. Векторы (сх..ск, ск+1, ст),
определенные в (5.1.4), представляют собой ортого-
нальные, но не ортонормальные векторы, полученные
методом ГШО, из (гп rk, slt ..., sm_k). Действи-
тельно,
ci —
(5.1.10)	c„ / = 2.....................k,
i= 1 II 4 II
и
'	k T
(5.1.11)	0 = Cft+/ = S;-S|^|-C,., /=1.tn—k.
Из (5.1.10) легко вывести (индукцией по /), что
/
cj~ 2 ?<•/<.	/ = 1, 2, ...,£,
I -1
(5.1.12)
где
(5.1.13)
С другой стороны, равенство (5.1.11) показывает, что
k
(5.1.14)	sy=S«17r/,
i = 1
где о),7 получаются подстановкой (5.1.12) в (5.1.11):
78
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
Из (5.1.12) и (5.1.6) следует, что
НМчяН
где В—матрица размера kxk с элементами
(5.1.16)	=
в то время как из (5.1.14) вытекает, что
(5.1.17)	S — RU,
где U—матрица размера kx(m—k) с элементами
Отметим, что (5.1.13) определяет элементы через
Т/7-1’ 7(7-2. •••> Тп- Поэтому вычисления удобно про-
водить в следующем порядке: уп; у22, у12; у33, у23, у13
и т.д.
(d) Вычисление (I
Это обращение матрицы также выполняется с по-
мощью метода ГШО.
(5.1.18) Теорема. Пусть U—матрица размера kxг.
Метод ГШО преобразует столбцы матрицы
‘(4)
в матрицу ортонормальных векторов вида
Vz=k
r \vj*
где
и
I—уу^ц+ии*)-1.
Примечание, Ранг матрицы равен г, поскольку
f имеет такой же ранг, что и (у) = / +
Н-(7Т(7 — невырожденная матрица размера гХг (и, сле-
довательно, ранга г). Поэтому метод ГШО, преобра-
зующии столбцы ], будет давать лишь ненулевые
векторы.
МЕТОД ОРТОГОНАЛИЗАЦИИ ГРАММА — ШМИДТА
79
Доказательство теоремы. Положим Н =
= у Матрица Н имеет ранг г (Н+Н = /, (3.5.3)), и
91(У) = <&(Н). Следовательно, уравнение
HZ = V
имеет решение
H+V = Z.	(3.13.2)
Поскольку столбцы V ортонормальны, УТУ=/, тоУ+ =
=(УтУ)+Ут = у». Далее, в силу равенства 91 (V) = 91 (Н),
HH+=VV+=VVT.
Поэтому
ZZT = Я+ (VP) (Я+)т = (ЯТЯ)+ =
= (ЯТЯ)-Х, поскольку Н имеет ранг
В силу
получаем
и
Поэтому
г. (4.10.2а)
и (3.5.1),
UZ = Vt
z=v2.
V№ = ZZT = (H'fl)-1 = (Z + UTU)~i.
Вторая часть теоремы вытекает из тождества
(/ + UU')~l = /—U (IPU + Z)"1 Vе
и из того факта, что
V^UZ^UV^.
Тем самым
(I + UUT)~1 = I — U(V2Vl)U' = I—W □
Краткое изложение метода I. Нахождение псевдо-
обратной матрицы к матрице А размера пхт состоит
в следующем:
80
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
1.	Столбцы А преобразуются методом ГШО в орто-
гональные (но не ортонормальные) векторы. Из мно-
жества этих векторов образуется матрица (eJi ... \ с*т).
2.	Столбцы c*j переставляются с помощью матрицы
перестановок Р таким образом, что
(С1 ; С2 ! • • • i ст) ~ (С1: с2 ; • • • i ст) ? >
где Р—матрица перестановок—выбрана так, что
<7^0,	/ = 1, 2, ..., k,
Cj — O, / = &+1,
3.	Вычисляются	для / = i + 1...k; i = 1, ..., k
в соответствии с (5.1.13) (у,,= 1, yZy = 0, если i < /).
4.	Матрица В размера kxk имеет элементы ?,у/|кУ ||,
матрица U размера kx(n—k) имеет элементы со(7
(задаваемые формулами (5.1.15)), матрица (/ -J-t/{/T)-1
находится методом ГШО из столбцов матрицы и
О = ( С1
4 \IIMi “  ИЫ1Г
5.	Л+ = Р(7р)т(/ + £/(7т)-1В<Эт.
Примечание. Вычислительная программа на ФОРТ-
РАНЕ для этой процедуры приведена у Раста и др. [1].
(5.1.19)	Пример.
/10	1 1\
А=( о 1 —1 0 ),
\1 1	01/
(1 \
2 \	/0 \
1 I» = с4 = ( о ),
j_ /	\о /
2/
k = 2, Р = 1,
V11 — 1 >	У22	1 >	712 —	2 ’
МЕТОД ОРТОГОНАЛИЗАЦИИ ГРАММА — ШМИДТА
81
«11= h
Ри=1//2,
' 1
/2
2
«Кв
1 О'
— 1 о
10
о 1J
р22 = 2//б,
1
Кб)
ГШО
«21= ~ I, «22 = 0,
₽12=-1/Кб.
1 '
Кб
А-
1
Кб,
( 1
К2
о
К
1
/з
Т"
/15
1
/15
1
/15
3
/15
’К
/к
В =
О
Q =
1
г =
о
о
5
—5
О
3\
4 I
— i Г
3/
(/ + WT-BQ=1(J «
/ 3
Л+=(рг) (I+UU')-'BQ* = ±H
\ 3
(5.1.20)	Упражнение. Другой метод обращения мат-
рицы (Z + t/(7T). Обозначим столбцы U через и1г ..., иг
и положим
1Г„ = Г,
п-1
Го = /,
(1Гп_1Ц„)(1Гв_1Ип)т
1 + “п1Гп-1“п
п= 1, ..., г.
Тогда для каждого п
п
— 1
82
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
и, следовательно,
W„ = (I + UUT)~1.
(Указание. Воспользуйтесь (4.6.5) или же выведите
формулу для Wn индукцией по п.)
(5.1.21)	Упражнение. Другой метод псевдообращения
матрицы (I\U) (Тьюарсон [2]).
(а)	Если Р—квадратная матрица и PT(I; U)=S'T,
где STS = I, то (I\U)+=SP\
(b)	Если применить метод ГШО к столбцам мат-
рицы
k
k (—}
г \U*)
и полученную совокупность ортонормальных векторов
обозначить через sn s2, ..., sk, то найдется матрица
Р размера kxk такая, что
(у?) ? =	! s2 i • *  1sa)*
(с)	Представим 5 ss (s2 j s21... | sA) в виде блочной
матрицы
k
s=k(s-^.
r \^2/
Тогда	s
P=S1 и (I | U)+ =SSj.
Метод исключения Гаусса — Жордана
(5.2) Метод II (основан на методе исключения
Гаусса—Жордана (Бен-Израиль и Версан [1], Нобль [1])
' s Если А—матрица размера пхт, ранга k, всегда
существует невырожденная матрица Е и ортогональная
матрица Р такие, что
k m~k
k / I ! L \
(5.2.1)	ЕЛТЛР =	(-4—).
'	'	’ m-k \ 0 i 0 /
В действительности существует много таких матриц Е
и Р. Например, если Р является матрицей, приводя-
МЕТОД ИСКЛЮЧЕНИЯ2ГАУССА-ЖОРДАНА
83
щей АТА к диагональному виду таким образом, что
ненулевые собственные значения находятся в левом
верхнем углу:
то матрица
такова, что
ЕАТ АР = f —i-Л (РТЛТ АР) = ('-Д
\ 0 ]//'	\о|о/
и, следовательно, имеет место вариант равенства (5.2.1).
Однако метод, описанный ниже, требует лишь, чтобы
Е и Р удовлетворяли (5.2.1) (с некоторой матрицей L,
не обязательно равной нулевой матрице). Этот метод
основан на следующем тождестве.
(5.2.2)	Теорема. Если Е — невырожденная, Р—орто-
гональная матрицы, удовлетворяющие (5.2.1), то
А+=Р(ЕА^ АРУ ЕА\
Доказательство. Уравнение (относительно X)
ЛТЛХ = ЛТ
всегда имеет решение, (3.13.1), (3.13.2). Следовательно,
уравнение (относительно У)
(5.2.3)
ЛТЛРУ = ЛТ
всегда имеет решение, поскольку Р—невырожденная
матрица. Отсюда уравнение (относительно Y)
(5.2.4)	ЕЛТЛРУ = ЕЛТ
всегда имеет решение.
Среди всех решений уравнения (5.2.3) единственной
матрицей, минимизирующей 1г(УтУ), является матрица
(5.2.5)
У = (ЕЛТЛР)+ £ЛТ.
(3.13.8)
84
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
Множество матриц Y, удовлетворяющих уравнению
(5.2.4), совпадает с множеством матриц, удовлетворяю-
щих уравнению (5.2.3), поскольку Е — невырожденная
матрица. Следовательно, в этом множестве матриц У
минимизирует
tr(yTy) = tr[(Py)T(Py)]
(Р—ортогональная матрица).
В силу (3.13.8)
(5.2.6)	РУ = (ЛТЛ)+ЛТ = Л + .
Утверждение теоремы вытекает теперь из (5.2.5) и
(5.2.6). □
(5.2.7) Следствие. Если Е—невырожденная, Р —
ортогональная матрицы и ЕАГАР= ("А > то
Л+ = Р(Я+10) (ЕЛТ).
Осталось показать, как вычислить ЕЛТ, Н+ и Р.
(а) Вычисление Н+, ЕАТ и Р.
т п
Запишем расширенную матрицу т (ЛТЛ i Лт) и со-
вершим ряд операций над этой матрицей согласно при-
водимой ниже блок-схеме:
, л , ч ряд операций , т. . _n. v
т (ЛТЛ Лт) —----------(£ЛТ  £ЛТ) —►
'	•	'	(1-й шаг) \	/
перестановка первых	™	”
---------------> т (ЕАТ АР : ЕАТ) ~
т столбцов (2-й шаг)
k m-k
k /^L\ Г. Л \
=	( -4--i£AT ) .
m-k \0:О I /
Поскольку Е—невырожденная матрица, элементарные
операции первого шага обратимы. Ортогональная мат-
рица перестановок Р указывает, как переставляются
столбцы матрицы ЕАГА. Матрица ЕАТ составляет пра-
вый блок расширенной матрицы после первого шага.
Матрица Н размера kxm получается после второго
шага и совпадает с матрицей
МЕТОД ИСКЛЮЧЕНИЯ ГАУССА — ЖОРДАН А
85
(Ь) Вычисление Н+.
H+=(I\L)+ = ^ (Z+LZ?)"1-
Вычисление (Z + LL1)'1 производится либо согласно
(5.1.18), либо (5.1.20). С другой стороны, матрицу
(/ iL)+ можно вычислить по схеме (5.1.21).
(5.2.8) Пример.
Г—1	0	1	2^
—110—1
л_ 0-1	1	3
о 1 — 1 — 3 ’
1—10	1
1	0—1 —2,
(АТД \А) =
/4—2—2	—2	!	— 1	— 1	0 0	1	Г
=	—2	4—2—8	1	0	1—1	1—1	0
”	—2	—2 4	10	|	1	0	1—1	0	—1 ’
—2	—8 10	28	|	2—1	3—3	1	—2,
Основным элементом является 4-й элемент первой
строки (это означает: превратить все 4-е элементы
остальных строк в нуль, вычитая из каждой строки
первую, умноженную на подходящее число). В резуль-
тате получаем
/ 4	—2	—2	—2	— 1	-1	0	0	1	1]
— 18	12	6	0	4	5	— 1	1	—5	—4.
18	— 12	—6	0	—4	—5	1	— 1	5	4
54	—36	— 18	0	— 12	— 15	3	—3	15	12/
является третий элемент второй
Теперь основным
строки:
—2	2 0 —2
-18 12 6	0
12	11	2
3	3	3	3	3
4	5—51	—5
0	0	0	0	0
0	0	0	0	0
3
4
0
0?
0 0 0	0
0 0 0	о
86
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
Наконец, делим первую строку на —2, вторую на 6:
1	—1	о	1 1	1	2	1	1	2	1 1	
				6	6	6	6	6	6	
о	о	1	п •	4	5	1	1	5	4	
	о	Z	1	и »	6	6	6	6	6	6	—
0	0	0	о i	0	0	0	0	0	0	
0	0	0	о 1	0	0	0	0	0	0,	
								= (ЕЛТЛ ;£ЛТ)	
Этим заканчивается первый шаг. Матрица ЕАТ за-
дается правым блоком размера 4x6. Левый блок пре-
образуется с помощью матрицы перестановок
/о о 1 (П
0 0 0 1
0 10 0
.1 0 0 0,
которая 4-й столбец переводит на место 1-го, 3-й на
место 2-го, 1-й на место 3-го, а 2-й на место 4-го,
//|£\ г,
к виду 1 --J--}. В результате получаем
. fH
ЕАтАР — (.
\ о
/1 0 !	1 — П
0 1 I — 3	2
I.....Т’о ,
Матрица L—--правый верхний блок:
£ = Ц~2)’ Z+Li’ = (J
Поэтому
(Z+LLT'-nCs з)‘
1
(77+: 0) ЕА
14
5
—1
—4
2
17
5
3
	Г 6	—3	9	—9	3	—6\
1	7	5	2	—2	—5	—7
102	— 15	— 18	3	—3	18	15
	1 8	13	—5	5	—13	—8.
МЕТОД ГРАДИЕНТНЫХ ПРОЕКЦИЙ -
87
P(H+\Q)EAT =
(—15	—18	3	—3	18	15'
8	13—5	5	—13	—8	_	д +
7	5	2	—2	—5	—7	~Л	*
V —6	—3	9	9	3	—6>
(5.2.9) Упражнение. Пусть Е, А и Р определены
в (5.2.1). Покажите, что [последние 1пг—k строк мат-
рицы £ЛТ [всегда равны нулю. (Указание. Равенство
ХЛТЛ = О имеет место, если и только если ХЛТ = О,
поскольку можно выбирать матрицы X вида
k m-k
X = n(p\YM
Примечание. Набор из 20 программ для этой про-
цедуры приводят Бен-Израиль и Иджири [1]. Допол-
нительные уточнения содержатся у Тьюарсона [1].
Метод градиентных проекций
(5.3) Метод III (метод градиентных проекций, Пайл [1]).
Если Л—матрица размера пхт и b €ЗЦЛ), урав-
нение
(5.3.1)	Ах = Ь
имеет по крайней мере одно решение
(5.3.2)	х = А+Ь,
являющееся вектором, принадлежащим 5ЦЛТ), (3.1b).
Обозначим столбцы Лт через а2, а2, ..., ап и через
Ak (соответственно Ьк)—матрицу размера kxm (соот-
ветственно ^-мерный вектор), полученную из матрицы Л
вычеркиванием последних п—k строк (соответственно
последних п—k компонент вектора Ь). Поскольку урав-
нение (5,3.1) имеет решение, то решение имеют урав-
нения
(5.3.3)	A/txk = bk, k = l, 2, ..., n,
в силу того, что уравнения (5.3.3) являются одновре-
менно подмножеством системы уравнений (5.3.1). Кроме
того,
(5.3.4)	xk = A$k
88
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
являются единственным решением уравнения (5.3.3),
принадлежащим 3J(-42)==.^(Дц ..., ак), (3.4), (3.1b).
Описанная выше процедура дает простой рекуррент-
ный метод, связывающий хк+1 с хк. Поскольку х = А+Ь
совпадает с вектором хп, рекуррентные вычисления
за п шагов дадут желаемое решение уравнения (5.3.2),
если только b £ 91 (Л). Распространение этого приема
на общий случай будет дано ниже.
По определению хг является единственным вектором
из ^(ах), удовлетворяющим уравнению
а}х = Р1,
где р/—j-я компонента b (/=1, ..., /г). Очевидно,
(5.3.5) Xi = (aI)+Pi = Pi«1(8aills)+.
Если хк.± известно, определим хк следующим обра-
зом. Пусть (йх, йг.....h„)—ортогональная система
векторов, полученная из векторов (ах, а2, ..., а„):
(5.3.6)	Ztx = ax,
hk = ak— 2 (а^йу/ЦйуИ2,
'eSk
где
Sk = {j: /<*-1 и ||й7И0}л	й=1, п.
Ранее, (2.8), было показано, что hk | 2? (д^, ..., aft_x).
Поскольку	удовлетворяет уравнению
(5.3.7)	Ak_1xk_1 = &а-1,
отсюда следует, что
(5.3.8)	а)(х4_1+а*ЛЛ)р7,	/=1, 2,	1,
для любого числа ак. (Система уравнений (5.3.7) запи-
сана покомпонентно.) В частности, если
(О, если /ift = 0,
(Рл—OkXk — 1)
——£ R 17 в остальных случаях,
то вектор
(5.3.10)	й =	+
МЕТОД ГРАДИЕНТНЫХ ПРОЕКЦИЙ
89
удовлетворяет уравнениям
(5.3.11)	= j(ESk+lt
и
I (5.3.12)	..., hk).
I По построению имеем
[	/€5а+1) = ^(Л1, .... М =
।	= ^(av ...» a*) = ^(az; /€$*+1),
поскольку Ziy = O, если и только если является ли-
нейной комбинацией предшествующих векторов, (2.8.6).
Поэтому ук—единственный вектор из 3? (а^ j£Sk+1),
удовлетворяющий (5.3Л1). С другой стороны, вектор
।	~	(^i, • • • >	~ ^ (^/’ /€ *5^+1)
, удовлетворяет системе уравнений
!	(5.3.13) а}х = Ру, / = 1,
и, следовательно, также удовлетворяет уравнениям
(5.3.11). Отсюда и в силу единственности решения
(в классе векторов из 3? (а/. j £Sk+1)) уравнения (5.3.11)
следует, что yk~xk.
Итак, доказана
(5.3.14)	Теорема. Если
fpl)
Ра
Лт = (<21, :a2i..	и

то
А+Ь = хп,
где
хо = 0,
6=1,2, .... п,
I °’
I (Р*—alx^Hlijflk)
если hk = 0,
в остальных случаях
90
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
и {hlt ..., А„}—ортогональные векторы, полученные
методом ГШО из векторов {alt а„).
В общем случае, если Ь^Я(А) (или если невоз-
можно выяснить простыми методами факт принадлеж-
ности вектора b пространству 34(Л)), имеет смысл
прибегнуть к следующему приему. Положим d = ATb
и С = АТА. Тогда d ^5?(ЛТ) = 3?(С). Следовательно,
алгоритм, указанный в теореме (5.3.14), можно исполь-
зовать для вычисления C+d. Поскольку [C+d =
= (ЛТЛ)+ЛТ&, этот прием обобщает процедуру отыска-
ния А+Ь на случай произвольного вектора Ь.
Когда вместо вектора А+Ь требуется вычислить
матрицу А+, можно поступить следующим образом.
Сначала методом *ГШО преобразуются столбцы
матрицы А в 'ортонормальную систему векторов dlt
d2, ...» dr. Линейное многообразие, натянутое на эти
векторы, совпадает с линейным многообразием, натя-
нутым на столбцы матрицы Л, т. е. с линейным мно-
гообразием 31(A). Согласно (3.7.3) отсюда следует, что
ЛЛ+ = ^d.-d?.
/=i
Обозначим столбцы матрицы ЛЛ+ через blt Ь2, ...» Ьп.
Поскольку 5?(Л) = 5ЦЛЛ+) = =£’(blt ..., bn), векторы
Ь}-, / = 1, ..., п, обязаны принадлежать ^(Л). Сле-
довательно, можно использовать «-шаговый алгоритм
теоремы (5.3.14) для вычисления A+bj, /=1, .... п.
В силу
(Л^1|Л+&2|!...!Л+&„)=Л+(61|62|...|6в)«Л+(ЛЛ+)==Л +
эта процедура приводит к желаемому результату.
Краткое'изложение метода III. 1. Если известно,
что b£3l(A), то алгоритм теоремы (5.3.14) может
быть непосредственно использован для вычисления А+Ь.
2.	Если неизвестно, принадлежит ли вектор b про-
странству 31 (Л), требуется вычислить d = ATb, С = ЛТЛ
и использовать (5.3.14) для подсчета вектора C+d,
совпадающего с А+Ь.
3.	Чтобы вычислить Л + , требуется предварительно
методом ГШО преобразовать столбцы матрицы Л в орто-
нормальные векторы dj, d2, ..., dr и определить набор
МЕТОД ГРАДИЕНТНЫХ ПРОЕКЦИЙ
91
векторов Ьг, Ь2,	Ьп—столбцов матрицы 2 djd].
Тогда для каждого / и bj С 91 (Л) алгоритм теоремы
(5.3.14) может быть использован для определения
A+bj, /=1, п. Матрица
Д+=(Л+&1:Л+&2|...!Д+&„).
(5.3.15)	Упражнение. В (5.3.14) была определена
величина
I 0,	если /ift = 0,
а* I (₽*—aAxft-i)/(^afi) в остальных случаях.
Покажите, что	если /гЛ#=0.
(5.3.16)	Пример. Вычисление А+, где матрица А
та же, что и в (5.1.19):
/1 °	1 1\
Л =( о 1—1 о ).
\1 1	0 1/
Столбцами матрицы А являются векторы
С помощью метода ГШО эти векторы превращаются
в ортонормальную систему
/1/2\	/ — 1/Гб\
^1 = ( ° _ )’	= ( 2/I.
1	\ 1/ <6 /
l/2 -1
AA+=dld1 + d2dl = ^- 1	2 1 .
6 \1	12/
Столбцами матрицы ЛЛ+ являются векторы
92
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
Чтобы вычислить А+Ь, преобразуем методом ГШО
столбцы матрицы Ат. Столбцами Ат являются векторы
Метод ГШО .дает ортогональную систему векторов
Используя алгоритм теоремы (5.3.14), находим
Аналогично определяем А+Ь2:
/—1\
/з -	1/ о]
ai — 9	» xi — э I _j 1 >
\—1/
— / °\
а2 —	9	> Л2 — 3 I __1 I —	°2
\ о/
Е;
МЕТОД КЭЛИ — ГАМИЛЬТОНА
93
и, наконец, А+Ь3:
4/15
0L = —>
2	45
Таким образом, находим матрицу
/ 3	0	3’
л*=(л^11Л+б2!Л+ь8)=1у-; J J
\ 3 О 3
соответствующую матрице (5.1.19).
Метод Кэли — Гамильтона
(5.4) Метод IV (основан на теореме Кэли — Гамиль-
тона, Деселл [2], Бен-Израиль и Чарнс [1])
Настоящий метод основывается на двух теоремах.
Первая использует классический результат Кэли—Га-
мильтона, согласно которому любая квадратная
матрица удовлетворяет собственному характеристи-
ческому уравнению, для вывода представления псевдо-
обратной матрицы в терминах характеристического
полинома исходной матрицы. Вторая теорема, при-
надлежащая Фадееву и Фадеевой [1], позволяет эффек-
тивным способом определить коэффициенты характе-
ристического полинома.
(5.4.1) Теорема, (а) Пусть А—матрица размера
пхп и л(Х) = бе!(Л — V), который всегда может
быть факторизован следующим образом:
л(%) = аХ*(1 — %Ф(Х»,
где(п—k)—ранг матрицы А. Тогда, если А — невырож-
денная матрица,
Л-1 = <р (Л)
94
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
и в общем случае
А+=ф(Д) + ф(0)[Дф(Д)-7].
(Ь) Если Н—произвольная матрица размера тхп
и если характеристический полином матрицы НТН
задается формулой аХ*(1 — Х<р (Z)), то
Н+ = ц>(Н'[Н)Н\
Примечание. Матрица <р (Д) представляется с по-
мощью степенного матричного ряда с весовыми коэф-
фициентами ряда ср (•).
Доказательство, (а) Согласно теореме Кэли —
Гамильтона (Беллман [1]) матрица А удовлетворяет
уравнению
л(Д) = 0.
Поэтому
аД* (/ — Дф(Д)) = 0.
Если А—невырожденная матрица, k~0 [и, следова-
тельно, Дф(Д) = /, т. е. ф(Д) = Д-1. В общем случае
дл= Д*+1ф(Д).
Так как
(Д+)*+1Л* = л+ ((Д+)М*) =
= Д+(Д+Д) =	(3.11.3)
= Д+(ДД+)	(3.11.6)
= Д+,	(3.9.3)
отсюда следует, что
Д+ = (Д+)л+1 Д*+1ф(Д).
Вновь воспользовавшись (3.11.3) и (3.11.6), полу-
чаем, что
(5.4.1.1)	Д+ = ДД+ф(Д).
Поскольку матричный многочлен ф(Д)—ф(0) содер-
жит лишь положительные степени матрицы Див силу
тождества
ДД+Д“ = Да, если а>0,	(3.11.3)
МЕТОД КЭЛИ — ГАМИЛЬТОНА
95
из (5.4.1.1) находим, что
(5.4.1.2)	А + = АА + [<р (Л) —<р (0)] + ЛЛ+ф (0) =
= Ф(Л)-<р(0) + АЛ+<р(0)
и
ЛЛ+ = Лф(Л) + Л(7—ЛЛ+)ф(0).
Второе слагаемое в правой части последнего равен-
ства равно нулю, поскольку для симметрической
матрицы А справедливо соотношение АА+ — А+А,
(3.11.6). Таким образом,
(5.4.1.3)	ЛЛ+=Лф(Л).
Матрица ф(0) кратна единичной матрице. Поэтому
она коммутирует с матрицей Лф(Л). Следовательно,
если подставить (5.4.1.3) в правую часть (5.4.1.2),
получим
Л+ = ф(Л) + (Лф(Л)-/)ф(0) =
= Ф(Л) + ф(0)(Лф(Л)—/).
(Ь) Из доказательства (а) имеем
(7Ут/7)+ = ф (77т/7) + ф (0) [77т77ф (77т/7)—7].
Далее из (5.4.1.3) и (3.11.7) следует, что
77т77ф(77т/7) = /7+/7
и тем самым
Н+ =(Н'Н)+	=
= ф (77т77) Ят + ф (0) [ЯтЯф (77ТЯ)—7] 77т =
= Ф (77т77) Ят + Ф (0) (Я+Я— 7) /7Т =
= Ф (77т/7) 77т (так как 77+7У/7т = 77т). □
Последний результат, согласно поверхностной оцен-
ке, носит чисто теоретический характер, поскольку
приходится признать тот факт, что ф (Л) определяется
в терминах характеристического полинома матрицы Л,
который в свою очередь определяется в терминах детер-
минанта матрицы, для определения последнего требу-
ется непозволительное количество вычислений в слу-
96
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
чае матриц большого размера. Следующий результат
Фадеева и Фадеевой [1] сводит эту проблему к обо-
зримым соотношениям.
(5.4.2) Тео	рема. Пусть А—симметрическая матри-
ца размера пхп. Определим
(5.4.2.1)
At — A
yk = tr Ak/k
Bk = Ak—ykI
k=\, 2....n — 1
(1гЛл—сумма диагональных элементов матрицы Ак).
Обозначим
(5.4.2.2)
/ первое значение k^n,
I для которого ABk = 6,
I если такое равенство имеет место',
X п в остальных случаях,
и пусть
(5.4.2.3)	г — наибольшее число k^.M, для которого ук#= 0.
Тогда
(5.4.2.4)	л (X) si det (Л—М) = (-1)" уГКп~г (1 —<р (X)),
где
(5.4.2.5)

Доказательство состоит из двух частей.
В первой части показывается, что ук являются коэф-
фициентами при
в разложении в ряд det (Л — XZ) по степеням k. Затем
этот результат используется для того, чтобы пока-
зать, что ул = 0 для k~^r + 1. После этого легко полу-
чается требуемое утверждение.
Докажем, что
(5.4.2.6)
det (Л—XZ) = (-!)"
п
ал—ЕтЛ1"*
k-\
МЕТОД КЭЛИ - ГАМИЛЬТОНА
97
Здесь у1 = 1гЛ является коэффициентом при
(—1)'! + 1 Х"-1 в разложении ёеЦЛ—V). Далее будем
применять индукцию в предположении, что у1,' у2, ...
..у*-! являются соответственно коэффициентами при
(—1)я+1%в-1, (—1)П+1ХИ-2,	(—i)«+iA»-*+i в раз-
ложении det (Л— X/).
Определим
(5.4.2.7)	ол=Иг(Л*).
Из (5.4.2.1) получаем рекуррентное соотношение
A/i+i ~ т^л,
итерация которого (назад) дает возможность получить
такое представление для
k-\
(5.4.2.8) ЛА = ЛА—2рЛ*Ч £=1,2,..., л.
Поэтому согласно (5.4.2.7) имеем
k-i
(5.4.2.Э) 1г(Лй) = Ой-2ууай_у.
/=1
Хорошо известны следующие факты: 1) след tr Л
матрицы Л равен сумме ее собственных значений;
2) если Л—симметрическая матрица с собственными
значениями А,1, Х2, ..., Х„, то	явля-
ются собственными значениями матрицы Л*.
Поэтому
п
^=2
/ = 1
Кроме того, согласно формуле Ньютона справедливо
соотношение
&-1
(5.4.2.10)	^ = 5*-
/=1
4 А. Алберт
98
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
п
для k= 1, ..п, где sk = а / = 1, ..п —
/=1
корни полинома
п
(Бохер [1]). Записывая
Г	п
det (Л—V) = (-l)n Xя— 2
L	!= 1
и полагая Р/=Т/» / = 1, 2, k — 1, находим, со-
гласно (5.4.2,10), что
k— 1
(5.4.2.11)
Отсюда, в силу (5.4.2.9) и (5.4.2.1), имеют место
равенства
&рй = 1г(ЛА) = ^,
согласно которым уй = рА и тем самым индукция имеет
место для всех k.
Рекуррентное соотношение (5.4.2.1) гарантирует,
что ЛА = 0, Bft = 0 и уй = 0 для всех k > М, если
АВм — $ Для некоторого М < п. Поэтому, в силу
определения г, следует, что ук = г для Л>г. Отсюда
и из (5.4.2.6) получаем
det(4—U) = (-!)»-
= (-!)» угкп~г
откуда следуют требуемые представления (5.4.2.4)’и
(5.4.2.5). □
Применение (5.4.1) и (5.4.2) для псевдообращения
матрицы размера пхт является весьма забавным.
(5.4.3) Теорема. Пусть A=HrH (Н—произвольная
матрица размера тхп). Определим Ак, Вк, ук, М и
МЕТОД КЭЛИ — ГАМИЛЬТОНА
99
г так же, как в теореме (5.4.2). Тогда
(5.4.3.1)	Я+=(уг)'1Вг_1//т
и ранг матрицы Н равен г.
Доказательство. Ранг матрицы Я совпадает
с рангом А. Поскольку А—симметрическая матрица,
ее ранг равен п—v, где v—кратность нулевого соб-
ственного значения (^ = 0). Согласно (5.4.2.4) крат-
ность нулевого собственного значения равна п—г.
Это доказывает, что ранг А (и, следовательно, Н)
равен г.
В силу (5.4.2.5)
фИ) = (Тг)-1
тогда как согласно (5.4.2.8)
Поэтому
<Р И) = (У,)"1 (^г-!— Тг-1/) =
Заключительная часть доказательства вытекает из
(5.4.1b). □
Краткое изложение метода IV. Для нахождения Н+
для матрицы Н размера тх.п требуется определить:
1.	А^Н'Н.
2.	y* = tr (Ah/k), Bk = Ak ул/, ^й+i= АВк,

первое значение k,
для которого ABk=Q,
если такое равенств > имеет место
и если k меньше чем п;
\ п в остальных случаях,
г — наибольшее число k^.M, для которого уАУ=0.
3.	Н+=(Ъ)-1ВГ_1Н'.
Примечание. Несмотря на то, что в случае, если
матрица'] А невырождена, Д“1 = ф(Л), равенство
4*
100
ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
Л+=ф(Л) не обязательно справедливо, о чем свиде-
тельствует пример с матрицей
4 = <На6(0, О,!,!).
Для этого примера
<р (X) = 5 — 6Х,
и, значит,
’ ф(Л) = сНа§(5, 5, 2, 3),
тогда как
Л+ = (0, 0, 2, 3) = ф(Л)+ф(0)[Лф(Л)—Z].
(5.4.4)	Пример.
6 —3\
з о ) ,
О 3/
/	*	\	/15
2 1 о ’ ЛХ = Л = Я’Я=( 6
\3 1 -1/	4-3
71 = 21,
/—6	6 —3\
В1=Л1 —217=	6 -18	0),
\—3	0 —18/
/—5 —2 ч 1\
АВ, = Л2 = 9(-2 -2 —2 ),
\ 1 —2 -5/
?2=-54,
1 —2
1\
В2 — Л2 + 54/ = 9( -2	4 -2),
\ 1 —2
/0 0 0\
Л3=ЛВ2 = (о о о),
\о о о/
М = г = 2,
(5.4.5)	Упражнение. Докажите теорему Кэли —
Гамильтона для симметрических матриц. (Указание. |
I
л
МЕТОД КЭЛИ - ГАМИЛЬТОНА
101
Используйте теорему о приведении матрицы к диаго-
•нальному виду.)
(5.4.6)	Упражнение. Установите результат, анало-
гичный теореме (5.4.3), используя характеристический
полином матрицы ННТ вместо характеристического
полинома матрицы Н^Н.
(5.4.7)	Общие примечания
В методах I—IV всегда имеется возможность рабо-
тать либо с матрицей А, либо с матрицей Ат. На-
пример, в методе I матрицу А + можно найти методом
ГШО, примененным к столбцам А, либо можно вычис-
лить (Ат)+, применяя метод ГШО к столбцам мат-
рицы Ат. Аналогично матрицу (7 + 1/7/т)-1 можно опре-
делить методом ГШО, работая со столбцами (у-') или
. Правильный выбор (А или Ат) зависит глав-
ным образом от размера матриц.
Все четыре метода зависят от вычислительного при-
ема определения ранга матрицы, которая подвергается
псевдообращению. В ряде случаев ранг матрицы опре-
деляется методом ГШО. При этом возникает нетриви-
альная задача: определить, является ли вектор в дей-
ствительности нулевым, если на этот факт указывают
«приближенные» вычисления. В методе II ранг мат-
рицы определяется методом исключения Гаусса—Жор-
дана и также приходится делать вывод о том, является
ли некоторая строка нулевой. Обычные ошибки округ-
ления приводят к ошибке в определении ранга мат-
рицы, которая, так или иначе, влияет на конечный
результат, причем «разрывный» характер процедур
псевдообращения приводит к тому, что «малые» исход-
ные погрешности могут привести к очень большим
ошибкам в окончательном результате. Незначительная
модификация может существенно улучшить метод ГШО.
В то время как простейший вариант метода ГШО,
приведенный в (2.8), ортогонализует векторы hj в том
порядке, в каком они заданы (так что для каждого /
2 («!, ..., Uj) = ^ (Л1, ..., hj), где ортогональные век-
торы щ порождаются векторами Лп . ..,Л(), согласно
так называемому «модифицированному методу (ГШО»
102	ГЛ. V. ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ
(Осборн [1]) каждый вектор ы7+1 строится так, чтобы
проекция Uy+1 на	была наибольшей.-
Поэтому те векторы hj, которые почти линейно выра-
жаются через предыдущие, рассматриваются в послед-
нюю очередь.
Другие алгоритмы, посвященные псевдообращению,
описаны в статьях Перейры и Розена [1], Голуба и
Кахана [1], Голуба [1, 2], в каждой из которых осо-
бое внимание уделяется вопросу устойчивости числен-
ных методов.
Рекуррентные соотношения (4.3) и (4.6) могут рас-
сматриваться как вычислительные алгоритмы для С£ и
(СтС„)+. Однако замечания, сделанные выше, остаются
справедливыми и для них, поскольку приходится при-
нимать решение о том, является ли вектор ст+1 линей-
ной комбинацией предыдущих векторов. Эти рекур-
рентные алгоритмы еще раз будут рассматриваться
в главах VIII и IX.
ЧАСТЬ II
СТАТИСТИЧЕСКИЕ ПРИЛОЖЕНИЯ
ГЛАВА VI
ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
В этой главе будут использованы полученные ранее
выводы применительно к исходным «классическим» за-
дачам статистики, с тем чтобы вывести многие резуль-
таты (и обобщения) в линейном регрессионном анализе
более «изящным» способом. В частности, мы будем
иметь дело с теоремой Гаусса—Маркова, теорией рас-
пределения ошибок, полученных при использовании
наилучших несмещенных оценок в гауссовском случае,
с доверительными эллипсоидами для параметров линей-
ной регрессии также в предположении гауссовского
распределения, с распределением отношения правдо-
подобия для проверки общей линейной гипотезы и его
связью с доверительными эллипсоидами, связью между
гауссовскими—марковскими оценками и «простейшими»
оценками по методу наименьших квадратов, а также
с теорией ортогональных планов.
Предполагается знакомство читателя с элементар-
ными статистическими концепциями (в объеме, напри-
мер, вводного университетского курса статистики).
Такие понятия, как независимость, математическое
ожидание, нормальное распределение, проверка гипотез,
дисперсия и т. п., используются без предварительных
пояснений.
В случае серьезных затруднений читатель может
перейти непосредственно к главам VII и VIII, которые
в сущности не являются статистическими. Глава 1л —
вероятностная по духу.
104
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
(6.1) Наилучшая линейная несмещенная оценка.
Теорема Гаусса—Маркова
Во многих приложениях наблюдения можно считать
случайными величинами и интуитивно ясно, что модель
для наблюдений может быть выбрана в такой форме:
р
£ (т/) — 2 а|Ф< (т/) + остаток,
i = l
где Ту—значение /-й независимой переменной'(напри-
мер, время, в которое было сделано /-е наблюдение,
или концентрация катализатора в некотором химиче-
ском эксперименте, или количество препарата, введен-
ного /-му лабораторному животному при испытании
лекарств); £(ту)—наблюдение (или заданная величина,
или зависимая переменная), соответствующее аргу-
менту т,-; функции Ф, (-) принадлежат заранее задан-
ному классу и, наконец, ait i = 1, ..., р,— параметры,
подлежащие оцениванию на основании наблюдений.
(6.1.1)	Пример. Падение напряжения на линии про-
порционально току. При этом коэффициент пропорцио-
нальности—сопротивление провода. Известно, что
сопротивление провода (при одинаковой площади сече-
ния) пропорционально его длине. Коэффициент про-
порциональности равен сопротивлению единицы длины
провода и может быть измерен следующим образом.
Длинный кусок провода соединен последовательно
с резистором и подключен к источнику напряжения:

Разность потенциалов между фиксированной точ-
кой А и переменной точкой X измеряется вольтмет-
ром. При перемещении X расстояние т между А и X
изменяется и падение напряжения £(т) записывается
НАИЛУЧШАЯ ЛИНЕЙНАЯ НЕСМЕЩЕННАЯ ОЦЕНКА Ц)5
при различных т (например, т1( т2, ..т„). Поскольку
сопротивление между А и X—линейная функция от т,
моделью данного опыта является соотношение
£ (ту) = рту + /? + остаточная ошибка
до тех пор, пока X находится левее резистора (кото-
рый предотвращает короткое замыкание источника на-
пряжения). Здесь р—сопротивление единицы длины
провода, R—сопротивление между А и левым концом
резистора. Для этой модели <pt (т) = т, <р2 (т) = 1, at — р
и а2 = Т?. Остаточная ошибка возникает вследствие
погрешностей измерения и применения физической
модели для рассматриваемого явления.
(6.1.2)	Пример. Среднесуточная температура данной
местности подвержена квазипериодическим флуктуа-
циям, зависящим от времени года. Если регистри-
руются среднесуточные температуры, то возможна сле-
дующая модель для температуры £(ту) на Ту-е сутки:
.	г-i	2шту	2л1Т/
£ (ту) = а0 + 2^ az cos + р,- sin + остаток,
где период 365,25 учитывает небольшое расхождение
фазы календарного года с солнечным. Количество гар-
моник (k) не должно быть слишком большим, чтобы
модель оставалась достаточно простой. Коэффициенты
az, р,-, i = 1, ..., k, неизвестны и подлежат оцениванию
по данным наблюдениям. Остаточная ошибка присуща
скорее стохастической природе температурных вариа-
ций, нежели ошибкам измерения.
5 Оба примера являются частными случаями общей
линейной модели, в которой вектор наблюдений
Д(Т1)\
(6.1.3)	z = [?.(T2) )
Ч(т„) /
имеет по предположению следующий вид:
(6.1.4)	z = Hx-}-v,
106
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
где Н—матрица размера пхр, /-я строка которой
(6.1.5)	h] = (Ф1 (т7), Фа (Ту), ..., Ф? (ту)),
х—р-мерный вектор неизвестных коэффициентов, кото-
рым следует дать оценку по данным наблюдения:
/«1 \
(6.1.6)	х==( : ,
наконец, v—остаточный член, являющийся векторной
случайной величиной с нулевым средним
(6.1.7)	^>у = 0.
Следуя Шеффе [1], определим параметрическую функ-
цию ф—скалярную функцию неизвестного вектора
параметров х: ф = стх, где с—заданный р-мерный век-
тор (например, каждая компонента х может быть па-
раметрической функцией).
Говорят, что параметрическая функция ф допускает
оценку, если для нее существует несмещенная линейная
оценка. (Это означает, что существует вектор атакой,
что
<£атг=ф,
независимо от того, каково истиннее значение х.) Во-
прос о допустимости оценки для параметрической функ-
ции решается легко.
(6.1.8)	Теорема. Параметрическая функция ф = стх
допускает оценку тогда и только тогда,' когда Н*Нс = с
(т. е. тогда и только тогда, когда с^ЗЦН1)).
Доказательство. Так как $dtz = aT£z =
= at[$Hx + <gv] и из того, что 'd?v = 0 и Нх—неслу-
чайная величина, вытекает, что функция ф = стх до-
пускает оценку тогда, когда найдется вектор а такой,
что
(6.1.8.1)	агНх~сТх для всех х.
Но (6.1.8.1) справедливо для всех х тогда и только
тогда, когда существует вектор а такой, что вектор
НТа—с ортогонален ко всем х, а последнее верно тогда
НАИЛУЧШАЯ ЛИНЕЙНАЯ НЕСМЕЩЕННАЯ ОЦЕНКА Ц)7
и только тогда, когда существует вектор а, для кото-
рого
(6.1.8.2)	Н^а — с.	(2.9.4)
Теперь заключение теоремы следует из (3.12с). □
Дисперсия несмещенной оценки для ip является
общепринятой мерой эффективности этой оценки. Обо-
значим через V2 матрицу ковариаций ошибок оцени-
вания:
(6.1.9)	<£vvT = V2,
где V2—неотрицательно определенная матрица раз-
мера пхп. (Так как mtV2m = ut(<£vvt)u==<£>(vtu)2,
следовательно, uTV2u^0 для всех и, что и означает
неотрицательную определенность.) Если ф = атг дает
несмещенную оценку для ф, ее дисперсия
(6.1.10)	$ (ф—ф)2 = (aTv) (vT а) — aTV2a.
Наилучшую линейную несмещенную оценку (НЛНО)
для ф определим как оценку с минимальной диспер-
сией. Не составляет труда получить формулу НЛНО
для параметрической функции.
(6.1.11)	Теорема. Пусть ф = стх—параметрическая
функция, допускающая оценку, и пусть
(6.1.11.1)	а==(/ —Й+У)(Я+)тс,
где
(6.1.11.2)	V = V(Z—НН+).
Тогда
(а) ф = атг является НЛНО для ф,
(&) если ф*—любая другая линейная несмещенная
оценка для ф. Тогда
(Ф*—Ф)2|><£ (ф—ф)2,
если только ф=/=ф* с вероятностью 1.
Доказательство. Если ф—функция, допускаю-
щая оценку, то оценка аТг является несмещенной тогда
108
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
и только тогда, когда а удовлетворяет (6.1.8.2). Из
(3.12с) следует, что все такие а имеют вид
(6.1.11.3)	ав = (Ят)+ с—(/ — НН+)и для некоторых и
(мы использовали здесь тождество НН+ = (Ят)+ Ят).
Дисперсия оценки типа фв = а^г задается формулой
(фв—Ф)2 = <£ (<Ф—стх)2 = <f?aTu (z—Нх)2
=£(Ф08 =
’  =aSPaB = ||VaB||2,
поскольку а удовлетворяет (6.1.8.2) (V—симметриче-
ский квадратный корень из V2). В силу равенства
дисперсия линейной несмещенной оценки фы достигает
минимума, если и имеет следующий вид:
и = V+V (Дт)+ с+(/ —V+V) w,
где w—произвольный вектор. Поэтому, в силу
(6.1.11.3) и (3.13.10),
аг = (I—V+ V) (Н+)т с—(/ — НН+) (I—V+V)w =
= а—(/—НН+)(1-V+V)a>,
где w—произвольный вектор. Но для таких
«?[(«£— a)Tz]2= ,
= щА(/ —V+V)(/ — HH+)V2 (I—HH+)(J—V+V)w =
= ||V(Z— V+V>||2 = 0,	(3.9.1)
следовательно,
(a~ — a)Tz = 0 с вероятностью 1.
Таким образом все НЛНО для ф имеют с вероятно-
стью 1 вид aTz. Утверждение теоремы (6.1.11) спра-
ведливо независимо от того, вырождена или нет мат-
рица ковариаций ошибок измерения. □
Примечание. Результаты, полученные в (6.1.11),
обобщают теорему Гаусса—Маркова на случай вырож-
НАИЛУЧШАЯ ЛИНЕЙНАЯ НЕСМЕЩЕННАЯ ОЦЕНКА Ц)9
денной матрицы ковариаций ошибок (ср. Зискинд и
Мартин [1], Зискинд [1]).
(6.1.12) Теорема (Гаусса—Маркова). Пусть
У = У(/-ЯН+),
(6.1.12.1)	G = tf+[/— (W)T]
и
(6.1.12.2)	’	x = Gz. .
Тогда
(а) $х. = Н+Нх для всех х\
(&) если тр = стх—допускающая оценку параметри-
ческая функция, то существует единственная НЛНО
для 4>, а именно стх;
(г) если V2—невырожденная матрица, то
Доказательство. (а)	(^х = СЯх = Я+Ях —
- H+V' (У+)т Нх. Но
(У+)т H = (VV')+VH	(3.8.1)
и
Й/ = 0.	(6.1.1.2)
(Ь) НЛНО для ip, полученная в (6.1.11), является
единственной и может быть записана в виде
ф = aTz,
где
а = [Н+ (/ — (У+У)т)]т с = Grc.
Таким образом, имеет место требуемое равенство
.	tjj==CTX.
(с) Согласно (6.1.12.1) имеем
G = Я+У [/ —((У+)т У)] У"1,
по
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
если матрица V невырождена. В силу (3.13.10)
(₽+)* = [(/—
и, следовательно,
(р+)ту==(У+)тут1
поэтому
G = H+V[I — (Рт)+ VT] V~l.
На основании (4.15) последнее выражение в точности
равно
(V-'H)+ V-1,
поскольку
VT = QV, где Q — I-—HH+,
так что
G = (V-i Ну V-1 = (HTV~2 Н)+ HTV~2 (3.8.1),
и
x = Gz = (/7TV-?H)+^TV-2z. □
Примечание. В тех случаях, когда V2—невырож-
денная матрица, х = (У~гНу V~1z минимизирует
UI7-1Z-V-HixW2 = (г—НхУ V~2 (z—Hx),
т. е. сумму взвешенных квадратов. В частности, когда
V' = diag(v1, v2, ..., v„),
'hi 'I
/SiX
z=( • j и
ЧУ

x минимизирует сумму
п
2 ^.-hy)2y2s,
/=i	'
которая является суммой квадратов отклонений наблю-
дений £у- от их математических ожиданий. Вес каж-
НАИЛУЧШАЯ ЛИНЕЙНАЯ НЕСМЕЩЕННАЯ ОЦЕНКА Щ
дого члена соответствует той точности, с которой
проводилось наблюдение (vy-дисперсии £,•). Точные на-
блюдения (малое у,) имеют больший вес, чем неточные.
Такая интерпретация более глубоко исследуется
в главе VII, где изучаются соотношения между оцен-
ками по методу наименьших квадратов с ограничением
и взвешенных наименьших квадратов.
(6.1.13) Числовой пример. Если V2—вырожден-
ная матрица, то НЛНО для стх не равна
ст [Ят (1/+)2 Щ+ Нт (V+)2 z. Положим
v=(o о)’	Я=(!)’ х = Искаляр),
или, в покомпонентной форме,
& = £ + *!, g2 = fc,
где имеет единичную дисперсию. Второе наблюде-
ние дает безошибочное представление о неизвестном
параметре и наилучшей оценкой было бы £2.
С другой стороны,
[Ят(У+)2Л]+ = 1, tfT(V+)2 = (l 0).
Следовательно, если с=1, то равенство
ст (у+). НТ (у+)2 z =
неверно. Правильный результат можно получить, ис-
пользуя (6.1.12.2):
V+
/-(у+ют-(о
О = Я+[/~ (V+V)T] = (0 1),
Gz = £2.
112
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
(6.1.14) Упражнение. Когда оценки по методу наи-
меньших квадратов совпадают с оценками Гаусса —
Маркова?
Если z = //x + v, где <£vvT = V2, оценка, задаваемая
простейшим методом наименьших квадратов, имеет вид
x = H+z.
Если ф = стх—параметрическая функция, допускаю-
щая оценку, формула стх определяет оценку для ф
в соответствии с простейшим методом наименьших
квадратов.
(6.1.14.1)	Покажите, что для всякой допускающей
оценку параметрической функции метод наименьших
квадратов даст /НЛНО тогда и только тогда, когда
у+у=(Г+Г),
где У = У(1— НН+).
(6.1.14.2)	Если V—невырожденная матрица, усло-
вие (6.1.14.1) сводится к соотношению
(?)+ = (/—ЯЯ+)У"1.
(6.1.14.3)	Вообще говоря, условие (6.1.14.1) экви-
валентно следующему включению:
•5г(У2Я) = 5?(Я).
Примечание *). Оценки простейшего метода наи-
меньших квадратов обеспечивают наименьшее значение
невязки ||z—Ях||2. Если сгх допускает оценку, то стх
является несмещенной оценкой с минимальной диспер-
сией (НОМД). Соотношение (6.1.14.3) утверждает, что
х является наилучшей в классе линейных оценок тогда
и только тогда, когда 91	91 (Я).
*) В оригинале это примечание снабжено эпитетом «шуточное».
По-видимому, юмор состоит в том, что русской абревиатуре НОМД
соответствует английская TRUE (tiniest residual unbiased estimator),
что буквально означает «истина», и таким образом в качестве
оценки случайной величины «предлагается» ее истинное значение.
(Прим, перев.)
РАСПРЕДЕЛЕНИЕ КВАДРАТИЧНЫХ ФОРМ
113
Прочие условия, эквивалентные (6.1.14), даны
у Зискинда [1], Крускала [1], Митра и Рао [1], Уот-
сона [1]. Например, у Зискинда показано, что (6.1.14)
эквивалентно равенству 51(H) — (ylt ..., уг), где
«//, /=1....г,—подмножество собственных векто-
ров V. Митра и Рао получили другое необходимое и
достаточное условие, состоящее в том, что V2 может
быть представлена в виде
V2 = HSHT + (/ — НН+) Т (I — НН+) +k2I,
где S, Т—неотрицательно определенные матрицы, k —
скаляр.
(6.1.15)	Упражнение. Обобщенный метод наимень-
ших квадратов (Прайс [1]).
Было показано, что x = H+z—единственный вектор
с минимальной нормой || х ||2 == хгх среди всех векторов,
минимизирующих (z—Нх)1 (z—Hx). Пусть V2 и IF3—
неотрицательно определенные матрицы.
Покажите, что среди всех векторов, минимизирую-
щих (6—Hx)*V2(z—Нх), вектор
x = [I—(PW2P)+ PIF2] (HrW2H)+ H'V2z,
где
P = I—(VH)+ (VH),
минимизирует ||x||# = xTIF2x.
Существуют ли другие векторы, обладающие этим
свойством?
(6.2)	Распределение квадратичных форм
от нормальных случайных величин
В этом разделе мы исследуем теорию распределений
для определенных типов квадратичных форм от слу-
чайных гауссовских величин и используем эти резуль-
таты для регрессионного анализа (тесты общей линей-
ной гипотезы, построение доверительных эллипсоидов).
Сначала повторим некоторые хорошо известные
факты о нормально распределенных случайных вели-
чинах (Шеффе [1], Андерсон [1]).
114
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
(6.2.1)	Если ...» имеют совместное нормаль-
ное распределение, то они взаимно независимы тогда
и только тогда, когда их матрица ковариаций диаго-
нальна.
(6.2.2)	Если	—независимые нормально
распределенные случайные величины со средними
Hi, • Ни и единичными дисперсиями, то распределение
зависит неявно от piy, / = 1,2, . ..,п, через
(п \ 1/ 2
X и;
/=• J
и это распределение является нецентральным хи-квад-
рат распределением с п степенями свободы и парамет-
ром нецентральное™ 6. Если 6 = 0, хи-квадрат-рас-
пределение называется центральным (ссылка на цент-
ральность обычно опускается).
(6.2.3)	Если Хп имеет нецентральное хи-квадрат-
распределение с п степенями свободы и параметром
нецентральности 6, и если х™ не зависит отх« и имеет
(центральное) хи-квадрат-распределение с т степенями
свободы, то случайная величина л
' п-^/т-1^
имеет нецентральное /'-распределение спит степе-
нями свободы и параметром нецентральности 6. Ссылка
на центральность, если 6 = 0, обычно опускается.
(6.2.4)	Случайный вектор z имеет многомерное нор-
мальное распределение со средним т и ковариацией
R тогда и только тогда, когда существует матрица Н
такая, что'
(а)	г = Нх-\-т, где компоненты вектора х—незави-
симые нормально распределенные случайные величины
с нулевым средним и единичной дисперсией.
(b)	R = HH\
Если вектор (•“•) имеет многомерное нормальное
распределение с нулевым средним, то и и v независимы
РАСПРЕДЕЛЕНИЕ КВАДРАТИЧНЫХ ФОРМ
115
тогда и только тогда, когда
(£uvT = 0.
Если z—векторная гауссовская величина со сред-
ним т и невырожденной матрицей ковариаций R,
плотность распределения z имеет вид
const х exp |—^-(z—т)Т 7?-1(z—.
Хорошо известное утверждение, которое среди ста-
тистиков имеет популярность пословицы, гласит:
«показатель экспоненты нормальной плотности имеет
распределение хи-квадрат». Докажем теперь более
общий вариант этого утверждения.
(6.2.5)	Теорема. Пусть z—нормально распределен-
ный случайный вектор со средним т и ковариацией R,
и пусть ранг матрицы R равен р.
Тогда
(a)	zT/?+z имеет нецентральное хи-квадрат распре-
деление с р степенями свободы (с. с.) и параметром
нецентральности
S — lnTR+irip/2
(b)	(z—ту R+(г—т) имеет хи-квадрат распреде-
ление с р степенями свободы.
Доказательство. Матрица R—неотрицательно
определенная, так как
uTRu = S («тх)2 О,
где x = z—т, и, следовательно, R имеет симметриче-
ский квадратный корень R1/2. Пусть m1 = (R1/i)+ т
и т2 = [/—R1?2 (7?1/2)+] т. Тогда
т = R1/2m1 -\-т2.
Если у—нормально распределенный случайный вектор
с нулевым средним и ковариацией /, то
7=^l/2(y_]_mi)_|_m2
имеет то же распределение, что и z, откуда ztR+z и
zTR+z имеют одинаковые распределения. Поэтому будет
116
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
достаточно установить справедливость (а) для zT/?+z:
zT7?+z = (y + m^R^^R + R1/^ (y + /Hi) +
+ 2(y+miyiR'/tR+m2 +
+ mTrR+tn2.
Так как R1/2(R1/t>/+=RR+=R+R, легко видеть, что
R+tn2 = 0. Используя теорему о приведении матрицы
к диагональному виду, нетрудно убедиться в том, что
р
=	= 2 пг],
i=i
где rh i— 1, ..., р,—ортонормированные собственные
векторы, относящиеся к ненулевым собственным значе-
ниям матрицы R-.
р	р
R = 2	R1/2 = 2
p
R+ = S 4lrjrb (ср. с (3.6))
i = 1
RR+ = R + R = X VJ.
/ = i
Таким образом,	s
zT/?+z = (y + miyRR+ fy-mj —
p
= 2 17/ (y+«i)]2-
/=1
Векторная случайная величина
где
РАСПРЕДЕЛЕНИЕ КВАДРАТИЧНЫХ ФОРМ
117
имеет многомерное нормальное распределение со сред-
ним Pmi и ковариацией
Р (<£уут) Рт = РР1, так как <г?уут = Z.
Строки матрицы Р ортонормальны и, значит, РРТ = I
(размера рхр). Отсюда, с учетом (6.2.1), компоненты
P(y-|-/n1)—независимые нормально распределенные
с нулевыми средними и единичными дисперсиями слу-
чайные величины. Следовательно, принимая во вни-
мание (6.2.2), можно сделать вывод о том, что
И (У +пг1)\\2	
имеет нецентральное хи-квадрат-распределение с р
степенями свободы и параметром нецентральности
II /ЧИ • Но
l|/’(y + mi)ll2 = (y + '«)T PrP(y + tri)
и ,
р
Р'Р = 2 r.r]^R+R.
i = i
Поэтому
И Р (y + /n1)||2=IT£+zT
и
|| Pmt ||2 — niiRR + tn1 = tnTR+tn = &,
так как
m^RR+tn^RR+tn^
и
P7?+mx = 7?/? + (R^y-m^(R+yi*m.
Утверждение (Ь) является частным случаем (а),
когда /п = 0, поскольку z—т имеет нулевое среднее
(см. Рао [1], где приведены аналогичные результаты). □
(6.2.6)	Упражнение. Пусть z имеет многомерное
нормальное распределение со средним т и ковариа-
цией о2/, и пусть при этом R—матрица проектирования
118
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
ранга р. Тогда случайная величина
о"2 ||₽z||2
имеет нецентральное хи-квадрат распределение с пара-
метром нецентральности a-1 (mT/?m)1/2 и р степенями
свободы.
(6.3)	Допускающие оценку векторные
параметрические функции и доверительные эллипсоиды
в случае нормально распределенных невязок
В (6.1) было введено понятие допускающей оценку
параметрической функции (вещественнозначной линей-
ной функции от неизвестного векторного параметра).
Сейчас мы распространим это понятие на векторно-
значные линейные функции. Пусть
z — Нх + V,
где v—случайный вектор с нулевым средним, Н —
известная матрица и х—неизвестный векторный пара-
метр. Определим допускающую оценку векторную пара-
метрическую функцию (д. о. в. п.ф.) как векторнознач-
ную линейную функцию от х, компоненты которой
являются допускающими оценку параметрическими
функциями. Таким образом, д. о% в. п.ф.—это любой
вектор вида y = Gx, где G—матрица- со строками
gi, • • • > gl и где при этом для каждого / gjx является
допускающей оценку параметрической функцией.
Тривиальным следствием (6.1.8) является такое
утверждение:
(6.3.1)	вектор Gx является д. о. в. п.ф. тогда и
только тогда, когда 5i(GT) = 5?(/7T).
Последнее утверждение, в силу (3.13.1), эквива-
лентно
(6.3.2)	вектор Gx является д.о. в. п.ф. тогда и
только тогда, когда GH+H = G. Если
/^\
G=l ]
\gk/
ВЕКТОРНЫЕ ПАРАМЕТРИЧЕСКИЕ ФУНКЦИИ
119
является д. о. в. п.ф., то каждая компонента Gx имеет
НЛНО, а именно gjx, где х—оценка, определенная
в (6.1.12) (теорема Гаусса—Маркова). С этого момента
мы будем называть Gx НЛНО для д. о. в.п. ф. Gx.
В интересах последующего обсуждения рассмотрим
тот случай, когда невязки v нормально распределены
и имеют матрицу ковариаций V2, пропорциональную
единичной матрице (6.3.3)
V2 = SvvT = о21.
В соответствии с (6.1Л2) НЛНО для д. о. в. п. ф. y = Gx
является у = Gx, где
х — Н+г
оказывается оценкой по методу наименьших квадратов
для х.
Случайный вектор у—у имеет нулевое среднее
(поскольку Gx—несмещенная оценка) и матрицу кова-
риаций
^(У—У)(У~ УУ-
Но
y = Gx = GH+Hx	(6.3.2)
и
у= Gx = Gtf+z = Gtf+/fx + G/7+v,
поэтому
y—y = GH+N
и
(6.3.4)	cov(y—z/) = <£(y—z/)(y—t/T) =
= <£[(G//+)vvT(Gtf+)T] =
= <r2G(tfTtf)+GT.
Отсюда у—у имеет многомерное нормальное распре-
деление с нулевым средним и ковариацией a2G (ЯТЯ)+ОТ,
откуда в силу (6.2.5)
(6.3.5)	а-2 (у -у)т [G (Н'НГ GT] (z/-y)
120
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
имеет (центральное) хи-квадрат распределение с
(ранг GH*) числом степеней свободы, так как
rk(A) = rk(AAT) для любой матрицы А. (4.19.2)
Всегда имеет место следующий факт:
(6.3.6)	5S(Gtf+tf)<=5i(Gtf+)<=5?(G)
и, если G является д.о.в.п.ф.,
9l\G) = 9L(GH+H).	(6.3.2)
Следовательно, в этом случае
(6.3.6.1)	3i(Gtf+) = 5i’(G).
Поэтому
^ = rk(G).
Последний результат (относительно распределения,
которым описывается (6.3.5)) может быть использован
для построения доверительного множества для у при
условии, что значение о2 известно. Теперь, если
является верхним 100(1—а) процентилем упомянутого
хи-квадрат-распределения, то
Рг {(У~У)Т [GGT]+ (у-у) < о2^} = 1 -а,
а это означает, что эллипсоид
3 (а2^) = {«: (М_у)т [G (7ГЯ)+ GT]+ (и-у) < о2^}
содержит истинное значение у с вероятностью 1—а.
Если же значение о2 неизвестно, его оценка по
методу максимального правдоподобия имеет вид
(6.3.7)	£2 = (п—fc2)-i||z—Ях||2,
где п—число наблюдений (число строк в Н) и k2—
ранг Н. ’ i
Сейчас мы покажем, что
(6.3.8)	<т31|z—/7х||2 имеет распределение
хи-квадрат^с п—k2 с. с. и не зависит от у—у.
ВЕКТОРНЫЕ ПАРАМЕТРИЧЕСКИЕ ФУНКЦИИ
121
Если мы установим справедливость (6.3.8), то на осно-
вании (6.2.3)
(6 з 9) feg2)~1 (у~у)Т [G (НТН)+ GT]+ =
v ‘ 7	о-2»2
= М’1 (У-fr [G GT]+ (У-У)
имеет F-распределение с и п—k2 с. с. Вследствие
этого эллипсоид Ъ	содержит истинное значе-
ние у с вероятностью 1—а, если —верхний
100(1—а) процентиль названного выше F-распределе-
ния, так как
РгМ!НМЧ_а)} =
= Рг {(<о2)-2 (у-уУ [G (ЯТЯ)+ GT]+ (jz-yK
= 1— а.
Чтобы доказать (6.3.8), заметим, что
(6.3.10)	o-1(z—Ях) = а-1(/ — HH+)z~
НН+) (Их + v) =
=	— HH+)v,
где a-1v имеет многомерное нормальное распределение
с нулевым средним и ковариацией I. К тому же
у—y — GH+v,	(6.3.4)
откуда следует
(у—У) (z—Hx)T = GH+ (1—НН+) = 0,
так что (у—у) и z—Нх имеют совместное нормальное
распределение (каждая из переменных является ли-
нейной функцией от v) и некоррелированы между со-
бой, а значит, в силу (6.2.4), взаимно независимы.
Таким образом независимы
а2 = (п—fcjHlJz— #х||2	и	(у—у).
Из (6.3.10) следует, что вектор о-1 (z—Их) можно
представить, в виде a-1Pv, где Р—проектор, так что
на основании (6.2.6) (<y2)-1[|z—Ях||2 имеет хи-квадрат
122
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
распределение с таким числом степеней свободы, каков
ранг I—НН+.
(6.3.11)	Упражнение. Покажите, что
rk(Z — 77tf+) = rk(Z)—гк (77).
(Указание. Матрицы I и НН+ являются проекцион-
ными. Используйте (4.10.1)—(4.10.3).)
(6.3.12)	Упражнение. Обобщите результаты (6.3) на
случай, когда невязки имеют нормальное распределе-
ние с нулевым средним и ковариацией a2V2, где вели-
чина о2 неизвестна, а V2—известная неотрицательно
определенная матрица.
(6.4) Тесты общей линейной гипотезы
Рассмотрим модель наблюдения, описанную в. преды-
дущем разделе. Вместо доверительного эллипсоида для
y — Gx укажем способ проверки гипотезы
^0: Gx = 0.
В случае, когда о2 известно, тест, основанный на
отношении правдоподобия, состоит в том, что гипо-
теза	отвергается при достаточно большом значении
(6.4.1)	р^о-2 {||z—77х||2—77*х||2},
где х—оценка х по методу наименьших квадратов:
(6.4.2)	x = 77+z
и х—оценка х по методу наименьших квадратов, вы-
численная при условии Gx=0:
(6.4.3)	x = /7+z,
где
77 = 77 (7—G+G).	(3.12.4)
Если величина а2 неизвестна, тест отношения прав-
доподобия отвергает при достаточно большом зна-
чении
(6.4.4)	p2 = ||z—77x||2/||z—77х||2.
ТЕСТЫ ОБЩЕЙ ЛИНЕЙНОЙ ГИПОТЕЗЫ
123
(6.4.5)	Упражнение. Пусть х* и х*—любые другие
(по сравнению с (6.4.2) и (6.4.3)) оценки, полученные
по методу наименьших квадратов и по методу наимень-
ших квадратов с ограничением (при условии Gx = 0).
Покажите, что
Ях* = Ях и Ях* = Ях.
Следовательно, гипотеза &Сй отвергается на основании
тех же статистик ~рд и р2. (Указание. Используйте
(3.12.2) и (3.12.4).)
Сейчас мы докажем, что
(6.4.6)	статистика рд имеет нецентральное хи-квадрат
распределение с т[ = гк(ЯЯ4’— НН+)] степенями сво-
боды и параметром нецентральности 6, где
(6.4.7)	6 = СТ-1||(ЯЯ+— НН+)Нх§
и
(6 4 8) п k* (о _1)__п k* Г "z "z
'   ' т	т L	||х—ЯхЦ»
имеет нецентральное F-распределение с т и п—k2
степенями свободы (k2 — гк (Н)) и параметром нецент-
ральности 6.
Кроме- того,
(6.4.9)	6 = 0 при Gx = 0,
так что рд и р2 имеют центральное хи-квадрат и
F-распределения соответственно, когда нуль-гипотеза
оказывается справедливой.
Для доказательства (6.4.7) заметим, что
(6.4.10)	5? (Н) s 91 (Я),
так что (НН+) (НН+) = НН + . После простых алгебраи-
ческих преобразований получаем
(6.4.11)
|| (НН+ —НН+) z||2 = || (z —НН+ z)—(z—HH+z) ||2 =
............... 4(z-tfx)-(z-tf£)||2 =
= ||z—-Ях||3—||z—Ях||2.
124
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
Таким образом,
р1 = |[а“1(ЯЯ+ — HH+)zf.
Случайная величина cr-lz распределена нормально
со средним о~гНх и ковариацией /. В силу того, что
5? (Я) S3? (Я), матрица НН+— НН* является проек-
тором на 91(H)—91(H), (2.7.4b), и, следовательно,
(6.2.6), гарантирует, что
||ст-1 (ЯЯ+—ЯЯ+)г||2
имеет нецентральное хи-квадрат распределение с пара-
метром нецентральности бит с.с. Тем самым уста-
навливается справедливость (6.4.7).
Чтобы доказать (6.4.8), достаточно убедиться_в_том,
что векторы z—Нх = (1—НН+)г и (НН+—НН+)г
некоррелированы, поскольку
S(z—Hi)[(HH+ — HH+) (z—Ях)]т =
= (/ — НН+) <£vvT (НН+ —НН+) = О
и так как ^wT = o2/ и НН+ (HH+) = HH\_(6.4AQ).
Поэтому ||г—Ях||2 не зависит от \](НН+—HH+)zf —
=||z—Нxj|2—||z—Ях||2, (6.4.11)^ и, как было показано
в (6.3), случайная величина (<y2)-1||z—Ях||2 имеет
центральное хи-квадрат распределение с п—k2 с.с.,
где &2 = гк(Я). Из (6.2.3) получаем требуемое равен-
ство (6.4.8).
Чтобы доказать (6.4.9), заметим, чтох=(7—G+G)x
при Gx = 0, так что
(НН+—НН+) Нх = НН+Нх—НН+Нх =
— Нх—НН+Н (I~G+G)x*=
= Н (I—G+G)x—HH+Hx = Q,
что влечет за собой
6 = 0.
Если 6 > 0, значения Р1 и Ра приобретают тенденцию
СВЯЗЬ МЕЖДУ ДОВЕРИТЕЛЬНЫМИ ЭЛЛИПСОИДАМИ 125
к возрастанию, в отличие от случая, когда 6 = 0. Тест
при уровне значимости а отвергает- если
Р! > (01 _а (верхний 100(1—а) процентиль централь-
ного хи-квадрат распределения с т с.с.) при условии,
что величина о известна. Когда величина о неизвестна,
гипотеза отвергается, если т-1 (пг—&2)(р2 —1)>
><о1_а, где (01_а—верхний100(1—а) процентиль цен-
трального F-распределения с т и п—k2 с.с.
Мощность обоих тестов относительно различных
альтернатив является функцией только от 6 и мо-
жет быть вычислена с использованием соответст-
вующих таблиц нецентральных F и хи-квадрат рас-
пределений.
(в.5) Связь между доверительными эллипсоидами
для Gx и тестами общей линейной гипотезы
В этом, разделе будет показано, что обсуждавшиеся в
(6.4) тесты отношения правдоподобия (как при извест-
ной, так и при неизвестной величине а) эквивалентны
проверочной процедуре, отвергающей гипотезу Gx = 0,
как только доверительный эллипсоид, соответствующий
уровню значимости 1—а, перестает охватывать точку 0.
(Вспомним, что мы конструировали два эллипсоида:
один для известного <т, другой для неизвестного.)
Этот результат, а также представление для параметра
нецентральности 6, т — ранга матрицы НН+—НН*
легко вытекает из следующей теоремы.
(6.5.1)	Теорема. Если 5? (GT)s 3? (Ят) и. Н =
=Я(7—G+G), то
(a)	rk [//(/—G+G)] = rk(H) — rk(G)
и
(Ь)	(0Я+)+(0Я+) = ЯЯ+—нн+.
Доказательство, (а) Имеем
rk [Н (I —G+G)] = rk [Н+Н (I—G+G)] =
= гк[Я+Я—G+G],	(4.10.2b)
поскольку H+HG+G = G+G, как только 5? (GT)s5? (Нт),
3^.
126
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
(3.5). Следовательно,
гк [Я (/—G+G)] = rk (Н+Н—G+G) =
= гк(Я+Я)—rk (G+G) = (4.10.3)
= гк(Я)—rk(G).	(4.10.2)
(Ъ) Пусть
Рх = (0Я+)+ (GH+)
и
Р2 = НН+.
Заметим, что
5г(Рх) = 5г[(Я+)тОт] =
ЕЗ?[(Я+)Т] = 5ЦЯ) = 5?(ЯЯ+)	(3.5) и (3.11.5)
и
5J (Р2) = 91 (Н)<= 91 (Н) = 91 (НН+).
В силу включения 5? (GT) s 51 (Ят) следует, что
(6.5.11)	G — GH+H, (6.3.1) и (6.3.2)
откуда
GH+H = GH+H (J—G+G) = 0,
т. е. РхР2 = 0. Поэтому и в силу (4.10.3) достаточно
показать, что rk (Рх)-|-гк (Р2) = гк (НН+). Отсюда не-
медленно будет следовать равенство НН+ = Рх + Р2.
Но
гк(Рх) = гк(СЯ+) =
= гк (0Я+Я) = rk(G) (6.5.1..1) и (4.10.2)
и
гк (Р2) = гк (Н) = гк [Я (/—G+G)] = гк (Я) —rk (G)
(пункт (а)). Таким образом,
rk(Px) + rk (P2) = rk (Я) = гк (ЯЯ+), (4.10.2)
что и доказывает (b), (4.10.3b). □
(6.5.2)	Следствие. Пусть 6 и т те же, что и в
(6.4.6) и (6.4.7). Тогда, если Gx является д.о.в.п.ф.,
то T = rk(G) и <5 = <т-11| (СЯ+)+Gx||.
СВЯЗЬ МЕЖДУ ДОВЕРИТЕЛЬНЫМИ ЭЛЛИПСОИДАМИ 127
Доказательство. Имеем
т = гк (ЯЯ+ — НН+).
Если G является д.о.в.п.ф., то согласно (6.3.1)
54 (GT) = 54 (Ят) и в силу (6.5.1b) и (6.3.6.1) получаем
т=rk [(GH+)+ (GH+)] = гк (Gtf+) = rk (G).
Аналогичным образом
б = а-1||(ЯЯ+—ЯЯ+)Ях|| =
= 6-»||(Gtf+)+(Gtf+tfx)|| =
= o-*||(GH+)+ Gx(|,
если G—д.о.в.п.ф., (6.3.2). Ссылаясь на раздел (6.3),
мы видим теперь, что доверительный эллипсоид
!5(a2®i_a) охватывает точку у = 0 тогда и только
тогда, когда
(6.5.3)	y^G^^+G^+y^o2®!.»,
где ®1-а—верхний 100 (1 —а) процентиль хи-квадрат
распределения с т с.с. Поскольку y = GH+z, (6.5.3)
можно записать в таком виде
(6.5.4)	|| (GH+)+GH+zf <®х.а,
что в силу (6.5.1b) эквивалентно неравенству
(6.5.5)	(о2)"11| {НН + —НН+) z||2 < оь-а.
Таким образом тест, основанный на отношении прав-
доподобия для случая известного <т, отвергает гипо-
тезу Жо с уровнем значимости а тогда и только
тогда, когда доверительный эллипсоид, соответствую-
щий (1 — а)-уровню, не охватывает точку у = 0.
(6.5.6)	Упражнение. Покажите, что тест отношения
правдоподобия (для неизвестного о) с уровнем значи-
мости а отвергает гипотезу тогда и только тогда,
когда Ъ (^o^i-a) (определенный в (6.3)) не охваты-
вает точку «/ = 0.
(6.5.7)	Упражнение. Если G—д.о.в.п.ф., то 6 = 0
тогда и только тогда, когда Gx — 0.
128
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
(6.6) Ортогональные планы
В статистических исследованиях зачастую желательно
получить информацию о значении одного или более
параметров. Стремясь достигнуть этого, исследователь
планирует эксперимент, согласно которому
z = Нх-\- v,
где z—вектор наблюдений, х—неизвестный вектор
компоненты которого включают в себя интересующие
исследователя параметры (и возможно другие, так
называемые «мешающие» параметры), v—вектор невя-
зок (или погрешностей наблюдения), Н—известная
матрица, часто называемая «планом эксперимента».
Искусство планирования эксперимента составляет важ-
ный раздел в методах прикладной статистики, и одной
из фундаментальных идей является здесь понятие
«ортогонального плана».
Предположим, что tjj — GjX являются д.о.в.п.ф.
для /=1, 2, . ..,р (т. е. каждая компонента каждого
yj—допускающая оценку параметрическая функция).
Говорят, что план Н ортогонален по отношению к
допускающим оценку векторным параметрическим
функциям GpT, ’ G2x, ..., Gpx в том и только в том
случае, когда наилучшие линейные несмещенные оценки
для yi и yj некоррелированы для всех i, / при
Одна из причин, по которой ортогональные планы
предпочтительны, будет объяснена в теореме (6.6.9).
НЛНО для каждого у}- может быть вычислена так,
как будто известно, что все остальные у ~ 0 (/ = 1, ..., р,
но Этот прием значительно снижает вычисли-
тельные трудности в задаче наименьших квадратов.
Ради простоты мы сосредоточим внимание на слу-
чае, когда вектор невязок v имеет ковариационную
матрицу, пропорциональную единичной матрице.
В этом случае НЛНО для записывается в таком
виде:
(6.6.1)	yj = GJH+zi /-1, ...,р,	(6.1.12)
ОРТОГОНАЛЬНЫЕ ПЛАНЫ
129
И
cov (y/f Уу) s S (Si—У.) (У/~У/У =
= SGtH+ (z—Hx) (z—Hxy (GjH+y =
^Н+ЗууЦН+УС^
=oiGlHt(HyG}=
= aiGi(HTH)+Gtl.
Таким образом, у,- некоррелировано с уу в том и только
в том случае, если
(6.6.2)	Gi(H*H)+ G} = 0,
что эквивалентно утверждению ортогональности строк
матриц G, и Gy в смысле скалярного произведения с
матрицей (ЯТЯ)+ (между прочим, матрица (НТН)+
пропорциональна матрице ковариаций вектора
х=Я*х—НЛНО для х). Уравнение (6.6.2) может быть
записано в другой форме:
(6.6.3)	(С,Я+)(ОуЯ+)т = 0,	i#=/,
так что матрица Н ортогональна по отношению к G^r,
Gax, ..., G?x тогда и только тогда, когда 91 [(ОуЯ+)т] =
= <Л’(О1Я+) при «=/:/. Поскольку
Я[(ОуЯ+)т] = Я[(ОуЯ+)+ (ОуЯ*)]
и
<Г (ОуЯ+) = ^[(О;Я+)+ (0,Я+)],	(3.11.5)
то Я ортогональна по отношению к Gpc, ..., Gpx
тогда и только тогда, когда
(6.6.4)	pfPj = Q при j=/=j,
где
(6.6.5)	Ру = (ОуЯ+)+(ОуЯ+), . / = 1, 2, .... р.
При доказательстве (6.5.1b) было показано, что
91 [(GH+)+ (GH+)] <= Si (ЯЯ+),
если Gx является д.о.в.п.ф. Таким образом, ‘
' р
(6.6.6)	91 S (GjH+)+ (GjH^) s9l(HH+).
L/=l	J
5 A. Алберт
130
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
Если в (6.6.6) имеет место равенство, то в силу
(3.7.7) матрица НН+ может быть представлена как
сумма ортогональных проекций (этот факт не пред-
ставляет самостоятельного интереса). Говорят, что два
проектора Рх и Р2 ортогональны, если Р1Р2 = 0. Оче-
видно, PjP2 = 0 тогда и только тогда, когда Р2Р1 — 0.
Последнее равенство справедливо в том и только в
том случае, когда 54 (Рх) = (Р8).
Может случиться, что в (6.6.6) имеет место строгое
включение. Тогда, определив подходящим образом еще
одну д.о.в.п.ф., которую назовем yo = Gox, разложим
НН+ в сумму ортогональных проекций
р
HH+ = ^l(G.H+)+(GJH+').
i=o
В следующей теореме будет показано, как опреде-
лить Go.
(6.6.7)	Теорема. Пусть Н—ортогональный план по
отношению к Gtx, ..., Gpx, и пусть
(6.6.7.1)	Т = ЯЯ+ —2(СуЯ+)+(буЯ+)#=0.
Тогда Н является также ортогональным планом по
отношению к Gox, ..., Gpx, где
G0 = TH.^
Кроме того,
р
(6.6.7.2)	НН+ = S (G/7+)+ (Gytf+)
/=0
и проекторы в сумме взаимно ортогональна.
Доказательство. Имеем
GQH+H = ТНН+Н = ТН = Gq,
так что Go является д.о.в.п.ф., (6.3.2).
Чтобы показать, что план Н ортогонален по отно-
шению к Gox, ...» Gpx, требуется убедиться в том, что
(Gfttf+)(Gotf+)T = 0,	k=\, ...,р.
Левая часть этого выражения допускает представление
(О*Я+) (ТНН+)Т = GkH+T
ОРТОГОНАЛЬНЫЕ ПЛАНЫ
13!
(поскольку Н+НН* — Н+ и Т—симметрическая ма-
трица). Если применить к каждому члену правой части
выражения (6.6.7.1) преобразование GkH+, то получим
GkH+T = GkH+ [НН*-(GkH+) (GkH^] =
= GkH+— GkH+=Q.
Отсюда видно, что план Н ортогонален по отношению
к Gox, ..., Gpx. Поскольку Go = TH, то
[ОоЯ+]т = [тнн+у = НН+Т,
и так как =	(6.6.6), то
НН+Т = Т.	(3.13.1)
Таким образом,
Т = 7” = (О0Я+)т
и так как Т является проектором на
5? (НН^-91 (7\ + Р2 + ... + Рр),
то
(Go#+)+= Т+=7\
Следовательно,
7’ = Т2 = (О0Я+)+(О0Я+),
что является другим способом для представления
(6.6.7.2). □
Примечание. Нулевой член в сумме (6.6.7.2) допу-
скает следующую интерпретацию. Множество всех
допускающих оценку параметрических функций состоит
из элементов вида gTx, где g—произвольный вектор
из (Н+Н). Компоненты допускающих оценку вектор-
ных параметрических функций Gpc, G2x, ..., Gpx в сово-
купности соответствуют классу допускающих оценку
параметрических функций вида grx, где g—произволь-
ный вектор из 5? [(GT! GJ |... i GJ)]. Так как H+HGTt — Gri,
то это множество является подпространством в 5? (л+Н).
Но Go было определено таким образом, что
#[(G?|GT|. ..|0р] = 51(Я+Я)
и, следовательно, Н остается ортогональным планом.
5*
132
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
(6.6.8) Упражнение. Покажите, что Gji...
...КЭД=Я[Я+Я].
Концепция «ортогонального плана» играла весьма
важную роль в те времена, когда цифровые вычислитель-
ные машины еще не были столь широко распространены
и доступны. Задача решения нормальных уравнений
методом наименьших квадратов и определение "сумм
квадратов невязок на настольном вычислительном
устройстве была в лучшем случае утомительным заня-
тием, и 'трудности становились непреодолимыми, когда
размерность неизвестного вектора была больше, чем
6 или 7. Исключение составляли те случаи, когда план
был ортогонален.
В случае ортогонального плана в нижеследующей
теореме будет показано, что для каждой- д.о.в.п.ф.
оценка может быть получена в предположении равенства
нулю остальных элементов.
Общий эффект состоит в сведении оценивания £-мер-
ного параметра (что со всеми связанными с этим вы-
числениями по сложности эквивалентно обращению
матрицы размера kxk) к оцениванию р +1 параметра,
каждого размерности р(- (что эквивалентно обращению
матрицы размера р/Хр(), где Spz = £- Вообще говоря,
обращение матрицы размеры kxk требует порядка k*
арифметических операций.
Отсюда имеем
так что значительные вычислительные упрощения могли
бы подчеркнуть важность применения ортогональных
планов.
Наконец, интуитивно ясно, что разложение оста-
точной суммы квадратов || z—Ях||2 является еще одним
преимуществом при применении ортогонального плана.
Более точно, имеет место
(6.6.9) Теорема (ортогональное разложение для ана-
лиза дисперсий).
(а) Пусть z = Hx + v, где v— случайный вектор
с нулевым средним, матрицей ковариаций а2/. Пусть
ОРТОГОНАЛЬНЫЕ ПЛАНЫ
133
у, — б;Х, i = 1, ..., р,— допускающие оценку векторные
параметрические функции.
Тогда из ортогональности плана Н по отношению
к этим функциям вытекает, что
(6.6.9.1)	J z—Их ||2 = || z—Hi ||2 +
р
+Д	СЯ+(У/-^
где Go—матрица (возможно, вырожденная), определен-
ная в (6.6.7), х=H+z—оценка метода наименьших квад-
ратов для х и уу = GyX—НЛНО для у}, j = Q, 1, ..., р.
(Ь) Вектор уу может быть вычислен в следующей
(другой) форме. Пусть ij—любой вектор, минимизи-
рующий |z—Ях||2 и удовлетворяющий ограничениям
G,x = 0 для t = l,2, ..., /—1, /+1, ...,р. Тогда . ,
(6.6.9.2)	y/-G/V
(с) Если предположить к тому же, что вектор
невязок нормально распределен, то первый член в правой
части (6.6.9.1) {умноженный на а-2) имеет хи-квадрат,
распределение с п—k с.с., где п—размерностьzuk-
ранг Н; j-й член суммы (умноженный на а-2) имеет
хи-квадрат распределение с ру с.с., где ру—ранг Gj..
р
Все р4-2 члена независимы в совокупности и 2 Pz=A-
Примечание. Разложение суммы квадратов (6.6.9.1)
представляет «общую» сумму квадратов || z—Нх ||2 в виде
суммы, каждый элемент которой относится к соответ-
ствующей д.о.в.п.ф. и к так называемой остаточной
сумме ||z—Ях||2.Эти величины вычисляются обычно при
нулевых z/y и фигурируют под названием «анализ,таблицы
дисперсий» (Шеффе [1, гл. 4]).
Доказательство, (а) Так как
(6.6.9.3)	z—Hx = z—HH+z + HH+ (г—Нх) =
— (I—HH+)z-\-HH+(z—.Hx),
134
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
то из (6.6.7.2) следует, что
(6.6.9.4)
р
z —Ях = (/—ЯЯ+)г + £ (ОуЯ+)+(О.Я+)(г—Ях).
/=о
Матрицы Gy, / = 0, 1, ..., р связаны с д.о.в.п.ф., сле-
довательно,
GjH^Hx = GjX=yj,	(6.3.2)
и поскольку Я+г = х является НЛНО для Н*Нх и
GyX=yy—НЛНО для yJt получаем, что
~ ,р
(6.6.9.Б) г-Ях = (г-Ях) +5 (О7Я+)+ (yj-y,).
Первый член в правой части (6.6.9.4) некоррели-
рован и ортогонален каждому слагаемому суммы, так
как (а) матрица I—НН+ проектирует на 5?(Я)-*-
[=оАГ(Ят)], тогда как каждое слагаемое проектирует
на подпространство 5? (Я), (6.6.6), и (Ь) матрица ко-
вариаций вектора z—Нх пропорциональна единичной
матрице. Из того же, что Я является ортогональным
планом по отношению к G7x, /=0, 1.....р, проекторы
в сумме (6.6.9.5) взаимо ортогональны, (6.6.4). Этим
же свойством обладает каждый вектор суммы, и по-
скольку матрица ковариаций вектора z—Нх пропор-
циональна единичной, слагаемые взаимно некоррели-
рованы.
Взаимная ортогональность всех членов в (6.6.9.5)
позволяет представить сумму квадратов ||г—Ях]|2 в та-
ком виде:
р
||г-Ях||2 = ||z—Ях||2 + S II(GjH+y (yj-yj) ||2 =
= IIZ —Ях II2 + 2 (У/—Z//)T [Gy (Я WG}]+ (У/ ~У^
что и устанавливает справедливость (а).
(Ь) Если Ху минимизирует ||z—Ях||2, при G!X = 0
для всех i^=j, то Wj= Нх, минимизирует Jz — m||2,
ОРТОГОНАЛЬНЫЕ ПЛАНЫ
135
при GiH+m = 0 для всех и /иС5?(Я), в силу того,
что GiH+tn = GiH+Hx и GiH+Hx — GiX, если G, является
д.о.в.п.ф., (6.3.2).
Отсюда Шу минимизирует || z—/п||2 при ограничениях
р
(6.6.Э.6) (/ — НН+)т+ 2] (G1//+)+(G1Jf+)/7? = 0,
4 = 0
i =^= i
так как
G,H+m = Q
тогда и только тогда, когда
(GiH+)+ (GiH+)m = 0,
и в силу взаимной ортогональности членов в (6.6.9.6).
Используя (6.6.7.2), получаем
(6.6.9.7) (/—ЯЯ+)+2 (G,J/+)+(G,tf+) =
4=0
**' =/-(6уй^)+(С^)^(?/.
Матрица Qj является пректором, так что
|| Z —т ||2 = || z_Q.m_(/ _т ||2
достигает минимального значения и при этом удовлет-
воряются ограничения Qy/n = 0 в том и только в том
случае, когда
(6.6.Э.8)	m,- = (/ — Q.)Z.	(3.12.4)
Поскольку ту = Яху, то
GfH+mJ=G/H+Hi/ = GJiJ, (6.3.2)
тогда как (6.6.9.8) подразумевает, что
GjH+mj = GjH+ [(GjH+)+ (GjH+)] z = GjH+z = G/x.
Отсюда
Gy3c = GyX7 = yy,
что и доказывает (6.6.9.2).
436
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
(с) В пункте (а) мы показали, что все члены в правой
части (6.6.9.5) некоррелированы. Если дополнительно
предположить нормальность их распределения, они
будут независимы, (6.4.2), что влечет независимость
в совокупности всех членов в правой части (6.6.9.1).
Как было показано, o-2||z—Ях||2 имеет хи-квадрат
распределение с п—k с.с., (6.3.10), (6.3.11), а распре-
деление о-2(уу—yjy\Gj{HxHy <?/] (у7-—У]) также хи-
квадрат с ру с.с., (6.3.5).
Левая часть (6.6.9.1) после деления на о2 имеет вид
п
S (vy/o)2,
где Vy—независимые случайные величины с нулевым
средним и дисперсией о2, так что после деления на о2
левая часть (6.6.9.1) имеет распределение хи-квадрат
с п с.с. Таким образом,
р
'	п = п—k-\- 2 pz.
.	.•?.			/=0
Следовательно,
р1
* примечание. По определению план Н всегда орто-
гонален к единственной д.о.в.п.ф. Grx. Это означает,
лто разложение в виде (6.6.9.1) может иметь место для
случая р = 1, если только Go определена подходящим
образом (в соответствии с (6.6.7)).
, о > (6.6.10) Упражнение, (а) План Н ортогонален по
"отношению к G,x, i = 1, 2, ..., р, тогда и только тогда,
когда	.	-
. (НН+ —
если i Ф j, где И, — H(I—Gffi). (Указание. Используйте
(6.5.1b).)
(b) Пусть X/ минимизирует || z—Ях||2 при условии
х € <№ (GJ П ... Q (Gy-J Г) (Gy+1) П • • • П <№ (Gp).
ОРТОГОНАЛЬНЫЕ ПЛАНЫ
137
Пусть y' — GjX*, и пусть yj = GjX. является НЛНО для
yj — GjX. План Н ортогонален по отношению к G(x,
i = 1, 2, ..р, тогда и только тогда, когда
у} = у7 для / = 1, 2.......р.
(6.6.11)	Пример (линейная регрессия). Наблюдения
поступают в виде
g,- = a + pr(- + v(-,	i=l,
или, в векторно-матричной записи,	1
z = Нх + v,
где	...
Положим Gt = (l 0) и G2 = (0 1). Тогда y1 = G1x = a
и i/2 = <J2^ = ₽- Матрица Н имеет ранг k = 2, если не
все т одинаковы, и в этом случае Н+Н = 1. Следовав
тельно, уг и у2 являются д.о.в.п.ф. Матрица Hj до-‘
пускает представление	.
Поэтому
нп+ = («т/К||\ /=1.
1 1 I ee^ef, ~ j = 2.
Скорейший путь отыскания НН+ состоит в ортогона-
лизации столбцов по методу Грамма—Шмидта и при-
менения (3.7.3):
~FF+ imr ill’ll8 *
138
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
где
II z> 112 e>
(iTe) .
W~e II/112
u = t
образом,
Таким
НН+ — ВД = ^7 к II2,
НН+— Н2Н% = ии?/\\и\\*
и, следовательно,
(//я*-ад)(яя*-ВД)= i4w(w/I)-
В силу (6.6.10) Н является ортогональным планом по
отношению к Grx, G2x тогда и только тогда, когда
последнее выражение равно нулю. Поскольку
и векторы t не некоррелированы, если не все т оди-
наковы, неравенство - Коши — Буняковского позволяет
сделать вывод об отрицательности члена в квадратных
скобках и, следовательно, wTu = 0 тогда и только тогда,
когда ет/ = 0. В итоге план Н ортогонален по отноше-
п —
нию к а и 6 тогда и только тогда, когда п~1У\ т,=т=0.
/=’
Таким образом, Н является [ортогональным планом
тогда и только тогда, когда наблюдения выбраны для
тех Ту, средние значения которых равны нулю. В этом
случае можно вычислить НЛНО для а в предположе-
нии р=о.
Представим себе, что
g/ = a + v/,	i = l, ..., п.
Тогда НЛНО для а имеет вид
«=«-1 S £<••
1=1
Аналогично, НЛНО для р вычисляется в предположе-
нии а = 0, т. е.
Si = PTi + V/, t = l,
ОРТОГОНАЛЬНЫЕ ПЛАНЫ
139
и НЛНО для р имеет вид
п	п
В этой частной двумерной задаче НЛНО может быть
вычислена явно в общем (неортогональном случае)
X
где
₽= 2 (5/-S)(т7—	(ту-7)\
Б = я_12&»	т = и-12'Г/
/=1 /=1
и
а = 2—Р^-
Очевидно, что условие ортогональности т = 0 сводит
эти формулы к оценкам аир, полученным выше.
Разложение суммы квадратов в ортогональном слу-
чае имеет вид
п
а’2 2 (?/-а-Рт/)2 =
п
=	2 (g а-ртуГ+ (₽-р)2/а| +(а-а^/о1,
/ = 1
где
п
а = «-1 2
Г = 1
п	п
₽ = 25/Т| 2т?,
i = 1	' i = 1

4 = а21 24
Если план не был ортогональным по отношению к а
и р, он все же ортогонален к одному из них, рассмат-
риваемому отдельно. Пусть р является интересующим
140
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИТОТЕЗА
нас параметром. Положим Gj = (0 ^1), т. е. GjX = p.
Используя (6.6.7), определим
Go = [НН+—(Gj/f+)+ (Gx#+)] Н=е (п i «7).
Таким образом,
Gox = п, (а + т0) е
и план Н ортогонален по отношению к Gox и Gxx.
Величину р можно вычислить, минимизируя ||z—Ях||2
при условии Gox = O (т. е. а—— тр). В этом случае
сумма квадратов
п
s (g7_a_pT/)2
/ = 1
становится равной
п _	п	_
2 -нр-туР)2 = 2 Ку— ₽(*/-<
и достигает минимума, когда 4
₽=Sg7(T/-T)/2(Ty-T)2 =
/ = 1 / = 1
'	П	_	_ / п	_
= 2 (6/-6) (Ту-Т) / 2 (Ту-т)2.
(6.6.12)	Упражнение (методика по двум парамет-
рам). Предположим, что наблюдения задаются сле-
дующим образом:
?zy = ai +₽y + vo» i = l, ..., /;	/=1, ..., J,
где для всех i, j а,- и Р7- неизвестны, а невязки v17
имеют нулевое среднее, одинаковую дисперсию и
ОРТОГОНАЛЬНЫЕ ПЛАНЫ
141
некоррелированы между собой:
*12
*и
*21
*2/
*/1
*7/7
1 о ... О
1 о ... о
ГТТ7Т
оПГ~777~о
о i ... о
j
1 О ... О '
О 1 ... о
То ... i
1 6 77 О
О 1 ... о
01	...	о	Г о	о	...	1
О 0	...	1	: 0	1	...	О
и
Пусть
Покажите, что план не ортогонален по отношению
к Gxx и G2x. {Указание. Покажите, что оценка по
142
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
методу наименьших квадратов (м. н. к.) для Gxx кор-
релирована с такой же оценкой (м. н. к.) для G2x.)
(6.6.13)	(Продолжение (6.6.12)). Пусть
8 = /-12а,+Л1Ь/.
i=l	/=1 J
I
= —J"1 2 i = 1, ..7,
Vy=Py-J-l	/=1, ...» J,
х —	(ъ 'I 61 6/-1 Ti . VJ-i >	>
и пусть z и v те же, что и в (6.6.12).
(а) Найдите Н такое, что
z — f/x + v.
(Указание,
(b) Пусть
Покажите, что Н—ортогональный план по отношению
к Gtx, G2x и GjX.
/=i л	л j-i
(с) Определим 6Z=— 2 §/» ?/ = — 2 ?/• Тогда
/=1 /=1
ортогональное разложение суммы квадратов для
ОРТОГОНАЛЬНЫЕ ПЛАНЫ
143
ортогонального плана по двум параметрам имеет вид
2 (g,. -е -fi.-Vy)2 = 2	-е- 6,- -V,-)2 +
ij	И
+/2 (бг—в,)2+/ 2 (?/-v/)8+
i	i
+	е)2.
Если невязки v,y независимы и нормально распреде-
лены с нулевым средним и единичной дисперсией, то
члены в правой части имеют независимые хи-квадрат
распределения с IJ—(I + J — Y), 1—1, J — 1 и 1 с.с.
соответственно.
(6.6.14)	Упражнение. Пусть
р я
н = п
— матрица размера nx^p + q) и ранга pY-q. Предпо-
ложим, что
z = Нх + V,
где невязки v имеют единичную матрицу ковариации.
Оценка по методу наименьших квадратов ( НЛНО)
для х единственна и может быть получена посредством
псевдообращения матрицы Н размера «Х(р + <7):
x = #+z.
Другой менее трудоемкий метод (используемый
в главе VIII в последовательной регрессии) состоит
в следующем.
Пусть
х = Р
Я \Х2 /
и
р я
G = ? (Oj/).
Тогда
(а) План Н ортогонален по отношению к Gox и Gx-,
(b) НЛНО для х2 единственна и задается формулой
х2 = Gx*,
где х* минимизирует ||z—Ях||2 при условии Gox = 0.
144
ГЛ. VI. ОБЩАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
(с)	Вектор х2 задается формулой
Ъ	(HIQJW
где
Q1 = I-HJi} . / ~Нг (НЩ.
(d)	НЛНО для xr единственна и задается формулой
xt = Я? (z—Я2х2). (ЯТЯ,)-1 Я1 (z—Я2х2).
(Примечание, Векторы хх и х2, а значит, и вектор
J-(£)
могут быть получены посредством обращения матриц
размера qxq и рхр. При достаточно больших р и q
и p^q можно получить значительную экономию
в вычислениях.)
(е)	Пусть х; = Я12. Тогда
|| z-Их ||3 = || z-ВД |р-% (HIQ	£2.
(Таким образом, сумма квадратов невязок, связанная
с НЛНО для х через «полную» модель
г = Я1хх + Яах2 + у,
отличается от суммы квадратов •невязок, связанных
с НЛНО для хг в неполной модели
г = Я1х14-у,
«корректирующим членом»
х2Яаф iHsfa || Q хЯ2х2 |р.)
ГЛАВА VII
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
С ОГРАНИЧЕНИЕМ, ШТРАФНЫЕ ФУНКЦИИ
И НАИЛУЧШИЕ ЛИНЕЙНЫЕ НЕСМЕЩЕННЫЕ ОЦЕНКИ
(7.1) Штрафные функции
Во многих приложениях, как можно было заметить,
возникает необходимость получения оценки с помощью
метода наименьших квадратов при линейных ограни-
чениях типа равенств. Это означает, что необходимо
отыскать такой вектор х, который минимизирует
(7.1.1)	(z—HxyV-2(z—Нх)
и удовлетворяет условию
(7.1.2)	Gx = m,
где V—известная положительно определенная матрица,
z и и—заданные векторы, Н и G—заданные прямо-
угольные матрицы.
Весьма общий результат в теории минимизации,
вытекающий из «метода штрафных функций», утвер-
ждает, что х, минимизирующий
(7.1.3)	h(x)+b-*g*(x)
(назовем его х (X)), сходится (при X —► 0) к
(7.1.4)	x»=limx(X),
если выполнены некоторые условия непрерывности и
если вектор х0 минимизирует h(x) при условии, что
g(x) = 0 (Батлер и Мартин [1]). Кроме того,
(7.1.5)	lim [ft(x(X))+X-2g2(x(X))] = /i(*°),
к->- о
146
ГЛ. VII. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
так что минимальное значение (7.1.3) сходится к ми-
нимальному значению h на множестве ограничений.
Член (V2)g2(x) называют «штрафной функцией»
ввиду того, что величина h(x) + K~2g2 (х) возрастает
в тех случаях, когда х лежит вне множества ограни-
чения (g(x) = 0), при малых %.
В рассматриваемом случае, если мы предположим,
что
(7.1.6)	h(x) = (z—HxyV~2(z—Hx)
и
(7.1.7)	g2(x) = (u—• Gxyiu— Gx),
и если х(Х)—то значение х, которое минимизирует
(7.1.8)	(z—HxyV-2(z—Hx)+X-2(u — Gxy(u—Gx),
то естественно ожидать, что
(7.1.9)	х°= lim х(Х)
А.-* О
существует и минимизирует (7.1.6), удовлетворяя ус-
ловию g2(x) = 0 (т. е. Gx = u). Вместо привлечения
общей теоремы проведем прямое доказательство, осно-
ванное на изложенном выше материале.
(7.1.10)	Теорема. Пусть Н, V и G—матрицы раз-
мера пхт, пхп и kxm соответственно, причем V по-
ложительно определена. Пусть также
’ V(поРядка (”+&)X(n+k))
и
где г и и—данные п-мерный и k-мерный векторы соот
ветственно.
Пусть
x(%) = [i7-i(k)H]+V-4Mz.
ШТРАФНЫЕ ФУНКЦИИ
147
Тогда
(а) вектор х(Х) имеет минимальную норму среди
множества векторов, минимизирующих
(z—Hxy V~2 (X) (г—Нх) ==
= (z—Нх)тV-2 (г—Нх) + X~2(u — Gx)T (u—Gx);
(t>) всегда существует limx(X) = x°;
х-*о
(с) среди множества векторов, доставляющих мини-
мум || и—Gx||2, вектор х° имеет минимальную норму
и доставляет минимум функции (z—Hx)TV“2(z—Нх);
(d) если и £91 (G), то множество векторов х, каждый
из которых минимизирует ||и—Gx||2, совпадает с мно-
жеством векторов, удовлетворяющих ограничению
Gx = u. В этом случае вектор х° минимизирует одно-
временно и (г—Нх)Т~2 (z—Нх) при условии Gx = u.
Кроме того,
lim [z—Hx(X)]TV"2(X)[z—Нх(Х)] =
= (z—HxFy V-2(z—Hxa).
Доказательство, (а) Поскольку
(z—Йх)Т V-2 (X) (zr—Нх) = || V“xz—V-1Hx||2,
требуемое утверждение следует из (3.4).
(Ь) и (с) положим
(7.1.10.1)	F^V-'H,
(7.1.10.2)	w=V~1z.
Тогда из (3.8.1) получаем, что
x(X) = [V-i(X)H]+V-1z =
= [F + X“2GTG]+[Fta> + X"2GTu].
В силу (4.9) имеем
[FTF + X~2GTG]+ = (FT?)+ +
4-	X2 (/—F+F) [(G+G)+ + J (X)] (7 —F+F)r,
где _
F=F(J — G+G) и J(X) = O(X2) при X-* 0.
148
ГЛ. VII. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
Таким образом,
(7.1.10.3)	х (X) = (FTF)+FTay + X"2 (FTF)+GTu +
+ (I—F+F) [(GTG)+ — 0 (X2)](Z—F+F)TGTu
при X—>-0.
Ho
(7.1.10.4)	FGT = F (1—G+G) G+=F[G(I — G+G)]T = 0.
Следовательно,
(GT) s <ЛГ (F) = «Г [(F+)T] = (F+F) = <T [(F+F)+]
(3.11.5)
и
(7.1.10.5)	(FTF)+GT = 0, (F+)TGT = 0.
Отсюда следует, что
(7.1.10.6)	(Z—F+F)(GTG)+(Z—F+F)TGT =
= (J—T+F) (GTG)+GT = (Z —F+F) G+ (3.8.1)
и в силу (3.13.10)
(7.1.10.7)	(FTF)+FT = F+.
Из (7.1.10.3) с учетом (7.1.10.6) получаем
(7.1.10.8)	х (X)=F +w + (Z—F+F) [G+и + О (X2)]
при X—>-0.
Следовательно,
(7.1.10.9)	х(Х) = х« + О(Х2) при Х->0,
где
(7.1.10.10)	x* = F+w + (I— F+F)G+u =
— F* (w—FG+u) + G+u.
На основании (3.12.7) последнее выражение в точно-
сти совпадает с вектором минимальной нормы, кото-
рый минимизирует Цау—Fx||2 и одновременно принад-
ОЦЕНКИ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ
149
лежит множеству векторов, минимизирующих || и—Gx||2.
Утверждения (Ь) \и (с) вытекают отсюда, поскольку
Ех||2 = (Z—Hxyv-* (z—Hx).
(d) Имеем
lim [z—Ях(%)]тУ"2(Х)[г—Ях(Х)] =
ь-*о
= lim {|| ш-Fx(MII2 + V3h—Gx(X)ll2} =
x-*o
= lim {||ay—Fx° + O(V)||2 + X-2||u—Gx’ + O(V)J}.
x-*o	.	'
Если u£5i(G), то вектор x° должен удовлетворять
уравнению Gx = u, если он минимизирует || Gx—и||2,
вследствие чего последний член стремится к нулю при
X—>-0, в то время как первый член стремится
к ||йу—Гх°Ц2.
(7.2) Оценки метода наименьших квадратов
с ограничением—предельный случай НЛНО
Определенный в (7.1.10) вектор х(Х) в силу (6.1.12с)
совпадает с НЛНО для вектора х, если для оценива-
ния х используются наблюдения
(7.2.1)	z = Hx + v,
где v—случайный вектор с нулевым средним и мат-
рицей ковариаций 1^2(Х), определенной в (7.1.10). Та-
ким образом, выражение (7.1.10) показывает, что любая
оценка, полученная для взвешенных наименьших квад-
ратов с ограничением может рассматриваться как
предельный случай НЛНО, когда часть наблюдений
практически безошибочна. Иначе говоря, оценки, по-
лученные применением взвешенных наименьших квад-
ратов с ограничением, могут быть сколь угодно хорошо
аппроксимированы за счет включения ограничений
в схему наблюдений в качестве фиктивных наблюде-
ний, не искаженных ошибками, и вычисления НЛНО
150 ГЛ. VII. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
для х с использованием как действительных (с кова-
риацией V), так и фиктивных (с ковариацией V/ при
X—*-0) наблюдений.
(7.2.2)	Упражнение. Пусть v имеет матрицу кова-
риаций
/ vio\
и НЛНО для х задается формулой
(7.2.2.1)	£ (0) = Н+ [I—V (0) (Q V (0))+] z,
где Q = (/ — НН+), (6.1.12). Справедливо ли утвержде-
ние, что х(0) совпадает с х°— lim х(Х)? (Это могло
бы означать, что оценки взвешенных наименьших квад-
ратов с ограничением могут быть получены как НЛНО
за счет обработки ограничений как «бесшумных на-
блюдений», см. Зискинд и Мартин [1], Голдмен и
Зелен [1].)
ГЛАВА VII/
рекуррентное вычисление
ОЦЕНОК НАИМЕНЬШИХ КВАДРАТОВ
(8.1) Метод наименьших квадратов без ограничений
Во множестве современных приложений метода наи-
меньших квадратов поток поступающих данных обра-
зует временную последовательность. Всегда желательно,
чтобы в любой момент времени оценка метода наимень-
ших квадратов полностью использовала всю накоплен-
ную до этого момента информацию (см. «Американская
статистическая ассоциация» [ 1 ] в связи с приложениями
этой идеи).
В главе V было описано несколько алгоритмов
вычисления H+z. Однако ни один из них не был слиш-
ком удобным для ситуации, когда оценка метода наи-
меньших квадратов должна обновляться в момент
поступления новой информации.
Для определенности рассмотрим сначала задачу
линейного регрессионного анализа, что не является
существенным ограничением для дальнейших исследо-
ваний. Более точно, установим связь между оценкой
для вектора х, основанной на наблюдениях в п точках,
с оценкой для х, основанной на наблюдениях в п +1
точках.
Пусть g2, ... —последовательность скалярных
наблюдений вида
(8.1.1)	tj = h}x + Nj,
где hj—известные р-мерные векторы, vy— последова-
тельность некоррелированных случайных величин
152
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
с нулевыми математическими ожиданиями и одинако-
выми дисперсиями при всех / и х—неизвестный р-мер-
ный вектор.
Как было показано в (6.1.12), НЛНО для х, вычис-
ленная по наблюдениям
=\ ) ’
\ Еп/
задается формулой
(8.1.2)	x„ = ^z„,
где
?!
"hi
\hlj
Если поступает новое наблюдение
?п+1 ~ h„+1x + Ve+1,
то НЛНО для х имеет вид
(8.1.3)	хя+1 = H„+1zn+1,
где
_/ нп \
Оказывается, что вектор х„+1 замечательным обра-
зом связан с вектором х„. В силу (4.3.2) имеем
(8.1.4)	Н++1 = [(Z ~Kn+M+i) Н+ j Кп+J,
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ БЕЗ ОГРАНИЧЕНИЙ 153
где
'	(1-1&Нп) hn + 1
h^I-HM hn^'
/о 1 к\ к ______< если (Z 7fn/7n)/in+1 О,
(S.l.b) Лп + 1 — \ и+ГиП+ь
Пп {nn)+hn +1
l+hTn+1Hi(HTn)+hn + 1
в остальных случаях.
Таким образом,
(8.1.6) хв+1 = 7/^+1zn+1 =
~(J Kn + lhn+l) Нпгп~^~ ^л+15и+1 =
= Хл 4" «„ + 1 [£и + 1	^л+1хл]»
где
хо = О.
Заметим, что в рекуррентном выражении (8.1.6)
корректирующий член пропорционален разности между
£п+1 и предсказанным значением g„+1, по наблюдениям
zn ..., z„, равным /г„+1хл. Как видно из (8.1.6), новая
оценка хп+1 получается в виде суммы предыдущей
оценки и члена, пропорционального ошибке прогноза
(п+1)-го наблюдения. Вектор пропорциональности
/Си+1 иногда называют вектором сглаживания. Из (8.1.5)
следует, что этот вектор не зависит от наблюдений.
Применение этого рекуррентного метода не ограни-
чивается только лишь данной статистической задачей.
Это достаточно общий результат, устанавливающий
связь H+z с
(ЖО-
где /гт — произвольная вектор-строка (соответствующего
размера) и С—произвольный скаляр.
(8.1.7) Частный случай. Предположим, матрицы Нт,
т^п, имеют полный ранг (= числу столбцов мат-
рицы Нт). Это означает, что столбцы матрицы Нт
154
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
линейно независимы. Следовательно, матрица /7^/7^
имеет обратную для всех т^п. Используя этот факт,
получим другой вывод рекуррентного соотношения
для H+z. Пусть
Bm = {H^mY^ для m>n.
Ранее было показано, (4.6.1), что
/Q 1 *7 1 \ D ____ D (Bmhm+1) (Вmhm -ц)Т
(8.1.7.1)		•
где h—вектор-строка, которая вместе с Нт образует
Яи+1. Поскольку
Х-т + 1 ~ Нт+1%т + 1 ~ В т + лН^п+1%т + 1 -
I
I
то, принимая во внимание симметрию матрицы Bm и
применяя (8.1.7.1), можно получить представление для
Хт + 1 = т + \Вт [77^ZOT + hm +	+ 1],
где
(Brn^-m 4-1) ^m+l
1 -V^n+lBmhm +:
Так как
Km
и

Bmh1
1
можно заключить, что
(8.1.7.2)	im+1 = im + —[gm+1-/&+1xJ.
< "Г nm+lomnm + l
Поскольку столбцы матрицы Нт линейно независимы
по предположению, то (Нт) = {0} и, следовательно,
проекция на <№(Нт) равна нулю: /—Н+тН,п = 0, а зна-
чит, (/—Я^Яга)/1т+1 = 0. Таким образом, значение
^m+i> определяемое формулой (8.1.5), задается второй

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ БЕЗ ОГРАНИЧЕНИЙ 155
половиной ее правой части и совпадает с ВлЛя+х/О +
что и следовало доказать.
(8.1,8)	Упражнение.
(а)	Вектор hn+1 является линейной комбинацией
(л. к.) векторов hlt ..h„ тогда и только тогда, когда
(I-H+nHn)hn+1 = 0.
(b)	Пусть ДЙ = /-ВД, и Й„ = (ВД+. Тогда
(8.1.8.1)
К,
7т^ПлЧ+1 ' ' бСЛИ h>
hn+iAnhn+i
не является л. к. Л.
^п^п+1
1
в остальных

случаях,
где
(8.1.8.2)
Ап
(Anhn+1)(A„hn+1y если h
не
Ап
Ао = 1,
hn+iAnhn
является л. к. h19 ..., hn\
в остальных случаях,
в0=о
А
и
(8.1.8.3)
В
D  (^п^п + 1) (An^n +l)T4~(^n^n+l) (Уп-н)Т
ип


\Пл+1АпПп + 1)
если hn+1 не является л. к. hlt
В (Bnhn+1) (Bnhn+{)T
"	\-\-hxn+1Bnhn+1
в остальных случаях.
(Указание. Используйте (4.6), (3.14.1) и/или (4.6.4).)
(8.2) Рекуррентное вычисление невязки. Обозначим
невязку, соответствующую оценке x„ = HJ;z„, через s„:
(8.2.1)
8/1 — || Zn — Н tiKn J2 •
156
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
Результаты (8.1) могут быть использованы для того,
чтобы установить связь между 8я+1 и s„.
(8.2.2) Теорема. Положим ео = О. Тогда
' 8„, если hn+1 не является
л» к. hlt • •.,
8я + 1 = ' g I (Cn+1—^п+1*п)а
1+Лл+1В"Ая+1
в остальных случаях.
где Ва^(1Гп,Нпу удовлетворяет (8.1.8.3).
Примечание. Поскольку (8.2.1) есть не что иное,
п
как 2 (С, —Л/Хя)2, то (8.2.2) устанавливает справед-
ливость следующего тождества:
п
/= 1	/€ Jn
где
[/„ = {/: i^nnhj является л. к. 7ц,	hj^}.
Тождество остается справедливым для всех скаляров
£i> • ••, всех векторов /ц, .л., hn и всех п.
Доказательство. Поскольку
из (8.1.6) вытекает, что
(8.2.2.1)	Zw + 1	+ 1
(	TZ#?*7?.... j_
\£>П + 1 ^П+1ХП /
A _________at
I ,T „	) \Ъп + 1 "n+i*nb
\ «/i+lAn+i/
Случай 1. Вектор hn+1 не является л. к. 7ц, ..., hn.
Тогда (/—H%H^hn+1^Q и Кп+1 определяется из пер-
вой части формулы (8.1.8.1). Поэтому
НпКп + 1 — ^n^n^n + l/i^n+l^n^n + l)*
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ БЕЗ ОГРАНИЧЕНИЙ 157
Поскольку
Л„ = 7-ВД,,
то
Я„Л„ = 0.
Следовательно,
tf»*»+l = 0 И ^в+1Ав+1=
Отсюда, в силу (8.2.2.1), имеем
8B+1=IIZB + 1 ^в+1Хв + 1Ц2 =
= 12в Нпхп№ = 8в-
Случай 2. Вектор Ля+1 является л.к. ..., hn.
В этом случае Кп определяется второй частью фор-
мулы (8.1.8.1). Теперь, в силу (8.2.2.1), имеем
(8.2.2.2)	Jz„+1 Нп+1хя+11|2 =
= IIZB Нп*-п II2 4* (5л+1 ^*+Л>)2
2 {(Z„ Ях„)тЯ„/С„+1 + (£л+1 ^n+lXn) ^n+l^n + ll X
х(5в+1 ^b+ixb) 4*
+ {K5+1^BK„+14- (адя+1)’} (5л+1-^+1хй)2 =
= II z„-Hnin II2 - 2z’	HnKn+1&n+1^h^xn) +
+ [(К$+1адЛ„+1) 4-(l -Л;+Л„+1)2] (5«+1-^+Л)2.
(Для получения второго члена в (8.2.2.2) использова-
лось равенство (z„—Я„х„)т =zT (/—#„#£).)
Так как (/—Н„Н+) Н„ = 0, второй член в правой
части (8.2.2.2) исчезает. Из того, что Кп+1 определяется
второй частью (8.1.8.1), а также в силу соотношения
ви^нп)+в„=в„, '
справедливого из-за симметричности матрицы Вп =
= (Я£Я„)+, следует, что
Кт (HrH V К — ^л+i^n^n-t-i
Д„+1(^„) ^i-{l+h^iBnhn+iy
158	ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК	|
И	I
(1	п +1)2 = /. . , Т д .	\2 •	I
4-лп+1Влл„+1}	।
Третий	член	в	выражении (8.2.2.2)	приводится |
К виду	|
(Sn + 1	^гм-1Хл)2/(1 4“^т-н£|Лл + 1)«	О	!
(8.3) Метод взвешенных наименьших квадратов. Ре-
куррентная формула (8.1.6) вместе с (8.1.8) может быть
рассмотрена как соотношение между значениями х,
которые минимизируют
п
,2^-Л}*)2.
и значениями х, минимизирующими
п+1
2(£/-W-
\	1=1
Неудивительно, что аналогичное соотношение связы-
вает также значения х, которые минимизируют соот-
ветственно 2 (С/—й}х)2/о2 и 2 (С/—Л/х)2/о2.
(8.3.1) Упражнение. Пусть о?, ...—последова-
тельность положительных скалярных величин, и пусть
хп—вектор минимальной нормы среди всех векторов,
п
доставляющих минимум функционалу £ (^-Щху/^.
Тогда хо = 0,
(8.3.1.1)	%п+1~Хп~УКп+1 (C»+i	Л«+Л).
где		^л + 1/^+МЛ + 1> если Л„+1 не является л. к.
(8.3.1.2)	&п + 1 — '	/ti, ..., hn,
		Вл^л+Ж+1+Аг+1ВЛ+1)
		k	в остальных случаях,

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ БЕЗ ОГРАНИЧЕНИЙ 159
(Д (Anhn+i) (A„hn+1y роли h
\ Лп	7тГТ--------» если пп+1
J	«л+1Лп/1п + 1
(8.3.1. ) ДИ+1 = Л не яВЛяются л. к. /гх, ..., /г„;
\Л„ в остальных случаях,
So = 0;
(8.3.1.4) Вя+1 =
g  ФпЬ-п+т) М?г^л + 1)Т4~("4я ^« + 1) (^n^n + l)T I
hn+iAnhn+1
, On+i+hn+iBnhn+1 /ли Х(Д h xt
1	77тГТГИА+1ЛлА+1/>
=	(Лл+1Л„/1й+1)2
если hn+1 не является л. к. hlt ..., ft„;
В„—в остальных случаях.
”	о^1+^+1ВЛ+1	7
Обозначая соответствующие невязки через
/ п	\
e„Q = ^-hfxnY/tf).
имеем
(8.3.1.5) ёя+1 =
ёо = 0;
8„, если hn+1
не является л. к. hlt ..., /гя;
en + fen+1 — hn+1 хп)2
(on+i+hn+iBnh п + 1)
в остальных случаях.
Для каждого п
(8.3.1.6)
и
(8.3.1.7)
В„ = (J% У = (Дт„^п2Я„)+,
160
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
где
М1\
(8.3.1.8)	= : j, V2 = diag(<j2, ...,о2).
\hTn/
(Указание. Пусть Су = £у/Оу, hj — hj/csj. Обратите вни-
мание, что
' ^(й,, ...,ЙП) = ^(Я1, ...,АЙ)
И
/=1	f=i
Примените (8.1.6)—(8.1.8) к Lni h.- и затем вернитесь
к С/ и hj, j — 1, 2, ..., n.)
(8.4) Рекуррентный метод наименьших квадратов
с ограничением, I
Как было показано в (3.12.4b), вектор
(8.4.1)	х° = G+u + [Н (/—G+G)]+ (z—HG+u)
имеет наименьшую норму среди рсех векторов, достав-
ляющих минимум
(8.4.2)	Ь-ЯМ2,
удовлетворяя в то же время ограничению
(8.4.3)	Gx= и,
при условии, что множество ограничений не является
пустым.
Представим себе «поток» наблюдений £2,
и обозначим вектор из п наблюдений через z„. Пусть
хЦ—вектор наименьшей нормы из всех тех векторов,
п
которые минимизируют ||z„—Я„х||2= 2 (£/—Л/*)2 при
7=1
условии Gx = 0.
(8.4.4)	x°n=G+u+H+zn,
РЕКУРРЕНТНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ, I 161
где Нп = Hn(I — G+) — матрица, /-я строка которой за-
дается формулой
hj=[(I—G+G)hj]T, / = 1,2.......п,
hz„ = z„—HnG+u—n-мерный вектор с компонентами
Zj^j-h]G+u, /=1,2..........п.
Вывод рекуррентного соотношения для хп= Н^гп
может быть почти без изменений перенесен на случай
вычисления вектора
х„ = G+u+H+z„.
(8.4.5)	Теорема. Пусть x^=G*u. Тогда
%п+1 —	Кп+1 (£п + 1 ^л+1-^n)»
где
I	—, если hn+1 не является л. к.
77	I ^/l+V^n^n + l	h
Кп + 1 ~ | В h
—г в остальных случаях
( (1 + ^+18„Ля+1)
и где матрицы
Ап=1-Н-Нп и Вп=(НТпНп)+
hn,
могут быть вычислены рекуррентным способом по фор-
мулам (8.1.8.2) и (8.1.8.3) с заменой h nah.
Доказательство. Пусть у„ удовлетворяет при-
веденным выше рекуррентным соотношениям, за исклю-
чением начального условия 0. Тогда в силу (8.1.6)
Уп = Н^га для всех п. Если положить dn = x„—у%, то
d„ удовлетворяет уравнению
“Л + 1
=u-Kn+1ftu)d„= па-мп d
i. /=i
о*
Однако d0 = x?=G+« иh]d0 = Щ(1 — G+G)G*u = 0 и,
значит, dn+1 = d0 для всех п, а это доказывает, что
Лл+1 = Уп+i + ^о- Таким образом,
х»+1 = О+и + Я^ z„. □
6 А. Алберт
162
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
Если вышеупомянутые рекуррентные уравнения
используются для обработки наблюдений в «реальном
времени», то G+u и / — G+G вычисляются заранее.
Каждое полученное наблюдение преобразуется в £у =
= £у—h}G+u> а соответствующий вектор регрессии
преобразуется в hj = (/ — G+G)hj. Значения Ап и Вп,
п = 1, 2, ..., вычисляются согласно вспомогательным
рекуррентным уравнениям (8.1.8.2) и (8.1.8.3).
Вектор G + u может быть вычислен с помощью одного
из методов главы V или же рекуррентным образом, а
именно: обозначая строки матрицы G через gf, ..., gl и
определяя
т = 1, 2, ...,£,
вычислим G^um, где ит—вектор, состоящий из пер-
вых т компонент вектора и, с помощью соотношений
(8.1.6), (8.1.8.2) и (8.1.8.3); одновременно с этим
рекуррентное уравнение (8.1.8.2) позволяет получать
матрицу / — G+G.
(8.4.6)	Упражнение. Пусть
G =
и пусть /ц, . .	... —последовательность векторов,
имеющих ту же размерность, что и gh i = 1, ..., k.
Пусть
h^tl — G+G)hp /= 1, 2, ...
Покажите, что для любых п вектор hn является ли-
нейной комбинацией й2, ..., hn^1 тогда и только
тогда, когда
•,8k, К, ,hn-1)
РЕКУРРЕНТНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ, И 163
(т. е. hn—линейная комбинация ht, ..., и git
i = l....k).
(8.4.7)	Упражнение. Пусть f g ^(glt	...,hn).
Тогда
/ n	k	\ +
Нт	f =
X,^o\/=1	/=1	/
если и только если f £ 3? (g19 ..., gk).
(8.4.8)	Упражнение. Распространите результат (8.4.5)
и получите рекуррентное уравнение для где зна-
чение х доставляет минимум функционалу
п
2 (£у—
/=1
при условии Gx — и.
(8.5) Рекуррентный метод наименьших квадратов
с ограничением, 11
В разделе (8.4) было показано, каким образом огра-
ничения могут быть включены в рекуррентный метод
наименьших квадратов некоторой заменой векторов h
и наблюдений, а также выбором подходящего началь-
ного условия.
Существенным свойством излагаемого метода являет-
ся необходимость задания ограничений до того, как
начнут поступать наблюдения. При определенных об-
стоятельствах это является серьезным неудобством.
Часто желательно вначале собрать все наблюдения и
только потом вычислить оценку по методу наименьших
квадратов, удовлетворяя при этом последовательности
постепенно увеличивающегося набора линейных усло-
вий. При изучении невязок (ср. с (6.4)) можно сде-
лать вывод о приемлемости ограничений на основании
имеющихся в распоряжении данных наблюдения. В иных
случаях вначале возможно использовать часть ограни-
чений, а затем, после получения всех данных (а воз-
можно,"и в процессе их получения), провести вычис-
ления с ограничениями.
6*
164	ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
В этом разделе будет показано, как в рекуррентных
соотношениях (8.3.1) могут быть учтены ограничения,
рассматриваемые в качестве фиктивных наблюдений,
не содержащих ошибку.
(8.5.1) Теорема. Пусть h19 h2, ...—последователь-
ность векторов, £х, £2, ...—последовательность скаля-
ров и о?, of, ... —последовательность неотрицательных
(но не обязательно положительных) скаляров. Пусть
хп, Кп, Вп, Ап и 8П определяются рекуррентным обра-
зом в соответствии с (8.3.1).
(а)	Если все а* положительны, то для любых п хп
минимизирует взвешенную сумму квадратов
п
i=i
Матрица Вп задается формулой
и
п
(6)	Если некоторые из ст* равны .-нулю, скажем,
(=0,	если	j€S,
>0,	если	fgS,
где S—конечное множество целых чисел, то для любого
п хп минимизирует
S
/еГл
при условиях
Щх^ l£Snt
и
8„= 2
7 п
РЕКУРРЕНТНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ, II 165
если только {h.-\ j£S\ линейно независимы (здесь Sn =
= {1,2, ...,n}QS и Tn=S—Sn).
Доказательство, (а) Это всего лишь перефор-
мулировка, ради простоты ссылок, результата (8.3.1).
(Ь) Если некоторые из Оу равны нулю, то результат
(8.3.1) не может быть использован непосредственно,
поскольку в (8.3.1) существенно используется поло-
жительность Оу. Поэтому определим
J а?, если j£S,
| V, если j^S,
и рассмотрим рекуррентные формулы (8.3.1), в кото-
рых в/ заменяются на тДХ). Рекуррентные уравнения
относительно х, В, К и е, зависят от Л, за исключением
уравнения относительно А. Чтобы подчеркнуть эту
зависимость, обозначим решения этих уравнений через
x„ (X), Вп (1), Кп (X) и е„ (X). Далее будет показано, что
х„ (%) и е„ (X) сходятся к требуемым величинам *) при
X—э-0, a limx„(A.) и lime„(X) удовлетворяют установ-
х->о	х->о
ленному рекуррентному уравнению с Вп (X), замененным
на В.= НтВ.(Х), а также К„(Х), замененным на
х->°
limK„(X), и т)(Ц, повсюду замененным на о| или О
р зависимости от того, j £Т,- или j£Sj.
(1)	Сходимость х„(1) и е„(%).
В силу (8.3.1) х„(Х)—вектор наименьшей нормы
рреди pqex ректоров, минимизирующих
п I
Is9 и
Поэтому
(8.5.1.1)
«.W- Us (Ч г, (Ч = [ Д,'(ЧТ #ДЧ]*Ч (Ч (Ч.
♦) Опенкам метода наименьших квадратов с ограничением н
соответствующей нев язке.
166
ГЛ. V111. ВЫЧИСЛЕНИЕ ОЦЕНОК
где
hl/Ti (X)
С1/Т1 (X)
н„(Х)= :
И г„(Х) =
Я/тл(X)
^п!хп (X)
Следовательно, (8.5.1.1) может быть переписано в виде
(8-5.1.2) хп (X) = Г £ М//°/ + 2 h.hV'kA + X
,eSn J
х( 2 WCT/+^-2-.2 ькД.
\,s7n	,sSn /
В (7.1.10.2)—(7.1.10.10) было показано, что если урав-
нение Gx — u имеет решение, то
х (X) = (FTF + X-1 2 * *GTG)+(FTa> + X~2GTu).
Тогда
limx(X) = x°
л-»о
является вектором наименьшей нормы среди всех век-
торов, минимизирующих || w—Fx||2 при ограничении
Gx — u, и таким, что
1 im [|| w—Fx ||s.+ X ~21| и — Gx (X))2] = || w—Fx° ||2.]
х-*о
Для этого случая положим, что
(8.5.1.3) матрица F имеет строки {/ij/oy; j€.Tn},
(8.5.1.4) матрица G имеет строки {h};
(8.5.1.5) векторы и и имеют компоненты
Ry/*/; i^Tn}, {£/ j$sn}
соответственно.
Теперь (8.5.1.2) принимает вид
х„ (X) = [FTF + X-2GTG] [FTw + X-2GTu],
Строки матрицы G линейно независимы по предпо-
ложению. Следовательно, уравнение Gx = и имеет
РЕКУРРЕНТНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ. 11 167
решение, (3.12.5), и, значит,
limx„(X) = x„,
Х->0
где вектор хп минимизирует выражение У (£у—ЛТх)2/о?
/ £ Тп
при условии Л}х = ^-; j£S„. Кроме того,
lim ё„ (Х)=е„= 5 U/ —А]х„)2/о}.
%-о	цтй
(2)	Сходимость Вп(К).
Матрица В„(Х) =[Я;(Х)Я„(1)]+, (8.3.1.7), может
быть представлена в виде [FTF-|--X“2GTG]+, где F и G
были определены ранее. В силу (4.9) величина
lim (KT/7 + X-2GTG) всегда существует, а следовательно,
л->о
существует и
(8.5.1.6)
B„=lim Вп (Л).
х->о
Рекуррентное соотношение (8.3.1.4), в котором о„+1 за-
меняется на т£+1(Х), связывает Вл+1(Х) с Вп{\). При
(п4-1)ёТ„+1 Итт^+1(Х) = о^+1 и, значит, Вп+1 может
быть вычислена при известном Вп в соответствии с фор-
мулами (8.3.1.4). Если же (n-|-l) £S„+1, то lim т£+1(Х)=0.
Матрицы Вп+1 и Вп будут связаны соотношением
(8.3.1.4) с стл+1, равным нулю, если только полагать,
что AJ+1Bn+1/in+1=O, когда h„+1 является л.к. hlt , hn.
Ццнако заметим, что если (n + 1) € 5л+1 и hn+l является
линейной комбинацией hlt ...,h„, то /г£+1Вл+1Лл+1 = О
тогда и только тогда, когда
5„+1A„+1 = lim Г 2 hjhTj/rf+2 АА}] + hn+1 = О,
л . л : 'г	'	; о '	'
Ь-0 1'еГи
а это, как показано в (8.4.7), может произойти лишь
тогда, когда hn+1—л.к. {/гу; /££}. Но последняя
168
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
возможность исключается, поскольку {hf, j £ S} линейно
независимы по предположению. Таким образом,
= (1)
Х-»0
существует для любых п и удовлетворяет (8.3.1.4).
(3)	Рекуррентные уравнения для хп и е„.
Так как
(8.5.1.7) хп+1 (к) = хп (К) + К„+1 (X) К„+1-^+Л (X)]
И из того, что
Кп+1=ИтКп+1(Х)= <
Л->0
wn\+1 ’если
пп+1НпПп + 1
не является л.к. hlt .... hn\
Bnhn+i в остальных
(an+i+/in+iS„/in+1) случаях,
где an+i = 0. если n + lgS, вытекает, что
хп + 1 ~ хп~^~ ^п+1 [Cz/ + i ^n+lxn]t
поскольку все члены в правой части (8.5.1.7) имеют
пределы. Аналогично
' 0, если /in+i
не является л.к. /ц, ..
fc”+1	~	+ •"	kn+1—ft£+ixn(M]2 в остальных
[4н W + h\+1Bn (X) h„+х] случаях,
и так как обе части стремятся к пределам, находим
{О, если hn+1
не является л.к. hv ...,hn-,
[?n+i-ft«+1*n]2 в остальных
aLi+^+i5„ft„+1 случаях.
Заметим, что hl+1Bnhn+1 > 0, если /i„+1 является ли-
нейной комбинацией /гх, ...,hn и (n + l)€S„+1 (в со-
ответствии с приведенными выше аргументами). □
(8.5.2)	Упражнение. Матрица Вп та же, что и
ранее; Р„—проекционная матрица на линейное много-
РЕКУРРЕНТНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ, II 169
образие, натянутое на {h/, j£Sn}. Предположив ли-
нейную независимость векторов hj, покажите, что
ва = Г (/ - рп) ( 2 Н^/аЪ (/ - Рп)
\1*Тп	/
(8.5.3)	Упражнение. Если строки матрицы Н ли-
нейно не зависят от строк матрицы G, то
min || z—Нх ||2 — min || z—Нх ||2
х	Gx~u
(т. е. в этом случае минимальная невязка метода на-
именьших квадратов без ограничения в точности сов-
падает с минимальной невязкой метода [наименьших
квадратов с ограничением).
(8.5.4)	Упражнение. Допустим, что {hf, j£S} не
являются линейно независимыми. Покажите, что
Вл+1 = lirn (%) =
К—>0
если hn+1 является л.к. {hj\ j£S„} и о„+1 = 0.
(8.5.5)	(Продолжение). Пусть ^п={х: Щх—1^, j €Sn}.
(а)	Покажите, что
limK„+1-/£+iX„ (Х)]2/[т„+1 (X) + h^B,t (К) Л„+1]=0,
если (п + 1)€S„+1, й„+1 является л.к. hlt hn и
#„+i—непустое множество.
Отсюда, если опустить условие о линейной незави-
симости {hf, /gS} в (8.5.1), получим
Хп + 1 ~ Хп + Кп + 1 (£« + 1	^п+1Хп)>
где
Ап^п +1
h"n+iAnhn + 1
, если hn+i
К.
не является л.к. ft,, ..., hn;
Bn^n+l
Оп+1 +	+ 1
в остальных случаях,
170
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
0, если hn^r
е«+1 %
не является л.к. h19 ..., hn или
если (п + 1) € S„+1 и hn+1 является
л.к. {/у, /€SJ;
в остальных случаях,
(°7г+1 + hfi+iBnhn + i)
((Ап^п +1) (Anhn+1f
j hn+iAnhn + i
~^п	5 если h„+1 является л.к. hj.......h„;
' 0 в остальных случаях,
g	(Ди^Я +1) (^Я^Я + 1)Т~К^Я^Я + 1) (Дп^П + 1)Т I
п	_ hrn+1Anhn+1
I Qn+i + hn+iBnhn+1 , л ,	.... V
Т /«.т . .	\2	\/innn + l)\/inrln + l) ’
\Пп+1АпПп + 1)
если Л„+1 не является л.к. hlt ..., h„\
Вп, если (n +-1)€S„+1 </in+1
является л.к. {hj\ /£$„};
Вп — (^nhn+i)Jfinhn+i) в остальных случаях
Оя+1 + hn+iBnhn + j -»
для любого п.
(Ь)	Вектор хп имеет минимальную норму, среди всех
векторов, минимизирующих величину У,
/вт„
при условии, что х^^п, где $ов — непустое множество.
Величина е„ является минимальной невязкой.
(8.5.6)	Пример. В (4.3) было показано, каким об-
разом связаны (Ят'|/г)+ и (Нт)+. Используя резуль-
тат (8.5), можно получить обратную процедуру. А имен-
но, имея (Ят । h), можно вычислить (Ят)+ без необхо-
димости начинать «от печки». Идея этой процедуры
основана на том, что вектор наименьшей нормы, среди
всех векторов, минимизирующих ||г/—Gx 1|2 при условии
gTy = 0, где C = (#Ti/i) матрица размера (/пх(п + 1))
РЕКУРРЕНТНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ, II 171
и gT = (0, 0, . . ., 0, 1) ((п+ 1)-мерныл вектор-строка),
определяется формулой
(8.5.1.6)
что является прямым следствием (3.12.4), поскольку
V - С+у,
гдеС = С (I—gg1-), и, так как
п 1
« / / ! О \ *
i—ss+ =	- ’ - Р,
1 \ о ! 0 J
то С = (77т jO) и С+
Но результат (8.5) позволяет нам рассматривать огра-
ничение
gTv = 0
как «новое» наблюдение COT+i = 0 с нулевой ошибкой.
Поэтому оценка
v = C+y
может быть уточнена по новому наблюдению в соот-
ветствии с (8.3.1.1)—(8.3.1.4):
? = v + Кс (U+i — £т?) = v—Кс (gM,
где
/	(/—C+C)g
“V77—, если g не является л. к. строк
gT(/—C+Qg’	&	г
Кг= <	матрицы С;
| (СТС)+ g
т	в остальных случаях.
\ gT(CTC)+g	J
Но g является линейной комбинацией строк матрицы С
тогда и только тогда, когда g—л. к. столбцов мат-
рицы Ст или, что то же самое, g€$l(Cr), т. е. g —
л. к. строк матрицы С тогда и только тогда, когда
C+Cg^g.	(3.7.10)
172
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
Поскольку
С = (ЯТ|Л) и g = (0, ..., О, 1),
то
Cg=h
и, следовательно,
C+Cg^C+h,
Таким образов,
г/ = У==(/~/Сс^т)у =
= (J—KcgT)(HT\h)+y для всех у,
и потому
(8.5.6.2)	(^---) = (I-Kcg*) (Нт! h)\
где
/ (I—C+C)g
К = J S4I-C^C)g' если G n^S'
(СТС)+ g
gT(C^)+ g в остальных случаях,
C=(Hr\h) Ги ГёТ = (0, 0, ..О, 1). чИскомое соотноше-
ние (8.5.6.2) связывает (Ят)+ с (#Ti/i)+.
(8.5.7) Упражнение (продолжение (8.5.6)).
(a) C+h = g, если и только если (/—H+H')h=£Q\
(g—C+h)/(l—h'(CCcrh), если
(/—H+H)h=0;
С+ (СС'Г Ь/1] (ССТ)+ h ||2 в остальных
случаях.
(8.5.8) Пример. Рекуррентные уравнения линейной
регрессии.
Предположим, имеется совокупность наблюдений,
каждое из которых задается соотношением
(8.5.8.1) g„ = a + ₽n + v„, п= 1,2,3,
(Ь) Кс =
РЕКУРРЕНТНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ, II J73
где v„ —некоррелированные между собой случайные
величины с нулевыми средними и одинаковыми дис-
персиями, а и р—неизвестные параметры, подлежащие
оцениванию.
Обозначим оценку метода наименьших квадратов
(НЛНО) для х = ( р ) , полученную по первым k на-
блюдениям, через
Если обозначить
*»_(),	*-1,2,3,
то вектор можно вычислить рекуррентно в соот-
ветствии с (8.3.1):
Ло = /, Во = О, хо = 0,
17- _ ^0^1 I 2 \
\ 2 /
(£!-*&>) = (g^)>
/_i_ _L\	/ _L____
—	Р	2	2 )_/	2	2 1
—	\о	1)	1	1 ~	1	1	I’
\ 2	2/	\	2	2 /
В1 — (Ло^х)
(AMT
(Й1ЛМ2
174
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК"
Поскольку й2 не является кратным относительно hu то
К =	1 \
2
х2 = х1-|-/С2 (g2— h'r2x1) =
_/Ъ/2\ , /-П /о \ f2Sx
+ k 1Л&2 2^;~U2 -sJ’
Аг = Лх—(Лхй2) (ЛД)т/(/гМЛ) = 0,
B2 = В, -[(ВЛ) <лл)т + (А^) (в^/^а^ +
и в силу того, что ha является линейной комбина
цией /гх и /г2 (/г3 = 2й2—/гх),
(8.5.8.2)
is _ B2h3__________I 3
Лз (1 -I- hlB2hs)	1
\	2/
— X2 Л" Кз (?3 -~ ^gX2) =*
_ М^/з+Е^з-г^з/з4..
Cs/2—Ei/2 )•
В упражнении (6.6.11) a3 и рз получены в замкну-
той форме
3
.2 (S/—€/) (Т/—т)
/ = 1
3 - 1
2 (1) —т)а
/ = 1	J
и
«з = £—0зТ,
где
3	3
Г-уЕе, и
/ = 1	I = 1
РЕКУРРЕНТНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ, II 175
В данном случае т7=/, так что т = 2. Таким образом,
й _“(61-6)+(£з-Ё) _g3—Si
Рз “	2	“2
И
а3 =1-2	=£1+Ь + ез—ga + gi =
' _ 4gt g2 2g3
~ 3 ’t" 3	3 ’
что согласуется с (8.5.8.2).
Ковариация для х3 задается матрицей о2В3, где
о2—дисперсия v„, п= 1,2,3, и
(8.5.8.3) В3 = В2-(В2й3)(В2/г3)т/(1 + КВЪ,) =
(Т_
/ з
— Г\
1 j
(Л3 = 0, поскольку hx и Л2-образуют двумерное прост-
ранство).
(8.5.9) Добавление ограничения. Предположим
теперь, что требуется получить оценку для х=(р)
методом наименьших квадратов, основанную на трех
наблюдениях, при условии р = 0.
В соответствии с (8.5.1) такую оценку можно по-
лучить введением фиктивного наблюдения, т. е. наблю-
дения вида
g4 = /rlx + v4,
где v4 имеет нулевую дисперсию и
Применяя (8.3.1) при ст4 = 0, находим
ь- _ В3^4   f—2\
^Вз^-\ 1J-
(8.5.9.1)	£4 = x3+K4(0-/ifr3) =
~	f -о- (Si 4- ?2 4- ?з)
= (/^Лт)х.=< о
176
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
Этот результат полуцидся бы, если в (8.5.8.1) с самого
начала положить 0 = 0. *
(8.5.10) Введение ограничения. Используя (8.4),
можно удовлетворить ограничениям и вычислить для
вектора х оценку метода наименьших квадратов, осно-
ванную на одном, двух и трех наблюдениях, при усло-
вии 0 = 0.
Условие 0 = 0 эквивалентно условию Gx=0, где
G=(0 1). В этом случае
hft=(I-G+G)hft=^0), k= 1,2,3.
Поэтому линейно зависит как от hlt так и от и ha:
1? . Г П
Л1 Л1Л0А1 К»/’
*1=^1)= ft)’
"5Г  Л8—hi hi fQ 0\
R _(ЛоЯ1 )(Л0Л1 )т /1 ОХ
_	1 ~	(Л1ло -hl)3	-\о оЛ
Тг  (fiihi) ______("о’'\	;s
О +	\о/
Х2 = Xi+К2 -h&J = ( Т
_	\	о	✓
Д2 == >
(l + ftiBiftj) Yq qJ
__ (-sA
Аз (1 + Л5ВЛ) \0/
x8=72 + K8(Ss-W = (|^ + £з4-СзЛ = /Й э
что согласуется с (8.5.9.1).
ДОПОЛНИТЕЛЬНЫЕ ЧЛЕНЫ В УРАВНЕНИИ РЕГРЕССИИ 177
(8.6) Дополнительные члены в уравнении регрессии, II
(пошаговая регрессия)
В (4.4) обсуждался вопрос об обогащении линейной
модели за счет введения в нее в качестве слагаемого
дополнительной независимой переменной. В (4.4.4)
было получено рекуррентное соотношение между на и-
лучшими оценками m-мерной и (m-h 1)-мерной регрес-
сии. Этот результат в основном относится к ситуации,
когда вводится только один дополнительный элемент.
Такое предположение не является существенным.
Действительно, из (6.6.14) можно непосредственно по-
лучить результат для общего случая.
Подвергнем анализу модель «первого приближения»
(8.6.1)	z = H1x1 + v9
где Нх—матрица размера пхри матрица ковариации
случайного вектора v пропорциональна единичной
матрице. Тогда в качестве-НЛНО для вектора х± по-
лучим
(8.6.2)	xj^tffz,
которой соответствует невязка
(8.6.3)	е1=ф- ЯХ ||2.
Если нам покажется, что невязка 8j чересчур ве-
" лика, то имеет смысл исследовать усложненную мо-
дель вида
(8.6.4)	2 = (//1:Я!)И + у,
\хг /
где Н2—некоторая матрица размера п х q. Теперь
xi \
я ) и невязка в12 задаются формулами
(8.6.5)
(8.6.6)
. (--~-)==(/ад2)+г,
\ Х2 /
812 = || Z //jXi Н%Х2 ||2.
178
ГЛ. V111. ВЫЧИСЛЕНИЕ ОЦЕНОК
Если матрица	имеет ранг p + q, можно
использовать результаты (6.6.14) для количественных
расчетов. А именно, полагая Qx = /—HrHi, находим,
что	-
(8.6.7)
(8.6.8)
(8.6.9)
хг	(QiH %)+
х1 = Я1+(г —Я2х2),
®1 2 ~ Е1	II Q 1^2Х2 ||2 '
(8.6.10)	Упражнение.
(а)	Если матрица (Ях: Я2) имеет полный ранг, рав-
ный числу ее строк, то	—невырожденная
матрица.
(Ь)	В этом случае
ffi Q 2^2 — fiiQ,
(с)
®12	Щ2Х2*)Т ( Q 1Z) *
Связь между анализом дисперсий
и анализом ковариаций
(8.7) Пример. (Шеффе [1, разд. 6.3]). Пусть
fSn
512
(8.7.1)
5171
5г1
45*jv
Предположим, что модель наблюдений задается соот-
ношением (методика по одному параметру)
(8.7.2)	&7 = pz + vzp	r-1,
где v/y—некоррелированные случайные величины с ну-
левыми средними и одинаковыми дисперсиями. НЛНО
АНАЛИЗ ДИСПЕРСИЙ И КОВАРИАЦИЙ
179
(оценке метода наименьших квадратов) для вектора 0Z
единственна и, как легко видеть, задается формулой
(8.7.3)	K =
/
определяемой решением системы нормальных уравне-
ний, полученных приравниванием нулю частных про-
изводных функции 2 (£,-.•—Р;)2 по р,-.
i
Соответствующая сумма невязок определяется соот-
ношением
(8.7.4)	81=S(&/-&)\
«, f
В векторных обозначениях имеем
z =	+ у,
где

Х1 —

При этом НЛНО для хх имеет вид
и
(8.7.6)
е1=Ь-ВД||2==11(/-^)2[|2 =
= IIQiz||2=S(^—g/)2.
и
Как видно из соотношения (8.7.5), матрица Hf пре-
образует произвольный вектор z, который может быть
записан в виде (8.7.1) с двухиндексными компонентами,
в вектор //fz, компоненты которого получаются усред-
нением компонент вектора, имеющего тот же первый
индекс.
180
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
Символически это выглядит следующим образом:
(8.7.7)'
В силу аналогичных рассуждений из (8.7.6) сле-
дует, что Qj преобразует произвольный вектор г вида
(8.7.1) в вектор
(8.7.8)
где
(8.7.9)
Если величина ег окажется слишком большой и
модель может быть усложнена за счет добавления
нового регрессионного члена вида ул»/ (гДе V неиз-
вестно, а г],;- известны), то новый вариант модели будет
задаваться соотношением 4
(8.7.10)	‘ ;,7 = p. + TT)//+v/7.
В векторных обозначениях вместо (8.7.10) получаем
такое представление:
(8.7.11)	z = #1x1 + #2x2-|-v,
где Я2 является одностолбцовой матрицей (т. е. век-
тором) и х2 имеет одну компоненту:
(8.7.12)	х2 = [т],
Пи
“412
(8.7.13)

АНАЛИЗ ДИСПЕРСИЙ И КОВАРИАЦИЙ
181
Применив (8.6.7), можно увидеть, что НЛНО для
х2 имеет вид
(8.7.14)	x2 = (Q1//2)+z.
В силу (8.7.8)’ имеем
/Ли \
(8.7.15) (ЪН2 = Н3=Д  \,
\^jkJ
где
(8.7.16)	•% = %— П<-
Известно, что для любой одностолбцовой матрицы
(8.7.17)	Hl = Hl = Hl/l H21|2
и, следовательно,
х2 = (ВД/р2||2
или, что эквивалентно,
(8.7.18)	У =2^.7/2 л?/.
>’> / It, i
Используя (8.6.8), находим НЛНО для всех р
в усложненной модели согласно формуле
(8.7.19)
Но
(г—Н2х2).
(8.7.20)
где
(8.7.21)
/
z—//2x2 = z*=l	•
\ ZkJk
^j = ^>ii—Pltf-
182
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
В силу (8.7.7) /-я компонента Z/^z* совпадает с £*-.
Следовательно,
Л1 \ /?1*\
(8.7.22)	£,=( : )=[ . ).
Наконец, согласно (8.6.9), получаем сумму квадра-
тов невязок
е12 ^ || z	-Я2х2 Г = ех-? || Q Jf2||2.
В соответствии с (8.7.15) последнее выражение экви-
валентно соотношению
(8.7.23)	s12 = 8t —у2 5 Л?/ = S (Й/ — W/)-
</ и
(8.8) Недостающие наблюдения
В (6.6) обсуждались вычислительные преимущества
ортогональных планов, когда вычисления ведутся на
настольном калькуляторе. Но даже наилучшим обра-
зом построенные планы, например, исследование пове-
дения крыс, часто терпят крах согласно известному
закону «падающего бутерброда»—срывать замысел в ходе
эксперимента (например, из-за гибели лабораторного
животного). В результате потеряно наблюдение и на-
рушена ортогональность плана. Для определенности
представим себе эксперимент, спланированный таким
образом, что вектор наблюдений имеет вид
z — Hx-Y v,
где х—интересующий нас ^-мерный векторный пара-
метр. Предположим далее, что эксперимент был тща-
тельно спланирован так, что столбцы матрицы И дол-
жны были быть ортогональны. Тогда оценка метода
наименьших квадратов может быть получена исклю-
чительно легко, а именно
х = Н+г = (Н*Н)-'НЧ = Н*г
(НТН = 1 в силу ортогональности столбцов матрицы Н).
НЕДОСТАЮЩИЕ НАБЛЮДЕНИЯ
183
Если подопытная крыса погибла до завершения
эксперимента, наблюдение потеряно. Действительный
вектор наблюдений теперь таков:
z* = H*x-\- v,
где Н*— «искалеченный» вариант матрицы Н. Не хва-
тает одной строки, и поэтому столбцы матрицы Н не
образуют ортогональной системы. Похоже, что нам
предстоит повозиться с псевдообращением Н* или
с чем-нибудь таким же громоздким, не так ли?
Ничего подобного! Предположим для определен-
ности, что нам недостает именно последнего наблюде-
ния. Таким образом, если Н—матрица размера nxk,
то Н*—матрица размера (п — V)xk. При этом
(где йт—последняя строка в Н, та самая, которой
недостает в Н*). В соответствии с (8.5.6.2) имеем
[(/7*)+i 0] =/7Т (/—g/<T),
где
(п компонент)
, (I-HH+)g
gT(t—HH+)g
(ННЧ+ g
g'T(HHT)+g
К=
, если g
не является л. к. столбцов матрицы//;
в остальных случаях.
Так как столбцы матрицы Н (назовем их gu g2, ...
..., g>.) ортонорма льны, то на вопрос, является ли g
л. к. glt ..., gk, ответ может быть дан легко:
k
HH+g = HH'g = £ (g^gj,
/=1
184
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
так что необходимо только сравнить g с правой частью
последнего равенства, с тем чтобы увидеть, имеет или
не имеет место равенство (/—НН+) g=0. Заметим
при этом, что (ННТ)+ = ЯЯТ, (3.7.3).
Таким образом,
[(Я*)+;0] = ЯЧ/-^т),
где
%	HIF)g/(\-\\H'gf), если HH'g^g,\=
( HHTg/\\HHTg\\2, если HH^g^g, |
I {I-HH^gl{\-\\H-gf), если HH'g^g-
\	g в остальных случаях.
В этом случае существует весьма простая связь
между^псевдообращением матрицы Н (столбцы кото-
рой ортогональны) и псевдообращением’матрицы Н*,
полученной из Н в результате потери последней строки.
Оценка методом наименьших квадратов и соответ-
ствующая ей невязка для «урезанных» данных z* по-
зволяют довольно просто вычислить соответствующие
величины для случая, когда лабораторное животное
не погибло бы:
£* = (#*)+ z* =[(#*)+! o]z,
поскольку
где £—недостающее наблюдение.
Таким образом,
х* = Нт (/ — g Кт) z = Нтг,	-
где	_	Э
z = z—g(KTz),
является модифицированным вектором наблюдений,
который совпадает с неукороченным вектором z в пер-
вых п — 1 координатах, а последняя координата равна
g—Kxz. Введение этого вектора позволяет считать,
что пропуска в наблюдениях не было.
НЕДОСТАЮЩИЕ НАБЛЮДЕНИЯ
185
Поскольку Krg= 1» ТО
Следовательно,
(/-^)(Z1-z2)=-0,
если Zj и z2 совпадают в первых п — 1 компонентах.
Поэтому z не зависит явным образом от выбора £ —
последней компоненты вектора ги, значит, можно поло-
жить £=0.
Эти рассуждения могут быть обобщены на случай
потери наблюдений для произвольного плана.
(8.8.1) Теорема. Пусть
Нz“(o)’
x = H+z, 8 = ||z—Ях||2,
и
В = (Н'Н)+,
х = H+z
Тогда
8.8.1.1)
8 — || Z — Их ||2.
х=(/ — BhhTM)x,
где
М =
(8.8.1.2) ё =
—//(1—h?Bh), если h
является л. к. строк матрицы Н\
B/\\Bh ||2	в остальных случаях,
г—(hrx)2/(l— hTBh), если h.
является л. к. строк матрицы Н\
8	в остальных случаях.
Примечание. Пусть х—оценка метода наименьших
квадратов, основанная на модели с полным набором
наблюдений
z = Нх + у,
и 8—соответствующая этой оценке невязка.
Если одно из наблюдений пропущено (скажем, по-
следнее), модель наблюдений имеет вид
г=Ях-|-у,
186
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
где матрица Н получена из Н вычеркиванием послед-
ней строки. Новая оценка метода наименьших квад-
ратов задается формулой
где 8 = ||z—Их||2—ее невязка.	f
Если недостает более одного наблюдения, рекур-
рентное соотношение (8.8.1) может быть повторено не-
обходимое число раз. Однако следует уделить внима- !
ние тому, чтобы сохранялось равенство В = (НГН)+ ;
для всех случаев (ср. с (8.8.2)), а не только для слу- I
чая, когда	h является л. к. строк	матрицы И.	;
Доказательство. Имеем	f
i = (tf+!0)z = tf+(/—g/C)z,	j
где	?
, (g—(HT)+h)/l — hT(HTH)+h, если h
_	является л. к. строк H\
Д-| (ЯТ)+(#Т#)+М(ЯТ#)+М2 в остальных (
	случаях, (8.5.6.2) и (8.5.7).
Поскольку последняя координату z равна нулю, gTz=0
и, следовательно,
7<rz =
—/гтх/1—hTBh, если h
не является л. к. строк Н\
/гтВх/|| Bh||2 в остальных случаях.
В силу
H+g = BHTg= В (Jr \h)g— Bh
и из того, что все координаты g—ненулевые, кроме
последней, вытекает справедливость Соотношения
(8.8.1.1).	w
Формула для е следует из (8.2.2).□
НЕДОСТАЮЩИЕ НАБЛЮДЕНИЯ
187
(а)В=
(8.8.2) Упражнение. Пусть В=(ЯТЯ)+. Тогда
||ВЛ||а '	+
не является л. к. строк Н\
„ , (Bh) (ВЛ)’
В +	в остальных случаях.
(b) hTBh < 1, если h—л. к. строк ff.
(8.8.3) Пример. Положим
Л 1
1
(п—1)Х1
и
Тогда
/г=(1), В = (Я’Я)-1 = п-\
x=H+z=n~1 ^ = п~1 j
/=i	/=i
Е=2(^—х)2=
/=1	l=i
Из (8.8.1) находим
X =
М= -1/(1 —«-»)= -n/(n —1),
х'= [!-(«-)
.188
ГЛ. VIII. ВЫЧИСЛЕНИЕ ОЦЕНОК
И
п-1
'	' i=i
___п2х2
п— 1 *
Но
х= [п/(п — 1)]х,
так что
^ = (п-1)х’.
Отсюда
«=
/=1
что и следовало доказать.
ГЛАВА IX
НЕОТРИЦАТЕЛЬНО ОПРЕДЕЛЕННЫЕ МАТРИЦЫ,
УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ,
ФИЛЬТР КАЛМАНА
(9.1)	Неотрицательно определенные матрицы
Хорошо известно, что следующие четыре определения
неотрицательной определенности симметрической мат-
рицы S эквивалентны (Беллман [1]):
(9.1.1)	найдется матрица Н такая, что S = HHr-,
(9.1.2)	для любого вектора х xTSxJ>0;
(9.1.3)	собственные числа матрицы S неотрица-
тельны;
(9.1.4)	существует симметрическая матрица та-
кая, что R2 = S (матрица /? называется квадратным
корнем матрицы S и обозначается S1/®).
Неотрицательно определенную и невырожденную
матрицу S называют положительно определенной.
В этом случае матрица S1/» также положительно опре-
деленная и в (9.1.2) имеет место строгое [неравенство
для любых ненулевых векторов х,
Утверждение «S—неотрицательно определенная
матрица» кратко обозначается так: S^O. Аналогично,
S>0 означает, что «матрица S—положительно опре-
деленная».
(9.1.5)	Упражнение. Если S>0 и Т>0, то S +	0,
причем строгое неравенство имеет место, если и только
если #(3)ПоГ(Т)-{ОЬ
Один из классических результатов, касающихся
неотрицательной определенности, утверждает, что S
является неотрицательно определенной (положительно
190 ГЛ. IX. НЕОТРИЦАТЕЛЬНО ОПРЕДЕЛЕННЫЕ МАТРИЦЫ
определенной) матрицей тогда и только тогда, когда
все угловые миноры S неотрицательны (положительны)
(Беллман [1]). Этот результат означает, что для про-
верки неотрицательной определенности матрицы тре-
буется вычислить некоторое количество ее миноров.
Изученный ранее материал, связанный с псевдо-
обращением матриц, может быть использован для
доказательства некоторых новых результатов о неотри-
цательной (положительной) определенности матриц.
(9.1.6)	Теорема (Алберт [1]). Пусть S—квадратная
матрица
S = ( -ii-l.?.1.?4)
где Sxx и SM—симметрические матрицы размеров п'Х.п
и т /.т соответственно. Тогда
(а)	5^0, если и только если Sxx 0, SlxSiiSX2 = SX2,
u S22-—S{2Sx+xS12>0;
(6)	S > 0, если и только если Sxx > 0, S22 > 0,
Su—> 0 и S22—SX2SXXS12 > 0.
Доказательство, (а) Достаточность. Если
S^0, то S — HHX, (9.1.1), где H имеет n + m строк.
Представим H в виде блочной Матрицы
- ,
Тогда
Следовательно,
Sxl = XXT>0 и SX2 = XKT.
•В силу (3.11.9) имеем
SXXS+X = (ХХТ) (ХХТ)+ = ХХ+,
в»
откуда
($xxSii) s12=(хх+) хут=хгт=sxa.
НЕОТРИЦАТЕЛЬНО ОПРЕДЕЛЕННЫЕ МАТРИЦЫ
191
Наконец, полагая
U^Y-S^X,
получаем, что
o^uu^s^-s^s^.
Необходимость. Пусть
п т	пт
U = n(I\Q),	V=m(0lZ), X = S?*U,
Y^SbS^U + (S^-SLSJAa)1'2 V.
Поскольку £/VT = nO, очевидно, что •
(b) Достаточность. Если S > О, тогда, в силу (а),
Sii 0. Более того, det Su > 0, так как все угловые
миноры положительны. Поэтому матрица Sn является
невырожденной и, следовательно, Su > О. Аналогичным
образом, в силу (a), S22^0, поскольку S22—0.
Согласно той же аргументации, с помощью которой
было установлено, что Su > 0, матрица S22 является
положительно определенной, S22 > 0.
Собственные числа матрицы S-1 являются взаимно
обратными к собственным числам матрицы S. Следо-
вательно, S-1 > 0, если S>0, (9.1.3). Поэтому, пред-
ставляя матрицу S'1 в виде
з-. = ДД.Д)>0,
в силу тождества
SS”1
получаем, что имеют место равенства
(Sn 512S’221S^2) А — I
C$22-ВД№2) С — I.
192 ГЛ. IX. НЕОТРИЦАТЕЛЬНО ОПРЕДЕЛЕННЫЕ МАТРИЦЫ
Поскольку S-1 > 0, матрицы А и С также являются
положительно определенными, А > О, С > 0. Отсюда,
согласно указанному выше свойству собственных чисел
обратной матрицы, Л-1 > 0 и С-1 > 0. Доказательство
достаточности следует отсюда очевидным образом.
Необходимость. В силу (a) S^O. Положим
A = (S11-S12S22lSI2)-\
в = —Sf/Sjg (3^2 — 312*%^а)”1
и
С — (S22 3}2S111S12)
Легко показать, что
А^ВС^ = А”1 [-(Su-S12S2-21S12)-i S12Si-2l] С-Ч
Следовательно,
В ~ (Su S12S22 S12) 1 S12Sa|.
С помощью стандартных вычислений убеждаемся в том,
что
Ь\ВТ с)~ 
Отсюда вытекает, что S—невырожденная матрица. □
Примечание. В предыдущих главах было установ-
лено, что класс ковариационных матриц совпадает с
классом неотрицательно определенных матриц. Преды-
дущая теорема указывает на тот факт, что блоки ко-
вариационной матрицы обладают специальными свой-
ствами. Зти свойства допускают статистическую
интерпретацию, которая будет использоваться в разделе,
посвященном условным математическим ожиданиям.
(9.1.7)	Упражнение. Пусть SN—симметрическая
матрица размера NxN с элементами о (i, /). Обозначим
через Sk матрицу размера kx.k, составляющую левый
верхний угол SN, и через s/;—^-мерный вектор-столбец
(первый правый столбец после Sk) с компонентами
о (k+ 1, 1), о (k-]-1, 2), ..., о (k+ 1. k)- Полежим So = O
и so = 0. Тогда
(a)	SN = 0, если и только если SI_iSJ+1sfe_1 = sfc_x
УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ
193
И
<У (£,£)>	для £=1, 2,	.
(b)	Syy>0, если и только если ст (£, k) > sl^St-iS^
для k— 1, 2.....N. (Указание. Воспользуйтесь (9.1.6)
и примените метод индукции. Заметим, что если Sk > О,
то [SJ,'2(/—xxT)Sfc,2]>0 тогда и только тогда, когда
I—гххт > 0, где последнее неравенство верно в случае,
хтх < 1. В качестве х рассмотрите вектор
х = [ст(6+1, 6+
Подробнее см. Алберт [1].)
(9.1.8)	Упражнение (рекуррентное соотношение для
Sfe). Предположим, что Sk^0 и
*+1 1	! <7(^+1, А-Н)/
Пусть
^к ~ SkSk,
ай = ст(£4-1, £4-1)— sJtS$sk,
T k = I — tk^Wk'
Тогда
(а)	5Г+1>0, если и только если = sft и aft^0;
(b)	в этом случае
4-	—ik/rJ-k
. —iklak MaA ’
TkStTk
MM' tksltk/ti J ’
если ak > 0,
если ak = 0
(см. Алберт [1]).
(9.2)	Условные математические ожидания
для нормальных случайных величин
Вектор х нормально распределенных случайных вели-
чин полностью (с точки зрения распределений) описы-
вается своим вектором математических ожиданий
тх = <^х
7 А. Алберт
194 ГЛ. IX. НЕОТРИЦАТЕЛЬНО ОПРЕДЕЛЕННЫЕ МАТРИЦЫ
и матрицей ковариаций
Зхх = <£(х—тх) (х—тх)т
(Андерсон [1]). Известно (Андерсон [1]), что если
y=Gx и z — Hx, то условное распределение у при
фиксированном z = z для каждого допустимого z (т. е.
для каждого z£$l(H) является нормальным и, следо-
вательно, полностью описывается условным средним
и ковариацией. Этот факт будет использован с при-
влечением результатов последнего раздела для вывода
основных свойств условных средних и ковариаций.
(9.2.1)	Теорема. Предположим, что
является нормально распределенным вектором с нуле-
вым средним и ковариацией
$ _ РI
\S12 ! ^22/
Тогда
(а)	вектор х имеет такое же распределение, что и
вектор
где
Х2 — S12S11X1 -|- (S22	3x2ShS12)1^2 w2,
и вектор
Р /W1 \
я \ wa /
имеет нормальное распределение с нулевым средним и
единичной (/) ковариационной матрицей;
(Ь)	условное распределение х2 при фиксированном
хг — х является нормальным с условным средним
т2Л (х) = <£ (х21 Xj = х) = S^S^x
УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ 195
при условии, что	Условная ковариация х2
при фиксированном задается формулой
522ц = S [(х2—т2]1 (х)) (х2 — т2]1 (х))т | хх = х] =
~ 522 'SizSiiSiz
при условии, что xg^(Slx) (заметим, что Х22ц явно
не зависит от х);
(с)	если случайный вектор
Р /Х1 \
х = (-— )
4	q \ Х2 /
имеет математическое ожидание
т = (....),
q\m2)
отличное от нуля, то условная ковариация вектора х2
при фиксированном хх = х остается такой же, как в
утверждении (Ь), и
/и2 ] 1 (х)	(х21 хх = х) = т2 + SJ2Sii (х—mx),
если только х—mxg^(Sxx).
Доказательство, (а) Поскольку S — ковариа-
ционная матрица, она является неотрицательно опре-
деленной. Следовательно, согласно (9.1.6), Sxx^0,
522—Si2SnS12 0. Поэтому из обеих вышеупомянутых
матриц можно извлечь квадратный корень. Утвержде-
ние (а) имеет место, потому что х*—нормальный слу-
чайный вектор с нулевым средним и ковариацией S,
в чем легко убедиться путем несложных преобразова-
ний. Заметим, что хх (а значит, и хх) должен принад-
лежать 3? (SK2), 5i(Sx(2) = 5?(Sxl), с вероятностью
единица.
(Ь) Без потери общности, в силу (а) можно пред-
полагать, что хх — хх и х2 = х2, когда требуется .лишь
использовать свойства распределения вектора х.
Поскольку wx и w2—независимые случайные век-
торы, то независимыми являются и случайные векторы
хх и w2. Следовательно, <^(w2|xx = x) = ^(w2) = 0.
Поэтому согласно (а) и при условии, что
x€^(SIP) = 5?(Sxl),
7*
196 ГЛ. IX. НЕОТРИЦАТЕЛЬНО ОПРЕДЕЛЕННЫЕ МАТРИЦЫ
условные среднее и ковариация задаются формулами
т211 (х) = S (х21 Xi = х) = SLSJI(£ (хх | хх = x) = S^S^x
И
s2 211 = S [(x2—m211 (x)) (x2 —/n31 x (x))T | Xj = x] =
= ^(7’w2)(7’w2)t|x1 = x],
где
• T = (S22-S]2S1\S12)^.
Снова используя независимость w2 и xn находим, что
S [(?Х) (Tw2)T I Xi = X] = S (Tw2v/l'Tt) =
= 7’n = (S22-S}2SJlS12),
так как
^(w2w2) = /.
(с) Применяя результат (b) к случайным векторам
х2—т2 и Xj—mlt получаем
<^(х2—т21 хх—т1 —х—tn1)=SliS^l (х—/пх).
Следовательно,
& (х21 х = х)—т2 = S^S^x—>п^-
Формула для условной ковариации не изменится, если
к х2—т2 прибавить неслучайный вектор. Кроме того,
для справедливости утверждения (с) требуется забо-
титься о том, чтобы х—m1g5?(S11) (Марсалья [!]).□
Утверждение (9.2.1с) устанавливает соотношение
между условными средним и ковариацией случайного
' вектора и при фиксированном векторе v = v и безу-
словными средним и ковариацией нормально распре-
деленных (совместно) векторов и и v. Повторяя пре-
дыдущие рассуждения, можно установить аналогичные
соотношения между условным средним (и ковариацией)
и при фиксированных у —и и у = у и условным сред-
ним (и ковариацией) и при фиксированном v = v для
нормально распределенных (совместно) векторов v, у
и и.
►
УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ
197
(9.2,2) Теорема. Предположим, что вектор
р+ч ( z\
имеет нормальное распределение со средним т и кова-
риационной матрицей
/5zz j 5zu \
о = I  I ,
\ ОТ  $	/
\0ZU | °ии /
Предположим также, что
^P(-Y
О \У/
Пусть
(9.2.2.1)
(9.2.2.2)
ти =	, mv = Sv, ту = Sy,
mZ|U(u) = <^(z| u = u),
mvlu(u) = <£(v|u = u),
/ny|u(u) = (£(y|u = «)
U
(9.2.2.3)
являются соответственно условными ковариациями г, v
и у при условии, что и = и.
Тогда
(а) если и—та £5?(SUU), условное распределение г
при условии, что и = и, является нормальным со средним
т„ । и (“)1
= m2+SzaS+a(u^m„)
Szz | u, Svv । u U	Sy у । u
7ИУ|И (и)
(Э.2.2.4)	/пг|и(и) = ^
и ковариацией
Р ( W | и ! уу I и \
(9.2.2.5)	Szz । и = (  ..г”’...у = Szz SzuS+uS^u;
q \\у|и: УУI и /
(b) если u—mu g5J(Suu) и
у my । и (и) £ 91 (Syy । и),
то условное распределение v при фиксированном и — и
и у = у является нормальным со средним
(9.2.2.6)	mv j и> у (и, у)=ту । u-F^vy ।	। и(У ^у I и (и))
198 ГЛ. IX. НЕОТРИЦАТЕЛЬНО ОПРЕДЕЛЕННЫЕ МАТРИЦЫ
и ковариацией
(9.2.2.7)	Svv । ц, у = Svy । u Svy । uSyy [ uSyy fu,
которая явно не зависит от и и у.
Примечание. Следует отметить формальную анало-
гию между (9.2.2.6) и (9.2.2.4), с одной стороны, и
(Э.2.2.7) и (Э.2.2.5)—с другой.
Доказательство. Утверждение (а) следует из
(9.2.1) и того факта, что г можно представить в блоч-
ном виде
V
У
z =
Q
(Ь) Пусть и—фиксированный вектор из области
значений случайного вектора и (т.е. и—ти € 5?(SUU)).
Условное совместное распределение v и у при фикси-
рованном и = и является нормальным со средним
( mV I и (“) \
(Э.2.2.8)	...-у-т =mxtu(u)
х \ Wy I и (“) /
и ковариацией
(С ! Q ч
°VV | U • Vy | U \
«7..Го j s Szz I u,
^vy] u : °yy I u /
где элементы mz j u (w) и Szz । u приведены в утверждении
(а) теоремы. При фиксированном и введем случайный
вектор
(9.2.2.10)	г* = (£У
распределение которого нормально, среднее значение
(безусловное)	'
(9.2.2.11)	/nz* = /пХ|.и(ы)
и ковариация (безусловная)
(9.2.2.12)	S2.Z. = SZZ|U,
Тогда для фиксированного и совместное (безусловное)
распределение v* и у* совпадает с совместным распре-
делением v и у при фиксированном и —и. Поэтому
УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ
199
условное распределение v* при фиксированном у* = у
является таким же, как условное распределение v при
условии, что у—у и и —и, если только предусмотреть,
что у представляет собой реализацию у* (т. е. если
У—Шу* £ eft (Sy*y*)).
Итак, для каждого у такого, что у—шу* g 5?(Sy*y*),
среднее и ковариация двух условных распределений
обязаны совпадать:
(9.2.2.13)	mV|U, у(и, г/) = шу*|у*(г/),
(9.2.2.14)	Sw । и, у ~ Sv*v*) у*•
В силу утверждения (а) имеют место представления
(9.2.2.15)	Шу* । у* (z/)== Шу* +Sy*y*Sу*у* (z/ шу*)
и
Поскольку
/'mvA /mv|U(u)\
(9.2.2.17)	шх* = (	(9.2.2.11)
Ч^У* /	\ I U /
И
.	/,5у*у* ! 5у*у* \ Z^W | U ! *“>Vy | U \
(9.2.2.18)	SZ*Z*==^""T	! £ J = ( T |s ),
V>v*y* !°y*y* J \dvy|u: yy|u/
(9.2.2.12)
to (9.2.2.6) является следствием (9.2.2.13), (9.2.2.15) и
(9.2.2.17), в то время, как (9.2.2.7) вытекает из (9.2.2.14),
(9.2.2.16) и (9.2.2.18). □
(9.2.2.19)	Упражнение. Если случайный вектор
(X \
у /
Z /
имеет нормальное распределение и z не зависит от
X
У
ТО Sxz | у — О»
200 ГЛ. IX. НЕОТРИЦАТЕЛЬНО ОПРЕДЕЛЕННЫЕ МАТРИЦЫ
(9.2,3) Упражнение, (а) Для любых матриц соот-
ветствующих размеров
tr(4B) = tr(B4).
(b) Если х—случайный вектор с ковариационной
матрицей Sxx, то <£||x||2 = tr (Sxx).
(9.2.4.1)	Упражнение (оптимальные свойства мате-
матического ожидания и условного математического
ожидания в широком смысле). Если
р
« \у /
является случайным вектором с ковариационной мат-
рицей
/^хх : ^ху\
\Sxy • 5УУ/
то говорят, что mx+SXyS+y (у—ту) (является условным
математическим ожиданием в широком смысле случайного
вектора х при условии, что фиксирован у = у. (Если х
и у имеют совместное нормальное распределение, ус-
ловное математическое ожидание в широком смысле сов-
падает с обычным условным математическим ожиданием).
(а)	Предположим, что оба вектора тх и ту явля-
ются нулевыми.- Покажите, что <£||х—Ау||2£||х —
— 5ху$ууУ||2 для любой матрицы А соответствующего
размера, причем строгое неравенство имеет место, если
только 45yy-7*-"SXy.
(b)	Если случайный вектор
р (*}
« \у/
имеет нормальное распределение и g(-)—измеримое
отображение ^-мерного евклидова пространства в р-мер-
ное евклидово пространство, то
8 II х— g (у) II2 > s || х -SxyS+y II2,
причем строгое неравенство имеет место, если только
g(y) = SxyS+yy для почти всех у.
УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ
201
Примечание. Утверждение (а) указывает на тот
факт, что условное математическое ожидание в широ-
ком смысле является наилучшей линейной оценкой
случайного вектора х, полученной по наблюдению у,
в том случае, когда минимизируется среднеквадрати-
ческая ошибка оценивания.
Утверждение (Ь) устанавливает факт оптимальности
условного математического ожидания среди всех (ли-
нейных и нелинейных) оценок в случае нормального
распределения.
(9.2.4.2)	Упражнение. Положим
Р Q
Р /^uu • *^иу \
Szz = (	о.
Q X^uy : °уу /
Тогда u£Suu и f/-“SjyS+urz€5l(Syylu), если и только
если
Примечание. Последний результат разъясняет явную
несимметричность условий относительно и—ти и
У—ту\и(и), необходимую для того, чтобы (9.2.2b)
было бы справедливо. В более краткой форме этот
факт можно сформулировать таким образом: представ-
ления (9.2.2.6) и (9.2.2.7) имеют место, если
/'и—ти\
(9.2.5) Упражнение. Предположим,гчто случайный
вектор
/х*\
w I
\У/
имеет нормальное распределение. Пусть
/Пх*|у(«/) = ^(Х*|У = //),
/nw=<£(w),
Sx*x*|y= S [(х*—тх.|У (у)) (х*—тх.|У (f/))T | у = у]
i
202 гл. IX. НЕОТРИЦАТЕЛЬНО ОПРЕДЕЛЕННЫЕ МАТРИЦЫ
И
Sww= S (w—mw) (w—mw)T.
Если
(9.2.5.1)	x=<Dx*4-w,
где Ф—неслучайная квадратная матрица, и если w
не зависит от
/ X* \
\ У /
ТО
(9.2.5.2)	тх\у(у) = Фтх.1у(у)+ту/,
(9,2.5.3)	SXX|y=OSx.x.|yOT4-Sww.
(9.2.6)	Упражнение. Если v имеет нормальное рас-
пределение с нулевым средним и ковариацией Svv
и не зависит от случайного вектора
/ X \
\у / ’
распределение которого нормально, и если
(9.2.6.1)	z = Hx + v,
где Н—неслучайная матрица, то
(9.2.6.2)	тх\уг{у, z) = mX| Дг/) +
+SXX । У/Г (Я5ХХ । уН^ 4-Sw)+ (z—Hmx । у (у))
и
(9.2.6.3)	Sxx|yz = Sxx|y
—>SXX t yHT (HSXX । уНТ +Sw)+ HSXX । y,
где mx\ y, z(y, z)—условное математическое ожидание x
при условии, что у = у и z—z, a SXX|y, z—условная
ковариация х и т. д.
Примечание. Результат (9.2.6) показывает, как но-
вые данные изменяют апостериорное распределение.
Если случайный вектор у представляет собой все дан-
ные до настоящего момента, то апостериорное распре-
деление^ (т.е. условное распределение) при условии
у= у содержит всю доступную информацию о случай-
ном векторе х, которую можно получить, анализируя

ФИЛЬТР КАЛМАНА
203
наблюдения z. Это распределение в гауссовском слу-
чае характеризуется своими средним и ковариацией.
Если наблюдаются новые данные, получаемые в соот-
ветствии с формулой (9.2.6.1), то апостериорное рас-
пределение случайного вектора х изменяется, но вновь
характеризуется условным средним и условной кова-
риацией при условии, что фиксированы у и z. Соот-
ношения (9.2.6.2) и (9.2.6.3) отражают связь между
прошлыми и последующими значениями средних и ко-
вариаций.
(9.3) Фильтр Калмана
Предположим, что последовательность {xn; n = 0, 1,
2, ...} случайных векторов подчиняется так называе-
мому «уравнению состояний» следующего вида:
(9.3.1)	х„+1 = (D„xn + w„,
где {ww; n = 0, 1, 2, ...}— последовательность неза-
висимых нормально распределенных векторов с нуле-
вым средним и ковариацией
(9.3.2)	T.n==<№nw*.
Вектор состояний хп наблюдается на фоне шума
таким образом, что
(9.3.3)	zn = //„x„+v„,	п=1, 2, ...,
где {v„; п—\, 2, ...}—последовательность независи-
мых нормально распределенных векторов с нулевым
средним и ковариацией
(9.3.4)	=
Процессы (уй}и {wn} предполагаются независимыми*)
и не зависящими от начального состояния [х0—нор-
мально распределенного вектора^с нулевым средним.
При этих предположениях нетрудно вывести, что сов-
местное распределение величин х0, хп ..., х„+1,
zn ..., z„ является нормальным.
*) Это предположение не является существенным. Отказ от
него приводит лишь к несколько более сложным формулам.
204 гл. IX. НЕОТРИЦАТЕЛЬНО ОПРЕДЕЛЕННЫЕ МАТРИЦЫ
В (9.2.4.1) было установлено, что наилучшая
в среднеквадратическом смысле оценка х„, основанная
на наблюдениях
z2=z2, ..., zn = z„,
задается формулой
(9.3.5)	x„|„ = ^>(x„|z1=z1,	z„=z„)
для п'^1, где ради простоты предполагается, что
Хо । о = 0. Аналогичным образом, наилучшая оценка
хп+1, полученная по п первым наблюдениям, является
условным математическим ожиданием
(9.3.6)	x„+n„=^(x„+i|z1=z1, ...,z„ = z„).
Если обозначить условную ковариацию для х„ и х„+1
при фиксированных z1=z1, ..., zn=zn через S„|„
и Sn+i |П соответственно, то в силу (9.2.5) и (9.2.6)
получим, что
(9.3.7)	хп+1 ] п~ Фпхп । л, п = 0, 1, 2, ...,
(9.3.8)	хп+11 /г-». 1 — хп+11 п +
4”	+ 1 (^7z + l Нп + 1 Хп+\ | л),
где
(9.3.9)	Кп+1 =	, пН'п+1 (Hn+1S^! j пН\+1 + 7?п+1)+,
(9.3.10)	5,2+11,2 = Фи5/г । пФд -\-Тп
и
(9.3.1 1)	S/2+ 1 } п+ 1 == Sn+ 1 I п Sn + 1 I nHJl+1 X
X (Нп+ \Sn+ 1 | n^n+l 4“ ^?Л+1)* Hn + \Sn+ 1 I n.
Эти рекуррентные соотношения решаются при началь-
ных условиях	хо|о=0,
(9.3.12)	*^0 | 0 == ^Хох5.
(Данные рекуррентные соотношения непосредственно
вытекают из (9.2.5) и (9.2.6), если в качестве вектора у
СООТНОШЕНИЕ МЕЖДУ ОЦЕНКАМИ
205
/Z1\
I Z2 \
рассмотреть «супервектор» I : I и в качестве z, х*
\гп/
и х векторы zn+1, х„ и хи+1 соответственно.)
Соотношения (9.3.7)-—(9.3.12) задают знаменитые
«уравнения фильтрации» Калмана (Калман [1]), кото-
рым посвящается огромное и все увеличивающееся
количество работ в инженерных журналах. Практи-
ческая важность этих рекуррентных уравнений хорошо
проиллюстрирована в работах Бэттин [1], Бэттин и
Левин [1] и в трудах Американского статистического
общества [1].
Примечание. Предположение о том, что х0 и шум
в уравнении состояний имеют нулевые средние, не яв-
ляется существенным. Если х0 имеет математическое
ожидание, равное т0, то рекуррентное уравнение (9.3.7)
решается при начальном условии хо । о = /^о- В слу-
чае, когда у шума w„ среднее значение равно т„,
вместо (9.3.7) имеет рекуррентное соотношение
(9.3.7')	xn+i \п~Фпхп\п~}-тп.
Особенностью калмановских уравнений является
их рекуррентный характер. Последовательность на-
блюдений zx, z2, ..., поступающих в «реальном вре-
мени», пересчитывается этими уравнениями в последо-
вательность оценок текущего вектора состояний.
Предположение о нормальности распределений мо-
жет быть опущено. В этом случае рекуррентные урав-
нения будут задавать условные математические ожида-
ния в широком смысле.
(9.4) Соотношение между оценками
метода наименьших квадратов
и условными математическими ожиданиями.
Предположим, что
(9.41)	z-Z/x + v,
где случайный вектор
Р /х\
п \ V /
206 Г«Л. IX. НЕОТРИЦАТЕЛЬНО ОПРЕДЕЛЕННЫЕ МАТРИЦЫ
имеет нормальное распределение с нулевым средним
и ковариацией
О = [ ......... 1	.
«\0	!//
Условное математическое ожидание случайного
вектора х при фиксированном z = z задается формулой
(9.4.2) тк । z- V2C2tfT (V2tfC2/7T + Z)-1 z.
В силу (4.9.5) имеем (при X—^0)
(9.4.3)	(=! + /)*_
= / —(ЯС2ЯТ) (НС2Н')+ + X2 (НС2Н'У + О (Х*) =
= 1—(НС) (НС)+ + X2 (НСЧПу +0 (V). (3.11.7)
Следовательно,
тх । z (г) = (С/Х2) [(/ - (НС) (НС)+ (НС)У z +
+ С (НСу (HCW) z + 0 (X2) = С (НС)+ z + 0 (X2)
при X —>-0.
Но вектор C(HC)+z минимизирует ||z —Ях||2 при
условии, что х£5?(С), поскольку
_ min || z—Нх ||2 = min || z — HCy ||2,
хе5?(С)	'	у
когда х — Су и y=(HC)+z. Тем самым при малых
значениях X условное математическое ожидание
<£(x|z=z) «приближается» к оценке метода наимень-
ших квадратов для х при условии, что (/—СС+)х=0.
Если С—невырожденная матрица, то I—СС+ = 0
и, следовательно, в этом случае <£(x|z = z) совпадает
с простейшей среднеквадратической оценкой для х.
(9.4.4) Пример. Пусть {v„; п = 1, 2, ...}—последова-
тельность независимых нормально распределенных
случайных величин с нулевыми средними и дисперсия-
ми о2. Пусть х—р-мерный нормально распределен-'
ный вектор с нулевым средним и ковариацией (1/Х2)С.
Предположим, что х и последовательность {v„; п =
= 1, 2, ...} независимы.
СООТНОШЕНИЕ МЕЖДУ ОЦЕНКАМИ
207
Пусть наблюдаются случайные величины
g„ = /i’x+v„,	/1=1,2......
по которым требуется оценить х. Обозначим через
хй (X) условное математическое ожидание х при фикси-
рованных	и через Sn(X) условную
ковариацию^.
В этом случае калмановские уравнения фильтрации
принимают вид
хо(М = 0,	S0(Z> V2C,
х„+1(^)=х„ (А.)-}-
$„+1 (*)=$„(*)-
______(М ^П + 1_____ /5-
</п+1+hfi+iSn (X) h„+1
(Sn(b)hn+1)(Sn(K)hn + ly
°л+1 + ^„+iSn (X) hn+1
(М)>
(ср. эти уравнения с (8.3.1) и (8.4.5), заменяя Sn на Вп).
Когда А стремится к нулю, решение рекуррентных
уравнений фильтрации стремится к х„—среднеквадра-
тической оценке х, полученной по наблюдениям	. ,£п,
в предположении, что (Z—С+С)х = 0 (Алберт и
Ситтлер [1]).
ДОБАВЛЕНИЕ ПЕРЕВОДЧИКА*)
(Д.1) Рекуррентный метод решения линейной системы
(б2/4-АтА)х = Ат_у
В теореме 3.4 было установлено, что
A+=lim (62/ +ДМ)-МТ. (3.4.1)
6->-0
Это свойство псевдообратных матриц лежит в основе
метода решения некорректных задач линейной алгебры
(Тихонов, Арсенин [1], гл. III). А именно, незави-
симо от того, вырождена или нет матрица А, можно
вместо системы уравнений
(Д.1.1)	А'Ах^АЧу
рассматривать системы уравнений
(Д.1.2)	(62/ + АтА)х = Агу,	6^=0,
решения которых при б—>0 сходятся к решению урав-
нения (Д.1.1) с минимальной нормой и при б2 > 0
обладают «устойчивостью» по отношению к ошибкам
округления.
Ниже мы приведем рекуррентный способ решения
линейной системы (Д.1.2). С этой целью в случае мат-
рицы А размера пхт введем следующие обозначения:
1)	t— 1, 2, ...,п—номера строк матрицы А;
2)	at, t = 1, 2, ..., п —строки матрицы А;
3)	/==1,2, .... /г—-элементы вектора у;
*) Материал параграфов (Д.1), (Д.2) восполняет, соответст-
венно, разделы (5.4.7), (3.1).
ДОБАВЛЕНИЕ ПЕРЕВОДЧИКА
209
и рассмотрим систему рекуррентных уравнений (отно-
сительно вектора х® с т компонентами и матрицы у* 6/
размера т х т)
(Д.1.3) х?+1 = 4 +----	х*=0,
62 + at+iT W+1
б т б
(Д.1.4)	,ii=i.
^2 + a<+iT tat+i
(Д.1.5) Теорема (Жуковский, Липцер [1]). Решения
рекуррентных уравнений (Д.1.3) и (Д.1.4) задаются
формулами
щл.ь) х^=(б2/+ли;)-м^,
(Д.1.7)	. y6t = (84 +ЛМ/)-1,
t= 1,2, .'. ,,n.
Доказательство. При t — 1 из (Д.1.4) выте-
кает, что матрица у® = /—а?ах/(б2+аха1) является сим-
метрической и положительно определенной. Предполо-
жим, что у® является симметрической и положительно
определенной, и покажем, что yf+x обладает этим же
свойством.
Действительно, из очевидного тождества
62 _62 + at+i?W+i
S2 + at+iT/aI+i
получаем, что
(Д.1.8) ± = --------L_
62 + at+1Tfa?+i
б т
82 (62 4- at+1у%Т+1)
и после умножения обеих частей равенства (Д.1.8)
слева на у®а}+1 и справа на й#+х находим
у®4ца1ц_ yfat+1at+1	(y®a?+iflt + 1)2
б2	62 + at+ху6tat+1	62 (82 + at+iy®а/+1)
210
ДОБАВЛЕНИЕ ПЕРЕВОДЧИКА
Из последнего равенства легко вывести, что
(Д.1.9) Z = vp[(v«)-i+2^±l _
v%}+xa(+iv?[(v«)-1+£bgt±i'_
б2 4-
_ „.б yW+iat+iT® 1 Г/..6\-1 I Я/+1Л/+1
' ~1.т’ »*+«,.L(M + s> J
Но, принимая во внимание (Д.1.4), из (Д.1.9) полу-
чаем рекуррентное соотношение
Отсюда вытекает положительная определенность мат-
рицы ух+1 и формула
(V*)“x = /+
из которой очевидным образом получается (Д.1.7).
Установим теперь формулу (Д.1.6). Для этого за-
метим, что рекуррентное уравнение (Д.1.3) можно
представить в виде
(Д.1.10) х?+1= тШи
yW+iat+i (yI)-1
S2 + «i+iYW+i
Х/ +
6 т
ytat+iyt+i
+1У%/+1
= У?+1 (т?+1)-1^ 4-
д т
®2+at+1Т?йТ+1
Покажем, что
vM+i/(62 4-af+1^a}+1) =yf+i«J+1/62.
ДОБАВЛЕНИЕ ПЕРЕВОДЧИКА
211
Для этого умножим левую и правую часть (Д.1.4) на
б т	б т	6т	б т
/д । 11 \ Т/+1Д/+1 =	_ У tat+1^1+14 t^t+i __
1	S2 “ 62	(62 + at+1Mi) &
_ Т/4+i | _ at+iy6tat+i j __	Т/Д/+1
 62	62 + at+1yW+i J	62 + at+xyW+1
Далее из (Д.1.10) и (Д.1.11) получаем рекуррентное
уравнение для (у<+1)-1 х?+1:
(Д-1-12)	(Т?+1)-^+1 = М) - х х? +	.
Из (Д.1.12) и (Д.1.7) находим, что
' т
^=T/L^v = 02/ + ^Mt)-W. □
S=1
Следствие 1.
х® = (627 + ЛтЛ)"1Лт//.
Следствие 2 (Жуковский, Липцер [2]). Рассмотрим
системы рекуррентных уравнений (Д.1.4) и
6 т
(Д.1.13) XL = хн---------YW+1a— (e<+1-at+1Xf+1),
62 + at+iY /4+1
Xeo = 0,
/ = 1,2, ..., n, относительно матриц X® размера tn x n,
где et—Строки единичной матрицы размера nxn.
Тогда
(Д.1.14)	Х« = (62/ + ЛТЛ)-1ЛТ.
Представление (Д.1.14) для Х£ вытекает из тео-
ремы (Д.1.5), поскольку
(в1 \	/61 \
• ), ( • ) = /-
212
ДОБАВЛЕНИЕ ПЕРЕВОДЧИКА
(Ц.1.15) Упражнение. Покажите, что
lim (627 + Л’Л)-*ба = /—А+А.
в-»о
(Указание. Воспользуйтесь (3.4.1).)
Предположим, что вычисления с помощью рекуррен-
тных соотношений (Д.1.3), (Д.1.4) ведутся последую-
щей схеме. После вычисления х„ и у„ (п—число строк
матрицы А) продолжается подсчет х® и у® с помощью
этих же соотношений, использующий строки ап+1 =
= alt •  а2п = ап, а2п+1 — а1У ... и числа у„+1 = у1, ...
• • • > Узп ~ Уп> Уйп+i ~ У1> • • •
(Д.1.16) Теорема (Жуковский, Липцер [1]).
А =1,2,...
Доказательство. Из теоремы (Д. 1.5) вытекает,
что
•	|, содержащая N
•	/ >
А/
блоков Д. Отсюда по правилу перемножения блочных
матриц (Гантмахер [1]) находим, что

Следовательно,
tSat = [62/ + Af(XM)]-i62 =
Аналогичным образом устанавливается и второе
соотношение, поскольку из теоремы (Д.1.5) следует, что
4v= (627 + А^Дял)-1
ДОБАВЛЕНИЕ ПЕРЕВОДЧИКА
213
где
(у \
у \
: I, ATnNynN=N(A'y).
У '
Поэтому
= [62Z + N (ЛМ)]-«ВД =
='^у+лмГ1л^=хв/^. □
Примечание. Описанное выше «зацикливание»
в рекуррентных уравнениях (Д.1.3), (Д.1.4) позво-
ляет «уменьшать» величину 62 и приближать вектор
x6t и матрицу у® к вектору А+у и матрице I — А+А,
(3.4.1), (Д.1.15). Этот прием уменьшения б2, как пока-
зала вычислительная практика, позволяет проводить
«устойчивые» вычисления, отвечающие существенно
меньшим значениям 62.
(Д.2) «Решение» системы линейных уравнений при
наличие априорной информации
Рассмотрим систему (совместную) линейных уравнений
(Д.2.1)	Ах=у
с матрицей Л размера пхт ранга r^min(n, т).
Предположим, что фиксирован некоторый вектор х°
из множества решений системы (Д.2.1) (Лх°=у),
удовлетворяющий ограничению (х0)тВх0^1, где В —
симметрическая положительно определенная матрица
соответствующей размерности.
На основе информации Ах° = у, (х°)г Вх° 1 век-
тор х°, вообще говоря, восстановить невозможно. Однако
можно указать вектор х, аппроксимирующий х° в ми-
нимаксном смысле.
Более точно, можно указать вектор х, минимизи-
рующий
(Д.2.2)	f(z)= max ||х—z||2.
х: хТВх < 1,
Ах—у
г
214	ДОБАВЛЕНИЕ ПЕРЕВОДЧИКА
(Д.2.3) Теорема (Гулинский [1]). Минимальное зна-
чение f (z) достигается на векторе
(Д.2.4) х — [1—(уВу)+Ву]А+у,
где у = /— А + А.
Доказательство. Все решения совместной си-
стемы (Д.2.1) можно представить в таком виде:
(Д.2.5)	u = A+y + yh,	(3.12.2)
где h—произвольный вектор соответствующей размер-
ности. В этом случае минимизация f (г) эквивалентна
минимизации по z функции f (z) = max || А +у + yh—z||
h
при условии, что
(Д.2.6) Q(h)=(A+y + yhyB(A+y + yh)^i.
Из определения f (z) и Q (h) вытекает, что х сов-
падает с центром эллипсоида
(Д.2.7) ~	Q(/i)=l.
Вектор х, задающий координаты центра эллипсоида
(Д.2.7), определяются совместной системой линейных
уравнений
(Д.2.8)	grad Q (й) =0, 4
которая, в силу (Д.2.6), имеет вид
(Д.2.9)	(уВу)й = — уВА+у.
Все решения этой системы задаются формулой
(Д.2.10) h = - (уВу)+ уВА+у у- [/—(уВу)+ (уВу)] и,
(3.12.2)
где v—произвольный вектор соответствующей размер-
ности.
Утверждение теоремы вытекает теперь из (Д.2.5) и
(Д.2.10), если только показать, что
(Д.2.11)	у [/—(уВу)+(уВу)] = 0.
ДОБАВЛЕНИЕ ПЕРЕВОДЧИКА	215
Пусть В'/»—квадратный корень матрицы В. По-
скольку В—положительно определенная матрица, мат-
рица В1'г—невырождена, (9.1). Поэтому (Д.2.11) экви-
валентно равенству
(Д.2.12)	В'/^[1—(уВу)+(уВу)] = 0.
Обозначим Я = уВ*/«. Тогда
B‘/.v [I -(уВу)+ (уВу)] = Нт [1—(ННт)+ (ЯНТ)] =
= ЯТ|7 —(Ят)+Нт] =	(3.8.7)
= ЯТ—ЯТ(ДТ)+ЯТ=ВТ—Вт = 0. □	(3.8.1)
Примечание. Вектор х, определяемый соотношением
(Д.2.4), используется для решения некорректных за-
дач линейной алгебры при наличии априорных дан-
ных о решении (Тулинский [1]).
ЛИТЕРАТУРА
(Звездочкой отмечена литература, добавленная редактором перевода)
Алберт (Albert А.)
1. Conditions for positive and nonnegative definiteness in terms
of pseudoinverses. SIAM J. Appl. Math., 17 (1969), 434—440.
Алберт, Ситтлер (Albert A., Sittier R.)
1. A method for computing least squares estimators that keep
up with the data. SIAM J. Control, 3 (1965), 394—417.
Американская статистическая ассоциация (American Statistical
Association)	«
1. Regression procedures for missible trajectory estimation. Proc,
of the 105th Regional Meeting, Florida State Univ. (1965).
Андерсон T.
I. Введение в многомерный статистический анализ. Физматгиз,
М., 1963.
Батлер, Мартин (Butler Т., Martin А. V.)
1. On a method of Courant for minimising functionals. J. Math.
Phys., 41 (1962), 291—299.
Б e л л м а н P.	4
1. Введение в теорию матриц. «Наука», М., 1969.
Бен-Израиль (Ben-Israel А.)
1. On error bounds for generalized inverses. SIAM J. Numer.
Anal. 3 (1966), 585—592.
Бен-Израиль, Версан (Ben-Israel A., Wersan S. J.)
1. An elimination method for computing the generalized inverse
for arbitrary complex matrix. J. Assoc. Comput. Mach., 10
(1963), 532—537.
Бен-Израиль, Иджири (Ben-Israel A., Ijiri Y.)
1. A report on the machine calculation of the generalized in
verse of an arbitrary matrix. ONR Research Memo No. 110,
Carnegie Inst, of Tech., March 1963.
Бен-Израиль, Робертс (Ben-Israel A., Roberts P. D.)
1. A suboptimisation method for interval linear programming.
Systems Res., Memo No. 204, Northwestern Univ., June 1968.
Бен-Израиль, Чарнс (Ben-Israel A., Charnes A.)
1. Contribution to the theory of generalized inverses. SIAM J.,
11 (1963), 667—699.
2. An explicit solution of a special class of linear programming
problems. Operations Res., 16 (1968), 1165—1175.
ЛИТЕРАТУРА
217
Бен-Израиль, Чарнс, Робертс (Ben-Israel A., Char-
nes A., Roberts Р. D.)
1. On generalized inverses and interval linear programming.
In «Theory and Application of Generalized Inverses» (T. Bo-
ullion and P. Odell, eds.), Proceedings of a symposium at
Texas Technological College, March 1968.
Б о x e p M.
1. Введение в высшую алгебру. ОНТИ, М., 1935.
Брэде р, Чарнс (den Broeder G. G., Charnes A.)
1. Contributions to the theory of generalized inverses for matri-
ces. ONR Res. Memo No. 39, Northwestern Univ., 1962.
Бульон, Оделл (Boullion T. Odell P. (eds.))
1. Theory and Application of Generalized Inverses. Proceedings
of symposium at Texas Technological College, March
1968.
2. Generalized Inverse Matrices. Wiley (Interscience), New York,
1971.
Бэттин (Battin R. H.)
.1. Astronautical Guidance. McGraw-Hill, New York, 1964.
Бэттин, Левин (Battin R. H., Levine G.)
1. Applicatdin of Kalman filtering techniques to the Apollo
program. MIT Inst. Lab. Tech. Rep. E2401, April 1969.
Гантмахер Ф. P.
1*. Теория матриц. «Наука», M., 1967.
Г л о н т и О. А.
1*. Последовательная фильтрация компонент марковской цепи
при вырожденной матрице диффузии. Теория вероятн. и ее
примет, XV, 4 (1970), 736—740.
Голдмен, Зелен (Goldman A. J., Zelen J.)
1. Weak generalized inverses and minimum variance linear un-
biased estimation. J. Res. Nat. Bur. Standards Sect. B,
68B (1964), 151—172.
Голуб (Golub G.)
1. Numerical methods for solving linear least squares problems.
Numer. Math., 7 (1965), 206—216.
2. Least squares values and matrix approximations. Appl. Math.
(Prague), 13 (1968), 44—51.
Голуб, Кахан (Golub G., Kahan W.)
1. Calculating the singular values and pseudo-inverse of matrix.
SIAM J. Numer. Anal., 2 (1965), 205—224.
Г p e в и л ь (Greville T.N.E.)
1.	The pseudoinverse of a rectangular matrix and its applica-
tions to the solution of systems of linear equations. SIAM
Rev., 1 (1959), 38—43.
2.	Some applications of the pseudoinverse of a matrix. SIAM
Rev., 2 (1960), 15—22.
3.	Note on the generalized inverse of a matrix product. SIAM
Rev., 8 (1966), 518—521. Erratum 9 (1967) 7.
Гуд (Good I. J.)
1. Some applications of the singular decomposition of a matrix.
Technometrics, 11 (1969), 823—831.
218
ЛИТЕРАТУРА
Тулинский О. В.
1*. О численном решении некоторых некорректных задач тео-
рии управления. Автоматика и телемеханика, 8 (1976),
66—80.
Де се л л (Decell Н. Р.)
1. An alternate form of the generalized inverse of an arbitrary
complex matrix. SIAM Rev., 7 (1965), 356—358.
2. An application of the Cayley-Hamilton Theorem to genera-
lized matrix inversion. SIAM Rev., 7 (1965), 526—528.
Де сел л, Оделл (Decell H. P., Odell P. L.)
1. On the fixed point probability vector of regular or er-
godic transition matrices. J. Am. Stat. Assoc., 62 (1967),
600-602.
Жуковский E. Л., Липцер P. Ш.
1*. О рекуррентном способе вычисления нормальных решений
линейных алгебраических уравнений. ЖВМ и МФ, 12, 4
(1972), 843—857.
2*. О вычислении псевдообратных матриц. ЖВМ и МФ, 15,
2 (1975), 489-492.
Зискинд (Zyskind G.)
1. On canonical forms, nonnegative covariance matrices and
best and simple least squares linear estomators in linear
models. Ann. Math. Statist., 38 (1967), 1092—1109.
Зискинд, Мартин (Zyskind G., Martin F. B.)
1. On best linear estimation and a general Gauss-Markov theo-
rem in linear models with arbitrary nonnegative covariance
structure. SIAM J. Appl. Math., 17 (1969), 1190—1202.
Калм ан (Kalman R. E.)
1. A new approach to linear filtering and prediction problems.
J. Basic. Eng., 82 (1960), 35—45.
Карлин (Karlin S.)	ч
1.	Mathematical Method and Theory' in Games Programming
and Economics. Addison-Wesley Reading, Massachusetts,
1959.
Клайн (Cline R. E.)
1.	Note on the product of matrices. SIAM Rev., 6 (1964),
57—58.
2.	Representatoins for the generalized inverse of partitioned
matrix. SIAM J. Appl. Math., 32 (1964), 588—600.
3.	Representation for the generalized inverse of sums of matri-
ces. SIAM J. Numer. Anal., 2 (1965), 99—114.
Крускал (Kruskal W.)
1. When are the Gauss-Markov and least squares estimators
identical? A coordinate free approach. Ann. Math. Statist.,
39 (1968), 70—75.
Липцер P. Ш., Ширяев A. H.
1*. Статистика случайных процессов (гл. 13, 14). «Наука», М.,
1974.
Марсалья (Marsaglia G.)
1. Conditional means and covariances with singular covariance
matrices. J. Am. Stat. Assoc., 59 (1965), 1203—1204.
ЛИТЕРАТУРА
219
Митра, Рао (Mitra S. К., Rao С. R.)
1. Conditions for optimality and validity of simple least squares
theory. Ann. Math. Statist., 40 (1968), 1617—1624.
M у p (Moore E. H.)
1. Abstract. Bull. Amer. Math. Soc., 26 (1920), 394—395.
2. General analysis, Part I. Memoirs Amer. Philos. Soc., 1
(1935), 1-231.
Нобль (Noble B.)
1. A method for computing the general inverse of a matrix.
SIAM J. Numer. Anal., 3 (1966), 582—584.
Осборн (Osborn E. E.)
1. Smallest least squares solutions of linear equations. SIAM
J. Numer. Anal., 2 (1965), 300—307.
Па'йл (Pyle L. D.)
1. Generalized inverse computations using the gradient proj-
ection method. J. Assoc. Comput. Math., 11 (1964),
422—429.
Пенроуз (Penrose R.)
1. A generalized inverse for matrices. Proc. Cambridge Philos.
Soc., 51 (1955), 406-413.
2. On best approximate solutions of linear matrix equations.
Proc. Cambridge Philos. Soc., 52 (1956), 17—19.
Перейра, Розен (Pereyre V., Rosen J. B.)
1. Computation of the pseudoinverse of a matrix of unknown
rank. Computer Sciences Division, Stanford Univ., Tech.
Rep., CS 13, Sept. (1964).
"П райе (Price С. M.)
1. The matrix pseudoinverse and minimal variance estimates.
SIAM Rev., 6 (1964), 115—120.
P a о (Rao C. R.)
1. A note on generalized inverse of a matrix with applications
to problem in mathematical statistics. J. Roy. Statist. Soc.,
Ser. B, 24 (1962), 152—158.
Рао, Митра (Rao C. R., Mitra S. K.)
1. Generalized inverse of Matrices and Its Application. Wiley,
New York, 1971.
Раст, Ба'ррус, Шнеебергер (Rust В., Burrus W. R.,
Schneeberger C.)
1. A simple algorithm for computing the generalized inverse
of a matrix. Comm. ACM, 9 (1966), 381—386.
Стьюарт (Stewart G. W.)
1. On the continuity of the generalized inverse. J. Appl. Math.,
17 (1969), 33—45.
Тихонов A. H., Арсенин В. Я.
1*. Методы решения некорректных задач. «Наука», М., 1974.
Т ь ю а р с о н (Tewarson R. Р.)
1. A direct method for generalized matrix inversion. SIAM J.
Numer. Anal., 4 (1967), 499—507.
2. On two direct methods for computing generalized inverses. ,
Computing, 7 (1971), 236—239.
220	ЛИТЕРАТУРА
Уотсон (Watson G. S.)
1. Linear least squares regression. Ann. Math. Statist., 38 (1967),
1679—1699.
Фадеев Д. К., Фадеева В. H.
1. Вычислительные методы линейной алгебры. Физматгиз, М.,
1960.
Феллер В.
1. Введение в теорию вероятностей и ее приложения, т. 1.
«Мир», М., 1964.
X а л м о ш П. Р.
1. Конечномерные векторные пространства. Физматгиз, М.,
1963.
Шеффе (Scheffe Н.)
1. The Analysis of Variance. Wiley, New York, 1959.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
Вектор случайный 193 — собственный 34, 51 Векторы, порождающие много- образие 13, 14 Вычисления рекуррентные для взвешенных наименьших квад- ратов 158 	для линейной регрессии 172 	 для невязки 157 	для НЛНО 156 	 для переходной вероятно- сти марковской цепи 50 	для проекторов 50 	для	псевдообращения блочных матриц 57, 64 	неотрицательно оп- ределенных матриц 62, 193 — — для среднеквадратичес- ких оценок с ограничением 160 	для условных ковариаций 197 	математических ожи- даний 197	Ковариация условная, гауссов- ский случай 194 	, рекуррентное вычисление 197, 204 Коэффициент корреляции мно- жественный 61 	частный 61 Матрица возмущенная 65 — невырожденная 20 — неотрицательно определенная 189 —	нормальная 49 —	- обратная 20 —	ортогональная 21 —	перестановок 74 —	положительно определенная 189 —	проекционная 36 	, собственные значения 36 —	симметрическая 19 —	сопряженная 18 —	стохастическая 50 —	транспонированная 11 —	усиления 153 Метод определения собственного
Дисперсия 107 Д. о. в. п. ф 118	вектора 56 — ортогонализации Грамма — Шмидта 74 — псевдообращения на основе
Значение собственное 21, 33, 34, 51	градиентных проекций 87 	исключения Гаус- са — Жордана 82 — -	ортогонализации Грамма — Шмидта 74
Инверсия обобщенная Мура— Пенроуза 29		теоремы Кэли — Гамильтона 93 — рекуррентный с ограничением 163
Ковариация ошибки 107, 156, 159, 182	Методика по двум параметрам 140
222
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
Многообразие линейное 12
Множество образов 18, 19, 23, 26
Модель линейная 105
Наблюдения потерянные в ор-
тогональных планах 182
-----, общий случай 185
Независимость 103
— линейная 20, 29
Несмещенность 106
НЛНО 107, 128, 152, 178
— для допускающей оценку век-
торной параметрической функ-
ции 119
— для простейшего метода наи-
меньших квадратов 112
— с ограничениями 149
Норма 12
Ожидание математическое в ши.
роком смысле 200
-----'условное, гауссовский слу-
чай 194
--------и оценки метода наи-
меньших квадратов 206
--------как оптимальная оцен-
ка 200
--------, рекуррентное вычис-
ление 197, 204
Ортогонализация Грамма —
Шмидта модифицированная 101
Ортогональность 12
—	линейному многообразию 12
Ортонормальность 33
Оценка Гаусса — Маркова 109
— наименьших квадратов и ус-
ловное математическое ожида-
ние 206
--------обобщенная 113
--------простейшая 112
-------- рекуррентная 153
---------- с ограничением 149
Параметр нецентральности 114
118
Переменная зависимость 104
План ортогональный 128
Полином характеристический 94
Полином характеристический,
вычисление коэффициентов 96
Программирование линейное 45
Проектирование рекуррентное
50
Проекция 16, 26
—	на множество образов 28
—	на ядро 28, 55, 63
Произведение скалярное 11
Псевдообращение блочных мат-
риц 64
—	диагональных матриц 31
—	, линейные уравнения 42
—	, метод наименьших квадра-
тов с ограничением 43
—	неотрицательно определен-
ных матриц 193
—	, разрывный характер 34
—	, решение матричных урав-
нении 48
—	симметрической матрицы 33
—	скаляра 31
Разложение ортогональное сум-
мы квадратов 133
— Фурье 15
Размерность линейного много-
образия 68
Ранг матрицы 68
Распределение квадратичных
фо{йи 114
— условное, гауссовский слу-
чай 194
— F 114, 121, 123, 125
— хи-квадрат 114, 120
Регрессия . линейная 137
— множественная 58
Решение с минимальной нормой
23
Система нормальных уравнений
24
Степень свободы 114, 120, 133
Теорема Кохрейна 69
— о приведении матрицы к диа-
гональному виду 20, 37
-т- о сингулярном разложении 52
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ	223
Теорема о спектральном пред- ставлении 33 Тест общей линейной гипотезы 122 — отношения правдоподобия 122, 127 Уравнение матричное 48 — нормальное 24 Условия Пенроуза 38	Фильтр Калмана 203, 205 Функция параметрическая 106 — штрафная 145 Цепь Маркова 50 Эллипсоид доверительный 118 Ядро 17
Артур Алберт
РЕГРЕССИЯ, ПСЕВДОИНВЕРСИЯ
и рекуррентное ОЦЕНИВАНИЕ
Перевод с английского Р. Ш. Липцера
Под редакцией Я. 3. Цыпкина
М., 1977 г., 224 стр. с илл.
Редактор Д. С. Фурманов
Техн, редактор Н. В. Кошелева
Корректоры Г. В, Подволъская, Н. Б. Румянцева
Сдано в набор 27.09.1976 г. Подписанок печати 13.01. 1977 г.
Бумага 84Х1081/з2«
Физ. печ. л. 7. Условн. печ. л. 11,76.
Уч.-изд. л. 9,59.
Тираж 6 000 экз.'
Цена книги 69 коп.
Заказ № 803
Издательство <Наука»
Главная редакция физико-математической литературы
1 17071, Москва, В-71, Ленинский проспект,'4! 5
Ордена Трудового Красного Знамени
Первая Образцовая типография имени А. А. Жданова
Союзполиграфпрома при Государственном комитете
Совета Министров СССР по делам издательств,
полиграфии и книжной торговли.
Москва, М-54, Валовая, 28
Отпечатано во 2-й типографии издательства «Наука»,
Москва, Шубинский пер., 10, заказ 1816.
Цена 69 коп.