/
Author: Мэйндоналд Дж.
Tags: теория вероятностей математическая статистика комбинаторный анализ теория графов математика статистика вычислительная математика
ISBN: 0-471-86452-8
Year: 1988
Text
МАТЕМАТИ КО-СТАТИ СТИ Ч ЕСКИ Е МЕТОДЫ ЗА РУБЕЖОМ
STATISTICAL COMPUTATION J.H.MAINDONALD Applied Mathematics Division Department of Scientific and Industrial Research. Auckland, New Zealand JOHN WILEY & SONS New York • Chichester • Brisbane • Toronto • Singapore
Дж. Мэй ндоналд ВЫЧИСЛИТЕЛЬНЫЕ АЛГОРИТМЫ В ПРИКЛАДНОЙ СТАТИСТИКЕ Перевод с английского Б.И. КЛИМЕНКО, А.В. ГМЫРИ Под редакцией Е.З. ДЕМИДЕНКО Москва "Финансы и статистка" 1988
ББК 22.172 М97 МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ ЗА РУБЕЖОМ Серия основана в 1977 году ВЫШЛИ ИЗ ПЕЧАТИ 1. Ли Ц., Джадж Д., Зельнер А. Оценивание параметров марковских моделей по агрегированным временным рядам. 2. Райфа Г., Шлейфер Р. Прикладная теория статистических решений. 3. Клейнен Дж. Статистические методы в имитационном моделировании. Вып. 1 и 2. 4. Бард Й. Нелинейное оценивание параметров. 5. Б о л ч Б. У., X у а н ь К. Д. Многомерные статистические методы для экономики. 6. И б е р л а К. Факторный анализ. 7. Зельнер А. Байесовские методы в эконометрии. 8. X е й с Д. Причинный анализ в статистических исследованиях. 9. П у а р ь е Д. Эконометрия структурных изменений. 10. Драймз Ф. Распределенные лаги. И. Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия. Вып. 1 и 2. 12. Бикел П., Доксам К. Математическая статистика. Вып. 1 и 2. 13. Л им ер Э. Статистический анализ неэкспериментальных данных. 14. Песаран М., Слейтер Л. Динамическая регрессия: теория и алгоритмы. 15. Дидэ Э. и др. Методы анализа данных. 16. Бартоломью Д. Стохастические модели социальных процессов. 17. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Кн. 1 и 2. 18. Хеттманспергер Т. Статистические выводы, основанные на рангах. 19. Д эй в и сон М. Многомерное шкалирование. Методы наглядного представления данных. 20. Жамбю М. Иерархический кластер-анализ и соответствия. 21. Кокс Д. Р., О у кс Д. Анализ данных типа времени жизни. ГОТОВИТСЯ К ПЕЧАТИ Л и ттл Р. Дж. А., Рубин Д. Б. Статистический анализ данных с пропусками. Редколлегия: А. Г. Аганбегян,. Ю. П. Адлер, С. А. Айвазян, Ю. Н. Благовещенский, Б. В. Гнеденко, Э. Б. Ершов, Е. М. Четыркин М 0702000000—110 010@1)—88 109—88 ISBN 0—471—86452—8 (США) ISBN 5—279—00057—4 (-СССР) © 1984 by John Wiley & Sons, Inc. © Перевод на русский язык, предисловие «Финансы и статистика», 1988
ПРЕДИСЛОВИЕ К РУССКОМУ ИЗДАНИЮ Трудно переоценить роль вычислений в современной статистике. Собственно вычисление здесь и представляет собой единственно возможный эксперимент, который всегда служил «окончательным судьей» теоретических споров и научных изысканий. Математическая и прикладная статистика, хотя это до сих пор многими не осознано, всегда была и остается кладезем разного рода вычислительных задач. Великий немецкий математик К. Ф. Гаусс A777—1855), по-видимому, был первым, кто свел статистическую задачу оценивания параметров линейной зависимости к решению системы линейных уравнений на основе предложенного им метода наименьших квадратов. В 1944 г. К. Левенберг предложил итеративный метод минимизации суммы квадратов отклонений в нелинейной регрессии, который со времени И. Ньютона и К. Гаусса, по признанию специалистов в области оптимизации, был одним из первых практических итеративных методов минимизации неквадратиче- ской функции многих переменных. Термин «вычислительная статистика» (computational statistics) прочно вошел в лексикон статистиков. Соответствующий раздел прикладной статистики стал развиваться особенно бурно в последнее время в связи с вторжением компьютерной техники во все сферы человеческой деятельности. Методам и алгоритмам вычислений в современной статистике и посвящена книга Дж. Мэйндоналда «Вычислительные алгоритмы в прикладной статистике». Регрессионный анализ — наиболее популярный раздел прикладной статистики. При этом особое значение приобретает проблема выбора устойчивого, экономного алгоритма расчета регрессий, или, более конкретно, оценок наименьших квадратов. Почти половина книги посвящена этой важной теме. Вычислению оценки наименьших квадратов и более общей проблеме решения системы линейных уравнений с неотрицательно определенной симметричной матрицей уделяется достаточно внимания специалистами по вычислительной математике как у нас в стране, так и за рубежом. Недавно на русский язык была переведена книга Ч. Лоусена, Р. Хенсона «Численное решение задач метода наименьших квадратов» (М.: Наука, 1986), посвященная непосредственно этой теме. Число алгоритмов для решения задачи нахождения оценки наименьших квадратов на сегодняшний день достаточно велико, большинство из них обсуждаются в книге Дж. Мэйндоналда. Эти алгоритмы, естественно, обладают неодинаковой степенью устойчивости к
ошибкам округления, требуют разного объема памяти ЭВМ и времени счета. В приведенной ниже таблице (основанной на табл. 19.1 из книги Ч. Лоусена и Р. Хенсона) представлены методы решения задачи наименьших квадратов с оценкой соответствующего числа операций. Число операций для численных методов решения задачи наименьших квадратов Мртод 1. Приведение к треугольному виду методом Хаусхолдера 2. Сингулярное, разложение: 2.1. прямое применение 2.2. приведение к треугольной матрице методом Хаусхолдера 3. Метод Грама — Шмидта (классический или модифицированный) 4. Решение нормальных уравнений методом Холецкого 5. Решение нормальных уравнений методом Гаусса—Жордана (для пошаговой регрессии) 6. Спектральный анализ нормальных уравнений Приблизительное число операций /Ш1*—./Я»/3 2лт2 + 4т3 пт2 + т3 «3 пт2 т3/6+пт2/2 т»/3+лт2/2 16 т3 + я/п2/2 3 Замечание. Добавочный член пт2/2 в последних трех методах связан с формированием матрицы нормальных уравнений (точнее, он равен пт(т-\-\)/2. Здесь п — объем выборки, т — число коэффициентов регрессии. Задача решения системы линейных уравнений возникает в связи с численным нахождением оценки параметров регрессии, и это накладывает свой, «статистический» отпечаток на всю вычислительную работу. Статистика (в отличие от вычислителя) интересуют не только значения оценок наименьших квадратов, но и их дисперсии, которые пропорциональны диагональйым элементам матрицы, обратной к матрице системы нормальных уравнений. Таким образом, необходимость вычисления диагональных элементов обратной матрицы заставляет либо вообще отказаться от некоторых методов, перечисленных в таблице, либо требует их модификации, в результате которой были бы найдены не только решения системы нормальных уравнений, но и диагональные элементы обратной матрицы. Последнее требование заставляет вообще отказаться от некоторых методов вычисления оценок наименьших квадратов и обратиться к новым алгоритмам, ранее не принимавшихся во внимание. Более того, поскольку статистика часто интересуют не только дисперсии оценок, но и их ковариации (необходимые, например, при расчете дисперсии прогноза), лучший метод решения задачи вычисления оценки наименьших квадратов следует искать среди методов обращения сим-
метричных, положительно (или неотрицательно) определенных матриц (похоже, что одним из наиболее экономных методов обращения симметричных, положительно определенных матриц служит метод выметания (sweeping), при этом приблизительное число операций равно 2т3 + + пт2/2). Статистический подход к проблеме вычисления оценки метода наименьших квадратов привносит еще один методологический нюанс в поиск наиболее эффективного алгоритма. Есть основания считать, что особо эффективный алгоритм и не нужен. Вспомним поучительную дискуссию, развернувшуюся вокруг исследования, проведенного в 1967 г. Дж. Лонгли с целью анализа качества программ для решения задачи наименьших квадратов. Лишь благодаря настольному калькулятору, работавшему с 40 значащими цифрами, Дж. Лонгли удалось найти удовлетворительное (можно считать, абсолютно точное) решение одной регрессионной задачи. Таким образом, программы в большинстве своем были признаны им неудовлетворительными. Спустя 9 лет, его соотечественники А. Битон, Д. Рубин и Дж. Бароне вернулись к ставшей знаменитой «регрессии Лонгли». Они заметили, что отвергнутые ранее программы давали очень высокое значение дисперсии оценок даже в том случае, когда соответствующие оценки не совпадали не только по первым значащим цифрам с «точным» решением Лонгли, но и по знакам. «Зачем нужны нам точные решения, если заведомо они неустойчивы к даже ничтожным изменениям зависимой переменной?»—задавали естественный вопрос авторы более позднего исследования (более подробное обсуждение «регрессии Лонгли» читатель найдет в книге [236]). Само собой разумеется, что пределы поиска эффективного и наиболее точного алгоритма должны быть разумными. Алгоритм решения задачи наименьших квадратов должен быть, помимо всего прочего, экономным и по возможности адаптивным. Последнее означает, что при расчете новой регрессии с добавочными или исключенными факторами результаты предыдущих вычислений должны быть максимально использованными. Подобное свойство алгоритма позволяет достаточно быстро организовать выбор наилучшей регрессии, который в свою очередь можно осуществить либо полным перебором, либо методом включения всех возможных (потенциальных) факторов регрессии, либо методом их исключения. В одной работе трудно подробно описать все вычислительные схемы и алгоритмы, применяемые сегодня в прикладной статистике. Автор ограничивается иногда лишь кратким упоминанием, схематичным описанием того или иного метода. Для более подробного ознакомления читатель может обратиться к литературе, приведенной в конце книги. В заключение отметим, что книга Дж, Мэйндоналда окажет существенную пользу специалистам по прикладной статистике и вычислительной математике, а также программистам. Она будет полезна всем, кого заинтересует использование вычислительных схем и алгоритмов в современных статистических исследованиях. Е. 3. Демиденко
ПРЕДИСЛОВИЕ Эта книга адресована профессиональным статистикам, а также студентам, желающим более глубоко ознакомиться с техникой статистических расчетов. Она может оказаться полезной и для тех, кого интересуют проблемы чисто вычислительного характера. Статистический анализ для них — лишь область приложения аппарата линейной алгебры, вычислительной математики и матричного исчисления. Практически в любом пакете компьютерных программ по статистике имеется программа оценки параметров множественной регрессии. Однако возможности проведения статистического анализа с помощью такого пакета существенно расширяются, если в нем также представлены программы по дисперсионному и ковариационному анализу, логлинейному анализу многофакторных таблиц. Указанные темы рассматриваются в первых семи главах книги. В гл. 8 и 9 излагаются, хотя и менее подробно, вопросы построения сплайн-функций, робастного оценивания параметров регрессии, особенности исследования временных рядов, способы получения псевдослучайных чисел, а также некоторые другие, менее важные темы, представляющие биределенный интерес для статистиков-прикладников. В последней главе показана та роль, какую играют компьютеры в Современном статистическом анализе. Методы проведения расчетов я старался рассматривать в контексте исследования реальных статистических проблем. Гл. 1—3 посвящены в основном применению методов наименьших квадратов для решения системы нормальных уравнений и вычислению сопутствующих им статистических характеристик. Тем самым создается база для обсуждения в гл. 4 численно более тонких методов, основанных на использовании алгоритмов ортогонального приведения матрицы к верхней треугольной форме. Такой подход, когда вначале рассматриваются методы, основанные на решении системы нормальных уравнений, обусловлен тем, что большинство статистиков хорошо знакомы именно с этими алгоритмами. Кроме того, с помощью указанных методов удается продемонстрировать порядок проведения расчетов на примерах, в которых данные подобраны таким образом, чтобы максимально упростить арифметические выкладки. Матричные операции, вводящиеся в первых четырех главах, служат основой для большинства вычислений, представленных в гл. 5—7. Здесь приведены простые способы выявления линейных зависимостей и показана работа с ними. При этом обобщенная обратная матрица как таковая практически не применяется.
Изложение гл.6 базируется на использовании алгоритма вычисления собственных значений и собственных векторов. Обсуждение достоинств и недостатков альтернативных алгоритмов выходит за рамки настоящей книги. Поэтому читателю, желающему в деталях познакомиться с подобными алгоритмами, мы советуем обратиться прежде всего к работе Дж. Наша [164]. В гл. 10 приводится написанная на Бейсике программа для работы с матрицами небольшой размерности. Мы не ожидаем, что после прочтения настоящей книги большинство читателей сразу же приступит к составлению своих компьютерных программ. Этим стоит заняться разве что в учебных целях, в порядке упражнений. Наша задача — побудить читателя к осмысленной работе с уже имеющимися статистическими программами. Написанные на Бейсике программы, приведенные в гл. 9 и 10, представляют интерес для тех, кто захотел бы поэкспериментировать, используя небольшие компьютеры (включая некоторые из имеющихся в настоящее время переносных компьютеров) при проведении статистических вычислений. Если не считать работ по вычислительным методам, я не могу назвать каких-либо других книг, посвященных выбранной мной теме. Хотя существует обширная литература, знакомящая со статистическими методами расчетов, работы, доступные читателю со скромным уровнем математической подготовки, практически отсутствуют. Еще одна примечательная черта настоящей книги состоит в том, что в ней я уделяю внимание как самим вычислениям, так и статистическим аспектам рассматриваемых методов анализа. Включение той или иной темы было продиктовано необходимостью осветить лишь наиболее известные и популярные методы вычислений в статистических исследованиях. Таким образом, в книге прежде всего уделяется внимание вопросам практического использования статистических методов, особенно в тех случаях, когда соответствующие модели только недавно получили достаточно широкое распространение. Описание методов, рассмотренных в гл. 1—3, и приведенные в них примеры доступны для читателя, знакомого лишь с основами матричного исчисления. При чтении параграфов, помеченных звездочкой в этих глайах, а также при чтении последующих глав требуется знание элементарной линейной алгебры. Гл. 7 предполагает некоторое знакомство с методом максимального правдоподобия. Более сложные упражнения и упражнения, требующие громоздких вычислений, также помечены звездочкой. Окленд, Новая Зеландия, январь 1984 г. Дж. Мэйндоналд
ОБОЗНАЧЕНИЯ Основные обозначения в гл. 1—5 книги следующие: 1 Л*]! Х12 . . . Х1} х22 Хщ У^ У\ ~У2 Х = Хц где Уг У-1 х22 • •, х2р l ХП2 • • • Х-пр _ п ¦¦хи-х,,Ъ = п-* V *w, Далее S=[X, yJ'[X, у]—матрица СКП (сумм квадратов S= [X, у]' [Ху] —матрица ЦСКП (центрированных произведений). Т представляет собой верхнюю треугольную матрицу, такую, что Т'Т ставляет собой верхнюю треугольную матрицу, такую, что Т'Т = S. Положим д = р + 1, тогда и произведений); сумм квадратов и S. Т пред</ J Ч о' /,,, с Альтернативная запись ty = tq; tyy — tqq\ tv=1<7; tyy = tqq. Элементы симметричных матриц, расположенные ниже главной диагонали, в книге обычно опускаются или же вместо них проставляются точки. Все элементы верхней треугольной матрицы, расположенные ниже главной диагонали, равняются нулю, в тексте книги они обычно не приводятся. 10
Глава 1 # РАСЧЕТ РЕГРЕССИИ. Часть I В этой главе будут рассмотрены некоторые методы решения системы нормальных уравнений, возникающей при применении метода наименьших квадратов в регрессии. Изложение иллюстрируется простыми числовыми примерами, которые подобраны таким образом, чтобы не вызывать затруднений вычислительного характера. Методы решения таких^ систем базируются на алгоритмах приведения матрицы Х'Хк виду ТТ, где Т — верхняя треугольная матрица, т. е. такая матрица, в которой все элементы, расположенные ниже главной диагонали, равны нулю. 1.1. ЛИНЕЙНАЯ ПАРНАЯ РЕГРЕССИЯ Рассмотрим задачу: требуется «провести» прямую через следующие точки на плоскости: 1 = 1 i = 2 t=3 i-4 — 2 J 2 7 0 2 5 3 Число точек здесь равно п = 4. Нетрудно вычислить: Z*i = 6, 2*/* = 10, 2x2i = 58, 2*101=29, 2#= На рис. 1.1 показана прямая, произвольным образом «проведенная» через эти четыре точки. Уравнение такой прямой может быть записано в виде у = а + Ьх. Чтобы понять смысл использования «крышки» над г/, предположим, что х = xt представляет собой значение х одной из че- тырех числовых точек. «Крышка» позволяет отличить точку (хь yt) на прямой линии от числовой точки с координатами (xiy yt). Предположим, что у — зависимая переменная, ах — предиктор, т. е. объясняющая (независимая) переменная. Тогда метод наименьших квадратов позволяет подобрать аи b таким образом, чтобы сумма квадратов отклонений по у от построенной прямой линии была минималь- 11
ной. Для того чтобы получить формальное математическое описание этого метода, рассмотрим уравнение *=1, 2, 3, 4. Величины et (положительные для точек, расположенных выше прямой, и отрицательные для точек, лежащих ниже прямой) показаны на рис. 1.1 жирными вертикальными линиями. Оценки параметров а и Ь должны быть такими, чтобы величина 2е? была минимальной. В курсе элемен- 5 4 3 ! 2 1 1 -2 -1 г - - I 1 2 I 3 I I I 4 5 6 7 Рис. 1.1. Прямолинейная регрессия тарной статистики показывается, что оценки параметров а и Ь могут быть получены в результате решения следующей системы уравнений: A.1) A.2) где для простоты индекс i опущен. В нашем случае эта система примет вид Dа+66=10, A.3) Fа+ 586 =29. A.4) Решим эту систему. Параметр а может быть исключен умножением A.3) на 3/2 и вычитанием полученного результата из A.4). Тогда получаем Dа + 66=10, A.3') | 496 = 14. A.4') Метод решения полученной системы состоит в обратной подстановке, а именно: вначале мы найдем 6 = 2/7 из A.4'), а затем подставим найденное значение 6 в A.3'), что дает 4а = 10 — 6 х B/7), а = 29/14. 12
1.2. МОДИФИЦИРОВАННАЯ СХЕМА РЕШЕНИЯ СИСТЕМЫ НОРМАЛЬНЫХ УРАВНЕНИЙ Схема, к описанию которой мы приступаем, будет в центре нашего внимания на протяжении почти всей книги. Она называется схемой Холецкого, или схемой квадратного корня. Итак, начнем с рассмотрения системы 4а+ 66 =10, B.1) 6а+586 = 29. B.2) Однако теперь вместо уравнений A.3') и A.4'), следуя схеме Холецкого, приходим к системе Bа+ 36 =5, B.3) I 7fe=2. B.4) Уравнение B.3) получено в результате деления коэффициентов уравнения A.3') на квадратный корень из коэффициента при а, т.е. на|/г4. Уравнение B.4) может быть получено из уравнения A.4') делением его коэффициентов на "^49, что является квадратным корнем из коэффициента b этого уравнения. Описанная процедура имеет следующие два отличительных свойства: 1) коэффициент при Ъ в B.3) показывает, на какую величину следует умножить B.3), чтобы вычесть полученный результат из уравнения B.2); 2) выражения в правой части уравнений B.3) и B.4), помимо всего прочего, дают информацию, необходимую для составления следующей таблицы дисперсионного анализа: Сумма квадратов обусловленная свободным членом (определяется разностью между 2у2 и 2 (у —уJ) 5* обусловленная х при данном свободном члене (определяется разностью между 2(# —уJ и 2 (# — а — ЬхJ) 22 Эта таблица может быть использована также для расчета остаточной суммы квадратов (СК): 2*/2 — 52 — 22 = 9. Последовательность вычислений может быть представлена следующим схематическим образом (номер уравнения во всей цепочке преобразований остается неизменным): B.1) 4a + 6fc = 10, Разделим члены 2а+3& = 5, B.Г) B.2) 6а+58&=29. B.1) на УТ. 6а+ 586= 29. B.2) 13
Умножим B. Г) на 3 (коэффициент при 6 в этом уравнении) и вычтем его из B.2). B. Г) 2а + 36 =5, Разделим члены 2а + 36 = 5, B. Г) B.2') 496=14. B.2') на/49. 76 = 2. B.2") Поскольку известно, что значение коэффициента при а в B.2') равно нулю, рассчитывать его не нужно. В общем случае линейной парной регрессии, начав с системы B.5) B.6) по схеме Холецкого приходим к системе Ь = п-1'22у, B.5') 2[Z(x-x)(y--y)]. B.6') Все члены уравнения B.5') перед тем, как его вычли из уравнения B.6), были умножены на д-1/2 2х, т. е. на значение коэффициента при 6. При получении B.6) необходимо воспользоваться следующими соотношениями: n-1(ExJ = 2(x—x)\ B.7) Zxy-п-1 (Ех) Bу) = 2 (х-х) (у-у). B.8) Можно легко проверить, что элементы описанной выше таблицы дисперсионного анализа были рассчитаны правильно. Возведение в квадрат члена, расположенного в правой части B.5'), дает что можно трактовать как уменьшение суммы квадратов, обусловленное присутствием свободного члена. Возведение в квадрат члена, стоящего в правой части уравнения B.6'), приводит к [S (х—7) (у—у)]а = 2 (f/_ -J_2 {у_а_ЬхJу 2 (х-хJ где а и 6 определяются на основе B.5) и B.6). Подробности соответствующих алгебраических преобразований можно уточнить в любом курсе элементарной статистики. При описании схемы вычислений запись коэффициентов а и 6, а также знаки равенства для простоты изложения можно опустить. В дополнение к этому, как будет показано в следующем параграфе, полезно включить в рассмотрение дополнительную строку, в которой приводилась бы информация, необходимая для расчета остаточной суммы квадратов. 14
1.3. СХЕМАТИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ РЕШЕНИЯ СИСТЕМЫ Информация, содержащаяся в уравнениях B.3) и B.4), т. е. Bа+ 36 = 5, 1 адекватным образом может быть представлена в виде следующей формальной схемы: а Ь 2 3 | 5 7 I 2 Подобные схематические представления будут использоваться нами во всем последующем изложении. Таким образом, у нас имеется верхняя треугольная матрица (см. параграф 1.4), в которой опущен элемент, расположенный в нижнем левом углу. На это место удобно будет поставить значение квадратного корня из остаточной суммы квадратов. Так, для нашего примера получим: 2 3 5-4- Возвести в квадрат для получения суммы квадратов, «обусловленной свободным членом» 2ч- Возвести в квадрат для получения суммы квадратов, «обус- ловленной х при данном свободном члене». | 3 [ч- Возвести в квадрат для получения остаточной суммы квадратов. Данный набор чисел получен в результате применения описанной схемы к матрице а Ь т. е. п B*) B*/) а 4 F) 2* 2ху Bху) |2?| Ь 6 58 10 29 A0) B9) 1 C8) I (Расположенные ниже главной диагонали элементы заключены в скобки, поскольку в их записи нет необходимости. Они попросту дублируют значения, находящиеся на соответствующих им позициях выше главной диагонали.) J5
Пересчет верхних двух строк, как и раньше, приводит к 2 з @) 7 A0) B9) |38|ч-В дальнейшем будет заменено на C8-52-22)^. Продолжим расчеты и вычтем значение B,31 5) X 5+ @,7| 2) х 2 из последней строки. Для нас представляет интерес только последний ее элемент; первые же два элемента равны нулю. В результате 38 будет заменено на 38 — 52 — 22 -— 9. Вместо 9 запишем теперь квадратный корень из этого числа, что в итоге даст нам 2 з @) 7 @) @) |3| Упорядоченный таким образом массив чисел, в котором все элементы ниже главной диагонали равны нулю, называется верхней треугольной матрицей. Как уже отмечалось, в этом случае нет необходимости записывать элементы, лежащие ниже главной диагонали, или хранить их в памяти компьютера. 1.4. ХРАНЕНИЕ СИММЕТРИЧНЫХ ИЛИ ВЕРХНИХ ТРЕУГОЛЬНЫХ МАТРИЦ В настоящей книге предполагается, что в памяти компьютера должен храниться в виде упорядоченного массива чисел верхний треугольник любой симметричной или верхней треугольной матрицы. В случае когда, как в параграфе 1.3, эта матрица соответствует регрессионному уравнению со свободным членом, ее строки и столбцы будут нумероваться 0,1» •••* <7* где </ = р + 1. Предположим, что переменные 1, 2, ...,/? являются фактическими или потенциальными объясняющими переменными. Последняя переменная (переменная q) обычно принимается как зависимая переменная. Элементы матрицы, которые хранятся в памяти ЭВМ, расположены следующим образом: @,0) @,1) ... @,9) A,1) ... A,<7) (Я, Я) В параграфе 1.3 q = 2. 16
Потребности в машинной памяти будут минимальными, если эти элементы хранятся в виде одномерного массива. В этом случае порядок их расположения определяется так: 1 2 3 q(q+\)/2+2 Таким образом, элемент (/, /) имеет адрес / (/ + 1)/2 + i + 1. 1.5. АЛГОРИТМЫ РАЗЛОЖЕНИЯ МАТРИЦ В параграфах 1.1 — 1.3 был описан частный вариант алгоритма Хо- лецкого для решения системы нормальных уравнений, получаемой при использовании метода наименьших квадратов для парной регрессии. В последующем обсуждении этот алгоритм мы будем называть алгоритмом Холецкого полного разложения (АХПР). Поэтому алгоритму пересчет значений каждой строки массива данных завершается полностью до внесения каких-либо изменений в элементы последующих строк. К интерпретации вычислений из параграфа 1.3 теперь можно подойти следующим образом. Для матрицы 4 6 10 F) 58 29 A0) B9) 38 там фактически была найдена верхняя треугольная матрица Т, такая, что Т'Т = S. Это разложение, однако, может быть получено с помощью альтернативного алгоритма нахождения матрицы Т, который включает те же арифметические действия, что и АХПР, выполняемые в другом порядке. Этот альтернативный алгоритм в дальнейшем, когда мы познакомимся с его основными свойствами, будет назван алгоритм Холецкого последовательного разложения (АХСР) х. Итак, пусть Т = [*0, tl9 t2]. На первом шаге найдем такое ^0? #э для которого матрица S — столбце. Имеем: имеет нули в первой строке и первом Г^ОО ^00 ^01 ^00 ^021 Г/1'00 и т. д. 1 Здесь мы выбрали аббревиатуру АХСР (алгоритм Холецкого последовательного разложения), так как аббревиатура АХПР ранее использовалась для обозначения алгоритма Холецкого полного разложения. — Примеч. ред. 17
Тогда Цо = 4 дает t00 = 2, t00t01 = 6 дает t01 = 3, t00 t02 = 10 дает ?02=5. Таким образом, [2 3 5] = 4 6 6 9 10 15 10 15 25 Следовательно, 0 0 О" О О О 0 0 9 [0 0 3] = = Т Т\ где Т что и требовалось получить. Процедура исключения, описанная в параграфе 1.3, заключается в приведении матрицы S = Т'Т к виду Т = (T')~1S, что эквивалентно умножению Т'^1 на исходную матрицу. Матрица Т получена в результате разложения S по методу Холецкого, или по методу квадратного корня. Отметим также, что, обозначив через Sx ведущую подматрицу размерности 2x2 матрицы S, а через Т\ — ведущую подматрицу размерности 2x2 матрицы Т, получим г Альтернативные алгоритмы. В только что описанном методе вторая строка в матрице JJ (помеченная номером 1) изменяется в результате вычитания 3*6 = *oi*6 еще до формирования t\. Эта операция аналогична процедуре, использованной в параграфе 1.3. Что касается третьей 1 Матрица М1 меньшего размера называется ведущей подматрицей матрицы М, если (Afi)^ = Мц. Иногда такую матрицу называют главной. — Примеч. ред. 18
строки (помеченной номером 2), то здесь имеются различия. В параграфе 1.3 изменения в ней произошли (был вычтен вектор 5^о т 2'J) только после того, как был сформирован вектор '[. Теперь же порядок действий будет следующим: 1) формируется t'Q и вычитается (с соответствующим множителем) из строк 2 и 3; 2) формируется t[ и из строки 3 вычитается 2>i. Таким образом, последовательный характер этого алгоритма проявляется в том, что показатели третьей строки изменяются последовательно на двух этапах вычислений, еще до формирования г2. Доказательство того, что такой алгоритм всегда работоспособен, отложим на будущее. 1.6. РАСЧЕТ НА БАЗЕ МАТРИЦЫ ЦСКП Матрица ЦСКП представляет собой матрицу сумм квадратов и произведений, рассчитанных относительно средних. Она известна также как матрица центрированных (или скорректированных) сумм квадратов и произведений. Для случая, когда имеются только две переменные х и у, она выглядит следующим образом: р {x-xf Ъ(х-х)(у-^у) 1 1 [_2 (x-x)(y-jj) 2 (*/- yf J Заметим, что модель линейной парной регрессии (см. параграф 1.1) i = l, 2, ..., п может быть эквивалентно записана как У1~"у = а' +Ъ {Xi—~x)-\-eu * = 1, 2, ..., л, где о! --= а — у + Ьх. Если теперь в A.1) и A.2) мы заменим xt на х* = = Xi — х и yt на у* = yt — уу то а будет заменено на a', a b останется неизменным. Поскольку Ел:* = 2#* = 0, первое уравнение сведется к па' — 0, второе же будет выглядеть так: l±{vc-x)*]b = l (x—x){y-y). F.1) Отметим, что 2 (х — хJ и 2 (х — х) (у — у) представляют собой элементы первой строки матрицы ЦСКП. Величины dXXJ дху и ауу могут быть рассчитаны с помощью, обычных формул центрирования: бхх = 1> (х—jcJ = 2jc2—nx2y F.2) бху = 2(х—х)(у—у) = 2ху—пху. F.2') Аналогично вычисляется и дуу. Отметим здесь, что приведенные формулы следует применять с некоторой осторожностью; причину этого мы объясним в параграфе 1.7. 19
Если мы применим схему Холецкого (метод квадратного корня) к матрице ЦСКП, то получим А хх 6ху дху 6УУ °ху (дУУ дхх1 Для нашего примера 49 14 14 13 2 ] raj Элемент таблицы дисперсионного анализа, обусловленный свободным членом, должен рассчитываться теперь как ш/2; другие элементы определяются следующим образом: Сумма квадратов обусловленная х и свободным членом °ху остаточная &хх Лх Для регрессии более чем с одной объясняющей переменной, которые будем обозначать как хи *2, ..., со свободным членом большинство расчетов основаны на использовании матрицы ЦСКП, Прежде чем приступить к рассмотрению множественной регрессии (более чем с одной объясняющей переменной), обсудим особенности расчета значений дхх и дху. 1.7. МЕТОД, УСТОЙЧИВЫЙ К ВЛИЯНИЮ ПОГРЕШНОСТЕЙ ВЫЧИСЛЕНИЙ ПРИ ОПРЕДЕЛЕНИИ ЦЕНТРИРОВАННЫХ СУММ КВАДРАТОВ И ПРОИЗВЕДЕНИЙ Неосторожное использование формул центрирования {6.2) и F.2') может привести к значительным потерям в точности вычислений. Рассмотрим пример. Допустим, дхх = 2 (х — хJ рассчитывается для переменной, принимающей следующие три значения: 2001, 2002, 2003. Тогда 2х2= 12024014 и пх2 = 12024012. Для ЭВМ, в памяти которой результаты любых арифметических операций сохраняются в виде чисел, представленных семью значащими десятичными цифрами (или их эквивалентом в бинарной, восьмеричной или шестнадцатеричной системах исчисления), оба этих числа будут храниться в виде 1,202401 • 107 (возможно, некоторая неопределенность будет и в отношении последней единицы). Результат вычисления дхх по формуле F.2) окажется неточным тогда по всем значащим цифрам г. 1 В этом случае получится бхх — 0, тогда как в действительности бхх = 2.— Примеч. ред. 20
Очевидно, что данная проблема возникает в случае, когда первые цифры 2х2 и пх2 совпадают, т. е. когда эти числа почти равны. Первые h цифр 2а:2 и пх2 будут идентичными, если их разность составляет примерно 10-Л 2х2. Тогда дхх ~ 10-Л 2л;2 ~ 1СН* пх2, откуда 10л ~ пх2/ Таким образом, число потерянных десятичных цифр будет равно: A~21og10 —, G.1) где дх — \^п-1дхх. В нашем примере х = 2002, дх = 1^2/3, поэтому Л ~ 6,8 ~ 71. Решение сформулированной здесь проблемы заключается в подборе подходящей системы измерения, в которой значение х превосходило бы величину sx не более чем в 3—4 раза. Приемлемый способ такого решения может состоять в использовании значения первого наблюдения или первых нескольких наблюдений для определения рабочей средней d. Рассчитанные в этом случае значения будут равны 2(x-d) и l(x—d)*. Тогда *„= 2 (x-df-n-1 [2 {x-d)]\ G.2) Аналогичное выражение можно записать и для дХ1п и для любых других сумм произведений, включающих х. Препятствие использованию d — х состоит в том, что в этом случае потребуются два прохода по данным, на первом из которых рассчитывалась бы лс, а на втором оценивалась бы величина 2 (х — хJ. Однако можно предложить формулы, требующие лишь одного прохода, при которых на каждом этапе определяется средняя для просмотренного на нем массива наблюдений, а также соответствующие значения сумм квадратов и произведений, рассчитанные относительно текущих средних. _ k _ .«• Адаптивные формулы. Положим *<*>:=-&-1 ^ хг и^<*> = Л-12 Hi i=-- \ i = I в качестве средних для первых k взятых точек. Определим также 2 «= 1 ?%Л G.3) 1 Таким образом, в результате ошибок округления, обусловленных формой представления чисел в машинной памяти, погрешность в вычислениях возрастает в данном случае примерно в 107 раз. — Примеч. пер. 2J
и аналогично для sfj. Тогда можно показать, что G.4) Эти формулы в такой форме приводятся в [122]. Их точность выше, чем при применении G.2) и других аналогичных формул, за исключением случая, когда в G.2) удается использовать рабочую среднюю d, значение которой близко к величине истинной средней 1с. Если d близко к jc, то формула G.2) будет давать более высокую точность вычислений, поскольку при ее использовании совершается меньше арифметических операций. 1.8. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ — МАТРИЧНАЯ ФОРМУЛИРОВКА Пусть у является п х 1 вектором фактических значений, а X — /гх X (р + 1)-матрица, в строках которой представлены «наблюдения». Обозначим через b вектор параметров (p+l)xl, т. е. коэффициентов регресеия. Задача метода наименьших квадратов состоит в нахождении вектора Ь, минимизирующего сумму квадратов отклонений, е = у — — ХЬ, т. е. е'е = (у — ХЬ)'(у — ХЬ). Этот минимум достигается для вектора b (или векторов Ь, если он определен неединственным образом), который находится из решения системы нормальных уравнений X' ХЬ-Х'у, что будет доказано в параграфе 1.11. Для случая парной линейной регрессии из параграфа 1.1 (8.1) , У = Ли- , b=== Из уравнений (8.1) получаются A.1) и A.2). Если каждый элемент %i заменить на xt — х, a yt — на yt — t/, то система Х'ХЬ = Х'у тогда примет вид « о ire'ir о 1 O Z(x-xf\[b J [Z(x-X)(y-y) \' что эквивалентно записи, использованной в параграфе 1.6. 22
В более общем случае предположим, что модель регрессии имеет вид ei(i=l, 2, ... п), (8.2) где xi0 тождественно равно единице. Таким образом, у нас имеются п значений tjtwp объясняющих переменных хъ х2У ..., хр. В этой формулировке У = Уг Уп Д = 1 хп Xni . . . Xj p • • • х2р ... хпр (8.3) Все величины, необходимые для решения системы нормальных уравнений, можно получить, опустив последнюю строку из матрицы сумм квадратов и произведений (СКП): Ly х у у j Расчеты на базе матрицы ЦСКП. Более предпочтительна следующая запись множественной регрессии: (8.4) р где b'0 = b0—y+ 2 biXj, 1 Заменим теперь X на и у — на у, где ¦V — Х1 ... Xip—; Ух—У Уг—У -У - Тогда система нормальных уравнений может быть записана как О п 0 ... (Г О • Х'Х О ¦*;¦ откуда nb'0=0 и Х'ХЬ = Х'у, (8.5) (8-6) 23
где Ь = Отметим, что коэффициенты и правую часть системы нормальных уравнений (8.6) можно получить из матрицы ЦСКП, опустив последнюю строку, т. е. [X, уГ [X, у] = [Х'* Х'У1. (8.7) Ly х у у J Коэффициент Ьо в регрессии, записанной в виде (8.2), можно рассчиг тать в конце по формуле (8.8) Матрица ЦСКП представляет собой удобную и естественную базу для осуществления различных вычислений в рамках теории систем многомерных нормальных уравнений 1. Такие вычисления хорошо интерпретируются и с позиций множественной регрессии. Модельная матрица. Было бы удобно дать матрице X какое-нибудь название. Термин план-матрица подвергался критике [125]. Воспользовавшись предположением О. Кемпторна, назовем X модельной матрицей. 1.9. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ. ПРИМЕР Имеются четыре набора значений для каждой из переменных хъ х2 и у. Справа от них приводятся значения хх — хъ х2 — х2 и у — у: х% —2 —1 2 7 Средняя 1,5 х2 0 2 5 3 2,5 у —3 1 2 6 1,5 Хх—хх —3,5 —2,5 0,5 5,5 Х2~Х2 —2,5 —0,5 2,5 0,5 у —у -4,5 —0,5 0,5 4,5 1 Как следует из предыдущего параграфа, расчеты, основанные на матрице ЦСКП, будут действительно точнее, чем расчеты, основанные на матрице СКП. Зато во втором случае, в отличие от первого, проще находить дисперсию свободного члена регрессии, дисперсию прогноза и т. п. — Примеч. ред. 24
Используя обозначения из параграфа 1.8, найдем для этого примера матрицу ЦСКП: [X, у]' [X, у] = -ьх ь% 49 14 42 . 13 15 Г . . 41 J Вместо элементов, расположенных ниже главной диагонали, значения которых совпадают с величиной соответствующих им элементов, стоящих выше диагонали, проставлены точки. Воспользовавшись полной формой (см. параграф 1.5) схемы исключения, получаем: 49 14 . 13 42 15 Разделим строку 1 на /49 7 2 . 13 15 7 0. Вычтем 2х (строка 1) из строки 2 Разделим строку 2 на V9" 7 2 0 3 о 1411 Вычтем F X (строка 1) -Н X (строка 2)) из строки 3 ^ Разделим строку 3 7 2 1 V4 0 0 |4| Таким образом, система нормальных уравнений 49 141IA1 Г42] ¦и 13J|aJ L is J сводится к системе 1озШ'] = [|} О 3 0 0 |2| (9.1) Отсюда получаем b.z = 1/3; 76, + 2b2 = 6 и bt — 16/21. Свободный член находится из формулы (8.8): bo=y—b1xl—й2х, = 3—Aб/21)х 1,5 — A/3) Х2,5=—10/21. 25
Поскольку расчеты базировались на матрице ЦСКП, элемент таблицы дисперсионного анализа, обусловленный присутствием свободного члена, в верхнем треугольном массиве чисел не представлен. Его величина должна определяться так: пу2 — 4-1,52 = 9. Элементы остальной части этой таблицы берутся из последнего столбца верхней треугольной матрицы. Таким образом, получаем: 7 2 6^-Возвести в квадрат для получения СК, обусловленной хх при данном свободном члене. О 3 1-«-Возвести в квадрат для получения СК, обусловленной х2 при данном хх и свободном члене. О 0 2-<-Возвести в квадрат для получения остаточной СК. (СК — сумма квадратов.) Эти значения являются элементами таблицы дисперсионного анализа, построенной на основе последовательной схемы (см. параграф 2.1). Сравнение с использованием матрицы СКП. Для нашего примера" матрица СКП [X, у]' [X, yl будет равна: 4 6 58 10 29 38 6 51 30 |50| При использовании метода разложения Холецкого эта матрица преобразуется следующим образом: 2 3 5 0 7 2 0 0 3 3-<-Возвести в квадрат для получения СК, обусловленной свободным членом. 6<-Возвести в квадрат для получения СК, обусловленной хх при данном свободном члене. 1 «-Возвести в квадрат для получения СК, обусловленной х2 при данном свободном члене и Х\. 0 0 0 |2|-<-Возвести в квадрат для получения остаточной СК. Система нормальных уравнений записывается теперь так: 2 0 0 .3 7 0 5" 2 3 "V h и Р Единственное отличие данной системы от (9.1), базирующейся на матрице ЦСКП, заключается в том, что теперь у нас имеется первое уравнение (которое будет использовано нами последним), позволяющее Определить Ьо: 260 + 3^+5^ = 3. 26
В общем случае оно имеет вид Vnbo+(Vn х^Ьг Если разделить все его члены на ТЛг, то получим уравнение, идентичное (8.8) из параграфа 1.8. 1.10. РАСЧЕТЫ НА БАЗЕ КОРРЕЛЯЦИОННОЙ МАТРИЦЫ Регрессионная модель может быть записана также в виде 2 ]^ т.е. (юл) 2 A0.2) где ft* связано с определенным ранее ft; соотношением Нетрудно видеть, что минимизация е* эквивалентна минимизации et. Показатели Ь* известны как стандартизированные коэффициенты регрессии, иногда их называют бета-коэффициентами. Матрица ЦСКП для модели A0.2) как раз и представляет собой матрицу сумм квадратов и произведений для хц и г/*, т. е. корреляционную матрицу. Достоинство работы с корреляционной матрицей состоит в том, что теперь оценки метода наименьших квадратов и их характеристики не зависят от масштаба измерения исходных данных. Различные величины, получаемые в ходе вычислений, которые мы собираемся использовать в дальнейшем, при этом довольно просто интерпретируются 1. Элементы rtj корреляционной матрицы легко получаются из элементов 6ij матрицы ЦСКП на основе формулы ro= dij/Vdadjj. Таким образом, нет необходимости вычислять значения x*j и у*. 1 Стандартная интерпретация коэффициента bj в регрессии (8.2) такова: bj показывает, на какую величину изменится у, если фактор Xj изменится на 1 его измерения при условии, что остальные факторы остаются без изменения. Таким образом, bj имеет размерность отношения: (размерность у)/ (размерность xj). В этом смысле по bif ..., bp трудно судить о влиянии факторов хъ ..., хр на у, поскольку они могут быть измерены в разных единицах и, в частности, могут быть разномасштабны. Бета-коэффициенты 6/ лишены этого недостатка: с их помощью исследование степени влияния факторов более оправдано. — Примеч. ред. 27
Для данных из параграфа 1.9 корреляционная матрица, рассчитанная с точностью до трех значащих цифр, выглядит так: = УЩ49~ 0,915, ~ 1,776. Применяя к ней схему исключения, получаем: 1,0 0,555 0 0,832 0,937ч-Возвести в квадрат для получения доли в ОСК, которая обусловлена Х\. 0,156ч-Возвести в квадрат для получения доли в ОСК, бй р у обусловленной х2 при данном Х\. В "Возвести в квадрат для получения остаточной О О |0, О\ 2\*4— nnnu OCR. ОСК — общая сумма квадратов (относительно средней). Нормальные уравнения таким образом, имеют вид 1 0,5551 Г*П Г0, 0 0,832 J I fe* J [0, _ -937 jo 0,832.11 6* J~ [о откуда находим Ь\ =0,188 (раньше Ъ% ~ 0,33), Ь* = 0,833 (раньше Ьх ~ 0,76). Построенная по последовательной схеме дисперсионная таблица имеет следующий вид: Сумма квадратов обусловленная свободным членом пу2 = 9 обусловленная *, (при данном свободном о 9372 х <*иУ = 36 члене) обусловленная х2 при данных свободном чле- о 1562х<*ии=1 не и Х\ Остаточная сумма квадратов 0,3122 хдуу = 4 1.11*. ТЕОРИЯ: НОРМАЛЬНЫЕ УРАВНЕНИЯ Вывод нормальных уравнений здесь будет основываться на использовании ортогонализации Грама — Шмидта для нахождения ортогонального базиса в евклидовом векторном пространстве г. Ортогонализация Грама — Шмидта, ^Подпространство п-мерного пространства Еп, натянутое на столбцы"х0, xlf ..., хр матрицы X, бу- 1 Проще получить нормальные уравнения, приравнивая частные производные суммы квадратов е'е по bj к нулю. — Примеч. ред. 28
дем называть пространством столбцов матрицы X. Предположим вначале, что х0, хь ..., хр линейно-независимы (это ограничение впоследствии будет снято). Тогда найдется ортогональная последовательность ненулевых векторов v0, vx, ..., vp, которая порождает то же подпространство Еп, что и последовательность х0, xlt ..., хр. Векторы v0, ...,v7, будем строить по формуле vj = x}— 2 си^= 2 huxi9 /=0, 1, ..., р, A1.1) где А#=1, ^и=—си для i</. Для доказательства предположим, что ортогональные ненулевые векторы v0, vb ..., vfc_,, вид которых определяется из A1.1), уже построены. Следовательно, v0, vT, ..., vfe_x натянуты на то же подпространство, что и х0, хь ..., Xfcel. Способ, который будет сейчас применен нами для построения вектора vft, определяемого выражением A1.1), и такого, что v/vfe = 0 для / <; k называется ортогонализацией Грама — Шмидта. А именно положим Таким образом, \k имеет вид, определяемый A1.1). Кроме того, \к так как в противном случае хк представлял бы собой линейную комбинацию v0, у1э ..., vft_x и, следовательно, х0, х1э .„, xj-.lf что противо- речит предположению о линейной независимости х0, х1э .., хк~г. Доказательство завершается проверкой того, что \]\к = 0 для / <. к. Если векторы Х/,/^0,1,..., р, не являются линейно-независимыми, произойдет лишь одно изменение, состоящее в том, что в A1.2) у/ могут принимать и нулевые значения. Такой нулевой вектор не включается в ортогональный базис, а следующий ненулевой вектор v^ становится на его место. В результате получаем ортогональный базис v0, vlf ..., V/, состоящий из / < р элементов. Ортогонализация Грама — Шмидта в матричной форме. Пусть V = ^ Ivo». v*f_i#M v*l» г^е ' < Р- Выше было доказано, что столбцы матриц X и V порождают одно и то же подпространство. Таким образом, получаем X = VG и _V = ХИТ при соответствующем подборе матриц G и Н. Отметим, что хк, в силу A1.2J, является линейной комбинацией 29
Vj только для / = 0, 1, ..., k. Следовательно, G представляет собой верхнюю треугольную матрицу. Проекция на пространство столбцов матрицы X. Пустьу — любой вектор в Еп и пусть У = jL I ~~ I Vj= V d, где d имеет, элементы dj = /<k\ v; v;- / = У'Ъ/У/Ъ, (П.З) -XHd = Hl>, гдеТ)=НA. A1.4) Тогда из A1.3) следует так что у' V = y' V. Отсюда получаем "у'Х=у' VG = y' VG = y'X. A1.5). Нормальные уравнения. Из A1.4) имеем у = X Ь. Поэтому, как следует из A1.5), X'XtT-X'"^-^'"^, A1.6) что доказывает существование вектора Ь, удовлетворяющего системе нормальных уравнений A1.6). Запишем теперь ~ё = у — ХЬ и найдем IIе И = ||е||2 = У (е'е). Сейчас будет показано, что ||е||2 обраишется в минимум, если b удовлетворяет системе нормальных уравнений X' ХЬ= = Х'у- Предположим, b такое, что X' X Ь= X' у, т. е. X' (у—Xb) = 0. Запишем: ё = у—ХЬ = у—X ? + 5ГЬ~ — X Б. Тогда, поскольку Х'(у~хБ) = 0, получаем Цё^Иу—X? ||2+Ц X?-Xb|f > Как видим, последнее неравенство обращается в равенство тогда и толь- ко тогда, когда ХЬ = ХЬГ Отсюда также следует, что Х'ХЬ = Х'у. Алгоритм для определения b может основываться на уравнениях A1.3) и A1.4). Однако на практике исследователи обычно вместо непосредственного использования этих уравнений предпочитают применять 30
модифицированный алгоритм Грама — Шмидта (МГШ), при котором описанные операции осуществляются в другом порядке. Этот алгоритм будет обсуждаться в гл. 4. Существование разложения Холецкого Х'Х. Доказательство существования верхней треугольной матрицы Тр, такой, что ТГРТР = Х'Х, следует из представления матрицы X в виде X = VG, где столбцы матрицы V взаимно ортогональны, a G есть верхняя треугольная матрица. Тогда X'X=G'V' VG=GDG-(GD/2)'GD1/2, где D = V'V и D1/2 — диагональные матрицы, причем диагональные элементы D1/2 представляют собой квадратные корни из соответствующих элементов D1. 1.12*. ТЕОРИЯ РАЗЛОЖЕНИЯ ХОЛЕЦКОГО Существование разложения Холецкого — второе доказательство. Пусть X — действительная матрица и8= Х'Х. Здесь и в следующей главе обозначаем Х = [Х, у] или Х = [Х, yl (эти обозначения были введены в параграфе 1.8). Будем считать, что столбцы матрицы X и, следовательно, строки и столбы матрицы S, пронумерованы от 0 до q. Алгоритм из параграфа 1.5 определяет последовательно для k ~ — 0,1, ..., матрицы S(ft) с нулями в строках и столбцах 0,1,..., k по формуле Таким образом, можно записать: 01 0 с S Э(Ь — П = , строки с 0 до k— 1 Sr7~ Sb ib \\ 0 Доказательство существования разложениях Холецкого будем вести по методу индукции. Предположим, что S<fc-j> является положительно полуопределенной матрицей, такой, что c'S(ft>_1)C >0 для всякого действительного вектора с. Докажем тогда, что: 1) пусть s<*-l> > 0. Если sj&-1)==0, TO 1 Нетрудно проверить, что матрица GD1/2 является верхней треугольной, поэтому можно положить Тр = GD1/2. — Примеч. пер. 31
s^(A,_1)=0 (см. доказательство, приведенное ниже); 2) пусть s{kkk~ 1)>0. Построй^ th путем деления всех элементов столбца k матрицы S(k- i) на ^fefe==(s(^~1)V/2. В остальных случаях полагаем th = O- Тогда матрица S(^) =S(^_i) — ^fe ^^ имеет нули в строках и.столбцах с номера 0 по k и c'S^c^O для каждого действительного вектора с (доказательство также приведено ниже). Приступая к доказательству, заметим сначала, что с' Sc представляет собой сумму квадратов элементов с'Х' и, следовательно, никогда не может быть меньше нуля. Для доказательства пункта 1 положим с' = [0, ..., О, ск, с'ъ]. Тогда очевидно, что _i) -t-clS(*_i)C2. A2.2) Из предположения, что с2 = 0, немедленно следует, что s^"l)^0. Предположим теперь, что з**)=0, тогда s^(fe_.i> ^= 0 допускает выбор с2, такого, что с'2 $k(k-\) ФО. Отсюда получаем Ск = BC9 1k(k-\ ))~1 ( — 1 —"С2 S(a- 1) С2), а значит, c'S<fc_1)C = — 1, что противоречит сформулированному выше условию. Для доказательства пункта 2 достаточно показать, что с' S(ft)C > 0 для любого действительного вектора с. Предположим противное, т. е. что с7 S(ft)c < 0 для некоторого вектора с. Тогда из A2.1) следует Если tkk = 0, то в соответствии с пунктом 1 th = 0 и c'S^-j) с < 0, что снова противоречит сформулированному выше замечанию. Пусть 0 Заметим, что выбор ск не влияет на с' S(fe) с. Поэтому, выбирая получим c'^fe —0, и следовательно, с' X('*_i) Х(л— 1) с^с' S(jfe) c<0, что опять противоречит сформулированному выше условию. 32
Третье доказательство можно найти в параграфе 3.3. Кроме того, любой из рассматриваемых в гл. 4 алгоритмов ортогонального приведения матрицы X к верхней треугольной форме может быть использован в качестве основы для доказательства существования разложения Хо- лецкого Х'Х. Свойства разложения Холецкого. Пусть S = Т'Т, где Т — верхняя треугольная матрица, и предположим, что Ls;2 sj' L о tJ Тогда, записав Т'Т = S в терминах подматриц, имеем Thfu=rSu, A2.3) Ti.f^Stt, A2.4) ва^^Ти+ТиТя. A2.5) Теперь рассмотрим Г* S '.У'Х y'yj L0' Тогда A2.3) означает, что "t;f р = Х'Х, а A2.4) — что f'piy = Х'~у. Следовательно, предполагая, что Тр — невырожденная матрица с учетом A2.3), получим Тр)-1Ту^у'Х(Х'Х)-{Ту. A2.6) Из A2.5) следует т. е. с учетом A2.6) e^-y'y-tH^yy-P'XtX'Xj-'Xy. A2.7) Последнее значение равно остаточной сумме квадратов в методе наименьших квадратов, т. е. (у — ХЬ)' (у — ХЬ). Если за начальную точку отсчета принято среднее каждого столбца, т. е. вместо матрицы [X, у] используется матрица [X, у], то уравнение A2.7) должно быть заменено на ^=У'у-у'Х(Х'Х)-1Х'у A2.8) (см. упражнение 6 в конце главы). 2 Зак. 1078 33
1.13. ДИСПЕРСИЯ И КОВАРИАЦИЯ ОЦЕНЕННЫХ КОЭФФИЦИЕНТОВ РЕГРЕССИИ Детали расчетов будут рассмотрены в гл. 2. Здесь же мы остановимся на основных моментах и обозначениях. Прежде всего хотелось бы подчеркнуть отличие теоретической модели y=XJ3+e, A3.1) где р — вектор неизвестных параметров, от подогнанной модели y-Xb+i, A3.2) где b — оценка р, полученная с помощью метода наименьших квадратов. Относительно элементов elf e2, ..., гп вектора е предполагается, что они независимы и имеют нормальное распределение со средней 0 и дисперсией а2, т. е. а2, если i = /, О, если i Ф /. Тоже справедливой для cov (yt,yj). В матрице дисперсий-ковариаций var (у) элемент, соответствующий (*, /), равен cov (//*, у})\ таким образом, можно записать: var (у) = o2ln. Используя соотношение var(Ay) = Avar(y)A/ A3.3) и положив А = (X'XJ-^X', найдем матрицу дисперсий-ковариаций для вектора Ь, определяемого системой нормальных уравнений Х'ХЬ = = Х'у: var(b) = (X/X)-1a2. A3.4) Здесь предполагается, что матрица X имеет полный ранг по столбцам, поэтому матрица Х7Х невырождена. Таким образом, получаем следующую таблицу дисперсий-ковариаций: Ь9 ... b р Представленные здесь значения являются элементами матрицы Теперь предположим, что регрессионное уравнение включает свободный член, поэтому первый столбец в X состоит из единиц. Тогда нормальные уравнения могут быть альтернативным образом переписаны в 34
виде X'Xb = Х'у, где для измерения показателей каждого столбца матрицы [X, у] используется шкала, на которой за начальную точку отсчета принято значение средней данного столбца. Последнее матричное уравнение может быть заменено на Х'ХЬ-Х'у, A3.5) где у заменен на у. Действительно, /-й элемент Х'у отличается от /-го элемента Х'у на величину у х (сумма элементов /-го столбца матрицы Х) = */ХО. Поэтому мы можем заменить вектор у, имеющий коррелирующие элементы, на у, элементы которого уже не коррелируют. Из уравнения A3.5) теперь не трудно получить матрицу дисперсий-ковариаций для Ь: var(b)-(X'X)-1(T2. Таким образом, таблицу дисперсий-ковариаций можно записать в виде >\ Представленные здесь значения являются элементами матрицы (Х'Х)!2 Из сравнения этой таблицы с таблицей, полученной на базе уравнения A3.4), становится очевидным, что матрица (Х'Х)-1 может быть найдена вычеркиванием первой строки и столбца из (Х'Х)". Данное утверждение можно доказать и непосредственным образом. 1.14. КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ Используя обозначения из предыдущих параграфов, запишем: t\y= У' У -У' * (Х'Х)-1 Х'у, A4.1) что представляет собой один из вариантов формулы остаточной суммы квадратов (ОСК) для случая, когда у регрессируется на столбцы матрицы X, в которой первый столбец состоит из единиц. Определение матрицы X, в которой столбцов на единицу меньше, чем в X, и вектора у приведено в параграфе 1.8; при этом значения в каждом столбце представляют собой величины отклонений от средней. Для доказательства A4.1) см. упражнение 6 в конце данной главы. Заметим, что У У ~~дуу = общая сумма квадратов отклонений (ОБСК) относительно средней; у'Х (Х'Х)~хХ'у —сумма квадратов (СК) регрессии. 2* 35
Тогда коэффициент детерминации определяется как квадрат коэффициента множественной корреляции и вычисляется как R'y(\...P) = (СК регрессии)/ОСК. Он может рассматриваться как доля общей суммы квадратов, которая объясняется регрессией г. Тогда уравнение A4.1) может быть записано в виде ОСК-ОБСК—СК регрессии = ОБСК-A—/?;A...Р)). Таким образом, Оценку силы рассматриваемой взаимосвязи лучше, однако, определять на основе доли объясняемой средней суммы квадратов. Основанием для такого утверждения служит интерпретация средних сумм квадратов в качестве оценок дисперсии. Если в матрице X имеется п строк, средняя сумма квадратов для у равна (п — I) дууу в то время как остаточный средний квадрат равен (п — р — I)" tyy. Таким образом, доля объясняемой ОБСК представляет собой скорректированную статистику R2: Ку(\ .p)=^i — =1 "(I Ку{\ ..р)), (n~\)-1syy п—р—\ которую мы называем скорректированным коэффициентом детерминации 2. 1.15. УПРАЖНЕНИЯ 1. Рассмотрим следующий набор значений: *1 Х2 У О 1 О 5 3 5 0 4 7 5 6 8 Постройте: а) матрицу СКП; б) матрицу ЦСКП; в) корреляционную матрицу. Для каждой из этих матриц сформируйте разложение Холецкого. В каждом случае проводите вычисления, необходимые для определения коэффициентов регрессии у на хг и х2 (со свободным членом). 1 Критика интерпретации R2 как доли объясняемой дисперсии зависимой переменной в регрессии изложена в работе [236]. — Примеч. ред. 2 Скорректированный R2 имеет меньшее смещение по сравнению с обычным коэффициентом детерминации особенно в условиях малой выборки, т. е. когда п — р — 1 мало. — Примеч. ред. 36
2. Рассмотрим следующий набор значений: хх х2 х2 у — 10 10 3 0 10 2 _2 —2 —2 — 2—1 1 1 -1 1 —1 —1 3 3 13 2 2 2 4 _2 —1 —1 —2 2 113 Легко подсчитать, что матрица ЦСКП [ X, уП X, у) будет равна: Г36 12 6 18" . 20 10 22 • • 14 20 . . . 40 Используйте схему исключения, приведенную в параграфе 1.9, для определения верхней треугольной матрицы Т, такой, что Т'Т = S. Выпишите для каждой переменной компоненты таблицы дисперсионного анализа. Определите коэффициенты регрессии. 3. Расчет регрессии у на хх и х2 проведен на основе корреляционной матрицы, определенной в параграфе 1.10. Покажите, что при использовании обозначений из параграфа 1.10 уравнение регрессии может быть записано в виде где ГУ\ Запишите аналогичную формулу для Ь\. 4. (Продолжение упражнения 3). Как и в параграфе 1.10, таблица дисперсионного анализа заполняется компонентами общей суммы квадратов относительно средней, объясняемой введением каждой новой переменной. Покажите, что доля, объясняемая хг равна г\у, в то время как доля, объясняемая введением *2, составляет A —Гу\)Гд2.\. Как изменятся эти показатели, если в качестве первой переменной взять дг2, а в качестве второй — х{? (Замечание. В гл. 3 ryl 2 будет интерпретироваться как частный коэффициент корреляции между у и хх при постоянном б. Пусть [X, у] и [X, у] определяются, как в^ параграфе 1.8, и пусть Т является верхней треугольной матрицей, такой, что Т'Т = [X, у]' [X, у]. Покажите, что верхняя треугольная матрица Т, такая, что Т'Т —[X, у]' [X, у], может быть получена исключением первой строки и столбца из Т. 37
6. (Продолжение упражнения 5). Пусть, как и в параграфе 1.8, Ь= .° представляет собой вектор коэффициентов регрессии, определяемых уравнениями метода наименьших квадратов. Покажите, что где 1 —единичный вектор размерности п х 1 (см. (8.4) и (8.8)). Выведите отсюда, что у — ХЬ = у — ХЬ, и, используя (8.6), покажите, что остаточная сумма квадратов может быть записана как у'у — у'X (Х'Х)—1 Х'у. 7. Пусть матрица S представлена в виде S = ТТ, где Т — верхняя треугольная матрица. Покажите тогда (используя подстрочный индекс 0 для обозначения первой строки и столбца), что где для i > 0 *"""""/ = о U) i — l \ ffj ~ I S,'j ^ tutlj] tjl1 , j > 1 . (Предполагается, что /^ не равно нулю.) Если мы потребуем, чтобы /ц > 0, то матрица Т единственна. Эти формулы описывают АХПР (см. параграф 1.5). 8. Запишем X — [х0, xt xg\. Пусть \k = [х0, хг, ..., xk]. Пусть ТЛ — ведущая подматрица равномерности (k-^верхней треугольной матрицы Т, для которой Т'Т = X' X. Пусть Р^ = Х^ (Х^Х^)—1 Х^' (предполагаем, что Х^Х^ имеет обратную матрицу). Покажите, что: в) tlk--x'k (I — -Pfc-i) х^ и представляет собой сумму квадратов элементов вектора (I — РЛ_,) xft; г) tlk = 0 тогда и только тогда, когда xk = f*k-i xk- Выведите, что tkk = 0 тогдг и только тогда, когда х^ представляет собой линейную комбинацию предыдущих столбцов матрицы X. (Замечание. х^-^Х^_1С влечет P^-iX^ — x^, наоборот, Xh = Vh-ixh может быть записано как х^Х^с, где с (Х^_ j Х^-!)-1 Х^_ j х^.) 9. (Продолжение упражнения 8). Пусть 38 Q i. . I Л ibk
Докажите, что, если Т*-1 = Т/г—1, то Tk — Jk *> что имеет место при следующих условиях: а) tkk = t^\ б) 7*=— Tk~]lhtkk. Покажите тогда, то если в матрице Т ни один диагональный элемент не равен нулю, то матрица Т-1 всегда существует. Приведите схему для расчета матрицы Т-, основанную на а) и б) (см. также параграф 2.3). 10. (Продолжение упражнений 8 и 9). Покажите, что а) tk = T&—iSk, где s/^ -= Х/г— 1 х^; б) 'l* = sAfc~~t* *ь» ГДе Sfcfe^XfeXfe- Упражнение 8 г) означает, что если один из столбцов матрицы Хй_х не является линейной комбинацией предыдущих столбцов и Jh-i представляет собой верхнюю треугольную матрицу, такую, что T^—iT^^j = X*_i Xft_x, то 1ц ф 0 (/ = 1,2, ..., k—1) и матрица Tfe_j существует. Покажите, что соотношения а) и б) определяют матрицу Т^, такую, что T^Tft= X^X^. Предполагая, что среди столбцов матрицы X нет линейно зависимых, докажите, что всегда возможно определить верхнюю треугольную матрицу Т, такую, что Т'Т = Х'Х. (Следовательно, в дополнение к АХПР и АХСР, существует третий метод построения матрицы Т). 11. Пусть S — действительная, симметричная, положительно—определенная матрица, и — ведущая подматрица размерности (k + l)-(&+ 1). (Это предположение аналогично предположению S = X' X для некоторой матрицы X в упражнениях 8—10.) Модифицируя рассуждения из упражнения 9, докажите существование матрицы Т, такой, что Т'Т = S. (Если s^k — Ш& <^ 0 с t^ = T^Zisfe, то при соответствующем подбореЪ получим h' Sfth < 0. Возьмите h = (SiT— l sft, hk) и т. д.) 12. Докажите, что S является положительно-определенной, симметричной матрицей тогда и только тогда, когда для некоторой матрицы X она может быть записана в виде Х'Х. 13. Предположим, что у = ХЬ + е, где b выбрано так, чтобы минимизиро- вать е'е. Докажите, что: а) Х'е = 0; б) у'е = 0. 14. Пусть X* —матрица размерности п х Ц, такая, что Х*'Х* = А2, где Д — диагональная матрица. Пусть X = X* U, где U — верхняя треугольная матрица. Покажите, что верхняя треугольная матрица, которая получается при разложении Холецкого матрицы Х; X, представляет собой, с точностью до изменения знака всех элементов в одной или нескольких строках, AU. Этим свойством можно воспользоваться при генерировании матриц X, таких, что И представляет собой разложение Холецкого Х'Х.
Глава 2 РАСЧЕТ РЕГРЕССИИ. Часть II В этой главе обсуждаются вопросы, связанные с расчетом некоторых характеристик, сопутствующих вычислению коэффициентов регрессии. Здесь будут рассмотрены также следующие проблемы: выбор объясняющих переменных в регрессии, включение в компьютерные программы средств контроля, эффект наличия линейной или близкой к линейной связи между объясняющими переменными, альтернативные алгоритмы решения системы нормальных уравнений, взвешенный метод наименьших квадратов. 2.1. РЕГРЕССИЯ НА ПЕРВЫЕ к ОБЪЯСНЯЮЩИЕ ПЕРЕМЕННЫЕ Обозначим вектор-столбцы матрицы X через х0, xlt ..., хр. Пусть X* = fx0, xi> •••» х*1 — матрица, составленная из первых k объясняющих переменных. Система нормальных уравнений регрессии у на!сЛ тогда будет иметь следующий вид: х;хЛБ*° = х;у. A.1) Как обычно, если все элементы х0 равны единице, то мы можем заменить ХЛ первыми k столбцами матрицы X, где значения в каждом столбце представляют собой отклонения столбца от своей средней. Первый эле* мент Ъ% тогда опускается. Матрица Х*ХЛ состоит из первых k строк и столбцов матрицы Х'Х, а Х*у — из первых k элементов вектора Х'у. Следовательно, в процессе приведения матриц 1Х[Х,_Х"'у| и [X, у]'[X, у] к верхней треугольной форме матрица lX*Xft, Х*у] приводится к соответствующей верхней треугольной форме. А именно [Х'Х X'yl 1УХ y'yj л/» приведет к 21 О' 40
Система нормальных уравнений A.1) сводится таким образом к Т*Ь2 = Г,(Л). A.2) Решение уравнений A.1) для любого k находится из решения соответствующей системы уравнений с верхней треугольной матрицей Тк. Последовательное рассмотрение элементов таблицы дисперсионного анализа. Мы можем теперь обосновать порядок формирования клеток таблицы дисперсионного анализа, приведенной в параграфе 1.9 и в следующих за ним. Как и при выводе уравнения A2.7) в гл. 1, заменив X на Xft, можно показать, что остаточная сумма квадратов в регрессии у на столбцы матрицы Xk будет равна: У' У— У' Xfe (Х^Х*)^* у- у' у — 1у(к) Tyik). В регрессии на столбцы матрицы ХЛ+1 вектор ty (ft) должен быть заменен на ty(k-j-i)- Эти Два вектора идентичны, если не учитывать того факта, что ty (ь+1) имеет дополнительный элемент tk+lty. Таким образом, остаточная сумма квадратов при включении в регрессию хк+1 в качестве дополнительной объясняющей переменной уменьшается на величину fjH-i.y. Сказанное объясняет, почему мы обозначаем /|+1> у в качестве суммы квадратов, обусловленной введением л:Л+1 при данных лгг, лт2, ..., хк. Использование в качестве зависимой переменной другой переменной. Аналогичным образом находится решение системы нормальных уравнений Х'кХкЪдЛк) = Х'кхя, q>k A.3) при исследовании зависимости объясняющей переменной xq от столбцов матрицы Хь. Для этого выберем из матрицы Т ту же, что и раньше подматрицу ТА, а также вектор—столбец tq (ft), состоящий из элементов с 0 по k вектор-столбца q матрицы Т. Нормальные уравнения A.3) сводятся тогда к треугольной системе тл bqAh) = tqik). A.4) Особый интерес представляет для нас случай, когда q — k-\-1. Если в уравнений A2.7) из гл. 1 заменить X на ХЛ, а у — на xft+1, то получим Xfe (X^ Xk)~lX'kXk+l, A.5) что представляет собой остаточную сумму квадратов в регрессии ft+, на столбцы матрицы Хк. Предположим; что первый столбец матрицы, X состоит из единиц. Тогда альтернативной записью A.5) будет tl-i- \,k+1 = *k +1 xft+1 — xi+1 Xk (X'k Хь)-1 X'k xkj.v A.6) 41
Обозначения взяты в основном из параграфа 1.8. Данный результат получен из упражнения 6 гл. 1. Далее на основе определения R2 (см. параграф 1.14) находим: tk 2 Отметим, что элемент dft+i, ь-н расположен в позиции (& + 1, & + 1) матрицы Т'Т (см. упражнение 4 гл. 1), и, следовательно, Л+1 1= 1 Таким образом, 2.2. СТАНДАРТНЫЕ ОШИБКИ КОЭФФИЦИЕНТОВ РЕГРЕССИИ В этом параграфе будут приведены расчеты для примера из параграфа 1.9. Оцененная матрица дисперсий-ковариаций для вектора оценки b = A6/21, 1/3)' равна (Х'Х')**2, где а2заменена на ее оценку s2. Диагональный элемент последней матрицы представляет собой оценку дисперсии bt: (b) где SE — стандартная ошибка (Standard Error). Оценивание а2. Несмещенная оценка а2 равна: s2 =(п — р— I) х остаточная сумма квадратов. Остаточную сумму квадратов наиболее просто получить как fyy>y где tyy представляет собой последний диагональный элемент разложения Холецкого матриц [X, уТ [X, у] или [X, у]' [X, у]. Таким образом, в примере из параграфа 1.9 п — р — 1=4 — 3=1 и s2 = 22 = 4. Оцененная матрица дисперсий-ковариаций. 9 ИГхЧ 52/441-56/441 I 14 13 I [- 56/441 196/441 J Таким образом, дисперсии оценок метода наименьших квадратов равны: var (ft,) = 52/441, var(fc2) =¦ 196/441, cov (bu b2) = — 56/441. Стандартная ошибка bx как было ранее отмечено, представляет собой корень квадратный из var F5), аналогично определяется и SE (ft2). Значение var (b0) может быть рассчитано как var (у — Ьх хх — Ь» х2) ---~- var (у) -i x\ var (bv) + x\ var (b2) + 4- 2хгх2 cov (bx, b2). 42
Средняя у не коррелирует с Ьл и Ь2. Значение Ьо представляет собой ожидаемое значение у при хг -— х2 = 0, поэтому var (b0) лучше рассчитывать с помощью формулы дисперсии теоретического значения, приведенной в параграфе 2.4. Обращение матрицы вида Х'Х. Общий метод. Нахождение обратной матрицы размерности 2 х 2 не вызывает затруднений; здесь имеется точная формула, которая использовалась нами ранее: \с =(cd — gA) ~~ . B.1) U d\ * 1-е с\ Однако этот простой случай может служить иллюстрацией общего метода обращения, излагаемого в следующем параграфе. В параграфе 1.9 мы нашли, что 2" 14 13J - [0 3_ где Т9Т2 = Х'Х. Тогда с помощью метода, описанного в следующем параграфе, или же уравнения B.1) при g = 0 получаем: Г1/7-1/7Х2Х1/31Г1/7 -2/211 [о 1/з J I о 1/зJ ¦ ; Отсюда следует, что '-^.'LI'!- B.3, >1 j. В частности, var (Ьг) = [A/7J + B/21J] а2 и т. д. Преимущество такого способа обращения матрицы Х'Х состоит в том, что при этом можно увидеть, как изменится var (fej), если предположить, что р2 = 0, т. е. Ь2 = 0. Очевидно тогда, что var {Ьг\Ь2 =0) = = A/7Jа2. Конечно, оценка а2 при этом также изменится. Коэффициент возрастания дисперсии (VIF — variance inflation factor) предоставляет информацию, которая по своему содержанию в определенной степени аналогична информации, вытекающей из соотношения B.3). Этот коэффициент показывает, во сколько раз увеличивается значение var (bk) по сравнению с дисперсией var (bk), рассчитанной для модели (имеющей то же самое значение дисперсии ошибок а2), в которой xk является единственной объясняющей переменной. Если обозначить через dhh k-н диагональный элемент Х'Х, а через skk k-й диагональный элемент (Х'Х)~\ то VIFFfc) = dfckS**. B.4) В упражнении 7 в конце данной главы показано, что VIF может быть рассчитан также по формуле 43
2.3. ОБРАЩЕНИЕ МАТРИЦЫ XX Для расчетов, проводившихся в предыдущей главе, обращения матрицы не требовалось. Использование этой процедуры приводит к существенному возрастанию числа арифметических операций и некоторой потере точности. Однако в расчетах, подобных тем, какие мы проводили в параграфе 2.2, обойтись без обращения матрицы все же нельзя. Итак, пусть матрица S^ имеет вид Х'Х; необходимо найти Sp~\ Напомним, что в процессе решения системы нормальных уравнений Х'Х~Б ="Х' у или Х'ХЬ = Х'у матрица У (или аналогичная матрица с X вместо X и у вместо у) приводится к виду [о' tyy\ где Т — верхняя треугольная матрица с нулями ниже главной диагонали, такая, что Т'Т = S. Легко проверяется тогда, что ТрТр = Х'Х. Отсюда следует, что (Х'Х) —Т^1 (Тр)~], C.1) поэтому для получения обратной матрицы для Х'Х"необходимо определить вначале Тр~\ а затем умножить ее на транспонированную к ней. Предположим, что матрица TjL x сформирована, где Тк-г представляет собой ведущую подматрицу Тр размерности (k — 1) х (k — 1). Обозначим Гть , к! L 0' thh\ Тогда нетрудно проверить, что Lo' tkkt» J где 1А_! — единичная матрица размерности k— 1. Полученное выражение будет представлять собой единичную матрицу при условии tkk = tkk\ <*=-Тл1Лл^. C.2) Таким образом, если гккФ0, то мы можем найти Tfe = Tf1. Вычисления начинаются с Tjj = [fib1]. Отметим, что — tk^tk является вектором коэффициентов регрессии в регрессии xk на предыдущие столбцы матрицы X. 44
Интерпретация элементов матрицы Т. Рассмотрим регрессию хк на первые k — 1 объясняющих переменных. Вектор коэффициентов регрессии в соответствии с уравнением C.2) будет выглядеть тогда так: bft.(ft-i) = T^ii Ffe = — tktkk. Таким образом, элемент / (/ ^ k — 1) в frft.u-i) равен — t'ktkk = = — tik/tkk. Остаточная сумма квадратов для этой регрессии равна Пример Г4 6 S2 = 58 10 29 38 > * 2 — 0 0 3 7 0 5" 2 3 (S2 есть СКП матрицы Х'Х для данных параграфа 1.9). Т2 — -> 1/2 0 . 0 Г1/2 Jo Lo Таким "/ 1 l~2 . „ 3 5' 0 7 2 .0 0 3J /2 3 5" 0 7 2 _ 0 0 3_ -Hi] /2 —1/2x3x1/7 51 0 I/7 2 -_1 Г1/2 —3X1/141 0 0 3J x ""[ 0 1/7 J —3x1/14 — 1/3[A/2)X5—3x A/14)X2] ' 1/7 —1/3 A/7)X2 0 1/3 (Для формирования элементов 1 и 2 в столбце 3 - /qt-i[51 '-""¦i [2J'; —3/14 —29/42" 1/7 —2/21 0 1/3 J образом, окончательно \2 / 3 \2 /29\2 3 1 29 2 29 1 - J +\u) +[l2) ~HXT+4?x iT~l2"x7 / 1 у /2у 2 1 \ 7 / "^Ul/ 21 3 (tI. 45
Использование этой матрицы для расчета дисперсий и ковариаций в параграфе 2.2 позволяет нам непосредственно считывать из нее значение коэффициента при а2 в var F0). Для первого диагонального элемента var (bo) = [A /2J + C/14J f B9/42J] a2. По записи Sjf1, приведенной выше, легко определить Sr1 и So. Так, Sf1 получается из Sjf1 вычеркиванием последней строки и столбца и исключением из каждого оставшегося элемента последнего слагаемого: (l/2J + C/14J -3/14X1/7 В вычислении всех элементов матрицы Sjг (или Sr1) нет необходимости. Если необходимо определить лишь диагональные элементы этой матрицы, мы вполне можем воздержаться от расчета недиагональных элементов. 2.4. СТАНДАРТНЫЕ ОШИБКИ ТЕОРЕТИЧЕСКИХ ЗНАЧЕНИЙ Оцененные коэффициенты регрессии Ьи Ь2, .., Ьр (и Ьо) определяют теоретическую регрессионную зависимость, которая может быть записана в виде xp D.1) или у= у + Ь1(х1 — х1) +... +Ьр(Хр—хр). D.2) Если [хг, #2, ..., хр] = [xtl1 xi2, ..., xip] представляет собой один из наборов исходных данных, то, используя уравнение D.1), получаем У. = Ьо + Ьг Хц + ...+bp xip. Теоретическое значение следует отличать от реального уи разность et— — Уь — Уг называем i-m отклонением. Расчеты по формуле D.1) осуществляются достаточно просто. Очевидно, что y=60 + biX1-1-... -тЬрХр^Т'Ь где 1' ~ A, хъ ..., хр). Поэтому в соответствии с формулой A3.3) из гл. 1 получаем var (у)---И' (X/X)-1ia2 = ~(Т'р-*Т)'Тр-1То*~й'йо*9 D.3') 46
где d~ Тр^1 1. Вектор d может быть получен умножением Тр-1 на 1 или решением Тр d = Т относительно d. В качестве упражнения читатель может при желании проверить, что если Г = A,—2,0), то d' = A/2, —1/2, —1/2), и что если а2 заменить на а2 = 4, то из D.3') следует var Q) = 3,0. Отметим также, что дисперсия var (b0) может быть получена, если положить У = A, 0, 0), что дает "сГ = A/2, —3/14, —29/42) и т. д. Расчеты на базе уравнения D.2). В этом случае где /' = (А'х — х19 х2 — х2, ..., Хр — Хр). Далее вектору в силу того, что его компоненты имеют вид уг — уу у2 — у, ..., уп —у (элементы вектора у), не зависит от у. Следовательно, var (у) = var (у) + var (/' b) = Х'Х)-1/с1= D.4) -1 /')(Тр-1 /) а2, D.4') где Тр — верхняя треугольная матрица, такая, что ТРТР = Х'Х. Пример. Выше отмечалось, что значение var (b0) может быть рассчитано как var (у) при xt = х2 = ... = 0. Для данных из параграфа 1.9 мы имеем хх = 1,5, х2 = 2,5, поэтому с учетом B.2) получим М- /3 J М -2/21 1/3 Поэтому для / = (— 1,5; —2,5) находим LC/2X2/21)—5/6 I I—29/42 Тогда /' (Х'Х)-1 /= C/I4J + B9/42J, поэтому на основе D.4), var (tj) ^ [1/4 + C/14J + B9/42J]<т2~0,7727 а2. С учетом того, что а2=4, получаем, что оценкой var (у) будет 0,7727 х 4 = 3,09. Таким образом, УЩ 1,76. Вычисление Т'! или Тр/. В предыдущем примере значение Т^"*1! счислялось умножением 1'2~1 на 1. Для р >2, особенно если матрица Тр-1 еще не рассчитывалась, предпочтение следует отдать определению d посредством решения системы T^d = I. При решении системы урав- 47
нений с верхней треугольной матрицей требуется лишь немногим больше работы, чем в предыдущем случае. Рассмотрим проводившиеся ранее расчеты, основанные на использовании матрицы Т2. Для них Г7 01 К1 1-1,51 12 3j [d2\ [-2.5J Таким образом, ldx = — 1,5, йг = — 3/14 и Ыг + М2 = — 2.5, d2 - — 29/42. 2.5* ИСКЛЮЧЕНИЕ ИЗ РЕГРЕССИИ ОДНОЙ ИЛИ НЕСКОЛЬКИХ ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ При изложении материала этого параграфа мы будем пользоваться обозначениями из параграфов 2.1—2.4. В параграфе 2.1 было показано, что исключение последней или р-й объясняющей переменной приводит к увеличению остаточной суммы квадратов на величину Qp = t%t y. Поскольку bp = tpp tvy> где spp — последний диагональный элемент Sp1 или S^1 (см. параграф 1.13). Значения sli и bt будут одними и теми же независимо от того, рассматриваемая переменная является последней (i = р) чили нет (/ < р). Следовательно, говоря обобщенно, увеличение остаточной суммы квадратов, вызванное исключением /-й переменной (переменные 1,..., i — 1, i + 1, ...,р по-прежнему входят в состав уравнения), равно: Ъг=--Ы{$")-\ E.1) Отметим, кстати, что ^-статистика для проверки значимости bt равна а~!в/|/2, где а2—обычная несмещенная оценка дисперсии ошибок. Показатель s", используемый в E.1), может быть рассчитан способом, изложенным в параграфе 2.3. Пусть Qtj представляет собой увеличение остаточной суммы квадратов, обусловленное исключением из регрессионного уравнения двух неременных хг и xjt Очевидно, что Qij>Qi, ви>вг E.2) Поэтому по данным значениям 8г- и 97- может быть дана примерная оценка снизу величины 9^-, и, наоборот, по значению 0^ могут приблизительно оцениваться 8г- и 0/ сверху. Для примера из параграфов 1.9 и 2.3 ex - 336/13, ва = 1 и 052 - 37. Исключение более одной объясняющей переменной. Пусть Ь(^ = - [bh bj] и пусть S** — матрица, которая получается в результате исключения из S элементов, принадлежащих i-й или /-й строке и /-му или /-му столбцу. Тогда может быть показано, что 48
e,/ = b('.,(S**)-1b(.). E.3) В упражнении 8 в конце главы приводится результат, который может быть использован при доказательстве ajoro соотношения. Уравнение E.3) очевидным образом обобщается для случая, когда из регрессии опускается произвольное число переменных. Применение при полном переборе всех возможных регрессий. Если из регрессионного уравнения нужно исключить две переменные, для этого подбирается такая пара xt и xjt которая дает минимальное значение Qtj. Вообще говоря, малые значения 9О- имеют тенденцию сочетаться с малыми значениями 9г- и 9;-. Следовательно, поиск нужно начинать с определения таких i и /, которые соответствуют минимальным значениям 9г- и Qj после чего, используя E.3), рассчитывать соответствующее значение 9О-. Предположим теперь, что для одного или большего числа индексов / выполняется неравенство 9^ >9,7. Отсюда следует, что пары, в которые входит переменная /, могут быть исключены из рассмотрения; данное утверждение следует из уравнения E.2). Рассмотрим теперь проблему нахождения для произвольного k такого набора k из р объясняющих переменных, которому соответствует минимальная остаточная сумма квадратов; таким образом, р — к из р переменных должны быть исключены из регрессии. Обобщая рассмотренную выше схему, можно существенно уменьшить число потенциальных наборов переменных, для которых следует вычислять изменение остаточной суммы квадратов. Более подробно этот вопрос рассматривается в работе [198]. 2.6. ПОЛНАЯ СХЕМА ВЫЧИСЛЕНИИ Настал момент продемонстрировать возможности использования программы на Бейсике, описание которой дается в параграфе 10.7. Расчеты будут проводиться для примера из параграфа 1.9. На рис. 2.1 приведена распечатка протокола диалоговой программы, в котором зафиксировано, какая информация была запрошена машиной, что ответил пользователь и какие результаты были выданы на печать. Матрица Т, представляющая собой разложение Холецкого матрицы СКП, может быть получена разложением Холецкого матрицы ЦСКП и добавлением первого нулевого столбца, а затем первой строки, состоящей из (Упу ~]/пхъ ...) (см. упражнение 1 в гл. 1, а также параграф 3.2). Именно такой подход использовался в расчетах по указанной выше программе. Точность расчетов в этом случае повышается благодаря формированию матрицы Т на базе матрицы ЦСКП и упрощению некоторых расчетов. Отметим, что обратная матрица находится для полной верхней треугольной матрицы Холецкого, включающей последний столбец, соответствующий зависимой переменной. Вычисление последнего столбца не является необходимым. 49
RUN GIVE NO. OF VAR'S? 3 DO tOU WISH TO NAME THE VAR'S (Y OR N)? H DO ALL ROWS HAVE EQUAL WEIGHT (Y OR N)? Y ENTER VALUES ROW BY ROW, IN THE ORDER: VAR. HO. NAME 1 V01 FINISH WITH: EOD 7-2 0-3 7-121 7 2 5 2 7 7 3 6 7 E00 * CSSP MATRIX * 1 49 2 3 VAR. NO. NAME MEANS: S.D.'S: 1 V01 1 .5 4.0415 2 V02 14 13 2 V02 2.5 2 .081 7 3 403 42 15 41 3 V03 1 .5 3 .6968 R-SQUARED: .30769 .90244 (THIS MEASURES DEPENDENCE ON EARLIER VARIATES) * CHOLESKY UPPER TRIANGULAR MATRIX * VAR. NO. 0 1 NAME CONST. V01 0 2 3 1 7 2 3 2 V02 5 2 3 3 V03 3 6 1 2 ENTER P TO PROCEED WITH REGRESSION CALCULATIONS OTHERWISE ENTER OR OR OR ? P D (TO DELETE A COLUMN) T (TO TRANSPOSE A COLUMN) L (TO LOOK AT DATA) J (JUMP TO NEXT SET OF OPTIONS) Рис. 2.1. Выдача реализованной на Бейсике диалоговой программы расчета регрессии для примера из параграфа 1.9. Описание программы содержится в параграфе 10.7 50
* INVERSE OF UPPER TRIANGULAR MATRIX * 0 I 2 3 -.21429 -.69048 .2381 .14286 -.095238 -.38095 .33333 -.16667 .5 * CALCULATE REGRESSION COEFFICIENTS ' GIVE DEP. VARIATE - TAKE VAR . NO.? 3 INCLUDE EXPLAN. VAR'S UP TO NO.? 2 DEPENDENT VAR. IS < V03 >. ERROR VAR, <DF - VAR. NO. *0 NAME CONST. COEFFS.: -.47619 S.E.'S: 1.758 1 2 V01 V02 .7619 .33333 .34339 .66667 * VARIANCE-COVARIANCE MATRIX * VAR. NO. 0 1 2 NAME CONST. V01 V02 0 3.0907 .14059 -.92064 X .11791 -.12698 2 .44444 * TABLE OF RESIDUALS * ROW NO. OBSERVED RESIDUAL EXPECTED SE(EXP) WEIGHT 2 -3 -J -2 1.7321 1 2 1 1 .5714 -.57143 1 .2372 1 3 2-. 71429 2 .7143 1 .8681 1 4 6 .14286 5.8571 1.9949 1 ENTER OR OR ? Q F (FURTHER ANALYSIS ON THE SAME DATA) N (NEW PROBLEM) Q (QUIT) STOP AT LINE 1000 READY Рис. 2.1 (продолжение) 2.7. ОТБОР ПЕРЕМЕННЫХ И СОПУТСТВУЮЩИЕ ВОПРОСЫ Во многих практических задачах, связанных с применением метода наименьших квадратов, важный этап решения проблемы состоит в определении числа объясняющих переменных и их состава. Какие расчеты следует провести для решения проблемы отбора переменных? 51
В относительно простом случае, когда переменные уже упорядочены естественным образом, задача сводится к нахождению границы между переменными, которые следует включить в анализ, и переменными, которые должны быть опущены. Далее можно действовать так: формируется матрица СКП или ЦСКП, в которой переменные расположены в соответствии с заданным порядком. Считая, что переменные вплоть до хк уже включены в регрессию, для каждого k = 0,1, ... определяется остаточная сумма квадратов с помощью выделения последнего столбца в матрице Т и суммирования квадратов элементов, расположенных в стро. ке k + 1 и в последующих строках. Поделив затем полученное таким образом число на число степеней свободы (т. е. на п — k + 1), получаем средний квадрат ошибки s2 (k). Это значение наносится на график, на оси абсцисс которого указывается соответствующий номер k (или п — — k + 1). Если, начиная с некоторого k = kOy значения среднего квадрата ошибки перестают существенно убывать, это свидетельствует о том, что включение в регрессию переменных, следующих за xky вряд ли оправдано. Если же переменные не упорядочены и только несколько объясняющих переменных являются кандидатами на исключение, подходящий способ «атаки стоящей перед нами крепости» может состоять в расчете регрессии по всем потенциальным объясняющим переменным. Для каждого коэффициента регрессии рассчитывается соответствующая /-статистика делением значения коэффициента на его стандартную ошибку. Переменные с наименьшими показателями /-статистик (например, меньше 1,5 или 2) затем опускаются, и расчет повторяется вновь. Для этого из матрицы ЦСКП выбирается новый набор столбцов и строк и формируется новое разложение Холецкого. (Альтернативный метод, при котором отпадает необходимость возвращения к матрице ЦСКП, описан в гл. 4). Если повезет, то средний квадрат ошибки (или, что эквивалентно, скорректированный коэффициент множественной корреля- ции) не будет сильно отличаться от значения, полученного для случая, когда в регрессию включались все переменные. Исследование новых t- статистик покажет, могут ли быть опущены какие-либо другие переменные. Кроме того, каждая из опущенных ранее переменных должна быть проверена на возможность повторного включения в регрессию. В случаях, когда такой подход срабатывает, получают уравнение регрессии, не очень отличающееся от оптимального в том смысле, что средний квадрат ошибки оказывается близким к минимально возможному. Данный подход плохо работает в случае, когда коэффициенты некоторого набора переменных, взятые по отдельности, при расчете регрессии по всем переменным незначимы, тогда как вместе они приводят к существенному уменьшению в остаточной сумме квадратов. В этом случае должны применяться другие методы, например метод перебора всех возможных наборов переменных, кратко рассмотренный ниже, или некоторые разновидности пошаговой регрессии. 52
При решении вопроса о включении той или иной переменной в регрессию или о необходимости ее предварительного преобразования перед включением в регрессию оказываются полезными различные графики отклонений. Другие направления использования отклонений кратко рассматриваются в конце данного параграфа. Отметим также следующее: 1. Исключение переменных, которые на самом деле должны присутствовать в модели, приводит к смещению значений оценок (см. упражнение 2 в конце главы). Если это смещение невелико, то исключение указанных переменных может дать некоторые преимущества, позволяющие компенсировать неправильные действия. Например, может уменьшиться средний квадрат ошибки прогноза. 2. Стандартная ошибка коэффициента регрессии будет большой для переменной, сильно зависящей от других объясняющих переменных (см. параграфы 2.9, 3.4 и 3.12). Значения коэффициентов регрессии при этом, вероятно, также окажутся завышенными (см. упражнение 9 в гл. 3). Исследователи часто стараются обосновать использование в анализе лишь небольшого числа потенциальных переменных. Так, опыт работы Р. Кемптона [126] с биологическими данными показывает > что «включение в регрессию более трех объясняющих переменных практически никогда не оказывается оправданным». Проблема оценивания статистической значимости упрощается, если внимание в первую очередь будет уделяться небольшому числу объясняющих переменных, отобранных по теоретическим соображениям или же с учетом ранее сделанного вывода об их возможности. Затем может быть проверен эффект от включения в регрессию одной или сразу двух переменных, роль которых в анализе изучаемого явления исследователю недостаточно ясна. Регрессия по всем возможным наборам переменных. Современная вычислительная техника позволяет при не очень больших значениях р (возможно, меньше 20) применять методы, связанные с рассмотрением всех 2р — 1 потенциально возможных регрессионных уравнений, в состав которых входит одна или большее количество объясняющих переменных. В параграфе 2.5 рассматриваются способы, с помощью которых удается заранее, без специального исследования, исключить из рассмотрения значительную часть таких потенциально возможных уравнений. В конце этого параграфа приводятся комментарии относительно статистических последствий выделения регрессионного уравнения из большого числа имеющихся альтернатив. Отбор прямым ходом, исключение обратным ходом и пошаговая регрессия. Альтернативами перебору всех возможных наборов переменных служат метод отбора переменных прямым ходом, метод исключения переменных обратным ходом, а также процедура, объединяющая эти два метода, обычно называемая методом -пошаговой регрессии. При использовании метода отбора прямым ходом новые объясняющие переменные по одной включаются в регрессию. Применение метода исключения обратным ходом начинается с рассмотрения полного набора объясняющих переменных, которые затем по одной исключаются из анали- 53
за. Любой критерий, используемый в методе отбора прямым ходом для решения вопроса о том, какую из переменных нужно на следующем шаге включить в регрессионное уравнение, очевидным образом соотносится с критерием, применяемым в методе исключения обратным ходом для определения переменной, которая на очередном шаге должна быть из рассмотрения исключена. Критерии метода отбора прямым ходом или метода исключения обратным ходом могут быть следующими: 1) максимальное уменьшение остаточной суммы квадратов; 2) максимальное увеличение коэффициента множественной корреляции между у и отобранными объясняющими переменными; 3) наибольшее абсолютное значение коэффициента частной корреляции с у при исключении влияния предварительно отобранных объясняющих переменных; 4) наибольшее значение /"-статистики (которая равна квадрату t- статистики переменной, включаемой в уравнение регрессии); 5) максимально возможное уменьшение значения средней остаточной суммы квадратов (получаемой делением остаточной суммы квадратов на число степеней свободы); 6) наибольшее значение квадрата скорректированного коэффициента множественной корреляции. С помощью каждого из этих критериев будет отбираться одна и та же переменная г. В то же время критерии 5 и 6 являются гораздо более удовлетворительными мерами адекватности регрессионного уравнения, чем, например, критерии 1 и 2. Остаточная сумма квадратов (и квадрат коэффициента множественной корреляции) всегда уменьшается или остается без изменения при включении в анализ дополнительной объясняющей переменной. В противоположность этому необоснованное включение объясняющей переменной может оказать слабое воздействие на величину средней суммы квадратов и даже привести к ее возрастанию; то же можно сказать и о квадрате скорректированного коэффициента множественной корреляции. В идеале предпочтение следовало бы отдать критерию, который принимал бы минимальное значение в случае, когда выбор объясняющих переменных в некотором смысле оптимален, и, следовательно, можно ожидать ухудшения значения критерия при включении в анализ каких-либо дополнительных лишних, объясняющих переменных. Таким свойством, по-видимому, обладает статистика Мэлоуса, которая имеет вид Здесь ОСК — остаточная сумма квадратов отклонений от модели, содержащей р параметров, s2 — в идеале некоторая достаточно точная несмещенная оценка дисперсии ошибок. На практике в качестве s2 бе- 1 Другими словами, все эти критерии эквивалентны с точки зрения отбора переменных. — Примеч. ред.
рется средняя остаточная сумма квадратов регрессионного уравнения, включающего все рассматриваемые переменные. К. Дэниэл и Ф. Вуд [55] продемонстрировали применение статистики Мэлоуса Ср. В стандартной форме на каждом шаге метода пошаговой регрессии осуществляется: 1) добавление переменной, отбираемой среди тех переменных (если таковые существуют), у которых величина /^-статистики превышает некоторое пороговое значение; 2) исключение переменной, отбираемой среди тех переменных (если таковые существуют), у которых величина /^статистики оказывается меньше некоторого порогового значения. Отбор включаемой или исключаемой переменной обычно проводится таким образом, чтобы получить минимально возможную величину остаточной суммы квадратов. Существует разновидность метода пошаговой регрессии с использованием обратного хода, при которой, как и в методе исключения обратным ходом, сначала рассматривается полный набор объясняющих переменных. Ни один из этих методов не может гарантировать получения наилучшего набора переменных, размерность которого определена в результате осуществления соответствующих процедур отбора. Однако этот набор будет во многих случаях близок к оптимальному. К. Берк [271 приводит примеры сопоставления результатов применения методов перебора всех возможных наборов переменных, отбора прямым ходом и исключения обратным ходом. Последствия отбора. При отборе переменных особое внимание следует уделять проверке на статистическую значимость уравнения регрессии, полученного для случая, когда включенные в него объясняющие переменные отобраны из большого числа альтернативных факторов. Если это возможно, регрессионное уравнение следует оценить на совокупности данных, отличающейся от совокупности, использованной ранее для отбора переменных (перекрестное оценивание). Разработаны различные варианты практической реализации такого подхода. Другим многообещающим методом отбора объясняющих переменных является так называемый бутстреп-метод (bootstrap), предложенный Б. Эфроном для использования в ситуациях, когда теоретические статистические свойства изучаемого процесса неизвестны или неопределенны. В работе [63] приводится описание основ этого метода. В контексте отбора переменных он включает введение понятия искусственной бесконечной совокупности, в которой каждая из п строк данных (наблюдений) встречается с одинаковой частотой. (Для простоты предполагается независимость наблюдений, каждое из которых имеет одинаковый вес.) Из этой совокупности извлекаются повторные случайные выборки, состоящие из п строк. Для каждой выборки применяется процедура отбора переменных. Предполагается, что вариация полученных таким образом результатов— хороший индикатор вариации, которую можно было бы ожидать, если бы в распоряжении исследователя имелись действительные (а не искусственные) повторные выборки. Другие подходы проверки на значимость обсуждаются в работе А. Миллера [155]. М. Эйткен [4] предложил подход для идентификации наборов объ- 55
ясняющих переменных, которые следует исключить из рассмотрения. А. Миллер в [1541 комментирует метод, предложенный в работе [201]. Этот метод может применяться для сравнения одного набора объясняющих переменных с другим. Различные подходы к отбору объясняющих переменных обсуждаются также в работах [50], [68], [198], [112], [113], [206], [27], [23]. Использование отклонений. При любом методе анализа в соответствии с общепринятой практикой, как правило, исследуются: 1) график отклонений, полученный для подобранного уравнения регрессии; 2) график накопленных частот в условиях нормально-распределенных отклонений. Последний представляет собой график накопленных частот отклонений, на котором шкала накопленных частот преобразована таким образом, что равные приросты на ней соответствуют одинаковым изменениям нормальной кривой. График 1 помогает в случаях, когда переменная у должна быть преобразована или дисперсия о2 систематическим образом изменяется вместе с изменениями значений у подобранного уравнения регрессии. Нежелательно при этом вместо теоретических значений у откладывать на горизонтальной оси их фактические величины, поскольку корреляций между фактическими и теоретическими значениями приводит к возникновению линейного тренда, что усложняет интерпретацию графика. График 2 помогает при нахождении отклонений, обусловленных аберрацией х данных или другими факторами, приводящими к нарушению нормальности распределения значений отклонений. Отметим, однако, что наличие двух или большего количества аномальных наблюдений может настолько сильно исказить подобранную регрессионную модель, что наблюдаемые значения отклонений нельзя будет рассматривать в качестве надежного инструмента отыскания точек аберрации данных. Для решения этой проблемы разработаны методы робастной 2 оценки регрессионных уравнений (см. параграф 8.2). Суть их заключается в том, что при построении модели аномальным наблюдениям придается небольшой вес. Методы робастного оценивания регрессий эффективны при проверке результатов, получаемых с помощью стандартных методов наименьших квадратов для расчета линейных регрессий. Если две регрессии (робастная и неробастная) существенно различаются, следует провести тщательное исследование данных и/или используемой модели* В параграфах 3.5 и 3.6 рассматриваются графики частных регрессий. Эти графики могут помочь в решении вопроса о том, следует ли включать в регрессию дополнительную переменную z в качестве объясняющей переменной. С этой целью определяются отклонения в регрессии у на все объясняющие переменные, за исключением г, и строится их, график относительно отклонений, полученных для регрессии z на те же 1 Аберрация данных —существенное отклонение некоторых значений наблюдений от обычного диапазона их изменения. — Примеч. пер. 2 От английского слова robust — устойчивый. — Примеч. пер. 56
самые объясняющие переменные. Может быть предложена и нелинейная зависимость, тогда нужно отыскать некоторую функцию / (.), такую, что / (z) входит в модель, не нарушая существенно ее линейности. Нелинейность, однако, будет заметнее проявляться, если отклонения от линейности на графике частных отклонений будут откладываться по оси у. Отклонения от линейности на графике частных отклонений являются отклонениями, рассчитанными для полной модели. Одобрения заслуживает практика, в соответствии с которой подобный график исследуется для каждой объясняющей переменной, в конечном счете включенной в модель. Подобные расчеты приведены в параграфах 3.5 и 3.6. Практические аспекты использования графиков отклонений освещены в работах [50], [55], [158], [68], [12], [7]. 2.8. ПРИМЕР С ПОТРЕБЛЕНИЕМ ЭЛЕКТРОЭНЕРГИИ Представленные в табл. 2.1 данные получены при исследовании потребления электроэнергии в различных городах Великобритании в период 1937—1938 гг. В табл. 2.2 приведена матрица ЦСКП, а также средние значения переменных. Разложение Холецкого и соответствующая обратная верхняя треугольная матрица содержатся в табл. 2.3. Эта информация позволит читателю проследить за последовательностью вычислений. Таблица 2. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 * 2,45 2,61 2,86 2,51 2,51 2,71 2,55 2,50 2,62 2,85 2,70 2,60 2,53 2,75 2,57 2,59 3,15 . Данные о потреблении электроэнергии в Йоркшире, Чешире и Ланкашире х2 0,68 0,70 0,70 0,68 0,70 0,70 0,63 0,66 0,70 0,70 0,70 0,70 0,81 0,70 0,52 0,70 0,70 1,02 0,95 0,82 0,65 1,02 1,00 0,78 0,68 0,86 0,88 0,99 0,97 0,94 0,84 0,78 0,96 0,88 0,60 0,46 0,86 0,89 0,45 0,41 1,40 1,П 0,48 1,03 0,83 1,26 1,07 0,15 0,96 0,98 0,23 1,14 1,07 0,95 1,50 1,03 0,40 1,31 1,54 1,78 1,56 1,75 . 0,90 1,59 0,93 1,24 0,72 0,34 и 2,73 2,88 3,30 2,74 2,63 3,02 3,02 2,91 2,95 3,28 3,12 3,12 2,85 2,93 2,96 2,89 3,50 Источник. Данные взятье из работы [117]. *i=log (средний годовой доход домохозяйств, фунтов); *2 = log (предельная цена электроэнергии, пенсов за 10 кВт-ч); *3 = log (предельная цена газа, пенсов за терм); 57
log (среднее наличие в семье энергоемкого электрооборудования, десятки кВт) ; log (среднее число потребителей, тыс.); \og (среднегодовое потребление электроэнергии, кВт). Таблица 2.2. Средние значения переменных и матрица ЦСКП для данных из табл. 2.1 Средняя Матрица ЦСКП xi х2 х3 хъ У л, 2,651 0,4913 0 0 0 ,6871 ,02113 ,04895 0 0 0 0 А, ,8835 ,00996 ,04218 ,2070 0, —0 -0 -0 2 7747 .3990 ,05687 ,2007 ,1332 1 —0 ,162 ,5442 0,001188 —0 1 2 ,25431 ,0614 ,9998 2 0 0 -0 0 —0 0 У ,99 ,5511 ,0013 ,0232 ,0239 ,4258 ,7898 Таблица 2.3. Верхняя треугольная матрица Холецкого и ее обратная матрица Свободный член 4,123 10,929 0,701 Матриц* 0,243 —3,782 1,427 Верхняя треугольная 2,833 0,030 0,219 3,643 0,014 0,190 0,413 з, обратная к верхые! -2,615 —0,196 4,562 -0.804 —0,041 —2,104 2,422 xi матрица Холецкого 3,194 -0,569 —0,181 -0,383 1,277 4,790 -0,776 0,112 -0,641 0,309 1,371 \ треугольной матрице —2,905 0,621 0,016 0,726 0,784 —2,497 0,704 — 1,361 0,969 —0,179 0,730 у 12,328 0,786 —0,102 -0,036 0,344 0,049 0,198 4,078 —7,009 2,277 — 1,058 — 1,317 —0,179 5,050 Источник. Получено для матрицы ЦСКП, приведенной в табл. 2 2. Для случая, когда у регрессируется на все переменные х1у х2, ..., х5, коэффициенты, их стандартные ошибки и /-статистики (для проверки нулевой гипотезы о том, что истинное значение коэффициента равно нулю) имеют следующие значения: 58
Свободный член Х\ х2 х-л х4 Х'о Коэффициент —0,808 1,39 —0,451 0,210 0,261 0,0355 со 0,361 0,103 0,311 0,162 0,0479 0,0436 /статистика —2,24 13,5 — 1,45 1,30 5,44 0,82 Квадрат скорректированного коэффициента множественной корреляции (или доля объясняемой вариации) равен: 0,7898/A7—1) Та блица матрица Свободный член 4 0 ,123 243 2.4 без . Верхняя треугольная строк и столбцов 2, 3 и Верхняя треугольная 10,929 0,701 матрица Холецкого и 5 матрицы ЦСКП из и матрица Холецкого 3,194 —0.569 1,345 ее обратная табл. 2.2 12 0 0 0 Матрица, обратная к верхней треугольной матрице —3,782 1,427 —2,176 0,604 0,743 3 —6 —1 4 у ,328 ,786 ,350 ,221 ,377 ,037 ,180 ,527 Три коэффициента (при х2, хъ и х5) имеют небольшие значения /-статистик (они оказываются незначимыми даже при 10% -ном уровне значимости). Имеет смысл поэтому попытаться оценить эффект исключения из регрессии всех этих трех переменных. Для этого строки 2, 3 и 5 должны быть удалены из матрицы ЦСКП. В табл. 2.4 приводится разложение Холецкого и соответствующая ему матрица, обратная к модифицированной матрице ЦСКП, Коэффициенты, стандартные ошибки и /-статистики в этом случае принимают следующие значения: Свободный член Коэффициент -0,746 1,333: 0,261 СО 0,258 0,0915 0,0439 /-статистика —2,89 14,6 5,94 59
Квадрат скорректированного коэффициента множественной корреляции теперь равен: 1 — 0,2212/A7 — 2 — 1) 0,7898/A7 — 1) -0,929. Если использовать в качестве критерия квадрат коэффициента множественной корреляции, то полученная регрессия также хороша, как и регрессия, включающая все потенциальные объясняющие переменные. Таким образом, она близка к наилучшей из возможных регрессий. (Почему?) Чтобы выяснить, правильно ли та или иная переменная введена в регрессию в линейной форме, можно, как отмечается в параграфе 3.5, построить различные графики частных отклонений. (Например, может оказаться желательным включить вместе с переменной хг или вместо нее -и2 ^ Х\.) Очевидно, что можно легко найти примеры, для которых использованный здесь упрощенный подход неприемлем. Более предпочтительным может оказаться регрессионное уравнение, где опущены одна или две (а не все три) переменные со статистически незначимыми коэффициентами (степень важности может определяться каким-либо иным способом). Или же, наоборот, более подходящими кандидатами на исключение из регрессии могут оказаться две или более переменные, коэффициенты которых в настоящее время являются значимыми. 2.9. НЕКОТОРЫЕ ПРОВЕРКИ, НЕОБХОДИМЫЕ В ПРОГРАММЕ КОМПЬЮТЕРА Проблемы, возникающие при составлении программ по регрессионному анализу, лучше всего проиллюстрировать на конкретном примере. Рассмотрим набор фактических данных: Номер наблюдения 1 2 3 4 5 6 7 0 1 5 4 3 3 4 — 1 1 3 1 2 0 0 х3 0 —4 2 2 з 3 5 ХА 0,1 3,9 —2,1 2,0 -3,1 3,0 4,9 2,1 2,1 2,1 2,1 2,1 2,1 2,1 у 4 1 6 8 3 4 7 Отметим следующие характерные особенности: 1) хь — 2,1; 2) xs = 2х, — Зх2 — 3; /^ 3) #4 ~ 2хг — Зх2 — 3 (оцененная зависимость выглядит так: *4 = — 1,96*! —3*2 — 2,89). 60
Весьма вероятно, что наличие соотношений вида 1 и 2 послужит причиной получения бессмысленных результатов или сбоев в работе многих программ, широко применяющихся в практике регрессионного анализа. Переменная с постоянными значениями. Не имеет смысла включать х5 = 2,1 в качестве объясняющей переменной в уравнение регрессии, в котором уже предусмотрен постоянный свободный член. Тем не менее пользователи компьютерных программ часто допускают такие ошибки, поэтому желательно, чтобы программы были ограждены от подобных ошибок. Действительно, пусть Коэффициенты Ьо и Ь5 тогда не могут быть определены раздельно. Выходом было бы положить Ьь = 0. Если расчеты основываются на матрице ЦСКП и если они точные, то получим <»»> = 2 (xtt—xd (хц —х,) = 0. (9.1) i В соответствии с принятыми ранее обозначениями соответствующий диагональный элемент получаемой верхней треугольной матрицы Хо- лецкого Т записывается как tbh. Если все abj равны нулю, то /55 также равно нулю, что ведет к делению на нуль при расчете tby обычным способом. На практике, однако, величины d55 и d5j из-за ошибок округления могут оказаться'не равными нулю. Так, например, если используется формула дъь = Sx/5 — пх1У то рассчитанное с ее помощью значение дьь может оказаться небольшим (по величине) положительным или отрицательным числом. Без предварительной проверки последствия будут следующими: 1) попытка рассчитать t55 посредством извлечения квадратного корня из небольшого отрицательного числа приведет к сбою в работе программы; 2) t55 будет равно небольшому, не несущему смысловой нагрузки числу. Если к тому же t5y Ф 0, то мы получим не имеющее смысла значение 65, и, следовательно, коэффициенты при других переменных также не будут иметь смысла. Для решения этой проблемы в программе может быть предусмотрена процедура, состоящая в определении максимального и минимального значений каждой переменной и проверке на знак их разности. Желательно иметь эту информацию и по другим причинам; ее полезно включать в распечатки наряду с другими характеристиками, выдающимися на печать по каждой переменной, 61
Линейная зависимость между объясняющими переменными. Чтобы упростить обсуждение, мы опустим переменные л;4 и хь w положим У = Ь0 + Ъх х1 + Ь2 х2 + Ь2 х3. Тогда в соответствии со свойством 2 для рассматриваемой регрессии У = Ьо + Ьх х14- Ь2 х2 + Ъ3 х3 + k (х3 — 2хг + Зх2 -4- 3) = = Фо + ЗА) + (Ьх — 2k) хх + (Ь2 + Щ х2 4- ( где А является произвольным. Мы можем переписать это выражение так: Пока неизвестно значение хотя бы одного из коэффициентов Ьо» Ь*, Ь\ и &з, невозможно определить и другие коэффициенты. Предположим теперь, что для приведения матрицы ЦСКП к верхней треугольной форме Т используется АХПР (см. параграф 1.5). Тогда где, следуя обозначениям гл. 3, sikrl)=-^k-k^tfk. (9.2) i = \ Из уравнения A.5) вытекает, что $* — остаточная сумма квадратов для регрессии xk на предыдущие переменные. Таким образом, ее величина равна нулю тогда и только тогда, когда хк представляет собой точную линейную комбинацию предыдущих переменных. Так, в нашем примере siV = 0 и, следовательно, t3S = 0. На практике, когда расчеты не являются абсолютно точными, возможны следующие ситуации: 1) расчет S3V приводит к получению небольшого (по величине) отрицательного числа; операция извлечения квадратного корня в этом случае невозможна; 2) *зз == О'» в этом случае попытка расчета других элементов той же строки матрицы Т приводит к делению на нуль; 3) расчет t33 приводит к получению небольшого положительного числа. Если t3y также не равно нулю, то результаты оценивания не имеют смысла. Прежде всего нам необходим критерий для ответа на вопрос, когда полученное значение tkk фактически равняется нулю. Предположим, вначале, что решение принимается исходя из точности числовых расчетов. Допустим, в памяти компьютера хранятся h значащих десятичных знаков (или их эквивалент при использовании другой системы исчисления), полученных в результате любых арифметических операций. Тогда любая цифраs(kkk~X) в уравнении (9.2), место которой определяется значением, равным 10-Л dkk и менее, наверняка оказывается незначащей. 62
Если sit 1> не превосходит некоторой степени 10~Лdkh (покрайней мере, например, в 10 раз), то tkk следует положить равным нулю. (Как будет отмечено позднее, все другие элементы в этой строке матрицы Т должны также полагаться равными нулю.) Дальнейшее обсуждение данной проблемы см. в параграфах 3.4, 3.9 и 3.12. Близкая к линейной зависимость между объясняющими переменными. При исследовании эффекта линейной зависимости переменных полезно иметь в виду выражение Slik tkk = 1 —Rk(l,...,k-\), которое следует из A.7). Для данных примера из параграфа 2.6 значение RI A fe_D больше 0,99 указывает на то, что хк практически представляет собой линейную комбинацию предыдущих переменных. Переменную Xi в примере из настоящего параграфа, для которой RI A,2) = ----- 0,9998, следует, очевидно, рассматривать как линейную комбинацию хг и х2. Если хх и х2 должны быть представлены в регрессионном уравнении, тохх необходимо опустить. Маловероятно, что та небольшая часть вариации, которая не может быть объяснена в терминах переменных х± и х2У будет иметь существенное значение для регрессии, хотя это утверждение нужно, видимо, проверить, определив ее вклад в общую вариацию с помощью таблицы дисперсионного анализа. Необходимо подчеркнуть при этом, что невозможно по данным нашего примера предсказать величину у в случае, когда х4 существенно отличается от 2хг — — Зх2 — 3. Коэффициент возрастания дисперсии (VIF), рассмотренный в параграфе 2.2, позволяет подойти к определению линейной зависимости переменных с другой стороны. Отметим, что Rk(\ /г-!./г-Н,. .,Р)^^*A, ..,*--l)t поэтому VlFFfc)>(l-/?*f('i А-о)-1. Очевидно, что если величина коэффициента возрастания дисперсии достигает, например, 1000 и более, то в этом случае нужно более внимательно изучить состав объясняющих переменных. Существование близкой к линейной зависимости между объясняющими переменными приводит к существенной потере точности при расчете коэффициентов регрессии. Как следует из вышеизложенного, наличие зависимости, близкой к линейной, о чем свидетельствует значение sit~~l)> которое относительно невелико по сравнению с 6hh, приводит к тому, что некоторые (а в экстремальных случаях все) результаты вычислений с количественной точки зрения становятся бессмысленными. В этой связи напомним, что t (/г-1) __ t п2 *kk Skk - J—Kk( \,...,k— 1) и что 63
Решение относительно Ьг- при t^ — 0. Решение системы уравнений с верхней треугольной матрицей, в которой одно или большее количество значений 1ц равно нулю, может проводиться без помех, если для ta=0 положить bt = 0. Общий вид решения, соответствующего произвольному выбору всех таких Ъи может быть получен способом, описанным в параграфе 3.9. В параграфе 3.8 показано, как осуществляется расчет дисперсий и ковариаций, когда один или большее количество коэффициентов bt произвольным образом полагаются равными нулю. Как возникают линейные или близкие к линейным зависимости. Рассмотрим случай, когда некоторые вещества с массами а, Ь, с, d и е доступны для исследования только в составе различных соединений. Приближенная оценка веса этих соединений составила (г): b+c+d 4-е =13, Эти уравнения содержат информацию а + b, b + с, с + d и d -|- т е, но не об индивидуальных значениях а, 6, с, d и е. Для этого случая а 1 0 1 0 0 0 b 1 1 1 1 0 0 с 1 1 0 1 1 0 d 1 1 0 1 1 1 е 0 1 0 0 0 1 Если столбцы матрицы X умножить попеременно на +1 и —1 и сложить, то будет получен нулевой вектор. Это свидетельствует о том, что в данном случае имеется больше параметров, чем может быть в принципе оценено на базе имеющейся информации. Поучительно было бы провести соответствующие расчеты для вычисления оценок ау 6, су d и е (с помощью метода наименьших квадратов). Решение в общем виде может быть получено таким же образом, как и в примере из параграфа 3.9. Аналогичные проблемы возникают, когда ошибки, допущенные при составлении плана проведения эксперимента, или же какие-либо случайные непредвиденные обстоятельства препятствуют получению всей необходимой информации. Такая проблема возникает даже тогда, когда исследуемые переменные характеризуют величи- 64
ны, изменяющиеся непрерывным образом. Например, если для описания форм разных видов акул имеется большое число данных о величине и размерах их тела (значения объясняющих переменных), то весьма вероятно, что некоторые из этих характеристик окажутся практически линейными комбинациями других показателей. В качестве гипотетического примера предположим, что у исследованных особей поперечные размеры тела в различных его точках соотносятся так, как показано на рис. 2.2. Если Q находится на равном расстоянии от Р и /?, то х2 = j X (a'j + x3) независимо от величины xjxv Даже если линия PQR и соответствующая ей верхняя линия не являются прямыми в строгом смысле слова, вполне может выполняться соотношение х2 с^с^ + с3х^ при подходящих значениях сх и с3. Поскольку измерения делаются с ограниченной степенью точности, такая приблизительная зависимость может проявиться как точная зависимость между полученными значениями переменных. Подобный результат особенно вероятен, если имеющееся в распоряжении исследователя количество наблюдений невелико. 2.10*. ВАРИАНТЫ РАЗЛОЖЕНИЯ ХОЛЕЦКОГО Для примера из параграфа 1.5. Рис. 2.2. Линейная зависимость для примера с акулами S= 4 9 - 58 29 38 } 2 0 0 3 7 0 5 2 3 где Т'Т = S. Пусть D1/2 является диагональной матрицей, i-Pi диагональный элемент которой равен гц\ таким образом, D1/2 = 0 7 0 Тогда мы можем записать: S=LU = 1 3/2 5/2 0 0 3 о 1 2/7 D = X 4 0 0 0 0 0 49 0 6 49 0 0 0 9 10 14 9 С другой стороны, S = LDL\ где L = D/2 Г, U - D1'2 Т - DL'. Любая из рассмотренных нами версий алгоритма Холецкого может быть легко модифицирована для получения матрицы U (диагональные эле- Зак. 1078 65
менты которой равны tfi) или матрицы V (диагональные элементы которой равны 1). В этих версиях разложения Холецкого не требуется извлечения квадратного корня. ^Алгоритм Краута, применяемый к квадратной матрице S, дает S = = U'L'. Алгоритм Дулитла дает S = LU (см. [54, с. 157—158]). В некоторых модификациях используются преимущества симметричности матрицы S. В таких алгоритмах отсутствует операция извлечения квадратного корня (как в версии АХПР — варианта алгоритма Холецкого, при котором на каждом шаге формируется отдельная строка матрицы Т), Предположим, что исходная матрица имеет вид S = Х'Х. В этом случае алгоритмы решения соответствующей системы уравнений могут строиться на основе метода ортогонализации, для которого матрица Т формируется непосредственно из X; краткое описание подобных методов приводится в следующей главе. Здесь также существуют версии, в которых не требуется извлечения квадратного корня. Такие методы с вычислительной точки зрения являются более расточительными, чем методы, в которых решение системы нормальных уравнений основано на разложении матрицы Х'Х. Однако в случаях, когда последующие столбцы матрицы X строго зависят (о чем свидетельствует коэффициент множественной детерминации) от предыдущих, они дают более высокую точность. Методы ортогонализации обсуждаются в гл. 4. 2.11*. АЛГОРИТМ ГАУССА — ЖОРДАНА Алгоритм Гаусса — Жордана довольно широко применяется в регрессионном анализе и связанных с ним многомерных вычислениях. Расчеты основываются на матрице СКП или матрице ЦСКП вида Х'Х, где первые столбцы в матрице X представляют собой объясняющие переменные, после которых следует столбец или столбцы, соответствующие зависимым переменным. Последовательные этапы расчетов могут рассматриваться в качестве последовательных этапов преобразования (XхX')". Однако в общем случае ограничиваются преобразованием обратной матрицы некоторой подматрицы Х'Х, выделенной в Х'Х. Остальная информация может быть получена затем из коэффициентов регрессии любого из оставшихся столбцов матрицы X на столбцы матрицы X, а также из матрицы квадратов и произведений отклонений от этих регрессий. Рассмотрим разбиение X = [Х<ю, ХB>], принцип формирования которого станет понятнее на промежуточных этапах вычислений. Нет необходимости в том, чтобы столбцы X располагались в соответствии со своим первоначальным порядком. Пусть rna с y"' y" с v"' y" t*c" 1де оц= Л(i) ЛA), oi2 = Л(i) ЛB) и о22 — 66
Нам необходимо вычислить: 1) матрицу Sl~i\ так как она используется для расчета дисперсий и ковариаций в регрессии ХB> на столбцы Хцу, 2) матрицу Su1Sj2. Каждый столбец этой матрицы дает значение вектора коэффициентов регрессии соответствующего столбца ХB) на столбцы ХA); 3) матрицу S22.i = S22 — Si7S12—матрица сумм квадратов и произведений отклонений указанных выше регрессионных уравнений. Теперь обозначим [Si l1 Si i1 S12 I s22<1 J где k указывает, что матрица Xq) включает столбцы, соответствующие переменным с номерами 0,..., k. Пустьg\f — элемент (if) матрицы G(*>. В предположении, что первый столбец предыдущей версии ХB> присоединяется к X(d, может быть сформулировано правило формирования G<*> из "G**-1): (/е-1) а{к-\) k-\) (k~\) —t: ff\K— * / 8kk gkk =\gkk ) (k-\) (k-\) Доказательство этого результата предоставляется провести читателю (или см. [124]). В преобразованиях достаточно использовать элементы верхней треугольной матрицы G(*>. Ведущий элемент gi*""^ идентичен величине s(kkk~l) из параграфа3.3. Необходима также проверка этого элемента с помощью описанных выше способов на положительность и отличие от нуля на величину, превышающую значение числовой или статистической погрешности. Применение введенных здесь формул в обобщенном виде иллюстрируется на рис. 2 3. 3* 67
Заменить на -9^ Прибавить вычесть *-1) (к-1) 9 Разделить на Вычесть Рис. 2.3. Алгоритм Гаусса — Жор дана Пример. Расчеты проводятся для матрицы ЦСКП S из примера параграфа 1.9. %1 %2 У 49 14 42 • 13 15 . 41 | Ведущий элемент = gioi)== 49 1/49 14/49 42/49 . 13—14x14/49 15 — 44x42/49 | = 41—42x42/49 1/49 2/7 6/7 ~ 9^ Г 5 Ведущий элемент =§22'= 9 1/49 + B/7JхA/9) —2/7x1/9 6/7 — 2/7хЗХA/9) 1/9 3/9 5—32хA/9) 13/441 —2/63 16/21 1/9 1/3 68
Предполагая, что мы заинтересованы в получении регрессии tfnaxJ их2, можно в этом месте прекратить вычисления. Элементами последнего столбца являются: Ьг = 16/21 (с дисперсией 13/441 а2), Ь2= 1/3 (с дисперсией 1/9 а2). Остаточная сумма квадратов = 4. Пошаговое включение и исключение объясняющих переменных. Модификация описанных формул для случая, когда очередной переменной, которую следует включить в регрессию, является л:/, a nexh (/ >k), достаточно очевидна. Главным элементом здесь будет g\i~l). Очевидный способ решения задачи состоит в перестановке элементов G(fe—!) таким образом, чтобы х\ соответствовал &-му столбцу и k-н строке. При альтернативном способе порядок расположения строк и столбцов может оставаться неизменным и в формулах сохранятся характеристики столбцов G(*\ соответствующие столбцам матрицы X<d. В работе [31] предлагается такой подход. Результат исключения столбца из матрицы X<d и помещения его обратно в матрицу ХB) может быть учтен посредством обратного прочтения формул, приведенных ранее. Тщательную проверку следует проводить в случаях, когда связанные с этим вычитания могут привести к серьезной потере в точности элементов Sfi1. Алгоритм Гаусса — Жордана дает наиболее простой метод пошагового включения и исключения объясняющих переменных. В работе [1221 подробно изложены вычислительные процедуры, связанные с его использованием в расчетах пошаговой регрессии. Особенности алгоритма Гаусса — Жордана обсуждаются в работе [149]. Там же проводится сравнение его с алгоритмом последовательного разложения Холецкого, а также продемонстрировано применение последнего метода в расчетах пошаговой регрессии *. 2.12*. ВЗВЕШЕННЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ Простое взвешивание. Рассмотрим модель регрессии у = X|J + e, где еь как и раньше, — независимо-распределенные случайные величины со средней, равной нулю, однако теперь var (e,) — of. Предположим, что значения of известны с точностью до постоянного множителя с >0. Для применения в данном случае метода наименьших квадратов, в ко- 1 По-видимому, в этом и заключается основное преимущество разложения матрицы T'JT в виде Т'Т\ где Т — треугольная матрица (разложение Холецкого), перед другими методами решения системы нормальных уравнений (в том числе обращения матрицы Х'Х). Попутно такое разложение позволяет получить массу другой полезной информации: дисперсии коэффициентов регрессии, остаточную и обусловленную сумму квадратов и т.п. Также просто на основе разложения Холецкого производить отсев и включение переменных в регрессию. — Примеч. ред. 69
тором предполагается постоянство дисперсии, необходимо сначала привести уравнение модели к виду у* = Х*р + е*, A2.1) где элементы е* вектора е* имеют уже постоянную дисперсию с. Этого можно достичь умножением всех элементов t-й строки уравнения модели регр_ессии на wh где до* — сбт2. В результате yt будет заменено на у* = ~Vwii)i, a 8j на е* = ~VwiSi. Тогда var (y*) = var (e*)==c. A2.2) В матричном выражении где W1/2 является диагональной матрицей, i-й диагональный элемент которой равен VW Отметим, что в модели A2.1) оценкой с будет дисперсия ошибок, полученная на базе остаточной суммы квадратов. Пример. Рассмотрим данные из параграфа 1.9. Однако теперь/-я строка берется с весом, пропорциональным /~2. Тогда СТ. у] = 1 _2 0 —3 1—12 1 12 5 2 17 3 6. • У1 = 1 _2 0—3 1/2 —1/2 1 1/2 1/3 2/3 5/3' 2/3 .1/4 7/4 3/4 3/2_ Приведение [X*, у*] к верхней треугольной форме дает 1р> О', 1,1932 —1,3328 1,0418 —1,8043 0 2,4455 1,3544 2,6230 0 0 1,1918 0,8921 . 0 0 0 1,0064_ Решение Tpb = ty соответствует 60= —1,4307, fci-0,6580, fr8= 0,7485. Таблица дисперсионного анализа имеет вид: Сумма квадратов обусловленная свободным членом обусловленная х{ при данном свободном члене обусловленная х2 при данном Xi и свободном члене Остаточная СК 1,8043* = 3,255 2,62302 = 6,880 0,89212 = 0,796 1,00642 = 1,013 (s*= 1,013/D-3)). Таким образом, оценка дисперсий для /-й точки yt равна 1,013 «~а. 70
Более общие способы взвешивания. Пусть W положительно-определенная симметричная матрица и пусть W1/2 такая матрица, что \y'i/2 W1/2 -== W. Тогда минимизация (y-Xb)'w(y-Xb) эквивалентна минимизации (у*_Х*Б)'(у*-Х*Ь), где у* = W1/2 у, "х* = W1/2 X. Матрицу W/2 удобно взять такой, чтобы она представляла собой разложение Холецкого матрицы W, т. е. такой, что U'U = W, где U — верхняя треугольная матрица. Если var (у) = var (s) = с W~\ то var (у*) = var (e*) = с\п. Достоинство рассмотренного метода в его простоте, однако он дает плохие результаты, если W является почти вырожденной или вырожденной матрицей. Подход, работоспособный в общем случае, изложен в работе [171]. Эквивалентность взвешенного и невзвешенного методов наименьших квадратов *. Условие, при котором минимизация (у— Xb)'W(y—ХЬ) дает те же оценки параметров, что и минимизация (у — ХЬ)' (у — ХЬ), состоит в том, что для некоторой матрицы С выполняется WX = ХС. Например, это условие удовлетворяется, если первый столбец в матрице X состоит из единиц и W" состоит из элементов wu = т2, w*' — = рт2 для / ф /. В упражнении 13 в конце данной главы приводится более общая форма матриц W, такая, что WX = ХС. В работе [183] даются необходимое и достаточное условия для того, чтобы выполнялось WX = ХС (см. также работы [232] и [230]). Если матрицы W и/или X не имеют полного ранга, то сформулированное выше условие должно быть слегка модифицировано. Предположим ,JWX = ХС. Тогда в самом общем случае Х'ХЬ = Х'у означает С'Х'ХЬ = С'Х'у и, следовательно, X'WXb = X'Wy! Таким образом, решения, получаемые с помощью невзвешенного метода наименьших квадратов, входят в число решений, получаемых с помощью взвешенного метода наименьших квадратов. И наоборот, предположим, что каж- !Дое решение b уравнения Х'ХЬ = Х7у является также решением X'WXb ~ X'WyT_ Тогда, подставляя b = (Х'Х)~ Х'у в X'WXb = = X'Wy, где (Х'Х)~ — есть обобщенная обратная матрица, которая дает решение Ь, получаем С/Х'у"= X'Wy, где C = (X'^)jX'WX. Поскольку это верно для каждого у, отсюда следует, что WX = ХС (см. также параграф 3.8. и упражнения 13—15 в параграфе 3.16, где приводится краткая характеристика свойств обобщенных обратных матриц). 71
2.13*. ТЕОРИЯ: ВВЕДЕНИЕ НОВЫХ ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ В МОДЕЛЬ РЕГРЕССИИ Пусть X =]_ХA), ХB)] и b = [bA), bB)]. При подгонке только по столбцам матрицы ХA) система нормальных уравнений регрессии будет выглядеть так: (l)A.(l)U(i) —ЛA)у. ^Ю.1^ Если дополнительно вводятся новые столбцы ХB), то система примет вид X' ХЬ = Х'у. A3.2) Тогда >и S12 ХB), у] ), ХB), у]= ХB)У (Нет необходимости в записи подматриц, расположенных ниже главной* диагонали.) С помощью разложения Холецкого эта матрица сводится к произведению треугольных матриц с A3.3) Если матрица дисперсий-ковариаций для у равна a2 In, Totly не коррелирует с\у. Фактически же, как сейчас будет показано, все элементы ty между собой не коррелируют. Некоррелирующие элементы iy. Предположим, что в у= ХA + г элементы ег- вектора е назависимы и одинаково распределены с дисперсией, равной а2. Следовательно, тп 0 0' .Ти * 22 0' ^2у hy Тогда var (у) = var (г) = а21П. X' X" Т-Ха2= Таким образом, элементы ty между собой не коррелируют. Если делается более сильное предположение, а именно, что в* независимы и нормально распределены с общей дисперсией б2, то в этом случае элементы 1У также являются независимыми и нормально-распределенными с общей дисперсией б2. Отметим, что при получении этих 72
результатов не делалось никаких предположений относительно величины ожидаемых значений у. Некоторые алгебраические тождества, в которые входят подматрицы Т. Записав Т'Т = S в виде соотношений входящих в них подматриц, получаем T[,T12=S12, A3.4) ТпГ1у=ХA)у, A3.5) fl'2FliV-t-f22F2?/=X{'2)y. A3.6) Тогда в соответствии с A3.6) на основе A3.5) находим Т22 72у=х('2)у—т|2Г1у = ХB)у—т^т;-1 х('оу. A3.7) Независимость b(i> и ЬB). В процессе приведения матрицы S к верхней треугольной форме система A3.1) сводится к Tub?i)-V A3.8) Система A3.2) сводится соответственно к ГпТ„1 ГЬ<1I К1 A3.9) о T22J [bB)J UJ Таким образом, так что b{2)=T2-2{Uy. A3.10) Поскольку tly и t2v не коррелируют, отсюда следует, что не коррелируют и b?i) и Ь®2>. Кроме того, т. е. Это позволяет записать БA) = b(°i) + Ab(°i), A3.11) где Ab°i)=—Т"п1Т12БB) не коррелирует с b(°i >. Изменения теоретических значений. Рассмотрим теперь у0---1('о Б<°|), У = V Ъ> где Г = [l(i), 1BI- 73
Тогда А? =?т-?=ТA,ЬA) + 1;Ь,—^Dbfi, =T(i, Ab(oi,+TB)bB,. A3.12) Эти результаты означают, что Д#° не коррелирует с у0. Такие изменения теоретических значений наиболее просто могут определяться с помощью соотношения, вывод которого приводится ниже; Имеем f ,V A3.13) где (Тр1)'=[d(i), dB)J. Записав Тр~Ч в терминах подматриц Т^1 легко показать, что d( d == TiT11< i> и, следовательно, d('i) tly =y°. Из A3.13) далее вытекает, что В параграфе 5.4 показано, каким образом этот результат может быть использован в расчете оценки эффектов в задачах планирования эксперимента с ортогональными планами. 2.14*. ТЕОРИЯ: РЕГРЕССИЯ ОТКЛОНЕНИЙ НА ОТКЛОНЕНИЯ В соответствии с A3.11) где матрица В12 такая, что Т12В12 = Т12. Отметим, что у— XA)fc(D является вектором отклонений для случая, когда у регрессируется на столбцы матрицы Хц). Кроме того, каждый столбец Х<2> — Xd)B12 представляет собой вектор отклонений от регрессии соответствующего столбца матрицы ХB> на столбцы Х(Х> (см. A.4) для аргументации данного утверждения). Предположим теперь, что у— X(X)b(i) регрессируется на столбцы Х<2) — Х(Х)В12. Уравнение A4.1) означает, что принятие ЬB) в качестве вектора коэффициентов регрессии будет приводить к получению такого же вектора отклонений и такой же остаточной суммы квадратов, что и в случае, когда у регрессируется на столбцы X. Более того, никакой другой выбор (например, Ь*2)) не может привести к получению меньшей величины суммы квадратов. Поскольку если бы это было сделано, мы могли бы записать [У — X(l)D(l)J — L B) — **( 1) ¦*12J "B) == У — 1л.A), X.B)J X D(D — В12 "B) | ~ _v"h* к* I У" ' ЬB) J с величиной суммы квадратов, меньшей, чем у — X Ь. 74
Этот результат может быть использован для разработки метода построения множественной регрессии с помощью расчета некоторой последовательности парных регрессий. Подробности приводятся в конце параграфа 4.8. Таким образом, становится возможным осуществлять проверку на линейность по мере построения каждой следующей парной регрессии. В работе [9] показано, какой большой объем информации может быть получен при этом подходе. 2.15. ЧТО ЕЩЕ МОЖНО ПОЧИТАТЬ В книге Ф. Грейбилла [96] содержится элементарное введение в матричную алгебру. Материал изложен применительно к проблемам, рассматриваемым в курсе статистики. Р. Плакетт [179] обсуждает разложение Холецкого и приводит ссылки на большое число более ранних работ на эту тему (см., в частности, [72], [69], [238]). Как отмечалось в параграфе 2.10, существует тесная связь между разложением Холецкого и более старым методом Дулитла, впервые описанным в 1878 г. в работе [67] (см. также [71]). Термины «алгоритм полного разложения Холецкого» и «алгоритм последовательного разложения Холецкого» введены Г. Голубом [93]. Данный метод рассмотрен и в работе [24], где он впервые связывается с именем Холецкого, биография которого приведена в конце настоящей книги. Проблемы интерпретации элементов обратной матрицы, полученной для треугольной матрицы Холецкого, в качестве коэффициентов соответствующих регрессионных уравнений обсуждаются в работе [105]. Библиотека подпрограмм JLINPACK хорошо приспособлена для реализации описанных здесь методов. В соответствующем руководстве [65] содержится много полезной информации относительно количественных аспектов применения методов линейной алгебры. 2.16. УПРАЖНЕНИЯ 1. Определите стандартные ошибки коэффициентов регрессии из упражнений 1 в гл. 1. Исследуйте, как будут меняться значения стандартных ошибок коэффициентов Ьх и Ьг, если в качестве единственной объясняющей переменной использовать хх или х2 (величина оценки а2 во всех случаях берется одной и той же). 2. Пусть LPB)J где соответствующая модель имеет вид у = Хр + е с математическим ожиданием в, равным 0. Покажите, что если модель подгонки выглядит как у°=ХA)Ь^1) (а это предполагает, что у = Х^Р^) + е°), то смещение в теоретическом значении, соответствующем! = [Гц), 7B>], равно: )~ Х('1)ХB) —1B)) Р(Я)- 75
3. JlycTb Хд = [x0, xlf ..., xk] состоит из первых к + 1 столбцов X = Xg. Пусть Т — верхняя треугольная матрица, такая, что Т'Т = X'X = S, причем Т\ используется для обозначения подматрицы, состоящей из строк и столбцов с номера 0 по к матрицы Т. Пусть sj(k) = X'k*j есть вектор элементов с 0 по к-и столбца / матршш S и пусть tj(h) аналогично состоит из элементов с 0 по к-и столбца у матрицы Т. На основе разбиения матриц Т и 5(Т'Т = S) на соответствующие подматрицы покажите, что: а) T/Ui "*/(*)==*/<*). (!>*)'> б) Ци-х) ^ik- в) npHP^^Xft где Xy^_ jj = Xfc—j Ьу^—! есть вектор теоретических значений регрессии х/ на столбцы \k--i- 4. (Продолжение упражнения 3). Пусть t'k есть ^-я строка матрицы Т и пусть S? — k-я строка S. Покажите, что где Tn = Tft-.! и Т12 является матрицей, включающей остальные столбцы в строках с 0 по k — 1 матрицы Т; 5*. (Продолжение упражнения 3). Пусть sffi =\xj—х-^) (х^ — хцку> (h f>k)- Определим rjl.(\..k)z как частный коэффициент корреляции между переменными / и Л т. е. коэффициент корреляции при фиксировании значений переменных 1, 2, ..., к. Покажите, что: а) введенное определение частного коэффициента корреляции приводит к формуле Гу2.1* которая получается, если переменные 1 и 2 в упражнении 3 из гл.1 меняются местами; где stj—2^~q /?. — остаточная сумма квадратов отклонений в регрессии Xj на переменные 1,2, ..., к — 1 (см. параграф 2.1). 6. Допустим, 4to~S является невырожденной симметричной матрицей, разбита на подматрицы, так что Ц§» Ч s-Ц! Ls21 sj I* 76
Докажите, что: а) (S11)-1 = SU — Sl2 S^1 S2i с аналогичным выражением для (S22); б) S2i = S724S21S4. 7. (Продолжение упражнения 6, причем матрица S заменена на матрицу ЦСКП S.) Пусть . (Р-1) дрр Покажите, что (dpp)-1 = d ^i_#2 p_i)). Покажите также, что этот результат сохраняет силу, если заменить р на i (i<p) и R2p(X p^X) на Rf({ /_1 /+ { р). 8. При данном S == Х^Хд путь Т является верхней треугольной матрицей, такой, что Т'Т —S. И пусть, в соответствии с разбиением на подматрицы S в упражнении 6, выполняется Т = Докажите, что: а) Т2 2 Т22 = S22— S21 S б) fi1 ==T~*, Т22 = T2V (Результат а) означает, что Т22 является разложением Холецкого (S22)-1). 9. Предположим, что [X, у] и [X, у] такие же, как ? параграфе 1.8. Используя обозначения упражнения 8, допустим Хя = [X, у]. Покажите, что если Т является верхней треугольной матрицей, такой, что Т'Т = [X, у]' [ X, у], то Т-1 может быть получена из Т-1 исключением из нее первого столбца и строки. 10. Предположим, что 6г-, 0;- и 6i7- определяются, как в параграфе 2.5. Покажите, что где %ij — коэффициент корреляции между Ь\ и bj. (Отметим, что, используя обозначения, которые введены в параграфе 3.5, можно записать т^- = — Гц—,^.) 11. Пусть W является положительно-определенной (или положительно- полуопределенной) матрицей. Предположим, что в у = ХЬ + е вектор b выбран таким образом, чтобы минимизировать ~ё'We. Пусть у" = 7П>. Докажите, что: а) X'We= 0; 6)~y'We= 0. 12. Рассмотрим модель =\,...tm), A6.1) 77
где Хг- состоит из пь одинаковых строк для каждого i. Предположим, что матрица X сформирована посредством заимствования одной строки из каждой матрицы Xlf Х2, ..., Хт и пусть в качестве /-го элемента выступает средняя yt из элементов yt. Покажите, что оценка метода наименьших квадратов ф в уравнении A6.1), минимизирующая S^LjeJ^. равна оценке р, полученной с помощью взвешенного метода наименьших квадратов, в регрессии Г=Хр+7, A6.2) где значение веса для i-й строки равно nt. Приведите выражение для разности в величине остаточной суммы квадратов в уравнениях A6.1) и A6.2). 13*. Пусть X — любая матрица размерности п на р + 1 и А — любая _сим- метричная матрица размерности р -f 1 на р + 1. Покажите, что если V = = ХАХ'+ ф1п, то VX = ХК, где К= АХ'Х + ф1р+1. Выведите, что если существует W = V-1, то обычное уравнение метода наименьших квадратов X7 ХЬ = Х'у имеет то же решениеБТ что и уравнение обобщенного метода наименьших jpaApaToeli^inij^ )f'\Vy. Покажите, что если Ъ = (Х'Х)-1 Х'у" и V = var (у), то var (b) = К (Х'Т)-1. 14*. Покажите, что если var (у) = V (V определяется в упражнении 13), то (Рекомендация. Положите у= V!/2z и используйте упражнение 8 из гл. 3.) 15^. Предположим, что V имеет элементы vtj = a2, vtj = ра2 для * Ф /. Если X — любая матрица размерности п на ^+1, в которой первый столбец состоит из единиц, то покажите, что "V имеет вид, определяемый в упражнении 13, 600 = ра2, прочие элементы А равны нулю и <р = A — р) а2. 16*. Предположим, что V = var (у), a W и X являются такими, как в упражнении 15. Если Ь= (Х'Х)~1Х'у, то покажите, что Выведите, что если^начение s2 получено_делением остаточной суммы квадратов на п — р — 1 и var(b) оценена как s9 (X' X)-1, то полученная оценка будет несмещенной для всех элементов Ь"за исключением Ьо. 17*. Предположим, что элементы вектора наблюдений у распадаются на k групп; элементы различных групп друг с другом не коррелируют, а элементы внутри группы имеют одинаковый коэффициент корреляции р. Допустим к тому же, что vit = var (уг) = а2. Первые k столбцов матрицы X состоят из значений- индикаторов, характеризующих группу, к которой принадлежат наблюдения. Так, в столбце i (I ^ i ^ k) эти значения для наблюдений i-й группы равны 1, а для остальных групп — нулю. Покажите, что тогда где ф =- A — р) а2 и А имеет элементы 6^ = ра2, если 1 < * <_fe; в то время как Ьн = 0, если / > ky 6tj = 0, если i ф /. Покажите^ что оценка b обобщенного метода наименьших квадратов для р в модели 7 — Хр + е является той же, что и оценка обычного метода наименьших квадратов. Определите смещение в var (b) и ее оценку, если анализ проводился в предположении, что V = Гпа2. 78
Глава 3 ф МАТРИЧНОЕ ИСЧИСЛЕНИЕ В АНАЛИЗЕ КОРРЕЛЯЦИЙ И РЕГРЕССИИ Методы и идеи, о которых шла речь в гл. I и 2, обсуждаются здесь более подробно. Особое внимание уделяется матричным операциям и их вычислительным свойствам. В параграфе 3.5 приводятся формулы расчета коэффициента частной корреляции. 3.1. ВВЕДЕНИЕ Обозначения. В матрице исходных данных каждая переменная хи *2» •••» хр ИУ представлена соответствующим вектор-столбцом значений. Кроме того, имеет смысл ввести в матрицу нулевой столбец, состоящий из значений 1,0. Значения этого нулевого столбца характеризуются как значения фиктивной переменной, дг0, тождественно равной единице. Таким образом, определим следующие матрицы и векторы: Л1 > ... At ?) #22 X2p v -——* 1 Xni Xn2 Xi X12 Х2 ... Хц, Ух Уг .Ут, у =.- Ух ~"У У*—У В зависимости от контекста рассматриваются Xq -¦= [X, у] или Р+ 1)- Xq = [X, у]. Определим далее матрицы: S = [X, у]' [X, у] (с элементами <*,/, /, / = 0, ..., q матрица СКП (матрица сумм квадратов и произведений); S = [X, уПХ, у] (с элементами su; i, j= 1, ..., q) — матрица ЦСКП (матрица центрированных, т. е. скорректированных сумм квадратов и произведений). Матрица Т (с элементами ^/, i, / — 0, ..., q) представляет собой верхнюю треугольную матрицу, такую, что Т'Т = S, тогда как матрица Т (с элементами trf, i, j = I, ...9q) такова, что Т'Т = S. Отметим, что мат- 79
рица Т может быть получена исключением первой строки и столбца из матрицы Т. Темы, к обсуждению которых мы приступаем. В этой главе будут более детально рассмотрены матричные методы, применявшиеся при проведении расчетов в гл. 1 и 2. После изучения приведенного здесь и в гл. 5 материала станет очевидно, что эти методы могут быть использованы при исследовании и более широкого круга проблем. В следующей главе подробно освещается несколько методов формирования верхней треугольной матрицы Т, такой, что Т'Т = X'gXq, с помощью применения ортогонального преобразования к столбцам Xq. Будут представлены три альтернативных метода, основанные на трех альтернативных формах ортогональных преобразований. В случаях когда между столбцами Xq имеются зависимости, близкие к линейным, эти методы обеспечивают более высокую степень точности, получаемую ценой дополнительных расчетов. При этом полезно определить обстоятельства, при которых достижение повышенной точности является оправданным и необходимым. Рассматриваемые в последнем параграфе методы могут также использоваться для решения других задач. В особенности это относится к модифицированному методу нахождения матрицы Т, основанному на изменении порядка расположения столбцов в матрице X иш добавлении (исключении) одной или большего количества строк из Xq. Методы подобного типа обсуждаются в гл. 4. 3.2. ОБЩЕЕ ОПИСАНИЕ И ПОДСЧЕТ ЧИСЛА ОПЕРАЦИЙ Этапы формирования матриц Т или Т. В гл. 1 и 2 все расчеты начинались со столбцов, имеющих номера с 0 по q, матрицы [X, у], определенной нами в параграфе 3.1. Первый этап состоял в формировании матрицы СКП S или матрицы ЦСКП S. Более предпочтительным с точки зрения погрешностей вычисления для формирования матрицы ЦСКП является метод, при котором используется формула адаптирования из параграфа 1.7. При формировании S или S требуется немногим более A/2) nq2 операций умножения. Для целей нашего анализа подобный приближенный подсчет числа перемножений, проводимый без учета других операций *, обеспечивает достаточно адекватную меру определения объема проводимых вычислений. Напомним, что следующий шаг состоял в формировании верхней треугольной матрицы Т или Т, такой, что S = Т'Т, S = Т'Т. Полученная верхняя треугольная матрица следующим образом разбивается на подматрицы: Т t,# I т II», Т|/ I = р, ч \ или Т= ; I 0' tyv I [О' tyy I 1 Таких, как сложение и вычитание. — Примеч. ред. 80
Отметим, что первая строка матрицы Т состоит из элементов Если эту первую строку и первый столбец исключить из матрицы Т, то получится матрица Т (см. упражнение 4 в гл. 1). Таким образом, матрица Т легко получается из Т и наоборот. Предпочтительнее вначале работать с матрицей ЦСКП, полученной с помощью формулы адаптирования из параграфа 1.7, на базе которой формируется матрица Т. Матрица Т затем расширяется, как показывалось раньше, и получается матрица Т. При таком подходе, с одной стороны, удается достичь более высокой степени точности расчетов, обусловленной способом формирования матрицы ЦСКП. С другой стороны, с матрицей Т работать удобнее, чем с матрицей Т. При формировании матрицы Т или Т из S или S осуществляется примерно A/6) qs операций умножения. (Здесь мы пренебрегаем разницей между q + 1 и q.) Это число операций существенно меньше соответствующего числа операций при формировании матрицы S или S, особенно если п значительно больше, чем q. Таким образом, очень грубая оценка числа_перемножений, требующихся для формирования матрицы Т или Т из [X, у], определяется величиной A/2) nq2. В следующей таблице проводится сопоставление объемов вычислений, необходимых для получения матрицы Т или Т с помощью планар- ных (плоских) вращений Гивенса или отражений Хаусхолдера, рассматриваемых далее в гл. 4: Формирование S или S, затем Т или Т Формирование Т из [X, у] на основе планарных вращений Формирование Т из [X, у] на основе отражений по Хаусхолдеру Число перемножений A/2) nq* 2nq* пд* Преимущество метода планарных вращений перед методом Хаусхолдера состоит в том, что матрица [X, у] обрабатывается построчно, как в обычном методе решения систем нормальных уравнений. Это может оказаться важным при использовании машины с ограниченным' объемом памяти, если п велико по сравнению с q. Имеются модификации метода плоских вращений, при которых число перемножений сокращается почти до nq2. 81
Вычисления после формирования матрицы Т или Т. Оценки коэффициентов регрессии получаются в результате решения относительно b системы уравнений ТРЪ=\ B.1) или относительно b системы уравнений Tj,b==ty. B.2) В большинстве случаев мы будем работать с системой B.1). При изучении регрессии на первые k объясняющих переменных для k < р, матрица Тр может быть заменена, как и в параграфе 2.1, на ТА, b наЬЛ и ty на1у(к). Решение B.1) или B.2), а также последующие расчеты могут быть описаны с помощью следующей последовательности матричных операций: 1. Решение системы уравнений с верхней треугольной Приблизительно матрицей вида B.1) или B.2) 0/2) р2 перемножений 2. Решение системы уравнений с нижней треугольной матрицей; так, для определения стандартной ошибки A/2)р2 перемножений для #= ГЬ необходимо решить систему Tph — I 3. Определение матрицы, обратной к Тр 0/6) Р3 + 0/2)р2 перемножений 4. Формирование Т/71 Тр на основе Т/Г1 A /6) р3 + A /2) р2 перемножений Эти операции обходятся с вычислительной точки зрения относительно дешево по сравнению с затратами на первоначальное формирование матрицы Т или Т. Решение систем уравнений с верхней треугольной матрицей осуществляется особенно легко и просто. Проводить дополнительные вычисления, связанные с построением Spl при наличии матрицы Т (или Т), для получения значений коэффициентов регрессии нет необходимости; к тому же они привели бы к росту погрешностей вычислений. Все расчеты здесь начинаются с приведения матрицы S (или S), к верхней треугольной матрице Т, такой, что f'T=S. Матрица Т является очень удобной формой представления матрицы S для проведения всех последующих вычислений. При расчете Sp для Sp необходимо проделать примерно в три раза больше работы по сравнению с формированием матрицы Т из S; фактически каждая из стадий s-иг, Tp-*fp-\ т^1-+т^1тр-* требует примерно A/6) р3 + A/2) р2 операций умножения. 82
3.3*. СУЩЕСТВОВАНИЕ РАЗЛОЖЕНИЯ ХОЛЕЦКОГО В этом параграфе мы рассмотрим вариант доказательства, предложенного в упражнениях 8, 9 и 10 из гл. 1, и распространим его на случай, когда между отдельными столбцами матрицы Xq имеется линейная зависимость. Пусть Xft = [x0, х,,..., xh] является подматрицей Х^, состоящей из столбцов с 0 по k. Пусть Sh = X'kXh и пусть s^-d = X^_i x^ — вектор, состоящий из элехментов с 0 по (k—1) столбца / матрицы S=X'gXq. Пусть Pfe_!= Xft_! (X^_i Xfe_1)~1X^_i. Предположим вначале, что столбцы Xq линейно:независимы. Матрица Р^_х тогда является проективной матрицей; она проецирует векторы на пространство, натянутое на вектор-столбцы матрицы Xh-i- Предположим, что Тк-г и векторы t^b-D (/ = К А + 1, ..., q) сформированы таким образом, что T;.1T'fc_1=sJk-1, C.1) :П_1ГЛ1г-1,= 8ЛЛ-1) H^k). C.2) Иными словами, сформированы строки с 0 по k — 1 искомой матрицы Т, такой, что Т'Т = S. Элементы tkj в строке k этой искомой матрицы должны удовлетворять соотношениям tkk = shk — tk(k—\) h(k-\) =x'k (I— Pfc-^Xfc, C.3) tkk tkj = shJ — U{k-1) tf(k- \) = x'k (T— Pft-i)xj (j>k). C.4) Эти соотношения следуют из записи элементов строки k в матрице S = •= Т'Т в виде скалярных произведений столбцов матрицы Т. Поскольку мы предполагаем, что xk не является линейной комбинацией столбцов матрицы Xfe_i, из этого, как и в упражнении 8 из гл. 1, следует, что х^ (I — Pfc-i) xft >0. Тогда в уравнении C.3) tkk Ф 0; удобно принять tkh >0. Из уравнения C.4) определяется thj для / > к, для / < k полагаем tkj = 0. Следовательно, если строки с 0 по k — 1 матрицы Т сформированы, то мы можем по индукции сформировать строку k. Элементы нулевой строки матрицы Т находятся как 'o/ = -^-(/ = 0f lf...f q). soo Посмотрим теперь, как следует изменить наши рассуждения, если среди столбцов матрицы X имеются линейно — зависимые. Как и раньше, будем предполагать, что строки с 0 по k — 1 искомой матрицы Т уже сфор- 83
мированы и что все элементы tfj в строке / (/ < k) матрицы Т равны нулю, если tu =~- 0- Пусть матрица Ttk-i идентична Tft_lf за исключением нулевых диагональных элементов, на месте которых в ней стоят единицы. Соотношения C.1) и C.2) здесь по-прежнему выполняются; кроме того. Ti-.Tfc-^Sfc-i. (З.Г) Ъ-~\пь-1)=~*нъ-1)Ц>Ь). C.2') В случаях когда tn = О заменены при формировании Ть_х на 1 все элементы /-й строки матрицы Tft_j по-прежнему равны нулю. Следовательно, предположение о линейной зависимости не оказало влияния на C.1) и C.2). Поскольку Tfe_! — верхняя треугольная матрица, все диагональные элементы которой отличны от нуля, f j^ii существует, и мы можем, используя C.2'), записать: Положим теперь P^^X^^i-iT^^Xi-i. C.5) Как и прежде (см. параграф 3.14), PI-I = Pk-i; (Г-P.-iJ = i-Pk-» т. е. P^_j является проективной матрицей1. Можно отметить также, что xft является линейной комбинацией предшествующих столбцов матрицы Х^ тогда и только тогда, когда xk = Pft>.1xft. Для обоснования этого утверждения снова следует обратиться к параграфу 3.14. Если матрица Pft_x определяется из C.5), то tU ^задается C.3), т. е. является суммой квадратов элементов (Г — P^-i) хЛ и равняется нулю тогда и только тогда, когда xk представляет собой линейную комбинацию предыдущих столбцов матрицы Х^. Если t\k Ф 0, то, как и прежде, tkk и tkj (j >k) определяются из C.3) и C.4). Если tkk = О, то отсюда следует, что х? (I — Ph-i) = 0, так что C.4) удовлетворяется для любого набора элементов tkj (/ >k). Мы полагаем tkj = 0 для / >k\ тогда остается справедливым утверждение, что если диагональный элемент равен нулю, то и все остальные элементы данной строки также равны нулю. На основе изложенного можно выработать практическое решение, как надо поступать, если в процессе расчетов получается, что, в пределах машинной точности, tkk = 0. В этом случае все элементы данной 1 Такие матрицы называют также идемпотентными. — Примеч. ред. 84
строки матрицы Т полагаются равными нулю, а расчеты продолжаются по той же схеме. Пример. Рассмотрим следующую матрицу: 36 12 30 6 18 . 20 2 10 22 . 29 1 7 . • - 14 20 .... 40 Исходная матрица \qy для которой S является матрицей ЦСКП, приводится в параграфе 3.5. Записывая под каждой строкой вычислений этапы преобразования матрицы S с помощью метода АХПР, получаем: 36 12 зо б 18 Разделим на "|/36 Сформируем 2t[ Вычтем Разделим на У7б И ^2 2 Т~\ =/, Сформируем Вычтем t[ — 2t'2 Сформируем t[~\2t'2-\-0 Вычтем Разделим на ~j/9 | 6 2 20 4 16 1 4 1 5 2 10 —8 —2 29 29 0 1 10 2 8 2 1 / 0 14 5 9 \з 3 1 22 6 16 4 1 7 7 0 1 20 11 9 з \ Сформируем Вычтем Разделим на ~|/б -4/2+0 + 3/; 40 J4 6 6\ = Элементы верхнего треугольника матрицы S напечатаны обычным шрифтом, промежуточные выкладки — курсивом, конечные результаты даются курсивом и заключены в прямоугольники. Таким образом, получаем Т — 6 0 0 0 0 2 4 0 0 0 5 —2 0 0 0 1 2 0 3 0 3 4 0 3 Кб 85
Отметим, что 6 0 0 0 0 2 4 0 0 0 5 — 2 I 0 0 1 2 0 3 0 3 4 0 3 Кб т == 3.4*. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ РАЗЛОЖЕНИЯ ХОЛЕЦКОГО В этом параграфе будут подведены итоги обсуждения методов формирования матрицы S = Х^Хд на базе одной из версий матрицы исходных данных Xq с последующим вычислением верхней треугольной матрицы Т, такой, что Т'Т = S. Отметим, что описанный алгоритм получения Т легко может быть модифицирован для построения вариантов метода разложения, обсуждавшихся в параграфе 2.10, которые в дальнейшем не рассматриваются. Главное внимание было уделено двум алгоритмам формирования матрицы Т — алгоритму Холецкого полного разложения (АХПР) и алгоритму Холецкого последовательного разложения (АХСР). Обсуждение этих алгоритмов позволило нам рассмотреть множество идей. В гл. 4 мы возвращаемся к алгоритмам, при которых матрица Т (или ее эквивалент) формируется непосредственно из матрицы X с помощью методов ортогонализации. При описании расчетов будем предполагать, что матрица СКП уже сформирована. Если в матрице Х<, нулевой столбец состоит из единиц, желательно, чтобы была уверенность в том, что любая используемая на практике матрица СКП S строится для значений переменных, являющихся приблизительно центрированными. (Средние значения переменных должны находиться в пределах одного или двух стандартных отклонений от нуля.) В противном случае вначале нужно построить матрицу ЦСКП S, а затем на ее основе сформировать матрицу Т. Далее, если это необходимо, может быть сформирована матрица Т, такая, что Т'Т = S, посредством добавления в матрицу Т соответствующего нулевого столбца и строки. Предполагается, что строки и столбцы матрицы S и соответственно строки и,столбцы Т имеют номера с 0 по q. Чтобы представленная на рис. 3.1 схема, составленная для случая, когда строки с 0 по k — 1 матрицы Т уже сформированы, стала более понятной, разобьем матрицу Т на блоки: | строки с 0 по ft — 1, строки с k по д. Гт„ ти1| Lo tJ) Символ Тп использован здесь как сокращение обозначения Тп<л-1) (в некоторых случаях записываете как Ти_г)); строки и столбцы 86
этой матрицы имеют номера с 0 по к — 1. Матрица Т12 (= T12(ft-1)) состоит из столбцов, оставшихся в строках матрицы Т, имеющих номера с О по к — 1. Разбиение матрицы S осуществляется аналогичным образом. Вначале рассмотрим АХПР. Алгоритм Холецкого полного разложения (АХПР). Удобно будет предположить, что элементы матрицы Т, по мере их формирования, записываются на месте соответствующих элементов матрицы S. Стадия расчетов, на которой уже сформированы строки матрицы Т, имеющие Чк Формируем Тогда при условии 2 (* skj Рис. 3.1. Алгоритм Холецкого полного разложения номера с 0 по к — 1, выглядит так, как показано на рис. 3.1. Чтобы сформировать строку к матрицы Т, необходимо для каждого / = к, к + 1, ..., q повторить следующую последовательность операций: 1) формируем s^-^=skj—2*;r^/|fc*f/, для k = 0 получаем s^71)== = sft7«. При j = k проверяем положительность величины s^-l). Если окажется, что в пределах точности вычислений s^"u^0, то полагаем dk = 0. В противном случае полагаем dk = (s[kk-{>)-1/2; 2) вычисляем tkj = dks{kf~l) для / > к. Проблема выявления линейных зависимостей (одно или несколько значений dk = 0) будет рассмотрена после обсуждения АСХР. Алгоритм Холецкого последовательного разложения (АХСР). При использовании этого алгоритма величины shj из к-й строки матрицы S модифицируются следующим образом. Сначала вычисляем sty, затем 87
s{fof\ ..., затем si) l\ прежде чем будут заменены элементы tkj(j > k) в k-n строке матрицы JT. Стадия расчетов, на которой уже сформированы строки матрицы Т, имеющие номера с 0 по k — 1, выглядит так, как показано на рис. 3.2. Этапы, связанные с формированием строки k матрицы f, состоят в следующем: 1) определяем, является ли соответствующий статистический и/или числовой критерий, т. е. s{kfl\ положительным и отличным от нуля. Если Skl~X) ex. 0, полагаем dfe = 0. В противном случае dk = (siV~l))~/2; 2) формируем tkj-=dh s[kf~]) для j=k, k + l, ..., q\ 3) формируем s<*) = s}?-) — tkitkj для / = й + 1, ..., q\ j^i. Строки, имеющие номера с 0 по к-1 матрицы Т \ (Приводится только верх треугольник) Эти значения не будут нужны для расчета последующих строк матрицы Т Строка к матрицы Т формируется из элементов этой строки Элементы этой матрицы будут описаны в виде Рис. З.2. Алгоритм Холецкого последовательного разложения Когда~ikk~l) (= &kk) может считаться равным нулю? Данный вопрос уже кратко обсуждался в параграфе 2.9. Ряд связанных с ним проблем будет подробно рассмотрен в параграфах 3.10—3.13. Отметим здесь лишь два основных момента: 1. Если величина skk~l) очень мала, то она не несет смысловой нагрузки. Предположим, как в параграфе 2.9, что компьютер сохраняет в памяти h значащих десятичных цифр, получаемых в результате выполнения любой арифметической операции. Тогда tkk следует положить равным нулю, если в расчетах получается, что s{mTX) < Ю~л skh. Если говорить более конкретно, то вместо 10~h во внимание должен приниматься машинный нуль е. Здесь мы определяем е как наибольшее значение относительной ошибки, которая может быть получена при округлении или отбрасывании последних значащих цифр в результатах отдельных арифметических операций. При проведении расчетов с одинарной точностью обычно значение heal. Примером могут служить компьютер IBM 360/370 F шестнадцатеричных цифр, е 2*9,5-Ю-7) и машины
семейства компьютеров PDP11 B4 двоичных цифры, е~ 1,2 • 10~7). Машинами с существенно более высокими значениями h одинарной точности являются ЭВМ типа Burroughs В 6700/7700 (h ~ 11,7; е ~ 7,3 X X Ю-12) и CDC 6600 (h ~ 14,4; е ~ 7,1- Ю~15). 2. Предположим, что значения переменных являются приблизительно центрированными, так что величина skk =? 6kh + пх% не превосходит примерно 5dkh. Предположим, например, stkX =-¦ 0,002 skk. В этом случае, особенно если к существенно больше 7, мы не должны чрезмерно беспокоиться по поводу каких-либо числовых проблем. Однако в соответствии с A.7) из параграфа 2.1, заменяя tlk на SkSTl), получаем Этот результат, если не учитывать, что исходные данные, возможно, измерены с высокой степенью точности (и действительно соответствуют нашей линейной модели), фактически означает, что столбец k матрицы X представляет собой линейную комбинацию ее предшествующих столбцов. В программе, подробно рассматриваемой в параграфе 10.7, параметр точности проведения расчетов исходя из общих соображений положен равным 0,001. Это означает, 4Tofftft будет приниматься равным 0 (и tkj = 0 для / >&), если 6kkSkfrl) < 0,001. Пользователи, полагающие, что в том или ином частном случае значение этого параметра следует взять более низким, могут соответствующим образом изменять значение параметра точности. Однако чтобы не сделать подобное изменение не имеющим смысла, нужно быть уверенным в том, что точность проведения машинных арифметических операций достаточно высока. В противном случае следует обратиться к одному из алгоритмов ортогонализации, которые рассматриваются в гл. 4. С их помогЦью матрица Т формируется непосредственно из Хя. Альтернативный подход состоит в том, что информация о природе зависимости, близкой к линейной, между столбцом к и предшествующими столбцами матрицы Хд может быть использована для проведения перепараметризации модели, что позволит разрешить стоящие перед исследователем проблемы. Пример: thk ~ 0. В приведенном в параграфе 3.12 примере х3 ~ а* 1/2 + хг — \12х2. Как результат получаем #!<lt2) ^ 0,99997 и varF3) = 1111 ff2. Если исследователь считает, что в данной регрессии нужно сохранить переменную х3 или какой-либо ее эквивалент, то преимущество в последующем анализе следует отдать варианту с заменой *3 на *3* = х3 — хх + 1/2х2 — 1/2. Более строгие методы проверки на точность вычислений *. А. Миллер [153] предложил тест на вырожденность матрицы, состоящий в следующем. Предполагается, что все элементы, расположенные в строке i матрицы Т\ имеют примерно одинаковую относительную числовую ошибку гь которая (за исключением первой строки) возникает главным образом в результате распространения относительной ошибки в величине диагонального элемента tti на остальные элементы строки как следствие 89
деления на tu. Предположим, что rt имеет дисперсию, приблизительно равную y2t. Тогда поскольку It и A + rt)]2 ~ Рн A + 2гг), абсолютная ошибка в величине si*.-1* = t2u равна: i—\ /=0 Если рассчитанное значение t2u = s^* оказывается меньше, скажем, утроенного значения своей стандартной ошибки, т.е. меньше &ytt2uf то это может служить индикатором возможности вырожденности матрицы. Для первой строки величину Yo следует взять равной, по крайней мере, е, где е представляет собой машинный нуль, о котором говорилось раньше. 3.5. ЧАСТНЫЕ СУММЫ КВАДРАТОВ И ПРОИЗВЕДЕНИИ Связь приведенных здесь результатов с АСХР почти несущественна; при использовании АСХР они являются промежуточными, и введение их именно в этом месте изложения логически оправдано. Они будут занимать центральное место в последующем обсуждении проблем классического многомерного статистического анализа (см. гл. 6). Стадию расчетов, когда с помощью АСХР сформированы строки с О по k матрицы Т, можно наглядно представить так: i строки матрицы f с 0 по k, !i2 I промежуточные величины, необходимые для фор- L 0 S22.iJ мирования последующих строк Т Напомним, 4toT|i T11 = S11, TJiT12 = S12. Кроме того, ^22.1 * 22 1 22 = (р. 1/ S~~ Т"' Т7 /^ 9\ 22 * 12 * 12- \У»*) При условии, что Su имеет обратную матрицу, последнее выражение можно переписать как S22 ¦*— S^Sn1 S12. Матрица S22.x играет важную роль при рассмотрении разнообразных проблем многомерного статистического анализа. Как будет доказано, она является матрицей сумм квадратов и произведений отклонений: X/ —х/(Л), j = k+l, fe+2, ..., q, 90
где x/(ft) представляет собой вектор теоретических значений для случая, когда xj регрессируется на столбцы Х& = [х0, xlf ..., xft)]. Иными словами, (/, /)-й элемент (/, / >k) ^22.i равен: s<*> = (ъ-% <*> У (хЕ -% (а, ). E.3) Матрица S22.i является матрицей частных сумм квадратов и произведений; на ее основе могут быть рассчитаны частные дисперсии и кова- риации и частные коэффициенты корреляции (см. упражнение 5 в гл. 2). Теоретический вывод. Уравнение E.1) выполняется в силу того, что этапы формирования f2 точно соответствуют этапам, требующимся для получения разложения Холецкого матрицы S2a.i- Уравнение E.2) тогда является следствием уравнения A2.5) из гл. 1. Для вывода E.3) предварительно отметим, что (см. параграф 3.4). Аналогично, выражая s^-1) через s<f~2) и т. д., наконец, получаем: sfsji- 2 U, ta = E.4) (k)- E.4') Объединяя s/i = x'/Xi с C.2), находим: Отсюда (ср. с C.4)) = х/ (Г— Pk)xi = х/ (T-Pfe)(T-Pfe)xz - (xj — х, {k)Y (x,—"x, <*,). E.5) Последнее равенство в E.5) было получено в силу того, что мы, принимая bJJt в качестве вектора коэффициентов регрессии х^ на столбцы матрицы Xft, имеем ху = XfcБ/.* = Xk (Xi Xfc) Xi х, = В параграфе 3.14 показано, как следует изменить аргументацию в случае, когда матрица Xk не имеет полного ранга. Необходимо подчеркнуть, что уравнения E.1) и E.2) позволяют сформировать матрицу S22-i независимо от того, имеет ли Sn обратную матрицу. Отметим, кстати, что матрица ЦСКП равна SM.i ш с k = 0. _ Альтернативные методы формирования матрицы S22<1 и соответствующих коэффициентов частной корреляции. Если используется АСХР, то после формирования строк матрицы Т с номера 0 по k вычисления 91
следует прекратить. Тогда в строках и столбцах с k + 1 по q содержится матрица Saa.le Если применяется более распространенный АХПР, то требуется сформировать строки матрицы Т с номера 0 по k. Затем из уравнения E.2) находим $22.1 = ^22 Ti2T12. E.6) Если матрица Тп уже построена, а Т12 требуется сформировать, то сделать это можно, решив относительно Т12 соотношение Тп' Т12 = = S12, т. е. положить Т12 = TlT1Sa. Если матрица Тп вырождена, то заменяем Tif1 на Tir1, Tn определяется в параграфе 3.3. Если матрица Т построена с помощью одного из алгоритмов орто- гонализации, рассматриваемых в следующей главе, то расчеты основываются на уравнении E.1) с использованием соотношения S~~" Т' Т /К 7\ 22.1 == ¦ 22 * ?2- (Э. /; Заметим, что применение стандартной формулы S22.! = S22 — — S^Sf^Sia может привести к обескураживающим результатам. Ее использование связано с необходимостью проведения дополнительных вычислений и требует, чтобы вместо Sfi1 вычислялась обобщенная обратная матрица, если матрица Х^ не имеет полного ранга. После того как матрица S22.! сформирована, может быть рассчитан коэффициент частной корреляции г<*>, измеряющий тесноту линейной связи между Xj и xL (/, t >?), когда переменные с 1 по k принимают фиксированные значения, т. е. г (к) = *Л . E.8) Vs// su ) Ниже показано, как рассчитывать частные суммы квадратов и произведений, а также коэффициенты частной корреляции в общем случае. Использование матрицы S в расчете частных сумм квадратов и произведений. Матрица S22.j частных сумм квадратов и произведений в случае, когда переменные с 1 по k включительно принимают фиксированные значения, может быть записана так: Saa-i = (S22), где матрица S22 состоит из строк и столбцов матриц S" или S-1, начиная с k + 1 и далее (см. упражнение 6а в гл.2). Пусть теперь S** представляет собой матрицу, полученную из некоторой произвольной последовательности строк и соответствующих им столбцов, взятых из матрицы S. Тогда очевидно (допустим, что пере- 92
менные перенумерованы так, чтобы соответствовать переменным из этой последовательности), что матрица (S**)-1 является матрицей частных сумм квадратов и произведений для случая, когда переменные, соответствующие другим строкам и столбцам (не включенным в матрицу S** при ее формировании), принимают фиксированные значения. В частности, рассмотрим случай, когда все переменные, за исключением /-й и /-й, фиксируются в качестве постоянных. Тогда s** = E.9) Частный коэффициент корреляции между xt и х} при условии, что все остальные переменные фиксированы, тогда равен s" -. E.10) Величины sliy s'/ и sfi могут быть получены, если мы возьмем соответственно сумму квадратов элементов, расположенных в i'-й строке матрицы Т-\ сумму произведений элементов /-й строки с соответствующими элементами /-й строки, сумму квадратов элементов, расположенных в /-й строке. Если матрица Т вырождена, то берем Т"-1. Коэффициенты корреляции и частной корреляции как характеристики тесноты линейной зависимости. В рассчитанном значении коэффициента частной корреляции не отражается наличие возможного нелинейного компонента зависимости. Для выявления предполагаемой нелинейности желательно, чтобы расчет г<|> сопровождался изучением графика с координатными осями xj — xjk и Xi — Хцк). В контексте регрессионного анализа (например, в случае, когда xt рассматривается в качестве зависимой переменной, переменные 1, ..., к являются объясняющими, переменная / — кандидат на включение в число объясняющих) данный график называется графиком частной регрессии. Если для приведения матрицы X к верхней треугольной форме используется рассматриваемый в параграфе 4.8 модифицированный алгоритм Грама — Шмидта, то векторы х7- — xj(k) и X/ — х/(Л) появляются в соответствующих им столбцах (/ и t) на этапе вычислений, когда расчеты в столбцах с 0 по k матрицы Xq полностью закончены. В противном случае они Должны рассчитываться специально, как показано в следующем приме- Ре. Рассмотрим уравнение регрессии ' хр. E.11) 93
Из обсуждения, проведенного в параграфе 2.16, следует, что значение bj может быть получено с помощью нахождения отклонений у — г/—у в регрессии у на асе переменные хг за исключением xj. Эти отклонения per- рессируются на отклонения Xj — */.-./ в регрессии л:7-навсе объясняющие переменные xt. Отсюда следует, что sji (s/) где симзол . —j означает «значения всех объясняющих переменных за исключением х} фиксированы». Отклонения от этой регрессии представляют собой отклонения у — у от регрессии E.11). Пример. Расчет коэффициентов частной корреляции. Рассмотрим следующую матрицу исходных данных: 3 2 —2 —1 3 2 2 2 О О —2 — 1 1 3 2 — 1 1 -1/2 7/2 7/2 — 1 — 1 2 3/2 — 1 2 —2 2 — 1 1 О" О 2 1 j 3 4 —2 3 Заметим, что ха =д:1~ 1/2х2 +1/2; однако здесь затруднений в вычислениях этот факт вызывать не будет. Матрица СКП выглядит так: S = 6 40 3 14 21 9 36 5 38 3 8 11 4 15 6" 22 24 13 22 44 1 Разложение Холецкого таково: ; ГТ21 Т121 Lo tJ 3 0 0 0 0 0 2 6 0 0 0 0 1 2 4 0 0 0 3 5 —2 0 0 0 1 1 2 0 3 0 ' 2 3 4 0 3 V* 94
Если матрица Т сформирована непосредственно из Xq с помощью метода ортогонального приведения к верхней треугольной форме (см. гл. 4), то простейший способ формирования матрицы частных сумм квадратов и произведений при данном хг состоит в нахождении Т22 Т22 = 16 — 8 4 8 4 13 16 — 8 17 31 Альтернативно матрица S22.i может быть получена при осуществлении двух этапов АХСР (см. параграф 3.4): Гтитм 1 Lo s.22.J 3 0 0 0 0 0 2 6 0 0 0 0 1 2 16 • 3 5 —8 4 • 1 1 —8 —4 13 • 2 3 16 —8 17 31 Если расчеты основываются на матрице ЦСКП, то первая строка и столбец не участвуют в вычислениях. ^Наконец, матрица S22.i может быть построена по формуле S22— - T'uT\t. т. е. '21 5 38 • 11 4 15 • 6 24" 13 22 44_ 3 1 _2 — 8 8 4 4 . 13 2 5 1 3 Г 1 3 1.2 5 16" -8 17 31 1 2 1 3 Полученная матрица §2ъ.г может использоваться в расчете любого частного коэффициента корреляции, для которого значение хг фиксировано. Так, Г8ВЛ= -8/УDх31)~ —0,72. Полученное значение представляет собой частный коэффициент корреляции между отклонениями от регрессии х3 на хг и отклонениями 95
от регрессии х5 на хг. Высокое (положительное или отрицательное) значение частного коэффициента корреляции указывает на тесную линейную взаимосвязь между двумя наборами отклонений. Термин «частные отклонения» применяется для обозначения отклонений, использующихся в расчете частного коэффициента корреляции. Графики частных отклонений. Как только что отмечалось, коэффициент частной корреляции является мерой тесноты линейной зависимости между двумя наборами отклонений. Линейность зависимости может быть проверена с помощью изучения графика, на координатных осях которого откладываются значения этих отклонений. Коэффициенту корреляции г35.1 соответствуют следующие два набора отклонений: Y ^У 1/ П/ 20/ 10/ 5/ 7/ 16/ 8/ 1(>/ Х5 Х5Л /6 /6 /6 /6 /6 /6 /в /6 /6 У С* 2/ 10/ 25/ 4/ 11/ 17/ 11/ 2/ 2/ Х3 ХЗЛ /9 /9 /9 /9 /9 /9 /9 /9 /9 Их график называют графиком частной регрессии. В данном конкретном случае имеется в виду регрессия х5 на хг и лс3. 3.6. ГРАФИКИ ЧАСТНЫХ РЕГРЕССИЙ В примере из параграфа 3.5 рассмотрим регрессию хь на предшествующие переменные. Положив Ь3 = О (напомним, что х3 является линейной комбинацией хх и х2,) получаем регрессионное уравнение: Чтобы выявить степень адекватности линейной формы зависимости, постулированной в этом уравнении, фактическим данным, необходимо изучить графики частных регрессий, построенных в следующих системах координат: (Х1— #1.24» ХЪ ^5.24)» (Х2 *2.14> ХЪ ^5.14/» -^ 4.12» Рассмотрим последний из этих графиков. Значения отклонений (рассчитанные, возможно, в таком виде, как показано ниже) равны: v С4 1/ 13/ 10/ 38/ 37/ 13/ 26/ ХЬ Л5.12 ;i8 '18 ;18 718 ' 18 718 718 16/ 26/ '18 718 7 7/ 8/ Ю/ 4/ б/ 4/ 2/ 76 76 76 76 76 76 76- Отклонения в регрессии х5 — х512 на хА — а:4Л2, угловой коэффициент в которой равен fe4, те же, что и отклонения от регрессии хъ на хъ х2 и х4. Таким образом, Х5 -^5.124 — ХЪ -^5.12 — ^4 (^4 *4.12)- 96
Следовательно, величина отклонения х4 — х4Л2 может быть рассчитана как (в нашем примере 64 — = 1). Этот график представлен на рис. 3.3. Од новремен н ы й расчет всех наборов частных отклонений. Существует простой алгоритм расчета всех р наборов отклонений в регрессии вектор-столбца /_(/ = 1, ..., р) матрицы X на ее другие вектор- столбцы. Пусть Х = [Х(Х), хр1 и предположим, что матрица Sp и соответственно Б^разбиты на блоки следующим образом: Sp — Рассмотрим slp .10 6 X 5 6 1 У у 40 30 18 20 18 10 18 10 18 "~18 30 18 40 18 - У У 5. 6 I у У ш 6 I Рис. 3.3. График частной регрессии в системе КООрДИНаТ (Ха—#412, *5—#5-12) хСх'хг1 = х Последний столбец здесь равен: Г5"»"!. L • sPP J Передвигая столбец / матрицы X, а также строку и столбец / матрицы S на место последней строки и столбца и повторяя описанные выше алгебраические выкладки, получаем, что столбец / в X (X'Xj-1 равен s"' X xfxj — Х|_#1. Этот алгоритм предложен П. Веллеменом и Р. Уэлчем [213]. Зак. 1078 97
Отметим, что для расчета величин, необходимых для определения координаты у откладываемых на графике точек, используется соотношение У—7. п/ = У—1+Ь, {xj —"х/л/)« Графики «отклонение плюс компонента». Предположим, что bj является коэффициентом xj в регрессии у на хг, х2> ..., хр. Пусть График частной регрессии для Xj строится в системе координат М. Езекиэл 176] предложил вместо него строить график в системе координат (xj\ е + bjXj). График Езекиэл а также часто называют графиком частных отклонений. Однако, возможно, было бы лучше называть его графиком «отклонение плюс компонента», следуя терминологии, предложенной Ф. Вудом 1227]. Несколько участников дискуссии, вызванной статьей А. Аткинсона [121, пытались провести сравнение этих двух типов графиков. Однако все еще не ясно, какому из них следует отдавать предпочтение. Линия регрессии, определенная с помощью метода наименьших квадратов, имеет один и тот же угловой коэффициент bj для обоих типов графиков. 3.7. СИСТЕМЫ УРАВНЕНИЙ С ВЕРХНЕЙ ИЛИ НИЖНЕЙ ТРЕУГОЛЬНОЙ МАТРИЦЕЙ Системы с верхней треугольной матрицей (обратная подстановка). Рассмотрим систему Tpb = g, где в соответствии с приведенными ранее выкладками (см., например, уравнение B.1)) g = iy(P). Элементы Б определяются как bp = tpPl gp и для i = р — 1, р — 2, ..., О (I уменьшается!) gt- S Ми ) G.1) при условии, что tu Ф 0- Вся процедура в схематическом виде представлена на рис. 3.4. Для наглядности можно элементы вектора b по мере их формирования записывать на месте соответствующих элементов вектора g. Если tu = 0, то согласно условию из параграфа 3.3 ttj = 0 для / > /. Это означает, что gt = 0; последнее условие будет выполняться, если g = tyiP). Элемент bt может тогда иметь произвольное значение; обычно он берется равным нулю. Это эквивалентно замене f pb== g на f pb= = g, где Тр определяется, как в параграфе 3.3. 98
bj будут записаны на месте gi Рис. 3.4. Решение системы уравнений с верхней треугольной матрицей Системы с нижней треугольной матрицей (прямая подстановка). В настоящем изложении нижняя треугольная матрица коэффициентов будет иметь вид Т'р, где Тр представляет собой верхнюю треугольную матрицу. Таким образом, система уравнений, которую необходимо решить, выглядит так: Элементы вектора h определяются соотношением и для i = 1,2, ..., р (i возрастает) л, = /й'(/|-s4< 1 /-о при условии, что ^фО. На рис. 3.5 приводится схематическое ставление процедуры расчетов. Если ta = 0, то, как правило, мы будем иметь дело со случаем, когда система уравнений, решение которой требуется отыскать, имеет вид т;ь=Т. Если Т принадлежит линейному пространству, натянутому на вектор-столбцы матрицы ~Х', то сказанное эквивалентно тому, что ht = О при tit ~ 0. К этому вопросу мы вернемся в следующем параграфе. 4* G.2) пред- Рис 3.5. Решение системы уравнений ней треугольной матрицей с ниж- 99
3.8. ОБРАЩЕНИЕ МАТРИЦ В этом параграфе мы рассмотрим: 1) обращение матрицы вида Sp = Х'Х; 2) обращение верхней треугольной матрицы Тр, представляющей собой разложение Холецкого матрицы Sp, т. е. Sp = ТрТр. Поскольку S~7, = Тр Тр означает, что ~S~XP = ~Т-р ту*1 (при условии, что обратная матрица существует), то основная проблема состоит в обращении верхней треугольной матрицы Тр. В параграфе 2.3 содержатся все необходимые сведения относительно следующей простой итеративной схемы решения последней задачи, которая описывается уравнением C.2) из гл. 2: *** = «•*', t*- -Т-1 V**. (8.1) На k-м шаге предполагается, что матрица Tfe~~x = ТУ--1 уже сформирована. Вектор t* состоит из элементов с первого по k — 1, расположенных в k-м столбце матрицы Ту1, a tkk является диагональным элементом этого столбца. Если матрица X и соответственно матрица Тр имеют полный ранг, то матрица дисперсий-ковариаций оценки МНК равна: var(b) = Tp1 ТУ о1. (8.2) В противном случае необходимо работать с матрицей Гх*'х* х*'у] L • у'у J' где матрица X* получается из X исключением столбца /, если tn = 0. Разложение Холецкого Т* этой матрицы получают исключением из матрицы Т строки и столбца / (только для i < р) при tn = 0. Нормальные уравнения сводятся таким образом к матричному уравнению T;b* = tj. (8.3) Дисперсии и ковариации элементов Ь*, т. е. ненулевые дисперсии и ко- вариации элементов Б, могут быть получены заменой b наЪ* и Т^1 на Т*р~г в (8.2). Чтобы найти значения дисперсий и ковариации, располагающихся на позициях, соответствующих элементам вектора Ь, матрица ТУ может быть получена из Т^ включением нулевой строки и столбца, ранее исключенных из нее. Единственное изменение по сравнению с (8.2) состоит в том, что Ту1 здесь заменена на 1у. Уравнение (8.1) может быть легко преобразовано для непосредственного получения Ту Соответствующее правило состоит в том, что tkk полагается равным ну- 100
лю при tkh = 0. В противном случае следует поступать, как указывалось ранее. Альтернативное, но менее полезное выражение для var (b), может быть выведено непосредственно и b = f^1 ty: var (Б) = (f; f p) X' X (f; f p) a2. Пример. Рассмотрим снова пример из параграфа 3.5, для которого 5 Т -= Гб 2 5 Г 0 4—22 0 0 0 0 _0 0 0 3 Далее, действуя, как и ранее, получаем 1/6 -1/12 0 0 0 1/4 0 —1/6 0 0 0 0 .0 0 0 1/3_ Вследствие того что мы полагаем Р* - 0, все элементы, расположенные в третьей строке и столбце, также полагаются равными нулю. Матрица дисперсий-ковариаций для элементов b = Tfl tj, тогда выглядит так: 12 —Lx—+0+0, 0 12 4 (iJ «to. 0 + 0, а Этот способ позволяет, например, легко найти матрицу Тг Тя". Дисперсия теоретического значения у — {'Ь представляет собой сумму квадратов элементов Т'р~/о. При фиксированном значении а2 последовательность элементов этой суммы квадратов показывает, как изменя- ется var (y)f когда в уравнение регрессии в качестве объясняющих пере- 101
менных включаются соответственно толькохъ затем хх и и х2 и т.д. Рекомендуем читателю еще раз обратиться к параграфу 2.5. Дополнительные комментарии относительно работы с линейными зависимостями. В некоторых практических приложениях, особенно в моделях дисперсионного анализа, наличие линейных зависимостей можно предвидеть заранее. В этом случае представляется более естественным работать с матрицей TJ~\ а не с Тр~. Из предыдущего обсуждения и материала, рассмотренного в параграфе 3.3, следует, что при работе с линейными зависимостями, наличие которых заранее не предполагалось, в схему расчетов требуется внести лишь незначительные изменения. При этом нет необходимости изменять порядок расположения данных в памяти машины. Однако уравнение регрессии для у = х5 на предшествующие переменные, построенное по данным, для которых х3 = хг — 1/2 х2 + 1/2, не может быть обобщено применительно к данным, которые этой зависимости не удовлетворяют. Обобщенные обратные матрицы. Можно показать, что Тр Тр \ р = Тр, \ р Тр \р = Тр . По терминологии К. Рао [184], Тр~ является рефлексивной ^-обратной матрицей (reflexive g*-inverse). Первое из этих условий (ТрТр~Тр = •= Тр) необходимо для того, чтобы Тр~ представляла собой обобщенную обратную матрицу к матрице Тр. Заметим, однако, что Тр f'j не является обобщенной матрицей, обратной к матрице Тр Тр. В процессе вычислений, описанных в настоящей главе, естественным образом возникают две формы обобщенной обратной матрицы к матрице S = Х'Х = fjjpi 1) S~ = Тр!*р-1, где Тр получается из Тр заменой любого нулевого диагонального элемента на единицу. Такая матрица не является рефлексивной g-обратной; 2) обратная матрица Мура — Пенроуза S~, которая вводится в упражнениях 14, 16, 17 и 19 в конце данной главы. Она является рефлексивной ^-обратной. _ Предположим,_что var (у) = a2l. Рефлексивная g-обратная матрица S~ матрицы S = Х'Х в отличие от других обобщенных матриц обладает одним приятным свойством: если b = S~X'y, то var (b) = S~o2. Упражнения 13—19 в конце настоящей главы можно рассматривать как очень краткое введение в теорию обобщенных обратных матриц. Большой объем информации относительно обобщенных обратных матриц содержится в работе [36]г. 1 Проблемы обобщенного обращения матриц в контексте регрессий рассматриваются в книге [233]. — Примеч. ред. 102
3.9. ПРИМЕР: ПОСТРОЕНИЕ РЕГРЕССИИ В СЛУЧАЕ, КОГДА МАТРИЦА X НЕ ИМЕЕТ ПОЛНОГО РАНГА Матрица S из параграфа 3.3 представляет собой матрицу ЦСКП для приведенных ниже данных: ¦—1 3 2 — 2 — 1 3 2 2 _ 2 х2 0 0 о л. — 1 1 3 2 — 1 1 Матрица ЦСКП выглядит так: S = 6 хг -1/2 7/2 7/2 — 1 — 1 2 3/2 -1 2 12 30 20 2 . 29 С — 6 10 1 14 У 1 0 1 0 г —2 [ 1 i —1 1 3 > 4 1 —2 1 3 18" 22 7 20 40 _ Как показано в параграфе 3.3, разложение Холецкого матрицы S имеет вид 3 4 0 3 Х\ *j Хя Х+ 6 2 5 1 0 4—22 0 0 0 0 0 0 0 3 0 0 0 0 Решая поочередно относительно 64, Ь39 62, Ьг соответствующую систему уравнений, получаем: Зй4=3, т.е. &4=1, bs = 0 (выбирается произвольно), 4Ь2—2Ь3 + 264 = 4, т. е. Ь% = х/2, Ь^3, т.е. *1 = 1/в- 103
Таким образом, когда значения всех переменных представлены своими отклонениями от средней, регрессионное уравнение выглядит так: it — * / v 1_ 1 / у _L v /Q ]\ У — / вЛ1 I /2Л2 I •*?• W* V Для получения информации относительно линейной зависимости между столбцом 3 и столбцами 1 и 2 выделим ведущую подматрицу размерности 2*3 из матрицы Т: 6 2 О 4 5 2 Тогда з.2-=—2, т.е. 66ЯЛ + 26Я.2=5, т.е. йьл=1. Отсюда следует, что дг3 = х3 — 1/2 л:2. Прибавляя — л:я) к (9.1) для у, получаем: (л:1 — 1/2 х2 - 2-Kxs+x,i. (9.2) Разложение общей суммы квадратов. При использовании алгоритма последовательного разложения нетрудно построить следующую таблицу дисперсионного анализа: Сумма квадратов обусловленная Х\ (при фиксированной средней) 32= 9 обусловленная х2 (при фиксированных средней, Х\) 42 = 16 обусловленная хъ (... средней, Х\, *2) = О обусловленная хА (... средней, х\, х2, (х3)) 32= 9 Остаточная Информация о дисперсиях и ковариациях. Действуя, как в параграфе 3.8, получаем: Ve -V12 О О О V4 0 -Ve О 0 0 0 0 0 0 VaJ Матрица дисперсий-ковариаций тогда может быть записана так: # -V48 13/ш # 0 0 0 0 0 -V, 0 V, 104
Решение с минимальной длиной. Существуют различные альтернативы принятому нами предположению, что Ь3 = 0. Подход, который может оказаться более привлекательным в некоторых отношениях, состоит в таком подборе вектора коэффициентов регрессии, когда у делается относительно слабочувствительным к случайным изменениям в значениях любой отдельно взятой переменной. Минимизация суммы квадратов элементов вектора коэффициентов в (9.2), т. е. минимизация приводит к значению X = 1/27. Тогда 1/ -= 11 /54^ -1-13/27х2 - 1 /27л:3 + х*. В упражнении 2 в конце этой главы показано, как данный метод может быть модифицирован для случая, когда имеется более одной линейной зависимости между столбцами матрицы X (см. также упражнение 16). Пусть S~~ является обратной матрицей Мура — Пенроуза матрицы S. Тогда решение с минимальной длиной может быть записано в виде b = S~ X'y. Альтернативный и более сложный способ получения решения с минимальной длиной описывается в работе Д. Марквардта [150]. В рассмотренном выше примере решение на базе обобщенной обратной матрицы может быть получено посредством формирования первых трех главных компонент матрицы ЦСКП (т. е. компонент, которые соответствуют отличным от нуля собственным значениям) и построения регрессии, где они выступают в качестве независимых переменных. Если рассматриваемый столбец является лишь приблизительной линейной комбинацией других столбцов, то результат, получаемый при использовании описанного в настоящем параграфе метода, будет немного отличаться от решения на базе обобщенной обратной матрицы по Марквард- ту. ЗЛО*. ОШИБКИ ВЫЧИСЛЕНИЙ: РОЛЬ МАТРИЦ СКП И ЦСКП При различных модификациях метода наименьших квадратов, которые до сих пор находились в центре нашего внимания, основные ошибки вычислений будут почти полностью обусловлены процессом формирования матрицы Х'я Х^ из Х9. Ошибки, возникающие в последующих процедурах приведения матрицы к верхней треугольной форме или расчете на ее основе коэффициентов регрессии, сравнительно невелики и поэтому могут не учитываться. В параграфе 3.13 содержатся ссылки на работы, где проблемы, связанные с анализом ошибок, рассмотрены более подробно. В параграфе 1.7 отмечалось, что применение матрицы СКП для расчета матрицы Т приведет скорее всего к получению неудовлетворитель- 105
ных результатов, если значения какой-либо из переменных достаточно велики по сравнению с величиной стандартного отклонения. Частичное решение этой проблемы состоит в использовании приведенных в этом параграфе адаптивных формул формирования матрицы ЦСКП S. Элементы матрицы Т, получаемой из f исключением строки и столбца О, могут быть затем сформированы в виде разложения Холецкого матрицы S. Попытаемся выяснить, насколько удовлетворительным может оказаться подобный подход. Точность вычисления матрицы ЦСКП. Предположим, что элементы матрицы ЦСКП рассчитываются с помощью адаптивных формул G.4) из гл. 1. Тогда расчет /-го диагонального элемента осуществляется способом, фактически эквивалентным использованию k = \ где }~xri A0.1) а с = sgn (xkJ — xj-1). Недиагональные элементы 6ц равны сумме произведений Рассмотрим теперь относительную ошибку RE (relative error) коэффициента корреляции Имеем RE (ru) < RE (*,,) + 1 /2 (RE (*„) + RE (*„)). Таким образом, относительные ошибки 6ц и djj определяют нижнюю границу относительной ошибки Гц. В работе Р. Линга [141] приводится значение этой относительной ошибки, полученное при обработке с одинарной точностью 1000 наблюдений на машине IBM 360. На машине IBM 360 максимальная относительная ошибка, получаемая вследствие отбрасывания значащих цифр при обработке результатов любой арифметической операции с одинарной точностью, составляет г ~ 10~6 (см. параграф 3.4). Для каждого метода вычислений осуществлялось 100 выборок по 1000 наблюдений. Результаты применения варианта адаптивной формулы A0.1) сравнивались с «точными» результатами, полученными при проведении расчетов с двойной точностью и определении вначале дс, а затем 2 (х—хJ. Для сравнения приводятся также результаты, найденные с помощью формулы центрирования *хх =¦ 2лс2—п*1 (ZxJ. 106
В следующей таблице представлены расчеты Линга: Распределение Нормальное: fi=l, а--\ Ц=10, <J=1 М-=Ю00, <т=1 Систематическое: значения с 900000 по 900100 Средняя относительная ошибка RE Адаптивная формула 0,001 (SD1 2*0,00001) 0,0001 @,000025) 0,007 @,005) 0,2 @,001) Формула центрирования 0,00007 @,00001) 0,01 @,001) 37 C) 518 G) 1 SD (Standard Deviation)—стандартное отклонение —Примеч. ред. Очевидно, что адаптивная формула не позволяет полностью разрешать проблемы повышения точности при работе с формулой центрирования. Эти проблемы приобретают особую остроту при применении машин, у которых точность расчетов соответствует шести или семи десятичным цифрам. При использовании адаптивной формулы нет уверенности в точности определения даже трех или четырех десятичных цифр в значениях элементов матрицы ЦСКП. В таких случаях следует либо вначале рассчитать значения средних, а затем определить суммы квадратов и произведений относительно этих средних, либо заранее определить такие значения рабочих средних, которые были бы близки к истинным значениям средних, и с помощью формулы центрирования осуществить окончательную корректировку результатов. В заключение в связи с расчетами Линга отметим следующее: 1) при е < К)-6 в предположении, что точность арифметических операций примерно одинакова, вероятная величина относительных ошибок получается умножением приведенных значений на 106е. Так, для достижения точности в три или четыре десятичные цифры при расчете элементов матрицы ЦСКП в условиях, рассмотренных Лингом, величина 6 должна быть меньше примерно 10~9 (или h = — log10 е больше приблизительно 10); 2) если машина при работе с числами округляет их до некоторого количества значащих цифр, а не просто отбрасывает лишние десятичные знаки, то результаты расчетов окажутся скорее всего более точными, чем у Линга (см. работу [132]). Причина здесь в том, что при определении суммы положительных величин каждая ошибка, связанная с отбрасыванием значащих цифр, уменьшает значение получаемого результата. Ошибка же округления с одинаковой вероятностью может привести как к увеличению, так и к уменьшению результата; 3) потерю точности при использовании формулы центрирования следует также сравнить с аналогичным показателем, величина которого определяется соотношением G.1) из гл. 1. 107
З.П. КАКУЮ РОЛЬ МОГУТ ИГРАТЬ РАЗЛИЧНЫЕ МОДИФИКАЦИИ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ В ПРАКТИЧЕСКИХ ЗАДАЧАХ? При изучении широкого круга проблем, особенно в таких областях, как биология, социология и экономика, регрессионные уравнения, получаемые с помощью различных вариантов метода наименьших квадратов, следует рассматривать как приближенное, достаточно грубое отражение взаимосвязей, существующих в реальной действительности. Здесь нет какой-либо точной теории, которая определяла бы, каким образом переменные (возможно, преобразованные тем или иным способом) должны входить в соответствующую линейную зависимость. В подобных случаях исходные данные, вероятно, могут гарантировать расчет матрицы ЦСКП или корреляционной матрицы с точностью, не превышающей три или четыре десятичные цифры. Если уверенность в этом есть, то применение методов наименьших квадратов является оправданным, по крайней мере, в качестве первого приближения. Однако какой бы алгоритм ни использовался, объясняющие переменные следует проверить на наличие между ними близких к линейным зависимостей. Такие зависимости, с одной стороны, обусловливают неустойчивость результатов к воздействию погрешностей в вычислениях (коэффициенты регрессии формируются неточно), а с другой стороны, — статистическую неопределенность (большие стандартные ошибки)г. Этот вопрос рассматривается в параграфе 3.12. При выявлении близких к линейным зависимостей может оказаться, что одна или более объясняющих переменных являются лишними и их следует опустить. Альтернативный подход может состоять в репараметризации модели. Рекомендуем обратиться еще раз к комментариям, приведенным в параграфе 3.4. Когда следует принимать во внимание дополнительные вычислительные издержки. Вообще говоря, более точные алгоритмы ортогонализа- ции (см. гл. 4), связанные с проведением большего, по сравнению с другими методами, объема вычислений, особых проблем не вызывают. Поэтому существуют достаточно сильные аргументы в пользу алгоритмов ортогонализации как стандартной процедуры обработки данных. При решении некоторых задач предварительную обработку данных удобно осуществлять на этапе построчного ввода матрицы в память машины. В качестве альтернативы процедуре адаптации матрицы ЦСКП 1 Другими словами, последствия таких весьма вероятных ошибок спецификации регрессии, как неправильно выбранная форма связи, отсутствие необходимых независимых переменных и, наоборот, наличие лишних переменных, на порядок существеннее ошибок вычислений и выбора метода расчета регрессий. Показателями качества подгонки, которые аккумулируют в себе многие из этих ошибок, служат /-статистики оценок МНК. Часто оценки МНК, рассчитанные с удвоенной точностью по прекрасным с вычислительной точки зрения алгоритмам, оказываются бессмысленными со статистической точки зрения (знаки коэффициентов регрессии не отвечают физическому смыслу, сильная чувствительность к изменению значений зависимой переменной, т. е. низкое значение /-статистики). Убедительным примером такой регрессии служит так называемая регрессия Лонгли (см. B36]). — Примеч. ред. 108
может использоваться рассматриваемая в параграфах 4.1 и 4.2 схема планарного (плоского) вращения, применяемая при адаптации верхней треугольной матрицы Т Холецкого к каждой новой строке вводящихся данных. Тот факт, что алгоритм планарного вращения работает несколько медленнее, не вызовет затруднений, если пользователь работает с достаточно мощной машиной, что позволяет практически мгновенно получать результаты вычислений. Однако если расчеты должны повторяться много раз и фактор затрат времени на их проведение имеет важное значение, то следует обращаться к более «быстрым» методам, связанным с решением систем нормальных уравнений. Но и в этих случаях желательно к результатам применить какой-либо специальный метод проверки, например процедуру, рассмотренную в работе [160], или сравнить их с результатами, полученными с помощью более точных алгоритмов. Авторы указанной работы предлагают постановку данной проблемы в другой форме. В упражнении 5 этой главы приводится теоретическое обоснование такого подхода. Далее сравниваются два способа решения. Например, если первый из них приводит к Ьх = 4,99, а второй — к Ьг = 4,97, то очевидно, что по крайней мере две первые цифры этих коэффициентов являются значащими. Аналогичные простые процедуры могут состоять в следующем: 1) построение регрессии отклонений на столбцы матрицы X. Полученные величины покажут, какие возмущения могут быть внесены в значения коэффициентов в результате воздействия числовых ошибок; 2) построение регрессии теоретических значений на столбцы матрицы X. Этот подход используется в системе программ OMNITAB (см. [115, с. 148—1491). Рекомендуем также читателю обратиться к работам [214], [2151. 3.12*. АНАЛИЗ ЧУВСТВИТЕЛЬНОСТИ Рассмотрим теперь, как небольшие изменения в элементах Sp= = Х'Х и $у = Х'у влияют на рассчитываемые значения коэффициентов регрессии. Для небольших изменений в sy bb^Spl6sy. A2.1) Для небольших изменений в элементах Sp 8b ~ — Sp'pSpjb A2.2) (см. работу Дж. Уилкинсона [224]). В каждом из этих случаев в качестве общей характеристики чувствительности b к изменениям в элементах sy или SP может использоваться число обусловленности для Sp. Числа обусловленности будут позднее рассмотрены в настоящей главе. Здесь же отметим, что поскольку любой внедиагональный элемент s'/ матрицы Spl удовлетворяет ограничению 109
первостепенное значение при оценке коэффициентов регрессии, как следует из A2.1) и A2.2), имеют диагональные элементы матрицы Sp1. Если один или несколько диагональных элементов S^1 значительны по своей величине, небольшие изменения в элементах sy или Sp повлекут за собой существенные изменения в элементах Ь. Если k-и диагональный элемент S^1 имеет большое значение, это означает, что переменная к практически является почти линейной комбинацией других объясняющих переменных. Это утверждение — следствие формулы skk = *kkl(l-Rio.. ..*-i.* + i.....р))-1 A2.3) (см. параграф 2.2 и упражнение 7 из гл. 2). Чувствительность элементов b к небольшим изменениям в элементах Sp неизбежно приводит к потере числовой точности в рассчитанных значениях элементов вектора Ь. Р. Берк [26], обсуждая данную проблему с этой точки зрения, предложил использовать %pis=isu дц или максимальное значение s" дц для оценки возможной потери точности при расчете коэффициентов регрессии. Преимущество этих статистик перед близким к ним по смыслу спектральным числом обусловленности, которое приводится ниже, состоит в том, что: 1) здесь не требуется расчета собственного значения и 2) масштабирование столбцов матрицы X существенной роли не играет. Кроме того, эти статистики определяют границы для спектрального числа обусловленности к2 корреляционной матрицы, получаемой из Х'Х, поскольку р max [зиац\ < /с2 < У s" дц. Числа обусловленности. Мы будем рассматривать числа обусловленности для матрицы Sp = Х'Х. Числа обусловленности для Sp = Х'Х, если предпочтение отдается этой матрице, определяются аналогично. Число обусловленности к (S7,) соотносит точность определения элементов Ь, рассчитанных с помощью некоторого метода, применение которого считается оправданным, с точностью элементов Sp. Упрощенно говоря, если число обусловленности равно 10\ а элементы Sp определены с точностью до t цифр, то элементы b будут иметь точность порядка t — h цифр. Рассмотрим первое число обусловленности, предложенное в [65], которое соотносит максимальную относительную ошибку элементов b с максимальной относительной ошибкой элементов S. Допустим, что v (А) — максимальное абсолютное значение_элемен- тов A, a v (z) — максимальное абсолютное значение элементов z. В работе [65] приводится алгоритм для расчета Kd (Sp), такого, что vFb) 7(ьГ(ад где gp ~ 1,0. Аналогичное выражение может быть записано и для соотношения между v Fb)/v (b) и v Fsy)/v(sy). ПО
Как и все числа обусловленности, определяемые на основе матричных и векторных норм, показатель ка окажется бессмысленным, если столбцы матрицы X не будут промасштабированы таким образом, чтобы все элементы матрицы S имели близкие значения абсолютных ошибок. Если окажется, что числовые погрешности являются главным источником ошибок, то Kd соответствующим образом рассчитывается на базе корелляционной матрицы. Работающие в этой области ученые, как правило, предпочитают начинать исследование с расчета некоторой векторной нормы ||zf| и используют соответствующую матричную норму, определяемую как В анализе обычно применяется евклидова векторная норма \\z\\2 = = (z'zI/2jym бесконечная норма \\г\\ж = v (z). Отметим, что, вообще говоря, НАП^ >v(A). Остановившись на той или иной матричной норме, число обусловленности определяют как *(А) = |А||А-Ч- Теперь возьмем нормы от обеих частей A2.2) и воспользуемся тем фактом, что ||Az|| < ||A||- |[z||. На основе этого неравенства получим A2.5) Если (|z|| = Hz||2 — евклидова норма, то к2 (Sp) представляет собой отношение максимального собственного значения матрицы Sp к минимальному. В этом случае к называется спектральным числом обусловленности. Статистическая неопределенность в значениях переменных. В работе [57} проанализированы возможные последствия воздействия статистической неопределенности в значениях переменных на коэффициенты регрессии. Их анализ относится к случаю, когда регрессионные зависимости должны оцениваться для переменных, значения которых измерены без ошибок. Пример. Рассмотрим совокупность данных, полученных из матрицы исходных наблюдений, приведенной в параграфе 3.9, исключением хА и добавлением 0,01 х4 к элементам х3: xt -1 3 2 —2 1 Хг 0 0 —2 -1 1 хъ —0,49 3,51 3,48 -0,99 -Г,01 у 0 0 —2 1 — 1 xt 3 2 —2 2 xt 3 2 j f x% 2,01 1,52 — KOI 2,01 3 4 —2 3 in
Отметим, что хЪ ~ хг — 1/2 х2 + 1/2. Определенное с помощью метода наименьших квадратов уравнение регрессии у на х1у х2 и х\ выглядит так: *у= —49,9 — 99,8^ + 50,5x2+100,04. Соответствующая таблица дисперсионного анализа имеет вид: Сумма квадратов (СК) обусловленная хх 9,0 обусловленная х2 16,0 обусловленная х% 9,0 остаточная 6,0 (s2 = 6/5 —1,2) Общая СК относительно средней 40,0 Если не считать того, что переменная х4 здесь заменена на Хз, то данная таблица идентична таблице из параграфа 3.9. Предоставляем читателю объяснить этот факт. Матрица дисперсий-ковариаций для коэффициентов регрессии равна: 2 ь3 1111@,0347) —550 ( — 0,0208) —1111 272 @,0625) 550 1111 .2 Приводимые в скобках значения получены для случая, когда переменная #3 из регрессии опущена. Как видим, включение в регрессию наряду с хх и х2 переменной лгз оказывает заметное влияние на величину дисперсий и ковариаций. Как отмечалось выше, большие значения диагональных элементов матрицы S3 означают также, что изменения в матрице ЦСКП, обусловленные очень небольшими изменениями в значениях переменных, будут вызывать существенные изменения в значениях коэффициентов регрессии. Если, например, значения xl с нечетными координатами уменьшить на 0,01, а с четными увеличить на 0,01, то коэффициенты регрессии станут равными &1т=_40,7; &2 = 21,0; 63 = 40,4. 3.13*. АНАЛИЗ ОШИБОК ВЫЧИСЛЕНИЙ: ДОПОЛНИТЕЛЬНЫЕ СООБРАЖЕНИЯ Результаты Дж. Уилкинсона. Основной результат, с помощью которого могут быть обоснованы утверждения, приведенные в начале параграфа 3.10, принадлежит Уилкинсону (см. [223]). Предположим, что матрица Т представляет собой полученное в результате проведенных расчетов разложение Холецкого матрицы S (= Х^ Хд), хотя фактически S + E = r Т. 112
Иными словами, Т рассматривается как верхняя треугольная матрица разложения Холецкого некоторой матрицы S с внесенными в нее возмущениями. Результаты Уилкинсона позволяют утверждать, что при обычных обстоятельствах элементы матрицы Е представляют собой ошибку, возникающую из-за того, что значения Е выражаются конечным числом значащих цифр. В дополнение к работе Уилкинсона можно также познакомиться с работой Дж. Стьюарта [202, с. 153—158]. Ошибки, возникающие при решении системы уравнений Tpb = tv с верхней треугольной матрицей, вероятнее всего окажутся еще менее существенными; снова отсылаем читателя к работам Уилкинсона [223], [224]. Ошибки, появляющиеся в процессе первоначального формирования матрицы S, с большой вероятностью не оказывают заметного влияния на величину ошибок на любой из последующих стадий вычислений. Предположим, что диагональные элементы матрицы СКП ~S в несколько сотен или даже тысяч раз превосходят соответствующие элементы матрицы ЦСКП S. (Предполагается, что в Xq первый столбец состоит из единиц.) Тогда матрица Т, сформированная из S, будет довольно точным представлением матрицы S, но (при исключении из нее первого столбца и строки) значительно менее точным представлением матрицы S. Если бы, однако, матрица Т строилась непосредственно как разложение Холецкого матрицы S, то результаты Уилкинсона позволили бы утверждать, что элементы Е = S — Т'Т окажутся в этом случае небольшими по величине по сравнению с соответствующими элементами S. Достоинства положительно определенных матриц. Диапазон изменения ошибок, величина которого соответствует результату Уилкинсона, независим от того, какой из стандартных прямых методов применяется при решении системы нормальных уравнений. Получаемые при этом результаты определяются в первую очередь тем фактом, что X'gXq — положительно-определенная матрица. Особенности же методов приведения к верхней треугольной форме играют здесь второстепенную роль. При работе с положительно-определенными матрицами выделение ведущих элементов не является необходимым при условии, что верхняя треугольная матрица используется в своей стандартной формулировке. (Если, например, для построения матрицы Т* будет применяться рассматриваемый в параграфах 4.2 и 4.3 метод, связанный с исключением из матрицы X столбца, не являющегося последним, то точность вычислений может оказаться неудовлетворительной.) Эффект масштабирования. Иногда утверждают, что точность может быть повышена с помощью проведенного соответствующим образом масштабирования. В частности, это утверждение часто служит обоснованием применения в расчетах корреляционной матрицы вместо матрицы ЦСКП. Фактически же такое масштабирование может уменьшить вероятность ИЗ
недобора или перебора объясняющих переменных (см. работу E2, параграф 5.5.5J). Накопление внутренних произведений, рассчитываемых с двойной точностью. При использовании АХПР требуется вычисление величин Точность расчетов здесь может быть повышена, если произведения tihUs будут вычисляться с двойной точностью (хотя ith к tfj в каждом случае хранятся в памяти машины в виде значений, рассчитанных с одинарной точностью), а сумма skj—2 *:rJWi/ будет формироваться как рабочая переменная двойной точности. Результат округляется до одинарной точности после того, как вычислено значение t%$= /?* s?*-~!). При применении АХСР подобной возможности накопления внутренних произведений, рассчитываемых с двойной точностью, нет. Накопление внутренних произведений, определяемых с двойной точностью, может оказаться полезным при решении систем уравнений с верхней или нижней треугольной матрицей (см. G.1) и G.2)), при формировании Т^1 (см. C.2) в гл. 2) и при формировании Tj^T'p1. Проблемы, связанные с накоплением внутренних произведений, рассчитываемых с двойной точностью, обсуждаются в работе [38, параграф 4.с]. 3.14*. ТЕОРИЯ: ПРОЕКТИВНЫЕ МАТРИЦЫ Простейший способ формирования проективной матрицы основывается на следующем соотношении: Для любого вектора у вектор у = Ру представляет собой определяемую методом наименьших квадратов проекцию вектора у на пространство, натянутое на столбцы матрицы X". Дело в том, что если Ь является решением системы нормальных уравнений Х'ХЬ = Х'у^ полученным с помощью метода наименьших квадратов, то Матрица Р известна также под названием хзт-матрщьР (поскольку она как бы служит причиной появления крышки над у). 1 От английского hat, здесь — крышка над переменной. — Примеч. пер, 114
В данном случае предполагается, что матрица X имеет полный ранг. Если X не имеет полного ранга, то в соответствии с выкладками, приводящимися после уравнения G.1), Ъ = Т-*Тр-*Х'у; ^ХЪ = Х{Тр%)-'Хгу. A4.1) А соответствующая проективная матрица выглядит так: ТР)-1Х'. A4.2) Заметим, что обоснование в параграфе 3.3 существования разложения Холецкого, когда матрица X не имеет полного ранга, является недостаточным. Теперь его можно дополнить. Предположим, что Тл_х и tj(k) (j 5* Щ сформированы таким образом, что Ti-iTfc-^s;-!, A4.3) f;_, t/(*_i, = s/(jk-i) (/>*). A4.4) см. (З.Г) и C.2'). Напомним, что все элементы строки / в матрице Tfc-j равны нулю, когда tu = 0 (/ < k)y и что матрица 1к-г получена из Тл_х заменой каждого нулевого диагонального элемента на 1. Пусть Ък-Х — = Tk-i — ТА_Х, т. е. матрица Zk-1 имеет равные единице диагональные элементы на месте нулевых элементов матрицы 1к-ъ а все остальные ее элементы равны нулю. Отметим, что g T^_i 1к-х— Т^__1 Th-x -\-Zh+1. Определим теперь p"fc-1=x;«1(T;-iTfc_1)-ixij-i. Докажем, что* 1) Pft-xh = h тогда и только тогда, когда h является линейной комбинацией столбцов матрицы Xk-ii 2) PJ_, =Pk_1. Вначале отметим: Pfe_th— h означает, что h^X^-jC, где c=(T^_i Tfe_1)~1X^_i h (см. пояснение к упражнению 8 в гл. 1). Наоборот, предположим, что h = ~Xh-i c- Без потери общности можно считать, что если столбец xt матрицы Xk-i представляет собой линейную комбинацию предыдущих вектор-столбцов и поэтому соответствующий диагональный элемент матрицы 2к-± не равен нулю, то элемент ct вектора с равен нулю. Для С1ФО элемент xfo может быть 115
переписан в виде линейной комбинации предшествующих вектор-столбцов матрицы X. Тогда Р^ h = Xk^ (Tk-i Т^)-1 Xi_ 1 Xfe-i с = поскольку Zft_!C = 0, так как ненулевые диагональные элементы матрицы Zfc-j соотносятся с нулевыми элементами вектора с, что и требовалось доказать. __ Чтобы доказать пункт 2, отметим, что каждый столбец матрицы Xk-i является линейной комбинацией столбцов матрицы Xh-i\ таким образом, Pft_1Xft_1 = Хл-,. Следовательно, = х,_х (т;_! т,,,)-1 х; _, = рм. Поэтому (I — Pfc_1)a=l — РЛ-г, откуда и следует 2. В параграфе 3.3 мы видели, что диагональный элемент tkk должен удовлетворять соотношению tlk - xi (Т-Р^) xfc = xi (T-Pfe-!J xft, которое представляет собой сумму квадратов элементов (I — Pft-i) хЛ, равную нулю тогда и только тогда, когда xk = Рь-^хь, т. е. тогда и только тогда, когда хк является линейной комбинацией предшествующих вектор-столбцов матрицы X. Определив таким образом fAft, найдем элементы tkj для j >k в соответствии с C.4) из параграфа 3.3. Если thk = 0, то полагаем tkj = 0 (/ >k). Аргументация по методу индукции, применявшаяся в параграфе 3.3, сохраняет силу и в случае, когда матрица Sp вырожденная. Проективные матрицы и вектор отклонений. Вектор теоретических значений регрессии у на столбцы матрицы X в соответствии с A4.1) определяется как у = Ру. Следовательно, вектор отклонений может быть записан так: е-(Т-Р)у. Из предположения, что матрица дисперсий-ковариаций для у равна a2l, следует var (е) = (Т— РJ а2 = (Г— Р) а2. Напомним, что название «хэт-матрица» присвоено матрице Р в силу соотношения у = Ру; /-й диагональный элемент матрицы Р может 116
быть интерпретирован как оператор расбалансироиш i-ro значения исходных данных 1. В работе [111] приведена интерпретация недиагональных, а также диагональных элементов матрицы Р. 3.15. ЧТО ЕЩЕ МОЖНО ПОЧИТАТЬ Вычислительным проблемам матричной алгебры посвящена работа Дж. Стьюарта [202]. Блестящее краткое изложение этой темы можно найти в гл. 5 книги Б. Далквиста и А. Бьорка [52]. Чтобы познакомиться с особенностями проведения расчетов в режиме с плавающей запятой применительно к некоторым конкретным видам машин, рекомендуем обратиться к работе [81]. Дж. Чамберс [38] всесторонне обсуждает технические проблемы расчетов с помощью метода наименьших квадратов. Лучшим источником написанных на Фортране подпрограмм является работа [65]. 3.16. УПРАЖНЕНИЯ 1. Предположим, что между вектор-столбцами матрицы X существует линейная зависимость вида Хс = 0. Покажите, что тогда вектор коэффициентов регрессии имеет вид b + Хс, где значение вектора X —^произвольное. Покажите, что длина этого вектора^т. е. корень квадратный из (Ь + Яс)' (Ь +Я,с), минимальна при X = — Б'с/с'с. 2. (Продолжение упражнения 1.) Сделаем более_общее предположение о линейной зависимости между столбцами матрицы X: ХС = 0, где С"— матрица р-г, г < р. Вектор коэффициентов регрессии тогда имеет вид b + СХ, где значение вектора X произвольное. Покажите, что выбор_значения__Х, минимизирующего длину этого вектора, определяется из системы ССХ = — С'Ь. 3. Рассмотрим следующую совокупность данных: Номер наблюдения xt xt x3 xA у 1 0 —1 0 0,1 4 2 1 1 —4 —3,9 1 3 5 3—2 —2,1 6 4 4 1 2 2,0 8 5 3 2 —3 —3,1 3 6 3 0 3 3,0 4 7 4 0 5 4,9 7 Разложение Холецкого соответствующей матрицы ЦСКП выглядит так: 0,342 2,040 2,566 2,378 4,079 0 2,588 —7,764 —7,776 —2,939 0 0 0 0 0 0 0 0 0,115 0,870 0 0 0 0 3,065, а) определите линейную зависимость между х3, хх и х2\ См. параграф 4.11. — Примеч. ред. 117
б) с помощью метода наименьших квадратов постройте регрессию х4 на хг и х2\ в) с помощью метода наименьших квадратов постройте регрессию у на х1 и х2. Предполагая, что х4 может представлять собой линейную комбинацию хг и *2, дайте общую форму для вектора коэффициентов регрессии в регрессии у на *i, *2> *з> х\ и получите для него решение, соответствующее минимальной длине этого вектора. 4. Приведите в общей форме вектор стандартизованных коэффициентов регрессии для регрессии у на xlt jc2, х3 и *4 из упражнения 3 (определение стандартизованных коэффициентов приводится в параграфе 1.10). Найдите для стандартизованных коэффициентов решение, соответствующее минимальной длине данного вектора. _ 5. Предположим, что в обычной модели у= Хр + е с var(e)=c2ln, коэффициенты которой определяются с помощью метода наименьших квадратов, "X заменяется на X* = ХС-1, a (J — на р* = Ср. Таким образом, у = Х*Р* + 4- г. Докажите, что если Ь* представляет собой полученную с помощью метода наименьших квадратов оценку Р*, то уаг(Ь*) = Г(Х"' Х)-1(Г' а2, и что выбор С = Т, где Т является верхней треугольной матрицей, такой, что Т'Т = X' X приводит к получению диагональной ковариационной матрицы. 6. Предположим, что var (yj) = cwj1. И пусть W = diaglwj. Пусть также у — вектор теоретических значений в регрессии у на столбцы матрицы X, в ко- Topofi~W используется в качестве матрицы весов. Докажите, предполагая ранг X равным р + 1, что ожидаемое значение остаточной суммы квадратов тогда будет равно: 7. Предположим, что b — рассчитанный с помощью метода наименьших квадратов вектор коэффициентов регрессии у на столбцы матрицы X = [х0, хь ..., хр]. Покажите, что вектор коэффициентов регрессии в случае, когда "у + ой^ регрессируется на столбцы матрицы X, получается из b заменой Ьг на bt + а. Покажите также, что вектор отклонений и остаточная сумма квадратов при этом остаются неизменными (см. [160]). __ 8. Докажите, что если Е (у) = 6, var (у) = о2 1П, то * Е(у' Ау) = в' АО + аЧг (А). (Рекомендация. Запишите /Ау = 9. Докажите, что если b представляет ?обонеполученную с помощью метода наименьших квадратов оценку р в модели у = Хр + г с var (е) = а2 1П, то E[PF] = p' p + a2tr(X' X)-i. 10. Положение точки на плоскости определяется пересечением двух прямых линий, построенных по имеющимся значениям наблюдений. Из-за ошибок измерения прямые проведены неточно. Поэтому в качестве искомой принимается точка, в которой минимизируется сумма квадратов расстояний от этой точки до соот- 1 Следом матрицы tr (А) является сумма элементов ее главной диагонали. — Примеч. пер. 118
ветствующих прямых ^пг==лй\. Определив прямые линии в виде atx + Ьгу + с^ = = 0 (/ = 1, 2, ..., /г), покажите, что искомая точка (х, у) удовлетворяет системе уравнений Л ^. bjiajX + biy + Cj) = и, (cm. [218. c. 248—249]). Покажите, как изменяются уравнения, если минимизироваться будет взвешенная сумма квадратов 2/Lj Widh 11. Для совокупности точек (хг, щ) (i = 1, ..., п) необходимо построить окружность, для которой минимизируется величина где с = г2 — а2 — Ь2. Покажите, что а и b могут быть определены в виде коэффициентов регрессии z = 1/2(*2 + у2) на х и # и что оценка г2 равна: = 1 / = 1 Покажите, что эта формула эквивалентна минимизации суммы квадратов степеней этих точек по отношению к окружности. [Предположим, что линия, проходящая через точку Pt (xt, yt), пересекает окружность в точках А и В. Тогда степень точки Pi по отношению к окружности равна АРг-ВРг независимо от выбора конкретного вида линии.] 12*. (Продолжение упражнения 11.) Приведите условия, при которых выбор значений a, b, /, g, h, минимизирующих приведет к эллипсу (ab — h2 > 0). В упражнениях 13—16 дается краткое изложение некоторых аспектов теории обобщенных обратных матриц. 13*. Пусть А — любая действительная матрица; покажите, что она может быть записана в виде А = GH, где G имеет полный ранг по столбцам, а Н имеет полный ранг по строкам1. Покажите, что выражение А~~ = Н' (НН')-1 (G'G)~JG имеет смысл и что А~" тогда удовлетворяет соотношению АА~~А = А. [Пусть матрица G состоит из подмножества столбцов матрицы А, которые формируют базис пространства вектор-столбцов матрицы А. Тогда пр несоответствующем выборе матрицы Н следует, что А = GH. Но соотношение А = GH представляет собой также выражение строк матрицы А в виде линейной комбинации строк матрицы ~Н. Следовательно, rank (A) = rank (Щ <^rank^(H).J 14*. Любая матрица А"", такая, что АА~"А == А, называется обобщенной обратной матрицей матрицы А. Покажите, что матрица А", определенная в упражнении 13, удовлетворяет также соотношениям: а) A~AA' = A-; б) (АА"У=АА-; (А"" А)' = А" А. 1 Говорят, что матрица имеет полный ранг по столбцам (строкам), если ее вектор-столбцы (строки) линейно независимы. — Примеч. ред. 119
Обобщенная обратная матрица (единственная), удовлетворяющая условиям а) и б), известна как обратная матрица Мура — Пенроуза. 15*. Покажите, что если система уравнений АЪ = с совместна (т. е. имеет по крайней мере одно решение Ь*) и А"" является обобщенной обратной матрицей к матрице А, то b = А""" с также является решением этой_системы._Покажите, что общий вид решения выглядит так: Ъ — А~~с~+ (I — А~~А) h", где h — произвольный вектор. 16*. Покажите, что если А— является_обратной матрицей Мура — Пенроуза к матрице А, то Б — А~ с минимизирует ЪЪ на множестве всех векторов, таких, что АЬ = с. 17*. Рассчитайте обратную матрицу Мура — Пенроуза к матрице S4 из параграфа 3.8. _ 18*. Пусть_ Т—верхняя треугольная матрица, такая, что ТТ = Х'Х, пусть матрица Т получена из Т заменой любого диагонального элемента на 1.0 и пусть Z = Т — Т. Пусть матрица X имеет полный ранг по столбцам, причем ее столбцы образуют _полную систему линейных зависимостей вида ХС = О. Обозначим F= С (C'CJ-^C.Докажите, что: а) Г-izVZ; б) матрица С может быть сформирована из столбцов T-XZ, которые не являются тождественно равными нулю; в) Х(ТГ/Т)-12'=0; г) (Т—F)(T'T)-iZ = 0. 19*. Используя обозначениями результаты, полученные в упражнениях 2, 14 и 18, покажите, что (I — ~F) (Т'Т)-1 A—7) является обратной матрицей Мура — Пенроуза к матрице X' X. 20. Допустим у вас имеются алгоритмы решения систем уравнений с верхней и нижней треугольными матрицами. Имея в своем распоряжении матрицу X и верхнюю треугольную матрицу"Т\ такую, чтоТР7! = ~Х' X*, покажите, каким обра- зом_могут быть использованы эти два алгоритма для получения матрицы X (X' X)-1. [Как было отмечено в параграфе 3.6, это позволит одновременно рас- считывать все наборы частных отклонений в регрессии.] 21. Воспользуйтесь следующими подпрограммами для составления на Бейсике программы обращения положительно-определенной симметричной матрицы: а) программа получения разложения Холецкого (строки 130—180 рис. 10.8; строка 210 и строки 3450—3720 рис. 10.7); б) программа обращения верхней треугольной матрицы (строки 4750—4880 рис. 10.8); в) программа умножения верхней треугольной матрицы на обратную к ней матрицу (строки 8800—8980 рис. 10.8; S2 положите равным единице). Что случится, если матрица не будет положительно-определенной? [Отметим, что матрица Т, формируемая с помощью разложения Холецкого, записывается ча месте верхней треугольной части исходной матрицы. Диагональные элементы обратной матрицы Т-1 рассчитываются только тогда, когда это требуется сделать в соответствии с командами^ представленными в строках 8800 и 8890 программы. Другие элементы матрицы Т-1 хранятся в нижней треугольной части исходной матрицы. В строках 8800—8980 программы рассчитываются и распечатываются элементы матрицы, однако здесь их хранение не организуется. Строки 9500— 9550 требуются для организации печати.] 120
Глава 4 ф ОРТОГОНАЛЬНЫЕ МЕТОДЫ ПРИВЕДЕНИЯ МАТРИЦ К ВЕРХНЕЙ ТРЕУГОЛЬНОЙ ФОРМЕ Существует несколько способов построения верхней треугольной матрицы Т, для которой Т'Т = Х^Х^. В настоящей главе рассмотрены методы, основанные на ортогональных преобразованиях вектор-столбцов матрицы Xq. Эти методы легко могут быть приспособлены для решения комплекса вопросов, связанных с включением или исключением переменных в регрессии. Здесь же введены понятия точек разбаланси- ровки и оператора разбалансировки. 4.1: МЕТОДЫ ОРТОГОНАЛЬНОГО РАЗЛОЖЕНИЯ: ОСНОВЫ ТЕОРИИ Методы ортогонального разложения матриц кратко рассматривались в параграфе 3.2 Напомним основные моменты. Имеется матрица Х9= ~[X,yJ. Предположим, что к вектор-столбцам матрицы Xq последовательно применяются ортогональные вращения, которые, если рассматривать их совместно, эквивалентны умножению этой матрицы слева на некоторую ортогональную матрицу Q: о где Т—верхняя треугольная матрица. Поскольку X^Q'QXg = - X'gXq = Т'Т, матрица Т является разложением Холецкого XgXqt Матрица Т может быть тогда принята в качестве базиса для расчетов по нахождению регрессии у на вектор-столбцы матрицы X, построение которой осуществлялось в гл, 1—3 с помощью методов наименьших квадратов. Планарные вращения (вращения Якоби или Гивенса). Планарные (плоские) вращения представляют собой наиболее простое средство получения искомого ортогонального разложения. В качестве простейшего примера рассмотрим составную матрицу 121
Обозначим d = (a2 + b2I'2, с = ad~\ s = bd~x и Ч-: :]¦ Далее можно обозначить с = cos 9, s = sin 9 с 0 = arc cos (ad-1). Тогда О d-l(-bg+ah)\ [с [i Такие двумерные, или планарные, вращения (вращения Якоби или Гивенса) для приведения любой действительной матрицы к верхней треугольной форме обсуждаются в параграфе 4.3. В общем случае для этой операции требуется некоторая последовательность таких вращений. При каждом вращении обрабатываются только две строки матрицы и обращается в нуль только один ее элемент, расположенный ниже главной диагонали. Читатель при желании может сейчас обратиться к числовому примеру в параграфе 4.3. Более общие типы ортогональных вращений. Метод планарных вращений может быть естественным образом обобщен для получения более удобных форм ортогональных вращений, осуществляемых в пространстве с произвольным числом измерений. Такими обобщениями являются алгоритм Хаусхолдера и модифицированный алгоритм Гра- ма — Шмидта (МГШ), который мы будем рассматривать как один из вариантов алгоритма Хаусхолдера. В любом случае для обращения в нуль всех элементов одного столбца матрицы, расположенных ниже ее главной диагонали, может быть использовано отдельное вращение. Для полного разложения, независимо от применяемого алгоритма, требуется некоторая последовательность ортогональных преобразований, которые могут быть представлены матрицами Qo, Qlf ..., Q Таким образом, полученная в результате матрица имеет вид тп* Легко видеть, что эта матрица также является ортогональной, поскольку представляет собой произведение ортогональных матриц. Небольшое изменение основной схемы. Предположим, что имеется матрица Q, такая, что т. е. в результате преобразования Q расположенные ниже главной диагонали элементы матрицы X становятся равными нулю. Применяя ту же последовательность ортогональных преобразований к вектору у, получим Qy 122 -?]•
где ty имеет такое же количество строк, что и матрица Тр. Последующие преобразования, применяемые к матрице с целью приведения ее к верхнему треугольному виду,^оказывают воз. действие только на элементы z. При этом подматрица [Tpty] идентична матрице, получаемой исключением последней строки из матрицы Т, определяемой A.1). Заметим при этом, что последний диагональный элемент Т равен tyy = (z'zI/2. Нетрудно доказать, что вектор b коэффициентов регрессии представляет собой тогда решение уравнения ТРЬ = ty. Действительно, пусть е = у — ХЬ — вектор отклонений; вектор коэффициентов регрессии b выбирается таким образом, чтобы минимизировать е' e-(Qe)'Qe, A.3) что представляет собой сумму квадратов элементов A.4) Отсюда следует, что сумма квадратов A.3) больше или равняется z'z, причем равенство имеет место тогда и только тогда, когда Tpb = ty. Отметим, кстати, что в то время, как ty определяется единственным образом, z таковым не является и зависит от способа приведения матрицы X к верхней треугольной форме. Порядок преобразования столбцов матрицы X. Обычно при описании алгоритма Хаусхолдера и модифицированного алгоритма Грама- Шмидта предполагается, что сформированные столбцы преобразуются на каждом шаге. Это означает, что решение по поводу того, какой из оставшихся столбцов матрицы X следует взять для формирования столбца k матрицы Т, может быть отложено до тех пор, пока не будут сформированы все предшествующие столбцы матрицы Т. Общие критерии для определения порядка преобразования столбцов матрицы X предполагают следующее: 1) максимизацию величины, на которую уменьшается на каждом этапе значение остаточной суммы квадратов, как при расчете пошаговой регрессии прямым ходом; 2) выбор на каждом этапе столбца матрицы X, для которого максимизируется величина 6kkt\k или величина, некоторым образом связанная с данной. Второй критерий гарантирует, что любые очень маленькие значения tkk будут рассматриваться на конечных этапах процедуры. Преи- 123
мущество такого подхода состоит в том, что исключение соответствующих переменных из последующих вычислений осуществляется достаточно просто. Эти алгоритмы устойчивы к ошибкам вычислений независимо от порядка преобразования вектор-столбцов. В параграфе 4.4 показано, каким образом должна быть преобразована сформированная ранее матрицаТ в соответствии с любым новым порядком расположения столбцов матрицы X. 4.2. ОТКЛОНЕНИЯ В соответствии с A.4) вектор отклонений имеет вид Q е- 2], :-*[•]. Произвольный вектор в пространстве, натянутом на вектор-столбцы матрицы X, может быть записан как X с; применяя для этого вектора то же самое ортогональное вращение Q, получим Q X с -IV} Таким образом, вектор е лежит в подпространстве п—р — 1 измерений я-мерного пространства, ортогонального к пространству, натянутому на вектор-столбцы матрицы X. Здесь уместно выяснить, каким образом элементы zt вектора z связаны с обычными отклонениями et. В алгоритме МГШ ортогональные вращения применяются к матрице, полученной из Х^ добавлением числа нулевых начальных строк, равного числу столбцов матрицы X. Элементы вектора z при этом представляют собой обычные отклонения. В других случаях их конкретный вид зависит от матрицы Q, использованной для приведения матрицы И к верхней треугольной форме. Однако при обычных модельных предположениях (см. параграф 1.13) и при применении алгоритмов, отличных от МГШ, элементы zt независимы и одинаковым образом распределены с общей дисперсией а2. Нетрудно показать, что var(e)-(T—Р)а2, B.2) где Р = XfX'X)-1"*'. Расчет элементов вектора е. Сложности данной процедуры будут сведены к минимуму, если вся матрица [X, у] хранится в памяти машины. Это позволяет рассчитывать значения отклонений как е = у — ХЬ, Альтернативный подход состоит в записи матрицы X вместе с информацией, на базе которой может быть реконструирована матрица Q. Пусть 124
Q' = [Qd), Q('2)], где QB) имеет столько же строк, сколько элементов содержится в векторе z. Тогда в соответствии с B.1) (см. также [38]). Графики отклонений. Для проверки гипотезы нормальности следует сравнить распределение et (чтобы учесть вариацию диагональных элементов матрицы I — Р в B.2), оно может быть взято в стандартизованном виде) с теоретическим нормальным распределением. Лучшим способом для этого является построение графика функции распределения вероятностей отклонений и сравнение его с нормальным распределением. Другие способы проверки состоят в построении и исследовании графика отклонений относительно той или иной переменной. Корреляция между элементами et редко может проявиться на любом из этих типов графиков. Если п — р велико по сравнению с р, то корреляция будет слабой; если же п — р невелико, то вариация в выборочных значениях ег будет скорее всего препятствовать проявлению эффекта корреляции. При решении вопроса о том, существует ли подходящий способ для использования zt вместо eiy основное внимание следует уделять не отсутствию корреляции, а тем дополнительным возможностям, которые различные варианты zt могут предоставить в распоряжение исследователя. Так, при планарных вращениях квадраты zt (которые иногда называют отклонениями Гивенса) показывают, как изменяется остаточная сумма квадратов по мере постепенного добавления наблюдений к модели. Например, с течением времени число наблюдений растет. В этом случае отклонения Гивенса могут оказаться полезными для выявления изменений модели во времени. 4.3. МЕТОД ГИВЕНСА (ПЛАНАРНЫЕ ВРАЩЕНИЯ) Отдельное планарное вращение, применяемое к матрице X, эквивалентно умножению ее слева на матрицу вида 1 1 С S 1 — S С •строка i • строка / 125
где с = cos 0, s = sin 6,0 — угол вращения. За исключением s и — s, все внедиагональные элементы равны нулю. Таким образом, в процессе преобразования матрицы X изменяются только элементы ее строк i и л Предположим, что в результате проведенных преобразований расположенные ниже главной диагонали элементы строк с 1 по / матрицы X стали равными нулю. Тогда для обращения в нуль расположенных ниже главной диагонали элементов (/+ 1)-й строки матрицы X осуществляется ее вращение последовательно с первой, второй, ... строками: X О 11 X X X . X X X X X X X X X ]: ... X ¦*-первая строка ... xJ. -новая -новая -(/ + 1)-строка первая строка U -\- 1)-я строка Новая {i + 1)-я строка затем вращается вместе со второй строкой для обращения в нуль ее второго элемента: с' s'l Г —s' с'\ [ 0 0 X X X X -Г° 0 ... х ... X X 0 1 ч-вторая строка X X -текущая (/ + 1)-я строка ...XI ... X Этот процесс продолжается до тех пор, пока все расположенные ниже главной диагонали элементы (/ +- 1)-й строки не станут равными нулю. Пример. Рассмотрим матрицу ~3 —1 —3" О 1,5 1 4 2 1 .5 1 3_ С помощью метода наименьших квадратов найдем вектор b (с координатами Ьг и Ь2) минимизацией суммы квадратов элементов вектора у — X Б. Отметим, что в регрессионное уравнение в данном случае не включен свободный член. Соответствующие расчеты по методу Гивенса приводятся в табл. 4.1. Проводить вращение строк 1 и 2 нет необходимости, поскольку первый элемент строки 2 уже равняется нулю. Соответственно для каждой из строк 3 и 4 алгоритм предусматривает: 1) вращение строки 1 для обращения в нуль первого элемента данной строки; 2) вращение строки 2 для обращения в нуль второго элемента данной строки. Заметим, что в табл. 4.1 для строки 4 производить это вращение не нужно, поскольку ее второй элемент на данной стадии вычислений уже обратился в нуль. 126
Таблица 4.1. матрицы 0 ш 5 ~ш 0 0 _! 1.5 2 1 1 2,5 0 1 Планарные вращения дли приведения первых двух столбцов размерности 4X3 к верхней треугольной —3~ 1 1 з —Г" 3 1 з- G = 3/5 -+ s = 4/5 + •—с 3^5 А/Ъ c=l/V2 s=l/V2 5 0 Г 0 [ 5 -5У2 0 0 0 форме 1 2J 1 2,5 0 0 -Г 1 3 3 V2 ^ 3 1 2 у2 Замечание. На каждом шаге стрелками, направленными вправо, указаны пары строк, участвующих в следующем вращении. Отклонения Гивенса. С помощью обозначений, принятых в BЛ), можно записать Остаточная сумма квадратов, таким образом, составляет здесь I2 + +J2}/~2J = 9. Отметим теперь, что если последняя строка в матрице [X, у] будет опущена, а процедура вычислений останется прежней, то расчеты завершатся после получения матрицы '5 1 —Г О 2,5 3 .0 0 1 Остаточная сумма квадратов в этом случае окажется равной 1 (т.е. равна квадрату элемента, расположенного в третьем столбце строки 3). Исключение последнего значения наблюдения уменьшает остаточную сумму квадратов на величину, равную квадрату последнего элемента вектора z. Для последующего обсуждения удобно предположить, что столбцы матрицы [X, у] пронумерованы, начиная с 1 по? + 1. В общем случае планарные вращения, применяемые к матрице [X, у), приводят к получению матрицы 127
где вектор z имеет вид Z- D Предположим, что расчеты выполняются по приведенной выше схеме и что строки (соответствующие номерам наблюдений) 1,2, ..., {—1 матрицы [X, у], где i >/?, с помощью вращений приведены к верхней треугольной форме. Тогда в последующих вращениях участвуют строки 1,2, ..., р (промежуточная стадия формирования Тр и ty) и поочередно строки /, / + 1, ..., п матрицы [X, у]. На рис. 4.1 схематически представлен этап вычислений, на котором преобразуется Ля строка матрицы [X, у]. Остаточная сумма квадратов после рассмотрения первых /— 1 значений наблюдений равна Нули Текущая версия верхней треугольной матрицы (строки с 1 по р) р+1. На эти элементы последующие вращения влиять не будут I— 1 V Строка ? матрицы (х, j Рис. 4.1. Формирование отклонений Гивенса в случае, когда матрица [X, у] (за исключением ее последнего столбца) приводится к верхнему треугольному виду с помощью планарных вращений 2/.Р-И- Включение /-го наблюдения увеличит ее на величину z?,p+1. Таким образом, отклонения Гивенса характеризуют составляющие элементы остаточной суммы квадратов по мере включения в модель дополнительных данных. Любое резкое изменение в характере процесса вычислений, приводящее к тому, что новые данные, начиная с наблюдения /, перестают удовлетворять линейной модели, с помощью которой описывались первые / — 1 наблюдений, проявится в резком увеличении значений отклонений Гивенса. Изменение порядка расположения и исключение столбцов из матрицы X. При планарных вращениях обычно удобнее всего сохранять первоначальный порядок расположения столбцов в матрице X вплоть до завершения процесса преобразования всех строк. Если же по каким- либо соображениям будет решено, что столбцы следует расположить в другом порядке, то соответствующая модификация [Т^, tyl может быть 128
осуществлена с помощью метода, рассматриваемого в следующем параграфе. Для построения регрессии, проходящей через начало координат, можно при желании модифицировать [Т7>, ty] таким образом, чтобы она соответствовала матрице, получаемой в результате исключения из [Х> у] первого столбца, состоящего из единиц. Важное значение имеет ситуация, когда вектор-столбец k матрицы X, т. е. хй, представляет собой близкую к линейной комбинацию предыдущих столбцов. В процессе вычисления компьютер работает не с хл, а с вектором xk + r\h, где цк — эффект ошибок округления ре~ зультатов расчетов. Поскольку в этом случае xk мало что добавляет к информации, содержащейся в предыдущих столбцах матрицы X, значения в строке k матрицы Т существенным образом зависят от t\k и поэтому не несут никакой смысловой нагрузки (это становится ясным также из уравнения E.3) в гл. 3). Однако если столбец k с помощью рассматриваемого в следующем параграфе метода будет перемещен на место последнего столбца, то вектор xk + r\k тоже переместится. Этот последний столбец может не учитываться в последующих вычислениях. Можно также во вновь полученном последнем столбце все элементы, начиная с &, положить равными нулю, сам столбец вновь переместить на место столбца &, а нулевую строку вставить на место строки k (см. пример из параграфа 4.5). Полученная верхняя треугольная матрица может служить основой для последующих расчетов с помощью методов из гл. 3. 4.4. ИЗМЕНЕНИЕ РАСПОЛОЖЕНИЯ СТОЛБЦОВ В МАТРИЦЕ X __ Предположим, что матрица X* имеет те же столбцы, что и матрица X, однако расположены они в другом порядке, и что такие же перестановки проделаны и.со столбцами матрицы Тр, в результате чего получена матрица Тл. Тогда Q X = \ р\ и соответственно QX* = Lo J Рассмотрим теперь следующий пример: 1 1 1 1 2 — 1 2 7 0 2 5 3 2 0 0 0 3 7 0 0 5 2 3 0 Зак. 1078 129
Это выражение можно переписать, поменяв местами столбцы 2 и 3: 1 О 1 2 1 5 1 3 Предположим теперь, что к столбцам матрицы Тр применяются ортогональные вращения (представленные матрицей Q) для получения верхней треугольной матрицы Тр. Тогда 2" 1 2 7 2 0 0 0 5 2 3 0 3 7 0 0_ имя- Q Q X* = — П* Y* Таким образом, Vp представляет собой матрицу, полученную в результате приведения X* к верхней треугольной форме. В только что рассмотренном примере Тр может быть приведена к верхней треугольной форме посредством планарного вращения строк 2иЗ: 1 0 0 0 cos 9 — sin6 0 sinO cose 2 0 0 5 2 3 3 7 0 Потребуем, чтобы — 2 sin 9 + 3 cos 9 = 0, т. е. cos 9 = 2/J/13, sin 9 = 3/^13. Тогда Г2 5_ 3 _1 т;- о Ki3 14/1ЛЗ . [O 0 — 21/J/T3J Определив верхнюю треугольную матрицу для матрицы X, имеющей определенный порядок расположения столбцов, легко получить верхнюю треугольную матрицу, соответствующую другому расположению столбцов. Отметим, что если соответствующие ортогональные преобразования для получения Q у применялись также и к вектору у, то к Q у может быть применено дополнительное преобразование, которое даст QQy = Q*y. Регрессия, проходящая через начало координат. При желании расчеты могут начинаться с приведения к верхней треугольной форме матрицы [Х,у], в которой первый столбец состоит из единиц. Описанный выше метод перестановки столбцов применяется и для получения верхней треугольной матрицы, соответствующей матрице X, у которой состоящий из единиц столбец переставлен на последнее место. В этом по* ложении данный столбец может быть исключен из дальнейших вычислений. 130
4.5. ЛИНЕЙНАЯ ЗАВИСИМОСТЬ: ПРИМЕР Обратимся снова к примеру из параграфа 3.5, где х3 = хг — 1/2 х2+ -j-1/2. Расчеты осуществлялись с одинарной точностью на машине LSI 11/23 — младшей модели в семействе цифровых компьютеров серии PDP11. В параграфе 10.8 приводится написанная на Бейсике программа для соответствующих вычислений. _ _ Для простоты полная составная матрица Xq = [X, у] была приведена к верхней треугольной форме: Свободный член *i 2 6 Хг 1 2 4 3 х9 3 5 — 2 ,8542-Ю-7 х4 1 1 2 0,29888 2,9851 У 2 3 4 1,3406 2,8808 2,2145 Распечатывались пять наиболее значащих цифр каждого полученного числа. Если допустить, что число, расположенное на позиции C,3)\ не является случайным и несет определенную смысловую нагрузку, то это будет означать, что Яз2< з2<1 2 б*+22+@,5614. ю-*)* 1 — 1,09-Ю-14. Нет сомнения, что (в пределах машинной точности) х3 представляет собой линейную комбинацию хг и х2. Воспользовавшись описанным в параграфе 4.4 методом, переместим xs на место последнего столбца, в результате чего получаем: Свободный член хх хг 3 2 1 6 2 4 1 1 2 3 У 2 3 4 3 2,4495 хя 3" 5 — 2 О О О 1 Следует иметь в виду, что строка и столбец, соответствующие свободному члену, имеют номер 0. — Примеч. пер. 5* 131
где 2,4495 ~ |/б. Последние строка и столбец могут быть теперь исключены из матрицы Т*, в этом случае х3 полностью исчезнет из поля нашего зрения. Альтернативный подход состоит в возвращении столбца х3 на прежнее место и перемещении нулевых значений из этого столбца в третью строку. В результате получается матрица, столбцы которой соответствуют исходной нумерации переменных. К этой матрице могут применяться методы, рассмотренные в гл. 3. Таким образом, получаем Т = Свободный член 3 Xl 2 б х2 1 2 4 xz 3 5 2 0 1 1 2 0 3 У 2 3 4 0 3 2,4495 _ По существу, это матрица Т из параграфа 3,9; здесь только включены первые строка и столбец, соответствующие свободному члену. 4.6*. ПЛАНАРНЫЕ ВРАЩЕНИЯ БЕЗ ИЗВЛЕЧЕНИЯ КВАДРАТНОГО КОРНЯ Вместо непосредственного формирования матрицы Т можно прибегать к не требующим извлечения квадратного корня вариантам получения матрицы U= МТ, где М = diag [J/"m0, Vml9 ..., Vmp\. По мере проведения расчетов элементы ть изменяются и соответствующим образом адаптируются вместе с элементами U. При применении таких алгоритмов число арифметических операций может быть сокращено примерно в 2 раза, если р достаточно велико. Две строки, к которым нужно применить следующее вращение, должны быть взяты в виде Го, ..., о, иь ..., ирЛ [О, .,., О, vh ..., vpj - масштабирующий множитель ]/|1 . -масштабирующий множительVv Здесь ц, является текущим значением тг. (Обычные планарные вращения дали бы VV и,- вместо Uj и }/~v Vj вместо Vj.) Приведенные выше строки затем замещаются на [О, ..., О, и\, u'i+u ..., и'рЛ О, ..., О, 0, 0/+ь ..., v'p \ масштабирующий множитель масштабирующий множитель J/V 132
Выбор значений ц', v' и и', v' может осуществляться так: ц'= ? ; . v'= - \i щ ! " ! J ut " Приведенные соотношения представляют собой один из нескольких возможных вариантов, упомянутых в работе [100]. 4.7*. МЕТОДЫ ОТРАЖЕНИЯ ХАУСХОЛДЕРА Предлагаемый здесь алгоритм полностью описывается уравнениями G.7) и G.8). Читатель при желании может познакомиться с обозначениями в уравнениях G.1) и G.2), а затем перейти к рассмотрению G.7) и G.8) и следующего за ним примера. Разовое отражение Хаусхолдера, применяемое к столбцам матрицы Хд = [X, у], эквивалентно умножению слева матрицы Xg на матрицу zr т 2ww' где т == ||w |2 = w/w. Отметим, что = I. Вектор Qw а для любого а представляет собой отражение а относительно плоскости, проходящей через начало координат и составляющей прямой угол с вектором w (рис. 4.2). В предлагаемом варианте после построения отражения может осуществляться изменение знака первого ненулевого элемента вектора A — —2ww7x) а. Матрица преобразования, таким образом, имеет вид О =' 1 G.1) Рис. 4.2. Отражение холдера Хаус- где I* — единичная матрица или получается из единичной изменением соответствующего диагонального элемента, равного 1, на — 1. Первое отражение Хаусхолдера предназначено для обращения в нуль элементов, стоящих после первого элемента в первом столбце матрицы X. Следующее преобразование позволяет обратить в нуль элементы, расположенные ниже главной диагонали (стоящие после второго элемента) в следующем столбце, причем первая строка текущей версии 133
матрицы не меняется. При подобных преобразованиях, предназначенных для обращения в нуль элементов, расположенных ниже главной диагонали в столбцах 0,1, ..., k — 1, матрица X заменяется на матрицу 12 G.2) Матрицу Тп более удобно записать в виде Тц^-х). Аналогично можно записать и матрицу Т12. Пусть где а7- (/ ^ k) теперь более правильно обозначить как af~l*. Поскольку преобразование, которое нужно теперь применить к столбцам матрицы X<k~l>, оставляет матрицы Тп и Т12 неизменными, все элементы с 0 по k — 1 вектора w равняются нулю. Пусть w представляет собой вектор, полученный после исключения из w первых нулевых элементов. Для простоты мы ограничимся рассмотрением отражения Ха- усхолдера (/ — 2 wwVx), применяемого к столбцам матрицы \<k~l>. Вектор w выбирается так, чтобы гарантировать выполнение соотношения <*> 0 G.4) где 1^ отличается от единичной матрицы (если это требуется) настолько, чтобы гарантировать неравенство tkk > 0. Легко проверить, что подходящий выбор вектора w определяется как w = ak+i. где aft= a hh - aft (akh). Тогда т = G.5) G.6) Можно было бы из ak вычесть второй член, изменив при этом соответствующим образом т. Однако это привело бы к получению численно неустойчивого алгоритма. На базе уравнений G.4), G.5) и G.6) можно после ряда алгебраических преобразований окончательно показать, что 134
tkk G.7) где |a*l=Kfcl + ffcfc. В табл. 4.2 для иллюстрации приведены расчеты, основанные на использовании этих уравнений и данных из параграфа 1.9, для которых [х. у] - Таблица 4.2. Один из вариантов отражения Хаусхолдера для приведения матрицы к верхней треугольной форме 1 1 1 1 2 j 2 7 0 2 5 3 —3 1 2 6 1 1 1 1 2 0 0 0 0 0 J) —2 —1 2 7 3 -4/3 5/3 20/3 3 7 0 0 5 2 3 0 2 2 5 3 -3- 1 2 6 1^ = 3 5 3" 1/3 1 10/3 2 4/3 6_ Строка Строка Строка Строка '""Li-1* з'1 6 1 2 Строка 1: Строка 2: Строка 3: Поскольку последний элемент в следует закончить. 1 (floo) + hj] — (*» 1/3, ' >/3, 0) 0: W *oi» ^02» *оз —как и раньше 1: (—1,2, 1)—1ХA/3 2: B, 5, 2)—IXA/3, 3: G, 3, 6)-lX(l/3, У[A/9.D*+^ + 202)] = = 2, /i3 = 7 !aia3 = 6 5/3, 0)=(-4/3, 1/3, 1) 5/3, 0)=E/3, 10/3, 2) 5/3, 0)=B0/3, 4/3, 6) = 7, 1^1 = 7+ 4/3=25/3 ,1/5, 3/5) ^n t ^12, ^13» как и раньше (Ю/3, 2)-E/3)xA/5 D/3, 6) —B0/3) x( 1/5 столбце 2 (строка 3) , 3/5) = C,1) , 3/5) = @,2) равняется нулю, расчет Замечание. Расчеты проводились по данным примера из параграфа 1.9. 135
4.8*. МОДИФИЦИРОВАННЫЙ АЛГОРИТМ ГРАМА-ШМИДТА (МГШ) Здесь этот алгоритм естественно рассматривать в качестве варианта алгоритма Хаусхолдера. Оставляем читателю вывод его взаимосвязи с классическим алгоритмом Грама — Шмидта, который мы применяли ранее в теоретических целях (см. параграф 1.11). Детальное сравнение этих двух алгоритмов содержится в работе [144]. Предположим, что ортогональные преобразования применяются к матрице Xq = [X, у], так что матрица X размерности п(р + 1) приводится к верхней треугольной форме. Пусть G = } нулевая матрица размерности qx(q-r\), } матрица размерности пХ(д+ 1), где q = р + 1. Приведение матрицы X к верхнему треугольному виду с ломошью модифицированного алгоритма Грама — Шмидта эквива* лентно приведению столбцов с 0 по р матрицы G к верхнему треугольг ному виду с помощью варианта алгоритма Хаусхолдера, описанного в предыдущем параграфе. На этапе, когда с помощью алгоритма Хаусхолдера закончатся расчеты, связанные с формированием строки k — 1 матрицы Т, матрица G будет приведена к виду 12 Т„ Т„ О О о I(*-u q строк п строк Обозначим Столбец е/* 1) представляет собой вариант столбца / матрицы Хф полученный после очередного преобразования. Применяя преобразования G.7) и G.8) из параграфа 4.4, следует иметь в виду, что элементы a(k/~{) являются элементами первой строки матрицы A<k~l) и поэтому все они равняются нулю. Таким образом, -DI Отсюда, в частности, следует, что 136 tki tkk = 0. tkh (8.1) (8.2)
Таблица 4.3. Модифицированный алгоритм Грама — Шмидта для приведения матрицы к верхней треугольной форме 0 0 0 0 0 0 0 0 0 1 —4 0 1 -2 4 I 4 10 1 14 6 12 2 6 10 6~ 0 0 0 0 0 0 0 0 0 —7 —5 —9 0 -5 -1 —1 0 15 1 0 11 1 9 4-2 + 4+14)//oe-=6; Wuo-3 4+10 + 6)//оо=-Ю; Woo-5 6 + 2 + 4+12)//00-6; Woo=3 —4 2 4 _ H 1 1 1 1 Л)О -—7~ -5 1 11 (Г 4 10 _ 6_ 1 1 1 1 —5 — 1 5 1 -6 2 4 12 1 1 1 1 'оз — 1 1 9 = 12; /„//„== 6/7 ~—5 " — 1 5 1 -7 -5 1 11 tl2 tn~~ —3 3/7 33/7 — 15/7 —9^ — 1 1 9 —5 1 11 -3 23/7 1/7 -3/7
Продолжение табл. 4.3 2 6 О 14 О О О О О О О О 10 4 О —3 3/7 33/7 6 12 О 3 23/7 1/7 О 0 —15/7 —3/7 2 6 10 0 114 0 0 6 0 0 0 0 0 0 0 0 0 —10/7 0 0 0 2/7 6 12 2 2 22/7 /„ =/Cя+ C/7)*+ C3/7)*+ A5/7)* = 6 tn = C-3+ C/7).B3/7) + C3/7).A/7) + A5/7).C-7) 722 = 2; /23//22 —3~ 23/7 1/7 -3/7 з 3/7 33/7 — 15/7 ^23 '22 ~ 2 22/7 — 10/7 2/7_ Отклонения в регрессии у на столбцы матрицы X Замечание. Данная матрица слегка отличается от матрицы, представленной в табл. 4.2. Значения, расположенные в трех последних столбцах, увеличены вдвое, что позволяет упростить-арифметические выкладки.
В табл. 4.3 содержатся расчеты, основанные на данных преобразований. Матрица, приводящаяся к верхней треугольной форме, имеет вид [х, у] = 1 1 —4 — 2 4 14 0 4 10 6 — 6 2 4 12 МГШ и парная регрессия. Положим в (8.2) х = е[ \ у = _e(fe-i) (у>?)# Тогда в регрессии у на х вида у = Ьх коэффициент регрессии определяется как х' х tkh е(/к) ••= * 1} Следовательно, е(/к) ••= у — Ьх — вектор отклонений в регрессии на е?"^. Теперь предположим, для целей доказательства по индукции, что t(/k~~l\ j = k, k + 1, ..., p, представляет собой вектор отклонений в регрессии х7- на столбцы матрицы Xft_j. Результат из параграфа 2.14 означает тогда, что e(/k) является вектором отклонений в регрессии х^ на столбцы матрицы Xk. 4.9*. СМЕШАННЫЕ МЕТОДЫ Предположим, что с помощью алгоритма Хаусхолдера мы сформировали матрицу pi, T12 ta, 1 [о A<*-n a^-^J' Продолжим расчеты и сформируем матрицу частных сумм квадратов и произведений: L • byy.ij L *y *y J После этого расчеты можно завершить разложением по Холецкому: 22 Uy I ' tyv\ 139
Аналогичный переход возможен и при использовании модифицированного алгоритма Грама — Шмидта, только необходимо поставить E<k~l> вместо A(k-]) и t(yk~l) вместо а?*~Ч В более общем случае, как и в параграфе 2.14, положим Вектор ЬB) здесь может быть получен следующим образом: 1) каждый столбец матрицы [X<2>, у] регрессируется на столбцы матрицы Х(,>; матрица отклонений при этом равна [ХB)—хA)В, у—ХA)БA)]; 2) вектор коэффициентов регрессии ЬB> получается регрессированием у — Xdjb^) на столбцы матрицы Х<2) — Хц)В; 3) отклонения от этой регрессии являются отклонениями, которые были бы получены, если бы у регрессировался на столбцы матрицы X; 4) значение В и b(°D позволяет определить b(i), а именно b(i) = Ь~~ ° пГк A) — D D(O), 5) var(bB)) = T2^1 T22 о2, где матрица Т22 может быть получена применением ортогональных преобразований к матриц^ Х<2> —X(d В или разложением Холецкого матрицы S?2ml ^(ХB) — X<i) В)(ХB)— — ХA)В) (обозначения из параграфа 3.5); 6) в параграфе 2.13 (см. уравнение A3.10)) было показано, что вектор ЬB) независим от Ь( п. Следовательно, информация относительно показателей дисперсий и ковариаций для b(i > может быть получена по соответствующим данным для b(i>: Кроме того, cov(B(i), bB)) = cov( —ВБB), bB))=— Bvar(bB)). Два набора регрессий, определяемых в пунктах 1) и 2), могут быть получены с помощью совершенно различных методов. Здесь можно воспользоваться и преимуществами специальных методов вычислений для ортогональной или сбалансированной частей плана в задачах теории планирования эксперимента (представлены, например, столбцами матрицы X(d). При обработке других элементов модели применимы классические способы расчета регрессионных уравнений. 140
4.Ю. ДОБАВЛЕНИЕ И ИСКЛЮЧЕНИЕ СТРОК ИЗ МАТРИЦЫ ИСХОДНЫХ ДАННЫХ Добавление строк. Предположим, что ».-[J] do..) и что в матрицу Xq должна быть добавлена дополнительная строка Г. С учетом материала, рассмотренного в параграфе 4.2, к верхней треугольной форме должна приводиться также матрица вида Строки матрицы Xq уже приведены к верхней треугольной форме, и поэтому теперь требуется провести расчеты, которые позволили бы подключить к ней и строку Г. Этого можно легко добиться посредством вращения Гивенса, для которого матрица f или, что эквивалентно, матрица приводится к верхней треугольной форме. Если добавляется некоторое множество дополнительных строк, например Х+, то указанная процедура может быть по очереди применена к каждой из этих строк. С помощью вращений по алгоритму Гра- ма — Шмидта к верхнему треугольному виду одновременно могут быть приведены также все строки матрицы Исключение строк. Предположим, что хЛИ5 т о Г A0.2) где 1' яйляется строкой матрицы Хд. Тогда if] 141
т. е. общий эффект применения преобразований, представленных Q и Q, должен проявиться в приведении к верхней треугольной форме матрицы, полученной в результате исключения строки Г из Хд. Нулевые строки, не меняющиеся после преобразования Q, могут быть исключены из дальнейшего рассмотрения. Предположим, что матрица ортогонального преобразования имеет вид Q, так что A0.3) Для достижения эффекта исключения из матрицы Xq строки Г необходимо лишь определить соответствующую последовательность ортогональных преобразований, представляемых в уравнении A0.2) матрицей Q и в уравнении A0.3) матрицей Q. Эти преобразования, не меняя нулевых значений матрицы Т, расположенных ниже главной диагонали, приводят к замещению последней нулевой строки вектор-строкой Г. Пусть v' = (\'q, Vq+J представляет собой последнюю строку Q. Как всегда, переменные пронумерованы в следующем порядке: 1,2, ..., р, q = р + 1. Тогда, приравнивая последние строки выражений, расположенных в левой и правой частях уравнения A0.3), получаем v;T = T. A0.4) Это условие является достаточным для того, чтобы гарантировать, что нулевая строка будет замещена на Г. Вектор v^ может быть получен в результате решения методом прямой подстановки системы уравнений T'v9 = 1 с нижней треугольной матрицей. Тогда v'v = 1 означает, что vq+l = (l—уд\д)Ук Поскольку строки матрицы Q взаимно-ортогональны, условие того, что последней строкой в ней яляется v', эквивалентно ¦о 00.5) 1 (Для проверки того, что последняя строка матрицы Q представляет собой вектор v$, умножьте слева обе части выражения A0.5) на Q'.) Отметим, наконец, что любая последовательность планарных вращений, при которой строка, состоящая вначале из нулей, последовательно вращается со строками q, q — 1, ..., 0 матрицы Т, не будет влиять на нулевые элементы матрицы Т, расположенные ниже главной диагонали. Требование A0.5) будет удовлетворено, если первое такое враще- 142
ние проводится с целью заменить предпоследний элемент вектора нулем, второе вращение—чтобы обратить в нуль стоящий перед ним элемент, и т. д. Проверка алгоритма на устойчивость при исключении строки. ^Основное внимание здесь следует уделить случаям, когда значение v^ близко к 1,0. Предположим, что е определяется так же, как в параграфах 3.4 и 3.9. е можно определить таким наименьшим числом в машинном представлении, при котором 1 +ев расчетах оценивается как величина, превосходящая 1. Даже если элементы вектора vq в машинном представлении определяются точно, рассчитанное значение i;J+i будет иметь максимальную абсолютную ошибку порядкау^у^е « е. Следовательно, необходимо проверить, что значение v2q+\ существенно больше, чем е. С подробностями анализа ошибок можно познакомиться в работе Дж. Стьюарта [203]. Аргументы Стьюарта сводятся к тому, что v^+\ достаточно хорошо характеризует величину множителя, на который в среднем может в результате проведенных расчетов возрасти относи!ель- ная ошибка в величине элементов матрицы Т. Исключение строки может, если v^+\ достаточно велико, привести к существенному увеличению относительной ошибки отдельных или даже всех элементов матрицы Т. Однако если мы заинтересованы в получении матрицы Т в виде некоторого представления XfQXq, то ситуация оказывается гораздо более благоприятной. Относительная ошибка в элементах матрицы Х'дХя будет существенно возрастать только тогда, когда исключение строки, приведет к существенному уменьшению наибольшего значения матрицы Х'дХд. Воздействие на точность вычислений здесь окажется не хуже, чем в случае, когда матрица СКП X'QXq модифицируется способом, соответствующим исключению строки, и на ее основе формируется новая верхняя треугольная матрица Холецкого. Пример. Пусть ~ 1 —2 0 — 3~ IX, у] = -1 2 2 5 7 3 4 2 1 2 6 9 A — Пятая строка добавлена здесь к матрице данных из параграфа 1.9. Ниже приводятся результаты решения относительно vq уравнения T'v9 = 1, где Г=A, 4, 2, 9), а также значение t»gfl = Верхняя треугольная матрица Т имеет следующий вид: 2,2361 4,4721 5,3666 6,7082" 7,3485 1,7961 7,7567 3,1734 -0,5427 0.0536J 143
0,4472 0,2722 -0,2788 0,7397_ vq+1 = 0,3188. Отметим, что значение 0,4472 получено в результате решения относительно vx уравнения 2,2361 vx = 1 и т. д. Пленарные вращения применяются теперь к матрице размерности 5x5: Т v9 1 0' vq+l\ Для первого вращения имеем s = 0,7397/d, с = 0,3188/d, d = @.73972 + 0.31882I/2; вращаются последняя и предпоследняя строки. В результате 5,0536 замещается на t33 = 2, vq — на 0 и vq+l — на d = 0,8055. Второе вращение применяется к последней и третьей с конца строке и т. д. После четырех таких вращений будет получена верхняя треугольная матрица 2 3 5 3 7 2 6 3 1 2 4.11*. ВКЛАД ОТДЕЛЬНЫХ СТРОК Вклад в остаточную сумму квадратов. Представленные в настоящем параграфе результаты заимствованы из работы 1891. В большинстве случаев они приводятся без доказательства (см. также [23]). Если опускается только /-я строка [!',-, yt] матрицы [X, у], то можно показать, что остаточная сумма квадратов уменьшается на величину A —Aj)"^/, где ht = \'i (Х'Х)~1Гь a et представляет собой t-e отклонение. Поскольку var (et) — A — ht) а2, то это уменьшение пропорционально /-му стандартизованному отклонению. Выбросы (outliers) в значениях данных представляют собой точки, для которых \et\ или, что эквивалентно, изменение в остаточной сумме квадратов при исключении i'-й строки оказывается чрезвычайно большим по своей величине. Обобщением подобного анализа является исследование уменьшений остаточной суммы квадратов по всем (?) возможным вариантам одновременного исключения k строк, где, вероятнее всего, k равно 2 или 3. Если любое из этих (?) уменьшений окажется неожиданно большим, то 144
это будет служить сигналом о необходимости проведения более тщательного исследования, которое позволит выявить случаи, когда два или более выбросов как бы вступают «в заговор» с целью скрыть свое существование г. Если е* — вектор отклонений, соответствующий k опущенным значениям, а Р* определяется выражением A1.1), то можно показать, что остаточная сумма квадратов уменьшается при исключении этих точек2 на величину ej (Г— Р*)"^*. Дж. Джентльмен и М. Уилк (89] предлагают осуществить отбор 50 или, скажем, 100 самых больших значений этой статистики и нанести их на график, по другой оси которого будут откладываться 50 или 100 значений этой же статистики, полученных для данных, удовлетворяющих модели у = Хр + г. Рассмотрим результаты Джентльмена и Уилка более подробно. Для простоты предположим, что должны быть исключены первые k строк. Пусть в модели у = ХБ + е, построенной по полному набору данных, качана Пусть е0 представляет собой вектор отклонений усеченной версии модели у0 = Х0Ь0 + е0, а 6* = у* — Х*Ь0 является вектором отклонений для данных с опущенными строками. Тогда, полагая можно показать, что 0U — PJ *»==?, A1.2) и что исключение строк [X*, yj уменьшает остаточную сумму квадратов на величину В общем случае lk -- Р* получается в результате исключения соответствующих k строк и столбцов из матрицы I — Р, где Р = X (Х'Х)~ХХ'. Матрица Р может быть рассчитана как ХТ^1 (ХТ^1)'. Если матрица Тр имеет один или несколько нулевых диагональных элементов, то Тр~1 следует заменить на Тр \ где матрица Тр получается из Тр заменой каждого нулевого диагонального элемента на единицу. Как и в параграфе 1 Имеются в виду случаи, когда значения выбросов в данных уравновешивают друг друга. — Примеч. пер. 2 Поскольку точка расположена в многомерном пространстве, исключение ее из рассмотрения эквивалентно исключению соответствующей строки из матрицы модели. — Примеч. пер. 145
3.14, матрица Р определяется в соответствии с требованием, чтобы Ph =h тогда и только тогда, когда h представляет собой линейную комбинацию столбцов матрицы X. С учетом точности расчетов при вычислении I — Р предпочтение следует отдать методу, описываемому в параграфе 4.12. Точки расбалансировки. Исключение i-ro вектора данных (наблюдения), как следует из A1.2), приводит к изменению соответствующего этому наблюдению теоретического значения на величину Относительное увеличение в i-м отклонении равно ht A — hi)-1. Величина его будет значительной, если ft* окажется близким к единице. Большие значения этого показателя, таким образом, соотносятся с точками данных, которые оказывают существенное воздействие на расба- лансировку теоретической линии регрессии в направлении, определяемом их положением. Такие точки известны как точки расбалансировки (leverage), aft, является оператором расбалансировки, соответствующим /-й точке. Пусть теперь At представляет собой значение оператора расбалансировки для случая, когда расчеты проводятся по центрированным данным: где ti включает все элементы, кроме первого, изТ* — 1. Заметим прежде всего, что Лг — это сумма квадратов элементов Т~х?и аналогично и для ft*. Далее можно показать, что A^hi — — A1.5) п (см. упражнение 8в) из гл. 2, Т12 = Уп {*ъ *2» •••» хр))- Таким образом, Аг = hi — п~х можно интерпретировать как метрику квадрата расстояния от l't до Г. Для расстояния в евклидовом пространстве (Л'ЛI/2 величина Аг принимает наибольшее значение, когда ?г пропорциональна собственному вектору матрицы Х'Х, соответствующему ее наименьшему собственному значению (см, упражнение 8 из гл. 6). В работе [23] обстоятельно обсуждаются возможности использования показателей расбалансировки ht. Предлагаемое там приближенное правило состоит в том, что особое внимание следует уделять наблюдениям, для которых оператор расбалансировки ht превосходит по величине 2p/nt где р = р + 1 является рангом матрицы X (среднее значение расбалансировки равно pin). Как показатель, определяющий степень влияния i-ro наблюдения на вид регрессионного уравнения, широко применяется также статистика, предложенная Р. Куком [45]. В качестве нее принимается квадрат 146
расстояния в евклидовом пространстве, на которое вектор у теоретической линии регрессии сдвигается при исключении из рассмотрения /-го наблюдения, деленный на ps2. Этот показатель рассчитывается следующим образом: Отклонения Гивенса. Информацию об эффекте последовательного исключения из регрессии строк в заранее определенном порядке легко можно получить с помощью расчета отклонений Гивенса. Этот метод альтернативен алгоритмам, описанным в параграфах 4.2 и 4.3. В нем, однако, предполагается, что последняя строка исключается первой. Пусть V — ортогональная матрица, такая, что V (I — Р) = U представляет собой верхнюю треугольную матрицу, a U* — ведущая подматрица размерности kxk матрицы U. Тогда и;и«, = ГЛ-р, (п.6) и из A1.2) следует где U* — вырожденная матрица, а и# * нужно заменить на L^1. Полученное выражение, как видим, представляет собой сумму квадратов первых k элементов U'-^e, т. е. квадраты последовательности элементов О'-^е характеризуют величины, на которые изменяется остаточная сумма квадратов всякий раз, когда очередная строка исключается из рассмотрения. 4.12*. МАТРИЦАQ ОРТОГОНАЛЬНОГО ПРЕОБРАЗОВАНИЯ В параграфе 4.10 обсуждались вопросы, связанные с применением матрицы Q ортогонального преобразования. При решении многих практических задач для сохранения информации, позволяющей восстановить последовательность проведенных преобразований, удобно использовать область памяти машины, в которой хранятся элементы нижнего треугольника матрицы и которая в процессе ортогонального преобразования заполняется нулями. При использовании алгоритма МГШ элементы, расположенные в столбце k текущей версии матрицы X на стадии, когда предыдущие столбцы уже заполнены нулями, определяют очередное преобразование. Поэтому для сохранения информации, позволяющей восстановить последовательность проведенных преобразований, достаточно оставить элементы вектора eik~l) на своем месте. При использовании отражений Хаусхолдера элементы aik~l) должны сохраняться. Элементы, располо- 147
женные за элементом (?, &)» могут оставаться на своих местах. Место (&, k) требуется для элемента tkk, поэтому а{\~1) и ак должны храниться в памяти машины отдельно. Удобный подход к проведению расчетов с помощью вращений Ги- венса состоит в использовании первоначальной версии матрицы Т, состоящей из одних нулей. Величина с (= cos в) из параграфа 4.1 определяется тогда как t/d, где t — текущее значение соответствующего диагонального элемента матрицы Т. Отсюда с > 0 при каждом вращении. Следовательно, необходимо сохранять значение s для каждого вращения; для каждого элемента матрицы X имеется одно такое значение. Подматрицы матрицы Q. По построению матрицы Q «-[:-]¦ Пусть где Q^) имеет то же число строк, что и Тр. Тогда, умножая эту матрицу слева на Q', получаем X=Qo,fp. A2.1) Если Тр имеет полный ранг, то это означает, что XTjT'^Qo,. A2.2) Если Тр вырождена, то в большинстве практических приложений достаточно, если всякий столбец матрицы Q<i)f соответствующий tH = О, переведен в матрицу Q<2>- Напомним, что матрица ХТ^ имеет нулевые столбцы, соответствующие tn = 0. Отметим, наконец, что: Таким образом, матрица U* в A1.6) может быть сформирована с помощью ортогонального приведения QB) к верхней треугольной форме. 4.13*. АНАЛИЗ ОШИБОК Допустим, что в результате ортогонального приведения матрицы X размерности п х(р + 1) к верхней треугольной форме получена матрица 148
Тогда, если Q является матрицей ортогонального преобразования, положим F=q'|4-x, т. е. В работе [38] дается относительно простое выражение для определения верхней границы Е, которое может быть применено и для алгоритма Хаусхолдера, и для МГШ при условии, что внутренние произведения накапливаются с двойной точностью (см. параграф 3.13). Оно выглядит как || Е || < ере || X ||f A3.1) где ||-1| есть евклидова норма (т. е. ||-||2 является суммой квадратов элементов матрицы), с — число, близкое к 1, и, как в параграфе 3.3, е представляет собой относительную точность выполнения арифметических операций. Планарные вращения или накопление внутренних произведений в алгоритмах Хаусхолдера или МГШ, осуществляемые без двойной точности, ведут к некоторому ухудшению показателя ошибки. Правую часть A3.1) следует в этом случае умножить на п. Более детально проблемы анализа ошибок рассматриваются в работах [2221 и [139]. При применении методов решения системы нормальных уравнений можно лишь гарантировать, что их ошибки вычислений, в отличие от ошибок вычислений при использовании методов ортогонального разложения (см^A3.1)), окажутся небольшими по сравнению с элементами матрицы Х'ХилиХ'Х. 4.14. ЧТО ЕЩЕ МОЖНО ПОЧИТАТЬ Кроме работ, на которые даны ссылки в параграфе 3.15, см. также [94] и [139]. Описание алгоритма Хаусхолдера, приведенное в параграфе 4.7, основывается (за исключением той части, где вводится условие, гарантирующее, что tkk > 0) на работе Ц621. В [91] обсуждаются алгоритмы адаптирования элементов матрицы Т при исключении строк из [X, у]. Эти алгоритмы позволяют применять информацию об ортогональных преобразованиях при получении матрицы Т, см. также [240]. Подробный анализ проблем регрессионной диагностики содержится в [23] и [11]. В работе [59] по единой теоретической схеме рассматриваются альтернативные статистики, предлагаемые в качестве характеристик отклонения от линейной модели. 149
4.15. УПРАЖНЕНИЯ 1. Определим zih = V(k— \)lk (xik—x\k-l))t i = 1,2, ..., q, где x\k~^ является средней первых k — 1 значений i-й переменной. Пусть Z представляет собой матрицу, состбящую из элементов zih, i = 1, ..., g\ k = 1, ..., п. Покажите, что ортогональное приведение матрицы Z к верхнему треугольному виду дает разложение Холецкого матрицы ЦСКП для q переменных xl9 х2, ..., хп (сравните с уравнением A0.1) из параграфа 3.10). 2. Предположим, что в результате ортогонального приведения матрицы [X, Y] к верхнему треугольному виду получена матрица ; [Тц Т121 [о f22j' где разбиение на блоки соответствует разбиению столбцов [X, Y1. Покажите, что если [X, Y] заменить на [ХС, YJ, где С — квадратная невырожденная матрица, то будет получена та же матрица Т22- 3. (Продолжение упражнения 2.) Покажите, что ортогональное преобразование к верхней треугольной форме матрицы приводит к получению матрицы U, такой, что U'U = Y' Y. 4. Рассмотрим вариант схемы планарного вращения, при котором обращаются в нуль все расположенные ниже главной диагонали элементы первого столбца прежде, чем обращается в нуль любой расположенный ниже главной диагонали элемент второго столбца. Какими достоинствами или недостатками обладает такой алгоритм: а) по сравнению с версией этого алгоритма, описанной в параграфе 4.3? б) по сравнению с алгоритмом Хаусхолдера? 5*. Пусть -1 1 1 I 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 2 1 3 6 4 7 2 9 3 3 4 6 1 - 3 2 6 3 3 2 2 0 6 1 1 Постройте верхнюю треугольную матрицу Т, такую, что Т'Т == Х'Х: а) на основе разложения Холецкого матрицы Х'Х; б) с применением алгоритма МГШ к матрице X. 150
6*. Пусть Х = Предположим также, что наблюдения у* опускаются. Покажите, что следующие процедуры эквивалентны: а) выберите b таким, чтобы минимизировать (у0— Х0Ь)' • (Уо — Х0Ь), и положите у* = Х#Ь; __ _ б) рассмотрите модель у = Xb-f-d-fe, где d'~[d*,O'], элементы у* выбираются произвольными, а элементы вектора d* подлежат оцениванию. Покажите, как для данного случая могут быть получены теоретические значения у*. Докажите, что вектор b удовлетворяет соотношению Х'ХЬ = Х'у, где у' = [yi, Уц]. 7. Пусть K=diag( ~^klt "l/^2, ..., V^p) является диагональной матрицей. Покажите, каким образом матрица, получаемая в результате ортогонального приведения к верхней треугольной форме матрицы е я- может быть использована для решения проблемы гребневой регрессии (X' Предполагая, что var (у) = а2Тп, получите выражение для var(b). (Гребневая регрессия г может оказаться полезным инструментом анализа, когда объясняющие переменные сильно коррелируют между собой. В ее простейшем варианте ki — = k2=...= kp = k. Целью является выбор такого k, которое гарантировало бы, что b'b не слишком сильно превышает Р'р и не приводит при этом к значительному смещению в оценке Ь.) 1 С проблемами построения гребневых регрессий читатель может познакомиться в работе Е. 3. Демиденко «Гребневая регрессия» (М.: ИМЭМО АН СССР, 1982). — Примеч. пер.
Глава 5 ф АЛГОРИТМЫ ОБРАБОТКИ ДАННЫХ В ПЛАНИРОВАНИИ ЭКСПЕРИМЕНТА Обсуждение моделей, применяющихся в планировании эксперимента, здесь фрагментарно и неполно. Наша цель заключается в том, чтобы дать читателю представление об основных свойствах таких моделей и соответствующих методах вычислений. Строгий контроль на стадии сбора данных, делающий возможным рандомизацию и построение симметричных планов комбинаций факторных уровней, позволяет более четко интерпретировать получаемые результаты. Принадлежность фактора к тому или иному уровню характеризуется с помощью фиктивных переменных или каких-либо их эквивалентов. Эти переменные добавляются к традиционным количественным переменным, которые в данном контексте могут быть названы сопеременными (совместными переменными). Матрица X такой модели обычно состоит в основном из нулей и единиц, причем нули преобладают. С учетом этого факта желательно, чтобы в методах анализа отражались и использовались преимущества подобной разреженности модельной матрицы, а также другие особенности ее структуры. Симметрия в плане эксперимента обычно означает, что матрица Х'Х имеет несколько различных собственных значений. С этой точки зрения и с учетом разреженности матрицы X потенциально привлекательным является метод сопряженных градиентов. Детали применения этого метода в контексте проблем, исследуемых в теории планирования эксперимента с учетом наличия нескольких видов ошибок, еще предстоит разработать. Общие методы анализа представлены здесь лишь в кратком изложении. Предстоит еще большая работа по исследованию и разработке этих методов, прежде чем какому-либо из них можно было бы отдать явное предпочтение. Обсуждавшиеся ранее методы вычислений могут быть использованы более широко, чем это продемонстрировано ранее. Соответствующие модификации их применяются, например, при анализе данных, а также при изучении проблем теории планирования эксперимента. С их помощью не всегда удается прийти к безоговорочным выводам. Так же как и при использовании обобщенных регрессионных методов, исключение из анализа переменных, оказывающих влияние на изучаемые процессы, приводит к очевидным отрицательным последствиям. 152
5.1. МОДЕЛИ УЧЕТА КАЧЕСТВЕННЫХ ЭФФЕКТОВ Будет полезно, если мы построим обсуждение на анализе простого примера. Шесть кустиков томатов случайным образом разбиты на три группы по два растения, к каждой из которых применяется определенный способ ухода. Вес в граммах корневых систем томатов после окончания эксперимента составил: Внесение концентрированных удобрений 1,5; 2,1 Внесение утроенного количества концентрированных удобрений 0,7; 0,9 Только полив водой 1,3; 1,9 Можно указать альтернативные записи модели, в которой предполагается, что каждый результат представляет собой суммарную величину, определяемую эффектом воздействия соответствующего способа ухода и некоторым показателем ошибки, характерным для конкретного растения: f = l, 2, 3, / = 1,2 A.1) +е„, /=lf 2, 3, /=1,2. A.2) Полагая в A.2) \it = \i + аи получаем A.1). И наоборот, \хг в A.1) может быть записано как \i + аг«, где \х выбирается произвольно. Уравнение A.1) иногда называется моделью групповых средних. Модель, подобранная для отражения фактических данных и соответствующая по форме уравнению A.2), имеет вид: Уц = т + ай+еи, * = 1, 2, 3, /=1, 2. A.3) Получить в какой-либо форме решение относительно параметров этой модели, среди которых имеется произвольная постоянная, невозможно. Для существования единственного решения на значения параметра at обычно накладывается ограничение идентифицируемости, что позволяет определить их единственным образом. Широко используемые формы этого ограничения имеют следующий вид (i изменяется от 1 до /): или а/ = 0, или аг = 0. Было бы удобно (хотя это и необязательно) наложить такое же ограничение, определенное тем или иным способом, и на аг. Рассмотрим теперь возможные альтернативные формы решения, которые можно получить на основе метода наименьших квадратов. В дополнение к решению, соответствующему модели A.1), будут приведены два решения (одно с ограничением 2/=t at = 0, другое с ограничением 153
ai = 0), которые соответствуют модели A.2). Модель также может быть записана в виде У и = Po+Pi <Pi @ + Р2 ф2 @ + *& A.4) где <рх (i) и ф2 (i) являются ортогональными полиномами степени 1 и 2 относительно способа ухода i за растением. Часто оказывается полезным упорядочение способов ухода по степени сложности. Упорядочить их можно так: 1 = 1 для простого полива водой, t=2 для концентрированных удобрений, 1 = 3 для утроенной концентрации удобрений. (Вообще говоря, можно определить ортогональные полиномиальные функции любого порядка, которые для различных способов ухода будут различными.) Альтернативные формы оценки параметров: пример с кустиками томатов. У. Модель групповых средних. Модель групповых средних представляет собой модель, описываемую уравнением A.1), т. е. в нашем случае Уи = № + / = 1, 2, 3, / = 1, 2. В матричном обозначении эта модель переписывается следующим образом: Уп Уп У'л Ум Уз1 Узг- 0 0" 1 0 0 0 1 0 0 1 0 0 0 1 _ 0 0 1 _ Их" г*2 ^12 ^21 е22 е31 или у = Хц + е. Оценку метода наименьших квадратов щ обозначим через ть. Сумма квадратов для этой модели тогда будет равна S к еЬ= 2 S (Уи-У1.+Уг.-тг}2 = = S [ S (Уи-Уг.У + (yi. A.5) Таким образом, mt = yt. будет оценкой метода наименьших квадратов для т*. Итак, mt -A/2)@,7 +0,9) -0,8, m3=(l/2)(l,3+l,9)=l,6. 154
г: 2. Формулировка в обычных терминах дисперсионного анализа сигма-ограничения. В статистической литературе модель дисперсионного анализа обычно записывается в следующем виде: i=lf 2, 3, /=1, 2, A.6) где предполагается 2/Lia,- = 0. Сигма-ограничение 2f=i аг- = 0 является частным случаем упоминавшегося ранее ограничения идентифицируемости. Показатели а* иногда называют эффектами. В матричном обозначении можно записать у = Хц + с, где 1 1 1 1 1 0 i о 1 0 1 0 0 0 l l 0 0 0 0 0 0 l l »* = а, напомним, что SjLiaj = 0. Оценки метода наименьших квадратов могут быть получены, если положить в A.5) т% = т + at и заменить Sti2(y,—т,)«на V A.7) Здесь также имеет место ортогональность, поскольку члены приведенного выше выражения, включающие перекрестные произведения, обращаются в нуль. Оценки метода наименьших квадратов равны т = у.. и я* = Hi. — #•• . Для нашего примера "*=</.. = 1,4, fli=U.—?.= 1,8—1,4=0,4, ^ = 0,8-1,4 =-0,6, ae = 1,6—1,4 = 0,2. Рассчитанные по модели, подобранной для отражения фактических данных, значения (одинаковые для всех формулировок модели) обеспечивают связь между различными ее версиями. Оценки параметров ортогональной версии модели, удовлетворяющие сигма-ограничениям, легко могут быть выражены в виде разности между значениями, получаемыми на последовательных этапах процедуры подгонки, на которых поочередно определяются элементы, входящие в данную модель. Пред- 1 В оригинале употребляется получивший широкое распространение в англоязычной статистической литературе термин ANOVA — аббревиатура выражения analysis of variance (дисперсионный анализ). — Примеч. пер. 155
положим, на стадии, когда в процесс оценки параметров подключаются показатели а (например, в A.6) после подгонки модели по свободному члену), вектор получаемых по модели значений меняется с у(о> на у<а>. Тогда в силу ортогональности любой элемент у(а> — у@> представляет собой оценку параметра at, соответствующего данному элементу. Это утверждение остается верным независимо от того, какие члены модели были включены в рассмотрение. Необходимые для таких расчетов значения могут быть получены с помощью любой версии модели; одна из ее возможных формулировок будет приведена ниже. Поскольку у<а> — — у<0) не зависит от у@), значения стандартных ошибок рассчитать несложно (см. параграф 2.13). Обсуждение данного вопроса будет продолжено в параграфе 5.4. 3. Использование в качестве параметров значений отклонений от уровня последнего фактора. Рассмотрим модель i = l, 2, 3, / = 1, 2, где аз = 0. Перепишем ее j у з^ i матричном " 1 1 1 1 1 1 1 1 0 0 0 0 0" 0 1 1 0 0 виде: В е. A.8) Непосредственное использование уравнений типа A.5) или A.7) здесь невозможно. Однако решение легко найти на основе полученных ранее оценок mt и с учетом того факта, что т* = т3. Таким образом, т* — т3= 1,6(Шг являются параметрами в пункте 1), af=m1 — m*= 1,8—1,6 = 0,2, а*2 = т2-т* = 0,8—1,6 = —0,8. Поскольку значения а* оценивают отклонения от уровня последнего фактора, подобная формулировка модели больше всего подходит для анализа экспериментов, в которых уровень последнего фактора принимается в качестве контрольного или стандартного, являющегося базой для сравнения. В описанной в работе 1189] GLM-процедуре параметры, соответствующие уровню последнего фактора, как в нашем примере, полагаются равными нулю. Однако нетрудно показать, что этого можно добиться обращением в нуль параметров, соответствующих уровням первого фактора. Подобный метод используется в пакете статистических программ QLIM (см.[ 151) и при анализе так называемых обобщенных ли- 156
нейных моделей1 с помощью пакета GENSTAT (см. [6]). Некоторые особенности этих пакетов статистических программ рассматриваются также в гл. 10. 4. Параметризация с помощью ортогональных контрастов. При записи рассмотренной выше формулировки ^модели, определяемой выражением A.8) в виде~у = 1С(Л + е, матрица X может быть получена с помощью удвоения каждой строки матрицы в исходной схеме эксперимента: [1 1 0~| 1 0 Oj '1 Данная модель может быть записана также в следующем виде: где С — любая невырожденная матрица. Матрицу X* можно получить с помощью удвоения каждой строки матрицы F* = F С. Поскольку матрица F является невырожденной, в качестве матрицы F* можно взять любую невырожденную матрицу размерности 3x3; в этом случае С = = F-^F*. Например, матрица F* может быть подобрана таким образом, чтобы ее столбцы, начиная со второго, соответствовали интересующим нас контрастам и были ортогональны по отношению друг к другу. Поэтому она может выглядеть, скажем, так: 1 —1 Г 1 0 —2 1 1 1 Ортогональность, которая означает, что попарные скалярные произведения столбцов равняются нулю, ведет к тому, что Х^Х, представляет собой диагональную матрицу, и это существенно упрощает вычисления. Найти соответствующую матрицу С мы предоставляем читателю в качестве упражнения. Важный тип ортогональных контрастов связан с ортогональными полиномами. Использующиеся здесь контрасты могут интерпретироваться как линейные и квадратические ортогональные полиномиальные функции равномерно распределенных факторных уровней i = = 1, 2, 3. Рассматриваемая модель может быть записана следующим образом: е,7, A.9) где фх (i) = i — 2 и ф2 (/) = 3 (/ — 2J — 2. 1 Данный класс моделей обсуждается в параграфе 7.9. — Примеч. пер. 157
В работе [198] приведен краткий обзор ортогональных полиномов и подробно рассмотрены рекуррентные соотношения, которые могут быть использованы для их получения (см. также упражнение 7 в конце данной главы). Такие рекуррентные соотношения имеются как для равномерно, так и для неравномерно распределенных факторных уровней. Взаимодействия. Рассмотрим полный факторный план, включающий фактор А, имеющий три уровня, и фактор В, имеющий два уровня. На основе формулировки модели, представленной уравнением A.8), получаем У и = М'* + а* +¦ Р/ + Т*/ + *и> где а5 = 0, Р5 = О, yh = yh=:yh = yl\= 0. Тогда A.10) X = 110 110 1 10 0 0 0, 1 о 1 1 о Г 10 10 0 0 10 0 10 0 1 0 0 0 0 0 A.11) Отметим, что 7и = 1 только тогда, когда а] = 1 и (J, = 1, в остальных случаях Yii равняется нулю. Аналогично y5i = 1 только тогда, когда (*2 = 1 и pt = 1. Таким образом, столбцы, соответствующие взаимодействиям, могут быть получены с помощью перемножения элементов, расположенных в столбцах, представляющих главные эффекты. Это предоставляет в наше распоряжение схему получения столбцов, соответствующих эффектам взаимодействий. Однако данный метод оказывается неприемлемым, если при использовании модели вида A.8) будет опущена одна или несколько строк, в которых на позиции, отведенной для отражения эффекта взаимодействия, будет стоять единица. Пропуск такой строки, которая на практике заменяется нулевой строкой, приводит к редукции пространства, натянутого на столбцы матрицы X, к подпространству меньшего числа измерений. Одно из возможных решений состоит в восстановлении исходного пространства с помощью добавления к матрице X соответствующим образом подобранного столбца, относящегося к взаимодействию, включающему последний уровень одного из факторов. Более подробно этот вопрос обсуждается в работе [195], к которой мы и отсылаем читателя. При использовании ортогональных полиномов требуется определить взаимодействия для линейных (по А) с линейными (по В), а также квадратических с линейными эффектов. Следовательно, и в этом случае для получения взаимодействий необходимо поэлементное перемножение 158
столбцов главных эффектов. Тогда, обозначив через / линейную форму, а через q квадратическую, мы можем записать 1 1 1 1 1 1 A (I) — 1 0 1 1 0 1 А (Я) 1 2 1 1 —2 1 B(l) A — 1 — 1 1 1 1 1 | @ х в ( 1 0 — 1 — 1 0 1 /) A(q)xB(l) — 1 2 — 1 1 — 2 1 Аналогичная аргументация легко обобщается и на более сложные ситуации, когда требуется получить взаимодействия более высоких порядков. 5.2*. ОГРАНИЧЕНИЯ ИДЕНТИФИЦИРУЕМОСТИ Предположим, что в модели вида A.6) из параграфа 5.1 требуется минимизировать е'е, где y = XS+e B.1) и Нт = 0. В нашем примере Н = [0, l,lf l]f т'=[/и,а1.оа,а8Ь Ограничение идентифицируемости имеет здесь форму линейного ограничения-равенства; заметим, что оно не накладывает ограничений на совокупность оцениваемых значений. Формально это можно выразить так: |Г|Г=Хт}=|Г|Г=Хт, где Нт=0|. B.2) Автоматическое выполнение ограничений идентифицируемости. Предположим, что модель записана таким образом, что оцененное значение может быть представлено в виде y = mo + m1(xl — d1)+m2(x<>—d2)+... + тр(хп — йр). B.3) Каким образом осуществляется подбор значений dt (i = 1, ... р), будет видно из дальнейшего. Допустим, что элементы с 1 по k соответствуют одному фактору модели. Тогда предположим, что хь = 1 A ^ < / < k — 1), если /-й уровень первого фактора представлен в модели. В остальных же случаях показатель х% положим равным нулю. В дальнейшем удобно будет положить xh тождественно равным нулю, допустив, что mh —- 0, и опустить соответствующий столбец из матрицы модели. Тогда аддитивные эффекты, отвечающие k уровням параметров, определяются так: a1 = ml— V mjdj, a2^tn2— V m7d7-,..., aA=mfe— 2 mJdJ- /=1 /=! /=l 159
(Чтобы получить alt положим хг = 1, х2 = х3 = ... хк = О и т. д.) Тогда 2/=i a7- = 0, если взять dj = Л для /=-1, 2,..., Л. Аналогичные выкладки можно провести и для любого другого фактора или взаимодействия. Запишем теперь оцениваемую модель в виде у = Хт + е и предположим, что матрица Т представляет собой разложение Холецкого матрицы Х'Х и что а = L'm. Элементы матрицы L определяются достаточно просто. Тогда var [a] = G'G, где матрица G получается в результате решения уравнения T'G = L. Исключение лишних параметров. Метод, к обсуждению которого мы сейчас приступаем, может быть применен при работе с любыми линейными ограничениями (см. упражнение 8, приведенное в конце настоящей главы). Он основывается на записи соотношения вида Н т= Н1ШA)+H2niB), B.4) где матрица Нг состоит из линейно независимой совокупности столбцов матрицы Н, которая задает базис пространства, натянутого на столбцы матрицы Н. Можно потребовать, чтобы Нх представляла собой верхнюю или нижнюю треугольную матрицу. В данном случае примем, что она является верхней треугольной матрицей. Если матрица Н имеет форму, которая не позволяет осуществить подобный выбор, то предварительно необходимо применить к ней метод исключения Гаусса, после чего у нее исключаются нулевые строки (соответствующие лишним условиям). Матрица Нг тогда будет состоять из тех столбцов матрицы Н, которые содержат первый ненулевой элемент в одной из строк. Отметим, что для восстановления матрицы Н столбцы матрицы Нг должны быть дополнены столбцами матрицы Н2. Аналогичные комментарии могут быть сделаны и относительно т. Поскольку Н т = 0, то НГ HmGm B.5) где G представляет собой решение соотношения HXG = H2. Матрица G определяет условия идентифицируемости в виде, удобном для последующих вычислений. Распределив столбцы матрицы X между матрицами Хх и Х2, получаем У—X"m=:y—ICiSd) —X2mB)=y--XmB), Bб) где X^Xi-J^G. B.7) 160
Рассматриваемая проблема сводится теперь к минимизации суммы квадратов элементов у — Х2тB). После получения оценки метода наименьших квадратов для тBь а также соответствующей информации относительно дисперсий-ковариаций расчеты завершаются применением уравнения B.5). Отметим, что после формирования матрицы Х2 нет необходимости сохранять матрицу Хг. Метод, позволяющий одновременно получить все элементы вектора ш. В статистической литературе более известен метод, основанный на минимизации суммы квадратов вида (y-Xm)'(y — Xm)+(Hm)HS. B.8) Положив (с целью минимизации второго слагаемого в этом выражении) Нш^О, мы тем не менее не накладываем ограничений на величину возможных значений первого слагаемого; это является следствием из B.2). Размерность задачи, решаемой с помощью метода наименьших квадратов, теперь определяется не числом элементов, входящих в вектор ГПB), а числом элементов вектора т. Если факторы имеют по два или три уровня, то в этом случае требуется значительно больше вычислений и возрастает потребность в машинной памяти. Дополнительная сложность связана и с тем, что решение системы уравнений с верхней треугольной матрицей, при котором определяются элементы вектора ш, не позволяет непосредственно получить информацию относительно значений дисперсий-ковариаций. Подход, основанный на использовании выражения B.8), более подробно рассмотрен в упражнениях. 5.3. ОЦЕНИВАЕМЫЕ ФУНКЦИИ И ДРУГИЕ ПРОБЛЕМЫ Согласно теории оцениваемых функций конкретный выбор ограничений идентифицируемости определяется исходя из соображений удобства при проведении вычислительных операций. При этом основное внимание уделяется тем линейным комбинациям оценок параметров, которые принимают одни и те же значения независимо от способа проведения параметризации. Линейная функция параметров Т'|л является по определению оцениваемой, если для некоторого вектора с она тождественно равняется с' Е [у] = с' Хц, где у представляет собой вектор наблюдений. Таким образом, Т = с' X. Пусть теперь Q — ортогональная матрица, такая, что QX является верхней треугольной матрицей. Тогда Г = c'Q'QX = h'Tp, где Тр — разложение Холецкого матрицы Х'Х. Очевидно, что любой выбор h позволяет получить оцениваемую функцию. Примем, что t-й элемент вектора h равняется 1, а все остальные его элементы равняются нулю. 6 Зак. 1078 161
В этом случае 1 представляет собой вектор, элементами которого являются элементы f-й строки матрицы Тр. Строки матрицы Тр с ненулевыми диагональными элементами линейно независимы, и, следовательно, в нашем распоряжении имеется линейно независимая совокупность оцениваемых функций. Пример. Рассмотрим двухфакторную аддитивную модель /=1,2, (ЗЛ) с модельной матрицей ¦V 110 0 10 10 0 0 1 0 10 10 0 10 0 1 0 0 110 0 0 10 1 Разложение Холецкого матрицы Х'Х имеет вид: VI УЩ о УЩ 0 0 о 0 0 0 о _ 0 УЩ — VW 1 0 о 0 — VW 0 о 0 уЩ о 0 0 0 0 0 Каждая строка этой матрицы (за исключением строк, полностью состоящих из нулей) определяет коэффициенты для одной линейно независимой совокупности оцениваемых функций. При этом каждый из коэффициентов умножается на параметр, соответствующий столбцу, в котором располагается данный коэффициент. В свою очередь вид каждой из оцениваемых функций при желании может быть упрощен, если мы поделим все элементы на подобранную соответствующим образом константу. В результате получим следующую линейно независимую совокупность оцениваемых функций (в качестве делителей взяты значения У6, /1/3, 1, 1/3/2): 2а,- —а3, 162
1 1 1 1 1 1 0 0 0 0 1 1 1 0 1 ¦ 0 0 1 0 1 «11 «12 «21 «22 = 7, ч = 5. /^-обозначение, /^-обозначение используется для краткой записи показателей сумм квадратов, представленных в таблице дисперсионного анализа. Так, R (р | \i, а) обозначает сумму квадратов, обусловленную Р при подобранных ц и а. Более простая запись R (a \ \i) служит для обозначения суммы квадратов, обусловленной а при подобранном \.i. В рассмотренной выше двухфакторной аддитивной модели R (a|j.i) используется для проверки гипотезы 2ах — а2 — а3 = а2 — а3 = 0. т. е. а, = а2 = а3. Сумма квадратов R (PI ц, а) применяется для проверки гипотезы рх — р2 = 0. Поскольку план сбалансированный, R (Р | р) = R (Р | ц, а) и R (а | р) = R (а| щ р). Рассмотрим теперь аддитивную модель размерности 2x2, для которой числа в соответствующих клетках таблицы следующие: пг1 = 7, п12=^ = 1, я21 = 3 и п22 = 5. Матрица X модели, вместе с которой в конце каждой строки приводятся числа из этих клеток таблицы (использованные в качестве значений весов), выглядит тогда так: X = Положим W = diag [wt]. Разложение Холецкого матрицы X'WX имеет вид: 2 2 5/2 3/2 0 2—2 1 —1 0 0 0 0 0 0 0 о A/2)уТТ (_1/2)/П 0 0 0 О О Таким образом, R (а\\х) используется для проверки гипотезы 2 (ах — а2) + Pi —Рг = 0, a R ф \ |х, а) — для проверки гипотезы Рх — Р2 — 0. Гипотеза, проверяемая с помощью R (а | ц,), будет представлять интерес только в редких случаях. Определить оцениваемую функцию, которой в рассматриваемой модели соответствует R ($\[i)t читатель сумеет посредством изменения порядка взаимного расположения а и Р перед началом расчета матрицы Тл. 1 Если теперь в двухфакторную несбалансированную модель включить эффект взаимодействия у, то единственной /^-статистикой рассматривавшегося выше типа, которая соответствует гипотезе, представляющей для нас действительный интерес, является, по-видимому, /?(Yl|bi, а, Р). Целесообразнее всего в этом случае основывать статистический вывод непосредственно на средних значениях клеток таблицы. Если какие-то из клеток окажутся пустыми, то работе непосредственно с клеточными средними следует отдавать предпочтение. 163
Для двухфакторного несбалансированного плана с полностью заполненными клетками таблицы может представлять интерес и другой вид /?-статистики, который в работе [1961 обозначен как /?* (а||х, f$t Y)s. Эта статистика характеризует уменьшение в остаточной сумме квадратов в результате приравнивания аг нулю и в оценке оставшихся параметров при выполнении обычных сигма-ограничений дисперсионного анализа: 2 а? = 0, 2 Pj = °> 2 То* ¦= 0 (Для всех /), 2 Yiv = ° (Для всех О- «= 1 / = 1 i = 1 / = 1 Эти ограничения фактически являются теперь ограничениями-равенствами. Они относятся к помеченным точкой параметрам, на которые наложены ограничения. Можно показать, что оцененные значения не изменятся, если начиная с неограниченных параметров в дальнейшем применяются ограничения вида ai-rYi- =«2 + 72. = ..=«/+7/.. Проверяемые гипотезы. Говорят, что гипотеза //:К'ц = d является проверяемой, если К' = G'X для некоторой матрицы G. Эквивалентно можно записать К' = G'TP для некоторой матрицы G. Оцениваемость может быть проверена посредством выявления возможности решения соотношения T'PG = К относительно G. (Если такого решения нет, то на некотором этапе вычислений и&ц полагается равным соответствующему ненулевому значению из правой части этого соотношения.) Тогда связанная с проверяемой гипотезой сумма квадратов равняется u'u. Если^ш — оценка \л, то и находится в результате решения уравнения G'u = K'm — d. 5.4. СПЕЦИАЛЬНЫЕ МЕТОДЫ ДЛЯ ОЦЕНКИ ОРТОГОНАЛЬНЫХ МОДЕЛЕЙ Характерная особенность ортогональных моделей состоит в том, что минимизируемая сумма квадратов может быть записана для них в виде суммы положительных элементов, каждый из которых является функцией не более чем одного параметра. Уравнения A.5) и A.7) иллюстрируют это свойство. Как отмечалось при характеристике уравнения A.7), оценки параметров, удовлетворяющие сигма-ограничениям, могут быть легко получены для ортогонального базиса даже в случае, когда в расчетах используется формулировка модели другого типа, представленного в уравнении A.8). Математические выкладки приводятся ниже. Очевидно, обобщая обозначения из параграфа 2.13, положим Х=[ХД,...ДТ,...], D.1) J64
где столбцы матрицы Xv соответствуют одному элементу (фактору или взаимодействию) модели. Пусть Г = [1,1, ...,Ту> ...1 представляет собой фактическую или гипотетическую строку матрицы X. Положим тогда л' = (Тр-*Т)'=[йр,...9 а;,...], D.2) ty=[tiy,..., t^,,... ], D.3) где векторы разбиты на блоки таким же образом, как и матрица X. Посредством незначительного обобщения аргументации из параграфа 2.13 можно показать, что величина изменения ожидаемого значения при подгонке столбцов матрицы XY в дополнение к предшествующим им столбцам составляет A?v = d;tv. D.4) Предположим теперь, что элементы вектора у имеют независимое распределение с общей дисперсией а2. Поскольку это означает, что элементы ty также независимо распределены с тем же значением дисперсии а2 (см. в гл. 2 A.3)), то отсюда следует, что var(A^y) =d^dva2 D.5) независимо от ожидаемого значения, полученного при подгонке предшествующих столбцов матрицы X. Чтобы показать, каким образом может быть использован данный результат, рассмотрим расчеты, проведенные на базе полного факторного плана 3x2 модели у = X|ti*+e, основанной на уравнении A.10). Здесь матрица X разбита на блоки и имеет вид X = [Хй, Xa, Xp, Xv], где Хц состоит из одного столбца, Ха — из двух столбцов, Хр — из одного столбца и Xv — из двух столбцов. Аналогично разбиты на части векторы d и tv. Оценки (и дисперсии) для |Л, alf р, и уп в ортогональной версии модели, где 2а,- = 0 и т. д., могут быть получены, если положить Г = [1; 1,0; 1; 1,0]. Точка с запятой разделяет элементы, соответствующие различным членам модели. Тогда При Г •= [1; 1,0; 0; 0,0] так же могут быть оценены элементы \i, alf |32 Эффективные алгоритмы для анализа ортогональных планов. Приведенный выше материал оказывается очень полезным при использовании стандартных программ расчета регрессий методом наименьших квадратов для оценки ортогональных моделей. Если метод наименьших квадратов применяется в рамках алгоритма, использующего преимущества разреженности и сбалансированности матрицы X, то с помощью метода, полученного в результате такого объединения, удается 165
с достаточной эффективностью проводить обработку задач средней размерности. При сбалансированном ортогональном плане, в котором каждая комбинация факторных уровней встречается одинаковое число раз, предпочтение следует отдать подходу, описанному в работе У. Кеннеди и Дж. Джентла [127]. В основе этого подхода лежат идеи Ф. Йейтса, У. Хеммерла и других статистиков. Можно применять и более общие алгоритмы, которые обсуждаются в следующем параграфе. 5.5. БОЛЕЕ ОБЩИЕ МОДЕЛИ При разработке компьютерных программ, предназначенных для анализа конкретных моделей, часто в качестве образцов исследуемых задач принимались примеры, описанные в работе У. Кокрена и Дж. Кокса [44]. С другой стороны, большое число компьютерных программ составлено в расчете на анализ обобщенных линейных моделей. Соответственно для оценки параметров линейной регрессии в них используется обобщенный метод наименьших квадратов. Другая группа методов предназначена для работы с ограниченным, но достаточно широким классом моделей планирования эксперимента. Примерами здесь могут служить приведенный в работе [108] алгоритм Хеммерла (АСМ-ал го- ритм 5911), алгоритм Уилкинсона (который будет рассмотрен в следующем параграфе) и алгоритм Купера и Корстена, описываемый в конце данного параграфа. В параграфе 5.8 будет рассмотрен метод сопряженных градиентов, с помощью которого можно решать любую задачу, связанную с оценкой параметров регрессии методом наименьших квадратов. Однако особенно эффективен он при работе с моделями планирования эксперимента. Прежде чем приступить к обсуждению метода Купера и Корстена, сделаем краткие замечания относительно возможностей проведения дисперсионного анализа, которые предоставляются некоторыми широко распространенными в настоящее время пакетами статистических программ. Другие особенности этих пакетов кратко рассматриваются в гл. 10. Пакеты компьютерных программ для анализа моделей планирования эксперимента. В большинстве стандартных пакетов статистических программ для описания моделей используется система обозначений, сходная с системой, разработанной Г. Н. Уилкинсоном и К. Роджерсом [220]. В пакете SAS [189] основной акцент сделан на использовании в анализе обобщенного метода наименьших квадратов. Предполагается, что пользователь сам определит требующуюся форму таблицы дисперсионного анализа. Характерным свойством пакета SAS GLM (GLM — аббревиатура от General linear model — обобщенная линейная модель) является представление (по запросу пользователя) линейно независимой совокупности оцениваемых функций, соответствующих 1 АСМ — аббревиатура английского названия Ассоциации компьютерного оборудования (Association for Computing Machinery). — Примеч. пер. 166
каждой сумме квадратов из таблицы дисперсионного анализа (см. параграф 5.3). Программа BMDP-4V из пакета BMDP (см. [64]), пакет GLIM (см. [15]) и команда FIT из пакета QENSTAT (см. [166] и [6]) также предназначены для проведения анализа обобщенной линейной модели. Кроме того, в пакете BMDP пользователь может выбрать более специальные программы, тогда как программа ANOVA в пакетах GENSTAT, PSTAT (см. [106]) и разрабатывающийся в настоящее время программный модуль GLIM4/PRISM AOV (см. [90]) предполагают единообразный аналитический цодход к исследованию широкого класса задач планирования эксперимента. В этот класс входит большинство из рассмотренных Кокреном и Коксом примеров [44]. В пакетах GENSTAT и GLIM4/PRISM используется алгоритм, предложенный Г. Н. Уилкинсоном. Более подробно этот алгоритм рассматривается в работах [175] и [147]. Там же приводится дополнительная литература. Пакет GENSTAT приспособлен для работы только с планами, в которых все контрасты, включая два данных режима проведения эксперимента, оцениваются с одинаковой степенью точности. В соответствии с идеями Дж. Нелдера [1651 этот алгоритм применяется в анализе моделей особого класса (с ортогональной блочной структурой), в которых имеется несколько видов ошибок. Моделью такого типа является любая блочная структура (например, участки, выделенные внутри отдельных блоков, подучастки внутри участков) с равным числом подъединиц, выделенных внутри каждой единицы. Фиксированные эффекты (структура режимов проведения эксперимента) и случайные эффекты (блочная структура) определяются с помощью специальной формулы, предложенной Уилкинсоном и Роджерсом. Результат применения программы по умолчанию выдается в той же форме, что и при рассмотрении примеров в работе Кокрена и Кокса. По желанию пользователя может выводиться также и некоторая дополнительная информация. Теоретические вопросы, связанные с исследованием моделей с ортогональной блочной структурой, в доступной широкому кругу читателей форме излагаются в статье Спида «Общий баланс», включенной в 3-й том «Статистической энциклопедии» [131]. Ранее в этой главе уже уделялось внимание подходу, связанному с использованием обобщенных линейных моделей в задачах теории планирования эксперимента. Обсуждение алгоритма Уилкинсона выходит за рамки настоящей книги. Вместо этого мы кратко остановимся на характеристике подхода, разработанного Купером и Корстеном [47]. Этот метод может применяться при работе с любым планом, имеющим ортогональную блочную структуру. Он вполне приемлем для организации выдачи результатов по схеме, применяющейся в пакете статистических программ GENSTAT. Метод Купера и Корстена. Рассмотрим двухфакторную аддитивную модель, которая в своей исходной форме имеет вид: , /= 1,...,/,/= 1,...,У. E.1) 167
При работе с этой моделью можно рекомендовать следующую последовательность вычислений: 1) положим т = у у и вычтем из каждого значения наблюдения, по- лучив t/ij — у в качестве отклонений от общей средней; 2) положим cii — yt. —у, где уг. представляет собой среднюю из отклонений уи — у, найденных на предыдущем этапе для каждого i. Вычтем эти значения из отклонений, в результате чего получим уц — —Ъ-; 3) рассчитаем bj = y.j— у, где y.j представляет собой среднюю из отклонений ytj — yh, найденных на этапе 2 для каждого /. Вычтем из этих отклонений предыдущие, в результате чего получим уи — уг, — — y.j + У- Поскольку рассматриваемый план является ортогональным, расчеты на этом прекращаются. Это утверждение может быть проверено повторением процедуры вычислений, использованной на этапах 1—3 приведенной схемы, применительно к значениям отклонений, найденных на этапе 3. Полученные оценки приростов Am, Aat и Abj будут равняться нулю. Если план не является ортогональным, то повторение последовательности вычислений, проведенных на этапах 1—3, применительно к значениям отклонений Уц—yi. — yj + у, полученных после первого цикла расчетов, приведет к нахождению ненулевых приростов Дт, Ааг и Abj. Они должны быть добавлены к текущим значениям параметров вместе с новой совокупностью отклонений, полученных на этапе 3. Сумма квадратов отклонений на каждом этапе каждого цикла итеративных расчетов будет уменьшаться, пока не будут получены оценки соответствующих параметров по методу наименьших квадратов. Покажем, что это утверждение справедливо и для общего случая. Предположим, что модель параметризована таким образом, что данному уровню фактора соответствует столбец хг- матрицы X, который содержит единицу, если фактор имеет указанный уровень. В противном случае все элементы этого столбца равняются нулю. То же относится и к случаю, когда рассматриваются эффекты взаимодействий. Предположим, что текущими версиями вектора отклонений и вектора значений оценок параметров являются е( > и т< >. Если итеративный процесс еще не сошелся, то Х'Хт< > — Х'у = Х'е< > Ф 0. Таким образом, имеется по крайней мере один столбец^ матрицы X, для которого х'р^ Ф 0 для некоторого /. Рассмотрим совокупность из к% элементов, которые соответствуют единицам в столбце хг-. Предположим, что продолжение расчетов приводит к замене <е< > на е<*> = е< >— [хг-е< >/^]х<9 в результате чего тр заменяется на /лф = тр + х^е< >/?*. С помощью несложных алгебраических преобразований можно показать, что е(*)'е<*)=е< >'е< > — *rf(x/e< >J. E.2) 168
Таким образом, сумма квадратов отклонений должна на каждом шаге уменьшаться, пока не будут найдены оценки метода наименьших квадратов. Сходимость итеративного процесса при применении описанного выше метода может быть очень медленной. Д.Н. Хант и СМ. Тригс в своей все еще неопубликованной работе предлагают способ увеличения скорости сходимости итеративного процесса с помощью одной из форм экстраполяции по Эйткену (см. параграф 7.3). Вопросы, связанные с расчетом дисперсий и ковариаций, освещаются в работах [176] и [2281. Основные моменты описанного здесь метода были разработаны Купером и Корстеном. Ссылки на соответствующую литературу приведены в работе [228]. 5.6*. КОВАРИАЦИОННЫЙ АНАЛИЗ И МЕТОДЫ С ПРОПУЩЕННЫМИ НАБЛЮДЕНИЯМИ Среди подходов, применяемых для проведения расчетов по дисперсионному анализу в случае, когда недостает некоторых значений, существует метод, основанный на ковариационном анализе. Эти методы удобно рассмотреть в одном параграфе. Ковариационный анализ. Предположим, что имеется соотношение где столбцы матрицы X соответствуют качественным эффектам и представляют план эксперимента, а столбцы матрицы Z — сопеременным с количественной природой. Тогда подгонка полной модели может быть проведена в два этапа: 1) осуществляется дисперсионный анализ для у и поочередно для столбцов матрицы Z. Вектор отклонений полученный в результате дисперсионного анализа для у, берется в качестве у, тогда как вектор отклонений, соответствующий любому столбцу матрицы X, становится столбцом матрицы X; 2) вектор у репрессируется на столбцы матрицы X. Эти расчеты необходимо повторить для каждой подмодели из последовательности, выбранной для получения элементов, необходимых для построения таблицы дисперсионного анализа. (Подбор такой подмодели осуществляется на базе того или иного подмножества столбцов матрицы X.) Описанный цикл^расчетов повторяется по мере включения в модель столбцов матрицы X, соответствующих каждому новому фактору или эффекту взаимодействия. Теоретические положения, на которых основывается применение этого метода, обсуждаются в параграфах 2.14 и 4.9. Методы, применяемые при отсутствии некоторых значений наблюдений. Иногда одно или несколько значений наблюдений теряются по 169
причинам, не оказывающим влияния на показатели соответствующей строки матрицы X. В этом случае метод наименьших квадратов может осуществляться так же, как при анализе несбалансированного плана. При интерпретации полученных результатов могут возникнуть затруднения, обусловленные влиянием порядка подбора элементов модели на величину показателей таблицы дисперсионного анализа. Однако если доля отсутствующих значений невелика, любые изменения в показателях таблицы, определяемые различиями в последовательности рассматриваемых подмоделей, будут несущественными. Альтернативный подход связан с включением в модель для каждого пропущенного значения наблюдения одной сопеременной. Эта сопере- менная принимает значение, равное единице, если соответствующее ей наблюдение отсутствует. В остальных случаях она равняется нулю. Значения зависимой переменной для пропущенных наблюдений полагаются равными нулю (или выбираются произвольно). Расчеты в рамках дисперсионного анализа выполняются затем по приведенной ранее схеме. Третий метод может рассматриваться как частный случай алгоритма максимизации ожидания (МО), описываемого в работе [60]. В этом алгоритме берутся некоторые первоначальные оценки отсутствующих значений и вплоть до достижения сходимости итеративного процесса реализуется процедура, состоящая из двух этапов: 1) оценка модели — этап максимизации МО-алгоритма; 2) использование значения (значений), полученного на этапе 1, в качестве новой оценки (оценок) пропущенного значения (значений) — этап ожидания МО-алгоритма. Для проведения точного последовательного анализа дисперсионной таблицы описанные процедуры оценки должны, как и раньше, проводиться для каждой подмодели отдельно. Сравнительный анализ этих и других подходов, применяемых в анализе моделей планирования эксперимента с пропущенными значениями, а также краткая историческая справка по этому вопросу содержатся в работе 11211. 5.7*. ОЦЕНКА КОМПОНЕНТОВ ДИСПЕРСИИ Рассмотрим эксперимент с садовыми деревьями, в котором каждый плод на дереве является объектом проведения того или иного опыта. Эти опыты сводятся, например, к следующему: 1) плод созревает в обычных условиях; 2) плод помещается в пластиковый мешок; 3) плод помещается в пластиковый мешок, но на этот раз в мешке проделаны отверстия для свободной циркуляции воздуха. Интересующая нас переменная — содержание сахара в полученном урожае фруктов. Предполагается, что опыт, проводящийся на одном из плодов, оказывает незначительное влияние на другие плоды на том же дереве. Мы будем рассматривать такую схему эксперимента, при которой каждый из / опы- 170
тов проводится на каждом дереве только один раз. J деревьев, включенных в эксперимент, представляют собой случайную выборку из всех деревьев данного вида в обследуемом саду. Предполагаемая модель эксперимента выглядит так: Уи = |1+а, + т, + е„, 1 = 1,2,3, /=1,2, G.1) где var [т,] = о\ var [ео] = а2, и предполагается, что т} и е1ш/ независимы. Эта модель означает, что если опыты не оказывают влияния на полученные результаты, то дисперсия различия в сахаристости двух плодов, созревших на одном и том же дереве, составит 2 а2. Дисперсия различия в уровне сахаристости плодов, созревших на разных деревьях при одинаковом уходе, равняется 2(а\ + а2). Данная модель, как видим, адекватна нашим интуитивным представлениям, в соответствии с которыми вариация изучаемого признака у плодов различных деревьев должна быть по крайней мере не меньше вариации изучаемого признака у плодов одного и того же дерева. Таблица дисперсионного анализа выглядит в этом случае так: Между деревьями Между опытами Остаточная Сумма квадратов 2 2<^-0-->2 2 2 (yt -у--J 2-1 Д| \yij — Уг* — / ! —y-j+y- -J Степени свободы У—1 1-Х Ожидаемый средний квадрат а2 При сравнении результатов различных опытов не используется показатель о\. Однако значение о\ полезно для оценки уменьшения точности при рассмотрении любого отдельного плода с отдельно взятого дерева, представленного в другом подобном эксперименте. Простейший способ получения оценки а\ состоит в приравнивании математического ожидания среднего квадрата из первой и третьей строк таблицы дисперсионного анализа фактическому значению среднего квадрата и решении полученной системы уравнений относительно о\. К нашему смущению здесь может быть получена и отрицательная оценка. Однако для моделей с равными числами подклассов эти оценки дисперсионного анализа являются наиболее удовлетворительными из всех исследовавшихся оценок. И все же для несбалансированных моделей они могут оказаться достаточно далекими от оптимальных. Альтернативными им являются оценки, полученные с помощью методов максимального правдоподобия (МП), ограниченного максимального правдоподобия (ОМП) и нахождения несмещенной оценки с минимальной дисперсией (НОМД). 171
Другие способы получения оценок дисперсий в большинстве случаев могут рассматриваться в качестве модификаций одного из указанных нами методов. При оценке компонентов дисперсии с помощью ОМП максимизируется только та составная часть функции правдоподобия, в которой не находят отражения фиксированные эффекты. ОМП-оценки, если не накладываются ограничения неотрицательности, оказываются идентичными с оценками дисперсионного анализа, полученными для данных с равными числами подклассов (см. [104]). Для получения обоих типов оценок максимального правдоподобия (МП и ОМП) требуется трудоемкая итеративная процедура — и это в условиях, когда модель и без того имеет достаточно сложную структуру. С этой точки зрения более привлекателен метод НОМД, не связанный с итеративными расчетами. В дополнение к работе [104] мы рекомендуем читателю познакомиться с работой [194], где проведен сравнительный анализ этих и других практических методов оценки компонентов дисперсии (см. также [127]). При попытках использования моделей компонентов дисперсии в анализе фактических данных сталкиваются с серьезными трудностями. Маловероятно, что будут выполняться различные гипотезы о независимости наблюдений; полученные таким образом оценки дисперсий скорее всего будут относиться к некоторой неслучайной выборке данных, а не к большой совокупности наблюдений. 5.8*. МЕТОД СОПРЯЖЕННЫХ ГРАДИЕНТОВ Метод сопряженных градиентов1 представляет собой основу подхода в ситуациях, связанных с применением обобщенного метода наименьших квадратов в анализе данных, полученных при построении больших планов экспериментов. Этот метод оказывается эффективным в случаях, когда значительная доля элементов модельной матрицы X равняется нулю и матрица X' X имеет относительно небольшое число различных собственных значений. Возможности практического применения методов данного типа в анализе задач теории планирования эксперимента исследованы еще недостаточно. И все же, как нам кажется, по эффективности реализации расчета элементов матрицы дисперсий- ковариаций с ними не может сравниться никакой другой алгоритм. Простого метода выявления линейных зависимостей также не существует. Сущность алгоритма. Мы начнем с построения метода решения уравнения Sb= s^, где S — положительно определенная (или неотрицательное определенная) матрица размерности qxq. В контексте рассматриваемых нами проблем S = Х'Х и sy = X'y. Незначительная модификация этого метода позволит нам работать непосредственно с 1 Аналогичное название имеет широко распространенный метод минимизации функций многих переменных (см., например, [242]). — Примеч. ред. 172
матрицей X, в результате чего появляется возможность в максимальной мере воспользоваться преимуществами, связанными с разреженностью этой матрицы. В данном случае не имеет смысла начинать изложение материала с анализа примера реализации соответствующих расчетов. Пока мы не дадим разумного теоретического объяснения нашим действиям, процедура проведения расчетов будет выглядеть таинственной и малопонятной. Впрочем, при желании читатель может вначале познакомиться с соответствующими вычислениями, приведенными в конце данного параграфа. Читатель же, интересующийся главным образом техническими аспектами получения данного метода, может сразу перейти к выражению- (8.6). А мы приступаем к изложению материала, с помощью которого обосновывается вывод указанного алгоритма, что поможет более глубоко понять его свойства. Предположим, что ненулевые собственные значения матрицы S представляют собой несовпадающие значения %1У Х2, ..., Лт. Пусть К является матрицей, столбцы которой образуют полное множество собственных векторов, соответствующих этим собственным значениям. Определим матрицу f(S)=(Xj-S)(Xj-S)...(Xml-S)=c0(i + c1S + ...+cmS™)= (8.1V = co(f-S-S), (8.2> т где со= П h?-0, a s- = -(cJ+c2s + ... + cms>»-!). (8.з> Покажем теперь, что / (S) S = 0. Действительно, любой вектор х может быть представлен в виде х = К а, где столбцы матрицы К образуют полное множество собственных векторов матрицы S, а — некоторый вектор. Расположив множители в / (S) S таким образом, чтобы каждому столбцу матрицы К соответствовал свой множитель из / (S) S, получаем, что / (S) Sx = 0 для каждого вектора^, и, следовательно, /(S)s"=o. Тогда O = /(l)"S = co(T — SS~)S, откуда SJTS = S. (Если матрица S не является вырожденной, то S~ = S~\ и фактически MS) = 0.) Решение уравнения Sb = s y имеет вид: B = S-^=:-(^r+c2S+...+^m>-1)sf/, (8.4> где S~ определяется соотношением (8.3). Может оказаться, что последние члены в разложении l>~Sj, могут быть сведены к выражениям из предшествующих элементов. Предельным является случай, когда sy представляет собой собственный вектор матрицы IS, и, следовательно, b = Аг1^. В общем случае Б==— (??!! +c$S + ...+<?;§9s,, для /<т. (8.5) 173
Метод сопряженных градиентов может рассматриваться в качестве метода нахождения коэффициентов с* в уравнении (8.5). Из теории линейной алгебры следует, что любой вектор, принадлежащий пространству столбцов матрицы S, может быть единственным образом выражен в виде суммы векторов, каждый из которых соответствует только одному ненулевому собственному значению матрицы 3$. С учетом этого замечания можно показать, что в (8.5) / = т — 1 и с] = = Ci (I < i < m) тогда и только тогда, когда ни одно из слагаемых в этой сумме не равняется нулю, при этом%у представляется аналогичным образом. Доказательство данного утверждения основывается на том факте, что полином степени / может иметь не более / корней. Предложенный здесь алгоритм является по существу методом нахождения коэффициентов c*f i =- 1,2, ..., разложения (8.5). Заметим, что эти коэффициенты нельзя определить каким-либо непосредственным образом. Вместо этого можно показать, что решение уравнения S b = sy эквивалентно минимизации выражения g(b)=F's-4 (8.6) где г = Sb — Sy. Если матрица S вырождена, то S следует заменить на S". Вектор b находится итеративно, причем на k-й итерации определяются первые k членов выражения (8.5). Использование в качестве матрицы весов S гарантирует, что S (а не S2) будет определять критические точки в полученных уравнениях. Пусть bo=O, гв—sy. Запишем Ffc+1 - гЛ = (sy - s ь~+1) + ($7—s ьк) = s>;- ък+1) = = — Sdft, где bfe+1-bfe+dft. Таким образом, Ffe+i-rfe-Sd,, ^ (87) и вместо нахождения bft+lf минимизирующего ^(ЬЛ+1),_можно попытаться отыскать dk, которое минимизировало бы r'k+\ S~1rft±1^ Пусть Rft = ffe, "ru . . . , rj, и возьмем Ък = Rftcfe. Тогда Ffc+1 = Ffc-SRfcc*. ^ (8.8) Это означает, что если для i = 1, 2, „., k вектор г* представляет собой линейную комбинацию векторов S'r0, / = 0,1^ „., /, то вектор rft+1 будет являться линейной комбинацией векторов S''r0, / = 0,1, ...,*+ 1. Таким образом, применение соотношения (8.7) действительно позволя5- ет решить задачу оценивания коэффициентов^* уравнения (8.5). Нормальные уравнения при минимизации r^+i S~1rfe+1 выглядят так: 174
Тогда RHrfc-SR^-Rir^^O. (8.10) Следствием приравнивания dk = Rftcfe является г-г7- = 0 для t =?*=/. Поскольку это справедливо для самое большее q ненулевых векторов гг- (при условии, что матрица "S имеет размерность qxq)> то без учета полученного ранее более сильного результата данный результат будет означать, что г* = 0 для некоторого i < q. Фактически же нам известно, что rt = 0, где / определяется так же, как в (8.5). Ошибки округления, однако, приводят к тому, что на практике следует проверять г* ~ 0. Система нормальных уравнений (8.9) в том виде, в каком она сформулирована, не используется. Вместо dk = RAcft берется dk = Н*иА, где Нь = [h0, hx, ..., h J имеет то же пространство столбцов, что имматри- ца Rft. Столбцы матрицы Hk выбираются таким образом, чтобы H?S НЛ представляла собой диагональную матрицу, т. е. hJShj = 0 для i Ф /. Их вид определяется соотношением (8.15). Тогда (8.9) заменяется на Ff^SH,ufe = hUF,. (8.11) Поскольку столбцы матрицы Hh являются линейными комбинациями^ столбцов матрицы R*, то из Г/Г7- = 0 для 1ф j следует, что hjx х rft = 0 для i < k и ui-[0,...,0f uh\\ bA+1=bfc+dfc=bfc+hfcttft. (8.12) Теперь h^Shft = 0 в (8.11) будет означать, что проведение расчетов прекращается при rk = 0. В противном случае uk^ti'Jk/h'kShk. (8.13) Забегая немного вперед, заменим в (8.15) k + 1 на k и умножим полученное выражение слева на г?, чтобы показать, что Ъ^гЛ может быть заменено в (8.13) на T?rk. Поскольку сГЛ = Hkuk =Ъкик (в силу 8.12), то равенство (8.7) может быть записано в виде rft+i = r*fe — Shkuk. (8.14) Положим теперь bk+i = rk+1 -j hfivh, (8.15) где vk выбирается таким, что h^+!Shft = 0. Тогда с помощью метода индукции можно показать, чтоЪ^Ят^ = 0 для / < к. В (8.15)j-ft+i выражается в виде линейной комбинации столбцов матрицы Hfc+i, и поочередное замещение^, hfc-lf ... позволяет выразить hfe+1 в виде 175
линейной комбинации столбцов матрицы Rfc+i- Предположим теперь, что h^Shj = 0 для / < k. Тогда, заменяя каждый член в (8.15) его транспонированной формой и умножая справа на Sht для / < k> получаем h^-j-i Shi — fft + i Shb i<Ck. Заменив теперь в (8.14) k на i (предполагается i < k) и умножив полученное уравнение на г*+ь найдем U( hk i-1 Shf = v'k_)_ i гг-+1 — Tk-i-1 гг- = 0. Таким образом, hi+iShf=O для /<А (напомним, что ut = 0 означало бы г^ = hf = 0). Транспонируя члены (8.14) и умножая их справа на Ь^+ь записываем г^_|-1 hft+i = r^ hft+1. (8.16) Затем, умножив слева элементы соотношения (8.15) на г* и используя (8.16) с r^hfc = r'kTki получаем Расчеты могут начинаться с Ьо = 0, h0 = г0 - sv. Тогда для k = 0,1, „., окончательно получаем следующие рекуррентные формулы: uh = fk rk/h'kShh, bk+l = bh+ukhh, гЛ+1-=гЛ — Sh^^, ufc=ri+i гЛ+1/г^г^, hft+1 = rfc+1+i;fehfc. (8.17) Для расчетов, основанных на матрице S, данный подход наиболее приемлем (см. 11851). Расчеты, основанные непосредственно на матрице X. Предположим, что S = ^С'Х, sv = X'y. В этом случае простая модификация рассмотренного нами подхода позволяет работать непосредственно с матрицей X и вектором у, в результате чего появляется возможность воспользоваться преимуществами, связанными с разреженностью матрицы X. Запишем ek = у — Xbkj rk ==¦ Х'е*, zft = \hk. Тогда вместо вычисления еЛ+1 на основе ek вычисляем rft+1 на основе г*, a rk+1 рассчитывается как ^t'eft+1. h^Shfe рассчитывается как z?zft. Последовательность вычислений в данном случае такова: eo-y-Xbo, ho-7o=X/eo. (8.18) 176
Затем для k — 0,1, ..., пока не будет получено гк = 0, вычисляем (8.19) Принятая здесь последовательность вычислений может быть легко обоснована и описана. АСМ-алгоритм 583, описанный в работе К. Пэйд- жа и М. Саундерса [1721, обладает лучшими числовыми свойствами. Пэйдж и Саундерс используют предложенный Голубом и Каханом алгоритм приведения матрицы X к нижнему двухдиагональному виду. Следует отметить также, что скорость сходимости может быть увеличена, а число итераций уменьшено, если в расчетах фигурирует не сама матрица X, а ее версия, удовлетворяющая некоторым условиям. Расчет матрицы S*. Пока не существует надежного и быстрого метода вычисления матрицы S. Один из возможных подходов заключается в вычислении частных производных элементов вектора b по элементам sy. _ При другом подходе выбор sv осуществляется таким образом, что в (8.5), / = т — 1. Тогда на каждом шаге показатели ut и Vt в (8.17) определяются единственным образом. На основе значений и% и vt могут быть определены коэффициенты ct в (8.4), а, следовательно, и найдена обобщенная обратная матрица S~. Однако в этом случае нельзя гарантировать, что t ==¦ т — 1; кроме того, этот метод очень неэкономичен с вычислительной точки зрения. Пример. Рассмотрим пример однофакторного дисперсионного анализа из параграфа 5.1. Для него О" О О О 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 1 1 0 0 У = 1,5 2,1 0,7 0,9 1,3 Положим Ьо — 0, е0 = у. Тогда © = h0 = X' е0 — 8,4" 3,6 1,6 .3,2. - _у-»г _. > Zq — Л По — 12 12 10 10 11,6 177
Таким образом, wo = riro/zozo = 96,32/757,12 =0,1272, 1,5 2,1 0,7 0,9 1.3 1,9 _ —0,1272 12 12 10 10 11,6 П,6_ = — 0,0266 0,5734 —0,5722 — 0,3722 —0,1757 0,4243 — О; 1491 0,5467 —0,9444 0,2486_ Следовательно, vo= r\ fi/гб г0 = 1,2748/96,32 =0,0132, -0,0379 0,5944 -0,9232 0,2909 0,5565 0,5565 — 0,9611 — 0,9611 0,2530 0,2530 Далее, ы1 = г; tJz[ zx= 1,2748/2,5948 = 0,4913, —0,3 0,3 -0,1 0,1 -0,3 0,3 _ Отсюда га = Х'е2=0, и нам остается только рассчитать элементы век- гора Ь. Они определяются так: b = и0 h0 + «11»! = 1,05" 0,75 -0,25 0,55 178
Читатель в порядке упражнения может проделать следующие операции: _ 1) проверить, что вектор b является решением с минимальным значением нормы, т. е. он минимизирует выражение (Ьо — сJ + фх —сJ+ + (&2 — сJ + (Ь3 — сJ при любом выборе с; 2) повторить расчеты при другом выборе sy; 3) повторить расчеты в условиях параметризации с полным рангом; 4) определить коэффициенты минимального полинома и, следовательно, найти собственные значения матрицы Х'Х. Такие расчеты удобно проводить при помощи диалогового компьютерного пакета программ, который позволяет осуществлять матричные операции. Из многих возможных пакетов для* этих целей подходят, в частности, Minitab [1881 и STATUS [211]. 5.9. ЧТО ЕЩЕ МОЖНО ПОЧИТАТЬ Книгу или статью, где давалась бы обстоятельная характеристика алгоритмов, кратко рассмотренных в настоящей главе, еще предстоит написать. Очевидная простота математического аппарата, используемого в подобных моделях, резко контрастирует со сложностью практических проблем, возникающих при подборе конкретной модели, адекватно отражающей анализируемые данные. В работе У. Кеннеди и Дж. Джентла [127] более подробно освещаются вопросы, обсуждавшиеся в параграфах 5.3, 5.4. и 5.7. В ней приводится также большое количество ссылок на соответствующую литературу. Для более глубокого понимания материала, изложенного в параграфах 5.5 и 5.8, необходимо познакомиться с упоминавшимися здесь журнальными статьями. Лучший способ усвоения рассмотренных в этой главе вопросов — обратиться к наиболее удачным пакетам компьютерных программ для решения конкретных задач по теории планирования эксперимента. Понять особенности применения различных пакетов статистических программ и сравнить результаты их использования поможет сборник аннотированных компьютерных программ [197]. Метод сопряженных градиентов подробно представлен в работе [147]. 5.10. УПРАЖНЕНИЯ 1. Рассмотрим модель гДе2?=1а$ = 0, 2/=iPj'=0. Используя подход, основанный на уравнениях B.4) — B.7) из параграфа 5.2, покажите, что эта модель может быть записана в виде У =X2jiBL-?, 179
где 1 —1 —1 4*1" 1—1—1 1 1 10—1 110 1 10 1—1 10 10 а3 [ai] Г° -1 -1 О] LPiJ [О 0 0 -lj При условии, что у' = [12 14 7 2 4 9], завершите вычисления. 2 (продолжение упражнения 1). Покажите, какой альтернативный вид могут иметь матрицы Нх и Н2 из параграфа 5.2, подобранные таким образом, чтобы параметры, соответствующие последним факторным уровням и взаимодействиям с последними факторными уравнениями, легко выражались через предыдущие параметры. Покажите, что в упражнении 1 это привело бы к —1 —1 01 где P2J L0 0 0—1 = [\i, аъ а2, PJ, и закончите вычисления. 3. Воспользуйтесь представлением B.3) для получения таблицы дисперсионного анализа и оценок параметров для данных из упражнения 1. 4. Рассмотрим модель где имеют следующие значения: , f=l, 2, 3, /=1, 2, *= /=2 *=1 "i — 2 i = 3 10; 6; 1; 14 8 7 12; 16 i; 3 8; 10 Получите таблицу дисперсионного анализа и оценки параметров, воспользовавшись: ^,ч а) подходом, основанным на записи B.3), для нахождения оценок параметров, удовлетворяющих сигма-ограничениям; б) подходом, основанным на соотношениях B.4)—B.7), для нахождения оценок параметров, удовлетворяющих сигма-ограничениям; в) параметризацией на основе ортогональных контрастов (для эффектов по строке и по столбцу), рассмотренных в па^&трафе 5.1. 5. Для данных из упражнения 4 определите значения, получаемые в процессе оценки модели: а) после оценки параметра \i\ б) после оценок параметров \i и а; в) после оценок параметров щ а и р. С помощью описанного в параграфе 5.4 метода определите оценки параметров, удовлетворяющие сигма-ограничениям. 6. Для каждого набора оценок параметров, полученных в упражнениях 1 и 4а) — 4в), найдите матрицу дисперсий-ковариаций (матричные вычисления проводите только в случаях, не вызывающих затруднений). 180
7. Для г = О, 1, ..., п — 1 полиномы Чебышева фг (х) могут быть определены на множестве целых чисел х = 1, ..., п следующим образом: Фо М = 1. Ф1 W = х—х, фг+1 (*) = фг (дг) фг (х) — <хг фг_х (*), где аг = г2 (я2 — г2)/A6г2 — 4). Предполагая, что п 2 Ф* (*) Ф/ (*)== 0» если i =?ь / (доказательство см, в работе [179]), покажите, что п II ФгИ" = «г II Фг-i »2> где ||фг||2= 2 Ф? W- 8. Пусть *!, д;2, ..., хп представляют собой наблюдения переменной х. Пусть X является матрицей, /-я строка которой имеет вид A, Xf, x2i, ..., д;^), гдер ^ п — — 1. И пусть Тр представляет собой матрицу, получаемую в результате ортогонального приведения матрицы X к верхней треугольной форме. Обозначим Покажите, что вектор расчетных значений у может быть эквивалентно переписан как где ф| (х) — ортогональный полином относительно х. 9. Рассмотрим модель у = Хт + е, удовлетворяющую ограничениям идентифицируемости Нт = 0, т. е. {Хт} = {Хт | Нт =0}. Докажите, что оценка метода наименьших квадратовm определяется соотношением Трт = 7^, для которого при соответствующем подборе ортогональной матрицы Q выполняется _Н Oj Докажите, что var AУ) - Га2 — (Н Тр)' Н Тр ! а2 ="Qn Q; t а2|, где Qn — соответствующая ведущая подматрица матрицы Q. Выведите, что var(S)=Tp1Q11(TplQn)/o«. 10. Рассмотрим модель у = ХЬ + е, удовлетворяющую линейным ограничениям, которые могут быть записаны, например, после предварительного применения метода исключения Гаусса в виде W^b(i) 4~НгЬB)=^- Составной вектор b имеет вид: b' = (bA); bB))- Соответствующий вид имеет и матрица X, а именно Х^ = (Х(!); ХB)), см. соотношения B.5) — B.7). Обозначим у# = у— XiHjd, Х| = ~Х2—~X^G, где G= H^1H2. Покажите, что задача минимизации суммы квадратов с ограничениями сводится к задаче минимизации суммы квадратов элементов вектора у* — XJbB). 181
П. Рассмотрим двухфакторную аддитивную модель «=1. 2, 3, /=1, 2, где к изменяется от 1 до пц. Числа ntj представленные в клетках таблицы, соответственно равняются: i = 1 1 4 i = 2 8 2 * = 3 1 9 Определите в терминах оцениваемых функций параметров, какая гипотеза проверяется с помощью выражения R (al \i) = 0. 12* (продолжение упражнения 11). Определите в терминах оцениваемых функций, какая гипотеза проверяется с помощью выражения R (a|fi) = 0 при включении в модель из упражнения 11 показателя взаимодействия уц. 13* (продолжение упражнения 11; здесь желательно использование компьютерной программы оценки коэффициентов регрессии с помощью метода наименьших квадратов). Предположим, что в модели из упражнения 11 клеточные средние ytj имеют следующие значения: /=1 /=2 i=\ 12 14 i = 2 7 2 i = 3 4 9 Способом параметризации, представляющимся вам наиболее удобным, вычислите теоретические значения, получаемые: а) после подбора оценки параметра |ы; б) после подбора оценок параметров \i и а; в) после подбора оценок параметров fi, а и р. Что произойдет, если вы теперь попытаетесь довести до конца вычисления из параграфа 5.4 для получения оценок параметров? 14*. Покажите,_что в регрессии у на столбцы матрицы X включение линейного ограничения ГЬ = 0 на остаточную_ сумму квадратов^ проявляется в возрастании ее значения на величину (l'bJ/rs—Ч), где S = Х'Х. (Рекомендация, Пусть С представляет собой любую невырожденную матрицу, последняя строка которой равняется Т'^Тогда "у = *ХЬ_= Х*Ь*, где X* = ХС-1, Ь*=СЬ7а последний элемент вектора Ь* равняется ГЬ. Далее используйте результат E.1) из гл. 2.) Покажите, что увеличение остаточной суммы квадратов в результате накладывания k линейных ограничений Lb = O равняется b'L'[L (Х'Х)-1 I/]" Lb (см. [94].) 15*. Рассмотрим модель вида где X представляет собой модельную матрицу какого-либо конкретного плана эксперимента (например, полного факторного эксперимента), а г — сопеременная- Допустим, имеются компьютерные программы для обработки модели теории планирования эксперимента и оценки параметров парной линейной регрессии. Покажите, каким образом может проводиться анализ такой модели с помощью объеди- 182
нения этих программ. Обобщите ваш ответ на случай, когда имеется несколько со- переменных, т. е. элемент^ замещается на Zg, и вместо парной линейной регрессии используется множественная регрессия (см. параграфы 2.14 и 4.9). Этот под- ход обеспечивает более простой и более понятный способ выдачи результатов, получаемых при анализе обобщенной линейной модели с помощью метода наимень- щих квадратов. 16. Покажите, как положения, сформулированные в упражнении 15, могут быть использованы для решения задачи с Zj = 1, z$ = 0 для i Ф j при проведении анализа плана эксперимента с пропущенным /-м наблюдением с помощью метода наименьших квадратов. Приведите подробные выкладки (обратитесь для этого к упражнению 6 из гл. 4). 17. С помощью обозначений из параграфа 5.8 (см. (8.12)) покажите, что выражение Ь=Едив + 1|_иН +h/ ut _____ . __ t _, , может быть записано в виде b = S~s,,, где S^ = 2 (h/Shi)'^^. Докажите, __ / = о ___ что матрица S~ удовлетворяет соотношению S~SS~ = S^, а в общем случае равенство SS~S = S неверно. (В качестве контрпримера рассмотрите модель, в которой матрица X состоит только из одного единичного столбца.) 18. Повторите расчеты для примера из параграфа 5.^8, используя параметризацию с полным рангом (например, исключив последний столбец из матрицы X),
Глава 6 ф КЛАССИЧЕСКИЙ МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ Методы оценивания параметров многооткликовой модели являются непосредственным обобщением методов, использующихся при оценивании обычных многомерных моделей. Эффективность применения алгоритмов разложения Холецкого в настоящей главе показана на примере исследования разнообразных проблем многомерного статистического анализа, включая каноническую корреляцию. Кратко рассматривается здесь также метод главных компонентов и приводятся (без доказательств) алгоритмы расчета собственных значений. 6.1. СУММЫ МАТРИЦ ЦСКП Структура обсуждения будет такой же, что и для многомерного од- нофакторного дисперсионного анализа1. Допустим, по каждой из р переменных ул, #2, ..., ур имеется: «, = наблЮде„„й /г*.-наблюдений I группа k (nk наблюдений), nk~наблюдении j матрица цскП равна S*. Пусть S = 8Х + S2 + ... + Sfe — сумма матриц ЦСКП. Расчеты, в которых используется матрица S, лучше базировать не непосредственно на самой S, а на верхней треугольной матрице Т, такой, что Т'Т= = S. Например Д'^-^Н наилучшим образом рассчитывать в виде суммы квадратов элементов Т'-1 Б. Удобной отправной точкой для начала расчета матрицы Т по имеющимся фактическим данным является включение в матрицу X перед столбцами значений уи у2, .,., ур первых столбцов переменных-индикаторов. Значения, расположенные в i-u таком столбце, равны 1, если соответствующие наблюдения принадлежат i-й группе наблюдений, в остальных случаях они равны 0. Обратимся к примеру, в котором рассмат- 1 Автор употребляет термин MANOVA — аббревиатура выражения mul- tivariate analysis of variance (Многомерный дисперсионный анализ). — Примеч. пер. 184
риваются только две переменных и три группы наблюдений по четыре значения в каждой: л-индикаторы ух 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 2 1 3 6 4 7 2 9 3 3 4 6 У-1 1 ~ 3 2 6 3 3 2 2 0 6 1 1 группа 1, матрица ЦСКЛ группа 2, матрица ЦСКП группа 3, матрица ЦСКП равна S,; равна S2; равна S3. В результате ортогонального приведения матрицы X к верхней треугольной форме, или разложения Холецкого матрицы Х'Х, приходим к матрице Т — 0 2 0 0 2 6 11 8 7 6 5 4 1 6 Исключение первых трех строк и столбцов позволяет получить матрицу 6 т = Легко проверить, что Т'Т является суммой отдельных матриц ЦСКП. В общем случае при наличии k первых столбцов переменных-индикаторов из матрицы Т для получения матрицы Т следует исключить k первых строк и столбцов. _ _ ___ Предположим, что X = [X, Y1, где матрица X состоит из столбцов X, соответствующих переменным-индикаторам. Разобьем матрицу следующим образом: Таким образом, Т = Т22. В параграфе 3.5 было показано, что ^22.1 === ¦ 22 ¦ 22 "==: ¦ ¦ 185
является матрицей сумм квадратов и произведений отклонений от регрессии столбцов^ на вектор-столбцы матрицы X. В данном случае эти отклонения представляют собой отклонения от значений групповых средних; отсюда следует, что Т'Т является суммой матриц ЦСКП соответствующих групп. Индикаторные столбцы могут считаться представителями фактора, имеющего k уровней. Вместо приведенной здесь матрицы X тогда может использоваться матрица Тс, соответствующая одному из альтернативных способов параметризации, рассмотренных в параграфе 5.1. 6.2. МНОГОМЕРНАЯ СТАТИСТИКА Т2 И СТАТИСТИКИ МНОГОМЕРНОГО ОДНОФАКТОРНОГО ДИСПЕРСИОННОГО АНАЛИЗА В этом параграфе будут приведены примеры расчета статистики Т2 для многомерного случая и вычислений, связанных с расчетами по дисперсионному анализу, а также соответствующие формулы. Проблема однократной выборки. Будем обозначать здесь переменные как dl9 d2, ..., dp, а не как у19 у„ ..., j/p в первоначальном виде. Допустим, они представляют значения разностей между результатами применения двух методов отбора: -0,2 1,6 1,3 2,1 2,7 0,3 8,2 11,1 1,1 1,7 1,6 1,8 — 1,9 —2,2 0,9 -1,5 —0,2 3,0 4.4 6,2 2,5 2,3 6,9 3,4 1.5 4,6 2,0 Предполагая, что эти наблюдения являются случайной выборкой из многомерного нормального распределения со средней |л, мы можем проверить нулевую гипотезу |i = 0, используя статистику F = (d-0)'S-1(d--0).n{n~p) B.1) р со степенью свободы, равной р и п — р, где d — вектор соответствующей размерности. Верхняя треугольная матрица, такая, что Т'Т =- = S, для нашего примера будет равна 8,759 10,737 -0,229 4,063 1,850 2,203 Поэтому (Т'-1—d)' =@,211; 0,327; 0,569). Сумма квадратов элементов этого вектора равна 0,475, и, следовательно, /^0,475. —= 8,56. о 186
Статистика Хотеллинга Т2 фактически мало чем отличается от приведенной выше F-статистики. Она рассчитывается по формуле T2 = n(n—l)dfS~1d. В случае, когда имеются две выборки, F-статистика принимает вид: ^M-w-i fo.jj's-ifc-yJJaA- B.2) со степенями свободы р и пг + п2 — р — 1, где у — вектор соответствующей размерности. Иногда применяется показатель D2 = (n1 +/l2_2)(y1- у2)' S-Uy,- y2), B.3) который представляет собой введенную Махаланобисом меру расстояния между двумя группами. Тогда ПП D2 Многомерный однофакторный дисперсионный анализ. Для случая, когда число к групп равно трем и более, не существует статистики, имеющей F-распределение, с помощью которой можно было бы проверить нулевую гипотезу о том, что наблюдения во всех группах принадлежат многомерному нормальному распределению с общей средней |л. Матрица межгрупповых сумм квадратов и произведений относительно средней определяется так: А- 2 *i(yi-Jy)(yl—у)\ где "у = (S/ii)"!!^! nfli. Если наблюдения во всех группах принадлежат распределению с одной и той же средней ц и одной и той же матрицей дисперсий-ковариаций S, то, обозначая п = 2/Lin*, получим E[(k— l)-1A)=E[(n—/0-lS]=2. Это означает, что (п — k) (k — I)-1 AS" приблизительно равняется единичной матрице. Обобщенная Т2 -статистика Хотеллинга определяется на основе следа матрицы: 7*= (л-Л)HAS-1) = (*-*) 2 Myi-yVS-^-y). i= i В частном случае, когда k = 2 F-распределение может быть использовано для получения приближенных значений процентных точек распределения (п — k)-1 T2. Эта задача будет решена в следующем параграфе. Там же приводятся комментарии относительно имеющихся альтернатив по выбору показателя 187
6.3. МНОГОМЕРНАЯ ОБОБЩЕННАЯ МНОГООТКЛИКОВАЯ ЛИНЕЙНАЯ МОДЕЛЬ Многомерная обобщенная многооткликовая линейная модель г является непосредственным обобщением однооткликовой модели, рассмотренной в предыдущих главах. Вместо вектора Ь, который ранее минимизировал сумму квадратов е'е в у = ХЬ + е, основной проблемой теперь является^выбор такой матрицы В, которая минимизировала бы след матрицы Е'Е в многомерной многооткликовой модели Y= ХВн Е. C.1) Здесь столбцы матрицы X имеют номера с 0 по /п, а столбцы матрицы Y (а также матриц ВиЕ) — с/л+1 пот + р. Столбцы матрицы В могут быть получены с помощью расчета р изолированных многомерных регрессий. Например, в первой такой регрессии первый столбец матрицы Y регрессируется на столбцы матрицы X, а полученный вектор коэффициентов будет представлять собой первый столбец матрицы В. Допустим теперь, что X = [X, Y]. Ортогональное приведение матрицы X к верхнему треугольному виду, или разложение Холецкого матрицы Х'Х, приведет к матрице т . .ал -лг , i строки с 0 по /п, [Тхх Txy 1} О TyyJ} строки с т + 1 по т + /?. Матрица коэффициентов регрессии В получается тогда решением по" очередно для каждого столбца системы уравнений Тл-хВ = Тлу. C.2) Матрица сумм квадратов и произведений отклонений при этом равна ТууТуу. В параграфе 3.5 приводится подробное доказательство этого факта. Разобьем теперь столбцы матрицы X: 1 Иногда многомерные многооткликовые линейные модели вида C.1) называют псевдонезависимыми регрессиями (seemingly unrelated regressions), предполагая, что строки матрицы Е независимы с одинаковой ковариационной матрицей. Если в каждое регрессионное уравнение C.1) входит полный набор независимых переменных, что, по-видимому, и подразумевает автор книги, то несмещенная эффективная оценка матрицы F будет получена последовательным применением метода наименьших квадратов. В противном случае для получения более эффективной оценки необходимы более сложные методы (см. [236]). — Примеч. ред. 188
Пусть Toy fiy где Тоу имеет столько же строк, сколько столбцов в Х@), Т\у — столько же строк, сколько столбцов в Хц>, и т.д. Таблица одномерного дисперсионного анализа обобщается тогда на таблицу многомерного дисперсионного анализа следующим образом: Сумма квадратов обусловленная столбцами Х@> обусловленная столбцами ХA) (скорректированная с учетом предыдущих столбцов) обусловленная столбцами Х(/) (скорректированная с учетом предыдущих столбцов) остаточная T0Y Т0У Т1У Т1У Т' Т 1 /У '/У т* т VV VV Степени свободы k0 ki Для того чтобы решить, нужно дЩ^слючать в модель столбцы матрицы Х(/), можно сравнить матрицу КП А = Т/уТ/у с vx = ki степенями свободы с матрицей Syr,x = ТууТуу с v2 = п — 2*^ степенями свободы. Для последующего изложения введем матрицу G, для которой TyyG=T/y . C.3) Пусть Xt (t = l, ..., р) являются корнями (собственными значениями) уравнения det( A— A,Syy.x) = 0. Обозначим (ft =X|(l + ^«). Заметим, что ф? представляет собой корень уравнения det [А — ф(А+ Статистиками, на которых может основываться сравнение между матрицами А и Syy.x, являются: 1) 72= (n-S*l.)tr(ASvTy!x)= (n-2^)tr(G'G); 2) критерий Роя наибольшего собственного значения ^тах = ШаХ Xi 189
или, что эквивалентно, фтах= max фь 3) статистика Пиллаи, основанная на tr [А (А + 4) статистика Уилкса W = det (A К обсуждению особенностей расчета собственных значений (X,- и Фг) мы еще вернемся в параграфе 6.4. Здесь же отметим, что хотя статистика Пиллаи может быть рассчитана как 2 ?=i ф*, а статистика Уилкса как W = П?=1 A + А,*)» в обоих случаях расчет собственных значений приводит к достаточно большому количеству арифметических операций. Пусть U представляет собой матрицу, полученную в результате ортогонального приведения к верхней треугольной форме матрицы гч. LTyyJ Тогда W может быть рассчитана посредством нахождения произведения диагональных элементов матрицы Т>у, деления его на произведение диагональных элементов U и возведения полученного результата в квадрат. Статистика Пиллаи может быть определена тогда на основе tr (Н'Н), где НО = Т/ у. Критические значения W и Xmax приводятся в «Биометрических таблицах для статистиков» Е. Пирсона и X. Хартли [177]. В работе Д. Хьюджеса и Дж. Coy [119] представлены с высокой степенью точности аппроксимирующие формулы для вычисления Т2. Обозначим Ж — = vjr1!12. Тогда распределение Ж имеет вид a%j, где (v2-p)(v2-p-1)(v2-p-3) a(v2—p—1) Линейные зависимости между столбцами матрицы X. Обсуждавшиеся в гл. 3 (параграфы 3,4 — 3.8) вопросы могут быть рассмотрены и применительно к многомерной обобщенной многооткликовой линейной модели. Суммы квадратов и произведений матриц, приведенные в различных строках таблицы многомерного дисперсионного анализа, определяются единственным образом. Однако когда tu (i < т) равняется н[улю, все элементы соответствующей строки матрицы В в модели Y = ХВ + + Е становятся неопределенными. 190
6.4. СОБСТВЕННЫЕ ЗНАЧЕНИЯ, СОБСТВЕННЫЕ ВЕКТОРЫ, АЛГОРИТМ СИНГУЛЯРНОГО РАЗЛОЖЕНИЯ Предположим, что А является симметричной матрицей. Необходимо прежде всего иметь метод определения корней (собственных значений) Я1э ..., Хр и соответствующих им собственных векторов vlt ..., v,M т. е. таких, что (A —)J)v-0. D.1) Отметим, что (А—XI) v = 0 для некоторого вектора v, тогда и только тогда, когда det (А — ЗЛ) = 0. С соответствующими алгоритмами читатель может познакомиться по специальной литературе; особенно рекомендуем работы [225], [202] и [164]. Здесь же мы ограничимся рассмотрением некоторых проблем, которые сводятся к задаче на собственные значения. В параграфе 10.9 приводится написанная на Бейсике программа, с помощью которой осуществляется расчет собственных значений и собственных векторов для симметричной матрицы в процессе реализации алгоритма сингулярного разложения матрицы (СРМ). Этот алгоритм описан в конце настоящего параграфа. Используемый нами алгоритм рассмотрен в работе [1641; данная его версия позволяет иметь дело с матрицами, порядок которых не превышает 10—15. Для матриц большего порядка его применение, как показано, например, в 1225], с ростом порядка матрицы становится все более невыгодным по сравнению с методом Хаусхолдера сведения матрицы к эквивалентной трехдиагональной форме. Главные компоненты. Пусть у = [ylf у2, ..., урУ — многомерная случайная переменная с var (у) = 2. На практике вряд ли в нашем распоряжении будет 2; скорее мы можем располагать лишь оценкой 2 = = (п — I)-1 S, где S является матрицей ЦСКП. Пусть значения XJt ...%кр с соответствующими им векторами vlf ..., vp представляют собой решения относительно А, и v системы уравнений B — M)v = 0. D.2) Если Xt Ф Xjy то можно показать, что vjv; — 0. Даже если некоторые из Хг окажутся равными друг другу, все равно удобно взять векторы V| ^такими, что vjvy = 0 для 1Ф /. Дополнительно предположим, что V/V, = 1. Пусть А = diag (Xlf X2, ..., А,7>) — диагональная матрица. Предположим далее, что Xt упорядочены таким образом, что Тогда 191
гдеУ = [У!, ..., vp], так что V'2V = A. D.3) Рассмотрим теперь f = V' у. D.4) Тогда, предполагая, что var (у) = 2, находим var(f) = V' 2V = A, т. е. элементы вектора f не коррелируют между собой. Можно показать, что дисперсия fx является максимальной среди всех линейных комбинаций 7'у элементов вектора у с /V = 1; аналогично var (f2) является максимальной среди всех линейных комбинаций, которые не коррелируют с fx и т.д. Новые переменные /lf /2, ..., fv известны под названием главных компонент. Сингулярное разложение матрицы. Предположим, что 2 = Z'Z. Тогда вместо того, чтобы искать собственные значения и собственные векторы матрицы 2, можно найти сингулярное разложение матрицы Z: U'ZV= D, D.5) где U и V представляют собой ортогональные матрицы, a D — диагональная матрица. Легко проверить, что матрица V фактически является матрицей V в D.3) и что Л — D2. 6.5*. ОБОБЩЕННАЯ ЗАДАЧА НАХОЖДЕНИЯ СОБСТВЕННЫХ ЗНАЧЕНИЙ Статистика, предложенная в параграфе 6.3 для оценки статистической значимости показателей таблицы многомерного дисперсионного анализа, определяется как максимум из значений корней (собственных значений) kt матричного уравнения (A —XC)v=0, E.1) где A = f/yT/y, C=SYy.x—TyyTyy- Данное соотношение может быть переписано так: или [A-q>(A + C)|v=Of E.2) где ф = X A + Я)-1. Уравнения E.1) и E.2) полностью эквивалентны, за исключением случая, когда в E.2) ср = 1, и, следовательно, X в E.1) должно иметь бесконечное значение. В данном контексте во всех пред- 192
ставляющих для нас интерес ситуациях А и С будут положительно определенными (или по крайней мере неотрицательно определенными) матрицами; при этом предполагается, что разложение Холецкого матрицы С имеет вид матрицы Туу. Тогда при условии, что все диагональные элементы матрицы Туу отличны от нуля, E.1) может быть переписано: (TnlAf7Yx-M)v* = 0, E.3) гдеу* = Туу v. Таким образом, расчеты сводятся к решению стандартной задачи нахождения собственных значений. Отметим, что Туу1 ATyy получается, как G'G, где матрица G такова, что ТууС ¦= Т/у. Собственные векторы yt при решении исходной задачи могут быть получены в результате решения следующей системы уравнений: fyyVf = Vf. При наличии в матрице Туу нулевых диагональных элементов необходимо исключить из рассмотрения соответствующие им переменные (воспользовавшись для этого, например, одним из способов, предложенных в параграфе 3.7). Это позволит продолжить проведение расчетов на базе уравнения E.3). Степень достоверности результатов вычислений подобного рода определяется исходя из конкретных условий. Использование E.2) оказывается несколько более сложной задачей; здесь требуется формирование верхней треугольной матрицы U, такой, что U'U = А + С, возможно, с помощью ортогонального приведения к верхней треугольной форме матрицы Последующие расчеты не вызовут затруднений, если только не окажется, что А + С и, следовательно, U являются вырожденными матрицами, что свидетельствует о существовании вектора d ф О, такого, что (А+ +С)сГ=О. Тогда O = d'(A+C)d=d'Ad + d'Cd, что означает (поскольку матрицы А и С неотрицательно определенные), что A<f = Cd = 0. А это в свою очередь означает, что на каком бы месте в матрице U ни находился нулевой диагональный элемент, то же будет и в матрицеТуу и наоборот. Продолжение расчетов связано с решением относительно Н уравнения U' н7 = fiV- E.4) Тогда E.2) примет вид: (Н'Н— <pT)v#=O, E.5) Зак. 1078 193
где v# = Uv. Строка i в матрице Н' в E.4) обращается в нуль, если соответствующий диагональный элемент матрицы U равен нулю. Каноническая корреляция. При рассмотрении канонической корреляции принимается, что строки матрицы X = [X, Y] являются, за исключением состоящего из единиц первого столбца, наблюдениями многомерной (и желательно нормальной) случайной переменной [x',y']=l*i, -.., *т. Уи .- УрЬ Исключение из приведенной в параграфе 6.3 матрицы Т первой строки и первого столбца приводит к матрице ITxx Txyl [о TyyJ Тогда Т'Т представляет собой матрицу ЦСКП вида с FSxx Sxy] LSiy Syy Г Предполагая, что в матрице 1L имеется п строк, возьмем в качестве оценок матрицы дисперсий-ковариаций матрицу Рассмотрим теперь следующие линейные комбинации вида h =g/ x (i = 1, ..., m), удовлетворяющие условиям: 1) /j не коррелируете /1э /2, ..., /,—i и Lx не коррелирует с Llf L2, ...t Li—i, 2) коэффициент корреляции между 1г и Lx является максимально возможным; при выполнении условия 1) следующим по величине является коэффициент корреляции между /2 и L2 и так далее для i = 1, 2, ..., min (m, p). Коэффициент корреляции между 1г и Lt называется i-м коэффициентом канонической корреляции. Можно показать, что квадраты коэффициентов канонической корреляции являются собственными значениями ф, а линейные комбинации Lt задаются собственными векторами h, т. е. решением системы [A-q>(A-f C)]h=O, E.6) где А = T'xyTxy* С = ТууТуу. С вычислительной точки зрения, однако, проще решить систему (A—XC)h=0, E.7) 194
после чего положить При данном Lt = hjy соответствующая линейная комбинация 1г = gz х получается в результате решения относительно gt уравнения i. E.8) Доказательство этих результатов в качестве упражнения предоставляем провести читателю. Размерность задачи E.6) или E.7) нахождения собственных значений сведется к минимуму, если в случаях, когда в двух рассматриваемых наборах содержится различное число переменных, меньший набор берется последним. Если диагональные элементы матрицы Т равны нулю, то при решении E.7) строки и столбцы, относящиеся к соответствующей переменной, следует опустить. Линейная взаимосвязь может быть определена с помощью способа, описанного в параграфе 3.9. Если при формировании линейной зависимости одна переменная выражается в виде линейной комбинации предыдущих переменных, принадлежащих этому же набору переменных, она может быть использована лишь для записи канонических переменных в самом общем виде (ср. с параграфом 3.9). Иначе линейная зависимость будет определять канонические переменные g'x и h'y, которые равны друг другу, и, следовательно, коэффициент корреляции между ними равен 1. Имеем: Тхх 6—Txy h^O — Туу h = 0. В этом случае легко показать, что любые переменные h'y, удовлетворяющие этим уравнениям, не коррелируют между собой и с каноническими переменными, получаемыми при решении уравнения E.7). То же верно и для переменных g'x. Уравнения E.6) и E.7) определяют значение ht в качестве общего для всех элементов масштабирующего множителя. Это справедливо и для gj. В этих условиях имеет смысл выбрать их таким образом, чтобы при вычислении оценки дисперсий для всех /,• и Lt полученные значения оказались сопоставимыми друг с другом. В данном случае оценки дисперсий имеют вид: (п— 1) var (g; х)- g/ Sxx g, = CK элементов Тхх ft, E.9) (п— 1) var (h] у) - и/ Syy h; - h/ (VXY TXY + f W Tyy) h,. E.10) Выражение E.10) численно равно сумме СК элементов ^Txyhl и СК элементов Tyyhz-. Нормализовать соответствующие векторы можно, например, таким образом, чтобы во всех случаях дисперсия оказалась рав- 7* 195
ной 1 или же, скажем, (п — I)-1. В некоторых компьютерных программах масштабирование осуществляется так, что длина всех U и Lt становится равной единице; в других программах равным единице оказывается максимальный элемент. Анализ на основе канонических переменных. Анализ на основе канонических переменных предоставляет определенные возможности для проведения многомерного дисперсионного анализа. Матрица X в данном случае состоит из первого единичного столбца и столбцов переменных-индикаторов, характеризующих группу, к которой принадлежит та или иная строка (см. A.8) из параграфа 5.1). Матрица А = T'xy^xy тогда представляет собой матрицу межгрупповых сумм квадратов и произведений; как и в параграфе 6.2, можно записать: А= У Л|(у|—у)(у*—у)'- Это матрица обусловленных регрессией сумм квадратов и произведений (скорректированных относительно средних) в регрессии столбцов матрицы Y на столбцы матрицы X. Матрица С = Iyy^yy представляет собой матрицу внутригрупповых сумм квадратов и произведений. Это матрица сумм квадратов и произведений отклонений от регрессии столбцов матрицы Y на столбцы матрицы X. Для линейной комбинации h'y межгрупповую сумму квадратов (h'Ah) будем сокращенно обозначать как МСК. Внутригрупповую сумму квадратов (h'Ch) будем обозначать как ВСК. Тогда первая каноническая переменная Lx = h{y выбирается таким образом, чтобы отношение МСК/ВСК оказалось максимально возможным по своей величине. Следующие канонические переменные L* определяются в порядке i = ~2, 3, ... в соответствии с правилом, по которому Lt не коррелирует с Ll9 L2, ..., L|_lt а значение отношения МСК/ВСК берется максимально возможным. Векторы коэффициентов"hj для соответствующих линейных комбинаций находят в результате решения относительно h матричного уравнения (А — ЩЬ = 0. E.11) При этом собственные значения X равны отношению МСК/ВСК. Доказательство того, что собственные векторы и собственные значения E.11) удовлетворяют соответствующим условиям, приводится в упражнениях в конце настоящей главы. Пример расчета канонических переменных содержится в параграфе 6.8. 196
6.6. ПРИМЕР: МНОГОМЕРНАЯ ОБОБЩЕННАЯ МНОГООТКЛИКОВАЯ ЛИНЕЙНАЯ МОДЕЛЬ 1 IX, Y] = Хх X 2 *9 7 5 6 2 — 1 6 7 3 5 —3 2 2 —3 -1 2 1 2 1 1 4 0 7 1 3 I 1 4 Ух 7 —5 6 5 5 —2 0 8 3 Уг 1 - 4 10 5 —2 4 — 6 2 0_ Ортогональное приведение этой матрицы к верхней треугольной форме дает 0 fyy] ~ 3 6 10 3 4 4 12 2 .2 6 9 4 6 —10 2 1 6 6 2 4 10 Это позволяет записать таблицу многомерного дисперсионного анализа для регрессии столбцов матрицы Y на столбцы матрицы X: Сумма квадратов обусловленная свободным членом обусловленная Х\ [9 6] = 81 541 54 36) 41 г, А1 [16 241 6j 146J==[24 36J обусловленная х2 (скорректированная обусловленная хя (скорректированная остаточная общая относительно на хх) на Х\, х2) средней f2 по I 6 [6 2 12][-ю 01 Г2 Vioj [о '51 г ЮО —40 101 Г 4 20 yioj [го по 156 16 16 166 Чтобы проверить, например, следует ли х3 включать в регрессию, сформируем вектор G' (или g), такой, что 2 10 1/10 1 I 4[ 197
откуда G' = 17,076 Статистика Хотеллинга тогда равна Т2 = (9—4) tr(G' G)= 5 E2 + 17.0762) = 1582,9. Степени свободы составляют v2 = 9—4=5 и vt = 1. Собственные значения G'G легко определяются из = 0. 52 — X 5-17,076 .5-17,076 17,076—JiJ Тогда Я,тах —52 + 17.0762 = 316,6 (остальные корни равны 0). Отсюда следует, что Фшах = 316,6/A +316,6)-0,9969. W=(l + 316,6)-1 =0,00315. Расчеты могут основываться также на ортогональном приведении к верхней треугольной форме матрицы -10 4 2 10 о |/То_ В результате получаем 10,198 —1,96121 0 11,052 J Решение уравнения относительно вектора Н дает Тогда ff, = Г-0,9806 0,1879 фтах =0,98062 +0,18792 = 0,9969, W = B VAl0J/A0,198.11,052J =0,00315. 198
6.7. ПРИМЕР: РАСЧЕТ КОЭФФИЦИЕНТОВ КАНОНИЧЕСКОЙ КОРРЕЛЯЦИИ Воспользовавшись данными из параграфа 6.6, положим, что (х1г х2, х3) и (у1У у2) являются двумя наборами переменных. Выделим из верхней треугольной матрицы, приведенной в параграфе 6.6, подматрицы 4 6 Тху = 6 2 —10 4 10 Заметим, что Тху получена в результате исключения первой строки из Тху. Следуя E.1) и E.3), решим вначале относительно G' уравнение T' = Тху. Получаем G' = 2 3—5 ,427 —8,854 17 ,076 ]' откуда г 38,0 —120,81 "~ [—120,8 389,6J 8 389, Собственные значения X тогда находятся в результате решения уравнения det 38-Я —120,8 — 120,8 -120'8 1=0 389,6—Х\ * что дает X = 427,1; 0,4967. Таким образом, <р = X A + X)-1 имеет значения 0,9977; 0,3319. Расчеты с целью определения собственных векторов hx и Е2 производятся далее следующим образом: 1) Для каждого собственного значения X находят v*, такие, что 38-Ь -120,8 — 120,8 389 ,8 |-,= ,6—К\ 0. Для простоты примем, что первый элемент v* в каждом случае равен 1. Тогда ¦-Г ! 1 I 1 L—3,221 J* [0.3105 199
2) Решим теперь уравнение Tyyh = v* относительно h, в результате чего получим 5,593 —1,018 0,009121 0,09818J (Подходящий способ стандартизации h будет рассмотрен позже.) При расчете канонических переменных для jc-ob потребуются подматрицы: 10 4 21 | 4 6" ТХу= 6 2 — 10 4 Начнем с расчета 16,264" =| 31,522 -60,0. 0,6254 0,2511 _0,3015_ Решение уравнения TXxg = Txyh тогда дает [ —1,526 12,88 —10,0 ,03745 0,03765 0,05025 Чтобы сделать оценку дисперсии равной в каждом случае (п — 1) *, разделим элементы найденных векторов на значения соответствующих масштабирующих множителей. Эти множители определяются так: g,: A6,2642 + 31,5222 + 602)• П = 69,70( = g2: @.62562 + 0,25112 + 0.30152I ^ =0,7385, h2: @.73852 + 1 +0,31052)'/2 = 1,281. Полученные результаты могут быть представлены в следующем виде: —0,022л, +0,185*2—0, 0,0507л:,+0,0510х2+0,0680хз 0,08^—0,015^ 0,9988 0,007^+0,0771/,, 0,576 200
6.8*. ПРИМЕР: АНАЛИЗ НА ОСНОВЕ КАНОНИЧЕСКИХ ПЕРЕМЕННЫХ Рассмотрим [X, Y] = 1 1 1 1 1 о о о о о о о о о о 2 1 1 3 3 2 6 6 4 3 7 3 2 2 9 2 3 О 3 6 4 1 6 1 Группа L = 4 наблюдения. Группа 2, /12 = ' Группа 3, пя = Ортогональное приведение этой матрицы к верхней треугольной форме дает f = О О "о" О 2/К_ 2 1/2/3 О О о 25/КЗ 5 -7/Кб ) 3/2 3/1/2 1/J/2 7 О 1 6 -1/2/3 о о Исключая из этой матрицы первую строку и первый столбец, получаем _ 2 1/2/3 -1/2/3 —7/|/б 1/3/2 О 1/2 3/1/2 1/1/2 О О О О Нам нужно решить матричное уравнение (А —ЩЬ = 0, = ТхуТху, С = ТууТуу. Решение уравнения TyyG —T'xy [Тхх Тху 1 О TyyJ' 7 0 1 6 где дает G' = —0,4083 0,3030 0,2722 0,0673 0,2585 —0,0907 —0,0907 0,0786 201
Решая det(G'G—П)=0, получаем А, = 0,2963; 0,0408, откуда система(G' G —AI)v=0 приводит к — 0,4176 ' [ 2,400 J" причем |1 v || = 1,0833; 2,600. Соответственно решая Туу h^=v, получаем R | 0.16281 Г0, 1-0,0694 J" [О, Оценка var (h' у) определяется так: 0857 4000 (л—А)-гН Туу Tyyh =(л — A;) v v, где k = 3. Тогда, поделив элементы полученных векторов соответственно на 1,0833/1^9 и 2,6/^9, приходим к следующим переменным: Канонические переменные 0,4230!—0,192 у2 0,099f/! + 0,462i/2 Отношение МСК/ВСК Х = 0,296 Ь = 0,041 Полезно представить эти результаты с помощью графика, на котором в качестве переменных выступают первые две канонические переменные, а различные точки графика (отвечающие соответствующей группе наблюдений) определяются их оценкой по исходным данным. Можно также построить графики третьей канонической переменной относительно первой или второй канонической переменной. 6.9. ЧТО ЕЩЕ МОЖНО ПОЧИТАТЬ В работе Р. Харриса [103] подробно рассматриваются классические методы многомерного статистического анализа. Особое внимание уделяется вопросам их практического использования и интерпретации. В написанной Финном главе работы [75] содержится детальная информация о методике вычисления широкого круга показателей, которые могут потребоваться при проведении многомерного статистического анализа. 202
Она является полезным дополнением к материалу, изложенному в настоящей главе данной книги. Вопросы, связанные с расчетом собственных значений, освещаются в [202], [2251, [164] и [174]. В работе [65] приводятся написанные на Фортране подпрограммы сингулярного разложения матриц и подробно обсуждаются особенности их применения. Однако в настоящее время при решении этой задачи предпочтение чаще отдают АСМ-алгоритму 581, описанному в работе [40]. При изложении методов многомерного статистического анализа основной упор мы делаем на описании их структуры и особенностей применения, а не на традиционной проблематике статистических выводов. В книге Р. Гнанадесикана [92] акценты расставлены по-другому. Работа А. Гордона [95] представляет собой прекрасно написанное введение в методы классификаций. Особое внимание в ней уделено методам, основанным на использовании понятий евклидовой геометрии. Автор приводит также краткие комментарии к компьютерным программам, с помощью которых реализуются алгоритмы классификации. Кластерный анализ и другие методы определения структурных характеристик тесно связаны с исследованием проблем распознавания образов, представляющих большой интерес для тех, кто занимается компьютерной техникой. Д. Хофстадтер [114, гл. 19] подробно исследует проблемы распознавания образов с вычислительной точки зрения. 6.10. УПРАЖНЕНИЯ 1. а) Имеется две переменных хА и х2, дисперсия каждой из которых равна единице, а коэффициент корреляции между ними равен р. Определите главные компоненты. б) Рассмотрим переменные xlt x2y ..., хЪу дисперсия каждой из которых равна единице. Коэффициент корреляции между хг и х2 равен р > 0, между х3 и х4 — единице, а все другие коэффициенты равны нулю. Определите главные компоненты. 2. Пусть Х| (/ = 1, ...\ р) — собственные значения, a v$ — соответствующие собственные векторы матрицы X' X. Покажите, что: a) X'X = 2{Ll*fv,v;; б) (Х'Х)-1 = 2?в1ХГ«7,у/. Как б) можно использовать для разбиения var [6i] = (X/X)"~1a2 на р компонент, каждая из которых соотносится с соответствующим собственным значением матрицы X' X? Как изменится это разбиение, если не все собственные значения бУДут различными? 3*. Как и в параграфе 3.11, обозначим через ||А||2спектральную норму Квадратной матрицы А. Докажите, что ||А||2 представляет собой максимальное собственное значение, а ||А||а — минимальное собственное значение матрицы А. 203
4*. Рассмотрим следующую матрицу исходных данных: IX, Y] - Хх 1 2 1 1 1 2 1 0 1 1 1 1 1 0 1 1 1 1 Хг 8 0 5 4 0 3 1 3 3 х» 6 2 5 —2 —2 3 —3 —1 1 Ух — 1 2 7 7 0 0 —5 2 1 4 2 8 4 —2 3 —4 3 0 Найдите коэффициенты канонической корреляции между двумя наборами переменных и соответствующие канонические переменные. 5*. Пусть IX, Y| = Хх 1 —1 1 3 1 2 1 —2 1 —1 1 3 1 2 1 —2 1 2 х2 0 0 —2 —1 1 3 2 — 1 1 хл 1 1 —2 1 —1 1 2 — 1 1 Ух 0 0 —2 1 —1 3 4 —2 3 Уг -1/2 7/2 7/2 j —1 2 3/2 —1 2 (Приведенные здесь переменные являются взятыми в другом порядке переменными из примера, рассмотренного в параграфе 3.9.) Определите коэффициенты канонической корреляции и соответствующие им канонические переменные. 6. Пусть Т — матрица, полученная в результате ортогонального приведения к верхней треугольной форме матрицы [X, Y], где первый столбец в подматрице X состоит из единиц, а остальные столбцы представляют переменные-индикаторы, определяющие группу наблюдений, к которой принадлежит соответствующая строка. Исключение из матрицы Т первой строки и первого столбца приводит к матрице Т = 1ХХ о TyyJ Докажите, что ^xy^XY является матрицей межгрупповых сумм квадратов и произведений (см., например, определение, приведенное перед E.11) в параграфе 6.5). 7*. Неравенство Кош и — Шварца состоит в том, что для любых действительных векторов g и h выполняется неравенство 204
причем равенство будет иметь место тогда и только тогда, когда будет выполняться соотношение g"= ah для некоторого скаляра а. Обобщите этот результат, чтобы показать, что если Бц и S12 — любые действительные матрицы, такие, что S11 = TJ1T11, S12 = T1', Т12, то (i' s12fiJ< (i' sni) (К' т;2 т12ь), причем равенство будет иметь место тогда и только тогда, когда Тп g = aTl2h для некоторого_скаляра а. Выведите, что если 11_~-^верхняя треугольная матрица,, такая, что U'U = S22, и матрица G такая, что GU = Т12, то I' S12h)8 (Gv)'Gv (i' s1: 8. Покажите, что sup _ 1 г— = sup -^Hf lb (g/S11g)(h'S22h) v v'v sup v' G'Gv v' v является максимальным собственным вектором матрицы G'G и что соответствующий вектор v представляет собой собственный вектор матрицы G'G. На основе этого докажите результаты, полученные в параграфе 6.5 и представленные уравнениями E.6) — E.8). _ (Рекомендация. Рассмотрите вектор г = Qv, где матрица Q ортогональная и такая, 4to"Q'G'G*Q = diag (Xf, ..., Ц.) Тогда расположено между наименьшим и наибольшим значениями
Глава 7 # НЕЛИНЕЙНЫЕ МЕТОДЫ Особое внимание в настоящей главе будет уделено нелинейным методам решения уравнений, которые возникают при использовании метода максимального правдоподобия. Для всех рассматриваемых примеров можно показать, что соответствующая функция правдоподобия имеет единственный максимум, лежащий внутри пространства параметров модели. Этот максимум определяется при решении уравнений, получаемых в результате приравнивания нулю частных производных функции правдоподобия по каждому из параметров. Логарифмическая форма функции правдоподобия, которая принимает максимальное значение тогда и только тогда, когда достигает максимума соответствующая функция правдоподобия, обладает преимуществом, заключающимся в том, что для независимых наблюдений она представляет собой сумму логарифмов функций правдоподобия индивидуальных наблюдений. Отыскание максимума логарифма функции правдоподобия альтернативно может рассматриваться как проблема оптимизации, решение которой возможно при применении специальных методов. Однако эти методы здесь не обсуждаются. В заключительных параграфах главы освещаются логлинейные и другие модели, которые в соответствии с классификацией, предлагаемой Дж. Нелдером и Р. Уеддербёрном, представляют собой класс так называемых обобщенных линейных моделей. 7.1. НЕЛИНЕЙНЫЕ УРАВНЕНИЯ С ОДНИМ НЕИЗВЕСТНЫМ Для уравнения / (и) = О, где / (х) — нелинейная функция по х> необходимо найти один или несколько корней и = х. В большинстве случаев желательно процесс отыскания корня (или корней) функции сопровождать построением графика / (х) относительно х для некоторого множества значений х, близких к значению корня. Процедуру поиска имеет смысл начать с построения графика, который может быть использован для приближенного определения первоначальных границ области, куда попадают отыскиваемые нами значения корня или корней (в случае, если корень не единственный). Альтернативные методы излагаются очень бегло. Понятие порядка сходимости упоминается здесь лишь мимоходом. Более исчерпывающее обсуждение теории нелинейных методов и более полное рассмотрение 206
особенностей применения общих алгоритмов проведения соответствующих расчетов читатель найдет в работах [52, гл. 6] и [81]г. Расчеты будут иллюстрироваться на примере отыскания корней функции f(u)=u—К1пA + аи), A.1) где Я = 1,31, а = 1,932. Требуется отыскать значение корня ифО. Возникающие при этом вычислительные проблемы будут рассмотрены на примере подбора математической модели, описывающей поведение ос, откладывающих свои яйца в куколки домашних мух и не посещающих при этом одну и ту же куколку дважды. Более подробно этот пример обсуждается в конце настоящего параграфа. Содержательный анализ задачи позволяет предположить, что 0 < и < 1. Отметим, что / A) = 1 — l^l-1 In B,93) >0. Аппроксимируя In A + аи) си аи — — у Л2, получаем приблизительное значение корня и = 0,33. Кроме того, / @,33) <С 0. Следовательно, f (и) — 0 имеет корень, заключенный в интервале 0,33 <и< 1. В случае, когда для применения соответствующего метода требуется одна довольно грубая оценка первоначального приближения, в качестве ее значения можно взять и0 -- - 0,33. Статистическая модель. Предположим, что число посещений любой куколки мухи самкой паразитической осы следует распределению Пуассона со средней Я. Допустим, вероятность того, что при посещении куколки будет отложено яичко, зависит от числа уже отложенных в нее яичек. Если в куколку еще не откладывалось яичек, то эта вероятность 60 принимается равной 1; если уже было отложено одно яичко, то эту вероятность обозначим бх < 1. Аналогично определяем 62, 83 и т. д. Тогда оценку Я можно получить, приняв р0 — е~\ где р0 — выборочная доля куколок, в которые еще не были отложены яички. Приравнивая выборочную долю рг куколок, в которых имеется по одному яичку, соответствующей теоретической их доле, получаем Перегруппировав это выражение для и = 1 — 61n a -= pjpo, приходим к уравнению A.1). Полагая рд - 0,27 и рг = 0,52, находим значения для Я и а. 1 На русском языке читателю можно рекомендовать любой учебник по численным методам, например [238]. — Примеч. ред. 2 Можно показать, что уравнение / (и) = 0 имеет единственный положительный корень, если а > к, и, наоборот, не имеет положительных корней, если а < "< Я. — Примеч. ред. 207
7.2. МЕТОД ПОЛОВИННОГО ДЕЛЕНИЯ И ДРУГИЕ АНАЛОГИЧНЫЕ МЕТОДЫ Метод половинного деления представляет собой общий метод определения последовательности точек х = ти в которых вычисляется значение функции / (х). Предположим, что а0 и Ьо выбраны такими, что / (а0) и / (Ьо) имеют противоположные знаки, т.е. / (а0) / (Ьо) < 0. Тогда если f (х) непрерывна на интервале ао<х<Ьо, то рассматриваемая нами функция на данном интервале имеет по крайней мере один корень. Возьмем теперь т1 = 0,5 (а0 + Ьо). Тогда в случае, если / (/пх) Ф ф 0, существует два варианта: 0» тогда положим ai=ao> V mi) -t7l\ ИЛИ f(m1)f(bo)<i0, тогда положим a1 = m1, bl = В результате будет получен интервал (ах, Ьх), содержащий корень и уравнения / (и) = 0, длина которого равна половине длины интервала {Яо> Ьо). Продолжая действовать таким образом и далее, можно выделить довольно узкий интервал, заключающий в себе корень уравнения / (и) = 0. Взяв в качестве первоначальных границ интервала значения а0 = 0,33 и Ьо = 0,97, продемонстрируем использование данного метода для отыскания корня уравнения A.1), т. е. и— 1,31-411A + 1,93ы)=0. Выбор &о = До + 0,64 упрощает расчет последующих срединных точек. После каждого значения at в скобках приводится знак / (at); аналогичный смысл имеют знаки, приводящиеся после Ъг и тг. Последовательность выполнения этой процедуры следующая: 0,33 (-) 0,33 (—) 0,49 (-) 0,49 (-) 0,53 (-) 0,55 (—) 0,55 (—) hi 0,97 (+) 0,65 (+) 0,65 (+) 0,57 (+) 0,57 (+) 0,57 (+) 0,56 (+) m. 0,65 (+) 0,49 (-) 0,57 (+) 0,53 (-) 0,55 (-) 0,56 (+) 0,55 (—) f (m.) 0,029 -0,018 0,003 -0,008 —0,002 0,0006 —0,0008 Округленное до двух значащих цифр после запятой значение корня равно и = 0,56. Процесс сходимости к нему протекает довольно медленно, но верно. Метод половинного деления и такие его модификации, как метод ложного положения (или метод хорд) \ который мы кратко обсудим ниже, являются полезными практическими инструмен- В оригинале употребляется латинский термин regula falsi. — Примеч. пер. 208
тами поиска достаточно узкого интервала, на котором становится эффективным применение потенциально более «быстрых» методов. Метод ложного положения отличается от метода половинного деления лишь тем, что для определения точки, где осуществляется деление текущего интервала, используется линейная интерполяция (функция заменяется хордой). Искомая точка тг представляет собой наилучшую линейную оценку значения и, такого, что / (и) = 0. Таким образом, где h^-fiat) .**-*] . . B.1) f(bi) — f(ai) Метод секущих. Метод секущих, как правило, имеет более быструю сходимость к корню уравнения по сравнению с методом половинного деления и методом ложного положения. Если ui^.1 = at и ut = bt представляют собой два последовательных значения приближения, то в соответствии с методом секущих значение щ+1 = тг рассчитывается, как в методе ложного положения (см. B.1)), и полученная величина принимается в качестве следующего значения приближения. Алгоритм с гарантированной сходимостью. В работе [32] подробно излагается алгоритм с гарантированной сходимостью, который может рассматриваться как квинтэссенция обсуждавшихся выше идей, удачно дополненных приемами обратного квадргтического интерполирования для отыскания значения корня. Более подробно этот алгоритм описан в [81]. Там же приведена его версия, реализованная в виде программы, написанной на Фортране. В работе [32] содержатся сведения об истории разработки этого алгоритма, а также даются его версии, реализованные на Алголе W и Фортране. В гл. 10 настоящей книги приводится версия алгоритма, реализованная на Бейсике. На каждом шаге алгоритма рассматриваются три точки: a*, bt и б,, где а% — значение, полученное на предпоследней итерации, bt — значение, полученное на последней итерации, и ct (которое может совпадать с at) — самое последнее из полученных в итерационном процессе значений, при котором Ьг и сг располагаются по одну сторону от корня. Обратная квадратическая интерполяция или же, если указанные точки совпадают, линейная интерполяция применяются для расчета первого приближения к точке, значение которой следует взять для использования на следующей итерации. Если первое приближение оказывается расположенным внутри текущего интервала, то соответствующее ему значение используется на следующей итерации. В противном случае оно отбрасывается и берется значение точки, определяемой с помощью метода половинного деления. Таким образом гарантируется сходимость итерационного процесса, как и в случае применения методов половинного деления и ложного положения. Версия подпрограммы реализации данного алгоритма, написанная на Бейсике, при решении уравнения A.1) на интервале @,33; 1,0) дает схо- 209
димость к значению корня, определяемого с точностью до двух десятичных знаков всего лишь за одну итерацию. Этот алгоритм является исключительно мощным и эффективным. 7.3. МЕТОД ИТЕРАЦИЙ И МЕТОД НЬЮТОНА—РАФСОНА Общая черта метода итерации * и метода Ньютона — Рафсона состоит в том, что в каждом из них определяемые на последовательных итерациях значения рассчитываются с помощью уравнения вида щ == = Ф (Wj-j), т. е. значение, получаемое на очередном шаге, зависит только от значения, рассчитанного на предыдущей итерации. При применении метода итераций уравнение, корень которого требуется определить, должно быть записано в виде и = ф (и). Данный метод может работать плохо или хорошо в зависимости от того, какая из возможностей записи этого уравнения в данной форме выбрана исследователем. Сходимость гарантируется при условии, что значение начального приближения и0 принадлежит некоторому интервалу, содержащему значение корня, в котором |ф' (л;)| <с < 1. В методе Ньютона —Рафсона используется линейная (первого порядка) аппроксимация функции / (х) в окрестности точки х = щ при разложении ее в ряд Тейлора. Предоставляем читателю самому показать, что при подходящем выборе ф (•) данный метод эквивалентен методу итераций с «/|+1 = ф (щ). Метод итераций. Запишем уравнение / (и) = 0 в виде и = ф (и). Например, уравнение A.1) уже имеет требующийся для данного метода вид: Легко проверить, что ф' @,33) = 0,90. С учетом того, что ф" (х) < 0 для х, принадлежащего к интересующему нас интервалу, это представляется хорошей предпосылкой для выбора в качестве очередного приближения щ = ф (hj-j). Последовательность значений приближений приведена в первом столбце табл. 7.1. В следующих трех столбцах таблицы содержатся значения экстраполяции по Эйткену; смысл этих показателей будет объяснен позже. Обсудим кратко теоретические свойства данного метода. Предположим, что |ф' (•)( < с< 1 на интервале, центром которого является значение корня w, т. е. и = ф (и). Тогда при условии, что щ-х принадлежит этому интервалу, из теоремы о среднем следует, что ai = q>(tti-i) = q>(tt) + (ai-i—a)q>'(z), C.1) где г лежит между и и щ-г. Следовательно, \ut — и\ < с\щ-х — и\. Еще одно следствие из C.1) состоит в том, что когда иг^г оказывается близким к ы, то щ — и~ («<-!—*г)ф' (и). 1 Иногда этот метод называют методом последовательных приближений. — Примеч. ред. 210
Таблица 7.1. Применение метода итераций для нахождения корня уравнения / (и) = и—\ ,31"i In A +1,93u) - О ui 0,33 0,376 0,417 0,450 0,478 0,499 0,515 0,527 0,535 0,542 0,546 0,550 ui+i~ui 0,0462 0,0405 0,0388 0,0271 0,0211 0,0160 0,0119 0,00875 0,00636 0,00460 0,00331 —0,00571 —0,00669 —0,00668 -0,00604 —0,00508 —0,00408 —0,00316 —0,00238 —0,00177 -0,00129 0,704 0,621 0,587 0,572 0,565 0,561 0,560 0,559 0,558 0,558 Замечание. В столбцах 2—4 приведены значения экстраполяции по Эйткену. Чтобы рассчитать их с указанной степенью точности, представленные в столбце 1 значения приближений должны определяться до шестого или седьмого знака после запятой. Если q/ (и) Ф 0, это означает, что отношение расстояний двух последовательных приближений до значения корня остается приблизительно постоянным. В этом случае говорят, что имеется линейная сходимость. Если q/ (и) = 0, то из C.1) следует, что \щ — и\ в конечном счете оказывается гораздо меньше, чем c\Ui^ — и\, и, следовательно, процесс сходимости протекает быстрее, чем в линейном случае. Экстраполяция по Эйткену рекомендуется, когда ф' (и) Ф 0. Как и раньше, здесь рассчитывается иг = ф (ui-J, однако теперь последовательность значений и% используется для определения второй последовательности значений мь сходимость которой осуществляется с более высокой скоростью. Эти значения вычисляются по формуле fr* C.2) 2ui + 1-{ ut) Необходимые для расчетов величины корней функции A.1) приводятся в табл. 7.1. Если сходимость значений в исходной последовательности имеет линейный характер, то при расчете последующих приближений целесообразно пользоваться более точными по сравнению с иг значениями i*i. Это приводит нас к методу Стеффенсона, для которого ф[ф (и«)]— C.3) Применяя данный метод к рассмотренному выше примеру, получим следующую последовательность приближений: 0,33 0,704 0,569 0,558 0,558 211
Уравнение, приведенное для демонстрации расчетов, альтернативно может быть представлено в виде и = (l^l) (еки — 1). Читатель при желании может попытаться выяснить, приемлема ли данная форма записи уравнения в качестве базиса для реализации итеративной схемы. Метод Ньютона — Рафсона. Линейная аппроксимация функции / (х) в окрестности точки х = щ при разложении ее в ряд Тейлора имеет вид: fix) -/(«i)+ (х- Щ) Г (и,). Полагая / (х) = 0 и заменяя х на ui+1, получаем C.4) Можно показать, что последовательность значений ut сходится при условии, что /' (и) Ф 0 и и0 достаточно близко к искомому значению корня. При расчетах необходимо проверять, действительно ли имеется сходимость итеративного процесса. Подробности реализации этой процедуры содержатся в [52, параграфы 6.3, 6.5 и 6.7]. Для нашего примера (уравнение A.1)) /' (х) = 1,0 Ь52 . '• 1,31 A + 1,93 х) По методу Ньютона — Рафсона получаем следующую последовательность приближений: wo = 0,33 0J92 0,591 0,559 0,558... Процесс сходимости здесь протекает быстрее, чем при использовании метода секущих (см. параграф 7.2). Однако при этом на каждом шаге наряду с /(•) должны оцениваться и значения /' (•). Между методом Ньютона — Рафсона и методом секущих существует тесная взаимосвязь. Если в C.4) /' (ut) заменить угловой оценкой [/ (иг) — — f(Ui-<$\l(ui — Wj-i), то итеративная схема сводится к схеме, применяющейся в методе секущих. Метод Ньютона — Рафсона легко обобщается для решения проблемы нахождения вектора значений корня системы одновременных уравнений. В параграфе 7.8 показано, как это можно сделать. 7.4*. НЕЛИНЕЙНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ Рассмотрим проблему минимизации: i= 1 где а — действительное число. Существуют два основных метода решения этой задачи. При выполнении довольно слабых теоретических допущений (например, о том, что функции gi (а) являются всюду дифференцируемыми) в любой точке минимума F' (а) = 0. Когда же F' (а) = 0 более чем в одной точке а, 212
необходимо найти то значение корня, при котором F (а) минимально. Найти соответствующее значение а можно с помощью любого из методов, рассмотренных в параграфах 7.1—7.3. Альтернативно можно записать: gi (а) ~ gi (а<°>) + (а-я<0)) gi (а<°>), где а@) — первоначальная оценка а. Тогда можно ожидать, что а, которое представляет собой приближенное значение минимума F (а), будет получено в результате минимизации выражения ? [gi(^°>L-(a где </;=--Ыя@)), *, =? Положим аA) = а@) + Ла@) в качестве следующего приближения а. В результате получаем итеративную схему, при которой на каждой итерации осуществляется решение задачи наименьших квадратов. При этом должна проверяться возможность того, что последовательность итераций сходится к некоторому локальному минимуму F (а). В многомерном случае а будет замещаться вектором а, элементы которого и следует определить. Специальный случай, когда g (а) является линейной функцией вектора а, с формальной точки зрения идентичен проблеме оценивания обобщенной линейной модели, для которой предполагается, что значения зависимой переменной имеют нормальное распределение (см. параграф 7.9). Проблемы, связанные с применением нелинейного метода наименьших квадратов, обсуждаются в [62] *. Там же даются ссылки на реализованную на Фортране программу алгоритма, описанную в статье, которая опубликована в том же номере журнала. 7.5. РЕШЕНИЕ СИСТЕМЫ НЕЛИНЕЙНЫХ УРАВНЕНИЙ: ПРИМЕР Модель Бредли — Терри широко применяется при анализе данных, получаемых в экспериментах по определению вкусовых предпочтений в ситуациях, когда каждый участник экспертной группы обязан сравнить только два способа обработки пищевых продуктов. Анализ подобного примера может служить хорошим введением к обсуждению методов одновременного решения системы нелинейных уравнений. В этом параграфе будет продемонстрировано получение соответствующей модели, на базе которой строятся уравнения функции максимального правдоподобия, которые затем могут быть решены с помощью простой итеративной процедуры. В параграфе 7.6 аналогичный подход используется для оценки теоретических значений в логлинейных моделях. Подгонка обоих типов моделей может осуществляться либо с помощью метода Ньютона — Рафсона (см. параграф 7.8) решения систем нелиней- 1 См. также работы [231, 234, 236, 237, 242]. — Примеч. ред. 213
ных уравнений, либо при представлении их в виде обобщенных линейных моделей, определение которых приведено в работе [167]. В параграфах 7.9 и 7.10 излагается теория обобщенных линейных моделей. Эксперимент по определению вкусовых предпочтений. Рассмотрим результаты следующего эксперимента. Сравниваются четыре сорта некоторого фрукта, различия которых определяются k = 4 способами их хранения. Обозначим эти четыре сорта через Л, В, С и D. Каждому участнику экспертной группы было предложено попробовать два из четырех сортов фрукта. Среди прочих заданий нужно было определить, какой из сортов кажется более твердым на вкус. Каждое из шести возможных сравнений было повторено п = 10 раз. Полученные результаты приводятся ниже: А твердые В » С » D » Сравниваются с А 9 9 10 в 1 7 7 с 1 3 4 D 0 (раз из 10) 3 » 6 » — » Обозначим через vo- число случаев (из /г), при которых /-йсорт предпочитался /-му сорту. Обозначим через at «оценку» i-ro сорта, представляющего собой сумму всех сравнений, в которые входит /-й сорт (из общего числа п (k — 1) сравнений), когда он предпочитался одной из возможных альтернатив. Так, в таблице аг = 2, а2 = 15 (= 9 + 3 + 3), а, = 22, а4 = 21. Модель Бредли — Терри. В модели Бредли — Терри предполагается, что /-й сорт фрукта имеет некоторую общую вероятность предпочтения я,-, такую, что при сравнении t-го и /-го сортов вероятность того, что /-й сорт будет предпочтен /-му, равна E.1) Определим теперь logit (ntj) - log (л,/яу) = log (щ) — log (sij) = pi— pj. Значения pt единственны в классе аддитивных сдвигов по всем k параметрам. Использование в качестве параметров pt вместо щ приводит к аддитивной форме представления предпочтений. Функция правдоподобия ? является произведением биноминальных вероятностей для (*) пар сравнений, образующих матрицу предпочтений. Она имеет вид: к/ 214
где С не содержит неизвестных параметров. Отметим, что п — v^ (при i<C j) в первом выражении заменяется на vtj во втором выражении. Возьмем логарифм, тогда с учетом E.1) log / = 2 fl« log (щ) — 2 vy log (щ + nj) + С*, где С* не содержит неизвестных параметров. Дифференцируя по ль получаем уравнения, определяющие оценки максимального правдоподобия Pi параметров я,-; = 0, /=!,...,?, E.2) где знак Е' обозначает операции суммирования по всем / Ф L Таким образом, для каждого i = I, ...%k /?*--= -^ E.3) Первоначальные значения оценок рг должны задаваться исследователем; например, их можно взять равными кг1. Новый набор pt получается, если знак равенства в E.3) будет рассматриваться в качестве оператора присвоения для последовательных значений i = 1, ..., k. При проведении последующих вычислений вместо текущего значения используется вновь рассчитанный показатель pt. Весь цикл вычислений повторяется до тех пор, пока итеративный процесс не сойдется. При желании в конце каждой итерации значения р% масштабируются таким образом, чтобы их сумма равнялась 1,0. Для гримера, приведенного в начале этого параграфа, последовательность итераций следующая: р(!A) = 0,25 0,042 0,024 0,022 0,021 0,021 0,021 0,021 0,020 р^0) = 0,25 0,252 0,221 0,201 0,190 0,183 0,180 0,177 0,176 р^О) = О,25 0,358 0,389 0,404 0,413 0,419 0,422 0,425 0,427 /Д0) = 0,25 0,348 0,367 0,373 0,376 0,377 0,377 0,377 0,377 О. Дикегра предложил процедуру подбора более удачных значений начальных приближений [56]. Оценки дисперсий и ковариаций могут быть получены с помощью формул определения асимптотических оценок максимального правдоподобия, приведенных в параграфе 7.8. Чтобы воспользоваться ими, не- 215
обходимо выразить одно из значений piy например pft, через другие значения этого показателя. Тогда значения дисперсий и ковариаций получаются в результате обращения матрицы размерности (k— 1)Х X(k — 1), элемент (/, у) которой равняется d2L/dpt dpjt где L = log ? — логарифм функции максимального правдоподобия. На практике более важным может быть расчет дисперсий и ковариаций для 'разностей между характеристиками способов хранения пищевых продуктов. Масштаб измерения, выбранный для показателей Ри как будет показано, не обязательно является наиболее подходящим для осуществления данной цели. Расчет дисперсий и ковариаций позволит использовать /-критерий, возможно, модифицированный таким образом, чтобы показатель ошибки первого рода при выбранном уровне значимости (обычно равном 5%) мог использоваться для сравнения каждой пары значений, характеризующих способы хранения пищевых продуктов. Более подробно обсуждение вопросов исследования моделей Бред- ли — Терри читатель найдет в работе [78]. Когда можно воспользоваться упрощенной схемой. Оценки piy получаемые с помощью E.3), интуитивно представляются нам достаточно привлекательными обобщающими характеристиками результатов эксперимента. Однако если каждое сравнение повторяется одинаковое число раз, лучше всего их основывать непосредственно на оценках at. Дело в том, что, как показано в работе 156], at меньше a,j тогда и только тогда, когда рг меньше pj. Кроме того, стандартная ошибка разности uj—аи в предположении об отсутствии различий между режимами проведения эксперимента, асимптотически стремится к \^(nkl2). 7.6. ИТЕРАТИВНОЕ ПРОПОРЦИОНАЛЬНОЕ МАСШТАБИРОВАНИЕ: ЛОГЛИНЕИНЫЕ МОДЕЛИ В данном параграфе будет продемонстрировано применение метода итеративного пропорционального масштабирования при оценивании параметров логлинейных моделей. Для иллюстрации изучаемого подхода вполне можно обойтись рассмотрением двухфакторной таблицы, хотя проводимые в этом случае расчеты могут показаться тривиальными. Переход к оценке моделей для трехфакторных (и более высоких порядков) таблиц, когда отыскиваемые значения не всегда могут быть представлены в аналитическом виде, осуществляется тогда достаточно просто. Второй пример, приведенный в процессе рассмотрения трехфакторных таблиц, как раз и представляет собой такой тип модели, при котором подбираемые значения представлены не в аналитическом виде, а цикл вычислений повторяется до тех пор, пока не достигнута приемлема*? степень точности. Двухфакторная таблица. В работе Р. О. Мюррея [161] представлены выборки данных о деформации бедра, полученные при рентгенографическом обследовании трех групп юношей в возрасте 17—21 лет. Это 216
исследование проводилось с целью выяснить, имеет ли под собой почву предположение, что высокая физическая активность способствует деформации бедра. Выборка А была извлечена из совокупности учеников сельской частной школы-интерната, где большое внимание уделялось занятиям спортом. В выборке В были представлены ученики городской школы, где предпочтение отдавалось повышению уровня интеллектуального развития воспитанников. Выборка С состояла из детей рабочих; все они посещали государственные школы, в которых на уроках физкультуры учащиеся занимались в основном различными играми. Полученные результаты сведены в таблицу: Выборка А (спортсмены) Выборка В (интеллектуалы) Выборка С (дети рабочих) Всего Деформация бедра имеется 23 7 12 42 отсутствует 71 70 68 209 Всего 94 77 80 251 Все, кто проходил курс элементарной статистики, вероятно, знакомы с критерием х-квадрат, который может быть использован в данном случае для проверки гипотезы о влиянии типа школы (i = 1, 2, 3) на наличие или отсутствие деформации бедра (/=1,2). Этот критерий предполагает, что представленные в каждой выборке ученики (строка) независимым образом попадают в тот или иной столбец таблицы. Подобное предположение, учитывая характер представленных в таблице данных, вполне может быть подвергнуто сомнению. Этот момент должен учитываться впоследствии при анализе результатов вычислений. Предположение о независимости строк и столбцов таблицы означает исключение из логлинейной модели элемента, характеризующего эффект взаимодействия. Рассмотрим вначале знакомую нам мультипликативную форму этой модели. Если пи — вероятность того, что ученик, представленный в t-й строке, попадет в /-й столбец, то принятая нами гипотеза означает, что nu = niaiij, i=-1,2, 3, /==1,2 F.1) для соответствующих значений nt и я у. Итеративное пропорциональное масштабирование представляет собой лишь немногим более сложную процедуру расчетов по сравнению со стандартными методами оценивания таблицы для рассмотренной выше модели, изучаемыми в элементарном курсе статистики. Надеемся, что читатель, познакомившийся с таким способом применения алгоритма итеративного пропорционального масштабирования, будет хорошо представлять себе возможности его 217
использования и в более сложных моделях многофакторного анализа. Пусть оцениваемое значение из клетки (/, /) таблицы равно /л*;-. Тогда log ("Ну) = log (Nptj) =\ogN + log (рг,) -{- log (p.,), F.2) где pim и р j представляют собой оценки максимального правдоподобия пг и п j соответственно. Уравнение F.2) формально является идентичным уравнению, определяющему оцениваемые значения в терминах оценок параметров, получаемых в двухфакторной модели дисперсионного анализа. (Отметим, однако, что оцениваемые линейные параметры не удовлетворяют здесь какому-либо из обычных условий идентифицируемости.) Несмотря на то, что зависимая переменная не нормально распределена, уравнение F.2) вселяет надежду на то, что хотя бы некоторые из фактов теории классического дисперсионного анализа остаются верными и в данном исследовании. С помощью широко распространенных в настоящее время обозначений показателей многофакторных таблиц можно переписать F.2) в виде Uii=\og(mu) = u + u1{i)+ui2}U). F.3) Как обычно, считаем, что параметры удовлетворяют сигма-условиям дисперсионного анализа: S"ki>= i>2; = 0, F.4) где для нашего примера / = 3 и J = 2. Алгоритм итеративного пропорционального масштабирования работает с частотами показателей клеток таблицы, преобразованных в соответствии с F.1). В этом он отличается от метода обобщенной линейной модели Дж. Нелдера и Р. Уэддербёрна (см. параграфы 7.7, 7.9 и 7.10), который работает с линеаризированной формой модели, определяемой F.2) и F.3). Модель отсутствия взаимосвязи F.3) определяет параметры, соответствующие итоговым показателям строк и столбцов таблицы. Пусть тг+ представляет собой сумму оцениваемых значений т^ и пусть щ+ является суммой фактических значений ntj, представленных в i'-й строке. Суммарные показатели оцениваемых и фактических значений каждого столбца аналогичным образом определяются, как m+j и п+$ соответственно. Можно показать, что оценки максимального правдоподобия рассматриваемых параметров таковы, что i=*l, 2, 3, /= 1, 2, если дополнительно выполняется условие, что log (m^) выражается, как и в уравнении F.3), через и, u1(i) и ы2(Л. Реализация алгоритма итеративного пропорционального масштабирования начинается с того, что все показатели mty таблицы приравниваются 1,0 или подбираются таким образом, чтобы и\у = log (m\f) 218
имело вид, определяемый F.3). С помощью поочередного использования итоговых показателей элементы таблицы mfy масштабируются таким образом, чтобы итоговые показатели оцениваемых и фактических значений оказались одинаковыми. Как будет показано, в рассматриваемом нами простом случае необходимо всего лишь промасштабировать первые элементы каждой строки, а затем элементы каждого столбца в соответствии с описанной процедурой. Этот алгоритм легко обобщается и на сложные ситуации, когда имеется три или более наборов итоговых показателей, в разрезе которых оцениваемые значения должны соответствовать фактическим. В контексте многофакторных таблиц уравнение F.3) определяет основную модель, в которой расчеты сходятся после одного цикла вычислений. В общем случае, если при масштабировании какого-либо значения показателя таблицы нарушаются соответствующие взаимосвязи в других наборах итоговых показателей таблицы, цикл вычислений должен повторяться до.тех пор, пока итеративный процесс не сойдется. Чтобы дать какое-либо разумное объяснение этому алгоритму заметим, что если равенство имеет вид, определяемый F.3), то выполняется также и равенство и\Г =«},-> + log («}+>) —log (mJ+O- То же верно и для масштабирования, используемого для корректировки /-го набора итоговых показателей. Расчет по двухфакторной таблице: два примера. Возьмем две двух- факторные таблицы, одна из которых содержит гипотетические данные, подобранные так, чтобы облегчить выполнение арифметических операций, а другая — данные о деформации бедра у юношей. Гипотетические данные (итоговые показатели заключены в скобки) имеют следующий вид: i=\ i — 2 i = 3 Всего /=i 6 5 9 B0) 1=2 8 15 7 C0) Всего A4) B0) A6) E0) В представленных в табл. 7.2 расчетах набор рассматриваемых в данный момент итоговых показателей, заключенных в скобки, относится к фактическим данным. После них приводятся соответствующие наборы итоговых показателей рассматриваемых в данный момент оцениваемых значений. 219
Таблица 7.2. Применение метода итеративного пропорционального масштабирования для нахождения теоретических значений показателей двухфакторных таблиц (предполагается отсутствие зависимости между строками и столбцами таблицы) 1 1 1 (, 10 8 B0) 25 Гипотетическж 1 1 1 \ 10 8 C0) 25 | [20/25] 5,6 8,0 6,4 8 12 9 A4J B0J A6J [30/25] ,4 ,0 ,6 ? данные [14/2=7] [20/2=10] [16/2-8] A4) 14 B0) 20 A6) 16 ,0 ,0 ,0 1 1 1 47 38,5 40 D2) 125,5 Пример 1 1 1 47* 38,5 40 B09) 125,5 + [42/125,5] 15 12 13 83 88 39 с деформацией бедра (94) 2 [94/2 = 47] G7JG7/2 = 38,5] (80) 2 [80/2 = 40] \[209/125,5] 78,27 64,12 66,61 (94)94, G7O7, (80)80, 00 00 00 Замечание. Указывается только тот набор итоговых показателей, который используется для преобразования показателей текущей версии таблицы. В круглых скобках приводятся фактические значения итоговых показателей, в квадратных — значения множителей, полученных для соответствующих строк таблицы. По оцененным значениям табл. 7.2 легко рассчитываются параметры уравнения F.3), удовлетворяющие обычным сигма-условиям дисперсионного анализа. Так, и = и.., u1{i) = uL — u..,u2U)^Uj—u... F.5) Дополнительно при желании можно рассчитать и мультипликативные варианты этих оценок параметров t -= ехр (и,.), t1(i) = ехр (м1@), tMj) = ехр (ы2(Я). Рассмотрим оценки параметров, соответствующие набору итоговых показателей i. Если логлинейные параметры подбираются так, что их сумма равняется нулю, то при использовании мультипликативных версий предусматривается, что их произведение должно равняться 1,0. То же справедливо и для набора показателей /'. Проверка модели на адекватность может осуществляться с помощью стандартной статистики Пирсона %-квадрат. Она равняется сумме по всем клеткам величин (пц — — niijJ/mij. Альтернативный показатель, применяемый в теории метода максимального правдоподобия, известен как G2 или (используя обозначения в обобщенной линейной модели Нелдера и Уэддербёрна) показа- 220
тель D. Этот показатель равняется удвоенной величине, на которую уменьшается логарифм функции правдоподобия по сравнению с аналогичной функцией полной модели, в которой имеется по одному параметру на каждую клетку таблицы, умноженному на масштабирующий множитель ф. Для логлинейных моделей, в которых предполагается, что исследуемые значения независимым образом попадают в клетки любой строки таблицы, этот множитель равен 1. Значение D рассчитывается посредством суммирования величин 2 я,7- log (пц1тг}) по всем клеткам таблицы. Если ntj не слишком сильно отличается от т^, то значения статистики х-квадрат значения показателей D или G2 будут приблизительно одинаковыми. В примере с деформацией бедра у юношей статистика х-квадрат равняется 7,5, а значение D равно 7,7. В любом случае эти величины следует сравнивать с критическим значением статистики х-квадрат с двумя степенями свободы. Здесь необходимо предупредить читателя: если значения наблюдений не являются независимыми, выводы, которые могут быть сделаны на основании любой из этих статистик, будут сомнительными. Так, в примере с деформацией бедра у юношей почти наверняка имеют место случаи, когда в одной и той же строке отражаются значения наблюдений, характеризующие родных братьев. Поскольку можно ожидать, что у братьев будет проявляться одинаковая предрасположенность (или отсутствие ее) к деформации бедра, весьма вероятно, что соответствующие им значения попадут также в один и тот же столбец таблицы. Это можно проиллюстрировать, взяв в качестве примера крайний случай, когда в каждой из рассматриваемых семей имеется по два брата. Если братья всегда попадают в один и тот же столбец таблицы, то единицей наблюдений будет пара братьев. Учет одного из братьев как независимой единицы наблюдений приведет к удвоению каждого значения яг-у по сравнению с тем, каким ему следовало бы быть при независимости исходных данных. Тогда и статистика х-квадрат и показатель D также окажутся завышенными в два раза. Трехфакторная таблица. Рассмотрим теперь трехфакторную таблицу с условными данными. Представленные в ней числа подобраны так, чтобы можно было продемонстрировать возможную неправильную интерпретацию данных в случаях, когда трехфакторная таблица приводится к двухфакторному виду. Группы людей (мужчин или женщин) классифицируются по следующим признакам: любители овсяной каши (Р) и прочие (NP), лунатики (SW) и прочие (NSW): Мужчины (k— 1) SW NSW Р 4 21 NP 16 59 B0) (80) B5) G5) Женщины {k= 2) SW NSW 34 14 26 6 F0) B0) D8) C2) Сумма по k 07 + итоговые показатели) C8) C5) D2) F5) 221
Из этой таблицы можно сделать вывод о наличии сильной взаимосвязи между признаками «пол» и «любители овсянки», а также между признаками «пол» и вхождение во сне». В обоих случаях мужчины в значительной степени, чем женщины, являются носителями указанных характеристик. Для каждого k = 1 и k = 2 значения отношений итоговых показателей P:NP и SW: NSW слегка отличаются от соответствующих им значений показателей основной части таблиц. Итоговые показатели ik (суммарные значения ni+h) равняются: B5) D8) G5) C2) Соответственно-итоговые показатели jk (суммарные значения n+jh) равняются: <20) (80) F0) B0) Приведенные в правой части таблицы итоговые показатели ij свидетельствуют в свою очередь о том, что между положительным отношением к овсяной каше и хождением во сне имеется очевидная взаимосвязь, являющаяся следствием наличия взаимосвязи между включением в пищевой рацион овсяной каши и полом, а также хождением во сне и полом. Теоретическая модель для этого примера имеет вид: mi+k=-ni+hf i, Л = 1,2, F.6) m+th=n+jh, j, *=1,2. F.7) Логарифмы (оцененных значений) и,цк представим в виде суммы: uijh = И + Н1 (/) + М2(/) + Us(k) +U\2(ik) + И23(/Л). Эти значения могут быть определены с помощью раздельной оценки показателей двухфакторных таблиц для k = 1 и k = 2. Отметим, кстати, что подгонка итоговых показателей ik в данном случае приводит и к подгонке итоговых показателей ink. Тогда подгонка итоговых показателей jk ведет также к подгонке итоговых показателей /. Для изучения более сложного примера вычислений рассмотрим модель, включающую все эффекты взаимодействий первого порядка. В дополнение к условиям F.6) и F.7) введем еще такое условие: mij+ = nij+y i,/=1,2. F.8) Для такой модели Как и в предыдущем случае, в каждую клетку таблицы запишем вначале 1,0. Первый цикл вычислений представлен в табл. 7.3. Вначале корректируются итоговые показатели jk, затем итоговые показатели ik, да- 222
Таблица 7.3. Использование метода итеративного пропорционального масштабирования для расчета теоретических значений трехфакторной таблицы 1 1 B0) 2 j xio,o 10 10 5 15 \ 4,63 16,15 B0) 20,78 1 1 (80) 2 1 40 40 I 20 60 1 21,87 57,35 (80) 79,22 1 1 F0) 2 X40,0 \ X3O,O B5M0,0 30 G5M0,0 30 I 36 24 1 33,27 25,85 F0) 59,22 1 1 B0) 2 | XlO,O 10 10 \ 12 8 13,13 7,65 B0) 20,79 [20/2 = 10,0; D8) C2) 80/2 = 40,0 и 40,0 40,0 C8L1 D2K9 т. д. C5K2 F5N8 Замечание. Показан первый цикл вычислений. Вначале корректируются итоговые показатели jkf затем итоговые по- казатели ik, далее итоговые показатели '//. Данный цикл вычислений должен быть повторен несколько раз.
лее итоговые показатели ij. Данный цикл вычислений должен быть повторен несколько раз. Расчеты, проводимые по схеме, представленной в табл. 7.3, следует повторять до тех пор, пока не будет получена достаточная степень сходимости. Для расчета оцениваемых значений с точностью до одного десятичного знака потребовалось шесть циклов вычислений: 3,7 21,3 16,3 58,7 34,3 13,7 25,7 6,3 Мы предоставляем читателю рассчитать оценки логлинейных параметров, а также мультипликативные их эквиваленты с помощью подхода, основанного на уравнении F.5). Проверка адекватности модели и оценка дисперсий. И статистика G2, и статистика х-квадрат очевидным образом обобщаются на случай их использования в трехфакторных таблицах и в таблицах более высокого порядка. В только что проведенном анализе при желании можно было бы проверить, имеются ли достаточно весомые основания для исключения элемента u12uj) из модели, включающей все эффекты взаимодействий первого порядка. Для модели, включающей все эффекты взаимодействий первого порядка jk, iky ij\ с одной степенью свободы значение статистики G2 равняется 0,062, а для модели, из которой опущено взаимодействие ij, со степенью свободы, равной 2, значение статистики составляет 1,44. Число степеней свободы рассчитывается так же, как в соответствующей модели дисперсионного анализа. Методы расчета оценок дисперсий обсуждаются в работах [28] и 179]. Если модель не является прямой, т. е. моделью, в которой алгоритм итеративного пропорционального масштабирования теоретически сходится за конечное число шагов, то для расчета оценок дисперсий и ко- вариаций лучше использовать метод наименьших квадратов с итеративно изменяющимися весами. В предложенных Нелдером и Уэддербёрном обобщенных линейных моделях метод наименьших квадратов с итеративно изменяющимися весами применяется к исследованию частного класса проблем, к которому относятся и логлинейные модели. Данный метод расчета оценок параметров логлинейных моделей «работает» гораздо медленнее и требует больше места для хранения массивов данных в отличие от алгоритма итеративного пропорционального масштабирования. Поэтому для предварительного отбора наиболее интересных версий альтернативных моделей и, возможно, для получения первоначальных оценок их параметров имеет смысл применять метод итеративного пропорционального масштабирования, а на заключительном этапе расчетов для получения оценок дисперсий и ковариаций прибегнуть к методу наименьших квадратов с итеративно изменяющимися весами. 224
7.7*. ЛОГЛИНЕЙНЫЕ МОДЕЛИ: ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ Логлинейные модели возникают различным образом. Приведем один из таких примеров, имеющий, однако, слабое отношение к рассматривавшимся до сих пор многофакторным таблицам. Описание моделей начнем с некоторых теоретических положений. Пример простой линейной модели с пуассоновским распределением ошибок. Ожидаемое число Xt самцов мотыльков (вида Sceliodes cor- dalis), пойманных с помощью феромона (здесь — гормона, выделяемого самками для привлечения самцов) через интервалы времени U после их освобождения, в первом приближении описывается моделью r\i = a+$tu G.1) где r\t = log (Хг). Ниже приводятся данные, полученные в одном экспериментальном исследовании: Время, Число ti (ДНИ) мотыльков, ni 1 17 2 8 3 2 4 2 5 4 6 0 В первом приближении предполагается, что фактически наблюдаемые значения nt во время tt имеют пуассоновское распределение со средней Xj. В действительности можно ожидать, что наблюдаемое значение в данный момент времени будет оказывать влияние на средний уровень наблюдаемого показателя в следующий момент времени. Тем не менее в этом случае модель, в которой предполагается независимость ошибок, имеющих пуассоновское распределение, дает адекватное описание фактических данных. Расчет для этого примера с помощью метода Ньютона — Рафсона приведен в следующем параграфе. Эквивалентность гипотез относительно пуассоновского и полиномиального распределений. Может показаться удивительным, но с точки зрения асимптотического распределения для оценок, базирующихся на функции правдоподобия, безразлично, является ли объединенное распределение значений пг (i = 1, 2,..., 6) из только рассмотренного примера распределением, состоящим из шести независимых пуассонов- ских распределений, соответствующих шести категориям наблюдений, или же оно представляет собой полиномиальное распределение с суммарным значением N = 17 + 8+2+2+4+0 = 33. Оценки дисперсий и ковариаций больших выборок, основывающиеся на асимптотических распределениях, в обоих случаях оказываются одинаковыми. Несколько более сложной будет ситуация, когда при проведении анализа предполагается, что распределение ошибок является пуассоновским, в то время как рассматриваемая модель имеет полиномиальное распределение. В этом случае дисперсии и ковариаций, соответствующие суммарному значению N, не должны приниматься во внимание. Отмеченная эквивалентность сохранится, если используемая логлинейная модель 8 Зак. 1078 225
включает постоянный свободный член (такой, как а в G.1)). Это гарантирует, что Это представляет собой сумму ожидаемых значений полиномиального распределения. Таким образом, порядок работы с моделями, имеющими пуассоновское распределение ошибок, с небольшими модификациями переносится на более широкий класс логлинейных моделей, имеющих полиномиальное распределение ошибок. Что касается многофакторных таблиц, то здесь можно отметить, что каждому фиксированному итоговому показателю будет соответствовать одно фиксированное суммарное значение полиномиального распределения. В примере с любителями овсянки и лунатиками фиксированным итоговым показателем является показатель, соответствующий признаку пола. В данном случае имеется два полиномиальных распределения, по одному для мужчин и для женщин, в каждом из которых выделяется четыре категории наблюдений. Рассматриваемая модель должна включать один параметр для каждого такого фиксированного итогового показателя. В наиболее простом случае (а только он и обсуждается здесь) фиксированные итоговые показатели не перекрывают друг друга. Анализ, предполагающий пуассоновское распределение ошибок по всем клеткам таблицы, будет полностью эквивалентен анализу, в котором делаются предположения о полиномиальном характере соответствующих распределений. Более подробно эти вопросы обсуждаются в работах [98] и [173]. Логарифм функции правдоподобия для модели с пуассоновским распределением ошибок. Предположим, что yt (i = 1, ..., п) независимы и подчиняются пуассоновскому распределению со средними kit определяемыми логлинейной моделью, параметры которой следует оценить. Оценки параметров подбираются таким образом, чтобы максимизировался логарифм функции правдоподобия. Эту функцию можно записать таким образом: L = S у г log К - S Хг -!- S с {уд, G.2) / / i где с (•) —соответствующим образом подобранная функция. Максимум L по всем возможным моделям определяется полной моделью, где h или log (к() — параметры, оценки которых следует определить. Для этой модели оценка^- равняется %t — yt (i — 1, ..., п) и 1=2ы<«у|-2у,+2с(й). G-3) i i i Пусть Xt является оценкой Xt рассматриваемой версии модели. Обозначим через L логарифм функции этой модели. Статистика, соответствующая остаточной сумме квадратов в модели с нормальным распределе- 226
нием ошибок, представляет собой статистику G2, упоминавшуюся в параграфе 7.6. Более подробно она будет рассмотрена в параграфе 7.9. В данном случае предполагаем, что в исследуемой модели 2 fa =¦ 2/*/* = = 7V, статистикаG2равняется —2cp(L— L)=2 ^,yt log [-^- |, где ф ^1. V % ) В такой модели статистика G2 асимптотически следует распределению ^-квадрат с числом степеней свободы, равным п — q, где q — количество параметров, которые следует оценить. Сравнение с моделью, имеющей нормальное распределение ошибок. Статистика G2 для модели, в которой уг независимы и следуют нормальному распределению со средней \it и дисперсией а2, определяется как 9() (^^) где ф = а2. В этом случае статистика представляет собой хорошо знакомую нам сумму квадратов. Отметим, что G2 определена таким образом, чтобы не зависеть от неизвестного масштаба измерения параметра ф. Обычная оценка ф равняется s2 = G2/(n — q)y где, как и раньше, q характеризует число оцениваемых параметров. Такой способ оценивания основывается на соображениях, уже не связанных с принципом максимального правдоподобия. 7.8*. МЕТОД НЬЮТОНА —РАФСОНА ДЛЯ НЕСКОЛЬКИХ НЕИЗВЕСТНЫХ В предположении о пуассоновском распределении ошибок логарифм функции правдоподобия для простой модели роста, приведенной в параграфе 7.7, выглядит так: где с* не содержит неизвестных параметров, a log (kt) — а + р/ь i = = 1, 2, 3 (см. табл. 7.4 в следующем параграфе). Подставляя а вместо а и b вместо Р и поочередно приравнивая нулю частные производные функции L по а и Ь, получаем (производная по а обозначена через /0, производная по b — через /х): /0 =iL==_yjL;i.v/Z|==o//1=— = - где Xt = ехр (а + b/г). Метод Ньютона — Рафсона позволяет решать подобные системы нелинейных уравнений. Метод Ньютона—Рафсона. Пусть b представляет собой вектор оценок параметров, которые должны быть определены, и предположим, что следует решить систему уравнений Д- = 0, где ft = ftb. В настоящей книге наиболее интересны примеры, подобные только что рассмотренному, где ft — частная производная логарифма функции правдоподобия по /-му параметру. Пусть f — f (b) — вектор, i'-й элемент которого *>* 227
равен /,-, и пусть J = J(b) — матрица, (i-f /)-й элемент Jtj которой является частной производной ft по /-му параметру, т. е. по /-й координате вектора Ь. Расчеты осуществляются с помощью следующей итеративной процедуры. Предположим, что после осуществления jfe-го шага получается приближение Ь(*> к вектору Ь, такое, что f (b) = 0. Обозначим Т<*> =Т(Ь<*>) и j<*)=J(b<*>). Линейная аппроксимация функции f при разложении ее в ряд Тейлора в окрестности f <*> тогда может быть представлена следующим образом: F^f<*>+J<*>(b—Ь<*>). (8.1) Положим Т = 0, получаем _1(*)ДЫ*) ~F<*>, (8.2) где ДЬ(*> = Б — Ы*>. При условии, что вектор b достаточно близок к Ь<*>, и принимая Ь<*+1) = Ь<*Ч-ДЬ<*>, (8.3) получим более точное значение приближения. Так, для рассмотренного в начале параграфа примера имеем: Оценки дисперсий и ковариаций для оценок максимального правдоподобия. В последующем изложении предполагается, что Т является вектором первых частных производных функций правдоподобия. Тогда J представляет собой матрицу вторых частных производных, иа- вестную также под названием «гессиан». Исследование асимптотических свойств оценок максимального правдоподобия позволяет сделать вывод, что при выполнении условий регулярности элементы — J-1 характеризуют собой асимптотические оценки дисперсий и ковариаций. Все расчеты удобно проводить в следующем порядке. Вначале определяется матрица Холецкого Т, такая, что Т'Т =— J, затем рассчитывается Т, после этого находится — J. Удачное определение матрицы Т, все диагональные элементы которой отличны от нуля, позволяет установить, что матрица — J является положительно определенной и, следовательно, полученное итеративное решение уравнений методом Ньютона— Рафсона представляет собой по крайней мере локальный минимум. 228
Для этой же цели в качестве альтернативы могут быть использованы элементы D™1, где D(b) = ?[f(b)f(b)'], (8.4) оцененные на основе оценок максимального правдоподобия Ь. Кроме того, (8.2) может быть заменено на что эквивалентно замене вторых частных производных в (8.2) их ожидаемыми значениями. В общем случае, однако, это может оказаться рискованным. Если модель недостаточно хорошо отражает фактические данные, D(*> может существенно отличаться от J(*>, и итеративный процесс в этом случае не будет сходиться. Условия применения асимптотических оценок максимального правдоподобия обсуждаются в работе [49, параграф 9.1]. Особую осторожность следует проявлять в случае, если один из оцениваемых параметров используется при нахождении границ области определения параметров. В настоящее время не получено еще каких-либо общих результатов, с помощью которых можно было бы определить качество адекватности асимптотической аппроксимации в тех или иных частных случаях, и поэтому полученные здесь оценки дисперсий следует интерпретировать лишь как ориентировочные. Пример расчетов. В примере с поимкой мотыльков из параграфа 7.7 начальные значения соответствующих оценок параметров удобнее всего получить с помощью линейной парной регрессии log (пг) на tt. С этой целью вместо начального значения /ie=0 в расчетах используется 0.51. В результате получаем первоначальные значения: <°) = 3,136, Ь@> = — 0,5632. На первом шаге расчетов имеем: U 12 3 4 5 6 .782240 B/< = 33) 2,573 2,010 1,446 0,883 0,320 —0,243 (о)__ 13,102 7,460 4,248 2,419 1,377 0,784 (?' -29,3 0) Тогда f\o) = j*L _ _ у Я(о> + у Пг =з3— 29,390 = 3,610, да 4. f УХ}*«+2М* = 67-62,031 =4,969, db "F 1 Дело в том, что в расчете регрессии используются логарифмы соответствующих значений. — Примеч. пер. 229
а также -C=SM0)--= 29,390, i —-/№= 2 <«*.}•' =62,031, — ./№ =Stf Mo) = 182,527. Решая затем уравнение — ,/<°) ДЬ<°) = Г<°>, получаем дь<°> = [ °«231 [ 51 — 0,0514 Таким образом, а<" = 3,136 +0,231 =3,367; 6<и= —0,5632—0,0514= —0,6146; на следующей итерации имеем а<2> = 3,367—0,017 =3,350; &<2> = —0,6146 + 0,0039 = —0,6107. После третьей итерации получаем а<»> = 3,350 + 0,00004; 6<3> = —0,6107 + 0,00007. Полученные результаты имеют точность по крайней мере в три значащих цифры после запятой. Кроме того, матрица -J=[33 67 1 [67 189,69 J имеет разложение Холецкого -_ Г 5,745 11,6631 y-i-[0'1741 — °»27721 ~ [0 7,325 J C "[0 0,1365) Тот факт, что оказалось возможным сформировать матрицу Т^с положительными диагональными элементами, означает, что — J является положительно определенной матрицей, и, следовательно, полученные значения параметров определяют по крайней мере локальный максимум. Поскольку легко показать, что функция правдоподобия выпукла, искомый максимум является глобальным. Тогда 0,107 -0,0378] — 0,0378 0,0186J Таким образом, СО (стандартная ошибка) (а) ~ 0,33, СО (b) ex. 0,14. Для рассмотренного примера предположение о независимости ошибок представляется сомнительным. Поимка мотылька в один момент времени, очевидно, уменьшает число особей, которые потенциально могут быть отловлены в следующий момент времени. 230
Модификации метода Ньютона. В методике Ньютона—Рафсона сходимость гарантируется, только если первоначальное приближение оказалось достаточно хорошим. В общем случае сходимость будет гарантироваться для широкого класса функций, если (8.3) заменить на (8.6) где б подбирается таким образом, чтобы совокупность значений (f(*>)' Г(Л) образовывала строго монотонную убывающую последовательность. Более подробно этот подход излагается в работе [204, параграф 5.4]. При решении многих практических задач итеративно осуществляющаяся переоценка элементов матрицы J<*> частных производных оказывается с вычислительной точки зрения слишком дорогостоящей. Существуют методы, в которых вместо матрицы J<*> используется достаточно простая ее аппроксимация. Однако и здесь требуется подбор такого б в (8.6), при котором гарантировалась бы сходимость итеративного процесса. Например, в дельта-методе матрица J(*> оценивается следующим образом: где в векторе ег- на f-й позиции расположена-единица, а остальные элементы равняются нулю. Подбор б, при котором обеспечивалось бы хорошее приближение к соответствующим значениям частных производных, — достаточно сложная процедура. Число итераций в вычислениях может быть дополнительно уменьшено с помощью определения адекватной аппроксимации Jr*> на базе J**-1). В работе [204] обсуждается предложенный Бройденом метод, в котором J<*> рассчитывается на базе J(k~~l> с помощью простой процедуры адаптирования. Компьютерные программы. Написание компьютерных программ решения систем нелинейных уравнений общего вида — задача, которая может оказаться по силам только высококвалифицированному специалисту. Всем, кто имеет доступ к публикациям группы по численным алгоритмам или к Международной библиотеке математических и статистических программ, мы рекомендуем начать с изучения материала, представленного в [120] и [170]. Кроме того, стоит познакомиться с последними подпрограммами, опубликованными Ассоциацией по операциям с компьютерной техникой и программным обеспечением. 7.9*. ОБОБЩЕННЫЕ ЛИНЕЙНЫЕ МОДЕЛИ Термин «обобщенные линейные модели» Дж. Нелдер и Р. Уэддер- бёрн [167] использовали для описания класса моделей, который включает логлинейные модели, а также логит- и пробит-модели, применяющиеся в количественном анализе биологических явлений. Так, рас- 231
смотренная в параграфе 7.5 модель Бредли — Терри представляет собой частный случай обобщенной линейной модели. Подход, при котором удается с позиций единой теории описать множество разнообразных моделей, обладает очевидными достоинствами. С помощью такого подхода удалось разработать пакет статистических программ на языке QLIM (см. [15]), предназначенный для обработки любой модели данного класса. При этом процедура Ньютона — Раф- сона решения уравнений максимального правдоподобия удовлетворительно зарекомендовала себя практически во всех обычно использующихся моделях. Семейство экспоненциальных распределений. В табл. 7.4 представлен общий вид логарифма функции правдоподобия для единичного наблюдения в случаях, когда это наблюдение принадлежит нормальному, биномиальному или пуассоновскому распределению: L = ф-1 [ву - d F)] + с (ф, у\ (9.1) где G — функция \л = Е (у). Распределения, для которых логарифм функции правдоподобия может быть записан в таком виде, принадлежат семейству экспоненциальных распределений. Еще одним членом этого Таблица 7.4. Общий вид и частные случаи логарифмической функции правдоподобия для отдельного наблюдения у с распределеним, принадлежащим экспоненциальному семейству распределений Общий вид Нормальное / 1 \ \ 2 / ф = а2; в ==ц; 4F) =- log/ = 0(/~/ilog(l+^) + (Ф> У) С (ф, i/) с (У* л), где 0 = log[tt/(l—л)] и п—число испытаний Бернулли Пуассоновское где 0=logp. [ф=1; d{Q) = ee] Замечание. Как и ранее, log ( ) является логарифмом с основанием е. 232
семейства, иногда встречающимся при работе с обобщенными линейными моделями, является гамма-распределение. Определение. Приведенное здесь определение в общих чертах соответствует определеннию, данному Р. Бейкером и Дж. Нелдером в работе [15] (см. также [167]). Это определение удобно разбить на две части. Таким образом, модель называется обобщенной линейной моделью, если: 1) распределение зависимой переменной у принадлежит семейству экспоненциальных распределений; 2) пусть х' = [ х0, хи ..., хр] — вектор объясняющих переменных (т. е. х'— отдельная строка матрицы X, выполняющей роль модельной матрицы), тогда ?&)-!*, (9.2) где n=g(iA)=x'p. Функцию g (•) называем функцией связи, {J — вектор оцениваемых коэффициентов и г\ — х'р— линейный предиктор. Предполагается, что функция g (•) является монотонной. Для логлинейной модели функция связи имеет вид log(-), т. е. П "— S (v) — '°g (v) = х'р. Для модели Бредли — Терри функцией связи является logit (\i/n)y т. е. ц — g (\i) = log (я/A — я)). В обоих случаях функция связи представляет собой обратную функцию к функции d' (•) из (9.1) и г\ — 9. Выбор в качестве функции связи обратной функции к d' (•) обладает тем преимуществом, что элементы Х'у являются достаточными статистиками. Выражения для средней и дисперсии у. Дифференцируя (9.1) по в, получаем iL =.-9-1^-^F)]. (9.3) Следовательно (см., например, [49]), отсюда \i — Е [у] =¦ d' F). Из (9.3) находим Тогда, поскольку (снова см. [49]), имеем 233
Далее нам потребуется приближенное выражение для var [g (у)]. Для этой цели воспользуемся формулой var [g (у)] ~ [gr (\x)]2 var [у] =ф [gf (\i)]2 -¦?-. (9.4) Получение начального приближения для оценок b параметра (J. Преобразованные значения gt = g (у,-) удовлетворяют линейной модели &=х7р+Е,. (9.5) Распределение ?г- представляет собой распределение g (yt — jxf), где известно только распределение yt. В этом случае для минимизации 2|?? или I4W&? в (9.5) может быть использован метод наименьших квадратов или, возможно, взвешенный метод наименьших квадратов. Самым безопасным на этой первоначальной стадии вычислений будет принять все значения весов wt равными 1,0. С другой стороны, wt могут быть выбраны такими, что величина wf1 окажется пропорциональной значению, полученному для var [g (yt)] в (9.4), когда |ij полагается равным yt. Максимизация логарифма функции правдоподобия. Максимизируемое выражение в данном случае имеет вид: (9.6) Частная производная 8^- — d F^) по в,- равняется yt — d! (^) = Hi — Иt- Напомним, что fy является функцией от |х^. Кроме того, \it есть функция от т]г-, поскольку функция g(>), определяющая r]f через \it, предполагается монотонной. Частная производная ср L по Р7- имеет тогда следующий вид: Заменив в этом выражении \ii на \it и r\t на r\t = g (\it) = xj Ь и приравняв его по всем / нулю, получаем (9.7) где = diag L d^t dr\l j и jut таково, что g (ц) = r\ = Xb. Процедура Ньютона— Рафсона решения уравнений правдоподобия Предположим теперь, что \к0 удовлетворяет (9.7) и имеется начальное приближение т<°> для^г. Линейная аппроксимация, основанная на 234
разложении в ряд Тейлора х\ (с элементами gt (\it) и выраженная через tj<0) (с элементами g<°> (/л,-), имеет следующий вид: (^-S@)), (9.8) где D = diag Ыу\г/с1\1г]у оцененное в точке |ы = т<°>. Положим теперь в (9.8) г\ = X Ы1), решим это уравнение относительно \i и, подставив результат в (9.7), получим Х'Т[Й@)+0(Х^1)-Ч(°)I=Х'*У- Перегруппировав элементы этого выражения, запишем его так: X'W<0)Xb(l) = X'W@)S<0), (9.9) где W@) = и вектор и() состоит из элементов i-ik диагональный элемент матрицы W<°> равняется {var [уг (Л^^)}^ (Отметим еще раз, что частные производные типа dr\i/d\ii оцениваются при текущих значениях оценок параметров.) Уравнение (9.9) представляет собой уравнение регрессии и<°> на столбцы матрицы X, где W<°>— матрица весов, оцениваемая с помощью взвешенного метода наименьших квадратов. Итерации продолжаются на основе соотношения X' Wk)Xh{k+l) =Т Wk)uik) (9.10) для k = 1,2, ... до тех пор, пока, как и предполагалось, последовательность приближений Ь<°>, Ых>, ... не сойдется кЪ. Если последовательность итераций сходится, то вектор m = ц, такой, что g (m) = X b является решением (9.7). В большинстве случаев может быть показано, что функция правдоподобия является вогнутой функцией линейных параметров и, следовательно, любое полученное решение оказывается единственным. Так, случай логарифмической связи с пуассоновским распределением ошибок рассматривается в работе [98]. В нашем случае оценки максимального правдоподобия существуют и являются единственными, если все показатели клеток таблицы отличны от нуля. Логит-мо- дели с биномиальным распределением ошибок также описываются с помощью рассмотренных теоретических положений. Более подробно эти вопросы обсуждаются в работе [167]. _ Асимптотические оценки дисперсий и ковариаций вектора Ь определяются элементами матрицы (X'WX)-1. 235
D-статистика. D-статистика определяется как — 2 ф (L — L), где L — логарифм функции правдоподобия рассматриваемой модели, I — логарифм функции правдоподобия полной модели, в которой столько оцениваемых параметров, сколько имеется наблюдений. Статистика отношения логарифмов функций правдоподобия — 2 (L — L) представляет собой промасштабированную версию ?>-статистики масштабирующим множителем. Более подробно вопросы исследования некоторых частных случаев логлинейных моделей изложены в параграфе 7.7 (в связи с обсуждением уравнений G.2) и G.3)), к которому мы и отсылаем читателя. Пример. Рассмотрим пример (число nt мотыльков, пойманных во время tt) использования метода Ньютона — Рафсона. Как и в параграфе 7.8, расчет прямолинейной регрессии log (tit) на tt (ne = 0 заменяется на 0,5) позволяет нам получить значения начальных приближений: а<°) = 3,136, ft<°) = —0,5632. Исходные данные, а также показатели, полученные на первой итерации, приводятся ниже: 2 13 3 2 1 17 ,573 ,102 ,898 ,870 2 . 7 0 2 2 8 ,010 ,460 ,540 ,082 3 2 1,446 4,248 —2,248 0,917 4 2 0,883 2,419 —0,419 0,710 5 4 0,320 1,377 2,623 2,225 —0 0 —0 j 6 0 ,243 ,784 ,784 ,243 В этом примере g (\i) — log (\i) является функцией связи, g' (\i) = = (л; вес i-го наблюдения пропорционален текущей оценке |ij; значения и\0) преобразованной зависимой переменной, представленные среди приведенных выше данных, рассчитываются по формуле С помощью регрессии u\Q) на tt с весами т\0) находим следующие значения: а<х> = 3,367, Ь<х> = — 0,6185. Расчеты на второй итерации приводят к: т|</> 2,752 2,138 1,523 0,909 0,294 -0,320 /я}1) 15,682 8,482 4,588 2,482 1,342 0,726 и/1* 2,837 2,081 0,959 0,715 2,274 —1,320 Далее определяются а<2> = 3,351, Ь<2> = — 0,6109. На третьей итерации получаем а<8> = 3,350, &<3> = — 0,6107, на базе которых вы- оценки щ 2 15 знач ,752 ,682 [ен 2 8 ИИ X\i ,138 ,482 И 1 4 т% ,523 ,588 — 0 2 V*' ,909 ,482 0 1 ,294 ,342 —0 0 ,320 ,726 236
Значение О2-статистики в этом случае равно (см. упражнение 10 в конце главы) 2 V л, log (-^-) = 6,97. *f \tm I Полагаем nelog (njme) = linwo п log (л/тв) = 0. Асимптотические оценки дисперсий и ковариаций могут быть рассчитаны на основе матрицы iti 1 = Г33'014 67>014 ,fl J [ 67, i 2/n,fl J [ 67,014 189,75 Разложение Холецкого этой матрицы имеет вид: у Г 6,746 0 11,6631 т-1 [0,174 —0,27701 7,329j' " L 0 0,1364J Значения дисперсий и ковариаций определяются элементами матрицы Т-1!'-1. Таким образом, СО (а) = 0,33, СО (Ь) = 0,14 и cov (a, b) = =¦ 0,038 (СО-стандартное отклонение). 7.10*. КОММЕНТАРИИ ПО МЕТОДАМ ОЦЕНИВАНИЯ ОБОБЩЕННЫХ ЛИНЕЙНЫХ МОДЕЛЕЙ Мы уже обращали внимание читателя на преимущества подхода, посредством которого удается модели различного типа описать с позиций единой теории. В принципе все они могут оцениваться с помощью метода наименьших квадратов с итеративно изменяющимися весами, который был рассмотрен в предыдущем параграфе. Однако редко когда при решении задачи будет наблюдаться явно выраженная сходимость итеративного процесса (по крайней мере для случая биномиального и пуас- соновского распределений исходных данных). Вместе с тем существуют некоторые другие вычислительные методы, применение которых к отдельным типам моделей обеспечивает более высокую скорость сходимости итеративного процесса. Так, например, при оценке логлинейных моделей для случая многофакторных таблиц, все клетки которых заполнены данными, предпочтение следует отдать методу итеративного пропорционального масштабирования. Линейная зависимость между столбцами матрицы. Если матрица W не содержит одного или нескольких нулевых диагональных элементов, то нулевой диагональный элемент в разложении Холецкого матрицы X'WX будет свидетельствовать о перепараметризации модели. В этом случае соответствующие столбцы матрицы 1L представляют собой линейную комбинацию предыдущих ее столбцов. Диагональный элемент i матрицы W может оказаться равным нулю только при условии, что g' (nti) рассматривается как бесконечная величина. 237
Учет характера распределения данных. Из всех применяемых в анализе моделей, распределение ошибок в которых не является нормальным, возможно, наиболее часто используются модели с биномиальными или пуассоновским распределением ошибок. Однако предположением о биномиальном или пуассоновском характере распределения данных нужно пользоваться достаточно осторожно. В случае многофакторных таблиц это предположение часто не выполняется, поскольку рассматриваемые данные не попадают в клетки таблицы независимым образом. Например, число гнилых яблок среди разложенных на лотках по 24 штуки вряд ли будет следовать биномиальному распределению, поскольку яблоки на лотках при гниении заражают друг друга. Этот факт, вероятно, приведет к возрастанию дисперсии по сравнению с величиной этого показателя, которую можно было бы ожидать в случае биномиального распределения данных. Тем не менее истинное (хотя и неизвестное) распределение будет иметь дисперсию, величина которой в обоих его хвостах (определяемых как 0 % и 100 %) стремится к нулю практически так же, как дисперсия биномиального распределения. Проводящийся в этом случае анализ будет иметь содержательный характер, если предположить, что величина неизвестной дисперсии может быть получена умножением дисперсии соответствующего биномиального распределения на некоторый постоянный множитель. Последнее позволяет использовать логарифмическую форму функции правдоподобия, аналогичную функции, определенной для биномиального распределения. Различие между ними состоит здесь лишь в том, что масштабирующий параметр ф больше не будет равняться 1,0. Если исходные данные образуют достаточно обширный массив информации, а модель включает несколько факторов, значение масштабирующего параметра может быть оценено по величине среднего значения б2-статистики, соответствующей показателям взаимодействий высокого порядка. В случае повторной выборки (проведение нескольких G2 независимых испытаний по данному эксперименту) значение межвыборочной О2-статистики необходимо поделить на соответствующее число степеней свободы, в результате чего будет получена величина, которая может служить в качестве показателя среднего квадрата ошибки при расчете стандартных ошибок. Говоря более обобщенно, необходимо принимать во внимание существование нескольких источников вариации. Следовательно, при расчете б2-статистики для использования в приближенной проверке на статистическую значимость тех или иных частных эффектов нужно проявлять осторожность. Обсуждение влияния числа наблюдений на результаты анализа многофакторных таблиц, составленных по данным выборочных обследований, а также предложения о возможных способах учета данного явления содержатся в работе [116]. Анализ таблицы значений D-статистики. При несбалансированных моделях, имеющих нормальную структуру ошибок, и других моделях, структура ошибок которых не является нормальной, значение D-статистики, соответствующей любому элементу модели, будет различной 238
в зависимости от того, какие из остальных элементов модели были подобраны раньше. В наиболее благоприятных ситуациях при изменении порядка включения в модель изучаемых факторов величина D-статистики будет изменяться лишь незначительно, а информация может быть представлена в виде таблицы, аналогичной таблице дисперсионного анализа, без учета порядка включения факторов в модель. Подобные^случаи могут выявляться легко. Наиболее простой из них — когда дисперсии всех значений клеток таблицы близки. В более сложных ситуациях можно попробовать выяснить, как будет влиять на величину D-статистики различный порядок включения факторов в модель. В общем случае (охватывающем все несбалансированные модели) решение о включении данного конкретного фактора в модель потребует расчета величины изменения среднего значения D-статистики при исключении этого фактора из модели, состоящей из всех других рассматривающихся факторов. Эти вопросы более подробно обсуждаются в работе [146, параграф 2.3.21. Теоретическая аппроксимация. Для получения статистических выводов обычно требуется ввести предположение, что характер распределения значений D-статистики может быть аппроксимирован с помощью распределения /-квадрат. Если же масштабирующий множитель ср должен оцениваться по имеющимся данным, то, как при нормальном распределении ошибок для характеристики промасштабированного показателя D-статистики, более предпочтительным оказывается F-pacnpe- деление (поскольку числитель и знаменатель приблизительно описываются с помощью распределений х-квадрат). Как и раньше, здесь нет каких-либо правил, позволяющих определить, насколько обоснованным является использование F-распределения для подобной аппроксимации. При использовании статистики Пирсона %"квадрат (которая оказывается очень близкой к значению D-статистики, когда фактические данные хорошо отражаются с помощью подобранной модели) в анализе качественных признаков обычно предполагают, что все ожидаемые значения частот должны быть не меньше 1,0, причем не более 20 % из них — меньше 5. X. Лоуэл [137] предположил, что применение асимптотической аппроксимации распределения х-квадрат будет удовлетворительным, если минимальное ожидаемое значение частот окажется равным трем и более. В [137] обсуждается метод и для других случаев (см. также [138]). Правила, в которых особое внимание уделяется показателю D-статистики (для пуассоновского или биномиального распределения данных), приводятся в работе [200]. Там же предлагаются модификации на основе аппроксимаций распределением х-квадрат для случаев, когда другие аппроксимации не оправдывают себя. Было бы хорошо выяснить, как упоминавшиеся выше результаты скажутся на форме выдачи соответствующих компьютерных программ. Стандартные ошибки оценок параметров определяются на основе линейных аппроксимаций, которые не всегда оказываются удовлетвори- 239
тельными. Так, предположим, что модель с логит -связью и биномиальным распределением ошибок применяется для сравнения выборочной доли 0,2, взятой в качестве контрольного значения, с существенно меньшими значениями выборочных долей, полученными при проведении экспериментов. Пусть z0 = logit (р0), где р0 — 0,2 и z = logit (p) = = log [p/(l — р)\. В анализе обобщенных линейных моделей предполагается, что дисперсия выборочной доли р определяется с достаточной степенью точности при использовании аппроксимации var [logit (p)l^ с*\1(пр A —p)), где р представляет собой соответствующее теоретическое значение. Для сравнения в логит-масштабе контрольного значения с полученным при проведении эксперимента рекомендуется формула вида var [z0 — z] = var [z0] -f var [z]. Данный подход удовлетворителен при условии, что дисперсия в интервале [z, z0] существенно не меняется. В следующей таблице проанализирована соответствующая аппроксимация: р 0,2 0,10 0,04 0,02 0,01 logit (р) ( = 2) — 1,38 —2,20 -3,18 —3,89 —4,60 var B) 6,25/л 11,11/л 26,04/л 51,02/я 101,01/я 4 5 7 1 = S? (Zo—2) ,17/У"Т ,68/У~ ,57/УГ о,зб/у- 0 0 0 0 ,199 У Г ,315УГ ,330 У ~ ,310 У~ Приведенное в последнем столбце значение /-статистики уменьшается с 0,02 до 0,01, хотя увеличение отличия р от р0 явно свидетельствует о расхождении между экспериментальным и контрольным значениями. Сравнение будет еще нагляднее, если заменить р на arcsin (Ур) в случае, когда предполагаем, что угол, измеренный в радианах, var [arc- sin У(р)]~ 0,25/я, независим от значения р. 7.11*. ДАЛЬНЕЙШЕЕ РАЗВИТИЕ ОБОБЩЕННЫХ ЛИНЕЙНЫХ МОДЕЛЕЙ Регрессионные модели качественных признаков, обсуждаемые в работе [1451, могут рассматриваться как результат развития обобщенных линейных моделей. Они включают модели, применяемые в анализе многофакторных таблиц в случаях, когда классификация значений, относящихся к зависимой переменной (итоговых показателей зависимой переменной), осуществляется посредством выделения некоторого упорядоченного набора категорий (см. приведенный ниже пример). В прошлом в подобных случаях обычно использовались логлинейные модели. Накопленные значения итоговых показателей логлинейной модели выступают в качестве значений зависимой переменной в регрессионной 240
модели. Таким образом, регрессионные модели для порядковых данных с концептуальной точки зрения проще соответствующих логлинейных моделей. Сложность проведения расчетов, связанных с оценкой таких моделей, перестает быть барьером к их использованию после разработки Достаточно простых в обращении компьютерных программ. Рассмотрим пример. Регрессионная модель с качественными признаками. При проведении эксперимента по определению влияния фунгицидов г на размер яблок в одном из опытов были получены следующие результаты: Число я17- (контрольное) Число n2j (при опрыскивании) Размер маленькие 28 12 умеренно маленькие 107 58 умеренно бол ьшие 74 93 большие 35 66 Для каждой строки найдем накопленные значения показателей: ztj = - 2i=i nik и lu = log (zu/(nt+ — zu)), где ni+ = zu — суммарное значение показателей строки i таблицы (/ = 1 или i = 2). В результате получаем: hi *ii hi hi-hi Размер маленькие 28 —2,04 12 -2,90 0,86 умеренно маленькие 135 0,21 70 —0,82 1,03 умеренно большие 209 1,79 163 0,90 0,89 бол ьшие 244 229 Эффект опрыскивания фунгицидами проявился в смещении трех критических (cutoff) точек, разделяющих четыре категории наблюдений, в среднем на @,86+1,03+0,89)/3 = 0,93. Предположим теперь, что для каждой строки Е [пц\ = щ,. Пусть ytj = 24= 1 Ptk ДОЯ /= 1,2, ... У. Тогда, по-видимому, имеет смысл предположить, что имеющиеся данные могут быть описаны с помощью модели / = 1,2, 1 Фунгициды — химические препараты для уничтожения грибков и бактерий — возбудителей болезней сельскохозяйственных растений. — Примеч. пер. 241
где Vo* = ni+. Эта модель линейна по <хг и Ij. Она отличается от рассматривавшейся ранее обобщенной линейной модели тем, что функция связи здесь не соотносит средние значения наблюдений зависимой переменной ptj линейному предиктору т]о- = аг + ^. Вместо этого, полагая и выразив аналогично у и т), получаем р — Су, где v — h (tj) и ц = Хр. Дальнейшее развитие метода связано с введением различных масштабирующих множителей для двух строк рассмотренной таблицы. Для первой из этих строк /13 — /п = 3,83, для второй /23 — /21 = 3,80, откуда следует, что расстояние между двумя критическими точками в обеих строках примерно одинаково. Предположим теперь, что результаты, полученные после второго опрыскивания яблонь (введем третью строку в таблицу исходных данных), имеют следующий вид: п31 = = 5, п32 = 51, /г33 = 87 и я34 = 67. Легко показать, что /33 — /31= — 4,47. Это свидетельствует о большем разбросе наблюдений в соответствующем распределении данных. В этой ситуации может быть использована модель r)i = х#-рг, где log (p*) =Z/T представляет собой линейную комбинацию 1-й строки матрицы Z, столбцы которой обычно (но не обязательно) являются некоторым подмножеством столбцов матрицы X. Теория регрессионных моделей качественных признаков. С этого момента мы будем обозначать через \it элемент i вектора |л. Аналогично будут обозначаться и соответствующие элементы других векторов. Вектор наблюдаемых значений п запишем как у. В результате изменения в обозначениях вектор h (t|) состоит из элементов h (т)г). Если обозначить итоговый показатель соответствующей строки через м, то ц )= ехр(ц,) что является обратной функцией к логит-функции. При анализе таких же, как в рассмотренном примере, данных будем предполагать, по крайней мере для целей получения оценок параметров, что в каждой строке значения ntj имеют совместное полиномиальное распределение. Как и в случае логлинейных моделей, это утверждение асимптотически эквивалентно предположению, что п^ распределены независимо, как в пуассоновском распределении. Для оценивания параметров методом максимального правдоподобия будем, подобно уравнению (9.6), максимизировать выражение 242
г)це элементы yt вектора у — представленные в клетках таблицы значения частот. Как и раньше, частная производная Qt yt — d (Qt) no Qt равняется yt —d' (Qt) — yt — \it. Частная производная <pL no p7- тогда запишется как Это выражение представляет собой /-й элемент разности где S = diag [dBj/djiJ, H — diag ldyk/dr\h]. Уравнения максимального правдоподобия тогда выглядят следующим образом: X HC'Sm-X' XC'Sy, A1.1) где m = Ch (Xb). Предлагаем читателю сравнить полученное выражение с (9.7). Предположим теперь, что т@> является начальным приближением значения т. Линейная аппроксимация, основанная на разложении в ряд Тейлора т в окрестности точки т<°>, имеет вид: m^m@)+CHX(b-b@)). (Обратим внимание на изменение по сравнению с подходом, применявшимся в параграфе 7.9, где использовалась линейная аппроксимация разложения в ряд Тейлора ц). Подставляя данное выражение в A1.1), получаем Х^Е^Б^Х^ЗКУ— m<°>)+X*b<°>!, A1.2) где X* = СНХ. Таким образом, найдены нормальные уравнения для регрессии и<°> = у — т<°> + Х*Ь@) на столбцы матрицы X*, в которой значения весов определяются диагональной матрицей S. В результате находятся новый набор коэффициентов ЫХ) и новые векторы tj*1), YA), mA> и u<x), образующие основу для проведения новой итерации. Что касается масштабирующего множителя, то положим 4 я'-*ае Х^СН! X, CH2Z)h Б' = [Ь\ ?], где! оценка—т. Тогда A1.2) будет выглядеть так: Х'5ХБ-Х/3 1(У-т@))+ ХБ(О)]. (П.З) Реализовать необходимую последовательность вычислений можно с помощью третьей версии пакета статистических программ GLIM. Некоторые рекомендации относительно возможностей использования этого пакета содержатся в работе [207]. Однако для проведения расчетов по это- 243
му пакету необходимы дополнительные усилия, особенно когда требует/- ся исследовать разнообразные модели, включающие и масштабирующг/е параметры, что делает пакет CLIM3 малопригодным. В четвертой вор- сии пакета GLIM появятся возможности для непосредственного оценивания подобных моделей, базирующихся на использовании A1.2) или A1.3). В пакете статистических программ GENSTAT и некоторых других расчеты производятся в матричном виде. Однако процедуры, осуществляемые с помощью пакета GENSTAT, оказываются не столь эффективными, как хотелось бы, поскольку в нем не предусмотрена возможность формирования ленточных или верхних треугольных матриц и использования особенностей формы представления этих матриц в последующих вычислениях. Модели для экспериментов с поимкой и повторной поимкой. В работе [46] показано, каким образом модели для экспериментов с поимкой и повторной поимкой после освобождения, проводимых на открытых совокупностях биологических объектов (см. пример в параграфе 7.7), могут быть сформулированы в виде обобщенных линейных моделей. Оценивание параметров этих моделей может проводиться также с помощью пакета программ GLIM. 7.12. ЧТО ЕЩЕ МОЖНО ПОЧИТАТЬ Анализ проблем, связанных с оцениванием параметров нелинейных моделей, содержится в работе [521. Можно посмотреть также [811. Дж. Стоер и Р.Балирш [2041 освещают более сложные вопросы. Краткое обсуждение проблем построения и анализа логлинейных моделей содержится в работе С. Финберга [79]. Р. Плакетт [1801 кратко, но с достаточной широтой охвата рассматривает аспекты применения моделей, упорядоченных в соответствии с некоторыми качественными данными. Автор приводит много практических примеров и ссылки на другие работы. Введением в теорию обобщенных линейных моделей может служить часть I руководства по использованию пакета (языка) статистических программ GLIM (см. [151). Д. Прегибон [1821 анализирует проблемы диагностики, связанные с выявлением необычно больших или оказывающих существенное влияние на результаты вычислений при оценивании логических регрессий значений наблюдений (выбросы). Автор показывает, каким образом полученные им результаты могут использоваться при работе с другими типами обобщенных линейных моделей. 7.13. УПРАЖНЕНИЯ 1. Найдите корень (корни) уравнения и = cosh, используя: а) метод итераций (см. параграф 7.3); б) метод секущих (см. параграф 7.2); в) метод Ньютона — Рафсона. 2. Покажите, что если (ut — и) = с (иг^г — и), то 244
Используйте этот результат для содержательного объяснения экстраполяции по Эйткену. 3. Выясните, применим ли метод итераций w^+i = ф (щ) для решения уравнения и = ф (м), где ф (и) = к-1 (еКи — 1), а к = 1,31. 4. Покажите, что последовательные итерации, получаемые при решении уравнения / (и) = Ос помощью метода Ньютона — Рафсона, имеют вид ui+1 = ф (м,-), где при условии /' (и) Ф О, ф' (и) = 0. Выскажите свои соображения по поводу скорости сходимости этого метода. (Рассмотрите разложение в ряд Тейлора функции ф (и) в окрестности точки ut = и.) 5*. Повторите расчеты из параграфа 7.5 с точностью до шести или семи десятичных знаков. Одновременно, начиная со второго цикла итераций, рассчитайте значения экстраполяции по Эйткену отдельно для каждого р1% р2» Рг и Р\- Имеет ли смысл использовать их в этом случае? (Желательно, чтобы расчеты осуществлялись с помощью компьютера или программируемого калькулятора.) 6. Докажите, что если щ — mt мало по сравнению с тг и 2^ (щ — тг) —0, то tit—miJ и что эти два выражения отличаются элементом (п( — т7J/т2г- и другими элементами более высокого порядка величины (tii — mj)/mr*. 7. Положим 2$(Л| — mi) = 0. Докажите, что 8*. Докажите, что статистика ^-квадрат для проверки гипотезы об отсутствии взаимосвязи в таблице взаимной сопряженности 12 может быть рассчитана следующим образом: ^ nf\ n y л+1 .. ni+ п+2 ni + 1=1 1=1 Как можно модифицировать эту формулу с целью уменьшения потери в точности при вычитании последнего элемента «4+? 9*. В обобщенной линейной модели, в которой значения зависимой переменной </• распределены по биномиальному закону, замените у( на yi = wy-t и tii на tii — wtii для каждого i. Докажите, что оценки параметров в этом случае остаются неизменными. Каким образом изменились оценки дисперсий? 10*. Докажите, что для обобщенной линейной модели, в которой значения зависимой переменной имеют пуассоновское распределение, D-статистика может быть рассчитана по формуле где nil — оценка пуассоновского параметра, соответствующего i-й точке оцениваемой модели. Покажите, что если функция связи имеет вид: g (\i) = log (ц), то это выражение сводится к 2 2 у* 1°g (yi/mj). * 245
-{Рекомендация. Рассмотрите частную производную логарифма функции правдоподобия по Ро)« 11*. В приведенной ниже таблице содержатся данные, характеризующие число фруктов, пораженных гнилью или хорошо сохранившихся при проведении эксперимента, в котором каждый фрукт хранился отдельно в условиях поддержания одного из трех температурных режимов: Гнили не обнаружено Гниль имеется Температура хранения низкая 82 146 средняя 32 167 высокая 63 199 С помощью процедуры итеративного пропорционального масштабирования получите оцененные значения модели, в которой предполагается, что взаимосвязи между температурой хранения фруктов и отсутствием или наличием гнили нет. Определите оценки параметров, удовлетворяющие сигма-ограничениям в логли- нейной модели. 12*. Рассмотрим уравнения максимального правдоподобия, из которых определяются оценки параметров обобщенной линейной модели Нелдера и Уэддер- <бёрна: X' = Т где Y-= a m таково, что g (m) = r\ = Xb (см. (9.7)). Определите итеративную схему решения этих уравнений, основанную на линейной аппроксимации вектораm в окрестности ш(°). 13. Найдите решение уравнения A1.1) X' НС' 2га = Х' НС' 2 у, гдет =С h(Xb) с помощью повторного использования A1.2). Охарактеризуйте особенности проведения расчетов при выполнении следующих операций: а) перемножение матриц; б) ортогональное приведение матрицы к верхней треугольной форме; в) решение системы уравнений с верхней треугольной матрицей. С помощью каких специальных способов перемножения матриц можно осуществить эту операцию экономно с вычислительной точки зрения? Какие дополнительные матричные операции необходимы для определения дисперсий и кова- риаций оценок параметров? 246
Глава 8 # ДРУГИЕ ВОПРОСЫ ЛИНЕЙНЫХ МОДЕЛЕЙ В предыдущей главе при рассмотрении обобщенных линейных моделей было показано, что среднее значение зависимой переменной после- соответствующей трансформации удовлетворяет линейной модели. В настоящей главе исследуются новые проблемы, связанные с появлением линейных комбинаций параметров. Будет показано, что подбор рассматриваемых в параграфе 8.1 сплайн-функций при фиксированных узлах (точках стыка) полиномиальных кривых может осуществляться с помощью стандартных методов наименьших квадратов. В последующих параграфах обсуждаются робастные варианты метода наименьших квадратов и методы исследования временных рядов. 8.1. СПЛАЙНЫ (СПЛАЙН-ФУНКЦИИ) Сплайн-функциям, учитывая их привлекательные для исследователя линейные свойства, следовало бы, видимо, уделить внимание еще в первых шести главах. Однако удобного случая для специального рассмотрения этого вопроса нам так и не представилось. Выделять его в отдельную главу ввиду небольшого объема материала по данной теме не имело смысла. Останавливаться же на нем мимоходом мы считали нецелесообразным. Поэтому мы только сейчас приступаем к его обсуждению. Сплайны представляют собой отрезки полиномов, связанных между со- бой непрерывным образом. Наиболее простой и популярный вид сплайнов—кубический, в этом случае степень аппроксимирующих полиномов равна трем. В точках стыка (узлах) этих отрезков кривых налагается ограничение непрерывности, по которому производные сплайна непрерывны. Это гарантирует гладкость перехода от одного отрезка кривой к следующему. Кубические сплайны некоторые инженеры-конструкторы строят с помощью специального чертежного устройства. Название «сплайн» происходит от наименования гибких деревянных полосок, используемых для построения гладких кривых, применяющихся при прокладывании железных дорог и в судостроении. Зависимая переменная после соответствующего преобразования часто может быть удовлетворительным образом представлена в виде линейной, кубической или квадратической функции объясняющей переменной х. Модель на базе квадратической функции ведет себя следующим образом. По мере изменения значений объясняющей переменной х кривая идет вверх, достигая некоторого пика, а затем снижается (или наоборот). 247
Кубическая функция может оказаться полезной для моделирования процессов, в которых значения исследуемого признака вначале возрастают, затем снижаются и возрастают снова. К сожалению, кубическая кривая в этом случае имеет нежелательную тенденцию падать ниже минимального уровня, достигнутого на предыдущем шаге. Использование других полиномов, имеющих более высокий порядок, чем кубический или квадратический, может привести к обескураживающим результатам х. Можно ожидать, что полиномы высоких степеней будут беспорядочно раскачиваться от одной точки имеющихся данных к другой, в результате чего их использование становится достаточно рискованным даже для интерполяции в пределах диапазона отражаемых с их помощью данных Сплайны низких порядков сохраняют простоту и хорошее поведение полиномов низких степеней, подобранных для каждого отдельного участка кривой. Для любой фиксированной совокупности узлов подбор сплайнов может осуществляться с помощью линейных методов оценки. Подбор сплайн-кривых с помощью метода наименьших квадратов будет проиллюстрирован на примере линейного сплайна или ломаной прямой линии. Предположим, что узлы расположены в точках dx<d2 < ... < d/. Дополнительно рассмотрим также две точки d0 = dx и d/+, = dA Тогда для i = 1, ..., / определим О, x<Ldi-x или x>di+u *~~d]~~x , di-1<x<du '•j-, di*?x<di+l. Рассмотрим теперь линейную комбинацию /(*) = Ьхsx(x) + b2s2(x)+... bisi(*). Тогда f(di)~bi и для dt<x<idihl Функции Sj (лг), ..., si (x) образуют базис совокупности линейных сплайн-функций с узловыми точками dlt d2,..., d/. Пример. Имеется следующая совокупность точек данных: х: У' Требуется подобрать линейный сплайн с узлами в точках х = 1, 5, 10. Как л ранее, за удвоенные узловые точки берем х = 1, х = 10. Тогда М*)^-^-, Для 1 <х<5, 1 4 2 12 3 18 4 28 5 37 6 35 7 32 8 30 9 25 10 22 1 В частности, при прогнозировании, ~- Прцмеч. ред. 248
О в остальных случаях О для х<1 или л:>10, < х<5, *»(*) = для 5< х<С 10, для 5< х< 10, О в остальных случаях. р s2 (х), s3 (x) Оцениваемая модель тогда имеет вид у = ХЬ, где матрица X содержит три столбца, в которых представлены значения s2 (x), соответственно. Таким образом, 4 ' 12 18 28 37 35 32 30 25 22. Уравнение, оцененное с помощью метода наименьших квадратов, имеет вид: 1,0 0,75 0,5 0,25 0 0 0 0 0 0 0 0,25 0,5 0,75 1,0 0,8 0,6 0,4 0,2 0 0 0 0 0 0 0,2 0,4 0,6 0,8 1 0 У = =3,llsx (х) + 37,08s2 (х) + 22,79s3 (x). Тогда -~. |_5,38 +8,49*. i 51,37 — 2,86л:, 5<;с<10. На рис. 8.1 приведены графики s1(xI s2(x), s3(x) и подобранного линейного сплайна. Алгоритм для расчета В-сплайнов. Подход к подбору сплайнов более высокого порядка очень близок к только что описанному. Множество сплайнов любой заданной степени образует линейное пространство. В-сплайны (следуя терминологии Шоенберга) степени k представляют собой базис для пространства, натянутого на сплайны k-й степени. Как и раньше, предполагается, что узлы расположены в точках dx < d2 <C < ...<d/. Для сплайнов степени k (полиномы Л-го порядка) будем 249
предполагать, что первая и последняя узловые точки повторяются по k + 1 раз. Определим теперь следующие функции: О, в других случаях, В,л (х) = *-*' В}_ „_, (х) + /J+h+1~/ BJ+U „-, (х). A.2) Если d/+& = dj, то соотве^твующий член полагаем равным нулю. Легко показать, что базисный элемент Bj,k {x) имеет положительную опорную плоскость в линейном пространстве на интервале dj < x < di- Отметим, что при k = 1 Как было определено, Bh k (x) совпадает по своей опорной плоскости с полиномом степени k (в работе [58] k на единицу превышает порядок полинома). s, (х) six) 12 34 56789 10 Рис. 8 1а. Линейные Я-сплайны, использованные в качестве базиса для множества всех линейных сплайнов, узловые точки которых показаны на рисунке 40 30 20 ю 0 - 1 1 / I 2 ! 3 I 4 I 5 I 6 I 7 I 8 I 9 I 10 Рис. 8.16. Исходные данные с подобранным для них линейным сплайном 250
Некоторое дополнительное сглаживание формы аппроксимируемой кривой может быть достигнуто посредством выделения повторных узловых точек, расположенных внутри интересующего нас интервала. Так, выделение двойного узла в случае кубического сплайна означает, что две кривых, соединяющихся в этой точке, должны быть непрерывными здесь только относительно первой производной. Подробнее эти вопросы обсуждаются в [58]. 8.2. РОБАСТНЫЕ ВАРИАНТЫ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ Рассмотрим упорядоченную совокупность весов 15 яблок из выборки плодов с одного и того же дерева, подвергавшихся одному и тому же способу воздействия в эксперименте, проводившемся для выявления возможностей измерения размера яблок: 36, 90, 95, 120, 125, 126, 131, 132, 153, 154, 162, 163, 169, 171, 213. Самое маленькое из приведенных чисел оказалось гораздо меньше значений, представляющих основную группу наблюдений. Это становится еще более очевидным при использовании логарифмического масштаба, которому часто отдают предпочтение при измерении данных, имеющих биологическую природу. В этом случае «прологарифмированные данные» будут иметь следующий вид: 3,58;, 4,50; 4,55; 4,79; 4,83; 4,84; 4,88; 4,88; 5,03; 5,04; 5,09; 5,09; 5,09; 5,14; 5,36. Эксцесс выборочного распределения равен k = 2 (х — xL/(ns4) = = 6,0, где s — стандартное отклонение выборки. При условии нормальности исходного распределения эта статистика является удобным критерием для определения одного или нескольких выбросов в исходных данных. Более подробно этот воспрос обсуждается в работе [20, табл. XIV Ь, с. 312]. Рассчитанное значение k = 6,0 значимо при уровне значимости менее 1 %. Точка, наиболее далеко расположенная от средней (в данном случае 3,58), является выбросом. Если эту точку исключить из рассматриваемой совокупности наблюдений, то показатель b перестает быть статистически значимым (и выборочное стандартное отклонение уменьшается примерно в два раза). Данные, в которых небольшая доля значений является несовместной с гипотезой о нормальности соответствующего распределения и, таким образом, определяется в качестве выбросов, встречаются довольно часто. В этих условиях мощность методов, базирующихся на классической нормальной теории, существенно снижается, и они становятся далеко не оптимальными. В простой и привлекательной со многих точек зрения модели, используемой в теоретических исследованиях, предполагается, что доля наблюдений, равная 1 — г], где обычно 0,01 < т]<0,05 образует нормальное распределение со средней \i и дисперсией а2 (т. е. распределена по N (}х, а2)), тогда как 251
оставшаяся доля наблюдений т] образует распределение Af (ji, cPo2) с d » 1 (обычно берется d = 3). Эти вопросы обсуждаются в работе Ф. Хампела [101], ссылки на соответствующую литературу приведены в [20]. Если т] = 0,05 E%-ный уровень «загрязнения»),то эффективность использования средней в качестве оценки параметра снижается для больших выборок примерно в 1,4 раза. Зависимость оценки дисперсии s2 от загрязнения оказывается также довольно существенной; для больших выборок значение s2 возрастает примерно в 6,5 раза по сравнению с аналогичным показателем для распределения N (р,, 82). 5%-ное загрязнение в распределении N (\i, 9a2) может быть выявлено только в выборке, насчитывающей несколько сотен наблюдений. Ограничим свое внимание обсуждением М-оценок, названных так в силу того, что они являются оценками максимального правдоподобия для распределения, имеющего более тяжелые хвосты, чем нормальное. Рассмотрим вначале способ оценивания параметра положения / с помощью использованной Хампелом версии УИ-оценки, которая была предложена Хьюбером. Оценка / параметра положения t выбирается таким образом, чтобы минимизировалось выражение где k\z\-k*l2y \z\>k. Хампел предложил брать d =s медиана {\xt — медиана (хг) \ /0,6745). Деление на 0,6745 можно объяснить тем, что тогда d становится приблизительно равным стандартному отклонению, если п велико и распределение является нормальным. Величину k предлагалось брать равной примерно 1,5. Значение выборочной медианы может быть принято в качестве первоначальной оценки л Дифференцируя B.1) по 2, получаем уравнение, решение которого и должно быть найдено где Поскольку функция ф (.) выпуклая, уравнение B.1) имеет единственную точку минимума. Оценка / обладает свойством, в соответствии с которым она представляет собой среднее значение для совокупности чисел, получаемых при замене наблюдений, расположенных от / на рас- 252
стоянии, превышающем kd на величину ? + kd sgn (x —/). В результате может быть предложена простая итеративная процедура нахождения Л которую мы продемонстрируем, используя набор данных о логарифмах весов 15 яблок (см. пример в начале параграфа). В качестве пер- воначальной оценки / примем значение медианы имеющихся в нашем распоряжении наблюдений. В нашем примере она равняется 4,88. Определим теперь: d = медиана { \хг — медиана {xt)\) = 0,21 /0,6745 = 0,3113. Любое значение наблюдения хи отклоняющееся от 4,88, больше, чем на 1,5 d ~ 0,47, заменяется теперь на 4,88 + 0,47 sgn (л;* —?). Таким образом, 3,58 превращается в 4,41, а 5,36 — в 5,35. В качестве новой оценки ? тогда берется средняя из этих чисел, которая равняется 4,90- Вернемся теперь к исходным данным. Единственным числом, отличающимся от 4,90 на величину, превосходящую 0,47, является 3,58. В нашей итеративной процедуре оно заменяется на 4,90—0,47 = 4,43. Средняя, рассчитанная для нового набора чисел, с точностью до двух десятичных знаков также равняется 4,90. Следовательно, / = 4,90. Робастная регрессия. Предположим теперь, что ? = Х'Ь, где, как и раньше, Б выбирается таким образом, чтобы минимизировать выражение B.1). Тогда B.2) принимает вид: <2-3> Это соотношение в матричном виде может быть записано так: X' WXb = X' Wy, B.4) где, если положить rt = yt —~xfb, W = diag [г|? {гг^Iгг\. Предположим что первоначальная оценка Ы°) параметра lT имеется в нашем распоряжении.^Тогда, вычитая X'WX b<°> = X'Wy<°> из обеих частей B.4) и заменяя b на Ыг\ получаем A)@)) 'iy@)). B.5) Допустим, оценка d известна, тогда может быть использован следующий метод вычислений: 1) рассчитывается вектор отклонений г<°> и, следовательно, определяется матрица весов W<°>; 2) используется B.5) для определения"Ы1)—"Ъ<°> и, следовательно, находится Ь<х>; 253
3) если новая оценка Ь, в пределах точности проводящихся расчетов, остается неизменной, то вычисления прекращаются. В противном случае осуществляется возврат к первому этапу расчетов и описанный цикл вычислений повторяется вновь. В данной схеме не рассматривается проблема нахождения оценки d. Привлекательной первоначальной оценкой d является оценка, основанная lia наименьших ^абсолютных отклонениях (Lx -оценка). Однако ее нахождение с вычислительной точки зрения обходится довольно дорого. В одномерном случае использование этой оценки эквивалентно использованию медианы. Масштабирующая оценка d, предложенная в связи с рассмотрением B.1) в контексте регрессионного анализа, приобретает более общий смысл показателя медианы абсолютных значений ненуле- выхотклонений от регрессии, рассчитанной методом наименьших модулей, деленного на 0,6745. Более удовлетворительным, однако, представляется предложенный Хьюбером подход, позволяющий оценивать масштабирующий множитель d одновременно с Ь. Метод Хьюбера по сравнению с рядом других предложенных алгоритмов обладает важным преимуществом: поскольку оценки подбираются таким образом, чтобы минимизировать функцию, выпуклую по Б и d, в этом случае, как известно, существует единственное решение1. Кроме того, имеется также некоторая информация, хотя и не совсем точная, о теоретических свойствах этого метода. Рассмотрим выпуклую по b функцию р такую, что р @) = 0. Частный вид этой функции представлен в B.1). Значения Б и d затем подбираются таким образом, чтобы минимизировать функцию g(b, d) = n-**v(~±y + ad, B.6) где rt = yt — x/ b. Выбор а > О будет описан ниже. Отметим, что при данном d минимум b остается тем же, что и ранее. Можно показать (см. [118, с. 178]), что функция g(-) является выпуклой, и, следовательно, решение (Б, d) единственно (в нашем изложении вместо использованного Хьюбером обозначения р0 (•) мы применяем р (•)). Для минимизируемой функции #(-)должно выполняться соотношение B.3), а также (дифференцируя по d) -^-W/ш, B.7) 1 Утверждение автора ошибочно. Оно будет верно, если функция р (•) строго выпукла. Так, функция B.1) не является строго выпуклой, и поэтому соответствующая оценка может оказаться не единственной. Для этого достаточно рассмотреть случай B.1), п = 2. Если хх < *2, причем х2 — хх > 2 /г, то любое число / из интервала (х± + а, х2 — а) минимизирует функцию р (*i — /) + р {х2 — «)• — Примеч. ред. 254
где % (z) = *Ф (z) — Р (*)• Для подбора р (z) в B.1) определим х B) = = Ity (г)]2. Для соответствия с классическими оценками нормальной модели возьмем а = п~~р Е [% (Z)], где Z имеет нормальное распределение со средней, равной нулю, и дисперсией, равной единице. Единственное изменение по сравнению с описанным ранее алгоритмом должно состоять здесь в том, что вслед за расчетом нового значения Ы*4* для b следует получить новую оценку d<*+!) для d используя соотношение «JL- 2 Хьюбер [118, с. 180] показал, что если р (z)/z является выпуклой для г < 0 и вогнутой для z >0, то g (b(*>), d<*+!>) < g (Ъ<*>, d(*>), если только данное приближение не является точкой минимума. Алгоритм, требующий только расчета Х'Х. Имеется более простой алгоритм, который с лихвой компенсирует любое возрастание числа итераций уменьшением объема вычислений на каждом шаге. Пусть после k-ro шага г* представляет собой вектор, элементами которого являются псевдоотклонения вида г* = г|) (rf°/d(*>)d<*>. Тогда следующее значение b равно b<*+!> = b<*> + Ab<*> , где ДЫ*> удовлетворяет соотношению X' XAb(fe) = X' г*. B.9) Доказательство того, что для функций р (•), удовлетворяющих 0 <р"(») < 1, выполняется g(b(*+1\ d<*>) <g (b^>, d(/r>), содержится в работе [118]. Это неравенство выполняется как строгое, пока не удовлетворяется B.3). В работе [70] проводится подробное сравнение результатов применения нескольких вариантов этого, а также первого из рассмотренных выше алгоритмов при проведении расчетов на реальных данных. F-статистики в робастной регрессии. Форма классических таблиц дисперсионного анализа и F-статистик может быть сохранена при условии, что наблюдений имеется по крайней мере в пять раз больше, чем оцениваемых параметров. Наблюдения yt заменяются псевдонаблюдениями у*, расчет которых показан ниже. Затем формируется таблица дисперсионного анализа и обычным образом определяются F-статистики. Более подробно этот вопрос освещается в работе [118, параграф 7.10] Вычисляем «W>d , B.10) где /С = 1 + — Var ; (здесь q—число оцениваемых параметров). 255
Приемлемыми оценками E[if'] и var [t|)'] являются, например, такие: Пусть теперь у представляет собой вектор оцененных значений полной модели у = у + г, где элементы 7t вектора г рассчитываются по формуле B.10). Расчет ^-статистик и тому подобных величин осуществляется так же, как в классической теории статистики, однако теперь на базе псевдонаблюдений yt. Остаточная сумма квадратов полной модели представляет собой сумму квадратов элементов 7,. Модификация точек расбалансировки. Пусть ht является i-ы диагональным элементом матрицы X (Х'Х)-1 X', как в параграфе 4.11. Точки, для которых hi велико (например, превышает 0,5 или 2р1п независимо от того, какое из этих значений больше), будут оказывать существенное влияние на оценки коэффициентов регрессионного уравненияг если только они не будут близко расположены к плоскости построенной регрессии. Для ослабления воздействия точек с высоким уровнем расбалансировки Хьюбер [118] предложил заменить минимизируемое выражение( 2.6) на B.11) Снижающиеся М-оценки. Более радикальный подход к робастному оцениванию основан на снижающихся М-оценках, при получении которых полностью отбрасываются все точки наблюдений, превышающие по абсолютной величине некоторое пороговое значение. Рассмотрим, например, предложенный Тьюки метод двойного взвешивания, характеризующийся следующей весовой функцией: где d определяется так же, как и раньше, a k приблизительно равняется 4. При этом необходимо убедиться, что полученная с помощью этого метода оценка соответствует глобальному минимуму, поскольку минимизируемая функция для такой весовой функции може? быть многоэкстремальной. 8.3. ВРЕМЕННЫЕ РЯДЫ: МОДЕЛИ, ПРИНАДЛЕЖАЩИЕ ВРЕМЕННОЙ ОБЛАСТИ Временные ряды характеризуются тем, что порядок расположения представленных в них наблюдений определяется временем или некоторым другим линейным измерителем, играющим аналогичную роль. 256
Отличительные черты временного ряда состоят в том, что: 1) соседние наблюдения в нем являются статистически зависимыми, 2) независимая повторная выборка такого ряда обычно не может быть получена. Временной ряд мы будем обозначать как {Yt}. Последовательность наблюдений у1у у2у .., уп часто называют реализацией. При рассмотрении временных рядов важное значение имеет концепция стационарности (в широком или узком смысле). Положим, что \at =-¦ (E[Yt]) является средней, of (определяемая ниже как Yo) — дисперсией. Тогда при стационарности \it и of не зависят от ty как и автоковариация ys = — cov [Yt, Y\-s] двух наблюдений, между которыми расположено 5 наблюдений ряда. На основе автоковариации можно определить ps= = Y/Vo как автокорреляцию порядка s с выборочным значением rs = --- cjco. Определение выборочной статистики cs как оценки ys будет кратко рассмотрено ниже. В большинстве широко применяющихся на практике методов анализа и моделирования временных рядов предполагается, что фактический ряд наблюдений может быть получен с помощью нескольких простых алгебраических преобразований из некоторого стационарного ряда. Таким образом, можно предположить, что после исключения из ряда тренда и/ или циклической компоненты в нашем распоряжении останется стационарный ряд. Или же, как в методах, использование которых обосновывалось Дж. Боксом и Г. Дженкинсом (см. [30], а также другие работы этих авторов), можно предположить, что данный ряд состоит из последовательных частных сумм элементов некоторого стационарного ряда. Тогда соответствующий ему стационарный ряд может быть восстановлен с помощью расчета разностей последовательных элементов. 8 некоторых случаях может потребоваться вычисление разностей второго и более высокого порядка. Моделями стационарных рядов, которые рассматриваются Боксом и Дженкинсом в качестве основных, являются авторегрессионная (АР) модель, модель скользящей средней (СС), авторегрессионная модель и скользящей средней (АРСС), которая получается в результате сложения компонентов из моделей первых двух типов. Если для восстановления соответствующего ряда АРСС требуется предварительно провести расчет значений разностей, то такую модель будем называть авторегрессионной интегрированной моделью скользящей средней (АРИСС). Авторегрессионная (АР) модель порядка р может быть записана в виде yf = PiKM+P.K<-« + ... + PPKl-p+e,f C.1) где предполагается, что значения гг имеют одинаковые и независимые распределения, а также общую дисперсию. Вообще говоря, можно предположить, что Yt имеет среднюю ц, так что в C.1) Yt следует заменить на У*_ц. Оценка авторегрессионных моделей обычно может проводиться вполне удовлетворительно с помощью стандартного метода наименьших квадратов. При этом, правда, теряется некоторая часть информации, представленная первыми р-наблюдениями. Если Yt не кор- 9 Зак. 1078 257
релирует с элементами, характеризующими будущие возмущения et+i для / >0, и рассматриваемый процесс является стационарным, то все корни уравнения 2 + ... + ppz'-0 C.2) должны лежать за пределами круга единичного радиуса. Модель скользящей средней (СС) k-ro порядка выглядит так: Vr< = ji + ef + T|18f-1+42e<-2 + ..-+4fce*-ft. C-3) где е,_* имеют одинаковое и независимое распределение со средней, равной нулю, и дисперсией о2. Оценка параметров в модели скользящей средней и в смешанной авторегрессионной модели и скользящей средней (АРСС) требует использования уже нелинейной процедуры минимизации. При использовании моделей скользящей средней (или же компонента модели АРСС, представленного скользящей средней) необходимо также (см. [90]) наложение так называемых условий обратимости, аналогичных по форме условию C.2). Это условие гарантирует, что Yt зависит только от прошлых наблюдений. Условные оценки метода наименьших квадратов в авторегрессион- ных моделях. Требуется получить оценки параметров b0 = \if Ьъ ... Ьр в регрессии 1 1 1 Ур Ур+i Уп-1 yv-i Ур Уп-г ... Ух ... У г •• Уп-v. . У = Ур+i Ур+2 Уп где yt = ijt — |я. Непосредственное применение метода наименьших квадратов обычно приводит здесь к получению удовлетворительных значений оценок. С этой целью рассмотрим у = ХЪ + е, где X = Если е1э е2, ...,е„ имеют одинаковое нормальное распределение со средней, равной нулю, и дисперсией о2, то оценки метода наименьших квадратов являются оценками максимального правдоподобия при условии У\ = Уъ У\ = #2» •••» Ур = Ур- Таким образом, любая информация, содержащаяся ъуъ у2, ..., ур, не принимается во внимание. Безусловные оценки максимального правдоподобия получить сложнее. Альтернативный подход в оценивании параметров авторегрессии состоит в использовании уравнений Юла — Уолкера, получаемых умножением C.1) на Yt-i и вычислением математических ожиданий последовательно для всех i = 1,2, ..., р. При замещении выборочных автокор- 258
реляций их теоретическими эквивалентами уравнения Юла — Уолкера принимают следующий вид: 1 гг г2 ... гр_! г \ г г -гр-1 гр-г _ _ и р — —' р — Предположим, что выборочные автоковариации и автокорреляции вычисляются по формулам: п — k i= 1 Ch Применение уравнений Юла-Уолкера в данном случае эквивалентно использованию регрессии у* на столбцы матрицы X*, параметры которой рассчитываются с помощью метода наименьших квадратов. Если положить в ней Ух—У Уг—У _уп—у_ , у*- = У 0 0 _ 0 то t-й столбец матрицы X*, i = 1, ..., р будет состоять из i нулей, после которых расположатся элементы вектора у и оставшихся р — i нулей. Отсюда следует, что при данном определении ck и rk матрица коэффициентов уравнений Юла — Уолкера является положительно определенной или по крайней мере неотрицательно определенной. Безусловные оценки метода наименьших квадратов в моделях АРСС- процессов. Метод, к обсуждению которого мы сейчас приступаем, может использоваться при оценивании параметров любого процесса, описываемого с помощью авторегрессионной (АР) модели, модели скользящей средней (ОС) или смешанной авторрегрессионной модели и скользящей средней (АРСС). Рассмотрим сначала пример короткого ряда из 10 чисел, который был смоделирован на основе следующего соотношения: у, —10 = 0,6(у,-!— Ю) -Ье, —0,8е,_ь где var [ej = 2f5. Полученный ряд выглядит так: 12,9 11,9 5,2 13,5 9,1 15,4 6,1 9,8 12,5 11,7. 259
Этот ряд слишком короток, чтобы можно было получить удовлетворительные оценки параметров. Однако он послужит нам для демонстрации способа расчета суммы квадратов отклонений е„ соответствующих конкретному выбору значений оценок параметров. При предположении, что рассматриваемый процесс является нормальным (гауссовским), оценки параметров, минимизирующих сумму квадратов этих оцененных отклонений, оказываются близкими к оценкам максимального правдоподобия. На практике et может не приниматься во внимание, к примеру, для / < 1 — /, где / несколько превосходит порядок р авторегрессионного компонента. Расчет будет проведен при т = 10,8 (средняя из 10 чисел ряда), Ь = 0,5, h = 0,75. Соответствующая теоретическая модель выглядит следующим образом: yt — m^b(yl-l — m)+et — het^l. C.4) В руководстве по использованию пакета статистических программ Mi- nitab (см. [188]) говорится, что обычно удовлетворительные результаты можно получить, положив вначале все параметры, за исключением ту равными 0,1. Поскольку в нашем случае мы хотим только проиллюстрировать порядок проведения расчетов, выбор начальных значений Ь= 0,5 и h — 0,75 объясняется исключительно соображениями удобства. Они, кстати, довольно далеки от наилучших из возможных оценок. Кроме того, модель с двумя линейными параметрами (budI более сложная, чем модель, которая с большими основаниями может использоваться для описания столь короткого ряда данных. Расчет отклонений базируется на следующих двух свойствах моделей АРСС. Первое из них состоит в том, что на значения отклонений et оказывается слабое воздействие отклонениями, соответствующими точкам наблюдений, расположенных на достаточно большом расстоянии от них в предшествующей части ряда. Второе свойство заключается в том, что стационарный временной ряд имеет один и тот же вид независимо от порядка (прямого или обратного) расположения его элементов во времени. В принципе любую такую модель, позволяющую предсказывать последующие значения наблюдений на базе предшествующих им членов ряда, можно с равными основаниями применять для «прогнозирования назад». Ковариационная структура модели оказывается той же независимо от того, как расположены наблюдения в ряду — начиная с первого и кончая последним или наоборот. Таким образом, вместо yt — m=b(yi-1 — т) -!-et—het.l можно записать 1 — hdt, C.5) 1 Автор, по-видимому, имеет в виду, что в пакете Minitab используется модель с двумя линейными параметрами. — Примеч. пер. 260
где dt является оценками отклонений, имеющих независимые и наковые распределения и одинаковую дисперсию е,. Прямой и обратный ряды соответствуют различным реализациям одного и того же процесса, причем значения отклонений в этих двух случаях различны. Таким образом, C.5) может использоваться при начальных значениях времени t = п и dn = 0 для расчета dn_2, dn_2, ..., dv Следовательно, принимая di = 0 для i < 1, можно получить оценки для у0, у_г, ..., у_г, где у_г cz. m. Уравнение C.4) может затем служить для прямого расчета, при котором получаются ?_г+1, е_;+ г, ..., еп. Далее снова можно провести обратный расчет с помощью C.4). Этого не потребуется, если только Ь не окажется близким к 1,0 или же ряд не будет таким коротким (как в нашем примере). В подобных же ситуациях подбор соответствующей модели выглядит очень проблематичным. Такой расчет, однако, может быть осуществлен и в проверочных целях. Вначале вычтем т = 10,8 из значения каждого наблюдения ряда, в результате чего получим 2,1 1,1 -5,6 2,7 —1,7 4,6 —4,7 -1,0 1,7 0,9 и положим d10 = 0. Обратный расчет с помощью C.5) приводит к получению следующих величин dt(l < i < 10): 1,60 0,04 -5,15 2,40 —1,53 3,29 -4,88 -0,91 1,25 di0=Q. Положим теперь d0 =d_t =... == 0 и используем C.5) для оценки ^ = = Уг—шддя i < 1. Тогда у0 = 0,5yi — 0,75 dx = — 0,15, у^ = =095у0 = — 0,075 и т. д. Значения yi9. используемые для прямого расчета, выглядят так: —0,01 —0,02 —0,04 —0,075 —0,15 2Г1 1,1 —5,6 2,7 —1,7 —4,6 —1,0 1,7 0,9 Первые пять из этих чисел являются оценками. Соответствующие значения et, получаемые с помощью C.4), равняются -0,01 —0,02 —0,05 —0,09 —0,18 2,04 1,58 -4,97 1,78—1,71 4,16 -3,88 —1,56 1,03 0,82 Таким образом, при т = 10,8, Ь = 0,5 и h = 0,75 ю S(m, b, A)= ^ *?= 74,02. Далее необходимо рассчитать приближенные значения производных dSldtn, dSldb и dSldh. В нашем примере адекватная аппроксимация этих показателей может быть получена следующим образом: dS S(m, b + 0%0\, h) — S(m, by h) 74,02 — 74,58 __ g g db "~ 0,01 ~ 0,01 ~~ Если заменить+0,01 на —0,01, то полученная оценка производной будет равняться — 6,6, что достаточно хорошо согласуется со значением — 5,6. Затем может быть использован какой-либо линейный метод 261
наименьших квадратов, в котором необходимо знание оценок только первых производных. Таким образом, линейный метод наименьших квадратов может применяться для выбора Дт, ДЬ и Д/t, минимизирующих выражение dS AL , dS с . dS A , dS А, . dS АЛ2 S Н Д/яН А6 4 A/i . dm d& dh ) В результате получаются новые оценки т + Am, b + Afe и Л + Aft и цикл вычислений повторяется вновь. При реализации этой процедуры возникает достаточно много тонких моментов. Поэтому всем, кто, не будучи экспертом в данной области, попытается заняться проведением описанных расчетов, мы советуем воспользоваться уже имеющимися программами, предложенными Дж. Боксом и Г. Дженкинсом [30] или содержащимися в таких пакетах статистических программ, как, например, Minitab U88] или GENSTAT [166]. Отклонения временных рядов. Один из вариантов авторегрессионной модели имеет следующий вид: Уг = Ь0 + Ь^ + гг, *=1, ..., л, C.6) где zt = et + hzt-i и et являются оценками отклонений, имеющих независимые и идентичные распределения со средней, равной 0, и дисперсией а2. Для оценки параметров этой модели можно рекомендовать следующий подход: 1) с помощью обычного метода наименьших квадратов получаются начальные значения Ьо и Ъг. Отклонения от этой регрессии представляют собой начальные значения для zt (t = 1, ..., n); 2) осуществляется подгонка уравнения zt = hzi-1 + et\ ^ 3) рассмотрим теперь выражение yt —hyt-x ==Ь0<A —h) 4- hb± + + Ьг A — h) t + et. При текущих значениях h улушенные оценки метода наименьших квадратов Ьо и Ьг могут быть получены в результате регрессирования у. — /и/t-i на t\ 4) если процесс получения оценок сошелся, то вычисления прекращаются. В противном случае рассчитываются zt = yt — b0 — bxt (t ~ 1, ..., n) и осуществляется возврат к шагу 2. Методы оценивания подобных моделей более подробно рассматриваются в работе [87], см. также [12]. 8.4. ЧАСТОТНАЯ ОБЛАСТЬ: ДИСКРЕТНОЕ ПРЕОБРАЗОВАНИЕ ФУРЬЕ Основной темой данного параграфа является дискретное преобразование Фурье. Любой временной ряд данных может быть представлен в виде суммы периодических (т. е. выражающихся через синус и косинус) компонент. Такое представление называется иногда анализом в частотной области. Некоторые операции с рядами (такие, например, как расчет вероятностей совместного изменения 262
двух случайных рядов) могут иногда более просто или более экономично проводиться именно в частотной области. При работе с временными рядами этот подход может быть полезным при нахождении модели, генерирующей такие ряды. На первый взгляд может показаться, что распознавание моделей с небольшим числом циклических компонентов является очень простой задачей. Однако оказывается, что отличить действительные циклические компоненты от элементов, являющихся частью модели, рассматривающейся в частотной области и не содержащей циклических компонентов, не так-то просто. Вначале мы обсудим простую регрессионную модель с циклическими компонентами при известных частотах. В таких моделях не содержится каких-либо новых идей. Однако с их помощью нам будет удобно перейти к дискретному преобразованию Фурье. Феномен цикличности. Простой циклический процесс с известным периодом колебания 2я/со может быть описан с помощью модели yt =[i -f P cos (Ш + ф) +е, = |х + a cos (со/) + Psin(a>/) + г(. D.1) Мы предоставляем читателю самостоятельно показать, каким образом аир могут быть выражены через р и ф. Для определения оценок |Л, а и Р можно использовать метод наименьших квадратов. В предположении о наличии последовательности равномерно распределенных временнйх точек стандартные тригонометрические формулы позволяют несколько упростить вычисления. Детальное изложение этого метода приведено в [29]. Уравнение D.1) легко обобщается на случай, в котором допускается существование циклов с двумя или несколькими различными периодами, например недельными или годовыми. Предположим теперь, что частоты периодических компонентов, которые могут присутствовать в модели, неизвестны и должны быть выделены непосредственно по исходным данным. В работе [218] приводятся сведения о величине яркости некоторой переменной звезды, полученные при 600 последовательных измерениях в одно и то же время суток (полночь). В этом случае основной периодический компонент может быть определен с достаточной степенью точности непосредственно при визуальном изучении данных. Поскольку в них имеется 21 максимальное значение, то соответствующий период будет приблизительно равняться 600/21 = 28,6 дня и со = 2я/28,6 = 0,22. С по'мощью некоторых дополнительных вычислений может быть показано, что на выделенный нами цикл накладывается второй цикл с периодом колебаний, равным 24 дням. В общем случае выделение циклических компонентов непосредственно по исходным данным может оказаться не простым делом. Здесь может помочь исследование периодограммы (ее определение будет дано несколько позже), используемой при анализе в частотной области в связи с преобразованием Фурье. Квалифицированный специалист-практик с ее помощью может построить возможные модели, в которые не нужно будет включать циклические компоненты. 263
Дискретное преобразование Фурье. Будем предполагать, что имеется последовательность наблюдений с у0 по Уп^. Положим D.2) где i2 = —I. Предположим, что yt раздельно регрессируется на cos Bлjt/ri) и sin Bлjt/ri). Тогда действительная часть /,- является коэффициентом в первой из этих регрессий, а мнимая часть /;- представляет собой коэффициент во второй регрессии. Представление {yt} в виде ряда Фурье выглядит следующим образом: D.3) где суммирование может осуществляться в диапазоне —/г/2 < / < я/2 или 0 < /< п. В общем случае yt может иметь комплексный вид. Легко показать, что если yt является действительным числом, то/п_,- представляет собой комплексную функцию, сопряженную к /у, т. е. только половина fj может изменяться независимым образом. Запишем теперь: где Rj часто называют модулем, а ср7- — аргументом комплексного числа Периодограмма для выделения периодических компонентов (обычно после применения подходящей процедуры сглаживания) имеет вид: /(»;) — «?. где со,- -= 2nj/n для / — 0, 1, ..., п — 1. Определение / (со7) может в зависимости от целей расчета периодограммы изменяться посредством выбора постоянного масштабирующего множителя. Применение преобразования Фурье к случайным рядам. Для длинных рядов вместо непосредственного расчета совместных вероятностей dk = A) Яп +Pi Яя-i + —+РкЯо двух дискретных распределений {pt\i = 0, 1, ..., v} и {qt\i = 0, 1, ..., v} предпочтение следует отдать перемножению двух преобразований Фурье, в результате которого получается преобразование Фурье {d^}- Некоторое усложнение здесь связано с тем, что каждый исходный ряд должен быть дополнен v + 1 нулями, чтобы их длина составляла п =2 (v + 1) элементов. Тогда каждое значение суммы в их объединении, определяемом преобразованием Фурье, будет представлять собой сумму п элементов: где по определению ^_п =qj. Точки ряда могут быть в целях осуществления преобразования Фурье представлены в виде точек, принадлежа^- щих некоторой окружности. Тогда точка п будет определяться нулевой 264
точкой. Элементы с отрицательными подстрочными индексами равняются нулю и не участвуют в определении совместной суммы. Выделение периодических компонентов. Некоторые авторы при выделении частотных компонентов предлагают предварительно перед расчетом преобразования Фурье проводить усечение рядов. Усечение преобразует значения наблюдений, расположенных в двух концах ряда (обычно между 10 и 50 % данных), таким образом, что они сводятся на нет. Это снижает тенденцию к воздействию сильных периодических компонентов на другие периодические компоненты. Для уменьшения влияния случайных компонентов в исходных данных следует использовать сглаженную форму периодограммы. Простейший способ сглаживания состоит в замене каждой точки периодограммы некоторой линейной комбинацией этой точки с соседними точками. Более подробно с этими вопросами, можно познакомиться в работе [291 и [41]. Быстрое преобразование Фурье. Число вычислений, необходимых для преобразования Фурье с помощью непосредственного использования D.2), при работе с длинными рядами становится очень значительным. Пусть 2m \ Тогда сопг=1 и D.2) можно записать так: fj = n-l уt <о'\ Некоторая экономия здесь может быть достигнута с помощью табулирования со' для t = 0, 1,..., п — 1, которое позволит получить все возможные различные значения этого показателя. В последующих вычислениях тогда потребуется провести я2 перемножений и сложений комплексных выражений, если будет непосредственно использоваться D.2). Принимая во внимание, что /;- является комплексным дополнением /n_j, число вычислений можно уменьшить в 2 раза. Быстрое преобразование Фурье может оказаться полезным, если п является составным числом, т. е. может быть представлено в виде п — = /i,/i2 для чисел пх и я2, каждое из которых по своей величине превосходит единицу. Изменения в порядке проведения расчетов позволяют выделить группы элементов, суммарные значения которых неоднократно определяются в процессе вычислений. При быстром преобразовании Фурье каждый такой элемент оценивается лишь один раз. Запоминание промежуточных выкладок оказывается очень полезным, а сам алгоритм принимает наиболее простую для реализации форму, если п •-- 2k для некоторого целого числа k. Именно этот случай и будет рассмотрен нами в дальнейшем. Ограничение, связанное с определением длины ряда в 2* элементов, не является очень серьезным, поскольку любой анализируемый ряд всегда может быть дополнен соответствующим числом нулей Для получения требующегося числа элементов. Это означает, что преоб- 265
разуется ряд, имеющий другую (и более протяженную) длину. Однако качественные свойства такого преобразования сохраняются, так что частотные компоненты, имевшие место в одном случае, будут проявляться почти с той же частотой и в другом случае. Усечение ряда становится здесь желательным в большей степени, чем когда-либо. Оно должно предшествовать дополнению ряда нулями. Более подробно этот вопрос обсуждается в [29]. Некоторые детали применения быстрого преобразования Фурье. Предположим, что где п —- 2k. Это выражение можно переписать: л/2—1 /1/2—1 m = 0 m = 0 где для элементов, входящих в первую сумму, / = 2т, а для элементов второй суммы / = 2т + 1. Четные и нечетные элементы показателей сумм обрабатываются раздельно. Запишем теперь, что / = 2*-1/1 -} /а. Тогда, поскольку до2/ = до"/» до2/* = до2/*, можно записать: /г/2—1 п/2 —1 *й= 2 {/2W(a>2)/2W+a"' 2 m=0 m=0 D.4) Каждый из элементов и (/2) и v (/2) следует оценивать только для значений/2 = 0, 1, ..., 2*-1. Фактически и (/2) для /2 = 0,1, ..., 2к~1 представляет собой преобразование Фурье ряда, состоящего лишь из четных членов исходного ряда, a v (/2) — преобразование для ряда, состоящего лишь из нечетных членов. Первоначальная проблема, связанная с необходимостью расчета преобразования Фурье для ряда длиной в 2к элементов, таким образом, заменяется проблемой проведения тех же расчетов для двух рядов, каждый из которых состоит из 2*" членов. Рассмотрим теперь число перемножений комплексных выражений (совместно с соответствующим числом сложений комплексных выражений), которые требуется провести при формировании преобразования Фурье исходного ряда из и (/а) и v (/2). Очевидно, что здесь необходимы п операций умножения: по одной на получение каждого элемента fj. (Это число можно уменьшить, если учесть, что fj — сопряженное комплексное ЧИСЛО К fn-j.) Каждый из полученных двух преобразованных рядов и (/2) и v (j2) в свою очередь также может рассматриваться как преобразование двух рядов длиной в 2*~2 членов. Оценивание рядов и (/2) и v (/2) по преобразованиям соответствующих им укороченных рядов также потребует операций умножения комплексных выражений. Данный процесс может повторяться до тех пор, пока стоящая перед нами задача после проведе- 266
ния k-то такого расщепления не будет сведена к оценке преобразований Фурье 2* вспомогательных рядов, каждый из которых имеет длину, равную единице! И здесь не требуется ни перемножений, ни сложений! Однако для восстановления преобразования Фурье исходного ряда нужно будет к раз осуществить по п операций умножения (и сложения) комплексных выражений. Без учета других возможностей для сокращения арифметических операций общее число перемножений комплексных выражений составит tik — п log2 л. При достаточно большом п (порядка нескольких сотен) достигается существенная экономия по сравнению с непосредственным применением D.2), требующим п2 таких операций. 8.5. ЧТО ЕЩЕ МОЖНО ПОЧИТАТЬ Де Боор [58] сделал прекрасный обзор методов расчета полиномиальных сплайнов (см. также [243]). Авторитетным источником информации по робастному статистическому анализу является работа П. Хьюбера [118]. Элементарные приемы анализа временных рядов приведены в [41] и [29]. В работе [87] содержатся примеры подбора большого числа различных моделей временных рядов. Алгоритм, который может быть использован при точном оценивании параметров функции максимального правдоподобия смешанной авторегрессионной модели и скользящей средней, описан в [8]. По данному вопросу можно также посмотреть [168]. В работе [54] проводится интересное сопоставление альтернативных методов опенки параметров моделей скользящей средней и других АРСС-моделей. 8.6. УПРАЖНЕНИЯ 1. Рассмотрим совокупность значений (*, у): X 1 2 3 4 У 1,7 4,5 6,8 9,2 X 5 6 7 8 9 У 8,2 7,5 6,8 6,0 5,0 К 10 11 12 13 У 4,5 4,0 3,2 2,8 С помощью метода наименьших квадратов подберите линейный сплайн (ломаную прямую линию) с узловыми точками х = 4,5 и 9,5. Определите модельную матрицу \. С помощью компьютерной программы множественной регрессии найдите линейный сплайн для данных узловых точек, при котором обеспечивается наилучшая подгонка с точки зрения критерия наименьших квадратов. 2. С помощью B.2) найдите робастную оценку параметра положения для следующей совокупности данных: 6 0 21 2 6623461028 —19 4 11 267
Методом, основанным на статистике B.10), проверьте гипотезу, что параметр положения, оценка которого была вами получена, равняется нулю. 3. Рассмотрите авторегрессионную модель скользящей средней вида yt — ti = $ (yt-i где Bt являются независимыми с общей дисперсией о2. Покажите, что если Р =т|, то данная модель эквивалентна модели yt = ji -f et. 4. Рассмотрите модель, которая в оцениваемой форме имеет вид: где zt = et + hzf—x, a e^ независимы и одинаковы распределены со средней, равной 0, и дисперсией а*. Определите матрицу весов W для следующей альтернативы оценивания параметров уравнения C.6) (при этом первые два этапа из параграфа 8.3 остаются неизменными): а) используйте регрессию, оценки параметров которой определяются с помощью обычного метода наименьших квадратов, для получения начальных значений Ьо и Ьг. Отклонения от этой регрессии дают начальные значения zt, t = 1, ..., п; б) осуществите подгонку zt = hzt^.1 + et\ в) осуществите подгонку у = ХЬ + г с помощью взвешенного метода наименьших квадратов с матрицей весов W; г) если процесс получения оценок сошелся, прекратите вычисления, в противном случае вернитесь к шагу б). 5. Сравните последовательность вычислений, проведенных для преобразования Фурье (в соответствии с уравнением D.2)), с расчетами, проделанными для быстрого преобразования Фурье, при длине ряда п — 8.
Глава 9 # ДОПОЛНИТЕЛЬНЫЕ ВОПРОСЫ Автоматическое генерирование псевдослучайных чисел — основная тема этой главы. В ней рассмотрены также простые методы для приближенного вычисления процентных точек стандартных распределений, рекуррентные соотношения, сортировка и ранжирование. 9.1. АВТОМАТИЧЕСКОЕ ГЕНЕРИРОВАНИЕ ПСЕВДОСЛУЧАЙНЫХ ЧИСЕЛ Видимо, все знакомы с применением игральных костей для порождения чисел, равномерно распределенных на множестве целых чисел {1,..., 6}. В детских играх для получения случайных десятичных чисел иногда применяется устройство, напоминающее колесо рулетки. Участники военных и других стратегических игр используют десятичные игральные кости. Десятичная игральная кость имеет форму правильного икосаэдра, на котором каждая из цифр от 0 до 9 нанесена на 2 из 20 граней. Два броска кости будут порождать две цифры случайного числа, которое будет раномерно распределено в интервале отО до99 при условии, что кость правильная. Предположим, что обстрел вражеского танка уничтожает его только с вероятностью 0,20, тогда как с вероятностью 0,35 он будет выведен из боя временно и с вероятностью 0,45 он не понесет ущерба. Участник военной игры связывает первый исход с числами от 00 до 19, второй —с числами от 20 до 54 и третий — с числами от 55 до 99. Можно также пометить числами от 0 до 99 100 мраморных шариков. Тогда число на шарике, вытащенном из ящика, будет случайным. Так, при случайном назначении способов обработки участкам земли в сельскохозяйственном эксперименте полезно связать шарики прямо со способами обработки. Таким образом, каждый из пяти способов может быть связан с двумя шариками. При переходе к очередному участку земли цифра на следующем шарике, взятом из ящика без возвращения, определяет способ обработки для следующего участка. Существуют различные электронные аналоги игральной кости. В одном из методов используется момент времени, в который электронный шум превосходит некоторый пороговый уровень или падает ниже него. Нуль или единица записываются в зависимости от того, перейден ли порог во время первой или во время второй половины цикла электронных часов, у которых период (ничтожная доля секунды) намного меньше, чем среднее время между переходами. Так порождается случайная последовательность двоичных чисел. Новозеландская почта располага- 269
ет устройством, названным Элси, в основе которого лежит во многом похожий принцип. Это устройство позволяет определить, кто из дер-/ жателей почтовых выигрышных облигаций будет выбран получателями денежных выигрышей в очередном тираже. В подобном приложении важно применить метод, обеспечивающий получение чисел, которые непредсказуемы в принципе. Такие методы, однако, громоздки и требуют тщательной настройки для устранения малейших отклонений. Напротив, псевдослучайные числа генерируются в соответствии с точными правилами, так что в строгом смысле полученные числа не являются случайными. Ставится цель, чтобы никто, не зная правил, не мог отличить эту последовательность от такой же, полученной с помощью случайного механизма. Если это удается, то данную последовательность можно использовать так же, как если бы она была получена с применением вероятностного механизма, для повторных имитаций, предназначенных для исследования вероятных исходов, например, при задании некоторого сценария в военной игре. X. Ланкастер [136] использовал цифры числа л при составлении таблицы случайных чисел. Можно полагать, что цифры числа я подходят для этой цели, хотя до сих пор невозможно доказать, что в длинных последовательностях записи этого числа они встречаются с одинаковой частотой. Неизбежным недостатком их применения при получении случайных чисел с помощью компьютера является сложность и запутанность соответствующего алгоритма. Очень длинные последовательности случайных чисел необходимы при применении метода Монте-Карло, например, при нахождении процентных точек распределений, значения которых трудно или невозможно получить аналитически. Там, где отдельную статистику нужно проверить на значимость, может оказаться достаточной значительно более короткая последовательность (см. параграф 9.2). Часто необходимость в методах такого типа вызвана тем, что статистика основана на выборке, которая столь мала, что правильное применение асимптотической теории распределений невозможно. Внимание не должно ограничиваться сравнением проверяемых на значимость статистических величин и их распределений с данными, которые случайно сгенерированы для модели. Желательно проверить (возможно, графически) соответствие наблюдаемых данных результатам такой имитации. Подобное соответствие приводит к более точной проверке, чем это возможно для одного значения процентной точки. Конгруэнтные датчики псевдослучайных чисел. На практике большинство методов для получения псевдослучайных чисел основано на построении последовательности чисел {хп}, вырабатываемой линейным конгруэнтным рекуррентным соотношением вида хп = ахп-х + с (mod m) A-1) с заданными параметрами а, с и /я1. При с = О датчик называется 1 Запись A.1) означает, что хп является остатком от деления числа на число т. — Примеч. ред. 270
мультипликативным конгруэнтным, в противном случае (с Ф 0) —смешанным конгруэнтным. Если с Ф О, то число в интервале 0 < х < 1 получается делением хп на т. Для с = 0 это утверждение должно быть немного изменено. Решающим здесь является выбор ант. Обычно полагают т = 2k или m = 2k — 1, где & — целое, чтобы упростить получение остатка. Выбор т = 2k — 1 привлекателен, так как т — простое число при k — 31. (Число 231 — 1 употребляется довольно часто. Оно принадлежит к списку Мерсенэ простых чисел вида 2* — 1, где ft само является простым. Позднее было доказано, что некоторые из чисел Мерсенэ составные.) Идею применения датчика, основанного на уравнении A.1), обычно приписывают Д.Х. Лемеру. Можно показать, что полученные числа попадают в ячейку правильной решетки, которая может быть выявлена на основе более тонкого анализа, например, с помощью графика зависимости xt от xt^x по последовательности, распространяющейся на существенную часть периода датчика. Представляется возможным в принципе доказать, что подобные решетчатые структуры, вероятно, приводят к неудовлетворительным датчикам. Статистические свойства полученной последовательности обычно можно улучшить сдвигом чисел в блоках, которые должны быть достаточно большими, чтобы нарушить зависимость между последовательными элементами. Обсудим сначала использование числа т = 2*. А. Эткинсон [111 рассматривает k = 30, 32, 33, 35. Известно, что в таких датчиках младшие биты имеют короткий цикл, и это иногда нежелательно. Если конс- станта с нечетна и множитель а = 1 (mod 4), то датчик будет полнопере- одическим, т. е. все т величин 0,1, ...,т—1, будут появляться должным образом. Если с = 0, то максимальная длина последовательности равна я?/4, что достигается, когда множитель а = 3 или 5 (mod 8), а начальное значение х0 нечетно. Тремя множителями, предложенными для датчиков, этого типа Марсальи [1521 и кратко рассмотренными Эткин- соном [111, являются числа 69 069, 71 365 и 10 0485. Выбор т = 231 — 1 обычно с с =0 предпочтителен для тех компьютеров, которые позволяют использовать 32 двоичных бита дл* представления целых чисел. Множитель а выбирается так, чтобы полученная последовательность чисел имела максимальную длину при пробеге всех значений 0 < хп < m — 1. Такую возможность предоставляют только некоторые датчики. Дж. Фишман и Л. Моор [801 изучали статистические свойства 16 возможных множителей. Хорошими значениями для множителя являются а = 630 360 016 (=1429), а = 397 204 094, а = = 1 203 248 318, а = 764 261 123. В [1801 представлено доказательство того, что множитель а = 16 807 (=75), который использовал Л. Скраг [1901 в компактном алгоритме на Фортране, может не быть вполне статистически удовлетворительным. Программа Скрага демонстрирует способ, необходимый для достижения эффективной реализации. Остается неясным, достаточно ли проверка, выполненная Фишманом и Моором, соответствовала свойствам последовательности, полученной после перемешивания. 271
Б. Уичман и И. Хилл [219] предложили компактный датчик случайных чисел, основанный на трех простых мультипликативных конгруэнтных датчиках с простыми модулями т1 = 30 269, т2 = 30 307 */ т3= 30 323. Множители, выбранные так, что в каждом случае датчики имеют полный период, таковы: ах = 171, а2 = 172, а3 = 170. Три промасштабированных числа, находящиеся между 0 и 1, складываются, и берется их дробная часть. У такого датчика период больше, чем в алгоритме Скрага B,78-1013 против 2,15-109), и при проверке на компьютере PDP-11 он работал в несколько раз быстрее. Представляется маловероятным, что алгоритм Уичмана и Хилла вырабатывает случайные числа с зависимыми последовательными элементами. У. Кеннеди и Дж. Джентл [127] обсуждают другие методы улучшения последовательности псевдослучайных чисел, полученной от конгруэнтного датчика. Следует, однако, признать, что пока еще нет датчиков, которые могли бы выступить как абсолютные победители. Теперь стало очевидным, что некоторые, широко применяемые в прошлом датчики работают неудовлетворительно. По этому поводу см. комментарии в [811 относительно датчика RANDU (т = 231, с = 0, и =-- 65 539), который вошел в SSP — библиотеку научных программ для ИБМ-360. Было показано, что между любыми тремя последовательными числами, генерируемыми RANDU, существует высокая корреляция. Упорядоченные последовательности равномерно распределенных случайных чисел. Существуют и более эффективные методы порождения последовательности равномерно распределенных случайных чисел и их сортировки. Простейший подход основан на следующих двух результатах: 1) если U — случайная величина, равномерно распределенная на |0, II, тог = — log U имеет экспоненциальное распределение; 2) если Zlf Z2, ..., Zr,+1 — независимые экспоненциально распределенные случайные величины, то величины 2 ^« /=¦¦= l распределены как порядковые статистики случайной выборки объема п из равномерного распределения на [0, 1]. Эти результаты приводятся в [123]. Упомянутый выше метод требует двух проходов по сгенерированному списку случайных чисел. Метод с одним проходом обсуждается в [25]. Он основан на использовании факта, что распределение вероятностей максимума из п независимых равномерно распределенных случайных величин на отрезке [0, 1] такое же, как у корня л-й степени случайной величины, равномерно распределенной на [0,11 Более того, для данной максимальной величиных{п) следующая максимальная величина 272
распределена как Х(п) [У1/*"-1), где U — случайная величина, равномерно распределенная на [0,1] (для более глубокого изучения этого вопроса обратитесь к [25]). 9.2*. ПРОВЕРКА ГИПОТЕЗ МЕТОДОМ БАРНАРДА Метод проверки гипотез, к обсуждению которого мы переходим, предложен Дж. Барнардом [18]. Он основан на применении метода Монте-Карло. Предположим, необходимо проверить некоторую статистику z на значимость на 100 а %-ном уровне (большие величины г ведут к отклонению нулевой гипотезы Но). Допустим, что таблица критических значений z не доступна. Точный тест на 100 а %-ный уровень значимости может быть выполнен на основе весьма небольшого числа значений статистики, полученных в результате имитации, ценой некоторой потери мощности критерия. Критическое значение подвержено случайной флуктуации, однако при этом уровень значимости не меняется. Предположим, что N — 1 испытаний по методу Монте-Карло в условиях гипотезы Но привели к следующим значениям статистики критерия Добавив к ним z и упорядочив все величины, получим B.1) Для определенности в условиях равенства поместим Т на первое место. Тогда согласно нулевой гипотезе вероятность того, что? попадет в число т наибольших величин в последовательности, равна m/N. Вероятность ошибки первого рода для критерия, отклоняющего гипотезу #0, если? находится среди т наибольших величин, будет, таким образом, а = mIN. Для конкретности пусть N = 80 и а = 0,05; тогда Яо будет отклонена, если z лежит среди четырех (80-0,05) наибольших величин в упорядоченной последовательности B.1). Сравнение с классическим методом. Ф. Марриот [151] сравнивает метод Барнарда проверки гипотез с традиционным критерием. Пусть Y — вероятность того, что статистика z с распределением, соответствующим #о, больше, чем?. Традиционный критерий с 100 а%-ным уровнем значимости отклонил бы Яо, если у < а. Критерий Барнарда же отклонит #0 с вероятностью, которая может быть вычислена как функция у. Таким образом, для N = 80 и а = 0,05 вероятность того, что три или меньше величины, полученных методом Монте-Карло, будут 273
больше, чем z (это ведет к отказу от Но с 5%-ным уровнем значимости), равна Q(80;0,05;v)= ? (™)т'О-?O9"'- Следующая таблица показывает, как Q (80; 0,05; у) и Q D00; 0,05; у) зависят от у. Напомним, что традиционный критерий с 5%-ным уровнем значимости отверг бы #0, если 7 таково, что у = 0,05. V 0,08 0,07 0,06 0,05 Q (80; 0,05; у) 0,115 0,19 0,30 0,44 Q D00; 0,05; v) 0,0035 0,029 0,15 0,48 V 0,04 0,03 0,02 Q (80; 0,05; у) 0,61 0,79 0,93 Q D00; 0,05; у) 0,85 0,990 0,99996 9.3*. СЛУЧАЙНЫЕ ВЫБОРКИ ИЗ РАСПРЕДЕЛЕНИЙ, ОТЛИЧНЫХ ОТ РАВНОМЕРНОГО Предположим, что случайная величина X имеет функцию распределения вероятностей F (х), т. е. Рг {X < х) = F (х). Предположим, что и случайная выборка из равномерного распределения на интервале [0,1], и пусть х — F (и). Тогда х является случайной выборкой из распределения X, поскольку Рг Pt[F(X) < F(x)\=Pr {U <F(x)}9 так как U равномерно распределена на [0,11. Простым примером служит экспоненциальное распределение, для которого F (х) = 1 — ехр X Х(—х/в). Положив и— F (jc), получим обратную функцию х — = — 9 log A — и). Поскольку 1 — U имеет то же распределение, что и Uу можно считать, что х = — Э log и имеет экспоненциальное распределение. Этот метод так прост, как только можно пожелать. Для других непрерывных распределений, таких, как нормальное, существуют значительно более быстрые методы, чем те, которые опираются на обращение функции распределения. Случайные величины с нормальным законом распределения. Наиболее простым методом получения случайных величин, распределенных по нормальному закону, является модифицированный метод Бокса — Мюллера (этот метод обычно называют полярным методом Марса- льи и Брэя). Возьмем их и и2 независимо из равномерного распределения на [—1, 1] (не на [0, 1], как ранее). Пусть w = и\ + и\. Если w >1, то необходимо выбрать новую пару равномерно распределен- 274
ных случайных чисел (это означает, что пары чисел отклоняются с вероятностью 0,21). Положим и возьмем хг = uxv, xt = u2v (логарифм, как всегда, по основанию е). Обратитесь к работе А. Эткинсона и М. Пирса [13], где изложены основы теории, лежащей в основе этого метода г. Эткинсон и Пирс уделяют очень много внимания методам генерирования величин с нормальным законом распределения. Проблемы построения быстрого и надежного датчика случайных величин для любого, распределения занимают многих специалистов. При использований метода Монте-Карло и тому подобных имитаций скорость датчика случайных чисел во многих случаях может оказаться определяющим фактором объема выполненных работ. В этом случае для увеличения скорости уместно основную часть алгоритма записать на языке, близком к машинным кодам компьютера. Случайные выборки из гамма- и бета-распределений. Плотность вероятности случайной переменной с гамма-распределением с параметрами а и Э выражается формулой ' ' ' 6Г (a) Достаточно рассмотреть случай, когда масштабный множитель G равен 1. Если 9 Ф 1, то полученная переменная должна быть умножена на 6. Если 2a = v — целое число, гамма-распределение совпадает с распределением х-квадрат с v степенями свободы (параметр масштаба Х-квадрат <т2 = 0/2). Переменная с распределением х-квадрат с v — 1 может быть получена как квадрат переменной с нормальным законом распределения. При a = 1 (v = 2) распределение становится экспоненциальным, для которого предложен метод в начале этого параграфа. Для a > 1 применяется следующий простой метод: 1) положим а = Bа — 1)~1/2, Ь = а — log 4 и с = а + а; 2) получим пару независимых чисел их и ц2, равномерно распределенных на [0,1]; 3) положим v = a log [иг/A — иг)] и х = a exp (и); 4) если b + cv — х > log (u\ ы2), то примем х за требуемую переменную с гамма-распределением, 6 другом случае перейдем к шагу 2. Этот метод можно улучшить разными способами (см. [421). Однако если важна скорость вычислений, более предпочтительным является метод, предложенный Дж. Аренсом и Ю. Дитером [11. 1 Другой распространенный метод генерирования псевдослучайных чисел с нормальным распределением основан на центральной предельной теореме и заключается в сложении достаточно большого числа (например, 12) равномерно распределенных чисел. — Примеч. ред. 275
Алгоритм Джонка обеспечивает простой способ получения переменных с бета-распределением (из которых могут быть получены переменные с F-распределением). Кроме того, он пригоден для случайных переменных с гамма-распределением при а < 1 (см. [13]). Случайная переменная у подчиняется бета-распределению с параметрами аир, если ее плотность имеет вид: В (а, р) где В (а, ($,) = Г (а) Г (Р)/Г (а + Р). При их и */2, независимо и равномерно распределенных на [0,1], алгоритм сводится к следующему: 1) пусть v} - и\/а , v2 - и\1\ р, а, >0; 2) если w = v1 + v2 < 1, положим у = и,/а\ в других случаях следует взять новые иг и и2 и перейти к шагу 1. Если требуется сгенерировать переменную с гамма-распределением, сначала генерируется переменная у, имеющая бета-распределение с параметрами аи 1 — а. Если z — переменная с экспоненциальным распределением, то х = yz имеет гамма-распределение. Еще раз подчеркнем, что предложенные алгоритмы не являются наиболее эффективными. Способы получения случайных переменных с распределением Пуассона обсуждаются в работе [2]. Дж. Арене и К. Корт [31 предлагают общий метод для эффективной выборки из широкого круга функций распределений. 9.4. РЕКУРРЕНТНЫЕ СООТНОШЕНИЯ В этом параграфе читателю предлагаются простые примеры использования рекуррентных соотношений, которые приводят, как правило, к алгоритму с хорошими численными свойствами. При этом не имеет значения, может ли функция быть выражена алгебраически. С теорией рекуррентных соотношений читатель может познакомиться по другим источникам. Так, в работе [186] дается краткое введение в эту теорию. Л. Фокс и Д. Майерс в [821 включили главу о вычислениях с рекуррентными соотношениями. Биномиальные вероятности. Пусть В (х\ п, я) — вероятность того, что событие встречается точно х раз в последовательности из п испытаний по схеме Бернулли. В случаях, когда требуются более точные результаты, чем при аппроксимации нормальным распределением, вычисления могут быть основаны на любом из трех уравнений (полагаем В (х\ п, я) = 0 для х < 0 или х >п): A-~лГ-х, D.1) 276 В(х\ п, n)^nB(x—U я—1, я) + A— п)В{х\ п— 1, я), х-0,...,л, D.2)
B(x+l\nt n)~B(x;n, n)fxt х-1,2,..., л. D.3) В уравнении D.3) fx = (л— x) nl[(x + 1) A — я)]. Предположим, что требуется вычислить все вероятности В (х\ п, я), которые больше некоторого малого положительного числа е. Прямое использование уравнения D.1) становится неудовлетворительным, когда один из множителей слишком велик или слишком мал для представления с плавающей запятой в компьютере. Уравнение D.2) является рекуррентным соотношением по п. Оно позволяет обойти проблемы, связанные с переполнением памяти ЭВМ, но требует намного больше вычислений, чем алгоритм, основанный на применении уравнения D.3), который является рекуррентным по х. Пусть х — значение х, которое максимизирует В (х\ я, л), и пусть р — В (х; п, я). Тогда легко показать, что 1с — наименьшее целое, которое больше выражения (я + 1) я — 1 или равно ему. Другие способы выбора х вблизи моды распределения могут быть одинаково хороши. Уравнение D.3) делает возможным вычисление В (х; я, я) / р последовательно для х = х — 1, х — 2, ... и для х = 1с + 1, х + 2, ... . В каждом случае вычисления продолжаются до того, как величина В (х\ л, я) / р ~ 0. В конце р находится из требования равенства единице суммы вероятностей. Классическая задача размещения и ее обобщения. Шарики по очереди случайно помещаются в один из А ящиков. Пусть Р (х\ п) — вероятность того, что на этапе, когда п шариков размещены в ящики, х ящиков остаются пустыми. Тогда р (х; п) ,-,I±L Я(лг+ 1; /1— 1) ^ -^—^ Р (х; п— 1). D.4) h h Шарик с номером п может попасть как в один из дс + 1 пустых ящиков, уменьшив их число на единицу, так и в один из Л — х ящиков, которые уже содержат шарики. При этом число пустых ящиков не изменяется. Вычисления начинаются с Р (А — 1; 1) = 1; Р (х; 1) = 0 для хфк— 1. У.Феллер 177, параграф IV. 2] приводит комбинаторную формулу для Р (х\ п). Она требует суммирования выражений с чередующимися знаками, и, за исключением некоторых простейших случаев, с ее помощью трудно обеспечить приемлемую точность. Уравнение D.4) предпочтительнее, так как на каждом шаге складываются положительные величины. (Для некоторых задач асимптотическое приближение распределения Пуассона, предложенное Феллером 177], обеспечивает возможность преодолеть трудности применения комбинаторной формулы.) Уравнение D.4) допускает обобщение, в котором множители (х + 1)/А и (п—x)/h заменяются более общими множителями рг+1 и 1 — р*, так что P(jc;n)«px+1P(x+l;n-l) + (I-p,)P(jp;n-i). D.5) При х пустых ящиках рх является вероятностью того, что следую- 277
щий шарик помещается в пустой ящик. В уравнении D.4) рх —- х/п. В [102] рассмотрено обобщение уравнения D.4): ящики выбираются случайно, и затем в них помещаются шарики только с вероятностью т, так что в уравнении D.5) рх = xxlh. Задача описания поведения ос, паразитирующих на куколках мухи (см. [531), привела к рассмотрению других значений для рх. Концептуально куколки мухи соответствовали ящикам, а яйца, откладываемые осами в куколки, — шарикам. Рассмотрим опыт, в котором у самки осы есть выбор среди небольшого количества куколок. Известно, что она прежде чем откладывать яйца, проверяет, не занята ли уже куколка. Если куколка занята, самка может отправиться на поиски другой. В качестве правдоподобного приближения примем, что куколки встречаются случайно. Если куколка свободна, самка откладывает яйцо. Если юна уже заражена паразитом, то яйцо будет отложено только с вероятностью б, где 0 < 6 < 1. Это приводит к ~Ь)р1° D-6) т. е. рг= Рассмотренная модель с ограниченной популяцией является одной из возможных версий бесконечной популяционной модели, которая обсуждается в [471. Преимущество уравнений D.5) и D.6) состоит в том, что модель легко трансформировать, меняя определение рх. 9.5. СОРТИРОВКА И РАНЖИРОВАНИЕ Методы сортировки и поиска широко освещаются в специальной литературе (см. например, ИЗО]). Если нужно упорядочить не более 50 элементов, можно применить такой простой алгоритм, как метод пузырька. Этот метод эффективен для данных, которые уже почти упорядочены. Для случайно расположенных данных ожидаемое число операций сравнения имеет порядок п2/2. Другим хорошим методом для множества данных, близкого к упорядоченному, является сортировка -вставками, которая, как правило, намного «быстрее», чем метод пузырька. Для общего применения к данным, расположенным в случайном порядке, которые должны быть упорядочены в памяти на том же месте, рекомендуется алгоритм быстрой сортировки Хоара. Ожидаемое число сравнений для этого метода приблизительно равно п log (n) (см., например, [1991). Алгоритм Синглтона в САСМ реализует метод быстрой сортировки. Существуют версии на Фортране и Алголе. Альтернативную улучшенную версию на Фортране быстрой сортировки Синглтона можно найти в [143]. Дальнейшие модификации предложены в [157]. Соответствующий алгоритм можно назвать алгоритмом средней сортировки. Программы на Бейсике для различных методов сортировки, включая метод пузырька и быструю сортировку, приведены в [48]. 278
Большие сортировочные задачи, когда огромное множество данных должно содержаться во внешней памяти (на диске или ленте), требуют индивидуальной программы, написанной специалистами, хорошо знакомыми с конкретной компьютерной системой. Вычисления с рангами. Часто в статистических приложениях необходимо найти сумму рангов, связанных с некоторым подмножеством данных. Такая сумма может быть прямо найдена, хотя и нег-очень эффективно, с помощью индикаторных функций следующим образом. Пусть К = {*!, 1а, -.., in} — подмножество полного множества индексов 1, ..., п . Определим i 0, если 0, если Xt^Xj. Будем считать, что если две или более величины равны между собой, та каждая получает среднее из рангов, которые были бы приписаны им, если бы они были различны. Наименьший элемент имеет ранг, равный единице. Тогда сумма рангов элементов с индексами из множества К равна 7 4 *(* + 1)+ 4 2 * /ек. При k = 1 эта формула проверяется непосредственно, в общем случае она доказывается обычной индукцией. Применение этого результата приводит к очень простому алгоритму для вычисления статистик критерия для одно- и двухвыборочных критериев Уилкоксона и для критерия Краскала — Уоллиса с несколькими выборками. Так, сумма положительных рангов одновыборочного критерия Уилкоксона равна Двухвыборочный критерий Уилкоксона (называемый также критерием Манна — Уитни) предполагает наличие двух множеств наблюдений {**, i¦ = 1, ..., m) и {yj9 /= 1, ..., п). Критерий может быть основан на сумме Тх рангов jc-ob, когда х и у упорядочиваются совместно. Тогда, если количество элементов в первом множестве наблюдений равно ту а во втором п, то можно показать, что где суммирование ведется по 1 < j < m и 1 < / < /г. Аналогичная формула может быть найдена для статистики однофакторного дисперсионного анализа Краскала — Уоллиса (см. [133]). Использование этих формул неудовлетворительно в случаях больших выборок из-за трудностей, подобных тем, что возникают при применении метода пузырька. 279
Снова о задаче оценивания параметра положения в двухвыборочном критерии. Оценка параметра положения в в двухвыборочном критерии Уилкоксона является медианой упорядоченного множества разностей {Уз — xt\ i = h ..., т; j = 1, ..., п). Пусть U @) — число разностей, которые больше или равны 9. Задача заключается в решении уравнения U (в) =¦ тп/2. Функция U (•) монотонна, и, следовательно, это уравнение может быть в принципе решено одним из стандартных итеративных методов решения нелинейных уравнений. При этом необходимо решить две задачи: а) выбрать подходящее начальное приближение для 9; б) найти удовлетворительный способ вычисления U (9) (желательно начать с раздельного упорядочивания х -ов и у-ов). Аналогично может быть выполнен расчет других порядковых статистик для определения доверительных интервалов. В [148] приведена программа на Фортране (САСМ, алгоритм 516), основанная на этих идеях. Для больших множеств данных при этом достигается существенная экономия (по сравнению с методами, требующими упорядочивания всех тп разностей). Частичное упорядочивание, обсуждаемое в [38, параграф 3d], обеспечивает альтернативный подход к вычислению порядковых статистик. 9.6. НЕКОТОРЫЕ ПОЛЕЗНЫЕ АППРОКСИМАЦИИ Кроме некоторых простых распределений, задача нахождения процентных точек или связанных с ними квантилей не может быть решена аналитически (это касается и таких распределений, как нормальное, t-y F- и ^-распределенияI. В целях получения результатов с любой требуемой точностью для решения данной задачи может быть использован ряд приближений. При этом желательно приближение, дающее быструю сходимость для разных значений вероятностей. Возможно, окажется необходимым переключение между разными формами приближения. Применение точного алгебраического выражения здесь, однако, предпочтительнее. Иногда достаточно ограничиться несколькими первыми членами быстро сходящегося ряда приближений. При современных аппроксимациях (таких, как, например, аппроксимация Бисли и Спрингера, рис. 9,5) используется приближение рациональной дробью (многочлен/многочлен) с тщательно выбранной функцией аргумента. Возможности компьютеров облегчают исследование альтернативных форм аппроксимации, и улучшенные аппроксимации регулярно освещаются в литературе. Applied Statistics (название, под которым известна серия С журнала Королевского статистического общества (JRSSQ) в этом смысле является прекрасным источником. 1 Квантилью кумулятивной функции распределения F (х) уровня вероятности Р называется такое значение хр> для которого F (хр) = Р; yq называется Q % -ной точкой, если 1 — F (yQ) = Q/100. Таким образом, квантиль х и процентная точка у связаны между собой соотношением хр = у100 A — Р). — Примеч. ред. 280
5 REM Рис.9.1 10 PRINT "ENTER STANDARDIZED NORMAL DEVIATE" 15 INPUT Z 20 GOSUB 5010 25 PRINT "COMULATIVE NORMAL PROBABILITY'^', P3 30 STOP 5000 REM *ПРОСТАЯ АППРОКСИМАЦИЯ НОРМАЛЬНОЙ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ* 5001 REM HAMAKERA978^APP.STAT.27,76-77. 5002 REM ПЕРВЫЕ ДВЕ ДЕСЯТИЧНЫЕ ЦИФРЫ ТОЧНЫЕ 500.3 REM ОШИБКА В ТРЕТЬЕЙ ДЕСЯТИЧНОЙ ЦИФРЕ НЕ БОЛЬШЕ +1 5004 REM 5005 REM ДЛЯ ЗНАЧЕНИЙ ВЕРОЯТНОСТЕЙ 0.00001 ИЛИ МЕНЬШЕ 5006 REM РЕЗУЛЬТАТ ИМЕЕТ ПЕРВЫЕ ДВЕ ЗНАЧАЩИЕ ЦИФРЫ. 5007 REM 5010 T30.806*ABS(Z)*A-0.018*ABS(Z)) 5015 P3O.5+0.5*SGN(Z)*SQR(l-EXP(-T3~2)) 5020 RETURN 9999 END Рис. 9.1. Аппроксимация Хамакера нормальной функции распределения Здесь приводятся некоторые программы на Бейсике, реализующие наиболее важные и полезные аппроксимации. В отдельных примерах несколько операторов Бейсика помещены в одной строке с косой чертой (\) в качестве разделителя. Для ЭВМ, отличных от PDP-11, разделителем обычно служит двоеточие (:). На рис. 9.12 представлен пример функции пользователя, не реализованной в некоторых версиях статистических пакетов на Бейсике. Иногда в связи с этим при применении программ могут возникнуть определенные трудности. Все имена переменных состоят или из одной буквы или из буквы с цифрой. Боль- 5 REM РИС.9.2 10 PRINT "ENTER COMUUTIVE PROBABILITY" 15 INPUT P2 20 IF P2*(l-P2)<=0 THEN 40 25 GOSUB 5035 30 PRINT "STANDARD NORMAL DEVIATE =*';Z 35 STOP 40 PRINT P2;"D0ES NOT LIE BETWEEN 0 AND 1" 45 STOP 5030 REM *ОБРАТНОЕ К НОРМАЛЬНОМУ РАСПРЕДЕЛЕНИЮ* 5031 REM ПРИБЛИЗИТЕЛЬНО ДВЕ ЗНАЧАЩИЕ ЦИФРЫ ТОЧНЫ 5032 REM ДЛЯ ОТКЛОНЕНИЙ МЕНЬШЕ 4х. 5033 REM HAMAKER A978). APR STAT. 27, 76-75. 5035 T2SQR(-LOGD*P2*A-P2))) 5040 26GN(P2-.5)*(L238*T2*(l+.0262*T2)) 5045 RETURN 9999 END Рис. 9.2. Аппроксимация Хамакера обратной нормальной функции 28!
5 REM Рис.9.3 10 PRINT "ENTER NORMAL DEVIATE" 15 INPUT Zl 20 GOSUB 5505 25 PRINT "UPPER TAIL PROBABILIT?*f;Ql 30 STOP 5500 REM «ВЫЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ С НОРМАЛЬНЫМИ ХВОСТАМИ* 5501 REM SEE M0RANA980),BI0METRIKA 67,675-676. 5502 REM В ЗАВИСИМОСТИ ОТ МАШИННОЙ ТОЧНОСТИ ЭТА ПРОГРАММА ДАЕТ 5503 REM ДО 9-ти ТОЧНЫХ ДЕСЯТИЧНЫХ ЦИФР ДЛЯ ОТКЛОНЕНИЯ MEHblHF 7 5505 S90 5510 C2SQRB)/3*Z1 5515 FOR Ю ТО 12 5520 154+0.5 5525 SSS9+SINA5*C2)*EXP(-15~2/9)/15 5530 NEXT I 5535 QK).5-S9/3.141593 5540 RETURN 9999 END Рис. 9.З. Аппроксимация Морана нормальной функции распределения 5 REM Рис.9.4 10 PRINT "ENTER NORMAL DEVIATE" 15 INPUT 1 20 GOSUB 5545 25 IF ZO THEN PRINT "LOWER"; 30 IF 20 THEN PRINT "UPPER"; 35 PRINT "UPPER TAIL PROBABILIT?±';Q1 40 STOP 5545 REM *ФУНКЦИЯ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ* 5546 REM МОДИФИКАЦИЯ ЗЕЛЕНА И СЕВЕРО АППРОКСИМАЦИИ ХАСТИНГСА. 5547 REM ABRAMOWITZ & STEGUNA964)ip.932,EQ.26.Z16 5548 REM АБСОЛЮТНАЯ ОШИБКА МЕНЬШЕ 0.00001 5550 ZMBS(Z) 5555 IF ZM.9 THEN 5580 5560 T91/A+O.33267*Z1) 5565 АЮ.4361836 \ A2-0.1201676 \ A3O.937298 5570 QtT9*(Al+A2*T9+A3*T2^2)/EXP(Z1^2/2)/SQRB*3.141593) 5575 RETURN 5580 REM АППРОКС, ПИЗЕРА И ПРАТТА A78,1969)ДЛЯ ПРИМ.В ХВОСТАХ РАСПР 5581 REM ОТНОСИТЕЛЬНАЯ ОШИБКА ВСЕГДА МЕНЬШЕ 0.0005 5585 MH-1/(Z1 ~2+3-l/(.22*(Zr2+3.2))) 5590 QtMl/Zl/KT@.21714724*Zr2-*).39909) 5595 RETURN 9999 END Рис. 9.4. Еще одна аппроксимация нормальной функции распределения 282
5 REM РИС.9.5 10 PRINT "ENTER COMULATIVE NORMAL PROBABILITT1 15 INPUT P 20 GOSUB 5610 25 PRINT " NORMAL DEVIATE ^';X0 30 STOP 5600 REM «gflAET НОРМАЛЬНОЕ ОТКЛОНЕНИЕ.ХО***** 5601 REM *****ТАКИЕ,ЧТО Р-ЛЕВЫЙ КОНЕЦ ХВОСТА W 5602 REM ВЫСОКАЯ ТОЧНОСТЬ.СМПОДРОБИЕЕ В ТЕКСТЕ. 5603 REM 5604 REM МОДИФИКАЦИЯ РАССЕЛА, МИЛЛАРА И Д.Х.М 5605 REM BEASLEY AND SPRINGER A977),ALG0RITHM AStU 5606 REM APP.STAT. 26, 118-121 5607 REM 5608 REM СТРОКА 5621 ДАЕТ КОНТРОЛЬНЫЕ СУММЫ 5609 REM ДЛЯ ПРОВЕРКИ ПРАВИЛЬНОСТИ ВВОДА. КАЖДОЕ ЧИСЛО 5610 REM ЯВЛЯЕТСЯ СУММОЙ АБСОЛЮТНЫХ ВЕЛИЧИН 5611 REM КОЭФФИЦИЕНТОВ В СТОЛБЦЕ ЦИФР НАД НИМ 5612 REM 5615 READ A0,Al,A2,A3,Bl.B2,B3,B4,C0,Cl,CaC3,Dl,D2 5616 DATA 2.506628a 18 6150006, 41.3911977,-25.4410605 5617 DATA 8.4735109, 23.0833674, -21.0622410, 3.1308291 5618 DATA -г 78 71893, -2.2979648, 4.8501413, 2.3212128 5619 DATA 3.5438892, 16370678 5620 REM 5621 REM 17.3112176 45.6334006 67.3035800 30.8931024 5622 REM В CTPOKF 5621 ПОКАЗАНЫ КОНТРОЛЬНЫЕ СУММЬКОДНА НА СТ.) 5625 Qf-0.5 5630 IF ABS(QH.42 THEN 5655 5635 R*}*Q 5640 X<3*(((A3*RM2№A1)*R~AO) 5645 X0*/((((B4*R ^B3)*R+B2)*RHB1)*R-1) 5650 RETURN 5655 ftP 5660 IF QO THEN M P 5665 IF RO THEN 5695 5670 RSQR( I.OG(R)) 5675 X<((C3*RbC2)*R+Cl)*R+C0) 5680 XOX/((D2*R+D1)*R4) 5685 IF QO THEN XO-XO 5690 RETURN 5695 PRINT P;"DOES NOT LIE BETWEEN 0 AND Г 5700 RETURN 9999 END Рис. 9.5. Аппроксимация Бисли и Спрингера обратной нормальной функции распределения 283
5 REM РИС.9.6 10 PRINT "ENTER CHI-SQUARE STATISTIC, D.F." 15 INPUT XaD2 20 IF D2U THEN GOSUB 5050 30 IF D231 THEN 50 35 GOSUB 5110 40 PRINT "EQUIVALENT NORMAL DEVfATt) TS";Z1 45 GOSUB 5505 50 PRINT "UPPER TATL PROBABTUTY~";Q1 55 STOP 5050 REM В СТРОКАХ 5065-5085 ПРКДСТЛНЛКНА ТОЧНАЯ АШТРОКС. 5051 REM СМ.ПРИКЛАДНАЯ СТАТИСТИКА 2ЯA980), 113 114. 5052 REM АППРОКСИМАЦИЯ ПОЛНОЙ ГАММА ФУНКЦИИ 5053 REM НИЖЕ ДМТП0 КРАЙНЕЙ MfcPE ПЯТЬ ТОЧНЫХ ДЕС. ЦИФР 5055 DEF FNL(A2H/A2*A2)*A 1/Л2*П'ЗО 1/A2*A/1O5-1/(L4O*A2)))) 5056 REM ПРИМЕНЕНИЕ FNL В ПРИБЛИЖЕНИИ СТИРЛИНГА 5057 REM ЛОГАРИФМА ПОЛНОЙ ГАММА ФУНКЦИИ.ЯЕЕ ABRAMOWITZ & 5058 REM STEGUM HANDBOOK OF MATltFUNCSECTfON 6.141 5060 7лХ2/2 \ Z2-7*Z 5065 Oi \ (VI \ IHJ/2 \ АО \ ПЭАУ2 5070 &А+1 \ O€*Z/A 5075 (KJrC 5080 IF C/G Я.5Е-6 THEN 5070 5085 G€*EXP(D*LOG(Z) 1K*FNL(IK*D3) (D3 0.5)*L0G(D3)fD3-2)*(Dfl) 5090 QH0-G/SQRB*3.14159) 5095 RETURN 5100 REM * ПРАВЫЙ ХВОСТ РАС ПРЕД ЕЛКНИЯ ХИ-КВАДРАТ* 5101 REM ВЫЧИСЛЯЕТ НОРМАЛЬНОЕ ОТКЛОНЕНИЕ. 5102 REM PFJZER &PRATTA968),JASA 63.1416-1456. 5103 REM МАКСИМАЛЬНЫЕ ОШИБКИ В ВЫЧИСЛЕННЫХ ВЕРОЯТНОСТЯХ 5104 REM 4 D.F.:0.00058 5105 REM 11 D.F.:0.000046 5106 REM 30 D.F.-.0.0000050 5107 REM СМ. ТАКЖЕ МОХАМЕД И ЛОЗИ A976), 5108 REM ACM TRANS ON MATH SOFTWARE 2,393 -395 5109 REM 5110 DKJ-1 5115 T301/X2 5120 D3#2-D2+2/3-0.8/D2 5125 REM NOW CALCULATE G 5130 GOSUB 5710 - 5135 ZHK*SQR(A+G)/B*X2)) 5140 RETURN 5J41 REM ***** КОНЕЦ ВЫЧИСЛЕНИЙ НОРМАЛЬНОГО ОТКЛОНЕНИЯ ВСТАВИТЬ СТРОКИ 5500-5540 ИЗ РИС.9.3 ВСТАВИТЬ СТРОКИ 5700 5765 ИЗ РИС.9.9 9999 END Рис. 9.6. Аппроксимация Пизера и Пратта функции распределения /-квадрат 284
5 REM РИС.9.7 10 PRINT "ENTER T-STATISTIC, D.F* 15 INPUT ТШ 20 IF DM THEN 55 25 REN ПРИБЛИЖЕНИЕ ДЛЯ DM ДЛЯ ЛЮБОГО НЕ ЦЕЛОГО Dl 30 IF DMNT(Dl) THEN 55 40 GOSUB 5155 45 PRINT "PROBABILITY IN UPPER TAIL =*';Q1 50 STOP 55 GOSUB 5200 60 PRINT "EQUVALENT NORMAL DEVIATE ^;Z1 €5 REM ТЕПЕРЬ НАЙДЕНА ВЕРОЯТНОСТЬ ХВОСТА РАСПРЕДЕЛЕНИЯ ЭТОГО НОРМАЛЬНОГО ОТКЛОНЕНИЯ 70 GOSUB 5505 75 PRINT "PROBABILITY IN UPPER TAIL ^;Q1 80 STOP 5150 REM НОРМАЛЬНОЕ ОТКЛОНЕНИЕ СООТВЕТСТВУЕТ ДАННОЙ t-СТАТИСТИКЕ 5151 REM SEE G.W.HILL:ALG.396,C.A.C.M13,617-619 5152 REM AND M.EL L0ZYA982USTATIST.C0MPUT.SIMUL.14,179-189 5153 REM 5155 IF DM THEN Q1ATN(T1)/3.14159265 5160 IF D*2 THEN 0>5*Tl/SQR(Tr2+2) 5165 IF D16 THEN Q> (ATN(Tl/SQRC))+Tl*SQRC)/(TT2+3))/3.141 59265 5170 IF DM THEN Q1t5*T1*A+2/(T1a2+4))/SQR(T1a2+4) 5175 Qfe5-Ql 5180 RETURN 5185 REM 5190 REM 5195 REM 5200 IF DM THEN 5210 5205 PRINT "RESULTS ARE INACCURATE FOR SMALL" ¦5206 PRINT " NON-INTEGRAL DEGREES OF FREEDOM." 5207 REM ЭКВИВАЛЕНТНАЯ ОШИБКА В ВЕРОЯТНОСТЯХ, МЕНЬШИХ 0.0000005, ДЛЯ СТЕПЕНИ СВОБОДЫ 5 5210 А901-0.5 \В948*А9~2 \Т9*ГГ2/01 5215 IF Т9ХХ04 THEN Z8*9*L0G(l+T9) 5220 IF T9O.04 THEN Z&A9*(((-T9*0.75 +10)*T9/3.0-0.5)*T9+l)*T9 5225 PTK@.4*Z8+3.3)*Z8+24)*Z8+85.5 5230 B?O.8*Z8~2+100+B9 5235 ZJ<(-P7/B7+Z8+3)/B9+10)*SQR(Z8) 5240 RETURN 5241 REM ВСТАВИТЬ СТРОКИ 5500-5540 ИЗ РИС.9.3 9999 END Рис. 9.7. Аппроксимация Хилла функции ^-распределения шинство микрокомпьютерных версий Бейсика допускают имена переменных, состоящих лишь из двух символов. Использование таких имен в представленных ниже программах позволяет избежать возможные неприятности. Комментарии к программам на Бейсике будут краткими. Рассмотрим сначала нормальное и обратное нормальное распределение. Две аппроксимации Хамакера (рис. 9.1 и 9.2) дают умеренную точность, но достаточную для многих практических целей. Высокоточное приближение к нормальной функции распределения вероятностей, отличающееся простотой программы, представлено на рис. 9.3. Это приближение, однако, требует больше машинного времени, чем желательно при многократном повторении вычислений. Программа на рис. 9.4 обеспечивает более быстрое приближение к нормальной функции распределения, 285
которое тем не менее обладает значительной точностью. Программа на рис. 9.5 позволяет получить высокоточное приближение к обратной нормальной функции. Программа на рис. 9.5 округляет до 9 десятичных цифр константы, которые Бисли и Спрингером [21] представлены с 12 или 13 десятичными цифрами. Ошибка вычислений, основанных на аппроксимации, показанной на рис. 9.5, не превышает изменения нормальной функции распределения на 0,3-10~8. На практике численная ошибка может превышать эту величину на 3-2~л на компьютерах, которые сохраняют h двоичных цифр результата арифметического вычисления и выполняют арифметические операции в двоичной системе счисления (а не в шестнадцатерич- ной или восьмеричной). При использовании шестнадцатеричной арифметики ошибка становится больше на 20-2~л. Другое, более простое и иногда полезное приближение к обратной нормальной функции приведено А. Куртисом в [51, с. 139—142]. Для всех квантилей оно дает максимальную относительную ошибку 6,5-10~5 в вычисленных хвостах распределения вероятностей. На рис. 9.6 представлено приближение функции распределения Х-квадрат как для обычных, так и для обобщенных степеней свободы. Асимптотический ряд приближений используется для степеней свободы менее 11. Для обобщенных степеней свободы существует конечный рад приближений, существенно сокращающий объем вычислений (см. [142]). Аппроксимация Пизера и Пратта, применяемая ранее для степе- 5 REM РИС.9.8 10 PRINT "ВВЕДИТЕ ВЕРОЯТНОСТЬ,СТЕПЕНЬ СВОБОДЫ ДЛЯ t-РАСПРЕДЕЛЕНИЯ" 15 INPUT P,D5 20 GOSUB 5250 25 PRINT "T-DEVIATE =*';T1 30 STOP 5250 REM ^МОДИФИКАЦИЯ ГОЛЬДБЕРГА И ЛЕВИНА***** 5251 REM «""""ПРИБЛИЖЕНИЯ ПИЗЕРА***** 5252 REM GOLBERG AND LEVINE 1946.ANNALS OF 5253 REM MATHEMATICAL STATISTICS 17,216-225 5254 REM ДЛЯ 0.00№С.999 ДАЕТ ПО КРАЙНЕЙ МЕРЕ 5255 REM ДВЕ ТОЧНЫХ ДЕСЯТИЧНЫХ ЦИФРЫ ДЛЯ СТЕПЕНИ СВОЕЮДЫ 10, 3 ДЛЯ СТЕПЕНИ СВОБОДЫ 20. 5260 РФР*3.141593 5265 IF DM THEN TKC0S(P4)/SIN(P4) 5270 IF D5€ THEN T*SQR(l/B*P*(l-P))-2)*SGN(P-0.5) 5271 REM ТОЧНАЯ ФОРМУЛА ДЛЯ СТЕПЕНЕЙ СВОБОДЫ 1 ИЛИ 2 5275 IF (D5-1)*(D5-2K) THEN RETURN 5280 GOSUB 5600 5285 ТИ@*а+<1+Х0л2)/D*05МЗ+16*Х0л2+5*Х0А4)/(96*05л2)) 5290 RKTURN ВСТАВИТЬ СТРОКИ 5600-5700 ИЗ РИС.9.5 9999 FND Рис. 9.8. Аппроксимация Фишера для обратного /-распределения 286
5 REN РИС.9.9 10 PRINT'ENTER F-STATISTI(ENUMERATOR DF.DENOMINATOR DF" 15 UNPUT F2,DXD2 20 IF D1+D22 THEN 70 25 IF D*2 THEN GOSUB 60 30 IF 032 THEN GOSUB 60 35 GOSUB 5310 40 PRINT'EQUIV.NORMAL DEVIATE =*';Z1 45 GOSUB 5505 50 PRINTTAIL PROBABILITY ^;Q1 55 STOP 60 PRINT'PRECISION MAY BE LESS THAN 2 DECIMAL PLACES.'1 65 RETURN 70 PRINT APPROXIMATION CANNOT BE USED FOR D.F. GIVEN" 75 STOP 5300 REM «: ФУНКЦИЯ F-РАСПРЕДЕЛЕНИЯ 5301 REM PEIZER &PRATTA968*JASA 63Д416-1456. 5302 REM МАКСИМАЛЬНАЯ АБСОЛЮТНАЯ ОШИБКА ДЛЯ СТЕПЕНЕЙ СВОБОДЫ D1.D2 5303 REM 0.0008 ЕСЛИ DID24; 0.005 ЕСЛИ DID2& 5304 REM SEE LING A978UASA 73.274-283. 5310 P8O2/(D1*F2+D2) 5315 Qat-P8 5320 N8<Dl+D2-2)/2 5325 S&<D2-l)/2 5330 Tft(Dl-l)/2 5335 DdS8+l/6-(N8+l/3)*P8+.04*(Q8/D2-P8/Dl+(Q8 -.5)/(DM>2)) 5340 T3S8/N8/P8 5345 GOSUB 5710 5350 GKJ 5355 T3T8/N8/Q8 5360 GOSUB 5710 5365 G20 5370 ZH)8*SQR((l+Q8*Gl*P8*G2)/(N8+l/6)/P8/Q8) 5375 RETURN 5380 REM *****КОНЕЦ АППРОКСИМАЦИИ ПИЗЕРА И ПРАТТА ФУНКЦИИ F-РАСПРКДЕЛЕНИЯ ВСТАВИТЬ СТРОКИ 5500-5540 ИЗ РИС.9.3 5700 REM ««ВЫЧИСЛЕНИЕ G-ФУНКЦИИ***** 5701 REM УПОТРЕБЛЯЕТСЯ В ПРИБЛИЖЕНИИ ПИЗРРА И 5702 REM ПРАТТА ФУНКЦИИ F И ХИ-КВАДРАТ РАСПРЕДЕЛЕНИЙ. 5703 REM В СТРОКАХ 5730-5745 -ПРИБЛИЖЕНИЕ К G, 5704 REM ДЛЯ КОТОРОГО ОШИБКА ВЫЧИСЛЕНИЙ НА МАШИНАХ С 7-РАЗРЯДНОЙ ТОЧНОСТЬЮ 5705 REM МИНИМАЛЬНА ПРИ Т20.9 5710 (Я 5715 IF T20 THKN RETURN 5720 REM 5725 IF ABSA-T2>1 THEN 5755 5730 GO 5735 FOR J4 TO 5 5740 OG+2*(bT2rJ/((J+l)*(J+2)) 5745 NEXT J 5750 RETURN 5755 G<l-T2^2H-2*T2*L0G(T2))/(l-T2r2 рис> g.9. Аппроксимация Пи- 5760 RETURN зера и Пратта функции F-pac- 5765 REM *****КОНЕЦ ВЫЧИСЛЕНИЯ G-ФУНКЦИИ пределения (см. параграф 9.6) 9999 END 287
ней свободы больше или равных 11, превосходит все другие предложенные для высоких степеней свободы, если не требуется повышенной точности. Распределение х-квадрат со степенями свободы, которые не обязательно являются обобщенными, часто служит для приближения других, менее поддающихся обработке распределений. В качестве примера можно привести распределение статистик отношений правдоподобия, использованное в критерии группировки А. Скоттом и М. Кноттом [191], [1921. В более ранней статье приведена менее точная версия аппроксимации. Аппроксимация для /-распределения представлена на рис. 9.7 и 9.8. Более простая и менее точная аппроксимация предложена Б.Бей- ли [16]. Аппроксимация на рис. 9.8 обратной функции /-распределения 5 REM РИС.9.1О 10 PRINT'GIVE F.DlDaC" 15 PRINT "WHERE P€?-STATISTIC,tf 20 PRINT " DtNUMERATOR D.F.,D2OEN0MINAT0R D.F^f 25 PRINT " CtfON-CENTRALITY PARAMETER." 30 INPUT F2,DlDaCl 35 GOSUB 5410 40 PRINT "EQUIVALENT NORMAL DEVIATE ^';Z1 45 GOSUB 5505 50 PRINT'UPPER TAIL PROBABILITY =*f;Ql 55 STOP 5400 REM ПРИБЛИЖЕНИЕ СЕВЕРО И ЗЕЛЕНА A960) HEllEHTP.F-РАСПРЕД. 5401 REM BIOMETRIKA 47,411-416 5402 REM ОБОБЩЕННОЕ ПРИБЛИЖЕНИЕ ПАУЛЬСОНА ФУНКЦИИ F-РАСПРЕД. 5403 REM ОШИБКА ОБЫЧНО НЕ БОЛЬШЕ, ЧЕМ 0.01 ДЛЯ D1.D22 5404 REM 5405 REM SEE TIKU A966XBI0METRIKA 53,606-610; 5406 REM ГДЕ СРАВНИВАЮТСЯ НЕСКОЛЬКО ПРИБЛИЖЕНИЙ 5407 REM К НЕЦЕНТРАЛЬНОМУ F-РАСПРЕДЕЛЕНИЮ. 5408 REM 5409 REM ЕСЛИ ДЛЯ F -СТАТИСТИКИ ЧИСЛИТЕЛЬ РАВЕН 5410 REM СУММЕ [7,A)+АA)Г2,ГДЕ Z(I) (H...,D1) 5411 REM НЕЗАВИСИМО РАСПРЕДЕЛЕННАЯ СЛУЧАЙНАЯ ВЕЛИЧИНА С НОРМАЛЬНЫМ ЗАКОНОВ 5412 REM С МАТ.ОЖИДАНИЕМ О И ДИСПЕРДТО ПАРАМЕТР НЕЦЕНТРАЛЬНОСТИ CttUM АЦГг 5413 REM 5420 F?(Dl*F2/(Dl+Cl)ni/3) 5425 A*2/9*(D1+2*C1)/(D1+Cir2 5430 A32/(9*D2) 5435 ZJ<A-A2)*F9+(A1-1))/SQR(A1+A2*F9~2) $440 RETURN 5445 REM*****K0HE4 ВЫЧИСЛЕНИЯ НЕЦЕШРАЛЬНОГО F РАСПРЕДЕЛЕНИЯ . 5450 REM ВСТАВИТЬ СТРОКИ 5500-5535 ИЗ РИС.9.3 9999 END Рис. 9.10. Аппроксимация Северо и Зелена нецентрального F-распределения (см. параграф 9.6) 288
5 REM РИС 9 II 10 REM 7. И Р9 (В СТРОКЕ 15) УСТАНАВЛИВАЮТСЯ ДЛЯ ВЫЧИСЛ. 11 REM ОДНОСТОРОННЕЙ 975% ДОВ.ГРАН. ИЛИ ДВУСТОРОННЕЙ 95% ДОВЕРИТЕЛЬНОЙ ГРАНИЦЫ 15 Z4.96 \ Р9О7 5 20 PRINT "CALCULATE 1-SIDED";P9;"% CONFIDENCE LIMIT FOR" 21 PRINT "FOR POPULATION PROPORTION BINOMIAL SAMPLING" 22 PRINT 23 PRINT'FOR 2-SIDED";100 2*A00-Р9);"% LIMITS.CALCULATE" 24 PRINTUPPER & LOWER 1-SIDED";P9;"% LIMITS." 30 PRINT \ PRINT "ENTER X.N" 35 INPUT XIN 40 IF X1*(N-X1K) THEN 125 45 PRINT'ENTER L IF LOWER LIMIT REQUIRED" 46 PRINT' U IF UPPER LIMIT REQUIRED" 50 INPUT A$ 55 IF A$"L" THEN 95 60 IF А$1'1Г THEN 70 65 PRINT A$,"IS NOT A LEGAL RESPONSE" \G0 TO 45 70 X4C1 \IF X=N THEN 125 75 GOSUB 5815 80 P2P8 85 PRINT SIDF.D".P9;"% UPPER LIMIT IS- K;P2 90 GO TO 135 95 RKM ПОЛУЧЕНИЕ НИЖНЕГО ПРЕДЕЛА PI ЗАМЕЩЕНИЕМ XI НА 96 RFM N-X1 И ВЫПОЛНЕНИЕ ВЫЧИСЛЕНИЙ, КАК ПРЕЖДЕ;ЗАТЕМ РН-Рв 100 Xtt-Xl \IF *N THEN 125 105 GOSUB 5815 110 РИ Р8 115 PRINT \ PRINT -SIDED";P9;"% LOWER LIMIT IS :";PW 120 GO TO 135 125 PRINTVALUE GIVEN FOR X AND\OR N IS ILLEGAL" 130 REM 135 PRINT'DO YOU WISH TO DO FURTHER SIMILAR CALCULATIONS" 140 INPUT A$ 145 IF A$aY' THEN 30 150 STOP 155 RFM 5800 REM^ПPИБЛИЖEHИE БИНОМИАЛЬНЫХ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ^ 5801 REM ПРИМЕНЯЕТСЯ ПРИБЛИЖЕНИЕ ПАУЛЬСОНА-ТАКЕУЧИ.ОПИСАН. В: 5802 REM YORITAKE FUJINOrAPPROXIMATE BINOMAL CONFIDEN. LIMITS, 5803 REM BI0METRIKAA980N7.677-681 5804 REM В СТРОКЕ 5830 ВЫЧИСЛЯЕТСЯ ВЕРХНЯЯ ГРАНИЦА БИНОМИАЛЬНОГО РАСПРЕДЕЛЕНИЯ 5805 REM ГДЕ F2 ЯВЛЯЕТСЯ ПРИБЛИЖЕНИЕМ К ТРЕБУЕМОЙ 5806 REM ВЕРХНЕЙ ПРОЦЕНТНОЙ ТОЧКЕ F-СТАТИСТИКИ СО СТЕПЕНЯМИ 5807 REM СВОБОДЫ 2*<Х+1) ИЛИ 2*(N-X)i 5808 REM ПРИБЛИЖЕНИЕ К ОБРАТНОЙ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ 5809 REM F ПОЛУЧАЕТСЯ ИЗ ПРИБЛИЖЕНИЕ ЯАУЛЬСОНА ДЛЯ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ Р 5810 REM ЕСЛИ НЕОБХОДИМО.ПОЛЬЗОВАТЕЛЬ МОЖЕТ ВВЕСТИ ТОЧНОЕ 5811 REM ЗНАЧЕНИЕ F ПРОЦЕНТНОЙ ТОЧКИ ПРЯМО В СТРОКУ 5830 5812 RF.M 5815 М/(9*(Х+1» \ АН А 5820 B4/(9*(N-X)) \ ВИ В 5825 F24(Al*Bl+Z*SQR(AT2*B-A*Br2-A*B*r2))/(Br2- B*Z~2))~3 5830 P8<XH)*F2/((N-XMX4)*F2) 5835 RETURN 5840 REM ***** KOHFU ВЫЧИСЛЕНИЯ БИНОМИАЛЫЮЙ ДОВЕРИТЕЛЬНОЙ ГРАНИЦЫ 9999 END Рис. 9 11. Приближенные доверительные интервалы для биномиального распределения (см. параграф 9.6) Зак. 1078 289>
не точна для крайних вероятностей и малых степеней свободы. Дж. Хилл в [109] приводит алгоритм, который обеспечивает точное отклонение для любой разумной вероятности и любых степеней свободы. Точные аппроксимации многочленами конкретных гистограмм t- и /^распределений предложены Дж. Букасом и X. Бурстейном в [35]. На рис. 9.9 представлена аппроксимация для F-распределения, а на рис. 9.10 — более грубая для нецентрального F-распределения. В целях быстрого вычисления точных аппроксимаций для F-распределения необходимо переключаться в пределах двух альтернативных форм рядов разложения в зависимости от того, являются ли обе степени свободы нечетными (см. [142]). Рис. 9.11 иллюстрирует применение аппроксимации к обратной функции F-распределения для получения доверительного интервала биномиальной вероятности. 5 REM РИС.9.12 10 PRINT-CALCULATE 2-SIDED CONF LIMITS FOR THE POPULATION" И PRINTCORRELATION.ASSUMING SAMPLE POINTS ARE TAKEN" 12 PRINriNDEPENDENTLY FROM A BIVARIATE NORMAL DISTRIBUTION." 13 REM ПРЕДПОЛАГАЕТСЯ.ЧТО ТОЧКИ ВЫБИРАЮТСЯ СЛУЧАЙНО 14 REM ЗАТЕМ НАБЛЮДАЮТСЯ (X.Y). ЭТО ПРЕДПОЛ НАРУШАЕТСЯ 15 REM ЕСЛИ ТОЧКИ ВЫБРАНЫ В СООТВ. С ФИКСИРОВАННЫМИ ВЕЛ X 19 REM Z0496, ЧТОБЫ ПОЛУЧИТЬ 95% ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ 20 ZO4.96 25 PRINT "ENTER R.NO OF OBS." 30 INPUT R.N2 35 IF ABS(RH.O THEN 55 40 GOSUB 5410 45 PRINT'95* CONFIDENCE LIMITS ARE";R1:"TOM;R2 50 STOP 51 REM 55 PRINT'RWDOES NOT LIE BETWEEN -1 AND +1" 5400 REM ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ 5401 REM ВИНТЕРБОТТОМ A980) АСИМПТОТИЧЕСКИЕ ПРИБЛИЖЕНИЯ 5402 REM К ДВУМЕРНОЙ НОРМАЛЬНОЙ КОРРЕЛЯЦИИ COMMUNICATIONS W 5403 REM STATISTICAL SIMULATION AND COMPUTATION П9.599-609 5404 REM ПРИБЛИЖЕНИЕ С ТОЧНОСТЬЮ ДО 3 ДЕС.ЦИФР ДЛЯ ВЫБОРОК ОБЪЕМА Ю 5405 REM ДО ЧЕТЫРЕХ ЦИФР ДЛЯ ВЫБОРОК ОБЪЕМА 25 5410 \W2~1 5415 2k5*LOG((l+R)/(l-R)) 5420 R360*R~4-30*R~2+20 5425 R*465*R~4+30*R~2»15 5430 DEF FNA(XJfX/SQR(V)-R/B*V)+X*(X'2+3*(l+R^2))/A2*V*SQR(V)) 5435 DEF FNB(XH**D*(R*xr*5*R~2-9)/B4*V~2) 5440 DEF FNC(X)**(X~4+R3*X~2+R4)/D80*V~2*SQR(V)) 5445 DEF FNT(XH?NA(X)-FNB(X)<-FNC(X) 5450 DEF FNR(ZMEXPB*ZH)/(EXPB*ZM) 5455 *-Z0 5460 ZHPNT(X) 5465 Ж.0 5470 Z2-FNT(X) 5475 RJfNR(Zl) 5480 R2f NR(Z2) 5485 RETURN 9999 END Рис. 9.12. Доверительные интервалы для коэффициента корреляции 290
На рис. 9.12 предложены приближенные доверительные интервалы для коэффициента корреляции двумерного нормального распределения. 9.7. КОМПЬЮТЕРНАЯ АРИФМЕТИКА Рассмотрим целое число 39— 1001112. Если оно хранится как целое число, большинство машин обращаются с ним как с числом, записанным в счислении с основанием 2, т. е. в двоичной форме 1001112. Заметим, однако, что это число может быть записано как 10 01 11 —- 2134, или 100 111 - 478, или 10 0111 - 2716. Для целых чисел рассмотрение их в виде системы счисления с основанием 2 или 2*, где k > 1 (если взять первые k битов справа), является лишь вопросом удобства. Существует несколько методов для представления отрицательных целых чисел. Наиболее важный разряд двоичного числа — знаковый, равный нулю для положительных чисел и единице для отрицательных. Допустим, что для представления числа используются п разрядов. В этом случае наиболее применимы следующие два способа представления числа х: 1) дополнительный код: число, которое занимает п разрядов, имеет двоичное представление в виде положительного числа 2п — х\ 2) обратный код: число имеет представление Bп — 1) — х. Число с плавающей запятой преобразуется к виду т-Ьс. Мантисса т содержит значащие цифры числа, Ь (равное степени двойки) соответствует выбранному основанию и с — порядок. Обычно т выбирается между 0 и 1 и нормализуется так, что ее первая цифра (в представлении с основанием Ь) не равна нулю. Например, предположим, что основание 6 = 8. Тогда число 39 будет иметь вид 0,478-82. В результате это число записывается как B; 0,47). Кроме того, должны быть предусмотрены знаки как мантиссы, так и порядка. Рассмотрим формат представления чисел для серии ЭВМ PDP-11. На этих машинах 8 битов отведены на порядок. Двоичные порядки от —128 до 127 представлены двоичными эквивалентами от 0 до 255. Первый разряд 24-разрядной мантиссы не сохраняется. Его можно считать равным единице, так как число нормализовано. Начальный знаковый разряд дополняет число разрядов до 32, что требует два 16-разрядных слова памяти PDP-11. Числа, которые могут быть представлены, находятся в диапазоне приблизительно от 0,29-Ю-38 до 0,17-Ю39. В параграфе 3.4 упоминался машинный нуль е, определенный как наименьшее положительное число е, такое, что при вычислениях 1 +е > 1. Рассмотрим теперь представление с плавающей запятой числа 1,0. Оно имеет вид 0,l6-fc, где Ь (= ЮЬ) — основание. Начальная цифра (которая не может быть нулем) занимает положение, соответствующее Ь° = 1, тогда как последняя цифра занимает положение, соответствующее b~n+1. Возьмем теперь любое меньшее число и сдвинем его мантиссу вдоль мантиссы числа 1,0 так, чтобы разряды с одинаковой степенью Ь совпали. Предположим, что результат сложения, точный для 10* 291
разряда п + 1 (или больше), отсекается до п старших разрядов. В этом случае е = b~n+1. Детали арифметических операций, а следовательно, и г для разных машин различны. Строки 140—180 программы на Бейсике в параграфе 10.8 показывают, как может быть получено грубое приближение к г без детального знания используемого способа представления чисел. Заметим, что прямая проверка 1 -ь е = 1 может не сработать, транслятор может решить, что это в принципе неверно. Представление машинного нуля е определяет верхнюю границу максимума относительной ошибки, вызванной усечением или округлением результата до машинной точности. Обычные формы представления строк символов требуют один байт (8 бит) для каждого символа. Однако широко применяемый код ASCII (American Standard Code for Information Interchange) может использовать только семь из восьми доступных бит1. Код EBCDIC (Electronic Binary Coded Decimal Interchange Code) требует все 8 бит. Числа, которые представлены (возможно, для операции ввода-вывода) как строки символов, должны быть в большинстве языков программирования преобразованы в подходящую числовую форму до выполнения арифметических операций. В коде ASCII символ семерки представляется в виде 0110111, в коде EBCDIC — в виде 10110111. 9.8. ЧТО ЕЩЕ МОЖНО ПОЧИТАТЬ Современное и доступное изложение методов имитаций и Монте-Карло можно найти в [187], хотя там, естественно, нет ссылок на недавно опубликованные журнальные статьи, посвященные этим вопросам. Работа [1291 все еще может служить хорошим источником сведений по методам генерирования псевдослучайных чисел. У. Кеннеди и Дж. Джентл [127, гл. 6] обсуждают статистические приложения метода Монте-Карло, а также проблемы, связанные с машинной арифметикой и приближениями к распределениям вероятностей. Кахан и Клема предложили основу для стандарта арифметики с плавающей запятой, который скоро примет законченную и согласованную форму. Применение процессоров (микросхем) с арифметикой с плавающей запятой, соответствующих новому стандарту, значительно упростит написание программ, которые могут гарантировать получение арифметически правильных результатов. Первой из таких микросхем является INTEL 8087. Статья Кахана и Клема вышла в 1983 г. в Proceedings of the Statistical Computing section of the ASA. 1 В настоящее время код ASCII использует 8 разрядов. Коды со 128-го по 255-й применяются для представления букв национальных алфавитов, греческого алфавита, псевдографики, некоторых специальных символов. — Примеч. пер. 292
9.9. УПРАЖНЕНИЯ 1. Рассмотрим линейный конгруэнтный датчик хп = axn-i + с (mod m). а) Пусть т = 32. Какое значение а приводит к максимальной длине периода? б) Пусть m = 32 и с — нечетное. Какой датчик является полнопериодичным? В обоих случаях рассмотрите один из датчиков и постройте график хг+г от хг. 2. Допустим, имеется возможность генерации независимых переменных с нормальным законом распределения со средним 0 и отклонением 1. Покажите, как можно получить случайные переменные с двумерным нормальным законом распределения с отклонениями ох и ol и коэффициентом корреляции р. Обобщите этот метод для получения переменных с многомерным нормальным законом распределения с матрицей корреляции С.^{Указание. Рассмотрите верхнюю треугольную матрицу Т, такую, что Т'Т = С.) 3. В рекуррентном соотношении Р(х; п) = рх+1Р(х+\; п-\) + (\-рх)Р(х; п-\) (равенство D.5)) р является функцией 6. Получите рекуррентное соотношение для dP (x\ n)/d6. 4. Рассмотрите вычисление log (I + Jt), где х < 0,002, на воображаемой машине, которая хранит 7 значащих десятичных цифр результата (после усечения). Проанализируйте три способа: а) прямое вычисление log (I + jc); б) использование разложения в ряд в) при z = х/B + х) применение разложения в ряд Какой из этих способов дает наилучшую точность? Рассмотрите х = = 0,001000005, jc= 0,0001000005. Объясните результат. 5. В чем состоит преимущество вычисления перед вычислением Какие проверки величины Ыа необходимы при использовании второго выражения? Объясните применение константы Е2 (вычисляемой в строках 140—180) в строках 3340 и 3350 на рис. 10.8. 293
Глава 10 Л КОМПЬЮТЕРЫ И ПРОГРАММЫ Сегодня это действительно слишком просто: вы можете подойти к компьютеру и практически без знания того, что вы делаете, создавать разумное и бессмыслицу с поистине^ изумительной быстротой. Дж. Бокс Предыдущие главы описывали алгоритмы, полезные для статистических вычислений. Для простых практических задач можно произвести вычисления на карманном калькуляторе. Чаще желательно применить компьютер, который снабжен статистическими программами или пакетами программ, реализующими соответствующие алгоритмы. Это позволяет проводить быстро и эффективно статистический анализ, сосредоточив внимание сугубо на статистических аспектах задачи. В этой главе затронуты вопросы применения современной вычислительной техники в статистическом анализе, обсуждаются некоторые программы и пакеты, имеющиеся в распоряжении статистиков. Глава включает также программы на Бейсике для множественной регрессии, сингулярного анализа, решения нелинейного уравнения с одним неизвестным. 10.1. ВЫБОР АППАРАТНЫХ ВОЗМОЖНОСТЕЙ До недавнего времени большинство пользователей вычислительной техники были вынуждены довольствоваться ЭВМ, установленными в их организации. Теперь это изменилось. Выбор между небольшим компьютером, спроектированным для персонального применения, и терминалом, обеспечивающим доступ к средним и большим ЭВМ или к сетям ЭВМ, стал обычным делом. Персональный компьютер может сам служить терминалом, когда требуется доступ к другой машине. Потребности в вычислительных ресурсах стали удовлетворяться в результате приобретения нескольких небольших компьютеров для задач подготовки и редактирования данных и программ. Для другой работы арендуется машинное время и пользуются услугами извне. С изменением машин и программ меняются и подходы к размещению вычислительной техники. Операционная система. В конечном счете компьютеры тем лучше, чем лучше выполняются на них программы. Хранящаяся в памяти программа, которая производит запуск требуемых задач и осуществляет общее управление, известна под названием операционной системы. Командный язык операционной системы (язык управления заданиями или 294
язык управления потоком работ) обеспечивает передачу команд операционной системе. Такие задачи, как создание и копирование файлов, редактирование, сортировка и выполнение специальных программ, необходимых данному пользователю, могут быть выполнены без выхода из операционной системы. Командные языки разных операционных систем существенно отличаются друг от друга и определяют, является ли система гибкой или негибкой, простой или сложной в применении и управлении. Даже программы, написанные на высоком профессиональном уровне, не защищают пользователей от всех свойств неудовлетворительной операционной системы. Для действительно хорошей операционной системы и связанных с ней обслуживающих программ необходимо располагать машиной, достаточно большой и правильно спроектированной, позволяющей не беспокоиться об ограничениях на размеры и количество программ или множеств данных. С другой стороны, большие возможности машины не являются гарантией достаточной гибкости операционной системы. Некоторые операционные системы, применяемые в настоящее время, мало изменились с конца 60-х годов и поэтому остаются трудными в работе и плохо приспособленными для диалоговых вычислений. Что нужно статистикам? Эффективное применение статистического анализа на практике требует использования пакетов статистических программ и/или библиотек подпрограмм. Пользователю нет смысла повторять работу высококвалифицированных программистов, внесших свой вклад в создание таких пакетов и библиотек. Большинство стандартных пакетов и подпрограмм пригодны для любых машин, кроме самых малых из коммерчески доступных многопользовательских компьютерных систем. Но степень простоты применения и качество обслуживающих программ подготовки данных и заданий, а также дальнейшая обработка результатов для разных компьютерных систем различны. Большие машины или малые? В прошлом было обычным, что крупные организации имели большие вычислительные машины, которые могли удовлетворить пользователей с разными потребностями. Теперь же вычислительные ресурсы, такие же, как у большой системы, могут быть предоставлены хорошо управляемой сетью небольших машин. Стоимость поддержания лишних копий нескольких программ не превышает стоимости большой централизованной установки программ, для которой в свою очередь характерна слишком слабая связь между пользователями и администраторами системы. Каждая отдельная машина может быть оборудована и запрограммирована для обслуживания особой подгруппы пользователей со специфическими потребностями. Терминалы, используемые для доступа к центральному компьютеру или сети, могут сами быть персональными компьютерами, способными обрабатывать тексты, осуществлять ввод и редактирование данных, вы* полнять небольшие программы. Коммуникационные программы обеспечивают доступ к центральному компьютеру или к сети, когда требуются их мощность или специальные возможности. 295
Микрокомпьютеры. Большинство компьютеров, спроектированных для индивидуального применения, в техническом отношении представляют собой микрокомпьютеры. Микрокомпьютеры отличаются тем, что их центральный процессор (управляющий программой и выполняющий логические функции) является многоцелевым управляющим устройством, производимым в массовом масштабе. Команды операционной системы обычно предусмотрены как часть интерпретатора Бейсика. Микрокомпьютеры, выпускаемые в настоящее время для массового или любительского рынка, почти все включают 8-разрядный микропроцессор г. Это означает, что данные обрабатываются по 8 разрядов A байт) за одну операцию. На ранних микрокомпьютерах оперативная память обычно не превышала ?4 Кбайт (где 1 К = 1024 байт или символов), теперь обычным является память в 128 Кбайт или 256 Кбайт. Такие микрокомпьютеры, спроектированные полностью или частично для бытовых нужд, входят в число самых дешевых. Они наряду с более дорогими, предназначенными для деловых применений, отличаются простотой управления экраном дисплея. Пакет для расчета электронных таблиц VISICALC, первоначально созданный для машин фирмы «Эппл», использует это свойство для удобного перехода от выдачи результатов вычислений к применяемым формулам (VISICALC — торговый знак фирмы Software Arts Jnc.) VISICALC в основном применяется в финансовых вычислениях, но может использоваться и в математических или научных расчетах, основанных на формулах, которые, возможно, должны быть изменены для продолжения вычислений. Пакеты, подобные VISICALC, стали лишь недавно доступными для обычных компьютеров. Существует довольно большой набор устройств — световое перо, синтезаторы музыки и голоса, устройства с ограниченными возможностями распознавания речи, устройства графического ввода — для прямого подключения к микрокомпьютерам популярных типов. Подобные устройства многие могли видеть на обычных больших ЭВМ. Они делают привлекательным недорогое оборудование, которое обеспечивает интенсивный диалоговый режим вычислений. Р. Тистед [205] рекомендует возможности этих устройств применять в статистическом анализе. На программы, предназначенные для деловых целей, можно перенести некоторые свойства компьютерных игр. В [37] проведено любопытное сравнение программы редактора текста с популярной компьютерной игрой «Приключение». Успехи миниатюризации наиболее очевидны в портативных машинах с алфавитной клавиатурой и интерпретатором Бейсика. Эти маленькие машины неоценимы при вводе данных и при некоторых видах непосредственной их обработки. Однако не следует использовать компьютерные системы — большие или малые — без учета присущих им ограничений на область применения. Эти ограничения могут быть 1 В настоящее время для массовых компьютеров типичными стали 16-разрядный микропроцессор и оперативная память объемом 512—640 Кбайт. — Примеч. пер. 296
обусловлены специфическими возможностями оборудования или отсутствием пакетов и вспомогательных программ, подходящих для данной задачи. Сложные средства для адаптации систем к задачам, для решения которых они не предназначены, приведут лишь к нерациональным затратам времени и сил. Для желающих понять, как работает микрокомпьютер и что он может делать, мы рекомендуем статью [209]. Пакеты статистических программ для микрокомпьютеров. Пакеты статистических программ были разработаны для широко распространенных микрокомпьютеров, возможности которых, как правило, совместимы с такими пакетами программ, как SPSS и Minitab. Они будут рассмотрены далее. Непосредственная реализация этих пакетов (например, BMDP, PSTAT или SPSS), предназначенных для обычных 8-битовых ЭВМ, затруднительна. Компиляторы с Фортрана и соответствующие операционные системы для микрокомпьютеров не обладают необходимыми возможностями для разработки крупных программ, выполняемых на ЭВМ с оперативной памятью ограниченной емкости (согласно существующим стандартам). Поскольку в настоящее время реализация крупных пакетов статистических программ начинает осуществляться на более мощных 16-битовых микрокомпьютерах (возможно, их целесообразнее называть супермикрокомпьютерыI, то нет смысла рассматривать реализацию таких пакетов на 8-битовых ЭВМ. В [193] описан опыт адаптации нескольких крупных пакетов статистических программ на микрокомпьютере с использованием микропроцессора МС-68000 фирмы «Моторола». Усовершенствования 8-битовых ЭВМ в настоящее время позволили снять многие ограничения в отношении их основных запоминающих устройств и других характеристик. В 11561 содержится каталог пакетов статистических программ для микрокомпьютеров, и приведено их сопоставление, правда, без анализа их статистической адекватности. 10.2. ВЫБОР ПРОГРАММЫ Программа, предназначенная для практического статистического анализа, в первую очередь должна обеспечивать проведение такого анализа, который соответствует установившейся практике в статистике и позволяет получить достоверные результаты. Важное значение имеет также простота применения таких программ (для пользователей, достаточно компетентных в области статистики) и представление результатов в форме, удобной для восприятия. Программы, обладающие такими свойствами, могут быть написаны только специалистами, хорошо знакомыми со спецификой проведения статистического анализа и име- 1 Супермикрокомпьютерами называются 32-разрядные микрокомпьютеры.— Примеч. пер. 297
ющими высокую квалификацию в области вычислительной техники. Статистики, разрабатывающие свои собственные программы, не в состоянии учесть все вычислительные ресурсы компьютера. Кроме того, сложности проведения анализа с помощью программы, написанной на таком языке, как Фортран, часто отвлекают их внимание от статистических проблем. Поэтому при разработке любой статистической программы широкого пользования статистики должны консультироваться с компетентными в этой области системными программистами. В настоящее время пакеты статистических программ — самое популярное средство проведения статистического анализа. Любой пакет программ отличается от той или иной библиотеки подпрограмм, поскольку он сам по себе является законченным, т. е. имеет свой собственный командный язык для указания формата входных данных, свой необходимый порядок обработки и анализа данных. Было бы идеально, если бы командный язык позволял статистику описывать задачу в соответствующих статистических понятиях, оставляя за пакетом программ интерпретацию результатов и операции с этими понятиями. В пакетах GENSTAT (см. [61) и P-STAT (см. [341 и [1061) используется, например, синтаксис Уилкинсона и Роджерса [2201 для указания как блока (или ошибки), так и структуры обработки в соответствующим образом сбалансированной экспериментальной конструкции. Пакет GENSTAT является чрезвычайно эффективным, поскольку его командный язык может служить в качестве машинного языка высокого уровня общего назначения. На нем могут быть записаны программы для проведения анализа, который нельзя выполнить непосредственным образом. Он может быть охарактеризован как язык общего назначения для обработки данных, располагающий эффективными средствами для проведения статистического анализа. Язык «S» (см. [221) представляет собой язык более высокого уровня общего назначения. Однако он обладает менее мощными средствами. К числу других пакетов статистических программ с расширенными языками общего назначения относятся пакеты SASU891, Minitab [1881, P-STAT [341, GLIM [151, SPSS [169b Пакеты P-STAT, SAS, GLIM и системы типа «S» обладают в достаточной степени эффективными командами для осуществления большинства видов обработки и перекомпоновки данных перед проведением анализа. Помимо этого, в пакетах P-STAT и SAS предусмотрены широкие возможности для обработки файлов. Сведения о разнообразных пакетах статистических программ содержатся в работе 1831. Пакет BMDP [641 представляет собой набор отдельных статистических программ. Однако его командный язык является общим для всех программ. В большинстве случаев предусмотрены широкие возможности вывода данных, причем структура выходных данных довольно продумана и информативна. Ввод данных характеризуется меньшей гибкостью в отличие от других ранее упомянутых пакетов. Если необходима значительная обработка данных перед проведением статистического анализа, то нужна соответствующая отдельная программа или отдель- 298
ный пакет программ. Пакет BMDP хорошо приспособлен для диалогового режима, когда программы пакета BMDP образуют некоторый набор вспомогательных программ для обработки и редактирования данных. При этом обеспечивается простота использования выходных данных одной вспомогательной программы в качестве входных данных для другой вспомогательной программы. Современный язык на уровне операционной системы имеет существенное значение для запуска вспомогательных и рабочих программ и для контроля за их выполнением. Пользователи пакета SAS располагают возможностями доступа к процедуре BMDP в пакете SAS для вызова необходимой программы пакета BMDP. В пакете P-STAT^ предусмотрены возможности считывания файлов, записанных с привлечением пакета BMDP (или пакета SPSS). Для нестандартных задач существуют подпрограммы, которые можно найти в алгоритмическом разделе пакета рабочих статистических программ (JRSSC) и в журнале «Transactions on Mathematical Software». Пользователям, имеющим доступ к пакету IMSL (международные библиотеки математических и статистических программ) или к пакету NAG (группа цифровых алгоритмов), следует прежде всего обращаться именно к этим источникам. Применяемые подпрограммы должны быть взаимосвязанными. Ввод их должен осуществляться с помощью главной программы или программ, записанных самим пользователем. Использование выходного файла одной вспомогательной программы в качестве входных данных для другой программы даже более желательно, чем применение такого набора программ, как пакет BMDP. Вместо записи одной большой программы для проведения анализа полностью нередко проще представить этот анализ в виде некоторой последовательности задач, решаемых с помощью отдельных программ. При вероятности повторного применения скомпонованных таким образом программ целесообразно объединить их в локальную библиотеку. И в этом случае наличие в операционной системе эффективного диалогового языка упростит формирование пакета отдельных программ, в результате чего будет обеспечен простой доступ к конкретным отдельным программам. Опытные пользователи могут легко адаптировать или модифицировать такой свободно формируемый пакет программ в соответствии с их потребностями. Операционная система нередко затрудняет выполнение программ на ЭВМ. Как правило, операционные системы являются специфическими для каждого типа ЭВМ. Исключение составляет система UNIX фирмы «Белл лабораториз», завоевавшая популярность благодаря своей эффективности и адаптивности. Критическое отношение к ней обусловлено единственной причиной — барьером для использования команд на некоторых языках. Однако со временем языки операционных систем будут стандартизованы. В работе [61] проведено сравнение существующих операционных систем с системой UNIX. Особенности использования пакетов статистических программ. В обеспечении статистиков пакетами программ и машинными языками 299
для статистического анализа достигнут известный прогресс. Однакр во многих пакетах мало внимания уделено автоматической проверке достоверности данных или представлению их в графической форме. Достаточно редко в программах уделяется внимание проверке того, чтф данные удовлетворяют необходимым условиям для проведения соответствующего статистического анализа. Так, при расчете коэффициента корреляции имеет смысл проверить сначала линейность статистической связи (альтернатива — монотонная нелинейная зависимость). Вычисление коэффициента ранговой корреляции Спирмэна представляет собой один из способов такой проверки. Например, если он оказывается существенно больше обычного коэффициента корреляции, то это указывает на нелинейный характер зависимости. ЭВМ идеально подходят для механических проверок и проверок широкого диапазона условий, ведущих к невозможности предполагаемого анализа. Для человека утомительны даже несколько грубых таких проверок; правильно же запрограммированные ЭВМ способны выполнять подобные операции столько раз, сколько необходимо. Пользователь в случае выявления ошибок должен располагать возможностями общаться с ЭВМ в диалоговом режиме, вводя запросы на последующие проверки или на проведение альтернативных вариантов анализа (если это целесообразно). В пакетах статистических программ операции с матрицами для организации вычислений доступны только ценой неэффективного использования машинных ресурсов. Не существует также удобных процедур создания и обработки верхних треугольных и ленточных матриц. Вместо этого большое значение придается обращению матриц. Возможности же использовать преимущества специальной формы ленточных матриц не предусмотрены. Проблемой является также эффективная организация выдачи результатов и сообщений. В [74] приведены заслуживающие внимания правила для представления числовой информации. Вывод более двух или трех десятичных цифр каждого числа может препятствовать быстрому распознаванию всех изображенных на экране величин. Представление результатов с большим числом цифр лучше отложить на последний этап анализа. Следует помнить, что статистический анализ требует от исследователя глубокого пониман