Text
                    Statistical Analysis
A Computer Oriented Approach
Second Edition
A. A. Afifi
University of California, Los Angeles
S. P. Azen
University of Southern California, Los Angeles
Academic Press
New York-San Francisco'London
1979
A Subsidiary of Harcourt Brace Jovanovich, Publishers


А. Афифи, С. Эйзен Статистический анализ Подход с использованием ЭВМ Перевод с английского И. С. Енюкова и И. Д. Новикова под редакцией Г. П. Башарина Москва «Мир» 1982
УДК 519.24+ 61 Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Пер. с англ. — М.: Мир, 1982. — 488 с, ил. Монография американских ученых, рассчитанная на читателей, знакомых с основами математической статистики, но ие имеющих опыта работы с ЭВМ и ие знающих программирования. Изложение ориеитироваио иа применение пакетов прикладных программ, приведены примеры из биологии, медицины, гуманитар- гуманитарных иаук. Для математиков-прикладников, иаучиых работников, использующих ста- статистический анализ, для аспирантов и студентов университетов. Редакция литературы по математическим наукам Афифи А., Эйзеи С. СТАТИСТИЧЕСКИЙ АНАЛИЗ ПОДХОД С ИСПОЛЬЗОВАНИЕМ ЭВМ Научный редактор И. А. Маховая Мл. научные редакторы И. С. Герасимова, Л. В. Бекреиева Художник А. А. Медников Художественный редактор В. И. Шаповалов Технический редактор М. А. Страшнова Корректор С. А. Денисова ИБ № 2953 Сдано в набор 11.01.82. Подписано к печати 30.08.82. Формат бОХЭО'/и- Бумага типографская № 2. Гарнитура литературная. Печать высокая. Усл. печ. л. 30,50>Усл. кр.-отт. 30,50.Уч.-изд. л. 28,51. Ивд. № 1/1730. Тираж 15 000^ экз. Зак. № 70. Цена 2 р. 20 к. ИЗДАТЕЛЬСТВО «МИР», 129820, Москва, И-110, ГСП, 1-й Рижский пер., 2. Ленинградская типография № 6 ордена Трудового Красного Знамени Ленинградского объединения «Техническая книга» им. Евгении Соколовой Союзполиграфпрома при Государственном комитете СССР по делам издательств, полиграфии и киижиоб торговли. 193144, г. Ленинград, ул. Моисееико, 10. S1979 by Academic Press, Inc. Перевод на русский язык, 041 @1)—82 " "' " ¦ «Мир», 1982
От редактора перевода Вниманию советского читателя предлагается перевод 2-го издания книги, написанной известными специалистами в области статисти- статистического анализа с использованием ЭВМ. / Книга имеет характер учебно-справочного руководства и рассчитана на широкий круг читателей с разной математической подготовкой, в том числе и на тех, кто знаком лишь с начальным курсом основ теории вероятностей и математической статистики, еще не имеет опыта работы с ЭВМ и не знает языков программиро- программирования. От других книг по прикладной математической статистике данную книгу отличает элементарность и наглядность изложения. Этому способствует большое число хорошо подобранных приме- примеров, занимающих до половины объема книги и не только име- имеющих иллюстративное назначение, но и представляющих само- самостоятельный интерес. Поскольку примеры носят в основном био- биомедицинский характер, книга окажется особенно интересной для медиков, биологов и социологов, начиная со студентов старших курсов. Вместе с тем книга представляет интерес и для лиц, при- применяющих математическую статистику в других областях. Пос- Последние могут рассматривать многочисленные примеры просто как хорошие иллюстрации общих методов статистического ана- анализа. Другая отличительная особенность книги — ее ориентация на широкое использование ЭВМ и пакетов статистических про- программ (ПСП). Такая позиция позволила авторам опустить утоми- утомительное описание вычислительных процедур, коль скоро они содержатся в ряде имеющихся книг и в документации к ПСП. Сведения о 12 зарубежных ПСП приводятся в гл. 1. Информация об имеющемся в СССР алгоритмическом и программном обеспече- обеспечении прикладного статистического анализа, а также о ПСП и орга- организациях-разработчиках содержится в публикациях раздела А литературы на русском языке, добавленной редактором перевода. Авторы книги умело оперируют, примерами для демонстрации наилучших способов использования программного обеспечения:
От редактора перевода выбор самой подходящей для целей исследования программы, использование простых программ для сложного анализа, интер- интерпретация вывода типовых программ и т. д. Принятый в книге «компьютерный подход» к статистическому анализу оправдывается не только быстрым расширением парка ЭВМ и развитием их математического обеспечения, но и тем, что выполнение многих реальных статистических процедур без ЭВМ просто невозможно. Хочется надеяться, что выход в свет этой книги послужит популяризации современных методов статистиче- статистического анализа, и в частности ускорению развития, освоения и применения ПСП в многочисленных организациях, приобщив- приобщившихся за последние годы к использованию ЭВМ при статистиче- статистической обработке экспериментальных данных. Естественно, что в такой большой книге не все одинаково удалось. Наглядный стиль изложения, избранный авторами, неизбежно привел к тому, что ряд мест книги оказался излишне описательным. Это прежде всего относится к приложению I, посвященному теоретике-вероятностным основам. В связи с этим в разделе Б литературы, добавленной редактором перевода, содержится список учебников и учебных пособий по теории вероят- вероятностей и математической статистике, а в разделе В — небольшой список книг по статистическому анализу; это может облегчить читателю поиск дополнительной литературы на русском языке. При переводе книги переводчикам и редактору пришлось преодолеть трудности, связанные с разнообразием и неоднород- неоднородностью терминологии в охваченных книгой областях. В частности, было решено сохранить многочисленные и часто встречающиеся в примерах английские медицинские аббревиатуры, добавив к переводу их перечень с расшифровкой. Г. П. Башарин
Посвящается Мэтью Д. и Ненни Памяти моего отца Предисловие ко второму изданию Работая над вторым изданием, мы постарались расширить содер- содержание книги, дополнительно включив в нее современные методы и процедуры анализа данных. С этой целью были добавлены сле- следующие разделы: проверка наборов данных при помощи пакетов статистических программ, робастные оценки параметров («винзо- ризованные» и Af-оценки), обработка отсутствующих наблюдений в многомерном случае, недавно разработанные меры связи в та- таблицах сопряженности признаков (меры Гудмена — Крускала, коэффициенты ранговой корреляции) и многомерный дисперсион- дисперсионный анализ. Кроме того, мы пересмотрели и добавили много примеров применения математической статистики, почерпнутых из наших исследований в области медицинских приложений (мони- торная система наблюдения, применение байесовского метода для многофакторного прогнозирования, применение факторного анализа при разработке карты скрининга нарушений функции легких и т. д.). Кроме того, были включены некоторые класси- классические примеры из медицинской литературы, например фраминг- хэмское обследование. Другие изменения пришлось внести из-за быстрого развития пакетов статистических программ (ПСП). Во втором издании описываются особенности последних версий пакетов BMD-P, SPSS и SAS, а также обсуждаются пакеты GLIM и MINITAB. В книге воспроизводятся выдачи программ из некоторых ПСП. Наконец, к двум большим наборам данных (наборы А и В) были добавлены несколько меньших. Читатель может использо- использовать многие из представленных результатов вычислений при оценке вновь разрабатываемых статистических программ. Надеемся, что благодаря этим изменениям второе издание будет лучше отвечать своему назначению — как учебника, так и справочника. Мы хотели бы поблагодарить Маделин Брадвиг, Лорин Де- керт, Жанин Формен, Сару Шонтген, Гейл Уильяме и Джен Уил- сон с медицинского факультета (Dept. of Community and Family
8 Предисловие ко второму изданию Medicine) Университета Южной Калифорнии за большую помощь при подготовке второго издания. Мы благодарим также г-жу Розу Хендерсон за подготовку окончательного варианта рукописи. Эта работа проводилась при частичной финансовой поддержке Центра биомедицинских исследований (grant NIH ВМ23732-01). Некоторые примеры в тексте отражают исследования, выполнен- выполненные в этом Центре. Вена, Австрия 1977
Предисловие к первому изданию Когда читатель открывает книгу по статистике, его прежде всего интересует: 1) каков уровень книги, 2) каково ее содержание, 3) отличается ли она от множества других имеющихся в его рас- распоряжении книг по статистике 4) и, наконец, как пользоваться книгой. Вот ответы на эти вопросы. 1. Уровень книги. Эта книга написана для читателей, прослу- прослушавших только элементарный курс основ теории статистических выводов и не имеющих опыта работы с ЭВМ. В приложении I приводится обзор основных понятий теории статистических вы- выводов, а в гл. 1 читатель познакомится с программистской терми- терминологией и методами, используемыми в книге. Минимально необ- необходимый уровень математической подготовки соответствует курсу, изучаемому в колледжах. Когда мы рассматриваем понятия, требующие* математического аппарата, выходящего за рамки этого курса, мы немедленно разъясняем, зачем они нужны и как ими пользоваться. Кроме того, в книге имеются помеченные звездоч- звездочками разделы, из которых читатель с более основательной мате- математической подготовкой сможет извлечь дополнительные подроб- подробности. 2. Содержание книги. В книге содержатся как элементарные, так и более сложные разделы. Читатель найдет в ней обзор вероят- вероятностных оснований математической статистики и Стандартные процедуры статистических выводов. Кроме того, в книгу включены регрессионный и корреляционный анализ, дисперсионный анализ и многомерные методы. Чтобы охватить столь широкий материал, мы исключили математические доказательства и вычислительные формулы и сосредоточили все свое йнимание на главном — как применять статистические методы и как интерпретировать полу- полученные результаты. 3. Отличительные особенности книги, а) Предполагалось, что все вычисления будут проводиться на ЭВМ. Это позволило нам избежать скучных вычислительных подробностей, которыми обычно изобилуют стандартные учебники, а также рассмотреть
10 Предисловие к первому изданию методы регрессионного анализа и пошагового дискриминантного анализа, изложение которых до сих пор было возможно только на гораздо более высоком математическом уровне. b) Многие сложные вопросы поясняются как математическими формулами, так и словесными комментариями. Вводимые понятия поясняются примерами, почерпнутыми из реальной практики. c) Показано, как использовать простые программы для слож- сложного анализа. Например, объясняется, как решить задачу простой линейной регрессии, используя дескриптивные программы (опи- (описания данных), входящие в пакеты. d) Разъясняется, как использовать пакеты программ для ана- анализа данных, например для поиска замены переменных, приводя- приводящей к нормальному распределению, исследованию остатков для проверки предположений модели и т. д. e) Разъясняются также нестандартные способы применения программ из ПСП. Например, показано, как проанализировать план латинских квадратов при помощи факторных программ дисперсионного анализа. Показано также, как проверить линей- линейность регрессионной модели при помощи программ описания данных. f) Разбросанные по тексту замечания содержат важную допол- дополнительную информацию. 4. Использование книги. Книга задумана как справочник по математической статистике для исследователей, в особенности для тех, кто использует пакеты (статистических) программ. Она слу- служит дополнением к сопровождающим пакеты руководствам, по- поскольку эти руководства обычно описывают только технику работы с программами, т. е. инструктируют, как организовать ввод данных, чтобы получить заданный результат. Книгу можно использовать как учебное пособие для различ- различных курсов. На следующих диаграммах представлены четыре варианта, соответствующие различным уровням подготовки слу- слушателей- Курс 1 Элементарный прикладной статистический анализ A семестр, младшие курсы) Приложение I Глава 1 Глава 2
Предисловие к первому изданию 11 Курс 2 Прикладной статистический анализ A год, 3-й курс) Приложение I Глава 1 Глава 2 Глава 3 Глава 4 Курс 3 Прикладной многомерный знализ A семестр, 4-й курс) Глава Разделы 3.2—3.4 Глава 5 Курс 4 Интенсивный курс обработки данных A неделя, 8 часов в день) Глава 1 Разделы 2.4-2.5 Разделы 3.1, 3.3 Раздел 4.6 Разделы 5.3—5.5 В книге принята следующая система нумерации: разделы нумеруются последовательно внутри глав, подразделы, соотноше- соотношения, замечания, рисунки и таблицы — последовательно внутри разделов: Разд. i.j обозначает раздел j главы i. Разд. i.j.k обозначает подраздел к раздела i.j. Соотношение (i.j.к) обозначает соотношение к раздела i.j.
12 Предисловие к первому изданию Табл. i.j.k обозначает таблицу к раздела i.j. Рис. i.j.k обозначает рисунок к раздела i.j. Замечание i.j.k обозначает замечание к раздела i.j. Ссылка в тексте на замечание i.j.k.h обозначает пункт h в за- замечании i.j.k. Наконец, замечания, помеченные знаком *, до- доступны только читателям с более основательной математической подготовкой и могут быть пропущены без ущерба для понимания основного текста. Лос-Анджелес, Калифорния, 1971 БЛАГОДАРНОСТИ Мы хотим особо поблагодарить наших студентов Такамуру Аси- кагу, Энтони Аурьемма, Стьюарта Била, Чарли Бревермана, Икбала Фахми, Томаса Фарвера, Рональда Хасса, Винни Ли, Джоджа Мейера, Сьюзан Сакс и Джирму Вольд-Цадик за их замечания, критику и помощь в проведении многих вычислений, вошедших в книгу. Мы благодарим также Ширли Эйзен и Коллин Гиллен Эйзен за их редакторскую и техническую помощь. Мы признательны профессору Ричарду Беллману из Универ- Университета Южной Калифорнии за его интерес, поддержку и советы по отбору материала для книги. Наша признательность адресо- адресована также Вирджинии Зойтл и Лиону Повандру, без админи- административных талантов которых трудно было бы собрать все воедино. Мы искренне благодарим также замечательных машинисток, которые непостижимым образом переводили наши закорючки в реальные слова — Энн Эйземан, Бетти Хорват, Кэй Ислейб, Джорджи Лам, Джин Рот, Кэти Скофильд и Шэри Уилкокс. Большинство данных, использованных в примерах, почерп- почерпнуто из совместных работ А. Афифи с отделом исследования шока Университета Южной Калифорнии. Понимание нюансов в данных, обсуждаемых в книге, во многом явилось следствием наших обсуждений и совместной работы с докторами Максом Вейлем и Гербертом Шубиной из этого отдела. Им мы выражаем свою особую признательность. Кроме того, мы рады поблагодарить Норму Пэлли и Дэвида Эрбека из того же отдела за важные обсуждения разделов книги, относящихся к обработке данных, а также профессора Вирджи- Вирджинию Кларк из Калифорнийского университета в Лос-Анджелесе за другие полезные дискуссии. Данные примера 1.4.2 и многих задач в тексте книги поме- помещены с любезного разрешения доктора Джона Чепмена и гос- госпожи Энн Каулсон из того же университета.
Предисловие к первому изданию 13 Мы обязаны распорядителям литературного наследства сэра Рональда А. Фишера доктору Франку Иэйтсу и издательству «Оливер'иБойд» (Эдинбург) заразрешение перепечатать таблицу III книги «Statistical Tables for Biological Agricultural and Medical Research». Мы благодарим также сотрудников и редакторов издательства «Академик Пресс» за их помощь, редакционные замечания и т. д. Помощь в проведении вычислительных работ нам оказывали сотрудники Калифорнийского университета (в соответствии cgrantRR-З от NIH Special Research Resources). Эта работа частично субсидировалась National Institutes of Health Grant No. QM 16197-03, United States Public Health Service research grants HE05570 и GM16462 от National Heart Institute, а так- также grant HS00238 от National Center for Health Services Re- Research and Development.
1 Введение в анализ данных Как уже сказано в предисловии, эта книга служит двум основным целям. Первая — описать практику применения основных метр- дов классического статистического анализа как в одномерном, так и в многомерном случаях. Вторая — проиллюстрировать наиболее эффективное использование пакетов статистических про- программ (ПСП), т. е. показать а) как выбрать наилучшую для целей проводимого анализа программу; Ь) как интерпретировать раз- различные дополнительные возможности, предоставляемые програм- программой пакета; с) как толковать выход типовой программы и d) как использовать простые программы для сложного анализа. В этой главе мы рассмотрим предварительные определения и понятия, которые обычно не приводятся в книгах или курсах по статистике. Так, в разд. 1.1 определим виды данных и типы измерений, которые возникают в приложениях, а также опишем элементарные средства для статистических измерений. В разд. 1.2—1.3 мы изложим общую терминологию, относя- относящуюся к применениям ЭВМ. Так, в разд. 1.2 опишем основные компоненты вычислительной аппаратуры, а в разд. 1.3 — основ- основные компоненты программного обеспечения, необходимые для понимания принципов составления пакетов программ. В разд. 1.3 приведем также перечень наиболее часто используе- используемых ПСП. В разд. 1.4 мы опишем подготовку данных для программ из ПСП и обсудим бланки для программирования и операторы формата. В этом разделе приводятся также два набора данных, которые будут использоваться на протяжении всей книги в при- примерах и/или упражнениях. В разд. 1.5 обсуждаются требования к хорошему ПСП, а в разд. 1.6 описываются другие важные спо- способы использования ЭВМ для нужд статистики. В разд. 1.7 описываются этапы проверки данных, предшествующие дальней- дальнейшему статистическому анализу.
1.1. Данные, измерения и вычислительные средства 15 1.1. Данные, измерения и вычислительные средства Термин данные весьма популярен в научных исследованиях. В широком смысле он означает фактический материал, явля- являющийся основой для обсуждения или принятия решений, а в ста- статистике — это информация, пригодная для анализа и интерпре- интерпретации. Действительно, некоторые статистики рассматривают ста- статистический анализ как анализ данных (Tukey A962)). В этой книге наблюдения служат реализацией некоторой случайной величины, и они поставляют данные для изучаемой проблемы. Следовательно, термины «данные», «наблюдения» и «реализации» являются синонимами и могут заменять друг друга. В настоящем разделе мы обсудим типы данных, возникающих в научных исследованиях. Данные получаются в результате измерений индивидуумов или подопытных образцов из исследу- исследуемой популяции. Под измерением мы понимаем присвоение симво- символов подопытным образцам в соответствии с некоторым правилом. Эти символы могут быть буквенными и представлять классы или категории в популяции или числовыми. Числовые символы также могут представлять категории в популяции или быть числами. В первом случае к ним нельзя применять правила арифметики, во втором — можно. Например, если 1 обозначает класс мужчин, а 2 — женщин, то в этом контексте 1 + 2 не имеет смысла. Однако если 1 — число долларов, заработанных за некоторый день, а 2 — за следующий день, то 1 + 2 = 3 имеет смысл и означает, что за два дня заработано 3 доллара. Шкала и единицы измерений могут быть самыми разными. Например, для любого индивидуума из популяции взрослых в США мы можем измерить а) пол; Ь) социальное положение; с) температуру; d) рост. Очевидно, что шкалы этих четырех изме- измерений совершенно различны по существу, так как в а) можно сказать, что пол одного индивидуума отличен от пола другого; в Ь) можно сказать, что положение одного отличается и выше, чем у другого; в с) можно сказать, что температура одного от- отлична, выше и на сколько выше, чем у другого; в d) можно сказать, что рост одного отличен, больше, на сколько больше и во сколько раз больше, чем у другого. Эти четыре примера представляют •четыре типа шкалы измерений, предложенные С. С. Стивенсом (Churchman, Ratoosh A959), гл. 2) и получившие следующие назва- названия: шкала наименований, порядковая шкала, интервальная шка- шкала и шкала отношений. Обсудим теперь коротко каждую из шкал. 1. Шкала наименований. Эта шкала используется только для классификации индивидуумов в популяции. Каждому классу присваивается свое обозначение так, чтобы обозначения различ- различных классов не совпадали. Например, если индивидуумы класси-
16 Гл. 1. Введение в анализ данных фицируются по полу, то двум классам можно присваивать соответ- соответственно буквы М и F, слова MALE и FEMALE или цифры 1 и 2. Структура шкалы наименований не изменяется, если произ- произвести взаимно однозначную подстановку обозначений. Так, в при- приведенном выше примере можно подставить 1 вместо М и 2 вместо F, или 2 вместо Ми 1 вместо F, или 100 вместо М и 1000 вместо F и т. д. Повторим, что арифметические операции не имеют смысла для шкалы наименований. Поэтому ни медиана, ни среднее не имеют смысла. Подходящей статистикой положения центра (цен- (центральной тенденции) является мода, так как она не изменяется при взаимно однозначной подстановке обозначений. Например, если мужчин больше, чем женщин, то мода описывает класс «муж- «мужчины» независимо от того, будет ли он обозначен через М, 1, 2 или 1000. 2. Порядковая шкала. Эта шкала позволяет не только разби- разбивать индивидуумы на классы, но и упорядочить сами классы. Каждому классу мы присваиваем различные обозначения так, чтобы порядок обозначений соответствовал порядку классов. Если мы нумеруем классы, то классы находятся в числовом по- порядке; если обозначаем классы посредством букв, то классы находятся в алфавитном порядке; если обозначаем классы словами, то порядок соответствует смыслу слов. Пусть, например, мы хотим классифицировать индивидуумы по трем социально-экономиче- социально-экономическим категориям — низкий, средний, высокий. Если мы решили упорядочить эти классы от низкого к высокому, то можем при- присвоить им такие обозначения: 1 — низкий; 2 — средний, 3 — вы- высокий, или X — низкий, Y — средний, Z — высокий, или НИЗКИЙ, СРЕДНИЙ, ВЫСОКИЙ. С другой стороны, мы можем упорядочить классы сверху вниз, приняв, что 1 — высокий, 2 — средний, 3 — низкий и т. д. В этом примере цифры и буквы являются последовательными, но это не обязательно, так как можно обозначить, например, 1 — низкий, 10 — средний, 100 — высокий, или А — низкий, Р — средний, Z — высокий и т. д. Структура порядковой шкалы сохраняется при любой взаимно однозначной подстановке, которая сохраняет порядок. Например, 1 -> 2, 2 -> 3, 3 -> х, где х > 3 — допустимая перестановка, а 1 -> 2, 2 -> 3, 3 -> 1 — недопустимая. Арифметические операции для этой шкалы также не имеют смысла, так что подходящие статистики положения должны не зависеть от значения наименований классов. Поэтому медиана и мода являются подходящими мерами положения центра. 3. Интервальная шкала. Эта шкала позволяет не только клас- классифицировать и упорядочивать индивидуумы, но и количественно
1.1. Данные, измерения и вычислительные средства 17 оценивать различие между классами. Чтобы производить такие сравнения, нужно ввести единицу измерения и произвольное начало отсчета (нуль-пункт). Например, температура в градусах по Фаренгейту принадлежит интервальной шкале, где 0° F является началом, Iе F — единицей измерения. Так, индивидуум с темпе- температурой 100.6° F имеет температуру на 2° F выше нормальной (98.6° F). Структура интервальной шкалы не изменяется при линейном преобразовании вида х' = ах + b, a > 0. Это преобразование смещает начало на Ь единиц и изменяет единицу измерения в а раз. В качестве примера рассмотрим преобразование х = = -д- (х — 32) = 0.55.x — 17.8, где х — температура в °F. Это преобразование переводит шкалу Фаренгейта в шкалу Цельсия. Для интервальной шкалы арифметические операции имеют смысл, так что среднее, медиана и мода — вполне подходящие меры положения центра. 4. Шкала отношений. Эта шкала отличается от интервальной шкалы лишь тем, что в ней задано абсолютное начало отсчета. В этой шкале можно определить, во сколько раз одно измерение превосходит другое. Например, рост индивидуума в дюймах принадлежит шкале отношений, в которой 0 дюймов есть фиксиро- фиксированное начало отсчета, а 1 дюйм — единица измерения. Так, индивидуум ростом 72 дюйма в два раза выше, чем индивидуум ростом 36 дюймов. Структура шкалы отношений не изменяется при преобразова- преобразовании х' = сх, с > 0. Так, если у — 2х, то у' — 2х', т. е. в обоих случаях одно измерение вдвое больше другого. Примером такого преобразования является х' =-j2"*, которое преобразует дюймы в футы. Все статистики, подходящие для интервальной шкалы, подходят и для шкалы отношений. При выборе методов статистического вывода исследователь должен стремиться использовать свойства своей шкалы измерений. Так, для шкалы наименований годятся только статистические методы для неупорядоченных классов. К ним относятся критерий %2 для полиномиального распределения, %2 как мера связанности и выводы относительно биномиального распределения. Частично об этом сказано в разд. 2.1 и 2.5. Для порядковой шкалы под- подходят методы, основанные .на понятии ранга. Последние при- принадлежат области непараметрических статистик и в книге не обсуждаются (см., например, Brownlee A965), Gibbons A971), Noether A967), Siegel A956), Walsh A965)). Статистические ме- методы, подходящие для интервальной икали, пригодны и для
18 Гл. 1. Введение в анализ данных шкалы отношений и включают практически все статистические методы. Заметим, что в дополнение к уже введенной классификации шкал измерений наблюдения делятся на дискретные и непрерыв- непрерывные. Реализации непрерывных случайных величин называются непрерывными наблюдениями, а реализации дискретных случай- случайных величин — дискретными наблюдениями. Именованные и порядковые данные всегда дискретны, а интервальные и относи- относительные могут быть как дискретными, так и непрерывными. Например, температура в градусах по Фаренгейту или Цельсию представляет собой непрерывное измерение в интервальной шкале, а число телефонных вызовов за один час — дискретное измерение в шкале отношений. Настоящая книга посвящена в основном ана- анализу непрерывных данных, полученных путем измерений в ин- интервальной шкале или шкале отношений. Для облегчения вычислений при анализе данных можно ис- использовать различные средства. Например, карманные калькуля- калькуляторы служат сравнительно недорогим и удобным средством для выполнения как простых арифметических операций (+, —, X, :, V), так и вычисления логарифмических и тригонометрических функций (log х, ех, sin х, cos x, sin хит. д.). Во многих карман- карманных калькуляторах предусмотрена возможность вычислять и не- некоторые статистические суммы. Более дорогие модели с памятью пригодны для выполнения многих стандартных классических статистических процедур. Однако память этих калькуляторов, предназначенная для накопления данных, ограничена. Подходящим средством для решения больших задач статисти- статистического анализа, включая многомерный, являются электронно- вычислительные машины. С их помощью невыполнимая ранее работа становится рутинной. Поэтому применение современных ЭВМ привело к существенному прогрессу в статистической тео- теории. Компоненты ЭВМ мы обсудим в разд. 1.2. Между карманными калькуляторами и быстродействующими ЭВМ находятся настольные ЭВМ, которые сочетают портативность и низкую стоимость с достаточно высокими вычислительными возможностями. Наконец, большую помощь при статистическом анализе при- приносят математические и статистические таблицы (см., напри- например, Burington A970), «Handbook of Mathematical Tables» A952), Fisher, Yates A963), Pearson, Hartley A966), Больщев, Смирнов A965) *.
1.2. Компоненты вычислительного центра. Оборудование 19 1.2. Компоненты вычислительного центра. Оборудование В этом разделе мы опишем три компоненты вычислительного центра — центральный процессор, периферийные устройства и вспомогательное оборудование. Изложение носит вводный харак- характер и имеет своей целью ознакомить читателя с основной термино- терминологией, чтобы облегчить ему эффективное использование ПСП. Центральный процессор — это та компонента вычислительной системы, которая выполняет задание пользователя. Следова- Следовательно, процессор — это та компонента, которую обычно назы- называют ЭВМ. Он состоит из памяти, которая хранит информацию в виде последовательности электронных импульсов, и логических компонент, которые управляют различными типами работы про- процессора. Каждый тип работы называется командой процессору; команды могут быть вычислительными, пересылки, генерации данных, принятия решений или командами ввода-вывода инфор- информации. Основная вычислительная команда — сложение, вычита- вычитание — это дополнение к сложению, умножение — последователь- последовательность сложений, а деление — последовательность вычитаний. Такие функции, как log, V, cos и т. д., являются последователь- последовательностями этих арифметических операций. Команды пересылки передают информацию внутри процессора; команды ввода-вывода предназначены для передачи информации в или из устройств ввода-вывода; команды генерации данных генерируют и накапли- накапливают символы. Команды принятия решений сравнивают две пор- порции информации и решают, совпадают они или нет. Обычно употребляемыми носителями для ввода информации пользователя в процессор являются перфокарта, магнитная лента и магнитный диск, а для выдачи информации из процессора пользователю используются те же носители, а также страницы распечатки и графики. На перфокарту можно нанести до 80 коди- кодированных символов. Магнитная лента, которая напоминает обыч- обычную магнитофонную ленту, может содержать до 15 млн. символов информации. Магнитный диск, который напоминает обычную грампластинку, содержит еще больше информации и имеет то преимущество перед лентой, что на нем информация может быть записана или найдена и прочитана очень быстро. Эти два носи- носителя — лента и диск — используются процессором как внешняя память, т. е. они служат для длительного хранения информации или как.дополнительная память для оперативного хранения теку- текущей информации и обмена с основной оперативной памятью. Через устройство печати на бумажную ленту можно выводить цифровые таблицы, текст и грубые графики; график, выводимый графопостроителем, является более точным. Устройства ввода-вывода являются периферийным оборудова- оборудованием, которое позволяет пользователю общаться с центральным
20 Гл. 1. Введение ь анализ данных процессором, используя упомянутые выше носители. Входная информация с перфокарт передается в процессор посредством устройства ввода с перфокарт, которое считывает около 1000 карт в минуту. Выходной перфоратор используется для нанесения на карты выходной информации процессора. Накопитель на магнит- магнитной ленте (НМЛ) может быть использован как для чтения, так и для записи (со скоростью около 380 см/с). Накопитель на маг- магнитном диске предназначен для чтения и записи на дисках (со скоростью около 100 тыс. символов в секунду). Быстрое печата- печатающее устройство служит для вывода на бумажную ленту, а графо- графопостроитель рисует графики на бумаге специальным пером, управляемым процессором. i К периферийному оборудованию относится также удаленный терминал, который позволяет пользователю вести непосред- непосредственный диалог с вычислительной системой. Одним из видов удаленного терминала является специальная пишущая машинка — телетайп, на котором пользователь печатает команды процессору, а процессор в свою очередь выводит свои результаты на телетайп. Другим видом является дисплей, в котором выходная информация отображается на катодно-лучевой трубке, а ввод производится с помощью телетайпа или светового пера. Преимущество исполь- использования терминала заключается в возможности принятия решения сразу после вывода информации. В следующем разделе мы обсудим пакеты программ, которые допускают такой вид диалога. Во вспомогательное оборудование ВЦ входят такие устройства, которые позволяют пользователю быстро выполнять некоторые механические операции на картах. Так, клавишный перфоратор пробивает отверстия в любом из 80 столбцов и 12 строк перфокарты. Отверстие в столбце представляет цифру от 0 до 9 (цифровая пробивка) или специальный символ типа — или +, а комбинация пробивок в столбце представляет либо букву, либо специальный символ типа *,/,-,$ и т. д. Цифровые, буквенные или специаль- специальные символы называются алфавитно-цифровыми. Ещё вспо- вспомогательное оборудование включает контрольник, служащий для контроля перфорированных карт; печатающее устройство для вывода информации с перфорированных карт на бумагу; перфоратор, служащий для дублирования карт и перфорации на последующие карты с формированием соответствующих мас- массивов перфокарт; интерпретатор, служащий для декодирования заперфорированной на карте информации и печати ее в алфавитно- цифровой форме на этой же карте. Наконец, сортировальная машина осуществляет за один проход сортировку колоды перфо- перфокарт по признаку поля идентификации перфокарты.
1.3. Программное обеспечение 21 1.3. Программное обеспечение Программное обеспечение состоит из комплектов программ, т. е. последовательностей команд центральному процессору, который выполняет соответствующие задания. Системные программы на- находятся постоянно в оперативной памяти и позволяют пользова- пользователю работать с прикладными программами. В этой книге термин «программное обеспечение» обозначает прикладные программы. Эти программы обычно пишутся на проблемно-ориентированном языке, т. е. на языке, который ближе к языку пользователя, чем к машинному языку. Наиболее популярны такие проблемно- ориентированные языки, как Кобол, Фортран и ПЛ/1. Так как большинство пакетов программ написаны на Фортране, чаще всего будем обращаться именно к нему В зависимости от сложности задачи (или задания) программа может не содержать или содержать подпрограммы. Если про- программа содержит подпрограммы, то каждая из них выполняет часть общей задачи и все они находятся под контролем управля- управляющей программы, называемой основной программой. Преимуще- Преимущество использования подпрограммы состоит в том, что она может быть использована (или вызвана) более одного раза, чем экономится оперативная память центрального процессора. Другое преиму- преимущество подпрограммы состоит в том, что ее могут использовать различные программы, благодаря чему достигается экономия времени и затрат на программирование и отладку соответству- соответствующей части задачи. Программы могут быть универсальными, т. е. использоваться множеством задач различных пользователей. Например, про- программа, которая вычисляет среднее из 5 наблюдений, может быть обобщена до программы, которая вычисляет среднее из . п наблюдений, где п — входной параметр, определяемый поль- пользователем. Другая программа, которая строит гистограмму с 5 интервалами, может быть обобщена до программы, которая допускает любое число интервалов, задаваемое пользовате- пользователем. Общая программа должна быть документировано, так, чтобы любой пользователь мог применить ее для своих частных задач. Документация может состоять или из множества пояснительных карт (называемых картами комментария), включенных в колоду карт программы на исходном языке (исходная колода), или из рукописной инструкции, или из руководства. Для ряда общих задач набор соответствующих программ и сопровождающее его руководство могут быть предоставлены пользователю различ- различными вычислительными центрами. Такие наборы программ назы- называются пакетами. В частности, если пакет программ предназначен для решения статистических задач, то эти программы называются
22 Гл. 1.'[Введение в анализ данных пакетами статистических программ (ПСП). Они и будут рас- рассматриваться в книге. Если данный пакет программ имеется на ВЦ, то обычно он хранится на ленте или диске в таком виде, в котором он может вызываться центральным процессором. Доступ пользователя к программе обеспечивают определенные управляющие операторы, которые находят программу и переписывают ее в оперативную память. Управляющие операторы могут быть введены с перфокарт или с таких периферийных устройств, как телетайп или световое перо. Во всяком случае, в руководстве к пакету программ должно содержаться описание методов доступа и /использования про- программы. (Предостережение: так как во многих ВЦ метод доступа к программе модифицируется, то пользователь первоначально должен проконсультироваться у персонала ВЦ.) Проиллюстрируем теперь сказанное на примере трех популяр- популярных ПСП. Пример 1.3.1. Одним из наиболее распространенных является ПСП Biomedical Computer Programs, разработанный под руководством Диксона в ВЦ Медицинского центра Калифорний- Калифорнийского университета в Лос-Анджелесе. Первая версия этого па- пакета — BMD — появилась в 1961 г. и быстро развивалась за счет дополнительных программ, улучшения средств и новых статисти- статистических методик. В 1975 г. новая версия — пакет BMDP — факти- фактически заменила предыдущую. Версия BMDP предоставляет поль- пользователю более гибкий язык описания, новые статистические методы и вычислительные алгоритмы, а также возможность по- повторного анализа того же самого файла данных. Однако некоторые программы старой версии BMD не вошли в новую версию BMDP и поэтому также будут обсуждаться в книге. Версия BMDP обладает многими возможностями, которые будут обсуждаться позднее. К ним относятся: робастные (устой- (устойчивые) оценки; дополнительные статистики для таблиц сопряжен- сопряженности признаков; обратный ход в регрессионном анализе; непара- непараметрические статистические критерии; анализ повторных изме- измерений; графический вывод, включая гистограммы; двумерные графики; графики нормального распределения; графики остатков и графики факторных нагрузок. Программы разбиваются на 6 ка- категорий: дескриптивные (описания данных), анализа таблиц сопря- сопряженности признаков, многомерного анализа, регрессионные, спе- специальные и дисперсионного анализа. Относительно руководства по использованию этого пакета см. Dixon A977). Пример 1.3.2. Другим популярным пакетом является Stati- Statistical Package for the Social Sciences или SPSS, разработанный Норманом Ни и его сотрудниками из National Opinion Research
1.3. Программное обеспечение 23 Center at the University of Chicago. Этот пакет представляет собой комплекс программ, предназначенных для анализа данных обще- общественных наук. Пользователю предоставляется возможность производить много типов анализа при большой гибкости форматов данных, преобразования данных и манипуляции с файлами. SPSS позволяет пользователю производить анализ при помощи управляющих операторов, формулируемых на языке, близком к естественному. Процедуры SPSS включают дескриптивный анализ, простую корреляцию (для порядковой и интервальной шкал), частную корреляцию, одномерную и и-мерную классифи- классификацию, масштабирование Гутмана и множество многомерных процедур. Относительно руководства к пакету см. Nie et at. A975). Пример 1.3.3. Пакет MINITAB — пакет широкого назначе- назначения для студентов, изучающих начальные статистические курсы. Его можно использовать как в пакетном, так и в диалоговом режиме. Этот пакет прост для изучения и запоминания, у него естественная связь между использованием ЭВМ и статистическими задачами, пакет не замкнут, предоставляет большие возможности для построения графиков, для генерации данных, а также разви- развитую систему диагностики ошибок. Относительно копии системы и руководства см. Ryan, Joiner A973, 1976). Приведем теперь список некоторых распространенных ПСП и их разработчиков г). Обзор пакетов на 1972 г. содержится в Schucany et at. A972). Обзор и оценка более поздних пакетов приводятся в отчете R. Kohm и Т. Ryan для Commitee on Eva- Evaluations of Program Packages of the Statistical Computing Section of the American Statistical Association. Заинтересованный читатель может обратиться к этим источникам. ПАКЕТ РАЗРАБОТЧИК 1. STATPACK 2 — на АПЛ ' К. W. Smillie, Dept. of Computing Sci- Science, Univ. of Alberta, Edmonton, Alberta, Canada 2. MANOVA — программы Dean J. Clyde, Clyde Computing Ser- многомерного статистиче- vice, 9555 N. Kendall Dr., Miami, ского анализа Florida 3. PSTAT — ориентирован- Ronald Buhler, Princeton Univ. Сош- Сошный на пользователя puter Center, Princeton, New Jersey язык статистического анализа *) См. также раздел А списка литературы, добавленной редактором пере? врда. — Прим- ред.
24 Гл. 1. Введение в анализ данных 4. SSP — пакет научных подпрограмм 5. DATA-TEXT 6. IMSL библиотеки 7. OSIRIS 8. SAS — система статисти- статистического анализа 9. CALL/370 10. ALICE И. OMNITAB II 12. GLIM IBM, Data Processing Division, 112 E. Post Rd., White Plains, New York D. J. Armor, Dept. of Social Relations, Harvard Univ., Cambridge, Massa- Massachusetts International Mathematical and Sta- Statistical Libraries, Inc., 6200 Hill- croft, Houston, Texas Univ. Michigan, Survey, Research Cen- Center, Ann Arbor, Michigan J. H. Goodnight, Institute of Stati- Statistics, North Carolina State Univ., Raleigh, North Carolina Service Bureau Company, 1350 Avenue of the Americas, New York, New York E. С. Т. Walker, ALICE Assoc, 29 Wellesley Ave., Natick, Massachu- Massachusetts National Bureau of Standards, NBS Tech. Note 552, Government Print- Printing Office, Washington, D. С Numerical Algorithms Group, 7 Ban- bury Road, Oxford, England Замечания 1.3.1. 1. При использовании ПСП принятие решений остается за исследователем. Программа освобождает исследователя от рутинной вычислительной работы, но интерпре- интерпретация полученных результатов зависит от его опыта и знаний. 2. Применение ПСП влечет за собой и некоторые неудобства: a) Исследователь должен привыкнуть к обозначениям и тре- требованиям ПСП, причем в сопровождающих пакет руководствах часто не достает информации для интерпретации выходных дан- данных. b) Пользователю статистического пакета приходится ограни- ограничиваться численными методами, примененными в программах, хотя в его задаче эти методы могут быть и не самыми эффектив- эффективными. c) В пакетах программ не предусмотрен вывод на печать всей информации, необходимой пользователю. Например, некоторые программы выдают лишь точечные оценки параметров без довери- доверительных интервалов. d) ПСП пишутся только на базе стандартных статистических методик. Если исследователь хочет использовать нестандартный анализ, он должен написать свою собственную программу.
1.4. Подготовка данных для пакетов программ 25 1.4. Подготовка данных для пакетов программ В этом разделе мы обсудим подготовку данных для обработки на ЭВМ. Многие данные научного эксперимента собираются и за- записываются вручную, например, на лабораторных бланках, во- вопросниках, в специальных таблицах и т. д. Это объясняется как тем, что ручная запись доступнее и дешевле, чем автоматическая, так и тем, что во многих случаях экспериментатор должен при- принимать решения относительно результатов измерений с некоторой поправкой. С другой стороны в сложных случаях объем получа- получаемых данных оправдывает применение специализированных авто- автоматизированных процедур и предназначенных для них оборудова- оборудования и программного обеспечения. Такая ситуация разобрана в примере 1.4.1. Если данные собираются и записываются вручную, необходимо придать им логичную и компактную форму, совместимую со сред- средствами ввода ЭВМ. Так как диски и ленты представляют собой сложные носители входной информации, рассмотрим только под- подготовку данных для наиболее часто используемого носителя — перфокарт. Прежде чем данные будут нанесены на перфокарты, необходимо составить специальную форму, называемую кодиро- вочной таблицей. Эта таблица определяет распределение 80 столб- столбцов карты по изучаемым переменным. Хотя это распределение довольно произвольно, приведем несколько общих рекомендаций для программ на Фортране. 1. Каждому индивидууму (или экспериментальной единице) должен быть присвоен свой собственный идентификатор, позволя- позволяющий отличить его от других индивидуумов выборки. Идентифи- Идентификаторы обычно кодируются в первых или последних столбцах таблицы. Для этой цели часто используются столбцы 73—80. Один из обычных методов идентификации, состоящий в при- присвоении индивидуумам последовательных целых чисел, имеет то преимущество, что карты могут быть упорядочены по идентифи- идентифицирующим номерам, если их последовательность нарушена. Число столбцов, используемых для идентификации, определяется изве- известным или ожидаемым объемом выборки. Например, для выборки объема 493 нужно использовать не менее трех столбцов. Здесь у всех кодируемых данных цифры должны быть выровнены по правому краю. Так, если для идентификации номера истории болезни используются столбцы 73—80, то число 2 кодируется в столбце 80, а не в столбцах 78 или 79. Аналогично, число 32 кодируется в столбцах 79 и 80. Чтобы избежать ошибок, часто вводятся ведущие нули, так что, например, 2 и 32 записываются как 002 и 032. Другими примерами идентификаторов являются 9-значный индекс социального страхования или набор из букв и цифр, пред-
26 Гл. 1. Введение в анализ данных ставляющих такие свойства, как пол, расу, первую и последнюю буквы первого имени, дату рождения и др. 2. Каждое наблюдение должно быть закодировано с той точ- точностью, с которой производятся измерения, так как, вообще говоря, округление или усечение (отбрасывание младших разря- разрядов) нежелательно. Например, если температура записывается с одним десятичным знаком после точки, то не рекомендуется кодировать ее как целое число. Это позволяет сохранить более подробную информацию, по крайней мере на первых этапах ана- анализа. На более поздних этапах могут производиться округление или усечение. 3. Для каждой переменной должно быть выделено достаточное число столбцов, чтобы можно было записать все наблюдения в вы- выборке — минимальное число столбцов определяется наблюде- наблюдением с наибольшим числом знаков. Так, если наблюдения дали 386, 7232 и 24, то требуется не менее 4 столбцов. Если результаты наблюдений — целые числа разной значности, то они всегда вы- выравниваются по правому краю и могут быть дополнены ведущими нулями. Например, указанные наблюдения можно записать в од- одном из двух видов: Столбец 12 3 4 Столбец 12 3 4 3 8 6 0 3 8 6 7 2 3 2 иш - 7 2 3 2 2 4 0 0 2 4 Если хотя бы одно из наблюдений является отрицательным чис- числом, то следует предусмотреть дополнительный столбец для знака минус. Например, если третье наблюдение дало —24, данные можно записать в виде Столбец 12 3 4 5 3 8 6 7 2 3 2 2 4 Знак плюс может предшествовать положительным числам, но это необязательно. 4. Если значения переменных включают десятичные дроби, то для десятичной точки можно использовать отдельный столбец, а можно этого не делать. Если десятичная точка кодируется, она необязательно должна занимать один и тот же столбец.
1.4. Подготовка данных для пакетов программ 27 Например, числа 723.2, 38.6 и 0.24 можно кодировать в виде Столбец 12 3 4 5 6 ' 7 2 3 . 2 0 3 8.60 0.24. когда точке отводится столбец 4, или в виде Столбец 12 3 4 5 7 2 3.2 3 8.6 0.240 когда точка ставится в любом столбце. Заметим, что если точка перфорируется, то результаты наблюдений не обязательно должны быть выравнены по правому краю. Если десятичная точка не кодируется, то размещение десятичной точки определяется опера- оператором формата (обсуждается ниже). В этом случае предпола- предполагается, что десятичная точка должна находиться в одном и том же месте и все результаты наблюдений выравниваются по правому краю. Так, предыдущие наблюдения записываются в виде Столбец 12 3 4 5 7 2 3 2 0 3 8 6 0 0 2 4 где точка предполагается между столбцами 3 и 4. А вот пример ошибочной записи: Столбец 12 3 4 5 7 2 3 2 0 3 8 6 0 0 2 4 0 5. Отсутствующее значение (наблюдение не было выполнено или его результат утерян) можно закодировать как пробел или ему можно присвоить специальное значение, т. е. число, которое в действительности не может наблюдаться. Например, —10.0 (фу- (футов) — специальное значение для роста индивидуума, 999 (лет) — для его возраста, 9 — специальное значение для порядкового измерения со шкалой от 1 до 7.
28 Гл. 1. Введение в анализ данных Пробел неудобен, поскольку некоторые ЭВМ не отличают его от цифры 0. Поэтому, если 0 — одно из возможных значений переменной, то пробел может быть неправильно прочитан как 0. Правда, некоторые ЭВМ воспринимают пробел как —0, позволяя различать пробел и 0. Использование специального символа имеет тот недостаток, что при кодировке можно забыть пробить специальный знак и использовать вместо него тире или пробел. 6. При измерениях в шкалах наименований или порядковой лучше присваивать цифры, чем буквы. Желательно не использо- использовать 0, так как его можно перепутать с пробелом. 7. Не рекомендуется переводить измерения в интервальной или относительной шкалах в порядковую шкалу. Например, измерения возраста в годах не следует кодировать как «1 — менее 21», «2 = от 21 до менее 35», «3 = 35 или более», так как это приводит к неоправданной потере исходной информации. При необходимости такую перекодировку может произвести ЭВМ или исследователь на дальнейших этапах. 8. Иногда две или более переменных могут быть объединены в одну без потери информации. Например, две переменные Ч": Ю, если в семье нет. детей, 1 ~~ * если в семье есть дети, Х2 = возраст старшего ребенка в семье могут быть объединены в одну Yr = возраст старшего ребенка в семье, где Yx = 0, если в семье нет детей. Это объединение позволяет исключить отсутствие данных для Х2 и сэкономить место. 9. Переменные следует упорядочивать так, чтобы они образо- образовывали близкие по смыслу группы. Например, признаки в заявле- заявлениях о приеме в университет можно разбить на следующие группы: a) идентификатор (номер); b) антропометрические данные — рост, вес и т. д.; c) данные об образовании — результаты тестов, IQ, средний балл и т. д. d) данные о работе — род занятий, стаж на последнем месте работы и т. д. 10. Для кодирования измерений по каждому индивидууму можно использовать и несколько карт, так что экспериментатор не ограничен^80 колонками одной карты. При использовании более одной карты желательно кодировать каждую карту на отдельном кодировочном бланке. Рекомендуется также указывать
F 2 3 4 5 т 1 ' , i 1 6 A 7 8 9 10 11 12 13 U 15 16 17 18 19 20 21 22 2S 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 « 46 47 4« 49 50 51 52 53 5« 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 3E f i ! j 1 \ W 1 T m) S 1 2 E = = X M F 1 3: s и p V 1 g I T Y P I 1 r MAP 1 t ¦ H i R DP MVP BSA С I A T MCI 1 ub i PVI p Cl Hgt 7 8 9 10 1112 13 К 15 1G 17 18 19 20 21 22 23 U 25 26 27 2ft 29 30 31 3233 34 3S 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 5859 60 61 62 63 64 65 66 67 68 69 70 71 72 7S 74 75 76 77 78 79 80 Hct i ? =1 =hi tial- in'l 75 74 75 7» Г 78 79 80 Рис. 1.4.1. Кодировочный бланк из примера 1.4.1.
30 Гл. 1. Введение в анализ данных идентификатор индивидуума на каждой карте и резервировать столбцы для порядкового номера карты. Пример 1.4.1. В отделе исследования шока Университета Южной Калифорнии, Лос-Анджелес, Калифорния, данные о мно- многих физиологических показателях каждого из пациентов соби- собираются последовательно во времени. С этой целью были разрабо- разработаны специальные автоматизированные процедуры сбора данных, записи их на магнитную ленту и вывода на печать (Stewart et at. A968); Palley et at. A970)). Из множества собранных таким обра- образом данных был извлечен и закодирован для набивки на клавиш- клавишном перфораторе специальный набор данных для использования в примерах и упражнениях этой книги. В этот набор данных были включены начальные (в момент по- поступления) и конечные (перед смертью или выпиской) измерения ряда переменных у 113 пациентов в критическом состоянии. Кодировочный бланк для этих переменных приводится на рис. 1.4.1. Заметим, что первые четыре столбца зарезервиро- зарезервированы для идентификатора —¦ номера истории болезни пациента, а в последний столбец заносится 1 для начальных и 2 — для ко- конечных измерений. Детали кодирования переменных приводятся в табл. 1.4.1, а данные — в табл. 1.4.2. Эти данные будем назы- называть набором данных А. Описание переменных примера 1.4.1 (набор данных А) Таблица 1.4. Стол- Столбец Переменная Обозначение в табл. 1.4.2 Ед. нзмер. Шкала Комментарии 1-4 5—8 9—12 13—15 16 17—20 № истории бо- болезни Возраст Рост Пол Исход Тип шока Patient ID Age Height Sex Survival Shock Type Нет Год см Нет » Наим. Отн. Отн. Наим. Наим. Наим. Пациенты нумеруют- нумеруются последовательно Полное число лет 1 - 1 - 2- 3- 4- 5- 6- 7- - муж., 2 — жен. - выжил, 3 — умер - отсутствие шока - гиповолемиче- ский шок - кардиогенный шок - бактериальный шок - неврогенный шок - другие виды шо- шока
П родолжениё^табл. 1.4.1 Стол- Столбец 21—24 25—28 29—32 33—36 37—40 41—44 45—48 Переменная Систолическое давление Среднее артери- артериальное давле- давление Сердечный ритм Диастол ическое давление Ср. центральное венозное давл. Площадь поверх- поверхности тела Сердечный ин- индекс Обозначение в табл. 1.4.2. SP MAP HR DP MVP BSA CI Ед. измер. MM рт. ст. MM рт. ст. уд./мин мм рт. ст. см вод. ст. м2 [л/(минХ Хм2)] Шкала Отн. Отн. Отн. Отн. Отн. Отн. Отн. Комментарии Записывается бли- ближайшее целое Записывается бли- ближайшее целое Дискретная перемен- переменная Записывается бли- ближайшее целое Десятичная точка между столб. 39, 40 Десятичная точка между столбцами 42, 43 Десятичная точка между столбцами 46, 47 49—52 Время появления AT Отн. 53—56 Ср. время цир- циркуляции 57—60 Диурез 61—64 Индекс объема плазмы 65—68 Эритроцитарный индекс 69—72 Гемоглобин 73—76 Гематокрит 77—79 Пробел 80 Вид карты мст ио PVI RCI Hgb Hct 1 — Init с мл/ч мл/кг мл/кг г/100 мл % Нет Отн. Отн. Отн Отн Отн Отн Поря Десятичная точка между столб. 51, 52 Десятичная точка между столб. 55, 56 Записывается бли- ближайшее целое Десятичная точка между столб. 63, 64 Десятичная точка между столб. 67, 68 Десятичная точка между столб. 71, 72 Десятичная точка между столб. 75, 76
Таблица 1.4.2 Данные из примера 1.4.1 (набор данных А) ?о 8 2.! +j О si. 5l7 517 537 537 546 546 563 563 562 562 629 629 63« 63» 583 583 585 585 59» бзо 630 6«2 6«2 639 639 651 651 6«9 649 648 667 667 665 66S 66« 66« 68 68" 37 37 50 50 53 53 75 75 66 66 52 52 68 68 73 73 53 53 64 6<t 65 65 74 74 31 31 29 29 56 56 22 22 2» 24 46 46 165 165 171 171 175 175 157 157 177 177 178 178 185 185 169 169 155 155 168 168 152 152 178 178 165 165 170 170 170 170 tS5 155 165 165 165 165 163 163 И 11 И 11 11 11 21 21 11 11 13 13 13 13 21 21 NftJ <\l (VJ 21 21 11 И 11 11 11 11 11 11 21 21 21 21 21 21 21 21 г г 2 г 2 2 2 2 2 г г 2 г г гот г г г г 2 г 2 г 2 2 г мм мм п> п> 2 2 мш 1 11* 131 14» 1»6 125 107 127 141 173 11* 72 112 89 95 12» 15» 160 138 155 146 129 124 127 105 1И 131 16» 146 120 91 106 ИЗ 117 114 123 123 164 88 98 115 106 101 85 83 92 65 115 59 46 67 44 65 76 97 10* НО Ю» 105 80 87 74 78 82 100 93 72 61 84 и 84 81 72 tot 95 81 76 10» 76 77 188 97 100 75 102 100 73 57 97 87 78 85 110 103 106 130 107 97 85 129 112 54 101 81 87 101 137 87 149 Ul 73 76 97 86 7» 61 70 73 8? 92 44 35 49 30 53 56 67 74 70 78 88 91 64 60 53 54 70 82 74 79 55 40 65 67 67 65 56 76 17 48 36 30 80 46 198 105 41 115 138 128 150 12» 131 82 55 69 31 87 50 3» 77 88 95 123 57 9» 68 » 136 55 40 38 27 5 32 48 141 141 182 182 169 171 17» 179 175 175 189 190 200 202 17» 173 167 167 151 151 152 152 18» 18» 17» 174 176 176 181 181 129 130 t6» 161 14» 162 162 66 355 519 «05 383 95 305 190 222 348 ггв 380 253 140 137 365 365 330 411 233 191 291 471 369 268 183 344 135 260 410 296 277 312 260 406 332 42» 115 89 82 63 56 72 6« 92 126 1«5 90 69 82 90 1«9 104 89 51 »в 134 172 60 76 96 111 «В 70 81 79 20 65 51 1» 80 41 4» 3» 825 183 156 138 125 150 380 178 297 251 168 147 151 170 4*6 ¦ 11- 16' 16» из 100 234 992 173 150 190 188 173 131 152 162 122 154 193 71 162 105 116 112 ПО 180 40 50 0 «0 0 625 *г 37 0 0 0 0 381 0 150 205 152 0 226 0 65 0 30 0 43 0 30 405 510 75 377 200 12 97 565 667 507 507 644 64* 294 «59 «71 «71 «95 **0 525 525 *5в 532 *30 ¦30 632 663 425 475 651 620 594 223 396 386 393 701 393 467 «86 587 433 489 206 292 234 234 239 239 278 175 294 294 206 206 152 145 260 199 281 191 156 164 140 230 197 158 169 370 178 210 143 162 189 195 1в9 259 202 !¦» 190 113 100 127 107 13» 101 155 131 137 127 93 9! 92 89 12» 132 130 116 103 95 110 109 too 103 78 too 123 ив 133 13» 79 иг 1гг ив 133 102 101 из э»о 335 390 325 «10 330 «60 310 «20 360 гво 250 280 260 «00 355 390 350 300 290 зэо 375 310 280 250 295 «60 410 410 360 240 265 365 300 «20 320 315 Э«0 1 г 1 2 1 г 1 г 1 г 1 г 1 2 1 г 1 2 1 г 1 2 1 г 1 2 1 г 1 г 1 2 1 г 1 г 1 г
Продолжение табл. 1.4.2 Patient ID 685 68* 68* 679 6 79 715 715 687 687 689 689 698 698 700 700 705 705 7l3 7l3 716- 721 721 722 722 732 732 7*2 7*2 543 5*3 5*1 5*1 560 560 573 573 ' A9e 1 40 77 77 5o 5o 76 76 67 67 37 37 55 55 60 60 44 44 5* 54 65 65 5* 54 57 57 22 22 52 52 52 59 59 70 70 79 79 Height | 183 183 168 168 178 178 152 152 161 161 169 169 168 168 15* 15* 161 161 170 170 170 170 178 178 164 164 179 179 182 182 152 152 169 169 173 173 152 152 1 ^eX 1 11 11 11 11 11 11 23 23 11 11 11 11 11 11 21 21 AJ AJ 11 11 11 11 1 1 11 2! 21 11 11 11 11 23 23 23 23 13 13 23 23 || a. V) 2 106 2 109 ? 7» 2 107 2 166 2 99 2 116 2 109 2 102 2 1*6 2 2 2 2 2 2 n) ru 2 2 2 2 2 2 2 г г г AJ CVI 3 Э 3 3 3 3 Э 3 97 83 37 17 48 45 32 41 50 62 »1 30 120 146 171 165 53 138 159 163 82 77 99 147 80 63 68 65 Г MAP 73 75 53 61 105 96 88 78 61 83 63 56 8* 60 73 75 96 103 10» иг 75 75 89 112 117 11» uo 105 US 117 52 35 58 97 40 49 55 cr I 28 17 99 97 140 122 122 84 It 25 125 96 102 86 85 66 65 55 81 95 97 92 96 126 119 106 221 106 101 1*0 115 82 *9 175 98 a о 59 60 *2 44 78 92 70 58 41 58 45 42 60 48 44 39 76 81 77 82 4» 45 72 88 80 77 88 8» 99 100 38 26 45 72 38 32 40 «9 MVP 95 93 97 79 26 38 83 64 75 ао 56 34 77 82 186 151 87 9» 31 19 152 79 » 18 302 319 90 81 2S 95 189 124 82 115 67 147 143 1*2 BSA 1 195 195 183 18* 195 195 1»» 14* 167 167 178 178 165 165 167 167 1*2 142 178 178 159 159 172 172 186 186 185 185 20* 20* 155 16* 158 158 185 185 158 165 О 23» 280 100 327 421 378 188 168 155 226 617 59» 551 5*2 3* 185 25* 2*7 426 328 294 702 166 270 **3 389 758 79* 405 175 589 334 472 386 849 178 124 108 t- 147 147 95 97 22 29 14* 158 Ul 137 51 69 50 SI 168 13» 119 76 91 126 191 115 133 122 32 3» 47 25 77 68 28 50 60 60 130 170 59 191 MCT 278 267 19» 178 98 UO 3*2 337 209 210 11* 122 98 102 327 260 237 225 165 «зг 3** 237 228 216 81 101 93 96 137 385 97 132 12* 1 1 7 гзг 325 296 390 О 0 0 15 58 318 350 23 1 60 95 200 200 450 *г 160 850 0 0 0 0 3 52 375 400 0 0 190 176 30 20 0 1 0 23 0 1 0 3 PVI 715 715 668 617 »8г »93 *98 529 397 393 6*5 652 621 845 590 590 656 656 »63 *63 867 781 593 559 494 49* 7** 601 398 *68 663 7*5 *79 500 460 550 333 353 RCI 247 247 178 176 1/1 Ю 171 237 212 212 116 161 336 336 175 175 *67 «67 252 252 215 205 158 261 169 169 1*2 199 228 228 124 1*6 194 275 182 179 154 164 | Hgb I 100 100 105 125 83 92 96 109 136 129 66 66 133 133 98 102 143 143 116 116 77 91 83 118 93 92 103 99 136 124 71 63 85 79 112 ггг 110 135 Hct 340 3*0 270 370 250 271 290 315 380 330 200 200 400 420 300 290 450 *50 350 350 250 225 265 3*5 280 290 310 370 410 385 300 200 280 260 335 230 330 410 г 2 1 г 1 г . 1 г 1 г 1 г 1 г 1 г 1 г 1 г 1 г 1 г 1 г 1 г 1 г 1 2 1 2 1 2 1 г 2 А. Афифи, С. Эйзен
Продолжение табл. 1.4.2 Patient ID [ 593 593 588 588 596 596 58* 58* 650 650 625 625 6l3 613 692 692 672 672 7l9 719 693 693 695 695 73* 73» 44* • ** 3*0 3*0 529 529 «26 426 412 ¦ 12 5Ц 518 A9e | t\ 56 56 89 «9 69 *9 56 56 53 53 &1 *1 26 26 «0 «0 66 66 18 18 47 47 50 50 75 75 70 70 60 60 47 47 56 56 71 71 Height 1*9 149 168 168 171 171 168 168 155 155 165 165 163 163 177 177 166 166 151 151 166 166 165 165 173 173 140 140 160 160 165 165 176 176 173 173 164 164 [Sex 1 |Survival| 13 13 13 13 13 13 11 11 23 23 21 21 21 21 13 13 11 11 23 23 11 11 21 21 11 11 23 23 23 23 23 23 11 11 11 11 21 21 1/5 b 3 3 3 3 Э 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 Э 4 4 4 * 4 * 4 4 4 It 4 4 CL ID 75 72 105 42 26 60 96 168 65 122 127 7» 168 150 93 63 140 67 132 136 133 85 131 129 146 62 70 62 129 145 182 8C 87 83 юг 102 121 MAP »7 25 52 24 15 38 72 11* 79 31 86 89 *5 ЮЗ 116 59 *9 98 54 89 107 89 65 95 86 97 51 48 38 74 99 103 64 68 66 75 7* 79 cr X 135 70 78 59 103 96 107 131 98 106 81 86 U» 81 91 81 110 128 96 81 100 128 99 93 154 144 97 78 53 72 110 106 8<* 77 110 108 112 8* CL О 35 21 37 17 IP 27 61 84 63 21 72 74 36 72 96 45 43 76 46 65 97 65 56 76 72 78 43 37 29 53 75 72 55 52 60 63 65 56 MVP гб l 11* 93 114 180 58 92 61 64 64 106 35 129 60 149 57 *6 94 46 20 25 26 59 75 in 130 110 100 190 220 210 10 40 1Q 90 19 35 | BSA | 137 142 166 -166 170 177 184 189 131 131 178 181 192 192 184 184 no 179 133 133 177 177 166 166 Ш 186 13C 1ЭС 187 187 19C 19C u 559 135 418 203 313 158 1*3 365 225 302 134 102 172 340 286 352 92 330 83 131 107 688 171 238 366 399 60 120 90 130 156 217 180 110 180 410 182 126 182 281 169 133 169 256 < 53 157 63 9» 157 210 110 58 128 46 208 26 53 42 59 30 261 123 85 80 96 32 75 21 78 57 150 18C 190 13C 18* 159 12C IOC MCT ] 100 341 122 196 «56 401 237 118 253 133 441 271 129 101 139 114 498 212 eO5 191 192 85 191 17& 133 117 590 510 390 300 393 370 280 17C 221 40' loo eo« 153 85 313 184 s 0 37 0 0 0 0 0 109 0 0 0 88 0 2 41 0 57 44 1 10 383 *2 53 300 5 270 5 1С 0 15 1С IS 8C У- PVI 1 755 696 479 479 756 673 210 399 835 730 32* *44 349 369 377 545 321 567 300 465 207 593 403 460 483 483 335 415 39* 39* 335 33E 37: 5ог 110 Эбё 50 56A 1 RCI J 215 1*6 108 108 179 323 176 198 235 гЭ5 17» 167 151 203 23J 158 236 153 119 105 23* 168 133 133 Hgb Hct 97 290 Ul 275 7* 235 71 245 75 230 113 340 152 «80 1** *00 76 235 69 250 135 415 141 375 100 300 юг 25o 106 270 90 260 160 470 137 265 99 300 98 170 112 300 104 310 111 325 83 255 210 123 365 210 123 365 20! 20! 2*1 2*1 147 43C 109 Э2С 131 «ОС 112 365 200 125 *2E 200 125 *5C -I V* Л OJ 1 г l 2 1 2 1 2 1 г l г l г i г 1 г 1 г 1 г 1 г 1 г 1 г 1 г 1 г 272 1*6 *90 1 217 99 320 2 2*0 166 SOO 1 2*6 15» 330 2 80 321 l4l 130 403 1 90 398 1*1 9» 290 2
СП Ul Ul Ы О) Ф гт (г- & o- U\u> uiot o^r^ ui m iji ui l*J LJ О* О1 %0 VD уд ^ [_л Ul О4 О4 4J -si 0000 OO 0000 fUHJ U> Ul 0000 (J1U1 l*> U) О О 00 00 О О 1— <- •-- »-- fU ГУ 0» № U1 Ul о о 00 Оо О О -si ОС -4J >, СОо ^ и.о. ОО «Оо ^ """ 4.U! -JSI """ оо оо о о О О С1 О Oooo о do com го ui *- ui -~j &> -c-oo -si %d ~-j -j ui>j) ooi^ aim j U1 О i*j U1UJ 1Д(Л О И ч)И UlLfl >"*>. ~* UlIU •-• •- Ul«-* ГО* О Оо U1 ОО СГ- » 00 00 00 Оо с»да гоо *¦*¦ ооо >-*ги - ы •-* го ui •- i^ru ro--j -JO OO fu- as 00 О) ГО го U1 40 го о ГО-sl ГОЫ vJlUl O»VJ ООП ГО Ul Ul ГО Ul Ul (Л (Л ОО U» Ч> ОО "ГО ГО Г\> ГО ГО ГУ ГО >-*П> ГО ГО ГО ГО ГОП) г'»-» ^s| Qb ^0 ^р \? \ф t^ ^в ь^ ^Q ГО ГО ^D ^0 ГО ^В F* О ro r>* t-*ru ruru V0 #¦ f— Oo OO ) ^- i- О О v. UJU) U Ш' W<V ГОЫ ry *¦ гот оо оо оо оо оо оо оо оо ос> то yi о оо оо оо оо оо от от оо Patient ID Age Height Sex Survival Shock Type SP MAP HR DP MVP BSA CI AT MCT uo PVI RCI Hgb Hct 2=Final I
$5- ru ru (ГО4 (Л Ui Ul Ul ru ro ui ui «¦ «¦ о о * #¦ о о UIUI UIUI ro ro * *¦ ru ro u> <ji Ul UI -si -si -si -si Ul Ul Ul Ul ГО ГЛ1 О О *-*¦» Ul U> ,0Ч> ГО ГО Ul Ul О О ro ru oo да ro ru ui ui ui ui OB 00 О О О О * *— го ru Ul О ru »- ru -j ru ui Ul Oo о о roro 00 Ul ro ^ О 00 о о го го ui -g W Ul *- o* 00 -sj ru ro W 00 ru oo Oo O* 00 U> .-• Ц1 *- 40 о о го го ru ro Ul 0* OO О 00 СП •J3 О ru •- 04 Q- ro ru ГО t0 *¦ '-J Oo ^ roi- Ul Ul Ul Ul ¦sj -si ro ro Ul v? ru о Ui 0> wo> 40 0B •** -si Ш Ul ~~ roo U 0^ Oo W Г0 -J о о * о* Ul Ul VTUI <ло О ав а- го $г Ul ав * го Ul U1 (ЛШ го го то <ч! U) ИЗ О* М) го го 40 ГО го го ГО Ов ГО U1 и> го U1 О Ul U1 ui Ul ru ги о* т и> ш о \о F— Ц1 0900 -- 0*00 гоо •Л UI *¦ U1 U1U1 с о го го ^1 -si ¦si ГО -*¦ о- •-* о ав о го ав ¦г ав о U1 -г го О0 U) ав О" ОВ ОВ О 0* #-№ го *- то ш Ul оо ГО ГО -е-о ГОШ ГО ГО оо ^ (> ui j. JH Ы W Ul- ruui tp 0ч ijl О О Ul О Ul Ul UJ *¦ Ul -si 04 Ul UJ U> *¦ Ol [Л * Ul СЯ a- *¦ nju» o» ru ¦*¦ ui ru "\> *¦ vD Ги ¦*¦ 00 ГО *sJ О О ОС О О )и Г0 f* ro ш o» * UIO и> *¦ Ш ГЧ о о О чр ГО U1 СРГО шы — *¦ го ы ОО О О О О UIUI ГО ГО *¦ t-» ON -*¦ от о и> ru ui ru ги го и \D Ul UJ -vl >^ Ul о о то то ro ru ro a* О Ul «v ro rout ruru и» го то оо о о о о оо U1UI WUI **и> оо го •— го»- го •-» го •-» го *-* ГО t- ГО !-• ГО»-» ГО*-» ГО«— ГО »-• Patient 10 Age Height Sex Survival Shock SP MAP HR DP MVP BSA CI AT МСТ uo PVI RCI Hgb Hct 2=Final I 3 2* Ко
Продолжение табл. 1.4.2 631 631 691 691 6«6 6«6 653 653 710 710 697 697 706 706 744 744 535 535 539 539 602 602 617 617 704 70« 712 712 71,0 740 718 527 527 724 72» (Л Ш in in 68 68 34 3» 28 28 21 21 59 59 63 63 16 16 62 62 66 66 74 74 50 50 68 68 75 75 71 71 42 42 40 40 52 52 Height 178 178 160 160 168 168 161 161 170 170 154 154 161 161 170 170 150 150 170 170 142 142 161 161 !65 165 165 165 160 160 168 168 163 163 163 163 | Survival| 11 11 13 13 11 11 21 21 fu fu 21 21 21 21 ГО ГО 21 21 11 11 23 23 23 23 13 13 23 23 23 23 fu fu 13 13 13 13 Shock Type D_ 1Л 6 107 6 85 6 158 6 9» 6 110 6 106 6 48 6 133 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 25 79 83 88 78 111 104 124 88 105 149 169 115 107 132 69 90 45 68 126 59 43 153 126 112 89 55 60 MAP 81 64 юз 60 79 78 32 86 10» 52 59 63 00 Ul 73 92 50 63 94 113 85 69 89 «9 68 32 4» 89 45 33 104 83 61 4» 37 28 CC I 90 88 10» 84 122 104 134 133 130 60 85 70 97 71 126 108 87 95 111 153 118 113 140 112 112 101 102 84 112. 72 127 77 136 148 58 25 0. О 62 49 76 62 62 26 66 93 41 44 45 41 60 53 7« 35 73 86 65 52 75 42 57 26 35 76 «0 27 88 67 48 32 29 22 MVP 15 60 69 91 112 16 129 69 114 94 108 78 106 45 46 80 116 89 69 46 63 131 12» 105 1« 81 44 50 55 98 257 1*4 «2 172 BSA | 177 177 169 172 172 172 1«7 1»5 176 176 150 157 165 165 167 167 166 166 194 19» 1»3 165 176 176 168 168 1«7 166 170 170 224 170 170 168 169 О 291 ?64 237 230 290 362 631 17 208 305 198 26« «21 «3« 90 195 353 381 2«8 221 121 127 107 193 66 83 185 204 193 120 350 332 120 1- 67 49 132 100 65 60 94 46 104 41 109 69 141 126 4» 4« 86 10» 89 78 81 75 85 130 209 139 100 227 195 101 72 129 107 29 94 208 MCT 151 139 233 132 131 212 97 368 133 18» 132 234 119 98 181 239 166 .142 157 140 369 31» 480 342 258 546 463 219 168 252 345 106 168 426 О 0 21 0 2 0 42 160 38 61 1 12 161 370 23 277 126 22 43 33 20 0 12 0 12 Ю 16 1 1 1 1 30 48 1 1 1 1 PVI 559 530 319 «15 «50 «80 ¦ «2 545 357 550 552 546 344 583 479 566 437 437 318 420 «20 473 «0» «75 *17 «78 531 401 351 637 407 «10 709 709 576 702 RCI 201 201 187 149 169 196 233 170 205 187 160 174 120 1*8 205 218 858 858 192 300 22« 269 »33 433 196 159 292 159 153 152 108 1&8 162 162 ¦261 235 Hgb 121 131 104 104 111 110 133 85 158 101 86 83 106 93 104 106 67 105 143 98 119 86 110 121 136 87 111 104 155 124 90 111 139 91 104 67 1 hCt l 380 350 310 310 335 340 «10 270 «80 270 240 250 320 280 310 320 205 295 «30 300 360 310 330 225 390 «10 35 0 310 475 260 270 295 «20 285 310 200 4 1 г l l 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 1 г l г l г l г 1 г
38 Гл. I. Введение в анализ данных Пример 1.4.2. В качестве другого примера рассмотрим под- подмножество набора данных из эпидемиологического исследования болезни сердца у служащих округа Лос-Анджелес. Детали коди- кодирования переменных приводятся в табл. 1.4.3, а данные — в табл. 1,4.4. Эти данные мы будем называть набором данных В. Таблица 1.4.3 Описание переменных примера 1.4.2 (набор данных В) Стол- Столбец <, 2—5 7—8 11 12—14 15—17 19-20 21—23 24—26 29 32 Переменная № истории бо- болезни Возраст в 1950 г. Доктор, прово- проводивший обсле- обследование в 1950 г. Систолическое давление крови в 1950 г. Диастол ическое давление крови в 1950 г. Рост в 1950 г. Вес в 1950 г. Холестерин в сы- сыворотке в 1950 г. Социальное по- положение Клиническое со- состояние Обозначение в табл. 1.4.4 Case Age 50DR SYST DIAST Height Weight SER-CH SE CS Ед. измер. Нет Год Нет мм рт. ст. мм рт. ст. дюйм фунт мг% Нет Нет Шкала Наим. Отн. Наим. Отн. Отн. Отн. Отн. Отн. Поряд. Наим. Комментарии Пациенты нумеруют- нумеруются последовательно Полное число лет в 1950 г. Код от 1 до 4 Записывается бли- ближайшее целое Записывается бли- ближайшее целое Записывается бли- ближайшее целое Записывается бли- ближайшее целое Записывается бли- ближайшее целое 1 — высокий, ..., 5 — низкий 0 — другие болезни сердца (БС), 1 — коронарная БС 2 — коронарная и гипертониче- гипертоническая БС 3 — гипертониче- гипертоническая БС 4 — гипертониче- гипертоническая и ревмати- ревматическая БС 5 — ревматическая КГ 6 — возможна БС 7 — гипертония без КГ 8 — нормально
1.4. Подготовка данных для пакетов программ Стол- Столбец 41 42—44 45—47 48—50 51—53 73—74 76—77 Переменная Доктор, прово- проводивший обсле- обследование в 1962Jr. Систолическое давление крови в 1962 г. Диастол ическое давление кро- крови в 1962 г. Холестерин в сы- сыворотке в 1962 г. Вес в 1962 г. Стадия ишеми- ческой БС Год смерти (до 1968 г.) Обозначение в табл. 1.4.4 62DR SYST DIAST SER-CH Weight DIAG DTH Ед. нзмер. Нет мм рт. ст. мм рт. ст. мг% фунт Нет Нет Продолжение табл. 1.4.3 Шкала Наим. Отн. Отн. Отн. Отн. Наим. Интерв. Комментарии Код от 1 до 5 (неза- (независимо от столбца И) Записывается бли- ближайшее целое Записывается бли- ближайшее целое Записывается бли- ближайшее целое Записывается бли- ближайшее целое 0 — неизвестно 1—3 — инфаркт миокарда 4—7 — стенокардия 8—9 — другое 0 — жив, в против- противном случае — год смерти После завершения распределения столбцов и кодирования данные готовы для нанесения на перфокарты. Следующей после перфорации проблемой является передача данных с перфокарт в память ЭВМ. Это достигается с помощью оператора формата, указывающего процессору: а) какие столбцы пропускать, Ь) ка- какие столбцы считывать как одну переменную, с) где находится десятичная точка, если она используется, и d) число карт для каждого индивидуума. Так как большинство ПСП написаны на Фортране, мы обсудим только операторы формата на Фортране. Общей формой такого оператора формата является Столбец 7 F0RMAT (Л, В, С,...), где А, В, С,... могут быть одной из следующих инструкций: 1. «X есть инструкция пропустить (не читать) п столбцов. Например, 6Х означает пропуск 6 столбцов, X — одного столбца и т. д. 2. / есть инструкция о переходе к следующей карте, // есть ^инструкция о пропуске одной карты и переходе к следующей "за ней карте и т. д.
Данные из примера 1.4.2 (набор данных В) Таблица 1.4.4 Case i г 3 4 5 6 7 8 9 10 11 12 13 1* 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 *3 ** 45 46 47 48 *9 50 Age 42 53 53 48 53 58 48 60 59 40 56 58 6* 57 32 59 48 47 47 28 37 5* 38 52 46 51 49 46 26 35 45 57 24 64 34 30 52 56 4* 45 29 42 46 45 51 4* 32 34 30 40 50 DR^ 1 1 г 4 3 2 4 1 4 3 3 3 2 2 1 1 1 2 2 1 3 1 1 г l 4 1 4 1 2 2 1 3 1 3 3 » 2 1 3 2 2 3 4 3 2 2 2 2 1 SYST no 130 120 120 118 122 130 124 160 120 115 140 135 110 112 140 130 115 130 120 95 141 130 125 UC 120 120 ' 110 no 120 108 130 104 144 1*2 no 1*5 125 125 130 1*0 108 13* 150 120 120 108 130 120 112 DIAST 1 65 72 90 80 74 72 90 80 100 80 80 90 85 78 70 90 80 8» 80 86 55 100 90 90 70 80 80 70 80 80 80 80 75 95 102 80 90 75 90 90 95 80 90 10* 90 90 78 90 84 80 Height 64 69 70 72 66 69 67 74 72 69 64 63 64 70 69 65 64 67 67 70 69 65 67 65 67 70 68 66 70 72 70 69 70 66 71 71 66 65 65 73 64 67 73 71 66 72 66 61 68 69 [Weight! 147 167 222 ?29 134 135 165 235 206 148 .147 121 189 173 171 150 147 211 147 189 190 171 170 141 159 139 19* 160 206 191 155 18* 157 191 176 198 183 122 156 143 148 1*5 198 187 163 211 151 120 170 167 SER-CH 291 278 342 239 2*3 210 219 203 269 185 260 312 185 282 254 303 271 304 334 328 226 363 399 199 271 261 263 2*2 260 321 258 167 185 2*4 31* 234 289 329 439 2*3 419 285 271 278 226 188 235 317 258 334 Ш CO CO О | 80 29 | 2 8 4 1 6 2 4 8 1 * 8 2 3 8 5 3 8 4 3 8 4 3 8 1 5 8 3 3 8 3 3 8» 5 8 1 1 8 4 3 8 2 2 8 4 2 8 1 4 8 3 1 8 1 1 8 3 3 { 3 t 3 2 I 2 i 3 i 3 i 3 i 3 ( 3 1 3 ( 5 i 3 ( 1 3 1 3 ' 2 1 2 I 2 1 3 1 1 1 1 i 3 ! 3 i 1 i 4 1 3 5 8 2 1 8 2 1 7 1 2 8 1 3 7 3 5 8 1 1 8 1 4 8 4 5 7 1 2 8 1 3 8 1 1 7 1 3 8 1 3 8 2 * 8 2 2 5 3 3 8 1 3 8 2 SYST 120 122 132 118 118 130 138 160 150 110 140 120 1*0 144 142 205 165 155 138 128 155 180 132 152 152 130 178 130 130 130 138 155 120 198 145 100 150 140 130 158 130 115 135 210 130 133 120 122 165 100 DIAST 78 68 90 68 56 72 86 90 100 64 80 75 78 74 96 85 85 80 85 88 105 100 86 100 88 95 76 90 76 80 88 90 80 110 too 65 88 80 80 78 85 70 80 110 80 88 70 68 110 70 SER-CH 271 250 304 209 261 2*5 275 271 291 341 326 234 153 236 249 302 251 278 303 300 311 276 353 234 299 285 230 25* 335 334 259 237 236 237 233 227 299 253 342 249 254 249 219 368 271 240 226 ' 248 359 306 Weight 146 165 223 227 138 136 166 226 198 152 153 114 168 171 179 153 163 1*9 147 194 191 154 167 135 164 173 196 175 231 169 182 173 16$ 187 187 1*3 130 152 1*6 139 1*6 205 189 167 196 155 118 181 154 DIAG 2 9 г 3 2 2 2 3 3 2 2 2 3 2 3 2 3 9 2 6 2 3 2 6 6 6 9 6 г 6 г г 7 7 9 г 6 г. г 6 5 6 4 г 1 г 6 6 * 6 DTH 68 67 64 66 66 64 63 65 67 66 68 63 66 66 64 65 64 68 0 0 0 65 0 0 65 0 0 0 0 0 0 0 0 0 0 0 0 66 0 0 0 0 0 0 0 68 0 0 0 0
Продолжение табл. 1.4.4 Case 5l 52 53 5it 55 56 57 58 59 60 ы 62 6Э 64' 65 66 67 68 69 70 71 72 73 7i* 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 9i* 95 96 97 98 99 100 Age ] 43 39 45 41 57 53 55 57 33 45 33 61 36 37 51 46 51 60 57 63 63 68 57 61* 63 62 55 50 39 50 42 53 56 62 61 57 43 65 49 47 59 53 43 52 65 50 33 49 62 50 DR 1 3 3 2 2 2 1 3 2 2 3 4 1 2 3 3 3 1 3 3 2 1* 3 3 3 1 2 1 1 3 1 э 3 4 1 4 3 г 1 1 2 1 1 4 1 3 4 1» 1* |« г SYST 124 118 164 ПО 115 130 110 125 210 115 110 130 160 100 130 125 но 138 130 110 130 115 120 1*5 150 115 120 140 150 11" 150 105 100 Ьо 166 138 110 120 170 120 ПО 110 120 120 140 125 ПО 106 120 100 DIAST 88 72 110 80 80 90 80 90 ПО 90 80 90 100 75 88 85 80 100 84 80 80 65 80 85 90 75 80 82 90 72 115 78 80 90 90 80 68 85 105 90 70 80 90 80 86 85 70 80 80 65 Height I 66 71 66 69 68 68 67 65 67 70 67 68 68 72 67 73 69 72 69 71 67 69 63 66 70 67 68 69 71 65 71 67 71 72 66 63 71 70 67 69 70 70 62 72 67 67 67 67 63 69 Weight. 195 144 245 170 145 188 150 163 165 187 209 200 160 164 178 198 178 208 122 224 143 196 109 140 147 180 174 145 170 156 220 166 199 233 130 158 166 134 183 139 130 167 166 171 128 164 162 151 142 1*1 SER-CH 345 224 220 347 339 353 235 235 220 385 240 188 241 24 1 295 283 277 296 24 3 158 243 278 215 308 226 303 535 199 326 187 283 195 209 284 258 285 300 , 22о ' 214 273 203 22о 253 198 300 228 239 191 газ 224 ш со 3 3 4 3 5 3 3 2 1 3 3 3 2 3 4 4 3 3 г 1 3 2 1 1 2 3 2 3 1 5 3 3 г 1 3 3 3 3 5 3 3 3 3 3 1 5 3 г 3 3 (Л о 8 8 7 8 8 8 8 8 4 8 а 8 7 8 8 а в 7 8 8 8 8 а 8 а 8 а 8 7 8 7 а 8 8 7 8 8 8 3 8 8 а 8 а 8 3 8 8 8 8 62 DR j 1 г 1 3 1 1 4 г г г г 4 3 J* 3 4 4 1 4 3 2 1 2 3 4 г 5 г 1 3 1 2 1 5 3 г 1 * 4 3 1 1 4 3 1 1 3 4 5 г SYST ПО 120 145 150 160 160 120 170 150 142 156 125 170 125 170 175 150 135 166 135 166 150 136 150 140 122 146 176 195 168 16* иг ПО" 134 150 130 105 140 190 160 125 125 13* 152 185 130 70 128 116 170 DIAST I 85 70 95 90 80 80 76 94 94 108 108 70 110 72 90 85 88 95 102 80 90 65 76 80 85 80 76 106 98 ПО 120 80 65 7* 70 70 60 85 100 104 75 75 78 86 95 70 70 70 88 78 SER-CH 309 209 258 296 254 230 221 255 178 334 251 210 235 271 367 309 311 286 291 гог 273 248 251 2*7 192 289 268 218 20* 199 275 218 220 170 185 225 262 35* 148 308 198 275 316 190 2*0 2*0 233 207 311 2*2 Weight 183 1*7 194 186 149 172 170 139 17» 202 205 191 163 175 194 211 186 199 ИЗ 224 121 192 108 134 145 126 156 155 178 170 239 168 185 225 126 из 143 1*1 161 163 127 152 168 178 ¦ 1*4 15г 155 1*2 160 125 DIAG I 4 г г г 1 7 9 6 6 9 1 7 6 г 1 9 2 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 DTH 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 65 68 64 66 68 63 63 6S 66 65 64 66 67 67 63 68 64 64 68 63 65 6* 66 67 67 65 64 64 68 66 67 65
Продолжение табл. 1.4.4 о о 101 102 103 104 105 106 107 108 109 110 111 112 из 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 1*1 142 1*3 144 145 146 147 1*8 1*9 150 8. 45 53 30 25 26 69 60 45 55 63 52 53 55 48 50 44 49 61 42 47 40 33 23 •43 51 57 зо 44 44 38 35 34 30 51 51 57 46 50 25 55 47 49 47 34 47 46 45 37 36 42 СГ о о 4 3 2 1 3 1 2 3 1 3 1 1 3 3 3 1 4 1 4 1 г 3 3 3 4 3 3 2 2 2 1 3 1 3 4 3 2 г 4 г г 1 а 3 г 1 2 1 3 1 130 125 160 ПО 118- 160 140 130 по 190 170 гоо 118 120 105 130 120 150 120 ПО 100 125 130. 120 130 160 115 120 120 106 124 126 104 140 120 108 115 132 120 120 130 130 130 105 120 120 120 ISO 120 ПО со О 90 88 85 80 80 90 80 100 80 100 100 140 82 85 70 80 80 90 85 80 70 88 90 80 90 90 86 90 90 80 90 85 70 92 80 76 90 88 84 92 75 80 95 65 80 80 82 105 90 70 •4- '5 з: 70- Ы 71 74 65 67 68 72 75 66 65 67 69 68 65 69 69 69 67 71 68 67 70 71 69 63 70 67 72 67 68 64 69 69 70 66 69 69 72 65 67 64 64 65 6S 68 71 69 67 71 СГ» ? 200 167 155 190 120 185 170 168 198 187 164 197 124 161 161 202 189 142 192 228 169 149 173 164 193 144 172 178 196 181 189 165 161 170 200 161 189 гго 180 154 14S 162 163 137 152 152 171 205 188 162 -СН СГ Й 220 226 187 235 328 314 356 252 358 207 218 210 265 267 325 246 295 247 250 250 гбо гго 280 260 290 280 210 260 240 гю зго 310 300 310 260 200 300 гго 220 310 260 230 гго гг0 270 240 гго гго 190 ш СП 3 3 3 3 г 4 1 5 3 5 5 3 3 г 4 3 3 3 5 5 2 3 3 3 г 4 г г 3 5 3 г 3 1 2 г 3 3 3 2 3 5 4 5 3 г 1 3 s 3 ел о 8 8 8 8 8 8 6 3 8 3 7 3 8 8 8 8 8 6 8 8 6 & 8 8 8 7 8 8 8 8 8 8 8 8 8 8 8 г 8 8 8 8 8 8 8 8 8 7 8 8 СЕ Q и г 3 1 г 3 3 5 1 3 г 1 1 5 1 3 1 1 г 1 г 1 1 1 1 3 3 1 3 4 3 4 1 1 3 2 3 г 3 3 2 4 1 1 2 1 3 4 3 А '3 ь ел ¦>- ел 130 160 130 116 132 170 192 150 ПО 148 110 215 132 110 125 130 140 150 162 V28 112 135 US 125 120 170 108 130 150 110 138 130 135 172 144 106 НО 182 130 126 138 195 130 118 145 150 140 180 125 155 \ 3 90 100 95 90 96 85 7* 100 80 70 70 100 90 75 75 60 75 90 98 88 70 80 90 85 80 80 80 96 84 80 88 90 85 100 80 75 60 100 75 72 76 105 70 82 76 100 84 110 82 90 -сн SER 203 21? 184 280 354 191 250 234 2.64 210 261 139 284 258 186 176 305 218 268 249 269 225 308 271 254 321 201 2*2 240 208 338 296 290 28? 283 150 169 204 ггг 265 289 220 190 306 270 326 238 214 189 174 1 Weii 168 165 156 210 137 159 150 176 177 188 130 164 124 162 114 165 203 174 20? 207 151 166 180 176 178 152 187 173 193 179 201 167 178 163 169 161 150 246 179 138 163 194 15г 160 166 169 187 187 О О С 0 0 0 . 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 X v~ О 67 67 63 63 63 66 0 0 0 0 0 64 . 66 0 0 64 0 67 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Продолжение табл. 1.4.4 Case 151 152 153 154 155 156 157 158 159 .160 161 162 163 164 165 166 167 168 169 170 171 172 1?з 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 Age 57 43 58 34 29 43 48 41 54 47 35 48 49 25 48 42 34 39 46 30 64 47 36 30 48 34 26 22 гь 54 53 48 42 42 60 35 52 44 41 28 36 54 49 49 61 50 гз 20 46 36 50 DR | 3 г э 1 3 г э 3 3 1 1 г э 4 1 3 3 3 г 4 3 3 4 3 1 3 4 г г 3 г 3 3 4 2 2 г 2 г 3 3 2 4 Э 1 1 3 3 1 SYST 130 120 110 ПО 148 ПО 122 120 120 ПО 110 142 иг 115 150 120 152 130 108 106 104 104 135 120 130 ПО 110 120 88 100 138 120 115 122 128 100 120 150 142 115 118 148 ПО 105 122 115 U0 130 1*0 100 DIAST I 90 80 78 70 98 75 94 80 73 801 80 90 78 78 ПО 90 102 92 75 80 74 80 80 80 92 80 75 90 60 64 90 75 75 78 80 78 70 95 96 65 84 9о 75 75 78 80 70 80 84 70 Height 71 69 69 72 69 67 73 64 69 66 70 67 64 73 66 75 68 67 71 70 63 73 69 70 70 66 66 69 70 71 66 70 71 66 70 68 68 61 66 66 63 71 70 69 64 66 69 66 66 7о [Weight | 181 201 175 157 203 143 198 147 137 187 154 163 149 180 189 207 185 144 140 173 146 177 155 130 198 155 136 192 178 173 215 203 204- 128 141 141 135 127 145 150 153 140 141 144 13з 148 137 150 138 157 SER-CH 2*0 300 300 220 260 190 25о 220 210 210 250 гго г*о 160 гго гю 300 гю 260 26о 300 39о 290 260 230 250 23о 2*0 ЗОо 300 310 22о 22о 190 23о гго 250 260 300 гг0 300 22о 15о 25о 18о 300 120 гю 13о гбо ш ел 2 1 3 3 5 3 1 4 3 э 3 4 3 3 1 3 3 3 3 4 3 3 3 3 3 3 3 5 2 4 4 3 г 2 3 3 3 3 2 2 г 1 3 3 3 2 3 5 4 3 сл о 8 8 8 8 8 8 8 8 8 8 8 8 8 8 3 8 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 3 8 8 8 8 8 8 8 8 8 0 6 8 62 DR | 3 4 Ч 1 г 3 3 1 4 1 1 1 4 1 3 3 3 г 3 5 1 1 2 3 1 3 1 г 1 г 1 3 г 3 г 1 1 4 3 г 1 4 1 2 1 г 1 г 3 SYST 190 138 148 135 150 124 170 170 160 120 110 180 125 120 180 140 195 128 120 на 130 'но 120 135 140 180 118 150 112 125 148 130 140 112 140 144 135 155 148 124 124 230 170 НО 170 115 Н2 130 148 120 I. DIAST I 101» 82 80 80 110 90 120 НО 80 85 75 SO 72 80 105 94 125 88 75 80 80 70 84 80 100 100 76 105 76 75 88 70 80 66 80 90 80 95 88 86 80 105 98 70 72 65 76 85 88 86 SER-CH 288 204 229 243 245 204 276 333 329 279 256 ггз 253 ?16 224 219 280 204 228 254 2^9 339 238 260 235 278 183 269 308 259 336 273 225 196 224 239 300 312 315 276 252 265 221 254 229 273 198 274 160 251- IWeight 185 198 198 158 194 139 211 160 143 188 1*0 167 153 200 173 224 180' 151 148 186 143 18g 157 157 204 121 134 201 206 гог 202 213 гг» 127 122 1Э8 137 13о 143 149 1*9 1*3 147 144 14-г 152 153 158 157 152 DIAG [ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 о- 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Г DTH 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0. 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 й 0
44 Гл. 1. Введение в анализ данных 3. 1да есть инструкция считывать целочисленную переменную, представленную в w столбцах. Например, 16 означает считывание целочисленной переменной из 6 столбцов. Целочисленные пере- переменные называются также переменными с фиксированной точкой, они не могут содержать дробной части. 4. n\w есть инструкция считывать п целочисленных перемен- переменных по w столбцов каждая. Пусть, например, мы имеем следующие данные: Столбец 123456 821364 Тогда a) 16 означает считывание числа 821364; b) 312 означает считывание чисел 82, 13, 64; c) 213 означает считывание чисел 821 и 364; d) 212, 211 означает считывание чисел 82, 13, 6 и 4. 5. Fw.d есть инструкция считывать десятичную переменную, состоящую из w столбцов с d < w столбцами после десятичной точки. Тогда в предыдущем примере a) F6.3 означает считывание 821.364; b) F6.5 означает считывание 8.21364; c) F6.0 означает считывание 821364. Десятичные переменные называются переменными с плава- плавающей точкой. Десятичные точки перфорировать не обязательно. Если десятичная точка перфорируется, то d в этой инструкции игнорируется. 6. riFw.d есть инструкция прочитать п десятичных переменных по w столбцов каждая с d < да столбцами после десятичной точки. Для рассматриваемого примера a) 2F3.1 означает считывание 82.1 и 36.4; b) 3F2.0 означает считывание 82., 13. и 64.; c) F2.1, 2F2.2 означает считывание 8.2, 0.13 и 0.64. 7. Ew.d есть инструкция считывать переменную с плавающей точкой с d < да знаками после десятичной точки и порядком в виде Е ± z, где z есть одно- или двузначное целое число. Например, 102.36 может быть записано как 0.10236 х 103 и закодировано как 0.10236Е + 03, где Е + 03 означает 103. Форматом в этом случае является Е11.5, так как здесь имеется пять разрядов после десятичной точки, а всего 11 столбцов, включая старший нуль, десятичную точку и порядок. Этот формат допускает d значащих цифр независимо от величины числа. Чтобы охватывать и отрица- отрицательные числа, этот формат должен иметь вид Е12.5. 8. Тс есть инструкция начинать считывание в столбце с. Так, Т23 означает, что следующая переменная начинается в столбце 23. 9. nkw есть инструкция о считывании п групп по да алфавитно- цифровых символов (без служебных), причем 1 <: w < k, где k —
1.5. Критерии оценки пакетов статистических программ 45 максимальная длина слова ЭВМ. Если, например, мы имеем дан- данные Столбец 123456 7 89 10 MALEFE MALE ТО a) А4, А6 означает считывание MALE,FEMALE; b) 2A3.A4 означает считывание MAL,EFE,MALE. Пример 1.4.1 (продолжение). Формат F0RMAT A4, 2F4.0,13,11,14, 4F4.0, F4.!,2F4.2,2F4.1, F4.0,4F4.1, T80, II,/) означает считывание только первой карты и пропуск второй карты для каждого пациента. Например, данные для первого пациента (из табл. 1.4.2) будут считаны следующим образом: 517, 68., 165., 1, 1,2, 114., 88., 95., 73., 1.7, 1.41, 0.66, 11.5,22.5, 110,56.2, 20.6, 11.3, 34.0 и 1.Этот формат определяет переменные с фиксирован- фиксированной точкой (номер истории болезни, пол, исход, тип шока и вид карты), а остальные являются переменными с плавающей точкой. Заметим, что число колонок, выделенных для некоторых пере- переменных, избыточно. Например, возраст и вес размещены в 4 столб- столбцах каждый, в то время как нужно не более 3. Поэтому можно использовать (..., 1X,F3.O,1X,F3.O, ...) вместо (..., 2F4.0, ...). Этот формат можно записать как (..., 2 (IX, F3.0), ...), что служит примером применения вложенных скобок. Следующий формат считывает все эти переменные как пере- переменные с плавающей точкой: F0RMAT CF4.0,F3.0,F 1.0,5F4.0, F4.1,2F4.2,2F4.1, F4.0,4F4.1, T80, Fl.Oy). Здесь все числа считываются с десятичной точкой, например, 517., 68., ..., 1. для первого пациента. Чтобы считать вторую карту и пропустить первую, формат должен быть такого вида: [ F0RMAT (/, 14,..., Т80, II). 1.5. Критерии оценки пакетов статистических программ ' В настоящем разделе мы приводим некоторые соображения отно- относительно ПСП и критерии для их оценки. Это резюме основано на докладе Комитета по оценке ПСП, представленного ежегодному
46 Гл. I.*Введение в анализ данных собранию Американской Статистической Ассоциации в 1974 г. (Francis etjal., 1974). Важна каждая из описанных ниже характе- характеристик, но ни одна из программ не является оптимальной с точки зрения всех характеристик. Более того, программа, оптимальная в одной проблеме, может не быть оптимальной в другой. Поэтому пользователь должен оценить каждую программу с позиций своих проблем, а затем произвести выбор в соответствии с этими критериями. Требования к пакетам можно разделить на три группы: понятность для пользователя, статистическая эффек- эффективность и удобство эксплуатации. 1.5.1. Понятность для пользователя Ключевую роль при оценке пакета играет сопровождающая его документация. Ясное, короткое и хорошо организованное спра- справочное руководство с алфавитным указателем (и по возможности с указаниями для начинающих) должно точно описывать все возможности пакета. Руководство должно не только описывать все синтаксические правила, но и указывать на наиболее вероят- вероятные ошибки потенциального пользователя. Процедуры должны быть описаны в общепринятых терминах, со ссылками на литера- литературу, используемые численные методы, с указанием стандартных (по умолчанию) значений параметров. Кроме того, должны быть приведены простые и более сложные примеры. Другим важным фактором является такой язык управления заданиями, в котором процедуры и режимы работы можно задать в терминах, описывающих их функции. Поясняющие метки нужны для упрощения ввода, разметки вывода и проверки упра- управляющих операторов. Дополнительными желательными свойствами являются: a. Указания о том, как поступать с отсутствующими зна- значениями. b. Полный, компактный и неизбыточный вывод со средствами подавления части вывода и запроса дополнительного. c. Графический вывод в виде гистограмм, вероятностных гра- графиков, графиков остатков и т. д. d. Надписи на графиках и возможность использовать различ- различные шкалы (это обязательно). e. Алгоритм для определения стоимости и времени выполне- выполнения задания. f. Язык управления заданиями со словарным запасом из той предметной области, на которую он ориентирован. Например, справочное руководство по BMDP больше подходит для стати- статистиков, а по SPSS — для специалистов по общественным нау- наукам.
1.6. Другие применения ЭВМ 47 1.5.2. Статистическая эффективность Пакет должен быть универсальным, т. е. допускать динамичный и непрерывный процесс обработки. Для этого требуется удобная система файлов для подготовки данных, позволяющая выходу каждой процедуры служить в качестве входа последующих про- процедур. Например, остатки из программы регрессионного анализа должны подходить в качестве входных данных для программы построения графиков остатков. Пакет должен основываться на правильных и подходящих формулах, на устойчивых в вычислительном смысле и правильно запрограммированных алгоритмах для вычислений по этим фор- формулам, а также на критериях контроля точности используемых данных и процедур. Например, произведение исходной матрицы и^обратной ей служит хорошим контролем точности обращения. 1.5.3. Удобство эксплуатации Для удобства эксплуатации на ВЦ необходимо иметь листинг программ на исходном языке как первичную документацию пакета. Пакет должен обладать способностью расширения за счет вклю- включения других программ в систему и допускать легкий перенос с одной ЭВМ на другую. Наконец, язык, на котором написан па- пакет, оказывает влияние на заложенные в нем возможности. Для научных целей подходящим языком часто оказывается Фортран. * 1.6. Другие применения ЭВМ как средства статистического анализа Имеется много других способов использования ЭВМ в статисти- статистическом анализе. Одним из способов является случайный выбор множества объектов из более широкого множества. Эта процедура содержит случайный выбор числа z из равномерного U @,1) рас- распределения. Программы, выполняющие эту операцию, называются генераторами псевдослучайных чисел и обычно содержатся в библи- библиотеке программ ВЦ. Проблема получения псевдослучайных чи- чисел, близких по своим свойствам к случайным, исследовалась многими учеными (например, Lewis et al., A969); Chen A971); Atkinson, Pearce A976)). Генерация случайных чисел необходима для выполнения статистического моделирования. Например, часто бывает трудно аналитически вывести выборочное распределение некоторой слож- сложной статистики. Тогда статистик может прибегнуть к моделиро-
48 Гл. 1. Введение в анализ данных ванию, производя повторно случайные выборки из соответству- соответствующего теоретического распределения, а затем вычисляя значение статистики критерия для каждой выборки с тем, чтобы получить исследуемое выборочное распределение. Затем это распределение и его характеристики можно рассматривать вместо характеристик неизвестного выборочного распределения. Эта процедура известна как метод Монте-Кйрло (Hammersley, Handskomb A964)), соот- соответствующие примеры приводят Azen, Derr A968) и Katz et al. A978) *). Если теоретическое распределение с известной функцией рас- распределения z = F (х) имеет обратную функцию х = F'~1 (г), кото- которую можно представить в явном виде, то из этого распределения легко получить случайную выборку объема п. Для этого выберем сначала случайные числа zlt ..., zn из распределения U @,1). Тогда известно, что значения хъ ..., хп, где xL = F'1 (г,-), предста- представляют собой случайную выборку из распределения с ФР F (х). Существуют методы и для получения выборок из распределений, для которых F*1 не выражается в явном виде (Hastings A955)). Box, Mueller A958) приводят методы получения случайных чисел из распределения N @,1). Другой способ получения случайных выборок из заданного распределения состоит в использовании связи между заданным и теми распределениями, для которых имеются случайные гене- генераторы. Например, чтобы получить случайную выборку объема п из распределения %2 (v), можно получить п независимых выборок по v случайно выбранных значений из распределения N @,1). Если V обозначить t-ю выборку через и,ц, .... щ.., a xt = 2 u\k, i = . k=\ — 1, ..., n, то xu ..., xn и будут искомой выборкой. Чтобы получить случайную выборку объема п из распределе- распределения t (v), достаточно выбрать величины иъ ..., ип случайно из N @,1), a xlt ..., хп — случайно из %2 (v). Тогда tu .... tn, где и будет искомой выборкой. Чтобы получить случайную выборку объема п из распределе- распределения F (vb v2), выберем иъ ..., ин случайно из х2 (vi), a oit ..., vn — случайно из %2 (v2). Тогда шъ ..., wn, где Ни; i и будет искомой выборкой. г) В настоящее время происходит быстрое развитие этих методов исследо- исследования, являющихся частными случаями имитационного моделирования. Подроб- Подробнее см. Бусленко и др. A962)*, Соболь A968)*, Кляйнен A978)*. — Прим. ред.
I.e. Другие применения ЭВМ 49 Другим важным применением ЭВМ является вычисление про- центилей теоретического распределения. Если плотность f (х) известна, а функция распределения F (х) не выражается в явном виде, то для нахождения процентилей можно использовать про- программу численного интегрирования, обычно имеющуюся в библи- библиотеке программ. Если f (x) нельзя представить в явном виде, то процентили можно получить с помощью метода Монте-Карло. Для этого нужно случайно выбрать много значений х из распре- распределения с функцией плотности f (x), а затем оценить q-ю процен- тиль с помощью значения xq, левее которого расположены q % выборочных значений. Наконец, другим важным применением ЭВМ является вычисле- вычисление оценок максимального правдоподобия. Один такой метод обсуждается Rao A965). Обзор многих численных методов при- приводят Ralston, Wilf A960). Пример 1.6.1. Приведем теперь пример использования ЭВМ для моделирования распределения случайной величины из Berg- Bergman, Azen A974). В этом примере требовалось установить, можно ли объяснить колебания, наблюдаемые при последовательном определении чистого баланса глюкозы в изолированной перфу- зируемой печени собаки, только ошибками измерений. Оценива- Оценивалась дисперсия ошибок нелинейной функции NHGB = FlVjCHv + ^pvCha — FpvCpv — FHVCHA. Здесь NHGB (Net Hepatic Glucose Balance) — чистый баланс глюкозы, Fuv ¦— полный венозный кровоток печени, FpV — крово- кровоток на входе в портальную вену, Сну,СНА и CPV — концентрация глюкозы в крови в одном выходящем и двух входящих потоках. Потоки измеряются в мл/мин, а концентрации — в мг/мл. Для оценки дисперсии использовались три метода: эксперименталь- экспериментальный, аналитический и Монте-Карло. Моделирование на ЭВМ проводилось следующим образом. Предполагалось, что пять переменных FpV, CpV, CHV, FHV, CHA независимы и нормально распределены с известными средними и дисперсиями. Для каждой полученной на ЭВМ реализации зна- значений этих пяти переменных вычислялся баланс NHGB: Эта про- процедура повторялась п раз (п = 5, 10, 20, 50, 100, 2000). Для каж- каждых п реализаций NHGB вычислялась дисперсия и 95 %-ный доверительный интервал для дисперсии V (NHGB). Процесс гене- генерации п выборок повторялся N раз (N X п <=± 5000) и оценивалось среднее из N дисперсийsf, ..., s^. Кроме того, вычислялся ожида- ожидаемый средний квадрат отклонения (EMS): N EMS = 4- j (s? - V (NHGB)J,
50 Гл. 1. Введение в анализ данных где V (NHGB) —¦ найденная аналитически оценка дисперсии. EMS служит мерой согласия с оценкой при разных объемах вы- выборки п. Результаты исследования методом Монте-Карло пока- показали, что моделированием на ЭВМ получаются состоятельные и точные значения дисперсии V, несмотря на то, что при оценива- оценивании использовалось несколько предположений, относящихся к не- независимости пяти переменных. И в результате было решено, что колебания NHGB могут считаться следствием только ошибок измерений. * 1.7. Проверка данных Очень важно, чтобы данные, полученные при статистическом анализе, были тщательно проверены и отредактированы до начала более сложного анализа. Иногда искушение немедленно получить данные для обработки так велико, что исследователь пренебрегает важным первым шагом — чисткой данных. Ошибки в наборе данных могут привести к интригующим результатам, иногда интерпретируемым, иногда — нет, но всегда неправильным. Ни- Никогда не следует забывать программистскую пословицу: «Мусор на входе — мусор на выходе». В этом разделе мы обсудим использование ПСП для проверки данных с тремя основными задачами: а) обнаружение грубых ошибок, т. е. ошибок кодирования и/или перфорации; Ь) локали- локализация выбросов, т. е. возможных, но непредставительных наблюде- наблюдений популяции, из которых производится выборка; с) обнаруже- обнаружение, хврйств распределения „каждой из пераущшых. Для~эт.их целей ПСП весьма полезны. Поэтому здесь мы обсудим проверку двух- и трехмерных данных, а проверку многомерных данных на выбросы изложим в гл. 5. Обсудим также графические средства определения свойств распределения. 1.7.1. Программа подсчета частот. Проверка дискретных распределений В данном разделе мы обсудим обычно используемые программы из пакетов, так называемые программы подсчета частот или табулирования. Для любой дискретной переменной X эта про- программа просматривает множество из п наблюдений и табулирует частоту fx появления значения х в этих наблюдениях. Затем про- программа выводит на печать частотную таблицу, состоящую из
1^ 1.7. Проверка данных 51 1 имени переменной и ее значений вместе с их частотами. В приве- S денной таблице fx. представляет собой частоту появления xt, [' Некоторые программы допускают Имя переменной алфавитно-цифровые значения для X. Значение Частота Они табулируют и печатают частоты появления чисел, букв и таких спе- Xl *ч циальных символов, как *, $, / и т. д. х ^ В таких программах значения перемен- 2 *2 ной, измеряемые в шкалах наименова- наименований или порядковой, могут кодировать- кодироваться как буквами, так и числами. ' Указанные программы служат трем * '•** основным целям. Во-первых, обнару- обнаружению грубых ошибок в колоде данных. Например, пусть X — двоичная переменная, значения которой кодируются как 1 или 2. Тогда в приведенной ниже частотной таблице для выборки из 25 наблюдений можно с уверенностью Имя переменной рассматривать $ как ошибку перфора- Значение Частота Чии- Затем следует локализовать на- наблюдение и исправить его. Такие ошиб- 1 *° ки называются грубыми. . 2 11 Второй целью рассматриваемых (г. 1 программ является локализация выбро- сов. Выбросы не относятся к грубым ошибкам — это скорее столь сильно отличающиеся по своей ве- величине наблюдения, что их можно рассматривать как выборку I из другой популяции. Например, предположим, что мы изучаем порядковую переменную X, значения которой кодируются числа- числами от 1 до 5, где 1 — низкий и 5 — вы- высокий. Тогда по частотной таблице для выборки объема п — 25 наблюдений мы видим, что все наблюдения, кроме одного, лежат в нижней части шкалы. Если наблюдение с кодовым значением х = 5 не является результатом ошибки !.р перфорации, то исследователь может ^предпочесть удалить его из выборки, ^ограничивая тем самым популяцию |только индивидуумами с малым зна- 'чением X. По существу-это означает, что он рассматривает х]= 5 ;)Как результат наблюдения над индивидуумом из другой попу- популяции — с большими значениями X. Разумеется, это решение 'зависит от плана эксперимента и его целей. ц Третья задача рассматриваемых программ состоит в получении эмпирического распределения X в виде таблицы, Имя переменной Значение 1 2 3 4 5 Частота 19 5 0 0 1
52 Гл. 1. Введение в анализ данных перечисляющей все значения х из X и соответствующие им отно- относительные частоты рх. = fxjn, i = 1, ..., k. После того как эмпирическое рас- Имя переменной пределение получено, естественно сде- Относитель- лать статистические выводы о популя- Значение наячастота ции, из которой произведена выборка. А Мы изложим это в разд. 2.1.1. п Р х2 рх Пример 1.7.1. Это исследование 2 основывается на 816 случаях, собран- собранных в 16 центрах (Hill, Adams A974)). \ \ Переменные включают четырехзначный номер истории болезни пациента, воз- Xk P*k раст, пол, расу, текущий вес, записан- записанный со слов пациента обычный вес, рост, 12 показателей анализа крови, сведения о том, употреблял ли пациент противозачаточные пилюли и стимуляторы. Карта с пробивкой «9999» в первых четырех столбцах означает конец набора данных из очередного центра. На рис. 1.7.1 воспроизводится факсимиле последовательных частотных таблиц для первых четырех столбцов (номер истории болезни пациента) и последних четырех столбцов (численные дан- данные), полученных с помощью программы BMDP4.D. Эта программа полезна при предварительной проверке данных, контроле пра- правильности кодирования и в особенности для обнаружения не- нецифровых символов в тех столбцах, где разрешаются только циф- цифровые символы. Шестнадцать «девяток» в столбце 1 (переменная номер 1) показывают, что 16 карт «9999» не были удалены, хотя это следовало сделать. Обратите внимание также на ошибки пер- перфорации в столбцах 78 и 79. На рис. 1.7.2 приводятся две последовательные частотные таблицы для возраста и пола, полученные с помощью программы BMDP2D. Из эмпирического распределения частот для возраста мы видим, что возраст пациентов принимает все значения от 1 года до 79 лет включительно. В этом случае можно было бы говорить о выбросах, если бы, например, исследовалась популяция, состо- состоящая только из взрослых. Тогда данные о числе пациентов моложе 21 года следовало бы рассматривать как грубые ошибки или вы- выбросы и провести дальнейшую проверку данных. Из эмпирического распределения частот для пола следует, что рх = 0.368 и р% = = 0.632, где х1 = 1 — мужчина и х2 = 2 — женщина, т. е. вы- выборка содержит почти в два раза больше женщин, чем мужчин. На рисунке приводятся также гистограммы (обсуждаются ниже) и некоторые итоговые выборочные статистики (обсуждаются в разд. 2.2).
* VARIABLE * SYMBOL * BLANK * 1 • 2 * 3 • 9 NUMBER 1 FREQUENCY 232 235 237 112 16 *¦ ** ** ** ft* ** ** ** ** ** ** ** ** VARIABLE SYMBOL BLANK 0 1 2 3 4 5. 6 7 8 9 NUMBER 2 FREQUENCY 24 73 95 93 90 79 90 57 62 70 99 ** ** ** ** ** *tt ** ** ** ** * * * A ** VARIABLE SYMBOL BLANK 0 1 2 3 4 5 6 7 8 9 NUMBER 3 FREQUENCY 4 87 73 78 96 73 81 81 95 69 95 ** ** * * ** ** ** ** ** ** ¦ * ** ** ** VARIABLE SYMBOL 0 .1 2 3 4 5 6 7 8 9 NUMBER 4 FREQUENCY 89 80 88 93 85 80 83 67 77 90 ** ** * * ** * * *• VARIABLE NUMBER 77 ** VARIABLE NUMBER 78 ** VARIABLE NUMBER 79 ** VARIABLE NUMBER 80 ** ** ** ** ** ** ** ** ** SYMBOL FREQUENCY BLANK 17 815 ** ** ** ** SYMBOL BLANK - 1 FREQUENCY 795 1 36 * * * * • ** * * ** ** ** * * * * ** * * ** SYMBOL BLANK J 1 FREQUENCY 295 1 536 *• *» *• *• *• * • * * * • *• ** ** ** SYMBOL BLANK FREQUENCY 832 Рис. 1.7.1. Факсимиле вывода последовательных (по столбцам) частотных таблиц, полученного по программе BMDP4D.
VARIABLE NUMBER MAKE A NUMBER OF DISTINCT VALUES . NUMBER OF VALUES COUNTED. . NUMBER OF VALUES HOT COUNTED PERCENTS COUNT CELL 1. 2. i 3. 4. 5. 6. 7. 8.- 9. 10. 11. * 12. 1 13. 14. 15. 16. 17. ? 18. i 19. 20. A L 0.1 I 0.1 0.1 L 0.1 i 0.5 0.6 0.4 0.7 i 0.7 0.9 0.7 1.2 0.6 0.9 0.9 0.6 0.7 0.5 0.9 0.5 CUM 0.1 0.2 0.4 0.5 1.0 1.6 2.0 2.7 3.4 4.3 5.0 6.3 6.9 7.7 8.6 9.2 9.9 10.4 11.3 11.8 29. 30. 31. 32. 33. 34. 35. MAXIMUM MINIMUM MEDIAN MODE MEAN ST.DEV. S.E.K. 79.0000000 1.0000000 78.00O0C0O 44.0000000 46.0000000* «. 2-514093 17.9847565 Q.6295926 H H I COUNT 20 16 16 12 12 PERCEHTS CELL CUM 2.5 2.0 2.2 1.5 1.5 1.6 2.1 1.3 1.6 1.7 1.5 1. 3 1.1 1.2 1.3 1.2 2.0 1.3 1.8 1.0 14.2 16.2 18.4 19.» 21.3 22.9 25.0 26.3 27.9 29.7 31.1 32.5 33.6 34.8 36.2 37.4 39.3 40.7 42.5 43.5 HHH HHHHHH няни ннннннкн н . HHHH HHHHHHHHHHHH H KHHHHHHHHHHHHHHHHH НКНКНКНННННЮ1НННННННННН ннинннннннннннннннннннннн ннякнннниннннннннинннннннннн kin мах FIRST OF MORE THAN ONE НОСЕ PERCENTS VALUE С0ШТ CELL CUM VALUE EACH "H" XEPRESEHTS 5.70 COUNTS COUNT 14 19 14 14 16 4B. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 1.7 2.3 1.7 1. 7 2.0 2.8 2.8 2.5 1.7 1.7 1.7 1.8 1.8 45.2 47.5 49.3 51.0 52.9 55.8 5B.6 61.0 62.7 64.5 66.2 68.0 69.9 72.2 73.9 75.4 77.3 79.4 81.1 83.1 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. COUNT 11 11 14 13 7 8 8 9 ? 8 7 4 4 7 4 3 3 3 5 PERCENTS CELL 1.3 1.3 1.7 1.6 0.9 1.0 1.0 1.1 1.1 1.0 0.9 0.5 0.5 0.9 0.5 0.4 0.4 0.4 0.6 CUK 84.4 85.8 87.5 89.1 90.0 90.9 91.9 93.0 94.1 95.1 96.0 96.4 96.9 97.8 98.3 98.7 99.0 99.4 100.0 VARIABLE NUMBER 3 NAME SEX NUMBER OF DISTINCT VALUES . 2 NUMBER OF VALUES COUNTED. . 816 NUMBER OF VALUES NOT COUNTED 0 MAXIMUM" MINIMUM RANGE MEDIAN MODE MEAN ST.DEV. S.E.M, 2.0000000 1.0000000 1.0000000 2.0000000 2.0000000 1.632352B 0.4824603 0.016BB95 EACH »'H1* REPRESENTS 51.60 COUNTS VALUE COUNT 1. 300 PERCENTS CELL CUK 36.8 36.8 COUNT 516 PERCENTS CELL CUM 63.2 100.0 Рис. 1.7.2. Вывод последовательной (по переменным) частотной таблицы, полученный по программе BMDP2D.
* 1.7. Проверка данных 55 1.7.2. Дескриптивные программы. Проверка непрерывных переменных Рассмотрим теперь жество х1г ..., хп из X и мно- мноп наблюдений. Типичная дескриптивная программа выбирает k непересекающихся интервалов [сх, с2), [с2, с3), ..., [ck, ck+1) одинаковой длины, покрывающих всю наблюдаемую область. Эти интервалы называются интервалами группировки, а их число задается исследователем заранее с по- помощью управляющей карты или вычисляется программой. На- Например, в одном из алгоритмов k определяется из условия k = целая часть A0 lg я), причем дополнительно предполагается, что 5 <; k < 30. После того как интервалы группировки выбраны, подсчиты- ваются частоты /^числа наблюдений, попавших в интервал [с,, ci+1), i = 1, ...,k'. Результаты могут быть выведены на печать в виде частотной таблицы типа приведенной здесь и/или в виде графика. На этом графике Имя переменной Интервал группировки Частота 2, с3) по одной из осей отклады- откладываются интервалы груп- группировки, по другой — ча- частоты. Такие графики на- называются {частотными) гистограммами, а их вы- вывод на печать выполня- выполняется разными способами. Например, их можно выво- выводить с помощью последова- последовательности звездочек (а) и (Ь), в виде столбиков из единиц (с) или в виде настоящих столбиков (d). В примерах настоящего раздела будем использовать именно эту последнюю форму представления как наиболее удобную. h h (а) /i * /» * * /з * * * * * * @) **/з ***/> *¦¦*/[ h 11 11 11 11 (с) fl 11 11 И /з 11 11 (d) A fi Л C3 Как и в случае частотной таблицы, для дискретной переменной двумя основными целями частотной таблицы и гистограммы*для непрерывной переменной является локализация грубых ошибок и выбросов.
56 Гл. 1. Введение в анализ данных Пример 1.7.1 (продолжение). На рис. 1.7.2 помимо прочего представлены грубые гистограммы для каждой из двух перемен- переменных. По этим гистограммам нельзя сказать, что имеют место очевидные грубые ошибки и/или выбросы. Далее, на гистограмме для возраста отчетливо видны несколько пиков, которые можно объяснить смесью субпопуляций в этой выборке. . На рис. 1.7.3 представлена уточненная гистограмма распре- распределения холестерина (мг/100 мл), причем здесь также нет очевид- ¦HISTOGRAM OF VARIABLE 4 м . 4000О0О lio olSsTm 5 187 3 203 0 218 В 234 6 250.3 266.1 281.8 29?.6 313.4 329.1 344.9 360.6 376.4 392.2 407.9 147 9 163 6 179 3 195.2 210.9226.7 242.4 258.2 274.0 289.7 305.5 321.2 337.0 352.8 368.5 384.3 400.0 -Г"" """ "' -°° 1И.0 - .8в.О - —- XXX 84.0 - XXX XXX во. о • ххх ххх 76.0 - XXX XXX 7а.о - ххх ххх— 68.0 - XXX ХХХХХХ ~ 188.0 - 184.0 * 180.0 - 176.0 - 172.0 - 168-0 64.0 - XXX ХХХХХХ *" J64*0 ,60.0 * XXX ХХХХХХ, * 160-° 56.0 - XXX ХХХХХХ " 156.0 52.0 - / XXX ХХХХХХ — - I52-0 48.0 - -••, XXX ХХХХХХ XXX " 148.0 44.0 - XXX XXX ХХХХХХ* XXX - 1*4.0 40.0 • XXX XXX ХХХХХХ XXX * 140° 36.0 - XXX XXX ХХХХХХ XXX " 136.0 32.0 - XXX XXX ХХХХХХ XXX - 132.0 _28.0 - XXX XXX ХХХХХХ XXX " 128'° 124.0 - XXX XXX—-ХХХХХХ XXX - 124.0 120.0 • XXX ХХХХХХХХХХХХ XXX •-.- • 120.0 116.0 - -*- XXX ХХХХХХХХХХХХ XXX XXX - ИЬ.0 112.0 - XXX XXX ХХХХХХХХХХХХ XXX XXX - И2.0 Юв. 104. 100. 96. 92. 24. 20. 16. 12. XXX. XXX ХХХХХХХХХХХХ-—XXX XXX - Юв.О XXX XXX—ХХХХХХХХХХХХХХХХХХ XXX - 104.0 XXX—ХХХХХХХХХХХХХХХХХХХХХХХХ XXX * 100.0 ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ %ХХХ - 96.0 - - -ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ—XXX — - 92.0 ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ XXX— - 88.0 XXXXXXJ v 84.0 ХХХХХХ * 80.0 ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ ХХХХХХ - 76.0 ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ ХХХХХХ - 72.0 х кн ххххх хххикхх- ¦- *хх**у — бв. о ХХХХХХХХХХХХХХХХХХХХХХХХ - 64.0 ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ • 60,0 —-ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ - 50 О 48.0 - •--ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ XXX • 4S.0 ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ—-XXX - 44.0 ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ — • 40.0 ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ. XXX - 36 -.0 ХХХХХХХХХХХХХХХХЮПХМХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ XXX - Э2.0 •* ХХХХХХ1{ХСТХ?ГХХУЯ1ГХТГХХХУХХХХКХХУ*ХХХХКХХКХХУХХКУ1<ХИХХХХКЯИДХК"--]СЛК — 28.0 _..- ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ -— —- - 24.0 [ХХХХХХХХХХХХХХХХ XXX--- XXX • 20.0 -XXX---XXXХХХХХХХХХХХХХХХХХХХХХХИСЯХХХХХХ ЮСХХХХКХИХХМХХХЖХХХКХУХХХДКХХХККХХХ""-XXltXTtЯ XXX - 16.0 - хххххихххххххххххххххххххххххххххххххххххххшшшххххххххххххххххххххххххххххххххххх ххх - 12', о > -хххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххххх ---«--ххх - 8.о 4.0 -XXXXXXXXXXXXXXXXXXXXXXXXXJUXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX ~ 4.0 КО,0 155.8 171.5 187.3 203.0 218.8 234.6 250.3 266.1 281.8 297.6 311.4 329.1 344.9 ЭбО.Ь 376.4 392.2 407.9 147.9 163.6 179.4 195.2 210.9 226.7 242.4 256.2 274.0 269.7 305.S 321.2 337.0 352.8 36С.5 384.3 400,0 Рис. 1.7.3. Гистограмма распределения холестерина, полученная по программе BMD05D. ных грубых ошибок или выбросов. Проверка показала, что у fx = = 25 пациентов значения холестерина были больше или равны d = 140.0 мг/100 мл, но меньше, чем с2 = 147.9 мг/100 мл, т. е. принадлежали интервалу [140.0, 147.9). Аналогичным образом,
1.7. Проверка данных 5? у /2 = 17 пациентов значения холестерина принадлежали интер- интервалу [147.9, 155.8), у /3 = 25 — интервалу [155.8, 163.6) и т. д. Из рис. 1.7.3 заметно, что распределение имеет длинный пра- правый хвост. В последующем разделе мы покажем, что при наличии такой асимметрии с помощью логарифмического преобразования иногда можно получить более симметричное или даже нормальное распределение. 1.7.3. Преобразования к нормальному распределению. Графические средства Стандартные критерии проверки гипотез относительно средних и дисперсий обычно предполагают, что исследуемые величины нормально распределены. Если для конкретной выборки мы откло- отклоняем гипотезу о нормальности, то для получения статистических выводов можно поступать разными способами. Например, если объем нашей выборки достаточно велик, можно предпочесть использовать стандартные критерии как приближенные. Другой путь состоит в применении непараметрических процедур (см., например, Noether A967))- и третий — в подборе замены перемен- переменной, приводящей к нормально распределенной величине. Найти преобразование, порождающее нормальное распределе- распределение, обычно непросто. Сами данные могут подсказать соответ- соответствующую замену. Для некоторых типов переменных используются стандартные замены: например, для_измер_ений растений и живот- животных часто подходит логарифмическая замена переменных. Иногда вид экспериментальной Гистограммы подсказывает тип преобразо- преобразования. Например, резко асимметричная гистограмма с большим правым «хвостом» наводит на мысль о логнормальном или %2-рас- пределении, так что могут оказаться уместными логарифмирование или извлечение квадратного корня. Если эмпирическое распределе- распределение бимодально, то экспериментатор, подозревая, что имеет дело со смесью двух распределений, может обрабатывать их независимо (Bliss A967), гл. 7). Отметим еще, что статистиками были разработаны процедуры для случаев, когда стандартное отклонение функционально зависит от среднего. Например, если стандартное отклонение пропор- пропорционально среднему, то используют логарифмическую замену, а если дисперсия пропорциональна среднему, то извлечение квад- квадратного корня приводит к приближенно нормальному распределе- распределению. Один из способов выяснить эти соотношения между ц и о состоит в том, чтобы разделить выборку на подвыборки, вычислить для каждой среднее и стандартное отклонение и начертить их. (Более полное обсуждение см. в книге Brownlee A965), с. 144—146.) Входящие в ПСП программы обработки гистограмм с выбором замены переменных за один проход выдают и гистограммы наблю-
58 Гл. 1. Введение в анализ данных даемых величин, так же как и гистограммы любых желаемых функ- функций от наблюдаемых величин. Исследователь изучает каждую гистограмму, стремясь найти похожую на нормальное распределе- распределение, а затем проверяет согласие с нормальным распределением для преобразованной величины, используя критерии, описанные в разд. 2.2.2. Пример 1.7.1 (продолжение). На рис. 1.7.4 изображена гисто- гистограмма распределения логарифма холестерина сыворотки. Сравне- HISTOGRAM OF VARIABLE 7 MIN - 2.146127 2.1 2.2 2.2 2 2.2 2.2 2.2 2.2 2.3 2.3 2.3 2.1 2.4 2.4 2.4 2.5 2.5 2.602059 2.6 200.0 * 196,0 - 192.0 - 188.0 - 164.0 - 180.0 * 176.0 - 172. О - 168.0 - 164.0 - 1БО.0 • 1S6.0 - 152,0 - 148.0 - 144.0 - 140.0 • 136.0 - 132.О - 128.0 - 12*1.0 - 120.0 • 116.0 - 112.0 - 108.0 - 104,0 - 100.0 • 96.0 - 92.0 - 88.0 - 84.0 - 80.0 • 76.0 - 72.0 - 68.0 - 64.0 - 60.0 • 56.0 - 52.0 - 48.0 - 44.0 - 40.0 • Э6.0 - 32.0 - 28.0 - 24.0 - 20.0 •--- 16.0 -XXX 12.0 -XXX $.0 -XXX 4,У -ХХХ-- XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX XXX—XXX ххххххххх ХХХХХХХХХ XXX XXX XXX XXX XXX, XXX XXX ;хх :хх XXX XXX XXX XXX XXX XXX— XXX XXX XXX ХХХХХХХХХ- --ХХХ- —ХХХХХХ _ ХХХХХХХХХ ХХХХХХ ХХХХХХХХХ— - ххххххххххххххххххххххххххх ххххххххххххххххххххххххххх ХХХХХХХХХХХХХХХХХХХХХХХХХХХ--- ххххххххххххххххххххххххххххххххх XXX ХХХХХХХХХХХХХХ1 ЕХКХ XXX XXX ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ —ххххххххххххххххххххххххххххххххххххххх • ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ XXX — -ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ—• XXX ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ XXX ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ—* ' XXX ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ XXX—-ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ ххххххххххххххххххххххххххххххххххххххххххххххххххххххххх— хххххххххххххххххххххххххххххххххххххххххххххххххххххххххххх ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ ' ххххххххххххххххпхххххххххххххххххххххххххххххххххххххххххх— —ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ XXXJCXXXXXXXXXXXXXXJCXXXXXXXXXXJUXXXXXXXXXXXXXXXXXXXXXXXXXbCXXXXXXXX--- —ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ — ХХХХХХЮХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ--- ---< —ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ XXX ХХХХХХХХХХХХХ ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ ХХХХХХХХХХХХХХХХХXXX- -XXX —-XXXХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ -ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ 200.0 196.0 192.0 188.0 164.0 180.0 176.0 172.0 168.0 164.0 160.0 156.0 152.0 148.0 144.0 140.0 136.0 132.0 128.0 124.0 120.0 116.0 112.0 108.0 104.0 100.0 96.0 92.0 88.0 84.0 80.0 76.0 72.0 68.0 64.0 60.0 56.0 52.0 .48.0 ' 44.0 40.0 36.0 ¦ 32.0 28.0 24.0 20.0 ¦ 16.0 ¦ 12.0 8.0 ¦ 1.0 2.1 2.2 2.2 2.2 2.J 2,3 2.3 2,5 2.5 2.S 2.5 2.6 2,6 2.6 . 2.5 2.5 2.5 - 2.5 2.6 2.6 ' Рис. 1,7.4. Гистограмма распределения логарифма холестерина, полученная по программе BMD05D. ние с рис. 1.7.3 показывает, что логарифмическая замена изменяет асимметрию данных. Поэтому представляется разумным исполь- использовать именно логарифм холестерина, а не сам холестерин в после-
2.625 3.375 4.125 4.В75 5.625 6.375 3 3.75 4.5 5.25 6 0.4125 0.4875 0.5625 0.6375 0.7125 О. 7В75 0.4S 0.525 0.6 0.675 0.75 Рис. 1.7.5. Нормальные пробит-графики для концентрации неорганического фосфора (а) и логарифма этой концентрации (Ь), полученные по программе BMDP5D.
60 Гл. 1. Введение в анализ данных дующем статистическом анализе, если этот анализ использует статистические методы, предназначенные для нормального или многомерного нормального распределения. Другим графическим средством, полезным при определении" целесообразности замены переменных (а также для выявления выбросов) является пробит-график. При его построении по гори- горизонтальной оси откладывают аргумент эмпирической функции распределения F (разд. 2.2.1), а по вертикальной — соответствую- соответствующие значения аргумента стандартной нормальной функции распре- распределения Ф1). Если изучаемая величина распределена нормально, то пробит-графиком для выборки из такого распределения будет примерно прямая. Входящие в ПСП программы построения пробит-графика с возможностью замены переменных за один проход могут выдавать пробит-график для исходных данных и несколько графиков-—для преобразованных. Преобразование, обеспечивающее наибольшее сходство графика с прямой, можно использовать при последующем анализе. Пример 1.7.1 (продолжение). На рис. 1.7.5 изображены про- бит-графики для концентрации неорганического фосфора (мг/100 мл) и логарифма этой концентрации. Видно, что логариф- логарифмирование распрямляет кривую и уменьшает асимметрию. 1.7.4. Проверка по парам переменных. Программы построения таблиц сопряженности признаков и диаграмм рассеяния Проверка по отдельным переменным не позволяет выявить все ошибки в данных. Поэтому желательно установить некоторые соот- соотношения между парами переменных с тем, чтобы обнаружить слу- случаи, в которых эти соотношения не выполняются. С этой точки зрения программы построения таблиц сопряженности признаков (или программы перекрестного табулирования) могут оказаться полезными для дискретных переменных, измеренных в номиналь- номинальной или порядковой шкалах, а также для непрерывных, но сгруп- сгруппированных переменных. Программы построения таблиц сопряженности признаков вы- вычисляют и выводят двумерную таблицу, называемую двухфактор- ной таблицей сопряженности признаков. Она описывает ситуацию, когда каждый индивидуум (или экспериментальная единица) в популяции W классифицируется двумя различными факторами (или критериями) А и В. Мы будем считать, что фактор А имеет г 5; 2 классов (или уровней), а фактор В имеет с 5= 2 классов (или уровней). Рассматривая г классов фактора А как столбцы, а с классов фактора В как строки, получим двухфакторную таблицу сопряженности признаков следующего вида. 1) То есть у = Ф-* (F(*)). — Прим. перев.
1,7. Проверка данных 61 А 1 2 3 г Итоги по столбцам 1 /и /2. /з. 2 /.2 /2 2 /32 L 1.2 В 3 /.3 /2 3 /зз /,'э /з с - /,с - he - /з. ••¦ /« ¦¦¦ /с Итоги по строкам /.. /2. /з. Л. И Она называется также rXc-таблицей сопряженности (или просто rxc-таблицей). Пересечение строки и столбца называется ячейкой. Для выборки объема п из популяции W число индиви- индивидуумов fa, относящихся к г-му уровню фактора А и /-му уровню фактора В, помещается в ячейку ij, i = 1, ..., г, / = 1, ..., с. Число fu называется наблюдаемой частотой ячейки ij. Входящие в ПСП программы построения гХс-таблиц просма- просматривают всю выборку из п наблюдений и определяют наблюдаемые частоты для всех ячеек. Затем они подсчитывают суммы Д-. для всех строк и /7- для всех столбцов, i ~ 1, ..., г, j = 1, ..., с. Величины f{. и f.j называются соответственно итогами по г с строкам и столбцам. Заметим, что Jj ft- = S /•; = ". т. е. равно объему выборки. Построенная таблица затем выдается на печать. После получения таблицы можно приступить к поиску грубых ошибок в данных, не найденных при проверке по отдельным перемен- переменным. Кроме того, можно проверить гипотезы о связи между фактора- факторами А и В. Обсуждение этой возможности мы отложим до разд. 2.5. Пример 1.7.1 (продолжение). После использования соответ- соответствующей программы была построена таблица сопряженности для факторов А = пол A — мужчины, 2 — женщины) и В = прием противозачаточных средств A — да, 2 — нет). Ниже приводится полученная 2х2-таблица. В = Прием противозачаточных средств 1 = Да 2 = Нет А = Пол 1 = My жск. 2 = Женек. 5 32 295 484 37 779 300 516 816
62 Гл. 1. Введение в анализ данных Пять мужчин, принимавших противозачаточные пилюли, очевидно демонстрируют пример грубых ошибок, которые невозможно обнаружить при анализе распределений частот переменных «пол» и «прием противозачаточных средств» в отдельности. Полезным средством проверки для непрерывных переменных X и Y, не разбитых на дискретные категории, является диаграмма рассеяния, т. е. двумерная диаграмма, изображающая пары значений (хъ yL), (x2, у»), ..., (х„, уп). Помимо пользы для определе- определения линейной зависимости между X и Y (см. разд. 3.1) диаграмма рассеяния полезна для определения грубых ошибок и выбросов, не вылавливаемых одномерными гистограммами. во. 500 79 500 7Н 500 7 7 500 ¦ 7fc 500 ' 7.500 - 6Ь.500 ' 65.500 - 64 500 - 63 500 - 62.500 - 61 500 ¦ Ь0.500 ¦ 59 500 ¦ 56.500 * 55.500 - 54.500 - 5J.S00 - 52.500 - 51.500 * 50.500 - 49.500 - 4в 500 - 46.500 • 45.500 - 44.500 - 41.S00 - 42.500 - 41.500 • 40.500 - 39.500 - .500 - .500 - 16.600 ' I5.S00 - 4.500 - 3.500 - 5 31131211 1 ] U4L ! 51 L 1 U 11 22 lHi 12 2 1 Q-: 80.500 79.500 8.500 .500 .500 500 .500 .500 500 .500 70.500 .600 ¦ . 500 .500 66.500 .500 . 500 . 500 .500 ,500 . 500 .500 .500 .500 . 500 .503 .500 500 .500 500 .500 '. 500 .500 .500 . 500 .500 .500 .500 . 500 .500 .500 .500 .500 .500 500 500 .500 .500 CURRENT WEIGHT (lb) Рнс. 1.7.6. Диаграмма рассеяния для переменных «рост» и «текущий вес». Пример 1.7.1 (продолжение). На рис. 1.7.6 изображена диа- диаграмма рассеяния для переменных «рост» и «текущий вес». Четыре наблюдения выглядят выбросами по сравнению с основной груп- группой данных. Кажется, что в выборку включены трое детей (левый
1.7. Проверка данных 63 нижний угол) и один очень тяжелый и низкорослый человек (посередине справа). На рис. 1.7.7 изображена диаграмма рассеяния для переменных «общий белок» (мг/100 мл) и «альбумин» (мг/100 мл). Поскольку содержание альбумина всегда меньше, чем общего белка, то три крайние точки (посередине справа) должны быть ошибками. И действительно, при проверке оказалось, что это — ошибки кодировки. е.адо в. 800 в. 720 1.640 1.560 1,400 1.400 .350 1.240 1.160 1.000 1.000 '.920 '.940 '.760 '.680 520 • .440 ¦ .360 - .120 .040 .960 .880 .800 .720 .640 .560 .480 .400 .320 .240 .160 .060 .000 .920 .640 .760 5.680 5.600 5.S20 5.440 1 1 1 11 1 1112 11 2 111 12 12 11 -11 1 5346213 11 1 22332 1332 1 .720 . 640 . 560 .480 .400 . 320 . 240 .160 .060 .000 .920 .840 .760 .680 .600 ,520 .440 .360 .280 .200 .120 .040 .960 .880 .800 .720 .640 .560 .480 .400 .320 .240 .160 .060 .000 .920 .840 .760 .680 .600 .520 .440 ALBUMIN (mg/100 ml) Рис. 1.7.7. Диаграмма рассеяния для переменных «общий^белок» и «альбумин». 1.7.5. Обработка отсутствующих значений1) Многие программы из ПСП позволяют исключать элементы вы- выборки, удовлетворяющие определенным условиям. Обычно исклю- исключаются элементы, у которых значение данной переменной оказы- оказывается выше (или ниже) указанного предела. Другой метод состоит г) Иногда в отечественной литературе встречается термин «непомеренные». Нам кажется, что термин «отсутствующие значения» лучше, поскольку значение переменной может быть неизвестным не только потому, что оно не было изме- измерено, но н потому, что оно утрачено в процессе обработки. — Прим, перев.
64 Гл. 1. Введение в анализ данных в отбрасывании элементов, у которых значение переменной равно данному. Первый способ позволяет исключать выбросы и неиспра- неисправимые грубые ошибки, а второй оказывается удобным средством для отбрасывания отсутствующих значений. Обычно отсутствую- отсутствующее значение кодируется либо пробелом, либо строкой из одних цифр 9, заполняющих все поле переменной. Если анализу подвергается единственная переменная, то отсут- отсутствующие значения разумнее всего выкидывать. Если же анализи- анализируется несколько параметров, то можно воспользоваться и дру- другими методами. Эти методы позволяют использовать информацию, содержащуюся в случаях, когда наблюдение не пропущено, вместо того чтобы исключить весь случай целиком. Мы обсудим некоторые из них в разд. 3.2.6. Упражнения Упражнения в этой и в следующих главах сгруппированы по номерам разделов. Во многих задачах используются наборы данных А и В, описанные в разд. 1.4. Эти наборы данных можно получить у авторов книги. Если читатель захочет, он может изменить условие задачи, выбрав случайное подмножество из этих наборов. Раздел 1.7 (набор данных А) 1.7.1. Чтобы оценить степень готовности данных, проверьте совпадение значений переменных ID, возраст, вес, пол, исход и тип шока в исходной (карта 1) и конечной (карта 2) картах. 1.7.2. а) Постройте плотность распределения исходных значений для каж- каждой переменной. Какие непрерывные переменные выглядят симметричными (для симметричных распределений среднее, медиана и мода совпадают)? Какие распределения выглядят асимметричными? У каких переменных бимодальное распределение? в) Попытайтесь «исправить» асимметричные переменные, такие, как сред- среднее венозное давление, сердечный индекс, среднее время циркуляции, применив логарифмирование или извлечение квадратного корня. Используйте программы построения пробит-графика или построения гистограмм, чтобы эмпирически оце- оценить, какое из преобразований лучше. 1.7.3. Используя программы построения таблиц сопряженности признаков, постройте таблицы для пар переменных: «пол» и «исход», «пол» и «тип шока», «тип шока» и «исход». Чему равны оценки вероятностей для комбинаций значе- значений исхода и типа шока, исхода и пола, типа шока и пола? Не кажутся ли неко- некоторые соотношения необычными? 1.7.4. Используя диаграмму рассеяния, сопоставьте систолическое давление с диастолическим (как по начальной, так и по конечной карте), а также систо- систолическое давление по начальной карте с систолическим давлением по конечной. Можете ли вы обнаружить грубые ошибки, учитывая, что диастолическое давле- давление всегда меньше систолического? Не видите ли вы какого-нибудь соотношения между систолическим давлением в начале и в конце? А что можно сказать об соот- соотношении между этими двумя значениями давления в подвыборках, сгруппиро- сгруппированных по исходу? 1.7.5 (набор данных В). Проверьте, отредактируйте и исследуйте этот набор данных.
2 Элементарные статистические выводы В этой главе мы обсудим использование пакетов программ для оценки параметров распределений и проверки гипотез. В разд. 2.1—2.4 продолжим обсуждение использования программы под- подсчета частот для анализа дискретных наблюдений и дескриптив- дескриптивной программы для анализа одной или двух непрерывных пере- переменных. Дисперсионный анализ, использующий дескриптивные программы с расслоением данных, вводится в разд. 2.4, %г-анализ с использованием программ перекрестного табулирования — в разд. 2.5. Дополнительные и современные критерии перекрестной .классификации приводятся в разд. 2.6. Наконец, робастные оценки положения описываются в разд. 2.7. 2.1. Программы подсчета частот. Анализ дискретных переменных В разд. 1.7.1 программа подсчета частот была введена как средство проверки дискретных переменных и устранения грубых ошибок и/или выбросов. В настоящем разделе обсудим статистические выводы, которые можно сделать о параметрах исследуемого распределения с помощью таблицы частот. Сначала будет рас- рассмотрен случай дихотомических наблюдений, а затем — много- многозначных. 2.1.1. Анализ дихотомических наблюдений В этом случае популяция W представляется в виде объединения двух непересекающихся классов Л и В. Пусть р — доля инди- индивидуумов в популяции, принадлежащих классу A, a q = 1 — р — доля индивидуумов, принадлежащих В. Следовательно, статисти- статистические выводы об этой популяции сводятся к исследованию пара- 3 А. Афифи, С. Эйзен
Гл. 2. Элементарные статистические выводы метра р. Наша цель — оценить р и научиться проверять гипотезы относительно р. По выборке объема п программа подсчета частот генерирует следующую таблицу: Название переменной Класс Частота А г В п — г Здесь г и (п — г) — соответственно частоты появления классов Л и В. Из этой таблицы можно получить для р следующую оценку максимального правдоподобия (МП-оценку) р: р = г/п. B.1.1) Отсюда МП-оценка <? величины q имеет вид 4=1 -р = (п-гIп. B.1.2) Чтобы проверить гипотезу Но, состоящую в том, Что р равно неко- некоторой константе р0 против одно- или двусторонней альтернативной гипотезы Hlt нужно вычислить Р-значение с помощью биномиальг ного распределения bn(i, р) = (?) р1 A — р)п~1 (табл. 1, прило- приложение II). В следующей таблице приводятся формулы для Р-значения при разных альтернативных гипотезах. Если Р-значение меньше уров- уровня значимости а, то гипотезу Но отвергаем. Нулевая гипотеза Но: р = р< - Альтернативная гипотеза ) Hi '. р > ро Я,: р < ро Я,: РФ Ро '_- Р-значение п *E.b,(i,Po) i=r г ? b.(i,Po) 1=0 2rnin I 2^ ЬпA,ро~), ^ ЬпA,Ро) Случайную величину X, имеющую биномиальное распределе- распределение, удобно записать в виде (I, если индивидуум принадлежит А, |0, в противном случае. Выборочные значения будем обозначать хъ ..., хп, где х( равно 0 или 1, i — 1, ..., п. Поэтому МП-оценкой параметра р является р = х, где х — выборочное среднее, а <? = 1 — х. Такое представ- представление позволяет использовать центральную предельную теорему
2.1. Анализ дискретных переменных 67 для аппроксимации выборочного распределения х. В силу этой теоремы при я -> оо выборочное распределение х стремится к нормальному распределению N (р, р A — р)/п). Согласно эмпирическому правилу, последнее приближение можно исполь- использовать, если пр A — р) > 9. Используя нормальное приближение, гипотезу Но: р = р0 можно проверить при помощи статистики Если верна гипотеза #0, то статистика г0 распределена приблизи- приблизительно как N (О, 1) (см. табл. 2, приложение II). Сведем теперь все данные в следующую таблицу: Нулевая Но: р - Ра А лътернативная гипотеза Р > Ро Р < Ро Р Ф Ро Р-значение Р = Pr(z > z0) Р = Pr(z < z0) P=2Pr(z>\zo\) Если Hi. p > Ро, то Р-значение является площадью под функцией плотности распределения N @, 1) справа от точки z0 (рис. 2.1.1, а); если Н-1- р < Ро. то Р — площадь слева от точки г0 (рис. 2.1.1, Ь); если же Н^. р Ф р0, то Р — удвоенная площадь справа от точки |го| (рис. 2.1.1, с). Мы отвергнем Но, если Р < а. Рис. 2.1.1. Критические области Для гипотезы Я05 р = р0 при использовании нормальной аппроксимации биномиального распределения, а — альтернатива #j: р > р0; Ь — альтернатива #t: р < р0; с — альтернатива Н%: р ф р0.
68 Гл. 2. Элементарные статистические выводы Нормальное распределение можно использовать для прибли- приближенного вычисления 100A—а) %-ного доверительного интер- интервала для р. Таким образом, получим р ± Z,_ (a/2) V р[\ -р)Ш, B.1.5) где г а есть 100 A <ггя процентиль распределения N @, 1). Пример 2.1.1. Предполагалось, что доля больных сколиозом (искривление позвоночника) в популяции W подростков 12— 14 лет заключена между 0.02 и 0.10. Так как это предположение основывается на предыдущих обследованиях, то ожидается, что в результате предстоящего обследования эта доля окажется даже больше 10 %. Для проверки этого предположения в 1971—1974 гг. такое обследование производилось в округе Лос-Анджелес (Brooks et al, A975)). Пусть р — доля подростков, больных сколиозом. Надо проверить гипотезу Но: р = 0.1 против гипотезы Нх: р > > 0.1 при уровне значимости а = 0.05. Сначала был выполнен предварительный тест. После проверки первых 10 детей было установлено, что г = 3 детей больны сколиозом, т. е. р = 0.3 и <? = 0.7. Чтобы определить, является ли отличие р от р = 0.1 значимым, было вычислено значение Р с помощью биномиального распределения. Используя табл. 1 приложения II, получим ю P=Jj bio(i, 0.1) = 0.0574+ 0.0112+ 0.0015+ 0.0001 =0.0702. г=з Так как Р > а = 0.05, то гипотеза Но не отвергается. Однако, эти результаты не убедительны из-за малой величины выборки. Всего было обследовано 3492 ребенка, и сколиоз был найден у 474, так что р = 0.136. Для проверки Но была использована нормальная аппроксимация B.1.4), которая дает z = @.136-о.юо) = 7 09 0 1Л). 100 @.900)/3492 Из табл. 2 приложения II следует, что Р < 0.001. Так как Р < а, то гипотеза Но отвергается, и доля больных сколиозом должна быть значительно выше. 95 %-ный доверительный интервал для этой доли равен 0.136 ± 1.96 ]/0Л363|°2864) = @.124, 0.147). Заметим, что здесь нормальное приближение является хорошей аппроксимацией, так как п велико.
2.1. Анализ дискретных переменных 69 2.1.2. Анализ наблюдений, принадлежащих одному из k классов В этом случае популяция W разбивается на k непересекающихся классов, так что каждый индивидуум из W принадлежит одному и только одному классу. Пусть р{ — доля индивидуумов из W, принадлежа- Название переменной щих классу Ah i = 1, .... k, так что рг+ Класс . Частота + ••• + Рк = 1- Статистические выводы о . популяции W сводятся к изучению пара- г Гх метров рг, .,., рк. А2 г2 По выборке объема п программа под- подсчета частот генерирует таблицу ча- ! стот, в которой г,- — частота класса A-t. Здесь гг + ... + rk = п. Из этой таблицы j[k Гк в качестве МП-оценки pt для pt получаем flt = ri/n, 1=1, ...,k. B.1.6) . Для проверки гипотезы Яо: р\ = р[°\ ..., рк — р1°\ где р\0)— заранее известные величины, такие, что / мы используем критерий х2- Ожидаемые частоты еи ..., е* при выполнении гипотезы Но равны e< = np<°>, i=l,...,k. B.1.7) Статистика критерия %2 имеет вид Чг1 <2Л-8) и при Но распределена приблизительно по %2 с v = k — 1 степе- степенями свободы. Альтернативная гипотеза #i состоит в том, что некоторые из равенств pi = р\0) не верны. Р-значением здесь является площадь справа от точки %о под функцией плотности распределения х2 (k — 1) (табл. 3, приложение II). Мы отвергаем Но, если Р < а. Замечания 2.1.1. 1. Если k — 2, то применение критерия %г дает другой способ проверки гипотезы Но: р = р0 против гипотезы Hi- Р Ф Ро по сравнению с обсуждавшимся в разд. 2.1.1. В самом деле, легко показать^ что %о в B.1.8) есть квадрат г0 из B.1.4). 2. Точность аппроксимации распределением у? зависит от объема выборки. Критерий становится точным, когда каждое б; -> оо. Практически достаточно, чтобьГвсе ег- ^ 5 или даже неко- некоторые е, ^ 2, а остальные — не менее 5 (Maxwell A961)).
70 Гл. 2. Элементарные статистические выводы Пример 2.1.1 (продолжение). На основе многих прошлых обсле- обследований предполагалось, что среди детей, больных сколиозом, в 6 раз больше девочек, чем мальчиков, т. е. р\0) — V7, $0) = вА- Эта гипотеза была проверена с помощью данных, полученных в процессе скрининга (Brooks et al. A975)). Популяцией W теперь будет множество детей, больных сколиозом. В выборке из 474 детей, больных .сколиозом, было гг = 188 мальчиков и г2 = = 286 девочек, так что рх = 0.397 и рг = 0.603. Если Но: р1 = V?, Рг = %. то ожидаемые частоты суть е1 = 474 (V7) = 67.7 и е2 = = 474F/7) = 406.3. Поэтому 2 .A88-67.7)' , B86-406.3)' Х°~~ 67.7 "г 406.3 Р-значение равно площади" под кривой плотности распределе- распределения х2 A) справа от точки %о = 249.4 и оно много меньше чем 0.001. Поэтому гипотеза Но об отношении 6 к 1 отвергается. На основании этих данных отношение больных девочек и мальчиков составляет 286 : 188 или 1.52 к 1. 2.2. Дескриптивные программы. Анализ непрерывных переменных \ В настоящем разделе обсудим часто используемые программы из ПСП — так называемые «дескриптивные программы». Для любой переменной X — дискретной или непрерывной — дескриптивная программа просматривает множество из п наблюдений и вычисляет таблицу частот, строит гистограмму и вычисляет гакие выборочные статистики, как среднее, медиану, дисперсию и т. д. По этой информации исследователь может сделатьщ некоторые выводы о популяции. Например, он может проверить гипотезу о среднем и дисперсии популяции, оценить ее процентили, проверить, не является ли распределение популяции нормальным и т. д. Так как теория этого раздела относится, как правило, к случаю, когда X непрерывно, то сделаем основной упор на анализ непрерывных наблюдений. 2.2.1. Программы вычисления гистограммы Как и в разд. 1.7.2, будем обозначать i-й интервал группировки через [с,-, С/+1), а число наблюдений в этом интервале обозначим через ft, i = 1, ..., k. Напомним, что дескриптивная программа служит, в частности, для локализации грубых ошибок и выбросов, как это показывают следующие примеры. Пример 2.2.1. Обычной техникой для измерения количества (в литрах) крови, перекачиваемой в минуту сердцем человека или
2.2. Анализ непрерывных переменных П животного (производительность сердца 1)), является метод разведе- разведения индикатора. При этом методе известное количество красителя или радиоактивного изотопа вводится в локтевую вену и затем определяется концентрация индикатора в последовательных вы- выборках артериальной крови. Время до появления индикатора в выборках артериальной крови называется временем появления. Современные методы вычисления производительности сердца можно найти во многих курсах клинической физиологии (напри- (например, Weil, Shubin A967)). Начальные измерения времени появления X (в секундах) сде- сделаны у п = 53 пациентов в критическом состоянии. Дескриптивная программа была использована для построения соответствующей гистограммы (рис. 2.2.1). Этот график показывает, что у /х = 5  5 Ю 15 20 25 30 35 40 45 50 55 60. 65 70 75 80 Время появления (с ) Рнс. 2.2.1. Гистограмма времени появления для 53 критически больных пациентов. пациентов время появления больше или равно ci = 0 с, но меньше, чем с2 = 5 с, т. е. лежит в интервале [0,5). Аналогичным образом, для /2 = 24 пациентов измеренная величина лежит в интервале [5, 10), /з = 14 — в [10, 15) и т. д. Заметим, что одно наблюдение лежит в интервале [75, 80). Так как остальные наблюдения заклю- заключены между 0 и 25, можно думать, что это грубая ошибка. Действи- Действительно, проверка данных показала, что наблюдение х — 7.8 было ошибочно пробито на перфокарте как х — 78. Замечания 2.2.1. 1. По этой гистограмме можно построить гистограммы двух других типов. В первой — гистограмме относи- относительных частот (нормированная гистограмма) — каждое /,- заме- заменяется на относительную частоту Д- = Д/n, i = 1, ..., k, так что 2 Pt = 1, В другой — гистограмме частот в процентах (про- (процентная гистограмма) — каждое fi{ умножается на 100. Преиму- Преимуществом использования этих двух относительных шкал является то, что они позволяют сравнивать гистограммы, построенные на 30 25 20 10 5 п 5 24 1 /// /у 14 /У/ />'///// 8 У/, 1 1 777J 1 ' i 1 1 ! 1 1 1 Г7771 ) перге. В медицинской литературе принят термин «минутный объем». — Прим.
Гл. 2. Элементарные статистические выводы одних и тех же интервалах группировки, но для различных выбо- выборок из той же популяции. 2. Другой график — полигон частот — можно получить из любой гистограммы, соединяя средние точки верхних оснований прямоугольников гистограммы прямыми. 3. Оценкой выборочной моды с помощью гистограммы может служить середина интервала группировки с наибольшей частотой. Так если (с{, си1) имеет наибольшую частоту Д-, то выборочная мода приблизительно равна (ct + c,-+i)/2. Пример 2.2.2. Другой клинической характеристикой сердеч- сердечной функции служит сердечный индекс X [л/(мин-м2)], который 35.71 0.3571 ^ 31.25 | 0.3125 | 26.79 | 0.2679 | 22.32 ^ 0.2232 5 17.86 5 0.1786 13.39 | 0.1339 8.93 | 0.0893 4.46 <§ 0.0446 0 0 -1 2 3 4 5 6 7 Сердечный инЬекс, л/(минм2) Рис. 2.2.2. Гистограммы сердечного индекса для 112 критически больных па- пациентов. определяется как производительность сердца (л/мин), поделенная на площадь поверхности тела (м2). На рис. 2.2.2 изображены три вида ги- гистограмм X для п = 112 пациентов в кри- критическом состоянии. Таблица частот, по ко- которой построена гистограмма, приводится слева. По-видимому, здесь нет грубых оши- ошибок, так как все данные лежат в обычном ди- диапазоне измеряемой величины. Полигон ча- частот также изображен на рис. 2.2.2. Вы- Выборочной модой является х = 1.5. Третье применение гистограммы — построение эмпирического распределения как оценки распределения популяции. Это можно сделать прямо по гистограмме Сердечный Интервал [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) индекс X Частота 10 40 25 20 10 5 0 2
2.2. Анализ непрерывных переменных 73 или по ненормированной эмпирической функции распределения (ФР). В разд. 2.2.2 мы обсудим критерии согласия, основанные на гистограмме или на эмпирической ФР. В настоящем разделе опишем построение этой ФР, а также оценку процентилеи истин- истинного распределения. Пусть = /lf F3 z, **i = S h- Тогда F{ — число индивидуумов со значениями X менее ct — называется накопленной частотой в с,-, с = 1, ..., k. Ненормиро- Ненормированной эмпирической ФРх) называется ломаная, соединяющая точки (съ Fx), (cit Ft), .... (cft+1, Fk+1) (рис. 2.2.3). Ломаная, 100.00 89.29 1.0000 0.8929 80.36 | 0.8036 v« 71.43 i 0.7143 t," 62.50 * 0.6250 g | 53.57 | 0.5357 § 60 § 44.64 | 0.4464 ^ 35.71 | 0.3571 26. 79 | 0. 2679 17.86 8.93 0 0.1786 0. 0893 О 0123456789 Сердечный индекс, л[</лин-ыг) Рис. 2.2,3. Ненормированная эмпирическая функция распределения величины сердечного индекса для 112 критически больных пациентов. проходящая через точки (съ FJri), (c%, FJn), .... (ckn, FkJn), называется нормированной эмпирической ФР, а если каждое Ftln выражено в процентах — процентной нормированной эмпири- эмпирической ФР. Важно, что с помощью последней ФР можно получить выборочные процентили и выборочные процентильные ранги. Эти величины определяются следующим образом: q-я процеН' тиль — это число xq, менее которого принимают значения q % выборки. Обратная по смыслу величина —¦ процентильный рант Иногда вместо ФР говорят «кумулятивной ФР»,'— Прим- перев.
74 Гл. 2. Элементарные статистические выводы числа х — равна проценту д части выборки, значения в которой меньше, чем х. Особый интерес имеет 50-я процентиль, называемая медианой т, левее которой лежит половина наблюдений. Исполь- Используются также процентили 25 и 75, называемые соответственно 1-я и 3-я квартиль, и процентили 10, 20, ..., 90, называемые соответ- соответственно 1-я, 2-я, ..., 9-я дециль. Пример 2.2.3 иллюстрирует, как эти величины можно найти по процентной нормированной эмпири- эмпирической ФР. Пример 2.2.2 (продолжение). С помощью гистограммы на рис. 2.2.2 легко построить ненормированную эмпирическую ФР. Соответствующая ломаная проходит на рис. 2.2.3 через точки @, 0), A, 10), B, 50),' C, 75), D, 95)ДE, 105), F, ПО), G, ПО), (8, 112). На этом рисунке приводятся также шкалы для нормиро- нормированных накопленных частот — относительная и процентная. На- Например, у Fa = 10 пациентов (8.93 %) сердечный индекс менее 1, у F3 = 50 пациентов D4.64 %) — менее 2 и т. д. Пример 2.2.3. Для иллюстрации вычисления процентилей и процентильных рангов воспользуемся рис. 2.2.4, на котором 100 90 S« 80 I" 70 1 60 $ 50 40 Процентильный 30 ранг 2 -^ 10 Qk^lJ 1—L| l_J_i i i 2 3, 5 6 7 от 70-я процентиль Рнс. 2.2.4. Процентная нормированная эмпирическая функция распределения для гипотетической выборки. | нанесена процентная гистограмма накопленных частот некоторой гипотетической выборки. Например, чтобы получить процен- процентиль х10, нужно из точки 70 вертикальной оси провести гори- горизонтальную прямую до пересечения с гистограммой, а затем из точки пересечения провести вертикальную прямую до пересечения с горизонтальной осью. Абсцисса точки пересечения х10 =^4.4 и будет приближенным значением 70-й процентили. Чтобы получить
2.2. Анализ непрерывных переменных 75 процентильный ранг q для х = 2, нужно выполнить обратную операцию, как это сделано на рис. 2.2.4. Тогда ордината q = 25 точки пересечения и будет процентильным рангом х — 2. Из рисунка следует также, что медиана т, т. е. 50-я процентиль, или 5-я дециль, равна 3.3. Четвертое применение гистограммы или таблицы частот — оценка моментов популяции. Обычно дескриптивные программы вычисляют выборочные статистики непосредственно по массивам исходных данных, включая как меры центральной тенденции распределения, так и меры его рассеяния. Например, дескриптив- дескриптивные программы обычно вычисляют и выводят на печать хшах и xmia — соответственно максимальные и минимальные значения выборки, и ее размах, равный xmax — xmla. Выводятся также выборочное среднее х, выборочная дисперсия s2 и выборочное стан- стандартное отклонение s, определяемые формулами ? s = + J/'s5". В некоторых программах по исходным данным вычисляется и выборочная медиана т, равная (п + 1)/2-му по величине (начиная с наименьшего) наблюдению, если п нечетно, или среднему из п/2 и (п/2) + 1 наблюдений, если п четно. Если вычисление некоторых из этих величин не предусмотрено в программе обработки гистограмм, то их можно оценить с по- помощью таблицы частот, гистограммы или эмпирической ФР. Мы уже видели, как оценить моду с помощью гистограммы, а медиану и другие процентили —¦ с помощью эмпирической ФР. Прибли- Приближенное значение выборочного среднего вычисляется по гистограмме или таблице частот по формуле к x = -~jlfict, B.2.2) где с, = (ci + си1)/2 есть середина г-го интервала, i = 1, ..., k, а приближенное значение выборочной дисперсии — по формуле 1 iii-j -¦;. B23)
76 Гл. 2. Элементарные статистические выводы Вообще приближенным значением j-го начального момента служит k Щ = — 2 U (ёс)!> B-2.4) а j-го центрального момента — к м * V^ f /я z.\l /о о ?\ /7Zy — ^j /^ ^1^ ~— XJ • \Z.ZfOf В следующем замечании обсуждаются некоторые дополнитель- дополнительные величины, полученные из дескриптивных программ. Замечания 2.2.2. 1. Величина six называется коэффициентом вариации и служит для измерения стандартного отклонения в долях среднего значения. 2. Преобразование z = (х — x)ls преобразует случайную вели- величину X в безразмерную стандартизованную случайную величину Z. Гистограммы нескольких стандартизованных случайных вели- величин можно сравнивать, если у них у всех одинаковые интервалы группировки. Построение гистограммы Z может потребовать двух циклов обработки массивов данных: во время первого вычисляются х и s, а во время второго X преобразуется в Z и строится гисто- гистограмма Z. 3. Преобразование переменных позволяет получить и другие полезные статистики, которые можно вычислить как выборочные средние от преобразованных наблюдаемых значений. В следующей таблице приводятся эти преобразования и названия соответствую- соответствующих выборочных средних. Преобразо- „ „ вание Выборочное среднее Их Среднее гармоническое log х log среднего геометрического х1 i-й начальный момент (х—хI i-й центральный момент | х—х | Среднее абсолютное отклонение 4. Двумя другими мерами.для описания распределений служат коэффициент асимметрии и коэффициент эксцесса где щ- есть г-й центральный момент в популяции. Если плотность распределения симметрична, то Pi = 0. Если плотность имеет
2.2. Анализ непрерывных переменных 77 длинный «правый хвост», то Pi > 0, а если длинный «левый хвост», то Рх < 0. Для нормального распределения р2 равно 3. Если же распределение сконцентрировано вокруг среднего больше, чем нормальное, то Р2 < 3, а если меньше — то f5a > 3. 5. Пробит-график, описанный в разд. 1.7.3, может быть полу- получен из- эмпирической ФР. Как там указывалось, аргумент эмпири- эмпирической ФР наносится на горизонтальную ось, а нормальной — на вертикальную. Значения аргумента нормального распределения получаются путем вычисления Ф (FJri) = ги i — 1, ..., k + 1, где Ф •— обратная функция для стандартной нормальной ФР, так что Ф (г,) = FJn — накопленные доли частот в точках ct, i = 1, ..., k + 1 (см. пример на рис. 1.7.5). 2.2.2. Согласие Как указывалось в предыдущем разделе, гистограмму или эмпири- эмпирическую ФР можно использовать для оценки распределения случай- случайной величины X. В этом разделе мы изучим две статистики, кото- которые можно использовать для проверки гипотезы о том, что наблю- наблюдения распределены в соответствии с некоторой теоретической ФР Fo (х). Так как при стандартной проверке гипотез относительно ц и а2 предполагается, что X имеет нормальное распределение, то мы рассмотрим именно этот случай. 1. Критерий согласия %2. Допустим, что мы имеем случайную выборку объема п и выбрали k интервалов группировки [съ са), 1с2, с3), ..., [ck, cktl), где сг = —оо и ck+1 = +оо. Пусть Д- — наблюдаемая частота в интервале \ch ct+1), a Ft = п Рг (с; < х < си1) = п (Fo (cl+1) - Fo (с,)] B.2.6) — ожидаемая частота в этом интервале, i = 1, ..., k. Тогда если верна гипотеза Но: F (х) = Fo (x), то статистику 7&=h{Ft-fif/Fl B.2.7) i при большом п можно аппроксимировать с помощью распределе- распределения х2 с v = k-\—m B.2.8) степенями свободы. Здесь величина т равна числу независимых параметров гипотетического распределения, которые оцениваются по выборке. Р-значением является площадь области под функцией плотности распределения %2 (v) справа от точки %о (табл. 3, прило- приложение II). Если Р < а, то мы отвергаем Но и принимаем гипотезу Нг: F (х) Ф Fo (x).
78 Гл. 2. Элементарные статистические выводы Если ФР гипотетического распределения является N (ц, <та), то B.2.9) где Ф (х) — стандартная нормальная ФР. Так как \i и а обычно неизвестны, мы получаем их оценки х и s по рассматриваемой выборке и подставляем их в B.2.9). Следовательно, в B.2.8) m = 2 и v = А — 3. Точность приближения %3 возрастает с ростом F{. Следовательно, интервалы группировки надо выбирать так, чтобы Ft были «не очень малы», т. е. чтобы при любом i = 1 к выполнялось эмпирическое условие Ft ^ 5. Опыт показывает, что аппроксимация может оставаться удовлетворительной даже при F{ :зг 2 для некоторых г и Ft ^ 5 — для остальных I. 2. Критерий Колмогорова—Смирнова (К—С). Пусть имеется п наблюдений xlt ..., хп. Упорядочим их по возрастанию, обозначим г'-е по величине значение выборки через х^у, i -= 1, ..., /г, и по- построим следующую эмпирическую ФР F (х): О, — o i/n, xlt)<x<xlt+i), i=l, ..., n-1, B.2.10) Заметим, что эта ФР имеет скачок величины Мп в каждой точке с абсциссой х{, в то время как введенная в разд. 2.2.1 ФР имеет скачки различной величины на каждом интервале группи- группировки. Статистикой критерия является D^max\F(x)-F0(x)\. B.2.11) X Гипотеза Но: F (х) = Fo (x) отвергается, если Р-значение, соответ- соответствующее D, меньше а. Р-значения для п <; 100 и приближенные формулы для вычисления Р при п > 100 содержатся в табл. 4 приложения II. Замечания 2.2.3. 1. Некоторые пакеты программ вычисляют статистику D критерия К—С и соответствующее Р-значение, например, подпрограмма K0LM0 пакета IBMSSP. В этой под- подпрограмме D вычисляется по формуле D= ma\\F(x{i)) — F0(x(i))\, несколько отличной от формулы B.2.11), а Р-значения вычисля- * ются по указанной приближенной формуле в табл. 4 приложения II. 2. Чтобы выбрать один из двух критериев, необходимо знать мощность каждого из них. Так как распределение при альтерна- альтернативной гипотезе обычно неизвестно, то определить мощность точно
2.2. Анализ непрерывных переменных 79 невозможно (Massey A951), Кае etal. A955)). Сравнение мощности двух критериев показало, что для некоторых альтернатив критерий К—С имеет большую мощность, чем %2. В частности, критерий К—С является более мощным, чем %2, при проверке на нормаль- нормальность, когда (.t и а2 оцениваются посредством х и s2. 3. В случае когда параметры оцениваются по выборке, Р-зна- Р-значения для критерия К—С не точны (Lilliefors A967)). 4. Некоторые программы, например BMDP2D, выводят на печать коэффициенты асимметрии и эксцесса, определенные в замечании 2.2.2.4 вместе с их стандартными отклонениями se (bt) и se (b2). В последнем случае эти статистики можно исполь- использовать для проверки двух нулевых гипотез, а именно Яо: pi = О и Но: р2 — 3 = 0. Асимптотически каждая из статистик г0 = = Vse (&i) и z0 = (b2 — 3)/se (b.2) распределена по N @, 1). .Р-значения можно получить из табл. 2 приложения II. Эти два критерия можно использовать совместно для проверки гипотезы о нормальности. Пример 2.2.2 (продолжение). Для проверки нулевой гипотезы о том, что данные о сердечном индексе в примере 2.2.2 выбраны из совокупности с нормальным распределением, были использованы оба вышеупомянутых критерия согласия (%2 и К—С) при a = 0.05. Так как цни8 неизвестны, мы заменим их выборочными оценками х = 2.45 и sa = 1.74. Пусть X — сердечный индекс. Тогда нуле- нулевую гипотезу можно записать в виде Но: X ~ N B.45, 1.74), а альтернативу — в виде Нг: Х^ N B.45, 1.74). Для критерия %2 используем интервалы группировки из табл. 2.2.1. Заметим, что Таблица 2.2.1 Таблица наблюдаемых н ожидаемых частот сердечного индекса для 112 критически больных пациентов Интервал группировки [-00,0.5) [0.5, 1.0) [1.0, 1.5) [1.5, 2,0) [2.0, 2.5) [2.5, 3.0) [3.0, 3.5) [3.5, 4.0) [4.0, 4.5) [4.5, 5.0) [5.0, оо) _ НаЗлюЪ. частота и 1 9 23 17 13 12 10 9 9 3 6 ОжиЬ. частота F' 7.85 7.38 11.20 14.67 16.58 16.46 14.00 10,42 6.61 3.81 3.02 (Fi -пI F, 5.98 0.36 12.43 0.37 0.77 1.21 1.14 0.19 0.86 0.17 2.94
80 Гл. 2. Элементарные статистические выводы ширина всех интервалов группировки, кроме первого и послед- последнего, равна 0.5. Границы первого и последнего интервалов были выбраны так, что ожидаемая частота в каждом из них не менее рекомендованного значения 2.0. Вычисляя 2=_ G.85-1J G.38-9J , , C.02 - бJ Хо ~~ 7.85 + 7.38 т~ * " ' ~г з.О2 получим Хо = 26.4 с v = 11 — 3 = 8 степенями свободы. Так как Р << 0.001, мы должны отвергнуть Яо. Для вычисления статистики D критерия К—С по исходным данным была использована программа из ПСП. Оказалось, что D = 0.161. Так как 95-я процентиль асимптотического распреде- распределения D равна 1.36V ТТ2~ = 0.129 < 0.161 (табл. 4, приложение II), то Р < 0.05. Поэтому мы также отвергаем Но. 2.2.3. Проверка гипотез и доверительные интервалы ДЛЯ A И ff2 В этом разделе мы обсудим стандартные критерии для проверки гипотез о среднем \i и дисперсии а2 в популяции. Как уже указы- указывалось в разд. 2.2.2, эти критерии основаны на предположении а_нармальности соответствующих распределений."поэтому для обоих критериев мы предположим, что хХ; ¦•-, хп является слу- случайной выборкой из популяции с функцией распределения N (щ а2). Для проверки гипотезы о том, что среднее ц равняется некоторой константе fx0, т. е. Но: \х = рц,, мы воспользуемся z-критерием, если а2 известно (или а2 неизвестно, но п велико), и . f-критерием; если а2 неизвестно (г-критерий обсуждается в разд. 1.5, приложение I). Статистикой ^-критерия служит ;д;= (*-N) t/~> B.2.12) S имеющая при выполнении гипотезы Но ^-распределение Стьюдента с v = п — 1 степенями свободы (табл. 5, приложение II). .Р-значе- .Р-значения зависят от альтернативной гипотезы и выписаны в приводимой ниже таблице (см. также изображение критических областей на графиках рис. 2.2.5) Нулевая ~ Альтернативная Р-значение гипотеза гипотеза Но' U = На, о2 неизвестно Я,: ft > ц0 Р= Pr(t(v)>t0) . Я,: ц < ц0 Р= Pr(t(v)<t0) Я,: цфц0 P=2Pr(t(_v)>\l0\) Например, если альтернативная гипотеза является односторонней и имеет вид Нх: у. > р0, то Р-значение равно площади под функ-
2.2. Анализ непрерывных переменных 81 цией плотности t (v) справа от t0. Гипотеза Нй отвергается, если ' Р <а. ^-критерий используется, когда (г0 является известным или предполагаемым средним для данной популяции и мы хотим проверить, отлично ли среднее \i рассматриваемой популяции от ц,0, т. е. ц. > Цо или (i < ц0 или ц'Ф ц.о (^-критерий используется также в парных выборках или методике измерений «до и после воздействия», описанных в разд. 2.3.1). t(n-l) t(n-l) Рис. 2.2.5. Критические области для гипотезы На: ц = ц.о для неизвестной дис- дисперсии <та. а — альтернатива Ях: ц > ц0; Ь — альтернатива Ях: ц < ц0; с — аль- альтернатива Н\. ц. ф [Хо- Интервальной оценкой для \i служит 100A —а) %-ный доверительный интервал (^(п1) х + ^(п-1)у=у B.2.13) где t а(п — 1) есть 100 A — (сс/2))-я процентиль ^-распределения 1 г" Стьюдента с v = п — 1 степенями свободы (табл. 5, приложение II). Этот интервал можно использовать для проверки гипотезы #„: (х = fx0 против гипотезы Н^ \х Ф fx0. Мы отвергаем Яо с уровнем значимости а, если ц0 лежит вне доверительного интервала. Известно, что ^-критерий является робастным, т. е. он нечувст- нечувствителен к умеренным отклонениям от предположения о нормаль-
82 Гл. 2. Элементарные статистические выводы ности, если выборка случайна. Напротив, критерий х2 для про- проверки гипотезы о том, что дисперсия а2 равна заданной величине <Хр (Яо: ст2 = (ф, очень чувствителен к отклонениям от предполо- предположения о нормальности. Соответствующая статистика Xo = (/i-l)sa/ajj B.2.14) имеет при гипотезе Яо распределение f с v = n — 1 степенями свободы (табл. 3, приложение II). Р-значение зависит от альтернативной гипотезы и приводится в следующей таблице (см. также изображения критических облас- областей на графиках рис. 2.2.6). , .,, Нулевой гипотеза Альтернативная гипотеза Р-значение Я,: <72 > <7„ Я, а* < "о Я, а1 ф «То Р = {x()X°) Р = 2тт[Рг(хгМ<Хо2),Рг(/г(у)>хо')] Например, для альтернативы Ях: аа ф а\ Р-значение равно удвоен- удвоенной величине площади наименьшей из двух областей, расположен- Рис. 2.2.6. Критические области для гипотезы Яо: а2 = ад показаны на графи- графиках плотности распределения %2(п—1). а — альтернатива Н^. a2>ag; I) —* альтернатива Нх: о2 < а§; с — альтернатива Я}: а2 Ф ст|.
2.2. Анализ непрерывных переменных 83 ных справа и слева от точки %г0 под функцией плотности %2 (v). Гипотеза Яо отвергается, если Р < а. Этот критерий используется, если дисперсия о\ данной популя- популяции известна, а для рассматриваемой популяции мы хотим про- проверить гипотезу о том, совпадает ли ее дисперсия ст2 с о\. Так как этот критерий так чувствителен к предположению о нормальности, мы рекомендуем употреблять его с осторожностью. Другие крите рии для х2 и ссылки см. в работе Nemenyi A969). 100 A — а) %-ным доверительным интервалом для а2 является (*-')** <а2< ("-')*2 , B.2Л5) XW»1) x|(«D Пример 2.2.2 {продолжение). В этом примере случайной вели- величиной X является сердечный индекс [л/(мин-м2)]. Известно, что в популяции здоровых индивидуумов среднее значение ц0 сердеч- сердечного индекса равно 3.5 [л/(мин-м2)]. Так как у многих критически больных пациентов кровообращение замедлено, то интересно проверить, действительно ли среднее значение \и,х сердечного индекса для популяции критически больных меньше чем 3.5. Поэтому проверим гипотезу Яи: цх — 3.5 против односторонней альтернативы Ну. \ix <! 3.5 с уровнем а = 0.05. Статистиками выборки Ху, ..., Ххп будут х = 2.45 и sx = 1.32, а значением t — _ B.45-3.50) КТТ2 _ Так как Р < 0.001, то Но отвергается. 95%-ным доверительным интервалом для среднего значения Ид., сердечного индекса является 2.45+ Kyil32) =B.20, 2.70). Следовательно, с вероятностью 0.95 этот интервал содержит истинное среднее значение ц^ сердечного индекса критически больных пациентов. Асимметрия гистограммы на рис. 2.2.2 позволяет предполо- предположить, что выборка произведена из популяции с логнормальным распределением. Поэтому было произведено преобразование у — — lg х, а гистограмма преобразованных данных показана на рис. 2.2.7. На графике показаны также ожидаемые частоты для интервалов группировки, вычисленные с помощью среднего у = = 0.335 и стандартного отклонения sy = 0.261 преобразованных данных.'Данные неплохо описываются нормальным распределе- распределением, плотность которого изображена пунктирной кривой. Дей- Действительно, статистика х2. вычисленная по 7 интервалам группи-
84 Гл. 2. Элементарные статистические выводы ровки, имеет незначащее значение Хо = 2.30 с v = 7 — 3 = 4 степенями свободы. Найдя подходящее преобразование, мы можем проверить гипотезу о среднем и дисперсии популяции и построить доверительный интервал для этих параметров. 40 г B7.6) -0.4 -0.2 0 0.2 0.4 0.6 OS Xg сердечного инЬекса 1.0 Рис. 2.2.7. Гистограмма величины десятичного логарифма сердечного индекса для 112 критически больных пациентов. Ожидаемые частоты указаны в скобках. Можно показать, что \iu и \ix связаны соотношением цу = — lg Fjc— 1.15а|. Так как хорошей оценкой огу является s]J = = 0.068, то за гипотезу #„ о величине цу естественно принять Яо: Ну = lg 3.5 — 1.150.068 = 0.466. Так как выборочными стати- статистиками являются у = 0.335 и sy = 0.261, то t принимает значение @.335- 0.466) У"Ш t0 = 0.261 = — 5.31. Следовательно, Яо снова отвергается с Р < 0.001. Для проверки гипотезы о дисперсии целесообразно исполь- использовать преобразованную переменную Y, поскольку распределение Y ближе к нормальному, чем распределение X. Предыдущие эксперименты со здоровыми пациентами показали, что оу = 0.3. Проверим гипотезу о том, что пациенты в рассматриваемой выборке принадлежат популяции с той же дисперсией, т. е. Яо: <х$ = 0.09. Поскольку здесь нет логических оснований для односторонней Н \ 009 З 2 б альтернативы, примем, что Нг\ о\ 2 111 @.261J &> ~" 0.09 0.09. Значением х2 будет = 84.0 с v = 111 степенями свободы. Так как Р ^ 0.20, мы принимаем #„.
2.3. Анализ двух непрерывных случайных величин 85 Заметим, что а\ — 0.09 лежит в 95 %-ном доверительном интервале (ШУ 1П@261J^ @.058, 0.102), что также означает принятие Яо при уровне значимости а = 0.05. 2.3. Дескриптивные программы с расслоением данных. Анализ двух непрерывных случайных величин В настоящем разделе обсудим использование дескриптивных программ анализа данных о двух непрерывных случайных величи- величинах. Рассмотрим сначала случай, когда две различные случайные величины Х1 и Х2 определены на одной и той же популяции W, так что можно исследовать ковариацию и корреляцию между величинами Хх и Хг. Случайная выборка из популяции состоит из п пар наблюдений, причем каждая пара наблюдений получена путем измерений на одном и том же индивидууме выборки. Затем обсудим, каким образом дескриптивная программа печатает гистограмму и выборочные статистики для каждого Xt и как вычисляются и печатаются оценки ковариации и корреляции в рассматриваемой популяции. Далее, если Х± и Х2 можно сравни- сравнивать, т. е. если они измеряют одинаковые или однотипные характе- характеристики, можем сравнить средние значения величин Хг и Х2, используя парный t-критерий. После этого обсудим случай, когда одна и та же случайная величина X определена на двух различных популяциях Wx и W2. Эти популяции можно рассматривать как подпопуляции или слои (страты) из более широкой популяции W. В этом случае производятся две независимые случайные выборки —• по одной из каждой популяции. Опишем, как можно использовать дескриптив- дескриптивную программу с расслоением данных для построения гистограмм как Хх, так и Х2, а также обсудим использование выборочных статистик для проверки гипотезы о равенстве средних для А\ и Х2. Для этого нам потребуются двухвыборочный t-критерий и t-крите- t-критерий Уэлча. 2.3.1. Одна популяция. Две случайные величины В этой ситуации у нас есть две случайные величины Хх и Х2, определенные на одной и той же популяции W. Пусть щ и о\ — среднее и дисперсия величины Xlt а Оц = otJ —ковариация между Xt и Xj, i, j = 1,2 (разд. 1.6, приложение I). Заметим, что
86 Гл. 2. Элементарные статистические выводы а(! = а'\, i = 1,2. Коэффициент корреляции р,,- между Х{ и X,- по определению равен (^ = ^7' «./=1.2- B-3.1) Заметим, что Рц_г:_?22 = 1 и что — 1 < р12 = p2i < IB разд. 3.1 будет показано, что коэффициент корреляции р12 есть мера линей- линейной связи между Хг и Х2 — чем ближе | р121 к 1, тем больше степень линейной связи, а чем ближе р12 к 0, тем меньше степень линейной связи. Из популяции W производим случайную выборку объема п и наблюдаем Ху и Х2 у каждого индивидуума в выборке. Резуль- Индивидуум Данные таты наблюдений обозначим хп х1п JJ и х21, ..., х.ы, так что xik есть k-e на- 1 хп, х21 блюдение случайной величины Хи 2 х12, х22 i = 1.2, k = 1, ..., п. Результаты на- Результаты наблюдений запишем в виде таблицы. ' Обрабатывая эти данные при помощи дескриптивной программы из ПСП, по- п хх лучим гистограмму для наблюдений ll" 2n xlit хп, ..., х1п и гистограмму для х21, х22, ¦••, xin. Кроме того, мы получим МП-оценки параметров распределения. Так, для i, j = 1,2 МП-оценками параметров Fb <i, Oil и Ри служат соответственно 2j S2 _. 1 n sij — n | 2j (Xik ' xi.) \Xjk ¦*•/.)> (Точка вместо второго индекса у х,-. означает, что по этому индексу произведено осреднение.) Выборочные дисперсии, коэффициенты ковариации и корреля- корреляции обычно представляются в матричной форме и печатаются в виде ковариационная матрица 1su = st s12 I S2l S22 = sl\ ' корреляционная матрица r12
2.3. Анализ двух непрерывных случайных величин 87 Так как обе матрицы симметричны, иногда печатаются только их диагональные и наддиагональные элементы. Анализу ковариационных матриц посвящены разд. 5.6 и 5.7, а корреляционных — разд. 3.1. Напомним теперь читателю, что каждую гистограмму можно использовать для а) локализации грубых ошибок; Ь) локализации выбросов; с) построения эмпири- эмпирических распределений; d) вычисления выборочных статистик; е) эмпирического преобразования данных к нормальному распре- распределению и f) проверки гипотез относительно \ii и о], i = 1,2, как это было описано выше. Далее, если Ххи Х2 сравнимы, т. е. имеют одинаковые размерности, то можно проверить гипотезу относи- относительно цх — fx2. Прежде чем сделать это, рассмотрим следующий пример. Пример 2.3.1. В этом примере популяция W состоит из критически больных пациентов с циркуляторным шоком. Была проведена выборка объема п = 108 пациентов и у каждого из них измерялось Хх — венозное рН и Х2 — артериальное рН. Дескрип- Дескриптивная программа строит гистограммы для Xt и для Х2, вычисляет выборочные статистики х1 — 7.373 и х2 = 7.413, s\ = 0.1253 и si — 0.1184, s12 = 0.1101. Ковариационная и корреляционная матрицы соответственно имеют вид 0.1253-0.11011 Г 1.0000 0.90391 0.1101 0.1184J И L0.9039 1.0000J" В соответствии с теорией, здесь s12 = s21, r12 = г21, sn = s], s^ = = s?2. Можно проверить также, что г12 = s^fs^. Большое значение ri2 = 0.9039 свидетельствует о наличии сильной линейной зависи- зависимости между Х1 и Х2, что и следовало ожидать. Дальнейшие пояснения к этому примеру приводятся в гл. 3. В медицине известно, -что для здоровых людей среднее венозное /?Н меньше, чем артериальное. Поэтому целесообразно проверить эту гипотезу для популяции больных пациентов. Вообще, если Хг я Х% — сравнимые измерения для одного и того же индивидуума, то гипотеза #0: fxx — fx2 = б, где б — постоянная, может быть проверена с помощью парного t-критерия, называемого также t-кршперием для связанных выборок. Статисти- Статистикой критерия служит to=(LzM?, ¦ B.з.з) где # = *;.- Х2; Si = S\ -j- Si - 2S!S2r1? = S^ -{- S^ — 2sl2.
88 Гл. 2. Элементарные статистические выводы При выполнении гипотезы Яо статистика t0 имеет ^-распределение Стьюдента с v = л — 1 степенями свободы. Р-значения зависят от альтернативной гипотезы и приводятся в следующей таблице: Нулевая Альтернативная Р-значение гипотеза гипотеза *> "о* Pi ~~ Pi — ** Я| Я, Hi m,-Pi>S P= Pr(t(.v)>t0) Mi-Mi<6 Р= Pr(t(y)<t0) Л M,-Mz*S P = 2Pr(i(.»)>\to\) Если в дескриптивной программе пакета не предусмотрен вывод на печать ковариационной или корреляционной матриц, то f-статистика может быть вычислена посредством преобразования D — Хх — Х2. Тогда выборочными статистиками для наблюдений d-t *= xlt — xiiti = 1, ..., л, и будут искомые d и s|. В этом смысле парный /-критерий совпадает с Лкритерием для выборки, состоя- состоящей из разностей dt, i = 1, ..., л. Пример 2.3.1 (продолжение). Проверим гипотезу: \it = среднее венозное рН меньше, чем fx2 = среднее артериальное рН, т..е. Яо: цх — fx2 = 0 и Hi. fix — \jl2 <0. Из B.3.3) следует, что / G-373 — 7.413) __971 ° /0.1253 + 0.1184—2@.1101) с v = 108 — 1 = 107 степенями свободы. Так как Р-значение менее 0.005, мы отвергаем Яо, что и следовало ожидать на основа- основании медицинских фактов. Разбор этого примера будет продолжен в разд. 3.1. Замечание 2.3.1. Пары наблюдаемых значений могут возникать тремя способами. Во-первых, можно делать два измерения у каж- каждого индивидуума: например, Хг — длина правой руки, Х2 — длина левой руки. Во-вторых, можно измерять у каждого инди- индивидуума одну и ту же характеристику до и после лечения: напри- например, производительность сердца до и после приема лекарств. В-третьих, можно измерять одну и ту же случайную величину в парной выборке, т. е. у пар индивидуумов, выбранных из-за их сходства по отношению к цели измерений. Этим достигается возможность контроля над внешними факторами и увеличение чувствительности эксперимента. (Лечение между членами пары должно распределяться случайно.)
2.3. Анализ двух непрерывных случайных величин 2.3.2. Две популяции. Одна случайная величина Рассмотрим случай, когда данные относятся к одной непрерывной случайной величине X, определенной на популяциях Wx и №а. Эти две популяции можно рассматривать как подпопуляции или слои из более широкой популяции W. В этом случае популяция W расслаивается на Wt и W2. с помощью случайной величины Y, определенной на W. Например, пусть случайная величина X — =¦¦ IQ определена на выборке из всех студентов колледжей США. Величина Y = пол расслаивает W на две подпопуляции: W% = = студенты-мужчины и' W2 — студенты-женщины. При этом X, определенное на Wr, выражает IQ для студентов-мужчин, а X, определенное на W2, — IQ для студентов-женщин. Пусть цс и а] суть среднее и дисперсия X на W{, i = 1, 2. (Заметим, что в этом случае ковариация и корреляция не имеют смысла.) Из популяции Wt производится случайная выборка объема щ и у каждого индивидуума выборки наблюдается вели- величина X. Результаты наблюдений для выборок из Wj и №2 обозна- обозначим соответственно хц, х\%, ¦¦•, Х\П1 и Хчг, х22, ¦¦¦, х2Пг- Для построе- построения гистограммы и подсчета статистик по каждой выборке можно дважды прогнать дескриптивную программу — по одному разу для каждой выборки. Другим путем для получения этой информа- информации является использование дескриптивных программ с расслое- расслоением данных — таких, как BMDP7D. Они строят гистограммы для Хпо каждой из выборок на одной и той же странице. Например, выдача может иметь вид Группа 1 **/з * * * * */2 Группа 2 Для получения этих гистограмм входные данные могут быть представлены в виде Лп1 Выборка 1 Нп, Выборка 2 а значения пх и щ, задаются на управляющих картах. Другой способ состоит в том, что пользователь определяет переменную
90 Гл. 2. Элементарные статистические выводы •У — так называемую переменную группировки, — с помощью которой выборочные значения классифицируются по подпопуля- циям. В этом случае результаты наблюдений можно представить в виде пар (Xij,yt), которые вводятся в любом порядке. Например, как представлено здесь. В соответствии с признаком У программа раз х и деляет-наблюдения по двум выборкам. Для каж- 22' Уг дой выборки строится гистограмма и вычисляют- х13, уг ся оценки параметров [х, и ст| по формулам: Я; 1=1 ni - l /=1 ; i = 1, 2. B.3.4) Рассмотрим теперь следующий пример. Пример 2.3.2. Во многих клинических ситуациях бывает по- полезно измерить концентрацию молочной кислоты (так называемый лактат, мМ) в артериальной крови. Исследования показали, что логарифм этой величины имеет приблизительно нормальное распределение. В рассматриваемом примере измерялась величина X — десятичный логарифм лактата в популяции W критически больных пациентов, перенесших состояние циркуляторного тока. Эта популяция расслоена на две подпопуляции: Wx — умерших и W2 — выживших пациентов. Пусть ( 1, если пациент умер, } 2, если пациент выжил. Из Wi и W2 были произведены выборки соответственно объемов пх = 41 и п2 = 70 пациентов. Наблюдениями в выборке служили финальные значения X непосредственно перед смертью или перед переводом из реанимационной палаты. Программа построила гистограммы для обеих выборок (рис. 2.3.1); значения выборочных статистик приводятся в подписи под рисунком. В этом примере интересно проверить гипотезу о том, что финальное значение среднего величины X, равной десятичному логарифму лактата для умерших пациентов, больше, чем для выживших. Вообще, если хп, .... xlril нх2и .... х2„2 суть случайные выборки из популяций соответственно с распределениями N (ць а\) и N (ц2, (х|), причем а\ = а\ = а2, то нулевую гипотезу Но: Hi — fx2 = б, где б — константа, можно проверить с помощью двухвыборочного t-критерия. Статистикой критерия является /о = ((*. -x2.)-b)j{sPY-L + -^), B.3 5)
2.3. Анализ двух непрерывных случайных величин 91 где о {П2-\) + я, - 2 B.3.6) — объединенная выборочная дисперсия, представляющая собой несмещенную оценку общей дисперсии а2. Если гипотеза Но 30 25 о 20 5 0 -0.6-0.3 0 0.3 0.6 0.9 1.2 1.5 а -0.6 -0.3 0 0.3 0.6 0.9 1.2 1.5 Рис. 2.3.1. Гистограммы величины десятичного логарифма лактата для 111 кри- критически больных пациентов, сгруппированных по исходу, а— умершие: Y = 1, хи = 0.685, sx = 0.326, rtx = 41; b — выжившие: Y = 2, х2. = 0.399, % = 0.383, «2 = 70. верна, то t0 имеет ^-распределение Стьюдента с v = nL + пг — 2 степенями свободы. Р-значение зависит от альтернативной гипо- гипотезы и приводится ниже. Нулевая гипотеза Альтернативная гипотеза Р-значеиае Но: Я, я, я, Mi - Иг > .«5 Mi — Ux < 6 М\ - Мг Ф <5 P=Pr(t(v)>t0) Р= Pr(Hv)<t0)
92 Гл. 2. Элементарные статистические выводы Во всех случаях мы отвергаем #0, если Р <!«. Здесь 100 A — — а) % -ным доверительным интервалом для разности цг — Ца между средними является (xv — *2.)±*i-(a/2>(«i + n2 — 2)sp ]/ — -|- —, B.3.7) где t a_ («i + «2 — 2) есть 100 П —у)"я процентиль ^-распреде- ^-распределения Стьюдента с /гх + п2 — 2 степенями свободы. Пример 2.3.2 (продолжение). Проверим теперь гипотезу о том, что финальное среднее \1г для десятичного логарифма лактата у умерших пациентов больше, чем финальное среднее \х2 для выживших пациентов. Здесь Но: ц.х — ц2 = 0 и Ну. \iy — ц2 > 0, а за уровень значимости примем a = 0.05. Выборочными стати- статистиками будут ft! = 41, Х\. = 0.695, Si = 0.326, п2 = 70, х%. — = 0.399 и s2 = 0.383. Объединенная выборочная дисперсия есть 2 _ D1 - 1) @.326J + G0 - 1) @.383)а _ . Р~ 41+70-2 а значение ^-статистики равно 0.695 — 0.399 . ,. ^о = /«¦'зКтг+w) с v = 109 степенями свободы. Так как Р < 0.001, то Яо отвер- отвергается в полном соответствии с представлениями медиков (Weil, Afifi A970)). 95 % -ным доверительным интервалом для \ii — |х3 служит @.695 — 0.399) ± 2.00 Y0A32(-JT+ ~w) = @Л53> °-439)- Следовательно, с вероятностью 0.95 этот интервал содержит истинное значение разности средних ^i — ц2. Заметим, что двухвыборочный ^-критерий предполагает ра- равенство дисперсий в популяциях, т. е. о) = о\ = а2. Это предполо- предположение можно проверить с помощью критерия отношения диспер- дисперсий. Например, если х1Ь ..., хХПх и х2ь ..., х<щ2 суть~^елучайные выборки из популяций с распределениями N (\ilt а\) и JV ((л2, а^), то нулевую гипотезу Но: а\ = а\ можно проверить с помощью ста- статистики Fo=s\/sl, . B.3.8) гдев| — дисперсия i-я выборки, i = 1,2. Если гипотеза Но верна, то Fo имеет F-распределение с vx — пх — 1 и v2 = га2 — 1 степенями
2.3. Анализ двух непрерывных случайных величин 93 свободы (табл. 6, приложение II). Так как нижние процентили для ^-распределения в указанной таблице не приводятся, то если это необходимо, выборки должны быть перенумерованы так, чтобы выполнялось соотношение s\ ^ s%. В этом случае Fo ^ 1 и Р-значе- ния зависят лишь от правого хвоста ^-распределения. В следую- следующей таблице Р-значения приводятся для двух альтернатив: Н±. а\.>а\ и Н\\ в\фа\. Нулевая Альтернативная р.значенир гипотеза гипотеза р зтчение Но: о? = огг Я,: о? > <т22 Р = Pr(F(vu v2) > Fo) Ht: ст,2 Ф а22 Р= 2Pr(F(Vi, v2) > Fo) Следует заметить, что этот критерий тоже очень чувствителен к отклонениям от предположения о нормальности. Поэтому его нельзя использовать, если есть сомнения относительно нормаль- нормальности распределения. Пример 2.3.2 (продолжение). Проверим теперь гипотезу о ра- равенстве дисперсий в этом примере. Так как si > s\, то поменяем номера популяций, так что теперь Wt — популяция выживших, a W<i — умерших пациентов. Проверим гипотезу Но: <Xi = ст2 против #j: of Ф а\ с уровнем значимости а — 0.05. Так как выборочные статистики равны пх = 70, st = 0.383, п.2 = 41 и s2 = 0.326, то Fo = @.383J/@.326J = 1.38. Поскольку F0.fl5 F9, 40) яа 1.6, то Р-значение больше, чем 2 @.05) = 0.10, и гипотеза #0 принимается. Если гипотеза о равенстве дисперсий себя не оправдала, то более подходящим, чем двухвыборочный ^-критерий, оказывается критерий Уэлча (Welch A937)). В нем для проверки гипотезы Яо: \ix — \х2 = б против альтернативы Ях: щ — [х2 Ф S, ^ — ц2 < б или \xt — fxa > б используется статистика ^+^. B.3.9) Если гипотеза Яо верна, то для больших выборок t0 имеет прибли- приблизительно ^-распределение Стьюдента, а приближением для числа степеней свободы служит s2 s2 ^ a V = | + sf п\(пх~\) п\{п2-\) B.3.10) Так как v не обязательно целое, то Р-значение можно получить с помощью линейной интерполяции в табл. 5, приложение II. Этот
94 Гл. 2. Элементарные статистические выводы критерий имеет преимущество перед двухвыборочным ^-кри- ^-критерием, если дисперсии популяций заметно различаются, по- поскольку он дает более близкий к истинному уровень значи- значимости а. Замечание 2.3.2. Были рассмотрены три ^-критерия для срав- сравнения двух средних при следующих общих предположениях: а) соответствующие распределения нормальны и Ь) внутри популя- популяции индивидуумы выбираются случайно. Различия в предположе- предположениях относятся к а) равенству дисперсий о? и of и Ь) независи- независимости двух выборок. Если объемы выборок п{ и п2 равны, то выбрать соответствующий ^-критерий помогает следующая таб- таблица: Независимость выборок Равен- Равенство днспер- СИЙ Да Нет Да Двухиыборочный Парный /-критерий /-критерий Нет /-критерий Уэлча Парный /критерий Некоторые программы в ПСП (например, SPSS T-TEST) вычисляют и печатают критерий отношения дисперсий B.3.8), двухвыборочный ^-критерий B.3.5) и ^-критерий Уэлча B.3.9). Поэтому пользователь может сначала проверить значимость F-критерия, что позволит сделать правильный выбор между двумя ^-критериями. Пример 2.3.3. В этом примере исследовались две группы детей с полиневритом Guillain-Ваггё (Eberle el al. A975)). Это заболева- заболевание вызывает мускульную слабость, которая оценивалась по поряд- порядковой шкале. Первая группа состоит из 36 полностью выздоровев- выздоровевших детей, а вторая — из II детей с остаточной мускульной сла- слабостью через 3 года после начала заболевания. Проводились наблюдения за следующими величинами: Х± — число суток с на- начала заболевания до максимальной слабости, Х2 — число суток с начала заболевания до начала улучшения, Х3 — число суток от максимальной слабости до начала улучшения. По полученным данным предстояло ответить на вопрос: существуют ли значимые различия между средними по двум группам для какого-нибудь из трех показателей?
2.4. Анализ р>1 непрерывных случайных величин 95 Вывод программы SPSS приводится в следующей таблице. Случайная в9личина Критерий отношения дисперсий ' Двухшборочшй t-критерий t-критерий Узлча t Среднее±sd Группа I Группа Л Хх 4.55 0.02 -0.03 Х2 1.30 0.53 -1.63 Л-3 2.15 0.09 -2.13 0.98 -0.04 0.97 10.4 + 9.9 10.5 ± 4.6 0.11 -1.52 0.15 18.6 + 15.2 27.4 ± 17.4 0.04 -1.74 0.10 8.2 ± 10.6 16.9+15.6 *) Р-значение вычислено в предположении двусторонней альтернативы. **) sd — аббревиатура от standard deviation (стандартное отклонение).— Прим. ред. Из таблицы следует, что гипотеза о равенстве дисперсий отвергается только для XL. ""Поэтому для Хх следует применять ^-критерий Уэлча, а для Xt иХ, — двухвыборочный ^-критерий. 2.4. Дескриптивные программы с расслоением данных. Анализ р > 2 непрерывных случайных величин Обобщим теперь идеи предыдущего раздела на случай р ;з= 2 непрерывных случайных величин. Как и в предыдущем разделе, рассмотрим сначала случайные величины Хъ Х2, ..., -Х„, опреде- определенные на одной и той же популяции W. Здесь можно исследо- исследовать р (р + 1)/2 различных коэффициентов ковариации или корреляции между Xt и Х}, i, j = 1, 2, ..., р. Случайная выборка из этой популяции состоит из п наборов по р наблюдений в каж- каждом, причем все р наблюдений одного набора проведены за одним и тем же индивидуумом выборки. Затем изучим ситуацию, когда одна случайная величина X определена на р популяциях Wu №а, ..., Wp. Как и ранее, эти популяции можно рассматривать, как подпопуляции (или слои) из более широкой популяции W. Здесь р независимых случайных выборок производятся из р распределений. Будет показано, как проверка гипотезы о равенстве средних у величин Х1? ..., Хр приводит к F-отношению однофакторного дисперсионного ана- анализа. Далее обсудим вопрос о том, как можно производить сравне- сравнения между средними с помощью методов множественного сравне- сравнения. Рассмотрим сначала один частный случай.
96 Гл. 2. Элементарные статистические выводы 2.4.1. Одна популяция, р случайных величин Пусть у нас имеются данные о р случайных величинах Хх, Хг, ... ..., Хр, определенных на популяции W. Далее, \ii и о} — среднее и дисперсия величины Xt, a otj = оп — ковариация между Xt и Х}, i, j = 1, 2, ..., р. (Заметим, что ац = a), i = 1, 2, .... р.) Тогда коэффициент корреляции ри между Xt и Xj определяется как Р" = 5^« '"• /=1. 2 ..., р. B.4.1) Здесь ри = р22 = • • • = ррР = 1 и —1 < ptJ = рн < 1 при i ф j. В разд. 3.1 будет показано, что р^- — мера линейной связи между Xt и Xj, а в разд. 3.3 — что р?;- играет важную роль в выборе наилучшего предиктора в многомерном регрессионном анализе. Итак, пусть из популяции W произведена случайная выборка объема п, а Хи, х^, ..., xpj — результаты наблюдений /-го инди- индивидуума. Используя дескриптивную программу из ПСП для ана- анализа следующих входных данных: Индивидуум Данные 2п< • • • 1 X, •рп получим гистограммы для выборки хп, л:12, ..., хы, для выборки *2i» Х22, •••. *2п и т- Д- —всего р гистограмм. Далее, для пара- параметров \it, a}, Oij и pij, i, j = 1, 2, ..., р, получим соответственно следующие оценки: B.4.2) ra =
2.4. Анализ р > 2 непрерывных случайных величин 9? Дисперсии, ковариации и коэффициенты корреляции могут быть выведены на печать и в виде матриц: Ковариационная матрица «21 «22 = «2 " ' «2р Spi лр2 spp лр > Корреляционная матрица 1 Г12 ¦¦¦ Г1р г 1 21 /pl ГР2 ' •¦ i В разд. 5.6 и 5.7 рассмотрим вопрос о разложении ковариа- ковариационной и корреляционной матриц на компоненты, а в разд. 3.1— 0 проверке гипотез о корреляциях. Если Xt и Xj сравнимы при 1 Ф j, то можно проверять гипотезы о разности средних \it — \ij, используя парный ^-критерий из разд. 2.3. Пример 2.4.1. В процессе исследований проводились одновре- одновременные измерения р = 5 артериальных давлений (мм рт. ст.) у п = 141 пациента с использованием двух различных методик. В первой методике для измерения Хг — систолического, Х2 — диастолического и Ха — среднего артериального давлений ис- использовался внутриартерисыьный катетер. Хотя эта методика более точная, она и более сложная. Поэтому наряду с первой применялась и вторая — обычная методика для измерения Х4 — систолического и Хь — диастолического давлений с помощью ком- компрессионной манжеты1). Полученные данные обрабатывались дескриптивной программой из ПСП. Результаты приводятся в следующей таблице, а также в виде ковариационной и корреля- корреляционной матриц. Очевидно, что между пятью измерениями су- существует высокая корреляция. Метод Случайная величина- давление! Выборочное среднее Выборочное стандартное отклонение Внутриартериальный ! — систолическое i— диастолическое з — среднее xv = 112.2 х2. = 59.4 х3. = 76.8 Sj = 28.6 s2= 17.1 s3= 21.0 Компрессионная ман- Xt ¦—систолическое xt. = 107.0 s4= 28.9 жета. Xt — диастол ическое хъ. = 66.8 s5 = 19.3 x) Эта методика часто называется методикой Н. Н. Короткова. — Прим. перев. 4 А. Лфифи, С. Эйзен
98 Гл. 2. Элементарные статистические выводы хг X, Xt Хг Х} А А 817.9 410.3 556.8 719.9 415.6 292.4 347.2 384.5 273.3 441.0 512.8 345.3 835.2 466.9 372.5 Корреляциопнаи матрица Хг х, х* х, 1.000 0.839 1.000 0.927 0.967 1:000 0.871 0.778 0.845 1.000 0.753 0.828 0.852 0.837 1.000 Из сравнения выборочных средних следует, что метод компрес- компрессионной манжеты дает по сравнению с более точным внутриарте- риальным методом заниженную оценку систолического давления и завышенную оценку диастолического. Для проверки значи- значимости этого различия используем парный /-критерий из разд. 2.3.1. Проверим гипотезу Но: (х4 — Hi = 0 против Нг: fi4 — Hi < 0 с уровнем значимости а = 0.05. Статистикой критерия будет U =^A07.0—112.2)// "Ш/j/835.2 + 817.9 — 2G19.9) = —4.23, т.е. разница значима сР<0.001. Проверим теперь гипотезу Но'- Уь — Иг = 0 против альтернативы Нх: ц5 — ц2>0 с уровнем значимости а = 0.05. Статистика критерия равна t0 = F6.8 — — 59.4) }/ Ж/f/ 372.5 + 292.4 — 2 ( 273.3) = 8.08, т. е. раз- разница чрезвычайно значима. Следовательно, измерения по ме- методу компрессионной манжеты нельзя рассматривать как точные по сравнению с внутриартериальными. Этот пример далее будет разобран в разд. 3.2. 2.4.2. р популяций. Одна случайная величина i Будем рассматривать данные о случайной величине X, опреде- определенной на р популяциях Wx, Шг, ..., W,,. Как и раньше, эти по- популяции можно представлять как р подпопуляций или р слоев из более широкой популяции W. Введем величину Y, которая W W № W П \ р р у расслаивает популяцию W на W1} №2 p у ц среднее и дисперсия X в подпопуляций Wit i = 1, ..., р. Из под- у Wp. Пусть ц,- и И
2.4. Анализ р > 2 непрерывных случайных величин 99 популяции Wi производится случайная выборка объема п,-, затем у каждого индивидуума из выборки измеряется величина X, а результаты измерений обозначаются хп, хц, ..., Xin., i = 1, ..., p. Для получения по этим выборкам р гистограмм с помощью дес- дескриптивной программы с расслоением данных результаты измере- измерений должны быть упорядочены: сначала все измерения для первой выборки, затем — для второй и т. д. Объемы выборок указывают- указываются на управляющей карте. С другой стороны, для разделения на под- популяции можно определить групповую переменную Y, с помощью которой программа классифицирует наблюдения по выборкам. Для каждой выборки строится гистограмма и вычисляются следующие оценки параметров [it и а]: xt- = -г S xih s2 = —Ц ± (х(, - х,-.J, i = 1, ..., р. B.4.3) Щ ± Пример 2.4.2. В эксперименте *) с крысами изучалось сравни- сравнительное влияние 21 лекарства на количество X соляной кислоты (НС1), выделяемой в желудке крысы. Каждое лекарство давали определенной случайной выборке крыс, а двадцать вторая вы- выборка служила для контроля. Следовательно, здесь число попу- популяций р — 22, причем Wt — популяция всех крыс, получивших 1-е лекарство, i = I, 2, ..., 21, a W^ — контрольная выборка. Результаты наблюдений обозначим через Хц, / = 1, ..., щ, i — = 1, ..., 22. Полагая Y = i, если X;j принадлежит i-й выборке, можно с помощью дескриптивной программы построить гисто- гистограммы для каждой выборки и вычислить выборочные статистики. В следующей таблице приводятся значения выборочных средних xt. в порядке их возрастания и соответствующие значения объемов nt. Номер выборки 7 15 6 14 3 13 18 9 19 12 2 Объем выборки 22 25 13 18 8 17 17 14 14 15 6 Выоорочнос среднее 73.73 146.32 147.92 165.61 191.13 213.47 224.41 263.86 303.14 313.20 329.83 Номер выборки 8 11 5 4 1 (контр.) 21 10 22 17 20 16 Объем выборки 14 27 32 8 71 16 19 19 18 18 19 Выборочное среднее 333.29 341.30 374.06 412.13 417.32 459.81 460.37 477.53 484.61 507.56 566.37 1) Частное сообщение доктора Розенберга (Alberto Rosenberg, UCLA, Los Angeles, California).
100 Гл. 2. Элементарные статистические выводы В этом примере интересно проверить гипотезу о том, что сред- среднее выделение НС1 одинаково для всех 22 популяций. Полагая, что хп,..., Xint есть случайная выборка из N (щ, erf); x2U ..., x2lla — из N (fi2, crl); ...; xpl, ..., хрПр—из N(\ip, dp) и что а] = а\ = ... ... = ар = о2, проверим гипотезу Яо : щ = \ьг — • • ¦ = цр против альтернативы Нх : не все |i, равны. Для проверки исполь- используем F-отношение, статистика которого имеет вид Г р Li=i п{ (*,. - х.Щр - 1)]/[ Zl Д (хц - х,.)*/(п - p) B.4.4) где п = 2_,ni — общий объем выборки, Jc,-. = — V xu — вы- р борочное среднее для t-й подпопуляции и х., среднее. Если Яо верна, то Fo имеет F-распределение с vB = р — 1 и vw = п — р степенями свободы. Р-значение равно площади справа от Fo под функцией плотности распределения F (vB, vw) (табл. 6, приложение II). Гипотезу Яо следует отвергнуть, если Р меньше наперед заданного уровня значимости а. F-отношение применяется в однофакторном дисперсионном анализе (дисперсионный анализ будет подробно обсуждаться в гл. 4). Компоненты числителя и знаменателя F-отношения обычно пред- представляют в виде таблицы дисперсионного анализа типа табл. 2.4.1. Таблица 2.4.1 Таблица однофакторного дисперсионного анализа* Источник _ Степени Средний „ дисперсии Сумма квадратов свободы квадрат F-отношение Между подло- р сс мс пуляциями SSB = У. п, (Х1т - X, J vB = р - 1 MSB = ^- F = ^ (или груп- f=i Vb mw пами) „ i ВНУТРИ ПОДЛО- VI VI / - \2 АЛС SSW пуляций ssw = Jj 2j (хЧ -*i.Jvw = n-p MSW = —^ (или групп) /=l z'^1 Полная р ni ssT = s j (*</ - *-J vT = n -1 <-l 7=1 • В — Between (между), W — Within (внутри), Т — Total (полная). — Прим. перев.
2.4. Анализ р > 2 непрерывных случайных величин 101 В первом столбце таблицы перечисляются три источника дис- дисперсии —¦ между группами, внутри групп и полная, во втором — суммы квадратов для этих трех источников. Заметим, что как SSB и SSW, так и степени свободы vB (между) и vw (внутри) яв- являются компонентами B.4.4). Каждый средний квадрат вычис- вычисляется путем деления суммы квадратов на число степеней сво- свободы, причем средний квадрат для полной дисперсии в таблице обычно не приводится. Наконец, F-отношение совпадает с B.4.4) Кроме F-отношения, двумя другими важными характеристиками являются MSW — оценка общей дисперсии о2, а также vw, исполь- используемое при вычислении доверительного интервала. Так, 100A—-а) %-ным доверительным интервалом для \it будет С7 a 100 A — а) %-ным доверительным интервалом для (xi. - xj.) ± h-W2) р р Ы у MSW (тгг + ~) . B.4.5) — \ij — B.4.6) где t (vw) есть 100 [1 — (a/2) 1-я процентиль ^-распределения Стьюдента с vw степенями свободы. Пример 2.4.2 (продолжение). В этом эксперименте проверим гипотезу о том, что среднее выделение НС1 одинаково во всех 22 популяциях. Производя вычисления, указанные в табл. 2.4.1, получим Источник дисперсии Между группами Внутри групп Полная Сумма квадратов 7 536 412 22 561 794 30 098 206 Степени свободы 21 408 429 Средний квадрат 358 877 55 299 F-от- F-отношение 6.49 Чтобы проверить Но: цг = щ = • • • = ц,22, нужно сравнить Fo = 6.49 с процентилями распределения F B1, 408). Так как Р < 0.001, то #о отвергается. Следовательно, проверяемые лекар- лекарства значимо различаются по своему влиянию на секрецию НС1 в желудке крысы. Оценкой дисперсии а2 служит MSW = 55 299, а 95 %-ным доверительным интервалом для среднего \х^ контрольной группы —
102 Гл. 2. Элементарные статистические выводы интервал 417.32 ± to,m D08) ]/^р = 417.32 ± 1,96 B7.9) = = C62.6, 472.0). 95 % -ным доверительным интервалом для разности между средним щ контрольной группы и средним ц7 седьмой популяции является D17.32 - 73.73) ± *„.975 D08) ]/б5299 (Jp + JL) = 343.59 ± ± 1.96 E7.38) = B31.13, 456.05). Заметим, что рассматриваемый F-критерий предполагает, что дисперсии всех р популяций равны. Гипотезу Яо: а? = • • • = о2р можно проверить с помощью критерия Бартлетта равенства р дисперсий, но так как этот критерий очень чувствителен к пред- предположению о нормальности, мы не будем его здесь рассматривать, отсылая читателя к книге Brownlee A965). Заметим также, что MSW можно представить в виде К-')^ + (-')^+--+("Р-'L. BА7) «1 +  Л Ь Пр — Р V ' Следовательно, B.4.7) —объединенная оценка дисперсии, а фор- формула B.3.6) является ее частным случаем при р = 2. Если гипотеза Яо не отвергается, то все р средних имеют общее значение \i, т. е. ^х = |х3 = • • • = цр = \i. Наилучшей оценкой генерального среднего ц. будет (х = х... С другой стороны, если #„ отвергается, то мы делаем вывод, что некоторые [г,- не совпадают. Так как F-критерий не дает информации о том, какие именно из средних не равны, исследователь должен провести дополни- дополнительные исследования. Например, нужно проверить гипотезу Но: \it — \ij = 0 или гипотезу относительно линейной комбинации средних типа Яо: 2^ + Зц2 — 4(г5 = 0. Для одного критерия Яо: Цг — \ij = 0 следует- вычислить 100 A — а) %-ный довери- доверительный интервал как в B.4.6) и отвергнуть Яо с уровнем значи- значимости а, если интервал не содержит 0. Рассмотрим теперь вопрос о критерии для линейной комбина- комбинации средних. Обозначим линейную комбинацию через с^ + + с2щ + • • • + cp\ip, где d — постоянные. Тогда для проверки р р гипотезы Яо: 2 сгМ-г = 0 против альтернативы Нг: У) CjU; Ф 0 с уровнем значимости а образуем следующий 100 A — щ %-ный р доверительный интервал для 2 (=1 ' (=1 I l/
2.4. Анализ р >> 1 непрерывных случайных величин 103 Когда этот интервал содержит 0, мы принимаем гипотезу #„, в противном случае отвергаем Но с уровнем значимости а. Если исследователь хочет проверить несколько таких гипотез, то общий уровень значимости (т. е. уровень значимости совокуп- совокупности всех критериев) обычно будет сильно отличаться от а. Поэтому нельзя утверждать, что все критерии совместно дают уровень значимости а. Чтобы обойти эту трудность, можно ис- использовать процедуру множественного сравнения для всех кри- критериев, которая позволяет сохранить а в качестве общего уровня значимости. Рассмотрим теперь три процедуры множественного сравнения. В первой из них — метод Шеффё (Scheffe A953)) — для про- р р верки гипотезы Но; J] сгиг = 0 против альтернативы Нх: J] с(\х( Ф 1 = 1 ' 1 = 1 ф 0 образуем доверительный интервал 2c/*,.±S, B.4.9) 1=1 где ^a (p, п-р)^^, B.4.10) i=i a Fx_a (р, п — р) есть 100 A — а)-я процентиль распределения F (р, п — р). Если этот интервал не содержит 0, то Яо отвергается с уровнем а. Этот процесс повторяется для каждой интересующей нас линейной комбинации, причем общим для всех критериев уровнем значимости остается а. На практике обычно проводятся сравнения контрастов в сред- р них. Контрастом называется линейная комбинация средних 5jA,,-fxb i=i р коэффициенты которой удовлетворяют условию Jj К ~ 0- Каж- i=i дый контраст пропорционален разности между взвешенными средними от средних. Например, \iL — fx2, ri gr ¦ — rs ^ r5 и т. д. Метод Шеффё для контрастов имеет следующий вид. Для р проверки гипотезы Но: 2j ^гН-г = 0 против альтернативы Нг: i=i р 2 h- ?= 0 нужно образовать доверительный интервал hxt.±S, B.4.11) i
104 Гл. 2. Элементарные статистические выводы где р ^ Г", B.4.12) а ^i-a (р — 1» п — р) есть 100 A — а)-я процентиль распреде- распределения F (р — 1, п — р). Если этот интервал не содержит 0, то Но отвергается с уровнем значимости а. Этот процесс повторяется для каждого представляющего интерес контраста, причем общий для всех критериев уровень значимости остается равным а. Вторая процедура множественного сравнения — метод Тьюки (Scheffe A959), Tukey A949b)), который применим только для контрастов и только в случае равных объемов выборок, т. е. при р ni — п2 — • • • = пр — т. Для проверки гипотезы Яо: Д] р = 0 против альтернативы Ях: Jj Kp-t Ф 0 нужно образовать (=1 доверительный интервал & М*. ±Т, B.4.13) i=i где а <7i^a есть A00 A — а)-я процентиль распределения стьюденти- зованного размаха с р и v = п — р степенями свободы (приложе- (приложение II, табл. 7I). Если этот интервал не содержит 0, то Яо от- отвергается с уровнем значимости а. Этот процесс повторяется для каждого представляющего интерес контраста, причем общим для все с критериев уровнем значимости остается а. Третьей процедурой является множественный t-метод. Пусть k — число заранее выбранных контрастов. Тогда для проверки р р гипотезы Но: 2 ^гИч = 0 против альтернативы Нх: 2j ^Цг ?= 0 1 1 A 1=1 следует построить приближенный доверительный интервал ± ti-W2k) (vw) 1/ MSW > -I-, B.4.15) =7 J) Стьюдентизованный размах с р и v степенями свободы определяется сле- следующим образом. Пусть Ylr Y2 Yp — независимые случайные величины с распределением JV (\xy, a|), a W — их размах, т. е. W = max У'{ — min Y{, Еслив^ cv степенями свободы есть независимая несмещенная оценка Фу, то рас- распределение Wlsy и будет распределением стьюдентизованного размаха с р и v степенями свободы.
2.4. Анализ р >. 2 непрерывных случайных величин 105 где / а есть 100 [1 — (а/2?)]-я процентиль /-распределения 1 W Стьюдента с vw степенями свободы. Если этот интервал не со- содержит 0, мы должны отвергнуть Яо. Замечания 2.4.1. 1. Так как в методах Шеффё, Тьюки и мно- множественном /-методе за основу взяты различные распределения (соответственно F, q и /), то в них, вообще говоря, рассматриваются разные доверительные интервалы. Метод Шеффё допускает раз- различные объемы выборок и любые линейные комбинации средних, в то время как метод Тьюки применяется лишь при равных объе- объемах выборок и лишь для контрастов. Множественный /-метод применяется только к множеству контрастов, выбранных до начала исследования данных, в то время как в двух других мето- методах множество контрастов может быть любым. 2. При получении доверительного интервала для контраста пользователь должен выбрать метод, который дает самый корот- короткий доверительный интервал. В среднем для простых контрастов, содержащих не более трех средних, метод Тьюки дает более корот- короткие доверительные интервалы, чем метод Шеффё. С другой сто- стороны, для контрастов из четырех или более средних метод Шеффё дает в среднем более короткие доверительные интервалы (O'Neill, Wetherill A971)). 3. Если число заранее выбранных контрастов «мало», то множественный /-метод может дать наиболее короткий доверитель- доверительный интервал, но контрасты обычно выбираются не до, а после анализа данных. 4. Заметим, что если р = 2, то /""-отношение в таблице диспер- дисперсионного анализа равно квадрату /-статистики для двух выборок, т.е. F(\, vw) = /2(vw). 5. F-критерий дисперсионного анализа значим с уровнем а р тогда и только тогда, когда гипотеза Но: JJ ^f** ~ 0 отвергается i для некоторого контраста в соответствии с процедурой Шеффё. При этом задача отыскания и интерпретации значимого кон- контраста может оказаться нелегкой. Следовательно, возможна ситуация, когда ^-критерий окажется значимым с уровнем а, а значимые при этом уровне контрасты найти не удается. Чтобы опознать эти контрасты, нужно использовать множественные кри- критерии сравнения при большем а, чем для F-критерия. Так, если для /^-критерия было использовано а = 0.05, то при множествен- множественном сравнении для контраста целесообразно взять 90 %-ный доверительный интервал. 6. Некоторые результаты множественного анализа могут вы- выглядеть противоречивыми. Например, при р = 3 можно прийти к заключению, что jij незначимо отличается от fi2, ц2 незначимо отличается от (х?, а ^ значимо отличается от jj^. Если «незначимо
106 Гл. 2. Элементарные статистические выводы отличается» интерпретировать как «равно», а «значимо отли- отличается» интерпретировать как «не равно», то эти заключения дей- действительно противоречат друг другу. Но такая интерпретация некорректна, так как наши заключения могут с ненулевой ве- вероятностью быть ложными. Корректной интерпретацией этого примера будет такая: на основе имеющихся данных можно с до- достаточной уверенностью утверждать, что как fxx и (л2, так и \i2 и ц,3 различаются незначимо, a Hi и Цз — значимо. Пример 2.4.2 (продолжение). Чтобы определить значимые раз- различия между средними, был использован метод множественного сравнения Шеффе для сравнения всех ( 2 ) = 231 пар средних с уровнем значимости а = 0.05. Так, для i ф j гипотеза Яо: щ — ju^- = 0 проверялась против альтернативы Нх: \it —- jx7- =^= 0 с помощью B.4.11) — B.4.12), поскольку это гипотезы о контра- контрастах. Например, для проверки Яо: \i7 — ja5 = 0 вычисление 95 %-ного доверительного интервала дает: G3.73 — 374.06) ± ± [21 E5 299) F0.MB1,408)(-^- + -^-)]'/2 = -300.33 + 377.52 = = (—677.8, 77.2). Так как этот интервал включает 0, мы при- принимаем Яо. Здесь F0.B5 B1,408) «* 1.6. В, качестве другого примера рассмотрим проверку гипоте- гипотезы Но: f-ц — fXj = 0. Здесь 95 %-ным доверительным^интерва- доверительным^интервалом будет G3.73 - 417.32) ± [21 E5 299) A.6) (JL + - = (—676.2, —11.0). Так как последний не содержит 0, мы отвергаем Но. Чтобы подвести итог по всем результатам, воспользуемся сле- следующей методикой. Перечислим все опыты в порядке возрастания их выборочных средних. Затем сравним наименьшее выборочное среднее с каждым последующим с помощью процедуры Шеффё. Подчеркнем все опыты, средние которых незначимо отличаются от опыта с наименьшим средним. Теперь повторим эту процедуру для опыта со вторым по ве- величине выборочным средним, т. е. сравним это выборочное сред- среднее со всеми последующими выборочными средними и подчеркнем все опыты со средними, незначимо отличающимися от рассматри- рассматриваемого. Затем повторим это для третьего выборочного среднего и т. д. Результаты такой процедуры для нашего примера при- приводятся в табл. 2.4.2.
2.4. Анализ р :> 2 непрерывных случайных величии 107 Таблица 2.4.2 Множественное сравнение 22 выборочных средних секреции НС1 .Номер 7 15 6 14 3 13 18 9 19 12 2 3 11 5 4 1 21 10 22 17 20 16 опыта — ¦ Пример 2.4.3. Для семи групп беременных женщин сравни- сравнивались средние уровни осмотического давления (концентрации) (моль/дл). Каждая группа женщин отличалась состоянием здоровья (нормальное, диабет, гипертония и т. д.) Так как при однофактор- ном дисперсионном анализе F-критерий оказался высоко значи- значимым (Р < 0.001), то среди групп было проведено множественное сравнение с помощью процедуры Шеффё при общем уровне до- доверия 95 %. На табл. 2.4.3 воспроизводится вывод процедуры ONE-WAY (пакет SPSS), производящей множественные сравнения по методу Шеффё. Таблица 2.4.3 Вывод процедуры ONE-WAY из пакета SPSS — множественное сравнение по методу Шеффе * Подмножество 1 Группа: GRPOI GRP02 GRP06 GRP04 GRP05 GRP07 Среднее: 242.2797 251.6667 260.0000 262.1025 267.5999 273.5000 Подмножества 2 Группа: GRP06 GRP04 GRP05 GRP07 GRP03 Среднее- 260.0000 262.1025 267.5999 273.5000 274.6294 *) Однородное подмножество — подмножество групп, разность средних для лю- любой пары которых не превосходит в?личины наименьшего значимого размаха для под- подмножества данного объема. Выборочные средние упорядочены в порядке возрастания, а однородные группы объединены в подмножества. Анализ двух подмножеств рассматриваемых данных показывает, что гипотезы Pi = F4 = N = М-4 = Н = Нч и щ = ц-4 = h> — Нч = Fs приемлемы при 95 %-ном доверительном уровне. Внутри каждого подмно- подмножества ни одна из пар средних не различается значимо, но средние из разных подмножеств могут различаться значимо. Из таблицы вытекает, что при общем доверительном уровне, равном 95 %, значимыми являются разности средних \it — |ti3 и jj,2 — ц3.
108 Гл. 2. Элементарные статистические выводы 2.5. Программы перекрестного табулирования. Анализ таблиц сопряженности признаков В разд. 1.7.4 программы перекрестного табулирования рассма- рассматривались как средство одновременной проверки двух перемен- переменных. Обсуждение статистической проверки гипотез было отложено до этого раздела. Напомним, что каждый элемент выборки одно- одновременно классифицировался с помощью двух факторов (или признаков): А (г классов или уровней) и В ( с классов). Это позво- позволило получить rXc-таблицу сопряженности признаков для вы- выборки объема п из популяции W, где ftl обозначает число индиви- индивидуумов с t-м уровнем признака А и /-м уровнем признака В, f{.— общее число индивидуумов в строке i, a f.j — в столбце /, i = = 1, ..., г; / = 1, ..., с. После построения этой таблицы можно проверить гипотезы о факторах А и В. Все эти гипотезы можно сформулировать в терминах независимости факторов А и В. В этом контексте независимость означает, что доля общего числа индивидуумов в строке, принадлежащая произвольному, но фиксированному столбцу, одна и та же для всех строк, и что доля общего числа индивидуумов в столбце, принадлежащая произвольной, но фик- фиксированной строке, одна и та же для всех столбцов. В некоторых ситуациях уровни одного фактора (например, А) являются непересекающимися подпопуляциями Wlt W2, ¦¦¦, Wr популяции W. В этом случае гипотезу независимости можно формулировать и-как гипотезу об однородности фактора В по отношению к уровням фактора А. Рассмотрим теперь несколько примеров, иллюстрирующих указанные различия. 2.5.1. Гипотезы об однородности Как уже указывалось, в этом случае уровни А расслаивают по- популяцию W «а г непересекающихся подпопуляций Wu №2, ..., Wr Любой индивидуум из Wt попадает в один и только один из клас- классов фактора В. Пусть pi}—доля индивидуумов из подпопуляций Wt, попавших в /-й класс фактора В. Тогда гипотезу Яо об однород- однородности можно записать в виде Но: ру = Рц — • ¦ ¦ = prj для всех / = 1, ..., с. Это означает, что доля индивидуумов в любом классе / одна и та же для всех подпопуляций. Альтернативная гипотеза Нг состоит в том, что некоторые из этих долей не равны. Заметим, что уровни А, расслаивающие W на подпопуляции, измеряются в шкале наименований, а уровни В могут измеряться как в шкале наименований, так и в порядковой шкале. Кроме того, непрерывные случайные величины, измеряемые в интер- интервальной или относительной шкалах, могут быть преобразованы в порядковую шкалу. Приведем теперь соответствующие примеры.
2.5. Анализ таблиц сопряженности признаков 109 Пример 2.5.1 (г = с = 2). Пусть W — популяция взрослых, разделенная по признаку пола А, а признак В — наличие или отсутствие рака. В этом случае В измеряется по шкале наименова- наименований, а 2х2-таблица сопряженности признаков имеет вид В = Рак 1 = Есть 2 = Нет А — Пол 1 = Муж. 2 = Жен. Здесь ри — доля мужчин, a p2i — доля женщин, больных раком, т. е. #„: рг1 — рп. Заметим, что последнее влечет за собой равенство р12 = /722. Эту гипотезу об однородности можно пере- переформулировать в терминах независимости как #0: наличие рака не зависит от пола. Пример 2.5.2 (г = 2, с = 3). Пусть популяция W критически больных пациентов разделена по полу, а признак В разделяет больных на 3 класса в соответствии с их клиническим состоя- состоянием после определенного лечения. Тогда 2ХЗ-таблица сопря- сопряженности признаков имеет следующий вид: В = Клиническое состояние после лечения I = У худ- 2 = Без 3 = Улуч- Улучшение измене- шение НИИ А = Пол 1 = Муж. 2 = Жен. Гипотеза об однородности формулируется как Яо: ри = р21, Ри — Pi%i Pn — Рж> а гипотеза о независимости как Но: клини- клиническое состояние после лечения не зависит от пола. Пример 2,5.3 (г = 5, с = 3). Пусть популяция W критически больных пациентов с циркуляторным шоком расслоена на 5 под- популяций в соответствии с типом шока, а признак В разделяет больных на 3 класса в соответствии с их клиническим состоянием
по Гл. 2. Элементарные статистические выводы после определенного лечения. Тогда 5хЗ-таблица сопряженности признаков имеет вид В = Клиническое состояние после лечения Л = Тип шока 3 = Ухудшение 2 = Без изме- изменений 3 = -Улучшение Здесь гипотезой об однородности будет Яо: рп = • • • = рЬ1, р12 = ¦ ¦ ¦ = рь%, Pi3 — • • • = Рьз> а гипотезой о независимости — Яо: клиническое состояние после лечения не зависит от типа шока. Замет«м, что в этом примере популяция расслоена более, чем на две подпопуляции. Пример 2.5.4 (г = 2, с = 3). Пусть популяция W критически больных пациентов расслоена по признаку пола, а случайная величина X — возраст индивидуума в этой популяции. Пусть признак В, соответствующий возрастной группе, равен 1 для X < 30, 2 — для 30 < X < 45 и 3 — для X > 45. Таким обра- образом, величина X переводится в порядковую шкалу, так что 2x3- таблица сопряженности признаков принимает вид В = Возрастная группа Л = Пол 1 = Муж. 2= Жен. 1 2 3 Здесь гипотезой об однородности будет Яо: рп = р21, рх% — — Р-221 Pis = Раз. а гипотезой о независимости — Яо: возрастная группа и пол для данной популяции независимы.
2.5. Анализ таблиц сопряженности признаков 111 2.5.2. Гипотезы о независимости В этом случае исследуется одна популяция W, причем каждый ее индивидуум классифицируется в соответствии с двумя факто- факторами: А я В. Здесь нулевая гипотеза формулируется только в терминах независимости А и В, а альтернативная гипотеза состоит в том, что А и В зависимы. В рассматриваемом случае как А, так и В могут измеряться в шкале наименований или порядковой шкале. В самом общем случае имеются 2 непрерывные случайные величины X и У, причем каждая из них преобразуется в порядковую шкалу. При- Приведем теперь соответствующие примеры. Пример 2.5.5 (г = 2, с = 3). Пусть индивидуумы из некото- некоторой популяции W классифицируются по наличию или отсутствию цианоза (фактор А) и по их реакции на конкретное лечение (фак- (фактор В). 2хЗ-таблица сопряженности признаков имеет вид В = Реакция 1 ¦¦= Улуч- Улучшение 2 = Без изме- изменений 3 = Ухуд- Ухудшение А = Цианоз 1 = Есть 2 = Нет Проверяется гипотеза #„: реакция не зависит от цианоза. Пример 2.5.6 (г = 3, с = 4). В этом примере популяцию W составляют пациенты с некоторым заболеванием, прошедшие новое лечение. Для каждого пациента случайная величина означает его возраст в годах (фактор Л), а случайная величина Y — число дней с температурой (фактор В). Диапазоны изме- изменения этих величин делятся соответственно на 3 и 4 класса, так что ЗХ4-таблица сопряженности признаков принимает вид В = Число дней с температурой 1—4 5—6 7—8 9—12 до 30 А = Возраст в годах 30—45 более 45
112 Гл. 2. Элементарные статистические выводы Проверяется гипотеза Яо: число дней с температурой не зависит от возраста пациента. В примере 2.5.6 каждая из двух непрерывных случайных величин X и Y разбивается на классы, причем программа пере- перекрестного табулирования автоматически определяет классы для каждой из этих величин. Это делается аналогично тому, как с помощью гистограммнои программы определяются классы в одно- одномерном случае. Таблицу сопряженности признаков для двух случайных ве- величин X и Y можно использовать для оценки совместного рас- распределения этих двух величин. Поэтому частотная таблица клас- классификации по двум признакам обобщает понятие гистограммы. Далее, критерий независимости признаков А и В является и критерием независимости случайных величин X и У. Если они обладают двумерным нормальным распределением, то более же- желательно вычислить выборочный коэффициент корреляции между X и Y и уже с его помощью проверить независимость (см. разд. 3.1). 2.5.3. Критерий %2 для таблицы сопряженности признаков Для проверки как гипотезы об однородности, так и гипотезы о не- независимости мы используем одну и ту же процедуру, состоящую в вычислении ожидаемой частоты Ftj в ячейке ij по формуле ^»=- 1 г, / = 1, ...,с. B.5.1) Затем вычисляется значение Хо статистики %2: Если верна гипотеза Яо, то значение %о имеет приблизительно Xs-распределение с v = (г— 1) (с — 1) степенями свободы, а Р- значение равно площади под кривой плотности %2 (v) справа от точки Хо (табл. 3, приложение II). Мы отвергаем гипотезу Яо, если Р меньше заранее выбранного уровня значимости а. Пример 2.5.7. Пусть популяция W критически больных па- пациентов разделяется на две подпопуляции в соответствии с тем, находятся ли они в состоянии шока. Выборка из 112 критически больных пациентов классифицировалась в соответствии с исходом и наличием или отсутствием шока. Данные приводятся в следу- следующей таблице, где величины вне скобок—наблюдаемые частоты ftj, а в скобках — ожидаемые частоты Ftj.
2.5. Анализ таблиц сопряженности признаков 113 Шок Есть Нет Суммы по столбцам Исход Выжили 40 D9.5) 32 B2.5) 72 л/2 — 1ft Умерли 37 B7.5) 3A2.5) 40 34, v = 1 Суммы по строкам 77 35 112 Например, 40 пациентов были в шоке и выжили, а 37 пациен- пациентов были в шоке и не выжили. Гипотезы можно сформулировать как #„: исход не зависит от наличия шока, или как Яо: доля выживших пациентов с шоком равна доле выживших без шока. Значение статистики %2 равно Хо = 16.34 с v = B — 1) B — 1) = = 1 степенями свободы. Поскольку Р-значение меньше 0.001, мы отвергаем гипотезу Яо, заключая, что вероятность смерти пациен- пациентов с шоком значимо превосходит вероятность смерти при его отсутствии. Если исследователь хочет сравнить выживаемость при различ- различных типах шока, он должен разделить выборку из пациентов в шоке по пяти типам шока, что дает следующую 5х2-таблицу: Исход Суммы Тип шока Выжили Умерли по строкам Гиповолемический Кардиогенный 11 7.79) 8 G.21) 15 11.43) 11A0.57) 22 8.31) 6 G.69) 16 8.31) 7 G.69) 16 Неврогенный 10 Септический Эндокринный 3D.16) 5C.84) 8 Суммы по столбцам 40 37 77 Х§ = 1.71, v= 4 Здесь проверяется гипотеза Но: доля выживших для всех типов шока одинакова. Значение статистики %2 равно хо = 1.71 с v = = E — 1) B — 1) = 4 степенями свободы. Оно незначимо и не дает доказательств зависимости выживаемости от типа шока. Замечания 2.5.1. 1. Как и в дисперсионном анализе, в случае, когда в соответствии с критерием %2 отвергается нулевая гипо- гипотеза о независимости, нет никаких указаний на то, какая из альтернатив верна. Однако дальнейший анализ наблюдаемых и
114 Гл. 2. Элементарные статистические выводы теоретических частот может помочь обнаружить некоторые из этих альтернатив. Cochran A954) и Maxwell A961) обсуждают некоторые под- подходящие для этой цели методы. 2. Если исследователь применит несколько критериев х2 к одному и тому же множеству данных, то их совместный уровень значимости, как правило, не будет совпадать с номинальным значением а. Поэтому можно применить более сложную методику разбиения общего %* на компоненты (Maxwell A961, гл. 3)). 3. Как уже обсуждалось в разд. 2.1, критерий %2 является приближенным и дает хорошие результаты, если ожидаемые частоты Ftj достаточно велики. Для 2х2-таблицы с малыми Ftj положение улучшается, если применить поправку Йетса на не- непрерывность, т. е. добавить 1/2 к отрицательным разностям Zfu — Fij и вычесть 1/2 из положительных разностей. 2.6. Другие критерии независимости для таблиц сопряженности признаков В программе BMDP1F пакета BMDP и процедуре CROSS-TABS пакета SPSS на печать выводятся не только обычная статистика критерия х2 Для таблиц сопряженности признаков, но и другие статистики. Глубокий статистический анализ включает не только проверку гипотезы о независимости, но и сравнение самих кри- критериев для более полного понимания результатов. Более того, из дальнейшего будет ясно, что интерпретация критериев зависит от типа обрабатываемых данных. Например, критерий ранговой корреляции Кендалла применяется для данных в порядковой, интервальной и относительной шкалах, но не в номинальной, а критерии Гудмена и Крускала применяются для номинальных или порядковых категорий, если они не являются результатом измерений непрерывных случайных величин. В настоящем разделе описываются многие из этих критериев— сначала для 2х2-таблиц, а затем для rxc-таблиц. Для рассма- рассматриваемого критерия независимости будем приводить или его выборочное распределение, или его асимптотическую стандарт- стандартную ошибку (ASE). Во втором случае проверка гипотезы о ра- равенстве нулю среднего некоторого критерия завершается исполь- использованием статистики Статистика критерия /о « i \ 2 ASl ' l^.D.l) Так как г имеет асимптотически нормальное распределение N @, 1), то для получения приближенных Р-значений можно использовать таблицу 2 из приложения II,
2.6. Другие критерии независимости 115 2.6.1. 2 х2-таблица сопряженности признаков Как и в разд. 2.5, будем проводить классификацию по двум при- признакам (или факторам) А и В, каждый с двумя уровнями (клас- (классами) (аъ а2) и (Ь1г Ь2). Пусть fi} — наблюдаемая частота в ячейке ij, fi. — сумма частот в строке i, f.,- — в столбце / , а п — общий объем выборки (i, / = 1, 2). Проверяется гипотеза Но об отсутствии зависимости между А я В. Обсудим сначала процедуру получе- получения точных Р-значений, а затем — альтернативы к обычному критерию х2. I. Точный критерий Фишера. Этот критерий дает точные Р-значения, в то время как критерий %2 дает приближенные Р- значения. Предположим, что суммы по строкам Д.,/г., а также по столбцам /.1, /.2 фиксированы, так что знание только одного элемента таблицы, например /и, влечет за собой знание и всех остальных. Для вычисления вероятности получения /ц наблю- наблюдений в первой ячейке (или всей таблицы при фиксированных суммах по строкам и столбцам) используем гипергеометрическое распределение. Тогда Для проверки гипотезы Яо нужно вычислить вероятность Pr (/iii /12, /21. /22) для таблицы наблюдений и всех возможных таблиц, либо только с большими, либо только с меньшими значе- значениями /и. Тогда Р-значение является суммой соответствующих вероятностей Рг (/ц, /12, /21, /22), что иллюстрируется следующим примером. Пример 2.6.1. Для исследования связи дыхательной функции и привычки к курению в популяции сотрудников учреждения аномальные результаты легочных проб были сопоставлены с ре- режимом курения (Azen et al. A977a)). В одной из таких легочных проб FEVj измеряется объем в литрах выдохнутого воздуха через 1 с после начала форсированного выдоха. Результаты для слу- случайной выборки из 42 служащих приводятся в следующей таблице. В = FEVj Ненор- Нормально Всего мально А = Привычка к курению Курящие Некурящие Всего 4 I 16 21 37 20 22 42
lie Гл. 2. Элементарные статистические выводы Для проверки гипотезы о независимости между величиной и привычкой к курению был использован точный критерий Фишера. Вероятность получить таблицу наблюдений состав- составляет Рг D, 16, 1, 21) = 0.1253. Ниже приводится единственная возможная таблица с большим значением /1Ь чем предыдущая. Для нее Рг E, 15, 0, 22) = 0.0182, так что Р = 0.1253 + 0.0182 = = 0.1435 и Яо не отвергается. — ГС Vi Всего Ненор- Нор- Нормально мально А = Привычка к курению Курящие Некурящие Всего 5 0 15 22 37 20 22 42 Замечания 2.6.1. 1. В большинстве программ из ПСП точный критерий Фишера приводится лишь для выборок малого объема. Например, в программе BMDP1F критерий вычисляется, лишь если максимальная ожидаемая частота не превосходит 20. Для программы CROSS-TABS из SPSS критерий вычисляется, если объем выборки не превосходит 21. 2. Выше было определено Р-значение для одностороннего кри- критерия. Некоторые программы (например, BMDP1F) вычисляют и печатают Р-значение и для двусторонних критериев. II. х2 и поправка на непрерывность. Для 2х2-таблицы обыч- обычная статистика %2 может быть записана в виде, эквивалентном B.5.2): %1 = (/ц/22 — /al/la)* Я B.6.3) Это значение можно улучшить, внося поправку в числитель на аппроксимацию дискретного полиномиального распределения непрерывным распределением %г. Вводя поправку Йетса на не- непрерывность, получим статистику I /п/22 — /21/121 —о" п п Хо = — f f f f J , B.6.4) которая при больших п распределена приблизительно как %2 с 1 степенью свободы. Cochran A954) рекомендует вносить поправку на непрерывность при п <: 40, а если все ожидаемые частоты более 5, то при я <: 20.
2.в. Другие критерии независимой И 11? Использование B.6.4) критиковали Crizzle A967) и др. за то, что оно приводит к худшему, чем при использовании B.6.3), Р-значению. В серии статей в Journal of American Statistical Association в 1974 г. эта критика была переосмыслена. Наиболее важное предложение при этом сделал Mantel A974). Он напомнил исследователям, что статистика критерия %2 является двусторон- двусторонней, и внес следующее предложение. Для одностороннего критерия пользователь должен брать половину Р-значения, полученного с помощью B.6.4).. Для двустороннего критерия х2 пользователь должен: а) вычислить Р-значение обычного двустороннего скор- скорректированного критерия х2 Для заданной таблицы; Ь) вычислить Р-значение для двустороннего скорректированного х2 по таблице с максимально измененным значением /ш дающим большее зна- значение х2; с) взять среднее из двух полученных Р-значений. Как показал Мантель, использование этих правил дает превосходное совпадение Р-значения, полученного с помощью B.6.4), и точного критерия Фишера. Пример 2.6.1 (продолжение). Для данных этого примера обыч- обычный критерий х2 дает Хо = 42 [4 B1) — 16 A) ]7 [5 C7) B0) B2) ] = = 2.39, Р = 0.12; а скорректированный — соответственно Хо = = 42 [|4 B1) — 16 B) | — 21 Р/[5 C7) B0) B2)] = 1.13, Р = 0.28. Использование правила Мантеля дает Р = 0.28/2 = 0.14, что с точностью до двух десятичных знаков совпадает с точным Р-зна- чением по Фишеру, полученным выше (Р = 0.1435). Для двустороннего критерия изменим в таблице значение /ц с 4 на 0. Так как для измененной таблицы Хо = 3.22, Р = 0.06, то, осредняя Р для двух таблиц, получим @.28 + 0.06)/2 = 0.17, что совпадает с точным двусторонним Р-значением, вычисленным с помощью критерия Фишера (BMDP1F дает Р = 0.1745). III. Меры связанности, основанные на статистике %2. Хотя критерий х2 и обнаруживает значимость связанности между при- признаками А и В, но он не дает информации о степени этой свя- связанности. Мерой связанности, позволяющей сравнивать таблицы для различных значений п, служит коэффициент Ф, представляющий собой статистику ф = 1/7^7Я), B.6.5) где значение х2 не скорректировано, т. е. вычисляется по фор- формуле B.6.3). Коэффициент Ф учитывает тот факт, что значения v2 прямо пропорциональны п. Его можно рассматривать как меру корреляции между А я В, близкую к 0 при слабой связанности
116 Гл. 2. Элементарные статистические выводы и близкую к 1 при сильной. Ф используется в анализе табличных элементов *) (Novick, Jackson A974)) и в дихотомическом фактор- факторном анализе (Harman A967)). Уровень значимости критерия Е (Ф) = 0 тот же, что и для критерия независимости х2- Две другие меры связанности являются функциями разности D между наблюдаемой и ожидаемой частотами, где D = /u — fi.fJn- Их статистиками являются коэффициенты связанности Юла Q и Y, равные соответственно2) г) (/11/22 — /12/21) пР /о с ся\ 4 ~~ (/11/22 + /12/21) "" (/и/22 + Л2/21)' V-™*) у __ (V /11/22 — У /12/21/ /о fi 6В^ Заметим, что Q — 2У7A + Yf. Эти статистики равны 1) 0, если А и В независимы; 2) 1, если А я В полностью связаны 8); 3) —1, если А и В полностью отрицательно связаны *). Соответствующие асимптотические стандартные ошибки (ASE — Asymptotic Stan- Standard Errors) имеют вид Как указывалось во введении к этому разделу, критерии зна- значимости даются формулой B.6.1), а Р-значение вычисляется по табл. 2, приложение II. Очень полезную меру связанности дает отношение перекрест- перекрестных произведений (называемое еще отношением шансов) о = fnkilfnki, B.6 .8) для которого Важность этого критерия состоит в том, что он служит мерой относительного риска входного признака А и выходного при- признака В. Отношение шансов происходит из логистической модели, *) В оригинале «item analysis». — Прим. перев. 2) Коэффициент У называют также коэффициентом коллигации. •— Прим. перев. 8) То есть fn f21 = 0. — Прим. перев. 4) То есть /1Х /а2 = 0 (полная отрицательная связанность). — Прим. перев.
2.6. Другие критерии независимости 119 широко применяемой в эпидемиологических исследованиях (под- (подробное обсуждение см. Fleiss A973)). Интерпретацию отношения шансов дает Пример 2.6.1 (продолжение). В следующей таблице приводятся значения описанных выше статистик для 2х2-таблицы частот этого примера. Значение Р-значение Статистика ±ASE г (двусто- Статистика ±ASE г (двустороннее) Точная Фишера (односторон- — —¦ 0.14 няя) Точная Фишера (двусторон- — — 0.17 няя) X2 (двусторонняя) 2.39 — 0.12 Скорректированная х2 (двусто- 1.13 — 0.28 ронняя) Ф 0.238 — — Коэффициент Юла Q (двусто- 0.680±0.313 2.17 0.03 ронний) Коэффициент Юла Y (двусто- 0.392±0.247 1.59 0.11 ронний) Отношение шансов о (односто- 5.250±6.123 0.86 0.39 роннее) Заметим, что все двусторонние критерии, за исключением крите- критерия Юла Q, незначимы. Значение г получено из B.6.1). Отношению шансов можно приписать следующий смысл. Если исходный фактор А имеет уровни (аъ а2). а результирующий фактор В — уровни (Ьъ Ь2), то отношение шансов о можно интер- интерпретировать следующим образом: «Шансы на то, что индивидуум выйдет на уровень Ьи если известно, что он начинал с уровня аъ в о раз больше, чем если бы он начинал с а2.» Например, из таб- таблицы следует, что у курящего мужчины в 5.25 раз больше шансов иметь ненормальный FEVj, чем у некурящего. В табл. 2.6.1 приводятся отношения шансов для шести пока- показателей легочной функции, рассматриваемых Azen et al. A977a). Таблица основана на всей выборке из 644 индивидуумов, что предпочтительнее подвыборки объема 42. Отношения шансов вычислены отдельно для мужчин и женщин. Для мужчин ненормальные AN2 и FEVi более всего связаны с курением (наи- (наибольшие шансы); для женщин с. курением .больше всего'связа- но ААГ2. Если отношения шансов для мужчин и женщин различаются незначимо, то их можно пересчитать, чтобы получить общее отно- отношение для мужчин и женщин. Метод объединения отношения шан- шансов называется процедурой Мантеля—Хэнзеля и обсуждается в работах Fleiss A973) и Mantel, Haenszel A959).
120 Гл. 2. Элементарные статистические выводы Таблица 2.6,1 Относительный риск ненормальной функции у курищнх по сравнению с некурящими Показатель Отношение шансов легочной функции AN2 (% Ns/л) FEVX (л) ¦) FVC (л) V^max (л/С) К (л/О Kt (л/с) * Измерения для мужчин Мужчины 5.3 4.7 1.0 2.2 2.2 2.2 и женщин Женщины Объединенное 3.1 0.9 0.9 2.1 2.6 1.7 объединять нельзя. 3.4 — 0.9 2.2 2.5 1.8 2.6.2. rxc-таблица сопряженности признаков Рассмотрим теперь общий случай rXc-таблицы сопряженности признаков. Как и в разд. 2.5, пусть fa — наблюдаемая частота в ячейке ij, ft. — сумма в строке i, f.j — сумма в столбце / (i = = 1, ..., г; j — 1, ..., с), а п — общий объем выборки. Для проверки гипотезы #„ об отсутствии связи обычно применяется формула B.5.2). Две меры, основанные на %2, используются как показатели сте- степени связанности между признаками. Одной из них является введенный Пирсоном (Pearson A901)) коэффициент сопряжен- сопряженности признаков С = (х2/(« + Х2)I/2- B.6.10) Эта статистика обладает рядом удобных свойств, так как 1) 0 «: < С < 1; 2) С = 0 означает отсутствие связанности между А и В; 3) С = 1 — наличие сильной связанности. Нежелательным является тот факт, что верхний предел С зависит от размера таб- таблиц. Можно показать (Kendall, Stuart A967), с. 747), что верхней границей С служит Cmax = [min(r-1, c-l)/(l+min(r-l, с-I))]1/2. B.6.11) Уровень значимости для критерия Е (С) = 0 тот же, что и для критерия независимости %2. Другая мера степени связанности была введена Крамером (Cramer A946), с. 480). Мера Крамера выражается формулой V = \tl(n{q-\))\V\ B.6.12) где q = min (r, с) вводится для компенсации факта прямой за- зависимости %а от п. Значения У изменяются от 0 (связанность
2.6. Другие критерий независимости 121 между А и В отсутствует) до 1 (полная связанность между А и В). Крамер показал, что процентили выборочного распределе- распределения V можно получить простой заменой переменных в распре- распределении %2. Если г = с = 2, то V совпадает с Ф из B.6.5). Асимпто- Асимптотическая стандартная ошибка V имеет вид ASE (У) = [n(q - l)]-!/2. B.6.13) Пример 2.6.2. В условиях примера 2.6.1 была составлена таб- таблица сопряженности признаков А = FEVx (нормальное или не- ненормальное) и В — привычка к курению (некурящие, курящие, бросившие курить) для мужчин. В = Привычка к курению Некуря- Куря- Бросив- щие щие шие курить А = Ненормально Нормально 2 64 16 83 4 46 22 193 66 99 50 215 По данным из этой таблицы были вычислены соответствующие статистики. Так, %2 = 7.787, С = [7.787/B15 + 7.787)]'/2 = 0.187, Стах = [1/A + 1I1/2 = 0.707, V = [7.787/215 B — 1)]»/а = = 0.190. Для проверки гипотез #„: Е (С) = 0 или #„: Е (V) = 0 можно использовать распределение %2 с двумя степенями свободы. Так как Р = 0.02 < 0.05, то Но отвергается в обоих случаях. Как видно из данных, имеется значимая связанность между не- ненормальным значением FEVi и курением, так как относительная частота равна 16/99 = 0.16 для курящих, 4/50 = 0.08 для бро- бросивших курить, 2/66 = 0.03 для некурящих. 2.6.3. Упорядоченные таблицы сопряженности признаков Некоторые программы из ПСП (например, BMDP1F и SPSS CROSSTABULATION) вычисляют меры связанности для упоря- упорядоченных таблиц сопряженности признаков, в которых уровни А упорядочены от 1 до г, а уровни В — от 1 до с. Эти меры отно- относятся к корреляционному анализу (см. гл. 3) и используются, так же как непараметрические меры корреляции (Kendall A962) и Kendall, Stuart A967)). Однако в этом разделе мы рассматриваем их как средство для проверки связанности между признаками А и В в частном случае упорядоченной гХс-таблицы сопряженности признаков. Из них первая — мера хъ Кендалла — применяется
122 Гл. 2. Элементарные статистические выводы в случае г = с. Для ее вычисления нужно найти величину Р, равную сумме произведений каждой частоты на сумму всех ча- частот, расположенных в таблице ниже ее и правее, а также Q, равную сумме произведений каждой частоты на сумму всех ча- частот, расположенных в таблице ниже ее и левее: /( 1=1/=i \k>n<i Полагая S = Р — Q, вычислим ] [\]у\ B.6.15) г с где ^i = 4" S ^' ^'" ~ ^' Гг = ~Т S ^;' ^-/ ~ ^' Асимпт0" тическая стандартная ошибка равна ASE(xb) = 1Dл+ 10)/(9(па- «))]'/2. B.6.16) Если г Ф с, можно использовать меру хс Сшьюарпга те = 2mS/(n2 (m — 1)), B.6.17) где 5, как и прежде, равно Р — Q, а /га = min (r, с). Далее, ASE(T0)g^(^1} [ft2 S S ^/(Л//-5//)«-4/15«]1/2, B.6.18) где А, = S S fo + I I! /«, 5// = I S /w + S S /«• B-6.19) k>il>j k<il<i k>i Kj k<il>/ Третьей мерой связанности является коэффициент ранговой корреляции Спирмана rs, определяемый как 12 2 2 fa ГS /*• + (/*-/2)- w2)! [S «3-«- 2 (/3/-/./} B.6.20) При этом ASE(r.) = ((l -г2)/(л-2)IД. B.6.21) Все три меры изменяются в диапазоне от —1 до +1.
2.6. Другие критерии независимости 123 Пример 2.6.3. При изучении влияния курения в примере 2.6.1 интересно исследовать степень связанности между FEVi и AN2. Области изменения по каждому из этих признаков были разде- разделены на 4 категории: 1 — низкая, 2 — ниже средней, 3 — выше средней, 4 — высокая. Каждый индивидуум выборки был отне- отнесен к упорядоченной паре категорий в соответствии с его значе- значениями FEVX и AN2, что дало следующую таблицу: В = AN 2 12 3 4 А = FEV, 55 8 5 3 8 33 10 6 10 39 7 2 2 6 22 71 53 62 32 71 53 60 34 218 Так как %а = 218.8 с 9 степенями свободы, то Р < 0.001 и гипо- гипотезу об отсутствии связанности следует отвергнуть. Применяя к приведенным данным три описанные выше меры связанности для упорядоченной таблицы сопряженности признаков, получим следующие результаты: Мера Значение + ASE Р-значенис 0.641 ± 0.046 0.626 + 0.046 0.692 + 0.049 13.9 < 0.001 13.6 < 0.001 14.1 < 0.001 Приведем для иллюстрации детали вычисления хь, Р = 55 C3 + 10 + 2 + 10 + 39 + 6 + 2 + 7 + 22) + 8 A0+ + 2 + 39 + 6 + 7 + 22) + 6 B + 6 + 22) + 8 A0 + + 39 + 6 + 2 + 7 + 22) + 33 C9 + 6 + 7 + 22) + 10 F + + 22) + 5 B + 7 + 22) + 10 G + 22) + 39 B2) = 12 786, Q = 8 (8 + 5 + 3) + 6 (8 + 33 + 5 + 10+ 3 + 2) + , + 2 (8 + 33 + 10 + 5 + 10 + 39 + 3 + 2 + 7) + 33 E + 3) + + 10 E + 10 + 3 + 2) + 2 E + 10 + 39 + 3 + 2 + +7) + 10 C) + 39 C + 2) + 6 C + 2 + 7) = 1621,
124 Гл. 2. Элементарные статистические выводы Поэтому 5 = 12 786 — 1621 = 11 165, 7\ = -J- [71 G0) + 53 E2) + 60 E< Т2 « -J- [71 G0) + 53 E2) + 62 F1) + 32 C1)] = 6250, 7\ = -J- [71 G0) + 53 E2) + 60 E9) + 34 C3)] = 6194, = о 641 Th = Щ [B3 653 - 6194) B3 653 - 6250)]1/2 ASE (ть) = [D B18) 4- Ю)/(9 (B18J - 218))]1/2 = 0.046. Хотя т0 Стьюарта и не является подходящей мерой для рассма- рассматриваемой квадратной таблицы, все же вычислим т0 и ASE (тс): = °'626' ASE ^ = 2.6.4. Меры связанности Гудмена—Крускала В серии из четырех статей Гудмена—Крускала (Goodman, Kruskal A954, 1959, 1963, 1972)) приводятся другие меры связанности для rXc-таблиц сопряженности признаков. Основная идея их работы состоит в том, что мера связанности должна исходить из контекста без обязательной ориентации на традиционный %2. Такие меры не универсальны и рассчитаны на применения в кон- конкретных условиях. В табл. 2.6.2 перечислены меры, рассматриваемые в этом раз- разделе. Во всех случаях предполагается, что каждый признак (А Таблица 2.6.2 Меры Гудмена—Крускала Упорядо- Упорядоченность Нет Нет Есть Есть Симме- Симметрия Нет Есть Нет Есть Х-асимметричная А,*-аснмметричная т-асимметричная Я-симметричная D Сомера Гамма или В) является дискретным. Это предположение исключает, например, возможность рассмотрения возраста в качестве при- признака, но позволяет рассматривать в качестве признака пол, метод лечения, выживаемость, экономическое положение и т. д. В тех случаях, когда один или оба признака по существу непре- непрерывны, следует использовать меры связанности, основаннце на коэффициенте корреляции (см. гл. 3).
2.6. Другие критерии независимости 125 Принципом построения мер в табл. 2.6.2 является способ фор- формирования классов или уровней, поскольку мера связанности зависит от него. Поэтому нельзя говорить о связанности между Л и В без детального определения класса. Рассматриваемые в этом разделе меры связанности зависят от наличия симметрии между факторами Л и В, а также упо- упорядоченности между классами одного признака. Например, та- такой признак, как пол, не имеет порядка, а социально-экономиче- социально-экономическое положение имеет. Симметрия зависит от того, можно ли один признак предсказать с помощью другого. Если любой из признаков может оцениваться первым либо они могут оцениваться одновременно, то признаки симметричны. Если же классифика- классификация Л должна предшествовать В (или наоборот), то признаки асимметричны. Например, в планируемом или длительном обсле- обследовании наблюдение А предшествует наблюдению В, в то время как при ретроспективном обследовании наблюдение В предше- предшествует наблюдению А. В обоих случаях таблицы сопряженности признаков являются асимметричными. Рассмотрим теперь меры, приведенные в табл. 2.6.2. Вначале примем, что для любой из мер ее распределение в популяции известно, а затем получим его выборочные оценки. Соответству- Соответствующие формулы для ASE приводятся в упомянутых статьях Гуд- мена и Крускала. Предположим, что признак А содержит г клас- классов, а В содержит с классов и обозначим ячейки через (аъ Ьг), (аг; &2), .... (ап Ьс). Пусть р^ — доля популяции в ячейке (ait bj), р*. — сумма элементов строки i, р./ — сумма элементов столбца /, i = 1, ..., г; } = 1, .... с. I. Нет упорядоченности, нет симметрии. Рассмотрим сна- сначала случай, когда i) факторы Л и В не получаются в резуль- результате дискретизаций непрерывных величин; п) ни Л, ни В не упо- упорядочены; iii) классификация А предшествует классификации В хронологически, причинно или в каком-либо ином смысле. Пред- Предположим, что индивидуум выбирается случайно, а его В-класс предсказывается 1) без информации о его Л-классе (случайное предсказание) или 2) при известном Л-классе (условное предска- предсказание). Мерой процентного улучшения нашей способности пред- предсказать В на основе информации об А является ( = ( S гаах Ри — max P-/1 / A — max P-/V B.6.22) Vfi / / / / \ I ) Эта к-асимметричная мера дает долю ошибок, которые можно исключить за счет знания Л-классификации. Предполагается, что max ptj Ф'тах р./.
126 Гл. 2. Элементарные статистические выводы Мера А,„ обладает следующими свойствами: i) A,B не определено тогда и только тогда, когда распределение сосредоточено в одном столбце; ii) Хв = 0 тогда и только тогда, когда значение А не помогает предсказать значение В; ш) Яв = 1 тогда и только тогда, когда значение А полностью определяет значение В; iv) из независимости следует, что %в = 0, но обратное не верно; v) Хв не зависит от перестановок строк и столбцов. МП-оценкой меры Хв при max f.,- Ф п служит (г \ I Lb— ( Zj max fif — max /./ / in — max f.A. B.6.23) Замечания 2.6.2. 1. Если А предсказывается с помощью В, то аналогичной мерой и ее МП-оценкой служат соответственно: X Р// — max Pi.) 1A — max р,-Л, /=l i i I \\ i I LA= [Jj max ftj — max /,-. \ \(n — max f{.\. V=l i i I l\ i 1 2. В качестве альтернативы для Хв введем меру %%, исполь- используемую для сравнений между различными популяциями. Эта ХЬ-асимметричная мера основывается на предположении, что случайно выбранный индивидуу.л с равной вероятностью \!г принадлежит одному из классов А. Заменяя в этом случае pi} на Ptjl{rpi.) и подставляя в B.6.22), получаем 1 т 1 vi , — Д ™«(Pt//Pf.) —г ™ах Д (Р///Р(¦) 2 тах(/гу/г.) — max J] т — max У\ I i=\ Аналогичные выражения для случая, когда класс А предсказы- предсказывается при известном классе В, обозначаются через "к\ и L*a. 3. Другой альтернативой для Хв служит мера, которая сравни- сравнивает 1) случайное пропорциональное предсказание класса В с 2) условным пропорциональным предсказанием класса В при известном классе А. Мерой, дающей относительное уменьшение
2.6. Другие критерии независимости 12? в доле неправильных предсказаний при переходе от первого слу- случая ко второму, служит х-асимметричное Ее МП-оценкой служит Аналогичные выражения для случая, когда класс А предсказы- предсказывается при известном классе В, обозначаются через тА и ТА. Пример 2.6.4. При уже рассматривавшемся изучении влияния курения представляет интерес предсказание В (наличие или отсутствие симптомов бронхита) на основе А — привычки к ку- курению. В следующей таблице приводятся соответствующие данные. В — Бронхит Есть Нет Некурящий Л = Привычка к куре- Бросивший нию курить Курящий 5 10 15 20 40 10 25 50 25 30 70 100 Для оценки %в заметим, что максимальными элементами строк являются соответственно 20, 40 и 15, а максимальная сумма эле- элементов одного столбца равна max /.,- = /.2 = 70, так что LB = = B0 + 40 + 15 — 70)/A00 — 70) = 0.167. Для оценки к% заметим, что доли максимальных элементов строки равны соответственно 20/25, 40/50 и 15/25, а сумма долей элементов максимального (второго) столбца равна 20/25 + 40/50+ + 10/25 = 100/50 = 2 по сравнению с 5/25 + 10/50 + 15/25 = 1 для первого столбца. Поэтому 20 5" 40 0 25" 3-2 ¦ = 0.200.
1Й8 Гл. 2. Элементарные статистические выводы Для оценки тв используем ,00 B5 + 400 + 100+1600 + 225+100) - (900 + 4900) <т> в ~~ 10 000 — (900 + 4900) 600 4200 = 0.143. Критерии для проверки гипотез, основанные на этих мерах, будут приведены ниже. II. Упорядоченности нет, симметрия есть. Если\<4 и В свя- связаны симметрично, то модель, обосновывающая меру" Хв, изменя- изменяется так, что для любого случайно выбранного индивидуума мы предсказываем с вероятностью 1/2 либо его Л-класс, либо его В-класс. Как и раньше, мы сравним предсказания в случаях, когда i) дополнительная информация отсутствует и И) при пред- предсказании класса одного признака имеется дополнительная ин- информация о классе другого признака. Соответствующая мера связанности, называемая Х-симметричной, выражается в виде "о" Jj Р(т+ И Рт/ — Р.т ~ Рт- b = -ili^ {^ 1. B.6.24) Здесь pim = max ра, pmJ = max ри, pm. = max pt., p.m = = max p.у. Эта статистика характеризует уменьшение вероятности ошибки при переходе от случая i) к случаю и). Мера л обладает следующими свойствами: 1) X не определено, если все распределение сосредоточено в одной ячейке; 2) незави- независимость влечет за собой X = 0, но обратное не обязательно верно; 3) X = 1 тогда и только тогда, когда популяция сосредоточена в ячейках, никакие две из которых не находятся в одной и той же строке или столбце; 4) X инвариантно относительно перестановок строк или столбцов; 5) ХА < X < Хв. Оценкой максимального правдоподобия для X при 2п Ф Ф max f.f + max /,-. служит ! i г с 2 max /,. + J] max fn ~ max /.,• — max /, L гп b25) Пример 2.6.4 (продолжение). В предыдущем примере u = 75, Smax ft} = 55, max f.,- — 70, max ft. — 50, так что L = G5 + 55 — 70 — 5O)/BO@ — 70 — 50) = 0.125.
2.6. Другие критерии независимости 129 В следующей таблице содержатся значения всех этих мер и их ASE, полученные с помощью программы BMDP1F. Мера *в V Гц X Значение 0.167 0.100 0.200 0.152 0.143 0.067 0.125 ASE 0.151 0.094 0.177 0.139 0.076 0.038 0.106 - 1.11 1.06 1.13 1.09 1.88 1.76 1,18 Легко видеть, что все результаты незначимы при а —- 0.05. Поэтому по ним нельзя предсказать ни наличие бронхита при привычке к курению, ни привычку к курению по наличию брон- бронхита. III. Есть упорядоченность, нет симметрии. Рассмотрим теперь случай, когда i) А и В не получаются в результате дискретизации непрерывных величин; п) уровни факторов А и В упорядочены, ш) классификация А предшествует классификации В. Предпо- Предположим, что два индивидуума выбраны были случайно и попали, например, в ячейки (аъ bt) и (а^, Ь2). Пусть и h<_b2 или а^а^ и Ьг^>Ь2}, IId = Prja1<a2 и Ьг>Ь2 или fli>a2 и Ь1<Ь2\, B.6.26) IIt = Pr\аг = a2 или Ьг = b2) — соответственно вероятности того, что два индивидуума имеют тот же самый порядок, различный порядок или их классы для А или В совпадают. Сомер (Somers A962)) предложил меру связан- связанности D: Дв = (П, _ П„) Д1 - 2 р?.). B.6.27) В предположении ах Ф а2 эта мера представляет собой разность между 0 условной вероятностью слабого соответствия, т. е. (flj — a2) (bx — b2) 5з 0 и ii) условной вероятностью слабого не- несоответствия, т. е. (% — а2) (Ь± — Ь2) < 0. (Знаменатель в Ав есть вероятность того, что два независимо выбранных инди- индивидуума не лежат в одной и той же строке.) Мера Дв обладает следующими свойствами: i) AB не определена тогда и только тогда, когда популяция сконцентрирована в одной строке; ii) из независимости следует, что Ав — 0, но обратное не обязательно верно. 5 А. Афифв, G Эйзен
130 Гл. 2. Элементарные стагнстические выводы МП-оценкой меры Дв служит (t ? B.6.28) где Ps = 2Р, Pd = 2Q, а Р и Q определены формулой B.6.14). Величина П4 и ее МП-оценка Pi =n2 — Ps — Pd использую- используются при вычислении ASE. Замечание 2.6.3. Если уровень фактора А предсказывается по уровню В, то аналогичной мерой и ее МП-оценкой служат соответственно дл = (Us - nd)|(l - s j.^, dA = (ps - pd)j(^ - 2 /2;.y IV. Есть упорядоченность, есть симметрия. Если факторы Л и В связаны симметрично, то мера связанности у (гамма) имеет вид Y = (IIs-nd)/(l-nt). B.6.29) Величина у является мерой того, насколько более вероятен оди- одинаковый, чем различный порядок у двух случайно выбранных из популяции индивидуумов. Мера у обладает следующими свойствами: i) у не определено, если популяция сосредоточена в одной строке или в одном столбце таблицы сопряженности; и) у = 1, если популяция сосредото- сосредоточена на подмножестве, «идущем слева сверху вправо вниз»х); iii) 7 = —1) если популяция сосредоточена на подмножестве, «иду- «идущем справа сверху влево вниз» 2); iv) независимость влечет за собой, что 7 = 0, но обратное не обязательно верно. МП-оценкой для 7 служит G = (Ps - РЛ)/{РЛ + Pd), B.6.30) где Ps и Pd те же, что и в формуле B.6.28). Пример 2.6.5. Предположим, что при изучении влияния привычки к курению в примере 2.6.1 желательно предсказать один из четырех классов фактора В = ДЛГ2 (недостаточный, сред- средний, выше среднего, отличный) на основе одного из трех классов !) То есть fufilh Ф 0 =>. (it - i) (я - /) > 0. - Прим. перее. 2) То есть fijfi^ ФО^ («! — г) (/i — /)< 0. — Прим. перев.
2.6. Другие критерии независимости 131 фактора А = FEVX (недостаточный, средний, выше среднего). Соответствующие данные приводятся в следующей таблице: 1 g 5 3 3 19 А = ГЕ\1 2 0 g 1 0 9 3 0 4 14 4 22 8 17 18 7 50 Для вычисления dB и G сначала вычислим Ps = 2P = 2[8C1) + 5A9) + 3D) + 8A8) + 1D)] = 1006, Pd = 2Q = 2[3B7) + 3A2) + 1D)]=242 и S /?• = 926. Поэтому dB = A006 — 242)/B500 — 926) = 0.485, G = A006 — 242)/A006 + 242) = 0.612. Ниже приводится вывод на печать программы BMDP1F» содержащий значения мер связанности и их ASE. Мера Значение ASE z Дв 0.485 0.130 3.73 Д, 0.431 0.115 3.74 у' 0.612 0.151 ' 4.05 Все меры являются значимыми, причем Р <^ 0.001. Поэтому класс фактора В можно предсказывать, зная класс фактора А, и обратно. Пример 2.6.6. В исследовании, направленном на выявление ранних симптомов выздоровления детей, больных полиневритом Guillain-Ваггё (Eberle et at. A975)), 47 детей наблюдались до пол- полного выздоровления (хорошее или нормальное напряжение во всех группах мышц) или три года при неполном выздоровлении (недостаточное напряжение по крайней мере в одной группе мышц). На основе четырех первоначальных мышечных измерений, в каждом из которых использовалось 6 уровней — нулевой, очень слабый, слабый, недостаточный, хороший и нормальный, была сделана попытка статистического предсказания выздоровления. Так как признак А (сила мускулов) и В (выздоровление) упорядо- упорядочены и асимметричны, то использовалась мера D Сомера. В еле-
132 Гл. 2. Элементарные статистические выводы дующей таблице содержатся результаты исследования. Согласно этим данным, три из четырех первоначальных измерений значимо предсказывают исход заболевания. Сильная слабость в дистальной части верхних ко- конечностей дистальной части нижних ко- конечностей Отсутствие глубокого сухожиль- сухожильного рефлекса в верхних конечностях нижних конечностях • Р < 0.05. *• Р < 0.01. Полное выздоров- ление, % 61.1 66.7 41.2 64.7 Неполное выздоров- выздоровление, % 90.9 100.0 72.7 90.9 D Сомера 0.25* 0.31 ** —0.23 —0.24 * 2.7. Робастные оценки В разд. 1.7 мы обсуждали использование программ из ПСП для обнаружения выбросов. Но мы ничего не говорили о том, что де- делать с выбросами после того, как они обнаружены. Многие ис- исследователи исключают из рассмотрения случаи с выбросами, по- потому что они по определению не относятся к изучаемой популяции. Другие исследователи после удаления выпадающих наблюдений исследуют их отдельно, потому что во многих случаях выбросы представляют больший интерес, чем вся остальная выборка. Нетрудно представить себе ситуацию, когда аномальные наблю- наблюдения оказываются самыми интересными находками. Некоторые исследователи оставляют выпадающие наблюдения в наборах данных, особенно когда для каждого объекта определя- определяются несколько показателей. Пусть, например, для данного слу- случая измерялось три показателя Хх, Х.2 и Х3, и значение пока- показателя Хх оказалось крайним, а показателей Х2 и Х3 — нет. Удалив этот случай из выборки, мы потеряем потенциально важ- важную информацию о переменных Хг и Х3. Вместо того чтобы уда- удалять выпадающие наблюдения, можно использовать процедуры оценки параметров распределения, нечувствительные к струк- структуре данных. Такие процедуры оценивания называются робштгг' ными.
2.7. Робастные оценки 133 Многие робастные оценки были предложены и исследованы в Принстонском обзоре 1972 г. и изложены Andrews et at. A972 ). В настоящем разделе мы рассмотрим три робастные процедуры: винзоризованные оценки, усеченные оценки и кусочно-линейные М-оценки Хампеля. Эти процедуры, вычисляемые и печатаемые программами BMDP7D и BMDP2D выбраны потому, что они наиболее робастные по сравнению с остальными (Andrews et at. A972)). 2.7.1. Винзоризованные оценки Винзоризованные оценки применяются при оценивании среднего и дисперсии распределений, при построении доверительных интервалов, а также при проверке гипотез относительно генераль- генерального среднего в ситуациях, когда можно предполагать присутствие выбросов (Dixon, Tukey A968)). В этой процедуре крайние значе- значения в упорядоченном ряду наблюдений не отбрасываются, а изме- изменяются. Обозначим через ух «g y2 «ё ... <s yn упорядоченный ряд для выборки хъ х2, ..., хп, состоящей из п наблюдений. Тогда g-винзоризованные наблюдения получаются заменой g первых на- наблюдений на yg+1, a g последних — на yn_g (при 1 < g < n/2). Таким образом, по определению Zl — Z2 = ' * ' = Zg = Уй+1> zg+i = yg+i, 2<.i<.n — 2g—l, B-7.1) zn == zn-l ==•••== 2n_g+1 = yn_g. При этом оценками среднего \i и дисперсии о2 исходного распре- распределения служат г- ! У г z-~hZh с** ' V (~, -5\2 Ю 7 0\ йг == Г Zj \zi — *v * ^Z./ .Z^ Приближенный 100A—а) %-ный g-винзоризованный довери- доверительный интервал для среднего B.7.3) где h = п — 2g. Для проверки гипотезы Но : ц = ц0 соответству- соответствующий g-винзоризованный односторонний t-критерий использует статистику l)sz, B.7.4) а приближенное Р-значение получается из распределения Стью- дента с h — 1 = л — 2g — 1 степенями свободы.
134 Гл. 2. Элементарные статистические выводы Пример 2.7.1. Рассмотрим следующие девять упорядоченных наблюдений 0.017, 0.018, 0.023, 0.031, 0.031, 0.033, 0.036, 0.070 и 0.079. Обычные оценки для среднего, стандартного отклонения и 95%-ного доверительного интервала для среднего равны: 2 = = 0.0375, s2 = 0.0222 и 0.0375 ± to.9K(8) \^у^-} = @.0204, 0.0546). Если g = 1, то ряд принимает вид 0.018, 0.018, 0.023, 0.031, 0.031, 0.033, 0.036, 0.070, 0.070, a h = п — 2g = 7. Соответству- Соответствующие один-винзоризованные оценки среднего и стандартного отклонения равны z — 0.0367 и s2 = 0.0199, а 95 %-ный довери- доверительный интервал есть 0.0367 ± ^0,в7БF) (-L) .|\™И = @.0151, 0.0583). В следующей таблице приводятся g-винзоризованные оценки среднего, 95 % -ные доверительные интервалы для среднего и длины этих интервалов при g = 0, 1, 2. Наименьший интервал полу- получается при g = 2. я Среднее ' %%-ти доверительный Длина ' интервал • интервала 0 0.0375 @.0204,0.0546) 0.0342 1 0.0367 @.0151,0.0583) 0.0432 2 0.0302 @.0195,0.0409) 0.0214 Замечание 2.7.1. Программа BMDP7D вычисляет винзори- зованные интервалы до порядка g = 5 и помечает двумя звез- звездочками (* *) оценку среднего с наименьшей длиной доверитель- доверительного интервала, т. е. наиболее точную оценку среднего. Оценка, отвечающая следующему по длине интервалу, отмечается одной звездочкой (*). Пользователь может выбирать между получением точной оценки и изменением слишком большого числа наблюдений. 2.7.2. Усеченные оценки Усеченные оценки среднего получаются отбрасыванием g крайних наблюдений с обоих концов упорядоченной выборки уг < у2 <.... ... < уп. Таким образом, а-усгченная оценка среднего (х равна п— g '•=g+l где а выбирается так, чтобы g = па, если па — целое, или це- целой части от па; a h = n — 2g, как и ранее. Например, если а =
2.7. Робастные оценки 135 = -г-, то т (-г-) представляет собой среднее от 50 % наблюдений, расположенных в середине упорядоченного ряда. Для достаточно больших значений п и при некоторых ограни- ограничениях величина т (а) распределена приблизительно нормально. Стандартное отклонение для т (а) можно вычислить по формуле sm(a) = V'SS(a)/h(h-l), B.7.6) где SS (а) обозначает винзоризованную сумму квадратов (g + 1) [yg+i - т (а)]2 + \у^ - т (а)]2 + • • • - + [Уп-s-i ~ т (а)]3 + (g + 1) [yn_g -m(a)f. Поэтому приближенный 100 A — а) %-ный а-усеченный интервал для среднего \i равен i-l)sm(a). B.7.7) Для проверки гипотезы Но : \i = ц0 соответствующий а-усечен- а-усеченный односторонний t-критерий использует статистику t = OT(a)~N , B.7.8) а Р-значение приближенно определяется из распределения Стью- дента с (h — 1) степенями свободы. Пример 2.7.1 {продолжение). Для данных этого примера «-усе- «-усеченные оценки среднего, стандартного отклонения, и 95 %-ные доверительные интервалы для среднего при а = 0 (g = 0), a = = 0.12 (g = 1), a = 0.23 (g = 2) собраны в следующей таблице. Заметьте, что кратчайший доверительный интервал получается при g = 2. 95%-ный доверительный Длина а т(з.) sm(>) интервал интервала 0 0.0375 0.0222 @.0204,0.0546) 0.0342 1 0.0346 0.0075 @.0163,0.0530) 0.0367 2 0.0308 0.0026 @.0241,0.0375) 0.0134 * 2.7.3. Кусочно-линейная М-оценка Хампеля Эта процедура использует понятие М-оценки, введенное Huber A964). В ней вместо обычной квадратичной функции отклонения, используемой в методе наименьших квадратов (см. гл. 3), берется
136 Гл. 2. Элементарные статистические выводы некоторая непостоянная функция р, а в качестве оценки среднего п. (х принимается значение, минимизирующее сумму 2~Р (xt — Iх)- 1=1 В более общей формулировке М-оценка определяется как решение я уравнения вида 2j ^Чхг — М1)^ = 0> гДе s — единица измерения i ;i шкалы, а р можно считать производной от функции Т. Хампель (Andrews et al. A972)) предложил функцию \У\ 1.7 (8.5 -| у 1) 1. 5.1 0 при при — при при 0<|« 1.7< 3.4 < У>8 \У\ Ы .5. <з н. •4, 5, B .7.9) Смысл такой функции ? в том, что она приписывает наблюдениям эмпирически подобранные веса так, чтобы при некоторых предпо- предположениях минимизировать влияние крайних наблюдений (An- (Andrews et al. A972)). Кусочно-линейная М-оценка Хампеля для параметра положения определяется как решение f уравнения 2[T] <27-l0> Это решение находится при помощи итеративной процедуры, в которой начальное значение То для решения Т принимается рав- равным медиане, а фиксированной оценкой множителя s служит меди- медиана абсолютных отклонений от То. Следующий пример поясняет ход вычисления М -оценки Т. -к Пример 2.7.2. Пусть задана упорядоченная выборка из пяти наблюдений: 1, 3, 5, 8, 30, так что выборочная медиана равна То = 5. Абсолютные отклонения от медианы равны 4, 2, 0, 3 и 25, так что s = 3, как медиана для этой выборки. В следующей таблице приводятся детали вычисления величины S, задаваемой равенством B.7.10) для функции W, определенной в B.7.9). Элемент, со- соответствующий х5 = 30, равен V (8.33) = (8.5 —8.33) • 1.7/5.1 = = 0.057. Начальное значение ве- величины S равно So = — 1.33 — — 0.67 + 0. + 1.00 + 0.06 = = —0.94. *, 1 3 5 8 30 У — (х,-Т0)Ь - 1.33 -0.67 0.00 1.00 8.33 Пу) -1.33 -0.67 0.00 1.00 0,06
Шаг 0 1 2 Т 5.0 4.5 3.5 S -0.94 -0.67 1.16 2.7. Робастные оценки 137 Последовательно выбирая различные зна- значения Т и сохраняя s = 3, получим таблицу, изображенную справа. По- Построив график зависимости суммы S от Т, найдем оценку Т = 4.2, при ко- которой S = 0. Различные оценки среднего, полученные при помощи описанных в этом разделе процедур, сведены в следующую таб- лицу. Процедура оценивания Оценка Замечания 2.7.2. 1. Оцен- Оценки, описанные в этом разделе, * 9.4 принадлежат к числу неадап- Один-винзоризованная 5.4 щивных робастных оценок. оценка среднего » -> Один-усеченная оценка сред- 5.3 Адаптивными называются про- него цедуры, определяемые по полу- М-оценка Хампеля 4.2 ченной выборке. Например, усеченное среднее m (а) будет адаптивным, если а подбирается из условия минимизации стандартного отклонения m (а) для имеющейся выборки. Обзор некоторых таких процедур приведен в книге Hogg A974). 2. В неясных ситуациях рекомендуется вычислить все оценки, описанные в этом разделе, и проверить их совместимость. Если выяснятся значительные расхождения между оценками, то сле- следует тщательно проанализировать данные в поисках возможных ошибок в планировании эксперимента, выборочной процедуре, методе измерения и других аспектах исследования. Пример 2.7.3. Приведем пример реального применения усе- усеченных оценок, взятый из опубликованной литературы. В иссле- исследовании скорости развития обструкции дыхательных путей (Fletcher et al. A976)) для каждого обследуемого вычислялась средняя годовая скорость уменьшения форсированно выдыхаемого объема FEV (наклон FEV). Сначала из выборки удалялись все измерения величины FEV, отличающиеся от среднего для данного пациента значения FEV более, чем на ±450 мл. По оставшимся данным был оценен наклон FEV. В результате такого односторон- одностороннего усечения существенно уменьшились ошибки в оценке нак- наклона FEV. Упражнения Раздел 2.1 2.1.1. а) В примере 2.1.1 положим п = 10 и г = 4. Вычислите Р-зна- чение при гипотезе #„: р = 0.1 против односторонней альтернативы Ht: р >0.1.
138 Гл. 2. Элементарные статистические выводы b) Предположим, что п = 3492 и г = 200. Вычислите Р-значение для гипо- гипотезы Яо: р = 0.1 против альтернативы Яг: рфОЛ. c) Предположим, что п = 474 и число мальчиков со сколиозом rt равно 188. Проверьте нулевую гипотезу Яо: рх = Ръ = -к-- 2.1.2 (набор данных А). Проверьте гипотезу, что в популяции 50 % мужчин. Найдите 95%-ный доверительный интервал для доли мужчин. 2.1.3 (набор данных А). Вычислите 90 %-ный доверительный интервал для смертности (доли умерших) среди критически больных пациентов. 2.1.4 (набор данных А). Проверьте гипотезу о том, что распределение попу- популяции по типам шока равномерно. 2.1.5 (набор данных В). Проверьте гипотезу о том, что индивидуумы в по- популяции равномерно распределены по пяти уровням социально-экономического положения. Раздел 2.2 2.2.1 (набор данных А). Для популяции выживших пациентов постройте эмпирическую функцию распределения величины начального и конечного MAP, и для обеих переменных вычислите медиану, процентили Р25 и Р75, и межквар- шильное среднее (Р25 + Р;ьI%- 2.2.2 (набор данных А). Решите упр. 2.2.1 для подпопуляции умерших больных. 2.2.3. Вычислите согласие по критерию ха и статистику К—С для данных из табл. 2.2.1, для чего: a) вычислите х и sa, используя формулы B.2.2) и B.2.3); b) вычислите ожидаемые частоты Fif используя значения х = 2.45 и ^ = = 1.74 и таблицу стандартного нормального распределения; c) нарисуйте экспериментальную ФР для данных, приведенных в табл. 2.2.1; d) вычислите статистику %2 для этой таблицы; e) оцените статистику D критерия К—С, используя замечание 2.2.3.1. 2.2.4 (набор данных А). Используя начальные данные для всех пациентов, проверьте гипотезы о том, что величины HR, DP, AT и МСТ распределены а) нор- нормально, Ь) логнормально. 2.2.5 (набор данных А). Среднее значение гематокрита (Hct) для нормаль- нормального взрослого человека равно 40. Можно ли по начальным данным для всех пациентов сказать, что у них нормальный гематокрит? То же по конечным дан- данным для подпопуляции выживших? 2.2.6 (набор данных В). Постройте эмпирические ФР для систолического давления в 1950 и 1962 гг. Используйте эти графики, чтобы оценить медиану, 25-ю процентиль Р25, 75-ю процентиль Р,6 и межквартильное среднее (Р25 + + Р75)/2 для каждой переменной. Отметьте различия между 1962 и 1950 гг. Средняя величина систолического давления для молодого здорового человека равна 120. Определите процентильный ранг 120 в 1950 и 1962 гг. 2.2.7 (набор данных В). Для величины систолического давления в 1950 г. вычислите оценки коэффициентов асимметрии и эксцесса Pi и Р2, а также их стандартные ошибки. Указывают ли эти оценки на близость к нормальному распределению? Раздел 2.3 2.3.1. Проверьте гипотезу Но: \i,y = 0.466 против альтернативы Нг: цу <С < 0.466, если a) *= —1.2, и= 10; b) t = —2.3, п = 10; c) г = +1.2, и= 10. Считайте, как и в примере 2.2.2, что Sy = 0.261.
Упражнения 139 2.3.2. а) (набор данных А). Используя двухвыборочный /-критерий и /-кри- /-критерий Уэлча, проверьте нулевую гипотезу о том, что в начальном обследовании средняя частота сердечных сокращений у мужчин и женщин одинакова. Про- Проверьте также гипотезу о равенстве средних для времени циркуляции и для диуреза. Равны ли дисперсии этих величин для мужчин и для женщин? Каким из /-критериев лучше пользоваться в этом случае? Поясните полученные результаты. Ь) Используя парный /-критерий, проверьте значимость различия между величиной систолического давления в начальном и конечном обследованиях. 2.3.3. Проделайте вручную указанные вычисления для следующего под- подмножества из набора данных В. X — Вес Y — Холе- Диагноч Случай в 1д62 г стерин в 1962 г. Инфаркт миокарда Стенокардия 1 2 3 4 5 6 1 2 3 4 5 6 147 194 186 149 186 231 172 139 174 164 173 135 .209 258 296 254 311 325 230 255 178 299 285 234 Используя двухвыборочный /-критерий, оцените значимость различия между средним значением ^холестерина сыворотки и средним весом для двух различных диагностических групп. Найдите Р-значение и прокомментируйте результаты. 2.3.4 (набор данных А). Для подпопуляции выживших пациентов проверьте, значимы ли в среднем изменения величин MAP, DP и CI от начального состоя- состояния до конечного. 2.3.5 (набор данных А). Для подпопуляции умерших пациентов проверьте, значимо ли в среднем изменение величин AT и МСТ от начального до конечного обследования. 2.3.6 (набор данных А). Проверьте совпадение дисперсий величины началь- начального систолического давления у выживших и умерших пациентов. 2.3.7 (набор данных В). Пусть Хг — вес в 1950 г., Х2 — вес в 1962 г., а Х3 = = Х2 — Х\. Для каждой из трех величин проверьте гипотезу о том, что она нормально распределена. [Указание: разумно выбрать десять интервалов так, Чтобы ожидаемая ненормированная частота каждого составляла 10 % от общего объема выборки.] 2.3.8 (набор данных В). Выполните упр. 2.3.7 для систолического давления. 2.3.9 (набор данных В). Выполните упр. 2.3.7 для диастолического давления. 2.3.10 (набор данных В). Повторите упр. 2.3.7 для холестерина сыворотки. 2.3.11 (набор данных В). Какие из переменных — вес, систолическое дав- давление, диастолическое давление и холестерин сыворотки крови •— значимо изме- изменились с 1950 по 1962 г. Постройте 95 %-ный доверительный интервал для средней величины изменения. Какими предположениями вы пользовались?
140 Гл. 2. Элементарные статистические выводы Раздел 2.4 2.4.1 (набор данных А). Используя программу описания расслоенных дан- данных, постройте гистограммы начального и конечного распределения величин MAP, МСТ, UO и Hgb для подгрупп с различными исходами. У каких пере- переменных разница между двумя группами значима? 2.4.2 (набор данных А). Постройте гистограммы возраста для подгрупп с различным типом шока. Существует ли значимая разница между различными типами шока в зависимости от возраста? Используя метод множественных срав- сравнений Шеффё, выделите пары подгрупп, средний возраст в которых значимо различен (на уровне а = 0.05). 2.4.3 (набор данных В). Для каждой непрерывной переменной постройте гистограммы для подгрупп с различным исходом. Для каких переменных раз- различия средних значений между подпопуляциями умерших и выживших пациен- пациентов значимы? 2.4.4 (набор данных В). Решите упр. 2.4.3, разбивая популяцию по со- социально-экономическому положению. Найдите множество доверительных интер- интервалов для величины систолического давления в 1950 г. для контрастов a) \ix—jx5 и b) -т- (Hi + (^2+ Из) o"(N+ №ь)< используя три различных метода. Про- комментируйте полученные результаты. 2.4.5 (набор данных В). Решите упр. 2.4.3, разбив пациентов на группы по лечащим врачам, проводившим обследование в 1950 г. Существуют ли значи- значимые различия между исследователями? Раздел 2.5 2.5.1 (набор данных В). Проверьте независимость исхода и социально-эко- социально-экономического положения. 2.5.2 (набор данных В). Проверьте независимость социально-экономиче- социально-экономического положения и клинического состояния A950). 2.5.3 (набор данных В). Проверьте независимость исхода и клинического состояния в 1950 г. 2.5.4 (набор данных В). Используя оценки 20-й, 40-й, 60-й и 80-й процен- тилей, разделите диапазон изменения систолического давления A950) на пять интервалов. Затем, применяя критерий %2> проверьте независимость этой вели- величины от а) исхода и Ь) социально-экономического положения. 2.5.5 (набор данных В). Используя критерий х2. проверьте независимость величин систолического давления в 1950 и 1962 гг. 2.5.6 (набор данных В). Проверьте независимость веса и холестерина сы- сыворотки A950). (Указание: воспользуйтесь интервалами, аналогичными интер- интервалам, построенным в упр. 2.5.4.) Раздел 2.6 2.6.1 (набор данных В). Для величин, указанных в упр. 2.5.4, вычислите все меры связанности, описанные в разд. 2.6, и воспользуйтесь ими для проверки гипотезы о независимости. Объясните результаты. 2.6.2 (набор данных В). Решите задачу 2.5.5, используя вместо критерия %2 другие меры связанности, как это делалось в разд. 2.6. Раздел 2.7 2.7.1 (набор данных А). Используя начальные значения величин HR, AT и МСТ для всех пациентов, вычислите обычное среднее, винзоризованное среднее, усеченное среднее и УИ-оценку Хампеля. Какой способ оценки среднего вы пред- предпочтете? Почему?
3 Регрессионный и корреляционный анализы i iu ¦, В этой главе рассматриваются регрессионный и корреляционный анализы — два метода исследования^ вз_аимосвязи__межд^_двумя или йплернрпдрдШндм'ц "прр^мрт^гьтштуК регрессионном анализе рассматривается связь между одной переменной, называемой зависимой переменной, и несколькими другими, называемыми независимыми"~пёременными. Эта связь представляется с помощью математической модели, т. е. уравнения, которое связывает за- зависимую переменную~с~ независимыми с учетом множества соот- соответствующих предположений. Независимые переменные связаны с зависимой посредством фцнщии регрессии, зависящей также от набора неизвестных параметров. Если функция линейна относи- относительно параметров (но необязательно линейна относительно независимых переменных)', то говорят о линейной модели рег- регрессии. В противном случае модель называется нелинейной. В каждом из этих случаев говорят о регрессии зависимой перемен- переменной по независимым переменным. V Статистическими проблемами регрессионного анализа явля- являются: а) получение наилучших точечных и шдте2валмых_оцено.к. неизвестнь1Х параметров регрессии; Ь) проверка гипотез относи- относительно этих параметров";' ~С)Нтрт)верка адекватности предполагае- предполагаемой модели;, d) проверка множества соответствующих предполо- предположении. Выбор подходящей модели основывается скорее не на статистических доводах, а на основе учета физических факторов. В этой главе будут обсуждаться некоторые аналитические сред- средства, полезные при определении зависимости между переменными. Регрессионный анализ используется по двум причинам. Во- первых, потому, что описание зависимости между переменными помогает установить jналичие возможной причинной связи. Во- вторых, для получения предиктора для зависимой переменной, так как уравнение регрессии позволяет предсказывать значения зависимой переменной по значениям независимых переменных. Эта возможность особенно важна в тех случаях, когда прямые из- измерения зависимой переменной затруднены или дорого стоят.
142 Гл. 3. Регрессионный и корреляционный анализы Величина линейной зависимости между двумя переменными измеряется посредством простого коэффициента корреляции,^ то время как величина линейной зависимости одной переменной от нескольких измеряется множественным коэффициентом корреля- корреляции. Другая мера зависимости — частный коэффициент корреля- корреляции — измеряет линейную зависимость между двумя перемен- переменными после устранения части линейной зависимости, обусловлен- обусловленной зависимостью этих переменных с другими переменными. Ме- Методы корреляционного анализа позволяют делать статистические выводы об этих трех мерах линейной зависимости. В данной главе будет показано, что методы регрессионного и корреляционного анализов тесно связаны между собой. Раздел 3.1 посвящен линейной регрессии задисямайлеременной по одной независимой переменной, т. е. простому линейному рег- регрессионному анализу и связанному с ним простому корреляционному анализу. В разд. 3.2 рассматривается множественный линейный регрессионный анализ, а также анализ множественных и частных корреляций. В этом случае имеется несколько независимых пе- переменных. В разд. 3.3 рассматривается процедура пошаговой регрессии для выбора наилучших независимых переменных для прогнозирования зависимой переменной. Наконец, разд. 3.4, посвящен нелинейному регрессионному анализу. Теорию, лежащую в основе регрессионной модели, можно получить из теории общей линейной модели. Так как последняя включает и основы дисперсионного анализа, она будет рассмотрена в гл. 4. Обзор программ вычисления регрессии содержится в ра- работе Yelleman et al. A977). 3.1. Простая линейная регрессия и простой корреляционный анализ В этом разделе будет рассмотрена ситуация, когда две переменные связаны линейным соотношением. Пусть Y—зависимая, а X — независимая переменные. Предположим, что имеется выборка парных наблюдений (хи </i)> (xi, #2). ••-. (хп> Уп) из некоторой популяции W. Первый способ состоит в том, что значения X фиксируются, скажем X = = хъ ..., X = хп, так что для X = xt мы имеем подпопуляцию Wt из W, содержащую все индивидуумы, для которых X — xt, i = 1, ..., п. Из Wj случайным образом выбирается индивидуум, у которого измеряется Y = yt1 i — 1, ..., п. При таком подходе только Y является случайной величиной.
3.1. Линейная регрессия и корреляционный анализ 143 - При втором методе получения выборки, мы случайным образом отбираем п индивидуумов из W и у каждого из них измеряем как переменныесХ, так и Уу Здесь случайными являются обе величи- величины X и У. Преимущество этого метода получения выборки заклю- заключается в том, что мы можем сделать статистические выводы от- относительно коэффициента корреляции между X и У, в то время как при первом методе этого сделать нельзя. Независимо от способа получения выборки, имеются два предварительных шага для определения существования и степени линейной зависимости между X и У. Первый шаг заключается в графическом отображении точек (xlt г/i),..., (хп> уп) на плоскость XY. Такой график называется диаграммой рассеяния. Анализируя диаграмму рассеяния, мы можем эмпирически решить, допустимо ли предположение о линейной зависимости между X и У. Вторым шагом является вычисление выборочного коэффициента корреля- корреляции C.1.1) Если абсолютная величина коэффициента корреляции велика (это будет обсуждаться в разд. 3.1.4), это обоснованно указывает на сильную линейную зависимость между переменными. В некоторых ПСП программы для анализа корреляций вычисля- вычисляют корреляцию между X и У и строят диаграмму рассеяния од- одновременно. Эти программы, если они допускают преобразование признаков, в частности, полезны для выявления линейной зави- зависимости. Так, при одном прогоне такой программы исследователь может получить корреляции и диаграммы рассеяния для любой комбинации преобразований X и У, например (X, log У), (log X, У), (log X, log У), (/X, log У) и т. д. Преобразование, для которого получается наибольшее по абсолютной величине значение коэффициента корреляции, будет тем преобразованием, которому соответствует наиболее сильная линейная зависимость. Таким образом, если, например, наибольшим по абсолютной вели- величине является коэффициент корреляции между X и log У, то соответствующая диаграмма рассеяния покажет наиболее ярко выраженную эмпирическую линейную зависимость. Приведем теперь три примера, которые будут анализироваться в этой главе. Пример 3.1.1. Калибруется прибор для измерения концентра- концентрации молочной кислоты в крови. Исследователь использует п = 20 образцов (выборок) с известной концентрацией и затем вычисляет концентрацию, определенную исследуемым прибором. Пусть X
144 Гл. 3. Регрессионный и корреляционный анализы обозначает известную концентрацию молочной кислоты (мМ), а У — концентрацию молочной кислоты (мМ), определенную с помощью прибора. Полученные данные приведены в таблице X Y X Y X Y 1 1 1 1 3 3 3 3 3 1.1 0.7 1.8 0.4 3.0 1.4 4.9 4.4 4.5 5 5 5 10 10 10 10 7.3 ¦ 8.2 6.2 12.0 13.1 12.6 13.2 15 15 15 15 18.7 19.7 17.4 17.1 Заметим, что эти данные относятся к первому способу форми- формирования выборки, так что X фиксировано на уровне одного из пяти значений: X = 1, X = 3, X = 5, X = 10 или X = 15. Выборочный коэффициент корреляции г = 0.987 указывает на очень сильную линейную зависимость между X и Y. Это также ясно видно и на диаграмме рассеяния, приведенной на рис. 3.1.1. г 20 - 18 16 14 12 10 8 6 4 I I I I О I 2 3 4 5 6 7 8 9 Ю II 12 13 14 15 16 Рис. 3.1.1. График зависимости Y от X, где Y — концентрация молочной кис- кислоты (мМ), определенная с помощью прибора, X — известная концентрация молочной кислоты (мМ). Пример 3.1.2. Продолжим анализ примера 2.3.1. В этом слу- случае X представляет собой венозное рН, a Y — артериальное рН, измеренные одновременно у 108 пациентов в критическом состоя-
7.6 7.5 7.4 7.3 7.2 • 2 г • • •• • • • 3 • • • •2» • • • • •• .2 • •2*2* • 2 • • 3«« 23 2 • • 2 • • • 2 6.9 7.0 7.1 7.2 7.3 7.4 7.5 Рис. 3.1.2. График зависимости Y от X, где Y — артериальное рН, X — веноз- венозное рН, для 108 пациентов в критическом состоянии. Цифры 2 и 3 означают соот- соответственно 2 и 3 совпадения в данной точке. г 6 - 5 - • 2 • 22 • 2 .2- • •2. • • 2 * .. 2 О 1. JO 60 Рис. 3.1.3. График зависимости Y от X, где У — сердечный индекс [л/(мин-м2)]> X — среднее время циркуляции (с), для 107 пациентов в критическом состоянии-
146 Гл. 3. Регрессионный и корреляционный анализы нии. Заметим, что эти наблюдения получены согласно второму способу образования выборки, так что X и У суть случайные величины. Выборочный коэффициент корреляции г = 0.904 снова указывает на сильную линейную зависимость между X и У. Данные графически представлены на рис. 3.1.2. В точках, куда попадает несколько наблюдений, печатается число совпадений (это делается программами вывода графиков во многих ПСП). Пример 3.1.3. При определении производительности сердца дополнительно проводилось обычным образом измерение показа- показателя, называемого средним временем циркуляции. Этот показатель измеряет среднее время с момента инъекции красителя до его Появления в пробе артериальной крови. Рис. 3.1.3 представляет собой диаграмму рассеяния Y в сопоставлении с X, где Y есть сердечный индекс в [л/(мин • ма) ], а X — среднее время циркуляции в секундах, измеренные у 107 больных в критическом состоянии. Эта диаграмма рассеяния указывает на экспоненциальную за- зависимость между X и У, но, если использовать log У, можно полу- получить линейную зависимость от X. Если преобразованием перемен- переменных удается перейти к линейной зависимости, то мы будем гово- говорить, что модель существенно линейна. Заметим, однако, что к ис- исходным данным можно применить и технику нелинейной регрессии (см. разд. 3.4). Замечание 3.1.1. Программа корреляционного анализа может быть использована при определении наилучшего предиктора для Y из набора р переменных Хъ Х2, ..., Хс. Переменная Хь имеющая наибольшую (по абсолютной величине) корреляцию с У, имеет и наиболее сильную линейную зависимость с У. Такая процедура является первым шагом процедуры так называемой пошаговой регрессии, которая будет рассмотрена в разд. 3.3. Теперь перейдем к обсуждению линейной регрессионной модели. Теория, используемая в следующих двух разделах, основана на предположении, что значения X фиксированы. Однако эти же результаты, как мы увидим в разд. 3.1.1, можно применять и для случая, когда X есть случайная величина. 3.1.1. Простая линейная регрессионная модель и оценивание по методу наименьших квадратов Если предполагается, линейная зависимость между У и X, то теоретическая модель задается уравнениями й = Ро + М/ + е*. » = 1 п, C.1.2)
3.1. Линейная регрессия и корреляционный анализ 147 и называется моделью простой линейной регрессии Y по X. Ве- Величины р0 и рх являются неизвестными параметрами, а еъ е2, ... ..., е„ сутьt1 некоррелированные ошибки случайной переменной со средним 0 и неизвестной дисперсией я8, т. е. E(et) = 0 к V(ei) = o\ t=l, ..., п. C.1.3) На рис. 3.1.4 эта модель представлена графически. Для каждого зна- значения X = хг имеется распределение У (не обязательно нормальное) со средним значением р0.+ Рл- и дисперсией a2, i = 1, ..., п. Рис. 3.1.4. Модель простой линейной регрессии. А — распределение Y для X = = х2, среднее Ро -|- Pi>:2, дисперсия а2; В — прямая у = fi0 -f- Pi*; С — рас- распределение У для X = аг1( среднее р*0 -f- Pi-^i. дисперсия о2. Найдем теперь оценку неизвестных значений pD и plf основан- основанную на имеющейся у нас выборке объема п.. Наилучшие оценки Ьо и Ьх для ро и рх получаются минимизацией соответственно по р0 и рх суммы квадратов отклонений ¦ . п Эти оценки называются оценками наименьших квадратов и даются формулами Ь0 = у_Ь1х, C.1.5) C.1.6) .*)» (=1
148 Гл. 3. Регрессионный и корреляционный анализы Заметим, что S есть мера ошибки, возникающей при аппрок- аппроксимации выборки прямой. Оценки Ь„ и Ьг минимизируют ошибку. Как следует из результатов разд. 4.1, эти оценки несмещены и имеют минимальную дисперсию среди всех^е.смещенльис,.оцедок- Ро и ръ линейно зависящих от""наблюдений уи у2, ..., уп. Оценкой уравнения регрессии (или прямой наименьших квадра- квадратов) будет 0 = &„ + &!*, C.1.7) так что оценка значения У при X = xt есть yt = b0 -f- btxt. Разница между наблюдаемым и оцененным значением Y при X = Xi называется отклонением (или остатком) й-. — yt — yt. Рис. 3.1.5. Теоретическая регрессионная прямая наименьших квадратов с ука занным ('-м отклонением d[ = yi —Si- Прямая наименьших квадратов достав- доставляет минимум S. Пунктирная линия — прямая наименьших квадратов Q = = 60 + *i*> сплошная линия — неизвестная теоретическая прямая у = E<> + + Pi*- f Прямая наименьших -квадратов доставляем минимум сумме квад- п " — ратов отклонений S = S d?. Соотношение между теоретической .. регрессионной прямой, прямой наименьших квадратов и точками выборки можно увидеть на рис. 3.1.5. Во многих ПСП имеются программы простой линейной регрес- регрессии, которые вычисляют оценки наименьших квадратов Ьо и Ьх по выборке. На выходе этих программ оценка Ьх обычно называется коэффициентом регрессии, а оценка Ьо — свободным членом уравне- уравнения регрессии. Пример 3.1.1 (продолжение). Для этого примера определялась регрессия Y по X, где У — концентрация молочной кислоты,
3.1. Линейная регрессия и корреляционный анализ 149 измеренная прибором, а X — известная концентрация молоч- молочной кислоты. Программой регрессионного анализа были вычислены оценки р0 и р! по п = 20 наблюдениям, что дало Ьо = 0.159 и Ьх = 1.227. Таким образом, прямая наименьших квадратов есть у = 0.159 + 1.227*. Если X = 1, то у = 1.39, если же X = 10, то # = 12.43. Эта прямая графически представлена на рис. 3.1.1. Для практических целей желательно предсказать истинную кон- концентрацию X по наблюдаемой концентрации Y. Для этого нужно обратить оценку регрессионного уравнения, что дает для оценки X по У уравнение х = (у — 0.159)/1.227. Замечания 3.1.2. 1. Эти оценки могут быть также получены с помощью программ множественной линейной регрессии, для чего на управляющей карте число переменных р задается равным 2. Такие программы обсуждаются в разд. 3.2. 2. Можно интерпретировать предсказанное значение у двумя способами. При первом способе исследователь заинтересован в оце- оценивании значения Y для индивидуума, у которого X принимает значение х. В этой ситуации // есть наилучшая оценка единствен- единственного значения Y, соответствующего X — х. При втором подходе исследователь делает выводы о среднем значении Y для подпопуля- ции, соответствующей значению X = х. Тогда та же самая оцен- оценка # будет наилучшей оценкой среднего значения Y при X = х. Различие между этими двумя способами интерпретации важно, когда строятся доверительные интервалы (см. разд. 3.1.2). 3. Можно «центрировать» модель регрессии, записав + e<> i=l, • • •, п, где Wi=Xl — X И Ро = Ро + М- В этом случае оценкой наименьших квадратов для рх остается Ьъ но оценкой наименьших квадратов для р„ будет теперь Ь'о = у. Практическое и теоретическое преимущество такого представления состоит в том, что оценки у и bL некоррелированны. 4. Если известно, что р0 = 0, то можно использовать модель вида yt = рхг + eh i = 1, ...,«. В программах многих ПСП предусмотрена возможность принудительного проведения линии регрессии через начало координат. 3.1.2. Доверительные интервалы и проверка гипотез Чтобы сделать статистические выводы о Po,,,Ji и.Р., .сначала необ- необходимо оценить дисперсий сг2, .а затем описать распределение ошиб- ошибки случайной переменной""е,-, i = 1, ..., п. Согласно теории об-
150 Гл. 3. Регрессионный и корреляционный анализы щей линейной модели, обычная несмещеннаямоценка для_ог оп- определяется через дисперсию оценки" S tit -bo- tod* s* = ±±-——2 . C.1.8) Положительный квадратный корень из этой величины называют стандартной ошибкой оценки. Обе эти величины, как правило, печатаются в выходных данных. Дисперсию оценки можно также найти из таблицы дисперсионного анализа, которая во многих слу- случаях выводится на печать (см. табл. З.1.1.). Величина^ идентична Таблица 3.1.1 Таблица дисперсионного анализа для простой линейной регрессии Источник Сумма Степени Средний дисперсии квадратов свободы квадрат г-отношение Регрессия SSD = J} (ft - g)* vD =1 MSD = SSD Fo = ^ Отклонение « от perpec- SSR = J] (yt — 0,J vR = n — 2 Полная SSt = 2] (yi — #J vt = « — 1 MSR — среднему квадрату отклонения (остатка) от регрессии. Остаточная сумма квадратов SSR и остаточное число степеней свободы vR являются соответственно числителем и знаменателем •в формуле (^3.1.8). Обусловленная регрессией сумма квадратов SSD получила такое название потому, что ее можно записать как функцию оцененного коэффициента регрессии Ь1% именно ; . \ ••• J Г SSD = b?S(*<-*J- C-1.9) 1 = 1 Итак, чем больше коэффициент регрессии, тем больше сумма квадратов, «обусловленная регрессией». Последняя колонка, F-отношение, может быть использована для проверки гипотез, если ошибки еи ег, ..., еп предполагаются нормально распределенными. В этом"случае моделью простой линейной регрессии будет & = Po + Mi + ft. *=1, ••., л, C.1.10) где еъ е2, ..., еп — независимые случайные ошибки, распределен- распределенные по закону N @, а2).
3.1. Линейная регрессия и корреляционный анализ 151 Для проверки гипотезы о том, что простая линейная регрессия Y по"~Х"отс"утствует, т. е. гипотезы* Яо : рх = б)против альтер- альтернативы #х : р! ф 0, мы используем /Отношение из таблицы дис- дисперсионного анализа Fo-MSd/MSrsMSd/s2. C.1.11) Если верна'гипотеза Яо, то Fo имеет F-распределение с vD = 1 и vR = п — 2 степенями своТюды. Р'-значение есть площадь области под кривой плотности распределения F (vD, vR) справа от FQ. Мы отвергаем Яо, если Р меньше, чем уровень значимости а. Если #0 принимаетсТГГТо наилучшей оценкой Y при любом X = х будет среднее значение у. Если ошибки предполагаются нормальными, можно проверить дополнительные гипотезы и построить доверительные интервалы. Для проверки Яо : pi = $[°\ где C(,0) — константа, используем статистику o [V где V(bi) = -s—^ • C-1.13) 1=1 В выводе программ регрессионного анализа величина [V (Ьг)\1№ часто называется стандартной ошибкой коэффициента регргссии. Если гипотеза Яо верна, то /0 имеет ^-распределение Стьюдента с vR~"=~7i — 2 стёггенями свободы. Р-значение зависит от вида аль- альтернативной гипотезы, что видно из приведенной ниже таблицы. Нулевая Альтернативная p.via4eHUe 1 • ¦ ' гипотеза гипотеза Я,: Pi>№y P = Pr(i(vR) > to) Я,: А <р[°> Р = РгA<уй < t0) Я,: ^ ф № P=2Pr(t(vK)> |/0 Некоторые программы выводят на печать значение ^0. Соответ- Соответственно 100A —а) %-ный доверительный интервал для рх есть i — 2). C.1.14) Для проверки гипотезы Яо : р0 = pj/", где р0 — константа, используем статистику *о — /о | 1» (о. 1.15)
152 Гл. 3. Регрессионный и корреляционный анализы где C.1.16) 1=1 В выводе программ регрессионного анализа величина IV (b0) ]1/2 иногда называется стандартной ошибкой свободного члена. Для #0 статистика tQ имеет ^-распределение Стьюдента с vR = = п — 2 степенями свободы. Р-значение зависит от альтернативы таким же образом, как и для описанного выше теста. Соответству- Соответствующий 100A—а) %-ный доверительный интервал для р0 есть C.1.17) Приведем теперь два доверительных интервала, основанных на оценке J/ (см. замечание 3.1.2.2). Если Q = Ьо + Ьхх интер- интерпретируется как оценка единственного значения Y при X — х, то 100 A — а)%-ный доверительный интервал для Y определяется выражением 1 + — п (Х-Х)* S (*' - *>2 1=1 1/2J _ (a/2) (Л - 2). C.1.18) Если, с другой стороны, # интерпретируется как оценка сред- среднего значения Y при заданном значении X = х, то 100 A — а) %- ным доверительный интервал есть -L-J. (*~*>2 п Е (*« - *>2 1/2 _ (а/а, (л-2). C.1.19) Выбор доверительного интервала зависит от того, как исполь- используется оценка // исследователем. Заметим, что когда х удаляется от х, доверительный интервал увеличивается, т. е. наша оценка п становится менее точной. Кроме того, если п. и Jj (xt — *J ве" лики, то выражение C.1.18) аппроксимируется «быстрым» довери- доверительным интервалом Q±sti-(a/2) (n — 2). Поэтому s действительно можно называть «стандартной ошибкой оценки #». Замечание 3.1.3. Если даже программа регрессии отсутствует в библиотеке программ, исследователь может вычислить все не- необходимые для регрессионного анализа величины, используя
3.1. Линейная регрессия и корреляционный анализ 153 дескриптивную программу. С [помощью типичной дескриптивной программы можно получить п У> s* = 'nli J (x ~~ *J s 1=1 Тогда bi = ^f > b0 = у — btx, sx с с 11~ i \ t,2 2 cc / 1\2 cc CC CC jjD — \il — l)®iSx> j^i "^^ ^i — IIS», ooR = oOx — jjDi Таким образом, получены все компоненты, необходимые для вы- вычисления таблицы дисперсионного анализа, проверки гипотез и получения доверительных интервалов. Пример 3.1.1 (продолжение). Приведенная ниже таблица ди- дисперсионного анализа получена с помощью регрессионной про- программы. Источник Сумма Число Средний f-отио- дисперсии квадра- степеней квадрат шение то в свободы Регрессия 793.099 1 793.099 681.5 Отклонение от 20.945 18 1.164 регрессии Полная 814.044 19 Оценка о2 есть s2 = MSR = 1.164, а оценка стандартной ошибки ecTbS = 1.079. Так как F = 681.5, гипотеза Яо: Pi = 0 отверга- отвергается при Р < 10~8. Для проверки гипотезы #„: {5Х = 1.0 против гипотезы Нх\ $хф 1.0 необходима стандартная ошибка коэффи- коэффициента регрессии [V (&i)]1/2 = 0.047. Итак, 1.227-1.000 я '°= О047 = 4'83- Эта величина значима при Р <« 0.001.
154 Гл. 3. Регрессионный и корреляционный анализы Для проверки гипотезы, что прямая регрессии проходит через начало координат, т. е. гипотезы Яо: р\, = 0 против Нх: р0 ф О, построим 95 %-ный доверительный интервал для р0» что дает 0.159 ± 2.10 @.396) = (—0.673, 0.991), где [V (Ь0)]</2 = 0.396, а 4.975 (Щ — 2-10. Так как этот интервал включает нуль, гипотеза #о принимается. Для 95%-ного интервала для среднего значения Y при X = 7.7 заметим, что оценка среднего значения Y есть $ = 0.159 + + 1.227 G.7) = 9.61. Так как х = 6.7 и X] (xt — xf = 526, получаем У 20 ' I G-7Л^ - 0 246 ~ U.Z40. I 20 + 526 Используя формулу C.1.19), имеем доверительный интервал 9.61 ± 2.10 @.246) = (9.09, 10.13). Этот доверительный интервал включает истинное среднее значение Y при X = 7.7 с доверитель- доверительным уровнем 95 %. 3.1.3. Проверка адекватности линейной модели В этом разделе мы обсудим, каким образом проверить адекватность модели простой линейной регрессии. Под_адекватностью модели простой линейной регрессии подразумевается, что никакая другая модель не даст значимого улучшения в предсказании К.Пусть, на- например,'исследователь пожелал проверить, значимо ли улучшается предсказание Y с помощью модели полиномиальной регрессии у% — — Ро + Pi* + P2*2 + ... + $тхт + ег для некоторого т^ 2.Нуле- 2.Нулевой гипотезой в этом случае будет Но: р2 = ... = рт = 0 (см. разд. 3.2). Если все п значений хъ х2, ..., хп для X различны (так что не имеется двух значений из У с одинаковым значением X), то можно провести лишь ограниченную проверку адекватности ли- линейной модели (как если бы имелось одно измерение). С другой стороны, если для некоторых значений из X имеется более чем по одному значению из Y, то можно проверить гипотезу, что никакая альтернативная модель не дает значимого улучшения предсказания Y по сравнению с моделью простой линейной ре- регрессии. Статистика критерия есть еще одно F-отношение, которое получается из таблицы дисперсионного анализа следующим об- образом. Предположим, что имеется k различных значений для X, на- например хг, ..., хк. Далее, предположим, что для каждого из этих xt имеется щ наблюдений уп, yiz, ..., yln переменной У, k i — 1, ..., k. Пусть щ > 1 для некоторого i, и пусть 2 nt = п- (=1
3.1. Линейная регрессия и корреляционный анализ 155 Тогда модель простой линейной регрессии может быть записана в следующем виде: Ун = Ро + Mi + «</• / = 1. ¦ • ., Щ, i = 1, . . ., k, C.1.20) где etj — независимые случайные величины, распределенные по закону N @, а2). С помощью программ регрессионного анализа можно получить оценки Ьо и Ьх для |30 и pltобрабатывая выборку как п двумерных наблюдений (хъ у1г), (хиуи), ..., {хъ ylnt), ..., {xk,yk^, (xk, ykt), ... • ••> (Xk, Уклк)- В наших обозначениях эти оценки имеют вид k bo = 9..-blX и &х = -Ц -, C.1.21) J3 щ (х, - *)• где "i k nt k ^j4222(ЗЛ-22) 2 Прямая наименьших квадратов есть у = fc0 + bi#, так что рг = = Ьо + ^^ есть оценка У при X = xt. Суммами квадратов в таблице дисперсионного анализа являются k ni к ni SS°=2 S (^; ~ ^-J и SSr=2 2 ^' -ytf (зл-23) с vD=l и vR = n — 2 степенями свободы соответственно. Для проверки гипотезы об адекватности линейной модели оста- остаточная сумма квадратов SSR и число степеней свободы vR делятся между двумя источниками дисперсии относительно регрессии и внутри групп. Соответствующие суммы квадратов SSA и SSW и степени свободы vA и vw представлены в табл. 3.1.2. Отметим сходство между внутригрупповой суммой квадратов в этой таблице и в таблице однофакторного дисперсионного анализа, рассмотренной в разд. 2.4. Статистика критерия для проверки гипотезы Яо: «простая линейная модель адекватна», против Нх: «простая линейная модель неадекватна», есть FO-MSA/MSW> C.1.24) где MSA и MSW — соответственно средние квадраты разброса относительно регрессии и внутри групп. В случае истинности #0 величина Fo имеет распределение cvA = fe — 2 и vw = п — k степенями свободы. Р-значение есть площадь области под кривой плотности распределения F (vA, vw) справа от Fo.
156 Гл. 3. Регрессионный и корреляционный анализы Таблица 3.1.2 Расширенный дисперсионный анализ для простой линейной регрессии Источник _ Степени Средний _, дисперсии сУмма квадратов свободы квадрат F-отношение Регрессия SSD = ? ? (Qt -у.-)г vD = I MSD = SSD Отклонение от perpec- SSA СИИ SSA MSA = ft —2 MSA = —— Fo = A SSw= vw-»-* Полная SST = 2 S (ytj — У--У vT = n — 1 Если Яо принимается, то остаточная сумма квадратов SSR и степени свободы vR пересчитываются, так что SSR = SSA + + SSW и vR = vA + vw. После этого с помощью F-отношения, заданного выражением C.1.11), может быть проверена гипотеза Яо: р\ = 0. Замечание 3.1.4. Таблица для расширенного дисперсионного анализа может быть получена посредством комбинации выходных данных программы регрессии и дескриптивной программы с рас- расслоением данных следующим образом. С помощью программы регрессии определяем значения SSD, vD, MSD, SSR, SST, vR и vT (см. табл. 3.1.1). Применяя теперь дескриптивную программу с расслоением, стратифицируем значения Y, согласно значениям X, и из таблицы однофакторного дисперсионного анализа получим внутригрупповые суммы квадратов SSW и числа степеней сво- свободы vw. Взяв соответствующие разности, получим SSA = SSR — SS Э •—SSW и табл. 3.1.2. = vR — v w. A R Эти величины затем порождают Пример 3.1.1 (продолжение). Так как в этом примере повтор ные измерения были сделаны для каждого из k = 5 значений X, можно проверить адекватность простой линейной модели с а= 0.05.
3.1. Линейная регрессия н корреляционный анализ 157 Таблица расширенного дисперсионного анализа приведена ни- ниже. Заметим, что SSR = 20.945 = SSA + SSW и vR = 18 = vA + + vw. Так как Fo = 1.27 < F0,Bb C, 15), нулевая гипотеза при- принимается. Сумма Число Средний F-otho- Источник дисперсии квадра- степеней квадрат шение тов свободы Регрессия 793.099 1 293.099 1.27 Отклонение от регрессии 4.251 3 1.417 Внутригруппоьой разброс 16.694 15 1.11.3 Полная 814.044 19 3.1.4. Коэффициент корреляции В этом разделе обсуждается выборочный и популяционный коэффи- коэффициенты корреляции. Эти величины были введены в гл. 2 как меры линейной зависимости между двумя переменными. Как было указано ранее, статистические выводьГдтносительно популя- ционного коэффициента корреляции можно сделать, только если и Х_\1 Y суть случайные величины. В частности, если совместное распределение X и Y есть двумерное нормальное распределение, популяционный коэффициент корреляции и модель линейной рег- регрессии соотносятся с этим распределением весьма интересным об- образом. Обратимся теперь к соответствующей теории. Предположим, что случайные величины X и Y имеют дву- двумерное нормальное распределение. Пусть [ix и [iy будут сред- средними для "популяции, а о% и а2у — дисперсиями X и Y. По- пуляционную ковариацию X и Y обозначим через аху. Тогда простой (или смешанный момент) коэффициент корреляции ме- между X и Y есть Р = оху/(охоу). C.1.25) Этот коэффициент есть мера линейной зависимости между X и Y. Значения р заключены в пределах от —1 до +1. Положительное значение р-указывает, что Y имеет тенденцию возрастать совместно с X, в то время как отрицательное р указывает на тенденцию Y к убыванию с ростом X. Экстремальные значения р = ±1 соот- соответствуют полной линейной зависимости между X и Y, так что при данном X = х значение Y точно определено. Для данного значения JL^.x имеется подпопуляция значений Y, соответствующих X = х. Их распределение, называемое услов- условным распределением Y при данном Х=х, есть одномерное нормаль- нормальное распределение со средним I &ху (v ,, \ /о | ой\ г U'X — Н*у \ о— \л х/1 К ,Zi\j\
158 Гл. 3. Регрессионный и корреляционный анализы которое называется условным средним значением Y при данном X — х (или регрессией Y по X). Дисперсия этого распределения, называемая условной дисперсией Y при данном X = х, есть аг2 = а?A-р2). C.1.27) Это последнее выражение позволяет дать весьма важную интерпре- интерпретацию для_р. Заметим, что а2у есть безусловная дисперсия Y, т. е~. это дисперсия Y, когда значение X неизвестно. С другой стороны, а2 есть условная дисперсия Y, т. е. это дисперсия Y, когда из- известно, что соответствующее значение X = х. Итак, из выражения C.1.27) следует, что сокращение дисперсии Y, обусловленное зна- знанием X, есть Оу — О = р О у \OA.ZO) Из этого равенства мы получаем р* = (о* - о2)/<4, C.1.29) \ откуда следует, что квадрат коэффициента корреляции^равен доле дисперсии Y, объяснённой знанием X. <* • Определим теперь случайную величину е — Y — \*,у.Ху которая измеряет отклонение Y от ее среднего значения при фиксированном X = х. Условное распределение е при данном X = х есть нор- нормальное распределение со средним значением 0 и дисперсией а2. Поэтому можно записать — \*у-х ~\ е — [iy п— ух ~\ п~ х ~р е — ро ~\~ р1л ~j— et yo.i .ouj где Pi = -nf, C.1.31) и е распределено как N @, а2). Заметим, что это уравнение имеет ту же самую форму, что и уравнение простой линейной регрессии Y и X C.1.10). Таким образом, теория, развитая в разд. 3.1.1 — 3.1.3, применима к этой модели. " Отметим, что, как следует из C.1.29), квадрат коэффициента корреляции равен доле дисперсии У, «.объясненной» линейной регрес- регрессией Y по X. Когда р = 0, то а2 — а\. Это означает, что никакая доля дисперсии Y не объясняется регрессией F по X. Когда р= = ±1, то а2 = 0. Таким образом, вся дисперсия Y объясняется регрессией Y по X, т. е. зависимость между КиХв точности ли- линейная. Рассмотрим теперь оценивание параметров популяции. Пред- Предположим, что имеется случайная выборка (xL, y^j, (x2,yz), ¦¦¦ ..., (хп, уп), которая порождена согласно второму типу, описанному
3.1. Линейная регрессия и корреляционный анализ 159 в начале этого раздела, так что X и Y суть случайные величины. Оценками для цх, \iy> o%, o$, axy, p будут соответственно х, у, s|, s2y, sxy, г. Далее, оценками р0, рх и а2 будут соответственно Ьо, Ьх и s2. Таким образом, эти величины получаются в програм- программах регрессионного анализа как выборочные средние, дисперсии, ковариации, корреляции, свободный член, коэффициент регрессии и дисперсия оценивания соответственно. Пример 3.1.2 (продолжение). В этом примере X и Y суть рН венозной и артериальной крови, измеренные у 108 пациентов в критическом состоянии. Выборочные оценки, полученные с по- помощью дескриптивной программы, приведены в примере 2.3.1 и объединены здесь для удобства: * =7.373, у =7.413, si- 0.1253, s* =0.1184, «,„ = 0.1101, г = 0.9039. Используя замечание 3.1.3, получаем из этих данных &1= 0.879, Ьо = 0.932, SSD = 10.359, SST = 12.669, SSR=\2.310, s2 = 0.022, [F(Ml1/2 = 0.04051, [V (bo)Y/2 =0.2990. Таким образом, можно сформировать таблицу дисперсионного анализа, приведенную ниже: Источник Сумма Число Средний дисперсии квадратов "веоПбеоИеы квадрат f-отиошение Регрессия 10.359 1 10.359 470.9 Остаток 2.310 106 0.022 Полная 12.669 107 Так как F = 470.9, гипотеза Яо: pi = 0 отвергается при Р <* < ЮЛчто указывает на линейную зависимость рН артериальной крови от рН венозной крови. Проверка гипотезы Яо: рх = 1 на основе выражения C.1.12) приводит к статистике t0 — @.879 — — 1.000)/0.04051 = —2.99. Для альтернативной гипотезы Нх: Pi Ф 1 Р-значение меньше, чем 0.001, так что Яо отвергается. Соответственно 95 %-ный доверительный интервал для р0 есть 0.932 ± 0.299 A.98) = @.340, 1.524). Так как этот интервал не содержит 0, гипотеза Яо: |30 = 0 отвергается при а = 0.05. Наконец, «быстрый» 95 %-ный доверительный интервал для среднего Y при х = 7.395 есть 7.432 ± 0.148 A.98) = G.139, 7.725), где @.022I/2 = 0.148.
160 Гл. 3. Регрессионный и корреляционный анализы В этом разделе осталось еще рассмотреть статистические выводы относительно популяционного коэффициента корреляции. Соот- Соотношение ^ C.1.32) р выражает зависимость между р и р\. В частности, р = 0 в том и только в том случае, когда р\ = 0. Поэтому можно проверить гипотезу Яо: р = 0, используя а) f-отношение C.1.11), b) t- критерий C.1.12) при $[0) = 0 или с) преобразование Фишера, которое будет сейчас рассмотрено. Заметим также, что в силу предположения о нормальности значение р = 0 влечет за собой независимость величин X и У. Вообще для проверки гипотезы Но: р = р0, где р0 Ф ±1, можно применить преобразование Фишера Значения v в зависимости от г приведены в табл. 8, приложение II. В случае истинности нулевой гипотезы распределение v аппрокси- аппроксимируется нормальным со средним значением и дисперсией og = 1-5-. C.1.35) 9 п — 3 v ' Статистикой критерия является г= v ~ Мо . C.1.36) (Гц Если Яо верна, а п велико, то распределение z аппроксимируется посредством JV @, 1). Р-значение зависит от альтернативной ги- гипотезы и Яо отвергается, если Р <^а. Здесь 100 A — а) %-ным доверительным интервалом для \ха является (vlt v2), где Vl = V — O0Zi - (а/2) И Vl = V + O^i _ (а/2)- C.1.37) Применяя обратное преобразование Фишера, получим г .- в2°-' . C.1.38) Это позволяет, обращая табл. 8, приложение II, получать доверительные интервалы для р. Доверительный интервал может быть также использован для проверки гипотезы Яо: р = р0
3.1. Линейная регрессия и корреляционный анализ 161 против #jt р Ф р0, т. е. Яо отвергается при уровне а, если интер- интервал не содержит р0. Эквивалентный способ получения 95 %- или 99 %-ного доверительных интервалов для р состоит в использовании номо- номограммы, приведенной в табл. 9, приложение П. Эта номограмма построена на основе точного распределения г (David A938)). При использовании номограммы из точки, отвечающей вычис- вычисленному значению г (на горизонтальной оси), проводится верти- вертикальная линия до пересечения с границами, соответствующими данному п. Проекции этих двух точек пересечения на вертикаль- вертикальную ось дают границы доверительного интервала. Замечания 3.1.5. 1. Между оценками sx,sy,s и г имеют место следующие соотношения: 2. Коэффициент корреляции инвариантен по отношению к из- изменению положения или масштаба X и/или Y. Так, коэффициент корреляции для центрированной модели, такой же, что и для исходной модели. Поскольку yt есть линейная функция xit коэф- коэффициент корреляции между наблюдаемыми у( и предсказанными значениями yt (i = 1,..., п) по абсолютной величине равен коэф- коэффициенту корреляции г. 3. Статистика критерия t0 C.1.12) для проверки Но: р = О может быть записана эквивалентным образом как t0 = = (г 1/'ТГ^ 4 И 4. Из равенств C.1.27) следует, что а = ау A —р2I'2, т. е. оставшаяся «необъясненной» через X доля стандартного отклоне- отклонения Y равна A — р2I/2. Так как а выражается в тех же единицах измерения, что и Y, то это, возможно, более осмысленная интер- интерпретация р, чем процент объясненной дисперсии. В таблице по- показано соотношение между коэффициентом р и двумя его возмож- возможными интерпретациями. Заметим, что даже при р = 0.95, довольно большая доля — 31 % стандартного отклонения — остается не- необъясненной через X. р 0.0 ±0.2 + 0.4 ±0.6 ±0.8 ±0.9 + 0.95 ±0.99 - Процент ойгясненной дисперсии 0 4 16 36 •64 81 90 98 Процент объясненного стандартного отклонения 100 98 92 80 60 44 31 14 - А. Афифи, С. Эйзен
162 Гл. 3. Регрессионный и корреляционный анализы Пример 3.1.2 (продолжение). Выборочный коэффициент кор- корреляции г между рН венозной [и артериальной крови равен 0.9039. Гипотеза Яо: р = 0 (т. е. независимость X и Y) отверга- отвергается на основе F-отношения дисперсионного анализа, так как F = = 470.9, или ^-критерия (замечание 3.1.5.3). Значение t0 есть , 0.9039 Vm O1 „ 1^1-0.8170 Заметим, что B1.7J = 470.9. Для определения 95 %-ного довзрительного интервала для р сначала находим (табл. 8, приложение II) у l In 1904 1 403 V~ 2 Ш 0.096 ~ к У Откуда, используя выражение C.1.37), получаем щ = 1.493 - 1.96/1/105" =1.302 и v2 -¦= 1.493 + 1.96/J/105 =1.684. Обращение табл. 8 даэт для р интервал @.86, 0.93). Эгот ин- интервал включает истинное значение р с уровнем доверия 95 %. С другой стороны, используя табл. 9, приложение II, с г =¦ = 0.90, получим границы @.85, 0.93), чго указывает на согласо- согласованность обоих методов. Любэй из эгих интервалов может быть использован для проверки гипотезы На: р = р0; например, ги- гипотеза Яо: р = 0.5 должна быгь отвергнута, так как интервал не содержит значения 0.5. ~ . ' (" г г \ 3.1.5. Анализ остатков В предыдущем рассмотрении простой линейной регрессии были сделаны три предположения. Оли касались формы модели, рас- распределения и случайности величины ошибки е. Один из методов проверки адекватности линейной модели обсуждался в разд. 3.1.3. Все три предположения могут быть проверены при рассмотрении графиков остатков dt = yt —Qh i — 1, ..., п. Такие графики включены в состав выходных данных программ бол ьшинства ПСП. Для проверки адекватности модели можно использовать гра- график d^ в зависимости от xt или #;, i = 1, ..., п. Если остатки попа- попадают в горизонтальную полосу е центром на оси абсцисс, модель можно рассматривать как адекватную (рис. 3.1.6, а). Если полоса расширяется, когда х или # возрастает (рис. 3.1.6, Ь), это указывает на гетероскедастичность (т. е. на отсутствие постоянства дисперсии а2). В частности, а может быть функцией C0 + р\х, что делает
3.1. Линейная регрессия и корреляционный анализ 163 необходимым преобразование переменной^-График, показываю- показывающий линейный тренд (рис. 3.1.6, с), дает основание для введения в модель дополнительной независимой переменной (см. разд. 3.2 -У или У • UvJkZd -Хили У -ХилиУ J0. f d ft)-/;:-':-::-.. ''''''¦(¦^¦''¦'¦•^•''-'¦¦:.\ ¦vfe. /или Г Рис. 3.1.6. Примеры графиков остатков, а—адекватная модель; Ь-—гетеро- скедастичность; с—-линейная независимая переменная; d — линейная или ква- квадратичная независимая переменная. о множественной регрессии). График вида, представленного на рис. 3.1.6, d, указывает, что в модель должен быть добавлен ли- линейный или квадратичный член. Для проверки нормальности eit i = 1, ..., п, подходит гисто- гистограмма d(. Нормальность может быть также проверена с помощью критериев согласия. Время или положение _Время или ^положение Рис. 3.1.7. Примеры отсутствия случайности, а—сезонный тренд, b — линей- линейный тренд.
164 Гл. 3. Регрессионный и корреляционный анализы Если данные упорядочены некоторым образом (например, по- последовательность точек по времени или по расположению), то график остатков_а^_в том же самом порядке, в котором собирались данные, позволяет проверить случайность. Гипотезу о случайности можно отвергнуть, если выявлен тренд, причем тренд может иметь как сезонный, так и линейный характер, см. рис. 3.1.7, а и Ь. Дальнейшее обсуждение и рассмотрение этих вопросов со- содержится у Anscombe A961), Anscombe, Tukey A963), Box, Wat- Watson, A962), Draper, Smith A968). 3.2. Множественная линейная регрессия, множественная и частная корреляции Рассмотрим теперь проблему предсказания одной переменной Y с помощью р переменных Хг, 777, Хр, р > 1. Традиционно пере- переменная У называется зависимой переменной, в то время как пере- переменные Хх, ..., Хр называется независимыми переменными. Такое применение слова «независимые» не следует смешивать с понятием «статистической независимости», определенном в разд. 1.1.6. Фактически, в некоторых случаях независимые переменные Хъ..., Xv суть случайные величины, которые, как будет видно из дальнейшего, не обязательно [являются статистически неза- независимыми. Как было отмечено во введении к этой главе, величину Y можно аппроксимировать посредством функции регрессии / ( ), содержащей неизвестные параметры. Уравнение модели, выража- выражающей зависимо:ть между зависимой и независимыми переменными, можно записать в виде y=f{xx, .... хр; рь .. ., рт)+е, C.2.1) где р\, ..., (Зт — неизвестные параметры и е — ошибка аппрок- аппроксимации Y посредством функции регрессии. В частности, если т = р + 1 и f(xx, ..., хр; р0, р\, ..., р„)'= ро + Mi + ... + +^Cрлгр, мы имеем модель множественной линейной регрессии У = Ро + РЛ + • • • + %х* + е- ( C.2.2)... В этом уравнении некоторые независимые переменные могут быть функциями других переменных или друг друга. Например, у = — Ро + Pi sin zi + f>i cos z\ + e есть модель множественной ли- линейной регрессии с^ = sin zx и хг = cos zx- В частности, если xt = xc, i = 1, ..., р, получается модель полиномиальной регрессии " + е- -C-2.3)
3.2. Множественная линейная регрессия и корреляции 165 Наконец, нужно помнить, что слово «линейная» подразумевает- линейность относительно параметров,"но не по отношению к не; зависимым переменным. Так, у = р*0 + sin (Pi^) + f>2x2 не яв- является линейной функцией параметров. В этом разделе рассматривается модель множественной линей- линейной регрессии, заданной в общем виде уравнением C.2.2). Хотя для описания многих реальных ситуаций более подходящими явля- являются нелинейные модели^ (разд. З.^длмейдая^модель может быть полезна по крайней мере'Татгтервое приближение "кнёлйнёиной модели. Раздел 3.2.1 посвящен ЪцйГк?11араНётроГв,~в""разд. 3.2.2 представлены различные критерии для проверки гипотез и дове- доверительные интервалы, содержащие эти параметры. Разделы 3.2.3—3.2.5 содержат материал по теории и оцениванию двух мер ассоциации или зависимости между Y и независимыми перемен- переменными — так называемыми множественным и частным коэффици- коэффициентами корреляции. Поскольку многие выражения в этой главе являются слишком громоздкими, чтобы их можно было предста- представить в простом виде, читатели, математически более искушенные, найдут матричную запись этих выражений в разделах, помечен- помеченных звездочкой. 3.2.1. Оценивание параметров Параметры модели оцениваются по выборке объема п, полученной из популяции W. Так же как в разд. 3.1, эту выборку можно по- получить одним из двух способов. При первом способе фиксируют- фиксируются некоторые значения Хх, ..., Х„, а затем в подпопуляции, определенной этими ограничениями, наблюдаются одно или несколько значений переменной Y. Затем фиксируются новые значения Хх, ..., Хр и наблюдаются одно или несколько значе- значений Y в этой подпопуляции, и так продолжается до тех пор, пока не будет получено п наблюдений. При таком способе формирова- формирования выборки случайной является лишь переменная Y. Второй способ получения выборки заключается в случайном отборе п индивидуумов из популяции W и одновременном наблюдении у них всех р -f- 1 переменных Y, Хх, ..., Хр, причем все эти переменные случайны. Хотя процедура оценивания параметров одинакова для всех способов формирования выборки, одно из основных предположений теории оценивания методом наименьших квадратов (разд. 4.1) состоит в том, что выборка образована пер- первым способом. С другой стороны, излагаемая ниже теория мно- множественного и частного коэффициентов корреляции основывается на том, что выборка образована по второму способу из многомер- многомерной нормальной популяции. В этом и следующих двух разделах предполагается, что хи, ... ..., xpt, i — 1, ..., п, суть фиксированные значения независимых
166 Гл. 3. Регрессионный и корреляционный анализы переменных Хъ ..., Хр (здесь Хг = хи, ..., Хр = хп1, а уь — наблюдаемое значение переменной У). Итак, выборка состоит из п наблюдений {ух; хп, ..., хр1) (уп, х1п, ..., хрп). Для модели множественной линейной регрессии имеем У1 - Ро + РЛ< 4 Ь РЛ» + в,-, C.2,4) где C0, р\, ..., р^ — неизвестные параметры, а еъ ..., еп — не- независимые случайные ошибки, распределенные по закону ./V @, а2). Для получения МНК-оценок Ьо, Ьх, ..., Ьр параметров, пользователь может воспользоваться какой-либо программой линейной регрессии из ПСП. Эти оценки, которые минимизируют сумму квадратов отклонений •S = S (У1 - Ро - fW %х,н)\ C.2.5) обычно называются (частными) коэффициентами регрессии и содержатся в выходных данных программы. Иногда оценка Ь$ называется свободным членом, константой или смещением по у. Оценка уравнения множественной линейной регрессии (или пло- плоскость наименьших квадратов) может быть записана в виде $ = Ь0 + Ь1х1-\ \-ЬрХр. C.2.6) (Матричные выражения для МНК-оценок приведены в замеча- замечании 3.2.1.1.) Заметим, что сумма квадратов отклонений 5 является мерой ошибки, связанной с «подгонкой» выборочных данных посредством модели линейной регрессии; МНК-оценки минимизируют эту ошибку. Далее, bt суть несмещенные оценки для (Зг, i = 0, 1, ..., р, и выражаются линейными функциями наблюдений уъ ... ..., уп. Наконец, из теоремы Гаусса—Маркова (разд. 4.1) сле- следует, что предсказанное значение у имеет минимальную дисперсию для данных хи ..., хр среди всех линейных по Хъ ..., Хр пре- предикторов Y. В выходных данных программ множественной линейной рег- регрессии обычно содержатся еще четыре величины. Первая, называ- называемая остаточной суммой квадратов (или ошибок) SSR, есть значе- значение S, которое получается при подстановке МНК-оценок вместо параметров, т. е. SSR = & (г/,- -bo- bxxxi bpxrAf. C.2.7) <=i Если эту величину разделить на число степеней свободы vR = = п — р — 1 (число степеней свободы остатков или ошибок), получается несмещенная оценка дисперсии ошибок а2, называемая остаточным средним квадратом ошибки MSR. Итак, MSR = SSR/vR. C.2.8)
3.2. Множественная линейная регрессия и корреляции 167 Иногда для этой величины в данной главе будет использоваться обозначение s2. Указанные три величины обычно возникают в таблице дисперсионного анализа аналогично тому, как это показано в табл. 3.2.1. Четвертая величина (не присутствующая в таблице) — квадратный корень из MSR — называется стан- стандартной ошибкой оценки. Итак, s = |/MSR есть оценка стандарт- стандартного отклонения ошибки а. Рассмотрим приведенную таблицу более подробно. Заметим, что каждый из средних квадратов равен сумме квадратов, деленной на соответствующее число степеней свободы. Полная сумма квадра- Таблица 3.2.1. Таблица дисперсионного анализа для модели множественной линейной регрессии Источник _ Степени Средний диспероии Сумма квадратов свободы квадрат F-отиошеииб Р СС АД С Регрессия SSrj = V. b{ V. (хп — ~xi)yi vd = Р MSd = —- f = ттг^ "j •" vd MbR Отклонение MSR = s2= sot perpec- SSR == SSj — SSd r SSR сии — p — I = Vr Полная SSx = 2j (У1 — SJ vt = n — 1 1=1 тов и число степеней свободы равны сумме соответствующих компо- компонент — «обусловленной регрессией» и «остаточной», ^-отношение равно отношению двух средних квадратов, оно будет обсуждаться в разд. 3.2.2. Полная сумма квадратов SST, деленная на число степеней свободы vT, равна оценке дисперсии Y. Наконец, отно- отношение SSD/SST = ^2 (иногда называемое коэффициентом детерми- детерминации) есть доля дисперсии Y, «объясненная» регрессией Y по Хъ ..., Хр (как будет показано дальше, эта величина равна квадрату'множественного коэффициента корреляции). Итак, ?>2 является мерой качества подгонки, т. е. чем больше ?>2, тем лучше модель аппроксимирует Y. Замечания 3.2.1. -kl. Представим теперь модель и МНК- оценки в матричных обозначениях. Это представление есть спе- специальный случай материала, рассматриваемого в разд. 4.1.
168 Гл. 3. Регрессионный и корреляционный анализы Пусть р = (ро, ..., рр)' —вектор параметров размера (р + + 1) X 1, у = (уи ..., у„)' — вектор из п наблюдений, е = = (еъ ..., еп)' — вектор из п ошибок и хп ••• хр1 х12 ¦¦¦ х есть n X (р + \)-матрица плана. Уравнение C.2.4) можно теперь записать в виде где е имеет многомерное нормальное распределение ./V @, аЧ). Выражение C.2.5) можно представить в матричном виде: 5 = = (у — Х'Р)' (у — Х'Р), а вектор МНК-оценок b = (&„, Ьи ..., Ьр)' получается из решения системы нормальных уравнений (XX') р = = Ху. Решение этой системы имеет вид b = (XX') (Ху), а его ковариационная матрица равна Cov (b) = о2 (XX'). Наконец, несмещенная оценка дисперсии есть MSR = s2 = (у - Х'Ь)' (у - X'b)/(n - р - 1). • 2. Существует «центрированная» форма модели множественной линейной регрессии, которая является обобщением центрирован- центрированной простой линейной регрессии, рассмотренной в разд. 3.1. Центрированная модель задается уравнениями Hi = Ро + Pi (хи — хх) -\ + рр (Xpi — хр) -f ei, i = l,..., л, где П ^/ = 4" S *'*• 1 = 1' '"'' р и Ро= Р° + Р1^1 ~)— + &>*"• МНК-оценками для рх, ..., РР будут, как и раньше, Ьъ ..., ЬР, в то время как МНК-оценкой для ро будет Ы> = у. Преимущество этой модели заключается в том, что оценки Ьх, ..., Ьо не коррели- рованы с Ь'о. Можно показать, что это упрощает нахождение дове- доверительных интервалов для предсказанного значения у — у -\- + Ьх {хх — хх) + ... + Ьр (хр — хр). •к 3. В матричных обозначениях центрированная модель вы- выглядит следующим образом. Пусть А есть рхр-матрица сумм квадратов и смещенных произведений отклонений с элементами п <*ij = L (xik — xt) (xjk — Xj), i, j = 1, .... p, a g есть (рх 1)-вектор
3.2. Множественная линейная регрессия и корреляции 169 п с 1-м элементом gt — 2j (Уь. — 9) fe — хд> i — 1, • ••> Р- Тогда вектор МНК-оценок b = fo, .... *>„)' = A-ig. Кроме того, Cov(b) -= 02А"Х и cov (i/, b() — О, / = 1, . . ., р. • 4. Если в оценку регрессионного уравнения в качестве значе- значений хи ..., хр подставляются средние значения хъ ..., хр, то пред- предсказанное значение р — у. Пример 3.2.1. Экспериментально изучалось октановое число бензина, содержащего различные концентрации двух добавок А и В. Пусть Y ¦— октановое число, Xt — процент первой добавки и Х2 — процент второй добавки. Предполагалось, что эффекты добавок А и В складываются, так что для описания зависимости Y от Хг и Х2 использовалась множественная линейная регрессия У = Ро + Рл + Рг-^г + е- Каждая из двух независимых перемен- переменных принимала одно из четырех фиксированных значений, а значе- значение Y определялось для каждой комбинации значений Хх = хх и Хг = хг. Анализируемые данные приведены в таблице. Хг 2 3 4 5 2 3 4 5 Y 96.3 95.7 99.9 99.4 95.1 97.8 99.3 104.9 xt 4 5 Хг 2 3 4 5 2 3 4 5 Y 96.2 100.1 103.2 104.3 97.8 102.2 104.7 108.8 С помощью программы множественной регрессии из ПСП были получены оценки Ьо — 84.553, Ьх = 1.833 и Ьг — 2.683. Таким образом, оценка уравнения множественной регрессии есть § = = 84.553 + 1.833лгх + 2.683л:2. Таблица дисперсионного анализа для этого примера имеет следующий вид: Источник Сумма Степени Средний _ дисперсии квадратов свободы квадрат '•-отношение Регрессия 211.084 2 105.542 54.487 Отклонение от ре- 25.182 13 1.937 грессии Полная 236.266' 15
170 Гл. 3. Регрессионный и корреляционный анализы Таким образом, несмещенная оценка дисперсии ошибки а2 есть MSR = 1.937, а стандартная ошибка оценки s = [А.ЭЗ? = 1.392. Наконец, отношение R% = SSD/SST = 211.084/236.266 = 0.893 есть доля дисперсии, объясненная регрессией У по Хх и Хг. 3.2.2. Доверительные интервалы и проверка гипотез Кроме МНК-оценок для параметров р\, ..., |5Я, программы мно- множественной регрессии из ПСП вычисляют ряд величин, которые используются для построения доверительных интервалов и про- проверки гипотез относительно параметров. Эти величины называются стандартными ошибками коэффициентов. Для каждого р\ стан- стандартная ошибка коэффициента se (frx) есть оценка стандартного отклонения оценки Ь( от р\, i = 1, ..., р. Так как каждая из этих величин является функцией от MSR и имеет vR = п — р — 1 степеней свободы, то 100 A — а) %-ный доверительный интервал для рг есть &(±se(fr,)^_(a/2)(vR), i = l р. C.2.9) Некоторые программы вычисляют также стандартную ошибку свободного члена se (b0). В этом случае выражение C.2.9) может быть использовано и при i = 0. По этому вопросу см. также замечание 3.2.2.2. Гипотезы относительно коэффициентов р\, ..., р"р делятся на три категории: можно проверять, что все коэффициенты равны: р\ = = f}2 = ... = fip = 0; можно проверять равенство р\ = 0 для любого одного k-то коэффициента, k = 1, ..., р; или можно про- проверять гипотезу о том, что некоторое подмножество из т коэффи- коэффициентов равно нулю, 1 < m < р. Гипотезу Яо: fij = ... = р"р = 0 можно рассматривать как гипотезу о том, что «независимые переменные Хъ ..., Хр не улуч- улучшают предсказание Y относительно у = у». Если эта гипотеза не отвергается, то, следовательно, у принимается как лучшее предска- предсказываемое значение Y. Альтернативная гипотеза состоит в том, что не все коэффициенты равны нулю, т. е. что «некоторые из незави- независимых переменных улучшают предсказание У по сравнению су — у». Статистикой критерия является F-отношение, данное в последней колонке таблицы дисперсионного анализа (табл. 3.2.1), т. е. F = MSD/MSR. C.2.10) Статистика F для Ло имеет F-распределение с vD = р и vR = = п — р — 1 степенями свободы. Соответствующее Р -значение есть площадь области F под кривой плотности распределения F (vd> vr) справа от точки, соответствующей вычисленному значению F.
3.2. Множественная линейная регрессия и корреляции 171 Гипотеза Но: C* = О для k = 1, ..., р может рассматриваться как гипотеза о том, что «переменная Xk не улучшает предсказание Y по сравнению с предсказанием, получаемым с помощью регрес- регрессии Y по (р — 1) остальным переменным». Одной из возможных статистик критерия при альтернативной гипотезе Нх: $к Ф 0 будет C.2.11) которая для #0 имеет F-распределение с 1 и vR = и — р — 1 степенями свободы. Соответствующее Л-значение есть площадь области под кривой плотности распределения F (I, vR), располо- расположенной правее вычисленного значения F. Некоторые программы печатают значение F для каждого коэф- A ^ Ллазыняют Е чения. „Другие„.лщотдаммы. .печатают, .-заавейие^эквивалентно^ статастики___. i = bk/se(bk), C.2.12) которая для #0 имеет распределение Стьюдента с vR = п — р — 1 степенями свободы. Соответствующее Р-значение есть удвоенная площадь области, расположенной под кривой плотности распре- распределения t (vR) справа от точки \t\. С помощью /-распределения можно проверить гипотезу Но: Рб — Р*°\ где р^0)—заданная константа, относительно одно- односторонней и двусторонней альтернатив. Статистика критерия в этом случае имеет вид , C.2.13) а Р-значение получается с помощью кривой плотности распределе- распределения t (vR) в зависимости от альтернативной гипотезы. Труднее проверить промежуточную гипотезу о равенстве нулю некоторого подмножества из т коэффициентов. Без потери общно- общности предположим, что подмножество состоит из первых т коэффи- коэффициентов р\, ..., рт. Тогда проверка гипотезы Но: рх = ... = fim = = 0 эквивалентна проверке гипотезы о том, что «т переменных Xlt .... Хт не улучшают предсказание Y относительно предсказа- предсказания, получаемого с помощью регрессии Y по Хт+1, ..., Хр». Для проверки #о сначала вычислим регрессию Y по переменным Хт+1, ..., Хр и из анализа соответствующей таблицы дисперсион- дисперсионного анализа получим остаточную сумму квадратов SSr, Затем вычислим регрессию Y по всему набору переменных Хъ ..., Хт, ... ..., Xр. Остаточную сумму квадратов и средний квадрат для этого случая обозначим через SSR и MSR соответственно. Тогда стати- статистика критерия для Но имеет вид ^=. C.2.14)
172 Гл. 3. Регрессионный и корреляционный анализы Для гипотезы Но она имеет f-распределение стя vR = п — р — 1 степенями свободы. Я-значение есть площадь области, расположен- расположенной под кривой плотности распределения F (m, vR) справа от точки F, равной вычисленному значению F. Замечания 3.2.2. В этом замечании приводится матричная форма записи доверительных интервалов для среднего значения Y и свободного члена C0. * 1. Дисперсия у при хг, ..., хр есть где элементы матрицы А определены в замечании 3.2.1.3 и п d = (*! — хъ . . ., хр — хр)', xt = ? xik/n. Соответственно 100 A — а) % -ный доверительный интервал для- истинного среднего значения Y при заданных xlt ..., хр определя- определяется выражением У ± [s2 (A/я) 4- d'A^d)]^ t: _ (a/2, {п-р-1), a 100A—а) %-ный доверительный интервал для единичного- нового значения Y при заданных хх, ..., хр определяется выраже- выражением д ± [s2 A + A/п) + й'к-ЩУН^(аП)(п - р - 1). • * 2. Заметим, что Ьо есть предсказанное значение У при1 x-l = ... = хр = 0. Следовательно, дисперсия Ьо будет равна и 100 A — а) %-ный доверительный интервал для ро определяется выражением bo±[s2((\/n) + х'А-'х)]'/а*,_ (в/2)(п - Р - 1). Некоторые программы печатают элементы матрицы А, что дает возможность определять численные значения приведенных выше выражений. * 3. Если гипотеза Яо: р\ = 0 проверяется для нескольких значений k при одном и том же уровне значимости а, то совместный уровень значимости не обязательно будет равен а. Чтобы обойти эту трудность, можно использовать множественный доверительный интервал для всех рь k — 1, ..., р, такой, что совместный довери- доверительный уровень будет равен 1 — а. Этот множественный довери- доверительный интервал для р4 записывается в виде bk ±se(bk)[PFx_a(p, n-p- 1)F2. Гипотеза #„: рЧ = C?0> отвергается при уровне значимости а, если C?0) не попадает в этот интервал.
3.2. Множественная линейная регрессия и корреляции 173 Пример 3.2.1 (продолжение). Из таблицы дисперсионного ана- анализа для этого примера было определено значение F = 54.487. При сравнении этого значения F с процентилями распределения F B, 13) гипотеза Яо: Pi = Р2 = О отвергается с Р < 0.001. Так что октановое число линейно зависит от концентрации по меньшей мере одной из добавок А или В. Коэффициенты регрессии, стандартные ошибки коэффициентов, F-статистика C.2.11) и Р-значение, полученное после сравнения F с процентилями распределения F A, 13), объединены в приводимой ниже таблице: Оценки коэф- Стандартные Переменные фициеитов ошибки ко- F Р регрессии эффициентов Хх 1.833 0.3112 34.69 0.001 Х2 2.683 0.3112 74.33 0.001 Итак, гипотеза Яо: р\ = 0 отвергается, равно как и гипотеза #„: Р2 = 0. Следовательно, Хх дает значимое улучшение предсказания Y по сравнению с предсказанием, получаемым с помощью регрессии У только по Xt; соответственно Xt значимо улучшает предсказание У по сравнению с предсказанием Y с помощью регрессии У только по Хх. Случай проверки гипотезы о том, что все коэффициенты, входящие в подмножество из т = 2 коэффициентов, равны нулю, будет рассмотрен в примере 3.2.3. Для 95 %-ного доверительного интервала для рх имеем 1.833 + 0.3112 B.160) = A.161, 2.505), где to.9,6 A3) = 2.160. До- Доверительный интервал для р2 получается таким же образом. Наконец, для проверки гипотезы Яо: р2 = 3.0 против Ях: Р2 <3.0 при уровне а = 0.05 из выражения C.2.13) вычисляется величина t = B.683 — 3.000)/0.3112 = —1.019. Это значение сравнивается с процентилями ^-распределения Стьюдента с vR = = 13 степеням свободы. Так как альтернатива односторонняя, имеем Р > 0.10 и гипотеза Но принимается. Замечание 3.2.3. В регр ессионной модели коэффициент |3. измеряет степень изменения Y в зависимости от X,-, когда значения Xj, j = 1, ..., р, \ф i, фиксированы. Однако эти коэффициенты могут быть несравнимы по величине из-за различия в единицах измерения Хъ ..., Х„. Эта трудность может быть преодолена применением стандащщашвтшх Шзавпсимых ~переменных. Именно, введем~переменные Z] = Xj/sj для / = 1, ,..^р, rflegj_= = Jj (xjt — XjJ/(n — 1). Модель множественной линейной регрес- регрессии в терминах Zj теперь будет даваться уравнениями У1 = То + YA, + . . . -Н yPzpi + eh ; = !,..., п,
174 Гл. 3. Регрессионный и корреляционный анализы где yk, k = О, ..., р, — неизвестные параметры и et — независи- независимые случайные ошибки, распределенные по закону N @, а2). МНК-оценки ск для у^ и проверка гипотез следуют из развитой выше теории после замены х}- и [34 на Zj и yk соответственно. Преиму- Преимущество стандартизации состоит в том, что уи ..., ур измеряют теперь степень изменения в одной и той же шкале. Это позволяет делать выводы о влиянии независимых переменных Zx, ..., Zp (или, что эквивалентно, Хх, ..., Хр). Так, большое значение Cj указывает на высокую степень влияния Zj (или Xj), j = 1, ..., p. 3.2.3. Множественный коэффициент корреляции В этом и следующем разделах будет рассматриваться теоретиче- теоретическое обоснование модели множественной линейной регрессии. Эта теория предполагает, что все р + 1 переменные Y, Хг, ..., Хр суть случайные величины, имеющие совместное многомерное нормаль- нормальное распределение. В этом разделе будет показано, что среднее значение условного распределения Y при данных значениях Хг = хг, ..., Хр = хр определяется функцией множественной ли- линейной регрессии ро + р\*х + ••• + %хр. Это приводит к модели множественной линейной регрессии, в- которой дисперсия ошибки а2 есть функция дисперсии а2у переменной Y и величины, называе- называемой множественным коэффициентом корреляции. Для ознакомле- ознакомления с концепциями многомерного статистического анализа чи- читатель может воспользоваться разд. L 1.6, приложение I. Пусть многомерное нормальное распределение Y, Хъ ..., Хр имеет средние \лу, [А[, ..., \ip и дисперсии ау, а}, ..., ар соответ- соответственно. Обозначим ковариацию У с Xt через ayi и ковариацию Xt сХ}черезои для i, } = 1, ..., р. Определим далее коэффициенты корреляции Pyxt ¦= OydiOyOi) И pXiX]=*Ot,/(OtO,). Для данных значений Хх = хъ ..., Хр — хр существует подмно- подмножество соответствующих значений Y. Их распределение, называе- называемое условным распределением Y при данных Хг = хх, ..., Хр = х,, является нормальным со средним значением \h.4 ... *„=¦ V-y + Pi(Jfi - Ы Н h % W - Vp), C-2.15) которое называется условным ожиданием Y при данных Хг = = хъ ..., Хр = хр или регрессией Y по Хъ ..., Хр. Величины Pit •••. Рр называются (частными) коэффициентами регрессии и являются функциями дисперсий и ковариаций. Дисперсия этого условного распределения дается величиной o« = oJ(l-p»y.Xl...), C.2.16)
3.2. Множественная лииейиая регрессия и корреляции 175 где py.xv..x —положительный квадратный корень из p\.Xv..X)— называется мн:ожшшшшь1М.^соз4фыМШШ9^ корреляции между Y и Хг, .... XpV ~ ' - Если ввести случайную величину e = Y—\iy-Xl...x , т0 условное распределение е при данных Хх = хъ ..., Хр = хр будет N @, а2). Используя условное распределение можно написать Г = Ро + РЛ+---+Рр*Р + е. C-2.17) где Po = ^-fVj VPVP C.2.18) и е распределено по ./V @, о2). Заметим, что уравнение C.2.17) имеет тот же вид, что и модель множественной линейной регрессии C.2.2). Замечание 3.2.4. 1. Множественный коэффициент корреляции Рух ...х является мерой линейной зависимости между Y и набором переменных \ХХ, ..., Хр\, причем 0 <: ру.х х < 1- Нулевое значение этого коэффициента указывает, что Y не зависит (ли- (линейно) от набора переменных \ХЪ ..., ХР\, а значение 1 указывает на полную линейную зависимость, при которой переменная Y точно равна линейной комбинации переменных Хи ..., Хр. 2. Разрешая уравнение C.2.16) относительно множественного коэффициента корреляции, получаем Итак, квадрат множественного коэффициента корреляции равен доле дисперсии Y, «объясненной» регрессионной зависимостью с Ху, ..., Хр. 3. Множественный коэффициент корреляции неотрицателен по определению. Так, в случае двумерного нормального распределе- распределения (р — 1) имеем Pyxi = P*i-</ = |Pa;i!/|> где pXlV — простой коэффициент корреляции между Хг и Y. 4. Когда р — 2, выражение C.2.15) можно записать в виде IV*,*, = И» + Pi (*1 — M-l) + Р.2 (Х2 — И2)- График этого уравнения есть плоскость (называемая плоскостью регрессии Y по Хг и Х2) в пространстве, определенном координат- координатными осями хх, х% и \iy.Xlx2- При р > 2 график, определяемый уравнением C.2.15), будет гиперплоскостью в (р + 1)-мерном пространстве, определенном осями Х\, ..., хр и \iy.x ...x ¦ 5. МножественныйС1соэффици^нт]кор_рхдяШВ есть максималь- максимальное значение простого коэффициента корреляции между Y и линейной комбинацией Хх, ¦¦-, Хв/ Более того, \iu.x ...x является Р
176 Гл. 3. Регрессионный и корреляционный анализы линейной комбинацией, на которой этот максимум достигается. Зависимость между множественным коэффициентом корреляции и параметрами регрессии $и .... р*р будет обсуждаться в замечании 3.2.6.4. 6. Множественный коэффициент корреляции инвариантен отно- относительно невырожденных линейных преобразований исходных переменных. В частности, он инвариантен к изменению масштаба или начала отсчета шкалы измерения У, Хг, ..., Хр. 7. Относительно множественного коэффициента корреляции можно сделать замечание, аналогичное 3.1.5.4. Так, (I —p\xv..x I/2 есть доля стандартного отклонения У, оставшаяся «необъясненной» зависимостью от Хх, ..., Хр. Например, если множественный коэффициент корреляции равен 0.9, остается 44 % необъясненного стандартного отклонения Y. 3.2.4, Частный коэффициент корреляции В этом разделе рассматривается еще один коэффициент корреля- корреляции, называемый частным коэффициентом корреляции, который используется как мера линейной зависимости между двумя какими- либо переменными из У, Хъ ..., Хр после вычитания «эффекта», обусловленного взаимодействием этих двух переменных с некото- некоторым непустым подмножеством из оставшихся р — 1 переменных. В частности, таким образом можно измерять зависимость между Y и независимой переменной Хт после учета линейной зависимости У от некоторого подмножества k переменных, содержащегося среди р — 1 независимых переменных Xt, i = 1, ..., р, i ф т. Эту линейную зависимость У от подмножества k переменных и называют «эффектом» подмножества, о котором упоминалось выше. Теория частного коэффициента корреляции основана, как будет показано далее, на изучении двух условных распределений. Пусть I w h — две какие-либо переменные из набора У, Хи ..., Хр и с — некоторое непустое подмножество из оставшихся р — 1 переменных. Определим величины Zx = / — щ.с и Z2 = = h — \ih-c- Здесь Hi.с, \ih-c —соответственно условные ожидае- ожидаемые значения lnh при данном с. Заметим, что Zx и Z2 — случайные величины, так как они суть функции случайных величин из с. Частный коэффициент корреляции между I uh при фиксированных значениях переменных из с есть рж1ц< C.2.19 где рг%г, — простой коэффициент корреляции между Zx и Z2. В этом и следующем разделах будут рассматриваться два частных случая. В первом случае I = Y, h = Хт, т = 1, ..., р, а с состав- составляют все оставшиеся р — 1 независимые переменные. Соответ- Соответствующий частный коэффициент корреляции будет обозначаться
3.2. Множественная линейная регрессия и корреляции 177 через 9ухтс- Во втором случае также I — Y, h — Хт, а с есть подмножество, состоящее из первых k независимых переменных \ХХ, Хг, ..., Хк\, где 1 <: k <m < р, а частный коэффициент корреляции будет обозначаться через pyxm-Xl...xk- Вообще, если в с содержится k переменных, о соответствующем частном коэффи- коэффициенте корреляции говорится, что это коэффициент k-го порядка. Замечания 3.2.5. 1. Частный коэффициент корреляции р/А.с есть мера линейной зависимости между / и h, когда величины переменных из с фиксированы. Значения этого коэффициента корреляции заключены между —1 и +1; значение нуль указывает на то, что Ivih независимы, когда величины переменных в с фикси- фиксированы. 2. Имеет место следующее тождество между множественным и частным коэффициентами корреляции для набора переменных Y, Xi, ..., Xk_\, Xfr, k = 2, ..., p: Это тождество следует из того, что V(Y\XU .-., Xk) где V (Y\ Хъ ..., Xt) — условная дисперсия Y при заданных значениях Xlt ..., Xiy i = 1, ..., р. Так как , V(Y\Xi Xk_x) -V(Y\Xt Xk) 9yxkx1...xk_1- V(Y\X%, .... Xk_j) ' то квадрат частного коэффициента корреляции можно определить как долю остаточной дисперсии Y, «объясненной-» добавлением переменной Xk к набору {Xlt ..., Xk_x\. 3. Верно соотношение „ \ У(Хт\с)-\ 1/2 , где с состоит из всех оставшихся р — 1 переменных, а V (Хт \ с) — условная дисперсия Хт при фиксированных значениях перемен- переменных из с. Поэтому проверка гипотезы §т = 0 эквивалентна про- проверке гипотезы рух .с = 0, что будет использовано в следующем разделе. 4. Частные коэффициенты корреляции могут быть вычислены на основе рекуррентных соотношений следующим образом. Если l,had — три различные перемэнныэ из множества {У, Хх, ..., Хр), то все частные коэффициенты корреляции первого порядка даются выражением -PL)
178 Гл. 3. Регрессионный и корреляционный анализы где все величины в правой части суть простые коэффициенты кор- корреляции. Далее последовательно применяя рекуррентную фор- формулу 1 Plh-c ~Pld-c9hd-c где с — любое подмножество оставшихся переменных, можно' получить частные коэффициенты корреляции любого порядка. 3.2.5. Оценка и проверка гипотез о множественных и частных коэффициентах корреляции Обратимся теперь к вопросу получения и интерпретации введен- введенных выше коэффициентов корреляции. Так как соответствующая теория требует, чтобы все р + 1 переменные были случайными, предположим, что выборка (уг, хп, ..., хр1), ..., (у,„ xv,, ..., хрп) была получена случайным выбором п индивидуумов из многомер- многомерной нормально распределенной популяции с параметрами, опре- определенными в разд. 3.2.3. Для каждого индивидуума все р + 1 переменные измерялись одновременно. Оценками средних, диспер- дисперсий и ковариаций для этой популяции будут соответственно выборочные средние, дисперсии и ковариаций, рассмотренные в гл. 2. Эти оценки могут быть получены с помощью как дескрип- дескриптивных программ, так и программ множественной линейной регрес- регрессии. Обычно эти программы выдают и матрицу простых коэффи- коэффициентов корреляции между (р + 1) переменными. В разд. 3.2.3 было показано, что условное распределение Y при фиксированных Хг = хх, ..., Хр = хр приводит к модели множественной линейной регрессии. Таким образом, для получен- полученной выборки имеем У1 = Ро + Pi% + • • ¦ + $pXPi + eh i = 1, . . ., л, C.2.20) где et — независимые случайные величины, распределенные по закону N @, а2). Так как эти уравнения идентичны уравнениям C.2.4), оценки для |30, р\, ..., (Зр и а2 получаются тем же способом, что и в разд. 3.2.1, а критерии для проверки гипотез и доверитель- доверительные интервалы, приведенные в разд. 3.2.2, справедливы и здесь. Поэтому остается только получить оценки множественного и частного коэффициентов корреляции. Сначала рассмотрим сле- следующий пример. Пример 3.2.2. В этом примере продолжено изучение данных, приведенных в примере 2.4.1. У п = 141 больного было проведено по пять измерений (в мм рт. ст.) артериального давления с исполь- использованием внутриартериального катетера и метода компрессионной манжеты. Все пять переменных являются случайными. С помощью
3.2. Множественная линейная регрессия и корреляции 179 дескриптивной программы были вычислены выборочные средние, ковариационная и корреляционная матрицы. Ниже приведена таблица средних значений и корреляционная матрица. Метод Переменная Выборочное Выборочные среднее стандартные отклонения Внутриартериальный Хг — систолическое давление xv — 112.2 Х2 — диастолическое давление х2. = 59.4 Х3 — среднее давление xs. = 76.8 Компрессионной ман- Х4— систолическое давление xi. = 107.0 жеты ХБ— диастолическое давление хь. = 66.8 s1=28.6 s2 = 17.1 s3 = 21.0 s4 = 28.9 s4 = 19.3 Корреляционная матрица Л[ Л2 Лз Л4 Лд 1.000 0.839 0.927 0.871 0.753 1.000 0.967 0.778 0.828 1.000 0.845 0.852 1.000 0.837 1.000 В примере 2.4.1 было показано, что измерение давления с по- помощью манжеты является значительно менее точным, чем внутри- артериальный метод. Так как величина систолического давления, измеренная методом манжеты, не может быть непосредственно сопоставлена с Хх — систолическим давлением, измеренным внутриартериальным методом, интересно получить уравнение, выражающее У = Хи как линейную функцию Х4 и Х5 ¦— соответ- соответственно систолического и диастолического давлений, измеренных методом манжеты. С помощью программы множественной линейной регрессии была получена оценка уравнения регрессии вида # = = 21.99 + 0.755лг4 + 0.141х5. Заметим, что когда имеются значе- значения переменных xt = 107.0 и хъ = 66.8, т. е. они совпадают со средними значениями, то # = 112.2 — среднее значение систоли- систолического давления при измерении внутриартериальным методом, как это и следует из замечания 3.2.1.4. Аналогичная оценка уравнения регрессии может быть получена и для Y = Х2 — диа- диастолического давления, измеренного внутриартериальным ме- методом. Пример 3.2.3. В этом примере используются те же самые дан- данные, что и в предыдущем, но теперь в качестве зависимой пере-
180 Гл. 3. Регрессионный и корреляционный анализы менной берется систолическое давление, измеренное методом манжеты, т. е. Y = ХА, а в качестве независимых переменных выступают Хг, Х2я Х3 — соответственно систолическое, диастоли- ческое и среднее давления, измеренные внутриартериальным методом. При таком выборе независимой и зависимых переменных множественный регрессионный анализ приводит к некоторой оценке ошибки измерения методом манжеты при данной комбина- комбинации величин, измеренных внутриартериальным методом. Таким образом, в этом исследовании целью скорее является не оценива- оценивание, а проверка того, насколько хорошо измерение методом манжеты может быть «объяснено» через измерения внутриарте- внутриартериальным методом. Это позволяет сделать некоторые выводы относительно ошибки, связанной с применением метода манжеты. Оценка уравнения регрессии, полученная с помощью программы множественной линейной регрессии, имеет вид у = 8.29 + + 0.597^! — 0.136х2 + 0.519;Сз. Соответствующая таблица диспер- дисперсионного анализа приведена ниже. Источник Сумма Число Средний дисперсии квадратов степеней квадрат г-отношение Регрессия 89 963.8 3 29 987.9 F= 152.1 Остаток 27 007.6 137 197.1 Общая 116 971.4 140 Итак, несмещенная оценка дисперсии ошибки о2 есть MSR = s2 = = 197.1. Стандартная ошибка оценки s = j/ 197.1 = 14.04 есть мера ошибки, связанной с применением метода манжеты. Наконец, из того что R2 = SSD/SST = 89 963/116 971 = 0.769 следует, что- 76.9 % дисперсии величины систолического давления, измерен- измеренного методом манжеты, может быть объяснено регрессионной зависимостью. Используем теперь технику, развитую в разд. 3.2.2 для про- проверки гипотез и получения доверительных интервалов. Из таблицы дисперсионного анализа имеем F = 152.1. Сравнивая это значение F с процентилями распределения F C, 137), получаем, что гипо- гипотезу Но: Рх = (J2 = Рз = 0 можно отбросить с Р < 10 я. Как и следовало ожидать, имеется сильная связь между величиной, систолического давления, полученной методом манжеты, и измере- измерениями давления внутриартериальным методом. Коэффициенты регрессии, стандартные ошибки коэффициентов, F-статистика вида C.2.11) и Я-значение, полученное путем сравне- сравнения с процентилями распределения F A, 137), приведены во вспо- вспомогательной таблице.
3.2. Множественная линейная регрессия и корреляции 18В п Коэффициент Стандартная Переменная регрессии ошибка ко- г Р эффициента Лг — внутриартериальное 0.597 0.136 19.27<0.001 систолическое давле- давление Хг — внутриартериальное —0.136 0.334 0.17 NS диастолическое давле- давление Ха — среднее давление 0.519 0.393 1.74 NS Используя данные из этой таблицы для проверки гипотез; о коэффициентах регрессии, получаем, что гипотеза Яо: рх = 0' отвергается, в то время как каждая из гипотез Яо: р2 = 0 и Но: Рз = 0 принимается. Это значит, что добавление переменной Xt значимо улучшает предсказание Y по сравнению с регрессией Y только по Х2 и Х3; добавление Х2 не дает значимого улучшения предсказания Y по сравнению с регрессией Y по Xt и Х3; и добав- добавление переменной Xs не приводит к значимому улучшению предска- предсказания Y по сравнению с регрессией Y по Хг и Х2- На основе этих, результатов было бы, однако, ошибочным заключить, что совмест- совместное добавление переменных Х% и Х3 не приведет к значимому улучшению предсказания Y по сравнению с регрессией Y по Хх. Чтобы проверить это, нужно статистически испытать гипотезу Но: Ра = Рз = 0. Регрессия Y по Хг дает SSR = 28 240.4. Для регрес- регрессии же Y по всем трем переменным имеем SSR = 27 007.6 и MSR = = 197.1. Используя выражение C.2.14), получаем г. B8 240.4 -27007.6)/2 Q1O t = 197Л = 6Лд- Если теперь сравнить эту величину F с процентилями распределе- распределения F B, 137), получим, что Р-значение меньше, чем 0.05; следова- следовательно, переменная Хг и/или Х3 значимо улучшает предсказание- Y, основанное только на использовании Xv Наконец, 95 %-ный доверительный интервал для рг есть 0.597 ± 0.136 A.97) = = @.329, 0.865), где io.976 A37) = 1.97. Аналогично можно вы- вычислить доверительные интервалы для р2 и Р3. Анализ примера; будет продолжен в этой главе. Перейдем теперь к вопросу оценивания множественного, и частного коэффициентов"Т<б"ррёляцииТ~ Оценку" множественного' коэффициента корреляции "будем "обозначать через ry.Xi,,,x . В выходных данных программ из ПСП для обозначения этой величины обычно используются названия множественный R или множественный коэффициент корреляции. Эта оценка может быть
182 Гл. 3. Регрессионный и корреляционный анализы получена и из таблицы дисперсионного анализа (табл. 3.2.1) с помощью соотношения Эта же величина может быть вычислена и как положительный квадратный корень из коэффициента детерминации R2, который всегда неотрицателен как и его аналог для популяции. Для чего можно использовать оценку множественного коэффи- коэффициента корреляции? Во-первых, она является мерой линейной зависимости У. от всех независимых переменных. Чем ближе ГуХ ...х к 1. тем сильнее зависимость. Для проверки гипотезы о том, что линейная зависимость отсутствует, т. е. для проверки Но: py.xv .х = 0, можно использовать F-статистику ..C.2.10), так как эта гипотеза эквивалентна гипотезе Яо: р\ = р2 = ... = Рр = = 0. Можно воспользоваться и эквивалентной статистикой F=n-p-X гу'1-*р . C.2.22) Р-значение есть площадь области, расположенной правее F по кривой функции плотности распределения F (р, п — р — 1). Второе применение оценки множественного коэффициента корреляции следует из замечания 3.2.4.2: квадрат этого коэффи- коэффициента оценивает «долю дисперсии У, объясненную линейной регрессией У по Xlt ..., Хръ. Остановимся теперь на оценивании частного коэффициента корреляции. Сначала рассмотрим оценку гих ,с для рух ,с, где т = 1, ..., р и с — множество всех оставшихся р — 1 переменных. Эта оценка для каждой переменной Хт, т. = 1, ..., р, иногда входит в состав выходных данных программ множественной линейной регрессии из ПСП. Если эти оценки отсутствуют в выход- выходных данных, их легко получить, используя любую из двух ста- статистик критерия, которые могут содержаться в выходных данных. Так, если в выходных данных присутствует ^-статистика C.2.12) для проверки гипотезы Но: р*т = 0, то гуХт.с = tlVf- + n —/? —1 , m = 1, . . ., р. C.2.23) С другой стороны, если в выходных данных приводится значение /•¦-статистики C.2.11) для проверки этой же гипотезы, то гУхм.с=± У F + nLp-x ¦ rn = l, ..., p. C.2.24) Знак оценки частного коэффициента корреляции должен совпадать •со знаком оценки соответствующего коэффициента регрессии Ьт.
3.2. Множественная линейная регрессия и корреляции 18$ С помощью программ регрессионного анализа можно оценить, например, следующие частные корреляции: а) между Y и Хт при фиксированных значениях некоторого подмножества из k пере- переменных, выбранных из р — 1 оставшихся переменных (k < </?— 1); b) между Кг и Х2 при фиксированном значении Y,. а также и любые другие коэффициенты частной корреляции. Для этого необходимо лишь изменить порядок переменных, переопре- переопределить независимую переменную и номера зависимых переменных. Рассмотрим теперь различные способы получения оценки произвольного частного коэффициента корреляции. Пусть"/ и h — пара переменных из Y, Хъ ..., Хр, ас — непустое подмно- подмножество из оставшихся переменных. Оценку для р//,.е обозначим через rlh,c. Тогда некоторые методы получения какой-либо или всех оценок таковы: 1. Применение программы частной корреляции из какого-либо ПСП. 2. Ручное или программное вычисление соответствующего коэффициента с помощью рекуррентного соотношения, приведен- приведенного в замечании 3.2.5.4. Начальные значения — простые коэффи- коэффициенты корреляции, содержащиеся в выходных данных программ множественной линейной регрессии или дескриптивных программ. 3. В разд. 3.3 будет рассмотрена процедура пошаговой регрес- регрессии, которая вычисляет уравнения множественной линейной регрессии по шагам. На каждом шаге возникает некоторое подмно- подмножество с независимых переменных, входящих в уравнение регрес- регрессии, и при фиксированных значениях переменных из с вычисляются коэффициенты частной корреляции между Y и каждой независимой переменной, не входящей в уравнение регрессии. Поскольку имеется возможность принудительно включить в уравнение регрес- регрессии перед началом отбора произвольное подмножество переменных (замечание 3.3.1.4), то, используя эти программы, можно получить, все частные коэффициенты корреляции между Y и оставшимися переменными при фиксированных значениях переменных из с. Частные коэффициенты корреляций используются в следующих целях. Во-первых, коэффициент гух .с, где с есть подмножество' всех р — 1 независимых переменных, исключая Хт, т = 1, ..., р, есть мера линейной зависимости Y от Хт после вычитания эффекта, обусловленного зависимостью этих переменных с переменными из с. Чем ближе абсолютная величина этого коэффициента к 1, тем сильнее зависимость. Проверка гипотезы о том, что при фиксиро- фиксированных значениях переменных из с обусловленный Хт вклад в предсказание Y незначим, т. е. Яо: рУхтс = 0, эквивалентна проверке гипотезы Но: рт = 0. Для проверки последней можно применить либо /-"-критерий C.2.11), либо ^-критерий C.2.12). Во-вторых, коэффициент гух .с, где с — некоторое подмножество
184 Гл. 3. Регрессионный и корреляционный анализы k < р — 1 независимых переменных, есть мера «качества» Хт для предсказания Y после вычитания эффекта независимых перемен- переменных из с. Следовательно, сравнивая значения гух .с для всех Хт, не входящих в с, можно упорядочить независимые переменные по их важности для предсказания У относительно с. Как будет пока- показано в разд. 3.3, таким образом отбираются переменные в пошаго- пошаговой процедуре. Вообще для проверки гипотезы Но: р№.е = 0 можно исполь- использовать статистику t = (rlh.eV n-k-2)lV\-fU.c, C.2.25) где k — число переменных в наборе с. Если #„ истинна, статистика имеет /-распределение Стьюдента с п — k — 2 степенями свободы. Для проверки гипотезы Но: рш.с = Ро. гДе Ро — заданная постоян- постоянная, можно воспользоваться преобразованием Фишера, заменив простой коэффициент корреляции в выражении C.1.33) частным. Дисперсия теперь будет равна о|=1/(п-А —3). C.2.26) Это значение подставляется в формулу C.1.36) для вычисления статистики критерия z. Соответствующий 100A—а) %-ный доверительный интервал для рц,-с, можно также получить, исполь- используя либо преобразование Фишера, либо, заменив п на п — k, посредством номограммы в табл. 9, приложение II. Наконец, квадрат частного коэффициента корреляции г^.с есть доля дисперсии переменной /, объясненная h после удаления эффекта переменных из с. Замечания 3.2.6. 1. Имеет место следующее равенство: где s2 — остаточный средний квадрат MSR из таблицы дисперсион- дисперсионного анализа 3.2.1, a s\ — оценка дисперсии Y. 2. Простой коэффициент корреляции между наблюдаемыми значениями yt и предсказанными $и i = 1, ..., п, эквивалентен выборочному множественному коэффициенту корреляции ry.)v-,x , 3. Так как множественный коэффициент корреляции инва- инвариантен относительно невырожденных преобразований, его оценки, полученные для исходной «центрированной» и «стандартизованной» моделей, равны. •к 4. Используем теперь матричные обозначения. Пусть Z = = (У, Х1у ..., ХРУ—вектор случайных переменных размерности (р + 1) X 1. Предположим, что этот вектор имеет многомерное нормальное распределение с вектором средних значений Е (Z) =
3.2. Множественная линейная регрессия и корреляции 185 = (\iv, fji ..., [х„)' и матрицей ковариации размерности (р + 1) X X (Р + 1) " " • <7„ ... а ••• а Чтобы получить уравнения для определения коэффициентов регрессии рх, ..., $р и множественного коэффициента py.Xl...x корреляции, запишем Z в виде составного вектора Z = (У, X')', где X = (Хи ..., ХРУ — вектор размерности (р X 1) X 1. Вектор средних значений и ковариационная матрица аналогичным обра- образом разлагаются на части, т. е. Е (Z) = (цу, \х'х)', где цх = = (ji1( ..., рру и •'ух Подматрицы S^, S^ и Е„ имеют размерности 1 X р, р X 1 и- р X р соответственно. Заметим, что И,'ух = S^. Таким образом, условное распределение У при заданном значении X = х является, нормальным со средним и дисперсией о2 = о\ — 1,уХ1,хх1,Ху. Отсюда следует, что или, что эквивалентно, Последнее выражение определяет соотношение между коэффи" циентами регрессии и множественным коэффициентом корреляции* Переходя к частному коэффициенту корреляции рм-с, пере- перенумеруем переменные X; так, чтобы с = \Xlt ..., Xk\. Определим случайные векторы Wx = (/, h)' размерности 2x1 и W2 = = (Хи ..., Xk)' размерности k X 1. Вектор Wi имеет двумерное нормальное распределение с вектором средних Е (Wt) = (\к1у \ih)r и ковариационной матрицей О] Olh
186 Гл. 3. Регрессионный и корреляционный анализы Аналогичным образом распределение W2 есть fe-мерное нормальное с вектором средних значений Е (W2) = (|л1( ..., цк)' и матрицей .ковариаций ?WjW2 = a2k •¦• Определим теперь 2 x к- матрицу ковариаций между Wx и W2: *VlW2 L ... I • При этом I,WiWl — I,'W2Wl . Условное распределение Wi при фиксированных значениях элементов W2, например, W2 == w2, будет двумэрным нормальным с вектором средних значений Е (Wx) ,.,S^., (w2 - •который называется условным математическим ожиданием Wx при заданном значении W2 = wa и ковариационной матрицей Sy — 1 у Теперь частный коэффициент корреляции можно записать в виде Пусть теперь для получения оценок множественного и частного коэффициентов корреляции имеется выборка случайных векторов zi — (Уг> хиг •••> ^рг)'« * = 1> •••• п- Оценкой максимального правдоподобия для ? (Z) будет вектор а несмещенной оценкой для 2г — матрица
3.2. Множественная линейная регрессия н корреляции 187 Несмещенные оценки 2„, Ъху и Ъух получаются разбиением матрицы^, на блоки, подобно матрице Ег. Обозначим соответ- соответствующие оценки через Sxx, Sxy и Syx. Заметим, что где А определена в замечании 3.2.1.3. Итак, b = S^S*,,, а выбо- выборочный множественный коэффициент корреляции равен yx<3xxJxy /г- Для получения оценки частного коэффициента корреляции определим матрицы SWlWl, SWlWs и Sw,_Wl! таким же образом,, как и их аналоги для популяции, заменяя соответствующие пара- параметры выборочными дисперсиями и ковариациями. Тогда оценка частного коэффициента корреляции имеет вид Пример 3.2.3 (продолжение). Поскольку в этом примере пред- предполагается, что выборка получена по второму типу, т. е. все пере- переменные считаются случайными, целесообразно оценить множествен- множественные и частные коэффициенты корреляции между переменной У, равной систолическому давлению, измеренному методом манжеты, и переменными XL, X% и Хя, равными соответственно систоличе- систолическому, диастолическому и среднему давлениям, измеренным, прямым внутриартериальным методом. Для оценки множественного коэффициента корреляции вос- воспользуемся таблицей дисперсионного анализа, что дает r\.XiXlX% = = SSD/SST = 89963/116971 = 0.769, ry.XlXlX, = //0/769 =0.877,. т. е. три величины давления Хи Х2 и Х3, измеренные внутри- артериальным методом, объясняют 76.9 % дисперсии У. Ранее проверка гипотезы Но: py.XlXlXa = 0 была проведена; с помощью проверки эквивалентной гипотезы Но: Pi = р2 = Рз = = 0. (Эта гипотеза была отвергнута, так как F = 152.) Однако равным образом можно воспользоваться и статистикой C.2.22); с п = 141 и р = 3, что дает 141-3-1 0-769 _. 3J " 1-0.769 — °Z- Программой была выведена на печать и величина частного коэффи- коэффициента корреляции между Y и Х% при заданных значениях Хх и Х3, именно, ryXi.XiXs = —0.035 и ryX2.XlXa = 0.00123. Следова- Следовательно, когда значения XL и Х3 фиксированы, Х2 объясняет менее 1 % дисперсии Y. Проверка значимости вклада переменной Х2. в предсказание Y ранее осуществлялось с помощью проверки эквивалентной гипотезы Но: р2 = 0. Так как F = 0.17, то гипотеза
188 Гл. 3. Регрессионный и корреляционный анализы Ло принималась. С другой стороны, можно воспользоваться статистикой C.2.25) с I = Y, h = Х2 и с = \Xlt X3\, что дает —0-035 1^141-2 -2 V 1 - (—0.035J Гипотеза Яо снова принимается. Используя замечание 3.2.5.4, можно получить значение ryXl.XlX> из простых коэффициентов корреляции следующим образом. Полагая, что I = Y, h = Хг, с = Хх и d = X3, имеем Г = 0-845-0.871@.927) = Q ш yx°'Xl Vl — @.871J Vl — @.927J ' ' • 778—0.871 tv.Yjvjj A 1 nn = U.I //, — @.871J Vl — @.839J 0.967 — 0.927@.839) r — X2X3-Xl где обычные коэффициенты корреляции ryXi==0.S7\, r^, = 0.778, /-№ = 0.845, r*,*, = 0.839, rXlX3 = 0.927, ¦ rXlX> - 0.967 взяты из корреляционной матрицы примера 3.2.2 (с У = Итак, имеем V УХ3-Х! V ГХ2Х3-Х! — 0.177-0.204@.927) = ~ Vl — @.204J Kl - @.927J Доверительные интервалы для Pj,*^*,*, можно получить, восполь- воспользовавшись номограммой из табл. 9, приложение II, и заменив п на п — k= 139. Так, 95 %-ным интервалом будет интервал <—0.19, 0.14). Необходимо отметить, что частная корреляция между У и Х3 при фиксированном Л^ невелика. Аналогичный вывод можно сделать и при замене Х3 на Х2- С другой стороны, когда значение Xi фиксировано, переменная Х2 сильно коррелирует с Х3. Все эти результаты находятся в согласии с клиническими наблюдениями. Пример 3.2.4. В этом примере приводится интересное прило- приложение множественной регрессии для оценки состояния здоровья индивидуума. Зависимой переменной Y служит возраст (в годах), используемый как показатель состояния здоровья. Индивидуумы, для которых предсказанное значение возраста меньше хронологи- хронологического, считаются более здоровыми, чем обычно, а те, которых предсказание сделает старше, менее здоровыми. Независимыми переменными являются Хг — среднее диастолическое давление
3.2. Множественная линейная регрессия и корреляции 189 (мм рт. ст.), Х2 — концентрация холестерина сыворотки (мг %), Ха*— наличие изменений в электрокардиограмме @ — отсут- отсутствуют, 1 — имеются), Х4 — результат рентгеноскопии грудной клетки (сколько рентгенологов из трех @, 1,2 или 3) сочли рентге- рентгенограмму ненормальной), Хъ ¦— варикозность @ — норма, 1 — варикозное расширение вен на одной или обеих ногах), Хе — наличие периодентоза @ — отсутствует, 1 — слабовыраженный гингивит, 2 — гингивит, 6 — гингивит с образованием пазух, 8 — выраженная деструкция). (О деталях этого исследования см. Abrahamse, Kisch A975)). Заметим, что наличие независимых переменных как дискретного, так и непрерывного типов, не проти- противоречит общим предположениям модели линейной регрессии. Во вспомогательной таблице содержатся средние значения +sd переменных XL, ..., Хе и их корреляции с Y, полученные ло выборке, состоящей из 5313 индивидуумов Случайной среднее ±'ъ6 г величина Y X, x2 Xi xt xs x* 39.2 78.3 214.8 0.22 1.02 0.17 11.6 + + + ± + + + 14.1 12.9. 48.0 0.42 0.87 0.37 16.7 — 0.36 0.43 0.22 0.23 0.34 0.34 Используя табл. 9, приложение II, получаем, что для всех шести независимых переменных коэффициенты корреляции с Y значимо отличны от нуля (Р <С 0.01), хотя их п<ушчина невелика. МНК- уравнение регрессии имеет вид g = 0.218хх + 0.093х2 + 4.054*3 + 2.670х4 + + 8.879хв + 0.161*8 — 4.722. Множественный коэффициент корреляции равен 0.64, следова- следовательно, объясненная доля дисперсии переменной Y составляет 41 %. Согласно замечанию 3.2.4.6, из другой интерпретации этого коэффициента следует, что не менее чем A — 0.41I/2 = 0.77 стандартного отклонения Y осталось необъясненным. Значения ^-статистики для проверки гипотезы Яо: р; = 0 •суть 18.2, 29.0, 11.2, 15.6, 21.9 и 17.7 для i = 1, ..., 6. Все эти величины значимы с Р < 0.001. Поэтому ни одна из переменных не может быть удалена как бесполезная для анализа. Из приведенного выше уравнения для у следует, что i) увеличе- увеличение диастолического давления на 1 мм рт. ст. приводит к увеличе- увеличению кажущегося возраста на 0.22 года, ii) увеличению концентра-
190 Гл. 3. Регрессионный н корреляционный анализы ции холестерина сывороток на 1 мг % соответствует увеличение кажущегося возраста на 0.09 лет, Аи) наличие изменений в ЭКГ дает увеличение кажущегося возраста на 4 года, iv) увеличение на единицу числа рентгенологов, находящих изменения в состоянии грудной клетки, увеличивает кажущийся возраст на 2.7 года, v) наличие варикозного расширения вен добавляет к кажущемуся возрасту 8.9 лет, vi) каждый балл показателя периодентоза увели- увеличивает возраст на 0.16 лет. 3.2.6. Дополнение к анализу остатков В разд. 3.1.5 рассматривалось использование графиков остатков d-t = Уг — Уг в зависимости от xt или у( (i = 1, ..., п) для проверки предположений модели простой линейной регрессии. Аналогичные графики могут быть построены и в случае модели множественной линейной регрессии. Однако здесь можно получить значительно больше графиков, поскольку остатки можно сопоставлять с каждой из р независимых переменных. В соответствующих программах некоторых ПСП имеется возможность вывода графика dt в зависи- зависимости от yt. Тогда, если все предположения линейной модели регрессии выполнены, коэффициент корреляции между этими двумя переменными будет равен (ру.х ...х I/2 и, следовательно, нельзя ожидать график в виде случайной горизонтальной полосы. График 4 в сопоставлении с хп (i = 1, ..., п, } = 1, ..., р) содер- содержит информацию о i) наличии аномальных наблюдений или случаев отклонений по /-й независимой переменной, и ii) возможном отсут- отсутствии линейности по XJt что может служить указанием для даль- дальнейшего преобразования. График dt относительно yt (i = 1, ..., п) доставляет информацию о выполнении предположений случай- случайности и независимости ошибок et, а также и предположения о гомо- скедастичности et. Некоторые программы позволяют получить и график dt в нормальной вероятностной шкале (см. разд. 1.7.3), который очень полезен для проверки предположения о нормаль- нормальности ег. Наконец, для анализа остатков иногда вычисляется и печатается статистика Дурбина—Ватсона ti/dl C.2.27) 1=2 I (=1 которую можно использовать для проверки гипотез о коррелиро- ванности et. Пример 3.2.5. Автоматический анализатор изображений был использован для подсчета количества положительных клеток альвеолярных стенок, содержащих лактатдегидрогеназы (пневмо- циты типа 2) в легких группы морских свинок, обработанных 2ррт двуокиси азота (Azen et al. A977c)). Результаты автомати- автоматической обработки каждого из 141 слайда картины, полученной под
3.2. Множественная линейная регрессия и корреляции 191 микроскопом, сравнивались с результатами ручной обработки этих же слайдов. Так как полученные числа были велики, они обрабатывались как значения непрерывных переменных с исполь- использованием корреляционного и регрессионного анализов. Хотя коэффициент корреляции оказался высоким (г = 0.8, Р < 10~6), на графике остатков (рис. 3.2.1) видно, что на нижнем и верхнем § зоон Е Е 240- 0) 90 150 210 270 330 Автоматический подсчет клеток Рис. 3.2.1. График среднего для зависимости ручного подсчета клеток от авто- автоматического. концах оси ручной обработки наблюдаются большие значения остатков. Итак, автоматический подсчет клеток менее точен, когда имеется мало или много пневмоцитов типа 2. Вероятно, использо- использование квадратичного члена могло бы улучшить предсказание в области большого количества клеток. Другой возможной альтер- альтернативой проведенному анализу могло бы стать использование ¦взвешенной регрессии с присвоением малых весов экстремальным значениям. Некоторые программы (например, BMDP1R) допу- допускают такое взвешивание данных. 3.2.7i Многомерные наблюдения с отсутствующими значениями В разд. 1.7.5 было введено понятие отсутствующих значений. При использовании одномерных по своей природе методов анализа (например, ^-критерия) наиболее разумный способ действия состоит
192 Гл. 3. Регрессионный и корреляционный анализы в удалении из выборки элементов с отсутствующим значением X (анализируемой переменной). Однако ситуация меняется при использовании существенно многомерных методов анализа, т. е. когда для каждого элемента выборки имеется р наблюдаемых переменных Xlf ..., Хр. Теперь, если элемент выборки имеет отсутствующее значение, скажем, для переменной Хи удаление этого элемента выборки из анализа не является необходимым, поскольку оно приводит к потере информации о переменных Х2, ..., Х„, доставляемой этим элементом. Так как множественный линейный регрессионный анализ, равно как и другие многомерные процедуры (гл. 5) основаны на векторе средних ц и матрице ковариаций S, можно оставить этот элемент в выборке и исполь- использовать имеющиеся в нем измерения для вычисления оценок вектора средних х и матрицы ковариаций S. Рассмотрим теперь различные методы оценивания ц и 2 (или, что эквивалентно, матрицы корреляций R), когда отсутствуют не- некоторые значения (обзор литературы по этому вопросу см. в Afifi, Elashoff A966)). Пусть щ — число элементов выборки, у которых известно значение Хи ntl — число элементов, у которых известны значения обеих переменных Xt и Xj, а пс — число комплектных элементов, в которых измерены значения всех переменных Хи ..., Хр («г, пи, пс <: п, п — объем выборки, i, j = 1, ..., р, i Ф /). Приведем теперь некоторые методы получения х и S (или R). Метод 1. Для вычисления оценок х и S используются только пс комплектных элементов. Этот метод называется методом удале- удаления элементов. Метод 2. Для получения xt используются щ наблюдений. Вместо отсутствующих значений переменной Хг подставляется величина xt. Затем, используя укомплектованную таким образом выборку объема п, получают х и S. Этот метод называется методом подстановки среднего. Метод 3. Используется щ наблюдений для получения xt и s} и riij наблюдений — для вычисления stj. Эти статистики служат компонентами х и S. Метод 4. Используется щ наблюдений для получения xt и s} и ntj наблюдений — для вычисления rtj. Затем значение si} вычис- вычисляется как stj = Гц-Si-Sj, в чем и состоит отличие данного метода от предыдущего. Методы 3 и 4 носят название методов попарного вычеркивания. Метод 5. Используется пс комплектных элементов для оценки регрессии какой-либо переменной по всем остальным переменным.
3.2. Множественная линейная регрессия и корреляции 193 Например, пусть уравнение регрессии имеет вид Xx — f (X2, ... ..., Х„). Теперь, если в у'-м случае имеется отсутствующее значение Хи оно заменяется оценкой xv = / (x2j, ..., xpj). Аналогичные уравнения можно получить и для Х2, ..., Хр. Затем укомплекто- укомплектованные таким образом наблюдения используются для вычисления х и S. Метод 6. В отличие от метода 5 для предсказания значения, например Хъ используется либо одна переменная из Х2, ..., ХР, наиболее коррелированная с Хи или некоторое подмножество переменных из Хг, ..., Хр. Методы 5 и 6 носят названия методов подстановки регрессии. Основной недостаток любого из перечисленных методов связан с тем, что их статистические свойства за редким исключением неизвестны (Afifi, Elashoff A966, 1969а, b)). Кроме того, примене- применение таких методов часто приводит к смещенным оценкам. Учиты- Учитывая все это можно дать следующую рекомендацию исследователю: элементы выборки и/или переменные с отсутствующими значе- значениями должны быть удалены так, чтобы обеспечить баланс между оставшимся числом переменных и оставшимся числом элементов, т. е. максимизировать число комплектных элементов выборки. Следовательно, если элемент содержит много пропусков, его нужно удалить. С другой стороны, следует удалить переменную, если ее значение неизвестно для большинства элементов. После этого можно обычным образом использовать метод наименьших Квадра- Квадратов или процедуры многомерного статистического анализа, опи- описанные в гл. 3 и 5. Замечания 3.2.7. 1. В большинстве ПСП имеется возможность применить метод удаления элементов. 2. В некоторых программах существует возможность ис- использования метода попарного вычеркивания (например, SPSS REGRESSION). Этот метод можно использовать, когда имеется большое число элементов с небольшим количеством отсутствующих значений и метод удаления элементов чрезмерно сокращает объем выборки. Исследователь должен отдавать себе отчет в том, что при этом возможно возникновение некоторых вычислительных не- несообразностей (таких, как отрицательное значение суммы квадра- квадратов или F-критерия). Кроме того, при использовании этого метода неприменима обычная теория статистических выводов. Пример 3.2.6. Приведем пример практического применения регрессии для оценки отсутствующих значений. В мониторной системе наблюдения за больными постоянно по значениям величин систолического давления X (мм. рт. ст.) и рН артериальной крови 7 А. Афифи С. Эйзен
194 Гл. 3. Регрессионный и корреляционный анализы У вычисляется прогностический индекс состояния больного (Afifi et at. A971)"и Azen, Afifi A972a, b)). Так как Х измеряется непрерывно, а У — через каждые четыре часа, желательно оценить отсутствующие значения рН артериаль- артериальной крови с тем, чтобы вычислять прогностический индекс и тогда, когда доступно значение только систолического давления. Было рассмотрено шесть методов оценки рН артериальной крови yt в момент времени t: 1) Подстановка вместо yt последнего измеренного значения У. 2) Подстановка вместо yt среднего значения по всем измеренным значениям Y. 3) Регрессия У по / и подстановка у (t) вместо yt. 4) Регрессия Y по X с использованием всех комплектных пар. Вместо yt подставлялось значение у (х). 5) Регрессия У по X и t и подстановка у (х, t) вместо yt. 6) Использование только комплектных пар наблюдений. Результаты моделирования показали, что оценка отсутствую- отсутствующих значений приводит к значимому улучшению по сравнению с использованием метода 6. Так как величина коэффициента корре- корреляции между Y и X (сильная корреляция) больше величины корре- корреляции между Y и t (слабая корреляция), то использование регрес- регрессии У по X предпочтительнее. Подстановка средних значений не рекомендуется (Azen et al. A972)). 3.3. Пошаговая регрессия Во многих случаях применения регрессионного анализа экспери- экспериментатор не имеет достаточной информации о порядке независимых переменных Хъ Ха, ..., Хр по их важности для предсказания независимой переменной У. Проверка гипотезы Яо: р\- = 0 для каждой переменной Xui = 1, .... р, также не дает такой информа- информации. Так, в примере 3.2.3 отвергается гипотеза рх = 0 и в то же время принимаются гипотезы рз = 0 и C3 = 0- Это может привести к неверному заключению, что для предсказания У важна только переменная Хг. Поскольку статистикой, измеряющей эффективность набора независимых перейШных как предикторов, служит множествен- множественный коэффициент корреляции, одно из решений упомянутой выше проблемы сводится к регрессии У по всем возможным подмно- подмножествам независимых~пёременных и выбору наилучшего подмно-" жества согласно следующей процедуре. Среди всех подмножеств
3.3. Пошаговая регрессия 195 переменных размерности k, k = 1, ..., р, выбирается подмножество S^jKOTopOMy соответствует наибольшее значение множественного коэффициента корреляции. Для подмножества Sj с помощью ста- статистики C.2.14) проверяется гипотеза о том, что добавление оставшихся р — 1 переменных не улучшает предсказание Y. Если эта гипотеза отвергается, то проверяется аналогичная гипотеза о том, что добавление в подмножество 52 оставшихся р — 2 переменных не улучшает предсказание Y. Такая проверка последовательно применяется до тех пор, пока для некоторого подмножества Sm, 1 < т <. р, не принимается гипотеза об отсут- отсутствии улучшения предсказания Y при добавлении р — т остав- оставшихся переменных. Подмножество Sm является наилучшим подмно- подмножеством переменных для предсказания У, поскольку: а) ему соот- соответствует наибольшее значение коэффициента множественной корреляции среди всех подмножеств размерности т; Ъ) добавление оставшихся р — т переменных не улучшает значимо предсказание Y. Если такое подмножество не является единственным, то следует выбрать наиболее подходящее подмножество исходя из характера задачи. Если число независимых переменных велико, такой подход для определения наилучшего подмножества практически бесполезен даже при применении ЭВМ. Например, если /7 = 5 имеется всего 5 + Ю + Ю + 5 + 1 = 31 уравнение регрессии, а если р — 10, то их число составляет уже 2 A0 + 45 + 120 + 210) + 252 -+- + 1 = 1023. Вообще, когда число переменных равно р, имеется 2р — 1 регрессионных уравнений. Ограничения на машинное время и допустимые расходы приводят к необходимости поиска других подходов. Одним из решений является пошаговая регрессия (прямая), когда независимще. переменные одна за другой включаются в под- подмножество согласно предварительно заданному критерию. В то же время некоторая переменная может быть заменена другой перемен- переменной, не входящей в набор, либо удалена из него. Совокупность критериев, определяющих, какие переменные включать, заменять и удалять, называется пошаговой процедурой. В разд. 3.3.1 приво- приводится четыре пошаговые процедуры. С помощью пошаговой процедуры получается упорядоченный список предикторов. Например, если р = 5, такой список может иметь вид Х2, Хь, Хъ Х^ и Х3. Для определения «наилучшего» подмножества из этого списка выбираются т < р первых перемен- переменных так, чтобы i) они возможно лучше предсказывали Y и П) их число т было по возможности меньше. Другими словами, эконом- нмнябор рт^влртя ц переменных ynQ4iaflQ4eHHOjrocnHCK"a. В примере, приведенном выше, такой набор мог бы состоять только из переменных Хг и Хъ, если бы регрессия по ним была почти 7*
196 Гл. 3. Регрессионный и корреляционный анализы такой же «хорошей», как и регрессия по Xit Хъ, Хи Х4 и Х3. Процедура определения числа т называется правилом остановки. В разд. 3.3.2 обсуждаются три различных правила остановки. 3.3.1. Пошаговые процедуры Предположим теперь, что имеются набор независимых переменных Xi, ..., Хр, которые являются кандидатами на роль предикторов Y, и случайная выборка объема п. Рассмотрим сначала стандарт- стандартную пошаговую процедуру, которая состоит из правила включения переменных и правила исключения переменных (замена перемен- переменных не входит в состав стандартной пошаговой процедуры), Как будет показано ниже, другие пошаговые процедуры являются модификациями стандартной пошаговой процедуры. 1. Стандартная пошаговая процедура (F-метод). Включение и удаление переменных осуществляются с помощью введенной ранее статистики.критерия, именно ^-критерия C.2.25) для про-?п- верки равенства нулю частного коэффициента корреляции. В про- программах большинства ПСП, однако, вычисляется квадрат этой статистики, который имеет /^распределение (число степеней сво- свободы определено ниже), и называется либо F-включещШт- либо F-удаления. Более точно, предположим, что в набор с уже включено k переменных, k = 0, 1, ..., р — 1. Тогда значение F-включения для переменной X (не входящей в с) вычисляется по формуле -t%x.e). C.3.1) Эта величина служит статистикой критерия для проверки гипотезы о том, что предсказание Y значимо не улучшается при включении X в набор с, т. е. Но: рух с = 0, и если эта гипотеза верна, то распределена по закону F A, п — k — 2). Аналогично, величина F-удаления для какой-либо переменной Л! из с служит статистикой критерия для проверки гипотезы о том, что набор с', получающийся из с при удалении X и содержащий k' = k — 1 переменных, предсказывает Y «так же хорошо»* как и набор с. Иными словами, проверяется гипотеза Но: рух.С' — О и статистикой критерия является величина (F-удаления) Fyx.c = т%х.с (n-kr- 2)/(l - г%х.с.), C.3.2) распределенная по закону F A, п — k! — 2), если Н„ верна. Как будет показано в разд. 3.3.2, правило остановки, обычно используемое в стандартной процедуре, основано на задании допустимого минимума F'-включения (или,. что эквивалентно, максимума уровня значимости а). В некоторых пакетах по умолча- никГпредполагается, что минимум F-включения равен 4.0. Для удаляемых переменных также выбирается допустимый минимум
3.3. Пошаговая регрессия 197 F-удамния (эта величина должна быть меньше минимума /''-вклю- /''-включения; в некоторых пакетах по умолчанию принимается, что ми- минимум F-удаления равен 3.9). Рассмотрим теперь подробно шаги стандартной процедуры. Шаг 0. Вычисляются простые коэффициенты корреляции гух и величины F-включения Fyx для i = 1, ..., р. (Заметим, что простой коэффициент корреляции есть частный коэффициент корреляции при k = 0 и пустом наборе с.) Статистика критерия дается выражением ^ = 4*,(«-2)/A -г*Х(), C.3.3) которое получается из формулы C.3.1) подстановкой k = О, или как квадрат ^-статистики из замечания 3.1.5.3. Величина Fyx. имеет F-распределение с 1 и п — 2 степенями свободы и служит для проверки гипотезы Но: рух. = 0, i — 1, ..., р. Шаг 1. Перездеднад.X+t, которой отвечает_наябодьщее^начение /^ключе^ия (или, что эквивалентно, наибольшая величина квадрата коэффициента корреляции с F), выбирается как наилуч- П1ии"предиктор для Y. Вычисляются соответствующее уравнение наименьших квадратов, таблица дисперсионного анализа и мно- множественный коэффициент корреляции ry.Xl = | ryXii I. Величина F-удаления для Xit в этом случае совпадает с величиной F-включе- ния. Далее вычисляются коэффициенты частной корреляции Гух-Х( и значение F-включения C.3.4) для i — 1, ..., р, 1ф1ът. е. для каждой переменной, не вошедшей в уравнение регрессии. Эта статистика имеет 1 и п — 3 степеней свободы и служит для проверки гипотезы Яо: pyXl.Xi =0, i — = 1, ..., р, I ф1\- Если все вычисленные значения F-включения меньше установленного минимума, то далее выполняется шаг S.; ;, В противном случае происходит переход на шаг 2. »: Шаг 2. Переменная Xiz, имеющая наибольшее значение/^-вклю- | чения (или, что эквивалентно, наибольший квадрат.. дастного f- коэффициента корреляции с Y при фиксированном" значении Л7Л> | выбирается как наилучший предиктор для Y при условии, что уже I выбрана переменная Xti. Вычисляются уравнение наименьших р квадратов, таблица дисперсионного анализа, множественный коэффициент корреляции гу.х. х. и значения F-удаления Fyxi .x.
198 Гл. 3. Регрессионный и корреляционный анализы и FyX[ .х. . Эти статистики имеют 1 и га — 3 степеней свободы и определяются выражениями ^ \ (п-3) r\ .х и Р"^Г-Г^ Они используются для проверки гипотезы Но: pyXl .*. = О и Но'- 9yxt •*,- — 0 соответственно. Наконец, вычисляются частный коэффициент корреляции гух..х. х. и значение F-включения . х. j{ l^ C.3.6) для проверки гипотезы Яо: рух..х-¦ Xi =0 с 1 и д — 4 степенями свободы при i = 1, ..., p,i Ф iui Ф j2. Если все значения F-вклю- чения меньше установленного минимума, то далее выполняется шаг S. В противном случае происходит переход на шаг 3. Шаг 3. а) Пусть ^^бозначает набор из.1 независимых перемен- переменных, которые включены_в_у_даднени?~регрессии. Если какое-либо из значений F-удаления для переменных из L меньше, чем соответ- соответствующий минимум, то переменная, которой соответстауех~наи- соответстауех~наименьшее 3Hj.4ejiHj_f::yj^ieHHji, удаляется из набора и выполняется Наг^ЗТБ)^заменой / на / — 1. Если для всех переменных, не входя- входящих в L, значение F-включения меньше установленного минимума, то выполняется шаг S. В противном случае в набор L добавляется переменная, которой соответствует максимальное_знач?.Щ1е^F-вклю- максимальное_знач?.Щ1е^F-включения, и / заменяется на / -f- 1. Ь) Вычисляются~уравнение наи- наименьших квадратов, таблица дисперсионного анализа и множе- множественный коэффициент корреляции ry.t между У и переменными из L, а также значения F-удаления FyXi..{i-\) между У и перемен- переменной Xt. из L при заданных остальных I—¦ 1 переменных из L. Каждая из этих величин имеет 1 и л — / — 1 степеней свободы и используется для проверки гипотезы Яо: pyx..(i~i) = 0. Наконец, определяются величина частного коэффициента корреляции ryx..i и значение F-включения между FyXri Y и каждой перемен- переменной Xt, не входящей в L, при данных переменных из L. Эта стати- статистика имеет 1 и п. — Z — 2 степеней свободы и проверяет гипотезу #о: Pyxrt = 0 для Xt, не входящих в L, i = 1, ..., р. Шаги 4, 5... Рекуррентно повторяется шаг 3. ШагSвыполняется а) если F-включения для всех переменных, не входящих в L, меньше установленного минимума, Ь) если для всех переменных из L значение F-удаления больше установленного минимума или с) число включенных переменных равно р.
3.3. Пошаговая регрессия i9<) UlaeS. Суммарнаа-таблйца-оенатается^каклравило, псцащщсу подьзоиатедя^Для каждого шага печатается номер шага, номер включенных и удаленных переменных, значения /"-включения и /"-удаления и множественного коэффициента корреляции между Y и включенными переменными. Пример 3.3.1. Проиллюстрируем применение пошагового рег- регрессионного анализа, используя п — 141 наблюдение из примера 3.2.3, где Y — систолическое давление, измеренное методом компрессионной манжеты, a Xlt Х2, Х3 — соответственно систоли- систолическое, диастолическое и среднее давления (в мм. рт. ст.), измерен- измеренные внутриартериальным методом. Положим, что значение мини- минимума /"-включения равно 0.01, а минимума /"-удаления равно 0.005. Такие низкие значения пороговых величин приводят к тому, 6 к ^ р у, Ь ДЬН рр лирована с остал^ньм^Д/ш_лцаш&,--вписаняых .выше, имеем: Шаг 0. Простые коэффициенты корреляции суть ryXl — 0.871, гухг — 0.778 и гиХг — 0.845, и соответственно для значения /"-включения имеем FyXl — 436.8, Fyx, = 213.2 и FVXi == 347.0 с 1 и 139 степенями свободы. Так как все значения /"-включения больше минимума, то переходим к выполнению шага 1. Шаг 1. Так как наибольшее значение /"-включения соответ- соответствует переменной Хъ она выбирается как наилучший предиктор для Y. Уравнение наименьших квадратов имеет вид: Q = 8.08 + + 0.88*!, а таблица дисперсионного анализа приведена ниже. Источник дисперсии Регрессия Остаток Полная Сумма . квадратов 88 731.0 28 240.4 116 971.4 Степени свободы 1 139 140 Средний квадрат 88 731.0 203.2 _ г- F-отношение 436.8 ' Множественный коэффициент корреляции есть ry.Xi ~ 0.8710, а /"-удаление имеет значение 436.Sc 1 и 139 степенями свободы. Частными коэффициентами корреляции служат ryXs.x% — 0.178 и гух,х, — 0.206, а соответствующие значения /"-включения суть Fyxi-xi — 4.49 и FyXs.Xl =6.12 с 1 и 138 степенями свободы. Так как оба значения /"-включения больше минимума, то выполняется шаг 2. Шаг 2. Так как переменная Х3 имеет наибольшую величину /"-включения, то она выбирается как наилучший предиктор Y при
200 Гл. 3. Регрессионный и корреляционный анализы заданном Хх. Уравнение наименьших квадратов имеет вид: р = = 7.93 + 0.63^ + 0.37х3. Ниже приводится соответствующая таблица дисперсионного анализа Источник дисперсии Регрессия Отклонение от ре- регрессии Полная Сумма квадратов 89 931.1 27 040.3 116 971.4 Степени свободы 2 138 140 Средний квадрат 44 965.6 195.9 F-отношеиие 229.5 Множественный коэффициент корреляции ry.XtXt равен 0.8768, а значения F-удаления суть соответственно FyXl,Xl — 32.6 и FyXiXl = 6.12 с 1 и 138 степенями свободы. Для частного коэффи- коэффициента корреляции имеем ryxvXlXi — —0.035, а для значения F-включения— Fyx2.XlXi =0.17. ... , ¦- i.-~ Шаг 3. а) Имеется набор L = \ХЪ Х3\ с / =Х2- Так как значе- значения F-удаления для Хх и Х3 больше минимального^так же как и ^-включения для Х%, набор L расширяется. Итак; теперь L = = \Хи Х„ Х3\ с I = 3. Ь) Уравнением наименьших квадратов будет # = 8.29 + + 0.60^ — 0.14л:а + 0.52а:3, а таблица дисперсионного анализа имеет вид Источник Сумма Степени Средний F-otho- дисперсии квадратов свободы квадрат шение Регрессия 89 963.8 3 29 987.9 152.1 Отклонение от регрес- 27 007.6 137 197.1 сии Полная 116 971.4 140 Множественный коэффициент корреляции ry.XiX2Xi равен 0.8770, а значения F-удаления суть FyXl.XaXt = 19.2, FyXa.XiX> = 0.17 и FUXt.XlXt = 1.7. Так как все они превышают минимум и так как больше переменных для включения неимеетсяТвыполняется шаг S. -|O \,s.' v)^j? и^\^<-дА; •! 2. Стандартная пошаговая процедура с заменой переменных (FSWAP). Эта процедура использует те же самые правила для включения и удаления переменных, что и описанная выше про- процедура, за исключением того что на каждом шаге имеется воз-
3.3. Пошаговая регрессия 201 можность замены переменной из набора на какую-нибудь не со- содержащуюся в нем переменную. Эта процедура позволяет найти некоторое компромиссное решение между наилучшим набором, описанным во введении (все пары, тройки и т. д.), и «наилучшим» набором, полученным с помощью стандартной про- процедуры. При применении данной процедуры включенная в набор пере- переменная может быть заменена не содержащейся в наборе перемен- переменной, если при этом возрастает множественный коэффициент кор- корреляции (не обязательно статистически значимо). На любом задан- заданном шаге, если в наборе с имеется k переменных, включенных в уравнение регрессии, эта процедура позволяет i) удалить не- некоторую переменную из с с помощью правила /^-удаления, ii) за- заменить некоторую переменную из с на переменную, не входящую в с и Hi) добавить в набор с некоторую переменную, используя значения ^-включения. 3. Метод множественной корреляции (R-метод). В этой про- цедуре'для включения переменных используется правило, осно- основанное на величине F-включения, но правило удаления перемен- переменных существенно видоизменяется. Удаление переменной на дан- данном шаге производится с помощью правила R*, т. е. если в резуль- результате удаления происходит увеличение (не обязательно значимое) множественного коэффициента корреляции Rz. Рост множествен- множественного коэффициента корреляции возможен, так как из выражения, приведенного в замечании 3.2.6.1, следует, что R2 является функ- функцией не только двух фиксированных величин (именно, п и si), но также и двух изменяющихся величин (sa — остаточный средний квадрат и р — число используемых переменных) г). Следова- Следовательно, вполне возможно, что совместное изменение этих двух величин при удалении переменной приведет к увеличению значе- значения R%. Итак, рассматриваемая процедура предполагает следую- следующее: i) удаление переменных на основе правила R2 и ii) добавле- добавление переменных с помощью правила F-включения. 4- Метод множественной корреляции с заменой переменных (RSWAP). Эта процедура аналогична /^-методу, за исключением того что дополнительно допускается замена переменных. После- Последовательность действий этой процедуры такова: i) удаление пере- переменной с использованием правила JRa, ii) замена переменных по критерию возрастания R2 и iii) добавление новой переменной с использованием правила F-включения. *) Речь идет, таким образом, о некотором варианте несмещенной оценки Множественного коэффициента корреляции. — Прим. перев.
202 Гл. 3. Регрессионный и корреляционный анализы Замечание 3.3.1. В программах пошаговой регрессии боль- шинства ПСП имеется возможность обязательного включения перспективных переменных в уравнение регрессии. С_ этой целью пользователь _?^галшц.ы^_шответствхющеш_ входдого_ параметр а, называемого" уровнём~_принуЬительного включения, задает_ для каждой переменной либо инструкцию, следует "ли" включить эту переменную независимо от величины ее F-включения, либо прио- приоритет ее включения в уравнение регрессии относительно других переменных. Таким образом, пoлJ^^aтe_л^Jшeeт__вoзмoжнo„cть управлять отбором переменных (в отличие от описанного -выше ста- К отбора) и первыми включать в уравне- уравнеб ние регрессии те переменные, которые представляются наиболее перспективными. Пошаговая процедура применяется тогда только к тем переменным, которые остались «свободными» или для кото- которых не задан уровень принудительного включения. Заметим, что при принудительном включении в уравнение регрессии всех не- независимых переменных пошаговая регрессия может быть осуще- осуществлена с помощью программы множественной регрессии. 3,3.2. Правила остановки Ниже рассматриваются три правила для определения числа предикторов, отобранных в «наилучшее» уравнение регрессии. Стандартное правило, которое реализовано в большинстве про- программ пошаговой регрессии, осуществляет контроль числа пере- переменных с помощью величины, называемой допустимый минимум F-включения, значение которой является входным параметром программы. Как указывалось выше, величине минимума F-вклю- F-включения соответствует величина максимума уровня значимости а, что в символьных обозначениях выглядит так: min F-включения = = FUa (I, v) для некоторого числа степеней свободы v. Обычно полагают v = n — р — 1, а рекомендуемое значение а составляет 0.15 (что будет обсуждаться ниже), хотя многие пользователи устанавливают а = 0.05. 1. Стандартное правило остановки. Стандартное правило оста- остановки для получения «наилучшего» набора Н предикторов может быть легко понято из сводной таблицы, распечатываемой на шаге S. Значения F-включения одно за другим сравниваются с ве- величиной минимума F-включения. Набор Н будет определен, когда все вычисляемые значения F-включения станут меньше заданного минимума. Рассмотрим этот процесс по шагам: а) На шаге 1 включается переменная Xtl. Если соответству- соответствующее значение F-включения незначимо, т. е. F-включения <j <mjn F-включения, то считается, что регрессия бессмцсленна
3.3. Пошаговая регрессия 203 и пользователь должен обратиться к другим методам анализа своих данных. В противном случае Н = {Х^}. b) На шаге 2 была добавлена переменная Xtl. Если для нее F-включения <1гшп^-включения,^то #4"состоит только*"из пере- переменной X(l и наилучшая регрессия получена на шаге 1. В про- противном случае Н — \Xtl, X(t]. c) Для каждого дальнейшего шага при удалении переменной из Н происходит переход на следующий шаг. С другой стороны, при включении некоторой переменной производится сравнение значения F-включения с порогом. Если величина f-включения значима, Н расширяется добавлением этой переменной и проис- происходит переход на следующий шаг. В противном случае происходит остановка процедуры, а наилучшим будет набор, полученный на предыдущем шаге. 2. Правило остановки, основанное на изменении R*. Альтерна- Альтернативная процедура требует тщательного выбора значений минимума F-включения и минимума F-удаления. Минимум F-включения можно выбрать так, чтобы были включены переменные, которые потенциально полезны для предсказания Y. Например, можно принять решение дать каждой переменной приблизительно 50-про- 50-процентный шанс на включение. Тогда миниму?4_?:вклюя?ния_бу- ^1_1^з2-?_^г_Ц. С другой стороны min F-удаления можно б й й х^Лц_(_1^з2-?_ ру р у выбрать так, чтобы шанс на удаление уже включенной переменной был мал. Поэтому можно считать минимум Р.уд? пения малой, ве- лшш!шй+_надр-имер~Ш11. Рассмотрим теперь лишь те переменные в результирующей таблице, которые были включены на послед- последнем шаге. Пусть L — такой набор из / переменных, / <; р, и пусть ry.i есть множественный коэффициент корреляции между Y и всеми переменными из L. (Заметим, что если одна или несколько пере- переменных были удалены, то необходимо пересчитать значение гу.{). Пусть теперь Н — набор из h переменных, входящих в уравне- уравнение регрессии на некотором промежуточном шаге. Предлагаемое правило остановки основано на проверке гипотезы Но: py.h = = Py.i с помощью статистики 2 2 С _ n — l — \ ryl — ryh /о о 7\ F—г=а—гзтгг" <3'3'7> Если эта гипотеза верна, то величина F имеет F-распределение с / — h и п — / — 1 степенями свободы. Этот критерий приме- применяется последовательно на каждом шаге до тех пор, пока не будет получено первое незначимое значение F. Предположим, например, что это произошло на шаге 3, когда для регрессии используется набор Huh переменных. Тогда, если на шаге 4 будет возможно включение какой-либо переменной, процедура остановится и наи-
204 Гл. 3. Регрессионный и корреляционный анализы лучшим набором будет набор, полученный на шаге 3. С другой стороны, если на шаге 4 будет возможно удаление переменной, то применяют описанный выше критерий. Если величина статистики критерия значима, то в качестве наилучшего набора выбирается набор, полученный на шаге 4. Если величина статистики критерия незначима, Я определяется как набор из h — 1 переменных, полу- полученных на шаге 4, и процесс повторяется. Если получится незна- незначимое значение F, то наилучшим считается уравнение регрессии, полученное на последнем шаге. 3. Правило остановки, основанное на безусловном" среднем квад- квадрате ошибки. Одно альтернативное правило остановки приве- приведено в работе Bendel, Afifi A976). Оно основано на проверке гипо- гипотезы о том, что при переходе к следующему шагу безусловный средний квадрат ошибки (UMSE) не убывает. Величина UMSE определяется равенством UMSE = E (Y — УJ, где математиче- математическое ожидание вычисляется по совместному распределению Y, Хъ ..., Хр, которое предполагается многомерным нормальным. Оценкой UMSE для данного шага будет т<Гс7Ъ/ ч п*-п-2 MS (n-\)(n2-n-2)(\-rlt)sl UMSE (a, n) = —; 5Г R = :—; —тп— о\ > " ' п(п — q — 2) п (п — q — 1) (и — q — 2) C.3.8) где q — число переменных в уравнении, a MSR — остаточная сумма квадратов на данном шаге. График величины UMSE в за- зависимости от q имеет, как правило, J - или U-образный вид. Можно показать, что проверка гипотезы Яо: UMSE(l?) = = UMSE^+i), т. е. того, что добавление (q + 1)-й переменной в уравнение не уменьшает безусловной среднеквадратичной ошибки, эквивалентна проверке гипотезы Но: — р0 < р < р0. Здесь р — частный коэффициент корреляции между Y и (q + 1)-й не- независимой переменной при заданных остальных q переменных в уравнении регрессии, р0 = \1(п — q — 2I/2. Асимптотическая процедура для проверки этой гипотезы основана на использовании преобразования Фишера C.1.32)—C.1.35) с ol = 1/(л — ц — 3). Итак, правило остановки на основе UMSE требует на каждом шаге проверки гипотезы Яо и останавливает процедуру на шаге, соответствующем последнему значимому значению критерия. Пример 3.3.1 (продолжение). Определим «наилучший» на- набор для этого примера, применяя указанные три правила оста- остановки. В этом случае примем а = 0.05, a v = n — р — 1 == = 141 — 3 — 1 = 137, так что min F -включения =; 3.92. При-
8.3. Пошаговая регрессий 205 меняя стандартное правило остановки и используя значения ста- статистик, приведенные в иллюстрирующей таблице Номер шага 1 2 3 1 2 3 Переменная включа- удаля- удаляемая емая Хг - х\ - F вклю- уда- чення ления 436.74 — 6.12 — 0.17 — Коэффициент корреляции множе- множественный 0.8710 0.8768 0.8770 част- частный 0.87 0.21 0.04 0.08 0.09 0.09 имеем на шаге 1, что F-включения > 3.92. На шаге 2 также F-включения > 3.92, но на шаге 3 F-включения < 3.92. Итак, Н = \ХЪ Xs\, так что регрессия Y по Хг и Х3 является наилуч- наилучшей для предсказания Y, если использовать стандартное правило остановки. Применяя второе правило остановки (правило R2), имеем L = \Xt, Х2, Х3\ и гу,1 = 0.8770. Используя формулу C.3.7) на шаге 1, получим значение F — A41—3—1) @.7691—0.7586) „ ' /О 1 \ 1П -1КП1 - - О. I I , C-1) 1 —0.7691 которое значимо, поскольку F0.95 B, 137) =* 3.07. На шаге 2 — g_ A41 — 3—1) @.7691—0.7688) _n 18 C — 2) A—0.7691) ~~ °' которое незначимо, поскольку F0.95 A, 137) ^ 3.92. Итак, имеем Н = {Xl7 Х3\ и h = 2. Так как на шаге 3 возможно включение еще одной переменной, процедура останавливается и исполь- используется уравнение регрессии, полученное на шаге 2. Оба правила остановки приводят к уравнению регрессии $ = 7.93 + 0.63*! + 0.37х3. При применении третьего правила на шаге 1 {q — 1) прове- проверяется гипотеза Но: —0.08 «g p < 0.08, где р на первом шаге есть простой коэффициент корреляции, оценка для которого р = 0.87. Используя z-преобразование Фишера с av = 0.085, получим z = = A.333 —0.080)/0.085 = 14.7, что значимо.
206 Гл. 3- Регрессионный и корреляционный анализы На шаге 2 (q = 2) проверяется гипотеза Но: —0.09 < р < < 0.09, где р — частный коэффициент корреляции между Y и Ха при данном Xv Теперь z = @.213 — 0.090)/0.085 = 1.45, что является незначимой величиной. Итак, применение этого правила остановки приводит к наилучшему уравнению регрессии на шаге 1, а именно р = 8.08 + 0.88*!. Ниже во вспомогательной таблице приводятся Р-значения, полученные при применении этих трех правил остановки: Первые два правила указывают, что Правило 1 Правило 2 Правило 3 Шаг Переменная (F-вклю- (осиоваииое (основанное чеиия) на Я2) иа UMSE) 1 2 3 Хг X, х3 <1(Г? 0.016 NS <0.05 NS <10 NS наилучшим является набор, получаемый на шаге 2, в то время как, согласно правилу, основанному на использовании UMSE, предполагается, что наилучшим будет набор, полученный на шаге 1. Замечания 3.3.2. 1. Возможно правило остановки, которое использует UMSE, но не требует проверки гипотезы. В этом случае как наилучшее выбирается подмножество переменных, для кото- которого достигается минимальное значение UMSE C.3.8). Эквива- Эквивалентным образом, можно искать минимум величины U (q) — = A ¦— r2y.i)/(n — q — l)(n — q — 2), пропорциональной UMSE. Если график UMSE в зависимости от q выравнивается, то точкой остановки будет точка, в которой начинается выравнивание. Этим правилом остановки легко дополнить программы пошаговой регрессии, так как значения MSR в C.3.8), как правило, выво- выводятся на печать. 2. Сравнение методом Монте-Карло графического правила остановки для прямой пошаговой регрессии с другими показало, что i) если vR < 40, предпочтительней использовать стандартное правило остановки с а = 0.15 (т. е., min F-включения =: 2.5) и И) при vR ^ 40 рекомендуется ис- использовать правило остановки, основанное на UMSE (Bendel, Afifi A977)).
3.3. Пошаговая регрессия 207 Пример 3.3.2. Пошаговая регрессия была применена к моде- моделированной выборке объема п = 200 при р = 10. Результиру- Результирующая таблица приведена ниже. Номер шага Переменная Включаемая Удаляемая Множественный ПваЬрат р коэффициент множественного корреляции коэффициента q U(q) х 10s 1 2 3 4 5 6 7 8 5 8 4 —. 3 — 2 9 .— — 8 .— 5 — 8.1 6.2 5.8 - — 2.4 0.002 0.1982 0.2619 0.3089 0.3087 0.3256 0.3302 0.3311 0.3319 0.0393 0.0686 0.0954 0.0953 0.1062 0.1089 0.1097 0.1102 1 2 3 2 3 2 3 4 2.463 2.412 2.367 2.343 2.338 2.307 2.329 2.352 Применяя первое правило при min /^-включения = 3.8 и min F-удаления = 0.01, получаем, что переменные Хъ, Х8, и Х^, должны быть включены, так как имеют значимое ^-включение. Итак, на шаге 3 имеем набор Н = {Хь, Хь, Xt\ и h = 3. На шаге 4 исключается переменная Хя, поскольку для нее значение F-уда- ления меньше 0.01. Следовательно, имеем набор Н = \ХЪ, ХА} и h = 2. На шаге 5 наибольшим значением F-включения будет для переменной Х3, но оно меньше 3.8. Поэтому процедура oeraj навливается, и набор Я, полученный на шаге 4 и составленный из переменных Хъ и ХЛ, выбирается как наилучший для пред- предсказания Y. Применим теперь второе правило. Из таблицы результатов имеем L = \Х^ Хя, Xit Х6, Х8, Х9] и / = 6. Так как перемен- переменные ^5 и Х8 удалялись, работа программы была повторена с при- принудительным включением всех шести переменных из L в уравне- уравнение регрессии, что дало возможность получить для этого набора значение множественного коэффициента корреляции гу[ =0.3324. Применяя критерий C.3.7) на шаге 1, получаем F = 3.09, что больше, чем величина F0.95 E, 193) =* 2.25. На шаге 2 получаем F — 2.28, что меньше, чем величина iy95 D, 193) =* 2.40. Итак, первое незначимое F возникает на шаге 2 при Н = \ХЪ, Х8\ и h — 2. Так как на шаге 3 возможно лишь включение перемен- переменных, процедура останавливается. Наилучшее уравнение регрес- регрессии получается на шаге 2, а именно: регрессия Y по Хъ и Xs. За- Заметим, что отличие этой процедуры от предыдущей становится явным на шаге 2. В первом методе на шаге 2 проверяется, даст ли какая-либо из не включенных еще переменных улучшение в пред- предсказании Y при ее добавлении к двум уже отобранным перемен- переменным. Во втором методе на шаге 2 проверяется, предсказывают ли
208 Гл. 3. Регрессионный и корреляционный анализы эти две переменные Y так же хорошо, как все шесть переменных из L. Используем теперь правило остановки из замечания 3.3.2.1. В последней колонке таблицы приведены значения U (д) на каж- каждом шаге. Минимум величины U (q) достигается на шаге 6, чему соответствует набор из переменных Х9 и Х4. Так как п = 200, то, согласно замечанию 3.3.2.2, следует считать набор (Х3, наиболее предпочтительным для предсказания Y. 3.4. Нелинейная регрессия В предыдущих разделах рассматривались модели регрессии, линейные по параметрам, вида У1 = Ро + Pi*u + • • ¦ + Рр% + eh i = 1, . . ., п. C.4.1) Как отмечалось в начале этой главы, во многих случаях линей- линейная модель может служить по меньшей мере в качестве первого приближения к истинной модели. Кроме того, как это указывалось уже в примере 3.1.3, в некоторых случаях использование под- подходящих преобразований переменных может привести к линейной по~Ш1рамётр~ата-м©дел«. Однако имеется большое число ситуаций, для которых линейная^_модель__непр11гоща, например, когда зависимость выражается суммой экспоненциальных и/или три- тригонометрических функций. В этом случае линейная модель не будет уже удовлетворительной аппроксимацией, а простое пре- преобразование переменных, приводящее к ней, отсутствует. Любая модель, вид которой не совпадает с уравнением C.4.1), называется моделью нелинейной регрессии и может быть пред- представлена в виде ¦ ¦ •> xpi\ 0Ь . . ., Qm) + elt i = l, . . ., п, C.4.2) где f ( ) — нелинейная функция параметров 91, ..., 9т, а ег- — некоррелированные ошибки. Приведем два примера нелинейной функции fixe, ex, %. е3) = е1 + 9/з',-, /(%, %; В., 92, 93) = 91 + e2sln(A:ll + 93COS%), t==l, . . ., п. Если истинная модель линейна, то МНК-оценки параметров будут оптимальными, поскольку они являются несмещенными оценками.с минимальной дисперсией. Но если модель нелинейна, то методы получения наилучших'оценок параметров отсутствуют. Однако существует метод максимального^ правдоподобия, который позволяет получать оценки б\, б?, ..., 9т, обладающие такими
3.4. Нелинейная регрессия 209 ценными свойствами, как состоятельность и асимптотическая эффективность при достаточно общих условиях. Более того, если ошибки et суть независимые случайные величины с распределе- распределением N @, аг), оценки максимального правдоподобия совпадают с МНК-оценками. Как и в предыдущем разделе, МНК-оценки суть значения 9Ь 92, ..., 9т, которые минимизируют сумму квадратов отклонений S=jbtei-f(xu> ¦¦¦' Xpf, 9V .... 9m)J. C.4.3) Для линейной модели МНК-оценки получаются из решения системы линейных уравнений. К сожалению, в случае нелинейной модели приходится решать систему нелинейных уравнений и соот- соответствующее МНК-решение нельзя уже представить в явном виде. По этой причине приходится использовать различные итера- итерационные методы для численного определения МНК-оценок. 3.4.1. Итерационные методы численного определения МНК-оценок Во всех программах определения МНК-оценок 9lt ..., 9m из ПСП вычисляется последовательность приближений Q['\ ..., 9^', / = = 1, 2, ..., к этим оценкам. В большинстве программ от пользо- пользователя требуется задать начальное приближение 9I0', ..., 9^'. В некоторых программах процесс последовательного приближения останавливается, если различие в двух соседних приближениях становится пренебрежимым, т. е. если < б C.4.4) для всех 1 = 1 яи для некоторого заранее выбранного ма- малого числа б. В других программах остановка происходит при стабилизации остаточной суммы квадратов. Технические детали, связанные с численным приближением МНК-оценок, в этой книге не рассматриваются, но их можно найти в работе Draper, Smith A968) гл. 10, или в книге Ralston, Wili A960). Наиболее часто используются методы линеаризации (Hart- (Hartley A961)), накопления (Rao A965) с. 302), наискорейшего спуска (Davies A954)) и Марквардта (Marquardt A963)). Помимо а) начальных значений параметров 9lt ..., 9m, поль- пользователю обычно требуется еще задать Ь) верхние и нижние гра- границы для значений параметров и с) подпрограммы для вычисле- вычисления значений функций / ( ), ее первых, а иногда и вторых частных производных по 9;, ..., 9^. Пользователю, мало знакомому с вы-
210 Гл. 3. Регрессионный и корреляционный анализы числительной математикой и программированием, может потре- потребоваться помощь специалиста. На выходе обычно получаем: а) конечные (а иногда и проме- промежуточные) оценки параметров, Ь) конечную (а иногда и промежу- промежуточные) сумму квадратов отклонений S как меру качества под- подгонки и с)^оценки асимптотических дисперсий V (Qt) и ковари- аций cov @;, 9;) для 9/ и 07-, i Ф / = 1, ..., т. Величина s» = S/(n — т) C.4.5) (иногда называемая среднеквадратичной ошибкой) служит оценкой дисперсии ошибки оа. Указанные оценки асимптотических дисперсий можно исполь- использовать для приближенной проверки гипотез и аппроксимации 100 A —а) %-ных доверительных интервалов для параметров. Дополнительно в выходные данные могут быть включены предска- предсказанные значения уи соответствующие стандартные отклонения yt и остатки yt — уг для i = 1, ..., п. 3.4.2. Приближенная проверка гипотез и аппроксимация доверительных интервалов Для проверки гипотезы Яо: Эг- = 9го, i = 1, ..., т, используем статистику 2 = (в,-ао)/[Р(в/I1/2, C.4.6) где 0j — численное значение МНК-оценки для 9г, а V @г) — оценка асимптотической дисперсии для Qt. При истинности Но и при больших п эта статистика приближенно распределена по закону N @, 1). Приближенным 100 A —а) %-ным доверитель- доверительным интервалом для Bt, i = 1, ..., т, служит §,±zi-<«/2)[V(e()]1/a- C-4.7) Приближенным 100 A — а) %-ным доверительным интервалом для среднего значения Y, соответствующего выборочным значениям хи, x2i xpi, i = 1, ..., п, служит &±Zl-(a/2)[sd(&)]. C.4.8) где yt — оцененное значение Y при xlt, xiit ..., xpi, а sd (yt) — соответствующее стандартное отклонение для yt. Получение до- доверительного интервала для среднего значения Y при Хи ..., Хр, не принадлежащих выборке, является непростой задачей. Последовательность остатков yt — yt, i = 1, ..., п, можно ис- использовать так же, как в разд. 3.1.5.
3.4. Нелинейная регрессия 211 Замечания 3.4.1. 1. Выбор начальных значений 8i0), ..., Э^1 является чрезвычайно важным? моментом,Гпоскольку неудачный выбор может привести к медленной сходимости или даже рас- расходимости вычислительного процесса. Приемлемость начальных значений можно установить на основании пробных предваритель- предварительных просчетов, а в случае одной независимой переменной X полез- полезный прием состоит в проведении ряда кривых f (х; %ъ ..., Эт) для различных значений %ъ ..., Эт на плоскости с нанесенными точками данных. 2. Так как в некоторых программах оценкам не позволяется выходить за установленные верхние и нижние границы, то поль- пользователь должен задавать границы очень аккуратно, чтобы не сделать их слишком ограничительными. 3. Полезной величиной (которая, однако, не всегда присут- присутствует в составе выходных данных) является коэффициент корре- корреляции между наблюдаемыми значениями yt и предсказанными yt. Когда сравниваются альтернативные модели, лучшей считается та, для которой величина этого коэффициента больше. 4. Для некоторых специальных видов нелинейных функций (таких, как экспоненциальные или тригонометрические) суще- существуют программы, для которых не требуется задания начальных значений и подпрограмм, написанных пользователем. Пример 3.4.1. У 107 больных в критическом состоянии были измерены значения двух показателей: Y — сердечный индекс [л/(мин-м2)] и X — среднее время циркуляции (с). Диаграмма рассеяния данных подсказывает (рис. 3.1.3) зависимость вида Для обработки этих данных была использована программа не- нелинейной регрессии (BMDP3R). Начальные значения параметров, верхние и нижние границы были получены путем анализа графи- графического отображения данных и кривых вида f(x; Qlt 92, ез) = Э, + %е*>* для различных наборов 8Ъ Эа и Э3. Были выбраны следующие начальные значения: 8? = 1.0, 8° = 1.0 и 8з = —0.2 и границы o.i < б! < 5.о, o.i < е2 < юо.о и —0.5 < е3 < о.о. Результаты итерационной процедуры (метод линеаризации) даны в табл. 3.4.1. Окончательной оценкой уравнения служит у = 1.3707 + 1.8925е-°-1580*, а оценкой для о2 будет s2 = 0.7304.
212 Гл. 3. Регрессионный и корреляционный анализы Таблица 3.4.1 Численные значения последовательных итераций метода линеаризации для модели у = 6Х + 62ее'* СреЪнекваЬратичная Итерация ошибка 0, 0 1 2 3 4 5 6 7 8 9 10 11 3.8168 2.4508 2.0765 0.8968 0.7857 0.7305 0.7304 0.7304 0.7304 0.7304 0.7304 0.7304 .0000 .0400 .4036 .4393 .3574 .3744 .3709 .3707 .3707 .3707 .3707 ..3707 1.0000 2.5492 1.3727 8.8124 1.6380 1.8426 1.8303 1.8296 1.8295 1.8295 1.8295 1.8295 -0.2000 -0.1000 -0.2562 -0.1281 -0.1618 -0.1580 -0.1580 -0.1580 -0.1580 -0.1580 -0.1580 -0.1580 Оценки асимптотических стандартных • отклонений суть [у (вх)]i/2 = 0.1774, [V (Эа)]!/2 = 5.728 и [V @3)F2 = 0.02822. Проверка гипотезы Но: Qx = 0 против Но: Эх Ф 0 производится с помощью вычисления значения статистики г = A.3707 — 0)/0.1774 = 7.727, которое высоко значимо (Р < 10"°). Для проверки гипотезы Но: 92 = 2 против Ну: Э2 ¦< 2 вычисляем величину z = A.8295 — 2.0)/5.728 = —0.030, которая незначима. Приближенным 95 %-ным доверительным интервалом для 93 будет —0.1580 ± 1.96 @.02822) = (—0.213, —0.103). Так как этот интервал не включает 0, гипотеза Но: 03 = 0 отвер- отвергается с уровнем а = 0.05.
8.4. Нелинейная регрессия 213 Приближенным 95 % -ным доверительным интервалом для сред- среднего значения Y при л:23 = 20.5 будет 1.445 ± 1.96 @.1106) = A.228, 1.662), где 0.1106 — стандартное отклонение для у23 = 1.445. Коэффициент корреляции между Y и X есть rL = —0.659. Это мера линейной зависимости между рассматриваемыми пере- переменными. Для нелинейной модели мерой зависимости служит оценка простого коэффициента корреляции rNL между yt и ^. Так как rNL = 0.771 > | rL |, то, следуя замечанию 3.4.1.3, можно заключить, что нелинейная модель является более подходящей для подгонки рассматриваемых данных. Пример 3.4.2. Реакция образования комплекса HR гормона Н с рецептором R дается формулой где &! — константа прямого сродства (моль-мин), а &а — константа распада комплекса гормон — рецептор (мин). Диф- Дифференциальное уравнение, описывающее эту реакцию во времени, имеет вид где [R] — концентрация рецептора A0"9.М мг протеин), Щ] — концентрация гормона A0"9А1) и [HR ] — концентрация ком- комплекса гормон — рецептор A0~12М мг протеин). В предположе- предположении, что концентрация [Н] остается постоянной, решение этого уравнения дается функцией у = [HR @] = jjffi ["]fe2 [ 1 - exp (- [kx [H] + fej.01, которая может быть записана в виде у = А A - e~Bt), где Ro — общее число единиц комплекса, равное 1.3 A0"9Л1 мг протеин"), А = #„&! [НУВ и В = kx [Н] + k^. Статистическая задача состоит в оценке параметров А и В. Для различных концентраций Н (детали см. Hechter et al. A978)) были собраны данные об HR (t). Таблица, распо-
214 Гл. 3. Регрессионный и корреляционный анализы ложенная ниже, содержит такие данные при [Н] = 0.8 X х Ю"»М. t У t у 0.0* 0.000 4.5 0.088 1.0 0.025 5.0 0.094 1.5 0.035 5.5 0.100 2.0 0.045 6.0 0.105 2.5 0.055 6.5 0.110 3.0 0.065 7.0 0.115 3.5 0.075 7.5 0.120 4.0 0.082 8.0 0.125 Начальные значения для А а В можно выбрать, устремляя t к оо и затем полагая t = \/В. Так как у ->¦ Л при t -> оо, то Ло = = 0.125 (это значение у при г = 8 в таблице) — разумное началь- начальное приближение. Когда t — 1/5 имеем у = Ло A — е) = = 0.125 @.632) = 0.079. Из таблицы следует, что у ^ 0.079 при t = 3.5. Итак, подходящим начальным значением для В будет Во — \lt — 1/3.5 = 0.286. За минимальное и максимальное зна- значения параметров примем соответственно 0 и оо. Частные производные по Л и 5 имеют вид ду . _В{ ду л, _?* дА ~~ дВ Эти выражения совместно с выражением для [HR (t)] задаются программе в виде подпрограмм на Фортране. Для получения результирующих значений программе BMDP3R потребовалось пять итераций, как это можно видеть из таблицы. Итерация О 1 2 3 4 5 Остаточная сумма квадратов S 0.000926 0.000697 O.OOO575 0.000130 0.000130 0.000130 А 0.1250 0.1368 0.1688 0.1755 0.1758 0.1758 6 0.2860 0.2087 0.1458 0.1537 0.1531 0.1531 Асимптотические стандартные отклонения суть [V (Л)]1/2 == = 0.0032, [V (В) ]'/2 = 0.0044, а оценка для о есть [S/(n — т) I1/2 = = [0.00013/A6 — 2) ]'/2 = 0.0030. Используя оценки для Л и В можно оценить константы kt и k^. Так, k± = AB/R0 [H \ = = 0.1758 @.1531)/A.3 @.8 X 10"9)) = 2.588 X 107 и кг = = В — fex [H] = 0.1531 — B.588 X 107)@.8 х 10 9) = 0.1324. Асимптотические дисперсии для kx и k^ можно получить на основе асимптотических разложений для дисперсий произведений и ча- частных (Kendall, Stuart A969)).
3.4. Нелинейная регрессия 215 3.4.3. Линейная регрессия с ограничениями Программы нелинейной регрессии в некоторых ПСП (например, BMDP3R) позволяют решать задачу линейной (или нелинейной) регрессии, когда параметры удовлетворяют линейным ограниче- ограничениям. Пусть уравнение регрессии имеет вид #, = /(%, .... хрГ, eit .... K) + et C.4.9) для i = 1, ..., п и параметры подчинены k линейным ограничениям с/ = bjA + b/A Н h bJnfim - bj = 0 C.4.10) для / = 1, ..., k. И в этом случае МНК-оценки параметров получаются численно с помощью итерационного процесса. Как и раньше, для работы программы необходимо задать начальные значения параметров, их верхние и нижние границы и подпрограммы для вычисления функции f ( ) и ее производных. Кроме того, пользователь дол- должен задать и подпрограмму для проверки выполнения ограниче- ограничений и иногда первых производных от функции, описывающей ограничения. В выходные данные включаются оценки параметров, асимпто- асимптотические дисперсии и стандартные отклонения оценок $,-. Пример 3.4.3. Рассмотрим линейную модель с ограничениями, которая возникает в теории мембранного переноса и задается уравнением 1=1 где ? — разность электрических потенциалов, WA — разность электрических потенциалов, обусловленная активным переносом, R — универсальная газовая постоянная, Т — абсолютная тем- температура, F — константа Фарадея, tt — число переноса, zt — валентность с возможными значениями ±1, с[ — концентрация канальцевой жидкости, с\ — интерстициальные концентрации (? = = 1,2, 3). Индекс ? соответствует хлориду (i = 1), натрию (? = 2) или калию (i = 3). Значение RT/F = 26.72. Уравнение можно записать в виде Y = где Y = V; Pi = VA; Xt = B6.72/z,) In (с[1сЪ и pt = tu 1 = = 1, 2, 3. Из теоретических соображений величины pt должны удовлетворять ограничениям pf > 0 для i = 1, 2, 3 и р( + р? +
216 Гл. 3. Регрессионный и корреляционный анализы + ръ — 1 (детали эксперимента см. в работе Marsh, Martin A977)). Данные по 26 экспериментам приведены в таблице. № 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 У 0.8 0.8 -1.0 1.0 0.7 1.0 1.0 0.6 0.3 0.5 -3.5 -6.0 -8.5 -2.5 -3.0 6.0 -9.0 6.0 7.0 6.0 4.3 3.8 4.2 6.0 4.6 4.0 *i -0.293 . 2.558 1.724 2.129 1.954 2.390 -0.972 0.753 0.513 -0.575 -6.591 -29.044 -22.157 -2.337 -1.048 -1.464 -19.930 14.099 16.421 17.377 12.705 11.590 18.322 17.817 14.177 14.877 3.397 -3.567 1.137 -4.119 3.568 0.383 0.463 1.590 0.108 0.105 10.274 28.456 23.707 0.620 1.237 -1.620 19.425 -12.747 -15.045 -14.419 -9.238 -11.218 -20.420 -18.214 -12.507 -12.679 *з , -2.173 10.833 -26.678 0.000 10.233 -35.902 -18.851 -25.930 -28.799 -28.447 -8.990 -10.833 -4.498 1.753 7.550 -11.764 -6.966 9.439 5.403 1.106 10.160 5.874 4.738 4.738 2.259 0.000 Были выбраны следующие начальные значения для параме- параметров р[0) = рB0) = рC0) = 0.33 и р[0) = 0.000. Значениям пара- параметров plt pit ръ позволялось меняться от 0 до +оо, а /?4 — от —оо до +оо. Заметим, что ограничение pt > 0 для i = 1, 2, 3 задава- задавалось с помощью значения нижней границы рь. Частные производные функции Y по параметрам будут такие: =1, 2, 3; = 1. Единственное оставшееся ограничение можно записать в форме ci = Pi + Ра + Ръ — 1=0, а его частные производные имеют вид dpi *= 1,2,3; Р- =
Упражнения 21? Все эти выражения были переданы программе BMDP3R в виде подпрограмм на Фортране. Оценки с допусками, равными асимптотическому стандартному отклонению, приведены ниже. Параметр Оценка + ASE Pi Рг Рг Р* 0.6609 + 0.01797 0.3391 ±0.01797 0.0000 ± 0.00000 -0.1479 + 0.43600 Остаточный средний квадрат равен 4.817. Заметим, что Х3 яв- является незначимым предиктором Y при заданных Хг и Х2. Упражнения Замечание. Набор данных А — это данныетю примера 1.4.1, табл. 1.4.1 и 1.4.2. Набор данных В — это данные из примера 1.4.2, табл. 1.4.3 и 1.4.4. Раздел. 3.1 3.1.1 (набор данных В). Постройте диаграмму рассеяния для перемен- переменных Y — систолическое давление A962) и X — систолическое давление A950). Убедитесь, что линейная зависимость является разумной аппроксимацией. Оцените средние, дисперсии, ковариации и коэффициент корреляции между л И Л * 3.1.2 (набор данных В). Для данных из упр. 3.2.1 проверьте гипотезу неза- независимости X и У и вычислите 95 % -ный доверительный интервал для коэффи- коэффициента корреляции. 3.1.3 (набор данных В), а) Выполните упр. 3.1.1, используя вместо вели- величины систолического давления величины диастолического давления (DP). b) Вычислите оценку линии регрессии Yno X и нанесите ее на диаграмму рассеяния. c) Вычислите 95 % -ный доверительный интервал для среднего значения DP A962) у тех индивидуумов, для которых значение DP в 1950 г. составляло 75. d) Вычислите 90 %-ный интервал оценки DP A962) для тех индивидуумов, у которых DP A950) составляло 80. e) Проведите приближенные границы 95 % -ной доверительной полосы для линии, полученной в п. Ь). Раздел 3.2 3.2.1 (набор данных А), а) Используя данные первичного обследования для всех больных, оцените множественную линейную регрессию Y по Хл, Х« и X,. где F = PVI, X1= RCI, Х2 = Hgb, Х3 = Hct. b) Проверьте гипотезу о том, что Y не зависит от Xlt X2 и Х3. 3.2.2 (набор данных А). Для данных из упр. 3.2.1: а) получите 95 %-ные до- доверительные интервалы отдельно для Plf P2 и E3- b) получите 95 %-ные доверительные интервалы одновременно для Pi, Рг и р3; c) сравните п. а) и Ь).
218 Гл. 3. Регрессионный и корреляционный анализы f*4 3.2.3 (набор данных А). Для данных из упр. 3.2.1: а) вычислите 95 %-ный доверительный интервал для среднего значения Y при Хг = 21, Х2 = 12, Х3 = = 32; i b) вычислите 90 % -ный интервал'для оценки величины Y при тех же самых значениях Xi = 1, 2, 3, что и в п." а); c) сравните п. а) и Ь). 3.2.4 (набор данных А).е'Для данных из упр. 3.2.1: а) оцените множествен- множественный коэффициент корреляции между К и Xi, Х2, Х3; b) оцените множественный коэффициент корреляции между Y и Х\, c) проверьте, улучшает ли предсказание У добавление Х2 и Х3 к Xi как независимых переменных. 3.2.5 (набор данных А). Для данных из упр. 3.2.1: а) оцените частный коэф- коэффициент корреляции между Y и каждой из переменных X,- при фиксированных двух других переменных, t = 1, 2-, 3; b) вычислите совместный 95 %-ный доверительный интервал для трех част- частных коэффициентов корреляции, оцененных в п. а). [Указание: используйте ин- интервалы, вычисленные в упр. 3.2.2 (Ь), и соотношение, приведенное в замеча- замечании 3.2.5.3. ] Раздел 3.3 3.3.1 (набор данных А), а) Используя данные первичного обследования для всех больных, проведите пошаговую регрессию для переменных Y = CI, Хх = = SP, Х2 = MAP и Х3 = DP. k, b) Получите результирующую таблицу и примените ее для выбора наилуч- наилучшего набора предикторов, согласно четырем правилам остановки из разд. 3.3.2. Уровень значимости а примите равным 0.15. c) Объясните полученные результаты. Раздел 3.4 3.4.1 (набор данных А), а) Используя данные первичного обследования для всех больных, постройте диаграмму рассеяния на плоскости Y = CI и X = AT. Получите оценку линии регрессии для двух моделей рл + р>? + et, i = 1 п, ^) yi = Qi+ б/3*' + elt i=l п. b) Постройте графики этих линий. Какая из них лучше подходят для подгонки данных? (Решите на основе визуального анализа.) c) Ответьте на вопрос п. Ь), основываясь на среднем квадрате ошибки для моделей A) и B). ,;f*| d) Ответьте на вопрос п. Ь), используя замечание 3.4.1.3. e) Каков ваш окончательный ответ на вопрос п. Ь). 3.4.2 (набор данных А). Используя данные первичного обследования для всех больных, возьмите переменные Y = CI, Xi = AT, Хг = МСТ. Рассмотрите модель yi = 01 + е/**" + е/л< + eit i = 1, ..., п. a) Используя программу нелинейной регрессии, получите оценку пара- параметров уравнения регрессии. b) Проверьте нулевую гипотезу 9Х = 0. c) Вычислите приближенный доверительный интервал для 66. [Указание. В большинстве программ решающим является выбор начальных значений. Чита- Читатель может сначала построить графики Y в зависимости от Xi и Y в зависимости от Х2 и аппроксимировать каждую функцию в отдельности. Полученные значе- значения можно использовать при определении начальных значений. ]
Упражнения 219 Другие наборы данных Раздел 3.1 Было проведено сравнительное изучение двух методик, часто используемых физиотерапевтами для оценки развития ребенка. Два важных параметра — хро- хронологический возраст (СА) (в месяцах) и задержка умственного развития (MDL) (в месяцах) — были измерены с помощью обеих упомянутых методик Bayley и Qesell (см. вспомогательную таблицу). Для каждой методики проводился кор- корреляционный и регрессионный анализ данных для двух параметров — хроноло- хронологического возраста и задержки умственного развития (в мес). Кроме того, про- проверялась коррелированность обоих методик (детали см. Eipper, Azen, A978)). a) Оцените регрессию MDL по СА для каждой методики. Для какой мето- методики подгонка дает лучший результат? b) С помощью ^-критерия проверьте равенство наклонов линий регрессии для обеих методик, т. е. равенство коэффициентов Pi и C2 [Указание: величина t = (bi — 62)/[se2 (b{) + se2 (b2)]1^2 имеет ^-распределение с пх + n2 — 4 степе- степенями свободы, если Ьх и 62 независимы при Нй.\ c) Проверьте степень коррелированное™ между двумя методиками. Набор данных Испытуемый 1 2 3 4 5 б 7 8 9 10 СА(Вау1еу) h 8.4 12.4 12.4 14.0 14.2 16.2 16.2 16.3 16.8 17.0 ЛЪ1(Вау1еу 2.4 2.4 4.4 4.5 4.7 9.2 6.2 3.3 6.8 5.0 ) CA(GeseU) 8.7 12.1 12.7 13.8 13.9 16.4 16.4 16.5 17.0 16.7 Ubl(Gesell) 0.4 2.4 1.7 5.0 4.7 7.4 2.4 1.5 6.0 3.7 Разделы 3.1—3.3 Используя набор данных для задачи мембранного переноса (пример 3.4.3), ответьте на следующие вопросы. 1) Применив программу линейной регрессии, оцените в отдельности регрес- регрессию зависимой переменной по каждой из трех независимых переменных и сде- сделайте выводы по каждому анализу так, как указано ниже. Обязательно получите графические результаты, включая графики остатков и законы распределения. a) Каковы уравнения наименьших квадратов? b) Как точны оценки коэффициента регрессии? Ответ на это дайте в терминах стандартной ошибки коэффициента регрессии, коэффициента вариации и 95 %-ного доверительного интервала для истин- истинного коэффициента регрессии. [Указание: коэффициент вариации равен умноженному на 100 отношению стандартного отклонения оценки к величине оценки. ] c) Каково качество подгонки? Ответ дайте с использованием коэффициента множественной корреляции и графиков. d) Является ли независимая переменная значимым предиктором для зави- зависимой переменной? Если нет, что является наилучшей оценкой для значений независимой переменной?
220 Гл. 3. Регрессионный и корреляционный анализы e) В какой мере выполняются предположения регрессионной модели — равенство дисперсии и нормальность ошибок? Необходимо лн использование преобразований для улучшения согласия с моделью? f) Какая из иезавнснмых переменных является наилучшим, вторым по ка- качеству н самым плохим предиктором? Почему? 2) Применив программу множественной линейной регрессии, получите регрессию зависимой переменной по всем трем независимым переменным. a) Выпишите уравнения наименьших квадратов. b) Насколько точны оценки коэффициентов регрессии? c) Каково качество подгонки? d) Являются ли все три независимые переменные в совокупности значимым предиктором для зависимой переменной? e) Является лн каждая из независимых переменных значимым предиктором для У при фиксированных остальных двух независимых переменных? f) Обсудите приемлемость предположений линейной регрессионной модели. 3) Воспользовавшись программой пошаговой регрессии, проведите поша- пошаговую регрессию с применением четырех правил остановки. Одинаковы ли «иаи- лучшне» уравнения во всех четырех случаях? Сравните эти результаты с истин- истинным наилучшим уравнением. Раздел 3.4 Испол: с наборами щие вопросы галдел o.t Используя набор данных из примера 3.4.2 при [Н] = 0.8ХЮ"8 совместно с наборами данных для двух добавочных концентрации [Н], ответьте на следую- [Н] = 1.7 х 1 RH(f) 0.000 0.035 0.060 0.080 0.095 0.115 0.130 0.140 0.155 0.165 0.175 0.185 0.190 0.200 0.205 0.210 0.220 ю-' м t 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 [Н] = 4 х RH(t) 0.000 0.080 0.135 0.180 0.230 0.255 0.280 0.305 0.325 0.340 0.360 0.370 0.385 10"' М t 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 - 1) Определите для каждой концентрации [Н] начальные значения А и В. [Указание: положите t-+oo и t= \IB. ] 2) Линеаризуйте функцию / (А, В) = A (l — e~Bt) в окрестности началь- начальных значений Ав и Ва. 3) Применив программу нелинейной регрессии, найдите оценки для" А и В для каждой концентрации [Н]. Ответьте на следующие вопросы относительно каждого из полученных уравнений регрессии.
Упражнения 221 a) Какова точность полученных оценок? b) Каково качество подгонки? c) Насколько приемлемы предположения модели: гомоскедастнчность, нор- нормальность и т. д. *Ч,4) Проверьте гипотезу о том, что для различных концентраций величины А и В значимо отличны. 5) Оцените kt и ?2 для каждой нз концентраций. Разделы 3.2 и 3.4 Зависимость норадреналнна (К) от уровня натрия (X), вводимого с пищей, как это следует из графического представления данных, является либо полино- полиномиальной, либо экспоненциальной. Для врачей представляет интерес, опреде- определить с помощью «наилучшей подгонки», попадает ли данный пациент внутрь гра- границ 95%-ной доверительной полосы. a) Постройте диаграмму рассеяния для данных, приведенных в таблице. b) Примените программу множественной регрессии для оценки полино- полиномиальной кривой. Вычислите приближенную 95 % -ную полосу. c) Применив программу нелинейной регрессии, получите оценку экспо- экспоненты. Используйте остаточную сумму квадратов для приближенного определе- определения стандартной ошибки оценки. Вычислите и нарисуйте 95 % -ную доверитель- доверительную полосу вдоль кривой. d) Определите, какое из уравнений обеспечивает лучшую подгонку. Кг*" •2.0 10.0 5.0 6.0 20.0 3.0 14.0 21.0 97.0 86.0 56.0 127.0 НораЬреналин 31.66 19.20 45.03 13.30 23.44 20.61 18.46 11.98 13.90 14.00 14.6! 15.26 103.0 122.0 136.0 80.0 196.0 196.0 224.0 245.0 171.0 257.0 157.0 ШраЪреналин 5.58 15.21 7.58 9.77 13.60 10.01 3.68 7.03 14.12 7.30 10.32 Раздел 3.4 Нелинейная регрессия используется в фармокинетике при определении зависимости концентрации лекарства от времени. Часто для этого используется двухкомпонентная модель, отражающая скорость разрушения как функцию времени. Такая двухкомпонентная модель дается уравнением у = faer' -\- + с^е'. Используя программу нелинейной регрессии и данные из таблицы, ответьте на следующие вопросы. 1) Каковы начальные значения параметров? 2) Чему равны оценки параметров и стандартных ошибок? 3) Каково качество подгонки? Время 0.10 0.25 0.50 1.00 1.50 2.00 4.00 8.00 12.00 24.00 48.00 Наблюдаемая 18.7 16.9 14.5 11.1 8.9 7.5 5.2 3.6 2.6 1.0 0.2 концентрация
4 Дисперсионный анализ В разд. 2.4 дисперсионный анализ (сокращенно ANOVA) рас- рассматривался как аппарат для сравнения k средних из k подпопуля- ций или слоев, k ^ 2. Можно считать, что слои или подпопуляции определяются различными уровнями величины, положенной в основу классификации. Эту величину обычно называют факто- фактором. Общая задача дисперсионного анализа включает несколько факторов, каждый из которых имеет не менее двух уровней. В основе каждой задачи лежит план эксперимента, т. е. правило соотнесения каждого эксперимента с определенной комбинацией рассматриваемых факторов, и модель дисперсионного анализа, т. е. математическое соотношение, представляющее каждую пере- переменную в виде суммы среднего значения и ошибки. В свою оче- очередь среднее значение каждого наблюдения представляется в виде суммы генерального среднего и «эффекта» от каждого фактора и каждой комбинации факторов. Возникающие здесь статисти- статистические задачи связаны с оценкой этих эффектов и проверкой статистических гипотез о них. Дисперсионный анализ впервые возник в работах Фишера (Fisher A918, 1925, 1935)). Подробный исторический обзор см. у Sheffe A956). Метод, разработанный Фишером, был позднее переформулирован в терминах общей линейной модели. В разд. 4.1 мы обсудим эту изящную теорию, представляющую собой совре- современный подход к дисперсионному анализу. Кроме того, будет показано, что оценки и проверка гипотез в простой и множествен- множественной линейной регрессии могут рассматриваться как приложения этой теории. Читатель, которого интересует только задача дис- дисперсионного анализа, может ограничиться чтением сводки ре- результатов в конце этого раздела и затем сразу перейти к разд. 4.2. В разд. 4.2 и 4.3 мы отойдем от нашего используемого до сих пор приема изложения, при котором вычислительные и теорети- теоретические вопросы тесно переплетались. Вместо этого обсудим раз- различные экспериментальные планы, теоретические модели и при-
4.1. Основы теории общей линейной модели 223 ложения. Начиная с разд. 4.4, снова вернемся к рассмотрению вычислительной стороны дела и покажем, каким образом исполь- использовать различные ПСП для решения задач дисперсионного ана- анализа. Читатель, владеющий необходимым теоретическим аппара- аппаратом, может при желании начать сразу с разд. 4.4. В разд. 4.2—4.3 будут разобраны несколько стандартных задач дисперсионного анализа. Вначале вновь обратимся к однофактор- ной модели ANOVA, изложенной в разд. 2.4. При выяснении раз- различия в интерпретации так называемой модели I (фиксированные эффекты) и модели II (случайные эффекты) в разд. 4.3 обсу- обсуждаются двухфакторные задачи, возникающие в перекрестных планах и планах с группировкой 1). Здесь различаются модель I, модель II и модель со смешанными эффектами. В обоих разделах предполагается, что вычисления проводятся при помощи име- имеющихся ПСП. В разд. 4.4 рассматриваются факторные программы, входящие во многие ПСП. Мы покажем, как при помощи этих программ можно анализировать различные модели — уже рассмотренные и некоторые новые. В разд. 4.5 будет показано, как использовать программы множественной линейной регрессии для решения задач дисперсионного анализа. Раздел 4.6 посвящен однофакторному ковариационному анализу. Стоит отметить, что, хотя ANOVA предназначен для «планируемых» экспериментов, многие задачи дисперсионного анализа возникают из «непланируемых» экспе- экспериментов: эго особенно характерно для общественных и биологи- биологических наук. Например, исследователь, собирающий сведения о размещении постоянных жителей данного города, может инте- интересоваться влиянием факторов «этническая группа» и «социально- экономическое положение». В этом случае он формулирует свою задачу, как задачу двухфакторного дисперсионного анализа (разд. 4.3), и использует стандартные процедуры обработки. Но читатель должен понимать, что интерпретация результатов зависит от того, с чем мы имеем дело: с планируемым эксперимен- экспериментом или с обследованием. 4.1. Основы теории общей линейной модели В этом разделе по сравнению с остальными большее внимание уделяется теоретическим аспектам. Читатель, которого интересует только техника дисперсионного анализа, может ограничиться чтением выводов и перейти к следующим разделам. В оригинале nested (гнездованные). — Прим. перев.
224 Гл. 4. Дисперсионный анализ Пусть мы располагаем п наблюдениями уъ ..., уп — реализа- реализациями п случайных величин Ylt ..., Yn. Предположим, что сред- среднее значение каждой величины Yt линейно зависит от р неизве- неизвестных параметров 8lt ..., 6р, так что ..+9р*рг, i=l п, D.1.1) где xlit ..., xPi — известные постоянные. В этом случае каждое наблюдаемое значение yt можно записать в виде суммы ^-е^ + .-. + в^ + е,, D.1.2) где еи ..., еп — ошибки. Общая линейная модель задается послед- последними соотношениями при дополнительных предположениях: , (,) а, D 1 3) covfo, <?у) = 0, i, /=1, . . ., п, 1ф}. к ' ' ' Другими словами, ошибки считаются некоррелированными, име- имеющими нулевое среднее и одинаковую дисперсию а2. Мы уже рассматривали эту модель (в других обозначениях) в разд. 3.2. при обсуждении множественной линейной регрессии. В самом деле, если положить xlt = 1 и по-другому занумеровать константы и параметры, то соотношение D.1.2) примет вид модели множественной линейной регрессии: У, = во + QiXji Н Ь V* + *, q = p-l. В настоящем разделе мы хотим найти процедуры точечной оценки для параметров 9Ь ..., 9р и описать методы получения доверительных интервалов и проверки гипотез относительно этих параметров. Точечные оценки можно получить без всяких допол- дополнительных предположений, но для получения доверительных интервалов и для проверки гипотез нам придется предположить, что ошибки et распределены нормально. Пример 4.1.1. Для того чтобы из равенства!^. 1.2 получить модель простой линейной регрессии C.1.2), положим 92 = р0, 02 = Рь хи = 1, хп = xt. Тогда ух = р0 + Рл + et, i = = 1, ..., п. Пример 4.1.2. Пусть есть две выборки: выборка 21Ь ..., zlni из популяции с распределением N (ци а2) и выборка г2Ь ..., г2Пг из популяции N (ц2, а2). Положим г/х = гп, ..., уП1 = zltll, yni+i = = ггь •••, Уп = г2пг, где п = их + п2. Тогда , . . ., /г,
4.1. Основы теории общей линейной модели 225 где et распределено по закону N @, сг2). Последним равенствам можно придать вид D.1.2), т. е. где 0, t = l, . . ., пу, 1, i = n1 -f-1, . . ., га. Это однофакторная модель дисперсионного анализа с k =2 подпуляциями, называемая еще задачей о двух выборках (разд. 2.3.2). Может показаться, что мы усложняем простую ситуацию. Но в дальнейшем будут видны преимущества формулировки таких задач в терминах общей линейной модели. 4.1.1. Точечные оценки Обычно оценки параметров Qlt ..., 9Р получаются методом наи- наименьших квадратов (МНК-оценки). Оценки наименьших квадра- квадратов определяются как значения 9ц ..., 9Р параметров 9Ь ..., 9р, минимизирующие сумму квадратов S = I] (Mi - ех% %xpif D.1.4) по всем наборам Qlt ..., бр. Значения 9Ь ..., 9Р линейно зависят от наблюдений. Сама точка минимума может либо определяться однозначно (как в случае множественной линейной регрессии), либо таких точек оказывается бесконечно много. Подобная не- неоднозначность может возникнуть в ситуации дисперсионного анализа. Для получения единственного решения обычно налагают ,: дополнительные условия на параметры и их оценки. Мы тоже при г, необходимости будем вводить подобные условия. ' В этом разделе будем считать, что либо сразу, либо после на- наложения нужных условий получен единственный набор МНК-оце- нок 9\, ..., 9Р. Тогда оценка наименьших квадратов для любой линейной функции параметров является той же самой линейной функцией от МНК-оценок самих параметров. Значит, Ц сА = Ц с,4, D.1.5) (=i i=i где ct — известные постоянные, i = 1, ..., р. Поскольку 9г ли- р нейно зависит отylt ..., уп, то и 2 сг9, линейно зависит от наблю- ! = 1 дений у. Важность метода наименьших квадратов состоит в том, 8 А. Афифи. С. Эйзен
226 Гл. 4. Дисперсионный анализ что МНК-оценки являются несмещенными оценками, линейно зависящими от наблюдений. Это и есть содержание теоремы Гаусса — Маркова. Теорема Гаусса ¦— Маркова1). Для общей линейной модели р р D.1.2) с условиями D.1.3) МНК-оценка 2 сД- величины Jj ci®i i=\ 1=1 (здесь 0; — единственные МНК-оценки для 0;, а с,- — постоянные) является несмещенной и обладает наименьшей дисперсией среди р всех несмещенных оценок суммы 2 сг0г, линейных по t/j, ..., уп. !=i Кроме оценок параметров 0Ъ ..., 0Р, нам понадобится оценка для дисперсии ошибок а2. Обычно для этого используют оценку, называемую средним остаточным квадратом (или средним ква- квадратом ошибки): MSR = s2 = SSR/vR, D.1.6 где остаточная сумма квадратов (сумма квадратов ошибок) SSR имеет вид SSR = 2 (yt - 0Л« 0>ргJ> D-1.7) a vR — остаточное число степеней свободы. Это величина, способ вычисления которой мы будем указывать во всех рассматриваемых случаях (см. замечание 4.1.1.2), выбирается так, чтобы оценка s2 оказалась несмещенной. Величины SSR, vR и MSR фигурируют в таблицах ANOVA, таких, как табл. 2.4.1, 3.1.1 и 3.2.1 соответ- соответственно для задач однофакторного дисперсионного анализа, про- простой линейной регрессии или множественной линейной регрессии. Заметим, что остаточная сумма квадратов SSR показывает, на- насколько хорошо построенная модель согласуется с данными: чем меньше SSR, тем лучше согласие. Замечания 4.1.1. * 1. Общая линейная модель просто записы- записывается в матричных обозначениях. Пусть у„)', вРХ1 = (81, . . ., Вру, е»>" = (е1, . . ., еп)', (Х')п*р = [Хц "¦ хр1\ : : : Г хи ¦¦¦ хрп\ г) Это наиболее общая форма теоремы в предположении единственности оценок. Дальнейшее обобщение можно найти у Sheffe A959).
4.1. Основы теории общей линейной модели 227 В этих обозначениях равенства D.1.2) и D.1.3) соответственно принимают вид у = Х'9 + е, ?(е) = 0 и cov(e) = a2l, где 0 — нулевой вектор, а I — единичная матрица. Сумма ква- квадратов, которую нужно минимизировать, теперь представляется в виде S = (y-X'9)'(y-X'0), а оценки наименьших квадратов оказываются решениями уравне- уравнений (называемых нормальными уравнениями): (XX') 6 = Ху. Если ранг X' равен р, то матрица XX' невырожденная и имеется единственное- решение нормальных уравнений Это так называемый случай полного ранга. Ковариационная ма- матрица для 0 равна Если же ранг X' = г < р, то оценки неединственны (случай неполного ранга). 2. Остаточное число степеней свободы vR равно п — г, где г = rank X'. Поэтому мц _ (у-Х'8Г(у-Х'8) Пример 4.1.1 (продолжение). МНК-оценки для р0 и рг получаются минимизацией величины по ро и Pj. Эти оценки однозначно задаются равенствами (см. C.1.5) и C.1.6)) 23 (*<• - *»( к = У~кх и Pi = -^ ¦ 23 (* - *J Несмещенной оценкой для дисперсии а2 служит s" = Е (И - Ро - Pi*№ - 2),
228 Гл. 4. Дисперсионный анализ так как в данном случае vR — п — 2. Применяя теорему Гаусса— Маркова, получим, что МНК-оценкой для |30 + 2^ будет Эта оценка обладает наименьшей дисперсией среди всех оценок для ро + 2ръ линейно зависящих от уъ ..., уп. Пример 4.1.2 (продолжение). МНК-оценки для \лх и (х2 получаются при минимизации величины S = 23 (У: - PiXit - 1*2%J = 23 (У1 - 1*1 • !J + 23 (</< - Ца- !J 1 1 +l (У: Pii 12%) 23 (У1 11 ) + 23 1=1 1=1 l=tl+l по всем (xx и [л2. Эти оценки однозначно задаются равенствами ~Vi и Ца = Остаточная сумма квадратов SSR равна ssR = [ 23 &•.- у,J + S (^-у2 a vR = пх + п3 — 2. Стоит отметить, что средний квадрат s2 = = MSR = SSR/vR совпадает с объединенной дисперсией si, фигу- фигурирующей в соотношении B.3.6). 4.1.2. Доверительные интервалы Для получения доверительных интервалов значений параметров или функций от параметров нам понадобится предположение о виде функций распределения ошибок. Обычно предполагают, что они распределены нормально. И мы в этой главе будем считать, что elt . . ., еп независимы и распределены по N@, а2). D.1.8) В этих предположениях можно показать, что 100 A — а)%- ный доверительный интервал для любой линейной комбинации р параметров \|з = 23 cfii есть i D.1.9)
4.1. Основы теории общей лииейиой модели 229 где $ = Х]сг9;, a V(if)- оценка дисперсии \|з. Поскольку оценка (=1 ty линейно зависит от наблюдений, то ее можно записать в виде п \\> = Saii/j c известными постоянными ah Отсюда имеем п V (¦) = а2 Ц а\, D.1.10) У(ф) = s2 2j fl?. D.1.11) ?=1 где s2 — несмещенная оценка дисперсии а2 с vR степенями сво- боды. Чтобы построить 100 A —а) %-ные доверительные интер- интервалы для нескольких линейных комбинаций параметров, можно применить формулу D.1.9) к каждой из них. Однако'общая до- доверительная вероятность уже не будет равна 1 — а. Напомним, что решение этой задачи путем построения совместных довери- доверительных интервалов для однофакторного дисперсионного анализа было описано в разд. 2.4. Методы построения совместных довери- доверительных интервалов существуют и для общей линейной модели. Мы не будем рассматривать их в этой книге, но в следующем за- замечании сформулируем только принцип, лежащий в основе этих методов. Читатель, интересующийся этим вопросом, найдет его обсуждение у Scheffe A959, с. 86). Замечание 4.1.2. * Пусть ifo = а(9, ...,% = a'qQ суть q ли- линейных функций от параметров 9 = (9lt ..., 9Р)' и векторы аъ ..., а„ линейно независимы. Пусть также ijj] ф« суть МНК-оценки для ^ъ ...,% и s2 — обычная несмещенная оценка дисперсии а2 с vR степенями свободы. Если ввести обозначения то 100 A —а) %-ное доверительное множество для if задается неравенством (г|> - $)' В (ф - 40 <: qs2FUa (q, vR), где
230 Гл. 4. Дисперсионный анализ Пример 4.1.1 (продолжение). Предположим, что еи ..., е„ независимы и распределены по N @, сг2). Пусть ty = 0-р0 -+- + 1 • Pi = рх. Оценка для г|з дается равенством п In ¦ф — Pi = 2j «<«/i> где ai=(xi — x)J](xj — xf. Отсюда J] (X,- — ЛJ Г п -12/1 Ц(^/-*J E(^-*J L/=i J /=i Мы вновь получили выражение для оценки дисперсии параметра Рь задаваемой формулой C.1.13). Пример 4.1.2 (продолжение). Пусть ех е„ независимы и распределены по N @, ст2), а ч|з равно ^ — \i2- Оценкой для tf> служит $ = Hi — Ца = У1 — У^, поэтому [ 1/«! при i = 1, . . ., пъ 1 \ \/п2 при i —¦ Пу -\-1 п [оценкой для V (ф) служит V (¦$) = 4 ((l/nj + A/п2))]. Отсюда получим 100 A—а) %-ный доверительный интервал для раз- разности [it — ji-г (см- соотношение B.3.7)): (УХ - У2) ±h- (а/2) («! + «2 - 2) ]/7 4 (-1- + -1- ) . 4.1.3. Проверка гипотез В большинстве задач дисперсионного анализа проверяемую гипо тезу можно записать в виде Яо: 9,- = б,- = ... = 0,т = 0, т. е. как гипотезу о том, что т из р параметров равны нулю. Не теряя общности, можно считать, что речь идет о последних т параме- параметрах. Итак, запишем нулевую гипотезу: Яо: 9p_m+i = ... = = 8р = 0. Сформулируем критерий отношения правдоподобия для проверки этой гипотезы. Для этого выпишем усеченную модель Ус = 0Л; + ¦ • • + вР-тХр_т, i-\-eh i = 1 га. D.1.12) Такую форму принимает наша общая линейная модель с учетом гипотезы Яа. Затем найдем МНК-оценки вг, ..., вр_т для пара-
4.1. Основы теории общей линейной модели 231 метров 0ь ..., 0р_т. Остаточная сумма квадратов при принятии гипотезы #о есть r = 2 (ус - ёххи ёр_тхр_т, О2, D.1.13) 1 a vR — соответствующее число степеней свободы. Поэтому стати- статистика критерия правдоподобия имеет вид (SSR-SSR)/(vR-vR) SSR/vR ' DЛЛ4> а Р-значение равно площади справа от точки F под кривой плот- носщ распределения F (vR — vR, vR). Величина SSH = SSR — SSR называется гипотетической суммой квадратов, a vH = vR — vR — гипотетическим числом степеней свободы. [Как и прежде, SSR — остаточная сумма квадратов (сумма квадратов ошибок), a vR — остаточное число степеней свободы. ] Сумма SSR служит мерой того, насколько хорошо усеченная модель согласуется с наблюдениями. Ясно, что SSR ^ SSR. Поэтому SSH показывает, насколько хуже наблюдения аппроксимируются усеченной моделью, a F есть мера потерь при принятии гипотезы Но по сравнению с согласием в исходной модели. Чем больше F, тем хуже усеченная модель. Следовательно, при больших значениях F нужно отклонить ги- гипотезу Но. В таблицах ANOVA кроме SSR, vR и MSR может фигурировать и статистика критерия F, называемая F-отношением. Мы еще встретимся с такими таблицами в этой главе. Замечания 4.1.3. 1. То, что величина F, задаваемая равен- равенством 4.1.14, подчиняется /•'-распределению, вытекает из резуль- результата, известного как теорема Кокрэна. Приведем ее формули- формулировку. Теорема Кокрэна. Рассмотрим общую линейную модель, описы- описываемую соотношением D.1.2) при условиях D.1.3) и D.1.8). Пусть St —суммы квадратов с гг степенями свободы1), i = 1, ..., q. Если величина S = 2 St распределена как о2%2 (v) и v^--. ... + vq — v, то a) суммы S; распределены как cr2%2 (vt), i = 1, ..., q, b) все суммы Si, ..., S? независимы. x) ~k Сумму квадратов S(- можно записать в виде у'Ау, где у"х1 — вектор на- наблюдений, а А/1ХЯ — известная матрица. При такой записи число степеней сво- свободы Si определяется как ранг матрицы A. -fc
232 Гл. 4. Дисперсионный анализ Из раздела 1.2.8 приложения мы знаем, что если отношение Sj/cr2 имеет распределение %2 (v,), a Sj/o2 — распределение %2 (vj) и величины St и 5; независимы, то статистика F — „ , подчи- няется распределению F (vt, v}). 2. Можно показать, что сумма SSR распределена как а2%2 (vR). А поскольку SSR = SSR + SSH и vR = vR + vH, то a) сумма SSR распределена как aa%2 (vR), a SSH — как 02х2 (vH), b) величины SSR и SSH независимы. Поэтому отношение F = = H|VH имеет распределение F (vH, vR). Пример 4.1.1 (продолжение). Для модели простой линейной регрессии SSR = t (Ус - Ро - РЛJ = t (Ус ~ У? - Pi S (xt - *f. i=l i=l (=1 При выполнении нулевой гипотезы Но: рх = 0 усеченная модель представляется в виде yt = р0 + е,-, так что р0 = у и Числа степеней свободы суть vR = п — 2 и vR = п — 1. Поэтому гипотетическая сумма квадратов запишется в виде п ssH = (ss'R — ssR) = И 5j (xt — xJ. Отсюда где ^ = Это та же самая статистика, которую мы использовали в C.1.11). Пример 4.1.2 (продолжение). В этом случае имеем
4.1. Основы теории общей линейной модели 233 При гипотезе Но: цх = [х2 = (л х) усеченная модель задается соотношением yt = \л + et, i = 1, ..., п. Соответствующей оцен- п кой для \л служит \к = z/ = A/п) 2 г/г. так что 2 1=1 1 = 1 + Число степеней свободы vR = nx + ^ — 2 и v'R — пх + п2 — 1. Отсюда для гипотетической суммы квадратов получаем SSH = (SSr - SSR) = (nin2/(«! + п2)) (ух - z/2J, F = ("l/(»l + П2)) (У! — У2)а _ (У! — У2)а = ^2 4 4 A/П! + 1/па) ' где t — двухвыборочная f-статистика. Резюме В этом разделе мы описали общую линейную модель как еди- единую теоретическую основу и дисперсионного, и регрессионного анализов. Все конкретные модели дисперсионного анализа, кото- которые мы будем далее рассматривать, можно записать в виде линей- линейной модели. Поэтому теорию общей линейной модели можно при- применить к любой конкретной модели ANOVA. Итак: 1. Метод наименьших квадратов является оптимальным мето- методом оценивания параметров моделей дисперсионного анализа. Он приводит к несмещенным оценкам, обладающим наименьшей дисперсией среди всех несмещенных оценок, линейно зависимых от наблюдений. 2. В любой модели дисперсионного анализа в таблице ANOVA приводится обычная несмещенная оценка дисперсии ошибок а2, задаваемая средним остаточным квадратом MSR. Иногда для этой ; величины используют более привычное обозначение s2. Эта оценка : дисперсии используется при построении доверительных интерва- р ; лов D.1.9) для любой линейной комбинации Jj ctQt параметров 0г. \ Число степеней свободы возникающего при этом ^-распределения I равно остаточному числу степеней свободы vR. г) Эта гипотеза отличается от принятой формы Яо: 9; = 0. Но, сделав за- замену Ц! = Ql7 [i2 = 6i -\- 92, приведем нашу гипотезу к виду Яо: 62 = 0.
234 Гл. 4. Дисперсионный анализ 3. Каждая задача проверки гипотез относительно параметров модели дисперсионного анализа приводит к некоторому F-крите- рию. Каждая ^-статистика есть отношение средних квадратов, обычно представленных в соответствующей таблице ANOVA. 4.2. Однофакторный дисперсионный анализ Обсудим теперь простейшую модель дисперсионного анализа — однофакторный дисперсионный анализ (называемый еще одно- факторным планом или однофакторной классификацией). Мы вновь возвращаемся к этой модели, уже рассмотренной в разд. 2.4, чтобы прояснить некоторые понятия дисперсионного анализа. Напомним, что у нас есть / подпопуляций, которые можно рас- рассматривать как / слоев в исходной популяции. Обозначим средние значения измеряемой величины по t'-й подпопуляций через [хг, i = 1, ..., /. В этом разделе мы займемся оцениванием средних [хг по случайным выборкам из этих / подпопуляций, а затем — про- проверкой гипотез относительно средних. Для этого, предположим, что каждая подпопуляция распределена нормально с одной и той же дисперсией. Итак, у нас есть / нормально распределенных подпопуляций N ((X], сг2), ..., N ((X/, сг2). Сформулированные пред- предположения можно записать в виде Уи = Pi + еф / = 1, ...,/,-, i = 1, ...,/, D-2.1) где уи обозначает /-е наблюдение из t'-й подпопуляций, а «ошибки» e;j независимы и распределены по N (О, сг2). Соотношения D.2.1) представляют собой одну из форм однофакторной модели дис- дисперсионного анализа. Во многих случаях желательно выразить i-e среднее [хг в виде суммы генерального среднего (д. и дифференциальных (или главных) эффектов ап определяемых для каждой подпопуляций. Такое раз- разложение получится, если определить 2 Jvl D-2-2) где я = J] /,- и а, = it, - [х. D.2.3) Теперь мы можем переписать однофакторную модель дисперсион- дисперсионного анализа в виде уи = (х + а< + еа, j = 1. • • • Ji, i = 1, ...,/, D.2.4)
4.2. Однофакторный дисперсионный анализ 235 где ошибки вц независимы и распределены по N @, а2). Именно такой формой модели мы и будем пользоваться в этой главе. При интерпретации дисперсионного анализа эта однофактор- ная модель ANOVA используется при планировании эксперимента с одним фактором. Грубо говоря, фактор А служит основанием для классификации всей совокупности исследуемых объектов. Пусть Y — случайная величина, определенная на этой популя- популяции, а [х — ее среднее. Пусть популяция разбита на / подпопу- ляций так, что каждая подпопуляция соответствует уровню i фактора A, i = 1, ..., /. В представлении fx, = [х + at для сред- среднего величины Y на t'-й подпопуляции at есть дифференциальный эффект, соответствующий уровню i. На каждом уровне i случайно выбираются Jt объектов и определяется выборка уп, ..., yiir Здесь ytj — значение Y на/-м объекте, приписанном к i-му уровню. Рассматриваемая модель дисперсионного анализа описывает именно такую ситуацию в предположении, что распределение Y на каждой подпопуляции нормально с одной и той же дисперсией а2. Каждое значение yti равно сумме генерального среднего fx (единого для всех / уровней фактора), дифференциального эффекта a-i, определяемого уровнем i, и случайной ошибки вц. Поясним все это двумя примерами. Пример 4.2.1 При исследовании эффекта рентгеновского облу- облучения различные крысы получили дозы 0, 100, 200 и 300 рентген. Тем самым у фактора А — полученной дозы радиоактивности — определено 4 уровня (/ = 4), соответствующих дозам 0, 100, 200 и 300 рентген. Уровни занумерованы от 1 до 4 в порядке возраста- возрастания доз, так что первый уровень соответствует нулю рентген, а четвертый — 300 рентген. Популяция i состоит из крыс (исследу- (исследуемых объектов), получивших i-ю дозу. Исследуется случайная величина Y — площадь обожженной кожи у крыс после облуче- облучения. В этом случае [хг — средняя площадь ожога для i-ro уровня радиации, а а; —дифференциальный эффект t-ro уровня (i = 1, 2, 3, 4). Пример 4.2.2. В работе Cissik et al. A972) были опубликованы экспериментальные данные, подтверждающие образование газо- газообразного азота в человеческом организме в естественных усло- условиях. Авторы измеряли величину Y — количество выдыхаемого азота (в литрах) в покое и при четырех режимах питания. Каждая s из / = 4 диет (фактор А) характеризовалась процентным содер- содержанием белков. В этом случае [х; — среднее количество выдыха- выдыхаемого азота при t-й диете, аа; — дифференциальный эффект, т. е. ! влияние t-й диеты на количество выдыхаемого азота, i = 1, ..., 4. В последующем мы проанализируем этот пример различными спо- способами.
236 Гл. 4. Дисперсионный анализ В настоящей главе нам встретятся модели факторного анализа, связанные с планами, содержащими несколько факторов. Каж- Каждый фактор будет интерпретироваться либо по модели I, либо по модели II. Будем говорить, что фактор соответствует модели I, если экспериментатора интересуют подпопуляций, отвечающие именно данным уровням этого фактора. В частности, при повторе- повторении эксперимента будут рассматриваться случайные выборки из тех же самых подпопуляций. В примере 4.2.1 радиация — фактор, соответствующий модели I, если экспериментатор инте- интересуется реакцией крыс именно на дозы в 0, 100, 200 и 300 рентген; точно так же в примере 4.2.2 диета есть фактор, соответствующий модели I, если нас интересуют именно эти четыре диеты. И на- наоборот, фактор относится к модели II, если подпопуляций, соот- соответствующие различным уровням фактора, выбираются случайно из большого (бесконечного) числа подпопуляций. Поэтому при повторении эксперимента скорее всего мы будем иметь дело со случайными выборками из других подпопуляций. Так, в примере 4.2.1 радиация будет фактором, соответствующим модели II, если значение дозы облучения, которым подвергаются подопытные крысы, выбираются случайно. Рисунок 4.2.1 поясняет разницу между моделью I и моделью II для фактора с / = 3 уровнями. В случае модели II величина тх 1-я поЪпопцля^ия 1-я лоЬпопуляция Популяция средних ¦-?¦¦? Модель Я Рис. 4.2.1. Сравнение факторов, описываемых моделью I и моделью II. Модель I — проверяется гипотеза На: \1г = \i2 = \is = \i или аг = а2 = а3 = 0; значе- значения [д.1, р.2 и \i3 выбираются по плану. Модель II — проверяется гипотеза Но: i^ = 0; mv m2, выбираются случайно.
4.2. Однофакториый дисперсионный анализ 237 обозначает среднее значение на случайно выбранной подпопуля- ции, соответствующей t'-му уровню фактора (i = 1, 2, 3), a ol — дисперсию популяции средних, отвечающих разным значениям фактора. В двух следующих разделах мы поочередно обсудим обе модели, а рис. 4.2.1 призван пояснить это обсуждение. Раздел 4.2.1 посвящен случаю, когда А—фактор, соответ- соответствующий модели I. Такая модель называется еще однофакторной моделью дисперсионного анализа с фиксированными эффектами (а фактор — фиксированным фактором). Затем в разд. 4.2.2 рас- рассматривается ситуация, когда А — фактор, соответствующий мо- модели II. Эта модель называется еще однофакторной моделью дис- дисперсионного анализа со случайными эффектами (а фактор — случайным фактором). 4.2.1. Модель с фиксированными эффектами Модель однофакторного дисперсионного анализа с фиксированными эффектами (модель I) задается соотношением D.2.1) или D.2.4) Из второго описания понятно, почему для характеристики модели используется термин «фиксированные эффекты». В этом пред- представлении каждое наблюдаемое значение складывается из гене- генерального среднего |х и дифференциального «эффекта» а(, фиксиро- фиксированного в том смысле, что подпопуляция со средним ц. + «г за- зафиксирована экспериментатором. Любое из соотношений, зада- задающих модель, можно привести к виду общей линейной модели D.1.1). Поэтому для построения оценок параметров и проверки гипотез относительно этих параметров можно воспользоваться теорией, изложенной в разд. 4.1. Из представления модели в виде D.2.1) можно вывести МНК-оценки (лг для (д.г, i = 1, ..., /. Из них вытекают МНК-оценки величин ц и at, входящих в соотно- шение D.2.4): ? = A/п) ? J^ и at = р,г- — р,, t = 1, .... /. Таким образом, мы получаем МНК-оценки ? и Щ для пара- параметров \а и аг модели D.2.4). Соответственно, МНК-оценкой для средних Hi в модели D.2.1) служит Дг = р, + аг, i — 1, ...,/. Отсюда видно, что оценки наименьших квадратов для параметров . одной модели выражаются через оценки параметров другой. ¦>, Поскольку таблицы для обеих форм модели однофакторного ана- |: лиза совпадают, то совпадают и оценки для дисперсии о2 так же, | как и критерии для проверки гипотезы Яо: |хх — ... = fi7 = ц [ в модели D.2.1) или Яо: ах = ... = а7 = 0 в модели D.2.4). Еще { раз отметим, что эти гипотезы эквивалентны, так что можно рабо- 1 тать с любым видом модели. Мы предпочтем D.2.4). Для того чтобы обеспечить единственность оценок наимень- наименьших квадратов, нам придется наложить дополнительное ограни-
238 Гл. 4. Дисперсионный анализ чение на параметры о^ ..., а,. Обычное требование состоит в том, чтобы взвешенная сумма эффектов равнялась нулю: S Jtat = 0. D.2.5) Таким образом, задача сводится к минимизации суммы квадратов -/ Л- S = ? S (ytj - |i - a,J D.2.6) i=i /=i по переменным \и и а,-, i, = 1, ..., /, подчиненным условию D.2.5). МНК-оценки находятся однозначно в виде Обычная несмещенная оценка дисперсии а2 имеет вид MSR = s2 = S S («/«7 - ^-J/(« - /)• D.2.9) i i Типичная программа однофакторного дисперсионного анализа печатает МНК-оценки Дг и Д. По ним пользователь может найти оценки эффектов at; йг = Аг — А- D.2.10) Кроме того, программа вычисляет и печатает таблицу, аналогич- аналогичную табл. 4.2.1. В ней обычно приводятся сумма квадратов (SS), Таблица 4.2.1 Таблица однофакторного дисперсионного анализа Источник _ Степени Средний дисперсии сУмма квадратов свободы квадрат F-отношение Между ' ее уровнями SSB= j 'ttif -У-J vB = /-l MSB = ^& F = (группами) ;=i VB Внутри / Ji MSR = уровней SSR = 2 2 Q/.-у - j/;.J vR = n - / = SSr s s2 (групп) t=\ /=i vR / Ji Полная SST = ^ Ц (УЦ -У-J vT = n - 1
4.2. Однофакторный дисперсионный анализ 239 число степеней свободы (v) и средний квадрат (MS) для каждого из источников дисперсии — межуровневого (или межгруппового) я вну- внутриуровневого (внутригруппового). Последнюю величину называют еще остаточной суммой квадратов (или суммой квадратов оши- ошибок). Иногда печатаются еще полная сумма квадратов и число сте- степеней свободы. (Эти последние равны суммам соответствующих величин внутри и между групп.) Из таблицы мы можем найти s2; числитель в D.2.9) представляет собой остаточную сумму квадра- квадратов SSR, знаменатель — остаточное число степеней свободы vR, as2 — среднее значение остаточного квадрата MSR. Для проверки гипотезы #„: ах = ... = а7 = О1) о том, что все дифференциальные эффекты равны нулю, воспользуемся теорией разд. 4.1.3. Как и там, для проверки Но мы вычислим F-отноше- F-отношение, т. е. отношение среднего межгруппового квадрата к среднему внутригрупповому квадрату. Р-значением служит площадь справа от величины F под кривой плотности распределения F (I — 1, п — /). Принятие гипотезы Но: все at = О означает справедливость эквивалентной гипотезы, т. е. Яо: \ix = ... = \ij — \i, что все / средних по подпопуляциям равны генеральному среднему. Пример 4.2.2 (продолжение). Предположим, что при иссле- исследовании на газообразный азот экспериментатор зафиксировал четыре диеты: Dx — безбелковая, D2 — 23 % белков, ?K — 32 % белков, D4 — 67 % белков. Предположим также, что для t-й диеты, i = 1, ..., 4, экспериментатор случайно отобрал 9 испытуе- испытуемых. Такой эксперимент адекватно описывается моделью одно- факторного дисперсионного анализа с фиксированными эффек- эффектами. В табл. А указано количество выдыхаемого азота для всех Набор данных Таблица А 4.079 4.859 3.540 5.047 3.298 4.679 2.870 4.648 3.847 Средние 4.0963 4.368 5.668 3.752 5.848 3.802 4.844 3.578 5.393 4.374 4.6252 4.169 5.709 4.416 5.666 4.123 5.059 4.403 4.496 4.688 4.7477 4.928 5.608 4.940 5.291 4.674 5.038 4.905 5.208 4.806 5.0442 2) До конца главы мы будем записывать эту гипотезу просто как «Яо: все <Х( = 0».
240 Гл. 4. Дисперсионный анализ п — 36 объектов, а также среднее для каждой диеты. Заметим, что количество выдыхаемого азота в среднем возрастает при воз- возрастании потребления белков. По этим данным можно получить МНК-оценки параметров модели. Оценки средних суть р,х = 4.0963, ..., (х4 = 5.0442, оценка генерального среднего A = D.0963 + 5.0442)/4 = 4.6284, а оценки дифференциальных эффектов ах = 4.0963— 4.6284 = —0.5321, ... ..., а4 = 5.0442 — 4.6284 = 0.4158. Результаты дисперсионного анализа приведены в табл. В. Для проверки гипотезы Яо: все щ = 0 сравним значение F = Таблица В Дисперсионный анализ Источник дисперсии Сумма квадратов Число степеней свободы Средний квадрат F-отношение Между диетамн Внутри диет Полная 4.2321 14.0569 18.2890 3 32 1.4107 0.4393 3.21 35 = 3.21 с процентилями распределения F C, 32). Оказывается, что р <0.05. Поэтому гипотеза На отвергается и нужно восполь- воспользоваться методом множественных сравнений, чтобы решить, какие диеты различаются. Отметим, что оценка дисперсии ст2 равна MSR = 0.4393. 4.2.2. Модель со случайными эффектами Рассмотрим теперь другую интерпретацию однофакторного плана — модель со случайными эффектами (модель компонентного анализа или модель II). На этот раз мы предполагаем, что / под- популяций случайно выбираются из бесконечной совокупности всех возможных подпопуляций. Каждой подпопуляции при- присваивается номер от 1 до /, и i-я подпопуляция считается соот- соответствующей i'-му уровню фактора. Из каждой подпопуляции случайно выбираются Jt объектов и рассматриваются значения У а, • ••> У и., i = 1, ...,/. Предполагается, что эти наблюдения распределены нормально со средним tnt и дисперсией а2, не зави- зависящей от уровня i, i = 1, ..., / (рис. 4.2.1). Кроме того, пред- предположим, что тъ ..., trij представляют случайную выборку из совокупности, нормально распределенной со средним |л и диспер- дисперсией о\. Определим t-й дифференциальный (главный) эффект фактора равенством at =' m,- — ц.. В отличие от эффектов at в мо-
4.2. Однофакторный дисперсионный анализ 241 дели с фиксированными эффектами этот эффект представляет собой случайную величину, распределенную нормально с нулевым сред- средним и дисперсией а%. Итак, модель однофакторного дисперсионного анализа со случайными эффектами (модель II) описывается урав- уравнениями yti = V- + ai-\-eth /=1, ...,/,, t = l, ...,/, D.2.П) где at распределены по N @, сГд), вц распределены по N (О, о2) и все at и еи в совокупности независимы, /= 1, ..., /,-, i = 1 .... ..., 1. В случае модели I нас интересовала оценка дифференциаль- дифференциального эффекта а( для г-го уровня фактора и проверки гипотезы о том, что все а,- равны нулю. В случае же модели II нас инте- интересует не оценка отдельных эффектов аи а оценка дисперсии <s\ распределения дифференциальных эффектов. Другими словами, мы хотим оценить среднее fx и две компоненты дисперсии а2 и а% и проверить гипотезу Яо: а% = 0, означающую, что фактор не вносит никакого вклада в дисперсию. Для оценки компоненты дисперсии ст| и проверки гипотезы Яо: а| = 0 нужно вычислить дополнительные величины, называемые ожиданиями средних квадратов (сокращенно EMS) L). Они вы- вычисляются для каждой компоненты дисперсии (исключая пол- полную) как среднее значение квадратов в исходной модели. Значе- Значения EMS можно вычислить и для модели с фиксированными эффек- эффектами, но там они не необходимы для построения соответствующих критериев. В большинстве ПСП величины EMS не вычисляются. Формулы их вычисления читатель может найти в соответствующих книгах, например в этой, где такие формулы обычно сводятся в таблицы, наподобие табл. 4.2.2. В ней приводятся определения внутри- Таблица 4.2.2 EMS для однофакторной модели дисперсионного анализа (модели I и II) Источник EMS EMS дисперсии Модель I Модель II Между уровней 2 . 2j ?=i^(ai о2 + ko\ (групп) °т /_1 [см. D.2.12)] Внутри уровней а2 а2 (групп) 1) От английского Expected Mean Squares. — Прим. перев.
?42 Гл. 4. Дисперсионный анализ уровневого и межуровневого EMS как для моделей с фиксирован- фиксированными, так и со случайными эффектами. Заметим, что в обоих случаях остаточное EMS равно дисперсии а2 (позже мы убедимся, что это верно для всех моделей дисперсионного анализа). Отме- Отметим еще, что если (в модели I) ах = ... = а7 = 0 или (в модели II) дисперсия <х| = 0, то внутриуровневые и межуровневые средние квадраты MS могут служить оценками дисперсии. Для модели II межуровневое EMS оценивается суммой а2 где h - 2 i\\ S Jt], D.2.12) если Jx = ... = Jj = J, то k = J. Используя эти величины, легко выписать несмещенную оценку для о\. В самом деле, разность межуровневого EMS и внутри- внутриуровневого EMS для модели II равна &crj. Поэтому несмещенная оценка ol имеет вид ol = (MS в — MSR)/&, D.2.13) где, как и в табл. 4.2.1, MSB и MSR обозначают соответственно среднее значение межуровневого и внутриуровневого квадратов. Оказывается, что для проверки гипотезы Яо: <з'1 = 0 можно воспользоваться тем же самым ^-отношением, что и в случае фиксированных эффектов. В более сложных случаях для задан- заданного критерия проверки гипотез соответствующее отношение также можно выразить через EMS (см. замечание 4.2.1). Пример 4.2.2 {продолжение). Предположим теперь (только для иллюстрации), что из таблицы случайных чисел случайным образом были выбраны четыре значения процентного содержания белков в диете, и пусть эти числа суть 0, 23, 32 и 67. Здесь можно применить модель однофакторного анализа со случайными эффек- эффектами. Предположим еще, что множество исходных данных, а значит, и содержимое таблицы ANOVA, совпадают с табл. А и В, при- приведенными в разд. 4.2.1 для фиксированных эффектов. МНК-оценка для среднего \i есть р, = 4.6284, несмещенная оценка дисперсии а2 есть MSR = 0.4393, а несмещенная оценка ol: 61 = A.4107 - 0.4393)/9 = 0.1079. Напомним, что а% имеет смысл дисперсии популяции дифферен- дифференциальных эффектов, определяемых фактором «диета».
4.2. Одиофакторный дисперсионный анализ 243 Для проверки гипотезы #0: (т! = 0 следует вычислить то же F-отношение, что и в случае фиксированных эффектов. Поскольку F = 3.21 и Р < 0.05, то нулевая гипотеза отвергается и мы при- приходим к выводу, что существует значимое различие в количестве выдыхаемого азота в зависимости от диеты. Замечания 4.2.1. 1. Любая модель дисперсионного анализа cm^l факторами называется моделью I или моделью с фикси- фиксированными эффектами, если все факторы соответствуют мо- модели I, если же все факторы соответствуют модели II, то мо- модель ANOVA называется моделью II или моделью со случай- случайными эффектами. Если же одни факторы соответствуют модели I, а другие — модели II, то вся модель называется моделью со сме- смешанными эффектами. 2. Во всякой модели дисперсионного анализа cm^l факто- факторами каждый уровень фактора определяет свой параметр модели. Члены, соответствующие фиксированным факторам, являются постоянными, а соответствующие факторам модели II — случай- случайными величинами. 3. Формулы, задающие суммы квадратов и числа степеней свободы (а значит, и средние значения квадратов), одинаковы в случаях модели I, модели II и смешанной модели. 4. Оцениваемые величины имеют различную природу в зави- зависимости от типа фактора. Для соответствующих факторов мо- модели I мы оцениваем постоянные параметры, связанные с различ- различными уровнями фактора. Для факторов, соответствующих мо- модели II, нас интересует генеральное среднее \х и дисперсия слу- случайных переменных, соответствующих различным уровням фак- фактора. 5. Чтобы получить МНК-оценки постоянных параметров мо- модели для проверки гипотез об этих параметрах, мы можем рассма- рассматривать и модели со случайными эффектами и смешанные модели, как модели дисперсионного анализа с фиксированными эффек- эффектами. Но для оценки компонент дисперсии и проверки соответ- соответствующих гипотез необходимо получить выражения для EMS каждой компоненты дисперсии. В последующих разделах мы увидим, как из этих выражений вытекают формулы для оценок компонент дисперсии и F-отношения, необходимого для проверки гипотез относительно этих компонент. \ 6. В модели с фиксированными эффектами cm^l факторами ! знаменателем в F-отношении всегда служит остаточный средний квадрат MSR. 7. F-критерий для проверки гипотезы Н„: el = 0 в однофак- ; торной модели дисперсионного анализа (модель И) является только приближенным, если Jt отличны друг от друга. Однако он вполне
244 Гл. 4. Дисперсионный анализ применим на практике при проверке нулевой гипотезы, так как точный критерий слишком сложен. Если же все Уг- равны, то F- критерий является точным. 4.3. Двухфакторный дисперсионный анализ В этом разделе рассматриваются различные модели, используемые для анализа дифференциальных эффектов при двух факторах А и В. Нас будут интересовать два типа отношений между факто- факторами, называемые пересечением и группировкой. Два фактора А и В называются пересекающимися (что обозначается А -X В), если в плане эксперимента представлены все возможные сочета- сочетания уровней факторов. Поэтому для фактора А с I уровнями и фактора В о. J уровнями такой план должен содержать по меньшей мере одно наблюдение для каждой из /¦/ комбинаций уровней. Комбинацию ij, где i обозначает уровень фактора А, а / — фак- фактора В, часто называют ij-ячейкой, i = 1, ..., /, / = 1 /. В каждой ячейке мы рассматриваем значение случайной вели- величины У на Кц случайно выбранных экспериментальных единицах. Эту ситуацию можно представлять себе и по-другому. Каждой i/'-ячейке назначается единственная экспериментальная единица, и К,ц раз измеряется значение случайной величины Y. В любом случае ij-ячейке соответствует случайная выборка Уцъ Ун 2, У аз, • •. Уцк,р » = !,...,/. j = 1. • • •> J- Пример 4.3.1. В одном эксперименте различные группы, по 10 крыс каждая, подвергались радиоактивному облучению в до- дозах 0, 100 или 300 рентген и получали одну из двух диет — с вы- высоким и низким содержанием белков. Будем считать радиацию фактором А с / = 3 уровнями, где i = 1 соответствует дозе 0 рентген, ..., i = 3 соответствует дозе 300 рентген. Фактором В с / = 2 уровнями служит диета, где / = 1 отвечает высокому со- содержанию белков, а / = 2 — низкому. Значит, Кц ~ 10 крыс (экспериментальных единиц) не подвергались облучению и полу- получали много белков, /Ci2 = 10 крыс не облучались, но получали мало белков, ..., К3г — Ю крыс получили по 300 рентген и мало белков. Для каждой ячейки измерялась относительная прибавка в весе (величина У) в процентах. Ячейки обозначаются парой нижних индексов: 11, 12, 21, 22, 31 и 32. Модель с двумя .пересекающимися факторами называют двух- факторным планом, двухфакторной классификацией или фактор-
4.3. Двухфакториый дисперсионный анализ 245 ной моделью с двумя факторами. В разд. 4.3.1 обсуждается такой план для фиксированных эффектов (т. е. для случая, когда оба фактора соответствуют модели I) и для случайных эффектов (оба фактора соответствуют модели II). В разд. 4.3.2 рассматри- рассматривается случай, когда все Кц = 1. И наконец, в разд. 4.3.3 обсу- обсуждается смешанная модель (один фактор соответствует модели I, другой — модели II), представляющая собой модель плана с ран- рандомизированными блоками. Опишем теперь другой вид отношения между факторами. Гово- Говорят, что фактор В группируется фактором А, если каждый уровень фактора В встречается в паре не более чем с одним уровнем фак- фактора А. Мы будем обозначать это отношение через В (А) и го- говорить, что фактор А группирует фактор В, что А — группиру- группирующий фактор, а В — сгруппированный. В этом случае если число уровней фактора А равно /, а фактора В равно J, то общее число комбинаций уровней, при которых производились измерения, конечно, меньше //. В каждой ячейке, для которой комбинация факторов определена, мы случайным образом выбираем Ки экспе- экспериментальных единиц и для каждой измеряем случайную вели- величину Y. Или можно выбрать один объект, но проделать Кц из- измерений величин ы Y. Во всяком случае, можно считать, что для всякого уровня / фактора В, группируемого уровнем i фактора А, нам задана случайная выборка i/(t)/,, •••, УA)^к-- Скобки у ин- индексов иногда используются, чтобы указать на отношение груп- группировки ¦— индекс группирующего фактора заключается в скобки. Там, где и без них все ясно, мы эти скобки будем опу- опускать. Пример 4.3.2. В эксперименте 12 куколок самок москитов были распределены по 3 садкам и у каждой самки дважды изме- измерялась длина крыльев. Фактором А с тремя уровнями можно считать садки: i = 1 — первый садок, ..., i = 3 — третий садок. Фактором В является куколка (экспериментальная единица) с J = 4 уровнями: /-й уровень отвечает /-й куколке. И наконец, Kij = 2 измерения величины Y (длина крыльев) производится, ' каждой куколки. Пусть при случайном распределении по ;адкам куколки 2, 3, 7 и 10 попали в 1-й садок, 1, 4, 8 и 12 — во jTopoft, a 5, 6, 9 и 11 — в третий. В стандартной терминологии 1чейка 1, 1 обозначает 1-й садок и 2-ю куколку, 1, 2 — первый адок и третью куколку, ... и 3, 4 обозначает третий садок и один- одиннадцатую куколку. Соответственно уи1 обозначает первое измере- 1ие в ячейке 1, 1, г/2Ь2 — второе измерение в ячейке 2, 3 и т. д. )ажная особенность планов с группировкой состоит в отсутствии >сякого соответствия между одноименными уровнями сгруппи- юванного фактора, отвечающего разным уровням группиру- группирующего. Так, например, нет никакого соответствия между кукол-
246 Гл. 4. Дисперсионный анализ ками в ячейках 1, 2 и 2, 2. Это прямо противоречит случаю пере- пересекающихся факторов, в котором 2 в ячейках 1, 2 и 2, 2 обозна- обозначает один и тот же уровень фактора В. Модель, в которой один фактор сгруппирован другими, назы- называется двухфакторной моделью с группировкой или двухфакторной иерархической моделью. В разд. 4.3.4 обсуждается интерпретация таких планов в терминах фиксированных эффектов (оба фактора соответствуют модели I) и случайных (оба фактора соответствуют модели II). В разд. 4.3.5 все описанные модели сравниваются на примере некоторого гипотетического эксперимента. Мы считаем, что таблицы ANOVA выдаются программами дисперсионного анализа, входящими в соответствующие ПСП. Большинство таких программ, называемых (т)-факторными ANOVA, требует, чтобы во всех ячейках было одно и то же число наблюдений, т. е. чтобы существовала такая константа К, что Кц = К при всех i, /. В разд. 4.4 мы подробно разберем эти про- программы. Метод получения таблиц дисперсионного анализа в усло- условиях, когда не все Ktj равны, обсуждается в разд. 4.5. До конца настоящего раздела будем предполагать, что К по- постоянно и К ^ 1. Если К > 1, то говорят, что эксперимент повто- рен К раз. 4.3.1. Двухфакторные повторяемые планы. Фиксированные и смешанные эффекты В этом разделе будем считать, что заданы фактор А с / уровнями, и фактор В с J уровнями. Эксперименты, соответствующие все- всевозможным комбинациям уровней повторяются одно и то же число К > 1 раз. Случай с различным числом повторений будет рассмотрен в разд. 4.5. Пусть yijk обозначает значение перемен- переменной Y, полученное при k-м повторении эксперимента в ячейке ij, i = 1, ..., /, / = 1, ..., J, k = I, ..., К- Если оба фактора соответ- соответствуют модели I, то двухфакторный план с фиксированными эф- эффектами задается соотношениями У аи = М- + «, + Р/ + (ар)(/ f eijk, /=1, .... /, /-=1, ..., J, k--\, ..., К. (*-6Л} Здесь \i — генеральное среднее, а,- есть i-й дифференциальный (или главный) эффект фактора А, |};- есть /-й дифференциальный эффект фактора В. Величина (а$)и называется (двухфакторным) взаимодействием 1-го уровня фактора А и /-го уровня фактора В. Эта величина учитывает дифференциальный эффект комбинаций г-го уровня фактора А и /-го уровня фактора В, если он не выра- выражается суммой а,- + (J,- + И" Модель, в которой взаимодействия
4.3. Двухфакторный дисперсионный анализ 247 (а$)а при всех i, / равны нулю, называется аддитивной. Впослед- Впоследствии мы увидим, как можно проверить гипотезу аддитивности. И наконец, ошибки etjk предполагаются независимыми и распреде- распределенными по N @, а2). Обсудим теперь оценки параметров — дифференциальных эф- эффектов и взаимодействий. Поскольку для этой модели МНК,- оценки неоднозначны, то на дифференциальные эффекты прихо- приходится наложить соответствующие дополнительные ограничения. Мы потребуем, чтобы 2 щ = о, 2 ру = о, 1=1 7=1 2 (сф)(/ - 0, /=1, . . ., J; 2 (сф),7 = 0, i=l... ., /. D.3.2) i=i /=i При этих ограничениях МНК-оценки становятся однозначными и дают (х = 2/..., &i = gl.. — g..., $j = g.j. — у..., №и=Уч--Ш--У-1-+У-' l' = 1- • • ¦- 7- / = !.••¦. ^-D.3.3) Все эти величины вычисляются любой факторной программой дисперсионного анализа. Средние у,-., иногда называют средними по строкам, уч-. — средними по столбцам ну...—¦ средними по всем элементам. Кроме перечисленных оценок программы вычисляют и печатают таблицы ANOVA, подобные табл. 4.3.1. Эти таблицы Таблица 4.3.1 Таблица повторяемого двухфакторного дисперсионного анализа Источник Сумма Число степеней Средний дисперсии квадратов свободы квадрат Фактор^ SSA = JK 2 (У!---У--У vA = /- i=i Фактор В SSB= IK У, (y.j-y.-У2 vb = J - 1 MSB = ^M y=i VB / J Взаимодей- SSab = К У, У\ (9ii- — vab = MQ _ ssab ствие АВ f=i ywi =(/-1) (/-0- ab~"^7 — ^i Уч- + У-У- I J К Остаток (ошиб- SSR = 2 2 2 (W/* ~ Vr = // (/( - 1) MSR = ка) (=1 /=i k=\ K v ' — УЦ-У I J К Полная SST= Yi 2 2 (^/*— xT 1=1 /=i ft=i
248 Гл. 4. Дисперсионный анализ содержат суммы квадратов, число степеней свободы и средние значения квадратов для компонент дисперсии: остаточной, опре- определяемой факторами А и В и определяемой взаимодействием факторов А я В. Слагаемое, отвечающее взаимодействию, обычно обозначается как АВ (или А X В). Оценка дисперсии ошибки сг2 определяется по табл. 4.3.1 как среднее значение остаточного квадрата MSR. Можно также проверить гипотезы о дифферен- дифференциальных эффектах. Эти гипотезы, соответствующие критерии и их статистики вместе с числами степеней свободы сведены в табл. 4.3.2. Р-значение определяется как площадь справа от Таблица 4.3.2 Проверка гипотез для повторяемого двухфакторного плана с фиксированными эффектами Яо : все (а, 3).. = 0 Отсутствие эффектов взаимодействия 7Г ¦ Ms» v»-(/-l)(/-l) v2 = IJ(K~ 1) Ho : все (а() = 0 Отсутствие главных эффектов фактора А MS. ~ MSr Vi =7-1 v2 = ЩК~ 1) И, : все Ру = 0 Отсутствие главных эффектов фактора В MSb ~ MSr V, -//(*-1) числа F под кривой плотности распределения F (vlt v2). Нужно заметить, что в некоторых случаях суммы квадратов SS^B и SSR могут складываться (т. е. объединяться). Мы обсудим это в замечаниях 4.3.1. Замечания 4.3.1. 1. Обычно сначала проверяется гипотеза Яо: все (а$)и — 0. Если оказывается, что взаимодействие незна- незначимо отличается от нуля, то при анализе главных эффектов есть два пути. Первый — перейти к исследованию главных эффектов» исходя из величин, приведенных в столбцах 2 и 3 табл. 4.3.2. Второй — объединить остаточную сумму квадратов SSR с суммой SSAB, соответствующей взаимодействию, чтобы получить новую оценку дисперсии сг2. В этом случае объединенная сумма квадра- квадратов есть SSP = SSR + SSAb, а число степеней свободы vp = = vR -f vab. Оценкой дисперсии а2 служит MSP = SSp/vp; для проверки гипотезы Но: все аг = 0 служит отношение F = = МБл/MSp, а гипотеза Яо: все $} = 0 проверяется отношением F = MSB/MSp. Р-значение вычисляется как площадь справа от F под кривой плотности распределения F (v1? vp).
4.3. Двухфакторный дисперсионный анализ 249 2. Всех исследователей можно поделить на три категории: часто объединяющие, редко объединяющие и необъединяющие. Необъединяющие не изменяют оценку а2 независимо от результата оценки взаимодействия. Часто объединяющие пересчитывают оценку для сг2, если взаимодействие несущественно. Редко объеди- объединяющие переходят к объединению, только если Р-значение, полу- полученное при проверке гипотезы аддитивности, достаточно велико, например Р > 0.5. Нет никаких точных правил выбора единствен- единственного решения в каждой ситуации. Поэтому каждый исследователь сам определяет свой «статус объединителя». Пример 4.3.3. Продолжим рассмотрение примера 4.2.2 и попы- попытаемся теперь оценить влияние на количество выдыхаемого азота не только диеты (фактор А с / = 4 уровнями), но и пола (фактор В с J = 2 уровнями). Пусть, например, каждая комбинация пола и диеты повторена 3 раза (/С = 3). Описанная ситуация соответ- соответствует модели двухфакторного дисперсионного анализа с фикси- фиксированными эффектами и равным числом наблюдений в ячейках. В табл. А приводятся исходные данные для анализа (эта таблица — Таблица А Набор данных Пол Мужчины УКенщины СреЪние по , столбцам Dx 4.079 4.859 3.540 2.870 4.648 3.847 3.9738 Д иета 4.368 5.668 3.752 3.578 5.393 4.374 4.5222 4.169 5.709 4.416 4.403 4.496 4.688 4.6468 о* 4.928 5.608 4.940 4.905 5.208 4.806 5.0658 Средние по строкам 4.6697 4.4347 4.5522 часть таблицы А примера 4.2.2), а также частные средние по строкам и столбцам. Так, например, МНК-оценки параметров ц, а% и р2 суть A = 4.5522, йх = 3.9738 — 4.5522 = —0.5784, р2 = ¦¦<= 4.4347 — 4.5522 = —0.1175. МНК-оценка взаимодействия диеты Dx и мужчин есть («Р)и = D-079 + 4.859 + 3.540)/3 - 3.9738 - - 4.6697 + 4.5522 = 0.0680.
250 Гл. 4. Дисперсионный анализ В табл. В приводятся результаты дисперсионного анализа. Проверим гипотезы относительно параметров, используя табл. 4.3.2. Соответствующие значения F-статистики, числа сте- Таблица В Результаты дисперсионного анализа Источник „„ Число дисперсии ss степеней MS свободы Диета 3.6491 3 .2164 Пол 0.3314 1 0.3314 Диета X пол 0.0428 3 0.0143 Остаток 7.8353 16 0.4897 Полная 11.8586 23 — пеней свободы и Р-значения собраны в табл. С. Из нее видно, что при уровне 0.05 нет значимых главных эффектов или взаимо- взаимодействий. Это не противоречит результатам примера 4.2.2, по- поскольку мы использовали только часть данных. Но, вообще Таблица С Проверка гипотез F = 0.03 v, =3 v2 = 16 NS F = 2.48 v,=3 v2 = 16 NS Но: все (a/i);j = 0 Но: все а; = 0 Но: все Pi = ® Отсутствие Отсутствие Отсутствие взаимодействия дифференциальных дифференциальных пола и Ьиеты эффектов пола эффектов диеты F = 0.68 v2 = 16 NS говоря, включение новых факторов 4чаще приводит к увеличению статистической значимости других. Щ Щ Поскольку эффект взаимодействия оказался|незначимым, сто- сторонник объединения мог бы (в соответствии с замечанием 4.3.1.2) вычислить объединенные характеристики SSP = 0.0428 + + 7.8353 = 7.8781, vP = 3 + 16 = 19 и, наконец, MSP = = 7.878/19 = 0.4146. Новые значения F-отнощения равны F = = 1.2164/0.4146 = 2.93 для фактора А и F = 0.3314/0.4146 = = 0.80 для фактора В. Эти значения нужно сравнить с процен- тилями распределений F C, 19) и F A, 19) соответственно. Оказы- Оказывается, что и после объединения ни один главный эффект значимо не отличается от нуля при уровне а = 0.05. Отметим, наконец, что оценки дисперсии сг2 равны MSR = 0.4897 (без объединения) и MSP = 0.4146 (с объединением).
4.3. Двухфакторный дисперсионный анализ 251 Если оба фактора А и В соответствуют модели II, то модель называется двухфакторным планом со случайными эффектами и описывается соотношениями Ут = /, H- + Q Ч + bi 1,.. + {ab)ir 7 h ., d , К- f ецк, = 1, i = i, ...,/, / =-. l, ..., j, k = i. .... k, D-4) где jx — генеральное среднее, аг- независимы и распределены по .Л/ @, а\), bj независимы и распределены по N @, al), (аЬI}- неза- независимы и распределены по N @, о2аЬ) и, наконец, etjk независимы и распределены по N @, а2). Кроме того, считается, что все ве- величины ait b3, (аЬ)и и eijk независимы в совокупности. В этой модели выделяются четыре компоненты дисперсии tfa. el, <*lb и а2, связанные с соответствующими источниками: факторами А, В, АВ и остатком R. Для вычисления несмещенных оценок первых трех компонент и проверки гипотез о равенстве этих компонент нулю нам потребуется вычислить EMS (ожидания средних квадратов) для каждого источника дисперсии- В табл. 4.3.3 приведены эти величины как для фиксированных эффектов (модель I), так и для случайных (модель II). Таблица 4.3.3 Ожидания средних квадратов для повторяемых двухфакторных планов с фиксированными и случайными эффектами Источник дисперсии А В АВ К EMS моЬелъ I «Z, А1 EMS 'моЬельЖ <т2 + Кс\ь + Жа2 <72 Для получения несмещенной оценки компоненты дисперсии нужно сначала представить эту компоненту в виде линейной комбинации EMS (в модели II) и затем взять ту же линейную ком- комбинацию средних квадратов. Таким образом, мы получаем оценки д2 MS Лв - MSR JK ' ° IK ' а0~ К D.3.5)
252 Гл. 4. Дисперсионный анализ F-отношение для гипотезы Яо относительно компоненты диспер- дисперсии строится по табл. 4,3.3. Числителем F-отношения служит средний квадрат (MS) источника дисперсии, соответствующего данной компоненте. Знаменатель F-отношения равен MS того источника дисперсии, EMS которого при выполнении гипотезы Яо равняется EMS числителя. Например, при проверке гипотезы Яо: а% = О числитель F-отношения равен MSA. Так как при вы- выполнении гипотезы #0 имеет место равенство EMSA = EMSAB, то в соответствии с только что сформулированным правилом, зна- знаменателем F-отношения служит MSAB, т. е. F = MSA/MSAB. Таким образом, мы получим все критерии, приведенные в табл. 4.3.4. Я-значение для каждого критерия равно площади Таблица 4.3.4 Проверка гипотез для повторяемого двухфакторного плана. Случайные эффекты MS, MSr MS.,, MS« v, = (/-l)(/-l) Vl = I-l v, = /-1 V2 = ЩК- 1) V-2 = (/- 1) (J- 1) Vl = (/- 1) (J~ 1) под кривой плотности F (vlt v2) справа от точки F. Заметим, что значения F-отношения отличаются от вычисленных для модели с фиксированными эффектами. Замечание 4.3.2. Вопрос об объединении намного существен- существеннее для модели со случайными эффектами, чем с фиксированными, потому что в этом случае объединение может резко увеличить число степеней свободы знаменателя и, таким образом, увеличить мощность критерия для главных эффектов. Пусть, например, / = / = Зи/С=10. Предположим, что мы приняли гипотезу аддитивности [Яо: (а$)и = 0 (в модели I) или Яо: а%аЬ = 0 (в мо- модели II)]. Соответствующие вычисления показывают возрастание числа степеней свободы знаменателя F-отношения при объединении источников дисперсии. Но в случае модели I можно выиграть только 4 степени свободы, в то время как в модели II — целых 81. Модель I Модель II Без объединения Vi = 81 v2 = 4 С объединением vp = 85 vp = 85
4.3. Двухфакторный дисперсионный анализ 253 Пример 4.3.3 (продолжение). Предположим с иллюстратив- иллюстративными целями, что результаты расчета по программе для мо- модели II собраны в табл. В — таблицу результатов дисперсионного анализа для данного примера (см. выше). Используя равенство D.3.5), получим оценки компонент дисперсии: MSR = дисперсия ошибки = 0.4897, д% = A.2164 - 0.0143)/6 = 0.2004, 61 = @.3314 - 0.0143)/12 = 0.0264, 61ь = @.0143 - 0.4897)/3 < 0. Так как компонента дисперсии должна быть неотрицательной, то последнюю оценку для Ь\ь заменяем на нулевую. Значение критериев и вычисленная по табл. 4.3.4 величина F-отношения приводятся в следующей таблице. Интересно от- отметить, что критерий теперь показывает значимое отличие от нуля компонент дисперсии о\ и а\. Заметим, что оценка значи- значимости оказывается различной в зависимости от того, какую модель дисперсионного анализа — модель I или модель II — мы рассма- рассматриваем. Поскольку взаимодействие незначимо, то стороннику объединения может показаться целесообразным произвести объ- объединение, так как число степеней свободы знаменателя слишком мало для оценки Фа и сг|. После объединения он получит соответ- соответственно значения F = 2.93 и F = 0.80. Оба они незначимы. Эти изменения в оценке значимости показывают, насколько раз- различными могут оказаться результаты в зависимости от отношения исследователя к объединению. '-- Но: F v, v2 °1ь = ° ¦ = 0.03 = 3 = 16 NS Ho F v, v? P :*.'=0 = 85.Г = 3 = 3 < 0.005 Ho F Vl v, P ¦ °b% = 0 = 23.2 = 1 = 3 < 0.005 4.3.2. Неповторяемые двухфакторные планы. Фиксированные и случайные эффекты В этом разделе будем считать, что заданы факторы А и В с / и / уровнями соответственно, но в каждой ячейке величина Y наблю- наблюдается К = 1 раз. Такой эксперимент мы называем неповторяе- неповторяемым. Для него, как видно из табл. 4.3.1, остаточное число степе- степеней свободы vR = IJ (К — 1) равно нулю. Мы хотим построить статистику сначала для случая фиксированных эффектов. Для этого будем считать, что все дифференциальные эффекты, свя-
254 Гл. 4. Дисперсионный анализ занные с взаимодействием между факторами А и В, равны нулю. Тогда мы можем использовать сумму квадратов взаимодействий и соответствующее число степеней свободы для повторяемых экспериментов как остаточную сумму квадратов и число степеней свободы в нашем случае. Таким образом, неповторяемый двух- факторный план с фиксированными эффектами описывается моделью yl] = \i + al + h + el}, i=\, ...,/, / = 1, ..., J, D.3.6) где ц есть генеральное среднее, щ есть i-й дифференциальный эффект фактора А, р\,- есть /-й дифференциальный эффект фактора В, а ошибки etj независимы и распределены по N (О, сг2). Для обеспечения единственности МНК-оценок параметров модели наложим дополнительные ограничения . 2 «i --= О, S Р/ = 0 D.3.7) и получим р, = 2/.., al=yi.—y.., bj = y-j—ij», Для i=-l, . . ., Л /=1, ..., J. D.3.8) Неповторяемый двухфакторный план со случайными эффектами имеет вид Уц = Р + <к + Ь, + е1;, i=l,...,/, / = 1 /, D.3.9) где \i — генеральное среднее, аи Р;-, etj — независимые в сово- совокупности случайные величины, причем at распределены по Таблица 4.3.5 Таблица неповторяемого двухфакторного дисперсионного аналнза Источник Сумма Число Средний дисперсии квадратов степеней квадрат свободы * Фактор А Фактор В Остаток R (ошибка) Полная SSB SSR = SST = I J t=l /=1 -y-i + 9-J S S <»'/- Pi- — у..у vB = VR = -1) vT = = / — 1 -J-1 -V- (/-1) -- // -1 A va MSg = MS =SSr R VR
4.3. Двухфакторный дисперсионный анализ 255 N (О, al), bj — по W (О, al), a etj — по N (О, <х*.+ о|б). Заметим, что дисперсия ошибок в данном случае равна сумме двух диспер- дисперсий а\ь и а2. Для обеих моделей таблица ANOVA имеет вид табл. 4.3.5, а выражения для EMS как для модели I, так и для модели II при- приведены в табл. 4.3.6. Так, средний квадрат MSR в случае модели I Таблица 4.3.6 Ожидания средних квадратов для неповторяемых двухфакторных планов с фиксированными и случайными эффектами Источ- EMS EMS ник дис- модель I модель II Персии У а2 I — 1 В R а'Ч , v* q2 7 ll /P/ J — 1 O2 O2 + < j2 4-/CT2 аи Й представляет собой несмещенную оценку дисперсии сг2. Однако в случае модели II мы не сможем оценить эту дисперсию а2, если только не предположим, что <?аЬ = 0. Оценки для дисперсий al и al задаются формулами Ы « (MSA - MSR)/J, Ы = (MSb - MSR)//. D,3.10) Наконец, F-отношения для проверки гипотез приведены в табл. 4.3.7. Р-значение равно площади справа от величины F Таблица 4.3.7 Критерии для неповторяемого двухфакторного плана Модель I: Модель II: H, : Н„ : l все 2 P = 0 MSA MSr /—1 0 Ho : все Ho : <Jg : p vx = p. = о = 0 MSB MSr J— 1 ;. под кривой плотности распределения F (vly v2). Вопрос об объеди- : нении здесь не возникает, так как объединять нечего. Тем не менее если в случае модели I предположение независимости ока-
256 Гл. 4. Дисперсионный анализ зывается нереалистическим, то критерий для главных эффектов может оказаться слишком «консервативным». Это значит, что гипотеза Но будет отклоняться реже, чем необходимо, и мощность критерия уменьшится. Замечание 4.3.3. Для неповторяемых двухфакторных планов мы предполагали, что модель аддитивна. Исследователь, сомне- сомневающийся в истинности такого предположения, может рассмотреть неаддитивную модель и для нее проверить гипотезу о том, что все взаимодействия равны нулю (Tukey A949)). Для этого нужно вычислить величины SSG = Г ' ' 2 2 i9i.-9.H9.j-9..)уи L i=i /=i , ssAB «SS (ytl - Si. - y.i + 9..Y, i /i AB SSR = SSAB — SS G. Статистика, лежащая в основе критерия для проверки гипотезы об отсутствии взаимодействий, равна .Р-значение равно площади справа от точки F под кривой плот- плотности распределения F (\, IJ—I—J). Пример 4.3.4. Продолжим рассмотрение эксперимента, опи- описанного в примере 4.2.2. Оценим теперь дифференциальные эффекты диеты и пола в неповторяемом эксперименте. В табл. А Таблица А Набор данных Д"ета Средние по D, Р. Мужчины 4.079 4.368 4.169 4.928 4.3860 Женщины 2.870 2.578 4.403 4.905 4.9390 Средние по столб- 3.4745 3.9730 4.2860 4.9165 д.. — 4.1625 цам у.; содержатся исходные данные для анализа (эти данные — часть данных, приведенных в табл. А примера 4.2.2). Таблица диспер-
4.3. Двухфакторный дисперсионный анализ 257 сионного анализа содержится в табл. В, а критерий для проверки гипотез — в табл. С. Никаких значимых результатов не полу- получается. Дисперсионный анализ Источник дисперсии SS Число степеней свободы Полная 3.2565 Проверка гипотез Таблица В MS Диета Пол Диета X пол (остаток) 2.1860 0.3996 0.6709 3 1 3 0.7287 0.3996 0.2236 Таблица С Н„: все а,1 = О 0: все р. = О Отсутствие дифференциальных Отсутствие диффереициаль- эффектов диеты пых эффектов пола F= 3.26 vx= 3 v2= 3 NS F= 1.79 Vj === 1 v, = 3 NS 4.3.3. Смешанные модели. Планы с рандомизированными блоками В дисперсионном анализе смешанной моделью называется модель, в которой одни факторы соответствуют модели I, а другие — модели II. Для двух факторов формально возможны две смешан- смешанные модели. Не теряя общности, в этом разделе будем считать, что фактор А с / уровнями соответствует модели I, а фактор В с / уров- уровнями — модели П. Предположим еще, что мы не повторяем экспе- экспериментов, так что К = 1. Тогда можем записать смешанный двухфакторный план в виде №/ = ц + а. + Ь/ + е(./( i = l, ...,/, / =* 1 У, D.3.11) где \л — генеральное среднее, а, есть i-й дифференциальный эффект фактора А, Ъ} — независимые величины, распределенные по N @, ol), etj также независимы и распределены по N @, а2). Кроме того, мы предположим, что величины Ь} и etj независимы 9 А, Афифи, С. Эйзен
258 Гл. 4. Дисперсионный анализ в совокупности и что между факторами А и В нет взаимодействия. Отметим еще раз, что фиксированные эффекты обозначаются греческими буквами, а случайные — латинскими. Это соглашение мы будем выдерживать до конца главы, чтобы различать факторы, относящиеся к модели I и модели II. Для единственности МНК-оценок параметров \i и а,- наложим обычное дополнительное условие ?j at — 0. При этом получим i $, = у.., й; = ус. —у.., i = 1, ..., /. Таблица дисперсионного анализа не отличается от табл. 4.3.5, а оценкой а2 служит MSR. Ожидаемые значения средних квадратов EMS приведены в табл. 4.3.6, в которой для фактора А нужно воспользоваться столбцом, относящимся к модели I, а для фактора В и остатков — столбцом модели II в предположении, что дисперсия взаимодей- взаимодействия alb равна нулю. Все величины собраны в табл. 4.3.8. Не- Несмещенная оценка дисперсии а\ задается формулой 6% = Таблица 4.3.8 Ожидания средних квадратов для смешанной двухфакторной модели Источник EMS дисперсии (смешанная модель) А: Модель I (между обра- ,J 2j iai ботками) °"" ~r i __ j В: Модель II (между бло- а2 _j_ /а2 ками) R а2 = (MSB — MSR)/7; F-отношение для проверки гипотезы Яо: все at = 0 — формулой F = MSA/MSR с vx = 7 — 1 и v2 = = (/ — 1) (/ — 1) степенями свободы; F-отношение для проверки гипотезы Яо: erg = 0 — формулой F = MSB/MSR с vx = / — 1 и v2 = (/ — 1) (/ — 1) степенями свободы. Эта модель описывает план эксперимента, называемый планом с рандомизированными блоками. Пусть исследователь хочет сравнить дифференциальные эффекты at при / способах «обработки» (фактор А). Он случайно распределяет их по I экспериментальным единицам, однородным по некоторому параметру, влияющему на значение измеряемой величины Y. Это множество из I единиц называется блоком, а каждая единица — участком. Весь экспе- эксперимент повторяется/ раз, т. е. все I способов случайным обра- образом распределяются в каждом из/ блоков (фактор В). Именно этой схеме соответствуют приведенные выше модель и таблица дисперсионного анализа. Причем фактор А — это фактор, иссле-
4.3. Двухфакторный дисперсионный анализ 259 дуемый по модели I, <xt — дифференциальный эффект i-ro способа обработки, фактор В определяет блоки и соответствует модели II, о? — дисперсия между блоками. А так как каждый способ об- обработки применяется только к одному участку внутри блока, то оценить взаимодействие «блок—обработка» невозможно. По- Поэтому-то и предполагается, что между факторами А и В взаимо- взаимодействие отсутствует. Пример 4.3.5. Исследователя интересует оценка и сравнение дифференциальных эффектов / разновидностей пшеницы по ве- величине урожайности. Но, поскольку различные поля могут от- отличаться по плодородию и тем самым влиять на урожайность пше- пшеницы, исследователь делит каждое поле на / блоков так, что каждый блок внутренне однороден по плодородию. Затем каждый блок делится на / участков и каждый участок засевается своим сортом пшеницы. Если сорта распределяются по участкам внутри блока случайно, то мы оказываемся в ситуации плана с рандо- рандомизированными блоками. Повторяемому плану с рандомизированными блоками соответ- соответствует ситуация, когда каждый блок делится на K.I участков, так что каждый сорт пшеницы случайно приписывается к К уча- участкам внутри блока. В этом случае можно оценить и взаимодей- взаимодействие блок—обработка. Модель, описывающая повторяемый план с рандомизирован- рандомизированными блоками, называется двухфакторным смешанным повторяе- повторяемым планом: Ут = |* + Щ + b, + (ab)tJ + eljk, /=1,...,/, / — 1 А Л-1.....К. { } Здесь at есть г'-й дифференциальный эффект фактора А, Ь} — не- независимые величины, распределенные по N @, ст|), взаимодей- взаимодействия (a.b)ij распределены по N (О, о%ь), а ошибки etj распределены по N @, а2). Предполагается, что все случайные переменные в совокупности независимы. Отметим, что взаимодействие обозна- обозначается комбинацией латинской и греческой букв. Как обычно, чтобы обеспечить единственность МНК-оценок :параметров ц, at и (аЬ)и, предположим, что 2 at = 0, j] (аЬ)г, = = 0 при всех j = 1, ..., /. Таблица дисперсионного анализа имеет вид табл. 4.3.1. Оценки EMS задаются табл. 4.3.9, а крите- критерии проверки гипотез — табл. 4.3.10. Пример 4.3.3 (продолжение). В этом примере повторяемого двухфакторного смешанного плана мы рассмотрим диету как фактор, соответствующий модели II, а пол — модели I. Для .9*
260 Гл. 4. Дисперсионный анализ совпадения с обозначениями табл. 4.3.9 нам придется переимено- переименовать факторы, так что теперь фактор А — это пол, а фактор В —• диета. Уровни фактора В выбираются случайно, как это описано в примере 4.2.2. Таблицей дисперсионного анализа служит таб- таблица В, приведенная ранее. Соответствующие критерии для Таблица 4.3.9 Ожидания средних квадратов для повторяемого смешанного двухфакторного плана Источник EMS дисперсии смешанная модель А: модель В: модель I II АВ: смешанная R а2 + сг2 сг2 + : + + сг5 v Zj it I — 1 ^сг2 Ксг|ь проверки гипотез приведены в табл. 4.3.10, а численные резуль- результаты —¦ в следующей ниже таблице. Из-за того что теперь диета" рассматривается как фактор со случайными уровнями, дифферен- Таблица 4.3.10 Критерии для повторяемого смешанного двухфакториого плана На: alb = Q Яо: аь2 = 0 Но: все а, = О - MSxB _ MS« р = MS4 MSR MSR "ич« v1 = (/-l)(y-l) v,=y-l v, = /-1 v2 = /y(if-l) v2 = W(^-l) v2 = (/-l)(y-l) циальный эффект пола стал значимым в отличие от случая, когда диета также считалась фактором с фиксированными эффектами. Н0: е\ь = 0 Н0: 4-0 "^ все «( = ° (диспепсия вчаимо (дисперсия (отсутствие дифферен- (дисперсия взаимо- " „„.„, циального эффекта действия равна нулю) нулю) пола) F = 0.03 F = 2.48 F = 23.2 V[ = з v, = 3 v, = 1 v2=16 v2=16 v2 = 3 NS NS P < 0.025
4.3. Двухфакторный дисперсионный анализ 261 Пример 4.3.6. Продолжая исследование, описанное в при- примере 4.2.2, попытаемся теперь оценить дифференциальные эффекты диеты (фиксированный фактор А с / = 4 уровнями), а также дисперсию между объектами (случайный фактор В с J = 9 уров- уровнями), не учитывая их пола. В этой ситуации каждый из 9 объектов представляет собой «блок», получающий случайным образом все четыре диеты. Предположим, что между двумя «испытаниями» проходит достаточно много времени, так что переходящие эффекты диеты исключаются. Этот эксперимент соответствует схеме не- неповторяемого плана с рандомизированными блоками. Данные, приведенные в примере 4.2.2 (табл. А), можно обработать так, чтобы получить соответствующую таблицу ANOVA. Отметим, что теперь исследуются не 36 объектов, а 9. Из этой таблицы можно заключить, что по среднему количеству выдыхаемого азота исследуемые объекты значимо различаются, так же как и диффе- дифференциальные эффекты, определяемые диетами. И вообще «блоки- «блокирование» повышает чувствительность эксперимента к блокируе- блокируемому фактору. Источник дисперсии Диета Объект (блок) Остаток Полная SS 4.4321 11.1216 2.9353 18.2890 Число степеней свободы 3 8 24 35 MS 1.4107 1.3902 0.1223 F 11. 11. 53 37 0 0 р .001 .001 4.3.4. Двухфакторный дисперсионный анализ с группировкой Напомним, что во введении к этой главе мы назвали фактор В (с J уровнями) сгруппированным фактором А (с / уровнями), если каждый уровень фактора В сочетается не более, чем с одним уровнем фактора А. В большинстве случаев фактор В описы- описывается моделью II, в то время как старший (группирующий) фактор А может соответствовать либо модели I, либо модели II. Если и фактор А задается моделью II, то мы имеем двухфакторный план с группировкой со случайными эффектами, задаваемый соот- соотношениями УФ = |i + а,- + ЬШ) + еф, D.3.13) где [д. — генеральное среднее, величины at независимы и распре- распределены по N @, ol), Ь; (,-) независимы и распределены по N @, ol (a)), a ошибки вщ, также независимы и распределены по
262 Гл. 4. Дисперсионный анализ N @, о2). Будем также считать, что все величины at, b}, eijk в со- совокупности независимы. Скобки, в которые заключен индекс i в обозначении bs (!), указывают на отношение группировки. То же самое относится и к обозначению дисперсии а\ (й). Если же, с другой стороны, фактор А соответствует модели I, то возникает смешанный двухфакторный план с группировкой, описываемый моделью Уц* = Н- + а< +&/(<)+ ei/*. D.3.14) i = l Л / = 1,...,/, k=l,...,K, где щ — дифференциальный эффект, определяемый i-u уровнем фактора А. Для единственности МНК-оценок параметров \i, а,, ..., а, мы наложим обычные дополнительные условия 2] «г = О и получим оценки Д = у..., at = yt.. — у..., i — \, ..., /. Таблицы дисперсионного анализа для обеих моделей содер- содержатся в табл. 4.3.11. Отметим, что отношение группировки в вы- Таблща 4.3.11 Таблица двухфакторного плана с группировкой Источник Сумма Число степеней Средний дисперсии квадратов свободы квадрат фактор Л SSA = Jf<:j^(yi-.-g..J vA = l-\ и A)SSb <а> = К% II <УЧ- ~ Si- >* VB 'А) = ' (J ~ l) = <=1 /=1 VB (А) / J к Полная SST = J] J] J] (?M - г'---L vT = Л//С - 1 (=1 /=i fe^i ражениях для суммы квадратов, числа степеней свободы и сред- средних квадратов обозначается индексом В (А). Необходимые для оценки, дисперсий о\ и а|(а) и для проверки гипотез о них ожи- ожидаемые значения средних квадратов приведены в табл. 4.3.12. Несмещенные оценки для а| и а\(а) имеют вид Ы= и |(a)^^i D3Л5) И наконец, соответствующие критерии и статистики сведены в табл. 4.3.13. В большинстве ПСП отсутствуют программы,
4.3. Двухфакторный дисперсионный анализ 263 Таблица 4.3.12 Ожидания средних квадратов для двухфакторного плана с группировкой Ист°ч- EMS EMS иик дис- модель II смешанная модель Персии В (А) <У2+Ка2Ь(а) R <т2 специально предназначенные для решения задач дисперсионного анализа для планов с группировкой. Однако таблицу вида 4.3.11 можно получить, используя факторные программы, детально рас- рассмотренные в разд. 4.4, или программы регрессионного анализа, обсуждаемые в разд. 4.5. Таблица 4.3.13 Критерии для двухфакторного плана с группировкой Но'- все а(-= 0 (смешанная) Н„: о» _ о (модель „) MSR r MSB (Л) v2= IJ (К—I) v2= I (J— 1) Пример 4.3.7. Продолжая исследование, начатое в при- примере 4.2.2, предположим теперь, что каждую диету (/ = 4) на- назначали четырем испытуемым (J = 4). Если к тому же измерения выдыхаемого N2 проводились у каждого испытуемого К = 2 раза, то можно говорить о (повторяемом) двухфакторном плане с груп- группировкой с одним фиксированным фактором (А — диета, / = 4), а другим — случайным (В — испытуемые, 7 = 4). (Испытуемые сгруппированы диетой.) Данные этого эксперимента собраны в табл. А, а результаты дисперсионного анализа — в табл. В. Проверка гипотез прово- проводилась в соответствии с критерием табл. 4.3.13 для смешанных моделей. Отметим, что эффекты диет оказались значимо различ- различными, а дисперсия между испытуемыми в рамках одной диеты — незначимо отличной от нуля.
264 Гл. 4. Дисперсионный анализ Набор данных 4.079, 4.859 3.540, 5.047 3.298, 4.679 2.870, 4.648 D Диета 4.368, 5.668 4.169, 5.709 3.752, 5.848 4.416, 5.666 3.802, 4.844 4.123, 5.059 3.578, 5.393 4.403, 4.496 Результаты дисперсионного Источник дисперсии Диета Объект (диета) Остаток Полная SS 3.711 1.828 12.020 17.559 анализа Число степеней MS свободы 3 1.237 12 0.152 16 0.751 31 Таблица А 4.928, 4.940, 4.674, 4.905, F 8.14 0.20 5.608 5.291 5.038 5.208 Таблица В р < 0.005 NS 4.3.5. Сравнение моделей В этом разделе мы сравним различные модели, чтобы подчеркнуть достоинства и недостатки каждой из них. Для такого сравнения рассмотрим гипотетический эксперимент, который, впрочем, в ка- какой-нибудь форме может быть поставлен и в реальной жизни. Эксперимент состоит в сравнении / методов исследований некото- некоторой характеристики крови у собак. Итак, А — фиксированный фактор «способ исследования» с / уровнями, переменная Y — некоторая характеристика крови, а экспериментальной единицей служит собака. Вопрос состоит в том, какой план избрать (рис. 4.3.1). Первый ответ. Однофакторный план. В этом случае в i -м ме- методе исследования анализируются Jt собак, i — 1, ...,/, и изме- измеряется характеристика крови каждой собаки (рис. 4.3.1, а). Это — простейший план (что, конечно, хорошо). Но его недоста- недостаток состоит в том, что дисперсия ошибки включает как ошибку измерения, так и различия между собаками. Поэтому этот план может оказаться неэффективным и не выявить различия в методах исследования. Некоторого улучшения можно достичь, выбирая как можно более «однородную» группу собак и тем самым умень- уменьшая этот источник дисперсии.
4.3. Двухфакторный дисперсионный аналнз 265 МетоЬ Метод МетоЬ 1-.-К \—К f-../С МетоЬ \— К !¦¦• К Рис. 4.3.1. Сравнение моделей: а — однофакторный план (/ = 2, Jt = 2, J% = = 3); b — план рандомизированных блоков (/ = 2, J = 2); с — план с группи- группировкой A = 2, J = 2, /С измерений); d — повторяемый двухфакторный план (I = 2, J = 2, К измерений). Второй ответ. Рандомизированные блоки. В этом случае мы считаем метод исследования фиксированным фактором А, а «со- «собак» — случайным фактором В. Выберем J собак и проведем / исследований у каждой собаки (блок) в случайном порядке
266 Гл. 4. Дисперсионный анализ (рис. 4.3.1, Ь). В результате каждого исследования получаем из- измерение характеристики крови. Достоинство этого плана состоит в том, что эффекты всех / способов исследования получены от однородного блока (а именно, от одной и той же собаки), а очевид- очевидный недостаток — в том, что наблюдения в каждом блоке зави- зависимы. Эту зависимость можно уменьшать, если делать доста- достаточно большие интервалы между последовательными исследова- исследованиями. Третий ответ. План с группировкой. В этом случае будем считать фактор В (собаки) подчиненным фактору А (метод иссле- исследования). При этом случайная выборка из J собак подвергается первому способу исследования, другая случайная выборка того же объема — второму и т. д., так что всего для эксперимента нужно IJ собак (рис. 4.3.1, с). В таком виде это по существу однофактор- ный план с Jx = ... = Ji = J. Чтобы превратить его в план с группировкой, проделаем К независимых измерений характери- характеристики Y. Этот план лучше всего соответствует нашему экспери- эксперименту, потому что он позволяет оценить и ошибки измерения, и различия между собаками, так же как и разницу между мето- методами исследования. Четвертый ответ. Повторяемый двухфакторный план. В этом случае рассмотрим перекрестный двухфакторный эксперимент с двумя факторами А (метод исследования) и В (собаки). Возьмем J собак и обследуем каждую / способами в случайном порядке. Для каждой комбинации факторов (собака — метод исследова- исследования) проведем К измерений величины Y (рис. 4.3.1, d). Это позво- позволит нам оценить ошибки измерения и различия между собаками вне зависимости от способа исследования, так же как и разницу между способами исследований. Заметим, что это — повторяемый план с рандомизированными блоками. У него тот же недостаток, что и у неповторяемого плана с рандомизированными блоками. 4,4. Общая программа факторного планирования ') В этом разделе вновь вернемся к «компьютерной точке зрения» и сосредоточим внимание на программах дисперсионного анализа, входящих в стандартные ПСП. Многие пакеты программ содер- содержат единственную программу дисперсионного анализа, вычис- вычисляющую таблицу ANOVA для факторного плана. В разд. 4.4.1 мы опишем этот план, остановимся на различиях между програм- программами, которые допускают и не допускают повторение измерений, и объясним, как можно анализировать повторяемые факторные планы, используя программы второго типа. х) В литературе часто используется термин анализ факторных планов, — Црим. перев.
4.4. Общая программа факторного планирования 267 Факторные программы можно использовать и для анализа других типов планов, таких, как планы с рандомизированными блоками, повторяемыми рандомизированными блоками и планы с группировкой. В разд. 4.4.2 опишем, как использовать стан- стандартную факторную программу при анализе этих типов планов и еще двух — расщепленных и латинских квадратов. 4.4.1. Дисперсионный анализ факторных планов Пусть мы исследуем т факторов Аъ ..., Ат и у фактора At всего /, ^ 2 уровней, i = 1, ..., т. Пусть каждая комбинация уровней повторяется ровно N раз. Это значит, что каждый фактор соче- сочетается с каждым, т. е. задан полный перекрестный план. Если все т факторов — факторы с фиксированными эффектами (мо- (модели I), то говорят о (полном перекрестном) факторном плане с т факторами с фиксированными эффектами. Если же все фак- факторы — модели II, то это — (полный перекрестный) факторный план с т факторами со случайными эффектами. Смешанные мо- модели возникают, когда часть факторов — модели I, а осталь- остальные — модели II, В этом разделе мы рассмотрим только планы с фиксированными эффектами. В модели с фиксированными эффектами считается, что изме- измерения, соответствующие каждой комбинации уровней 1х1г ... im факторов Аъ А2, ..., Ат, представляются суммой среднего, соот- соответствующего этой комбинации уровней, и ошибки измерения. Тогда *\ = 1 /l, - - -, lm= 1, •••, Im, n=\,...,N. Для любых индексов /, k, I = 1, ..., m считается, что среднее представимо в виде суммы a) генерального среднего \х; b) дифференциального эффекта, определяемого фактором А} и обозначаемого (о;),-.; c) дифференциального эффекта (ajak)i.ik, / < k, определяе- определяемого (двухфакторным) взаимодействием всех пар различных факторов AjAk; d) дифференциального эффекта (а^а^ы^. определяемого (трехфакторным) взаимодействием всевозможных троек попарно различных факторов A}Ak,Alt j < k < /; е) дифференциального эффекта (^о^-• •а.„),-1,-8 ,.;т. опреде- определяемого (т-факторным) взаимодействием всех т факторов Л]/^1 • • Ат.
268 Гл. 4. Дисперсионный анализ Как и раньше, будем считать, что величина ошибки распреде- распределена по N @, о2). Для единственности МНК-оценок всех параме- параметров нужно наложить дополнительные ограничения на сами параметры и их оценки. Обычно требуют, чтобы сумма дифферен- дифференциальных эффектов для каждого фактора равнялась нулю, как и сумма дифференциальных эффектов для всех ^-факторных (k — 2, ..., т) взаимодействий по каждому индексу при любых фиксированных значениях остальных. Например, 2}(а/а*)уй = 0 при вс2х ik, ^(ос/а*.),-^ = О при всех i. <¦/ <* Использование факторных программ из ПСП особенно полезно при больших значениях т, потому что даже вычисление сумм квадратов становится затруднительным. Чаще всего эти программы называются «дисперсионный анализ факторного планирования», «m-факторный дисперсионный анализ», «дисперсионный анализ m-факторных перекрестных планов». Все эти программы можно разбить на две группы: допускающие повторение экспериментов (т. е. N ^ \) и недопускающие (N — 1). Рассмотрим теперь каждый из этих случаев. К\ 1. Программы, допускающие повторение. В этом случае на выходе типичной факторной программы печатаются суммы ква- квадратов, степени свободы, средние значения квадратов для остаточ- остаточной компоненты (или ошибки) R и каждого источника дисперсии Аъ Ла, ..., Ат, AXA2, ..., Ат_гАт, ... и Aj,A2- ¦ -Ат, т. е. связан- связанной с каждым фактором, взаимодействием каждой пары различных факторов, каждой тройки попарно различных... и, наконец, взаимодействием всех факторов. Для каждого источника диспер- дисперсии (кроме остаточной суммы R) исследователь может проверить нулевую гипотезу Яо, состоящую в том, что все соответствующие дифференциальные эффекты равны нулю. Например, для источ- источника, определяемого взаимодействием АгА%А3, гипотеза имеет вид Яо: (о^аааз)*,,-,,-, = 0 при всех iu /2, i3, ^ = 1, ..., /ъ i2 = 1, ... ..., /2, is — 1, •¦•, h- Bce ожидаемые значения средних квадратов имеют вид суммы дисперсии ошибки а2 и величин, которые равны О, если только гипотеза Яо справедлива. А так как остаточная сумма квадратов MSR дает несмещенную оценку а2, то для проверки ги- гипотезы Но мы рассмотрим отношение среднего квадрата MSH, соответствующего данному источнику, к остаточному среднему MSR. Пусть vH и vR обозначают число степеней свободы для этих двух средних квадратов. Тогда для проверки выполнения Яо вычислим ^-отношение F = MSh/MSr - (SSH/vH)/(SSR/vR). D.4.2) Если гипотеза Яо справедлива, то эта статистика имеет F-pacnpe- деление со степенями свободы vH и vR. Р-значение равно площади
4.4. Общая программа факторного планирования 269 под кривой плотности распределения F (vH, vR) справа от точки F. Гипотеза Яо отклоняется, если Р < а. Если число повторений в эксперименте N = 1, то предпола- предполагается, что все дифференциальные эффекты m-факторного взаимо- взаимодействия равны нулю. Поэтому в выходной таблице программы нет графы для источника дисперсии АгАъ ... Ат. 2. Программы^ предполагающие неповторяемый эксперимент. Если в эксперименте N = I, то компонента, соответствующая m-факторному взаимодействию, принимается за остаточную, так что Поэтому выходные таблицы типичных программ такого рода со- содержат суммы квадратов, число степеней свободы и средние значения квадратов для всех факторов и ^-факторных взаимо- взаимодействий, k — 2, ..., m, но не содержат графы для остаточной компоненты. Для оценки дифференциальных эффектов можно воспользоваться соотношением D.4.2). С другой стороны, если в эксперименте N > 1, то можно ввести новый фактор «повторения» Ат+1 и воспользоваться про- программой дисперсионного анализа для получившегося т + 1- факторного плана. На выходе этой программы мы получим дан- данные для всех источников дисперсии и их fe-факторных взаимодей- взаимодействий, k = 2, ..., т, т + 1. Затем необходимо объединить суммы квадратов и число степеней свободы для фактора Ат+1 и всех взаимодействий, содержащих этот фактор. Эти объединенные величины дают остаточную сумму квадратов SSR и число степеней свободы vR для исходного m-факторного плана с N повторениями. Поэтому MSR = SSR/vR, и мы вновь можем воспользоваться формулой D.4.2) для оценки эффектов. Рассмотрим, например, однофакторный план D.2.1) с одним фактором Ах и N повторениями на каждом уровне фактора Av Назовем фактор Л2 «повторением» и проанализируем нашей про- программой соответствующий двухфакторный план. В результате программа напечатает суммы квадратов ББд^ SS^2, SS^,, и числа степеней свободы v^,, vAl и vAlAa для компонент Аъ Л2 и АгАг соответственно. Значения SSR и vR для однофакторной модели равны SSR = SS^2 -|- SS^,^2 и vR = vAs -j- vAlA2, так что MSR = SSR/vR. D.4.3) Замечание 4 .4.1. Объединение превращается в сложную проб- проблему, если число факторов т велико. Мы рекомендуем не объеди-
270 Гл. 4. Дисперсионный анализ нять ни одно из ^-факторных взаимодействий, k — 2, ..., т — 1, если не объединяется /и-факторное. Пример 4.4.1. В одном эксперименте1) 12 групп, по N = 4крыс каждая, были обследованы по следующему плану: 1) от рождения до конца вскармливания новорожденные крысы в группах 1—б оставались все время с матерями, а в группах 7—12 ежедневно разлучались с ними на определенный период; 2) от окончания вскармливания до созревания животные из одного приплода в группах 1—3 и 7—9 содержались совместно, а в группах 4—6 и 10—12 изолированно; 3) с момента достижения половозрелости а) животные из одного приплода в группах 1, 4, 7 и 10 содержались совместно, Ь) в группах 2, 5, 8 и 11 — изолированно, с) в группах 3, 6, 9 и 12 — в сообщающихся клетках. В результате эксперимента измерялась концентрация адреналина Y (мг/100 г). В этом эксперименте фактор Ах связан с первым периодом (от рождения до окончания вскармливания). У него /г = 2 уровня — изолировались от матери или нет. У фактора Л2, связанного со вторым периодом (от окончания вскармливания до созревания), тоже /2 = 2 уровня — животные одного приплода содержались совместно или нет. И наконец, у фактора А3, отно- относящегося к периоду зрелости, /3 = 3 уровня, а именно — изоли- изолированно, совместно или в сообщающихся клетках содержатся животные из одного приплода. Исходные данные приведены Таблица А Набор данных Фактор А2' от конца вскармливания до созревания Приплод совместно Приплод раздельно Фактор А,- от рождения до конца вскармливания С матерью Фактор Л3: период о приплс совмес 3.2 2.6 2.2 2.6 3.2 2.5 3.0 3.3 зрелости л 1 со O.S 1.9 2.3 2.2 2.0 2.7 2.8 2.4 2.7 со CQ истем щико о к 4.0 4.6 5.7 5.7 4.8 4.8 5.4 3.8 Отдельно от матери Фактор А 3: период зрелости о риплс овмес С о 4.6 4.8 4.6 4.4 4.5 4.2 4.4 4.3 Л аздел [О О, я 3.3 4.0 5.0 3.2 2.4 3.6 3.0 3.0 СО CQ истем щико о К 6.3 7.2 4.6 7.2 3.8 4.4 4.8 5.8 х) Описываемый эксперимент был осуществлен Дж. Хенри (Dr. James Henry, Department of Physiology, USC, Los Angeles, California).
4.4. Общая программа факторного планирования 271 в табл. А. Трехфакторная модель для этого эксперимента имеет вид ilti2= 1,2, is=« 1,2,3, -,,-, + elltlhn, = 1,...,4. Здесь а} — дифференциальный эффект фактора А}. Используя факторную программу, допускающую повторяемые планы (из пакета BMDP2V), получим таблицу дисперсионного анализа (табл. В). Результаты проверки гипотез сведены в табл. С. Из нее видно, что значимыми являются эффекты, связанные с факторами Ах и Л3 и взаимодействием Ах и Л2. Остальные эффекты незна- незначимы, т. к. для них Р > 0.05. Результаты Источник днсперснн Л! А А1Аа Остаток Полная Проверка гипотез Но: все(а,а2аз),,.« = F = 0.5 v,-2 v2 = 36 'NS Яо:все(а,а2)М2 = 0 Я F = 9.6 Vj = 1 v2 = 36 P < 0.005 дисперсионного анализа Сумма квадратов 15.187 1.541 43.058 3.741 1.974 2.280 0.405 14.085 82.271 0 Н0:все( v2 „: все (аэ)A = 0 F = 55.1 v = 2 v2 = 36 P< 0.001 Число степеней свободы 1 1 2 1 2 2 2 36 47 «2«э),-21з=0 = 2.9 2 = 36 NS Но: see Таблица В Средний квадрат 15.187 1.541 21.529 3.741 0.987 1.140 0.203 0.391 Но: все(а F = v2 = F = 3.9 NS Таблица С ;.«з)/,.3=0 = 2.5 = 2 = 36 NS H0:ecs(a1),l =0 F = 38.8 V, = 1 р < 0.001
272 Гл. 4. Дисперсионный анализ 4.4.2. Применение факторных программ к другим моделям Факторные программы можно использовать для анализа и других видов планов, отличных от полного m-факторного плана (см. статью Hartley в книге Ralston, Wilf (I960)). Обязательно тре- требуется только, чтобы во всех ячейках было одно и то же число наблюдений N. Искусство состоит в том, чтобы сформулировать исходный план как факторный, получить таблицу дисперсионного анализа для этого факторного плана, а затем выразить величины для исходного плана, сгруппировав некоторые суммы квадратов и степени свободы факторного плана. Если это проделано, то сред- средние значения квадратов находятся делением соответствующей объединенной суммы квадратов на ее «объединенное» число сте- степеней свободы. По этим данным, как обычно, проводится проверка гипотез. В этом разделе мы рассмотрим такую процедуру для двух ранее рассмотренных планов — с рандомизированными блоками и с группировкой. Кроме того, мы опишем еще два вида планов — расщепленные планы и латинские квадраты. По мере необходи- необходимости мы будем отмечать различия между двумя рассмотренными категориями факторных программ — допускающих и не допу- допускающих повторения. 1. Планы с рандомизированными блоками. Модель с рандоми- рандомизированными блоками, описываемую уравнением D.3.11), можно обрабатывать как факторный план с двумя факторами и N = 1 наблюдением для каждой пары уровней. Соответствующую таб- таблицу дисперсионного анализа выдает любая факторная программа, а значения средних квадратов вычисляются по формулам из табл. 4.3.8. Модель повторяемого плана с рандомизированными блоками, описываемую уравнением D.3.12), можно рассматривать как по- повторяемый двухфакторный план с N > 1 и обрабатывать любой факторной программой, допускающей повторение наблюдений. Если программа не допускает повторений, мы переформулируем модель следующим образом: At — фактор «способ обработки», Л2 — фактор «блок» и А3 — фактор «повторения». Используя факторную программу для трехфакторного плана, мы можем представить остаточную сумму квадратов исходной модели в виде SSR = SS^ + SSAia, + SS^, + SS^,,!,, D.4.4) где величины, фигурирующие в правой части, берутся просто из таблицы дисперсионного анализа для трехфакторного плана. Аналогичная формула справедлива и для остаточного числа степеней свободы. Величины EMS задаются по формулам табл. 4-3.9.
4.4. Общая программа факторного планирования 273 2. Двухфакторная модель с группировкой. В двухфакторной модели с группировкой, описываемой формулами D.3.13) или D.3.14), участвуют два фактора Ах и Л2, причем Л2 сгруппирован фактором Аг. В каждой ячейке производится N наблюдений. При использовании факторной программы, допускающей повто- повторения, можно рассматривать наш план как факторный план с двумя факторами и N повторениями. Сумма квадратов для фак- фактора Л2, подчиненного Ль равна v D.4.5) Суммы, стоящие в правой части, содержатся в таблице диспер- дисперсионного анализа для факторного плана. Аналогичная формула верна и для числа степеней свободы ул2<л,)- Величины SS^, и SSR, так же как и соответствующие им числа степеней свободы, берутся прямо из этой таблицы. При использовании программы, не допускающей повторений, введем фактор «повторений» Л3 и рассмотрим полученную модель как трехфакторный план. Остаточная сумма квадратов для мо- модели с группировкой выражается через величины, выдаваемые программой по формуле SSR = SS*. -f SS^, + SS^3 + SS^2.v D.4.6) Число степеней свободы находится аналогично. Величина SS^2 (а^ задается равенством D.4.5), а ББл, и v^ выдаются непо- непосредственно программой. Значения EMS находятся в соответ- соответствии с табл. 4.3.12. 3. План с расщепленными блоками. В этой ситуации мы рас- располагаем /х видами обработки (фактор Л,), /2 подвидами обработки (фактор Л2) и /3 блоками (фактор Л3) (Brownlee A965)). Каждый блок делится на /х однородных участков, а каждый участок — на /2 подучастков. Внутри каждого блока уровни фактора Ах слу- случайно распределяются по участкам, а внутри участка уровни фактора Л2 случайно распределяются по подучасткам. Например, один блок в случае 1Х = 3, /2 = 2 может быть устроен так, как показано в следующей таблице, в которой индекс ij обозначает уровень фактора /, / = 1, 2. Участок 1 Участок 2 Участок 3 1 ~" х ~~ }~ Подучасток 1 »=1 1 х Подучасток 2 i == 1 / = 2 Блок
Таблица дисперсионного анализа расщепленных планов Таблица 4.4.1 Источник дисперсии Сумма квадратов Чнсло степеней свободы Средний квадрат EMS модель I А3 (блоки) = ? W--i3— У---У2 MS A, At (вид обра- обработки) R«> (ошибка участка) Л2 (подвид об- обработки) AiA2 (видХ X подвид) A2AS (подвид X X блок) _ у, SSRa> = _ g,. + д.. .уз P<ii2- —Sir- — V.4, = У2 - 1 MSR(u ?? Vi-!)(/.-!) R (ошибка под- Участка) Полная SSr = SSf — (сумма всех предыдущих SS) vr = (A-l) (/2-l) SST= 2] kyijt^-9-) MSR Суммирование по i,B и »>.
. 4.4. Общая программа факторного планирования 275 Цель такого плана состоит в уменьшении числа комбинаций способов обработки внутри одного блока. Моделью плана служит УШш = М- + Ыч + Ыь + (аз)*, + /.+#'<<,)+ *w,, D.4.7) «1=1 А, »2=1 4 !'.-!= 1, •¦•, /В. Здесь ах — фиксированные эффекты, определяемые видами об- обработки, ос2 — фиксированные эффекты, определяемые подви- подвидами, а3 — случайные эффекты блоков, а^ — взаимодействие вида и подвида обработки, а2а3 — взаимодействие подвида с бло- блоком. Член е'1' — случайная ошибка участков внутри блока, а е — случайная ошибка подучастков внутри участка. Предпо- Предполагается, что е*1' распределены по-jV (О, а*), а е — по N (О, а2). Дополнительные ограничения имеют вид ?(«Оч = 2j («2k :'-'- °. II(«№)м2 == -S(оч^ч,, - О для каждого значения ix иц. И наконец, считается, что (а3),-3 распределены по N @, о?„), a (a2a3)hi3 — по N @, а|аA,) при всех i2 и i3. Таблица дисперсионного анализа для такого плана имеет вид табл. 4.4.1, а критерии проверки гипотез приведены в табл. 4.4.2. Степени свободы F-отношения вычисляются по Таблица 4.4.2 Критерии для расщепленных планов Яо: F - Ло: F - MSr MSr<i> MSr Яо: see (: F - - Ha: все «.«)„. = 0 VIS,,,, MSr MS,, MSRl|) h. > H F все (<x2),2 = 0 - MS^' u: < = 0 MS,, MSR(,) таблице дисперсионного анализа. Если гипотеза Яо: а\ = 0 не отвергается, то сторонник объединения может перейти к объеди- объединенным оценкам сумм SSRu) и SSR, чтобы получить новую оста- остаточную сумму квадратов. Эта сумма используется при проверке гипотез Яо: (ах)^ = 0 и Но: сг|3 = 0. Чтобы получить табл. 4.4.1, используя факторную программу, мы рассмотрим расщепленный
276 Гл. 4. Дисперсионный анализ план как трехфакторный с N = 1 наблюдением для каждой тройки уровней. Выпишем соотношения между двумя наборами источ- источников дисперсии (факторной и расщепленной модели), используя стандартные обозначения факторной модели. Расщепленная Факторная — лда., / — 1, А о, = SSa2a3, D.4.8) если программа 1 2 3' не допускает повторений, R „„ если программа R> допускает повторения. 4. План латинских квадратов. В этой ситуации нам заданы три фиксированных фактора Л,, Л2 и Л3 с одним и тем же числом уровней у всех трех, т. е. /х = /, = /3 = / ^ 3. Предположим также, что никаких взаимодействий между факторами нет. В плане латинских квадратов каждый уровень фактора Ах сочетается ровно один раз с каждым уровнем фактора Л2 и ровно один раз с каждым уровнем фактора As. Чтобы фактически построить та- такой план (латинский квадрат), выпишем в порядке возрастания все / уровней фактора Ах и / уровней фактора Л2 в виде двумер- двумерного массива, считая уровни фактора Лх строками, а фактора Л2 — столбцами. В каждой клетке мы зададим значение фактора Л3 так, чтобы каждый уровень Ла встречался ровно один раз в каждой строке и в каждом столбце. Наблюдение в ячейке (ijt'a). обычно обозначаемое «/,,.-.,> теперь будем обозначать через y,v2 (ч>- Здесь i3 — это уровень фактора Л3, соответствующий паре i^a в латинском квадрате. Два примера латинских квадратов для / = 3 приведены в табл. 4.4.3. Числа в матрице обозначают уровни фактора Л3, а буквы — наблюдения. Заметим, например, что / = г/23Aъ a f ~ #23B). потому что комбинации 2, 3 уровней факторов А{ и Л2 соответствует уровень 1 фактора А3 в первом квадрате, и уровень 2 — во втором. Для любого / существует множество различных латинских квадратов. В идеале экспериментатор должен был бы составить список всех возможных латинских квадратов и для своего экспе- эксперимента случайным образом выбирать один из них. Чтобы облег- облегчить эту операцию, мы можем воспользоваться списком латин- латинских квадратов, составленным Fisher, Yates A963).
4.4. Общая программа факторного планирования 277 Таблица 4.4.3 Два примера латинских квадратов (/ .- 3) 1 2 3 1 2 3 А, 2 1 а 2 d 3 9 2 Ь 3 е \ h 3 с 1 / 2 2 а' 1 </' 3 1 А' 3 е' 2 А' 3 с' 2 /' 1 V Этот план лучше факторного плана с тремя факторами тем, что вместо Р наблюдений, необходимых для факторного плана, для плана латинских квадратов достаточно Р. За эту экономию мы расплачиваемся тем, что предполагаем отсутствие всех взаимо- взаимодействий. План латинских квадратов описывается моделью ytii.u.) = V + Ы<. + Ы(ш + М<. +ем,<*.>- D-4-9) Здесь о/ — дифференциальные эффекты факторов А}, / = 1, 2, 3, а ошибки е,-^, (lj) независимы и распределены по jV @, а2). Допол- Дополнительные условия, как обычно, имеют вид S Ын - ? («2)^, -- Е («з)(. - о. Комбинации индексов ij^ (h) B D.4.9) задаются выбранным ла- латинским квадратом. Например, первый из латинских квадратов, изображенных в табл. 4.4.3, задает следующее множество комби- комбинаций: |A, 1, 1), A, 2, 2), A, 3, 3), B, I, 2), B, 2, 3), B, 3, 1), C,1,3), C,2,1), C,3,2)}, а второй квадрат — множество {A, 1, 2), A, 2, 1), A, 3, 3), B, 1, 1), B, 2, 3), B, 3, 2), C, 1, 3), C, 2, 2), C, 3, 1)|. Отметим еще раз, что эти множества содержат по Р, а не Р комбинаций. Таблицы дисперсионного анализа и проверки гипотез для плана латинских квадратов задаются табл. 4.4.4 и 4.4.5 соответ- соответственно. Для того чтобы получить табл. 4.4.4, используя факторную программу, мы рассмотрим для плана латинских квадратов два факторных плана с двумя факторами м N = \ я вычислим таблицы дисперсионного анализа для каждого. Сперва воспользуемся программой для плана с факторами Ах и Л2 и получим суммы ква-
278 Гл. 4. Дисперсионный анализ Таблица 4.4.4 Таблица дисперсионного анализа для плана латинских квадратов Источник дисперсии Сумма квадратов Число Средний степеней квадрат ЫЛЪ свободы Al Vyli==/__i Остаток SSR = ST - (SS^ + v Полная SST = 2 S И = (/ - l)x MSR a2 = /2— 1 Критерии Н0: все (с для *!)<! = MSr плана = 0 латинских квадратов Но: все (Oa)/2 = 0 F-- MSa2 MSr Я,: Таблица всеЫ, MSr 4.4. 5 0 дратов и степени свободы для факторов Аи Аг и взаимодействия АхА.г. Полная сумма квадратов SST и число степеней свободы v,r равны SST = SS4i + SSAI + SSAlA1, vT = VA1 + vA2 + vAlA1- D.4.10) Затем перепишем наш латинский квадрат так, чтобы фактор А3 задавал столбцы, Аг — вид обработки, а Ах — по-прежнему строки. Другими словами, произведем преобразование ^(hi^-fec,) D.4.11) так, чтобы получилось то же самое множество комбинаций ин- индексов. Например, первый квадрат из табл. 4.4.3 преобразуется
4.4. Общая программа факторного планирования 279 к виду в котором числа в клетках обозначают уровни фактора А2. Например, измерение d = y2\ B> в старом квадрате в новом будет обозначаться d — г/2 (i) 2- Снова воспользуемся нашей факторной программой и получим суммы квадратов и числа степеней свободы для факторов_Ль As и взаимодействия AXAZ. ¦12 3 1 А, 2 Из полученных таким образом двух таблиц построим таблицу дисперсионного анализа для плана латинских квадратов. Суммы квадратов найдем из соотношений План латинских квадратов Факторный план SS.4, = ЗБл, (из расчета 1 или 2) (из расчета 1) (из расчета 2) 1ла (из расчета 1) SS,,,) D.4.12) и, аналогично, вычислим степени свободы v^,, V42, va3 и vr. 1 а 3 / 2 А 2 Ь 1 d 3 / 3 с 2 е I д SST = SSR =SST — Пример 4.4.2. На этом примере мы продемонстрируем технику объединения для плана с группировкой. В одном эксперименте 9 морских свинок были случайно распределены по 3 клеткам (по 3 свинки на клетку) и в каждой клетке животным обеспечивался один из трех уровней NO3 A — контрольный, 2 — вдвое больше нормы, 3 — втрое больше нормы). После недели эксперимента делалось N=2 измерения величины Y (артериального рН). Цель эксперимента состояла в оценке средней разницы в уровнях рН для /х = 3 условий эксперимента (фактор А]). Фактор Л2 — жи- животные с /2 = 3 сгруппирован фактором Av Модель этого экспе- эксперимента: Н= 1,2,3, »2= 1,2,3, л = 1,2.
280 Гл. 4. Дисперсионный анализ Здесь (ai);, — эффект, определяемый фиксированным фактором Аъ a (a2)i2 (,-,) — случайным фактором Л2. Исходные данные при- приведены в табл. А. Эти данные переупорядочены и представлены Таблица А Режим Животное рН 1A) 2A) 3A) 1B) 2B) 3B) 1C) 2C) 3C) 7.08, 7.04, 7.07, 7.29, 7.42, 7.08, 7.74, 7.53, 7.51, 7.02 7.07 6.98 7.18 7.32 7.28 7.54 7.50 7.63 в виде факторного плана с двумя факторами и N = 2, как показано в табл. В. Используя факторную программу, допускающую повто- Таблица В Животное Режим 7.08 7.04 7.07 7.02 7.07 6.98 7.29 7.42 7.08 7.18 7.32 .28 7.74 7.53 7.51 7.54 ' 7.50 7.63 рения, получим таблицу дисперсионного анализа (табл. С). Для вычисления суммы квадратов для животных при заданных усло- условиях используем формулы D.4.5) и получим SSx3(x,) = 0.0111 + + 0.0439 = 0.0550 с v^, (л,> = 6 степенями свободы. Полученная таблица дисперсионного анализа для модели с группировкой при- приведена в табл. D. Воспользуемся теперь статистиками из табл. 4.4.13 для проверки гипотез. Получим табл. Е. Из нее сле- следует значимость различий между уровнями для трех условий экс- эксперимента.
4.4. Общая программа факторного планирования 281 Таблица С Источник дисперсии Сумма квадратов Число степеней свободы 12 Остаток Полная 0.8570 0.0111 0.0439 0.0650 2 2 4 9 0.0970 17 Таблица D Источник дисперсии Сумма Число Средний квадра- степеней квадрат тов свободы 2 ш Остаток Полная 0.8570 0.0550 0.0650 2 6 9 0.4285 0.0092 0.0072 0.9770 17 Таблица Е (нет различий между животными при одном режиме) Но: все ia,)ti = 0 (нет дифференциальных эффектов режима) 0.0092 _ F = 0.4285 vx= 6 v2=9 NS O.0092 v1=2 va=6 P< 0.001 - 46.6 Пример 4.4.З. В качестве примера расщепленного плана рас- рассмотрим следующий эксперимент. В группе из 25 лабораторных мышей уровень тестостерона (в нанограммах на грамм ткани в ми- минуту) измерялся в каждом (правом и левом) яичке. Измерения про- проводились до стимуляции и после 15, 30, 45, 60 и 75 мин стимуляции. В результате пытались оценить изменение уровня тестостерона во времени. Результаты этого опыта представлены в табл. А.
Таблица А Набор данных Минуты после стимуляции Контроль 15 30 45 60 75 Тестостерон-- правое яичко ( нанограмм/грамм ткани а минуту) 1.7 0.2 0.5 1.6 0.4 0.4 2.6 4.9 5.0 1.9 2.0 2.7 3.6 7.0 7.1 0.7 3.8 3.1 3.7 9.0 1.3 1.1 4.1 2.8 1.7 4.9 0.4 2.7 1.4 0.5 0.9 3.9 4.5 5.5 2.2 5.0 5.4 3.4 6.3 5.6 3.0 3.3 3.0 3.6 10.2 7.1 4.1 4.5 6.0 4.9 35.9 3.3 18.1 2.5 3.3 6.6 10.5 7.4 6.7 4.1 18.4 15.8 8.6 30.2 9.9 11.1 9.1 3.0 3.5 20.9 37.8 8.9 11.0 14.4 35.9 51.6 8.1 26.6 3.2 5.1 12.3 8.0 13.0 7.0 6.0 24.2 18.3 9.8 36.5 10.4 12.6 10.7 2.9 3.7 22.6 46.6 20.1 15.4 32.7 51.6 49.5 15.6 30.7 3.4 4.9 13.9 5.1 18.7 5.9 7.0 32.1 24.4 7.8 29.9 9.4 14.5 10.4 2.9 3.5 17.1 55.6 27.2 13.0 53.7 49.5 30.2 17.1 33.6 3.1 4.8 13.9 3.2 24.2 5.4 7.4 38.3 26.7 6.9 23.9 7.3 14.7 10.6 2.6 4.0 13.5 48.9 30.9 10.4 60.2 30.3 Тестостерон: левое яичко (наиограмм/грамм ткани в минуту) 1.9 5.8. 33.3 • 48.1 39.8 22.3 0.2 0.7 0.8 0.5 0.5 1.3 7.8 11.3 2.9 1.6 3.1. 3.4 4.6 6.2 0.9 0.7 5.2 1.0 0.8 1.1 3.3 8.8 11.3 3.5 3.8 4.3 4.5 8.7 5.2 3.5 4.2 15.5 3.0 3.5 6.9 14.4 10.5 14.5 5.1 12.1 12.7 11.1 29.2 6.7 9.8 8.7 25.3 3.7 4.0 11.0 12.4 14.3 16.3 7.0 18.7 16.2 12.8 35.2 6.6 11.8 13.8 33.4 4.3 3.7 16.1 6.4 22.9 12.7 6.9 25.5 17.9 11.3 31.4 6.6 12.0 16.1 34.5 4.3 3.8 15.6 2.8 24.3 11.1 7.1 25.7 18.3 9.6 27.5 5.1 13.5
4.4. Общая программа факторного планирования 283 Контроль Тестостерон: 3.3 3.2 9.3 0.9 1.1 1.0 3.7 2.7 1.9 15 Левов' 4.0 3.0 11.8 0.9 7.7 3.5 4.1 6.5 5.8 Минуты 30 Продолжение табл. А поеме стимуляции 45 яичко (напограмм/крамм 3.1 2.8 21.9 3.1 33.6 9.9 10.1 27.6 33.3 2.9 3.2 25.7 3.2 45.3 19.3 15.2 53.4 48.1 60 75 ткани в Miunjnnj) 2.8 4.2 24.4 2.9 48.5 27.6 13.3 64.0 39.8 2.6 3.9 22.6 2".4 52.4 33.3 9.5 61.6 22.3 В данном случае время будем считать фактором Ах (фиксиро- (фиксированный, 6 уровней), яички—-фактором Л2 (фиксированный, 2 уровня), а животное — фактором А3 (случайный, 25 уровней). Каждое животное (блок) «делится» на периоды времени (участки), а каждый период — на правое и левое яичко (подучасток). В табл. В приведены полученные факторной программой резуль- Таблица В Результаты дисперсионного анализа Источник дисперсии SS Число степеней свободы MS Животное Время RA) (ошибка) Яички Время X яички Яички X животное R (ошибка) Полная 23.123 14.201 15.668 1 19 1933 654 55.599 24 5 120 1 5 24 120 299 0.963 2.840 0.130 1 3.8 80.5 5.5 7.4 21.8 23.6 <^ I <^ 1 14.6 — < 0.001 < 0.001 < o.ooi NS NS < 0.001 — таты анализа этих данных, преобразованных ранее описанным способом. Эти результаты показывают наличие значимых различий между животными, наличие взаимодействия между яичками и жи- животными (факторы Az и А3), а также значимые дифференциальные эффекты времени. Замечание 4.4.2. Отношение группировки пгранзитивно. На- Например, для трех факторов А, В и С это значит, что если фактор 5
284 Гл. 4. Дисперсионный анализ сгруппирован фактором С, а фактор А — фактором В, то фактор А сгруппирован фактором С. Это последнее отношение обозначается А (ВС). Для того чтобы получить сумму квадратов SS^ (во и число степеней свободы v^ (во для А (ВС), используя факторную программу для трех факторов, нужно просто сложить все суммы квадратов и числа степеней свободы, соответствующие источни- источникам дисперсии, содержащим букву А. А именно: SSa(bc) = SSA -(- SSAB -j- SSAC -f- SSABC, va (so = vA + vab + vAC + vAsc. Как и раньше, SSbjo = SS'i + SSsc- Эта процедура применима к любому отношению группировки Лх (Л2 ... Ат). 4.5. Дисперсионный анализ при помощи регрессии В этом разделе мы обсудим использование программы множествен- множественной линейной регрессии для решения всех рассмотренных задач дисперсионного анализа. Это важно сделать, потому что некоторые ПСП содержат программы множественной линейной регрессии и не содержат программ дисперсионного анализа. Не менее важно, что в отличие от факторных программ программы множественной линейной регрессии допускают различное число наблюдений в ячейке. Кроме того, некоторые программы дисперсионного анализа (например, BMDP2V, MANOVA и BMD10V) используют методы регрессионного анализа, так что этот раздел поясняет методы, лежащие в основе таких программ. Случай с различным числом повторений в ячейках часто встре- встречается как в планируемом эксперименте, когда некоторые наблю- наблюдения пропускаются, так и в непланируемых исследованиях. На- Например, при обследованиях населения, упомянутых во введении к этой главе, неправдоподобно предполагать одну и ту же числен- численность обследуемых при разных комбинациях уровней социально- экономических и этнических групп. В этом разделе мы воспользуемся измененной формулировкой задачи дисперсионного анализа в виде общей линейной модели. В частности, мы будем рассматривать все факторы как фиксиро- фиксированные (модель I). В замечании 4.5.3.2 будет показано, что при вычислении таблицы дисперсионного анализа можно обрабаты- обрабатывать случайные факторы как фиксированные. Но при проверке гипотез необходимо вернуться к первоначальной интерпретации факторов.
4.5. Дисперсионный анализ при помощи регрессии 285 Вначале мы рассмотрим технику вычислений для одной гипо- гипотезы #0, а затем — для всех гипотез, связанных с полной табли- таблицей дисперсионного- анализа. Грубо говоря, вся техника состоит в переформулировке исходной модели дисперсионного анализа в терминах генерального среднего \х и минимального множества дифференциальных эффектов, определяемого выбором дополни- дополнительных условий. Затем мы представим эту новую модель диспер- дисперсионного анализа в форме общей линейной модели. Используя программу множественной линейной регрессии, получим остаточ- остаточную сумму квадратов SSR и соответствующее число степеней свободы vR для исходной модели. Для проверки гипотезы Яо уда- удалим соответствующие гипотезе переменные из общей модели, вновь пропустим программу линейной регрессии и получим сумму квадратов SSR и число степеней свободы vR для первоначальной модели при выполнении гипотезы Но. Статистикой критерия для проверки #о служит ^-y^. D.5.1) Эта статистика, уже рассматривавшаяся в разд. 3.2 и 4.1, под- подчиняется /-'-распределению со степенями свободы vH = vR — vR и vR. Р-значение равно площади справа^от точки F под кривой плотности распределения F (vH, vR). Проверка заданной гипотезы #0 о дифференциальных эффек- эффектах проводится в несколько шагов. Шаг 1. Выписать исходную модель дисперсионного анализа с фиксированными эффектами и дополнительные условия на диф- дифференциальные эффекты. Шаг 2. Используя дополнительное условие, представить один из участвующих в нем эффектов в виде линейной комбинации других. (Например, если фактор А определяет эффекты аъ ..., а,, а дополнительное условие имеет вид аг + а2 -\- ¦ ¦ ¦ + ос7 = 0, то можно выразить эффект а/ через остальные: а, — —at — а2 — • • — «;_!.) Затем следует подставить все полученные выражения в исходную модель. В итоге получится модель, формулируемая в терминах генерального среднего [i и минимального множества из р дифференциальных эффектов. Значение р можно вычислить так, как объяснено в замечаниях_4.5.1.4 и 5. Шаг 3. Представить модель ANOVA, полученную на шаге 2, в виде общей линейной модели. Для этого нужно только любым способом перенумеровать все наблюдения по порядку: уг, ..., уп, где п — общее число наблюдений. Дифференциальные эффекты из
286 Гл. 4. Дисперсионный анализ минимального множества обозначим, например, через 6^ ..., 8Р. Тогда модель запишется в виде У1 = И + 6Л/ Н г- 6pV + e?, i = 1, ..., п, D.5.2) где ошибки ег независимы и распределены по N (О, о2). Величины хп определяются моделью, полученной на шаге 2. Шаг 4. Рассматривая хъ ..., хр как независимые переменные, а у как зависимую, воспользоваться программой множественной линейной регрессии и получить значения SSR и vR для исходной модели дисперсионного анализа. Как и в разд. 3.2, эти величины совпадают с остаточной суммой квадратов и числом степеней сво- свободы из таблицы ANOVA для множественной регрессии. Шаг 5. Представить гипотезу Но в виде: «некоторые 6; = О». Удалив соответствующие переменные xt из равенства D.5.2), вновь пропустить программу регрессионного анализа и выписать зна- значения SSR и vR из получившейся таблицы ANOVA. Затем прове- проверить гипотезу #0, используя статистику D.5.1). Исключение. Если гипотеза Яо состоит в том, что 9Х = • • • п п ... = 9=0, toSSr = ? {tji — уJ, где у = A/n) ? yt. Эта вели- 1=1 i=i чина равна полной сумме SST квадратов в полученной на шаге 4 таблице ANOVA для программы множественной регрессии. Число степеней свободы v^ = п— 1. В данном случае можно определить SSr —¦ SSR и vR — vR непосредственно из этой таблицы, поскольку они совпадают с «определяемой регрессией» суммой квадратов и числом степеней свободы. Замечание 4.5.1. 1. Шаг 5 можно повторить для любой другой гипотезы о дифференциальных эффектах, представимой в виде #0: некоторые 0г = 0. 2. Некоторые программы множественной линейной регрессии могут решать целый набор задач линейной регрессии за один про- прогон. Это позволяет пользователю решать задачи регрессии, возни- возникающие в шаге 4 и в шаге 5 сразу. Переменные для каждой задачи задаются так называемой картой выбора, которая «выбирает» зави- зависимые и независимые переменные. Так, на шаге 4 все xt считаются независимыми переменными, а на шаге 5 из их числа исключаются хи соответствующие эффектам 8г, указанным в гипотезе #„. 3. Еще одно достоинство такой техники состоит в том, что на шаге 4 пользователь получает МНК.-оценки параметров ц, 9^ ... ..., 0р) введенных на шаге 3. Используя связь между fy и диффе- дифференциальными эффектами модели, фигурирующей в шаге 2, он получит МНК-оценки эффектов из минимального множества. Оценки остальных получаются при помощи линейных комбинаций,
4.5. Дисперсионный анализ при помощи регрессии 28? использованных на шаге 2. Например, если а7 = —аг — ... — а, х, тоМНК-оценка эффекта а7 равна as = —с^ — • • —а,л, где а1у ..., U/j есть МНК-оценки эффектов аъ ..., a,_t. 4. Если модель дисперсионного анализа такова, что значение остаточного числа степеней свободы vR известно a priori, то число р дифференциальных эффектов в минимальном множестве рав- равняется р = п — vR — 1, где п — общее число наблюдений. •к 5. В общем случае, как мы знаем из замечания 4.1.1.2, vR = п — rank X', где X' — матрица плана для модели диспер- дисперсионного анализа, записанного в виде общей линейной модели. Тогда р = п — vR — 1 = rank X' — 1. * Пример 4.5.1. Поясним описанную технику вычислений. Пусть задан фиксированный фактор с тремя уровня?>ш. На каж- каждом из первых двух уровней делается по 2 наблюдения, а на третьем уровне — одно. Будем последовательно выполнять описанные шаги Шаг 1. Исходная модель имеет вид Hit ¦-= И- + ai + eih i ---- 1,2,3, / = 1, . . ., Jh где J1 — J2 — 2 и J3 = 1. Используем обычное дополнительное условие 2ах + 2а, + а3 = 0. Шаг 2. Из дополнительного условия получаем а3 = —2ах — 2а2. Подставляя это в исходную модель, получим модель выра- выраженную через генеральное среднее ц и минимальное множе- Уп =ц + (х1 + еп, у12 = ц + ах + е12, Ун =Ц + а2 + е21, у22 = ц + а2 + е22, Ун = /' + «з + e3l =fi-2al - 2а2 + е31, ство^дифференциальных эффектов ах, а2. Заметим, что мы знали, что vR = 5 — 3 = 2. Поэтому в соответствии с замечанием 4.5.1.4 число дифференциальных эффектов в минимальном множестве равно р = п — vR — 1 = 5 — 2 — 1=2. Шаг 3. Перенумеруем у if. У\ = Ун. Уг = У12> Уз = У.21> У* ~ Угч, Уь ~ Уп-
288 Гл. 4. Дисперсионный анализ У У1 Уг Уз У* v< xi 1 1 0 0 -2 X; 0 0 1 1 -2 Положим 9Х = alt 92 = а2. Теперь модель примет вид & = И + 101 + 092 + elt у, = \i + 10! + 092 + е2, г/3 = и- + 0вг -Н 162 + е„ г/4 = и + 09х + 19, + е„ Уь = и + (-2) ех + (-2) е2 + <?5, где коэффициенты д: при 9г и 92 определены моделью, построенной на шаге 2. . Шаг 4 и замечание 4.5.1.3. Программа множественной линей- линейной регрессии, которой заданы исходные данные (см. слева), вычислит нужные величины SSR и vR. Кроме того, мы получим оценки A, в\ Ид92. В обозначениях исходной модели ui=9i, а2=92 и а3=—2а! — 2а2. Шаг 5. Проверяется гипотеза Яо: с^ = а2 = = а3 = 0, т. б. отсутствие дифференциальных эф- эффектов, связанных с фактором А. Для перемен- переменных 9 это эквивалентно гипотезе Но: 9Х = 92=0. Поскольку гипотеза состоит в равенстве нулю всех 9г, воспользуемся «исключением из правила» для шага 5. Сумма SSr равна полной сумме квадратов в таблице ANOVA для множественной регрессии шага 4, a v'R = п — 1=4. Можно и по-другому: разность SSr—SSR представляет собой сумму квадратов, a vr — vR = 3 — число степеней свободы, определяемые регрессией. Замечание 4.5.2. 1. Таким способом можно получить таб- таблицу ANOVA для любой задачи дисперсионного анализа. Любой заданный в таблице источник дисперсии (кроме остаточной) соот- соответствует гипотезе Яо о некоторых дифференциальных эффектах модели дисперсионного анализа. Эта гипотеза в свою очередь соот- соответствует некоторой гипотезе вида Но: «в общей линейной модели некоторые 9,- = 0». При этой гипотезе вычислим величины SSR и vR как на шаге 5. Сумма квадратов SSH и число степеней свободы vH для исходного источника дисперсии находятся из равенств SSH = SSR — SSR и vh = v|,- vr. Средний квадрат, как обычно, равен MSH = SSH/vH. Этот процесс можно повторить для каждого источника дисперсии и построить, таким образом, нужную таблицу ANOVA. 2. В большинстве задач дисперсионного анализа, рассматри- рассматриваемых в этой главе, предполагалось, что числа наблюдений во всех ячейках равны. Это предположение учитывается в формулах как для числа степеней свободы, так и для EMS для каждого
4.5. Дисперсионный анализ при помощи регрессии 289 источника дисперсии в таблице ANOVA. Использование множест- множественной линейной регрессии возможно и при различных числах наблюдений в ячейках. В этом случае формулы для числа степеней свободы и EMS для всех источников дисперсии становятся более сложными, и в этой книге мы их не приводим. Однако слагаемые в формулах для EMS остаются теми же, меняются только коэффи- коэффициенты (см. пример 4.5.3). Отсюда следует, что и числитель и зна- знаменатель ^-отношения при проверке гипотез можно выбирать та- такими же, как и в случае равного числа наблюдений. Пример 4.5.2. Пусть у нас имеется два фактора А и В, соответ- соответствующие модели I, с/=2 и / = 3 уровнями соответственно. Пусть в каждой ячейке производится ровно одно наблюдение. Мы хотим получить соответствующую таблицу дисперсионного ана- анализа (табл. 4.3.5). Действуя, как и раньше, получим Шаг 1. Исходная модель: ft/= A +а,+ ?, + <?,/, ( = 1,2, /=1,2,3. Дополнительные условия имеют вид ах + а2 = 0, рх + р2 + + Рз = 0. Шаг 2. В соответствии с дополнительными условиями имеем а2 = —ах и рз — —Pi — Рг- Подставляя эти выражения в исход- исходную модель, получим модель #11 = И + % + Pi + *11> #л = |а — Щ. + Pi + ew #22 = И* — а1 + Рг + ^22. #2.3 = И — °Ч — (Pi + Рг) + егз. выраженную через генеральное среднее ц и три дифференциаль- дифференциальных эффекта аг, рх и р2. Шаг 3. Перенумеруем наблюдения следующим образом: #1 = #11. #2 =#12. #3=#13. #4 = #21. #5 = #22 И #в = Уго- Ю А. Афифи, С. Эйзен
290 Гл. 4. Дисперсионный анализ Положим 0Х = а1( 03 = рх, 03 = рз. Модель примет вид Уя - ц + iex + (-1) е2 + (- й-И + (-l)9i+162 + 0es + ое2 + 10Я У У1 Уг Уз У* У5 Уь xi 1 1 1 -1 -1 -1 хг 1 0 -1 1 0 -1 хъ 0 1 -1 0 1 -1 где коэффициенты при 01( 02 и 03 определяются по модели, сфор- сформулированной на шаге 2. Шаг 4 и замечание 4.5.1.3. Программа множественной линейной регрессии по исходным данным вычислит требуемые величины SSR и yR. Кдоме того, она выдает МНК-оцен- ки (х, 0х, 02) 03. Из них мы получим оценки па- параметров исходной модели ах = ё\, а2 =* — а^ р\ = в2, Р2 = —03, рз = —Рх — Р2- Шаг 5 и замечание 4.5.2.1. Источник диспер- дисперсии, определяемый фактором А, соответствует гипотезе Яо: ах = а2 — 0. Эта гипотеза в свою очередь соответствует гипотезе Яо: 0i = 0. Поэтому мы удалим *i и просчитаем программой множественной линейной регрес- регрессии исходные данные. Получим величины SSR и vR. Через них выразим сумму квадратов SSA = - SSR — SSR и число степеней свободы vA = - vr—vr Для анализируемого источника диспер- дисперсии. Для источника дисперсии, обусловленного фактором В, гипотеза Яо: рх = р2 = рз = 0 соот- соответствует гипотезе Яо: 02 = 03 = 0. Удаляя хг и х2, получаем исходные данные и затем вели- = SSj{ — SSR и vB = \'в — vR. По этим данным вычислим средние квадраты и за- заполним табл. 4.3.5. Замечания 4.5.3. 1. В некоторых пакетах есть программы, подобные программе BMDP2V, которые за один прогон производят все описанные в этом раз- разделе вычисления и позволяют проверить все гипо- гипотезы. 2. Описанные приемы можно применить и к факторам, соот- соответствующим модели II. Для этого их следует рассмотреть как соответствующие модели I и выписать обычные для модели I до- У Ух Уг Уз У* У5 Уь хг 1 0 -1 1 0 -1 *з 0 1 -1 0 1 -1 чины У yt Уг Уз У* ys ,, SSB *i 1 l 1 -l -1 -1
4.5. Дисперсионный анализ при помощи регрессии 291 полнительные условия. Затем для построенной модели, следуя процедуре, описанной в замечании 4.5.2.1, нужно построить таб- таблицу дисперсионного анализа. Для проверки гипотез нужно выпи- выписать ожидания средних квадратов для исходной модели и вычис- вычислить соответствующие /-"-отношения. Как указано в замечании 4.5.2.2, если числа наблюдений в разных ячейках различны, то формулы для EMS отличаются от формул в случае равного числа повторений. Проверка гипотез, тем не менее в обоих случаях про- проводится одинаково. Но для оценки компонент дисперсии случай- случайных факторов нельзя использовать значения EMS, вычисленные по формулам для модели с равным числом наблюдений. Пример 4.5.3. Предположим теперь что у фактора А, соответ- соответствующего модели I, три уровня, а у фактора В, соответствую- соответствующего модели II, два уровня. Пусть в разных ячейках число наблю- наблюдений различно. Поэтому мы не можем воспользоваться стандарт- стандартной программой дисперсионного анализа. Данные для этого гипо- гипотетического эксперимента приведены в следующей таблице. А 1 2 3 1 Ут = Ут = Ум = ^313 = 17.5- 16.2 13.2 12.8 10.4 9.9 В 2 У121 = У122 — У123 = ^221 = ^222 = У 221 = 10.1 8.6 5.4 3.7 10.3 Действуя в соответствии с описанной процедурой, получим Шаг 1 и замечание 4.5.3.2. Несмотря на разное число наблю- наблюдений в ячейках, модель дисперсионного анализа аналогична мо- модели, задаваемой равенствами D.3.1). А именно: #/* = И+ «*+ &/+Y//+ <?*/*.*= 1. 2, 3, /=1,2, k=l,...,Ktj где уи = (ab)u, а Ки = 2, /Си = 1, К31 = 3, К32 = 1, Ка = 3, К%2 — 2. Дополнительное условие для фактора А имеет вид ах + + а2 + а3 = 0. Рассматривая фактор В как фактор с фиксирован- Ш
292 Гл. 4. Дисперсионный анализ ными эффектами, выпишем дополнительные условия для фактора В и взаимодействия АВ Yn + Y21 + Y31 = Y12 + Y22 + Y32 = Y11 + Y12 = Y21 ¦+- Y22 = Yai + Ys2=0 Шаг 2. Используя дополнительные условия, получаем «з = — «1 — а2. Ь2 = — Ьи Yi2 = — Y11. Y22 - — Ъъ Ysi = — Y11 — Y21- Ysa = — Ysi = Yn + Y2i- Подставляя эти выражения в исходную модель, приведем ее к виду, содержащему только генеральное среднее \i и минимальное множе- множество из 5 дифференциальных эффектов alt a2, blt уг1 и у21: Уш = И- + «а + bi + Y21 + «аи, Уз1к = Ц — «1 — «г + h — Yn — 721 + елк, k =5 1, 2, 3, = И + «1 — bi — Yu + ei2b ?=1,2,3, = И- + аг — &1 — Y21 + ег2ь, ?=1.2, У321 = И- — «1 — «2 — Ь1 + Yll + Y21 + «321- Шаг 3. Перенумеруем наблюдения г/j = t/m, \}% — у112, ..., г/и = Узя- Положим ех = «!, е2 = аг, е3 = blt е4 = Yn и е5 = 721. Модель приведется к виду = li + Обх + 16, + Ю3 + 064 + 195 + е3, = (г+ (-l)9i+ (-1N.+ 18а + (-1)е4 + (-1)9,+ е*. ? = 4, 5, 6, = М- + 1вх + 06а + (- 1) 03 + (- 1) 04 + О05 + ek, k = 7, 8, 9, + /ft, ?=ю, и,
4.5. Дисперсионный анализ при помощи регрессии 293 Шаг 4 и замечание 4.5.1.3. Исходные данные для расчета по программе множественной регрессии приведены в таблице. к 1 2 3 4 5 6 7 8 9 10 11 12 У •> 17.5 16.2 13.2 ( 12.8 10.4 9.9 10.1 8.6 11.3 -. 1 0 1 0 ) 1 -1 -1 -1 [ 0 о' 0 5.4 0 1 3.7 ( 10.3 ) 1 -1 д — — — _ _ - *3 Л t 1 1 1 1 0 -1 -1 -1 -1 -1 -1 0 0 1 Xs 0 0 1 -1 -1 -1 0 0 0 -1 -1 1 В результате расчета получим значения SS^ = 10.757 и vR = 6 и оценки р, = 10.99, вг = ^ = 2.44, 92 = а2 = —2.11, так что а3 = —ах — а2 = —0.33. Оценки для параметров 93, в4 и 95, полученные программой, нет смысла приводить, поскольку они соответствуют случайным эффектам. Шаг 5 и замечания 4.5.2.1 и 4.5.3.2. Мы хотим заполнить табл. 4.3.1. Для каждого источника дисперсии удалим соответ- соответствующие х и получим результаты, сведенные в табл. А. После Таблица А Сводные данные Источник дисперсии Гипотеза Но Удалить из ис- исходных данных SSr SSH = = SSp-10.757 VH = =v'R-6 Фактор А Фактор В Взаимодействие АВ 9i=92=0 03=О 94=96=0 хь х2 ха Xi, Х§ 48.996 82.626 36.591 8 7 8 38.239 71.869 25.834 2 1 2 этого нужно вернуться к исходной модели (т. е. рассмотреть фак- фактор В и взаимодействие А В как случайные) и заполнить таблицу дисперсионного анализа (табл. В), включая и столбец EMS. В формулах для EMS (см. табл. 4.3.9) ol и o\t> обозначают диспер-
294 Гл. 4. Дисперсионный анализ Дисперсионный анализ Таблица В Источник дисперсии Сумма Число Средний квадра- степеней Квадпат тов свободы EMS Фактор А 38.239 2 Фактор В 71.869 1 Взаимодействие АВ 25.834 2 Остаток 10.757 6 Полная 146.699 11 19.119 а2+ 71.869 о2 + Ма 12.917 a2 + 1.793 а + k2o2b сии случайных эффектов, определяемых соответственно фактором В и взаимодействием Л В. Значения коэффициентов kx и &2 получить довольно трудно, потому что у нас разное число наблюдений в ячей- ячейках. А без них мы и не можем оценить ol и в2аь- Тем не менее мы можем проверить гипотезы, например, при уровне а = 0.05: a) Яо: а2аЬ = 0, F = MSAB/MSR = 7.2. Гипотеза Но отвер- отвергается, поскольку F0.95 B, 6) = 5.14. b) Но: о% = 0, F = MSB/MS^B = 5.6. Гипотеза принимается, потому что F0.95(l. 2) = 18.51. c) Яо: ах = а2 = а3 = 0, F = MSA/MSR = 10.7. Мы откло- отклоняем #0, потому что F0.95 B, 6) = 5.14. Техника, описанная в этом разделе, позволяет не только по- построить таблицу дисперсионного анализа, но и проверить еще одну гипотезу: Яо: о% = 0 и а\ь = 0. Для этого удалим х3, xt и х5 из входной таблицы для программы регрессии и после расчета по- получим значения SSR = 117.348 и vR = 9. Воспользуемся форму- формулой D.5.1), тогда с _ A17.348-10.757)/(9-6) _ 1Qo г Ю.757/6 1У-°- Но F0.95 C, 6) = 4.76, так что гипотеза Но отвергается. Пример 4.5.4. Обратимся еще раз к исследованию газообраз- газообразного азота, описанному в примере 4.4.2. Предположим теперь, что рассматривается перекрестный план с двумя факторами, соответ- соответствующими модели I: А (диета) с четырьмя уровнями и В (пол) — с двумя. Пусть еще число мужчин, получавших диеты Dt, равно 6, а число женщин, получавших те же диеты, равно трем, i = 1, ... ..., 4. Таким образом, всего в эксперименте обследовано 36 чело- человек — -24 мужчины и 12 женщин. Это пример несбаланеиреванногв
4.6. Ковариационный анализ 2У5 плана и факторные программы из многих ПСП в этой ситуации неприменимы. Поэтому нужно либо использовать программы мно- множественной регрессии (применяя процедуру, описанную в настоя- настоящем разделе), либо использовать программы дисперсионного ана- анализа, базирующиеся на регрессионных методах. Мы воспользуемся такой программой — BMDP2V. Данные для этого примера содержатся в табл. A jc примеру 4.2.2. Теперь будем считать, что первые 6 строк содержат данные для 24 мужчин, а последние 3 строки — для 12 женщин. Резуль- Результаты дисперсионного анализа приведены в следующей таблице. Источник со Число дисперсии ss степеней MS F Р свободы Диета 4.2112 3 1.4037 2.97 NS Пол 0.6753- 1 0.6753 1.43 NS ДиетаХ пол 0.1304 3 0.0435 <1 NS Остаток 13.2511 28 0.4733 Полная 18.2680 35 Из таблицы видно, что все эффекты незначимы. Замечание 4.5.4. В своем исследовании Francis, et at. A974) сравнивали четыре программы дисперсионного анализа на задаче анализа двухфакторного плана с неравным числом наблюдений в ячейках. Во всех случаях все программы выдали различные таб- таблицы дисперсионного анализа. Причиной такого различия ока- оказался порядок, в котором проверялись гипотезы. Это похоже на ситуацию в пошаговой регрессии, когда сумма квадратов, объяс- объясняемая отдельной переменной, зависит от того, какие переменные уже включены в уравнение. Одна программа, BMDX64 (BMD10V), входившая в раннюю версию ПСП BMD, резко отличалась от дру- других. Только она оказалась одновременно точной, недвусмыслен- недвусмысленной, гибкой, хорошо документированной, статистически привле- привлекательной, эффективной и недорогой. Современная версия этой программы называется BMDP2V. 4.6. Ковариационный анализ В этом разделе мы обсудим метод, называемый однофакторным ковариационным анализом (ANACOVA). Он использует концепции однофакторного дисперсионного анализа и простой линейной рег- регрессии.
296 Гл. 4. Дисперсионный анализ Предположим, что нам задан фактор Л, обычно называемый фактором обработки, с / уровнями. Пусть уц обозначает резуль- результат измерения /-й экспериментальной единицы на t-м уровне фак- фактора А, ) = 1, ..., Jt, i = 1, ..., /. Если считать, что величины Уи распределены по N ([iit а2), то получится хорошо знакомая модель дисперсионного анализа: Уи=>Р + <*1 + ец. i=\,...,Jt, ; = 1,...,/, D.6.1) в которой \l — генеральное среднее, at — дифференциальный эф- эффект i-ro уровня фактора A, \it = (х + щ, а вц — независимые и распределенные по N @, 02) ошибки измерения. Как обычно, наложим дополнительные условия S J<at = 0, D.6.2) обеспечивающие единственность МНК-оценок параметров ц и ах, ..., а,. Предположим теперь, что, прежде чем отнести /-ю эксперимен- экспериментальную единицу к j-му уровню фактора А, мы измеряем значение Xij другой величины, линейно связанной с ytj. Эта величина назы- называется сопутствующей переменной. В этой ситуации следует рас- рассмотреть модель D.6.3) где Такая модель называется моделью однофакторного ковариацион- ковариационного анализа. Она рассматривает i/-e наблюдение как сумму гене- генерального среднего \х, фиксированного дифференциального эффек- эффекта at, определяемого t-м уровнем фактора А, члена E (xt] — х..), обусловленного линейной связью измерений yi} и xtj, и ошибки etj. Отметим, что соотношения D.6.3) можно представить и в виде модели однофакторного дисперсионного анализа ylf=*\i + a( + eth i = l, ...,/, j = l, ...,J,, D.6.4) в которой У*И^Уч-Нхц-х„) D.6.5) получается из ytJ после учета линейной регрессии по xi}. Таким образом, at можно считать истинным дифференциальным эффек- эффектом от i-ro уровня фактора А после учета линейной регрессии по сопутствующей переменной.
4.6. Ковариационный анализ 297 Достоинства этой модели продемонстрируем на следующем примере. Пример 4.6.1. В одном эксперименте1) над 40 испытуемыми изучалось, насколько близко они могут подойти к устрашающему объекту (живой змее), прежде чем почувствуют дискомфорт или беспокойство. Затем всех испытуемых разделили на / = 4 трени- тренировочные группы, отличающиеся по объему тренировки и виду ис- используемого манекена. Одна из групп была контрольной. После тренировки каждого испытуемого подвергали повторному испы- испытанию, измеряя, насколько близко он может подойти к пугающему объекту, не ощущая неудобства или страха. В этом эксперименте фактором А является метод тренировки, уровнями — четыре способа тренировки и каждый применяется на группе размера Jt — 10, i = 1, ..., 4. Измеряются две величины: у1} — расстояние до змеи после тре- тренировок по t-му способу и X(j — расстояние до змеи до тренировок. Предполагая линейную связь между ytJ и Хц, можно воспользо- воспользоваться однофакторным ковариационным анализом для оценки и сравнения дифференциальных эффектов четырех методов трени- тренировки после учета исходных различий между испытуемыми. Из этого примера видно, что одной из целей ковариационного анализа является повышение точности анализа интересующих нас измерений yi} путем учета эффектов, определяемых сопутст- сопутствующей переменной xtj. Выигрыш в точности сильно зависит от величины коэффициента корреляции между этими переменными. Модель ковариационного анализа можно записать в виде общей линейной модели, рассмотренной в разд. 4.1. Поэтому МНК-оценки ее параметров оказываются несмещенными и имеющими минималь- минимальную дисперсию среди всех линейных несмещенных оценок. Исполь- Используя метод наименьших квадратов, получим оценки среднего и внутригруппового коэффициента регрессии: = ?. и р = EJEXX. D.6.6) Здесь i i ? И (*</ - xLJ и Еху =¦ Ц Е (хA - х1ш){уи - yt). i=\ i=\ t=i i=i Кроме того, мы получим оценки скорректированных дифференциаль - ных эффектов на всех уровнях: «, = {St. ~ У.) - Ь (*,. - *..), i=l,...,/. D.6.7) х) Такого рода эксперимент был проведен С. Замом (Dr. S. Zahm, Univer- University of Portland, Portland, Oregon).
298 Гл. 4. Дисперсионный анализ Отметим еще, что оценкой скорректированного среднего \i + Щ, соответствующего уровню i, служит A+ U/-&.--P (*,.-*..), »=1,...,7. D.6.8) В некоторых ПСП программы ковариационного анализа вычис- вычисляют и печатают таблицу ковариационного анализа типа табл. 4.6.1. В этой таблице содержатся суммы квадратов и перекрестных про- произведений для различных источников дисперсии: между уровнями (группами или средними), внутри уровней (групп или средних) и полной. Отметим, что в столбцах, называемых XX и YY, фигури- фигурируют просто суммы квадратов, вычисляемые в однофакторном дис- дисперсионном анализе, для переменных хц и уи. Элементы столбца XY получаются по аналогичным формулам из произведений этих двух переменных. Из остаточной компоненты дисперсии опреде- определяются величины Ехх и Еху, необходимые для оценки внутри- группового коэффициента регрессии р" (по формуле D.6.6)). Для оценки р, и аг нужно вычислить средние xt., х.., yt. и у., при по- помощи этой же программы или какой-нибудь дескриптивной. Нако- Наконец, при каждом!, 1 == 1, ...,/, можно построить линию регрессии, так называемую внутригрупповую линию регрессии, задаваемую уравнением У = 9i. + Р(* -*/.)¦ D.6.9) Она представляет собой МНК-прямую для подпопуляции, соот- соответствующей г'-му уровню фактора А, Угловые коэффициенты всех прямых равны р, так что все прямые параллельны. Исходя из таблицы ковариационного анализа, мы сможем построить еще две линии регрессии. Первая, называемая линией регрессии средних, определяется как МНК-прямая для множества выборочных средних: (xv, yv), (хг., у2.), ..., (х,., г/7>), соответ- соответствующих / различным уровням фактора А. Она задается уравне- уравнением 9 = У~ + Ьы(х-х..), D.6.10) Коэффициент Ьм = М.ху/М.хх, равный отношению средних сумм квадратов для XY и XX, называется коэффициентом регрессии средних. Вторая линия, называемая линией полной регрессии, соответствует регрессии у по х в полной выборке объема п, полу- полученной слиянием подгрупп для всех / уровней. Методом наимень- наименьших квадратов получаем У = У.. + К(х-х.), D.6.11) где коэффициент Ьт = Тху/Тхх, равный отношению полных сумм для XY ш XX, называется полным коэффициентом регрессии. Наконец, величина дает несмещенную оценку дисперсии ошибок а2.
Таблица 4.6.1 Однофакторный ковариационный анализ Сумма квадратов и смешанные произведения Источник Число дисперсии СсТвеоПбеоды i XX XY YY Между уровнями vM = / — 1 М.хх = ? h (*/• — * J Mw = ?/,• (*i- — *••) (i'l- — Р••) Мм = J] У,- (^. (средними) i=i »=i »=1 Внутри уровней vE = n — / Exx = J] ^j (*«7 — Л'-)а E« = }j Jj (*U ~ *'•) (УЦ ~ Si-) Еуу = Jj Jj (УН (средних) i=i j=i i=i/=l i=l /=i Полная vT = я - 1 Тя=2 2 (xjV - x. .J Т„ = ? ? to/ - *..) (w - y..) Tw = ^ ^ (уг/ - jr..)* l
306 Гл. 4. Дисперсионный анализ Пример 4.6.1 {продолжение). Данные, полученные в описанном эксперименте, приведены в табл. А. Используя дескриптивную программу, найдем оценки х1ш = 17.1, х2. = 16.0, х3. = 16.8, х4. = 15.3, ft. = 26.8, ft,. = 11.9, ft,. = 8.2, ft. = 15.3, jc..= 16.3, Д = ft. = 15.5. Таблица А Набор данных для испытуемых 1 2 3 4 5 6 7 8 9 10 1 25,25 13,25 10,12 25,30 10,37 17,25 9,31 18,26 27,28 17,29 Тренировочные 2 17,11 9, 9 19,16 25,17 6, 1 23,12 7, 4 5, 3 30,26 19,20 группы 3 32,24 30,18 12, 2 30,24 10, 2 8, 0 5, 0 И, 1 5, 1 25,10 - 4 (контроль) 10, 8 29,17 7, 8 17,12 8, 7 30,26 5; 8 29,29 5,29 13, 9 Результаты однофакторного анализа представлены в табл. В. По этим данным вычислим оценки: = -fe7 = lw = 0-643' и _ 66.69 - Т9Ж = 3-37' Ь? = Tt = Ж = °-6б0> = -4г [2630.21 - Bо°?к0ЛJ 1 =37.73. Таблица В Ковариационный Источник дисперсии анализ Число степеней " свободы Суммы квадратов и смешанных произведений XX XY YY Между группами 3 19.80 66.69 1939.69 Внутри групп (оста- 36 3170.60 2037.70 2630.21 ток) Полная 39 3190 2104.39 4569.90
4.6. Ковариационный анализ 301 Затем найдем оценки скорректированных дифференциальных эффектов для всех уровней. Например, дифференциальный эф- эффект первого метода тренировки с учетом регрессии у по х равен «1 = (Pi. — У.) — Р (*i. — х.) = = B6.8 - 15.5) - 0.643 A7.1 - 16.3) = 10.74 Аналогично, оценки других дифференциальных эффектов с учетом регрессии у по х равны й2 = —3.46, ct3 = —7.67, ct4 = 0.39. Внутригрупповые линии регрессии описываются уравнениями: у = 26.8 + 0.643 (х — 17.1) для тренировочной группы 1, у = 11.9 -f- 0.643 (х—16.0) для тренировочной группы 2, у = 8.2 + 0.643 (х — 16.8) для тренировочной группы 3, у= 15.3 + 0.643 (х — 15.3) для контрольной группы 4, линия регрессии средних — уравнением у= 15.5+ 3.37 (х-16.3), линия полной регрессии — у= 15.5+ 0.660 (х-16.3). Все эти прямые изображены на рис. 4.6.1. Обсудим теперь проверку гипотез. Во-первых, по таблице ко- ковариационного анализа мы можем проверить гипотезу о равенстве средних значений сопутствующей переменной для всех / подгрупп. Обозначим через \ixi среднее значение переменной х для t-ro уровня, I = 1, ..., /. Рассмотрим гипотезу #0: \ixl = ¦ • •= \ixI. Статисти- Статистикой критерия служит отношение D.6.13) подчиняющееся F-распределению с числом степеней свободы vM и vE. Величины, входящие в равенство D.6.13), представляют собой суммы квадратов и числа степеней свободы между и внутри уров- уровней из столбца XX табл. 4.6.1. Р-значение равно площади справа от точки F под кривой плотности распределения F (vM, vE). Смысл этой гипотезы состоит в проверке случайности распределения ис- исследуемых объектов по / уровням фактора. Можно также проверить гипотезу о равенстве средних иссле- исследуемой величины, вычисленных по / группам. Пусть \iyi обозна- обозначает среднее значение величины у на t-м уровне, iy= 1, ..., /. Гипотеза Яо: \iyl = • • ¦ = \iyi проверяется при помощи статистики D.6.14)
302 Гл. 4. Дисперсионный анализ / Для среЪних Группа 1 Группа 4 ./(¦контрольная) Группа 2 Группа 3 -10 - -20 -30 -40 Рнс. 4.6.1. Оценки линий регрессии для примера 4.6.1. Величины, через которые выражается F, содержатся в столбце YY табл. 4.6.1. Р-значение равно площади справа от F под кривой плот- плотности распределения F (vM, vE). Наиболее интересна гипотеза о равенстве средних значений скорректированной переменной У* = У - Р (х - *..). D.6.15) Эту гипотезу можно сформулировать как Но: aL = • • • = at =0, где, как и ранее, щ обозначает скорректированный дифференциаль- дифференциальный эффект i-ro уровня, i = 1, ...,/. Для проверки этой гипотезы построим новую таблицу, исходя из табл. 4.6.1, следующим обра- образом. Остаточная сумма квадратов Еуу делится на две части — сумму квадратов Е2ху/Ехх, определяемую регрессией, и сумму ква- квадратов Еуу — Е\У1ЕХХ отклонений от регрессии. Остаточное число степеней свободы vE соответственно разбивается на 1 и vE — 1. Аналогичное разбиение производится для полной суммы квадра- квадратов Туу и полного числа степеней свободы vT. Таким образом, полу- получаются суммы квадратов и числа степеней свободы первых двух
4. в. Ковариационный анализ 303 источников дисперсии, указанных в табл. 4.6.2, а именно внутри- внутриуровневой и полной. Сумма квадратов и число степеней свободы оставшегося источника дисперсии — разности для проверки ра- равенства скорректированных средних — получается вычитанием внутриуровневой суммы и числа степеней свободы из полных. Таблица 4.6.2 Разбиение остаточной и полной сумм квадратов Сумма _ Определяемая квадратов регрессией Источник (табл. 4.6.1) Отклонение от регрессии дисперсии ст.св. SS ст. св. SS ст. св. SS MS Внутри уровней (остаточ- (остаточная) Полная Разность для провер- проверки различий между скор- ректирован- ректированными средними Е2 Р^ vE-l Т ^ VT-1 — vE Е2 -^ MSE , —- ХУ 1 у х Щу — ху *У Ё7 MSM (Напомним, что vM + vE = vT и SSM + SSE = SSr.) Средние ква- квадраты в последнем столбце получаются делением суммы квадра- квадратов отклонений относительно регрессии на соответствующие им числа степеней свободы. В соответствии с равенством D.6.12) получим, таким образом, внутриуровневый средний квадрат MSE, дающий несмещенную оценку дисперсии о2, а также средний ква- квадрат MSM. Для проверки гипотезы о равенстве скорректированных средних Н„: а, = • • • = а, = 0 воспользуемся F-отношением ,Р = М5М/М8Е, D.6.16) имеющим F-распределение с vM и vE — 1 степенями свободы. Я-значение, как всегда, равно площади справа от точки F под кри- кривой плотности распределения F (vM, vE — 1). Наконец, мы можем проверить гипотезу Яо: Р = 0, утверждаю- утверждающую, что внутригрупповои коэффициент корреляции равен нулю. Для этого мы сравним средний квадрат, обусловленный регрессией,
304 Гл. 4. Дисперсионный анализ со средним квадратом отклонений от регрессии. Соответствующее ^-отношение F — MSE D.6.17) имеет F-распределение с числами степеней свободы 1 и vE — 1. Р-значение равно площади справа от точки F под кривой плот- плотности распределения F (\, vE— 1). Типичные программы ковариационного анализа, входящие в ПСП, выдают на печать табл. 4.6.2 или ее часть, а также вычис- вычисляют и печатают четыре F-отношения. Пример 4.6Л (продолжение). Проверим гипотезу о равенстве средних первоначальных измерений для всех четырех групп, т. е. #о: Йл1 = • • • — й*4- Для этого вычислим ^-отношение F _ AWvM _ 19.8/3 _ 0 п? ~~ ExxhE ~ 3171/36 ~" Поскольку F0i95 C, 36) = 2.9, мы примем гипотезу Яо на уровне а = 0.05 и будем считать, что распределение испытуемых по трени- тренировочным группам является случайным, что, конечно, желательно. Для проверки гипотезы о равенстве средних повторных измерений, для всех групп, т. е. Яо: \iyl = ••• = \ivi, вычислим F = Муу/ум- — 1939/3 ^ о о4 Eyy/vB 2630/36 " Это значит, что гипотеза отклоняется с-Р < 0.001. Интереснее всего проверить гипотезу о равенстве скорректи- скорректированных средних (в других обозначениях Яо: ах = • • • = а4 = 0). Результаты вычислений приведены в следующей таблице: Источник дисперсии Сумма квад- квадратов Определяемая регрессией Отклонение от регрессии ст. св. Внутри уровней 36 (остаточная) Полная 39 Разность для про- проверки различий между скоррек- 1 тированными средними SS 2630.21 4569.90 ст. св. 1 1 SS 1309.61 1388.07 ст. св. 35 38 3 SS 1320.60 3181.83 1861.23 MS 37.731 620.410 F-отношение равно F = MSM/MSE = 16.44. Заметим, что Р-зна- чение намного меньше, чем Р для гипотезы Яо: ц.у1 =; ¦ • = (х^.
4.6. Ковариационный анализ 305 Наконец, для проверки гипотезы #0: Р = 0 вычислим Р _ Чу1Ехх _ 1309.61 _ „4 7, MSE ~ 37.73 °*'1> Этот результат также значим с Р < 0.001. Замечания 4.6.1. 1. Обобщением модели однофакторного ко- ковариационного анализа служит однофакторная модель со многими сопутствующими переменными. Эта модель описывается соотно- соотношениями УU = М- + а, + Р (¦*;/ - *..) + У (*</ - 2..) Ч Ь «*/, /= 1, ...,/;, t = 1, ...,/• Здесь xtj, ztj, ... суть значения сопутствующих переменных, каж- каждая из которых линейно связана с уц. В результате анализа оцени- оцениваются параметры: ц, все коэффициенты р, у, ..., а также дифференциальные эффекты аг-. Это позволяет проверить гипотезу о равенстве дифференциальных эффектов. 2. Дальнейшим обобщением модели однофакторного корреля- корреляционного анализа является многофакторная модель со многими сопутствующими переменными. Например, модель Ун = I* + а, + Р/ + у (хи - х.) + еа описывает ситуацию с двумя факторами и одной сопутствующей переменной, линейно связанной с ytj. Детальное описание /л-фак- торной модели с несколькими сопутствующими переменными при- приводится у Sheffe A958). См. также различные статьи журнала Biometrics, 13 A957). 3. Рассмотренная в этом разделе модель содержала предполо- предположение о равенстве внутригруппового коэффициента Р для всех / уровней фактора. Можно отказаться от этого ограничения и счи- считать, что значения р могут быть различными в различных группах. В такой более общей модели можно проверить гипотезу о равенстве значений р, а затем провести весь описанный анализ (Brownlee, A965, гл. 11)). Информация, выдаваемая некоторыми программами из ПСП, отличается от стандартной таблицы ковариационного анализа. Например, программа BMDP1V выдает таблицу (табл. 4.6.3). Величины MSM и MSE совпадают с входящими в табл. 4.6.2, при- причем vE — 1 = / —Л и 'vM = vT — vE = n —/ — 1. Величина MSZ = Е2ху/Ехх та же, что в равенстве D.6.17) и табл. 4.6.1. Сумма квадратов ошибок и соответствующее число степеней свободы (ошибка A)) разбиваются на две компоненты для проверки гипотезы о равенстве наклонов: связанную с разницей в угловых коэффи- коэффициентах и остаточную ошибку (см. замечание 4.6.1.3),
306 Гл. 4. Дисперсионный анализ Выдача программы BMDP1V Источник дисперсии Равенство скорректирован- скорректированных средних Нулевой наклон Ошибка A) Равенство наклонов Ошибка B) Число степеней свободы /— 1 1 л —/ — I — 1 п — 2/ Таблица 4.6.3 MS MSM MSZ 1 MSE MSB MSR Для правильного использования этих выходных данных нужно поступить следующим образом. Сначала проверить гипотезу о ра- равенстве угловых коэффициентов Но: (^ = ¦ • •= Р/ = JS. Для этого следует воспользоваться статистикой F = MSB/MSR, подчиняю- подчиняющейся F-распределению с числом'степеней свободы / — 1 и л — 21. Если гипотеза Но о равенстве наклонов отклоняется, то внутри- групповые коэффициенты р\, ..., (J/ нельзя считать одинаковыми для всех уровней фактора. Это значит, что гипотеза о единой связи между х и у, содержащаяся в модели дисперсионного анализа, не выполнена. В этом случае лучше отказаться от обработки осталь- остальной информации. Если же гипотеза Яо принимается, то суммы квадратов и числа степеней свободы для компонент «равенство наклонов» и «ошибка B)» можно объединить. Это дает компоненту «ошибка A)». Сле- Следующий шаг состоит в проверке гипотезы о том, что единый вну- тригрупповой угловой коэффициент (J равен нулю, Яо: ji = 0. Эта гипотеза эквивалентна проверке независимости сопутствую- сопутствующей переменной X и зависимой переменной Y. Если эта гипотеза о независимости принимается, то теоретически нет необходимости «корректировать» значения зависимой переменной Y. В этом слу- случае для анализа переменной Y подходит обычная модель одно- факторного дисперсионного анализа. С другой стороны, если гипотеза Яо отвергается, то использование ковариационного анализа позволяет проверить гипотезу о равенстве скорректиро- скорректированных средних Но: аг = ¦ ¦ • = а; = 0. Пример 4.6.2. Предположим теперь, что в исследовании газообразного азота, описанном в примере 4.2.2, собраны дан- данные о количестве Y — выдыхаемого N2 (в литрах) и о количе- количестве Х\—вдыхаемого N2 (в литрах). После этого исследователь случайно "выбирает по Jt = 9 человек и назначает им i-ю диету, fj= 1, ..., 4. Данные об этом опыте собраны в табл. А. В ней же приведены выборочные средние, внутригрупповые коэффициенты и скорректированные групповые средние.
4.6. Ковариационный анализ 307 Набор данных Без6елковая(р ,) V 4.079 4.859 3.540 5.047 3.298 4.679 2.870 4.648 3.847 Срсоние 4.0963 Внцтригрцпповой п 00,, коэффициент "^^ Скорректированные грцпповые 4.5400 средние X 4.158 4.877 3.576 5.078 3.315 4.702 2.901 4.718 3.880 4.1339 23% белков (D2) У 4.368 5.668 .3.752 5.848 .3.802 4.844 3.578 5.393 4.374 4.6252 1.0121 4.6173 X 4.322 5.617 3.720 5.797 3.773 4.800 3.539 5.317 4.343 4.5809 32% белков (Z>3) у 4.169 5.709 4.416 5,666 4.123 5.059 4.403 4.496 4.688 4.7477 1.0159 4.6562 X 4.102 5.582 4.339 .5.585 4.049 4.987 4.322 4.383 4.623 4.6636 Таблица А 67% белков (D4) >• 4.928 5.608 4.940 5.291 4.674 5.038 4.905 5.208 4.806 5.0442 1.0854 4.6999 X 4.829 5.400 4.799 5.167 4.565 4.933 4.762 5.080 4.709 4.9160 Результаты ковариационного анализа содержатся в табл. В. Гипотеза о равенстве наклонов принимается (F = 2.80, Р = = 0.06), а о равенстве наклона нулю отвергается (F = 23999, Таблица В Ковариационный анализ Источник дисперсии SS Число степеней свободы MS Равенство скорректирован- 0.1035 3 0.0345 57.5 ных средних Нулевой наклон 14.0387 1 14.0387 23999 Ошибка A) 0.0181 31 0.0006 — Равенство наклонов 0.0041 3 0.0014 2.8 Ошибка B) 0.0140 28 0.0005 — Р < 0.001). Полученная с помощью программы оценка общего углового коэффициента равна 1.0103. И наконец, гипотеза о равен- равенстве скорректированных групповых средних отклоняется (F = = 57.5, Р < 0.001). Пример 4.6.3. Таблицы ковариационного анализа, вычислен- вычисленные различными программами, могут не совпадать. В следующей таблице сравниваются суммы квадратов, полученные при помощи
ЗС8 Гл. 4. Дисперсионный анализ программ из пакетов BMDP2V, SPSS и SAS для данных предыду- предыдущего примера. Заметим, что суммы квадратов для проверки гипо- гипотезы Но' Р = 0, вычисленные программой SPSS, не совпадают с другими. Во время издания этой книги программа SPSS все еще модифицировалась. Источник дисперсии Диета Сопутствующая переменная Ошибка BMDP2V 0.103 14.039 0.018 Сумма SPSS 0.103 18.167 0.018 квадратов SAS 0.103 14.039 0.018 ст. св. 3 1 31 Упражнения Раздел 4.2 4.2.1. Чтобы определить возможное влияние наследственности на величину артериального давления, исследовались различия артериального давления между тремя выборками крыс различных семейств. Из каждого семейства выбиралось по 10 крыс и у каждой крысы измерялось артериальное давление в мм рт. ст. Выборочные средние для семейств А, В и С оказались равными хА — 84.5, х = 88.0 и хс = 91.1. «Внутригрупповая сумма квадратов» равна 270. a) Составьте таблицу однофакторного дисперсионного анализа. b) Проверьте гипотезу о том, что все различия между семействами незна- незначимы. * c) Проверьте гипотезу о том, что различие между семействами В и С незна- незначимо, считая, что проводилось только это сравнение. d) Обсудите проверку других гипотез о различиях между семействами. 4.2.2. На сборочном конвейере большой фабрики занято много рабочих. Из них случайным образом были выбраны четверо, и у каждого из четверых несколько раз измерялось время сборки определенной детали в минутах. Данные приведены в следующей таблице. 1 24.2 22.2 24.5 21.1 22.0 Рабочие 2 19.4 21.1 16.2 21.2 21.6 17.8 19.6 S i9.0 23.1 23.8 22.7 4 19.9 J5.7 15.2 19.8 18.9 16.1 16.2 18.5
Упражнений 309 a) Оцените полное среднее и компоненты дисперсии — внутригрупповую и межгрупповую. b) Вычислите величины, входящие в таблицу дисперсионного анализа, включая ожидания средних квадратов. c) Существуют ли значимые различия между рабочими? Раздел 4.3 4.3.1. От каждой из четырех беременных самок мыши родилось по трое мышат. На них сравнивались три диеты. Каждая из диет давалась одному слу- случайно выбранному из трех мышонку в течение трех недель. Полученные при- прибавки в весе приведены в следующей таблице. Мать 1 2 3 4 1 5.2 11.4 4.2 10.7 Диета 1 7.4 13.0 9.5 11.9 3 9.1 13.8 8.8 13.0 a) Сформулируйте необходимые предположения и выберите подходящую модель дисперсионного анализа. Оцените параметры модели. b) Составьте таблицу дисперсионного анализа и проверьте разумные гипо- гипотезы относительно матерей и диет. 4.3.2. Пусть у нас снова по трое мышат от каждой самки. Теперь мы хотим сравнить две диеты. Случайным образом распределим самок по две на каждую диету и будем кормить этой диетой всех шестерых мышат. Данные собраны в сле- следующей таблице: Диета Мать 1 1 2 Прибавка в весе (г) 11.8 10.5 12.5 12.3 15.5 11.4 Диета Мать 2 1 2 Прибавка в весе (г) 7.4 9.7 8.2 7.2 8.6 7.1 a) Подберите соответствующие допущения и модель и оцените параметры модели. b) Заполните таблицу дисперсионного анализа и проверьте нужные гипо- гипотезы. 4.3.3. Рассмотрим снова мышей и диеты. Теперь мы Хотим сравнить три диеты и инъекции двух различных лекарств. Возьмем всех двенадцать мышат и случайно распределим их по двое на каждую комбинацию диеты и лекарство.
310 Гл. 4. Дисперсионный анализ Данные о прибавке в весе в граммах за три недели приведены в следующей таблице: Диета Лекарсгцво 1 1 8.2 13.1 10.5 8.0 12.3 10.1 2 8.4 12.4 9.7 7.3 13.0 9.4 a) Выпишите модель дисперсионного анализа и проведите стандартное исследование. b) Целесообразно ли объединение членов с взаимодействием? Если да, то проверьте снова гипотезы о главных эффектах. c) Если вы приняли гипотезу об отсутствии эффектов от лекарств, то, может быть, стоит объединить «лекарственные» члены. Каким будет соответствующий анализ, если провести такое объединение? 4.3.4. Сравните планы, использованные в упр. 4.3.1, 4.3.2. 4.3.3, и обсу- обсудите преимущества и недостатки каждого. Раздел 4.4 4.4.1. Решите упр. 4.3.1, используя факторную программу. 4.4.2. Решите упр. 4.3.2, используя факторную программу. 4.4.3. Решите упр. 4.3.3, используя факторную программу. 4.4.4. Исследовательский отдел автомобильного завода хочет сравнить износ четырех типов шин на четырех выпускаемых заводом марках автомобилей. В этой ситуации уместен план латинских квадратов, поскольку у каждого автомобиля четыре позиции для шин. Эксперимент был проведен по такому плану и измерен износ (мм) после 10 000 миль пробега в одинаковых условиях. В следующей таблице собраны результаты измерений (буквы в скобках обозначают марку шин). Постройте таблицу дисперсионного анализа и проведите стандартное исследование. Позиция 1 2 3 4 1 (Ь) 2.12 <<0 1.83 (d) 1.83 (а) 1.85 Автомобиль 2 (а) 1.73 (Ь) 2.28 (с) 2.27 (d) 1.93 3 (d) 1.65 (а) 1.67 (b) 2.18 (с) 2.24 4 (с) 1.89 (d) 2.01 (а) 2.03 (W 2.52
Упражнения 311 Раздел 4.5 4.5.1. Решите упр. 4.2.2, используя программу регрессионного анализа. 4.5.2. Решите упр. 4.3.1, используя программу регрессионного анализа. 4.5.3. Решите упр. 4.3.3, используя программу регрессионного анализа. 4.5.4. Решите упр. 4.4.4, используя программу регрессионного анализа. Раздел 4.6 4.6.1. Четыре лекарства, снижающих артериальное давление, сравниваются методом ковариационного анализа. Откликом (исследуемой переменной) служит систолическое давление (SP) у подопытных животных после курса лечения, а сопутствующей переменной — систолическое давление до лечения. Данные приведены в следующей таблице: Лекарство 1 2 Систолическое ~до давление после. лечения лечения 194 162 183 180 154 184 173 170 157 136 145 133 124 123 143 136 Лекарство 3 4 Систоли ческое давление Эо после лечения лечения 172 196 158 158 165 186 182 136 182 134 124 124 132 133 a) Найдите оценки внутригрупповой и полной линий регрессии, а также линии регрессии средних. b) Проверьте случайность распределения животных по группам. c) Проведите дисперсионный анализ отклика, не учитывая измерений сопут- сопутствующей переменной. d) Проведите ковариационный анализ отклика. Можно ли считать, что че- четыре исследуемых лекарства значимо различны? e) Сравните результаты, полученные в п. с) и d). 4.6.2. Решите упр. 4.6.1, используя программу регрессионного анализа. Другие наборы данных Разделы 4.2—4.4 Четыре исследователя измеряли диапазон движения плеч при повороте назад (в градусах) у четырех здоровых испытуемых (детальное описание приве- приведено у Boone et al. A978)). В каждой из двух групп измерений, разделенных
312 Гл. 4. Дисперсионный анализ недельным перерывом, измерения повторялись дважды. Данные приведены в следующей Исследо- Исследователь 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 Группа измерений А 1 1 1 1 1 1 1 2 2 2 2 2 2' 2 2 1 1 1 1 1 1 1 1 2 2 2 .2 2 2 2 2 таблице Нспыту- ?л1Ыи 1 1 1 2 3 з 4 4 1 1 2 2 3 3 4 4 1. 1 •> г 3 3 4 4 1 1 2 2 3 3 4 4 Номер измерения 1 2 1 2 1 2 1 2 1 т 1 2 ! 2 1 2 1 2 1 о 1 2 1 2 1 2 1 2 1 2 1 2 Угол поворота 80 83 105 105 85 85 95 95 85 83 105 105 90 90 100 100 ,75 95 ПО 105 95 100 95 100 85 90 100 100 95 90 110 100 ИсслеЪо- аотель 3 3 3 3 3 3 з 3 3 3 з 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 Группа измерений 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 2 2 2 2 2 2 Испыту- Испытуемый 1 1 2 2 3 3 4 4 1 1 2 2 3 3 4 4 1 1 2 3 3 4 4 1 1 2 2 3 3 4 4 Номер измерения 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 1 2 1 2 Угол повороти 75 75 105 ¦105 105 105 100 95 90 90 110 ПО 90 90 90 •90 80 75 100 100 95 90 95 90 75 75 100 100 95 95 95 95 Считая все измерения независимыми, ответьте на следующие вопросы. a) Используя однофакторный дисперсионный анализ, проверьте, что в экспе- эксперименте нет эффекта повторения (т. е. нет зависимости между повторными изме- измерениями). [Указание; для этого исключите факторы группы измерений и иссле- исследователя.] b) Используя однофакторный дисперсионный анализ, проверьте отсутствие эффекта группы измерений. c) Используя однофакторный дисперсионный анализ, проверьте гипотезу об отсутствии разницы между исследователями. Оцените соответствующую ком- компоненту дисперсии. d) Используя двухфакторный дисперсионный анализ, проверьте гипотезу об отсутствии эффекта группы измерений или разницы между исследователями. Для этого усредните результаты измерений в одной группе. Вычислите компо- компоненту дисперсии, определяемую исследователями. e) Проанализируйте всю совокупность исходных данных, используя рас- расщепленный план. f) Сравните и объясните результаты, полученные при разных методах анализа.
5 Методы многомерного статистического анализа Во второй и четвертой главах рассматривались преимущественно методы статистического анализа одной случайной величины. Однако каждый объект в выборке может содержать наблюдения более чем над одной переменной (см. гл. 3). Такая ситуация воз- возникает, например, в задачах множественной регрессии, когда все переменные считаются случайными. Это можно рассматривать как первый пример применения многомерного статистического метода. В регрессионном анализе изучается главным образом взаимоот- взаимоотношение между зависимой переменной, с одной стороны, и набо- набором независимых переменных — с другой. Однако в других много- многомерных статистических методах все случайные переменные анали- анализируются одновременно, как один случайный вектор, имеющий многомерное распределение. Как будет показано, некоторые много- многомерные методы (например, проверка гипотез о средних) являются обобщением соответствующих одномерных методов, тогда как дру- другие (например, отнесение случайного вектора к одной из популя- популяций) не имеют аналогов в одномерном анализе. В прошлом статистический анализ более чем одной перемен- переменной сводили к рассмотрению каждой переменной в отдельности. Такой подход обладает ограниченными возможностями, поскольку выводы относительно совокупности переменных, как правило, не могут быть получены из выводов относительно каждой переменной в отдельности. Возможность получать такие общие выводы дает многомерный анализ. Следует заметить, что большинство много- многомерных статистик вычисляется сложнее, чем их одномерные ана- аналоги. В связи с этим некоторые виды анализа невозможны без использования ЭВМ. В большинстве методов многомерного анализа предполагается, что случайный вектор имеет многомерное нормальное распределе- распределение. Как и в одномерном случае, обоснования для этого следую- следующие: а) многие наблюдаемые явления приблизительно описываются многомерным нормальным распределением; Ь) преобразования некоторых или всех компонент случайного вектора иногда приво-
314 Гл. 5. Методы многомерного статистического анализа дят к многомерному нормальному распределению; с) центральная предельная теорема для одной случайной величины распростра- распространяется на многомерный случай, т. е. последовательность сумм независимых одинаково распределенных случайных векторов схо- сходится к многомерному нормальному распределению (Anderson 1958, теорема 4.2.3). В этой главе в разд. 5.1 рассматриваются методы определения аномальных наблюдений или выбросов; в разд. 5.2 приводится статистика Хотеллинга Т2 для проверки гипотез о векторе средних и о равенстве двух векторов средних; разд. 5.3 является введением в задачу отнесения наблюдаемого вектора к одной из двух много- многомерных популяций; обобщение этой задачи на случай k популяций, k 5= 2, приводится в разд. 5.4; пошаговая процедура классифика- классификации описывается в разд. 5.5. В разд. 5.6 рассматривается анализ главных компонент, в разд. 5.7 — факторный анализ. И наконец, в разд. 5.8 представлены некоторое аспекты многомерного диспер- дисперсионного анализа. Перед изучением этой главы читателю следует ознакомиться с разд. 1.6. 5.1. Анализ выбросов Если одномерная случайная величина Y распределена по закону N (ц, а2), то случайная величина (Y — цJ/а2 имеет распределе- распределение %2 A). В многомерном случае можно показать, что если слу- случайный вектор Хер компонентами имеет многомерное нормаль- нормальное распределение с вектором средних Ц1рх1 и матрицей ковариа- ций 2рХр, то величина х2 = (х-ц)'2-Чх-ц) E.1.1) имеет распределение у? (р) *). Если jx и 2 известны, то эта стати- статистика может быть использована для проверки возможной аномаль- аномальности наблюдаемого вектора х, т. е. наличия выбросов у его ком- компонент. Здесь Р-значением является площадь области, располо- расположенной под кривой функции плотности распределения справа от вычисленного значения %2. Если Р меньше выбранного заранее уровня значимости а, то наблюдаемый вектор х можно считать аномальным и его координаты должны быть проверены на наличие ошибок. Таким образом, можно проверить все векторы из случай- случайной выборки. Пример 5.1.1. Мониторная система ведения больных, находя- находящихся в критическом состоянии, предполагает ежеминутное изме- измерение систолического и диастолического давлений, средних ар- 1) Здесь предполагается, что матрица 2 — невырожденная. — Прим. ред.
5.1. Анализ выбросов 315 териального и венозного давлений, частоты дыхания, частоты сердечных сокращений и ректальной температуры. Для каждого вектора наблюдений вычисляются статистика %2 по формуле E.1.1) и соответствующее Р-значение. Параметры jit и 2 известны из наблюдений над здоровыми людьми. Для каждого вектора наблюдений считается, что при Р > 0.2 состояние больного находится в пределах нормы; если 0.05 < Р о 0.2, то имеются небольшие отклонения от нормы; если 0.01 < Р <з 0.05, то зажи- зажигается световой сигнал тревоги, и при Р <• 0.01 включается си- сирена. Это помогает лечащему врачу и персоналу клиники опреде- определять изменения в состоянии больного или предупреждает о воз- возможных неисправностях в оборудовании системы. Более подробно об этой процедуре см. Afifi et al. A971a). В большинстве случаев применения методов обнаружения на- наблюдений с выбросами параметры ц и S неизвестны и поэтому ис- использование статистики %2 вида E.1.1) не обосновано. Имеется другая процедура проверки, которая использует статистику, яв- являющуюся выборочным аналогом выражения E.1.1). Пусть х1( ... ..., Хд—случайная выборка, имеющая распределение N (ц, S). Тогда выборочное среднее и ковариационная матрица имеют соот- соответственно вид X == = 4-2 х» EЛ>2) Eл-3) Если х — некоторый вектор наблюдений, имеющий распределе- распределение N (ц, SL то выборочный аналог величины E.1.1). называе- называемый выборочным расстоянием МпулланобисаГ^яется формулой D2 = (х - х)' Sl (x - х). E.1.4) Можно показать, что величина имеет F-распределение с р и k — р степенями свободы. Процедура проверки на наличие выбросов среди наблюдений использует статистику, задаваемую выражением E.1.5), где х и S вычисляются по подмножеству векторов той же выборки, уже проверенных на выбросы. Приведем процедуру, примененную к случайной выборке хи ..., х„ объема п>
316 Гл. 5. Методы многомерного статистического анализа 1. Для каждого вектора наблюдений xt, i = 1, ..., п, вычис- вычисляется выборочный вектор средних х* и ковариационная матрица S,- по всем k = п — 1 векторам наблюдений, исключая хг. Согласно выражению E.1.4), вычисляется выборочное расстояние Махала- нобиса D] между xt и xt с использованием оценки ковариационной матрицы E.1.3). Затем с помощью формулы E.1.5) вычисляются Ft для k = п — 1 и соответствующее Р-значение Рг = = Pr (F (p, k-p) > Ft). 2. Проверка Ръ Р2, ..., Рп. Если все Pt > а для некоторого взятого заранее значения а, то считается, что в выборке нет вы- выбросов и процесс останавливается. Если некоторые Pt < а, то вектор наблюдений, соответствующий наименьшему Р-значению, считается выбросом и исключается из выборки. Процедура повто- повторяется для выборки из оставшихся п — 1 наблюдений. Пример 5.1.2. В табл. 5.1.1. заданы 15 значений систоличе- систолического (Хх) и диастолического (Х2) давлений, измеренных в мм Таблица 5.1.1 15 гипотетических значений систолического и диастолического давлений Обследование X,: сист. даем. Хг- Ъиаст. давл. 1 154 108 2 136 90 3 91 54 4 125 89 5 133 93 б 125 77 7 93 43 8 80 50 9 132 125 10 107 76 11 142 96 12 115 74 13 114 79 14 120 71 15 141 90 рт. ст. С помощью программы BMD10M был проведен анализ этих данных на наличие выбросов среди наблюдений при а = 0.05. Сначала были найдены выборочные средние и стандартные откло- отклонения хг = 120.6, Si = 20.9, х2 = 81.0, s2 = 21.7. Согласно опи- описанной выше процедуре, при п = 15 вектор х9 = A32, 125)' был признан аномальным, поскольку для него Р-значение Р9 = 0.0003 было наименьшим из всех Р-значений, меньших а. Затем в выборке, полученной из исходной удалением вектора х9 при п — 14, был выявлен аномальный вектор х7 = (93, 43)', поскольку Р = 0.0264 оказалось наименьшим из всех Р-значений, меньших а. В выборке из оставшихся 13 векторов аномальные наблюдения не были обна- обнаружены. Затем заново были вычислены выборочные средние и стандартные отклонения: хх = 121.8, s± = 20.8, лг2 = 80.5, s2 = = 16.3. Можно заметить, что в аномальных данных разница между систолическим и диастолическим давлениями необыкно- необыкновенно мала для х9 и подозрительно велика для х7. Проверка запи- записей показала, что правильными значениями являются х7 = (93, 54)' и х8 = A32, 94)',
5.2. Проверка гипотез о векторах средних 317 5.2. Проверка гипотез о векторах средних Этот раздел посвящен многомерным аналогам проверок гипотез о средних, приведенных в гл. 2. В разд. 5.2.1 рассматривается проверка гипотезы Яо: jut = jut0, когда матрица 2 известна. Раз- Раздел 5.2.2 посвящен случаю, когда 2 неизвестна. И наконец, в разд. 5.2.3 представлена двухвыборочная проверка гипотезы Яо: fii = \1г, когда 2 неизвестна. 5.2.1. Проверка гипотез о векторах средних (при известной ковариационной матрице) Если в одномерном случае случайная величина Y распределена по закону N ((х, о2), а о2 считается известной, то для проверки гипотезы Яо: ц = \х0 против альтернативы Нх: \а Ф ц0 используется статистика г = ]/'п (у — iio)/a, где у — выборочное среднее. Ги- Гипотеза #0 отвергается, если \z\ > zi_(a/2> Для некоторого заранее определенного значения а. В многомерном случае предполагается, что вектор X имеет распределение N (р,, 2). Пусть хь ..., х„ — случайная выборка с таким распределением. Если матрица 2 известна, то для проверки гипотезы о том, что вектор средних ра- равен заданному вектору, т. е. гипотезы Яо: juu = juto, против Нх: ц Ф цо, используется статистика X2 = п (х - fioy S-1 (х - и,), E.2.1) где х — выборочный вектор средних. При гипотезе Яо статистика E.2.1) имеет ^-распределение с р степенями свободы, так что Р-значение равно площади области, расположенной справа от вы- вычисленного значения %3 под кривой функции плотности %2 (р). Распределение %2 для статистики E.2.1) следует из того, что век- вектор х при гипотезе Яо подчинен закону распределения N (fto, A/л) 2). Заметим, что односторонние проверки теряют смысл в многомерном случае. Замечание 5.2.1. Вычисление статистики х2 по формуле E.2.1) может быть легко запрограммировано с помощью процедур пере- перемножения и обращения матриц. Пусть вектор А есть х — |ЛО, а матрица В = 2 записана по столбцам и IP = р. Тогда с ис- использованием подпрограмм из пакета подпрограмм IBM для науч- научных исследований Scientific Subroutine Package (SSP) вычисление выражения E.2.1) может быть запрограммировано на Фортране тремя операторами. Например, оператор CALL MINV (В, IP, D, L, М) заменяет матрицу В на В'1. Параметр D принимает зна- значение определителя матрицы В; L и М — рабочие векторы раз- размера IP каждый. Затем оператором CALL GMPRD (Л, В, С, 1, IP, IP) вычисляется матрица С = А В и в результате выполнения
318 Гл. 5. Методы многомерного статистического анализа оператора CALL GMPRD (С, А, Е, 1, IP, 1) параметр Е прини- принимает значение произведения СА\ тогда %2 = пЕ. Пример 5.1.2 (продолжение). В примере 5.1.2 были исправлены две ошибки так, что вектор х7 стал равен (93, 54)', а вектор х9 = = A32, 94)'. Полагая, что стандартные отклонения ах = 20, а2 = 15 и что коэффициент корреляции р равен 0.8, имеем Г400 240" 2 = [240 225 Проверяется гипотеза о том, что указанные 15 пациентов принад- принадлежат к популяции здоровых лиц со средним систолическим и диа- столическим давлениями соответственно 120 и 80. Таким образом, Яо: \i = A20, 80)' я Hi. ft Ф A20, 80)'. Для имеющихся данных 79.7)'. Используя обозначения заме- замебыло найдено х = A20.6, чания 5.2.1, запишем А = х - ц0 = Г 0.61 L-0.3J 00" 240 240 225 Отсюда х2 = 0.006 и величина статистики критерия незначима. 5,2.2. Проверка гипотез о векторах средних (ковариационная матрица неизвестна) В большинстве практических задач дисперсии и ковариации не» известны и должны быть оценены по выборке. В одномерном слу- случае, в обозначениях разд. 5.2.1 проверяется гипотеза Яо: ц- = р0 против Ях: pi ф Цо с использованием статистики t = ]/п (у — {io)/s, где s — выборочное стандартное отклонение. Гипотеза Яо отвер- отвергается при \t\~> ti-{<x/2) (n— 1)- В многомерном случае вычис- вычисляется несмещенная оценка S матрицы 2 по формуле E.2.2) Элементе? можно обозначить как sit. Тогда статистика Т2 Хотел- линга (Hottelling A931)) задается формулой т^2 м /v M у c~i /v it ^ (к о ^^ J. it 1Л г^0/ \ Г^О/' \kj.?j.\jj Если гипотеза Яо верна, то величина 1 — Р Т2 F = Р(п - E.2.4)
6.2. Проверка гипотез о векторах средних 310 имеет F-распределение с р и п — р степенями свободы; Р-значе- нием является площадь справа от F под кривой плотности распре- распределения F (р, п — р). Замечания 5.2.2. 1. Программа для вычисления выражения %2 E.2.1) применима и для вычисления выражения Т2 E.2.3). Для этого надо величину В из замечания 5.2.1 положить равной S. Тогда для вычисления F остается величину Т2, получающуюся в результате работы программы, умножить на постоянную (п - рIр (п - 1). 2. Кроме проверки гипотез о средних, могут быть построены многомерные аналоги доверительных интервалов для линейных комбинаций компонент вектора ц.. Для заданного набора кон- констант аъ .... ар многомерный аналог доверительного интервала р 2 для 2j O'tV^i имеет вид р Г Р Р -il/2 2а* ± SB^ F>-« <*я - "> 2 S w • *=i L <=i /=i J Общий уровень значимости равен 1 — а для любых наборов аъ ... ..., а„. Так, например, многомерный аналог доверительного интервала для i-й компоненты (хг вектора \i имеет вид Таким образом, можно получить доверительный интервал, ис- использующий многомерную структуру данных, аналогичный тому, который мы получали с помощью ^-распределения Стьюдента. Как и в дисперсионном анализе, доверительный интервал расши- расширяется для получения общего уровня значимости 1 — а. Пример 5.1.2 (продолжение). Выборочная ковариационная ма- матрица имеет вид S _ Г438.26 343.02-] ~~ L343.02 291.38J Для проверки гипотезы Яо: ц = A20, 80)' из формулы E.2.3) имеем 0.02902 -0.034171 Г 0.6] -0.03417 0.04365J L —0.3J " Поэтому из E.2.4) следует, что F = опГ2» @.400) = 0.186. Эта величина также незначима.
320 Гл. 5. Методы многомерного статистического анализа Предположим теперь, что проверяется гипотеза о том, что рассматриваемые 15 пациентов принадлежат популяции гипотони- гипотоников с систолическим и диастолическим давлениями 90 и 60 соот- соответственно. Тогда Яо: ц = (90, 60)' и Нг: ц ф (90, 60)'. В этом случае Т2 = 43.76 и F = 20.32. Поскольку р < 0.005, гипотеза Яо отвергается. Пользуясь замечанием 5.2.2.2, можно построить 95 %-ные доверительные интервалы для цг, ц2 и [хх — 2\i2- Таким образом, с вероятностью 95 % \1г попадает в интервал 120.6 ± [ и(щ C-81)D38.26)]1/2 =A05.1, 136.1), — в интервал 79.7 ± [1№-C.81) B91.38)]1/2 = F7.1,92.3), а величина [хх — 2\i2 — в интервал 120.6 — 2 G9.7) ± ± [щщ- C.81) {438.26 - 2 B) C43.02) + 4 B91.38)} ]1/2 = = (—50.1, —27.5). 5.2.3. Проверка гипотез о равенстве двух векторов средних (ковариационная матрица неизвестна) Пусть Yu i = 1, 2, — случайная одномерная величина, распре- распределенная по закону N (\it, о2), а уц, ..., ущ. — случайная вы- выборка из этого распределения. Для проверки гипотезы Яо: (хх = = щ против гипотезы Нг: \ix Ф (х2 при неизвестной дисперсии а2 можно использовать статистику где у, есть i-e выборочное среднее, i — 1, 2 и s% — общая дисперсия. Гипотеза Но отвергается, если |/|> h^a/2) (ni + n2 — 2) для некоторого выбранного заранее а. Многомерным аналогом этой двухвыборочной ^-статистики Стьюдента является двухвыборочная Тг-статистика Хотеллинга. Предположим, что случайный век- вектор Хг имеет распределение N (цг, 2), i = 1, 2. Пусть х^, ..., ..., Х(П( — случайная выборка из 1-го распределения. Матрица 2 оценивается объединенной выборочной ковариационной матрицей S: l E.2.5)
5.2. Проверка гипотез о векторах средних 321 где Si — стандартная оценка ковариационной матрицы по /-и выборке. Тогда двухвыборочная Г3-статистика имеет вид fj^ - х2)' S (к, - ха), E.2.6) где ni _ ^2^ /==1'2> E'2J) — оценка jxf. Если гипотеза Яо: цх = jx2 верна, то величина F = "l47a~p~1- Г2 E.2.8) («1 + гц — 2) р *• ' имеет F-распределение с р и Л[ + й2 — р — 1 степенями свободы. Замечание 5.2.3. 1. Выборочные векторы средних и ковариа- ковариационные матрицы для каждой выборки могут быть получены с по- помощью дескриптивной программы. Общая ковариационная ма- матрица вычисляется согласно выражению E.2.5). Для вычисления выражения E.2.6) можно использовать программу, указанную в замечании 5.2.1, в которой следует положить А = хх — х2 и В = S. 2. ^-статистику можно получить с помощью программы двух- выборочного дискриминантного анализа (см. замечание 5.3.2.3). Поэтому примеры приводятся в соответствующем разделе. 3. Многомерный аналог доверительного интервала для линей- р ной комбинации разностей средних Jj ai (f% — (%) имеет вид i Г (ni + wa-2), \ ni+n» — p — р р -__ -/у —элементы матрицы S. Общий уровень значимости для всех комбинаций ах, ..., аР равен 1 —а. Например, доверитель- доверительный интервал для ц1{ — \i2i имеет вид \X\i x^t) db 11 А. Афифи, С. Эйзеи
322 Гл. 5. Методы многомерного статистического анализа 5.3. Классификация индивидуума в случае двух популяций Задача классификации состоит в отнесении ^некоторого инди- индивидуума w к одной из k популяций №,, W2 Wi на основе измерения р параметров х1г ..., хр. Следующие два примера иллю- иллюстрируют суть проблемы. Пример 5.3.1. Приемная комиссия колледжа задается целью отнести каждого абитуриента либо к популяции Wx студентов, которые успешно закончат колледж, либо к популяции W2 Tex» кто не закончит колледж. Решение комиссии складывается на основе оценок абитуриента по р вступительным экзаменам. Пример 5.3.2. Врач должен определить, какой из k болезней болен пациент на основе наличия или отсутствия р симптомов. Этот пример будет рассмотрен в разд. 5.4.3. В этом разделе будет рассмотрен частный случай классифика- классификации — отнесение индивидуума к одной из двух популяций, т. е. k = 2. В разд. 5.3.1 этот вопрос изучается в предположении многомерных нормальных распределений с известными пара- параметрами в каждой популяции, тогда как в разд. 5.3.2 представ- представлена та же задача с неизвестными параметрами распределений. В разд. 5.3.3 рассматриваются способы оценивания вероятности ошибочной классификации, разд. 5.3.4 посвящен оцениванию апостериорных вероятностей. 5.3.1. Классификация в случае многомерных нормальных популяций с известными параметрами Стандартная процедура классификации для случая р непрерывных переменных предполагает, что наблюдения принадлежат одной из двух популяций, имеющих многомерные нормальные распре- распределения. Наблюдения хъ х2, ..., хр записываются в виде вектора х = (xlt ..., хр)', и предполагается, что W± имеет распределение N (nfxl, ЕГХР), а ^-распределение N (№, 2?ХР). где № = (Н*1> •••> Pip)'> ''¦ — I- 2- Другое упрощающее предположение состоит в том, что SA = 22 = S = (о^-), i = 1,..., р, j — 1,..., р. Итак, вектор х имеет распределение N (ц1г 2) или N (jn2, S). Параметры j^, ц2 и S вначале будут считаться заданными. Интуитивно кажется разумным найти линейную комбинацию наблюдений, называемую дискриминантной функцией, имеющую вид z = а^Х! + агхг -\ Ь архр, E.3.1) где ап ..., ар — некоторые постоянные, и отнести х к №ъ если E.3.2)
5.3. Классификация в случае двух популяций 323 и К W%, если z<c, E.3.3) где с — постоянная. Тогда задача будет сведена к определению значений а1у ..., ар и с, минимизирующих вероятность ошибочной классификации. Вначале будем выбирать эти постоянные на интуитивном уровне, а затем покажем, что получившаяся про- процедура классификации оптимальна. Если наблюдение х поступило из Wu то величина z имеет нормальное распределение со средним Si = 11 «/Hi/ E.3.4) и дисперсией р р ог = 2j Zj a!°t/a/- (о.о.о) Аналогично для х из W2 величина z имеет нормальное распределе- распределение со средним р ?2 == 2j «/1*2/ E.3.6) /=1 и с той же дисперсией а\. Имеет смысл выбрать такие аь ..., ар, при которых ?х и ?2 были бы как можно больше удалены друг от друга относительно а\. Для этого введем расстояние Махала- нобиса | да= (fa-Ь)'. I E_3.7) Эта величина была предложена в работе Mahalanobis A936) для измерения «расстояния» между двумя популяциями. Таким обра- образом, требуется найти коэффициенты а1? .... ар, максимизиру- максимизирующие А2. В работе Fisher A936) показано, что такие at служат решением системы линейных уравнений + «2а12 + • • " + &pGlp = ^11 — Ц21> - (Х,2О22 —J— • • ¦ —Г" СрОр = Hl2 — Н22> E.3.8) После подстановки полученных at в E.3.1) каждому объекту хх, ..., л:р ставится в соответствие значение дискриминантной функции z. Для определения постоянной с следует рассмотреть рис. 5.3.1, на котором показаны два распределения величины z относительно постоянной с. Если вектор х принадлежит Ц72, но z = J$=\atxt ^s 5з с, то х относится к Wi и, таким образом, будет совершена ошибка. Вероятность Pr (I | 2) этой ошибки показана на рис. 5.3.1. На этом рисунке показана также вероятность Рг B | 1) 11*
324 Гл. 5. Методы многомерного статистического анализа ошибочной классификации объекта из популяций W1; как при- принадлежащего популяции W2. Естественно искать такую постоян- постоянную с, чтобы сумма вероятностей Рг A | 2) + Рг B | 1) была минимальной. Это можно достигнуть выбором постоянной с, равноудаленной от средних, т. е. E.3.9) Итак, эвристическая процедура классификации состоит в вычисле- удовлетворяющих системе уравнений E.3.8), нии ар .xeW, ,х в Щ РгB|1) РгA|2) Рис. 5.3.1. Распределение величины г, когда х принадлежит W-i и №2 соответ- соответственно; №(. имеет распределение N (у.., 2), 1= 1. 2. оценок ?х и ?2> согласно E.3.4) и E.3.6), а затем постоянной с — из формулы E.3.9). Для каждого вектора наблюдений вычис- вычисляется значение E.3.1) дискриминатной функции z их относится к популяции Wlt если выполняется условие E.3.2), иначе — к W2. Приведем теперь более строгое решение задачи классификации, основанное на теореме Байеса. Определим вначале априорную вероятность qt как вероятность того, что индивидуум принад- принадлежит к популяции Wt, t = 1, 2. Предполагается, что сумма априорных вероятностей цх + q^ равна 1. В частности, для при- примера 5.3.1 может быть известно из опыта предыдущих лет, что колледж оканчивает V3 поступающих в него студентов. Отсюда <7i = 1/s и Чч. — 2/з- В примере 5.3.2 при k = 2 априори может быть известно, что 20 % пациентов имеют болезнь А и 80 % — болезнь В. Следовательно, qx = 0.2 и q2 — 0.8. 1?л * Определим далее условную вероятность Рг (х | Wt) получе- получения некоторого вектора наблюдений х, если известно, что объект принадлежит к популяции Wt, i =1,2. Обозначим также через Рг (Wj | х) условную вероятность того, что объект принадлежит к популяции Wt при данном векторе наблюдений х. Величины Рг (Wi | х) и Рг (^2 | х) называются апостериорными вероят- вероятностями. Разница между априорными и апостериорными вероят- вероятностями заключается в том, что до получения вектора наблюдений данного объекта известно, что он принадлежит к совокупности Wt с вероятностью qt. После анализа вектора наблюдений этого
5.3. Классификация в случае двух популяций 325 объекта можно сказать, что он принадлежит популяции Wt с ве- вероятностью Pr (Wt | х). Сформулируем следующую теорему для задачи классификации. Теорема Байеса. Во введенных выше обозначениях равенство УТ<^'\Х) - q1Pr(x\W1)+qtPT(x\Way l~l>2' E-310) справедливо для любого распределения величин х. Если х имеет многомерное нормальное распределение N (filt 2) или N (ji2, 2). т0 Рг (х I №х) и Pr (x | W2) можно заменить со- соответственно на плотности распределений f±(x) и f2 (x). В резуль- результате получим Байесовская процедура классификации состоит в отнесении век- вектора наблюдений х к Wlt если и к W2, если Подставляя в эти неравенства значения апостериорных вероят- вероятностей из E.3.11), получаем следующее правило классификации: х относится к популяции Wlt если ШЛх)IЫАх)J*1. E-3.12) и к W2, если (</i/i(x))/0/2/2(x))<l. E.3.13) Можно показать, как это сделано, например, в работах Rao A965), Anderson A958), что такая процедура минимизирует ожидаемую вероятность ошибочной классификации <71РгB|1) + <7аРгA|2). E.3.14) Заметим, что эта величина является вероятностью того, что объект, принадлежащий к популяции Wlt ошибочно классифици- классифицируется, как принадлежащий №2, или наоборот, объект из №2 ошибочно относится к Wx. Алгебраическими преобразованиями неравенства E.3.12) можно показать, что байесовская процедура эквивалентна отнесению х к №ь если 2аЛ^-?ф!- +In (-?-), E.3.15) и к Wif если
326 Гл. 5. Методы многомерного статистического анализа Постоянные ос; являются решениями системы уравнений E.3.8), а ?х и ?2 задаются соответственно выражениями E.3.4) и E.3.6). Заметим, что при qx = q% = V2 байесовская процедура аналогична эвристической процедуре классификации в соответствии с E.3.3). Дальнейшее усовершенствование байесовской процедуры связано с включением в нее стоимости ошибочной классификации. Для этого введем величину С B | 1) — стоимость потери из-за отнесения объекта из Wx к популяции Wt. Аналогично, С A | 2) является стоимостью потери из-за отнесения объекта из W2 к Wj,. В примере 5.3.1 СA | 2) выражает стоимость обучения сту- студента, который бросает колледж, недоучившись, а С B | 1) — стоимость потери потенциально хорошего студента. Обобщенная процедура классификации Байеса состоит в отне- отнесении х к Wlt если р и к W.,, если 5J а,х{ 5* х 2 + l" qiC B11) • 3 Такая процедура минимизирует ожидаемую стоимость ошибоч- ошибочной классификации <71СB|1)РгB|1) + <7,СA|2)РгA|2). E.3.19) Эта процедура сводится к байесовской процедуре, когда стои- стоимости равны, и к эвристической, когда при этом q± = q2 = V2. Для обобщенной байесовской процедуры вероятности ошибоч- ошибочной классификации имеют вид E.3.20) РгA |2) = Ф [ j-i ), E.3.21) где К-In ?аСA'2) (Ч Я 90\ А -1П ^СB|1) ' \р.й.Л) а А2 задается равенством E.3.7). Заметим, что, когда С A | 2) = = С B | 1) и qx = qt = V2, Рг.B|1) = РгA|2) = ф(—4")- E-3.23) Замечания 5.3.1. 1. Системы уравнений E.3.8) можно решить при помощи любой из подпрограмм для решения систем линейных уравнений, например подпрограммы SIMQ из SSP.
5.3. Классификация в случае двух популяций 327 2. Можно показать, что набор alt ..., ар, полученный умноже- умножением решения системы E.3.8) на любое положительное число, также максимизирует А2. Если почему-либо аъ ..., а0 умножены на положительную постоянную, то величина К -In ЧшСО\2) Д-1П ?1СB|1)' встречающаяся в процедуре классификации, умножается на ту же постоянную. 3. Величины Рг B | 1) и Pr (I | 2) являются убывающими функциями от А2, т. е. вероятности ошибочной классификации убывают, когда расстояние между двумя популяциями растет. * 4. Решение системы E.3.8) можно записать в матричных обозначениях а - 2 (lii — f*2), где а = (аъ..., ар)'. Подстановка в E.3.7) позволяет записать расстояние Махалано- биса в виде А8 = 0*1-М2)'2"*0*1-|4)-* 5. Если х принадлежит к одной из двух известных популяций с произвольными функциями плотности fx (x) и f2 (x) соответ- соответственно, то обобщенная байесовская процедура сводится к отне- отнесению х к Wl7 если C211/) и к W2 в противном случае. Пример 5.3.1 (продолжение). Пусть приемная комиссия учи- учитывает оценки, полученные абитуриентами на р = 2 экзаменах. Пусть х = (х1г х%)' — вектор оценок абитуриента. Из опыта пре- предыдущих лет известно, что „ Г100 701 К = F0, 57)', ц2 = D2, 39)' и 2 = | 70 100 J • Пусть <7х = Чя, q2 = 2/3 и примем для иллюстрации, что С A | 2) = = 2000 и С B | 1) = 3000 долл. Подставляя эти значения в си- систему ^уравнений E.3.8), получаем 100^ + 70а2 = 18, 70ах + + 100ос2 — 18, откуда а1 = а2 = 54/510. Следовательно, дискри- минантная функция имеет вид z = E4/510) (xx + x2). Согласно E.3.4), g, = E4/510) F0 + 57) = 12.39, а по формуле E.3.6) имеем ?2 = 8.58. Следовательно, E.3.9) и E.3.22) соответственно дают с = A2.39 + 8.58)/2 = 10.49 и К = In D/3) = 0.288. Итак, обобщенная баейсовская процедура относит х к популяции Wif если E4/510) (хх + х2) 3= Ю.49 + 0.288, т. е. хх + *» ^ 101.79. Если же ху + хъ <i 101.79, то вектор относится к№2. Величина аа E.3.5) равна 3.81 и расстояние Махаланобиса А2 E.3.7) также
328 Гл. 5. Методы многомерного статистического анализа равно 3.81. Затем по формулам E.3.20)—E.3.21) можно получить вероятности ошибочной классификации: Рг B | 1) = Ф (—0.83) = = 0.203, Рг A | 2) =Ф (—1.12) = 0.131. Итак, абитуриент принимается, если линейная комбинация его оценок больше или равна 101.79 и не принимается в против- противном случае. При такой процедуре 20.3 % потенциально хороших студентов отвергается комиссией и принимается 13.1 % потен- потенциально плохих. 5.3.2. Классификация в случае двух многомерных нормальных популяций при неизвестных параметрах Пусть имеется объект, которому соответствует вектор наблюдений х = (xlt x2, ..., хр)'. Требуется отнести его на основе этих наблю- наблюдений к популяции Wi с распределением N (|ufxl, 2РХР) или к Ц72: N (ц2Х1, 2рхр). Предполагается, что известны априорные вероятности и стоимости ошибочной классификации, но средние Hi, ii2 и матрица ковариаций 2 неизвестны. Если хи, ..., xjni и x2i, ..., х-2п2 — независимые случайные выборки из популя- популяций Wx и W2 соответственно, то можно оценить цг выборочным вектором средних х,- = (ха, ..., xip)', I = 1, 2 (см. E.2.7)), а 2 — объединенной выборочной ковариационной матрицей S = (Sjk), / = 1, ..., р, к — 1, ..., р; см. E.2.5). В такой ситуации невоз- невозможно найти процедуру классификации, которая была бы опти- оптимальной в смысле стоимости ошибочной классификации E.3.19). Однако можно показать (Anderson A958, теорема 6.5.1)), что если параметры в обобщенной байесовской процедуре E.3.17)—E.3.18) заменить их состоятельными оценками, то в результате ожидаемая стоимость ошибочной классификации будет убывать при пг и п2 -*¦ ->оо. Поскольку приведенные выше оценки состоятельны, обоб- обобщенная процедура байесовской классификации на основе оценок параметров заключается в следующем: вначале решается система уравнений E.3.8) с заменой \ij на х!}, i — 1, 2, / = 1, ..., р, и заменой Ojm на ^т, т = 1, ..., р. Затем полученные оценки коэффициентов alt ..., ар (обозначим их alt ..., ар) используются для определения значения дискриминантной функции zit E.3.1) для каждого вектора наблюдений хи, I = 1, ..., щ. Далее ?,-, заданные формулами E.3.4), E.3.6), оцениваются величинами 2i = ~к LZih E-3-24) а а|, заданные E.3.5), — величиной р _р_ а^/яйт. E.3.25) /=1 m=l
5.3. Классификация в случае двух популяций 329 Таким образом, обобщенная байесовская процедура оценивания состоит в отнесении х = (хъ ..., хр)' к Wlt если р + С 1 | 2) ,, о 9^ I 1„ ?2 с B | и к W2 — в противном случае. Выборочное расстояние Маха- ланобиса D2 = (zx-z,f/sl E.3.27) ¦¦ , , - *¦ *¦ является оценкой для А2 (см. E.3.7)). L~ В результате работы программ дискриминантного анализа, как правило, получаем следующее: а) оценки коэффициентов дискриминантной функции а1} ..., ар; Ь) значение дискриминант- ной функции га для каждого вектора наблюдений хп, i = 1, 2, I = 1, ..., п; с) выборочные средние zx и z2; d) выборочное рас- расстояние Махаланобиса D2. Эта информация достаточна для за- записи процедуры классификации E.3.26). Замечания 5.3.2. 1. Если, как и в случае с известными пара- параметрами, коэффициенты аг, ..., ар имеют общий положительный множитель, величина должна быть тоже умножена на него. В некоторых программах объединенные дисперсии и ковариации в системе уравнений E.3.8) заменяются на суммы квадратов и смешанные произведения от- отклонений соответственно. В результате коэффициенты дискрими- дискриминантной функции ах, ..., ар делятся на пх-\-пг — 2. Следовательно, величину К необходимо также разделить на пг + п2 — 2. 2. Часто бывает сложно определить априорные вероятности qt и q2. Если случайные выборки объема пх и па берутся соответст- соответственно из популяций Wx и №2, то qx и q2 можно оценить величинами Qi = «i/("i + n2) и q2 = п21{пх + nJj. 3. В результате работы программы дискриминантного анализа обычно выводится значение F-статистики р п! + Щ — р — 1 ЩП2 ?р (пх + и2 — 2) р tii + гц которое можно использовать для проверки гипотезы Яо: А2 = 0. Числа степеней свободы F равны р и пг + п2 — р — 1. Поскольку последняя эквивалентна гипотезе Яо: fix = |u2, эта статистика идентична F-статистике E.2.8). Именно на такой способ вычис- вычисления F-статистики делается ссылка в замечании 5.2.3.2.
330 Гл. 5. Методы многомерного статистического анализа 4. Выборочная оценка D2 расстояния Махаланобиса является смещенной. Несмещенная оценка имеет вид 12 _ П! + П2 — Р — 3 Д2 __ "-1 Т^  — f — " ГJ п I * 1 ^ \ 5. Дискриминантный анализ для двух популяций можно осу- осуществить при помощи программы множественной регрессии. Для этого в качестве зависимой переменной надо взять величину Y = пг1(пх + п2), если объект принадлежит популяции Wit и Y — —/^/(«х + щ), если берется объект из №2. Независимыми переменными являются векторы Хг, ..., Хр. Объект относится к популяции Wx при # 5= 0, в противном случае — к W2. Оценка расстояния Махаланобиса D2 может быть получена по формуле - 2) где R — множественный коэффициент корреляции. Более под- подробно об этом см. Lachenbruch A975). Пример 5.3.3. При помещении пациентов в критическом со- состоянии в отделение интенсивной терапии желательно классифи- классифицировать их на «тяжело» и «менее тяжело» больных. Поскольку вероятность смерти тяжело больных пациентов велика, популя- популяция «тяжело больных» условно называется «невыжившие»,а по- популяция «менее тяжело больных» — «выжившие». Таким образом, к популяции Wi относятся выжившие пациенты, а к популяции Ц72 — умершие. На различных стадиях лечения собираются дан- данные о их состоянии. В этом примере для наилучшего разделения двух популяций использовались выборки по наблюдениям, соб- собранным непосредственно перед выздоровлением, или смертью больного. У п2 = 70 выживших и п2 = 43 умерших пациентов прово- проводились измерения 13 физиологических параметров. Сюда включа- включались: артериальное и венозное давления, измерение кровотока, определение составляющих крови, диурез. Согласно замечанию 5.3.2.2, можно оценить qx величиной qx = 70/113 и q2 — величи- величиной <?„ = 43/113. Величины С B | 1) и С A | 2) были взяты рав- равными 1, поскольку нет объективных оснований для присвоения им других значений. При использовании программы дискриминантного анализа, подставляющей в систему уравнений E.3.8) суммы квадратов и смешанные произведения отклонений вместо дисперсий и ко-
5.3. Классификация в случае двух популяций 331 вариаций, были получены нантной функции: —0 0, 0, .00013 ,06193 «и .02684 0 —0, —0 .00183 .01437 .00176 следующие —0. 0. 0, а3 00006 а8 ,02534 .00070 коэффициенты —0.00043 —0. «9 0.00007 0. дискрими- «Б 00167 «10 10206 Были найдены также величины гг = 0.37487, z2 = 0.28851 и D2 = 9.58588. Согласно замечанию 5.3.2.1, следует поделить К = In D3/70) = —0.49 на пх + л2 — 2 = 111. Таким образом, байесовская процедура классификации за- заключается в следующем: вектор х = (хи ..., хп)' относится к по- популяции W, если 13 VI @.37487 + 0.28851) / , atxi >¦ о и к W2 — в противном случае. Наконец, для проверки гипотезы Яо: А2 = 0, или, что тоже самое, #0: ц^ = ц2, воспользуемся значением f-статистики, вы- вычисляемым программой: F A3, 99) = 17.52. Последнее значимо с Р <0.001. ¦ 7 ¦¦¦ -*-«f ^ - ;i ~) В примере 5.5.3 приводится метод классификации, использу- использующий повторные наблюдения над состоянием пациентов. 5.3.3. Вычисление вероятностей ошибочной классификации В случае когда параметры распределений известны, значения вероятностей ошибочной классификации Рг B | 1) и Рг A | 2) даются формулами E.3.20)—E.3.21). В случае, когда параметры оцениваются, существует несколько способов оценки этих вероят- вероятностей. Преимущества и недостатки таких способов будут рас- рассмотрены ниже. Более подробно об этом см. Hills A966) и La- cheubruch, Mickey A968). Метод 1. Поскольку D2 является оценкой А2, в формулах E.3.20) и E.3.21) можно заменить А2 на D2. Следует, однако, заметить, что такие оценки будут смещенными, т. е. действительная вероятность ошибочной классификации будет в среднем больше, чем такая оценка. Преимуществом метода является простота та- таких оценок: их легко получить по результатам работы программы. Метод 2. Этот метод состоит в классификации каждого эле- элемента выборки объема пх из популяции W± и выборки объема п2
332 Гл. 5. Методы многомерного статистического анализа из W2 согласно выражению E.3.26). Если тх — число наблюде- наблюдений из Wlt отнесенных к W2, и т.2 — число наблюдений из Wit классифицированных в Wlt то Рг B | 1) = m-Jnx и Рг A | 2) = = тг1п%. Этот метод дает большее смещение, чем предыдущий, и, если программой не выводятся значения дискриминантной функции для каждого наблюдения, им трудно пользоваться. Метод 3. Этот метод состоит в разделении выборки из пх наблюдений из популяции№, на две подвыборки. Наблюдения из первой подвыборки используются для вычисления дискриминант- дискриминантной функции, а члены второй подвыборки классифицируются согласно процедуре, полученной по первой подвыборке. Доля неверно классифицированных объектов является оценкой вероят- вероятности ошибочной классификации. Этот метод обладает тем преиму- преимуществом, что дает несмещенные оценки, но они имеют большие дисперсии, чем оценки, полученные по первым двум методам. Другой недостаток этого метода состоит в том, что не существует стандартного способа деления выборки. Метод 4. Lachenbruch A967) предложил процедуру сколь- скользящего экзамена. Из первой выборки исключается первое наблю- наблюдение, и дискриминантная функция строится по оставшимся наблюдениям. Затем классифицируется исключенное наблюдение. Процедура повторяется для каждого члена первой выборки. Доля неверно классифицированных объектов является оценкой вели- величины Рг B | 1). Та же процедура применяется ко второй выборке для оценки Рг A | 2). Методом Монте-Карло Lachenbruch, Mickey A968) показали, что смещение таких оценок пренебрежимо мало. Метод 5. Этот метод аналогичен методу 1, только оценка D2 заменяется на А2. Сравнение всех приведенных выше методов можно найти в работе Lachenbruch A975). Пример 5.3.3 {продолжение). Применяя первый метод при D2 = 9.58588 и К = —0.49, получим Рг B | 1) = Ф (—1.71) = = 0.044 и Рг A j 2) = Ф (—1.39) = 0.082. Используя 113 значе- значений дискриминантной функции, вторым методом получим тх = 5 и т2 = 4. Следовательно, Рг B | 1) = 5/70 = 0.071 и Рг A | 2) = = 4/43 = 0.093. Для реализации третьего и четвертого методов требуются специальные программы. 5.3.4. Вычисление апостериорных вероятностей Во многих случаях не требуется отнести объект к той или иной популяции и находить вероятности ошибочной классификации, а более важно найти апостериорные вероятности E.3.10) принад-
5.3. Классификация в случае двух популяций 333 лежности объекта популяции Wt или Ц72. В случае известных много- многомерных нормальных распределений популяций апостериорная вероятность того, что объект принадлежит Wlt имеет вид Pr(WUx) = т-! г-гт-т. E.3.28) f{utJt} где z задается равенством E.3.1), a Si и ?г — формулами E.3.4) и E.3.6) соответственно. Для апостериорной вероятности выпол- выполняется равенство Pr (W2 \ х) = 1 — Рг (Ц73 ] х). При использо- использовании оценок параметров можно заменить ?,- на zt см. E.3.24), i — 1,2. Особенно просто вычислять такие вероятности с помощью программ, имеющихся в ПСП. Пример 5.3.4. Во фрэмингхемском обследовании (Truett et al. A967)) дискриминантный анализ использовался для описания за- зависимости от семи факторов риска апостериорной вероятности развития ишемической болезни сердца (CHD) за 12 лет. Несмотря на заметные отклонения данных от многомерного нормального распределения, такой _адализ оказался мо_щным_с?едством изуче- изучения влияния совокупности факторов _риска_на_разЙ1тие ишеми- ишемической болезни. ~ " За~Т2 лет'^ыли собраны данные о проявлениях ишемической болезни у 1929 мужчин и 2540 женщин в возрасте от 30 до 62 лет. В начале обследования все пациенты были здоровы. Семью пере- переменными (факторами риска) служили: возраст (в годах), количе- количество холестерина в крови (мг/100 мл), систолическое давление (мм рт. ст.), относительный вес A00 X вес — средний вес соответ- соответственно полу обследуемого), количество гемоглобина в крови (г/100 мл), количество выкуриваемых в день сигарет @ — для некурящих, 1 — для выкуривающих меньше одной пачки, 2 — одну пачку, 3 — больше одной пачки), ЭКГ @ — нормальная, 1 — ненормальная или неясная). Апостериорная вероятность развития ишемической болезни (за 12-летний период) для данного пациента вычислялась по фор- формуле: Р = Pr (CHD | x) = 1 где коэффициенты и постоянные величины приводятся ниже в таблице отдельно для мужчин и женщин. Вычислительная процедура несколько отличалась от описанной в этой книге (детали см. в Truett et al. A967)).
334 Гл. 5. Методы многомерного статистического анализа Постоянная Возраст Холестерин Систолическое давление Относительный вес Гемоглобин Количество выкуриваемых сигарет в день ЭКГ Коэффициенты Мужчины 10.8986 0.0708 0.0105 0.0166 0.0138 0.0837 0.3610 1.0459 Женщины 12.5933 0.0765 0.0061 0.0221 0.0053 0.03554 0.0766 1.4338 Для оценки годности дискриминантной модели было полу- чено распределение величины Р и определены его децили. Распре- Распределение наблюдаемого числа случаев ишемическои болезни сердца было разделено на децили. Суммированием вычисленных рисков B Р) п0 всем объектам, попавшим в дециль, было определено ожидаемое число случаев болезни в каждом дециле. Ниже в таб- таблице приведены ожидаемые и наблюденные количества случаев болезни коронарных сосудов. Критерий согласия %г показывает, что модель соответствует данным (%2 = 10.9 и %2 = 12.8 для муж- мужчин и женщин соответственно, Р > 0.10). Децили^ риска Р 10 9 8 7 6 5 4 3 2 1 Мужчины Ожидав- Наблюдае- Наблюдаемое 90.5 47.1 32.6 25.0 19.7 15.0 11.5 ' 8.6 6.0 3.4 мое 82 44 31 33 22 20 13 10 3 0 Жеащи. Ожидае- Ожидаемое 70.4 24.7 15.0 9.8 6.5 4.4 3.2 2.3 1.7 1.1 м Наблюдае- Наблюдаемое 54 23 21 14 5 6 2 0 3 1 5.4. Классификация в случае k популяций В этом разделе рассматривается случай отнесения неизвестного вектора наблюдений хрХ1 = (хъ ..., хр)' к одной из k популяций Wh i = 1 k, k^2.
5.4. Классификация в случае k ,популяций . 336 Раздел 5.4.1 посвящен общему случаю классификации, когда объекты в популяциях Wt распределены произвольно и пара- параметры известны; в разд. 5.4.2 рассматривается случай, когда распределения в Wt считаются многомерными нормальными; в разд. 5.4.3 представлена задача классификации в случае попу- популяции с биномиальным распределением. 5.4.1. Классификация в случае популяций с произвольными известными распределениями Пусть ft (х) означает плотность распределения х в W{ и qt — априорную вероятность того, что вектор наблюдения х принад- принадлежит популяции W,-, i = 1, ..., k. Обозначим стоимость отне- отнесения наблюдения из Wj к Ц7, через С (i | j), а вероятность отнесения наблюдения из Wj к Wt — через Pr (i \ /), », /" = 1, ..., k, i Ф j. Полагая, что все параметры известны, можно показать, что обоб- обобщенная байесовская процедура классификации относит вектор х к We, если величина -.S?/Mx)C(i|/) E-4.1) i*i является максимальной, i — 1, ..., k. (Если одинаковый мак- максимум достигается как в t\, так и в 1г, то х относится к Wtt или Wla.) Величина E.4.1) называется значением дискриминантной функции для i-й популяции. Байесовская процедура минимизи- минимизирует ожидаемую стоимость ошибочной классификации E.4.2) Когда стоимость ошибочной классификации не имеет значе- значения, все С (i | /) полагаются равными и процедура Байеса отно- относит х к Wt, если qtftix) E.4.3) имеет максимальное значение, i = 1, ..., k. Таким образом, мини- минимизируется ожидаемая вероятность ошибочной классификации ; ?<7/(?рг(»|/I. E.4.4) \ Заметим, что это эквивалентно отнесению х к Wu если |апосте- I риорная вероятность [ Рг(Г,|х)= h"tfl(X) E.4.5) достигает максимума.
336 Гл. 5. Методы многомерного статистического анализа 5.4.2. Классификация в случае популяции с многомерными нормальными распределениями Пусть популяция We имеет распределение N (jxfXI, ^рхр) с функ- функцией плотности fi (x), i = 1, ..., k. Будем считать, что все пара- параметры известны и стоимости ошибочных классификаций равны. Подставляя f; (x) в выражение E.4.3), логарифмируя и исключая общие множители, получаем линейную дискриминантную функ- функцию для i-й популяции бг = aixxx + ¦ ¦ ¦ + aipxp + Y<ln Яь i — \,...,k. E.4.6) В замечании 5.4.1.6 эти уравнения относительно коэффициен- коэффициентов аа, ..., а,-я и константы Y; приводятся в матричной форме. Итак, вектор наблюдений х относится к популяции W{, если зна- значение б; является максимальным среди всех i = 1, ..., k. Апосте- Апостериорная вероятность E.4.5) принимает вид / Pr{WAx) = е6! Г?е61, i=\,...,k. E.4.7) / /=i Как уже было замечено, предположение о том, что параметры. распределений известны, облегчает только теоретическую часть анализа. На практике, как правило, имеются независимые слу- случайные выборки из k популяций, по которым можно получить оценки параметров. При этом не существует оптимальной про- процедуры классификации, но подстановкой состоятельных оценок в выражение E.4.6) можно получить асимптотически оптималь- оптимальную процедуру. Пусть щ — объем i-й выборки, х(- — ее вектор средних и S/ — ковариационная матрица, i = 1, ..., k. Тогда в формуле E.4.6) можно заменить ц,- на х,- и 2 — на объединенную ковариационную матрицу S: S= (?(n«-l)S«)/(Snt.-^. E.4.8) Таким образом, оценка дискриминантной функции для i-й по- популяции имеет вид di - аахг И + aipxp + с,- + \nqh i == 1,. . ., k. E.4.9) В замечании 5.4.1.6 приводятся выражения для коэффициен- коэффициентов ал, ,.., а:р и постоянных С, в матричной форме. Вектор х классифицируется, как принадлежащий популяции Wt, если величина dL имеет наибольшее значение. При этом оценка апосте- апостериорной вероятности имеет вид k --=<?"' I Л. E.4.10) i i=\\
5.4. Классификация в случае к популяций 337 Программы дискриминантного анализа предназначаются, как правило, для вычисления следующих величин: / а) объединенной матрицы ковариации S и иногда ковариа- ковариационных матриц S,- для популяции Wh i = 1, ..., k; b) оценок для коэффициентов линейной дискриминантной функ- функции аа, ..., alv и постоянной cL для популяции W,-, i = 1, ..., k; c) оценок значения линейной дискриминантной функции для каждого элемента х(т выборки из Wit т = 1, ..., п., i = 1, ..., k; d) оценки апостериорной вероятности для каждой популя- популяции Wj при заданном векторе xim, который является т-и элемен- элементом выборки из Wt, т = 1, ..., щ, i, j = 1, ..., k; e) номеров популяций, к которым относятся векторы — эле- элементы выборки из Wh т = 1, .... Л/, i = 1, ..., k (тех популяций, для которых оценка апостериорной вероятности для дискрими- дискриминантной функции достигает наибольшего значения). Замечания 5.4.1. 1. Некоторые программы выводят на печать таблицу результатов классификации, содержащую число Пц векторов Xjm выборки из W/, отнесенных к Wit т = 1, ..., tij, i, / = 1, ..., k. Заметим, что 2^=1% = п} — объем /-и выборки, / = 1, ..., k. С помощью этой таблицы можно оценить вероятность ошибочной классификации pr(,|/H^L; ,->/ = 1 k< 1Ф1 Хотя полученные оценки являются смещенными, в случае k популяций все другие оценки этих вероятностей требуют слож- сложных вычислений. 2. В некоторых программах вычисляется так называемое обобщенное расстояние Махаланобиса V — обобщение величины D2. Оно может быть использовано для проверки гипотезы Яо: (*!=•••— AЛ. Если гипотеза #„ верна, а объемы выборок л, стре- стремятся к оо, то распределение величины V стремится к %2 с р (k—1) степенями свободы. Таким образом, приближенная проверка ги- гипотезы #0 состоит в том, что гипотеза отвергается при %2 > >Xi-«Go(fc-l)). 3. Заметим, что проверка гипотезы Яо: ju,x = • • • = цк яв- является многомерным аналогом однофакторного дисперсионного анализа. Теория проверки этой и более общих гипотез рассма- рассматривается в многомерном дисперсионном анализе Anderson A958), Rao A965). Многие программы выводят на печать так называе- называемую U-статистику, которая является точной для проверки гипотезы Яо. Ввиду сложности распределения величины U на печать выводится ее F-аппроксимация и соответствующее число степеней свободы. Такой критерий является точным для р = 1, 2 при любых k, или же при k = 2 для любых р.
338 Гл. 5. Методы многомерного статистического анализа 4. Программы, предполагающие, что все qt попарно равны для i = 1, ..., k, можно использовать и в случае, когда это усло- условие не выполняется. Для этого следует при выводе постоянных с,- (см. п. Ь)) прибавлять к ним величины In qt. К оценке значения дискриминантной функции для каждого вектора х,т следует также прибавить In qt (см. п. с)). В п. е) требуется произвести переклассификацию: вектор xim относится к той популяции, для которой модифицированная дискриминантная функция имеет наи- наибольшее значение. 5. В этом разделе предполагалось, что ^2и стоимости оши- ошибочной классификации равны. Если k = 2, то процедура сводится к сравнению р . р di = 2! <hjXt + Cj. + In q1 с d2 = ? aifXj + c2 + In q2. Вектор x относится к p — av) x Б i при dt ^ (c2 — или, что равносильно, Полагая а} = а1} — а21 для / = 1, ..., р и (zt + za)/2 = c2 — с,, получим линейную дискриминантную функцию E.3.26) при С A | 2) = С B | 1). -к 6. Формулы E.4.6) для линейных дискриминантных функ- функций можно записать в матричном виде причем Аналогично, оценки E.4.9) дискриминантных функций прини- принимают вид dc = (x-S) x s- XjS^x,- + In qt, i lXi и ct =s 5- xjS~xXj, i = 1,..., k. И наконец, матричное выражение для V (замечание 5.4.1.2) имеет вид Ei—х), (=1
5.4. Классификация в случае к популяций 339 где - ( k -\\ k х= I S л* / S 14- На интуитивном уровне величину V можно интерпретировать как взвешенную сумму «расстояний» от векторов средних каждой группы хг до общего вектора средних х. * 7. В случае когда не выполняется предположение о равен- равенстве ковариационных матриц, т. е. каждая популяция Wt имеет распределение N ([х„ ?,) для i — 1, ..., к, можно получить ква- квадратичную дискриминантную функцию (Rao A965, с. 488)). Если плотности fi (x) неизвестны, для классификации вектора х следует пользоваться непараметрической процедурой (Fix, Hodges A951, 1952)) и Palmersheim A970). Пример 5.4.1. У 113 тяжело больных пациентов в момент их поступления в клинику определяли следующие характе- характеристики: Xt — возраст, Х2 — систолическое давление (в мм рт. столба), Х3 — логарифм сердечного индекса [литр/(мин-м*)]( Х4 — диурез (см3/ч.). Каждый пациент принадлежал к одной из 6 популяций: Wx — больные, не имевшие шока, W2 — имев- имевшие гиповолемический шок, Wg — кардеогенный шок, Wt — бактериальный шок, Wb — неврогенный шок, Wa — другие типы шока. Объемы выборок из соответствующих популяций были следующие: пх = 32, п2 = 17, п3 = 20, п4 = 16, пъ = 16, пв = = 10. По этим данным требовалось вывести процедуру классифи- классификации каждого поступающего пациента при условии, что он отно- относится к одной из приведенных выше шести популяций. В предпо- предположении равенства всех априорных вероятностей и равенства стоимостей ошибочных классификаций для вычисления величин dt, i — 1, ..., 6, была использована программа одного из пакетов. Вычисленные коэффициенты приводятся в табл. 5.4.1. Так, например, для Wx была найдена дискриминантная функция Таблица 5.4.1 Коэффициенты значений линейной дискриминаитной функции для популяции из примера 5.4.1 Коэффициенты a,i an а,ъ а,А с, 0.339 0.197 1.575 0.196 -26.827 w2 0.331 0.150 1.453 0.135 -20.491 w3 0.339 0.167 0.916 0.129 -21.455 0.333 0.151 1.915 0.132 -22.141 wb 0.250 0.147 1.049 0.142 -15.362 We 0.337 0.166 0.999 0.123 -21.373
340 Гл. 5. Методы многомерного статистического анализа Таблица 5.4.2 Результаты классификации дли примера 5.4.1 Число случаев n-,j из Wj, классифицированных в Wj w, w2 >,- m 20 1 3 2 2 2 w2 1 2 0 2 1 1 w, 5 5 8 0 0 4 •H 4 5 2 6 1 1 4 3 5 4 11 1 wt 0 1 2 2 I 1 Суммарное nj 34 17 20 16 16 10 dx = 0.339*! + • • • + 0.196*4 — 26.827. В табл. 5.4.2 результатов классификации п13 = 3, например, означает, что трое из двадцати больных, принадлежащих выборке из популяции Ws, относятся к Wt. Следовательно, Pr (V3) = 3/20- Для проверки гипотезы Яо: Hixl = . • • = jigxl было вычислено значение /г=^4.21 с 20 и 345.9 степенями свободы. (Заметим, что дробно5~чТТсло степеней свободы появилось из-за того, что F является аппроксимацией ^/-статистики.) По таблице F-распределения находим F0.999 B0, 345.9) а* 2.5. Следовательно, гипотеза Яо должна быть отверг- отвергнута при Р < 0.001. 5.4.3. Классификация в случае популяций с биномиальными распределениями Случай отнесения объекта к одной из k популяций с биномиаль- биномиальными распределениями рассматривался в примере 5.3.2. Нужно отнести пациента к одной из k категорий больных в зависимости от проявления р симптомов. В общем случае требуется классифи- классифицировать объект на основе наличия или отсутствия р событий. Определим для каждого /-го события, / = 1, ..., р, случайную величину 1, если событие / имеет место, xi = In х • E.4.11) ' { 0, если событие / отсутствует. Положим Рг (X, = 1 1 Wt) = ри и Pr (Xj = 0 | Wt) = \—ptl для i = 1, ..., k, j = 1, ..., p. Тогда закон распределения Xj для популяции Wi имеет вид xi, i^l,...,k, /=1 p. E.4.12)
5.4. Классификация в случае к популяций 341 Если предположить независимость Хх, ..., Хр, то совместный закон распределения ft (x) для Wt можно записать в виде Мх) = Ш(*/). t = 1 Л, х = (хъ...,хр)'. E.4.13) /=i Полагая, что априорные вероятности qt, ..., qk одинаковы и стои- стоимости ошибочной классификации равны, вычислим апостериорные вероятности по формуле E.4.5): , i=l,...,k. E.4.14) m=l L /=1 ' Вектор x относится к такой популяции Wh для которой вели- величина Pr (Wt | х) максимальна. Пример 5.3.2 (продолжение). Этот пример иллюстрирует то, как ЭВМ ставит диагноз. Поскольку величины рц неизвестны, их следует оценить по случайной выборке из п пациентов, взятой из смеси k популяций. Пусть nt — число пациентов, страдающих i-й болезнью, i = 1, ..., k, a 2?=i ni = п- Пусть n:j — число пациентов с i-й болезнью, имеющих /-й симптом. Тогда оценка рц имеет вид " " ~~~ ~" Если априорные вероятности qt неизвестны, то их оценками являются Теперь можно написать программу оценки апостериорной вероят- вероятности для каждого вновь поступающего пациента х = (хи ..., хр)', имеющей вид я 1 1 \ л; / \ ni Sum. n iim. \ '(\_?hl 1-х, m=l Поскольку предположение о независимости симптомов на практике в большинстве случаев не выполняется, то, когда все qt равны, для классификации используется другая процедура, ко- которая для любой возможной комбинации симптомов вычисляет соответствующую долю объектов в каждой выборке. Новый объект, задаваемый комбинацией симптомов, относится к популяции,
342 Гл. 5. Методы многомерного статистического анализа выборка из которой имеет наибольшую долю объектов с такой комбинацией. Пусть, например, k = 2, р = 3. По двум выборкам объема nL и пг составляется следующая таблица: Симптомы 000 100 010 001 . по 101 011 111 0.10 0.10 0.20 0.10 0.20 0.10 0.10 0.10 w2 0.20 0.15 0.10 0.15 0.10 0.20 0.05 0.05, Поступающий объект с комбинацией симптомов 110 будет отне- отнесен к популяции Wi, поскольку 0.20 >0.10. Неудобство этого метода заключается в том, что для каждой популяции надо вы- вычислять 2" параметров. Поэтому удобнее принять предположение о независимости симптомов. Пример 5.4.2. В этом примере представлена графическая форма байесовской процедуры классификации. Так называе- называемый номограф часто облегчает врачам диагностику (Lusted A968)). На основе вектора наблюдений х = (х1г ..., хр)' течения бе- беременности, родов и кормления детей, имевших при рождении маленький вес (<1500 г), требовалось предсказать их психомо- психомоторное развитие к одному году. Каждая предикторная перемен- переменная xh i = 1, ..., р, имела биномиальное распределение. У детей в возрасте одного года можно определить индекс психомоторного развития (PDI) согласно шкале детского развития Бейли (Bayley A969)). Область значений PDI была разбита на две части: при PDI $2 85 считалось, что ребенок принадлежит к популяции Wx детей с нормальным развитием, PDI <J 85 определял популяцию Й72 детей с ненормальным или патологическим развитием (более подробно см. Azen et al. A979)). Теорему Байеса для вычисления апостериорных вероятностей можно записать следующим образом: 2 m—1 L 1=1 для i=l,2. Если взять логарифм отношения двух апостериор-
5.4. Классификация в случае к популяций 343 ных вероятностей, то можно получить z = log[Pr(ra|x)/Pr(r1|x)] = = log Шдд + t bg [Рг (я:, | го/Рг (х, | /=1 Легко заметить, что имеет место взаимно однозначное соответ- соответствие между г и Pr (W2 \ х), которое можно продемонстрировать на одномерном номографе, изображенном на рис. 5.4.1. • о.о 0.1 дг аз -СО -095 -0.60 -0.37 0.4 -0.1В 05 -0.0 06 07 0.13 О 57 0.8 ¦—i— 0 60 0.9 0.Э5 1.0 Рг Рис. 5.4.1. Номограф, отражающий зависимость между г и Pr(W2|x). Величина log [Pr (xj | W2)/Pr (xj | Wt) ] является весом, со- соответствующим предикторнои переменной х-р который может быть оценен по выборке из популяции детей с маленьким весом при рождении, /= 1, ..., р. Постоянная log {q-Jqi) оценивается по той же выборке. По ретроспективно собранным данным о 117 младенцах были найдены байесовские веса и постоянные для р = 9 значимых предикторов PDI (значимость оценивалась посредством крите- критерия х2) (см. табл. А). По этим данным априорная вероятность нормального развития ^ = 0.71, а ненормального <72 = 0.29. Таблица А Байесовские веса Переменная Осложнения беременности Вес ребенка при рождении Сокращение срока беременности в % от нормы Дыхание Фототерапия Переливание крови Хирургическое вмешательство Инфекция Врожденная болезнь сердца Постоянная Значение Нет Есть За Ю00 г < 1000 г S* Ю% < 10% Нет Есть Нет Есть Нет Есть Нет Есть Нет Есть Нет Есть или подозре- подозревается — Вес —0.111 0.233 —0.092 0.460 —0.049 0.505 —0.150 0.270 —0.324 0.092 —0.303 0.132 —0.054 0.623 —0.162 0.338' —0.264 0.186 —0.389
344 Гл. 5. Методы многомерного статистического анализа Пример Переменная Протекание беременности Вес ребенка при рождении Сокращение срока беременности в % от нормы Дыхание Фототерапия Переливание крови Хирургическое вмешательство Инфекция Врожденная болезнь сердца Постоянная Значение Ненормаль- Ненормальное < 1000 г < 10% Есть Нет Нет Есть Нет Нет - Таблица В Вес —0.111 0.460 0.505 0.270 —0.324 —0.303 0.623 —0.162 —0.264 —0.389 Для использования этой модели требуется сложить веса, соответствующие данным х рассматриваемого младенца, и найти точку, соответствующую полученному значению суммы на номо- графе рис. 5.4.1. Например, для младенца, данные которого при- приведены в табл. В, z = 0.305. По номографу Pr (W2 | х) состав- составляет около 0.70. Это больше 0.5 и для такого ребенка будет пред- предсказано ненормальное психомоторное развитие. 5.5. Пошаговый дискриминантный анализ '" В разд. 5.3 и 5.4 рассматривался случай отнесения р-мерного вектора наблюдений х ••= (хи ..., хр)' к одной из k популяций Wit объекты которых имеют многомерные нормальные распределе- распределения N{tfxl, 2РХР), где щ = (цЛ, ..., ixip)', i = 1, ..., k. По- Поскольку х служит реализацией случайного вектора X = (Xlt ... ..., ХрI, для разделения k популяций до сих пор использовались все переменные Хх, ..., Хр. Однако на практике часто требуется выявить такое^юдмножество этих переменных, по которому можно построить <<нашгучшёе»~р1зДеление k популяций. Можно провести аналогию с пошаговой регрессией (разд. 3.3), где требуется опре- определить подмножество независимых переменных, «наилучшим об- образом» предсказывающих зависимую переменную Y. Для этого в регрессионном анализе можно воспользоваться F-статистикой, построенной на основе частных корреляций. В дискриминантном анализе F-статистика для отбора переменных основывается на
5.5. Пошаговый днскримннантный анализ 345 критерии однофакторного дисперсионного анализа. В обоих, случаях /^-статистика называется «/-"-включения» переменных, не вошедших в искомое подмножество и «/-"-удаления» выбранных переменных. В гу|инооти^гтп1гикя пптттяговдгп анализа талажа^-ввачаде-апре- дел^1ется__переменная.- Д-"я котпг)пи__г]2^шие__я н ачещш.. в Амощл я - циях «наиболее различны». Для каждой переменной различие измеряется^ с помощью ^-статистшш оддофакторного дисперсион- дисперсионного анализа и выбирается (шя^вШючаетсяУ~та переменная, которой соответствует наибольшее значение F. На каждом шаге процедуры рассматривается условное распределение каждой пере- переменной, не включенной в подмножество, при заданных включен- включенных переменных. Из числа не включенных переменных определяется перемен- переменная, для которой средние значения условны_х распределений в k популяциях «наиболее различны». Это различие измеряется с помощью /^-статистики однофакторного дисперсионного анализа. Процесс завершается, когда ни_одна J3 оставшихся переменных не- вносит значимого вклада в разделение k популяций. Как и в пошаговой регрессии, пользователь выбирает допустимый ми- минимум F-включения, соответствующий максимальному уровню а (стандартное значение равно 4.0) и минимум /-"-удаления (стан- (стандартное значение равно 3.9), гщичем ЦЗШЩЖ.Е:удаления должен быть меньше, чем-жишщум /-"-включения. Рассмотрим пошаговую процедуру более подробно. Пусть хдх1, ..., х?^1 — случайная выборка из Wt, i — 1, ..., k. Тогда, используя обозначения и определения разд. 5.4, можно описать пошаговую процедуру следующим образом. Шаг 0. Для каждой переменной Xj, j = 1, ..., р, аналогично /^-статистике для проверки гипотезы Яо: \у-ц = • • • = \y-kj в одно- факторном дисперсионном анализе вычисляется статистика F- включения с k — 1 и п — k степенями свободы. Если все значе- значения /^-включения меньше принятого минимума, то считается, что ни одна переменная не вносит весомого вклада в разделение популяций. _^ С, Шаг 1, Переменная Х]Ъ которой соответствует наибольшее зна- значение /^-включения, считается первой. Для каждой популяции Wit i = 1, ..., k, оценивается коэффициент и определяется постоянная линейной дискриминантной функции. Кроме того, вычисляется таблица результатов классификации, ^/-статистика и ее F-аппрок- F-аппроксимация. Вычисляется также значение /^-удаления с k — 1 и п — k степенями свободы для переменной Xjlt которое равно значению /^-включения. Затем находится значение /^-включения с k — 1 и п — k — 1 степенями свободы для каждой из пере-
346 Гл. 5. Методы многомерного статистического анализа менных, не включенных в искомое подмножество. Таким образом, проверяется гипотеза Но: \ilhJi = ...,= цА/..Л, где цо-.Л — среднее условного распределения Xj в популяции Wt при фикси- фиксированном значении переменной Х-п, i — 1, ..., k, j — 1, ..., р, j Ф \г. Если все значения /-"-включения меньше его минимума, то выполняется шаг S, в противном случае процедура переходит к выполнению второго шага. Шаг 2. Выбирается переменная Х]2, для которой значение F-включения максимально. Вычисляются оценки двух коэффи- коэффициентов и постоянные дискриминантных функций для каждой популяции Wh i = 1, ..., k. Определяется таблица результатов классификации, ^/-статистика и ее F-аппроксимация. Кроме того, для Xji и Xj2 ищутся значения статистик /-"-удаления с k — 1 и п — k—\ степенями свободы. Таким образом, проверяются соответственно гипотезы Яо: Щ/,./, = • • • = J**/,-/, и Но: M-i/2/i = ••• = Ц*/,./,. Затем для каждой не включенной переменной вычисляется статистика /-"-включения с k — 1 и п — k — 2 степенями свободы. С ее помощью проверяется гипо- гипотеза Яо: iXi/./l/2 = • • • = И*/•/!/»» гДе V-ii-nii ~ среднее условного распределения Xj при заданных Х1г и Х}ъ в популяции W(, i = == 1, ..., k, j = 1, ..., p, j Ф jlt /2. Если все значения F-включе- ния меньше установленного минимума, то выполняется шаг S, в противном случае — шаг 3. Шаг 3. а) Обозначим символом L множество из I переменных, предварительно отобранных для построения процедуры клас- классификации. Если значение ^-удаления меньше принятого мини- минимума хотя бы для одной переменной из L, то переменная, для которой это значение минимально, исключается из L и выпол- выполняется (Ь), в котором I заменяется на / — 1. Если теперь некото- некоторые значения F-включения для переменных, не принадлежа- принадлежащих L, больше принятого для этой статистики минимума, то переменная, для которой это значение максимально, включается в L и I заменяется на I + 1. Ь) Для каждой популяции Wh i — 1, ..., k, оцениваются / коэффициентов дискриминантнои функции и вычисляется постоян- постоянная. Определяется таблица результатов классификации, значе- значение ^/-статистики и ее /^-аппроксимация. Кроме того, для каждой переменной из L вычисляется значение F-удаления и соответ- соответствующие степени свободы. Тем самым проверяется гипотеза Но: His-(z-i) • • • — V'ks-d-i) для каждой переменной Хг из L при фиксированных значениях остальных / — 1 переменных из L. Символом n,jS.(/_D обозначается среднее условного распределе- распределения переменной Xs в Wt при фиксированных значениях осталь- остальных переменных в L, И наконец, вычисляется значение ста- статистики ^-включения и соответствующих степеней свободы для
5.5. Пошаговый днскрнмннантный анализ 347 каждой переменной, не включенной в L. Таким образом, прове- проверяется гипотеза Яо: ni;-.(o = ••• = y-kf-u), где ^/-(О обозна- обозначает среднее условного распределения переменной Xj в Wt при фиксированных значениях всех переменных из L, i = 1, ..., k, I = 1, ..., р, Xj не принадлежит L. Шаги 4,5 Шаг 3 повторяется рекуррентно. Когда /^-вклю- чения становятся меньше заданного минимума для всех перемен- переменных, не включенных в L, или когда все переменные оказываются включенными в искомое подмножество и значение /-"-удаления становится меньше заданного минимума, выполняется шаг S. В некоторых программах рекуррентная процедура останавли- останавливается также и в том случае, когда / = min («,), i = 1, ..., k. Шаг S. На этом шаге для каждого вектора х1т, т = 1, ...,«,-, i = 1, ..., k, производится вычисление апостериорных вероят- вероятностей его принадлежности к популяциям WJt ..., Wk. На основа- основании этих вероятностей каждый объект классифицируется как принадлежащий одной из популяций и составляется таблица результатов классификации. Обычно по требованию пользователя можно вывести на печать таблицу, в которой отображаются действия процедуры на каждом шаге. Кроме того, на каждом шаге выводятся следующие вели- величины: номер шага, включенные и удаленные переменные, значе- значения статистик /^-включения и ^-удаления, [/-статистика и ее F-аппроксимация. Замечания 5.5.1. 1. Это замечание справедливо только для случая k = 2. a) Дискриминантная функция E.3.26) получается как раз- разность двух дискриминантных функций для разных популяций (см. 5.4.9), т. е. aL — аи — а2,- и Bг + 22)/2 = С2 — Сх. b) Как уже было отмечено, F-аппроксимация статистики U, построенная по q переменным в случае двух классов, является точной. Более того, используя значение F, можно получить оценку расстояния Махаланобиса D\ для q переменных 2) (р.аппроксиМация U), l) V h /• где q = 1, ..., р, а пх и щ ¦— объемы выборок соответственно из Wj, и W,. c) Предположим, что включенные переменные Хи ..., Хч составляют множество L, q = 1, ..., р — 1. Для того чтобы узнать, не вносят ли переменные Xq+U ..., Хр значимый вклад в разделе- ние по Хи ..., Xq, можно проверить гипотезу Яп: А? = Ар, где AJ, — расстояние Махаланобиса между популяциями, измеренное по т переменным, т = р, или q, q = 1, ..., р — 1. Для проверки Яо
348 Гл. 5. Методы многомерного статистического анализа обозначим выборочные оценки Лр и Д? соответственно символами D и D2g. Тогда величина F Р--7 I(n1 при выполнении гипотезы Яо имеет распределение F (р — q, ni + «а — Р — *)• Гипотеза отвергается, когда F > Fi.a (/? — q, ni + "а — Р — !)• Эт°т критерий может быть использован в про- процедуре отбора «наилучшего» набора переменных. Для этого надо в качестве минимума взять малую величину для ^-включения (=0.01) и еще меньшую для F-удаления (=0.005). При этом будут отбрасываться только сильно коррелированные переменные. За- Затем с использованием сводной таблицы работы процедуры сле- следует произвести пошаговую проверку гипотез Яо: А| = Ар, <7= 1, ..., р — 1. «Наилучший» набор признаков получается перед шагом с первым незначимым результатом. Заметим, что этот кри- критерий аналогичен правилу остановки, основанному на исполь- использовании величины R2 в пошаговой регрессии. • 2. Как и в случае пошаговой регрессии, пользователь может сам включить определенные переменные в процедуру классифи- классификации. После этого пошаговая процедура применяется к остав- оставшимся переменным. Пример 5.5.1. Пошаговый дискриминантный анализ приме- применялся к подмножеству р = 4 переменных из примера 5.3.3. Были собраны данные о пх = 70 больных из популяции Wx выживших и о n2 = 43 больных из популяции ;W2 умерших. Переменными были: Хх — среднее артериальное давление (мм. рт. ст.), Х2 — среднее венозное давление (мм. рт. ст.), Х3 — диурез (см3/ч), ХА — логарифм индекса объема плазмы (мл/кг). Использовалась программа пошагового дискриминантного анализа с минимумом /^-включения = FM&A, оо) = 4 и для F-удаления =3.9, т. е. немного меньшим, чем величина порога для /^-включения. Соответ- Соответственно для шагов процедуры, описанных выше, были получены следующие результаты. Шаг 0. /^-включения со степенями свободы 1 и 111 для каждой переменной следующие: Переменная Хг Х2 Х3 Х4 F-включения 131.41 14.06 22.01 2.49 Поскольку три значения F-включения больше принятого мини- минимума, переходим к шагу 1. Шаг 1. Переменная Xt выбирается в качестве первой, по- поскольку она имеет наибольшее значение /^-включения. Для каж-
5.5. Пошаговый дискрнминантный анализ 349 дой популяции была получена оценка коэффициента дискрими- нантного уравнения и постоянной: Щ ап Wj 0.262 -11.627 Щ 0.141 -3.383 Таблица результатов классификации имеет вид W2 0->\ И", На первом шаге значение /-"-аппроксимации [/-статистики, так же как и F-включения и /-"-удаления для Xlt равно 131.41 с чис- числом степеней свободы 1 и 111. Для Х2, Х3 и Х4 были вычислены значения F-включения с 1 и 110 степенями свободы: Переменная F-включения 10.55 9.52 Xi 17.35 Все они больше минимума, поэтому переходим ко второму шагу. Шаг 2. Поскольку переменной Х4 соответствует максимальное значение /^-включения, ее выбирают в качестве второй перемен- переменной, включенной в процедуру классификации. Оценки коэффи- коэффициентов дискриминантной функции и постоянные для каждой популяции имеют вид Щ an aiA. с. Wl 0.690 211.621 -213.956 W2 0.544 199.016 -182.326 Была получена таблица классификации W,
350 Гл. 5. Методы многомерного статистического анализа ^-аппроксимация для U равна 84.06 с 2 и 111 степенями свободы. Значения статистики F-удаления для Хг и Х4 с 1 и ПО степе- степенями свободы приводятся в следующей таблице: Переменная Хх Х4 F-удаления 162.01 17.35 И наконец, для переменных Хг и Х3 были определены следующие значения F-включения с 1 и 109 степенями свободы: Переменная Х2 Х3 F-включения 9.55 8.97 Шаг 3. а) Теперь L = \ХЪ Х^\ и / = 2. Поскольку значения статистики ^-удаления для Х1 и Х4, а также значения F-вклю- чения больше соответствующих минимумов, множество L до- дополняется переменной с наибольшим значением F-включения. Таким образом, L = |ХЬ Х2, Х4} и I = 3. Ъ) Оценки коэффициентов линейной дискриминантной функ- функции и соответствующие постоянные приводятся в следующей таб- таблице: Щ ап e,2 ei4 0.686 0.126 211.481 -214.141 0.535 0.324 198.654 -183.557 Таблица классификации имеет вид Щ. W2 /^-аппроксимация ^/-статистики равна 63.58 с 3 и 109 степенями свободы. Значения статистики F-удаления с 1 и 109 степенями свободы для каждой переменной из L приводятся в следующей таблице: Переменная Хх Х2 Х4 F-удаления 152.16 9.55 16.24 И наконец, значение статистики F-включения с 1 и 108 степенями свободы для Х3 равно 7.49. Шаг 4. а) Поскольку все значения статистик /^-удаления и F-включения больше соответствующих принятых минимумов, имеем L = \Хи Хъ Х3, Х4) и I = 4.
5.5. Пошаговый дискриминантный анализ 351 Ь) Для каждой популяции оценки коэффициентов дискрими- нантной функции и постоянные приводятся в следующей таблице: щ w2 0.686 0.535 an 0.140 0.331 0,3 0.013 0.006 аи 212.086 198.934 с, -215.524 -183.856 Таблица классификации имеет вид /^-аппроксимация {/-статистики с 4 и 108 степенями свободы равна 52.39. Для каждой переменной из L значения статистики /•"-удаления с 1 и 108 степенями свободы приводятся в следующей таблице: Переменная Х^ Хг Х3 Xt F-удаления 129.31 8.06 7.49 15.76 Поскольку все значения статистики /•'-удаления больше приня- принятого минимума и все переменные вошли в L, следует перейти к шагу S. Шаг S. «Наилучшее» дискриминантное уравнение задается коэффициентами, полученными на шаге 4. Ниже приводится таблица результатов работы процедуры пошагового дикриминант- ного анализа. ' v~.,~~ Переменная F номер , ' , . v v jj шга включаемая удаляемая' включения удаления 1 *i 131.41 2 X* 17.35 3 Хг 9.55 4 Хг 7.49 Поскольку k = 2, можно применить замечание 5.5.1.1. Оценка линейной дискриминантной функции E.3.26) получается подста- подстановкой коэффициентов и постоянных, найденных на шаге 4. Таким образом, вектор наблюдений х относится к популяции Wit если г = 0.151% — 0.191*а + 0.007*8 + 13.152л;4 =э 31.668, при <7i = Чъ = V,. 1 1 1 1 111 но 109 108 0.458 0.396 0.364 0.340
352 Гл. 5. Методы многомерного статистического анализа Кроме того, на каждом шаге q можно оценить расстояние Махаланобиса D^. Результаты приводятся ниже в таблице. Вто- Второй столбец сооержит ^-аппроксимации точных значений ^-ста- ^-статистики, а в четвертом столбце стоят значения F-статистики для проверки гипотезы Яо: А(?=А4. (Замечание 5.5.1.1. с.) Последний столбец содержит 95-е процентили F-распределения с числом степеней свободы 4 — q и 108. Поскольку значения из четвертого столбца больше соответствующих значений пятого столбца ги- гипотезы Яо: Ах = А4, Яо: Д2 = Д4 и Яо: А3 = А4 отвергаются. Следовательно, все четыре переменные в^о,сят-ана,читедьдый.-аклад в дискриминацию двух популяций" Уровень значимости а=0.05. Шаг q 1 3 4 Г-аппронсимация и 131.41 84.06 63.58 52.39 V 4.95 6.35 7.30 8.05 F 12.25 8.72 7.05 F(l „D - q. 108) 2.7 3.1 3.9 Пример 5.5.2. Клинические эксперименты показывают, что на долю летальных исходов привлечении ожогов влияет целый ряд факторов. Однако традиционно рассматривались только воз- возраст пациента и общая площадь ожога (в %). Предполагая, что дополнительные факторы могут повысить точность предсказания исхода болезни, для построения многофакторной модели были исследованы данные о 1202 ожоговых больных (подробнее см. Lawacki et al. A979)). Исследовалась следующая информация: общие данные (возраст, пол, раса, вес); предшествующие заболе- заболевания (патологии или болезни дыхательных путей, предшествовав- предшествовавшие ожогу); характер ожога (общая площадь ожога, область с ожо- ожогом третьей степени, этиология и расположение ожога); поражение дыхательных путей, анализ газов артериальной крови при поступ- поступлении. Был проведен пошаговый дискриминантный анализ, причем переменные возраст и общая площадь ожога были заведомо введены в дискриминантное уравнение. Из оставшихся переменных про- производился выбор согласно критерию /^-включения. В результате было отобрано шесть наилучших переменных для предсказания исхода болезни. Хх — возраст, Х% — общая площадь ожога (в %), Х3 — РаО2 @ — нормальное, 1 — ненормальное <70 мм рт. ст.), А — поражение дыхательных путей @ — нет, 1 — есть), Хъ — площадь ожога третьей степени (в %) и Хв — предшествовав- предшествовавшие заболевания дыхательных путей @ — не было, 1 —были). Оставшиеся переменные не вносили значимых улучшений в пред- предсказание исхода.
5.5. Пошаговый дискриминантный анализ В силу того что для получения таблиц классификации ожоговых больных в медицине традиционно использовался пробшп- анализ (Finney A971)), с помощью программы GLIM (Nelder A976)) по полученным 6 переменным строилось многофакторное пробит-уравнение. Была получена модель вида Р = Ф (Z), где z == —3.9 + 0.036 (Х1 + Х2) + 0.52Х3 + 0.56Х4 + 0.028Х5 + + 0.40Хв, а Ф — обратная к функции распределения N@, ). Модель была применена для классификации гипотетического пациента 32 лет с общей площадью ожога 44 %, с площадью ожога третьей степени 22 %, не имевшего дополнительных осложнений. Величина Z равна —0.55, и, следовательно, вероятность фаталь- фатального исхода Р равна Ф~х (—0.55) = 0.29. Для этого больного было предсказано выздоровление. В работе Zawacki et al. A979) было показано, что такая шести- факторная модель имеет лучшую способность предсказания, чем классическая двухфакторная. •к Пример 5.5.3. При применении мониторной системы наблю- наблюдения больного было желательно предсказать на основе вектора х = (х0, хи ..., хп)' из п + 1 наблюдений, полученных в разные моменты времени, выздоровеет ли пациент. В байесовской про- процедуре для оценки ковариационной матрицы 2 размера (п + 1) X X (п + 1) и двух векторов средних ^ и ц2 размера (п + 1) X 1 каждый, необходимы большие выборки из популяций выживших и умерших пациентов (замечание 5.3.1.4). Когда число п велико, оценка параметров становится невыполнимой и приходится поль- пользоваться другими методами классификации. В таком случае можно предположить, что для данного пациента изменения вектора наблюдений имеют тренд (например, линейный или экспоненциальный) и структура ковариационной матрицы 2! описывается процессом авторегрессии первого порядка с пара- параметром %. Таким образом, можно значительно уменьшить число оцениваемых параметров. Например, в случае линейного тренда вместо п -\- 1 параметра вектора средних достаточно оценить два параметра вектора коэффициентов р = (Ро, PJ', где ро — началь- начальная точка, а р\ — наклон линии регрессии, описывающей тренд xt по времени t\ t = 0, 1, ..., п. В ряде работ (Azen, Afifi A972 a, b) и Azen et al., A975)) было показано, что заменой вектора наблюдений х вектором р можно I получить эффективную процедуру классификации. Более того, 1 была обоснована замена параметра автокорреляции X нулем, когда :, ее оценка удовлетворяет неравенству \Х\ <^0.6. Это позволяет ' в процессе оценивания применять метод наименьших квадратов, и, таким образом, решаются проблемы, связанные с автокорре- лированностью данных. 12 А. Афифи, С. Эйзен
354 Гл. 5. Методы многомерного статистического анализа Такая процедура классификации была применена для предска- предсказания исхода отравления барбитуратом, глутетамидом, или ме- пробаматом (Atiii et al. A971 b)). В результате пошагового дискри- минантного анализа данных, взятых непосредственно перед смертью у 18 и перед выведением яда из организма у 34 пациентов, было установлено, что «наилучшими» разделителями являются переменная Х1 — систолическое давление (в мм рт. ст.) и^ — рН артериальной крови. Была получена линейная дискриминант - ная функция (так называемый прогностический индекс) z = = 0.0785Х1+ 12.529Х,. Для каждого пациента этот индекс оцени- оценивался через определенные промежутки времени (примерно каждые четыре часа) до смерти или выздоровления пациента. В любой мо- момент времени можно было оценивать состояние пациента по графику zt как некоторую композицию систолического давления и рН. Предполагая, что для каждого пациента изменения кривой zt обусловлены линейным трендом и средний тренд для выживших пациентов отличается от тренда для умирающих, было получено следующее правило классификации: больной относится к популя- популяции выживших пациентов, когда для него выполняется 0.89260 + + 21.0786х > 90.059, где Ьо и Ьх суть оценки начальной точки и наклона кривой наименьших квадратов, аппроксимирующей наблюдения (/, zt), t — 0, 1, .... п. ~k 5.6. Анализ главных компонент Пусть имеется р случайных переменных Xlt ..., Хр с многомер- многомерным, необязательно нормальным, совместным распределением, вектором средних црх1 = (ци ..., цр)' и ковариационной матри- матрицей S^xp = (O;j). Часто требуется определить взаимосвязь между переменными Хи ...,- Хр. Эта взаимосвязь называется структурой зависимости и может быть измерена ковариациями, или, что эквивалентно, дисперсиями и корреляциями между Хх, ..., Хр. В некоторых случаях можно найти линейные комби- комбинации Yu ..., Yq переменных А"], ..., Xp(q<Cp), по которым мо- можно получить структуру зависимости между Хх Хр. Таким образом, получается сжатое описание структуры зависимости, несу- несущее почти всю информацию, содержащуюся в самих переменных. В настоящем разделе рассматривается один из методов анализа структуры зависимости. Он но^ит название анализа главных ком- компонент. Суть метода состоит в том, что ищутся такие линейные комбинации исходных переменных
5.6. Анализ главных компонент 355 ЧТО cov(YtY,) = О, i, j^l,..., р,1ф1, E.6.1) V(Y1)>V(Y2)>--.>V(YP), E.6.2) tv(Yt)=--taU- E-6.3) Из этих формул видно, что переменные Yx, ..., Yp не коррели- рованы и упорядочены по возрастанию дисперсии. Более того, общая дисперсия V = 2?=1а(/ после преобразования остается без изменений. Тогда подмножество первых q переменных Yt будет объяснять большую часть общей дисперсии и, таким образом, получится сжатое описание структуры зависимости исходных переменных. Метод главных компонент состоит в определении коэф- коэффициентов аи, i, j = 1, ..., р. Вначале мы обсудим подробности этого метода в терминах параметров распределений, а затем будут рассмотрены вопросы, связанные с оценкой параметров по выбор- выборкам. Совместное распределение исходных переменных не обяза- обязательно считать многомерным нормальным. Однако такое предпо- предположение удобно, поскольку линейные комбинации нормально распределенных величин имеют в свою очередь нормальное рас- распределение и, следовательно, полностью определяются парамет- параметрами ц и 2. Тогда можно положить ц = @, ..., 0)' и структура зависимости, задаваемая матрицей 2, будет полностью описывать совместное распределение переменных Хъ ..., Хр. Пусть матрица 2 известна и имеем Уг = auXi + ... а1рХр. Требуется найти такие аи, ..., а1р, чтобы величина была максимальной при 2j=1ai;- = 1. (Это условие обеспечивает единственность решения.) Решение аг = (ап, ..., а1р)' называ- называется собственным вектором и соответствует максимальному соб- собственному значению матрицы 2. Это собственное значение равно дисперсии V (Yi). Линейная комбинация Yx = апХг + ... + + а,1рХр называется первой главной компонентой переменных Хъ ..., Хр. Она объясняет 100 V (YJIV процентов общей дис- дисперсии. Положим F2 = а21Х1 + ... + агрХр. Надо найти такие коэф- коэффициенты аг1, ..., а2р, чтобы величина 12*
356 Гл. 5. Методы многомерного статистического анализа р достигала максимального значения при условии 2 а|/ = 1 /=i и cov (Уъ У2) = 2?=1 Б/=1аиа2/а,/ = 0. Первое условие обеспе- обеспечивает единственность решения, а второе — некоррелированность Ух и У2. Решение щ = (а21, ..., а2р)' является собственным век- вектором матрицы S, соответствующим второму по величине собствен- собственному значению. Это собственное значение равно дисперсии V (Y%), а Уа является второй главной компонентой признаков Хи ..., ..., Хр. Первые две главные компоненты объясняют 100 [V (Ух) + + V (Y%)]/V процентов общей дисперсии. После того как полу- получены У1? ..., Yq_lt q = 2, ..., р, найдем переменную Yq = р = 2j aqjXj, такую, чтобы величина р достигла максимального значения при условии Jj a\s = 1 /=i и р р cov(Fm, Yq) --= Y, !¦ aqlamiati --= 0 для m = 1,..., q- — 1. В результате получим aq = (aql, ..., aqp)' — собственный век- вектор матрицы S, соответствующий ^-му по величине собственному значению, которое равно дисперсии V (Yq). Таким образом, Yq будет q-vi главной компонентой и переменные Ylt ..., Yq будут объяснять 1002?=iV (Y^/V процентов общей дисперсии. Можно привести следующую геометрическую интерпретацию анализа главных компонент (см. рис. 5.6.1 для р = 2). Переменные Хи ..., Хр могут быть представлены координатными осями. Начало координат находится в точке ц = (щ, ..., \лр)'. Таким образом, в р-мерном пространстве каждая реализация вектора х = (xlt ..., хру представляется точкой с координатами Хг = = хъ ..., Хр = хр. В анализе главных компонент ищется такой поворот системы координат, чтобы переменная У1? соответствую- соответствующая одной из новых координатных осей, имела максимальную дисперсию, а переменная У2, соответствующая другой оси, была не коррелирорана с Ух и имела бы при этом максимальную диспер- дисперсию. Аналогично переменная Yq, соответствующая новей коорди- координатной оси с q-м номером, должна быть не коррелирована с Yt, У21 •••. У4-1 и иметь при этом максимальную дисперисю, q = 3, ..., р. Пусть / (х) — функция плотности нормального распре- распределения случайного вектора X = (А"ь ..., Хр)'\ тогда неравен- неравенство f (х) < с, где с — некоторая постоянная, определяет область
5.6. Анализ главных компонент 357 р-мерного пространства, называемую эллипсоидом концентрации. Можно показать, что главные компоненты имеют такое же направ- направление, как и оси эллипсоида концентрации. На рис. 5.6.1 переменные Хг и Х2 порождают двумерное про- пространство с центром в точке (fa, fa)- Эллипсоидом концентрации здесь будет эллипс. Первая главная компонента Уг = апХх + f(Xi ±c/ Рис. 5.6.1. Главные компоненты для случая р = 2. + апХ2 определяет направление большой оси эллипса, а вторая главная компонента Y2 = ailX1 + a2i8X2 — малой оси. Когда матрица S неизвестна, можно предположить, что име- имеется случайная выборка xfxl, ..., x?xl, по которой 2 оценива- оценивается выборочной ковариационной матрицей S. Для получения оценок главных компонент следует применить описанную выше процедуру к матрице S. В результате получатся оценки а(/ коэф- коэффициентов a,/, i , j = 1, ..., р. Оценкой q-й главной компоненты р будет вектор Yq= aqiXj, где а9 = {ач1, ..., aqp)' есть q-и собственный вектор матрицы q = 1, ..., р. При геометриче- геометрической интерпретации следует заменить \х1у ..., \хр выборочными средними хг, .... хр. Замечания 5.6.1. 1. Если переменные Хи ..., Хр имеют сов- совместное нормальное распределение, то главные компоненты вза- взаимно независимы. 2. Для любых двух неравных собственных значений V (Yt) и V (Y/) соответствующие собственные векторы образуют прямой угол. Это свойство называется ортогональностью и выражается
358 Гл. 5. Методы многомерного статистического анализа следующими соотношениями: ^pm=\aimaim = О, /, / = 1, ..., р, i Ф \. Если же два собственных значения равны, то соответству- соответствующие собственные векторы можно выбрать так, что и они будут ортогональны. Таким образом, можно считать, что р главных компонент взаимно ортогональны. 3. Для получения главных компонент можно использовать вместо ковариационной матрицы корреляционную. Действительно, когда р переменных измеряются в различных единицах, не имею- имеющих между собой ничего общего, линейные комбинации перемен- переменных бывает трудно интерпретировать. В этом случае может помочь стандартизация каждой переменной, т. е. замена Х( переменной Z, --= (Xj — ц)/а,- или Z,- = (Л",- — x),Sj, i --= 1,. . ., р, поскольку величина Z, безразмерна. Далее следует провести анализ структуры зависимости переменных Z1; ..., Zp, которая задается корреляционной матрицей переменных Хх, ..., ХР. За- Заметим, что при этом общая дисперсия V равняется числу перемен- переменных р. В общем случае главные компоненты, получаемые по кор- корреляционной матрице, отличны от главных компонент ковариаци- ковариационной матрицы. На самом деле всякое линейное преобразование исходных переменных приводит к новым главным компонентам. 4. Корреляция между переменной Хс и главной компонентой Yt задается величиной ац [V(Y^Y^la,, где at — стандартное от- отклонение переменной Х?. Следовательно, для сравнения вкладов переменных Хи ..., Хр в Yt следует сравнить величины a^/fy, i= 1, ..., р. Когда известна корреляционная матрица, достаточно сравйить коэффициенты ау[. В этом случае самый большой коэф- коэффициент показывает, какая переменная внесла наибольший вклад в /-ю главную компоненту. 5. Впервые анализ главных компонент появился в работе Pearson A901). Там решалась задача нахождения прямой, сумма квадратов перпендикуляров на которую из точек-реализаций вектора наблюдений была бы минимальна. Решением оказалась прямая, проходящая через конец вектора средних (хи ..., хг) и точку (аи, ..., а1Р), координаты которой равны оценкам соот- соответствующих коэффициентов первой главной компоненты. Следует заметить, что главные компоненты дают экономию только в описании группы переменных, так как для определения значений главных компонент, соответствующих реализации х = = (х.х, ..., кр)', необходимо измерять все р признаков. Вместе с тем процедура пошагового дискриминантного анализа действи- действительно уменьшает число переменных, значения которых надо определять. Пример 5.6.1. В отделении интенсивной терапии были собраны данные о 113 пациентах в критическом состоянии. Измерялось
5.6. Анализ главных компонент 359 Таблица 5.6.1 Коэффициенты первых пяти главных компонент для примера 5.6.1 Переменная 12 3 4 5 Возраст Систолическое. Ъавление Среднее артериальное "давление - Частота сердечных сокращений - Диастолической давление СреЪнес венозное давление Логарифм сердечного индекса Логарифм времени появления ~ Логарифм среднего времени циркуляции Диурез Логарифм индекса объема плазмы Логарифм эритроцитарного , ' индекса Гемоглобин Гематонрищ 0.0206 0.1013. 0.1670 0.0244 0.2229 ® 0.0400 0.3701 ® 0.3101© 0.3708® 0.0767 0.3125© 0.2006 0.4467 ф 0.4423 ® -0.2806® 0.4757 ® 0.4988 ® -0.0352 0.4679 ® -0.1023 0.1630 -0.2686© -0.2745© 0.1986 -0.0333 0.0205 0.0166 0.0122 0.4211® 0.3127 0.2168 -0.4000© 0.1269 0.2286 0.1378 0.3416® 0.1939 -0.2661 0.3559® 0.1425 -0.1760 -0.1662 0.0267 0.1050 0.1045 0.5175© 0.1092 0.5637 ® -0.0681 -0.1659 0.0061 -0.5002® -0.1521 -0.2600 -0.0587 -0.0574 0.1255 0.0750 0.0835 -0.2238 0.0764 -0.1177 -0.2945 0.1506 0.1499 0.2111 -0.3662 -0.6958® -0.2305 -0.2326 14 переменных: возраст, артериальное и венозное давления, кро- кровоток, частота сердечных сокращений, ... (табл. 5.6.1). Четырнад- Четырнадцать главных компонент определялись программой, использую- использующей в качестве исходной информации корреляционную матрицу. Были получены следующие собственные значения: Компонента 1 2 3 4 5 6 7 Собственное значение 3.876 3.159 1.379 1.234 1.102 0.968 0.730 Компонента 8 9 10 11 12 13 14 Собственное значение 0.535 0.486 0.270 0.141 0.079 0.022 0.018 Поскольку общая дисперсия V равна 14 (сумме собственных значений), первая компонента объясняет 100 C.876)/14 = 27.7 % всей дисперсии, вторая 100 C.159)/14 = 22.6 % и т. д. Доля об- общей дисперсии, накопленная соответствующим числом первых главных компонент, приводится в следующей таблице: Число компонент Накопленная доля Число компонент Накопленная доля 0.28 2 0.50 0.93 0.96 3 0.66 10 0.98 4 0.69 11 0.99 5 0.77 12 КОО 6 0.84 13 1.00 7 0.89 14 1.00 Для иллюстрации предположим, что 0.77 — достаточная доля дисперсии для описания структуры исходных переменных. Тогда первые пять главных компонент дают достаточно хорошее представ- представление об этих переменных. Коэффициенты aih i = 1, ..., 5, / = 1, ..., 14, приведены в табл. 5.6.1. Следовательно, первая компонента имеет вид: Yx = —0.0206 (возраст) + ... —0.4423
360 Гл. 5. Методы многомерного статистического анализа (гематокрит). Аналогичным образом можно записать и другие компоненты. Для выделения информации, содержащейся в этих компонентах, можно воспользоваться замечанием 5.6.1.4. Поскольку корреля- корреляция между Xt и Yj выражается величиной loit i = l, Л .,44, / = 1, .... 5, выберем переменные, имеющие коэффициенты корреляции с глав- главными компонентами по абсолютной величине ^0.4. Например, [V (Yi)}^2 — C.876I/2 = 1.97 и переменная, соответствующая количеству гемоглобина в крови, имеет с первой главной ком- компонентой Yx коэффициент корреляции по модулю, равный | 1.97 (—0.4467) | = 0.88. Семь переменных, помеченные в первом столбце таблицы номерами в кружочках, удовлетворяют правилу отбора. Аналогично, шесть переменных, помеченные во втором столбце, имеют коэффициенты корреляции с Уг, превосходящие 0.4 и т. д. Характер помеченных переменных подсказывает интер- интерпретацию каждой компоненты. Ylt например, можно считать компонентой, характеризующей состав крови, F2 — давление и кровоток, Y3 — возраст, У4 — диурез, Yb — эритроцитарный индекс. 5.7. Факторный анализ В предыдущем разделе был приведен способ описания структуры зависимости р исходных переменных Хи ..., Хр, имеющих сов- совместное нормальное распределение с вектором средних ц = = (щ, ..., цр)' и ковариационной матрицей 2рХр = (аи)- Было показано, что главные компоненты можно записать в виде линей- линейных комбинаций исходных переменных: У г = ? «I,*/, • • •, УР "-= ? %{Х,. E.7.1) Эти переменные не коррелированы и упорядочены по убыванию дисперсии 7 (У,), i = 1, ..., р. Кроме того, общая дисперсия V не меняется в результате перехода от переменных Хи ..., Хр к Yu .... Yp, т. е. V=tou^tv(Yi). E.7.2)
5.7. Факторный анализ 361 Преобразуем теперь систему E.7.1) так, чтобы каждая из исход- исходных переменных была выражена линейной комбинацией главных компонент: i= 2j Pij'j'- • ¦> ^р = 2j Рр/' /1 (о./.da) где Р// — некоторые постоянные, г, / = 1, ..., р. Можно показать, что р\7 = а;-,. для /, / = 1, ..., р и р р Хх = 2j anYj> •¦• . ^р = 2j а/рУу- E.7.3b) Из этой системы, называемой моделью главных компонент, сле- следует, что ои - Е ««V (К*) аА/, /^/, E.7.4) а« = ? «2,К (П). i,j=l,...,p. E.7.5) Эти две формулы определяют новую структуру или «факторизацию» дисперсий и ковариаций исходных переменных. Таким образом, дисперсии и ковариаций представляются в виде функций от aty- и дисперсий главных компонент. В настоящем разделе рассматривается более общий подход к преобразованиям исходных переменных. Для этого вводится факторная модель т т Хг = 23 KjFj + <?i,..., Хр = X KpjFj + ep, E.7.6) где %ц — постоянные, а /п, как правило, меньше р. Переменные Flt ..., Fm называются общими (первичными, или латентными) факторами, поскольку они используются для представления всех р исходных переменных. Предполагается, что общие факторы не коррелированы и имеют единичные дисперсии. Переменные еи ..., ер называются специфическими (характерными) факторами, поскольку для каждой исходной переменной X,- определяется своя переменная е;, i = 1, ..., р. Предполагается, что характер- характерные факторы не коррелированы и что V(ei) = xi, i = l,...,p, E.7.7) где т,- — так называемая специфическая дисперсия, или специ- специфичность i-й исходной переменной. Переменные F{ и еу- предпо- предполагаются некоррелированными, i = 1, ..., т, j = 1, ..., р. По- Постоянные %ij называются факторными нагрузками-
362 Гл. 5. Методы многомерного статистического анализа Теперь можно записать факторизацию дисперсий и ковариаций исходных переменных в виде <*ц = *-<Л-1 + • • • + A-mA/m, i Ф U E.7.8) о« = *?Н ЬС + т*. /,/=!,..., р. E.7.9) Эти формулы — аналоги соотношений E.7.4) и E.7.5.). Величина т S ^1/ называется общностью t'-й исходной переменной и равна разности ее вариации и специфичности, i = 1, ..., р. Таким образом, р компонент модели главных компонент можно рассматривать как р общих факторов, описывающих струк- структуру зависимости р исходных переменных, в то время как т <<р общих факторов факторной модели описывают основную часть структуры зависимости, а специфические факторы — оставшуюся часть. Другими словами, в модели главных компонент вся диспер- дисперсия приписывается р общим факторам, тогда как в факторном ана- анализе дисперсия каждой исходной переменной делится на две части: дисперсию, обусловленную наличием общих факторов (общность), и дисперсию, обусловленную вариацией каждой исходной пере- переменной (специфичность). Техника факторного анализа направлена на оценку факторных нагрузок "кц и специфических дисперсий т,-, i = 1, ..., р, / = = 1, ..., т, а также на определение для каждого объекта значе- значений общих факторов с помощью значений исходных переменных, т. е. на вычисление так называемых факторных значений. После того как факторные нагрузки найдены, остается еще задача «наи- «наилучшей» интерпретации общих факторов. Для этого используется метод вращения факторов, который из-за субъективности является наиболее спорной частью факторного анализа. В силу того что факторный анализ уже выделился в особую науку, данный раздел не может претендовать на его всестороннее рассмотрение, которое можно найти в работах Нагтап A967) и Thurstone A945). В разд. 5.7.1 рассматривается метод главных факторов для определения факторных нагрузок. Он часто исполь- используется в программах, несмотря на то что применение метода наи- наибольшего правдоподобия может показаться более оправданным. Подробный анализ метода наибольшего правдоподобия приводится в работе Morrison A967). В разд. 5.7.2 рассматриваются некоторые способы вращения факторов, а разд. 5.7.3 посвящен оценке зна- значений факторов. Замечание 5.7.1. * Модели, задаваемые выражениями E.7.3) и E.7.6), можно компактно записать в матричных обозначениях. Главные компоненты являются решениями уравнения Y = AX,
5.7. Факторный анализ 363 где ¦Таким образом, модель главных компонент записывается в виде X = BY, где Врхр = А = А', поскольку матрица А ортогональна. Ко- Ковариационную матрицу представим как S = A'VA, где '(У,) О О V(Y2) 6 6 Факторная модель принимает вид X = AF + е, где Лрхт = (ЯG), FmX1 = (F, ,Fm)' и epxl = (eu .. ., Тогда ковариационную матрицу запишем в форме где т, О О т2 6 6 5.7.1. Определение главных факторов В отличие от предыдущего раздела, где задача сначала рассматри- рассматривалась в терминах параметров популяций и только потом вводи- вводились выборочные оценки, в этом разделе сразу предполагается наличие случайной выборки xfxl, ..., x?xl из многомерного нормального распределения с вектором средних црх1 = (щ, ... ..., цр)' и ковариационной матрицей 2]рХр = (<?//)• Пусть SPXp = = (s(/) — выборочная ковариационная матрица и RPXp = (rti) — выборочная корреляционная матрица, где г,у =s/;/(s,,s//I/2, i, j = 1, ..., p. Первой задачей факторного анализа является определение по матрице S или R оценок 11} факторных нагрузок Ки и оценок tt
364 Гл. 5. Методы многомерного статистического анализа специфических дисперсий xL, i = 1, ..., р, j = 1, ..., т. Следует заметить, что, как правило, предпочтение отдается матрице R, поскольку исследователи преимущественно работают со стандарти- стандартизованными переменными (см. замечание 5.6.1.3). Казалось бы, что для определения упомянутых оценок теоре- теоретически оправданно применение метода наибольшего правдопо- правдоподобия. Однако этот метод сложен для реализации на ЭВМ и поэ- поэтому он не получил широкого распространения. Существует ряд методов, применимых на настольных калькуляторах, самый из- известный из которых — центроидный метод. Кроме того, имеется групповой центроидный метод, множественный групповой метод, метод сокращения ранга, метод ортогонализации, методы типа метода Якоби, методы сокращения порядка. Их описание можно найти в работе Horst A965). С появлением ЭВМ чаще всего стал использоваться метод оп- определения главных факторов, который применим как к выборочным ковариационным, так и корреляционным матрицам-. В этом методе прежде всего определяются оценки р главных компонент Yi=ia,,Xjt i-l,...,p. E.7.10) Напомним, что р главных компонент взаимно некоррелированны и дисперсия V (У,-) t-й компоненты равна г-му по величине соб- собственному значению выборочной ковариационной или корреля- корреляционной матрицы с соответствующим собственным вектором а, = = (ап, ..., alp)', i = 1, ..., р. Имеет место следующая система уравнений относительно исходных переменных: Xt=f-al,Yi, i=l,...,p. E.7.11) Согласно методу определения главных факторов, в качестве об- общих факторов берется т первых главных компонент, взвешенных следующим образом: ^Ц, j = l,..., т. E.7.12) Оценками факторных нагрузок служат величины i=l,...,p, j = l,....m, E.7.13) а оценки специфических факторов задаются равенствами t anYh i =\,...,p. E.7.14)
S.7. Факторный анализ Таким образом, получается следующая оценка факторной модели: т X, = Г U,FS + eh i=l,...,p. E.7.15) Здесь все общие факторы имеют единичные дисперсии и взаимно не коррелированы. Кроме того, они не коррелированы и со специ- специфическими факторами. Однако следует заметить, что cov (eh ek) = У ajfljkV (У,-), i,k=l,...,p, 1ф k. E.7.16) /=m+l Поскольку ковариации специфических признаков необязательно равны нулю, имеет место нарушение первоначальных предполо- предположений модели. Оценки общностей hf и специфичности tt для Xt, i = 1, ... ..... р, имеют соответственно вид E.7.17) U= ? <*}tV(Y,). E.7.18) /=m+l Для решения этой задачи существуют специальные программы. В качестве исходной информации используется 1) число общих факторов, 2) вид матрицы, к которой следует применить фактор- факторный анализ, 3) оценки общностей и максимальное число итераций для определения общностей. Другие возможности задания вход- входных параметров рассматриваются в следующем разделе. Ниже описываются некоторые подробности использования входной ин- информации. 1) Число общих факторов определяется целым числом т или постоянной с. В последнем случае т полагается равным чис- числу собственных значений, превосходящих с. 2) Факторный анализ можно применять к а) ковариационной матрице, Ь) ковариационной матрице относительно начала коор- координат, с) корреляционной матрице, d) корреляционной матрице относительно начала координат или е) матрице факторных нагру- нагрузок. 3) Напомним, что в анализе главных компонент сохраняется дисперсия, содержащаяся в общих факторах (главных компонен- компонентах). В факторном анализе часто требуется получить оценки об- р щих факторов, сохраняющие общность Jj Ш, или всю дисперсию 1=1 общих факторов. Это нужно, например, для приложений в пси- психологии и в задачах, связанных с определением культурного уровня. Поэтому пользователь может определить начальные оценки общностей всех исходныхпеременных и максимально донустимое
366 Гл. 5. Методы многомерного статистического анализа число итераций, обеспечивающее сходимость к суммарной об- общности. Эти оценки подставляются вместо диагональных элементов матрицы, подлежащей факторному анализу. Ими могут быть а) квадраты множественных коэффициентов корреляции при ис- использовании корреляционной матрицы, или дисперсии, получен- полученные в результате регрессии для ковариационной матрицы, Ь) на- наибольшие абсолютные значения элементов по строкам, с) оценки, полученные из предварительного анализа. Получение оценок факторных нагрузок и новых общностей составляет шаг итерации. На следующем шаге диагональные элементы матрицы, подлежащей факторному анализу, заменяются на полученные общности. Затем заново определяются факторные нагрузки и общности. Процесс повторяется, пока не будет превышено максимально допустимое число итераций, или пока максимальная разность общностей, полученных на соседних шагах итерации, не станет меньше задан- заданного числа. Пользователь может оставить диагональные элементы без изменений и задать только допустимое число итераций, обе- обеспечивающее .сходимость к суммарной общности. Замечания 5.7.2. 1. При определении числа т общих факто ров пользователь может руководствоваться, например, следую- следующими критериями. a) Число существенных факторов можно оценить из содержа- содержательных соображений. b) При использовании обычной корреляционной матрицы реко- рекомендуется в качестве т брать число собственных значений, боль ших либо равных единице. c) Как и в анализе главных компонент, можно выбрать числе факторов, объясняющих определенную часть общей дисперсии или суммарной общности. 2. Статистические исследования показывают, что диагональ ные элементы исходной матрицы менять не рекомендуется. Однакс если требуется оставить суммарную общность неизменной, ка* правило, в качестве оценок диагональных элементов матрицы ис пользуются квадраты множественных коэффициентов корреляции а для ковариационной матрицы — дисперсии, полученные в ре . зультате регрессии. 3. Следует помнить, что в зависимости от выбора исходной матрицы могут получаться различные факторы. 4. Заметим, что, если переменные Xt стандартизованы (т. е используется матрица R), выборочными корреляциями между X и F; будут согг(Х„ F,)--^lih i=l,...,p, /=l,...,m. Следовательно, для интерпретации каждого фактора имеет смысу пользоваться переменными с относительно большими по абсолют
Корреляционная матрица Переменная Систолическое давление Среднее артериальное "давление Частота сердечных сокращений Диастолицеское давление Среднее венозное давление Логарифм сердечного индекса Логарифм времени появления Логарифм среднего времени циркупяции Диурез Логарифм индекса оозема плазмы Логарифм эритроцитарного индекса Гемоглобин Тематакрит для примера 5 SP 1 1.00 0.90 -0.10 0,81 -0,03 0.12 -0.13 -0,17 0,13 -0.08 0.09 0.09 0.09 MAP ¦у 1.00 -0.07 0.95 -0.07 0.03 -0.11 -0.11 0.15 -0.17 0.11 0.21 0.21 .7.1 HR 3 1.00 0.00 0.05 -0.05 -0.15 0.02 -0.12 -0.13 -0.02 0.09 0.06 DP 4 1.00 -0.13 -0.07 -0.04 -0.00 0.12 -0.27 0.14 0.33 0.32 MVP 5 1.00 -0.05 -0.01 0.14 -0.23 0.13 -0.06 -0.09 -0.08 L(CI) 6 1.00 -0.49 -0.68 0.09 0.54 -0.11 -0.48 -0.48 L(AT) 7 1.00 0.84 -0.21 -0.16 0.20 0.39 0.40 L(MCT) 8 ¦ 1.00 -0.18 -0.28 0.21 0.47 0.49 uo 9 1.00 0.04 -0.05 -0.07 -0.09 L(PVI) 10 1.00 0.04 -0.49 -0.50 Таблица L(RCI) Hgb 11 .12 1.00 0.38 1.00 0.39 0.97 5.7.1 Hct 13 1.00
368 Гл. 5. Методы многомерного статистического анализа ной величине нагрузками, так как они больше всего коррелированы с этим фактором. Пример 5.7.1. Были собраны данные о р = 13 показателях для 113 больных при их поступлении в отделение интенсивной терапии, находящихся в критическом состоянии. В число показате- показателей входили первоначальные измерения артериального и веноз- венозного давлений,'кровотока, частоты сердечных сокращений и объе- объемов составляющих крови (табл. 5.7.1). Для определения главных факторов программа факторного анализа применялась к выбороч- выборочной корреляционной матрице. Были рассмотрены следующие слу- случаи. Пример 5.7.1а. Диагональные элементы корреляционной ма- матрицы были оставлены без изменений, а допустимое число итера- итераций задавалось равным единице. Соответственно главным компо- компонентам были получены следующие собственные значения: Компонента 12 3 4 5 6 7 Собственное значение 3.875 2.980 1.269 1.233 1.095 0.766 0.711 Компонента 8 9 10 11 12 13 Собственное значение 0.507 0.290 0.150 0.084 0.023 0.019 Накопленные доли суммарной дисперсии по соответствующим ком- компонентам имеют вид Компонента 12 3 4 5 6 7 Накопленная доля 0.30 0.53 0.62 0.72 0.80 0.86 0.92 Компонента 8 9 10 11 12 13 Накопленная доля 0.96 0.98 0.99 0.99 1.00 1.00 Предполагалось, что факторы должны соответствовать давлениям, объемам и составляющим крови. Поэтому число т было взято равным 3. Полученные оценки факторных нагрузок приводятся в табл. А. Так, нагрузка 1п = 0.21 есть коэффициент корреляции между систолическим давлением и первым фактором, 1и = 0.88 есть коэффициент корреляции той же переменной со вторым фактором и т. д. Для интерпретации факторов рассмотрим нагрузки, боль- большие некоторого порогового значения, например г = 0.4. В табл. А эти нагрузки помечены цифрами в кружочках. Первый фактор за- зависит главным образом от восьми из 13 переменных; второй фак- фактор зависит существенным образом от артериальных давлений и кровотока; третий фактор включает в себя частоту сердечных сокращений, время появления и индекс количества плазмы. Эти факторы не поддаются простой интерпретации. Как будет видно из следующего раздела, здесь может помочь метод вращения фак- факторов.
5.7. Факторный анализ 369 Таблица А Нагрузки для факторов 1—3 Переменная 1 SP 2 MAP 3 HR 4 DP 5 MVP 6 L(CI) 7 L(AT) 8 L(MCT) 9 UO 10 L(PVI) 11 L(RCI) 12 Hgb 13 Hct 1 0.21 0.33 0.05 0.45® -0.07 -0.70® 0.61® 0.71® -0.13 -0.61 ® 0.40® 0.87© 0.88 ф 2 0.88© 0.90© -0.08 0.83® -0.18 0.33 -0.44© -0.48® 0.31 -0.03 0.03 -0.00 -0.01 3 -0.22 -0.13 0.59® -0.04 -0.35 -0.10 -0.42® -0.26 , 0.18 -0.52© -0.32 0.15 0.13 Пример 5.7.1b. В данном случае, согласно замечанию 5.7.2.1, выбираются общие факторы, соответствующие собственным зна- значениям, большим либо равным единице. Из анализа собственных значений, приведенных в примере 5.7.1 а, видно, что т = 5. Первые три фактора, такие же, как и в предыдущем примере. Нагрузки 4-го и 5-го факторов приводятся в табл. В. Если взять в качестве порога г = 0.4, то 4-й фактор будет зависеть главным Таблица В Нагрузки для факторов 4—5 Переменная 1 2 3 4 5 б 7 8 9 10 11 12 13 SP MAP HR DP MVP L(CI) L(AT) L(MCT) UO L(PVI) L(RCI) Hgb Hct 4 0.15 0.14 0.48® 0.13 0.71® -0.06 -0.12 0.05 -0.59 © -0.07 -0.23 -0.09 -0.08 5 -0.09 -0.09 0.33 -0.07 -0.03 0.34 -0.20 -0.21 -0.22 0.31 0.69® 0.26 0.26
370 Гл. 5. Методы многомерного статистического анализа образом от частоты сердечных сокращений, венозного давления и диуреза, а 5-й фактор — от эритроцитарного индекса. За исклю- исключением пятого фактора все еще трудно интерпретировать получен- полученные результаты. Оценки общностей для двух случаев, приведенных выше, содержатся в табл. С. Заметим, что при т = 3 переменные 5, Таблица С Оценки общностей Переменная 1 2 3 4 5 6 7 8 9 10 11 12 13 SP MAP HR DP MVP L(CI) L(AT) L(MCT) UO L(PVI) L(RCI) Hgb Hct m = 3 0.87 0.95 0.37 0.91 0.17 0.62 0.76 0.81 0.15 0.66 0.27 0.79 0.80 m = S 0.90 0.97 0.71 0.93 0.67 0.74 0.81 0.86 0.55 0.76 0.80 0.87 0.87 9 и 11 имеют общности меньше 0.3, тогда как при т = 5 все общности больше 0.5. Этот факт подтверждает, что 1) общности (дисперсии, объясняемые общими факторами) увеличиваются с ростом т и 2) влияние общих факторов на разные исходные пе- переменные различно. Пример 5.7.1с. В этом примере демонстрируется эффект изме- изменения диагональных элементов выборочной корреляционной мат- матрицы. Диагональный элемент с номером i заменялся на квадрат ' множественного коэффициента корреляции Xt с остальными пере- переменными. Число итераций было взято равным единице, а число общих факторов т = 3. В силу того что матрица R была изменена, собственные значения, накопленные доли дисперсии и факторные нагрузки получились отличными от двух предыдущих случаев. В табл. D приводятся факторные нагрузки с соответствующими квадратами множественных коэффициентов корреляции и оцен- оценками общностей. При том же пороговом значении г=0.4 первый фактор взвешивается преимущественно по тем же восьми перемен- переменным, что и в предыдущих примерах; второй фактор содержит артериальное давление и кровоток; третий фактор сильнее всего коррелирован с кровотоком. Два первых фактора получились по-
5.7. Факторный анализ 371 Общие результаты Переметая 1 SP 2 MAP 3 HR 4 DP 5 MVP 6 L(CI) 7 L(AT) 8 L(MCT) 9 UO 10 L(PVI) 11 L(RCI) 12 Hgb 13 Hct 1 0.24 0.37 0.03 0.49G) -0.06 -0.64® 0.58© 0.68 C) -0.09 -0.55® 0.43® 0.88© 0.89 Ф Фактор 2 0.85© 0.89 ф. -0.06 0.81® -0.13 0.32 -0.45© -0.50® 0.23 0.00 0.00 -0.05 -0.06 Таблица D Множественный иценни 3 0.23 0.17 -0.23 0.10 0.20 -.0.08 0.48A) 0.40© -0.08 0.22 -0.02 -0.36 -0.35 R* 0.85 0.96 0.22 0.94 0.28 0.63 0.81 0.86 0.18 0.50 0.26 0.96 0.96 общностей 0.84 0.98 0.06 0.92 0.06 0.53 0.78 0.89 0.07 0.36 0.11 0.93 0.93 хожими на соответствующие факторы из рассмотренных ранее случаев, для третьего фактора это неверно. Оценки общностей в целом меньше, чем при использовании просто корреляционной матрицы. 5.7.2. Вращения факторов Следующим шагом после определения факторных нагрузок явля- является интерпретация каждого фактора. Для этого можно восполь- воспользоваться неоднозначностью определения факторов. Полученные факторы F\R\ ..., F^f' можно заменить их линейными комбина- комбинациями Fb ..., Fm, которые взаимно некоррелированны и имеют единичные дисперсии. Таким образом, имеется бесконечное мно- множество наборов факторов, удовлетворяющих данной модели. Процедура получения нового набора факторов называется ортого- ортогональным вращением факторов. После вращения модель может быть записана в виде = 1 р, E.7.19) где постоянные сГ1 равны нагрузкам новых факторов. Следует заметить, что в результате ортогонального вращения факторов общность каждой исходной переменной Xt остается без изменения, т. е. y=i ,-=\ E.7.20)
372 Гл. 5. Методы многомерного статистического анализа Постоянные т С[: = 2j HkQkii i — 11 • • • i P> / = 1 > • • • > "^i E.7.21) ft=i где qkj — постоянные, k = 1, ..., т,Ч j = 1, ..., т. Для об- облегчения интерпретации факторов эти'лгостоянные выбираются так, чтобы результирующие нагрузки имели простую структуру. Грубо говоря, структура факторных нагрузок считается простой, когда большинство из ci} не слишком сильно отличается от нуля и лишь некоторые из них имеют относительно большие значения. Целью процедуры вращения является представление каждой исходной переменной одним или небольшим числом факторов. Нагрузки остальных факторов близки к нулю (Thurstone A945)). Задача интерпретации факторов значительно облегчается полу- получением простой структуры (напомним, что, согласно замечанию 5.7.2.4, каждая нагрузка равна коэффициенту корреляции между исходной переменной и соответствующим фактором). В факторном анализе существует много графических и анали- аналитических методов вращения для получения простой структуры. Превосходный обзор этих методов содержится в работе Наг man A967). В аналитических методах для получения простых струк- структур факторных нагрузок минимизируется так называемая целе- целевая функция, зависящая от сц Для ортогонального вращения обы- обычно используется функция E.7.22) где 0 < у < l. При 7 = 0 вращение, получаемое в результате минимизации функции G, называется ч-квартимакс». Можно показать, что мини- минимизация G в этом случае эквивалентна максимизации где
5.7. Факторный анализ 373 Величина, определяемая выражением E.7.23), есть не что иное, как дисперсия квадратов всех факторных нагрузок. Таким обра- образом, метод «квартимакс» максимизирует дисперсию квадратов факторных нагрузок, т. е. выбираются факторные нагрузки с достаточно большим диапазоном значений. При этом большие значения нагрузок увеличиваются, а маленькие становятся еще меньше, и в результате каждый вектор связывается с возможно меньшим числом исходных переменных. При у = 1 метод вращения носит названием «варимакс». Этот метод применяется особенно часто. Можно показать, что в этом случае минимизация G эквивалентна максимизации Х2?4-?/J. E-7.25) где р 2^ /=1 т- E>7-26) Выражение E.7.25) есть сумма дисперсий квадратов факторных нагрузок по каждому столбцу. Таким образом, метод «варимакс» максимизирует разброс квадратов нагрузок для каждого фактора, что приводит к увеличению больших и уменьшению малых значе- значений факторных нагрузок. Но в этом случае простая структура по- получается для каждого фактора в отдельности, тогда как в методе «квартимакс» простая структура определяется для всех факторов одновременно. До сих пор рассматривались только ортогональные вращения общих факторов. Существует мнение, что важнее получить про- простую структуру факторных нагрузок, чем сохранить ортогональ- ортогональность факторов. Поэтому условие некоррелированности факторов ослабляется и ищутся коррелированные факторы F\R), ..., F^ с единичными дисперсиями, являющиеся линейными комбина- комбинациями факторов Flt ..., Fm. Такой набор факторов не удовлетво- удовлетворяет факторной модели E.7.6). Процедура получения таких факторов называется косоугольным вращением. Модель, получаю- получающаяся в результате вращения, еще может быть представлена урав- уравнениями E.7.19) с постоянными ctj, i = 1, ..., р, j = 1, ..., т., задаваемыми формулой E.7.21). Поскольку полученные факторы могут быть коррелированными, имеется более широкая область изменения постоянных 'qki, k, j = 1, ..., т, и в свою очередь больший выбор ctj.
374 Гл. 5. Методы многомерного статистического анализа Аналитические методы определения простых факторных нагру- нагрузок с помощью вращений, минимизирующих функцию G (см. E.7.22)), называются прямыми методами «облимин» (подробности см. Jennrich, Sampson A966)). В работе Harman A967, с. 336) предлагается изменять у от —оо до 0. Чем меньше у, тем более коррелированными будут полученные факторы. При 7 = 0 полу- получается прямой метод «квартимин», представляющий собой косо- косоугольный аналог метода «квартимакс». Однако, поскольку не требуется некоррелированности факторов, этот метод не сво- сводится к максимизации дисперсий квадратов факторных нагрузок E.7.23). Прямые методы «облимин», однако, не были первыми методами косоугольного метода вращения факторов. Чтобы дать представ- представление о том, как исторически развивались эти методы, введем несколько новых понятий. 1) Пусть F[R\ ..., FlnR)— результаты вращения факторов, тогда р х m-матрица корреляций между ними и исходными пере- переменными Хг, ..., Хр называется факторной структурой. Следует заметить, что если факторы, полученные в результате вращения, не коррелированы, то факторная структура идентична матрице факторных нагрузок. 2) Каждому фактору F\R), i — 1, ..., т, можно поставить в соответствие фактор Gt не коррелированный с F)R\ / = 1, ..., т, j ф i. Величины Gb ..., Gm называются вторичными факторами и говорят, что они биортогональны факторам F[R\ ..., fif' (Thurstone A945)). Заметим, что если факторы F\R\ ..., F[R) не коррелированы, то G,- = F\R\ i — 1, ..., т. 3) Матрица размера р X т, у которой элементом uj;- служит коэффициент корреляции между исходной переменной Xt и вто- вторичным фактором Gj, i — 1, ..., р, j = 1, ..., т, называется структурой вторичных факторов (или просто вторичной струк- структурой). Если факторы, полученные в результате вращения, не коррелированы, то вторичная факторная структура совпадает с факторной структурой. Исторически дело обстояло так, что посредством ортогональ- ортогональных вращений пытались найти простую факторную структуру (иногда называемую простой структурой), тогда как с помощью косоугольных вращений искали простую вторичную структуру. Таким образом, при косоугольных вращениях минимизируется целевая функция
5.7. Факторный анализ 375 где vu — corr (Xt, Gj) меняется от 0 до 1. Аналитические методы, в которых ищется простая вторичная структура, называются (непрямыми) методами «облиминъ. Такие ме- методы могут быть связаны с прямыми методами тблиминъ ра- равенствами vu = djCfj, где dj постоянные, i = 1, ..., р, j = 1, .... m. При у = 0 получается (непрямой) метод квартимин, при у = 1/2 — (непрямой) «биквартимин» и при у = 1 — (непрямой) «коваримин». Координатные оси после вращения наиболее сильно отличаются от прямоугольных при у — 0 и близки к ним при у = 1 (Нагтап A967, с. 326)). Замечание 5.7.3. 1. Усовершенствованная программа фактор- факторного анализа из ПСП позволяет пользователю выбирать способ вращения из совокупности следующих возможных методов: а) вращение не требуется, Ь) ортогональные вращения, с) пря- прямые вращения «облимин» (косоугольные вращения для получения простой структуры факторных нагрузок), или d) (непрямые) вращения «облимин» (косоугольные вращения для упрощения вторичной структуры). Кроме того, можно будет задавать значе: ние у для целевой функции G и максимальное допустимое число вращений. Вращения выполняются заданное число раз, или до тех пор, пока отношение изменения функции G к ее начальному значению не станет меньше некоторой заранее заданной вели- величины. 2. Дальнейшее усовершенствование состоит в том, что фактор- факторные нагрузки Cjj могут быть «нормированы» заменой их отношени- отношениями Cjjlhi, i = 1, ..., р, j = 1, ..., т. Этот прием называется нормировкой Кайзера. В этом случае каждая переменная будет вносить вклад соответственно своей общности (Kaiser A958)). Пример 5.7.1 (продолжение). Для облегчения интерпретации факторов, полученных во всех трех случаях, были применены методы вращения факторов. Число вращений было ограничено 50. Результаты приводятся ниже. Пример 5.7.1а. Три фактора были подвергнуты вращению «варимакс». Полученные факторные нагрузки приводятся в таб- таблице. Интерпретация факторов действительно упростилась .В част- частности, фактор F[^ включает в себя кровоток и последние три переменные. Он может быть назван фактором кровотока и состава крови. Второй фактор сильно коррелирован с тремя переменными, соответствующими артериальным давлениям, и может быть наз-
376 Гл. 5. Методы многомерного статистического анализа ван фактором артериального давления. И наконец, /*зК> можно интерпретировать как фактор объема крови. Переменная 1 2 3 4 5 6 7 8 9 10 11 12 13 SP MAP HR DP MVP L(CI) L(AT> L(MCT) UO L(PVI) L(RCI) Hgb Hct 1 -0.08 -0.04 -0.22 0.04 0.20 -О.бЗф 0.86© 0.88© -0.32 -0.20 0.46© 0.60© 0.61® Фактор 2 0.93© 0.97© -0.19 0.93® -0.12 0.08 -0.11 -0.14 0.21 -0.13 0.23 0.26 0.26 3 -0.08 0.06 0.53® 0.21 -0.34 -0.48® -0.02 0.17 0.08 -0.78® -0.05 0.60© 0.59® Пример 5.7.1b. Было произведено вращение методом «вари- макс» пяти полученных ранее факторов. Первые три столбца факторных нагрузок после вращений отличаются от соответству- соответствующих нагрузок из примера 5.7.1а. Полученные факторные нагру- нагрузки приводятся в таблице. Переменная 1 2 3 4 5 6 7 8 9 10 И 12 13 SP MAP HR DP MVP L(CI) L(AT> L(MCT) UO L(PVI) L(RC1) Hgb Hct 1 -0.11 -0.01 -0.08 0.10 0.03 -0.85© 0.78® 0.88® -.0.15 -0.61© 0.08 0.64© 0.65® 2 0.94® 0.98© -0.10 0.95© -0.00 0.02 -0.13 -0.12 0.14 -0.21 0.07 0.21 0.21 Фактор 3 -0.09 -0.00 0.81® 0.09 -0.00 -0.14 -0.36 -0.14 -0.19 -0.49© -0.09 0.32 0.30 4 0.02 -0.04 0.17 -0.08 0.81® 0.01 0.14 0.21 -0.67© 0.27 0..02 -0.16 -0.15 5 0.03 0.04 0.04 0.09 -0.14 0.07 0.19 0.14 -0.14 0.18 О.88ф 0.54© 0.54®
5.7. Факторный анализ 37? Полученные факторы можно интерпретировать следующим обра- образом: F[R) — кровоток, F?R) — артериальное давление, F{3R) — частота сердечных сокращений и плазма, F[R) — диурез и FER) — состав крови. Пример 5.7.1с. Три фактора были подвергнуты косоуголь- косоугольному вращению с использованием метода «квартимин». Полученные факторные нагрузки приводятся в таблице. Переменная i 2 ' 3 4 5 6 7 8 9 10 11 12 13 SP MAP HR DP MVP L(C1) L(AT) L(MCT) UP L(PV1) L(RCI) Hgb Hct 1 -0.13 0.00 0.27 0.17 -0.24 -0.36 -0.08 0.07 0.00 -0.59C) 0.25 0.96 0) 0.95 ф Фактор 2 0.94© 0.99® -0.17 0.91© -0.02 0.06 0.02 -0.02 0.13 -0.04 0.09 0.01 0.01 3 0.01 -0.01 -0.21 -0.01 0.24 -0.48® 0.92 ф 0.91® -0.22 0.01 0.11 0.01 0.03 Возможна следующая интерпретация этих факторов: F[H) — со- состав крови, FiR) — артериальное давление, F{3R) — кровоток. Заметим, что интерпретация этих факторов проще, чем в преды- предыдущих случаях, поскольку на вращения были наложены менее строгие ограничения. Матрица корреляций между факторами имеет вид 1 1.00 0.22 0.49 0.22 1.00 -0.12 0.49 -0.12 1.00 Первый и третий факторы наиболее сильно коррелированы, а второй и третий — коррелированы отрицательно и слабее всего.
378 Гл. 5. Методы многомерного статистического анализа 5.7.3. Значения факторов Во многих случаях требуется определить значения факторов для данного вектора х = (хг, ..., х,)'. Например, в задаче об определении культурного уровня существуют два общих фактора: качественный и количественный, которые описывают умственные способности студента. По данному вектору (хи ..., хр) результа- результатов теста требуется оценить значения факторов для описания умственных способностей студента. Стандартного метода оценки значений факторов не существует. Как правило, для этой цели используется техника регрессионного анализа. Если рассматривать факторы как зависимые переменные, а исходные переменные Xt, i = 1, ..., р, считать независимыми, то можно записать следующие уравнения: ?,-?М> i=l,...,m, E.7.28) где Fj — оценка значения /-фактора, г,- — стандартизованная оценка значения г-й переменной, т. е. _ 1 n Ьц — оценки коэффициентов регрессии, иногда они называются коэффициентами значений факторов. Напомним, что Ъц является функцией коэффициентов корреляции исходных переменных друг с другом и их корреляций с общими факторами (см. замечание 5.7.4). Как правило, программы факторного анализа дают воз- возможность получить значения факторов и их коэффициенты для всех элементов выборки. Замечание 5.7.4. -к Коэффициенты Ь^ могут быть получены следующим образом. Положим bj = (Ьи, ..., bpj)', \) = (lxj, ..., ..., lPj)' и пусть R—выборочная корреляционная матрица. Тогда bj = R-My. Более подробно см. Harman A967). * Пример 5.7.2. Факторный анализ данных, собранных в основ- основном у здоровых служащих (п — 388), применялся для изучения взаимосвязи показателей функции легких, определенных с по- помощью кривых «поток—объем» и азотного анализа одного вдоха — выдоха. Использовались следующие переменные: форсированная жизненная емкость легких (FVC), максимальная вентиляция легких (Утах), вентиляция на уровне 50 % FVC (V50), вентиляция на уровне 25 % FVC (V?5), отношение остаточной емкости к пол- полной емкости легких (CC/TLC) и отношение остаточного объема к жизненной емкости легких (CV/VC). Подробности изучения этой популяции, а также методы сбора данных представлены в ра- работе Azen et at. A978).
5.7. Факторный анализ 379 В прилагаемой таблице приводятся результаты факторного анализа данных, собранных у служащих мужского пола. Переменные, объединяемые фактором (для которых нагрузки больше 0,5), подчеркнуты. Первый фактор оказался сильнее всего коррелированным с FEVb FVC, Vmax, V50, У26, второй фак- фактор — с CC/TLC и с CV/VC. Эти два фактора объясняют 75 % дисперсии. Для женщин были получены аналогичные результаты. Переменная FEV, FVC У,о v2i CC/TLC CV/VC Фактор I 0.94 0.72 0.53 0.71 0.66 -0.28 -0.25 Фактор U. -0.30 -0.24 -0.08 -0.35 -0.40 0.84 0.88 Согласно проведенному анализу, для каждого индивидуума было определено два значения факторов. Первым из них (значе- (значение фактора «поток—объем») было среднее стандартизованных значений FEVb FVC, Vmax, V60, ViB, вторым (значение фактора «остаточный объем») — среднее стандартизованных значений СС/ТСС и CV/VC. Стандартизация каждой переменной была проведена с исполь- использованием Т-преобразования. Этот метод позволяет преобразовы- преобразовывать переменные с сильно асимметричным или мультимодальным распределением к нормально распределенным переменным. Метод Т-преобразования состоит в следующем. Для заданной переменной, например FEVj, объекты ранжируются от 1 до п (объем выборки) согласно величине значений FEV!. Для совпадаю- совпадающих значений берется усредненный ранг. Таким образом, каждый ранг превращается в накопленную долю числа п. Преобразованное значение FEVb так называемое Т-значение, определяется по фор- формуле (Т-значение),- = 10 х Ф (F,,'п) + 50, i=l,...,n, где Fjn — накопленная доля, соответствующая i-му рангу, а Ф — функция, обратная к функции распределения N @, 1). Т-значения имеют нормальное распределение со средним 50 и стандартным отклонением 10. Для измерений каждого признака были найдены соответствующие Т-значения. Такая процедура нахождения значений факторов представляет собой альтернативу регрессионного метода E.7.28).
380 Гл. 5. Методы многомерного статистического анализа 5.8. Многомерный дисперсионный анализ Пусть для каждого из п объектов измеряются р переменных. Обоз- Обозначим их следующим образом: Переменная 1 Р Yp> Индивидуум 2 У}2 ¦¦¦ п п. Пусть вектор Y?x = (Ylt, .... VI;!)' соответствует я независи- независимым измерениям i-й переменной, i = 1,..., р. Для каждого та- такого вектора Y,- можно рассмотреть одномерную линейную модель. ?(Y/) = X'p/, cov(Y,)=ottI. E.8.1) Здесь (X')"xm — матрица плана ранга г< т <• п, аи — диспер- дисперсия t'-й переменной и 0ГХ1 = (Р41, ..., pim)' — вектор из /и не- неизвестных параметров, специфичных для каждой переменной. Далее, р линейных моделей, задаваемых формулами E.8.1), взя- взятые вместе, составляют многомерную обобщенную линейную модель. Заметим, что матрица плана одинакова для всех переменных, а векторы Рг могут быть различны. Зависимость [переменных выра- выражается формулой cov(Y/, Y/) = a//I, i,j=\,...,p, E.8.2) где аи — ковариация между i-й и /-и переменными. И наконец, предполагается, что р <¦ п — г и т <п. Модель, задаваемую соотношениями E.8.1) и E.8.2), можно представить в виде Y = Х'Р + е, E,8.3) где увхр_ ^-
5.8. Многомерный дисперсионный анализ 381 — матрица значений откликов,'(Х.')пХт—матрица плана ранга г и emxp _ 011 1 022 0 ,01т 02т Р1 ^pm. — матрица неизвестных параметров. И наконец, е"хр — матрица, строки которой составляют случайную выборку размера п из невырожденного /7-мерного распределения N (О, 2), где 2рхр — ковариационная матрица, а 0рх1 — нулевой вектор. Уравнение E.8.3) является формальной записью многомерной обобщенной линейной модели. Пример 5.8.1. Данные для этого примера взяты из исследо- исследования, проведенного на основе специальных анкет, заполненных на 461 судебного исполнителя мужского пола в округе Лос-Анд- Лос-Анджелес (подробности этого исследования см. BSnibbee^ al. A975)). Анкета Form A (Cattell et al. A970)) оценивает 16 факторов, харак- характеризующих личность опрашиваемого. Было интересно классифи- классифицировать судебных исполнителей на 3 группы: латиноамериканцы, (пг = 33), негроиды (п2 = 29) и европеоиды (п3 = 399). В данном случае п = 461/м = 16 и Уг —вектор из 461 наблюдения i-ro фактора, i = 1, ..., 16. Для i-ro фактора в принятых обозначениях модель имеет вид Здесь рг = ([ij, ail% щ^' — вектор из т = 3 параметров, соответст- соответствующий t-му фактору. Строка с номером / матрицы X' имеет вид A, Xjlt Xj2), j = 1, ..., 461, где переменные Xjt и Xj2 определяют группу, т. е. для /-го индивидуума A, 0), если он латиноамериканец, (О, 1), если он негроид, (—1, —1), если он европеоид. Заметим, что г = т — 3 и модель в матричной форме записыва- записывается следующим образом: *,¦„) = У,, Yi У,, •у 33 34 62 63 461 Yl6. ^16, *i6. Yi6, 33 34 62 63 461 1 r 1 1 0 0 0 1 1 1 -1 -1 1 -1 -1
382 Гл. 5. Методы многомерного статистического анализа 5.8.1. Оценки параметров Можно показать, что оценкой ft служит МНК-оценка, использу- использующая наблюдения только переменной Y;- (Rao A965)). Таким образом, аналогично одномерной линейной модели, оценка ft параметра ft получается в результате решения системы нормаль- нормальных уравнений (XX)' ft = XY,, E.8.4) где i = 1, ..., р. Несмещенная оценка аи, как и для одномерного случая, имеет вид п—r п—г ' у > где г—ранг матрицы X'. Несмещенной оценкой для ai} будет iuJL = jazg!il»L, ,.,„, р. E.8.6) Величина Ro (i, i) называется остаточной суммой квадратов, a Ro (t, /) — остаточной суммой произведений. Матрица ГК0A, 1) - *оA.РI [ro(p, I) - Ro(P,P)\ называется матрицей остаточных сумм квадратов и произведений. Пример 5.8.1 (продолжение). Для i-Pi переменной, i = 1, ..., ..., 16 461 33 62 h = ж" S Yi" uil = i 2 Yi> ~ ^ и а'2" i 2 Y" ~~ ^' /=1 /=1 /=34 Несмещенные оценки для ан и atj суть соответственно а,-г = 461 461 — 3). Здесь 7О- = |гг + ааХд + а{2Хн. 5.8.2. Проверка линейных гипотез В работах Rao A965) и Anderson A958) описывается проверка ги- гипотез для обобщенной многомерной линейной модели. Мы рас- рассматриваем специальный случай одновременной проверки не-
о.8. Многомерный дисперсионный анализ 383 скольких одномерных гипотез, каждая из которых делается от- относительно отдельной переменной. Следовательно, требуется од- одновременно проверить гипотезы Я0:Н'Р,-1;1 i=\,...,p, E.8.7) или, в более компактной записи, Н'р -. [U2 ... %], E.8.8) где матрица (H')sXm имеет ранг ,s<r и векторы Цх1 предполагаются заданными. Если эта гипотеза выполняется, то получается мо- модель с ограничениями, на основе которой можно найти оценки 0,* параметров рг и матрицу Rx остаточных сумм квадратов и произ- произведений. Матрица Rx — Ro называется матрицей сумм квадратов и произведений, обусловленных отклонением от гипотезы. Разло- Разложение RL в виде Ro + (Rx — Ro) является обобщением одномер- одномерного дисперсионного анализа. Таким образом, отклонение от гипотезы #0 может быть определено сравнением матриц Ro Ri Ro- В работе Rao A965) показано, что при вычислении статистики критерия для проверки гипотезы E.8.8) требуется определить р корней Xj, %.,, ..., %р характеристического уравнения | Ro — Л-Rxl = 0. E.8.9) Для проверки гипотезы могут быть использованы различные функции, зависящие от Xt. Одним из критериев может служить проверка минимального корня (min^,), поскольку он отражает максимальное отклонение от гипотезы Яо. Другим критерием, часто используемым в программах, является А-критерий Уилкса (Wilks A932)): Л =*!*,,... Я, = jM. E.8.10) Пример 5.8.1 (продолжение). Пусть требуется одновременно проверить гипотезу для обычного однофакторного дисперсионного анализа, именно Яо : ап = a;i = at3 = 0 для всех шестнадцати факторов. В этом случае О О 1 О", о о * --= 1 16. Замечания 5.8.1. 1. Пусть SE = Rfl — матрица остаточ- остаточных сумм квадратов и произведений, a SH = Rj, — Ro — матрица сумм квадратов и произведений, обусловленных отклонением от гипотезы. Тогда Лкритерий Уилкса можно представить в виде
3§4 Гл. S. Методы многомерного статистического анализа Л = | SE11SH + SEI. Существуют еще два критерия проверки гипотезы Но: .. <*m« (sHSj') 4 где символом chmax обозначен максимальный характеристический корень, и Н) trlSnSi1), где tr — след матрицы (сумма диагональных элементов). При р = 1 они совпадают с Л-критерием. В работе Smith et al. A962) приводится анализ этих трех критериев на примере четырех групп, р = 11, и при двух сопутствующих переменных. 2. В качестве еще одного критерия часто используется стати- статистика Роя 5.8.3. Проверка различий в средних значениях для нескольких популяций. Однофакторный многомерный дисперсионный анализ Пусть n-i, ..., пк (п = 1>щ) — число наблюдений, полученных из k популяций, и Yln ..., Ypr — выборочные средние значения р переменных для r-й выборки, п = 1, ..., k. Кроме того, пусть (Si/0 — матрица остаточных сумм квадратов и произведений_для r-й выборки сп, — 1 степенями свободы. И наконец, Yu ..., Yp — общие средние значения, а E,^) — несмещенная-оценка матрицы сумм квадратов и произведений для выборки, полученной объеди- объединением всех имеющихся выборок в одну. Обобщая одномерный дисперсионный анализ, определим В„ = !• nrY[rYlr - nYtY, E.8.11) как сумму произведений между популяциями и ^7 = ? SiJ' E.8.12) как сумму произведений внутри популяций, i, j = 1, ..., p. Эти величины представлены (см. ниже) в таблице многомерного дисперсионного анализа (MANOVA-таблица). Д-критерий про- проверки гипотез о равенстве средних значений для k популяций имеет вид E.8.13)
5.8. Многомерный дисперсионный анализ 385 где | W | и | В + W ] — соответственно определители матриц Источник Число Матрица сумм дисперсии степеней произведений Л свободы Между k — 1 Внутри я— k Полная п — I Статистика Л имеет [/-распределение ср, k — 1 и я — k степенями свободы (Anderson A958, с .191 и далее)). За исключением специ- специальных случаев, процентили (/-распределения бывает трудно вычислить и поэтому на практике обычно используется одна из двух аппроксимаций. Так, вопрос о том, следует ли отвергать про- проверяемую гипотезу, можно решить сравнением величины A E.8.14) с процентилями ^-распределения с р (k — 1) степенями свободы. С другой стороны, можно использовать F-аппроксимацию U: где 4 2 Гипотеза отвергается, если F > FUa с 2г и {та — 2%) степенями свободы. Поскольку числа степеней свободы необязательно целые, при пользовании таблицами может потребоваться провести интер- интерполяцию. Аппроксимации типа х2 предложил Bartlett A947), а типа F— Rao A951). Пример 5.8.1 (продолжение). В табл. 5.8.1 приводятся средние и стандартные отклонения 16 факторов по трем группам для п = 461. Для проверки гипотезы о различиях средних значений . этих факторов для различных групп использовалась программа многомерного дисперсионного и ковариационного анализов. По- Поскольку для работы этой программы требуется, чтобы выборки из всех популяций имели одинаковые размеры, из каждой группы была взята выборка пх — п2 = п3 = 29 служащих (п = 87). B9 — число служащих негроидной группы в исходной выборке.) 13 А. Афифи, С, Эйзен
386 Гл. 5. Методы многомерного статистического анализа Средние факторов Фактор Ух Уг Уз YA п у. у-, у» Ую Уи Уч у^ у\\ и стандартные по группам „п. = 33 Латино- Латиноамериканцы 5.0 ± 2.0 6.6 + 2.0 5.6 + 1.7 5.7 + 2.1 5.5+ 1.8 5.6 + 2.1 5.7 + 1.8 5.0 + 1.8 5.3 + 1.6 5.3 ± 2.0 5.5 + 1.7 4.4 ± 1.7 4.7 + 2.1 5.4 + 1.8 6.2 + 2.0 4.4 + 1.7 Таблица 5.8.1 отклонения 16 Группа НегроиЬы 5.1 + 2.0 5.9 + 2.1 5.4 ± 1.4 6.5 + 1.7 5.5 + 2.4 6.4 + 1.6 5.7 + 2.2 5.5 + 2.1 6.0 ± 1.8 5.0 + 2.1 5.7 + 1.9 5.3 + 1.9 6.0 ± 1.9 5.2 + 2.3 6.0 ± 1.9 5.3 ± 1.5 личностных Европеоиды 4.2 ± 2.0 6.7 ± 1.8 5.8 ± 1.8 6.2 ± Z0 5.3 + 2.1 5.9 + 1.9 5.1+2.1 4.2 + 1.9 5.4 + 2.0 5.0 ± 1.7 5.7 + 1.8 5.1 + 1.8 5.0 ± 1.9 6.1+2.2 6.0 ± 1.9 5.4 + 2.1 Программа вычисляет значения следующих характеристик: а) ма- матриц сумм квадратов и произведений {Btj) и (Wij), b) групповых средних каждого из 16 факторов, с) общей дисперсии, fZ-стати- стики и ее F-аппроксимации. Результаты работы программы вы- выводятся в виде таблицы, приведенной ниже. Источник дисперсии In обоб- обобщенной диспер- сии Число степеней свободы Число F-an- прок- сина- степеней ция свободы Между Внутри 86.817 0.541 86.203 16, 2, 84 1.55 32, 138 Таким образом, U = Л = 0.541 имеет (/-распределение с 16, 2 и 84 степенями свободы. Для проверки гипотезы Яо: «различие, обусловленное принадлежностью к определенной группе, отсут- отсутствует» можно вычислить х2 = —(87 — 1 — (V2) A6 + 3)) X X In 0.541 = 47.0. Далее следует сравнить это число с процен- тилями распределения %2 с 16 B) = 32 степенями свободы. Про- Производя интерполяцию в табл. 3, приложение II, получим
5.8. Многомерный дисперсионный анализ 387 Хо.95 C2) г» 46.2. Таким образом, гипотеза Яо отвергается при Р «^ 0.05. Гипотезу Яо можно проверить также с помощью аппро- аппроксимации Fo = 1.55 с 32 и 138 степенями свободы. В этом случае Р-значение лежит в интервале 0.05 <Jp <j0.10. Замечания 5.8.2. 1. Однофакторный многомерный дисперсион- дисперсионный анализ можно провести с помощью программы проверки общей многомерной линейной гипотезы. При заданной матрице плана эту программу можно использовать для проведения сба- сбалансированного или несбалансированного многомерного диспер- дисперсионного или корреляционного анализов. Итак, с помощью этой программы решается задача E.8.3) и проверяются гипотезы, заданные в виде E.8.8). На самом деле проверяется даже более общая гипотеза вида где, как и прежде, Н' имеет размер s X т и ранг s < т, а М — размер р х и и ранг и < р. Матрица Н' служит для формули- формулировки гипотез «между группами или обработками», а М — для гипотез «между переменными или откликами». В примере, описан- описанном выше, матрица Н' определялась для проверки гипотез отно- относительно групп, а в качестве матрицы М была взята единичная. Можно определить матрицу М и для проверки гипотез о линейных комбинациях 16 факторов. 2. Для проведения однофакторного многомерного дисперсион- дисперсионного анализа можно также пользоваться программами дискрими- нантного анализа. В результате работы такой программы обычно выводится значение {/-статистики и ее F-аппроксимации. Кроме того, производится упорядочение переменных, что дает возмож- возможность определить, какие переменные вносят значимые различия (см. разд. 5.5 и следующий далее пример). Пример 5.8.1 {продолжение). В этом примере были исполь- использованы данные о п = 461 служащем. Для того чтобы определить, какие из 16 факторов Уъ Y2, ..., Yle вносят наибольший вклад в разделение на k = 3 группы, был проведен пошаговый дискри- минантный анализ. На каждом шаге на печать выдавалась дискри- минантная функция совместно с {/-статистикой и ее F-аппрокси- мацией. Дискриминантная функция не имеет отношения к дан- данному случаю, поскольку. классифицировать индивидуумов на основе значений 16 личностных факторов не требуется. Основной интерес представляют статистики U и F, так как с их помощью можно проверить гипотезу о существовании различий между группами на основании 16 личностных факторов. В табл. 4.8.2 представлены результаты пошагового дискрими- нантного анализа. Использовалось правило остановки, приве- 13*
388 Гл. 5. Методы многомерного статистического анализа Таблица 5.8.2 Пошаговый дискриминантный анализ значений 16 личностных факторов для трех групп Шаг 1 2 3 4 5 Включенная переменная у% г» Ух* п и 0.96 0.94 0.93 0.92 0.91 Степени свободы 1, 2, 458 2, 2, .458 3, 2, 458 4, 2, 458 5, 2, 458 Аппроксимация F ¦ 8.34 6.44 5.36 5.14 4.81 Степени свободы 2,458 4,914 6,912 8,910 10.908 денное в замечании 5.5.1.1. Уровень значимости а был выбран равным 0.10. Из таблицы видно, что группы лучше всего разде- разделяются по переменной Y8. На втором месте стоит Y13, затем У16 и т. д. Пусть, например, на пятом шаге с помощью ^/-статистики проверяется гипотеза о том, что вектор средних ц = (ц3, Не. N. (х13, Hie)' принимает одинаковые значения для всех трех групп. Эта гипотеза отвергается (F = 4.81, vx = 10, v2 = 908, р <j <; 0.001). Кроме пяти переменных, приведенных в табл. 5.8.2, ни рдна переменная не вносит значимого вклада в разделение на три группы (при а — 0.10). Замечание 5.8.3. Программа, выполняющая многомерный дисперсионный анализ, называется MANOVA (Psychometric Labo- Laboratory, University of North Carolina). С помощью этой программы можно проводить еще многомерный ковариационный анализ, а также и регрессионный анализ. Для каждой проверяемой модели на печать выдаются полученные значения одномерных и многомерных критериев. В многомерном случае используется Л-критерий Уилкса с F-аппроксимацией Рао. Кроме того, на пе- печать выводятся канонические корреляции между переменными и искусственными переменными дисперсионного анализа. После таблицы многомерного дисперсионного анализа печатаются одно- одномерные F-критерии. Пример 5.8.1 (продоляеение). Для проверки различий между тремя группами на основе значений. 16 личностных факторов была применена программа MANOVA. Использовались данные о п = 461 служащем. В табл. 5.8.3 приведены результаты много- многомерного дисперсионного анализа и 16 значений критерия для одномерного дисперсионного анализа. Гипотеза о равенстве сред- средних в трех расовых группах была отвергнута (F = 2.16, vx = 32,
5.8. Многомерный дисперсионный аналнэ 389 Таблица 5.8.3 Анализ значений 16 личностных факторов, проведенный программой MANOVA Проверка значимости с использованием лямбда- критерия Уилкса Аппроксима- Аппроксимация F Число степеней свободы для гипотезы Число степеней свободы Ъля ошибок Р меньше чем 2.160 32.000 886:000 0.001 Переменная i FBAS8) Гипотетический среЪний квадрат Р меньше чем 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 4.805 2.249 0.681 1.670 0.201 1.614 1.936 8.342 1.305 0.530 . 0.078 2.208 4:563 4.080 0.136 3.595 13.627 7.652 2.161 6.422 0.864 5.652 8.422 30.047 4.985 1.677 0.260 6.938 16.209 19.010 0.482 15.686 0.009 0.107 0.507 0.189 0.818 0.200 0.145 0.001 0.272 0.589 0.925 0.111 0.011 0.018 0.873 0.028 v2 = 886, Р <J0.001). Из анализа одномерного F-критерия для каждой из 16 переменных получается, что при а = 0.10 значи-' мыми являются переменные в следующем порядке: У8, Yx, 713,- Yu, ^16- Можно сравнить этот список с переменными из табл. 5.8.2. 5.8.4. Множественные сравнения в однофакторном многомерном дисперсионном анализе В разд. 2.4.2 была рассмотрена процедура множественных сравне- сравнений для одномерного однофакторного дисперсионного анализа. Эта процедура представляет собой метод определения контраста в средних значениях, из-за которого отвергается гипотеза о ра-. венстве средних, если она действительно отвергается. Указанная, процедура обладает тем преимуществом, что общий уровень значимости для всех получаемых доверительных интервалов из-
390 Гл. 5. Методы многомерного статистического анализа вестей и равен 1 — а. Для обобщения одномерного случая пред- предположим, что \1Ъ ..., \ik — средние значения для соответствующих популяций, пъ ..., nk S«; = n —объемы выборок, хх, ..., 41 / =1 Xk. — групповые выборочные средние и MSW — (остаточный, или ошибочный) внутригрупповой средний квадрат. Тогда множе- множественный 100 A — а) %-ный доверительный интервал Шеффе для k i k контраста 2 KPt (пРи 2j^- — 0) имеет вид i \ 1 / S, E.8.16) где 2 S2 = (k - 1) MSw^i-a) (k-\,n-k)t Л?/я{. E.8.17) i В однофакторном многомерном дисперсионном анализе дове- доверительные интервалы для всех переменных одновременно могут быть получены из одномерного интервала, заданного формулой E.8.16). Прежде всего для этого требуется знание верхней 100 A — а)-й процентили ^/-распределения. Для больших п она может быть приближена величиной Определим 4>i-a = №-<*)-!• E-8.19) Тогда, если в выражении E.8.16) считать t'-м групповым средним для любой из переменных Уъ ..., Yp величину хи, то соответству- соответствующий многомерный совместный 100 A — а) %-ный доверитель- доверительный интервал задается как Г М* ± G, E.8.20) i=i где k l2. ^-. E.8.21) Совместный доверительный уровень этих интервалов для всех контрастов и для всех переменных равен 1 — а. Имеется возможность одновременно проверять несколько одно- одномерных гипотез при заданном уровне значимости а. Особый ин-
5.8. Многомерный дисперсионный анализ 391 терес представляют одномерные критерии дисперсионного анализа, соответствующие р переменным Уъ ..., Yp. Пусть Ft — критерий проверки гипотезы о том, что среднее величин Yt одно и то же для всех k популяций, i = 1, ..., р. Тогда гипотеза отвергается при ^>13rVa, E.8.22) где tyi_a определяется выражением E.8.19). Совместный уровень значимости для всех этих критериев равен a, i — 1, ..., р. Замечание 5.8.4. В доверительных интервалах, заданных формулами E.8.20)—E.8.21), и критериях E.8.22) используется величина tyi_a, основанная на А-критерии Уилкса. Можно напи- написать аналогичные процедуры, в которых ty^ основывается на других критериях, например на критериях, приведенных в замечании 5.8.1. Те, кто заинтересуется этим вопросом, могут ознакомиться с работой Gabriel A968). Пример 5.8.1 (продолжение). Поскольку гипотеза о равенстве трех векторов средних отвергается, можно задаться вопросом, какая переменная, или комбинация переменных, является тому причиной. Итак, одновременно проверяются 16 одномерных ги- гипотез дисперсионного анализа. Одномерные критерии Ft приво- приводятся в табл. 5.8.3 и остается лишь определить -ф^. Полагая а = 0.05, получим из E.8.18) o.95 461 — 1 — 1/2 A6 + 3) По формуле E.8.19) имеем г|H.95 = 1/0.9025 — 1 = 0.1080. Со- Согласно выражению E.8.22), каждое значение Ft сравнивается с (D61 — 3)/2) @.1080) = 24.73. Ни одно из значений F, из табл. 5.8.3 не превосходит этого значения. Последнее означает, что ни одна из одномерных гипотез дисперсионного анализа не отвергается, хотя многомерная гипотеза отвергается. Это может служить примером часто встречающейся ситуации, когда нельзя найти понятной причины непринятия общей гипотезы с помощью процедуры множественных сравнений. Можно только сказать, что существует линейная комбинация переменных, для которой средние значения в разных популяциях сильно различаются. Для обнаружения таких контрастов, как правило, требуется длительное исследование. Для иллюстрации процедуры построения доверительных ин- интервалов рассмотрим контраст Кв (переменная с максимальным
392 Гл. 5. Методы многомерного статистического анализа Fj), например ц2—ц3. Согласно табл. 5.8.1, эту величину можно оценить числом 5.5 — 4.2 = 1.3. Используя табл. 5.8.3, для Y8 имеем №w = 30.047/8.342 = 3.602. Тогда из E.8.21) G2 = = D61 — 3) C.602) @.1080) [AJ/29 + (—1J/399] = 6.59. Таким образом, 95 %-ный совместный доверительный интервал E.8.20) имеет вид 1.3 ± V О9 = (—1.27, 3.87). Упражнения Замечания. 1. Буквой А обозначается набор данных из примера 1.4.1, табл. 1.4.1 и 1.4.2, буквой В — набор данных из примера 1.4.2, табл. 1.4.3 и 1.4.4. 2. В наборе А все непрерывные переменные могут считаться нормально распределенными, кроме CI, AI, MCT, PVI; для последних предполагается нор- нормальное распределение логарифмов. В наборе В все непрерывные переменные также предполагаются нормально распределенными, за исключением систоличе- систолического и диастолнческого давлений A950 н 1962), логарифмы которых также могут считаться нормально распределенными. Раздел 5.1 5.1.1 (для работы в аудитории). Соберите данные роста, веса и возраста у всех студентов группы мужского пола и проведите анализ выбросов. Объясните результаты. 5.1.2. Выполните упр. 5.1.1 для всех студенток группы. Имейте в виду, что выбросы могут появиться в результате неверных ответов. Раздел 5.2 5.2.1 (набор данных А), а) Используя данные в начале лечения для всех больных, проверьте, равен лн выборочный вектор средних с координатами Хг = = SP, Х2 = HR, Х3 = DP, Х4 = MVP вектору средних для здоровых лиц, определяемому так: Ь) Используя многомерные доверительные интервалы, определите, для каких переменных средние значения сильно отличаются от соответствующих значений для здоровых людей. 5.2.2 (набор данных А). Выполните упр. 5.2.1, используя данные, собранные в конце лечения у выживших больных. 5.2.3 (набор данных А). Выполните упр. 5.2.1, используя данные, собранные перед смертью у больных. 5.2.4 (набор данных А). Объясните результаты упр. 5.2.1, 5.2.2, 5.2.3. 5.2.5 (набор данных А), а) Определяя Хх Х4, как в упр. 5.2.1, про- проверьте, равны ли начальные векторы средних выживших и умерших больных. Ь) Постройте совместный 90 %-ный доверительный интервал для всех ком- компонент разностей средних значений. 5.2.6 (набор данных А). Выполните упр. 5.2.5 для данных, собранных в конце лечения. Сравните результаты этого и предыдущего упражнений. Раздел 5.3 5.3.1 (набор данных В). Обозначим символом W± подпопуляцию тех, кто жил после 1968 г., a Wt — всех прочих больных из популяции. а) Выпишите байесовскую процедуру классификации по переменным: Х% — возраст, Хл — логарифм систолического давления, Х^, —логарифм днастоличе- ского давления, Х4— холестерин сыворотки A950). Постройте оценки ..априор- ..априорных вероятностей на основе этих данных. -
Упражнения 393 b) Вычислите величину ?>2. c) Оцените двумя различными способами вероятность ошибочной клас- классификации. d) Проверьте гипотезу о равенстве векторов средних для W% и U72. 5.3.2 (набор данных В). Выполните упр. 5.3.1 для прежних переменных Хг, ..., Хц н Хъ — логарифм систолического давления A962), Хе — логарифм диастолического давления A962) и X, — холестерин сыворотки A962). e) Постройте график зависимости апостериорной вероятности того, что пациент будет иметь после 1968 г., от дискриминантной функции. f) Улучшают лн добавленные переменные разделение? [Указание: восполь- воспользуйтесь замечанием 5.5.] Раздел 5.4 5.4.1 (набор данных А). Используйте данные, собранные в начале лечения- Определим №х Wg так же, как и в примере 5.4.1. Переменными служат Хг = MAP, Х2 = MVP, Xs = lg CI, Xt = UO, Хъ = lg PVI, Xe = Hgb, X7 = = Hct. a) Воспользуйтесь программой из какого-нибудь ПСП для получения про- процедуры классификации, предполагая равными априорные вероятности и стои- стоимости ошибочной классификации. b) К какой группе следует отнести пациента со следующими данными: Хг = 70, Хъ = 10, Х3 = 0.3, Xi = 10, Хь = 1.5, Хе = 10, Х7 = 30. c) Оцените вероятности ошибочной классификации, которые могут пред- представлять интерес. d) Проверьте гипотезу о равенстве шести векторов средних. e) Сравните результаты с примером 5.4.1. Раздел 5.5 5.5.1 (набор данных А). Выполните упр.- 5.4.1, используя программу поша- пошагового дискриминантного анализа. Кроме того, . f) Определите «наилучший» для классификации набор переменных. Раздел 5.6 5.6.1 (набор данных А). В примере 5.6.1 были получены главные компоненты по выборочной корреляционной матрице, построенной, согласно измерениям, в начале лечения 14 переменных для всех пациентов. Проведите анализ главных компонент следующих данных и сравните результаты. a) Измерения в начале лечения тех же переменных у выживших больных. b) Измерения в конце лечения тех же переменных у выживших больных. Сравните также результаты анализа п. а) и Ь). 5.6.2 (набор данных В). Выполните анализ главных компонент для пере- переменных: Xi — возраст, Х%— систолическое давление A950), Х3—диастоличе- ское давление A950). Интерпретируйте главные компоненты, объясняющие при- примерно 70 % общей дисперсии. Раздел 5.7 Замечание. Формулировка упражнений, относящихся к этому разделу, за- зависит от того, какие именно программы факторного анализа имеются в распо- распоряжении читателя. Можно поставить много задач, в которых наборы данных А и В используются целиком или частично. Здесь приводятся 2 упражнения, кото- которые допускают ряд изменений. 5.7.1 (набор данных А). В примере 5.7.1 рассматриваются различные методы факторного анализа данных по 14 переменным, измеренным у всех больных
394 Гл. 5. Методы многомерного статистического анализа в начале лечения. Выполните аналогичные виды анализа для данных, приведен- приведенных ниже и сравните результаты. a) Проведите анализ данных, измеренных в начале лечения у выживших больных, как это сделано в примере 5.7.1 (а). b) Проведите анализ данных, измеренных в начале лечения у умерших боль- больных, как это сделано в примере 5.7.1. c) Проведите анализ данных, измеренных в конце лечения у выживших больных. 5.7.2 (набор данных В). Переменные Xt Хы определяются как в упр. 5.6.2. В п. а)—f) используйте корреляционную матрицу и везде интерпретируйте полученные факторы. a) Выполните анализ главных факторов без вращений при трех общих факторах. b) Выполните п. а), используя ортогональное вращение. c) Выполните п. а), используя косоугольное вращение. d) Выполните анализ главных факторов без вращений, число общих факто- факторов равно числу собственных значений, превосходящих 1. e) Выполните п. d) с использованием ортогонального вращения. f) Выполните п. d) с использованием косоугольного вращения. Раздел 5.8 5.8.1 (набор данных А). Используя переменные и группы, определенные в упр. 5.4.1, выполните однофакторный многомерный дисперсионный анализ. Кроме того, проверьте одновременно семь одномерных гипотез дисперсионного анализа с помощью процедур, упомянутых в замечании 5.8.4.
Приложение I Обзор основных понятий В настоящем приложении приводится обзор некоторых наиболее важных понятий теории вероятностей и статистики. Мы прибегли к неформальной описательной манере, истолковывая понятия и методы с точки зрения их приложений. При этом мы старались сохранить точность изложения, не претендуя на математическую строгость. Это приложение никоим образом нельзя считать полным. Пол- Полный текст содержал бы доказательства всех утверждений, большее количество теоретических примеров и дополнительных деталей. Нашей же целью было только дать краткий перечень сведений, необходимых для понимания основного материала книги. Кроме того, мы введем обозначения, используемые в книге, и опишем распределения, принятые в статистических приложениях. Будут также определены некоторые понятия, относящиеся к многомер- многомерным распределениям. Читатели, интересующиеся более подробными сведениями, могут обратиться к следующей литературе (список включает не- несколько элементарных учебников и ни в коей мере не претендует на полноту). Элементарное изложение статистики, не требующее знания математического анализа, приведено в работах Dixon, Massey A969), Dunn A977) и Snedecor, Cochran A967). Для более серьезного изучения предмета, требующего знания математиче- математического анализа, см. книги Brownlee A965), Hoel A963), Hogg, Craig A970), Lindgren A968) и Mood, Graybill A963). Серьезным курсом статистической теории, включающим многомерный анализ, могут служить книги Anderson A958), Cramer A946), Dempster A969), Kendall, Stuart A967, 1968, 1969), Morrison A967), Rao A965). Подробными курсами теории вероятностей являются книги Feller A966, 1968), Fisz A963), Loeve A963), Parzen A960). Изло- Изложение статистики с точки зрения теории принятия решений дано в монографиях Ferguson A967) и Lehmann A959) г). х) См. также список литературы, добавленной при переводе. — Прим. ред.
Приложение I. Обзор основных понятий В этом приложении, в разд. 1.1 обсуждаются основные понятия теории вероятностей; в разд. 1.2 приведены наиболее часто встре- встречающиеся одномерные распределения; в разд. 1.3 обсуждаются выборки и выборочные распределения; в разд. 1.4—5 обсуждается теория статистических выводов. В разд. 1.6 определены векторные наблюдения и введено многомерное нормальное распределение. 1.1. Основные понятия теории вероятностей Существует много подходов к изучению теории вероятностей. Теория вероятностей представляет собой раздел математики, в котором случайные явления изучаются с аксиоматической точки зрения (см., например, Feller A966, 1968)). Вместе с тем статистик заинтересован в теории вероятностей как в средстве построения статистической теории и методологии. Ниже мы вводим идеи и понятия теории вероятностей на интуитивном уровне, сохраняя точность, но не математическую строгость и придавая большое значение примерам1). В разд. 1.1.1 определены понятия генеральной совокупности (или популяции), в разд. 1.1.2 введены случайные величины, а в разд. 1.1.3 — понятие вероятности, пригодное для изучения случайных величин. В разд. 1.1.4 определено распределение случайной величины, а в разд. 1.1.5 введено понятие математи- математического ожидания случайной величины или функции от случайной величины. В разд. 1.1.6 эти идеи обобщены на случай нескольких случайных величин. 1.1.1. Генеральная совокупность рщу^^ЗШШ) W можно рассматривать как полный набор объектов w, с которыми связанаданная проб- лемагЭти объекты могут быть людьми, животными, изделиями, земельными участками и т. д. Каждый объект называется эле- элементом (или индивидуумом) генеральной совокупности, а соответ- J) Здесь авторы ставят перед собой трудно выполнимую задачу, так как точность изложения тесно связана с математической строгостью, а изложение на интуитивном уровне не может быть точным. Особенно это относится к разд. 1.1.2 и 1.1.3, материал которых начинающий читатель должен проштудировать по дру- другим учебникам (см., например, Смирнов, Дунин-Барковский A965)*, Румшиский A976) *), а подготовленному читателю рекомендуем прочитать гл. 14 из книги Крамера A975). Тем не менее это приложение в целом, несомненно, является полезным, поскольку в нем определены все основные понятия и вводятся обо- обозначения, используемые в книге. — Прим. ред.
1.1. Основные понятия теории вероятностей 397 ствующее измерение, произведенное на каждом элементе, назы- называется наблюдением. Часто при решении задачи ставится экспе- эксперимент, в ходе которого каждый элемент подвергается некоторому воздействию. В этом случае элемент называется эксперименталь- экспериментальной единицей. Пример 1.1.1. Создано новое лекарство для лечения гипер- гипертонии, т. е. повышенного артериального кровяного давления. Врач -заинтересован в оценке эффекта действия этого лекарства на пациентов с гипертонией. Его эксперимент состоит в измерении диастолического кровяного давления (в мм рт. ст.) до приема лекарства, применении лекарства, измерении диастолического кровяного давления (в мм рт. ст.) спустя двухнедельный период, и в последующем подсчете изменения давления. Цель врача со- состоит в том, чтобы решить на основе этой разницы, эффективно ли это лекарство снижает артериальное давление крови. В этой экспериментальной ситуации генеральную совокуп- совокупность составляют все люди с гипертонией, принимающие предло- предложенное лекарство. Воздействие состоит в приеме лекарства, экспериментальной единицей является пациент, а наблюдение представляет собой изменение диастолического давления крови в течение двухнедельного периода для данного пациента. Пример 1.1.2. Исследователь интересуется оценками IQ (коэф- (коэффициент умственного развития) для шестилетних в генеральной совокупности детей, родившихся с пониженным весом (<1500 г) в данной клинике в течение 1972—1973 гг. Это пример длитель- длительного исследования. Пример 1.1.3. Исследователь интересуется воздействием куре- курения на дыхательную функцию легких среди популяции служащих мужского пола. Кроме того, исследователь интересуется долей страдающих хроническим бронхитом в этой популяции. В примере 1.1.1 мы имеем дело с гипотетической генеральной совокупностью, так как не существует способа выделить каждый ее элемент в момент эксперимента. Более того, эта совокупность теоретически бесконечна, так как она включает всех возможных индивидуумов, которые когда-либо примут лекарство. Популя- Популяция же примера 1.1.2, напротив, конкретна и конечна, поскольку можно перечислить всех детей, удовлетворяющих условиям ис- исследования. Популяция примера 1.1.3 может быть либо гипоте- гипотетической, либо конкретной. Если исследователь ограничит свою популяцию взрослыми мужчинами, работающими в страховых компаниях в данном году, тогда популяция будет конкретной. В противном случае она будет гипотетической. Так как генераль-
398 Приложение I. Обзор основных понятий ную совокупность не всегда просто определить, исследователь обязан тщательно продумывать этот,вопрос, чтобы не придать слишком общий смысл результатам своего исследования. Большинство задач нашей книги относится к типу, для кото- которого генеральная совокупность является гипотетической. Задачи, оперирующие конкретными популяциями, относятся к области статистики, называемой выборочными обследованиями, которая обсуждается, например, в книге Cochran A953). 1.1.2. Случайные величины Случайная величина X есть функция, принимающая численное значение X (w) на каждом элементе w генеральной совокупности W. В этой книге случайные величины обычно обозначаются заглав- заглавными буквами X, Y, Z, ... . Конкретное значение х, принимаемое случайной величиной X для данного элемента по, называется реализацией X и представляет собой наше наблюдение. Реализа- Реализации обозначаются малыми буквами х, у, г, ... . Иногда случайную величину будем называть просто переменной. В примере 1.1.1 случайная величина X (w) соответствует изменению диастолического кровяного давления (в мм рт. ст.) у пациента w за двухнедельный срок лечения. В примере 1.1.2 Y (w) — оценки IQ для шестилетних, а в примере 1.1.3 случай- случайную величину можно определить равенством: I, если у индивидуума есть хронический бронхит, ), если у индивидуума нет хронического бронхита. Функции X (w), Y (w), Z (w) определяют соответственно случай- случайные величины X, У, Z. Выбор 0 и 1 для Z (ш) является произволь- произвольным и вместо них можно подставить два любых различных числа. Множество всех возможных различных реализаций случайной величины называется выборочным пространством S. В примерах 1.1.1—1.1.3 выборочные пространства представляют собой соот- соответственно действительную прямую, множество неотрицательных целых чисел и множество S = @, 1}. Любое подмножество Е выборочного пространства S назы- называется событием. Для обозначения событий будем использовать символы Е, Еъ Еч, Е3, .... В примере 1.1.3 возможны четыре события: ?х = {0}^ Е« = |1|, ?3 = {0, 1} и ?4 = 0. Событие Ei — это подмножество индивидуумов без хронического брон- бронхита, Е-;, — подмножество индивидуумов с хроническим бронхи- бронхитом, Е? — подмножество всех рассматриваемых индивидуумов, a Ei — «пустое» подмножество (не содержащее ни одного инди- индивидуума). В примере 1.1.2 событие Е — {85, 115} означает подмножество детей, у которых целочисленный показатель IQ
1.1. Основные понятия теории вероятностей 399 в шестилетнем возрасте заключен между 85 и 115. В примере 1.1.1 событие Е = {х 119 «s х < 48} (читается «множество х, таких, что х не меньше 19 и не больше 48») означает подмножество пациентов с изменением диастолического давления (в мм рт. ст.) в интервале 19 < х <. 48. Понятия генеральной совокупности, случайной величины и пространства выборок графически представлены на рис. 1.1.1 для примера 1.1.1. Рис. 1.1.1. Представление генеральной совокупности (W), случайной величины (X — изменение диастолического давления) и выборочного пространства (S — действительная ось: —оо<*<оо) для примера 1.1.1. Если выборочное пространство S состоит из конечного числа значений, оно называется дискретным1). Случайная величина с дискретным выборочным пространством называется дискретной случайной величиной. Случайная величина 2 примера 1.1.3 яв- является дискретной, так как ее выборочное пространство состоит только из двух значений. Такая дискретная случайная величина называется двоичной. Случайная величина Y примера 1.1.2 также является дискретной2). Случайная величина X примера 1.1.1 является не дискретной, а непрерывной. 1.1.3. Вероятность В основе большей части статистической теории лежит понятие вероятности, связанное со случайной величиной. В случае дис- дискретной случайной величины X вероятность того, что X прини- принимает значение х, есть доля рх индивидуумов в генеральной сово- совокупности, обладающих значением х. Запишем это отношение в виде Рг (X = х) = рх. [В некоторых работах используется обозна- х) Дискретные выборочные пространства включают также бесконечные счет- счетные множества. 2) Множество неотрицательных целых чисел является бесконечно счетным.
400 Приложение I. Обзор основных понятий чение Р (X = х) или Р (х).] Для двоичной случайной величины примера 1.1.3 имеем Pr (Z = 1) =?= р и Pr (Z = 0) = 1 — р, где р — доля индивидуумов с хроническим бронхитом в генераль- генеральной совокупности. Пусть для дискретной случайной величины примера 1.1.2 величина р{ есть доля детей с высоким риском, име- имеющих в шестилетнем возрасте показатель IQ, равный i. Тогда Pr (Y — i) — рг, i = а, а + 1, ..., b, где а и Ъ — соответственно минимальное и максимальное значения показателя IQ. Очевидно, что Рг (Y — i) = 0, если i <<a или i > Ъ. >-; Для дискретной случайной величины X введем Е = \хъ ... ..., хп) — событие из выборочного пространства S. Тогда вероят- вероятность того, что величина X принимает некоторое значение xt из Е, есть сумма вероятностей рх.у связанных с каждым хи i = 1, ... ..., п. Символически можно записать Рг (*??)=?, р = S р \ A.1.1) 1=1 ' х{ ? В ' [В других работах левая часть этого равенства записывается в виде Рг (X в Е) или Pr (E). ] Очевидно, что Pr(*<ES)= Б Де,= 1. A-1.2) В примере 1.1.2 положим Е = {85, 115}. Тогда вероятность Рг (Y ? Е) того, что показатель IQ ^ 85 и IQ < 115, имеет вид 115 Pr(85s:F==c 115)= ? pt. <=85 Аналогично, вероятность Рг (Y Ф- Е) того, что показатель IQ > > 115 или IQ <;85, запишется в виде 84 b Рг(Г<85 или У>115)= U р,+ Г Pi- i=a 116 Так как Рг (а < Y < Ь) — 1, можно также написать 115 Рг(У<85 или У>115) = 1— Г' Pi- /=85 Для любой случайной величины X вероятность того, что X принимает значение из данного события Е, равна доле индиви- индивидуумов в генеральной совокупности, для которых значения X (w) лежат в Е. Следовательно, в примере 1.1.1 Рг (X ? Е), где Е = = {x||19 <: х < 48}, или Рг A9 < X <: 48), означает долю ин- индивидуумов в генеральной совокупности с изменением диастоли- ческого давления в интервале 19 < х <: 48. *) Это обозначение читается «сумма pXi по всем xi, принадлежащим Е».
1.1. Основные понятия теории вероятностей 401 Для любой случайной величины можно написать полезное соотношение для неперекрывающихся (несовместных) событий Е1г Е2, ..., Ek. Вероятность того, что величина X принадлежит какому-либо из этих событий (объединению Еи Eit ..., Ek) есть сумма вероятностей событий Eit i — 1, ..., k. В символической записи имеем где Ei несовместны, i = 1, ..., k. Символ [} соответствует объеди- объединению событий, а выражение/Х ? (^U^U ... [}Ek)y> читается Ч.Х принадлежит ?, или Е.г, или ..., или Eki>- 1.1.4. Распределение случайной величины Распределение случайной величины X служит средством опи- описания вероятностной структуры генеральной совокупности в тер- терминах реализаций величины X. Распределение дискретной слу- случайной величины называется дискретным распределением, и его можно задать перечислением значений рх = Рг (X = х) для каж- каждого х в выборочном пространстве S. Во многих случаях можно задать математическую функцию р (х), связывающую рх с х. Функция р (х) называется законом распределения (или вероятност- вероятностной функцией) дискретной случайной величины X. Законы рас- распределения характеризуются константами, которые называются параметрами. Параметром может служить любая характеристика генеральной совокупности. Для примера 1.1.3 дискретное распределение можно задать с помощью таблицы г | о 1 Рг I 1 — Р Р где р — доля индивидуумов с хроническим бронхитом в генераль- генеральной совокупности. Эту таблицу распределения вероятностей дискретной случайной величины z можно также задать с помощью закона распределения ( рг(\-рУ~г для z=0,l, 1 0 в остальных случаях. Этот закон распределения характеризуется единственным пара- параметром р. Для примера 1.1.2 таблица распределения вероятностей имеет вид у \ а а+1 . . . b Ру I Ра Ра+1 ¦ ¦ ¦ РЬ
402 Приложение I. Обзор основных понятий где ру — доля детей, у которых в шестилетнем возрасте показа- показатель IQ равен у. Для произвольной случайной величины X функция распреде- распределения F (х), часто обозначаемая аббревиатурой ФР, определяется равенством F(x) = Pr(X^x). (I.1.4) Для дискретной случайной величины X с законом распределения р (х) из равенства A.1.1) получим, что (и). A.1.5) Для примера 1.1.3 функция распределения имеет вид 0, если г < О, 1 — р, если О s?.z< 1, 1, если z^sl; она изображена на рис. 1.1.2, а. Функция распределения для примера 1.1.2 имеет вид 0, если у < я, у S pi, если а < у<.У, Y = а, а+1 b — \, ("=а 1, если у~^Ь\ она изображена на рис. 1.1.2, Ь. Отметим, что на обоих рисунках функция распределения имеет «скачки» или «ступеньки» при некоторых значениях случайной величины. Если функция F (х) непрерывна х) по х, т. е. график F (х) не имеет скачков, то случайная величина X называется непрерывной случайной величиной, а ее распределение называется непрерывным распределением. Важным понятием, относящимся к непрерывным случайным величинам, является понятие плотности распределения вероят- вероятностей (или частотной функции). Плотность2) f (х) непрерывной случайной величины X есть неотрицательная функция, определен- определенная так, что F (х) равна площади под графиком / (х) слева от точки х. Это — непрерывный аналог равенства A.1.5). График / (х) называется графиком плотности распределения (иногда — 1) Точное определение непрерывности функции дано, например, в книге Rudin A964). 2) С точки зрения дифференциального исчисления плотность f (x) является про изводной от F (х) по х, т. е. / (х) = —-~-.
1.1. Основные понятия теории вероятностей 403 кривой частот). Плотности распределения (а следовательно, и функции распределения) можно также характеризовать их параметрами. F(z) о F(z) I - 12 3 Т-1 Т Рис. 1.1,2. а — функция распределения примера 1.1.3; Ь — функция распределе- распределения примера 1.1.2. Рис. 1.1.3 иллюстрирует плотность и функцию распределения непрерывной случайной величины. На этом рисунке площадь заштрихованной области под графиком f (х) слева от точки х0 есть вероятность того, что X < х0. Она равна F (х0) на верхнем графике. Из этого графика видно также, что площадь под графи- графиком / (х) между и и v можно выразить через функцию распреде- распределения F: = F(v) - A.1.6) Некоторые из употребительных дискретных и непрерывных рас- распределений обсуждаются в разд. 1.2.
404 Приложение I. Обзор основных понятий Замечание 1.1.1. 1. Закон распределения р (х) дискретной случайной величины обладает следующими свойствами: a) 0 <: р (х) < 1 для всех х; оо b) 5j Р (х) = 1, т. е. сумма р (х) по всем возможным значениям х х=—оо равна единице; c) Рг (и <: X <: v) = ? р (х); d)FW=Sp (и). 1.00 - 0.00 Рис. 1,1.3. а — функция распределения и Ь — плотность распределения непре» рывной случайной величины. * 2. Плотность распределения / (х) непрерывной случайной ве- величины обладает следующими свойствами: а) / (х) 5= 0 для всех х; Ъ) \f(x)dx= 1;
t.l. Основные понятия теории вероятностей 405 о c) Рг(и < X < v) = \f(x)dx\ и X d) F (х) = J /(и) <to. Следовательно, -^М = f (x). * —оо 3. Для произвольной случайной величины X функция рас- распределения F (х) обладает следующими свойствами: a) f (—оо) = 0, F(oo) = 1; b) F (x) — неубывающая функция х\ c) Рг (и < X <: v) = F (v) — F (и). 4. Для непрерывной случайной величины X справедливо следующее соотношение: 1.1.5. Математическое ожидание Математическое ожидание Е (X) случайной величины X можно интуитивно считать средним значением реализаций X (ш) по всем w из популяции W. Для обоснования общего определения матема- математического ожидания мы сначала ограничимся конечной популя- популяцией. Пронумеруем последовательно индивидуумы в этой попу- популяции так, чтобы w = 1, 2, ..., N. Математическое ожидание (среднее) случайной величины X (обозначаемое также буквой yi) выражается формулой N Если мы обозначим различные элементы выборочного простран- пространства S через xL, ..., хк (К < Af), to можно записать \i в виде A.1.8) L где ttk — число элементов из W со значениями Хи- Но по определе- определению (nk/N) = рХ/г, и, следовательно, можно записать И=Е ***>**. A-1-9) Это определение применимо к дискретным случайным величи- величинам как в случае конечной популяции, так и в случае счетной. Однако если W счетна, то не существует стандартного способа
406 Приложение I. Обзор основных понятий эмпирического получения вероятностей рх иначе, как с помощью соответствующего закона распределения. В этом случае имеем к где К может быть бесконечным. В примере 1.1.2 получим ?(Г)=? 1=а а в примере 1.1.3 — Равенство A.1.10) можно обобщить на случай непрерывной случайной величины X, заменяя суммирование интегрированием, а закон распределения р (х) — на функцию плотности распределе- распределения f (х) (см. замечание 1.1.2.1). Понятие математического ожидания распространяется на про- произвольную функцию g (X) от X. Математическое ожидание Е (g (X)) функции g (X) от случайной величины X есть среднее значение g (X (w)) для всех w из W. Таким образом, для дискрет- дискретной случайной величины из равенства A.1.9) получим ?(?(*))= Е Ж**)/Ч A.1.11) k=i " и аналогичное соотношение для непрерывного случая. Особый случай составляют функции g (X) вида X1 и [X — Е (X) V для i 5s I. Математические ожидания Е (Xе) и Е [X — Е (X) V называются соответственно i-м моментом от- относительно нуля (или i-м начальным моментом) и i-м моментом относительно среднего (или i-м центральным моментом). Второй центральный момент называется дисперсией и обозначается через ст2 или V (X). Положительный квадратный корень из дисперсии называется стандартным отклонением а или [У(Х)]'/2. Заметим, что V (X) можно выразить в виде V(X) = E[X-E{X)]2 = Е(X2) - [Е(X)]2. A.1.12) Таким образом, в примере 1.1.2 дисперсия равна V(Y) = S [' - Е (У)?Pi = S PPi - \ S iptT, i=a (=a L i=a J а в примере 1.1.3 V (Z) = @ - pf A - p) + A - pfp = p A - p), так как E (Z) = p.
1.1. Основные понятия теории вероятностей 407 Замечания 1.1.2. * 1. Для непрерывной случайной вели- величины X с плотностью распределения / (х) математическое ожида- ожидание имеет вид Е(Х)= \ xf(x)dx. —оо Математическое ожидание функции g (X) есть оо ?№))= 1 g(x)f(x)dx. — оо Дисперсия выражается формулой оо а2 = Е (X - Е (X)f = J (х - Е (x)ff(x) dx. * —оо 2. Среднее [л является характеристикой положения центра распределения (мерой центральной тенденции). В физическом смысле (л есть центр тяжести графика закона распределения или плотности. Другими аналогичными характеристиками являются медиана и мода распределения случайной величины. Медиана — это такое значение М, что Рг (X < М) =з V2 Медиана не обязана быть единственной. Например, рассмотрим следующее распределение: х I 0 1 2 3 Рх\% % 3/8 V8 Медианой будет произвольное значение М, такое, что 1 <: М < 2, так как при М = 1 при М = 2 Pr( и для 1 <j M <5 2 < м) = va = Рг(х > м). Так как в этом случае медиана не единственна, условимся вы- выбирать в качестве медианы срединное значение М = A + 2)/2 = = 3/2. С другой стороны, в распределении - х |0 1 2 Р, I V* V2 V*
408 Приложение I. Обзор основных понятий имеется единственная медиана М=\, так как только это зна- значение удовлетворяет определению. Если X — непрерывная слу- случайная величина, то М выбирается так, чтобы Рг (X <: М) = Рг (* > М) = Vi. Модой распределения является то значение (или значения) X, при котором закон или плотность распределения имеет макси- максимум. Таким образом, для последнего из приведенных выше при- примеров мода равна 1. Такое распределение называется унимо- унимодальным. Для первого из приведенных выше примеров суще- существуют две моды: 1 и 2. Такое распределение называется бимо- бимодальным. При сравнении этих трех мер положения центра распределе- распределения можно заметить, что все они совпадают для симметричных унимодальных распределений. Среднее обладает наиболее привле- привлекательными свойствами с точки зрения теории. Медиану иногда бывает затруднительно вычислять, особенно если требуется упо- упорядочение реализаций. Однако она может оказаться более значи- значимой мерой положения центра для асимметричного (или скошен- скошенного) распределения, например, как в примере 1.1.2. Мода осо- особенно полезна для приложений к теории игр и принятия решений. 3. Дисперсия ст2 = V (х) является мерой рассеяния (или из- менчивости) распределения. Стандартное отклонение а = V~V(x) измеряет ширину распределения в тех же единицах, которые используются для измерения реализаций случайной величины. Другой мерой рассеяния является среднее абсолютное отклоне- отклонение, определяемое как математическое ожидание абсолютной величины разности между случайной величиной X и ее средним. Иногда в этом определении вместо среднего используется медиана. Среднее абсолютное отклонение интуитивно привлекательно, так как оно измеряет «среднее отклонение». Однако дисперсия легче трактуется математически и поэтому в большинстве приложений используется именно эта характеристика. 4. Следующие соотношения справедливы для математического ожидания и дисперсии: a) Е (а + ЬХ) — а + ЬЕ (X), где а и Ъ — константы. Умно- Умножение случайной величины на константу Ъ (т. е. изменение ее шкалы) меняет шкалу среднего в то же число раз. Аналогично прибавление константы а к случайной величине X (т. е. изменение начала координат) соответственно смещает среднее на ту же величину. b) V (а + ЬХ) = b2V (X), где а и Ъ — константы. Умножение случайной величины X на константу Ъ увеличивает дисперсию в Ьг раз (т.е. увеличивает стандартное отклонение в |й| раз). Однако добавление константы а не изменяет дисперсии.
1.1. Основные понятия теории вероятностей 409 5. Среднее, медиана, мода, дисперсия и высшие моменты являются характеристиками распределения и, следовательно, его параметрами. Некоторые из этих параметров (или функций от них) могут входить в закон или плотность распределения. 1.1.6. Несколько случайных величин Во многих случаях приходится измерять несколько характери- характеристик элемента w из популяции W. Это приводит к необходимости определить несколько случайных величин Хъ Х2, ..., Xk A < <; k < °°)- Любая случайная величина Xt есть функция, ставя- ставящая в соответствие каждому элементу w из W число Xt (w), г = 1, ... ..., k. Конкретное значение xt, которое принимает Xt для дан- данного w, есть реализация Xt, i = 1, ..., k. Пример 1.1.1a. Врач измеряет у каждого пациента как систо- систолическое, так и диастолическое давление. Пусть Хх (w) — изме- изменение диастолического давления (в мм рт. ст.), а Х2 (w) — изме- изменение систолического давления крови (в мм рт. ст.), причем оба показателя измерены у пациента w. Эти функции определяют соответственно случайные величины Хг и Х2. Пример 1.1.2а. В исследовании IQ определяются Ух (w) — показатель IQ в шестилетнем возрасте у ребенка w, Y2 (w) — вес при рождении (в граммах), и Y3 (w) — возраст матери (в годах) в момент рождения ребенка. Эти функции определяют соответ- соответственно случайные величины Ylt Y2, Ys. Пример 1.1.3а. Пусть Zx (w) = 1 или 0 в зависимости от того, имеет ли данный индивидуум хронический бронхит, Z2 (w) есть жизненная емкость легких (в литрах) у данного индивидуума. Эти функции определяют соответственно случайные величины Zx и Z2. Мы можем также рассматривать измерение одной и той же характеристики у k индивидуумов из W как k случайных величин. Пусть wu до2> ¦••> wk суть k индивидуумов из W и пусть X — слу- случайная величина. Тогда мы определим k случайных величин Хг, Х2, ..., Xk следующим образом: Хх(тъ . . ., шА)= Х(щ), X2(wly . . ., wk)=X(w2), Xk{wlt . . ., wk) = X{wk).
410 Приложение I. Обзор основных понятий Пример 1.1.1b. Врач измеряет изменения систолического кровяного давления (в мм рт. ст.) у k пациентов. Следовательно, Xi (wlt ..., wk) — X (wi) равно изменению диастолического кро- кровяного давления у пациента wt, i = 1, ..., k. Пример 1.1.2b. Исследователь определяет показатель IQ у k детей шести лет. Следовательно, Yt (wx, ..., wk) — Y {wt) равно оценке IQ индивидуума wt, i = 1, ..., k. Пример 1.1.3b. Исследователь определяет, кто из k индиви- индивидуумов болен хроническим бронхитом. Следовательно, Zt (wlt ..., Wk) = Z (w^ = 1 или 0в зависимости от наличия хронического бронхита у индивидуума w{, i = 1, ..., k. Теперь мы обсудим понятия, лежащие в основе вероятностной структуры популяции в терминах реализаций нескольких слу- случайных величин, а именно понятие совместного распределения нескольких случайных величин. При любом определении Xlt ... ..., Хц можно представить k реализаций xlt ..., Xk как вектор, т. е. упорядоченный набор (хъ ..., Хц) из k чисел. Выборочным пространством S в этом случае является множество всех возмож- возможных векторов (хъ ..., xk). Для Хъ Х2 в примере 1.1.1а простран- пространство 5 есть обычная плоскость; для Ylt F8 и У8 в примере 1.1.2а 5 есть всевозможные тройки неотрицательных целых чисел, а для Zt, Z% в примере 1.1.3а 5 есть всевозможные пары (г1; г^), где 2Х = 1 или 0, а 22 — положительное целое число. Для примера I.l.lb 5 есть множества всех векторов (xlt ..., xk) с вещественными Xi, т. е. S есть 6-мерное евклидово пространство. Для примера I.I.2b S есть множество всех векторов (уъ ..., yk), где у( — неот- неотрицательные целые числа. В примере 1.1 .ЗЬ пространство 5 есть всевозможные последовательности длины k, состоящие из нулей и единиц. Как и ранее, любое подмножество Е из пространства 5 назы- называется событием. Например, в примере 1.1.1а подмножество Е есть первый квадрант, т. е. Е = \хъ х2 \ хх ^ 0 и х2 ^ 0} означает подмножество неотрицательных изменений систолического и диа- диастолического давлений. В примере 1.1.2а имеем Е = \уъ у2, Уз I Уг = 1000, у3 = 24}, что означает подмножество значений по- показателя IQ для детей, родившихся с весом 1000 г у 24-летних матерей. В примере 1.1.3а подмножество Е — \zx, z2 | zx = 1} означает жизненную емкость легких у индивидуумов с хрони- хроническим бронхитом. Чтобы дать определение вероятности события Рг (Е), проведем различие между этими двумя способами определения k случайных величин. Если величины Xlt ..., Xk представляют k характеристик одного индивидуума, то Рг (Е) есть доля индивидуумов в попу-
1.1. Основные понятия теории вероятностей 411 ляции, наборы значений (xlt ..., xk) которых принадлежат собы- событию Е. Если Х1г ..., Хк являются значениями одной и той же характеристики у k индивидуумов, нужно построить новую попу- популяцию G = \{wlt ..., wk) | wt из W, i = 1, ..., k\. Тогда Рг (E) есть доля элементов G, наборы значений (хг, ..., xk) которых при- принадлежат Е. При любом из этих определений мы можем обобщить понятие одномерной функции распределения одной случайной величины X на совместную функцию распределения k случайных величин Хг Xk, полагая F(xlt . . ., xk) = Рг(^ <xlt . . ., Xk < xk). A.1.13) Здесь совместная функция распределения есть вероятность собы- события Е = \Хг < хг и Х2 < х2 и ... и Xk < xk\. Если все Xt дискретны, может оказаться возможным выразить вероятность события Е = \Хг = х1г ..., Xk = Xk} как совместный закон распределения р (xlt ..., xk). Если все Xt непрерывны, то можно распространить понятие плотности распределения одной случай- случайной величины на случай совместной плотности распределения f (xlt ..., xk) k случайных величин. Вероятности событий можно тогда получить интегрированием (см. замечание 1.1.3.2). Вместо соотношения A.1.6) в многомерном случае справедливо равенство, которое мы приведем для k = 2: Рг {иг <. Х1 «с и1; «2 < Х2 < v2) = ui) — F(u1, v2)JrF(u1, u2). A.1.14) Рассмотрение k случайных величин, одни из которых непрерывны, а другие дискретны, выходит за пределы настоящей работы. Ссылки на литературу можно найти в книге Afifi, Elashoff A969). Рассмотрим другие распределения, связанные с совместным распределением величин Хг, ..., Xk. Распределение случайной величины Xt называется частным (или маргинальным) распре- распределением величины Xt, i = 1, ..., k. Это то же самое, что распреде- распределение Xt, рассматриваемое отдельно. Соответствующий закон (или плотность) распределения называется частным законом распределения (или частной плотностью распределения). Совмест- Совместное распределение подмножества т случайных величин, 1 < т < ¦< k, при фиксированных значениях остальных k — т случайных величин, называется условным распределением и выводится сле- следующим образом. Переставим случайные величины так, чтобы были фиксированы значения Хт+1, ..., Xk (Хт+1 = хт+1, ..., Xk = X/,). Тогда распределение Хг, ..., Хт в подпопуляции, для которой Хт+Ъ ..., Xk фиксированы, называется условным распределением Хъ ..., Хт при условии Хт+1 = хт+1, ..., Xk = = xk. Как и прежде, условное распределение может быть дискрет- дискретным и непрерывным, и соответствующий закон (или плотность)
412 Приложение I. Обзор основных понятий распределения называется условным законом (или условной плот- плотностью) распределения. Для примера 1.1.3а существуют два частных распределения — частное распределение Zx, определяющее распределение инди- индивидуумов с хроническим бронхитом и без него, и частное распре- распределение Z2, определяющее распределение жизненной емкости легких. Если мы интересуемся распределением жизненной ем- емкости легких у индивидуумов с хроническим бронхитом, то фикси- фиксируем Zj = 1 и исследуем распределение Z2 для полученной под- популяции. Это будет условное распределение Z2 при условии Z1 = 1. Теперь определим статистическую независимость двух слу- случайных величин Хх и Х2. Говорят, что случайные величины Хг и Х2 статистически независимы, если реализация Хх не влияет на реализацию Х2 и обратно. Иными словами, распределение Хх при заданном значении Х2 — х2 одинаково для всех значений х2 и обратно. Поэтому величины Хг и Х2 статистически независимы, если условное распределение величины Хг при условии Х2 = х2 совпадает с частным распределением величины Хх для всех зна- значений х2. Аналогично Хг и Х2 статистически независимы, если условное распределение случайной величины Х2 при условии Хх = хг совпадает с частным распределением Х2 при всех значе- значениях хг. Можно показать, что следующие определения статисти- статистической независимости случайных величин Xt и Х2 эквива- эквивалентны. a) Для дискретных случайных величин р (xlt x2) = = Pi (Xi) Рг (х2) при любых хг, х2, в случае непрерывных слу- случайных величин / (xlt х2) = /х (хг) /2 (^г) ПРИ любых х1 и jc2. Сле- Следовательно, совместный закон (плотность) распределения есть произведение двух частных законов (плотностей) распределения. b) F (хъ х2) = Fx fa) F2 (x2) для любых % и ^, Это определе- определение справедливо как для дискретных, так и для непрерывных случайных величин. Следовательно, совместная функция распре- распределения равна произведению двух частных функций распреде- распределения. c) Рг (Хг С Ег и Х2 С Е2) = Рг (Хг С Ег) Рг (Х2 С ЕЛ) для всех событий Ег и Е2. Обычно будем называть статистическую независимость слу- случайных величин просто независимостью случайных величин. Две случайные величины, не являющиеся независимыми, назы- называются зависимыми. Далее, k случайных величин Хг, ..., Xk взаимно (статисти- (статистически) независимы тогда и только тогда, когда F (хъ ..., xk) = = F± (jcj) F2 (x2) ... Fk (хк) для всех значений xlt ..., xk. Это определение справедливо как для дискретных, так и для непре-
1.1. Основные понятия теории вероятностей 413 рывных случайных величин. Равенства а) и с) также можно распространить на случай k случайных величин. Для приведенных выше примеров можно показать, что в при- примере I.l.lb случайные величины Xlt ..., Xk взаимно независимы. То же самое верно для Yt и Zt, i = 1, ..., k, соответственно в при- примерах 1.1.2Ь и 1.1.3Ь. В примере 1.1.1а изменения систолического и диастолического давлений должны быть зависимыми, так как диастолическое давление обязательно меньше систолического, т. е. значение систолического давления является верхним преде- пределом для диастолического. В примере 1.1.2а следовало бы также ожидать зависимости между возрастом матери и весом ребенка при рождении и, может быть, между весом при рождении и пока- показателем IQ. Вообще говоря, предполагать независимость случай- случайных величин, определенных для одного и того же индивидуума, небезопасно. С другой стороны, измерения, выполненные на раз- различных элементах популяции, вероятнее всего, независимы. Замечания 1.1.3. 1. Совместный закон распределения р (х1г ... ..., хк) дискретных случайных величин Хг Xk обладает сле- следующими свойствами: a) 0 <: р (хъ ..., хк) < 1 для всех хг, ..., хк\ b) Е ••• 1iP(Xi, .... xk) = I1); c) Рг (Мх <: Хг < i»i, ..., ик < Xk < vk) = 2 ••¦ S P (*i. ••¦ ) d) F (xlt ..., xk) = Ц ... Ц р (и1у ..., uk); e) p (xt) = 2 ••• S S ••• Ij p(xi, ¦••, xk) есть частный закон xi xi-i xt+i xk распределения для xt. -к2. Совместная плотность распределения / (хъ ..., хк) для непрерывных случайных величин Х1У ..., Хк обладает следующими свойствами: а) / (хх, ..., xk) 5г 0 для всех х1г ..., xk; b) J ... _[/(*!, ..., хк) йхг ... dxk = 1; ОО ОО c) Рг («х < Хг < vlt ..., Uk < Xk < щ) = = J ¦ • • \f (Xi xk) dxx ... dxk; Символ 2 означает суммирование по всем возможным значениям Х(.
414 Приложение I. Обзор основных понятий xk xi d) F {хх xk) = J ... J / («х, ..., uk) dux ... duk; —oo —oo = j ... \f(xlt ..., xk) dxx ... dxt^dxt^ ... dxM есть —oo —oo частная плотность распределения xt. * .2. Наиболее употребительные одномерные распределения В настоящем разделе обсудим некоторые наиболее употребитель- употребительные одномерные распределения, т. е. распределения одной слу- случайной величины. В частности, обсудим распределения, исполь- использованные в этой книге. Для каждого распределения приводятся его закон распределения или плотность, а также обсуждаются возможные приложения. Итоговая таблица (табл. 1.2.1) в конце раздела содержит перечень распределений с указанием закона распределения, среднего и дисперсии. 1.2.1. Биномиальное распределение Пусть Х1г ..., Хп суть п независимых двоичных случайных вели- величин, каждая из которых принимает значение 1 с вероятностью р или значение 0 с вероятностью 1 —р. Пусть t=i A.2.1) Тогда X — случайная величина с выборочным пространством S = {0, 1, ..., п\. Распределение случайной величины X назы- называется биномиальным распределением. Его закон распределения р @ = Рг (X — i) обозначается через bn (i, p) и задается фор- формулами bn(i, Р) = (J) Р'0 - Р)"-'. * = 0, 1, ..., п, A.2.2) где 0!=l. Величина «fe!» читается «fe факториал», величина (*\ называется «биномиальный коэффициент» и читается «число сочетаний из п
1.2. Наиболее употребительные одномерные распределения 415 по Ь. Таблицы факториалов можно найти в математических спра- справочниках, например, Burington A965), Большее, Смирнов A965)*. В табл. 1 приложения II приведены значения вероятностей биномиального распределения для п «g 10 и различных значе- значений р. Например, по этой таблице вероятность того, что X = 3 при п = 10 и р = 0.5 равна Ь10 C, 0.5) = 0.1172. Это можно проверить и непосредственно с помощью A.2.2) — A.2.4). Здесь (п\ __ (Щ 101 _ Ю-9-8 19f) W \3/ 3!7! — 3-2.1 — 1ZVJ' pi = A/2)8 = 1/8, A - py-i = A/2O - 1/128. Поэтому Ьы C, 0.5) = 120 A/8) A/128) = 0.1172. Интерпретацией Ъп (i, p) служит вероятность появления i еди- единиц при п независимых испытаниях, причем вероятность получе- получения единицы при каждом испытании равна р. Таким образом, если в примере 1.1.3 вероятность р того, что некоторый пациент страдает хроническим бронхитом, равна 1/2, то вероятность наличия в точности 3 больных хроническим бронхитом из 10 па- пациентов равна bw C, 0.5) = 0.1172. Таблицу 1 в приложении II можно также использовать для вычисления закона распределе- распределения. Например, если X имеет биномиальное распределение с р = = 0.5 и п = 10, то вероятность того, что имеется не более трех з единиц, равна Рг (X <: 3) = ? b10 (t, 0.5) = 0.0010 + 0.0098 + 1=0 + 0.0439 + 0.1172 = 0.1719. Для значений п и р, не включенных в эту таблицу, для вычисления биномиальных вероятностей очень полезна ЭВМ. Иногда удобнее рассматривать долю единиц, а не их число. Для этого введем новую случайную величину с законом распределения Рг (F = -L) = Ьп (t, p), i = 0, . . ., п. A.2.6) Ее среднее и дисперсия равны соответственно р и р A — рIп. 1.2.2. Распределение Пуассона Пусть X — случайная величина с выборочным пространством S = {0, 1, 2, ...}. Величина X обладает распределением Пуассона с параметром к, если 0=?:^-> i-0, 1 A.2.7)
416 Приложение I. Обзор основных понятий где Л вычисляется по формулам A.2.4), а е — константа, приблизи- приблизительно равная 2.7183. Таблицы б""* можно найти в математических справочниках, например, Burington A965), Большев, Смирнов A965) *. Распределение Пуассона описывает события, происхоящие в случайные моменты времени. Например, число частиц, вылетев- вылетевших из радиоактивного источника в единицу времени, число теле- телефонных вызовов в минуту в телефонной сети при стационарном режиме с удовлетворительной точностью можно описать распре- распределением Пуассона. Во всех этих примерах средняя интенсив- интенсивность в единицу времени равна параметру Я, а вероятность i событий в единицу времени задается равенством A.2.7). Более того, распределение отрезков времени между такими последова- последовательными событиями подчиняется экспоненциальному распределе- распределению, обсуждающемуся в разд. 1.2.4. Например, предположим, что для телефонной станции в интер- интервале от 10 до 11 часов дня средняя интенсивность поступающих вызовов в стационарном режиме равна 4 вызовам в минуту. Тогда вероятность поступления не более чем 3 вызовов между 10 : 00 и 10 : 01 равна Рг (X <: 3) = Рг (X = 0) Н 1- Рг (X = 3) = = у = e A/1 + 4/1 + 16/2 + 32/3) = 0,433. 1.2.3. Равномерное распределение Простейшее непрерывное распределение называется равномерным (или прямоугольным) распределением. Случайная переменная X называется равномерно распределенной на интервале [а, Ь], если ее плотность распределения есть й 0j в остальных случаях. Функция распределения имеет вид 0, х<а, F(X): x — a х>Ъ. Это распределение иногда обозначается U (а, Ь). Если х — реа- реализация X, то говорят, что х случайно выбрано из интервала [а, Ы
1.2. Наиболее употребительные одномерные распределения 417 Замечания 1.2.1. 1. Если X есть U (а, Ь), то случайная вели- величина Z = . ~ равномерно распределена на интервале [0, 1 ], т. е. Z есть U @, 1). Это распределение называется стандартизо- стандартизованным равномерным распределением. 2. Существуют программы для ЭВМ, выбирающие случайные числа z из интервала [0, 11. Для выбора случайного числа х из интервала [а, Ь] программа выбирает случайное число z из ин- интервала [0, 1 ], а затем вычисляет х = (Ь — а) г + а. Ссылки на описания методов получения г можно найти в библиографии к книге Martin A968), а также Бусленко и др. A962) *, Соболь A968) *, Кляйнен A978) *. 3. Одно из важных дискретных распределений имеет закон распределения где k — целое положительное число. Это распределение назы- называется дискретным равномерным (или равновероятным). Если х — реализация случайной величины X, распределенной по этому за- закону, то говорят, что х выбрано случайно из целых чисел 1, 2... ..., k. Для выполнения этой операции удобно использовать ЭВМ — сначала выбрать значение г из (/ @, 1), затем вычислить у = kz + 1 и, наконец, найти х, равное наибольшему целому, не превосходящему у. Например, если k = 10, а случайное число оказалось г = 0.561, тогда у = 6.61 и х = 6. Следовательно, из набора целых чисел 1, 2, ..., 10 будет случайно выбрано число 6. 4. Случайные числа, выбранные из интервала [0, 1 ], можно использовать для выбора случайных реализаций случайной ве- величины с заданным известным распределением. Эта процедура обсуждается в разд. 1.6. 1.2.4. Экспоненциальное распределение Непрерывная случайная величина X называется экспоненци- экспоненциально распределенной с параметром 9, если она имеет плотность распределения /(х) = 96-е*, х^О, 9>0, A.2.10) и функцию распределения F{x)=l - е~вх. A.2.11) Если распределение числа событий в единицу времени для не- некоторого явления подчиняется пуассоновскому закону с пара- параметром Я, то распределение длин отрезков времени между после- последовательными событиями будет экспоненциальным с параметром 9 = К. Va 14 А. Афифи, С. Эйзен
418 Приложение I. Обзор основных понятий 1.2.5. Нормальное распределение В приложениях статистики чаще всего используется нормальное (гауссовское) распределение. Непрерывная случайная величина X называется распределенной по нормальному закону с параметрами (.1 и а2, если ее плотность распределения есть — oo<jc<oo, a>0, —oo<(i<oo. (I.2.12) Как отмечено в табл. 1.2.1, среднее значение X равно и, а диспер- дисперсия равна а2 (стандартное отклонение а). ¦f(x) 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 о.о - >- - /I W W у] ч -4 -3-2-1 0 1 2 Ъ Рис. 1.2.1. Плотность нормального распределения при |х = 0 и трех значе- значениях а2. Поскольку функция распределения не представима в замкну- замкнутом виде, накопленные вероятности можно находить численным интегрированием (см. Ralston, Wilf (I960)). Нормальное распреде- распределение обычно обозначается Л" (щ о'2). Замечания 1.2.2. 1. Плотность, заданная соотношением A.2.12), симметрична относительно цц имеет колоколообразную форму (рис. 1.2.1) и обладает следующими свойствами: а) площадь под функцией плотности в пределах \а ± о равна приблизительно 0.68 (т. е. около 68 % индивидуумов в популяции
1.2. Наиболее употребительные одномерные распределения 419 имеют значения X в пределах одного стандартного отклонения от среднего); b) площадь под функцией плотности в пределах \.i + 2а равна приблизительно 0.95 (т. е. около 95 % индивидуумов в популяции имеют значения X в пределах удвоенного стандартного отклонения от среднего); c) третий центральный момент равен нулю, а четвертый Зет4. Параметр ц определяет положение центра распределения, а пара- параметр гг—форму. С уменыгтением__(трагпре1трление становится круче, а максимум — выше. С увеличением и график плотности распределения станивигся более плоским, с меньшей высотой максимума (рис. 1.2.1). 2. n2PJ!b_ci!y4ajffla5i величина X подчиняется закону распреде- распределения N ([I, а31--Др?обоазованная величина Z, определяемая cooTHonieHHei(t^Z = х ~ ^J) имеет распределение N @, 1), т. е. Z обладает средним |.i = 0 и стандартным отклонением о ¦= 1. Плотность распределения Z есть = l4rехр (-тт)' Это распределение называется стандартным нормальным распре- распределением. Если Z распределена по закону N @, 1), то Pr (Z < z) часто обозначают через Ф (z). Плотность случайной величины Z обозначается через ф (z). Значения Ф (z) приведены в табл. 2, приложение II. Например, Рг(г< -1.0) = 0.1587, Рг(г> 1.0) = 1 —Рг(г< 1.0)= 1 — 0.8413 -= 0.1587, Рг (—1 < z < 2) = Pr (z < 2) - Рг (г < — 1) = = 0.9773 — 0.1587 = 0.8186. 3. Если случайная величина X имеет распределение N (ц, а2), то площади слева от заданного значения х можно получить, пре- преобразуя X в Z, а затем воспользовавшись табл. 2, приложение II. Например, если \.i = 30, а о = 20, то, чтобы вычислить Рг (X «; < 25), можно воспользоваться преобразованиями: Рг (X < 25) = Рг (Z< 25~30 ) =Pr(Z< -0.25)-0.4013. Вычисляя Рг (X 5= 51), получим Рг(Х< 51) = Pr (Z^ 51~30 ) = Pr(Z5== 1.05) = = 1.0 — 0.8531 =0.1469.
420 Приложение I. Обзор основных понятий Окончательно, РгB5 < X < 51) = Рг(Х < 51) - Рг(Х < 25) = = Pr (Z < 1.05) - Pr (Z < - 0.25) = = 0.8531 -0.4013 = 0.4518. 4. Если X распределена как NJm*. Q% то при постоянных аи b случайная величина Y = а + ЬХ имеет распределение N (а + + Ьр, Ь*о*). 5. Если Хх распределена как N (\ах, а\), Х2 — как N (ц2, стг), ..., Хк — как N (ц*, ст|) и Хь ..., XI взаимно независимы, то случайная величина Y = а + 2 Ь,-Хг (где а, &х, ..., Ь/, — кон- константы) также распределена по нормальному закону со средним # + 2j ?(Мч' и дисперсией J] Ь?ст?. Следовательно, линейная ком- бинация независимых нормально распределенных случайных ве- величин — тоже нормально распределенная величина. Более общий результат приведен в разд. 1.6. 6. Многие наблюдаемые явления подчиняются приблизительно нормальному закону распределения. По этой причине основная часть классической статистической теории предполагает нормаль- нормальность рассматриваемой случайной величины. Как будет показано далее, другое основание для поддержания предположения о нор- нормальности дает нам центральная предельная теорема, а третье — то, что некоторые полезные статистические теории не слишком сильно зависят от этого предположения. Пример 1.1.1 (продолжение). Чтобы сформулировать вероят- вероятностные утверждения относительно величины X, равной измене- изменению диастолического давления вследствие. приема - лекарства, врач предполагает, что X распределена нормально со средним [I = 30 мм рт. ст. и стандартным отклонением а = 20 мм рт. ст. Воспользовавшись замечанием 1.2.2.3, он может вычислить инте- интересующие его вероятности. Поскольку значения цист совпадают с использованными в этом замечании, он может сделать выводы, что (в предположении нормальности): a) 40.13 % его пациентов, принимающих это лекарство, пока- покажут снижение систолического кровяного давления не более 25 мм рт. ст.; b) 14.69 % его пациентов покажут снижение большее или равное 51 мм рт. ст.; c) 45.18 % его пациентов покажут снижение в диапазоне от 25 до 51 мм рт. ст. Заметим, что, поскольку эти три возможности исчерпывают все выборочное пространство, суммарный процент равен 100 %.
1.2. Наиболее употребительные одномерные распределения 421 1.2.6. Распределение хи-квадрат (%2) Если 1Ъ Z2, ..., Zv —^заимдо независимые случайные величины с распределениями N @, 1), где v — положительное целое число, то переменная U, определяемая равенством и = (=1 A.2.13) 0 5 10 15 20 25 30 35 40 Рис. 1.2.2. Плотность распределения хи-квадрат с тремя вариантами значений числа степеней свободы V. обладает распределением хи-квадрат (%2) с параметром v. Этот параметр называется числом степеней свободы. Плотность рас- распределения U имеет вид „(V/2) - 1е-и/2 >0 v=l,2, .... A.2.14) Функция распределения не представит в замкнутом виде, и закон распределения U обозначается %2 (v). Замечания 1.2.3. 1. Плотность / (и), зависящая от одного па- параметра v, обладает при малых v длинным правым хвостом, а при больших v становится почти симметричной (рис. 1.2.2). 2. Определим теперь процентиль произвольного распределе- распределения. Для любой случайной величины X значение xq/iQ0, опреде- определяемое равенством Р(Х = G/100, служит q-й процентилью распределения X. Избранные процен- тили распределения %2 для некоторого диапазона степеней сво- 14 А. Афифи, С. Эйзен
422 Приложение I. Обзор основных понятий боды v приведены в табл. 3, приложение П. Например, 90-я про- центиль для распределения %2 при v = 9 равна Хо.эо (9) = 14.7. Из этого следует, что 90 % индивидуумов в популяции имеют значение этой случайной переменной <14.7. Аналогично, 5-я про- центиль от распределения % при v — 15 равна xo.os A5) = 7.26. 1.2.7. Распределение Стьюдента Если случайная величина ?дмеет распределение JV @, 1), a f/ — распределение %2 (v) и величины Zjj.i/ независимы, то случайная величина Т, определяемая равенством имеет распределение Стьюдента с параметром v. Параметр v представляет собой число степеней свободы. Плотность распределе- распределения Т имеет вид A.2.15b) 0.4 - 0.3 - — О -1 -о с -I 0 1 2 о Рис. 1.2.3. Плотность распределения Стьюдента с тремя вариантами значений числа степеней свободы V. Функция распределения не представима в замкнутом виде. Закон распределения Т обозначается t(v).
1.2. Наиболее употребительные одномерные распределения 423 Замечания 1.2.4. 1. Плотность этого распределения имеет симметричную форму, более плоскую и ^д?елдиршсую_по_сравне- (рис. 1.2.3). При v ->¦ оо плот- плотб jj^pp (р ) р ность распределения Стьюдента приближается к плотности рас- распределения N (О, 1). 2. Верхние процентили ^-распределения приведены в табл. 5, приложение II. Например, 95-я процентиль ^-распределения при v = 10 равна ?0.95 A0) = 1.812. Вследствие симметрии, нижние процентили можно получить из соотношения tq/wo (v) = = —t[-(q/iQ0) (v). Следовательно, 5-я процентиль от t при v = 10 равна *0.обA0) ='—1.812. 1.2.8. F-распределение Если случайная величина U имеет распределение %2 (vx), a V — распределение %2 (v.2) и величины U и V независимы, то случайная величина W = A.2.16) f(w) - v,= 16, к,= 20 1.00 - 0.75 -\ 0.50 0.25 - 0.00 12 3 4 5 6 Рис. 1.2.4. Плотность F-распределения с тремя вариантами значений чисел сте- степеней свободы Ух, v2. обладает F-распределением с параметрами \г и v2. Параметры vx и v2 называются соответственно числами степеней свободы числи- числителя и знаменателя. Плотность распределения W имеет вид 1 + v2 - 2 ^ | —2 Л f(w) = '^v^ "(l+. = 1, 2, .... (Vi-2)/2 A.2.17) 14*
Наиболее распространенные одномерные распределения Таблица 1.2.1 Распределение Тип Закон или плотность распределения Биномиальное Дискретное Пуассояовскде, Дискретное Равномерное Непрерывное (прямоугольное) Экспоненциальное Непрерывное Нормальное Непрерывное Хг&У) Непрерывное /(v) Непрерывное Непрерывное в е 1 A 1х-цу — /v-2 Среднее Дисперсия "Р а+Ь 1 в 12 2v v-2 Таблица приложении В
1.3. Выборки из генеральной совокупности 425 Функция распределения не представима в замкнутом виде. Закон распределения величины W обозначается F (чъ v2). Замечания 1.2.5. 1. Плотность F-распределения имеет длин- длинный правый хвост и асимметрия его уменьшается с увеличением vi и V2 (рис. 1.2.4). 2. Верхние процентили F-распределения приведены в табл. 6, приложение II. Например, 97.5-я процентиль F-распределения при Vj = 5 и v8 = 19 равна F0.975 E, 19) = 3.33. Нижние процен- процентили можно получить из соотношения Fq/\00 (Vi, V2) = -р . М-(«7/100) (V2- Vl) Следовательно, 5-я процентиль распределения F при vx = 4 и v2 = 15 равна F0.08 D, 15) = FoJA5L) = -^g" = 0.171. 1.2.9. Резюме В табл. 1.2.1 собраны все восемь распределений, рассмотренных в этом разделе. Для каждого распределения приведены: его тип, закон или плотность распределения, среднее, дисперсия и ссылка на соответствующую таблицу в приложении II. 1.3. Выборки из генеральной совокупности Основной целью статистического анализа является выяснение некоторых свойств рассматриваемой генеральной совокупности. Если генеральная совокупность конечна, то наилучшая проце- процедура — рассмотрение каждого ее элемента (если это возможно). Однако в большинстве интересных задач используются либо бес- бесконечные генеральные совокупности, либо конечные, но трудно обозримые. В этой ситуации наилучшая процедура состоит в том, чтобы тщательно отобрать из генеральной совокупности подмно- жесТво из п элементов, называемое выборко^об5&иа..лх_исследовать его свойства, а затем обобщить эти результаты на всю гене- генеральную совокупность. Это обобщение результатов на генераль- генеральную совокупность называется апаш1стии?ским~--вьшодом. В на- настоящем разделе вначале обсудим вопрос об извлечении выборки объема п, по которой обобщение на всю генеральную совокуп- совокупность допустимо, а затем расширим смысл понятия статистиче- статистического вывода и обсудим понятие выборочных распределений.
426 Приложение I. Обзор основных понятий 1.3.1. Случайные выборки Основное требование к выборке — хорошо представлять (быть ре- репрезентативной, представительной) генеральную совокупность. Хотя трудно определить, что подразумевается под словом «пред- «представительная», обычный метод состоит в получении случайной выборки. Простая случайная выборка объема п — это выборка, извлеченная так, что любая возможная выборка объема п имеет такую же вероятность извлечения из генеральной совокупности. Чтобы удовлетворить этому определению, каждый элемент вы- выборки следует возвращать в генеральную совокупность перед извлечением следующего элемента. Это называется выборкой с воз- возвращением. Другой тип случайной выборки (не простая) полу- получается, если выбранные элементы не возвращаются в генеральную - совокупность и, следовательно, могут появиться в выборке не бо- более, чем однажды. Это называется выборкой без возвращения. Если генеральная совокупность бесконечна, то процедуры выбора как с возвращением, так и без него, дают простую случайную выборку. ,-Если генеральная совокупность конечна и велика по сравнению с размером выборки, то процедура извлечения без возвращения дает приблизительно простую случайную выборку. Если гене- генеральная совокупность конечна и объем выборки составляет замет- заметную долю от размера генеральной совокупности, то различие между этими двумя методами становится заметным. Формально выборка объема п есть набор реализаций п неза- независимых, одинаково распределенных случайных величин. Эти случайные величины представляют измерения одних и тех же характеристик у п элементов, как было определено в разд. 1.1.6. Интуитивно это можно понимать так, что каждый элемент, вхо- входящий в генеральную совокупность, имеет одинаковую вероятность попадания в выборку и что выбор некоторого члена выборки не зависит от выбора остальных. Главное преимущество процедуры случайного извлечения выборки состоит в том, что можно исклю- исключить воздействие неконтролируемых факторов, и в том, что многие теоретические результаты гораздо легче получить в предположе-' нии случайного извлечения. Другие методы извлечения выборок обсуждаются в книге Cochran A953). Стандартные процедуры получения случайной выборки из ко- конечной генеральной совокупности обсуждаются в большинстве элементарных учебников, например,^ Dixon,J|Mas?ey2, A969). В разд. 1.2.3 говорилось о машинных методах получения случай- случайных выборок. Практически не существует стандартного метода получения простой случайной выборки из бесконечной генераль- генеральной совокупности. Поэтому исследователь вынужден ограничи- ограничиваться конечными подмножествами генеральной совокупности. Бесконечные генеральные совокупности возникают в эксперимен-
1.3. Выборки из Генеральной совокупности 42? тальных ситуациях, аналогичных ситуации примера 1.1.1. Врач по необходимости должен сузить свою гипотетическую бесконеч- бесконечную популяцию до реальной конечной популяции пациентов, принимавших лекарство во время исследования. Более того, ради удобства, он ограничивается" подпопуляцией пациентов, живущих вблизи его клиники. Из этой подпопуляции он фактически может извлечь случайную выборку объема п. 1.3.2. Выборочные распределения Обсудим в этом разделе понятие выборочного распределения. Для его обоснования вначале рассмотрим компоненты статистиче- статистического вывода. Статистический вывод можно рассматривать как Генеральная совокупность W Совокупность выборочных зночений g Исходное распределение Выборочное распреЬеление а Рис. 1.3.1. Схематическое представление выборочного распределения. метод получения утверждении относительно неизвестных параме- параметров изучаемой генеральной совокупности. Эти утверждения можно разбить на два основных раздела — оценивание и проверка гипотез. Первый раздел имеет дело с получением оценок, заданных либо а) посредством вычисления по выборке единственной оценки (на- (называемой точечной оценкой), либо Ь) посредством вычисления интервала, предположительно включающего истинное значение параметра (называемого доверительным интервалом). Эти методы оценивания — точечные и интервальные — обсуждаются
428 Приложение I. Обзор основных понятий в разд. 1.4. Второй раздел статистического вывода имеет дело с про- проверкой справедливости утверждений, называемых статистиче- статистическими гипотезами относительно параметра (ов) распределений, и обсуждается в разд. 1.5. Для целей статистического вывода предположим, что у нас есть случайная выборка хъ ,,., хм в которой xt — реализации независимых, одинаково-распределенных случайных величин Xt. Затем мы вычислим некоторую функцию g (хи ..., хп) от случай- случайной выборки, называемую статистикой. Повторяя эту процедуру для всех возможных выборок объема п, мы получим выборочную популяцию g. Распределение этой популяции называется выбороч- выборочным распределением статистики g (рис. 1.3.1). Примеры выбо- выборочных распределений будут обсуждены в последующих раз- разделах. Пример 1.1.1 (продолжение). Врач знает, что случайная вели- величина X, определенная как X (да), равная изменению диастоличе- ского давления у пациента да, является непрерывной. Более того, он предполагает, что X распределена по нормальному закону со средним \i и дисперсией а2. Затем он извлекает случайную выборку объема 9 пациентов поблизости от своей клиники и лечит их дан- данным лекарством. На основании наблюдений хх, ..., ха он хочет оценить параметр \а или проверить гипотезы относительно него. 1.4. Оценка параметров генеральной совокупности Пусть имеется случайная выборка хх, ..., хп реализаций слу- случайных величин Хъ ..., Хп из генеральной совокупности с плот- плотностью (или законом распределения) вида / (х; 9Х, ..., 9^.). Функ- Функция записана здесь в новой форме, позволяющей представить либо плотность, либо закон распределения и указать на зависимость от k параметров 01( ..., 0Ь часть из которых может быть известна. Желательно оценить один или несколько параметров Qj по нашей выборке. Каждая функция g (Хъ ..., Хп), которую мы выберем для. оценки данного параметра, называется (точечной) оценкой, а численное значение g (хъ ..., хп), которое она принимает на нашей выборке, называется значением (точечной) оценки. Так как каждая оценка сама является случайной величиной, мы можем изучать ее выборочное распределение, чтобы узнать ее свойства. Желательные свойства оценок обсуждаются в разд. 1.4.1, а методы их получения — в разд. 1.4.2. Доверительные интервалы рассмо- рассмотрены в разд. 1.4.3. Теоретическое изложение и примеры можно найти, например, в книге Lindgren A968).
1.4. Оценка параметров генеральной совокупности 429 1.4.1. Свойства точечных оценок Далее в этом разделе будем обозначать параметр, который пред- предстоит оценить, через 0, а его оценку — через 0 = g (Х1г ..., Хп). Одним из желательных свойств оценки является несмещенность. Оценка 0 называется несмещенной, если Е(в) — 0 для всех 0. Отсюда следует, что выборочное распределение 0 имеет в качестве центра параметр 0, т. е. несмещенная оценка 0 параметра 0 в сред- среднем равна 0. Для некоторых задач может оказаться возможным найти не- несколько несмещенных оценок. Интуитивно предпочитают ту из них, которая обладает наименьшим рассеянием. Несмещенная оценка 0 параметра 0, обладающая минимальной дисперсией среди всех несмещенных оценок для 0, называется эффективной. Если V @) — минимальная дисперсия, а V @а) — дисперсия любой другой несмещенной оценки 0а параметра 0, то эффективность оценки 0а равна по определению ™ . A.4.2) V(Qa) Эта величина заключена между 0 и 1. Эффективная оценка иногда называется несмещенной оценкой с минимальной дисперсией. Иногда оценка становится эффективной с увеличением объема п выборки. Предельная эффективность оценки при бесконечном увеличении объема выборки называется асимптотической эффек- эффективностью. Если асимптотическая эффективность равна 1, оценка называется асимптотически эффективной.^ Другим желательным свойством оценки 0 является состоятель- состоятельность. Формально оценка 0 называется состоятельной, если для любого положительного г Рг{|6-0|<е}->1 при n->oo. (I.4.3) Интуитивно отсюда следует, что при увеличении объема п выборки наша оценка приближается к истинному значению параметра. 1.4.2. Методы оценивания Поскольку не существует единственной, наилучшей процедуры оценивания интересующих нас параметров 01? 62, ..., Qk, предста- представим в этом разделе некоторые стандартные теоретические методы оценивания. Старейшим из современных методов получения то- точечных оценок является метод моментов. Вкратце, чтобы оценить k параметров 0Х, ..., 0^ этим методом, приравниваем k первых моментов генеральной совокупности первым k выборочным момен-
430 Приложение I. Обзор основных понятий там (выборочные моменты определяются в разд. 2.2.1). Решение k уравнений дает оценки параметров. Как правило, эти оценки со- состоятельны. Самый распространенный метод оценивания — метод макси- максимального правдоподобия. Чтобы ввести этот метод, определим функ- щю правдоподобия L--- hf(xt; 0ъ ..., 0,), A.4.4) "де еимвол П означает произведение сомножителей f (х(; 9Ь ... .., А). Метод максимального правдоподобия состоит в опреде- гении значений 9Ь ..., 9*, максимизирующих I по отношению с 91; ..., 9^. Полученные оценки 9Ъ ..., 9,е называются оценками шксимального правдоподобия {МП-оценками) и являются состоя- ельными, асимптотически нормальными, асимптотически эффек- ивными при некоторых достаточно общих условиях. Однако они асто оказываются смещенными. Для нахождения численных начений оценок для данной выборки чрезвычайно полезно ис- ользовать ЭВМ. Третий метод — метод оценивания по минимуму %2. Для этого :етода предположим, что выборочное пространство разделено на взаимно непересекающихся классов, в совокупности исчерпы- ающих все пространство. Пусть щ — наблюдаемое число выбо- с очных значений в t-м классе, i — 1 с. Следовательно, J] nt — (=1 = п. Далее, пусть pt (9Х, ..., Qk) —вероятность попадания в г-й ласе, i = 1, ..., с. Эти вероятности получаются из гипотетиче- кого закона распределения (или плотности) и являются функ- иями параметров. Метод оценивания по минимуму х2 состоит определении значений 9lt ..., 9^, минимизирующих „2 _ Х nPiiQ, &k) • \1Л-°> 1=Л ля получения численных решений также полезно применить ВМ. Наконец, распространенным методом оценивания является гтод наименьших квадратов. Этот метод и его свойства подробно слагаются в гл. 3 и 4. 4.3. Доверительный интервал для параметра осле того как получена точечная оценка 9 параметра 9, жела- тьно получить данные относительно надежности этой оценки, о можно сделать, вычислив стандартное отклонение выборочного
1.4. Оценка параметров генеральной совокупности 431 распределения оценки 9. Эта величина называется стандартной ошибкой оценки и служит мерой ее разброса. Другой подход со- i стоит в построении доверительного интервала. Для этого интер- ' вала определяется вероятность того, что в нем находится неизвест- неизвестное истинное значение параметра 9. Эта вероятность есть мера нашего доверия к тому, что интервал содержит истинное значение параметра, откуда и происходит название интервала. Точнее говоря, мы заранее^ выбираем число а, 0 ¦< а < 1, и находим два других числа а (9) и Ь (9), зависящих от оценки 6, так что Pr ja(9)<0«:fr(9)} = 1 -а. A.4.6) Интервал [а (9), Ь (9)] называется 100A —а)-процентным дове- доверительным интервалом для 0 1'. Вероятность того, что этот интер- интервал содержит истинное значение 9 равна 1 — а (доверительный уровень). Значения а @) и Ь (9) зависят от выборочного распреде- распределения для 9 и называются доверительными границами для 0. Эти границы являются случайными величинами, изменяющимися от выборки к выборке. От доверительных интервалов, основанных на всех возможных выборках объема п, мы ожидаем, что 100 A — — а) % их содержит истинное значение 0. Обычные значения для а: 0.1, 0.05, 0.01 соответствуют 90 %- 95 %- и 99 %-ным довери- доверительным интервалам. При фиксированном п чем выше доверитель- доверительный уровень, тем шире доверительный интервал. Кроме того, при фиксированном а с увеличением п длина доверительного интер- интервала убывает. Замечания 1.4.1. 1. Если случайная величина X распределена по закону N (\i, g2), to МП-оценки для параметров \i и а2 соответ- п ственно равны А = — /,хг = х> т- е- выборочному среднему, и п *^^ 1 V 1 а2 = — 2, (%i — хJ- Оценка х является несмещенной, состоятель- <=1 ной и эффективной. Ее выборочное распределение тоже нормаль- нормальное со средним [х и дисперсией o2ln, т. е. х имеет распределение N (\i, о2/п). Оценка о2 — смещенная, но состоятельная. Выбо- Выборочное распределение величины по2/а2 есть распределение %2 с п — 1 степенями свободы. Следовательно, среднее для а2 есть (я — 1) аг/п, а дисперсия равна 2 (ft — 1) a4/ft2. а) Доверительные интервалы имеют разные формы записи. Например, а (в) < < 6 < Ь (9). Аналогично, если Ь (б) = 9 -\- с и а F) = 9 — с при^ некотором постоянном с, то можно записать доверительный интервал в виде 6 ± с.
432 Приложение I. Обзор основных понятий Несмещенная форма МП-оценки для о2 такова: 1=1 Это — выборочная дисперсия. Выборочное распределение вели- величины (п — 1) s2/o2 есть х2 (п — 1). Величина s является обычной оценкой стандартного отклоне- отклонения а. Это смещенная оценка. Стандартная ошибка среднего х равна а/У п и, следовательно, оценивается величиной sly п. 2. На протяжении всей книги используется важное понятие числа степеней свободы для суммы квадратов. В общем случае, если s2 — такая несмещенная оценка для <та, что величина vs2lo2 имеет распределение %2 (v), то говорят, что s2 обладает v степенями свободы. 3. Важным теоретическим результатом относительно выбо- выборочных распределений является центральная предельная теорема. Различные формы этой теоремы даны в книге Fellei A968); здесь мы приведем одну из ее простейших формулировок. Если Хъ ..., Хп — независимые, одинаково распределенные случайные величины со средним ц и конечной дисперсией а2, то при п -»- оо распределение случайной величины есть N@, 1), где Х- -?- Вот одно из важных применений этой теоремы: если мы получаем случайную выборку объема п из генеральной совокупности с ко- конечной дисперсией, то независимо от распределения нашей слу- случайной величины X, распределение выборочного среднего X при больших п. будет приблизительно N (ц, а2/п). Другие теоретиче- теоретические следствия из этой теоремы приведены в гл. 2. 4. Если случайная величина X распределена по биномиаль- биномиальному закону с параметрами п и р, то МП-оценкой параметра р .будет (=1 Это — несмещенная оценка. Из центральной предельной теоремы следует, что при больших п выборочное распределение р является приблизительно нормальным со средним/? и дисперсией р A— рIп, т. е. р имеет приблизительно распределение N (р, р A — рIп) для больших п.
1.4. Оценка параметров генеральной совокупности 433 5. 100 A— а) %-ным доверительным интервалом для среднего ц нормального распределения с известным а будет \х — zi_(a/2) у=, х + ?i_.(a/2)-~|, где Zi_(a/2) есть 100A — — (а/2))-я процентиль распределения N @, 1). 6. Существуют численные методы получения оценок макси- максимального правдоподобия. Приложение таких методов к одной из задач клинической биохимии можно Найти в работе Azen, Reed A973). Пример 1.1.1 (продолжение). Врач зарегистрировал 9 выбо- выборочных реализаций (в мм рт. ст.): —10, —5, 0, 25, 30, 35, 45, 50 и 55. Оценка х максимального правдоподобия для среднего ц равна A/9) (—10 — 5 Н f- 55) = 25, а для дисперсии а2 имеем ог = = A/9) ((—10 — 25J Н г- E5 — 25J) = 4800/9 = 533.3. Не- Несмещенная оценка s2 дисперсии а2 равна 4800/8 = 600, а обычная оценка s для среднеквадратичного отклонения равна (/600 = 24.5. Наконец, оценка для стандартной ошибки среднего х естья////г = - 24.5/3 = 8.17. Предполагая, что дисперсия а известна"'и равна a = 20 мм рт. ст. (см. пример после разд. 1.2.5), получим 95 %-ный довери- доверительный интервал для \i: 25 — 1.96 (—?=¦), 25 + 1,96 (—г=] = = A1.9, 38.1). Следовательно, истинное значение ц попадает в этот интервал с вероятностью 0.95. 1.5. Проверка гипотез Во многих научных исследованиях задачу можно сформулиро- сформулировать в виде гипотезы, которую предстоит подтвердить или отверг- отвергнуть. Таким образом, исследуемая теория оказывается основой для статистической гипотезы. Статистическая гипотеза — это утверждение относительно значений одного или более параметров данного распределения или о самой форме распределения. Следо- Следовательно, статистическая гипотеза является утверждением отно- относительно генеральной совокупности, описываемой этим распре- распределением. В примере 1.1.1 врач желает определить, уменьшает ли пред- предлагаемое лекарство артериальное давление у пациентов с гиперто- гипертонией. Тогда он формулирует гипотезу «среднее снижение давления крови больше нуля», т. е. лекарство оказывает положительное воздействие на снижение давления. Он узнает из статистической
434 Приложение I. Обзор основных понятий теории, что для проверки этой гипотезы надо сначала сформулиро- сформулировать другую гипотезу: «вследствие приема лекарства никакого из- изменения давления в среднем не происходит». Если он положит \л равным среднему распределения двухнедельного снижения диа- столического давления по генеральной совокупности, то сможет записать последнюю гипотезу в виде Яо: ц = 0. Однако врача интересует гипотеза #t: ц > 0. Тогда его задача — получить ре- решение, основанное на некоторой выборке пациентов и подтвер- подтверждающее либо #0, либо Ях. Гипотеза Яо называется нулевой гипо- гипотезой; это «гипотеза отсутствия изменений». Интересующая врача гипотеза Нг называется альтернативной гипотезой. Большинство задач прТШерки статистических гипотез можно сформулировать так, чтобы нулевая и альтернативная гипотезы были определены аналогично. Статистическая проверка гипотезы — это процедура выясне- выяснения, следует ли принять нулевую гипотезу или отвергнуть ее. Причина выделения нулевой гипотезы состоит в том, что Яо обычно рассматривается как утверждение, которое более важно, если оно отвергнуто. Это основано на общем принципе, гласящем, что тео- теория должна быть отвергнута, если есть противоречащий пример, но не обязательно должна быть принята, если такого примера найти нельзя. Без какого-либо теоретического обоснования в пользу той или иной гипотезы врач рассматривает выборочное среднее изменения систолического давления. Он решает, что если х превосходит опре- определенное значение, называемое критическим, то отвергнет Яо и примет #!*, если же х не превосходит критического значения, то он не может отвергнуть Яо. (Позже будет показано, что эта проце- процедура теоретически обоснована.) Ради простоты записибудем упо- употреблять вместо «не отвергая Яо» более простое «принимая Яо». Следует иметь в виду, что его решение, т. е. отклонение или приня- принятие Яо, основано на его выборочных наблюдениях и поэтому может оказаться ошибочным. В общем случае существуют два типа ошибок, связанных с ре- решением. Если в действительности гипотеза Яо верна, а принято решение отвергнуть Яр, то допущена ошибка, ТШываёмая ошибкой первого рода. С другой стороны, если в действительности верна гипотеза Яд, а принято решение принять Я0) то допущена ошибка второго рода. Эти ошибки описаны в табл. ТГ5-1 вместе с вероятно- вероятностями принятия каждого из решений при заданной истинной си- ситуации. Вероятность ошибки первого рода обозначена через а, а ве- вероятность ошибки второго рода обозначена через р. Эти вероятно- вероятности можно представить в виде а = Рг { отвергнуть Я0|Я0 верна}, A.5.1) Р := Рг { принять Яо | Яо ложна \.
1.5. Проверка гипотез 435 (Черта «|» читается «при условии, что».) Статистическая задача состоит в том, чтобы найти, решающую процедуру, некоторым об- образом минимизирующую вероятность совершения любой из этих ошибок, т. е. минимизирующую аир. Таблица 1.5.1 Два типа ошибок, допускаемых при статистической проверке гипотез #0 верна Отвергнуть Яо Принять #0 Ошибка первого рода, вероятность а Верное решение, вероятность 1—а Но не верна Верное решение, вероятность 1—[3 Ошибка ' второго рода, вероятность E В примере 1.1.1 обозначим через хс критическое значение х. Для вычисления вероятностей аир, связанных с этим решением, врач изучает выборочное распределение х при условии, что верна #0, а также выборочное распределение х при условии, что верна Ях. Нулевое распределение Альтернативное распределение (верна Но) (верна Н,) Рис. 1.5.1. Вероятности, связанные с проверкой гипотезы Яо: = 0 против Нг (X = (i! > 0. Так как Ях включает каждое значение и > 0 и все они входят в #ь то он ограничивается некоторым частным значением, на- например 14 = Uj > 0. Эти распределения показаны на рис. 1.5.1. Нулевое и альтернативное распределения — выборочные распре- распределения х соответственно при условиях Но и Нх- Так как задача исследователя — минимизировать а и р, то он ищет хс, достигаю- достигающее этой цели. Изучение рис. 1.5.1 показывает, что при движении хс. вправо а убывает, но C растёт. Аналогично, если хс движется влево, то р убывает, а а растет. Обычное решение этой дилеммы состоит в том что фиксируют некоторое малое значение а и на- j деются, что р буде?гакж?_мадо. Фиксированное значение а назы- % вается уровнем значимости. Обычные значения для а: а — 0.10, 0.05, 0.01. При фиксированном а «качество» критерия для про-
436 Приложение I. Обзор основных понятий верки гипотезы измеряется вероятностью отвергнуть Яо, когда верна Нг. Эта вероятность, называемая мощностью критерия, обычно обозначается через п и выражается соотношением я = 1 — р = Рг { отвергнуть Яо \ Нг верна \ = = Рг{ принять Н1\Н1 верна}. A.5.2) Следует отметить, что в нашем примере мощность является функ- функцией выбранного альтернативного значения параметра пг. «Хо- «Хорошим» критерием при фиксированном а является критерий, об- обладающий,большей мощностью. Иногда удается найти «наилучший» критерий в том смысле, что он обеспечивает минимум E среди всех критериев, обладающих уровнем значимости а. Другими словами, наилучший критерий — это критерий, обладающий максималь- максимальной мощностью л_ среди всех критериев с уровнем значимости а. Фиксация а задает критическое значение хс. Критической ЪЪ- ластью для Яо называется подмножество выборочного простран- пространства, соответствующее отклонению гипотезы Яо. Дополнительная область, соответствующая принятию Яо, называется областью принятия Яо. Для примера 1.1.1 критическая область есть х ^ хс, а область принятия х <^хс (рис. 1.5.1). 1.5.1. Процедура построения критерия для проверки гипотезы Вообще говоря, проверка статистической гипотезы эквивалентна указанию критической области, выборочного пространства при фиксированном уровне значимости а. Может существовать много критериев, достигающих одного итого же значения а, но цель со- состоит в отыскании критерия, максимизирующего мощность. Хотя стандартной процедуры определения наиболее мощного критерия не существует, часто оказывается полезной процедура, основанная на отношении правдоподобия. Обсудим эту процедуру. Пусть хъ ..., хп — случайная выборка из генеральной сово- совокупности с плотностью (или законом распределения) / (х; 0Ь ... ..., Qk). Отношение правдоподобия % определяется выражением max L @j, . . ., 6^) %z= maxLF1 Qk) ' (L5'3) Знаменатель представляет собой максимальное значение функции правдоподобия L FЬ ..., Эй), заданной равенством A.4.4), по всем возможным значениям параметров 9X, ..., 0ft. Числитель представляет собой максимальное значение L (Э1? ..., 9^) при всех значениях параметров, которые допускаются гипотезой Яо. За- Заметим, что X — случайная величина, так как она является функ- функцией от Хх, ..., Хп. Так как Яо налагает ограничения на значения
1.5. Проверка гипотез 437 параметров, то отношение X должно удовлетворять неравенству О < X < 1. Интуитивно ясно, что, если X окажется близко к 1, мы должны склониться к принятию Но. Таким образом, процедура проверки отношения правдоподобия состоит в отклонении Но при 0 < X < Хс, где Хс выбирается так, чтобы Рг (X < Хс | Но) - а. A.5.4) Следовательно, критическое значение Хс определяется из распре- распределения величины X при условии Яо так, чтобы при выполнении гипотезы #0 критическая область имела вероятность ос. Полезно отметить, что maxL{QX, . . .,'Qk) = L@b . . ., §*), A.5.5) где Gj — оценка максимального правдоподобия параметра 0г, 1 = 1, ..., k. Аналогично, maxL(91, . . ., 9») -L@io), . . ., §i°>), A.5.6) где 0[01 — либо значение 0Ь заданное гипотезой Яо, либо МП- оценка параметра Эг при условии Яо, i = 1, ..., k. Так как зна- значение Хс невозможно определить, если неизвестно распределение X при условии правильности нулевой гипотезы, иногда оказывается необходимым воспользоваться асимптотическим распределением для X. При выполнении Яо и п ->• оо распределение —21п X при- приближается к распределению %2 (v). Число степеней свободы v равно числу независимых параметров при справедливости гипо- гипотезы Яо. Замечания 1.5.1. 1. Предположим, что X распределена по закону N (\i, а2) с известной дисперсией о2, и значения хх, ..., хп— случайная выборка из этого распределения. Рассмотрим проверку гипотезы Но: ц = ц0 против односторонней альтернативы Ях: ц. > Но с уровнем значимости а. Критическая область для наи- наилучшего критерия определяется условием х ^ хи, где х = A/л) X п X Ijxi — выборочное среднее, а хи выбрано так, что Рг(х^ ^ хи | Яо) = а. Поскольку из замечания 1.4.1.1 мы уже знаем, что при выполнении Яо величина х имеет распределение N (ц0, аг1п), то хи = ц0 + гх_а (а/1/п), где гх_а есть 100 A — а)-я процентиль распределения N @, 1). Следовательно, критической областью будет правый хвост (х ^ хи) (рис. 1.5.2, а). Аналогично для проверки гипотезы Яо: \i = \i0 против другой односторонней альтернативы Ях: \i <^ \i0 наилучший критерий дает в качестве критической области левый хвост, а именно х < < X; = (х0 + 2а (а/j/ п) (рис. 1.5.2, Ь). Эти критерии называются односторонними.
438 Приложение I. Обзор основных понятий Наконец, для проверки гипотезы Яо: |х = fx0 против двусторон- двусторонней альтернативы Нг: [х Ф ц0 критерий отношения правдоподо- правдоподобия дает в качестве критической области оба хвоста одновременно: Ха = Н-0 0 т=- И = НО + z\ - (а/2) -Тг= (рис. 1.5.2, с). Этот критерий называется двусторонним. Отметим, что оба односторонних критерия обладают тем свойством, что их мощность против любого значения ц, которое возможно при вы- выполнении НЛ, максимальна. Критерий, наилучший для всех аль- альтернатив, называется равномерно наиболее мощным. л = Pr (Z < za V ^ Pr(i > xj-a Рис. 1.5.2. Критические области для проверки гипотезы Н„: \i = щ при задан- заданной дисперсии а2, а — альтернатива Hi. |х > fio; Ь — альтернатива Ях: fi < (Хо; с — альтернатива //j: ц =5*= щ- 2. Легко вычислить мощность каждого из критериев в замеча- замечании 1.5.1.1. Для альтернативы Нх: jx = цх > Цо получим где Z распределена как Л^ @, 1); для альтернативы Яг: у, =
1.5. Проверка гипотез 439 Mi <jЦо получим и, наконец, для альтернативы Нх: [г 3. Каждая из [альтернатив, фигурирующих в замечании 1.5.1.2, указывает одно значение \i, т. е. ц, = \iv Гипотеза, одно- однозначно указывающая значения каждого параметра, называется простой. Если гипотеза не конкретизирует значения некоторых параметров, она называется сложной. Каждая из альтернатив в замечании 1.5.1.1 — сложная. 4. Следует иметь в виду, что заключение, получаемое при лю- любой статистической проверке гипотезы, может быть ошибочным. В частности, принятие нулевой гипотезы Яо не должно приводить к выводу, что #0 действительно верна. В любом случае результат статистической проверки следует рассматривать только как один из факторов, влияющих на окончательное решение. Другими факторами должны быть опыт и интуиция исследователя. 1.5.2. Понятие о Я-значении В большинстве случаев критические области критериев выра- выражаются через некоторую статистику g, называемую статистикой критерия. Статистика критерия выбирается обычно так, чтобы при условии правильности нулевой гипотезы можно было полу- получить ее распределение в табулированном виде. Например, сможет иметь распределение N @L I), %2> t или F. Затем критическую об- область критерия можно выразить через его статистику g. В зависи- зависимости от вида #0 и #ь критическая область, выраженная через значения статистики g, принимает одну из форм: a) g < gh b) g ^ S» gu, c) g < ga и g $s gb. Здесь gh gu, ga, gb — значения, выбран- выбранные по таблице распределения g так, что при выполнении Но справедливо соответственно одно из соотношений 0 I Pr (g < g[) = а, ] Рг (g 53 gu) = о, . Pr (g <ga) ¦= A.5.7) Случаи а) и Ь) представляют односторонние критические области, а случай с) — двустороннюю критическую область. Процедура применения критерия состоит в вычислении стати- сшки g по выборке и в проверке, попадает ли вычисленное зна- значение в подходящую критическую область для g. Если попадает, то мы отвергаем Яо; если нет — принимаем Яо. Пусть &_г— вычисленное по выборке значение статистики g. Эквивалентная процедура (ее мы и используем в этой книге) со-
440 Приложение I. Обзор основных понятий стоит в вычислении вероятности того, что при выполнении Яо статистика критерия принимает значение g0 или даже более экстре- экстремальное, чем g0. (Экстремальные значения определяются крити- критической областью.) Эта вероятность называется Р-значением и в на- нашей книге обозначается буквой Р. Если Р меньше, чем а, то гипо- гипотеза #0 отвергается с уровнем значимости а, в противном случае #0 принимается. Для случаев а), Ь) и с) при выполнении Яо спра- справедливо соответственно одно из соотношений A.5.8) Р = 2 min [Pr (g > g0), Pr (g < g0)]. В последней формуле удваивается меньшая из величин Pr (g ^ Ss= g0) и Рг (g <: g0). Замечание 1.5.2. 1. Как и в замечании 1.5.1.1, рассмотрим случайную величину X, распределенную по закону N (ц, о2) с из. N@,1) N@,\) Рис. 1.5.3. Р-значения для проверки гипотезы //„: (i = (л0 при известной диспер- дисперсии а2, а — альтернатива Н\. ц > Цо; Ь — альтернатива Ях: ц <С Но! с —• аль" тернатива Ях: (л =^= Цо- вестной дисперсией о2. Тогда статистика г0 = *~~*г° ]/п при выполнении Яо обладает распределением iV @, 1); она исполь- используется для проверки гипотезы Яо: ц = ц0 против одно- или дву- двусторонней альтернативы. Если альтернатива имеет вид Ях: р, > ц0, то критической областью для z будет z js zUa. P-значение будет равно площади под кривой плотности распределения jV @, 1)
1.5. Проверка гипотез , 441 вправо от z0 (рис. 1.5.3, а). Если альтернатива имеет вид Нх: М> < Ио> то критической областью будет z «s z«, a P-значение равно площади под кривой плотности распределения N @, 1) влево от г0 (рис. 1.5.3, Ь). Наконец, если Нг: ц Ф ц0, то критическими обла- областями будут z <: za/2 и z^Zi__(a/2), так что Р-значение равно удвоенной площади вправо от абсолютного значения z0 под кривой плотности N @, 1) (рис. 1.5.3, с). Во всех трех случаях если Р-зна- чение меньше а, то Яо отвергается с уровнем значимости а (или, иными словами, критерий является статистически значимым при уровне а). Если Яо принимается, то критерий считается стати- статистически незначимым. 2. Можно использовать 100 A — а) %-ный доверительный ин- интервал для 8 для проверки гипотезы Яо: 8 = 80 против двусто- ~ ронней альтернативы Ях: 8 ф 80 с уровнем значимости а. В этом случае мы принимаем Яо, если интервал включает значение 60, в противоположном случае мы отвергаем Яо. 3. 100 A — а) %-ный доверительный интервал для ц при из- известной дисперсии а2 был указан в замечании 1.4.1.5 в виде [ic — Zi_(a/2) -7^> * ~Ь zi_(a/2) —г= • Этот интервал можно исполь- V п V п} зовать для проверки гипотезы Яо: (х = \i0 против альтернативы Ях: ц Ф ц0 при уровне значимости а. Если интервал включает |х0, мы принимаем Яо, в противоположном случае мы отвергаем Яо. Пример 1.1.1 (продолжение). По выборке из 9 пациентов врач вычислил х — 25. Предположим для наглядности, что a = 20. Тогда он может проверить гипотезу Яо: (х = |х0 = 0 против Ях: ц > 0 с уровнем значимости a = 0.05. Критическое значение равно хи = 0 + го.95 B0/*/ 9) = 1.645 F.67) = 10.97 (см. замечание 1.5.1.1). Так как 25 > 10.97, то Но отвергается и врач утверждает с уровнем значимости a = 0.05, что есть значимое положительное изменение систолического кровяного давления вследствие приме- применения данного лекарства. Если Нг: [х = |хх == 30, то мощность этого критерия (см. замечание 1.5.1.2) есть п = Рг (Z <;—1.645 + + C0~0) j/9"^ = Рг (Z <j2.86) >0.998. Следовательно, вероят- вероятность того, что нулевая гипотеза отвергнута правильно, превы- превышает 0.99, если (х действительно равно 30. В качестве еще одного метода проверки гипотезы Яо можем использовать статистику кри- критерия из замечания 1.5.2.1. При этом г0 = -^—~ '-У9 = 3.75. Так как критическая область z > г0-95 = 1.645, то Яо отвергается. В качестве третьей возможности рассчитаем по табл. 2 (при- (приложение II) значение Р = Рг (г > 3.75) < 0.0001. Так как это Р-значение меньше, чем a = 0.05, то отвергаем гипотезу Яо. Наконец, можно проверить гипотезу Яо против двусторонней
442 Приложение I. Обзор основных понятий альтернативы Нх: ц Ф 0 при а = 0.05, используя 95 %-ный дове- доверительный интервал для ^. Так как интервал 25 ± 1-96 B0/3) = = A1.9, 38.1) не включает 0, то гипотезу Яо отвергаем. 1.6. Многомерное нормальное распределение В этом разделе опишем схематически теоретические основы много- многомерных измерений, т. е. теорию нескольких случайных величин, определяемых на одном объекте из генеральной совокупности. Для этого мы определим понятия вектора и матрицы случайных величин, а также вектор средних и матрицу ковариаций. Далее мы введем совместное распределение, чаще всего используе- используемое в приложениях статистики, — многомерное нормальное рас- распределение. Приложения этого распределения описаны в гл. 3—5. 1.6.1. Случайные векторы и матрицы Определения векторов и матриц, приведенные в этом разделе, от- относятся к особому случаю, когда компонентами служат слу- случайные велич-ины или реализации случайных величин. Во многих приложениях статистики исследователь измеряет k > 1 характеристик каждого объекта w генеральной совокуп- совокупности W. Как говорилось в разд. 1.1.6, мы вводим k случайных величин Хъ ..., Хк так, чтобы они соответствовали этим харак- характеристикам. Полезно рассматривать эти k случайных величин как случайный ёектор, т. е. как упорядоченный набор из k чисел, расположенных в виде столбца " ¦х1 X = A.6.1) Каждый элемент ХЛ называется компонентой случайного вектора. Мы обычно обозначаем векторы жирными заглавными буквами X, Y, Z,-... . Реализация случайного вектора X обозначается вектором наблюдений ~ х = (х1г х2, ..., xk)', (I.6.2) где компоненты вектора х являются реализациями хъ ..., xk случайных величин Хъ ..., Xk соответственно. Такая реализация х называется многомерным наблюдением, а при k = 2 — двумер- двумерным наблюдением. Векторы наблюдений будут обозначаться жир- жирными малыми буквами х, у, z, .... *) Далее будем использовать обозначение X = (Х1 Xk)', где ' означает транспонирование. — Прим. ред.
1.6. Многомерное нормальное распределение 443 Иногда случайный вектор снабжают индексами: Х*х1, чтобы подчеркнуть, что k компонент расположены в 1 столбец. Если число компонент очевидно, то верхний индекс можно опустить. Анало- Аналогичный верхний индекс может иметь и вектор наблюдений. Пусть у нас есть п объектов, у каждого из которых мы измеряем k характеристик. Пусть x1Jt x2j, ..., xki суть k реализаций для у'-го объекта, У = 1, ..., я. Мы можем представить каждый набор k реализаций вектором x*xl = (x1}, x2j, ..., xkj)', j — 1, ..., я, и можем объединить я векторов в двумерный массив, называемый матрицей Х21 42 = (*„)• A.6.3) Здесь верхний индекс указывает, что в матрице k строк и я столб- столбцов, а каждая компонента хц является элементом матрицы. Вто- Второе равенство показывает, что типичный элемент на пересечении i-й строки и у-ro столбца есть хц. Каждый элемент xtj этой матрицы есть реализация одномерной случайной величины Xtj, i — 1, ..., k, j = 1, ..., п. Эти k X п случайных переменных можно предста- представить в виде случайной матрицы ^ -^21 -^22 -At* Ati A.6.4) 1.6.2. Вектор средних значений и матрица коварнаций случайного вектора Пусть X — случайный вектор с компонентами Хъ ..., Xk и сов- совместной функцией распределения F(x) = F(Xl, . . ., xk) = Pr(Xt «s xx, . . ., Xk ^ xk). A.6.5) Моменты каждой из компонент Xt можно получить из частных распределений величин Х{. Например, мы можем найти математи- математическое ожидание \it = E (Xt) величины Xt, i = 1, ..., k. Эти k математических ожиданий можно представить в виде вектора ц средних значений Аналогично, дисперсии of величин Xt можно также получить из частных распределений для Xh i — 1, ..., k. Однако, из совмест- совместного распределения Xf и X] можно вычислить новую меру измен-
444 Приложение I. Обзор основных понятий чивости, называемую крвариацией ац величин Х{ и X,-. Эта мера определяется равенством " а„ = cov (Х„ X,) = Е ((X, - ^(Xf-&)), A.6.7) i, j = 1, ..., ТТ. Заметим, что oi} = сд и ati = с?. Если а,^ = О, то величины Xt и X^ называются^кор^ели^ован^шми; если а^ > > 0, To_Xt д Xj.b среднем изменяются согласованно (одновременно растут или убывают); если o{j < 0, то в среднем Xt увеличивается одновременно с уменьшением Х}. ~ Дисперсии и ковариации образуют вместе ковариационную матрицу 2 °s A.6.8) Ковариационная матрица является обобщением понятия диспер- дисперсии одномерной случайной величины. 1.6.3. Многомерное нормальное распределение Как было отмечено в разд. 1.1.6, если все компоненты Xt вектора X являются] непрерывными случайными величинами, то (многомер- (многомерное) распределение Хь ..., Х^ можно задать совместной плот- плотностью f (хъ ..., хц). Из многомерных распределений в статисти- статистических приложениях чаще всего используется многомерное (k-мер- ное) нормальное распределение. Оно задается вектором ц средних значений и матрицей ковариации S, а его совместная плотность распределения приведена в замечании 1.6.1.1. Если величина X имеет многомерное нормальное распределение с вектором средних IX и матрицей ковариации 2, мы говорим, что X распределена как N (ц, S). Вот некоторые из важнейших свойств этого распределе- распределения: 1) Частное распределение величины Xt есть N (\it, о?), где fx,- есть 1-я компонента вектора ц, а а| — элемент на пересечении i-й строки и t-ro столбца (т. е. i-й диагональный элемент) матрицы S, i = 1, .... *. 2) В более общем случае можно определить частное распре- распределение подмножества I случайных величин из Хъ ..., Xk, 1 < < I < k. Перенумеруем случайные величины так, чтобы это под- подмножество составляли первые I переменных. Переставим компо- компоненты вектора средних и матрицы ковариации соответствующим образом. Тогда, если определить вектор Х[х1 равенством Х',Х1 = (Хь-... Xi)', A.6.9)'
1.6. Многомерное нормальное распределение 445 то частное распределение Х1 будет многомерным нормальным рас- распределением с вектором средних и матрицей ковариации (?1 '^12 ' '' (Т21 а2 3) (Обобщение замечания 1.2.2.5) Для постоянных а, Ь1у ..., Ьь k распределение случайной величины Y = а + 2 ЬгХг является к k нормальным со средним а + Е ^г и дисперсией 2 b\a\ -f !=1 ( = 1 #// 4) Если atj.— 0 для всех i Ф /, т. е. если S — диагональная матрица, то Хх, ..., Xfe взаимно независимы. В частности, если Xt и X/ (t =^= /) не коррелированы, то они также и независимы. Другие распределения могут и не обладать этим свойством. 5) Пусть Х1=(Х1) .., X,)', Х2 = (Х/+1, .... Хк)'. Тогда условное распределение величины Xi при условии, что Х2 = = х2 = (х;+1, ..., xk)',- также является многомерным нормаль- нормальным распределением. Компоненты вектора средних этого услов- условного распределения являются линейными комбинациями компо- компонент х2, тогда как матрица ковариации этого условного распреде- распределения не зависит от х2 (см. замечание 1.6.1.4). Это распределение играет важную роль в линейной регрессии (гл. 3). -А-Замечания 1.6.1. 1. Дадим формальное определение много- многомерного нормального распределения. Пусть Zlt ..., Zk —¦ взаимно независимые случайные величины, распределенные по закону N @, 1). Тогда Zfexl = (Z1( ..., Zk)' обладает стандартным сфе- сферическим нормальным распределением с плотностью / (z) =¦ = Bn)-fc/2e-A/2)z'zi Где z = (г1; ..., zk)'. Обозначим распределе- распределение Z через N @, I), где 0 — нулевой вектор, а I — единичная матрица. Если Akxk — произвольная невырожденная матрица констант, а j*fcxI — вектор констант, то Xfexl = AZ + ц обла- обладает многомерным (или k-мерным) невырожденным нормальным распределением. Его плотность имеет вид / (х) = Bn)-*/2|S|^'/2x X ехр [ L (х - (iJ'Z-^x - ц)], где х = (хъ ..., х*)\ 2 = = АА', |2| — определитель матрицы 2, а 2 — матрица, об-
446 Приложение 1. Обзор основных понятий ратная 2. Вектор средних этого распределения равен ц, а матрица ковариаций равна 2. В этом случае мы говорим, что случайный ¦вектор X распределен по закону N (ц, 2). 2. Если X**1 имеет распределение N (р, 2), а Втх*—ма. трица ранга т, то YmX1 = ВХ обладает m-мерным нормальным распределением. 3. Область ^-мерного евклидова пространства, определяемая уравнением / (х) = с, где с — константа, является эллипсоидом, называемым эллипсоидом концентрации. 4. Пусть- ХАх1 имеет распределение N (ц, 2), Хх = (Xi, ... ..., Xi)' и Х2 = (XU1, ..., Xk)'. Кроме того, положим *.\ Тогда Xi имеет распределение N (цъ 2ц), а Х2 — распределение N ((г2, S22). Условньш распределением Х\ при условии Х2 = х2 = = (*/+ь •¦•. **)' будет- iV (m + S12Si! (х2 —|ia), S,, — адй'ЗЗы). * Пример 1.1.1 {продолжение). Как и в примере 1.1.1а, врач измеряет величины Ха (да) — изменение диастолического давления (в мм рт. ст.) и Х2 (ш) — изменение систолического давления (в мм рт. ст.) для каждого пациента w. Эти функции определяют соответственно случайные величины Х1 и Х2. Последние можно записать в виде случайного вектора размера 2X1: X = (Хъ Х2)'. Врач предполагает, что вектор X обладает (двумерным) нормаль- нормальным распределением с вектором средних |ш и матрицей ковариа- ковариаций 2: Плотность этого распределения определяется формулой К 1 — р2 X 2 A - р«) / Хг — U. \2
1.6. Многомерное нормальное распределение 447 где р = о12/(ага2) — коэффициент корреляции генеральной сово- совокупности (подробно р обсуждается в разд. 3.1). Эта плотность в трехмерном пространстве с координатными осями хъ х2 и / (xi, x2) имеет колоколообразную форму. Вероятности событий представляют собой объемы, ограниченные снизу двумерными обла- областями в плоскости (хъ х2), а сверху — поверхностью / (хъ х2). Частное распределение Хг есть N (ц{, a'j), i = 1, 2, и если р = = 0 (т. е. Хъ Х% не коррелированы) то f (хъ х2) = /i (^j) /2 (x2), где ft (xt) — плотность Xt, i = 1, 2. Это подтверждает, что две некоррелированные нормальные случайные величины также и не- независимы. Наконец, условное распределение величины Xi при условии Xi = х2 будет нормальным со средним p-i + ((Wa2) (*2 — и-г) и дисперсией of — а\21а\. Это условное распределение приводит к простой линейной регрессии (см. разд. 3.1).
Приложение II Статистические таблицы Таблица 1 Биномиальные вероятности (разд. 1.2.1) п 2 3 4 5 \ 0 1 2 0 1 ' 2 3 0 1 2 3 4 0 1 2 3 4 5 .01 .9801 .0198 .0001 .9.703 .0294 .0003 .0000 .9606 .0388 .0006 .0000 .0000 .9510 .0480 .0010 .0000 .0000 .0000 .10 .8100 .1800 .0100 .7290 :2430 .0270 .0010 .6561 .2916 .0486 .0036 .0001 .5905 .3280 .0729 .0081 .0004 .0000 .20 .6400 .3200 .0400 .5120 .3840 .0960 .0080 .4096 .4096 .1536 .0256 .0016 .3277 .4096 .2048 .0512 .0064 .0003 .25 .5625 .3750 .0625 .4219 .4219 .1406 .0156 .3164 .4219 .2109 .0469 .0039 .2373 .3955 .2637 .0879 .0146 .0010 .30 .4900 .4200 .0900 .3430 .4410 .1890 .0270 .2401 .4116 .2646 .0756 .0081 .1681 .3602 .3087 .1323 .0284 .0024 .33 .4444 .4444 .1111 .2963 .4444 .2222 .0370 .1975 .3951 .2963 .0988 .0123 .1317 .3292 .3292 .1646 .0412 .0041 .40 .3600 .4800 .1600 .2160 .4320 .2880 .0640 .1296 .3456 .3456 .1536 .0256 .0778 .2592 .3456 .2304 .0768 .0102 .50 .2500 .5000 .2500 .1250 .3750 .3750 .1250 .0625 .2500 .3750 .2500 .0625 .0312 .1562 .3125 .3125 .1562 .0312
Приложение II. Статистические таблицы 449 Продолжение табл. 1 п 6 7 8 9 \ Р i\ 0 1 2 3 4 5 6 0 1 2 ' 3 4 5 6 7 0 1 2 3- 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9 .01 .9415 .0571 .0014 .0000 .0000 .0000 .0000 .9321 .0659 .0020 .0000 .0000 .0000 .0000 .0000 .9227 .0746 .0026 .0001 .0000 .0000 .0000 .0000 ,0000 .9135 .0830 .0034 .0001 .0000 .0000 .0000 .0000 .0000 .0000 .10 .5314 .3543 .0984 .0146 .0012 .0001 .0000 .4783 .3720 .1240 .0230 .0026 .0002 .0000 .0000 .4305 .3826 .1488 .0331 .0046 .0004 .0000 .0000 .0000 .3874 .3874 .1722 .0446 .0074 .0008 .0001 .0000 .0000 .0000 .20 .2621 .3932 .2458 .0819 .0154 .0015 .0001 .2097 .3670 .2753 .1147 .0287 .0043 .0004 .0000 .1678 .3355 .2936 .1468 .0459 .0092 .ООП .0001 .0000 .1342 .3020 .3020 .1762 .0661 .0165 .0028 .0003 .0000 .0000 .25 .1780 .3560 .2966 .1318 .0330 .0044 .0002 .1335 .3115 .3115 .1730 .0577 .0115 .0013 .0001 .1001 .2670 .3115 .2076 .0865 .0231 .0038 .0004 .0000 .0751 .2253 .3003 .2336 .1168 .0389 .0087 .0012 .0001 .0000 .30 .1176 .3025 .3241 .1852 .0595 .0102 .0007 .0824 .2471 .3177 .2269 .0972 .0250 .0036 .0002 .0576 .1977 .2965 .2541 .1361 .0467 .0100 .0012 .0001 .0404 .1556 .2668 .2668 .1715 .0735 .0210 .0039 .0004 .0000 .33 .0878 .2634 .3292 .2195 .0823 .0165 .0014 .0585 .2048 .3073 .2561 .1280 .0384 .0064 .0005 .0390 .1561 .2731 .2731 .1707 .0683 .0171 .0024 .0002 .0260 .1171 .2341 .2731 .2048 .1024 .0341 .0073 .0009 .0001 .40 .0467 .1866 .3110 .2765 .1382 .0369 .0041 .0280 .1306 .2613 .2903 .1935 .0774 .0172 .0016 .0168 .0896 .2090 .2787 .2322 .1239 .0413 .0079 .0007 .0101 .0605 .1612 .2508 .2508 .1672 .0743 . .0212 .0035 .0003 .50 .0156 .0938 .2344 .3125 .2344 .0938 .0156 .0078 .0547 .1641 .2734 .2734 .1641 .0547 .0078 .0039 .0312 .1094 .2188 .2734 .2188 .1094 .0312 .0039 .0020 .0176 .0703 .1.641 .2461 .2461 .1641 .0703 .0176 .0020
450 Приложение II. Статистические таблицы Продолжение табл. 1 п 10 \ 0 1 2 3 4 5 6 7 '8 . 9 10 .01 .9044 .0914 .0042 .0001 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .10 .3487 .3874 .1937 .0574 .0112 .0015 .0001 .0000 .0000 .0000 .0000 .20 .1074 .2684 .3020 .2013 .0881 .0264 .0055 .0008 .0001 .0000 .0000 .25 .0563 .1877 .2816 .2503 .1460 .0584 .0162 .0031 .0004 .0000 .0000 .30 .0282 .1211 .2335 .2668 .2001 .1029 .0368 .0090 .0014 .0001 .0000 .33 .0173 .0867 .1951 .2601 .2276 .1366 .0569 .0163 .0030 .0003 .0000 .40 .0060 .0403 .1209 .2150 .2508 .2007 .1115 .0425 .0106 .0016 .0001 .50 .0010 .0098 .0439 .1172 .2051 .2461 .2051 .1172 .0439 .0098 .0010 ') Так как Ъп (t, р) = Ъп(п — i, 1 — р), приведены только р < 0.5.
Приложение 11. Статистические таблицы 4S1 Функция распределения N @, 1) (разд. 1.2.5) Таблица 2 г — -о _ -I — г _ j -¦-4 - 5 - -6 - 7 - -8 - 9 -10 — i-i — 1-2 -13 -14 -I-J -1-6 -«7 -1-8 -19 -2 0 -11 — 2-2 -аз -а 4 -а-5 -а-6 -2-7 -2 8 -2-9 -30 -3 1 -за -33 -зч -35 -36 -37 -3-8 -39 ¦оо •JOO0 '4б02 ¦4ао7 ¦3821 ¦344* 3085 а743 '2420 '2119 ¦1841 1587 «357 ¦1131 09080 08076 06681 05480 ¦04457 0359З 02872 •02275 ¦01786 ¦01390 01072 -о18198 О'б21О О24бб1 4)'J4O7 •о» 2555 •0*1866 0' 135O •0*9676 «¦6871 •о3 4834 О'ЗЗЬ9 •О1232° ¦о' 1591 ¦о' 1078 0*7235 ¦о» 4810 -О1 49*° 4562 4168 3783 34°9 ¦3050 ¦2709 аз«9 •2090 l8i4 1562 ¦335 •1131 ¦09510 07927 ¦06552 ¦05370 04363 •О35>5 ¦02807 02222 •01743 •01355 •01044 ч>г797б ¦0* 6037 4H4J*7 «!3Jb4 ог 2477 ¦о11807 •ог 1306 оэ9354 ¦о3 6637 Ч)=4Ь65 О>3248 ¦О>2241 о»153' ¦о31036 0*6948 •о* 46 '5 ¦О2 49го 45" •4129 3745 •337" ¦3015 2676 458 ¦2О61 ¦1788 39 134 пи О934а ¦07780 4N426 '05262 •04272 О3438 02743 02169 01700 ¦01321 0I0I7 •о* 77*0 ¦о'5868 ¦о'4396 о! 3264 Ог 2401 ¦0М750 •оМ2б4 о»О043 0>б410 ¦о'4501 ¦о>3131 О^21}8 о> 1473 ¦о* 9961 о«6б73 о4^7 ¦оз 488о 44«3 •4090 •37O7 •3330 2981 ¦2643 •2327 •2ОЗЗ •I762 1515 ¦1292 •IO93 09176 ¦07636 •06301 О5«55 •04182 ¦03362 О268О •02118 ¦01659 ¦01287 ог 99°3 о'7549 ¦о!57ОЗ о'42*9 ¦ог 3167 0'2327 •о21095 Ог1223 •о3 8740 •0^6190 Os4342 о>3018 •о' 2078 o'I4I7 ¦о» 9574 •0*6407 о«4М7 ¦04 ¦4840 4443 4O5» 3669 33°о •2946 -2б11 2297 -2OO5 I73& 1492 •1271 •1075 09012 07493 •06178 ¦O5OJO ¦04093 •O3288 02619 O2O68 oi6i8 01255 о2964' о17344 »!5543 ¦о'445 ¦о!307а Ог225б ¦о2164I оги8з •о3 8447 •оз597* о'4189 •о' 2909 •О'2ОО1 OiI363 o'9»oi О<6152 о'4074 ч>5 48OI 4404 ¦4013 ¦3632 •3264 '2912 257* 2266 1977 •17" ¦1469 •1251 •Ю5б •08851 07353 ЧNо57 •04947 04006 «3ai6 «2559 ¦02018 •01578 01222 •0*9387 ¦о17143 о'5386 •0*4025 о:298о ¦O'2l86 ¦о'1589 •0аИ44 ¦0!81б4 о35770 о>4О41 ¦О3 28оз •oJ 1926 •o3i3ii ¦0*8842 ¦о4 5906 ¦о«39°8 ¦об •4761 •43&4 3974 3594 ¦32*8 2877 ¦2J4& аазб • 1,49 1685 1446 123О •1038 08691 ¦07215 05938 ¦04846 ¦O392O •0344 О25О0 •OI97O •01539 ¦01191 •о'9«37 о'6947 ч>'5234 •ог39°7 о' 2890 ¦Ог2118 ог1538 «=1107 ¦0:7888 ¦OJ5571 о'3»97 ¦о3 2701 •о31854 О312б1 о<849б О«5бб9 0*3747 ¦О7 47" 4325 ¦3936 3557 ¦3192 2843 254 22Об '1922 ¦1б6о М«3 ¦1210 '1020 08534 07078 05821 •O4746 ¦03836 ¦03074 •О244« ¦01923 01500 ¦оибо о>8894 •о!&75б о>5о85 •о" 3793 о'г8оз •Ог2О52 о' 1489 ¦о' Ю70 ¦о' 5377 о'375» Об02 о' 1785 ¦О3 1213 O*8l62 ¦0*5442 0*3594 08 4681 4286 3897 352O 3>5б 2810 ¦2483 2177 1894 1635 -1401 1190 1003 •08379 06944 •05705 04648 03754 •03005 ¦02385 •01876 01463 •01130 0*8656 -ог 6569 ¦О24940 ¦о* 3681 •oJ27i8 о<1988 0гМ41 о' Ю35 0=7304 о3519° 4>3зб24 ч>>25О7 ¦o3i7i8 О> 1166 о47*4' о*5223 о*344Ь ¦О9 ¦4641 4247 3859 3483 3121 ¦2776 2451 2148 1867 I6ll '379 •1170 09853 O8226 06811 О559а «4551 О3б73 •02938 02330 •01831 01426 •01101 ¦о'8424 ¦0*6387 «4799 о'3573 ¦о! 26J5 ¦о' I9i6 о11395 •0! I0OI о37 о3 5009 о'3495 •о» 2415 о31б53 01121 о»733» о15012 0*3304
452 Приложение II. Статистические таблицы Продолжение табл. 2 / •о •I ¦а 3 •4 ¦5 6 7 -8 •9 1« и 1-2 >3 «4 15 1-6 «7 18 1-9 2 0 11 2 2 23 »ч 2J 26 27 2-8 29 30 31 3-2 33 34 35 3'6 37 38 39 •оо ¦5000 ¦5398 5793 ¦6179 ¦6554 6915 7257 75»о 788i 8159 8413 8643 8849 ¦90320 •91924 93319 •945 го •95543 ¦96407 97 "8 ¦977»5 •98214 ¦98610 ¦98928 9* I8oj •9' 3790 ¦915339 9'6533 9*7445 9"8«34 9*8650 ¦9*0324 9>3"9 •935166 •9'6631 •937б74 9'84O9 938922 9« 2765 ¦9'5>9О О1 •5040 543» 5«32 ¦6217 ¦6591 6950 7291 7611 79Ю 8i86 8438 8665 -8869 ¦90490 92073 93448 94630 95637 96485 97193 97778 •98257 •98645 98956 •9*2024 .9'3963 9! 5473 •9*6636 ¦9=7523 -9*8193 •9» 8694 •9*0646 •9]33б3 9! 5335 9'6752 9!7759 9*8469 •9» 8964 9*3052 9*5385 02 5080 5478 ¦5871 6255 6628 6О85 7324 7642 7939 8212 84б1 8686 •8888 90658 9222A 93574 94738 •95728 ¦96562 97257 ¦97831 ¦98300 ¦98679 98983 •9г 224O 9!4U2 •9* 5604 9'б73б ¦9*7599 ¦9*8250 ¦9*8736 ¦9Э°957 ¦9J359O 935499 9J6869 ¦93784» ¦9'8527 ¦9'ооз9 9*3327 9'5573 оз •5120 55'7 59 «о •6293 6664 7oi9 7357 7673 79*7 •8238 8485 '8708 8907 90824 92364 93&99 94845 95818 96638 97320 97882 9834> 987U 9'ОО97 9*2451 9*4297 ¦9'5731 9'6833 •9*7673 •9*8305 •9*8777 ¦9э12ОО ¦9Э з®10 9^5658 ¦916982 9379»2 9'858з '94О42б 9*3593 9*5753 ¦О4 5160 5557 ¦5948 ¦633' •6700 7Р54 7389 770З 7995 8264 •8508 8729 8925 90988 ¦92507 ¦93822 94950 95907 ¦96712 ¦97381 •97932 98382 •98745 ¦9*0358 9г 2656 ¦9!4457 9!5в55 •9*6928 927744 •9*8359 ¦9'8817 •931553 9J4O24 9J58n 9J7O9» 9' 7999 9'8637 9*0799 ()'3848 9*5926 •О5 •5199 •5596 ¦5087 ¦6368 ¦6736 7О88 7422 7734 •8о23 8289 8531 8749 8944 •99 •92647 93943 •95053 •95994 •96784 97441 ¦97982 •98422 ¦98778 ¦9*об13 9* 2857 9!4бм ¦9г5975 '9* 7020 ^*78м 9*8411 ¦9*8856 •931836 •94230 935959 •9'7197 9>8о74 9=8689 ¦9'И58 ¦9*4О91 9* 6092 •об 5239 ¦5636 6о2б 64о6 6772 7123 7454 77б4 8051 8315 8554 •8770 ¦8962 ¦91309 92785 94062 95154 96080 96856 9750О •98030 98461 ¦98809 •9*о86з .9'ЗО53 9!47б6 9'6О93 9* 71 ю 9'7882 9*8462 9*8893 9»2112 9J44^9 936н>з 9>7299 9'8146 9J8739 9*'5О4 <J'43JI <5*6i53 •07 •5279 5675 6064 644J 6808 77 7486 7794 •8078 8340 8577 8790 8980 91466 ¦92922 94179 95254 96164 -96926 ¦97558 98077 ¦98500 ¦98И40 9гио6 9!3244 9г4915 9* 62071 ¦9*7197 9'7948 ¦9'85ix •9*8930 ¦9Э2378 ¦9М623 93б242 9J 7398 9J82l5 9'8787 9'1838 9*4558 ¦9<i64ob о8 •5319 ¦574 ¦бгоз 6480 •6844 719° 7517 ¦7823 8io6 8365 8599 •8810 8997 91621 ^3056 94295 95352 96246 96995 97615 ¦98124 98537 98870 9г'344 9'34J1 ¦9*5060 9*6319 9*7282 9*8012 •9*8559 9*8965 9^2636 ¦9М8Ю 9'6376 9' 7493 9'8282 ¦9' 8834 9*2159 9*4777 9**554 О9 ¦5359 5753 ¦6141 6517 •6879 7224 7549 7852 8133 •83Й9 8621 8830 90147 ¦9'774 93189 ¦94408 95449 96327 97°б2 97670 ¦98169 ¦98574 98899 9*I576 ¦9'3б13 9'52О1 9'6427 9*7365 9'8о74 •9!86о5 •9'8999 ¦9}2886 ^499' ¦9-'6505 ¦9J »85 ¦9=8347 ¦9=8879 9*2468 •9*4988 ¦9«6б9б ') Сокращенный вариант таблицы II из книги Hald A. «Statistical Tables and For- ulas», 1952, Wiley, New York.
Приложеиие II. Статистические таблицы 453 Процеитили распределения Xs (разд. 1.2.6) Таблица 3 1 . 2 3 4 s « 7 8 9 10 11 п 13 14 IS 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 75 100 0.005 0.0*393 o.oioo 0.0717 0.207 0.412 0.676 0.989 1.34 1.73 2.16 2.60 3.07 3.57 4.07 4.60 5.14 5.70 6.26 6.84 7.43 8.03 8.64 9.26 . 9.89 10.5 11.2 11.8 12.5 13.1 13.8 17.2 20.7 24.3 28.0 47.2 67.3 0.010 0.0» 157 0.0201 0.115 0.297 0.554 0.872 1.24 1.65 2.09 2.56 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 7.63 8.26 8.90 9.54- 10.2 10.9 11.5 12.2 12.9 13.6 14.3 15.0 18,5 22.2 25.9 29.7 49.5 70.1 0.025 0.0*982 0.0506 0.216 0.484 0.831 1.24 1.69 2.18 2.70 3.25 3.82 4.40 5.01 5.63 6.26 6.91 7.56 8.23 8.91 9.59 10.3 11.0 11.7 12.4 13.1 13.8 14.6 15.3 16.0 16.8 20.6' 24.4 28.4 32.4 52.9 74.2 0.05 0.0*393 0.103 0.352 0.711 1.15 1.64 2.17 2.73 3.33 3.94 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.1 10.9 11.6 12.3 13.1 13.8 14.6 15.4 16.2 16.9 17.7 18.5 22.5 26.5 30.6 34.8 56.1 77.9 0.10 0.0158 0.211 0.584 1.06 1.61 2.20 2.83 3.49 4.17 4.87 5.58 6.30 7.04 7.79 8.55 9.31 10.1 10.9 11.7 12.4 13.2 14.0 14.8 15.7 16.5 17.3 I8.I 18.9 19.8 20.6 24.8 29.1 33.4 37.7 59.8 82.4 0.20 0.0642 0.446 1.00 1.65 2.34 3.07 3.82 4.59 5.38 6.18 6.99 7.81 8.63 9.47 10.3 11.2 12.0 12.9 13.7 14.6 15.4 16.3 17.2 18.1 18.9 19.8 20.7 21.6 22.5 23.4 27.8 32.3 36.9 41.4 64.5 87.9 0.30 0.148 0.713 1.42 2.19 3.00 3.83 4.67 5.53 6.39 7.27 8.15 9.03 9.93 10.8 11.7 12.6 13.5 14.4 15.4 16.3 17.2 18.1 19.0 19.9 20.9 21.8 . 22.7 23.6 24.6 25.5 30.2 34.9 39.6 44.3 68.1 92.1 0.40 0.275 1.02 1.87 2.75 3.66 4.57 5.49 6.42 7.36 8.30 9.24 10.2 11.1 12.1 13.0 14.0 14.9 15.9 16.9 17.8 18.8 19.7 20.7 21.7 22.6 23.6 24.5 25:5 26.5 27.4 32.3 37.1 42.0 46.9 71.3 95.8
454 Приложение II. Статистические таблицы Продолжение табл. 3 " \ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 30 75 100 0.50 0.455 1.39 2.37 3.36 4.35 5.35 6.35 7.J4 8.34 9.34 10.3 п.з 12.3 13.3 14.3 15.3 16.3 17.3 18.3 19.3 20.3 21.3 22.3 23.3 24.3 25.3 26.3 27.3 28.3 29\3 34.3 39.3 44.3 49.3 74.3 99.3 0.60 0.708 1.83 2.95 4.04 5.13 6.21 7.28 8.35 9.41 10.5 11.5 12.6 13.6 14.7 15.7 16.8 17.8 18.9 19.9 21.0 22.0 23.0 24.1 25.1 26.1 27.2 28.2 29.2 30.3 31.3 36.5 41.6 46.8 51.9 77.5 102.9 0.70 1.07 2.41 3.67 4.88 6.06 7.23 8.38 9.52 10.7 11.8 12.9 14.0 15.1 16.2 17.3 18.4 19.5 20.6 21.7 22.8 23.9 24.9 26.0 27.1 28.2 29.2 30. Г 31.4 32.5 33.5 38.9 44.2 49.5 54.7 80.9 106.9 0.80 1.64 3.22 4.64 5.99 7.29 8.56 9.80 11.0 12.2 13.4 14.6 15.8 17.0 18.2 19.3 20.5 21.6 22.8 23.9 25.0 26.9 27.3 28.4 29.6 30.7 31.8 32.9 34.0 35.1 36.3 41.8 47.3 52.7 58.2 85.1 111.7 0.90 2.71 4.61 6.25 7.78 9.24 10.6 12.0 13.4 14.7 16.0 17.3 18.5 19.8 21.1 22.3 23.5 24.8 26.0 27.2 28.4 29.6 30.8 32.0 33.2 34.4 35.6 36.7 37.9 39.1 40.3 46.1 51.8 57.5 63.2 91.1 118.5 0.95 3.84 5.99 7.81 9.49 11.1 12.6 14.1 15.5 16.9 18.3 19.7 21.0 22.4 23.7 25.0 26.3 27.6 28.9 30.1 31.4 32.7 33.9 35.2 36.4 37.7 38.9 40.1 41.3 42.6 43.8 49.8 55.8 61.7 67.5 96.2 124.3 0.975 5.02 7.38 9.35 11.1 12.8 14.4 16.0 17.5 19.0 20.5 21.9 23.3 24.7 26.1 27.5 28.8 30.2 31.5 32.9 34.2 35.5 36.8 38.1 39.4 40.6 41.9 43.2 44.5 45.7 47.0 53.2 59.3 65.4 71.4 100.8 129.6 0.990 6.63 9.21 11.3 13.3 15.1 16.8 18.5 20.1 21.7 23.2 24.7 26.2 27.7 29.1 30.6 32.0 33.4 34.8 36.2 37.6 38.9 40.3 41.6 43.0 44.3 45.6 47.0 48.3 49.6 50.9 57.3 63.7 70.0 76.2 106.4 135.6 0.995 7.88 10.6 : 12.8 14.9 16.7 18.5 20.3 22.0 23.6 25.2 26.8 28.3 29.8 31.3 32.8 34.3 35.7 37.2 38.6 40.0 41.4 42.8 44.2 45.6 46.9 48.3 49.6 51.0 52.3 53.7 60.3 66.8 73.2 79.5 110.3 140.2 0.999 10.8 13.8 16.3 18.5 20.5 22.5 243 26.1 27.9 29.6 31.3 32.9 34.5 36.1 37.7 39.3 40.8 42.3 43.8 45.3 46.8 48.3 49.7 51.2 52.6 54.1 55.5 56.9 58.3 59.7 66.6 73.4 80.1 86.7 118.6 149.4 •) Сокращенный вариант таблицы V из книги Hald A. «Statistical Tables and For- Formulas», 1952, Wiley, New York.
Приложение II. Статистические таблицы 455 Таблица 4 Критические значения для критерия согласия Колмогорова— Смирнова (разд. 2.2.2I) Объем выборки (п) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 50 60 70 80 90 100 Уровень значимости .20 .900 .684 565 494 .446 .410 381 358 339 322 307 .295 284 274 266 .258 .250 244 .237 .231 21 .19 .18 1.07 V» .15 .925 .726 .597 525 .474 436 405 381 360 342 326 313 .302 292 .283 .274 266 .259 .252 .246 .22 .20 .19 1.14 V» .10 .950 776 .642 564 510 470 438 411 388 368 .352 338 325 314 .304 295 286 278 272 264 .24 22 21 1.22 Vn .05 975 842 .708 624 563 .521 486 .457 432 409 391 375 361 349 338 328 318 309 301 294 .264 242 23 .21 .19 .17 16 .15 .14 .14 1.36 Vn .01 .995 929 829 734 669 618 577 543 514 486 468 450 433 418 404 391 380 370 361 352 32 29 27 .25 .23 .21 .19 18 1.63 Vn *) Воспроизведено нз статьи Massey F. J. Jr. A951) «The Kolmogorov—Smirnov Test for Goodness-of-Fit», JASA, 46, 68—71, и Birnbaum Z. W. A952) «Numerical Tabu- Tabulation of the Distribution of Kolmogorov s Statistic for Finite Sample Size», JASA. 47, -425—441, с любезного разрешения авторов и издателя.
456 Приложение П. Статистические таблицы Процентили распределения Стьюдента (разд. 1.2,7)х) Таблица S X 1 2 3 4 5 6 7 8 9 10 И 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 60 .325 .289 .277 .271 267 265 .263 262 261 260 .260 .259 .259 258 .258 .258 257 257 257 .257 257 .256 256 256 .256 256 256 256 256 .256 .255 254 .254 253 75 1.000 816 .765 .741 .727 718 .711 .706 .703 .700 .697 .695 .694 .692 .691 .690 689 .688 .688 .687 .686 .686 .685 685 .684 .684 .684 вез .683 .683 .681 .679 .677 .674 90 3.078 .886 638 .533 .476 440 415 397 .383 .372 363 356 1.350 .345 .341 1.337 333 .330 328 1.325 .323 .321 1.319 .318 1.316 1.315 1.314 313 1.311 .310 1.303 1.296 1.289 1 282 95 6 314 2.920 2 353 2.132 2.015 943 895 .860 833 .812 .796 782 .771 761 .753 .746 .740 .734 .729 .725 .721 .717 .714 .711 .708 .706 .703 701 699 .697 .684 671 .658 645 97.5 12.706 4.303 3 182 2.776 2 571 2 447 2 365 2 306 2 262 2.228 2.201 2 179 2.160 2 145 2.131 2.120 2 110 2.101 2.093 2.086 2.080 2.074 2 069 2.064 2.060 2 056 2.052 2.048 2 045 2.042 2.021 2.000 1 980 1 960 99 31.821 6 965 4 541' 3.747 3.365 3 143 2 998 2 896 2 821 2.764 2.718 2 681 2 650 2.624 2.602 2 583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2 485 2 479 2.473 2 467 2.462 2 457 2.423 2.390 2.358 2.326 99.5 63.657 9.925 5.841 4 604 4.032 3.707 3 499 3 355 3.250 3.169 3.106 3 055 3.012 2.977 2 947 2 921 2.898 2.878 2.861 2.845 2 831 2.8Ю 2.807 2.787 2.787 2 77» 2.77Г 2 763 2.75» 2 750 2 70* 2 560 2 617 2.576 99.95 636.619 31.598 12.941 8.61» 6.85» 5.95» 5.405. 5 04t 4.781! 4.58Т 4.437" 4.318; 4.221 4 140» 4.07S 4.01S 3.96* 3.922! 3 883; 3.850) 3.81» 3.792! 3.767" 3.7451 3.725. 3.707" 3.69» 3.674 3 65» 3.646. 3 551 3.460- 3.373 3.291 ') Таблица 5 взята из табл. 111 книги Fisher R. A., Yates F. A963): «Statistical Tables for Biological, Agricultural and Medical Research», опубликованной издатель- издательством Oliver and Boyd, Edinburg, и использованной с любезного разрешения автора», и издателей.
8 8 S S 3 я n •A 2 e о «о г, i со о» со Ф Ф oo ^ go о <« —r- to t- чу м «- MO)V}C4 62 53 6 947 3 80 еч -ч- м со >2 00 945 5-18 383 6174 1. 944 518 384 •¦• *-f e* С t— ч* w Л 2SS3 gO>«CO Ю do ©> ib cb 891 5 9 35 5-27 3 98 О CO 00 M NCQNO t* O» « ¦* •o CO ¦*'** м « СЛ О •* ot<eo> at w? м со м «3 ggs? 0HI0 4 eo С e^ t- Oi •?> 2313Й2 3 14 2-76 2-51 ?34 2-21 3-16 2-78 2-54 236 223 5Ш M go n ^ со 327 2 90 267 250 238 tOMMMM BSU* со a> c> in ** соеч м мм t-M 00 М м coo r-Ф to S83SS to со еч м м SmS^S COCO МММ in « П go to n«o *» е*м COCO COM C4 ¦* со со со со 211 203 1-96 1-90 1-86 nngina — oooaj 216 208 201 1-96 1-91 218 2 10 204 1 98 194 2-28 2 21 215 210 205 N «Эв» *# © 2-35 227 2-21 216 212 еч «чечете* 241 234 2-28 2-23 219 to at m oo -# ¦* m €o w e« еЧС^ N 04 M м w да «л ^ «О ¦* » rt « еч еч N еч еч 3S338 мм м м ещ 04 М М М М еч Ф м «о со at оо oo е- с 8S22S СО СО СО СО СО ***** <э>« еч а г- p-t-r-Ste еч оо ю еч о 00 l"~ f™ Г* t* aft ai * р- S 1-87 1 84 1-81 1-78 1-76 190 1 87 1 84 1 81 1-79 0» оооо оо аз 202 1 99 1 96 193 191 2 06 2 03 200 198 1-96 209 206 203 200 1-98 23SS8 МММММ <©«O00t0 м м —t О О •х go VO СО-ч м м ет сч еч М N N М -ч меч ечеч м М МММ М 0»<в -ФМ О ММ М СМ М ммеч мм B§8SS со со m соеч  — 22 1 ei 1 59 1-S7 155 1 53 1С tfi оЭ Ю Ю 1 68 1-66 164 162 161 м* 0) Г* О ^ р- «ш to«5 4МОФГ< t- р- р-о to 1-77 1-75 173 172 170 1-79 1-78 1-76 1-74 1-73 1-84 1 83 1-81 1.80 1-78 189 187 186 1-84 183 1 94 1 92 1-90 1 89 1 88 196 1 95 1 93 1-92 191 204 2-02 201 199 198 MN ММ М <О ^ев-^О м м ечечм м ем e»i м м мммме* дО Ф to -Ф СО СО СО «9 СО СО ММ ММ М 2 59 2-57 2-56 255 2 54 а» а» а» at да ечмммм ««« to й « ш ю 163 1-61 1-60 1-59 1-58 166 105 164 163 162 1-72 1-71 1-70 169 168 !-• КО « -* СО Г-Г- Г- ft* 182 1-81 180 1-79 1-78 1-87 1 86 1 85 1-84 183 Л об t» t» to OB oO 00 00 GO *O ?i ** © O» 9H0)«Св 1-97 1-96 195 194 193 SS889 м еч е4 м м sssss 00 t> r»<©U> МММ MM «eo сом м м еч м м м 83388 мм меч«4 м mo e» a> a> ел о оо оо м ечм мм ЙЗКЯЯ 146 1-38 1-29 119 100 ОЯИфЬ «¦* соеч •* 1-54 1-47 140 132 1-24 1-57 1-51 1-44 1-37 1-30 161 154 148 141 1-34 164 1-57 1 51 145 1-38 1-67 1-61 1-54 1 48 1 42 1-72 1 66 160 1 55 149 SS-I 091 931 III Ul 1-82 1-76 1-71 165 1-60 00 t» Г-О tO 188 1-63 1-77 1-72 167 со t» м Г" еч' да • go t* c» SS5SE: sssss 2SoS3 «ече.-- 00 <o 00 eo CO еч « еч еч с* 2-49 2-44 2 39 2 35 230 се оо г» t- r- М МММ М SSSS8 А. Афифн, С. Эйзен
g ' 120 s 3 о S S «ft s о mSSS СЧ 2533 19 49 8-55 5-66 2 -48 ¦57 -69 СЧ "" '51 1 19-47 8-59 5-72 soi : 9 46 862 5 75 ei o> d» ao to 08-S 998 S»-6 0-81 15 9 2- 9 43 8-70 5-86 сч РЧ -^t -^ O) ^ r- o> maoo io © O> <D 3> ^ t— a> •^ OS 00 iO Я0 — О CO A CO CD 236-8 19-35 8-89 609 40 933 8 94 6 16 О — Ш СЧ СЧ <e oo a» C4~* eono g> 0> OS <O 1-4 8 51 013 7-71 1С Г-ММ — 4 40 3-70 3-27 2-97 275 ¦43 ¦74 ¦30 ¦01 ¦79 446 3-77 334 304 283 4-50 3 81 3 38 3 08 2 86 456 3-87 344 315 2 94 4-62 394 3 51 3-22 301 т# ч*счсчт 44МЙП t- О 00 О» 99 4-88 421 3-79 3 50 3-29 4-95 4-28 3-87 3 58 3-37 та в» 1- «00 «Л ¦¦* «о »м 23 — 38 6 61 5 99 5 59 5-32 5-12 «5счм2 еч сч счсчсч 62 49 38 30 ¦22 §S3S? 2-70 2-57 247 238 231 м еч еч ei м 2-77 2-65 2-54 2-46 2 39 л ei e-% m « A t^ CO « Л счмм еч 04 «««go M M M 04 M NOO"«W © ACO Г- CO rt еч еч еч сч rt w счоч еч 23S * r- тсчечоч сч 3-22 3 09 300 2-92 2 85 счсчттеч 00@ «CO -• ту rt еч ¦¦ —" nnnnn сч mm сч сч О аэ А — ¦* 4 96 4 84 4-75 467 460 211 206 201 1-97 193 — — О О OS 220 2-15 210 2 06 203 in в> ю —¦ 1- еч— — — о в»-* О» «О -ч сч еч сч меч ПППОв ео сч сч — -* 2-40 2-35 2 31 2-27 223 0D СЧ 00 -I1 — С* СЧ СЧО С* ¦* OS « -" 00 та *" •* т)| п сч сч сч еч сч С» •* в» •?> СЧ Ю О ** I1 ** ечсч сч ечсч SSSSS сч сч сч сч сч 2-71 2 66 2 61 258 2 54 279 2-74 2-70 266 263 А00СОГ- Г- 04 еч еч меч S3SSS « m м м м SSSSS 4 54 4-49 445 441 4 38 ^t —< ос о ео 190 1-87 1-84 1-81 1-79 sssss 1-99 1 96 1 94 191 1 89 204 201 1-98 1 96 1 94 Oft Л M*"* в О О© О А еч м еч м — 22SSS воопп-* об in сч о оо еч м м еч ** ОЧ МС4М 04 W М О f IO rt rt rt СЧ СЧ еч сч м сч еч А г- -f сч О rt rt rt rt rt мм еч еч еч #4 сч сч сч еч 2 51 249 246 244 2 42 о г- ю m -* « О Ю iO *A 1-ч оо « ту еч ечсч ечсч еч Г* ту М О 00 ае оо оо оо г** оч меч еч сч 2BSSS -49 ¦47 ¦44 ¦42 40 435 4 32 4 30 4-28 4 26 1-77 1-75 1-73 1-71 1-70 еч о а г* to 1-87 1 85 1 84 1 82 i 8i 192 1 90 1 88 1-87 1 85 «О там — о naaos *-1 •-! -^ М •-! 201 1 99 1-97 1 96 1-94 2-09 207 20в 204 203 фюп«о счсчсч сч сч ту СЧ О 00 00 СЧ С1 СЧ — — СЧ СЧ СЧ СЧ СЧ 00 t- *Л ¦* СЧ СЧ СЧ С4 Cl СЧ О СЧ СЧ СЧ СЧ ¦* М -ч OS 00 СЧ СЧ СЧ СЧ СЧ ёчсч сч сч сч мм ммеч ф ту м — е> м м еч сч еч §§е?§8 еч сч сч сч сч •39 ¦37 35 34 33 4 24 4-23 421 420 4-18 SSmSS 168 1 58 1 47 1-33 1 22 1- (О Ю ¦* М as в> о» о а> Г-ви)«П 1 84 1-74 1 65 1 55 1-46 a» oso — сч 00 Г- Г^ 03 Ю -ч т* — — -* 193 1 84 1-75 1 66 1-57 201 1 92 1 84 175 167 А О е* еч in © О А 00 Г- MM-i-i-.*- « со о> — « М е» — —i ¦-« •-I еч ч* со оо еч -я о А оо еч еч еч -н --» г- со © еч -# сч еч еч м ^ m to r- о«-« « сч — о © еч еч сч сч еч 2-42 234 225 2-17 2 10 rt in r- A -* Л ту rt М М м <мм Met S53SS сч ечсч ечсч № 00 t^ Ф S СЧ СЧ С4 СЧ СЧ Mndt^O 417 408 400 3-92 3 84 SSSSS8
I i* 8 8 s s * Г4 Г4 ¦H •* 00 ggg oo a eo oo s ч1 ел со ч*а со oo 5- 4» ел со oeanoo © $33 О 01 ^ 00 О et ч» — to ой"*1 tO Г' <O |8Я- a 4" сч to ч1 о» ч> go oo eo r^ со ел ч< ob t- eo •-« a» ©04 4» CO ¦* Ч1 00 gbe»4-ob со со -ч as СЛ P- © eoeo ф а go cb ч-оо l- Ф 00 p- со «о ел cb ел Ч* go to со м CO 94 P- 00 <A Ч> СЛ n со о ¦ p- а ч< да з™- 21 8 J9-80 14-88 9 36 OS «S2g aO «8SJ8 r- ao to ч* 94 Г* 00 P» 94 Ф ч*ч"сосо p- p о со а О еЛ 94 Р- СО <ёч»ч»еоео (О П Ч< СО СО пр- ео а ер 04 О COQ0 и5 «о л ¦ч1 соео ОО 04 94 Ю -^ еч —(ч^асо со to ч> ео п CS Р« Г» О Р- «о •— ч" о се """"**" П Р- t- О Р- Ч« 04 Он р. <е w Ч" ч<ео tO W СО 94 40 ФЮффЮ 94 (О СО 0<0 сеч» р-соа «о « ч" ч«ео до et сч со со Ф to СО П © чЬ to -# -ф ч» P?g<152 mootno со р- а to 04 Ф *О Ч1 Ч* Ч> дО 94 СЧ in 04 а до «ч еОео «оюю ч»ч» О СП О» 94 00 ел соеч to 04 СО 9» 43 О Р- е~Ф ад ю -* СО ©О» 94 00 Р-(ё 00 Ч> © ¦Ч» 94 ЮО Р* ниг-hH О0рСвР-Р» оо оо еч ©а О дор- со ч» СО 94 04 94 94 СО 94 ОЧ94О4 (ЧОФ Р- СО СО СО 94 94 С4 ¦ч et Ф-фсп СО •-" Л 00 Р- еО СО 94 94 64 р- р- 04 о а СО СО СО 94 С4 eoeo «о94 94 04 со до ws ю СО СО CO СО 94 <е-«< 04« о со ео ео ео ео 04 «Г- «О О Р* Ю СО 94 •-! СО СО СО «О СО Р* «О Ч> СО94 со conn со m со — а а 00 СО tO «0 94 СО COCO СО СО »о с0«-ч оо до ел р-со ч- со со со еоео со ч' со со со со мвмоа Ч1 94 г* О дО ctPS^co о мгч m *# СО 00 94 COQ ч» eon 04 еч С4 94С4 94 еч а -чч» оо со 94 94 94 94 94 ¦ч»р-оч*а ф to из ч1 со 94 94 94 94 94 О СО СО © «О 94 СЧ 94 94 0* 94 94 94 94 94 со г- г* со се С4 94 94 94 94 ша м г-еч аоооо р-р- 94 94 94 94 94 о ел а оо со СО 94 04 94 94 ct to до со оо •¦ч © а'о> оо еосо94 счеч М^ч«Ос1 со со со со еч SS22S со со ео со со со со со соео оо © ч» оо ео ao г- ее Ф о ео conn eo to оо -ч to О м о о ел ел (О Ф Ф Ю tO ift sOt>ao» обола «94 94СЧС4 04 00 Ч1 -» 00 a to м ao to 94 94 94 04 94 П СО 94 94 94 94 94 94 94 94 ч< com со94 94 94 94 94 94 <е 94 ел се со 94 94 94 94 94 to из to ¦* ч* еч 94 94 94 94 94 94 94 94 94 t-COOP-4)> р* р- р- ев с0 еч 04 94 еч С4 до aO t- Р- р- 04 94 94 О4 94 аао до оо г- 94 94 94 94 94 •"Ч р- П О 1"* о о>сл а оо п ечемеч 94 СО СО COCO 94 С» « 94 00 « 94 94 94 -ч -ч 1О ¦¦* Ч* Ч" ео со со со еоео СО 94 до to 94 00 00 Г- Р- Г- со со сч со ео сО 04 со m (M до оО р- р- р- ю ю «о ю о нсеппн О) дО 00 00 оО спааа ар 8g§gg et а t~- to eo et 94 94 94 04 94 94 94 94 94 ч" et а p-to 94 04 С4 94 04 О00 •« СО -ч П СЧ 94 94 04 СЧ 91 94 9194 94 94 94 94 94 *ч G> P- Ю СО »О Ч« ф ф Ч» 94 94 94 94 04 «О lO U3 *Ci rt 94 94 04 94 94 дО to СО гн а <g СО @ СО to 94 94 94 94 04 94 94 04 94 О4 «4 94 О aO tD дО дО 00 Р- Р* 94 94 94 94 94 Р- Ч1 94 © до а ел а ел до 94 94 94 94 04 ши «о со •— е» с- СО СО СО 94 СЧ со ео e*s со ео а г- to со •"* со со со ео со tft « IO to IO ©oo ?<«¦* — OaO p-co ©P- Ч1 04 •-« 04ОСЙ00Р- 94 94--- 04 94 94 -4 — 5S-oS 94 04 Ct 04 — *-¦ a t-<© ю to m сч м о 94 94 94 04 9Д Кч?ЙЙП 94 94 94 04 94 joeo—оа 94 64 94 94 94 «о 04 м ел а р-ее to со сч 94 94 94 94 94 Р- Ч»П94 -ч дО р- ео w ¦* 94 94 94 04 94 СО 94 94 СЧ 94 о ео—1 о» 0> сч —« ©оо г- ео ео со 94 еч а Ф Ф ео 04 Ю Ч* СО 94 — coco ео со со до nno а Ч» ч#СОСО СО f 94 а О 94 to ч-еч~«о 15*
3 р а: 8 S а я к а s S г т t» <0 IA S25 3 SSS8 8SSS- » "S3 2§g2 3 S8S2. tf> о со S852 КЗ 0» Я O9NH О 55S Й882 СО *О со 5 ^н Л t- "* оо дая ** да КЗ to t» со со to Ca ¦ gj$8 ssas КЗ -н СО Я г- да 4999-5 9900 30-82 1800 SS8 s eh to to-* sssss gssss Ob-tOO W CO ОО Я -и КЗ g23«55; - eei° - 6ab too A г» е- да r-o tp *• « coop О со t>to vb r* w to со tg goo «o« sssss моасва 8?3SS sssss «nun/I «в «О ч(* ^iao Ч1 СО С9 ПСГ9 «• JO Я М t* я :да г» кз со ¦•«««с СО© Г- «» ч» * ¦*** "*° gOgg-H -* •# w coco «О IO г* Я «О ЮС4О«« -4 О СР tO © t» ^ —« да во ^»^> 4f-*eo « со в> да со йееоно tt -*^» ч* ¦* ¦ М Я КЗ ^ to 2еШ SSSSS gssgs О да ао г* о СОМ ЯМС4 2SSSS -и ©g Я •* СОСО„«« м со сое* я JowSSg СО СО СО (О СО """"" coet*o to О ч(« @ СО SSSS3 coco со «о со о да да«^ со * 0» f t* 00 © 00 t* СО U3 Ю 5-42 5 29 518 509 501 Фввел S8SSS 2SB2S пеочи N W W W N ¦^ <O О в О О ¦* 00 ^" О* ммямя ё»е>»г|яя да«оо*2 Я Я ЯМ Я SSSSS СОСОЯС4 94 coco со coco sssss КЗ О "* -«• СО со со со со со оо ев г- Ь» tp • СО г- -« to Я ¦¦а со со я я да оо оР с* г* A A w мэ «о о я юооя мя я яеч со со я я я ММЯ ЯМ М М W М С* 2 = 533 е» мм М5< SSS3S сч<н<мсч<м о to со о г» SSS§? 2SSS8 П«ПЙЙ g22Sg сомяяе^ со со со со со 55«сосо со со coco со со да «о со о СО «Э « Ю ift СО СО СО СО 10 ю « оо m со 00 00 t- t- t* to Sto «irt t* со да кз я Ю >О ^" •* ¦* 3S"Sm Я « -. ^ч -I я © да в ¦* Я Я и ^- и О — •* «о да мя я « « NWWrt *** 8«я©8. мяечя-н да««5« е» в» с» to —t t* да я to © со со со я я t"» « СО |-н © Я СО « 00 Я © ao to ч* со 451 4-31 4-13 3 95 3-78
8 S 3 • я г< О в> Об *•« ¦* IA И CO M tft oo eo 52*- US м о> г» « Л 4jt "Ч s 3§32- 25044 1995 4247 19 89 40 995 4262 2003 00 C~ *• Г- (-« ,iS a™ IN O> ¦¦ M M SJ (-4 ^ 00 «* ¦4- 00« © •-• "* Я CO W *<¦ *4 CO J Ol ¦* N 99 4 44 43 2102 ^ i- CO 00 О J25s № CO OOHfM в» w о ^ i-ч «S >-ч г- со M ч|1 M •О да e* •* со « CM — ob J»^ ^ да о со —¦ оо © да ¦— г- о o»«o © еч о — ©со © м — oo" CO COCO © Cf © CO Ю ¦* » SSSSS © O> Ui ~* CO 0» «5 Г- CO CO M O»t- tO О 00 CO 00 ^ CO «O« ON СЧ iO O0 — M » t- 00 О O» с да да да оо СМ С- ОО CO 00 « Г- С 11} « со com м со со моо р м •о да оо се ь~ coSSS" t^te м to со ©* 00 СО "V СО М f^ ri rm ri S Й да о 5 t» еч © f~ о со ¦* я г- tfi 00 * — 00 Ю в» цм да h- r-g гэ г- to t- со « г* со Й§8?§ 5©?^* м ю « •* ¦* ¦* ОМ ф М О 00 ^»О W СО М 00 О 00 СО O(Cwwn СО 30 W СЧ О •* осо оосо U) n г- <ч> М ¦* да ci eo p СО 00 Л М О ОО О СО СО 00 ©со мда со "дазг"* 11Ш 3=Я23 в -ч оо h- » r-моле» 5S^2i да * -«© *•» 2-79 364 351 340 3-31 3 88 373 361 3 50 340 ssssss ОО Г-СО СО г-- сч л оо оо «IQONM "SiSSST 00 СО « СО « ISi'i да <— « оо со coco ю-*-* О №00 00 1» -ч© дадаоо 3-22 3 15 308 2-02 297 (N ¦# O0N @ BS* «cow sssss м >-* —• © о» в 00 — •* в> г»ш «е »п ч» Окоовь t^« со « с» м м о« "• г- «о * •* ¦* п V) - сч t-eoe»<o Nt>no>« да оо во г- г* 82SSS со со М м м V» СО СО СО «О «о о (р е» во sssss Issss во со gjcop sssss sis!: no o»o»o C4MMM CO oo «o ¦* ¦* со -—- во о «о со ¦* О W >-ч в» Ь- со со сом w о —1 ооо да да г» ч# (N о SS^oio СОСО^Ф^ coo^Sco SooeoSS
§ Е О; а- л 8 120 s о 8 3 g m (Ч о о t- ч* 0388» 999 5 123 5 44 05 о # ш о •* О 9i -* ¦* 8313* 999 5 124 5 4475 . «оо 00 О) W ¦* 6281* 9995 1254 4543 .*-? с5 ет S- ^ (С 209* 9994 1284 46 10 «о о . ¦»-»•.- Щ 33 :ч "* — а -* (С 6107' 9994 1283 47 4 6058* 999 4 129 2 48 05 6023* 9994 1299 4847 о> да — м tO ^ Ч1 tO tO да да — <т> сч да со ч1 да о> — т РЭ # сода irj о en « о оо да — • *? *? 'Г' о да эт «s t~ еь — ю се в сч --« —« я8-14 5000* 9990 1485 61 25 да "Э О rt ¦-; Г» г- (^ Pi 4D П "О •- О1 *¦• W -• «ч 24 08 15 99 11 91 953 800 СЧ -* «ч ""- 24 87 16 67 1253 1011 8 55 ¦# О П О «Ч — 00 Г- eo 1- С4 п »ч ~* 25 39 17 12 1293 1048 8 90 -gj,>? РЭ СО 54 264 17 9 137 111 95 ffi -¦ » * да 27 24 18 69 14 33 11 77 10 11 в о <о о л «*е?|О0 ср О Ю аО — сч сд — -< —¦ Г~ Св СЧ ¦* Г- 31 09 21-92 17-19 14 39 12-56 © © г- рз © г^ г1- « да to ее — m сч в р. Л eb \h вч to еЬ да о 7-12 © со •* Ч1 tO 08L Si'8 s сч » да ч> р-* ее и: 14 91 21-04 617 5 59 . 5 14 4 77 ИКОО Ч- еч рз г- © л от ч" — tO ООСЧ .00 М * 5 — © рэ О о ч>да rt со г~ еч со еч да © © л сч оо ч> 54 се х да *- -* о tn to © да. м to© ч-о т да « о> 10 35 963 9 07 882 ос да о г- (й tO 00 •* 447 § ОТ О ю 809 tO Ч1 г- S ¦57 825 « 11-34 Оао «ю « w * оо еч о оо со 4-39 4 18 400 3 84 О СО © Ч" Г- Ч- СО-ч П со иг да да to ч1 сч да оо от со СЧ © 00 Г- СО О СО СЧ оо (Л to ел О) t- Ш СО ¦— о г- ю to сч~сч «п ч1 сч © да — олао oonn« СЧ © 00 Ф от to ¦* сч с г- ч- еч 1097 10-39 10-16 сч еч се со 4 t- ао да в0 to U5 « Г- со сч — © от 4j сч сч еч ч* иЪ ч1 рз еч "• « со со п со © да ее оо да to ч- рз со ю 00 г~ tO Л Ч" 4 00 3 88 378 368 359 « © да оо г- « -»¦ м еч « о от оо I- » 5-24 5 11 499 4 89 4 80 ч> i-ч а> да да да «о ч1 о рз в Ю Ч- РЭ СЧ сч ао со ю «5 © оо ^ ю >о !О СЧ СЛ СО СО © п -ч да да •ч oi ао to m © -»¦ © Г- ifl — СП СО tO Л 9-95 9-77 961 9-47 9 34 сч ой се да рэ Ор К} СО -- © е> сч щ от ч> СЧ СЧ СЧ СЧ СЧ зов 322 г~ со сч « 16в в» о « 4',, Э) вЧ to -ч да да да да СЧ CN СЧ СЧ т оо сч г- © с: оо сч РЭ СЧ — — Ч1 СО СО СЧ ел еч в — МФО* С» СЧ tO О от ел оо ао Ч> Ч" СО СЧ ч1 г- © rt СО «О О ч* . 3 со с? S to С © О) СО to ао — ч> оо Ч1 СО СО СЧ -• оо © рэ to да да оо г- to ю да С-1 1388 8 0 41 6-33 6 25 6 19 to р- от сч СО СЧ -« -ч — © да со да в) оо об ?sss м со со со 2 76 2 41 2 08 1-76 1 45 еч г- «Л 1С to сч t- rt to (Л еч оо «о сч от to — да © со СО С tO Ч- — ОТ "О СО СО Г- т © се со —i Г- Ч" © t- »О сч со «л еч от № М в) 93 О СО О (D Л X И W » Ю С| СО СО Ю СЧ ф сч о —• о еч — м « а> «в Ш О Г- OiN Г- Л в СЧ —( г~ сч с^ со в» со х h- г- ев о — h- ов е^ ОООО Q idge Cambr 3-е изд., н w R stic for Stati S rlka 966) «Biomet X ¦ Я , Hart зрешен «g W о и Pears с любез бл. 18 из ) id New Yo я В P . Press, '5
Процентили распределения стьюдентизованного размаха (разд. 2.4.2)х) Таблица 7 90-я процентилъ X 1 2 3 4 5 ¦ * 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 to 120 со 2 8 93 4-13 3-33 301 3'85 •76 •68 2-63 2-59 2-5в 264 252 250 249 248 247 248 245 2-45 244 2-42 2-40 2-38 2-36 234 , 2-33 3 13-44 5-73 4-47 398 3-72 3-59 3-46 3-37 3-32 3-27 3-23 3-20 3-18 316 314 312 311 310 309 308 ЗОБ 302 2 99 2-М 2-93 2-90 4 16-36 6-77 6 20 46» 4 29 407 393 3-83 3-76 3-70 3-66 3-62 3 59 366 3-64 3-52 3-50 3-49 3-47 346 3-42 3-39 3-35 3-31 3-28 324 S 184» 7-54 5-74 503 466 4-44 4-28 417 408 402 3-96 3-92 3-8S 3S5 3-83 3-80 3-78 3-77 3-75 3-74 3 69 3-65 3-60 3-56 352 348 6 20-15 8-14 616 5-39 4-98 4-73 4-55 443 4-34 4-26 4-20 416 4 12 408 405 403 4 00 3-98 3-97 3-95 3-90 3-85 3-80 3-75 3-71 3-66 7 21-51 «63 651 568 5-24 497 478 4-65 454 4-47 4-40 4-35 4 30 4-27 423 4-21 418 4-10 4-14 412 4-07 402 зев 3-91 3-86 3-81 8 22-64 9 05 6-81 593 5 46 517 4-97 4-83 4-72 4-64 4-57 4-51 4 46 442 4-39 4-36 433 4 31 4-29 4-27 421 4-16 4 10 404 3-99 3-93 9 23-62 941 7 06 6 14 5-65 5 34 514 499 4-87 478 4-71 4-65 460 4-56 4-52 4-49 4-46 4-44 4-42 4-40 4-34 4-28 4,-21 416 410 404 10 24-48 9-72 7-29 6-33 5-82 5-50 528 6 13 501 491 484 4-78 4-72 4 68 4-64 461 4-58 4-55 4 63 4-51 444 4-38 432 425 4-19 t 4-13 11 26-24 1001 7-49 6-49 6-97 6-64 6 41 5-25 513 503 4-95 489 483 4-79 4 76 4-71 4-68 4-65 463 4-61 4 64 447 4-41 4-34 4-28 4 21 12 25-92 10-26 7-67 6-65 в-10 5-76 5-53 6-36 5-23 513 6-05 4-99 4 93 4-88 484 4-81 4-77 4-75 4-72 4-70 4-вЗ 4-5в 449 4-42 4-35 4-28 13 2654 10-49 7-83 6-78 622 5-87 564 5-46 533 6-23 5-15 5-08 5 02 4-97 493 4-89 4-86 4-83 4-80 4-78 4-71 4-64 4-56 4-49 4-42 4-35 14 27-10 10-70 7-98 6 91 6-34 598 5-74 5-56 542 532 5 23 5 10 510 605 601 4-97 4 93 4-90 4-88 4-85 4-78 4-71 4-63 4-56 4 48 4 41 IS 27 62 10-80 8-12 702 6-44 в-07 5-S3 5-64 5-51 5-40 5-31 524 518 512 508 504 501 498 4-95 4-92 4-86 4-77 4-69 4-62 4-54 4-47 1» 28-10 1107 8-25 713 «54 616 591 5-72 5-58 5-47 5-38 5-31 5-25 519 515 511 5-07 5-04 501 4-99 4-91 4-83 4-76 467 4-60 4-52 17 28-54 11-24 8-37 7-23 6-63 6-25 5-99 5-80 566 5-54 5-45 5-37 5 31 5-26 5-21 6-17 513 5-10 507 505 4-97 489 4-81 4-73 4-65 4-67 18 28-96 11-39 8-48 7-33 6-71 632 606 5-87 572 561 551 5-44 5-37 5-32 5-27 5-23 5-19 5 19 5-13 510 502 4 94 4-86. 4-78 469 4-61 19 29-35 11 54 8 58 7-41 в-79 6 40 613 503 5-79 5-67 5-57 549 5-43 5-37 5-32 5-28 5-24 5-21 518 516 507 4-99 4 90 4»2 4-74 4'65 20 29-71 11 68 868 7-50 6 86 6-47 0 19 600 5 86 5-73 6-63 555 5-48 543 538 5-33 530 529 6-23 5-20 5-12 603 4-95 4 86 4-78 4-69
Продолжение табл. Т 95-я процентиль X 1 2 3 4 S 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 24 30 40 60 120 ПО 17-97 608 4-50 з-«з ЗМ 3-46 3 34 3-26 3-20 315 3-11 308 зов звз 301 300 208 2-97 2-9в 2-95 2-92 2-89 2-86 2-83 2-80 4-77 гв-вв 8-33 591 504 4-вО 4 34 4-16 404 3-95 зев 3 82 3-77 3-73 3-70 367 3-65 звз 3 61 3-59 368 363 349 3-44 3-40 з-зв 3-31 32-82 9-80 6-82 5-7в 5-22 4-90 468 4-53 4 41 4 33 4-2в 4-20 415 411 408 4 05 4-02 400 3-98 зев 3<90 3-85 3-79 3-74 Звв звз 3708 10-88 7-50 в-29 5в7 5-30 506 4-S9 4-76 4-65 4-57 4 61 4-45 4-41 4-37 433 4-30 4-28 4-25 423 4-17 410 404 3-98 3 92 3-вв 40-41 11-74 804 в-71 воз 5-вЗ 5-36 5-17 502 4-91 4-82 4-75 4-69 4-64 4-59 4'5в 4-52 4-49 4-47 445 4-37 4-30 4-23 4-16 4-10 403 4312 12-44 8-48 706 в-33 5-90 5-61 5-40 6-24 512 5-03 495 4-88 4-83 4-78 4-74 470 4-в7 465 4-62 4-54 4-46 4-39 4-31 4 24 417 45-40 1303 8-85 7-35 «68 в 12 5-82 6-60 5-43 5-30 5-20 5-12 505 4-99 4-94 4-90 4-8в 4-82 4-79 4-77 4-68 4-60 4 52 444 4 30 4 29 47-36 13-54 9-18 7-вО в-80 в-32 всю 5-77 5-59 5-46 5-35 5-27 5-19 5-13 508 503 4-99 4-9в 492 4-90 4-81 4-72 4-63 4 55 4-47 439 10 4907 13-99 9-46 7-83 в-99 6-49 616 5-92 5-74 5-60 5-49 5-39 5-32 5-25 5-20 5-15 511 5-07 504 501 4-92 4-82 4-73 4-65 4 50 4-47 11 50-69 14-39 9-72 803 7 17 ГгЬЬ 6-30 6-05 6-87 5-72 6 01 5 51 5-43 5-36 5-31 5-26 . 5-21 6-17 614 511 5-01 4-92 4-82 4-73 4 04 4-65 12 51-96 14-75 9-95 8-21 7-32 6-79 «¦43 «¦18 6-98 5 83 6-71 501 6-53 6-46 5-40 6-36 5 31 5-27 5-23 5-20 510 600 4-90 4-81 4-71 4.2 13 53-20 16-08 1015 8-37 7-47 6-92 6-66 6-29 в-09 5-93 5 81 5-71 5-вЗ 5-55 5 49 5-44 539 5 35 5 31 5-28 518 6-08 498 4-88 4-78 4-68 14 54 33 15-38 10-35 8-52- 7-вО 7-03 6-66 6-39 «10 воз 6-90 5 80 6-71 5-«4 5-57 5-52 5-47 543 5-39 536 5-25 615 504 494 4 84 4-74 15 55-36 15-65 10-62 в-вв 7-72 7-14 6-7 « 6-48 в-28 6 11 5-98 588 5-79 5-71 5-65 5-59 5-54 550 5 40 5-43 5-32 5-21 511 500 4-90 4 80 1* 56-32 15-91 10-69 879 7-83 . 7-24 6-85 6-57 в-зв 6-19 6-06 5-95 5-86 5-79 5-72 5-вв 561 5-57 5-53 5 49 5-38 5-27 51в 506 4-95 485 17 57-22 1614 10-84 8-91 7-93 7-34 6 94 6-65 «¦44 6-27 613 6-02 5-93 6-85 5-78 5-73 5-67 5-вЗ 569 5-56 5-44 5-33 5-22 511 500 489 18 6804 16-37 10-98 909 803 7-43 7-02 в-73 в-51 6-34 в-20 в-09 5-99 5-91 5-85 5-79 5-73 5-6» 6-65 5-61 5-49 5 38 5-27 515 5-04 4-93 1* 58-83 16-57 11-11 9-13 812 7-51 710 6-80 6-58 6-40 6-27 0 16 605 5-97 5-90 5-84 5-79 5-74 6-70 5-66 5-55 5-43 531 5-20 5-09 4-97 1* 59'5в 1в-7Т 11-24 9-23 8-21 7-59 7-17 в-87 в'64 в-47 6 33 в-21 в-11 в-03 5-96 5-90 5-84 5-79 J-75 5-71 5-69 5-47 5-36 5-24 3-13 5-01
Продолжение табл. 7 99-я процентиль X 1 2 3 4 S 6 7 8 Ч :в п 12 13 14 IS 16 17 18 19 го 24 30 40 60 120 оо 9003 1404 826 6-51 5-70 524 4 9.', 4-75 4 60 4-48 4 3» 4-32 4-26 4 21 4-17 413 410 407 405 402 3 96 3-89 382 37в 3-70 3-64 1350 1902 10.62 812 6-98 6-33 5-92 5 «4 543 5-27 615 505 4-96 4 89 4-84 4-79 4-74 4-70 4-67 4 64 4-55 4-45 4-37 4-28 4-20 4 12 164-3 22-29 1217 917 7-80 703 Я-54 620 5-96 5-77 5-62 5-50 5-40 5-32 525 519 514 509 505 502 4-91 4 80 4-70 4-59 450 440 185-6 24-72 13-33 в-96 8-42 756 7-01 6-62 6 35 614 5-97 5 84 5-73 563 5-56 5-49 5-43 5-38 533 5-29 517 505 4-93 482 4-71 4-60 202-2 2663 14-24 1058 8-91 7-97 7-37 691. 6-66 «43 6-25 6-10 5-98 5-88 5-80 5-72 5 66 5-60 5-55 551 5-37 5-24 511 4-99 487 476 2158 28-20 1500 1110 9-32 8-32 7-88 7-24 691 в-67 648 632 6-19 608 5-99 592 5в5 5-79 5-73 6 69 5-64 5-40 5 26 513 501 4-88 8 227-2 2953 15-64 11-55 9-67 861 7-94 747 713 6-87 667 6-51 6-37 6-26 616 6-08 6-01 5-94 5-89 5-84 5-69 5-54 539 5-25 512 4 98 2370 30-68 16-20 11-93 9Э7 887 817 7-68 7-33 705 6-84 6-67 6-53 6 11 6-31 6-22 в-15 6-08 602 5-97 5-81 5-65 550 636 5-21 508 го 245-6 31-69 16-69 12-27 10-24 9-10 837 7-86 7-19 7-21 6-99 6 81 667 6-54 6-44 6-35 6-27 6-20 6 14 6-09 5-92 5-76 5-вО 5-45 530 516 11 2.13-2 32 59 17 13 1257 10-48 9-30 8-55 8-03 765 7-36 713 6-94 6-79 666 6-55 6-46 638 6-31 6-25 6-19 6-02 5-85 5-69 5-53 5-37 5-23 12 260-0 33-40 17 33 12 84 10-70 948 «¦71 8-18 - -о 7-49 7-25 706 6-90 в 77 6 66 6-56 6-4.8 6 41 6-34 6-28 611 593 5-76 5-60 5-44 5 29 13 236-2 34-13 17-89 1309 10-89 9-65 8-86 8-31 7 91 7-60 7-36 7-17 701 6-87 6-76 666 6-57 6-50 643 637 619 601 5-83 567 5-50 535 14 271-Я 34 81 18 22 1332 11-08 981 900 8 44 803 7-71 746 7-26 7 10 696 6-84 6-74 666 658 6-51 6-45 6-26 608 5-90 5-73 5-56 5-40 IS 7-0 35-43 18-52 13-53 11-24 3-95 912 8-55 8 13 781 7-56 7-36 7 19 7 05 693 682 673 665 6-58 6-52 6-33 614 596 5-78 5-61 5-45 16 281 8 36-00 18-81 13-73 И 40 1008 9-24 866 8-23 Т-Э1 7-6J 7.44 7 27 713 7 00 690 6-81 6-73 6-65 6-59 6-39 6-20 6-02 5-84 5-66 5-49 17 2.S5-3 3653 1Э-07 13-91 II 56 1O21 9-35 8-76 8-33 Г99 7-73 7-52 7 35 7-20 707 697 687 679 6-72 6-65 6-45 6-2в 6-07 5-89 5-71 5-54 IS 2911-4 3703 19 32 1408 11 68 10-32 9-46 8 85 841 8-08 781 7-59 742 7-27 7 14 7 03 6-94 6-85 6-78 6-71 6-51 6-31 6 12 593 5-75 557 It 294 3 37-50 1Э-55 14 24 11-81 1043 9-55 8-94 8 49 8-15 7-88 7 69 7-43 -•зз 7-20 7 09 7-00 6-91 681 677 6-56 6-36 6 16 5-97 5-79 5-61 20 Зйч-0 37 Зо 1У-77 14-40 11 93 10-54 9-05 9 03 857 8-23 7 95 7-73 7-55 7-39 7 26 7 15 7-05 6-97 6-89 6'82 6-41 621 601 583 5-65 ') Перепечатка табл. 29 из книги Pearson E. S., Hartley H. О. A966) «Biometrika Tables for Statisticians», т. I, 3-е изд., Cambridge Univ. Press, London nnd New York, с любезного разрешения Е. Пирсона.
Значения критерия Фишера v (разд. 3.1.4) х) Таблица 8 .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 .00000 .01000 .02000 .03001 .10034 .11045 .12058 .13074 .20273 .04002 .14093 .21317 .22366 .23419 .24477 .25541 .05004 .06007 .07012 .15114 .16139 .17167 .26611 .27686 .30952 .32055 .33165 .34283 .35409 .36544 .37689 .38842 .42365 .43561 .44769 .45990 .47223 .48470 .49731 .51007 .5 .54931 .56273 .57634 .59014 .60415 .61838 .63283 .64752 .6 .69315 .70892 .72500 .74142 .75817 .77530 .79281 .81074 .7 -.86730 .88718 .90764 .92873 .95048 .97295 .99621 1.02033 .8 1.09861 1.12703 1.15682 1.18813 1.22117 1.25615 1.29334 1.33308 .9 ' 1.47222 1.52752 1.58902 1.65839 1.73805 1.83178 1.94591 2.09229 .08017 .09024 .18198 .19234 .28768 .29857 .40006 .41180 .52298 .53606 .66246 .67767 .82911 .84795 1.04537 1.07143 1.37577 1.42192 2.29756 2.64665 ') При отрицательных г значения о также отрицательны. Графики доверительных интервалов для коэффициентов корреляции Доверительный уровень 0.95 Таблица 9 (разд. 3.1.4)!) A t ¦J Ь \ ¦2 5 4 -7 ¦» -9 »¦• - / / I / / / F, 1 1/ /, f/ /// P 1 11 V У 1 / 1 j j t f 11 lt 1 II If Ш1 и/ К » w * ! у / / / j 1 1 1 j if '// i r i i i V U 1 — i i i / / / / / / V 7 f / 1 / / / t/ '/ // > 7 7 / 7 / / / 7 z ¦9 -¦« -7 - / / / / / / ^ > = -1 MB / 7 > / , / j / / / < 7 / 7 A У У У ^* -¦4 у / У / / / у *у / у У ¦И 7^ 7 7 / / V / У ** —: / ^/ / . у / /, / с* г— •Л У > / / •— / / у / / 7 /^ / / ^, — / / у у 7 7 7 / / / / / У / / /> г / / у у у у _^ ^* х- - / у г / ¦-" .«- У / у у у у / / 4 • У ¦*¦* -*• у ~~у У / У у У. У ••" -^ X1 / У 2 у у / / у у / 2 2 ук у у у у У —- f у у у у у , у ' та *-- У / у у / у у у * у у J J J у у / р у — У / / у у у { У ? у У **¦ ^, ¦*^. у у у у у у / J у у / у S /, V 7 / А 7 / 7 * -; 7 7 t / / / / / / / , *•• у* у 7 7 7 / / / 1 у? у 7 _у 1 7 / 7 2 / / ,/ / / / % Ai 7/ / / i 1 1 1 i / / A j 1 1 1 1 1 1 1 / // / // ) ( 1 1 1 1 j j / i 4 ш и 1 i м \\\\ /л // и 1 / / \* / 1 + 4 0 -ч -¦» -•¦ — •в t -и
Приложение II. Статистические таблицы Доверительный уровень 0.99 1 *¦- <¦- (¦- J 0 1 ' Г- + - / j 1 1 1. / / f 1 f ] / j 1 1 j j i / 4 1// f/ I// M Ш Ш Щ wl W 1 / / 1 If 1 // T к ~7_ j J 1 ~1 j 1 7 V t /. '/ / I 1 I 1 j L t / z у •у i / / / 1 1 f j 1 / / / / / / i / 7 / / / / / f 7 / > > A 7^ f f / / / * j у r > / / / / / / / / I у > / / / / 9 у / 7_ ~7 4 / / / / / / / У m у 4 / / / / J / / у — у / у / / / A / у у ^. у / / J / '/ у У / у t У * r / > '' / ¦м Л ¦¦« *^ У у у у • / /* / У / ' / / у / у у у У У ¦ у t у / ш -— У у г / t & / / У = г у У ** —- S ~* / / / ¦-*¦ ми ,— / / / / / 0- ( / / / / А / * / у / / / / / / / 3 у / / / / / / / л у у / / / / / / / А у 7 г 7] / У —- *• у // /, / / / { / / / / у .— у t t, / t > / / / / У s; У ) yf У / / A/ ~7 / t / /, / / / L_ / / / f 7 t^ 1 1 / / у -)— Щ "У& к A/ у T / d у 1  / 7 v / /^ / / у / / / / / / / A s 7 G 'I 'I i 1 / T // / г f / 7 ¦/ Д I 1 / /I /1 li / I / /'l у / 1 / -Ti ч V ¦ (¦ 1- 0 9 1 >) Перепечатка табл. 15 из книги Pearson E. S., Hartley Н. О. A966) «Biometrika fables for Statisticians», т. I, 3-е изд., Cambridge Univ. Press, London and New York, с любезного разрешения Пирсона и Дейвида-(David F. N.). Числа на кривых указывают объем выборки. Ордината — р (коэффициент корреляции в генеральной совокупности); абсцисса — г (выборочный коэффициент корреляции).
Литература Буквы слева указывают, к какой категории относится данная работа, р — статья, g — не требуется основательная математическая подготовка; г — тре- требуется знание математического анализа; х — только для тех, кто знаком с мате- математической статистикой. Abrahamse, A. F., and Kisch, A. I. A975). Health Status Age: An Age Predictive Health Status Index, Rand Corp. Report, R-1626-OEO, Rand Corp., Santa Monica, California. Afifi, A. A., and Elashoff, R. M. A966). Missing Observations in Multivariate Statistics I. Review of the Literature, Journal of the American Statistical Association 61, 595-604. Afifi, A. A., and Elashoff, R. M. A969). Multivariate Two Sample Tests with Dichotomous and Continuous Variables 1: The Location Model, Annalsof Mathematical Statistics 40,290-298. Afifi, A. A., and Elashoff, R. M. A969a). Missing Observations in Multivariate Statistics HI. Large Sample Analysis of Simple Linear Regression, Journal of the American Statistical Association 64, 337-358. Afifi, A. A., and Elashoff, R. M. A969b). Missing Observations in Multivariate Statistics IV. A Note on Simple Linear Regression, Journal of the American Statistical Association 64, 359-365. Afifi, A. A., Rand, W. M., Palley, N. A., Shubin, H., and Weil, M. H. A971a). A Method for Evaluating Changes in Sets of Computer Monitored Physiological Variables, Computers and Biomedical Research 4, 329-339. Afifi, A. A,, Sacks, S. Т., Liu, V. Y, Weil, M. H. and Shubin, H. A971b). Accumulative Prognostic Index for Patients with Barbiturate, Gluetethemide and Meprobamate Intoxica-. tion, New England Journal of Medicine 285, 1497-1502. Andf.rson, T. W. A958). "An Introduction to Multivariate Statistical Analysis," Wiley, New York. Andrews, D. F., Bickei, P. J., Hampel, F. R., Huber, P. J., Rogers, W. H., and Tukey, J. W. , A972). " Robust Estimates of Location: Survey and Advances," Princeton Univ. Press, Prin- ceton, New Jersey. Anscombe, F. J. A961). Examination of Residuals, Proceedings of the Fourth Berkeley Sympo- Symposium on Mathematical Statistics and Probability, pp. 1-36. Univ. of California Press, Berkeley. *) Работы, помеченные знаком «*», имеются на русском языке. См. список иа стр. 474—475. — Прим. ред.
Литература 469 р Anscombe, F. J., and Tukey, J. W. A963). The Examination and Analysis of Residuals, Tech- nometrics 5, 141-160. p Atkinson, AC, and Pearce, M. С A976). The Computer Generation of Beta, Gamma and Normal Random Variables, Journal of Royal Statistical Society, Series A 139, 431-451. p Azen, S. P. A969) Classification of Time-Dependent Observations, Rand Corp. Report, R-471-PR, Rand Corp., Santa Monica, California, p Azen, S. P., and Afifi, A. A. A972a). Two Models for Assessing Prognosis on the Basis of Successive Observations, Mathematical Biosciences 14, 169 176. p Azen, S. P., and Анн, A. A. A972b). Asymptotic and Small-Sample Behavior of Estimated Bayes Rules for Classifying Time-Dependent Observations, Biometrics 28, 989 998. p Azen, S. P., and Derr, J. I. A968). On the Distribution of ihe Most Significant Hexadecimal Digit, Rand Corp. Report, RM-5496-PR, Rand Corp., Santa Monica, California. p Azen, S. P., and Reed, A. H A973). Maximum Likelihood Estimation of Correlation between Variates Having Equal Coefficients of Variation, Technomelrics 15, 457-462. p Azen, S. P., Garcia-Pena, J., and Afifi, A. A. A972). Estimation of Missing Values for Com- Computer Prognosis, Computers and Biomedical Research 5, 613-20. p Azen, S. P., Garcia-Pena, J., and Afifi, A. A. A975). Classification of Time-Dependent Obser- Observations: The Exponential Model and the Robustness of the Linear Model, Biometrische Zeitschrift 17, 203-212. ^ p Azen, S. P., Linn, W., Jones, M. P,, Hackney, J., and Schoentgen, S. A977a). A Comparison of Eight Lung Function Indices in Smoking and Nonsmoking Officeworkers, Lung 154, 213-221. p Azen, S. P., Margolick, J В., and Sherwin, R. P. A977b). An Experimental Model and Automated Methodology for the Analysis of the Effects of Ambient Levels of Air Pollutants on the Lung, Applied Mathematics and Computation 3. 95-102. p Azen, S. P., Linn, W. S., Hackney, J. D., and Jones, M. P. A978). A Factor Analytic Approach to an Effective Lung Function Screening Protocol, American Journal of Public Health. 68. 49-53. p Azen, S. P., Kammerman, L., and Teberu, A. A979). A Bayesian Approach to the Prediction of Development Outcome in the Infant of Low Birthweight, To be published, p Bartlett, M. S. A937) Analysis of Covariance to Missing Values, Journal oftheRoyal Statisti- Statistical Society, Suppl. 4, 151 g Bartlett, M. S. A947). Multivariate Analysis. Journal of the Royal Statistical Society, Suppl. 9B, 176-197. g Bayley, N A969). " Bayley Scales of Infant Development," Psychological Services, New York. p Bendel, R. В.. and Afifi, A. A. A976). A Criterion for Stepwise Regression, American Statisti- Statistician 30, 85 87. p Benijel, R. В.. and Afifi, A. A. A977). Comparison of Stopping Rules in Forward Stepwise Regression, Journal of the American Statistical Association 72, 46-53. g Bennett, С A., and Franklin, N. L A954) "Statistical Analysis in Chemistry and the Chemistry Industry." Wiley, New York. p Bergman, R. N., and Azen, S. P. A974). Measurement Error Interest in the Determination of Hepatic Glucose Balance, Journal Applied Physiology 36, 269 273. g Beyer, W. H. (Ed.) A968). "Handbook of Tables for Probability and Statistics" Bnd ed.), Chemical Rubber Co., Cleveland, Ohio. p Birnbaim, Z. W. A952). Numerical Tabulation of ihe Distribution of Kolmogorov's Statistic for Finite Sample Size, Journal of the American Statistical Association 47, 425-441. g Bliss, С W. A967). "Statistics in Biology." Vol. 1, McGraw-Hill, New York. p BooNh, D. C, Azen, S. P., Lin, C, Spence, C, Baron, C, and Leu. L. A978). Reliability in Goniometnc Measurements, Physical Therapy 58, 1093 1099. p Box. G. F.. P., and Miifli.fr, M E. A958). A Note on the Generation of Random Normal Deviates, •i/inu.'s of Mathematical Statistics 29, 610 611.
470 Литература Box, G. E. P., and Watson, G. S. A962). Robustness to Non-Normality of Regression Tests, Biometrika 49, 99 106. ¦ Brooks, H. L., Azkn, S. P., Gerberi;, F.., Brooks, R., and Chan, L. A975). Scoliosis: A Prospective Epidemiological Study, Journal of Bone and Joint Surgery 57 A, 968-972. Brownlee, K. A. A965). "Statistical Theory and Methodology in Science and Engineering," Wiley, New York. Burington, R. S. A965). "Handbook of Mathematical Tables and Formulas" Dth ed.), McGraw-Hill, New York. Burington. R. S. A970): "Handbook of Probability and Statistics with Tables" Bnd ed), McGraw-Hill, New York. Catteix, R. В., Eber, H. W, and Tatsi;oka, M. M. A970). "Handbook For the Sixteen Personality Factor Questionnaire," Inst. for Personality and Ability Testing, Champaign, Illinois. Chen, E. H. A971). A Random Normal Number Generator for 32-Bit-Word Computers, Journal of the American Statistical Association 66, 400-403. Churchman, С W., and Ratoosh, P. A959) "Measurement Definitions and Theory," Wiley, New York. Cissik, J. H., Johnson, R. E., and Rokosch, D. K. A972). Production of Gaseous Nitrogen in Human Steady-State Conditions. Journal of Applied Physiology 32, 155-159. 1 Cochran, W. G. A953> "Sampling Techniques," Wiley, New York. Cochran, W. G. A954). Some Methods of Strengthening the Common x2 Tests, Biometrics 10, 417-451. Cornfield, J., and Tlkey, J. W. A956). Average Values of Mean Squares in Factorials, Annals of Mathematical Statistics 27, 907-949. Cox, D. R., and Lewis, P. A. W. A966). "The Statistical Analysis of Series of Events," Methuen, London. Cramer, H. A946). "Mathematical Methods of Statistics," Princeton Univ. Press, Princeton, New Jersey. David, F. N. A938). "Table of the Correlation Coefficient," Biometrika Office, University College, London. Davies, O. L. (Ed.) A954). " Design and Analysis of Industrial Experiments," Oliver & Boyd, Edinburgh. Dempster, A. P. A969). " Elements of Continuous Multivariate Analysis," Addison-Wesley, Reading, Massachusetts. Dixon, W. J. (Ed.) A977). "BMDP: Biomedical Computer Programs," Univ. of California Press, Los Angeles, California. Dixon, W. J., and Massey, F. J. A969). "Introduction to Statistical Analysis" Crd ed.), McGraw-Hill, New York. ' Dixon, W, J., and Tukey, J. W. A968). Approximate Behavior of the Distribution of Win- sorized t, Technometrics 10, 83-98. Dorn, W. S., and Greenberg, S. N. A967)." Mathematics and Computing," Wiley, New York. " Draper, N. R., and Smith, H. A968). "Applied Regression Analysis," Wiley, New York. Dunn, O. J. A977). "Basic Statistics: A Primer for the Biomedical Sciences," Bnd ed), Wiley, New York. Eberle, E., Brink, J., Azen, S. P., and White, D. A975). Early Predictors of Incomplete Recovery in Children with Guillain-Barre Polyneuritis, Journal of Pediatrics 86, 356-359. Eipper, D. S., and Azen, S. P. A978). A Comparison of Two Developmental Instruments in - Down's Syndrome Children,Pliysic<j/ Therapy 58, 1066-1069. ' Feller, W. A966). "An Introduction to Probability Theory and Its Applications," Vol. II Wiley, New York. Feller, W. A968). "An Introduction to Probability Theory and Its Applications^" Vol. J Crd ed.), Wiley, New York.
Литература 471 г Fkruiison. Т. S. A967). "Mailiematical Statistics Л Decision Theoretic Approach," ¦ Academic Press. New York. Г Finney, D. J A971). " Probit Analysis" Crd ed), Cambridge Univ. Press. Cambridge. p Fisher, R. A. A918). The Correlation between Relatives on the Supposition of Mendelian Inheritance, Transactions of the Royal Society of Edinburgh 52, 399 433. r* Fisher, R. A. A925). "Statistical Methods for Research Workers" Ast ed), Oliver & Boyd,. Edinburgh. r Fisher. R. A. A935) The Design of Fxpcriments," Oliver & Boyd, Edinburgh p Fisher. R. A. A936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics 7. 179 188. (I Fisher, R A., and Yates, К A963).""Statistical Tables for Biological. Agricultural, and Medical' Research" Fth ed ), Oliver & Boyd. hdmburgh. r Fisz, M. A963). " Probability Theory and Mathematical Statistics." Crd ed.), Wiley, New York. p Fix, E., and Hodges. J. L. A951). Non-Parametric Discrimination: Consistency Properties, USAF School of Aviation Medicine, Project Report 21-49-004. No. 4, Randolph AFB, San Antonio. Texas. p Fix, E. and Hodges. J. L. A952). Non-Parametric Discrimination: Small Sample Performance, USAF School of Aviation Medicine, Project Report 21-49-004, No. 11, Randolph AFB, San Antonio, Texas. a Fleiss, J. L. A973). "Statistical Methods for Rates and Proportions," Wiley, New York. g Fletcher, C. Peto, R., Ticker, С., and Speizi-.r. F. A976). "The National History of Chronic Bronchitis and Fmphysema," Oxford Medical Publ.. Oxford. g Francis, 1., Heibergir, R., and Vh.leman. P. A974). "Report and Proposal of the Committee on Evaluation of Program Packages to the Section on Statistical Computing." American Statistical Association. Washington, DC. p GabrU-.l. K. R. A968). Simultaneous Test Procedures in Multivariate Analysis of Variance, Biometnka 55, 489 504. r Gibbons, J. D. A971). " Nonparametric Statistical Inference," McGraw-Hill, New York. p Goodman, L. A., and Kruskal, W H A954). Measures of Association for Cross Classifications, Journal of the American Statistical Association 49, 732 764. P Goodman, L. A., and Kruskal, W, H. A959). Measures of Association for Cross Classifications, II: Further Discussion and Reference, Journal of the American Statistical Association 58, 123 163. p Goodman, L. A., and Kruskal, W. H. A963). Measures of Association for Cross Classifications, 111: Approximate Sampling Theory. Journal of the American Statistical Asso- Association 58, 310-364. p Goodman, L. A., and Kriskal, W. H. A972). Measures of Association for Cross Classifications. IV: Simplification of Asymptotic Variances, Journal o/ the American Statisti- Statistical Association 67, 415 421. p Grizzle, J. E. A967). Continuity Correction in the y_2-Tes\ for 2 x 2 Tables, American Statisti- Statistician 21, 28- 32. a Hald, A. A952). "Statistical Tables and Formulas," Wiley, New York. r Hammersley. J. M.. and Handscomb, D. С A964). " Monte Carlo Methods," Methuen, London. g "Handbook of Mathematical Tables" A952). Chemical Rubber Publishing Co., Cleveland. Ohio, r* Harman, H. H. A967). "Modern Factor Analysis " Bnd ed.), Univ. of Chicago Press, Chicago, Illinois, p Hartley. A. O. A961). Modified Gauss Newton Method for Fitting on Nonlinear Regression Functions. Technometrics 3, 269 280. r Hastings, C, Jr. A955). "Approximations for Digital Computers," Princeton Univ. Press, Princeton, New Jersey.
472 Литература р Hechter, О., Terada, S., Nakahara, Т., Т. Flouret, Т., and Bergman, R. A978). Neur- opypohyseal Hormone (NHH) Responsive Renal Adenylate Cyclase, II. Relationship be- between Hormonal Occupances of NHH Receptor Sites and Adenylate Cyclase Activation, Journal of Biological Chemistry 253, 3219-3229. g Hill, M. A., and Adams, D. A974). Side Inch II, Health Sciences Computing Facility, Publ. A3-231, Univ. of California, Los Angeles, California. g Hills, M. A966). Allocation Rules and Their Error Rates, Journal of the Royal Statistical Society, Series В 28, 1-20. r Hoel, P. G. A963). "Introduction to Mathematical Statistics," Wiley, New York, p Hogg, R. V. A974). Adaptive Robust Procedures: A Partial Review and Some Suggestions for Future Applications and Theory, Journal of the American Statistical Association 69,909-923. r Hogg, R. V., and Craig, A. T. A970) "Introduction to Mathematical Statistics" Crd ed.), Macmillan, New York. g Horst, P. A965). "Factor Analysis of Data Matrices," Holt, New York, p Hotelling, H. A931). The Generalization of Student's Ratio, Annals of Mathematical Statistics 2, 360-378. p HubeR, P. J. A964). Robust Estimation of a Location Parameter, Annals of Mathematical Statistics 35, 73-101. p Jennrich, R. I., and Sampson, P. F. A966). Rotation for Simple Loadings, Psychometrika 31, 313-323. p К ас, M., Kiefer, J., and Wolfowitz, J. A955). On Tests of Normality and Other Tests of Fit Based on Distance Methods, American Mathematical Society 25, 189-198. p Kaiser, H. F. A958). The Varimax Criterion for Analytic Rotation in Factor Analysis, Psy- Psychometrika 23, 187-200. ¦ P Katz, D., Baptista, J., Azen, S. P., and Pike, M. С A978). Obtaining Confidence Intervals for the Risk Ratio in Cohort Studies, Biometrics 34, 469-474. r* Kendall, M. G. A962). "Rank Correlation Methods," Griffen and Co., London. r* Kendall, M. G., and Stuart, A. A967). "The Advanced Theory of Statistics, Vol. II: Infer- Inference and Relationship," Hafner, New York. r* Kendall, M. G., and Stuart, A. A968). "The Advanced Theory of Statistics, Vol. Ill: Design and Analysis, and Time Series," Hafner, New York. r* Kendall, M. G., and Stuart, A. A969). "The Advanced Theory of Statistics, Vol. I Crd ed.): Distribution Theory," Hafner, New York, p Lachenbruch, P. A. A967). An Almost Unbiased Method of Obtaining Confidence Intervals for the Probability of Misclassification in Discriminant Analysis, Biometrics 23, 639-646. r Lachenbruch, P. A. A975). " Discriminant Analysis," Hafner Press, New York, p Lachenbruch, P. A., and Mickey, M. R. A968). Estimation of Error Rates in Discriminant Analysis, Technometrics 10, 1-11. r* Lehmann, E. L. A959). "Testing Statistical Hypotheses," Wiley, New York, p Lewis, P. A. W., Goodman, A. S., and Miller, J. M. A969).- A Pseudo-Random Number Generator for the System/360, IBM Systems Journal 8, 136-146. p Lilliefors, H. W. A967). On the Kolmogorov Smirnov Test for Normality with Mean and Variance Unknown, Journal of the American Statistical Association 62, 399-402. r Lindgren, B.'W. A968) "Statistical Theory" Bnd ed.), Macmillan, New York. x* Loeve, M. A963). "Probability Theory" Crd ed.). Van Nostrand, Princeton, New Jersey. p Longley, J. W. A967). An Appraisal of Least Squares Programs for the Electronic Computer from the Point of View of the User, Journal of the American Statistical Association 62, 819-829. g Lusted, L. B. A968). "Introduction to Medical Decision Making," Charles С Thomas, Springfield, Illinois. r* McCracken, D. M., and Dorn, W. S. A964). "Numerical Methods and Fortran Program- Programming." Wiley, New York.
Литература 473 р Mahalanobis, P. С. A936). On the Generalized Distance in Statistics, Proceedings of the National Institute of Sciences of India 12, 49-55. p Mantel, N. A974). Comment and a Suggestion, Journal of the American Statistical Association 69, 378-380. p Mantel, N., and Haenszel, W. A959). Statistical Aspects of the Analysis of Data from Retro- Retrospective Studies of Disease. Journal of the National Cancer Institute 22, 719-748. • p Marquardt, D. W. A963). An Algorithm for Least-Squares Estimation of Nonlinear Pa- Parameters, Journal of the Society for Industrial and Applied Mathematics 2, 431-441. p Marsh, D. J., and Martin, С. М. A977). Origin of Electrical PD"s in Hamster Thin Ascending , Limbs of Henle's Loop. American Journal of Physiology 232, F348-F357. g* Martin, F. F. A968). "Computer Modeling and Simulation," Wiley, New York. p Massey, F. J. A951). The Kolmogorov-Smirnov Test for Goodness-of-Fit, Journal of the American Statistical Association 46, 68-78. r Maxwell, A. E. A961). "Analysing Qualitative Data," Methuen, London. r Mood, A. M., and Graybill, F. A. A963). "Introduction to the Theory of Statistics "Bnd ed), McGraw-Hill, New York. r Morrison, D. F. A967). " Multivariate Statistical Methods," McGraw-Hill, New York. g Nelder, J. A. A976). General Linear Interactive Modelling (GLIM) Manual, Numerical Algor- Algorithms Group, Oxford. p Nemenyi, P. A969). Variances: An Elementary Proof and a Nearly Distribution-Free-Test, American Statistician 23, 35т37. g Nie, N. H., Hull, C, Jenkins, J., Steinbrenner, K., and Bent, D. A975). "SPSS: Statistical Package for the Social Sciences" Bnd ed.), McGraw-Hill, New York. r Noether, G. E. A967). "Elements of Nonparametric Statistics," Wiley, New York. g Novick, M. R., and Jackson, P. H. A974)." Statistical Methods for Educational and Psycholo- Psychological Research," McGraw-Hill, New York! p O'Neill, R., and Wetherill, G. B. A971). The Present State of Multiple Comparison Methods, Journal Royal Statistical Association, Series В 33, 218-250. p Palley, N. A., Erbeck, D. H., and Trotter, J. A., Jr. A970). Programming in Medical Real " Time Environment, AF1PS Conf. Proc. 37, 589-598. p Palmersheim, J. J. A970). Nearest Neighbor Classification Rules: Small Sample Performance and Comparison with Linear Discriminant Function and Optimum Rule, PhD. Dissertation, Univ. of California, Los Angeles. r Parzen, E. (I960). "Modern Probability Theory and Its Applications," Wiley, New York. g Pearson, E. S., and Hartley, H. O. A966). "Biometrika Tables for Statisticians," Vol. 1 Crd ed.), Cambridge Univ. Press, Cambridge. p Pearson, K. A901). On Lines and Planes of Closest Fit to Systems of Points in Space, Philoso- Philosophical Magazine, Series 6 2, 559-572. r Ralston, A., and Wilf, H. S. A960). "Mathematical Methods for Digital Computers," Wiley, New York. p Rao, С R. A951). An Asymptotic Expansion of the Distribution of Wilk's Criterion, Bulletin of the International Statistical Institute 33, 177-180. x* Rao, С R. A965). "Linear Statistical Inference and Its Application," Wiley, New York. r * Rudin, W. A964). " Principles of Mathematical Analysis " Bnd ed.), McGraw-Hill, New York. p Ryan, T. A., Jr., and Joiner, B. L. A973). Minitab: A Statistical Computing System for Students and Researchers, American Statistician 27, 222-225. g Ryan, T. A., Jr., Joiner, B. L., and Ryan, B. F. A976). "MINITAB: Student Handbook," Duxbury Press, Wadsworth Publ., Belmont, California. p . Scheffe, H. A953). A Method for Judging All Contrasts in the Analysis of Variance, Biometrika- 40, 87-104. p Scheffe, H. A956). Alternative Models for the Analysis of Variance, Annals of Mathematical. Statistics 27,251-271,
474 Литература г* Scheffe, H. A959). "The Analysis of Variance," Wiley, New York. p Schucany, A., Shannon, В., and Minton, C. A972). A Survey of Statistical Packages, Com- Computing Surveys 4, 2-30. p Shubin, H., Ahfi, A. A., Rand, W. M., and Weil, M. H. A968). Objective Index of Haemody- namic Status for Quantitation of Severity and Prognosis of Shock Complicating Myocardian Infarction, Cardiovascular Research 2, 329-337. g Siegel, S. A956). " Non-Parametric Statistics for the Behavioral Sciences," McGraw-Hill, New York. p Smith, H,, Gnanadesikan, R., and Hughes, J. B. A962). The Multivariate Analysis of Var- Variance (MANOVA), Biometrics 18, 22 41. r SnedecoR, G. M., and Cochran. W. G. A967). " Statistical Methods," Iowa State Univ. Press, ,* mes, Iowa. p Snibbe, H. M., Fabricatore, J., and Azen, S. P. A975). Personality Patterns of White, Black and Mexican American Patrolmen as Measured by the Sixteen Personality Factor Questionnaire, American Journal of Community Psychology 3, 221-227. p Somers, R. H. A962). A New Asymmetric Measure of Association for Ordinal Variables, American Sociological Review 27, 799-811. p Stewart, D. H., Erbeck, D. H., and Shubin, H. A968). Computer System for Real Time Monitoring and Management of the Critically 111, AFIPS Conf. Proc. 33, 797-807. g Thurstone, L. L. A945). " Multiple Factor Analysis," Univ. ofChicago Press,Chicago, Illinois. r Torgerson, W. S. A958). "Theory and Methods of Scaling," Wiley, New York. p Truett, J., Cornfield, J., and Kannell, W. A967). A Multivariate Analysis of the Risk of Coronary Heart Disease in Framingham, Journal of Chronic Diseases 20, 511-524. p Tukey, J. W. A949). One Degree of Freedom for Non-Additivity, Biometrics 5, 232 -242. y? Tlkey, J. W. A949). Comparing Individual Means in Analysis of Variance, Biometrics 5, 99'. p Tukey, J. W. A962). The Future of Data Analysis, Annals of Mathematical Statistics 33, 1-67. g Velleman, P. F., Seaman, J., and Allen, I. E. A977). Evaluating Package Regression Routines, Technical Reprint 877/008-010, New York Stats School of Industrial and Labor Relations, Cornell Univ., Ithaca, New York. g Walsh, J. E. A965). " Handbook of Nonparametric Statistics," Van Nostrand, Princeton, New Jersey. p Weil, M. H., and Afifi, A. A. A970). Experimental and Clinical Studies on Lactate and Pyruvate as Indicators of the Severity of Acute Circulatory Failure (Shock), Circulation XLI, 989-1001. g Weil, M. H., and Shubin, H. A967). "The Diagnosis and Treatment of Shock," Williams & Wilkins, Baltimore, Maryland. P Welch. В. С A937). The Significance of the Difference between Two Means When the Popula- Population Variances Are Unequal, Biometrika 29, 350-362. p Wilks, S. S. A932). Certain Generalizations in the Analysis of Variance. Biometrika 24, 471-494. p Zawacki, В., Azen, S. P., Chang, C, and Imbus, S. A979). Multifactorial Probit Analysis of Burn Mortality, Annals of Surgery (in press). _, ЛИТЕРАТУРА, ИМЕЮЩАЯСЯ НА РУССКОМ ЯЗЫКЕ Андерсон Т. Введение в многомерный статистический анализ. Пер. с англ. — М.: Физматгиз, 1963. Браунли К. А. Статистическая теория и методология в науке и технике. Пер. с англ. — М.: Наука, 1977. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Пер. с англ. — М.: Статистика, 1973. Кендал М. Д. Ранговые корреляции. Пер. с англ. — М.: Статистика, 1975,
Литература 475 Кендал М. Д., Стьюарт А. Теория распределений. Пер. с англ. —М.: Наука, 1966. Кендал М. Д., Стьюарт А. Статистические выводы и связи. Пер. с англ. — М.: Наука, 19.73. Кендал М. Д., Стьюарт А. Многомерный статистический анализ и временные ряды. Пер. с англ.—М.: Наука, 1976. Кокрен У. Методы выборочного исследования. Пер. с англ. — М.: Статистика, 1976. Кокс Д. Р., Лыонс П. Статистический анализ последовательности событий. Пер. с англ. — М.: Мир, 1969. Крамер Г. Математические методы статистики. Пер. с англ. —2-е изд. — М.; Мир, 1975. Леман Э. А. Проверка статистических гипотез. Пер. с англ. —2-е изд. —М.: Наука, 1979. Лоэв М. Теория вероятностей. Пер. с англ. —М.: ИЛ, 1962. Мак Кракен Д., Дорн У. Численные методы и программирование на Фортране. Пер. с англ.—2-е изд.—М.: Мир, 1977. Мартин Ф. Ф. Моделирование на вычислительных машинах. Пер. с англ. — М.: Советское радио, 1972. Рао К- Р- Линейные статистические методы и их применение. Пер. с англ. — М.: Наука, 1968. Рудин У. Основы математического анализа. Пер. с англ. — 2-е изд. — М.: Мир, 1976. Феллер В. Введение в теорию вероятностей и ее приложения, т. 1. Пер. с англ. — М.: Мир, 1964. Феллер В. Введение в теорию вероятностей и ее приложения, т. 2. Пер. с англ. — М.: Мир, 1967. Фишер Р. Статистические методы для исследователей. Пер. с англ. — М.: Гос- статгиз, 1958. Харман Г. Г. Современный факторный анализ. Пер. с англ. — М.: Статистика, 1972. Шеффе X. Дисперсионный анализ. Пер. с англ. — 2-е изд. — М.: Наука, 1980. ЛИТЕРАТУРА, ДОБАВЛЕННАЯ РЕДАКТОРОМ ПЕРЕВОДА *) А. Пакеты статистических программ Айвазян С. А., Енюков И. С, Мешалкнн Л. Д. О структуре и содержании па- пакета программ по прикладному статистическому анализу. В сб. «Алгоритми- «Алгоритмическое и программное обеспечение статистического анализа». Уч. записки по статистике, т. 36, ЦЭМИ АН СССР. — М.: Наука, 1980. Айвазян С. А., Енюков И. С, Мешалкин Л. Д. Прикладная статистика, т.1. — М.: Финансы и статистика, 1982. Дайтбегов Д. М., Калмыкова О. В., Черепанов А. И. Математическое обеспече- обеспечение статистической обработки данных. Учебное пособие. —М.: МЭСИ, 1978. Конаков В. Д. О структуре и содержании библиотеки программ по разделу «Статистическое исследование зависимостей». В сб. «Алгоритмическое и про- программное обеспечение статистического анализа». Уч. записки по статистике, т. 36, ЦЭМИ АН СССР. — М.: Наука, 1980. Математическое обеспечение ЕС ЭВМ. Вып. 25, ч. 1, 2. Пакет прикладных программ по статистической обработке биомедицинской информации. Ин-т математики АН БССР. — Минск: БГУ, 1980. Программно-алгоритмическое обеспечение прикладного многомерного статисти- статистического анализа. Тезисы докладов Всесоюзной школы. — Ереван, 1979. Ссылки па эту литературу помечены знаком «*».—Прим. ред.
476 Литература 5. Учебники и учебные пособия по теории вероятностей и математической статистике Большее Л. Н., Смирнов Н. В. Таблицы математической статистики. — М.: Наука, 1965. Вентцель Е. С. Теория вероятностей.—М.: Наука, 1971. Гнеденко Б. В. Курс теории вероятностей. —М.: Наука, 1969. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке. Методы обработки данных. Перев. с англ. — М.: Мир, 1980. Пугачев В. С. Теория вероятностей и математическая статистика. — М.: Наука, 1979. Румшиский Л. 3. Элементы теории вероятностей. — М.: Наука, 1976. Смирнов Н. В., Дунин-Барковский И. В. Курс теории вероятностей и мате- математической статистики.—М.: Наука, 1965. Тернер Д. Вероятность, статистика, исследование операций. Пер. с англ. — М.: Статистика, 1976. Тьюки Дж. Обработка результатов наблюдений. Пер. с англ. —М.:^Мир, 1981. Хальд А. Математическая статистика с техническими приложениями. Пер. с англ. — М.: ИЛ, 1956. В. Статистический анализ Айвазян С. А., Бежаева 3. И., Староверов О. В. Классификация многомерных наблюдений. — М.: Статистика, 1974. Брандт 3. Статистические методы анализа наблюдений. Пер. с англ.—М.: Мир, 1975. Гаек Я-, Шидак 3. Теория ранговых критериев. Перев. с англ. —М.: Наука, 1971. Демиденко Е. 3. Линейная и нелинейная регрессия. — М.: Финансы и стати- статистика, 1981. Дубров А. М. Обработка статистических данныхметодом главных компонент. — М.: Статистика, 1978. Дюран Б., Оделл П. Кластерный анализ. Перев. с англ.—М.: Статистика, Елисеева И. И., Рукавишников В. О. Группировка, корреляция, распознавание образов.—М.: Статистика, 1977. Загоруйко Н. Г. Методы распознавания и их приложения. — М.: ^Советское радио, 1972. Лысенков А. Н. Математические методы планирования многофакторных медико- биологических экспериментов. — М.: Медицина, 1979. ^ Себер Дж. Линейный регрессионный анализ. Перевес англ. — М.: Мир, 1980. Г. Имитационное моделирование Бусленко Н. П. и др. Метод статистических [испытаний (метод Монте-Карло).— М.: Физматгиз, 1962. Кляйнен Дж. Статистические методы в имитационном моделировании.Вып. 1, 2. Пер. с англ.—М.: Статистика, 1978. Соболь И. Н. Метод Монте-Карло. — М.: Физматгиз, 1968.
Список используемых латинских аббревиатур ASE Asymptotic Standait Error (асимптотическая стандартная ошибка) 114 AT Appearance Time (время появления) 30 BSA Body Surface Area (площадь поверхности тела) 30 СА Chronological Age (хронологический возраст) 219 CC/TLC ratio of Closing Capacity to Total Lung Capacity (отношение остаточной емкости к полной емкости легких) 378 CI Cardiac Index (сердечный индекс) 30 CS Clinical Status (клиническое состояние) 38 CV/VC ratio of Closing Volume to Vital Capacity (отношение оста- остаточного объема к жизненной емкости легких) 378 df Degrees of Freedom (число степеней свободы) DIAG ishemic heart disease DIAGnosis (стадия ишемической бо- болезни сердца) 38 DIAST DIASTolic pressure (диастолическое давление) 38 DP Diastolic Pressure (диастолическое давление) 30 DTH year of DeaTH (год смерти) 38 EKG Electrocardiogram (электрокардиограмма) 38 EMS Expected Mean Square (ожидание среднего квадрата) 49 FEV Forced Espiratory Volume (формированный объем выдоха) 115 FVC Forced Vital Capacity (форсированная жизненная емкость) 378 HC1 HyaVoCloric acid (соляная кислота) 99 Hct Hematocrit (гематокрит) 30 Hgb Hemaglobin (гемаглобин) 30 HR Heart Rate (частота сердечных сокращений) 30 ID IDentificator (номер истории болезни) 29 IQ Intelligence Quotient (коэффициент умственного развития) 89 L (**) Logarithm of variable ** (логарифм переменной) MAP Mean Arterial Pressure (среднее артериальное давление) 30 MCT Mean Circulation Time (среднее время циркуляции) 30 MDL Mental Development Lag (задержка умственного развития) 219 MS Mean Square (средний квадрат) 100 MVP Mean Venous Pressure (среднее венозное давление) 30 NHGB Net Hepatic Glucose Balance (чистый баланс глюкозы в печени) 49 NS No Significant (не значимо) PDI Psichomotor Development Index (индекс психомоторного раз- развития) 30 PVI Plasma Volume Index (индекс объема плазмы) 30 RCI Red Cell Index (эритроцитарный индекс) 30 se (b) Standart Error of coefficient b (стандартная ошибка коэффи- коэффициента) 169
478 Список используемых латинских аббревиатур SE Social-Economic status (социально-экономическое положение) 38 SER-CH SERum CHolesterol (холестерин сыворотки крови) 38 SP Systolic Pressure (систолическое давление) 30 SS Sum of Squares (сумма квадратов) 101 SYST SYSTolic pressure (систолическое давление) 38 UMSE Unconditional Mean Square Error (безусловная среднеквадра- среднеквадратичная ошибка) 100 UO Urinary Output (диурез) 30 Vmax Peak espiratory flow rate (максимальная легочная вентиляция) 378 VBu (V2B) Flow rate with 50 % B5) % FVC remaining to be expired (вентиляция на уровне 50 % B5 %) формированной жизненной емкости) 378 50DR DoctoR, examining in 1950 A962) (доктор, проводивший об- F2DR) следование в 1950 A962) г.) 38
Список некоторых общеупотребительных обозначений Этот список содержит обозначения, введенные в Приложении 1 Символ Описание Раздел bn {i, Р) биномиальное распределение 1.2.1 ФР (кумулятивная) функция распределения 1.1.4 Е (X) ожидаемое значение (среднее) случайной величины X 1.1.5 / (х) плотность распределения непрерывной случайной ве- 1.1.4 личины X F (х) (кумулятивная) функция распределения случайной ве- 1.1.4 ¦ личины X F-распределение с числом степеней свободы v1 и v2 I.2.8 2) q-я процентиль /'-распределения с числом степеней 1.2.8 свободы vx и v2 //0 нулевая гипотеза 1.5 Нх альтернативная гипотеза 1.5 N @, 1) стандартное нормальное распределение 1.2.5 N (ц, о2) нормальное распределение 1.2.5 N (|х, Е) многомерное нормальное распределение 1.6.3 Р Р-значение 1.5.2 р (х) функция вероятности дискретной случайной вели- величины X 1.1.4 Рг (Е) вероятность события Е 1.1.3 s выборочное стандартное отклонение 1.4.2 s2 выборочная дисперсия 1.4.2 t (v) /-распределение Стьюдента с v степенями свободы 1.2.7 tqlim (v) 9"я процентиль /-распределения Стьюдента с v степе- степенями свободы 1.2.7 U (а, Ъ) равномерное распределение на [а, Ъ] 1.2.3 V (X) дисперсия случайной величины X 1.1.5 w индивидуум или экспериментальный объект в популяции 1.1.1 W популяция или генеральная совокупность 1.1.1 х реализация, наблюдение или измерение . 1.1.2 X случайная величина 1.1.2 XpXI случайный вектор 1.6.1 ^рхт случайная матрица 1.6.1 х выборочное среднее 1.4.2 X выборочный средний вектор 1.6.2 zqlw q-я процентиль распределения N @, 1) 1.2.6 а уровень значимости 1.5 1—а доверительный уровень' 1.5 р ' вероятность ошибки второго рода 1.5 |х генеральное среднее 1.1.5 |i генеральный средний вектор 1.6.3 v число степеней свободы 1.2.6 л мощность 1.5 о" генеральное стандартное отклонение 1.1.5 а2 ' генеральная дисперсия " 1.1.5 at] ковариация между Xt и X/ 1.6.2 2 ковариационная матрица 1.6.3 в ' ' параметр 1.4.2 6 оценка параметра 1.4,2 Ф (г) ' ' функция распределения для распределения N @, 1) 1.2.5 Ф (г) ' плотность вероятности для распределения N @, 1) 1.2.5 X2 (v) распределение хи-квадрат с v степенями свободы 1.2.6 >) q-я процентиль для распределения хи-квадрат с v сте- 1.2.6 пенями свободы
Предметный указатель') Анализ главных компонент (principal component analysis) 354 — дисперсионный см. Дисперсионный анализ — ковариационный (analysis of co- variance) 298+ Байесовская процедура классифика- классификации (Bayes procedure for classifi- classification) 325 — на популяциисбиномиальным распределением (in binomial popu- populations) 340 — k > 2 популяций 334 Биномиальное распределение (Bino- (Binomial distribution) 66 Бланк для кодирования (coding sheet) 25 w Ведущие нули (leading zeroes) 25 Вероятность (probability) апостериор- апостериорная (a posteriori) 325, 332+ — априорная (a priori) 352 — ошибок классификации (of misclas- sification) 325 — события (of event) 399, 411 Взаимодействие (interaction) 247, 263 Вращение факторов (factor rotation) 371+ метод «биквартнмин» (bi-quarti- min) 375 — «варимакс» (varimax) 373 «квартимакс» (quartimax) 372 — ¦ «коваримин» (covarimin) 375 «непрямой облимин» (indirect oblimin) 374 «прямой облимин» (direct ob- oblimin) 375 Выборка (sample) 425+ . Выборочное пространство (sample spa. се) 399 дисперсия (variance) 75 медиана (median) 75 среднее (mean) 75 стандартное отклонение (stan- ¦ dard deviation) 75 Выбросы (outliers) 50 — анализ 314+ Выравнивание по правому краю (right justified) 25 Вычислительная аппаратура (hardware) 14 Вычислительный центр (computer cen- center) 19 Генеральная совокупность (популяция) (universe) 396 Генератор всевдослучайных чисел (ran- (random numbers generator) 47 Гетероскедастичность (heteroscedasti- city) 163 Гипотеза (hypothesis) альтернативная (alternative) 433 — нулевая (null) 433 — проверка см. Проверка гипотезы — статистическая (statistical) 433 Гистограмма-, (histogram) частот (fre- guencyj/i^) в процентах (percent frequency) 71 относительных (relative frequen- frequency) 71 Грубые ошибки (blunders) 50 Данные (data) 15 Диаграмма рассеяния (scattergram) 143 Дискретные наблюдения (discrete obse- vations) 17 Знак «+» после номера страницы следует читать: «и далее». — Прим. ред.
Предметный указатель 481 Дискриминантная функция (discrimi- (discriminant function) 323 {», значения для двух популяций (score for 2 populations) 324 для k > 2 популяций (score for k >¦ 2 populations) 335, 339 Дискримннантный анализ (discriminant analysis) см. Классификация Дисперсия выборочная (sample) 75+, 96, 432 объединенная (pooled sample) 92 — генеральная (population) 406 , — специфическая см. Специфичность Дисперсионный анализ (analysis of variance) 227+ в множественной линейной рег- регрессии (in miltiple linear regression) 167 простой линейной регрессии (in simple lenear regression) 167 двухфакторный (two-way) 243+ многомерный (multivariate) 380 модель I 235, 266 II 235, 266 компонент дисперсии (com- (component of variance) 240 смешанная (mixed) 243, 266 со случайными эффектами (random effects) 233, 234+, 240+ с рандомизированными бло- блоками (randomized blocks) 257+, 271 фиксированными эффек- эффектами (fixed effects) 223, 235+, 266 однофакторный (one-way) 100, 234 план (design) латинского квадрата (La- (Latin square) 274 расщепленный (split-plot) 273 ческий) (nested) факторный (factorial) 266 Дифференциальный эффект (differen- (differential effect) 234 Дихотомические наблюдения (dichoto- mous observations) 66 Доверительные интервалы (confidence intervals) 431 + .' в множественной линейной ре- регрессии (in multiple linear regres- regression) 169 нелинейной регрессии (in non- nonlinear regression) 210 общей линейной модели (in ge- general linear model) 228 ,/ простой линейной регрессии (in sirfole linear regression) 151 группировкой (иерархи- ested) 261 Доверительные интервалы для двух средних в независимых выборках (for two means of independed sam- sample) 92, 101 долей (for proportions) 68 коэффициента корреляции (for correlation coefficient) 160 линейной комбинации сред- средних (for linear combination of means) 99 одного среднего (for single mean) при известной дисперсии (known variance) 440 ¦ при неизвестной диспер- дисперсии (unknown variance 81, 101 одной дисперсии (for single variance) 83 множественные в дисперсионном анализе (miltiple in ANOVA) 103 для вектора средних (for mean vector) 318 Доля (proportion) 52 — доверительный интервал (confidence interval for) 68 — оценивание (estimation) 66, 69 Дополнительные ограничения в дис- дисперсионном анализе (side conditions) 225 Значимость статистическа'я (significan- (significance statistical) 440 'Измерение (measurement) 15 Интервал группировки (class inter- interval) 55 Интервальная шкала (interval scale) 15, 38 Интерсепт (свободный член уравнения регрессии) (intercept) 148, 166 Исследование остатков в регрессии 163 Источник дисперсии (источник рас- рассеяния) (source of variation) 102 Итоговая таблица (summary table) в пошаговой регрессии 199 пошаговом дискримннантном анализе 346 Квартиль (quartile) 74 .Классификация (classification) 321 v' Ковариационная матрица (covariance matrix) выборочная (sample) 86; 9 генеральная (population) 443 объединенная (pooled) 337 ' Ковариационный анализ 295+ Ковариация выборочная 86, 97 — генеральная 443 Кодирование (coding) 25+
482 Предметный указатель Кодировочная таблица (coding table) 25 Компоненты дисперсии (components of variance) 240+ оценки 242 Контраст (contrast) 103 ¦ 'Корреляционная матрица выборочная (correlation matrix, sample) 86, 96 Коэффициент (coefficient) асимметрии (skewness) 76 — вариации (kurtosis) 76 — детерминации (determination) 167 — коллигации 118 ¦j — корреляции (correlation) выбороч- выборочный 86, 96, 143 генеральный 85, 95, 157, 446 доверительные интервалы 160 ¦ критерий отличия от 0 159+ множественный (multiple) 174+, 182+, 184+ частный (partial) 176+, 182+, 184+ '— ранговой корреляции Спнрмана (rank correlation) 122 — сопряженности признаков Пирсона 120 Критерий (фактор) (factor) 60J Критерий (test) Бартлетта равенства р дисперсий (Bartlett test) 102 — для двух дисперсий 91 одной дисперсии 82 — Колмогорова—Смирнова (К—С) 78 — отношения дисперсий (variance ra- ratio) 92 — согласия (goodness-of-fit) 77 — t Стьвддента 80 '/— — в линейной регрессии множе- множественной 170 ¦ ¦ простой 150 • двухвыборочвдй 92, 94 — —^для """коэффициента корреляции —^ частного 142 парный для связанных выборок (paired sampe) 87, 93 — t Уэлча (Welch) 85, 93 — Т% Хотеллннга (Hotelling) двух- выборочный (two-sample) 320 одновыборочный (one-sample) 318 — Л Уилкса 383 -X2 77 Критическая область (critical region) Кумулятивная функция распределения (ФР) (cumulative distribution func- function) 72, 402+ совместная 411" Кумулятивная функция распределения эмпирическая 72, 77 Кусочно-линейная М-оценка Хампеля (Hampel's piecewise linear jM-esti- mator) 135+ Магнитная лента (Magnetic tape) 20 Магнитный диск (Magnetic disc) 20 Матрица плана (design matrix) 168 Медиана (median) выборочная (sample) 72 — генеральная (population) 407 Межквартильное среднее (interquartile mean) 138 Мера связанности (measure of asso- association) 117 Кендалла тЬ (Kendall's xb) 121 Крамера V (Cramer's V) 120 Сомера D (Somer's D) 124, 129+ • Спирмана rs (Spearman's rs) 122 Стьюарта хс (Stuart's xc) 122 Меры связанности Гудмена—Круска- ла (Goodman—Kruskal) 124+ у 129 Я-асимметричная 125 Х*-асимметричная 126 — __ Я-симметричная 127 ¦ т-асимметричная 126 Метод множественный / (multiple t) 104 — Монте-Карло (Monte-Carlo) 48 — Тьюки (Tukey) 104 — Шеффё (Scheffe) 103+ Многомерная линейная модель 380 в однофакторном многомер- многомерном дисперсионном анализе 389 множественные сравнения 380 проверка гипотез 382 Множественные сравнения (multiple comparisons) 103 /Множественный коэффициент корреля- корреляции 174 Мода (moda) выборочная 71 — генеральная 407 Модель аддитивная (additive) 247 — главных компонент (principal com- components) 354+, 361 — дисперсионного анализа (analysis of variance) 322+ — компонент дисперсии (components of variance) 242 — критерий адекватности линейной модели 154 — общая линейная (general linear) 223 /— регрессивная (regression) 141
Предметный указатель 483 Модель случайных эффектов (random effects) 223, 237, 240+, 267 — смешанная (mixed) 243, 267 — с рандомизированными блоками (randomized blocks) 257, 271 фиксированными эффектами (fi- (fixed effects) 223, 237, 267 — факторная (factor) 361 Моменты (moments) выборочные 76 — генеральные 406 Мощность критерия (power of test) 436 МП-оценка (оценка максимального правдоподобия) (maximum likeli- likelihood estimator) 82 Наблюдения (observation) 15, 396 Набор данных А 29+ В 38+ Нагрузка (loading) 362 Начало отсчета (null point) 17 Независимость случайных величин (independence) 412 Ненормированная эмпирическая функ- функция распределения 73 Непрерывные наблюдения (continious observations) 18 Номинальная шкала (nominal scale) 15, 29, 38 Номограмма (nomogram) 342 Нормальное распределение (normal- Gauss) 417 — — генерация (generation of) 68 Нормальные уравнения (normal equa- equations) 168, 226 Нормированная эмпирическая функ- функция распределения 73 Носитель (информации) (media) 19 Оборудование (hardware) 19 Общая линейная модель (general li- linear model) 223 Общность (communality) 362 Объединение в дисперсионном анализе (pooling in ANOVA) 248, 269 Объединенная выборочная дисперсия (pooled sample variance) 91 Однородное подмножество (homoge- (homogeneity subset) 107 Однофакторный дисперсионный анализ (one-way ANOVA) 100+ Ожидание, математическое ожидание, среднее) (mean) 405 — среднего квадрата (expected mean square) 240 Относительная частота (relative fre- frequency) 68 Отношение шансов (odds ratio) 118+ Отсутствующие значения (missing va. lues) 13, 46, 63 Оценивание (estimation) 429 Оценка (estimator) 429 — винзоризованная (winsorized) 133 — максимального правдоподобия (ma- (maximum likelihood) 209, 430 — минимума (minimum) 430 — наименьших квадратов (МНК-оцен- ка) (least squares) 146, 166, 209, 225 — несмещенная (unbiased) 429 — состоятельная (consistent) 430 . — усеченная (trimmed) 134 — эффективная (efficient) 430 Ошибка (error) I "рода (type I) 434 — II рода (type II) 434 — средний квадрат (mean square) 226 — сумма квадратов (sum of square) 226 — число степеней свободы (degrees of freedom) 226 Ошибки классификации (misclassifi- cation потери (coast of) 326 вероятность (probability) 321, 325 Память (memory) 19 Параметр (parameter) 401 Переменная с плавающей точкой (floa- (floating point) 39 фиксированной точкой (fixed point) 39 Перфокарта (punch-card) 20 План (design) латинского квадрата 274 — расщепленных блоков 273 — с рандомизированными блоками 257, 271 Плотность (density) 402 — совместная Qoint) 411 формулы для важнейших рас- распределений 426 Подпрограмма (subroutine) 21 Полигон частот (frequency polygon) 72 Полная связанность (perfect associa- association) 118 отрицательная (perfect disassocia- tion) 118 Поправка Йетса (Yate's correction) 114 Популяция (генеральная совокупность) (population) 396 Порядковая шкала (ordinal scale) 15, 29, 38 Пошаговый дискриминантный анализ (stepwise discriminant analysis) 344+ — регрессионный анализ (stepwise regression analysis) 194+ Правило остановки (stopping rule) в пошаговой регрессии 202+
484 Предметный указатель Правило остановки пошаговом дискри- мииантном анализе 344-f- на основе изменений R2 202 стандартное 202 Преобразование к нормальному рас- распределению 57 — Фишера (Fischer transformation) ' 158, 184 Пробит-анализ (probit analysis) 352 Пробит-график (probit plot) 58, 77 Проверка гипотезы (test of hypothesis) 433+ адекватности линейной модели (adequancy of linear model) 155 в дисперсионном анализе (in ana- analysis of variance) 230 V множественной линейной ре- регрессии (in multiple linear regres- regression) 171 v нелинейной регрессии (in non- nonlinear regression) 210 ' ¦ — простой линейной регрессии\ (in simple linear regression) 150 двусторонней (two-sided) 437 независимости (of independence) 112, 114+ __ об одной дисперсии (for single variance) 81 одном среднем (for single mean) при известной дисперсии 438 о векторах средних (for mean vectors) 318, 320 выбросах (for outliers) 315 двух средних (for two means) — в независимых выбор- выборках (of independent samples) 92 связанных выборках (of paired samples) 87 однородности (for homogeneity) 112 односторонней (one-sided) 437 о долях (for proportions) 66, 68, 70 ' коэффициенте корреляции (for correlation coefficient) 159+ множественной корреляции (for multiple correlation) 182 нескольких средних (for se- several means) 100 таблицах сопряженности (for contigency tables) 112+, 114+ частотной корреляции (for par- partial correlation) 184 Проверка данных (data screening) 50 Программа анализа выбросов (for out- outliers) 314+ Программа анализа главных компо- компонент (principal component analy- analysis) 354+ общей линейной модели (general linear model) 284+ — дескриптивная (descriptive) 55, 70 с расслоением (with strata) 85+, 94+ Программное обеспечение (software) 14, 21 Процедура Мантеля—Хэнзеля объеди- объединения шансов (Mantel—Haenszel) 119 Процедуры множественного сравнения (multiple comparisons) 266+ Процентиль (percentile) выборочная 72 — генеральная 421 Процентильный ранг (percentil rank) 73 Псевдослучайные числа (pseudo-ran- dom numbers) 49 <. ПСП -(пакет статистических программ) (statistical Program Package) 5, 10, 14, 22+ / Размах выборки (range) 75 Ранг (rank) 75 •Ранговый коэффициент корреляции Спирмана 122 Распределение (distribution) бино- биномиальное (binomial) 414 — выборочное (sampling) 427 — нормальное (normal) 417 многомерное (multivariate) 443 — показательно-экспоненциальное (ex- (exponential) 417 — прямоугольное (rectangular) 416 — пуассоновское (Poisson) 415 — равновероятное (equal probability) 417 — равномерное (uniform) 416 — случайной величины (random va- variable) 401 — совместное (joint) 410 — стьюдентизованного размаха (stu- dentized range) 104 — условие (conditional) 142, 446 — хи-квадрат 421 — частное (маргинальное) (marginal) 412, 444 — эмпирическое (empirical) 55, 72 — F 423 — t Стьюдента 422 Расстояние Махаланобиса (Mahalano- bis distance) выборочное 315, 329, 346 генеральное 324, 327
Предметный указатель 485 Расстояние Махаланобиса обобщенное 338 Реализация (realization) 398, 442 Регрессия (regression) 141 + — включение переменных (forcing va- variables in) 201 — использование в дисперсионном анализе 284+ *— коэффициент 148, 166, 297 — линейная с ограничениями (linear with constraints) 214 множественная 164+ простая 142+ — нелинейная 208+ — обращение (in reverse) 149 — полиномиальная (polinomial) 165 — пошаговая (stepwise) 144+ — принудительное проведение через начало координат (forcing through origin) 149 Робастность (robustness) 132 — ^-критерия 81 Случайная величина (random variable) 398+, 409+ дискретная 399 независимость 412 непрерывная 399 распределение 401 среднее (математическое ожида- ожидание) 405 — выборка (random sample) 425 — матрица (random matrix) 442 Случайный вектор (random vector) 442 — фактор (фактор со случайными уров- уровнями) 237 Собственное значение (eigenvalue) 355 Собственный вектор (eigenvector) 355 Событие (event) 399, 411 Сопутствующая переменная (concomi- (concomitant variable) 296 Специфичность (specificity) 361 Среднее (mean) 16, 405 — абсолютное отклонение (mean abso- absolute deviation) 408 — выборочное 75, 86, 90, 99 — генеральное 405 — доверительный интервал для двух 91, 101 \ линейной комбинации 103 одного 81, 101 — полное (total) 247 — ^-критерий ' двухвыборочный для двух 92+ для одного 80 парный для двух 87, 93 Уэлча для двух 93 Средний квадрат (mean square) 100, 226 Стандартизованная переменная (stan- dartized variable) 76 Стандартная ошибка (standard error) 431 коэффициента регрессии (of reg- regression coefficient) 151 оценка (of estimate) 431 в регрессии (in regression) 149, 167 среднего (of mean) 432 Стандартное отклонение выборочное 76 генеральное 406 Статистика Роя (Roy's statistic) 384 Статистические программы 22+, 46+ обзор 23+ оценка 30+ ВМОР 22+ Minitab 23+ SPSS 22+ Степени свободы (degrees of freedom) в общей линейной модели 226 выборочной дисперсии 432 распределения стьюдентизован- ного размаха 104 суммы квадратов 231 F-распределения 423 t- распределения 422 ^-распределения 421 Структура зависимости (dependence structure) 354, 360 Стьюдентизованный размах (studenti - zed range) 104 Сумма квадратов (sum of squares) 100 Таблица результатов классификации (classification table) 337 на две субпопуляции 315+ — сопряженности (признаков) (conti- gency table) 108+ — частот (частотная таблица) (fre- (frequency table) 50 Теорема Байеса (Bayes) 325, 333 — Гаусса—Маркова (Gauss—Markov) 225 — Кокрена (Cochran) 234 Точный критерий Фишера для таблиц сопряженности 2X2 115 Уровень (level) 76 — значимости (significance level) 436 Фактор 108, 222 — вращение (factor rotation) 371
486 Предметный указатель Фактор, вторичная структура (reference structure) 374 ¦— нагрузка на (факторная нагрузка (loading) 361 ¦— общий (первичный) (common) 361 — случайный (random) 237 — специфический (характерный) (spe- (specific) 361 — фиксированный (fixed) 237 Фактор (критерий) (factor) 60 Факторный анализ (factor analysis) 360+ итерации (iteration) 365 метод главных факторов (prin- (principal factor) 363+ нормализация Кайзера (Kaizer normalization) 365 целевая функция (objective func- function) 372 Формат (format) 39+ Фортран (FORTRAN) 21 Функция распределения см. Кумуля- Кумулятивная функция распределения Частота (frequency) 51 Частотная кривая (кривая частот) 403 — таблица (таблица частот) 50 — функция (плотность) 402 Шаговая процедура (stepping proce- procedures) в пошаговой регрессии 195+ пошаговом дискриминантном анализе 344+ множественной корреляции (mil- tiple correlation) 199 с заменой переменных (со свопигном) (with swapping) 200 стандартная (standard) 195 с заменой переменных (with swapping) 196 Шкала измерений 15 интервальная (interval) 16+ номинативная (наименований) (nominal) 15+ отношений (ratio) 17 — — порядковая (ordinal) 16 Экспериментальная единица (experi- (experimental unit) 396 Экспериментальный план (план экспе- эксперимента) (experimental design) 222 Эффективность (efficiency) 429 — асимптотическая "(asymptotic) 208 429 .yi, D-статистика Сомера 129 ¦F-распределение 423 — генерация 32 F-критерий в дисперсионном анализе 268+ множественной линейной регрес- регрессии 169+ общей линейной модели 231 простой линейной регрессии 150 — для векторов средних 318+ выбросов 315 множественного коэффициента корреляции 182 равенства двух дисперсий 92 k > 2 средних 100 расстояния Махаланобиса 329, 347 — f-включения 197, 344 — F-удаления 197, 344 g-винзоризованпые наблюдения 133 Р-значение (Р value) 439 лХс-таблица (сопряженности призна- признаков) 60+ (-критерий Стьюдента в множественной лйНЙШСй" регресТГЙи 150 простой линейной регрессии 1_50_ — двухвыборочный для средних 92, 94 — для коэффициента корреляции 161 частного коэффициента корре- корреляции 142 — парный (для связанных выборок) 87, 93 — Уэлча 85, 93 ^-распределение Стьюдента 422 — генерация 32 Т2-критерий Хотеллинга двухвыбо- двухвыборочный 320 • одновыборочный 318 5С2-критернй для векторов средних 317 — — выбросов 314 долей 69 одной переменной 81 таблиц сопряженности 112 — согласия 77 ^-распределение '421 — генерация 32'
Оглавление От редактора перевода 5 Предисловие ко второму изданию 7 Предисловие к первому изданию 9 1 Введение в анализ данных 14 1.1. Данные, измерения и вычислительные средства 15 1.2. Компоненты вычислительного центра. Оборудование 19 1.3. Программное обеспечение 21 1.4. Подготовка данных для пакетов программ 25 1.5. Критерии оценки пакетов статистических программ 45 1.6. Другие применения ЭВМ как средства статистического анализа 47 1.7. Проверка данных 50 Упражнения 64 Элементарные статистические выводы 65 2.1. Программы подсчета частот. Анализ дискретных переменных 65 2.2. Дескриптивные программы. Анализ непрерывных переменных 70 2.3. Дескриптивные программы с расслоением данных. Анализ двух непрерывных случайных величин 85 2.4. Дескриптивные программы с расслоением данных. Анализ р >- 2 непрерывных случайных величин 95 2.5. Программы перекрестного табулирования. Анализ таблиц сопря- сопряженности признаков 108 2.6. Другие критерии независимости для таблиц сопряженности при- признаков 114 2.7. Робастные оценки 132 Упражнения 137
488 Оглавление 3 Регрессионный и корреляционный анализы 141 3.1. Простая линейная регрессия и простой корреляционный анализ 142 3.2. Множественная линейная регрессия, множественная и частная корреляции 164 3.3. Пошаговая регрессия 194 3.4. Нелинейная регрессия 208 Упражнения 217 Дисперсионный анализ 222 4.1. Основы теории общей линейной модели 223 4.2. Однофакторный дисперсионный анализ 234 4.3. Двухфакторный дисперсионный анализ 244 4.4. Общая программа факторного планирования 266 4.5. Дисперсионный анализ при помощи регрессии 284 4.6. Ковариационный анализ 295 Упражнения 308 Методы многомерного статистического анализа 313 5.1. Анализ выбросов • 314 5.2. Проверка гипотез о векторах средних 317 5.3. Классификация индивидуума в случае двух популяций 322 5.4. Классификация в случае k популяций 334 5.5. Пошаговый дискриминантный анализ 344 5.6. Анализ главных компонент 354 5.7. Факторный анализ 360 5.8. Многомерный дисперсионный анализ 380 Упражнения 392 Приложение I. Обзор основных понятий 395 1.1. Основные понятия теории вероятностей 396 1.2. Наиболее употребительные одномерные распределения 414 1.3. Выборки из генеральной совокупности 425 1.4. Оценка параметров генеральной совокупности 428 1.5. Проверка гипотез 433 1.6. Многомерное нормальное распределение 442 Приложение II. Статистические таблицы 448 Литература 468 Список используемых латинских аббревиатур 477 Список некоторых общеупотребительных обозна- общеупотребительных обозначений 479 Предметный указатель 480