Text
                    S.A.Aivazyan
I.S.Yenyukov
L.D.Meshalkin
APPLIED
STATISTICS
STUDY
OF RELATIONSHIPS
Reference
edition
Edited by
prof. S.A.Aivazyan
Finansy i statistika
Moscow
1985


С.А.Айвазян И.С.Енюков Л.Д.Мешалкин ПРИКЛАДНАЯ СТАТИСТИКА ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ Справочное издание Под редакцией проф. С.А.Айвазяна Москва Финансы и статистика 1985
БI 22Л 72 All Рецензенты Е. Г. Ясин, А. И. Орлов Айвазян С. А. и др. АН Прикладная статистика: Исследование зависи- зависимостей: Справ, изд. / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин; Под ред. С. А. Айвазяна. — М.: Финансы и статистика, 1985. — 487 с, ил. В пер. I p. 70 к. 13 000 экз. Данная книга является логическим продолжением справочного издания «Прикладная статистика: Основы моделирования и первич* пая обработка данных», вышедшего в 1983 г. В ней рассматривают- рассматриваются методы корреляционного, регрессионного и дисперсионного ана- анализа. Приводятся их алгоритмы и обзор программного обеспечения. Для статистиков, экономистов, социологов, программистов. 1702060000-017 ББК 22.172 010@1)—85 66~~84 5173 © Издательство «Финансы и статистика», 1985
ПРЕДИСЛОВИЕ Вниманию читателя предлагается книга, продолжающая1 ре- реализацию замысла авторов: создать многотомное справочно- пособие по современным математическим методам статистиче- статистической обработки данных, включающее в себя одновременное ос- освещение необходимого математического аппарата, соответст- соответствующего программного обеспечения ЭВМ и рекомендаций по преодолению вычислительных трудностей, связанных с ис- использованием описываемых методов и алгоритмов. Книга адресована специалистам различных сфер человеческой дея- деятельности, использующим методы математической статистики и анализа данных в своей работе. Для понимания материала книги читателю достаточно об- обладать математической подготовкой в объеме программ эко- экономического или технического вуза либо ознакомиться с ба- базовыми понятиями теории вероятностей и математической ста- статистики, описанными в первом томе справочного издания [141. В свою очередь освоение материала предлагаемой книги мо- может служить надежной и удобной базой для более глубокого проникновения в предмет исследования, основанного на изу- изучении специальных монографий и журнальных статей. Тема книги, бесспорно, центральная во всем справочном издании. Она является таковой как по глубине и разнообра- разнообразию разработанного к настоящему времени математического аппарата, так и по удельному бесу использования описывае- описываемых методов и моделей в практических разработках разнооб- разнообразного профиля. ХВ 1983 г. вышла в свет книга: А й в а з я н С. А., Е н ю к о в И.С, Мешалки н Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных. — М.: Финансы и статистика. В ней, в частности, определена прикладная статистика как самостоятельная научная дисциплина, разрабатывающая и систематизирующая поня- понятия, приемы, математические методы и модели, предназначенные для организации и обработки статистических данных с целью их удобно- удобного представления, интерпретации и получения научных и практических выводов (см. с. 19).
Главная цель, которую ставили перед собой авторы, оснастить исследователя, использующего в своей работе ста- статистические методы, инструментарием, необходимым для реше- решения ключевой проблемы всякого исследования: как на осно- основании частных результатов статистического наблюдения за анализируемыми событиями или показателями выявить и опи- описать существующие между ними взаимосвязи. Именно эта проблема, проблема статистического исследования зависимо- зависимостей, оказывается главной в решении таких типовых задач практики, как нормирование, прогноз, планирование, диаг- диагностика, оценка труднодоступных для непосредственного на- наблюдения и измерения характеристик анализируемой систе- системы, оценка эффективности функционирования или качества объекта, регулирование параметров процесса или системы. Авторы стремились к объективно сбалансированному пред- представлению материала как по структуре книги, так и по ее со- содержанию. Однако широта и разноплановость затронутой проблемы не позволяют им претендовать на всеобъемлющий охват темы. Так, например, относительно узко представлена в данном томе тематика статистического анализа динамиче- динамических зависимостей', не дано описания весьма полезного, в оп- определенных типах задач, аппарата логических решающих правил1; не вошел в книгу материал, посвященный актуальной в прикладном плане (особенно в задачах управления техноло- технологическими процессами) тематике планирования регрессионных экспериментов. Книга состоит из введения и четырех разделов. Введение играет особую роль в понимании описываемых в дальнейшем методов и логики всей книги в целом. Можно ска- сказать, что в нем в доступной для неискушенного читателя фор- форме представлены содержание и логические связи всех частей книги. Приводятся основные постановки задач и «адреса» (в книге) их решения. Изложение проиллюстрировано про- простыми примерами. Поэтому сравнительно слабо подготовлен- подготовленному читателю рекомендуем не пожалеть времени на чтение введения. Раздел I посвящен методам и приемам, позволяющим от- ответить на вопросы, имеется ли вообще какая-либо связь между исследуемыми переменными, как измерить их тесноту и ка- какова структура связей между показателями исследуемого на- набора? При этом под структурой понимается характер всевоз- всевозможных попарных двоичных взаимоотношений рассматривае- 1 Читатель может познакомиться с этим аппаратом статистического исследования зависимостей, например, по книге [76}.
мых признаков (по типу «связь есть» или «связи нет»), но не форма зависимости одного от другого. Методы, описанные в данном разделе, составляют содержание корреляционного ана- анализа. Раздел II содержит описание методов и моделей, позволяю- позволяющих исследовать вид зависимости интересующего нас «вы- «выходного» (или «результирующего») количественного показате- показателя от набора объясняющих переменных количественной при- природы (регрессионный анализ). В отдельной главе (гл. 12) рас- рассмотрен случай, когда роль объясняющей переменной играет «время». В разделе III решаются те же задачи, что и в разделе II, но в ситуации, когда в качестве объясняющих переменных вы- выступают неколичественные или одновременно неколичественные и количественные признаки {дисперсионный и ковариационный анализ). И наконец, в раздел IV включены глава, посвященная описанию методов статистического анализа так называемых систем одновременных эконометрических уравнений (т. е. на- набора одновременно выполняющихся соотношений, в которых одни и те же переменные могут участвовать в разных соотно- соотношениях: и в роли результирующего показателя, и в роли пред- предсказывающей переменной), и глава, в которой дается обзор наиболее интересного отечественного и зарубежного програм- программного обеспечения методов статистического исследования за- зависимостей. Научная и педагогическая деятельность авторов, послу- послужившая основой реализации предлагаемого издания, про- проводилась в Центральном экономико-математическом институ- институте АН СССР, в Московском государственном университете им. М. В. Ломоносова и в Центральной научно-исследователь- научно-исследовательской лаборатории 4-го Главного управления при Министерст- Министерстве здравоохранения СССР. Книга написана: С. А. Айвазяном — предисловие, введе- введение, гл. 1,2, 5, 6, 11, выводы к гл. 9, введение и выводы к гл. 12, § 13.5 и приложение; Л. Д. Мешалкиным — гл. 3, 4, 7 (без § 7.5, 7.6 и п. 7.2.5), 10, 13 (без § 13.5); И. С. Енюковым — гл. 8, 15; В. В. Федоровым — гл. 9 (без § 9.6, 9.7 и п. 9.5.4), 12 (без введения и выводов), § 7.5 и 7.6; Ю. М. Кабановым — гл. 14 (без §14.6); Е. 3. Демиденко — п. 9.5.4; § 9.6, 9.7, 14.6; А. М. Шурыгиным — п. 7.2.5. Авторы выражают глубокую благодарность А. И. Орло- Орлову и Е. Г. Ясину, взявшим на себя труд отрецензировать ру- рукопись книги. Их критические замечания, бесспорно, способ- способствовали повышению качества данного издания. Авторы при-
знательны также В. Н. Вапнику, предоставившему им мате- материалы для написания п. 6.3.1, а также А. Б. Успенскому, Е, 3. Демиденко, А. М. Шурыгину, Арк. И. Верескову и О. В. Лепскому, участвовавшим в обсуждении отдельных ча- частей рукописи, а также и Л. Ю. Метт, вложившей большой труд в оформление рукописи. Положительную роль в замысле и содержании книги сы- сыграли постоянные контакты авторов со своими коллегами по научному семинару «Многомерный статистический анализ и вероятностное моделирование реальных процессов» (действую- (действующему в рамках Научного совета АН СССР по комплексной проблеме «Оптимальное планирование и управление народ- народным хозяйством» и Совета по автоматизации научных иссле- исследований при Президиуме АН СССР), а также по Всесоюзному научно-методическому семинару «Вычислительные вопросы математической статистики», действующему в Московском го- государственном университете им. М. В. Ломоносова под руко- руководством Ю. В. Прохорова. С. А. Айвазян
Введение. статистическое исследование ЗАВИСИМОСТЕЙ СОДЕРЖАНИЕ, ЗАДАЧИ, ОБЛАСТИ ПРИМЕНЕНИЯ В.1. Предварительное обсуждение задач Любой закон природы или общественного развития может быть выражен в конечном счете в виде описания характера или струк- структуры взаимосвязей (зависимостей), существующих между изу- изучаемыми явлениями или показателями (переменными величи- величинами или просто переменными). Если эти зависимости: а) сто- хаотичны по своей природе, т. е. позволяют устанавливать лишь вероятностные логические соотношения между изучае- изучаемыми событиями А и 5, а именно соотношения типа «из факта осуществления события А следует, что событие В должно произойти, но не обязательно, а лишь с некоторой (как пра- правило, близкой к единице) вероятностью Р»; б) выявляются на основании статистического наблюдения за анализируемыми событиями или переменными, осуществляемого по выборке из интересующей нас генеральной совокупности [14, п. 5.4.2), то мы оказываемся в рамках проблемы статистического ис- исследования зависимостей. Соответствующий математический аппарат, будучи таким образом нацеленным в первую очередь на решение основной проблемы естествознания: как по отдель- отдельным, частным наблюдениям выявить и описать интересующую нас общую закономерность? — занимает, бесспорно, централь- центральное место во всем прикладном математическом анализе. Перед тем как перейти к формулировке общей и частных задач статистического исследования зависимостей, условим- условимся описывать функционирование изучаемого реального объек- объекта (системы, процесса, явления) набором переменных (рис. В.1), среди которых: jcA), xB), ..., х(р) —так называемые «входные» переменные, описывающие условия функционирования (часть из них, как правило, поддается регулированию или частичному управле- управлению); в соответствующих математических моделях их назы- называют независимыми, факторами-аргументами, экзогенными, предикторными (или просто предикторами, т. е. предсказателя- предсказателями), объясняющими (в книге мы будем использовать в основ- основном два последних термина);
y{l), t/2\ ..., //<m>—выходные переменные, характери- характеризующие поведение или результат (эффективность) функцио- функционирования', в математических моделях их называют зависи- зависимыми, откликами, эндогенными, результирующими или объяс- объясняемыми (в книге используются в основном два последних термина); еA>, еB>, ..., е<т> —латентные (т. е. скрытые, не под- поддающиеся непосредственному измерению) случайные юстаточ- нысу> компоненты, отражающие влияние (соответственно на случайные г? факторы, L не под да- у. Ю Щ11 ЕС Я (тА учету I объясняю- объясняющие пере- переменные (предик- торные) Анализируемая реальная система (объект) Механизм преобразования вход- входных переменных 6 результирую- результирующие показатели резуль- щие пе- у >щие ~~-~,(т)\ реме Рис. В.1. Общая схема взаимодействия переменных при статистиче- статистическом исследовании зависимостей У{1\ У{2)> ••-, У{т)) неучтенных «на входе» факторов, а также случайные ошибки в измерении анализируемых показателей (в математических .моделях мы их, как правило, будем имено- именовать просто «остатками»). Тогда общая задача статистического исследования зависи- зависимостей (в терминах изучаемых показателей) может быть сфор- сформулирована следующим образом: по результатам п измерений исследуемых переменных на объектах (системах, процессах) анализируемой совокупности построить такую {вектор по- позначную) функцию (B.2) 10
которая позволила бы наилучшим (в определенном смысле) об- образом восстанавливать значения результирующих (прогнози- (прогнозируемых) переменных У = (у{1), #<2), ..., */(т))' по заданным зна- значениям объясняющих (предикторных) переменных X = A 2 Ю'1 х\ ..., х). Данная формулировка задачи нуждается в уточнениях. В частности, прежде всего мы должны ответить на следующие вопросы: 120* 100 80 60 20 /и. в,'? •/ V /* О 40 М 120 160 200 х,ру§. Рис. В.2. Графическое представление результатов обследования 40 семей по их среднедушевому до- доходу (Xi) и среднедушевым денежным сбереже- сбережениям (//,-) а) каково математическое выражение (или структура мо- модели [14, с. 68—73]) искомой зависимости между Y и Х> запи- записанное в терминах У, X,f(X) И? = (еA),.еB), .... е<т>)? б) в соответствии с каким именно критерием качества ап- аппроксимации значений У с помощью функции f (X) мы будем 1Здесь и далее штрих при векторе или матрице означает операцию их транспонирования. В данном случае это означает, что Y и X — соот- соответственно т- и р-мерные вектор-столбцы. 11
определять наилучший способ восстановления значений ре- результирующих показателей по заданным значениям объясняю- объясняющих переменных? в) с какой именно прикладной целью мы проводим все на- наше исследование, т. е. для решения каких конкретных задач мы собираемся использовать построенную в результате ис- исследования функцию f (X)? Прежде чем обсуждать эти вопросы, рассмотрим пример. Пример В.1. Анализируется «поведение» двумерной случайной величины (?, ц), где I (руб.) — среднедушевой до- доход и ц (руб.) — среднедушевые денежные сбережения в се- семье, случайно извлеченной из рассматриваемой совокупности семей, однородной по своему потребительскому поведению (см., например, [128]). В табл. В.1 и на рис. В.2 представлены исходные статистические данные вида (В.1), характеризующие среднедушевые величины дохода (xit руб.) и денежных сбе- сбережений (yh руб.) за определенный отрезок времени, а именно за месяц, в каждой (/-и, / = 1,2, ..., п) обследованной семье рас- рассматриваемой совокупности семей (в данном условном примере объем п статистически обследованной совокупности семей рав- равнялся 40). В этом примере имелась возможность при отборе исходных данных (выборки) контролировать значения предик- торной переменной Н (условия активного эксперимента [14, с. 121]), что позволило, в частности, разбить статистически об- обследованные семьи на четыре равные по объему группы по доходам. Мы видим, что даже в пределах каждой из этих групп ве- величины среднедушевых сбережений семей подвержены неко- некоторому неконтролируемому разбросу, обусловленному влия- влиянием множества не поддающихся строгому учету и контролю факторов (т. е. налицо упомянутый выше стохастический ха- характер зависимости между х и у). Однако это еще не значит, что расположение точек (х(, //,), являющихся геометрическим изображением результатов обследования семей по доходу и сбережениям, должно быть совершенно хаотичным и не долж- должно обнаруживать некоторой вполне определенной тенденции, характеризующей зависимость денежных сбережений в се- семье (ц) от ее среднедушевого дохода (?). При исследовании по- подобных зависимостей встают следующие основные вопросы (в скобках после вопроса указываются главы, параграфы или пункты настоящей книги, ему посвященные). 1. Как исходя из конкретных прикладных целей исследо- исследования определить смысл, в котором понимается исследуемая зависимость? (В.2, § 5.3.) 2. Имеется ли вообще какая-либо связь между исследуе-- 12
мыми переменными (а в случае многих переменных — какова структура этих связей?) и как измерить тесноту этой связи? (Гл. 1-4.) 3. Каков общий математический вид искомой связи между г| и ?, т. е. как определяется общая структура соответствую- соответствующей математической модели? (Гл. 6.) 4. Как, отправляясь от принятой общей структуры моде- модели, провести необходимую вычислительную обработку исход- исходных данных (В.1) с целью получения конкретного вида зависимости ц от ?, что позволит в данном случае производить количественную оценку неизвестных денежных сбережений семьи по заданной величине ее среднедушевого дохода? (Гл. 7—10, 13, 14.) 5. Поскольку наши выводы основаны на обработке огра- ограниченного ряда наблюдений, то их количественные характери- характеристики, естественно, подвержены (при повторениях соответст- соответствующих выборочных обследований) некоторому случайному разбросу. Как оценить степень точности наших выводов? (Гл. 11.) 6. Как решать все вопросы в ситуациях, когда среди объяс- объясняющих (предикторных) переменных могут быть и неколиче- неколичественные? (Гл. 13.) 7. И наконец, если при сборе исходной статистической информации мы находимся в условиях активного эксперимента [14, с. 12], то как, при заданных затратах на наблюдения, оптимально выбрать матрицу плана [14, с. 26, 68], т. е. как определить те значения объясняющих (предикторных) пере- переменных и то распределение заданного общего числа наблюде- наблюдений между этими значениями, которые являются в некотором смысле наиболее выгодными с точки зрения достижения наи- наивысшей точности наших статистических выводов? Вернемся к нашему примеру и попробуем ответить на не- некоторые из поставленных здесь вопросов, в том числе на прин- принципиальные вопросы а), б) и в), ответы на которые позволяют уточнить общую формулировку задачи статистического ис- исследования зависимостей, данную выше. Начнем «с конца», т. е. с уточнения конечных прикладных целей исследования (см. вопросы 1, а также а) и в)). Известно, что из двух анализируемых характеристик материальной со- состоятельности семьи характеристика денежных сбережений (ц) относится к категории статистически труднодоступных: содержащиеся в ежегодных и единовременных выборочных семейных бюджетных обследованиях ЦСУ [85] сведения о сбе- сбережениях, как правило, непредставительны. Поэтому главной конечной целью нашего исследования (опирающегося, как мы 13
Среднедуше- Среднедушевой доход, руб. Среднеду- Среднедушевые сбе- сбережения Т) Средние сбе- сбережения для семеГ{ дан- данной гр\ ппы ратпческое отклонение s и коэффи- коэффициент вари- вариации I7 сбе- сбережен и ii для семе Л дан- данной ггл лпы по доходам Ух =15,2 1/з =18^5 1/4 =14,9 Уъ =24,1 1/6 =10,3 1/7 =14,2 1/8 =31,0 1/э =20,4 10 -6,4 . j/us=70,l у« = 4з'.О у" = 18',9 /=11 / 20 г 9 .-«— ~ l ' 2 = 16,0 будем всегда предполагать, на достоверную и репрезентатив- репрезентативную выборку исходных данных) является возможность вос- восстановления (прогноза): удельной (т. е. в расчете на одного члена семьи за опре- определенный отрезок времени) величины денежных сбережений в конкретной семье (у (л:)) по заданному значению ее среднеду- среднедушевого дохода х\ удельной величины средних денежных сбережений (#ср (х)) в семьях данной группы х по доходам. 14
Таблица B.I Среднедуше- Среднедушевой доход, руб. Среднеду- Среднедушевые сбе- сбережения г\ Средние сбе- сбережения для семей дан- данной группы Среднеквад- ратическое отклонение s и коэффи- коэффициент вариа- вариации V сбе- сбережений для семей дан- данной группы по доходам у21 =49,6 1/22^69,4 !/2з = 77,8 1/24=43,0 </25 = 31,8 ^/26^62,6 I/27=l00,2 1/28 = 68,8 у29 г~г78,0 i/:{Oac29,6 1 30 «isS^61-1 /—21 / 1 3° A/ Y^yi-yiA)J- «=21 s:22,6 F(x3°)^37% *3i ~ хгг = • • ¦ — r/^L-= 125,5 l/;.2= 88,3 ^..= 62,0 //34= 58,8 //35= 84,0 Узв= 79,0 </з7= 95,5 Узв = 120,8 Узв= 98,1 1Ао= 29,7 1 40 /=31 s(xj)ss / 1 40 -у -г2(у|~Ид:|))|° /=31 ==28,9 7D)=^34 % Этой цели мы сможем достигнуть, если сумеем математи- математически описать закономерность изменения условных теоретиче- сжих средних значений ус9 (х) = Е (т] | ? = хУ в зависимости 1Здесь и далее используются терминология и обозначения [14]. В частности, знаком Е обозначается операция теоретического осред- осреднения, а знаком D — операция вычисления дисперсии случайных ве- величин, стоящих за ними. Вертикальная черта разделяет случайную величину, над которой производится операция осреднения или вычис- вычисления дисперсии, и условие, при котором эта операция производится. 15
от х, а также изучить характер случайного разброса денеж- денежных сбережений у (х) отдельных семей данной группы х по доходам относительно своего среднего значения уср (х) (при любом интересующем нас значении среднедушевого дохода х). Это естественным образом приводит нас к необходимости рас- рассмотрения математической модели вида т, = /(*) + е, (В.З) в которой остаточная компонента е отражает случайное от- отклонение денежных сбережений наугад выбранной отдельной семьи с доходом ? = х от среднего значения уср (х) = = Е (т] 11 = х) этих сбережений, подсчитанного по всем се- семьям данной группы по доходам, а функция / (х) описывает характер изменения условного среднего уср (х) (при g = x) в за- зависимости от изменения х, если дополнительно прийти к со- соглашению, что характер случайного разброса величин у (х) = ^ (Л I 5 ~ х) относительно своих средних #ср (л;) таков, что Е (е | g = х) = 0 при всех х. Таким образом, из (В.З) мы непосредственно получаем уср(х) = Е(т,|?-**)«/(*). (В.4) Чтобы покончить с вопросами 1, а) ив), остается уточнить общую структуру модели, т. е. определить, в каком классе F функций f (x) мы будем производить аппроксимацию искомой зависимости уср (х). В нашем случае, учитывая однородный (по характеру по- потребительского поведения) состав исследуемой совокупности семей, естественно исходить из гипотезы об одинаковой (в среднем) склонности семей к сбережениям, выражающейся, в частности, в том, что все семьи начиная с некоторого «по- «порогового» уровня дохода, склонны отделять в сбережения в среднем одинаковую долю дохода. Математически, как легко понять, это выразится в виде Уср (х) = е0 + е^, (в.5) где Во и 0t — некоторые константы (неизвестные параметры модели). Так что F = {60 + В^}, (В.6) где под {/(л:; В)} понимается семейство всех тех функций / (лс; 6), которые могут быть получены при подстановке вме- вместо в ее различных конкретных значений (в — векторный па- параметр). Такой выбор «класса допустимых решений» F= {/ (х)} подтверждается и характером расположения совокупности то- 16
чеКг являющихся геометрическим изображением исходных данных в наймем примере (см. на рис. В.2 расположение «кре- «крестиков», ординаты которых определяются экспериментально подсчитанными, т. е. вычисленными на основании имеющихся выборочных данных, условными средними у (xf), i = 1, 2, 3, 4I. И наконец, следует уточнить, в соотяртствии с каким имен- именно критерием качества аппроксимации неизвестных величин среднедушевых семейных денежных сбережений у (х) и t/cp (x) с помощью функции Во + 0i* мы будем определять наилуч- наилучший способ прогноза */ср (х) по х. Наиболее обоснованное и точное решение этого вопроса опирается на знание вероятност- вероятностной природы (а именно типа закона распределения вероятно- вероятностей) остатков е в модели (В.З). Так, например, известно [14, с. 281], что если предположить, что при любых значениях х распределение вероятностей остатков г описывается @, а2)- нормальным законом (т. е. нормальным законом со средним значением, равным нулю, и с некоторой, вообще говоря, не- неизвестной, но постоянной, т. е. не зависящей от х дисперсией а2) и что остатки г (хг), i = 1, 2, ..., я, характеризующие различные наблюдения, статистически независимы, то наи- наименьшая ошибка прогноза */ср (х) с помощью модели / (х) ? F (т. е. функция / (х) подбирается из класса F) обеспечивается требованием метода наименьших квадратов АЛ/) = S (»,-/(*i))f-*min. (B.7) В нашем примере явно нарушено условие постоянства дисперсии остатков (см. табл. В.1), т. е. условная дис- дисперсия D (в| I = х) = D (л — Во — er6| I = х) = a2 (jc) су- существенно зависит от значения х. Можно устранить это нарушение, поделив все анализируемые величины, откла- откладываемые по оси т}, а ^.ледовательно, и остатки в (х)г на значения s (x) (являющиеся статистическими оценками для а (#)), т. е. перейдя к анализу остатков Г(дс) = в (x)/s (x). Тогда можно показать (с помощью методов, описанных, Юбращаем внимание читателя на разницу в смысле и обозначениях экспериментальных (выборочных) и теоретических условных средних соответственно у (х) и #ср (х). Строго говоря, на практике теоретичес- теоретических средних мы никогда знать не можем, однако мы опираемся в своем исследовании^на тот факт, что в соответствии с законом большие чисел 114, с. 231] f(x) -*• уср (х) (по вероятности), когда число наблюдений, по которым подсчитано у (х)и стремится к бесконечности. 17
например, в [14, § 11.1]), что гипотеза о @; а2)-нормальном характере распределения остатков е (х) не противоречит имею* щимся в нашем распоряжении данным (представленным в табл. В.1) и, следовательно, требование (В.7) приводит к не- необходимости решения экстремальной задачи вида Дп (f) = Ап (90, 9,) = У »'-"•-**' -> min , (B.7') ~* \ S(X) / в в 2 .= 1 ч s(xt) ) e..et т. е. к системе из двух линейных уравнений с двумя неизвест- неизвестными (90 и Эх): 1 = 1 (В.7") Решение системы (В.7") дает нам в качестве оценок 0О и 8Х для неизвестных параметров соответственно 90 и Qt выраже- выражения: ) ( х f 2 B 2 2 «-2(л:«-)-Уг 2 Расчет по этим формулам с использованием данных табл. В.1 дает нам решение задачи 4: ei = 0,685; (Го = —40,360, 18
так что статистическая оценка искомой зависимости средней величины среднедушевых семейных сбережений ycv (х) от зна- значения среднедушевого дохода семей данной доходной группы х имеет в этом случае вид ?р(*) = —40,36 + 0,685- х. При другой статистической природе остатков 8 или при от- отсутствии достаточной информации о типе их вероятностного распределения возможен иной, чем по (В.7), выбор критерия качества аппроксимации Ап (см. гл. 7). Отметим, однако, что наиболее широкое распространение в статистической прак- практике именно критерия наименьших квадратов (В.7) подкрепле- подкреплено рядом исследований [15, 196]. В них обосновываются хоро- хорошие прогностические свойства моделей, полученных в соот- соответствии с (В.7) и в ситуациях, характеризующихся различ- различными отклонениями от нормальности и взаимной независимо- независимости остатков е (л:). Заканчивая обсуждение примера В.1 и возвращаясь к об- общему описанию задач статистического исследования зависи- зависимостей,.отметим, что функции f (X) = Е (rj 11 = X), описываю- описывающие поведение условных средних результирующего показате- показателя г| (вычисленных при значениях предикторных переменных ?, зафиксированных на уровне I = X) в зависимости от изме- изменения X, принято называть функциями регрессии (подробнее о различных определениях функции регрессии см. в гл. 5). В.2. Какова конечная прикладная цель статистического исследования зависимостей? С этого вопроса должно начинаться любое статистическое исследование зависимостей1. Ведь от ответа на этот вопрос существенно зависят план исследования, выбор общей струк- структуры математической модели, интерпретация получаемых ста- статистических характеристик и выводов и т. д. 1Опыт вынуждает констатировать наличие большого числа при- прикладных исследовательских работ (статей, диссертаций, научных отче- отчетов и т. д.), в которых этот тезис, казалось бы, тривиальный и очевидно справедливый, предается забвению. В подобных работах строятся раз- различные модели, проводится большое число вычислений, анализируются статистические свойства полученных характеристик и т. п., но все это в конечном счете как бы «повисает в воздухе», вызывает у компетент- компетентного читателя вопросы: «ну и что?» или «зачем это нужно?», поскольку остается неясным, как и для решения каких именно конкретных приклад- прикладных задач предполагается использовать результаты проделанных мате- математических упражнений 19
Итак, для чего же строятся математические модели типа (В.З), описывающие статистические зависимости между ис- исследуемыми переменными: результирующими показателями Y = (у{1\уB\ ...,#(w)) , с одной стороны, и соответствующими объясняющими (предикторными) переменными X = (хA), хB), ..., *(р))» с другой стороны? Выделим три основных типа конечных прикладных целей подобных исследований, расположив их как бы по нараста- нарастанию глубины проникновения в содержательную сущность анализируемой конкретной задачи. Тип 1: Установление самого факта наличия (или отсутст- отсутствия) статистически значимой связи между Y и X. При такой постановке задачи статистический вывод имеет двоичную (аль- (альтернативную) природу — «связь есть» или «связи нет» — и со- сопровождается обычно лишь численной характеристикой (из- (измерителем) степени тесноты исследуемой зависимости. Выбор формы связи (т. е. класса допустимых решений F и конкрет- конкретного вида функции f (X) в модели (В.З)) и состава предикто- предикторов X играет подчиненную роль и нацелен исключительно на максимизацию величины этого измерителя степени тесноты связи: исследователю часто не приходится даже «добираться» до конкретного вида функции f (X) и тем более он не претен- претендует на анализ причинных влияний переменных X на резуль- результирующие показатели. Тип 2: прогноз (восстановление) неизвестных значений ин- интересующих нас индивидуальных (Y (X) = (г\ | ? = X)) или средних (Уср (X) = Е (rj | ? = X) значений исследуемых ре- результирующих показателей по заданным значениям X соот- соответствующих (предикторных) переменных. При такой поста- постановке задачи статистический вывод включает в себя описание интервала (области) Ар (X) вероятных значений прогнози- прогнозируемого показателя Уср (X) или Y (X) и сопровождается вели- величиной доверительной вероятности Р, с которой гарантируется справедливость нашего прогноза, формализуемого с помощью утверждения вида {Y (X) g Ар (X)} или {Уср (X) g Лр (X)}. Как и в предыдущем случае, выбор формы связи (т. е. класса допустимых решений F и конкретного вида функции f (X) в модели (В.З)) и состава предикторов X играет подчиненную роль и нацелен исключительно на минимизацию ошибки по- получаемого прогноза. Однако в данном случае (в отличие от предыдущего) исследователь существенно использует значе- значения функции f (Х)у которые являются отправной точкой при построении прогнозных интервалов (областей) АР(Х). Послед- Последние обычно определяются в форме множества всех тех значе- значений Yy которые удовлетворяют неравенствам 20
f (X) - ep(X, n) ^ Y < f (X) + ep(X, n), (B.8) где ep(X, л) — гарантируемая (с вероятностью не меньшей заданного значения Р) максимальная величина ошибки прог- прогноза1. Таким образом, исследователя интересуют в данном слу- случае лишь значения функции f (X), но не ее структура, опре- определяющая, в частности, соотношение удельных весов влия- влияния объясняющих переменных jcA\ x{2\ ..., х(р) на каждый из результирующих показателей y{k) (k = 1, 2, ..., m). Так, например, если при статистическом оценивании неизвестной истинной зависимости /(X)-f/cP(x<1), *<2>)=1+3*<1> + 5;с<2> (В.9) исследователю удалось получить оценку функции f (X) в виде и при этом было установлено, что объясняющие переменные A и хB> связаны между собой «почти функциональной» 2 линейной зависимостью2 2x<2\ (В. 10) то функция / (X) будет обладать хорошими прогностическими свойствами, несмотря на существенное отличие ее коэффици- коэффициентов при x(I> и х{2) от соответствующих коэффициентов истинной функции / (X). (Обращаем внимание читателя на тот факт, что коэффициенты при х{2) в функциях / (X) и / (X) отличаются даже по знаку!) При подстановке заданных значений объясняющих переменных л:A) и *B> в правые ча- части (В.9) и (В.9'), при условии, что эти значения связаны при- приближенным соотношением (В. 10), мы будем получать совпа- совпадающие (или приближенно совпадающие) результаты / (X) и / (X), характеризующие усредненную величину уср (X) ис- исследуемого результирующего показателя. Тип 3: выявление причинных связей между объясняющими переменными X и результирующими показателями Y, частичт 1Напоминаем читателю, что (, е и К являются m-мерными векто- векторами (см. (В.2)), так что запись (В.8) означает справедливость т соот- соответствующих покомпонентных неравенств. гГоворя о «почти функциональной» линейной зависимости между *О> и х<2>, мы имеем в виду близость к единице (по абсолютной величи- величине) коэффициента корреляции между этими переменными [14, с. 155]. 21
нов управление значениями Y путем регулирования величин объясняющих переменных X. Такая постановка задачи претен- претендует на проникновение в «физический механизм» изучаемых статистических связей, т. е. в тот самый механизм преобразо- преобразования «входных» переменных X и в в результирующие пока- показатели Y (см. рис. В.1), который в большинстве случаев ис- исследователь, не будучи в состоянии его конструктивно опи- описать, вынужден именовать (следуя сложившейся кибернети- кибернетической терминологии) «черным ящиком». И при выявлении причинных связей, и при намерении ис- исследователя использовать модели типа (В.З) или (В.4) для уп- управления значениями результирующих показателей Ycp (X) или Y (X) путем регулирования величин объясняющих пере- переменных X на первый план выходит задача правильного оп- определения структуры модели (т. е. выбора общего вида функ- функции f (X)), решение которой обеспечивает возможность количе- количественного измерения эффекта воздействия на Y (X) каждой из объясняющих переменных *A), *B>, ..., х^р) в отдельности. Однако как раз это место (правильный выбор общего вида функции f (X)) и является самым слабым во всей технике ста- статистического исследования зависимостей: к сожалению, не существует стандартных приемов и методов, которые образовы- образовывали бы строгую теоретическую базу для решения этой важ- важнейшей задачи (некоторые рекомендации по проведению этого этапа исследования содержатся в гл. 6). Заметим, что исследователи, пожалуй, чаще других ста- ставят перед собой именно цели типа 3. И в таких прикладных задачах, как управление качеством продукции с помощью ре- регулирования хода технологических процессов [95, 47], прог- прогноз и анализ объемов произведенной продукции по затратам на трудовые ресурсы и капитальные вложения [31, 152], построе- построение интегральных целевых функций, описывающих эффектив- эффективность функционирования экономических единиц (предприятий, семей) по набору частных характеристик [9, 11, 128] и др., это вполне оправдано. Однако, к сожалению, далеко не всег- всегда целевые установки исследователей подкреплены объектив- объективными возможностями их реализации. В.З. Математический инструментарий Методы статистического исследования зависимостей состав- составляют содержание отдельных частей многомерного статистиче- статистического анализа, который можно определить [8, с. 731] как раз- 22
дел математической статистики, посвященный построению оптимальных планов сбора, систематизации и обработки мно- многомерных статистических данных типа (В.1), нацеленных в первую очередь на выявление характера и структуры взаимо- взаимосвязей между компонентами исследуемого многомерного при- признака (X, Y) и предназначенных для получения научных и практических выводов. При этом среди р + т компонент ис- исследуемого многомерного признака (X, Y) могут быть: ко- количественные, т. е. скалярно измеряющие в определенной шка- шкале степень проявления изучаемого свойства объекта (денеж- (денежный доход и сбережения семьи, объем валовой продукции, численность работников на предприятии и т. п.); порядковые (или ординальные), т. е. позволяющие упорядочивать анализи- анализируемые объекты по степени проявления в них изучаемого свойства (уровень жилищных условий семьи, квалификацион- квалификационный разряд рабочего, уровень образования работника и т. п.); классификационные (или номинальные), т. е. позволяющие раз- разбивать обследованную совокупность объектов на не поддаю- поддающиеся упорядочиванию однородные (по анализируемому свой- свойству) классы (профессия работника, мотив миграции семьи, отрасль промышленности и т. п.). Разделы многомерного ста- статистического анализа, составляющие математический аппарат статистического исследования зависимостей, формировались и развивались с учетом специфики анализируемых моделей, обусловленной природой изучаемых переменных. Соответст- Соответствующая специализация этих разделов отражена в табл. В.2. В ней же указаны главы данной книги и другие литературные источники, посвященные описанию указанных разделов. Из табл. В.2 видно, что данная книга не охватывает мето- методов исследования зависимостей неколичественного или сме- смешанного (разнотипного) результирующего показателя ОТ ко- количественных или смешанных объясняющих переменных: объемность и специфичность указанной темы обусловливают целесообразность посвящения ей специального издания. Кроме того, принцип систематизации различных схем, при- принятый в табл. В.2, не приспособлен для выделения одного важ- важного (особенно в области социально-экономических приложе- приложений) случая, когда связи между количественными перемен- переменными X и У описываются системой одновременных уравнений, в которых одни и те же переменные могут играть одновремен- одновременно (в различных уравнениях системы) и роль результирующих, и роль объясняющих. Этому посвящена теория одновременных эконометрических уравнений, основные результаты которой представлены в гл. 14. 23
Таблица В.2 п/п 1 2 3 4 5 6 7 Природа результирующих показателей Количественная Количественная Количественная Количественная Неколичественная (по- (порядковые, или ординаль- ординальные, переменные) Неколичественная (клас- (классификационные, или но- номинальные, переменные) Смешанная (количест- (количественные и неколичествен- неколичественные переменные) Природа объясняющих пе- переменных (предикторов) Количественная Единственная количест- количественная переменная, ин- интерпретируемая как «время* Неколичественная (орди- (ординальные или номиналь- номинальные переменные) Смешанная (количест- (количественные и неколичествен- неколичественные переменные) Неколичественная (орди- (ординальные и номинальные переменные) Количественная Смешанная (количест- (количественные и неколичествен- неколичественные переменные) Название обслуживающих разделов многомерного статистического анализа Регрессионный и корреляци- корреляционный анализ Анализ временных рядов Дисперсионный анализ Ковариационный анализ, модели типологической рег- регрессии Анализ ранговых корреля- корреляций и таблиц сопряженно- сопряженности Дискриминантный анализ, кластер-анализ, таксоно- таксономия, расщепление смесей ПЯРППРПРЛИНИИ Аппарат логических решаю- решающих функций Главы книги, посвященные данным разделам 1, 4, 5, 6, 7, 8, 9, 10, 11, 14 12 13 13 2,3 — — Другая литература, посвященная данным разделам [10, 17, 20, 25, 34, 43, 44, 46, 47, 50, 65, 77, 93, 103, 106, 119] [18, 21, 28, 41, 66, 80, 144] [66, 148] [4, 6, 19, 82] [23, 65, 67] [11, 19,20, 48, 58, 66] [76]
B.4. Некоторые типовые задачи практики Накопленный опыт практического использования аппарата ста- статистического исследования зависимостей позволяет выделить те типы основных прикладных направлений исследований, в которых этот аппарат работает особенно часто и плодотво- плодотворно. Если попытаться расщепить общую проблему оптималь- оптимального управления сложной системой (т. е. центральную проб- проблему кибернетики) на основные составляющие (рис. В.З), то Проблема оптимального упрабления сложной системой Нормиро- Нормирование Прогноз, планиро- Вание, диагнос- диагностика Оценка трудно- труднодоступных для непосредствен- непосредственного наблюде- наблюдения и из мер е- ния парамет- параметров системы Оценка эффектив- эффективности функцио- функционирования (или каче- качества) системы Оптималь- Оптимальное регу- регулирование парамет- параметров функ- ционирова- ционирования систе- системы Исходные статистические данные (информационная база) Рис. В.З. Основные направления практического использования аппа- аппарата статистического исследования зависимостей и центральная проблема кибернетики в качестве этих составляющих как раз и фигурируют именно те направления прикладных исследований, в разработке ко- которых существенную роль играет математический аппарат статистического исследования зависимостей. Естественность предложенного здесь расщепления общей проблемы оптимального управления сложной системой легко пояснить практически на любом примере принятия управлен- управленческого решения. Остановимся, скажем, на примере принятия управленческого решения руководителем производственного или учрежденческого подразделения при зачислении в штат нового сотрудника. Основываясь на знании необходимой ин- информационной базы (в данном случае это целевые установки и возможности подразделения и основные сведения о прини- принимаемом сотруднике), лицо, принимающее решение (ЛПР), 25
должно последовательно проанализировать и решить следую- следующие задачи: а) определить нормативные требования к деятельности сотрудников, т. е. пронормировать их труд (направление I на рис. В.З); б) спрогнозировать возможности сотрудника и, сопоста- сопоставив их с основными целевыми установками подразделения, спланировать его деятельность, включив ее в план общего фронта работ, выполняемых подразделением (направление И); в) при прогнозировании потенциальных возможностей но- нового сотрудника (а в ряде случаев — и при последующей оценке эффективности его деятельности) весьма существен- существенным оказывается умение оценить ряд таких не поддаю- поддающихся непосредственному измерению его качеств, как инициа- инициативность, творческая активность, дисциплинированность, тру- трудолюбие, обязательность, «контактность» с другими членами коллектива и т. п. (направление III); г) в некоторых (особенно непроизводственных) областях деятельности человека оценка эффективности его работы (без которой невозможно оптимальное управление) сводится к весьма трудной задаче построения агрегированного показате- показателя (латентного, т. е. скрытого, непосредственно не измеряе- измеряемого) ее качества (направление IV); д) и наконец, опираясь на решение задач а)—г) и на воз- возможность регулирования параметров (в данном случае стиму- стимулирующего и «штрафного» характера), от которых в определен- определенной мере и в соответствии с некоторой, как правило, статисти- статистической закономерностью зависит уровень эффективности ра- работы сотрудника, ЛПР осуществляет такую «настройку» зна- значений этих параметров, которая обеспечивает, по возможности, оптимальный режим функционирования всей системы, т. е. вверенного ему подразделения (направление V). Остановимся кратко на роли методов статистического ис- исследования зависимостей в разработке каждого из упомяну- упомянутых направлений. S. Нормирование. Общая схема формирования нормативов с использованием методов статистического исследования за- зависимостей может быть представлена следующим образом. Нормативный показатель играет в моделях типа (В.З)—(В.4) роль результирующей (объясняемой) переменной у, а факто- факторы, участвующие в расчете нормативного показателя, — роль объясняющих (предикторных) переменных хA>, л:B), ..., х{р). Предполагается, что привлечение для расчета норматива у полной системы определяющих его факторов, т. е. такой си- 26
стемы, с помощью которой возможно детерминированное (однозначное) определение величины */, либо принципиально невозможно, либо нецелесообразно из-за чрезмерного услож- усложнения расчетных формул. Поэтому анализируется связь между у и (xA>, хB\ ..., х{р>) вида у = f (х<гК х<2\ ..., *0»; в) + е, (В.11) где 8 — остаточная случайная компонента, обусловливающая возможную погрешность в определении норматива у по из- известным значениям факторов хA\ х<2), ..., х{р\ а / (X; G) — функция из некоторого известного параметрического семейст- семейства F ={/ (X; 6)}, в?Л, однако численное значение входя- входящего в ее уравнение параметра Э (вообще говоря, векторно- векторного) неизвестно. С целью подбора «подходящего» значения в проводится контрольный эксперимент (наблюдение), в резуль- результате которого исследователь получает исходные статистиче- статистические данные вида (В.1). Далее на основании этих данных проводится необходимый статистический анализ модели (В. И) с целью получения оценки в неизвестного параметра в и анализа точности полученной расчетной формулы КСр (X) = = / (X; в), в которой величина условной (экспериментальной) средней Кср (X) интерпретируется как средний нормативный показатель при значениях определяющих факторов, равных X. Данный подход использовался, в частности, при разработ- разработке методик расчета численности служащих (по различным их функциям) на промышленном предприятии отрасли по набору технико-экономических показателей, характеризующих пред- предприятие, при построении автоматизированных систем норми- нормирования ремонтных работ [82] и в других областях (см., на- например, ГОСТ 22015—76 «Качество продукции. Нормирова- Нормирование и статистическая оценка качества металлических мате- материалов и изделий по механическим характеристикам»). II. Прогноз, планирование, диагностика. Отправляясь от общей формулировки задачи статистического исследования зависимостей (см. § В. 1) и от ее модельной записи (В. И), определим в качестве результирующей переменной у интере- интересующий нас прогнозируемый (планируемый, диагностируе- диагностируемый) показатель, а в качестве объясняющих (предикторных) переменных хA), х{2\ ..., х(р) — сопутствующие факторы, значения которых содержат основную информацию о величине этого показателя1. Наличие остаточной случайной компоненты ХВ моделях прогноза и планирования в качестве одного из объяс- объясняющих факторов *(*) вводится в явном виде «длина прогноза», или «горизонт планирования», / (в единицах времени). 27
8, как и прежде, отражает тот факт, что переменные л*A\ х{2\ .., х{р) содержат не всю информацию об //, и обусловливает неизбежность погрешности в определении прогнозируемого (планируемого, диагностируемого) показателя по известным значениям объясняющих факторов х{1\ хB), ..., х{р). Исход- Исходные статистические данные вида (В.1) исследователь получа- получает, регистрируя одновременно значения у и (хA), ..., х{р)) на анализируемых объектах в прошлом (в базовом периоде) или на других объектах, но однородных с анализируемыми. Имеется обширная литература по решению задач прогно- прогноза, планирования и диагностики с использованием аппарата статистического исследования зависимостей [4, 29, 31, 47, 80, 93, 128, 144, 152, 1631. В табл. В.З приведены примеры не- некоторых типичных задач этого направления прикладных ис- исследований. Можно было бы продолжить перечень примеров табл. В.З, заполнив их аналогичными, задачами из энергетики (задача оперативного и долгосрочного прогноза потребления электро- электроэнергии), гидрологии, социологии, физики и других областей деятельности человека. III. Оценка труднодоступных для непосредственного на- наблюдения и измерения параметров системы. Восстановление возраста археологической находки по ряду косвенных призна- признаков; прочности бетона с помощью косвенных (неразрушающих) методов контроля (например, по отношению диаметров отпе- отпечатков на поверхности испытуемого образца бетона и на воз- воздействующем на него эталонном молотке [161); денежных сбе- сбережений семьи по ее доходу (в среднедушевом исчислении) — во всех этих ситуациях исследователь вынужден иметь дело с показателями, труднодоступными для непосредственного из- измерения (они выделены в тексте курсивом). Очевидно, для того чтобы иметь принципиальную возможность статистически вы- выявить связь, существующую между труднодоступным показа- показателем у и косвенно связанными с ним, но легко поддающими- поддающимися наблюдению и измерению признаками Л'A), хB>, ..., х(р\ ис- исследователю необходимо располагать исходными статистиче- статистическими данными вида (В.1), которые получают с помощью спе- специально организованного контрольного эксперимента или на- наблюдения [16]. После того как эта связь выявлена (и оценена степень ее точности), она используется для косвенного опре- определения значений труднодоступных показателей лишь по зна- значениям объясняющих переменных х{1\ х{2\ ..., х{рК IV. Оценка эффективности функционирования (или каче- качества) анализируемой системы. Пытаясь оценить (в целом) эффективность деятельности отдельного специалиста, подраз- 28
деления или предприятия, проранжировать страны по неко- некоторому интегральному качеству (например, по степени про- прогрессивности структуры их фондов потребления или всего национального дохода [111), наконец, проставить балльные оценки спортсмену — участнику командных соревнований в игровых видах спорта за качество его игры в определенном цикле [11], мы каждый раз, по существу, решаем (на интуи- интуитивном уровне) одну и ту же задачу: отправляясь в своем ана- анализе от набора частных показателей хA>, х{2\ ..., х<р\ каж- каждый из которых может быть измерен и характеризует какую- нибудь одну частную сторону понятия «эффективность», мы их как бы взвешиваем (т. е. внутренне оцениваем удельный вес их влияния на общее, агрегированное, понятие эффектив- эффективности) и выходим на некоторый скалярный агрегированный показатель эффективности у. Этот показатель — латентный (скрытый), так как он принципиально не поддается непосредст- непосредственному измерению (не существует или нам не известна объек- объективная шкала, в которой он мог бы быть измерен). Но он с некоторой точностью восстанавливается по значениям частных показателей эффективности х{1\ л'B), ..., xipK Это значит, что между латентным агрегированным показателем у и набором частных критериев эффективности хA), хB), ..., х{р) сущест- существует статистическая связь типа (В.И). Главная особенность (и трудность) описываемой ситуации заключается в том, что при получении (сборе) исходной ста- статистической информации вида (В.1) значения результирую- результирующего показателя у могут быть получены только с помощью спе- специально организованного экспертного опроса (значения ча- частных критериев эффективности х{1\ хB>, ..., х{р\ как пра- правило, поддаются непосредственному измерению). Форма экс- экспертной информации о значениях у может быть различной (балльные оценки, упорядочения, парные сравнения [11]). Но только располагая наряду со статистической информацией об X = (хA\ хB), ..., х(рУ>У одной из форм соответствующей экспертной информации об у, мы можем статистически по- построить некоторую аппроксимацию */ср (X) = / (X; в) для агрегированного критерия эффективности функционирования системы и использовать ее затем в качестве формализованно- формализованного метода оценки интегрального понятия эффективности (т. е. уже без привлечения экспертов, а лишь по частным критериям хA\ х{2\ ..., х^). Такая модифицированная форма исполь- использования аппарата статистического исследования зависимостей предложена в [91, развита в [68] и носит название эксперты- статистического метода построения неизвестной целевой функции. 2$
со о Таблица В.З с с '< I 1 2 3 Содержание задачи 2 Прогноз и планирование объема выпускаемой про- продукции по факторам про- производства (построение производственных функ- функций) Прогноз урожайности сельскохозяйственных культур по климатиче- климатическим факторам и факто- факторам сельскохозяйствен- сельскохозяйственного производства Прогноз производитель- производительности труда, анализ ее динамики Прогнозируемый (планируемый, диагностируемый) показатель У 3 Объем валовой продукции Урожайность Производитель- Производительность труда Предсказывающие (объясняющие) переменные *<»>,*<'> дг(Р) 4 л:A) — затраты на труд; *B) — затраты на капи- капитальные вложения; *C) — время (номер го- года) .vA)— сумма весенних «активных температур»; *B) — количество весен- весенних осадков; хC) — механовооружен- ность; *D) — затраты на удобре- удобрения х<1) — фондовооружен- фондовооруженность; хB) — энерговооружен- энерговооруженность; л'C) — время (могут при- привлекаться и другие фак- факторы с учетом специали- специализации производства) Аналитическая запись общего вида исследуемой зависимости (один из вариантов) 5 Уср(*)-0о(А:A)H1 X X (*(*>)*. ев-*C) Уср(*) = 00- П (*(Л)Л или Та же, что и в п. 1 Литература, посвященном данной задаче 6 [31, 47, 80 126, 152] [65] [144]
4 5 6 7 Прогноз объемов потреб- потребления продукции или ус- услуг определенного вида (построение кривых Эн- геля) Анализ динамики нацио- национального дохода и взаи- взаимосвязей его основных составных частей Техническая диагностика Медицинская диагности- диагностика Удельная величина спроса (потребле- (потребления) товаров или услуг определен- определенного вида yt1) — доход в го- году /; yt2) — фонд пот- потребления в году / Показатель техни- технического состояния системы или про- процесса Наличие («тя- («тяжесть») заболева- заболевания х — среднедушевой до- доход Xt — капиталовложения (инвестиции) в году t Значения параметров си- системы или процесса, кос- косвенно характеризующих различные частные ас- аспекты ее технического состояния Результаты медико-био- медико-биологических анализов и тестирование пациентов логистическая кривая F2 > 0) «//B>-б0+е1г/,A>-г-е( (е* — остаточная случайная компонента) Зависит от специфики задачи Зависит от специфики задачи [128] [29, 31, 80] [5, 1451 [163]
Продолжение табл. ?.3 с с 1 8 9 10 Содержание задачи 2 Геологический прогноз (месторождений) Прогноз и планирование конструкционных и тех- технико-экономических ха- характеристик проектиру- проектируемого сооружения Прогноз и планирование надежностных характе- характеристик отдельных узлов и элементов сложного из- изделия Прогнозируемый (планируемый, диагностируемый) показатель у 3 Наличие (уровень) рудоносности вг ис- исследуемом месте Конструкционные и технико-эконо- технико-экономические характе- характеристики проекти- проектируемого сооруже ния Долговечность (продолжитель- (продолжительность жизни до разрушения) эле- элемента Предсказывающие (объясняющие) переменные *(!), *B) $х{р) 4 Процентное содержание эяда сопутствующих элементов в исследуемом месте, их динамика в «геологическом» времени Исходные параметры ме- места и условий строитель- строительства, нормативные зада- задания по основным резуль- результирующим показателям проектируемого соору- сооружения х — величина эксплуата- эксплуатационного напряжения Аналитическая запись общего вида исследуемой зависимости (один из вариантов) 5 Зависит от специфики задачи Зависит от специфики задачи j/cPW = e0+elv*-e' (в, > 0) Литература, посвященная данной задаче 6 [4] [10, 125]
В описанную схему вкладывается широкий класс задач теории и практики измерения комплексного понятия «каче- «качество» сложного'изделия (т. е. квалиметрии [5]): в этих задачах у интерпретируется как агрегированный (комплексный) пока- показатель качества изделия, а *A>, х{2\ ..., *(р> — как отдельные частные характеристики его качества (надежность, экономич- экономичность, удобство пользования, эстетический вид и т. п.). В ка- качестве параметрических семейств F = {/ (X; в)}, привлекае- привлекаемых при статистическом анализе задач данного типа, чаще дру- других используются функции линейные f(X; в)-ео + е1%п> + ...+ер;с«» (ВЛ2) и степенные /(X; Q) = %{xi»f*{xW)**...(xM)*p (B.13) последняя особенно характерна для задач квалиметрии). Остается отметить, что и традиционные подходы аппарата статистического исследования зависимостей (классический ре- регрессионный анализ, метод наименьших квадратов и т. п.) широко используются в практике оценки технического уров- уровня и качества продукции. Это, в частности, отражено и в со- соответствующей официальной документации (см., например, РД 50—149—79: Методические указания по оценке техниче- технического уровня и качества промышленной продукции. Основные положения; ГОСТ 22732—77: Методы оценки уровня каче- качества промышленной продукции и др.). V. Оптимальное регулирование параметров функциониро- функционирования анализируемой системы. Рассмотрим пример [10]. При анализе производительности мартеновских печей на одном из заводов исследовалась, в частности, зависимость между про- производительностью в тонно/часах (для исключения влияния за- задержек и простоев часовая производительность мартеновской печи определялась как частное от деления массы плавки на продолжительность периода от начала завалки до выпуска) и процентным содержанием углерода в металле по расплавле- расплавлении ванны (пробу брали через час после первого скачивания шлака). Результаты замеров по 130 плавкам (т. е. объем п обрабатываемой статистической выборки вида (В.1) равен 130) приведены на рис. В.4. Очевидно, величины производительнос- производительности (yt) и процентного содержания углерода (xt) подвержены не- некоторому неконтролируемому разбросу, обусловленному влия- влиянием множества не поддающихся строгому учету и контролю факторов. Другими словами, последовательность пар чисел ?*ь Уд> i• = 1» 2, ..., 130, представляет в данном случае ре- Зак. 24* 33'
У,т/ч 18 f 17 Iff 15 зультаты 130 независимых наблюдений двумерной случайной величины (?, г)). Однако сквозь кажущуюся хаотичность рас- расположения точек (xi, iji) на рис. В.4 просматривается вполне определенная закономерность зависимости условного средне- среднего значения производительности уСр (х) = Е (г)|? = х) от величины процентного содержания углерода х. Поэтому, рас- располагая статистической зависимостью уСХ) (х), мы можем дать рекомендации технологу по оптимальному (с точки зрения мак- максимизации производительности) управлению процессом выплав- выплавки: поддерживать процентное содержание углерода в пределах 0,6—1,0%. Мы не случайно начали с этого примера. Использование методов статистического иссле- исследования зависимостей в задачах оптимального регулирования хо- хода технологического процесса и построения соответствующих ав- автоматизированных систем управ- управления технологическими процес- процессами (АСУТП) можно отнести к примерам грамотных и относи- относительно распространенных акту- актуальных приложений этого аппа- аппарата [47, 145]. Общая схема таких приложений предусматривает (в дополнение к приве- приведенному выше частному примеру ): а) одновременное рассмот- рассмотрение . нескольких результирующих показателей у^г\ #B\..., у(т> (производительность, качество продукции, расход сырья и энергии и т. п.) и многих регулируемых параметров техно- технологического процесса хA), х{2\ ..., х(р>; б) возможность сбора исходной статистической информации вида (В. 1) в условиях активного эксперимента (см. § В.1, задача 7). Менее освоенным (но не менее правомерным и актуальным) является этот подход в задачах оптимального регулирования: характеристик социально-экономического поведения лю- людей и целых коллективов в ситуациях, когда существует прин ципиальная возможность выявления статистических связей между этими характеристиками и набором объясняющих (и хотя бы частично регулируемых) факторов [40, 128]; характеристик курса медицинского лечения; структуры и объемов нагрузок и видов заданий в процес- процессе профессиональной подготовки специалистов. 0,2 0,4 0}6 0,8 1,0 1,2 1,4 х,% Рис. В.4. Зависимость про- производительности ( г/, т/ч) от процентного содержания углерода (х, %) в металле до расплавления 34
В.5. Основные типы зависимостей между количественными переменными При изучении взаимосвязей между анализируемыми количест- количественными показателями следует установить, к какому именно типу зависимостей относится исследуемая схема. Под типом зависимости мы подразумеваем в данном случае не аналитиче- аналитический вид функции Кср (X) — / (X; 0) в моделях вида (В. 11) (о выборе общего аналитического вида функции / (X; в) см. гл. 6), а природу анализируемых переменных (X, у) и соот- соответственно интерпретацию функции / (X; в) в каждом конкрет- конкретном случае. Зависимость между неслучайными переменными (схема А). В этом случае результирующий показатель */детермипированно (т. е. вполне определенно, однозначно) восстанавливается по значениям неслучайных объясняющих переменных X = = (хA\ х{2\ ..., х(р)), т. е. значения у зависят только от со- соответствующих значений X и полностью ими определяются. Это — обычная схема чисто функциональной зависимости между неслучайными переменными, когда у является некото- некоторой функцией от р переменных X (т.е. у — f (X)), что является вырожденным случаем зависимостей вида (В. 11), когда оста- остаточная случайная компонента е равна нулю (с вероятностью единица). Известно, например, что возраст дерева у (в годах) можно однозначно восстановить по числу колец х на срезе его ство- ствола, а именно у = х. Примеры адекватного описания реальных зависимостей с помощью чисто функциональных (нестохастиче- (нестохастических) связей, к сожалению, крайне редки в практике исследо- исследований. Кроме того, при проведении их анализа нет необхо- необходимости использовать методы вероятностно-статистической теории. Поэтому в дальнейшем изложении мы не будем больше возвращаться к этому типу зависимостей. Регрессионная зависимость случайного результирующего показателя г) от неслучайных предсказывающих переменных X (схема В). Природа такой связи может носить двойственный характер: а) регистрация результирующего показателя г| не- неизбежно связана с некоторыми случайными ошибками измере- измерения е, в то время как предикторные (объясняющие) перемен- переменные X = (хA), хB\ ..., х(р))' измеряются без ошибок (или ве- величины этих ошибок пренебрежимо малы по сравнению с со- соответствующими ошибками измерения результирующего по- показателя); б) значения результирующего показателя г) за- зависят не только от соответствующих значений X, но и еще от 2* 35
ряда неконтролируемых факторов, поэтому при каждом фик- фиксированном значении X* соответствующие значения резуль- результирующего показателя г) (X*) = (г\\Х = X*) неизбежно под- подвержены некоторому случайному разбросу. В этом случае предикторные переменные X играют роль не- неслучайного (векторного при р > 1) параметра, от которого за- зависит закон распределения вероятностей (в частности, сред- среднее значение и дисперсия) исследуемого результирующего по- показателя т]. Удобной математической моделью такого рода за- зависимостей является разложение вида ц(Х) = /(Х) + е(Х), (В. 14) в котором неслучайная составляющая правой части (функция / (X)) описывает поведение условного среднего уСр (X) — = Erj (X) = / (X) в зависимости от X, а остаточная случай- случайная компонента 8 (X) отражает случайную природу rj (X). В широком классе исследуемых схем модель (В. 14) строится таким образом, что математическое ожидание случайного ос- остатка е (X) равно нулю (Ее (X) = 0) тождественно по X; пред- предполагается обычно, что при всех X существует конечная дис- дисперсия е (X) (т. е. De (X) < оо), причем величина этой дис- дисперсии, вообще говоря, может зависеть от X (т. е. De (X) = = а2 (X)). Подчеркнем то обстоятельство, что в описанной модели (В. 14) ни природа случайной компоненты е (X), ни соответственно характеристики ее вероятностного распреде- распределения никак не связаны со структурой функции / (X) и, в частности, не зависят от значений ее параметра в в парамет- параметрической записи модели (т. е. когда вместо всех возможных функций / (X) рассматривают какое-либо параметрическое семейство /(X; G), см., например, (В.12), (В.13)). Если вернуться к примеру В.1, то можно убедиться, что он хорошо укладывается в рамки модели (В. 14). Для этого сле- следует л ишь заметить, что имевшаяся в этом примере возможность контролировать значения предикторной переменной ?, по существу, переводит эту переменную из категории случайных величин в категорию неслучайных (контролируемых) парамет- параметров модели. Дальнейший анализ примера В.1 (см. табл. В.1, формулу (В.5) и рис. В.2) подсказал нам следующую конкре- конкретизацию допущений о природе составных частей модели (В. 14): Ус» (х) = Ел (*) = / (х) = 60 + Q, х\ j 5 — константа, не зависящая от х.
Пример В.2. В табл. В.4 и на рис. В.5 представлены результаты усталостных испытаний алюминиевых сплавов 1125], т. е. набор сорока пар (xit t/i)y i = 1,2, ..., 40, экспери- экспериментальных значений величин х и г\ соответственно. Если при сборе выборочных данных, составляющих дву- двумерную систему наблюдений, производится по нескольку на- наблюдений при каждом фиксированном значении аргумента, а также в случае разбиения диапазона переменной — аргу- аргумента на интервалы группирования Л/А>), в общую схему обо- обозначений двумерной системы наблю- наблюдений (В.1) целесообразно внести некоторые изменения. Так, если к — число различных фиксированных значений предиктор- ной переменной (или количество ин- интервалов группирования Д(^, на ко- которые разбит весь обследованный диа- диапазон этой переменной), а /л,- (/ = 1, 2, ..., к) — количество наблюдений, произведенных при /-м фиксирован- фиксированном значении аргумента (или количе- количество наблюдений, попавших в /-и ин- интервал разбиения Д(*-*), то результаты наблюдений удобнее снабдить двумя индексами, т. е. записать в виде (jcfy, уи), где i ¦=; 1, 2, ..., ft, a /=* 1, 2,.., mf. Здесь первый индекс (/) обозначает порядковый номер фиксированного значения независимой переменной (или порядковый номер интервала группирования), а второй индекс (/•)— порядковый номер наблюдения, про- произведенного приданном 1-мфиксированном значении аргумен- аргумента (или порядковый номер наблюдения, попадающего в /-й ин- интервал группирования). Так, например, под (x:ib, y:ib) пони- понимается результат пятого по порядку наблюдения, произведен- произведенного при третьем фиксированном значении аргумента (или по- попадающего в третий интервал группирования Д^). В наших рассмотрениях будут фигурировать также величины х°\у х\, ..., х°, представляющие собой последовательность различных фиксированных значений аргумента, при которых производи- производились наблюдения (или средние точки интервалов группирова- группирования Д^), а также условные средние зависимой переменной 7 1 7,0 В, 5 6,0 5,0 5,0 Ь,5 • t | - i 1 • • • i • 1 • г 1 1 • 1Л 1,5 X Рис. В.5. Графиче- Графическое представление результатов устало- усталостных испытаний алюминиевых спла- сплавов 37
I 1 2 3 4 i 1 2 3 4 1,28 1,30 1,40 1,48 6,85 6,52 5,52 4,73 mi 10 10 10 10 Уц 6,91 6,60 5,52 4,78 УЦ 6,34 5,95 5,23 4,55 У(8 6,91 6,62 5,53 4,78 G,34 6,04 5,27 4,65 у* 7,02 6,64 6,60 4,84 6,41 6,11 5,32 4,65 7,12 ' 6,71 5,78 4,86 Табл Уи 6,42 6,31 5,39 4,68 Уг 6,71 6,39 5,46 4,72 и да В.4 У'гь 6,80 6,36 5,40 4,72 0,091 0,076 0,020 0,009 = У> = [У и +yi2 +... + yim.Y mi характеризующие средние значения результирующего показа- показателя при каждом фиксированном значении аргумента jc? (или средние значения в каждом отдельном интервале группирова- группирования Д(*;). Очевидно, что в ситуациях, когда производится по несколь- нескольку наблюдений при каждом фиксированном значении аргу- аргумента, мы будем иметь Л11 — Л12 — •'• — ^Irrti — Л1, X2i = Х22 =-=... = Х2т2 = -^2 И Т. Д. В качестве результирующего показателя — случайной пе- переменной г] в нашем примере рассматривается характеристика долговечности образца — нормированная величина лога- логарифма числа циклов N до разрушения образца, а в качестве неслучайной предикторной переменной х — логарифм со- соответствующей величины эксплуатационного напряжения V, Н/мм2 (кг/мм2). Очевидно, долговечность^ образца зависит также от целого ряда неконтролируемых факторов (случайное варьирование условий эксперимента, свойств самих образцов и т. п.), поэтому при каждом уровне напряжения характери- характеристики долговечности будут подвержены некоторому случайно- случайному разбросу около своего среднего. 38
Расположение экспериментальных точек (xit у{) на рис. В.5 указывает на систематическую закономерность в поведении условных средних yt =?- v уи в зависимости от номера /, i j— I т. е. от величины х\ их расположение близко к прямолинейно- прямолинейному. Это приводит к гипотезе о целесообразности представле- представления исследуемой случайной величины выражением (В. 15). Первыми шагами исследователя может быть приближенная оценка прямой уСр (х) — 0о -}- 02Л', а также меры случай- случайного разброса индивидуальных значений г\ вокруг этой прямой, характеризующейся в первом приближении только- эмпирическими дисперсиями s2 (xf). Однако при проведении более точного количественного анализа возникают следующие- вопросы: как наиболее точно провести прямую //ср (х) =00+ + 0i*; как оценить степень точности построенной зависимости; нельзя ли строить математически обоснованные зоны (так на- называемые доверительные интервалы и границы) около иссле- исследуемой прямой, попадание в которые эмпирических индивиду- индивидуальных или средних значений г| при каждом фиксированном х гарантировалось бы с заранее заданной вероятностью? От- Ответы на все эти вопросы и дает регрессионный анализ (см. гл. 5—11). Корреляционно-регрессионная зависимость между случай- случайными векторами г\ — результирующим показателем и I — предикторной переменной (схема С). В данном типе моделей и компоненты вектора результирующего показателя г|, и ком- компоненты вектора объясняющих переменных ? зависят от мно- множества неконтролируемых факторов, так что являются слу- случайными по своей физической сущности. Мы уже сталкивались с такой ситуацией в примере, в котором исследовалась связь между производительностью мартеновских печей и процент- процентным содержанием углерода в металле (см. рис. В.4). Зависи- Зависимости такого типа вообще характерны для описания хода тех- технологических процессов, реальные значения параметров ко- которых ? = (?A), ?B), ..., lip))', равно как и характеризующие их результирующие показатели ц — (ц{1)у ц{2\ ..., r)(m))'» как правило, флюктуируют случайным (но взаимосвязанным) образом около установленных номиналов. В подобных ситуациях оказывается полезным рассмотреть разложение исследуемого результирующего показателя г| на две случайные составляющие по формуле типа (В.З). Первая из них определяется некоторой (векторнозначной) функцией f от объясняющей переменной ?, а вторая отражает остаточные влияния неучтенных случайных факторов на анализируемый 39
результирующий показатель tj. Итак 4«f Ш + e. (В. 16) При этом разложение (В. 16) строится таким образом, что- чтобы для компонент векторов f (?) и е выполнялись соотношения Ее<*> = 0, De<*> = о% < оо, cov (/<*> (?), е<*>) - Е [(/<*> (Н) . е<*>]— — Е/<*> (|)-Е е<*> = 0. В частном случае единственного результирующего показа- показателя (т = 1) и линейного вида функции / (?) имеем: Подразумевая, как и прежде, под #ср (X) = Е (х\\\ = X) условное математическое ожидание результирующего показа- показателя г] (при условии, что объясняющая переменная ? приняла значение, равное X), мы от (В. 17) приходим к линейному урав- уравнению регрессии (В. 18) к= 1 Возможны случаи, когда вторая (остаточная) компонента в разложении (В. 16) с полной мерой достоверности (т. е. с ве- вероятностью единица) равна нулю. При этом исследуемые слу- случайные величины Y] и I оказываются связанными чисто функ- функциональной зависимостью г\ = / (|), но ее следует отличать от функциональной зависимости неслучайных переменных (см. выше, схема А). Пример В.З. Рис. В.6 иллюстрирует связь между вакуумом в печи для отжига стекла ? и процентом брака т| в стекольном производстве [101. Случайные изменения свойств сырья, а также ряда неконт- неконтролируемых факторов приводят к случайным колебаниям обе- обеих исследуемых переменных. Однако расположение точек на рис. В.6 свидетельствует о том, что эти колебания взаимосвя- взаимосвязаны, подчинены вполне определенной закономерности: «об- «облако» рассеяния вытянуто вдоль некоторой прямой, не парал- параллельной ни одной из координатных осей. Все это подтверждает , целесообразность разложения случайной величины г\ по фор- формуле (В. 16) и исследования связи между г| и 5, которая в этом случае носит название корреляционной. К перечисленным во- вопросам регрессионного анализа (построение конкретного вида зависимости между переменными, различные оценки ее точ- точности) в этом случае присоединяется круг вопросов, связанных 40
г: с исследованием степени тесноты связи между этими перемен- переменными. Совокупность методов, позволяющих решать эти во- вопросы, принято называть корреляционным анализом (см. гл. 1—3). Зависимости структурного типа, или зависимости по схеме конфлюэнтного анализа (схемы Dx и D2). В обеих описы- описываемых ниже схемах речь идет о восстановлении искомых за- зависимостей по искаженным наблюдениям анализируемых пе- переменных, причем, в отличие от регрессионной схемы ?, ис- искаженными оказываются при наблюдении не только значения результирующего показателя, но и значения объясняющих (предик- - о/ торных) переменных хA), хB), ..., х(р). В зависимости оттого, между какими именно переменными — неслучайными или случайными — исследуются связи, мы будем иметь соответственно тип связи по схеме Dt или D2. Оба эти типа связей упоминаются в специальной лите- литературе как структурные зависимо- зависимости [65, с. 500—557] или как за- зависимости по схеме конфлюэнтного анализа [7, 10]. Таким образом, конфлюэнтный анализ предоставля- предоставляет исследователю совокупность ме- методов математико-статистической обработки данных, относя- относящихся к анализу априори постулируемых функциональных связей между количественными (случайными или неслучайны- неслучайными) переменными Г = (у^ у™)' и X = (х<>>, *<2\ ... *<">)' в условиях, когда наблюдаются не сами переменные, а слу- случайные величины СУ," су; •• • • •• • *>< • • • • • • X°Z15 Х°3 ? xlfl Рис. В.6. Графическое представление данных по связи вакуума в печи для обжига стекла (?) и процента брака в сте- стекольном производстве (ч) », ?=1,2 р; «/>, /=1,2, ...,т; /=1,2, .... я, (В. 19) (l\ где е *; и еу — случайные ошибки измерений соответственно переменных х(*> и t/» в i-u наблюдении, а п — общее число наблюдений. При этом общий вид исследуемых функциональ- функциональных (структурных)- связей V ' * (В.20) КУ *) /С»)(л;('), .... х(р); в) 41
между ненаблюдаемыми, а точнее, наблюдаемыми с ошибками переменными считается заданным (неизвестным является лишь значение векторного параметра 6 — @lf ..., Qw)t участвую- участвующего в уравнениях искомых зависимостей (В.20)). Схема Dx: исследуемые переменные X = (дгA), ..., xip))f и у = (f/<1), .., f/(m>)' не случайны. Для упрощения обозначе- обозначений проанализируем зависимости (В. 19)—(В.20) в рамках данной схемы лишь для одного результирующего показателя и одной объясняющей переменной (случай т — 1, р = 1): обобщение этого анализа на случай т ;> 1 и р >1 не пред- представляет принципиальных трудностей. Учитывая формулы (В. 19) и (В.20) и воспользовавшись формальным разложением функции / (? — гх) в ряд Тейлора около точки ?, получаем соотношение между г| и ?: Здесь под fW (g) подразумевается k-я производная функции / (/) по /, взятая в точке / = ?. В частности, при линейном ви- виде имеем П = (80 + ОЛ) + (су - в1Ся). (В.22) Из (В.21) непосредственно следует, что уравнение регрес- регрессии г| по с, (т. е. вид зависимости условного математического ожидания f/cp (х) = Е (tj|? = х) от л:) совпадает со структур- структурным соотношением (В.20I. Однако в схеме Dlt в отличие от схем В и С, остаточная случайная компонента в разложениях (В.21) и (В.22) (т. е. соответственно гу + 2) ~?,xJ /c*3 F)" и еу — Ofix) зависит от неизвестных параметров, участвую- участвующих в описании функции / (х) и оцениваемых на основании имеющихся у нас.выборочных данных. Эта специфичность природы зависимости, присущая схе- схеме Dlt сильно усложняет задачу построения хороших оценок для неизвестных параметров, входящих в соотношение (В.20). Дело в том, что достаточно хорошо разработанная теория по- построения таких оценок для схем В и С, в частности оценок мак- максимального правдоподобия, оценок наименьших квадратов, 1Чтобы убедиться в этом, надо при вычислении условного мате- математического ожидания от обеих частей соотношения (В.21) лишь учесть, что условие I = к равносильно условию ех = 0, и, кроме того, восполь- воспользоваться естественным допущением: Ееу = Е (еу|? = х) = 0. 42
оказывается неприменимой к задачам схемы Dx. Так, напри- например, оценки, используемые в регрессионном и корреляционном анализах, при обращении к задачам схемы Dx теряют свои «хорошие» свойства — несмещенность, эффективность и даже состоятельность. Поэтому исследователь должен проявить особую аккуратность на самой первой стадии анализа — при постановке задачи и определении, к какому из известных ти- типов зависимостей следует отнести данный конкретный слу- случай. Соответственно при описании рекомендаций и приемов 135 130 125 120 115 110 105 100 95 90 85 250 270 290 330 350 370 Рис. В.7. Зависимость между пределом прочно- прочности (Тб (кг/мм2) и твердостью по Бринелю Яв (кг/мм2) для 75 образцов одной из плавок стали обработки выборочных данных с целью статистического ис- исследования зависимостей приходится отделять регрессионный и корреляционный анализы (схемы В wC) от так называемо- называемого конфлюэнтного анализа (схемы Dx и D2). Пример В.4. [90] На рис. В.7 и в табл. В.5 приведены результаты испытаний образцов (изготовленных из стали 30XICA) на твердость по Бринелю (Нв) и предел прочности (оь)' в Н/мм2 (кг/мм2). Известно, что при существующих условиях производства и конструирования возможность взаимного перевода показате- показателей прочности и твердости для конструкционных сталей (т. е. возможность взаимного сопоставления этих характеристик типа Нв ^ оь) зачастую является необходимой. Такой пере- 43
вод осуществляется с помощью специальных таблиц, общей основой которых является предположение, что между зна- значениями Нв, оь и Hrc (твердость по Роквеллу) существует чисто функциональная взаимно-однозначная зависимость (т. е. зависимость по схеме А в нашей классификации). Однако при практическом использовании переводных таблиц и формул было обнаружено, что фактические значения механических характеристик часто существенно отличаются от полученных переводом (даже в тех случаях, когда эти таблицы носят узко- узкоспециализированный характер, т. е. когда они составляются и используются лишь для какого-то одного типа полуфабри- полуфабриката и для одной и той же марки стали). Причина же подобной рассогласованности, неточности этих таблиц кроется на самом деле в том, что сама природа связи, существующей между различными механическими ха- характеристиками материалов, например между Нв и obi но- 44 2 262 90,0 275 95,5 335 111,5 356 117,0 383 127,0 3 262 90,5 278 94,0 331 109,5 350 118,5 385 128,0 4 262 87,5 278 93,5 331 109,5 352 117,5 390 129,0 5 263 88,5 277 97,0 341 114,0 354 119,0 383 128,0 6 260 90,0 290 93,5 331 113,0 352 122,0 388 132,0 7 263 87,5 277 94,5 331 110,5 350 116,0 383 128,0 8 262 88,0 275 92,5 339 107,5 352 117,0 380 128,0 9 265 90,5 277 93,5 333 114,5 352 118,0 380 128,0 10 262 88,5 277 94,5 331 112,0 350 120,5 385 130,0 11 257 87,5 275 93,5 331 110,0 352 118,5 388 130,0 12 265 90,0 278 96,5 331 115,0 354 118,0 383 128 0 13 265 87,5 278 92,5 337 110,0 350 118 5 380 129',0 14 265 89,5 275 92,5 341 110,5 352 120' 0 383 129,0 15 263 90,0 277 93,5 327 109,5 354 119,0 384 128,5 Средние значения 262,5 88,9 277,6 94,0 333,4 111,1 352,9 118,6 383,9 128,6 Нв и аь Таблица В.5 Значения И и а. при разной термической обработке ((%'')
сит не функциональный (детерминированный), а стохастиче- стохастический характер. Так, например, на рис. В.7 видно, что при каждом фиксированном значении твердости соответствующие значения предела прочности оь подвержены некоторому не- неконтролируемому разбросу. Более детальный профессионально-статистический анализ [90] приводит нас в данном случае к следующей схеме. На значения Нв и оь, так же как и на вид связи, сущест- существующей между ними, влияют следующие факторы: 1) химический состав плавки тх\ 2) термическая обработка со2; 3) особенности исследуемого образца — локальный хим- химсостав, размеры зерна в зоне отпечатка, локальная термиче- термическая обработка и т. п. со3; 4) погрешности измерения, связанные с приборами, уста- установкой образца и т. п. со4. Если величину твердости по Бринелю (Нв) обозначим ?, а соответствующую величину предела прочности (оь) л> то можно воспользоваться выражением, где роль неслучайных (структурных) компонент хну играют значения ? и г|, взятые для некоторой фиксированной плавки (сох) при некотором фиксированном режиме термической обработки (со2) и усред- усредненные по всевозможным комбинациям факторов со3 и со4 (их «наблюденные значения», полученные усреднением по пятнад- пятнадцати однородным плавкам, изображены на рис. В.7). Что касается остаточных случайных компонент гх и еу, то наличие каждой из них обусловлено в данном случае различиями в особенностях исследуемых образцов (фактор оK). При этом из наших определений следует, что Ее^. = Ееу = 0. Кроме того, специфика данной конкретной задачи такова, что мы вправе принять в качестве исходных предпосылок для даль- дальнейшего исследования следующие допущения: а) между структурными компонентами у и х имеется ли- линейная зависимость вида В. 15, причем коэффициенты 60 и 9lf вообще говоря, зависят от химического состава (от фактора coj), т. е. могут меняться при переходе от одной плавки к другой; б) пары случайных величин (ех, еу) не зависят друг от друга; в) при любых фиксированных сох и оJ (т. е. для любой фик- фиксированной плавки и при любом фиксированном режиме ее термической обработки) существуют дисперсии De^ и Dey; г) «общая» остаточная случайная компонента е = гу — — Э^я подчинена нормальному распределению, параметры которого не зависят от характера термической обработки (т. е. от фактора со2); 45
д) диапазоны изменения структурных компонент х и у во много раз превосходят практические диапазоны остаточных случайных компонент гх и еу (см. рис. В.7). Схема D2: исследуемые переменные I = (?<*>, ..., ?(р>)' и г| = (т]A), ..., rj(m))' случайны. Этот тип зависимости, неред- нередко встречающийся в практике статистических исследований, является в некотором смысле обобщением схемы Dx. Итак, под схемой D2 мы будем понимать такую схему за- зависимости, в которой исследуемые случайные переменные 5 и г| связаны соотношением (В.20), однако наблюдать мы их можем лишь с некоторыми случайными ошибками — соот- соответственно в? и гц. Поэтому экспериментальными данными (*ь Уд в действительности представлены выборочные значения случайных величин (е', г|'), где Б' = Е + <ч, V = л + ?л. (В.23) Обычно предполагают, что ошибки е^ и ел взаимно независи- независимы, но зависят от ? и ц и имеют нулевые математические ожи- ожидания (Ее^ = Еел = 0) и конечные дисперсии (Des <С оо De4 < оо). При этом оказывается, что корреляционные и регрессион- регрессионные характеристики схемы (Н\ ц') могут существенно отли- отличаться от соответствующих характеристик исходной (неис- (неискаженной) схемы (I, г\). Так, например, ниже (см. п. 1.1.4) показано, что наложение случайных нормальных ошибок на исходную двумерную нормальную схему (?, г|) всегда умень- уменьшает абсолютную величину коэффициента регрессии 6Х в соотношении (В. 15), а также ослабляет степень тесноты связи между ? иг| (т. е. уменьшает абсолютную величину коэффициен- коэффициента корреляции г"). Зависимости по схеме D2 имеют место, в частности, в за- задачах исследования хода технологических процессов, когда взаимосвязанные флюктуирующие значения параметров про- процесса (I и г\) могут быть измерены лишь с некоторыми случай- случайными ошибками. В.6. Основные этапы статистического исследования зависимостей Весь процесс статистического исследования интересующих нас зависимостей удобно разложить на основные этапы. Эти этапы ниже описаны в соответствии с хронологией их реали- реализации, однако некоторые из них находятся, в плане хроноло- хронологическом, в соотношении итерационного взаимодействия: ре- 46
зультаты реализации более поздних этапов могут содержать выводы о необходимости повторной «прогонки» (с учетом добы- добытой на предыдущих этапах новой информации) уже пройден- пройденных этапов (см., например, схему взаимодействия этапов 3,4, 5 и 6 на рис. В.8). Излагаемая ниже схема приспособлена в основном для исследования зависимостей между количествен- количественными переменными, однако с минимальными (и очевидными) модификациями она «работает» и при статистическом анализе связей между неколичественными и разнотипными перемен- переменными. Рис. В.8. Схема хронологически-итерационных взаимосвязей ос- основных этапов статистического исследования зависимостей Этап 1 (постановочный). Прежде всего исследователь дол- должен определить: 1) элементарную единицу статистического обследования, или элементарный объект исследования О (это может быть страна, город, отрасль, предприятие, семья, индивидуум, па- пациент, технологический процесс, сложное техническое "изде- "изделие и т. д.); 2) набор показателей (х{1\ х{2\ ..., х^р)\ у{1\ ..., у{т)), регистрируемых на каждом из статистически обследованных объектов, с подразделением их на «входные» (объясняющие) и «выходные» (результирующие) и, если это необходимо, с четким определением способа их измерения; таким образом, на этом этапе каждому элементарному объекту исследования ставится в соответствие перечень анализируемых показате- показателей, т. е. О «_ 3) конечные прикладные цели исследования (см. § В.2), тип исследуемых зависимостей (см. § В.5) и желательную фор- форму статистических выводов (а иногда и степень их точности); 4) совокупность элементарных объектов исследования, на которую мы хотим распространить справедливость действия вы- 47
явленных в результате анализа статистических зависимостей (если, например, элементарная единица — семья, то анализи- анализируемой совокупностью могут быть семьи определенной соци- социальной группы населения или семьи определенной республи- республики и т. д.); 5) общее время и трудозатраты, отведенные на планируе- планируемое исследование и коррелированные с ними временная про- протяженность и объем необходимого статистического обследова- обследования (какую часть анализируемой совокупности подвергнуть статистическому обследованию, производить статистическое обследование в статическом или динамическом режиме и т. д.). Заметим, что именно на этом этапе решаются задачи в) и 1, описанные в § В.1. В решении всех перечисленных вопросов первого этапа ис- исследования главную роль, бесспорно, должен играть «заказ- «заказчик», т. е. специалист той предметной области, для которой планируется проведение этого исследования. Этап 2 {информационный). Он состоит в проведении сбора необходимой статистической информации вида (В.1). При этом возможны две принципиально различные ситуации: 1) исследователь имеет возможность заранее спланировать выборочное обследование части анализируемой совокупно- совокупности — выбрать способ отбора элементарных единиц стати- статистического обследования (случайный, пропорциональный, рас- расслоенный и т. д., см., например, [14, п. 5.4.3]), хотя бы по ча- части объясняющих переменных х{1\ хB>, ..., х^р) назначить уровни их значений, при которых желательно произвести экс- эксперимент или наблюдения (условия активного эксперимента); 2) исследователь получает исходные данные такими, какими они были собраны без его участия (условия пассивного экспе- эксперимента). В любом случае «на выходе» этого этапа исследова- исследователь располагает исходными статистическими данными вида (В.1), т. е. каждому (i-му) из статистически обследованных элементарных объектов исследования О, поставлен в соответст- соответствие конкретный вектор характеризующих его «входных» и «выходных» показателей: О, ч—> (xll\ х\2\ .... *<*>; yll\ уГ, ..., */<">), i = 1,2, ... п. (здесь п — общее число статистически обследованных элемен- элементарных объектов, т. е. объем выборки). Таким образом, на этом этапе решается, в частности, задача 7 из § В 1. Говоря о проведении сбора статистических данных, мы не включаем сюда разработку методологии и системы показа- показателей отображаемого объекта: эта работа предполагает про- 48
фессионально-предметное (экономическое, техническое, ме- медицинское и т. д.) изучение сущности решаемых задач стати- статистического исследования зависимостей, поэтому относится к компетенции соответствующей предметной статистики (эко- (экономической и т. д.) и входит в задачи 1-го этапа исследований. Этап 3 (корреляционный анализ). Этот этап нацелен на решение задачи 2 (см. §В.1), он позволяет ответить на во- вопросы, имеется ли вообще какая-либо связь между исследуе- исследуемыми переменными, какова структура этих связей и как из- измерить их тесноту? Описанию методов, с помощью которых проводится такой статистический анализ, посвящены гл. 1—4. Поскольку перечисленные выше вопросы решаются с помощью вычисления и анализа соответствующих корреляционных характеристик, содержание этапа можно определить как про- проведение корреляционного анализа. Этап достаточно полно ос- оснащён необходимым математическим аппаратом и программным обеспечением, поэтому может быть почти полностью автомати- автоматизирован. Этап 4 (определение класса допустимых решений). Главной целью исследователя на этом этапе является определение об- общего вида, структуры искомой связи между Y и X, или, дру- другими словами, описание класса функций F, в рамках которо- которого он будет производить дальнейший поиск конкретного вида интересующей его зависимости (см. задачи а) и 3 в § В. 1). Чаще всего это описание дается в форме некоторого параметри- параметрического семейства функций / (X; 6), поэтому и этап этот назы- называют также этапом параметризации модели. Так, определив в примере В.1, что поиск зависимости среднедушевых семей- семейных сбережений уср от величины их среднедушевого дохода х мы будем производить в классе F = {60 + Qi*} линейных функций, мы тем самым завершили четвертый этап исследо- исследования (но конкретных числовых значений параметров 0О и 0Х мы к этому моменту еще не знаем). Следует отметить, что, являясь узловым, в определенной мере решающим звеном во всем процессе статистического ис- иследования зависимостей, этот этап в то же время находит- находится в наименее выгодном положении по сравнению с другими этапами (с позиций наличия строгих и законченных математи- математических рекомендаций по его реализации). Поэтому его реализа- реализация требует совместной работы специалиста соответствующей предметной области (экономики, техники, медицины и т. д.) и математика-статистика, направленной на как можно более глубокое проникновение в «физический механизм» исследуе- исследуемой связи. Подходам и методам проведения этого этапа ис- исследований посвящена гл. 6 данного издания. 49
Существует подход к исследованию моделей регрессии, не требующий предварительного выбора параметрического се- семейства функций F в рамках которого проводится дальней- дальнейший анализ. Речь идет о так называемых непараметрических (или частично-параметрических) методах исследования ре- регрессионных зависимостей, которым посвящена гл. 10. Одна- Однако возникающие при их реализации проблемы (необходимость иметь очень большие объемы исходных статистических дан- данных, выбор сглаживающих функций — «окон» и параметров масштаба, .выбор порядка сплайна, числа и положения «уз- «узлов» и т. п.) сопоставимы по своей сложности с проблемами, возникающими при реализации этапа 4. Следующие два этапа — 5-й и 6-й — связаны с проведе- проведением определенного объема вычислений на ЭВМ и реализуют- реализуются, по существу, параллельно. Этап 5 (анализ мульпгиколлинеарности предсказывающих переменных и отбор наиболее информативных из них.) Под яв- явлением мультиколлинеарности в регрессионном анализе по- понимается наличие тесных статистических связей между пред- предсказывающими переменными л;*1), х<2\ ..., х^р\ что, в част- частности, проявляется в близости к нулю (слабой обусловленно- обусловленности) определителя их корреляционной матрицы, т. е. матрицы размера р X р, составленной из парных коэффициентов кор- корреляции ги = г (х^\ jt('">) ([14, с. 155], а также гл. 1—3 дан- данного издания). Поскольку этот определитель входит в знаме- знаменатель выражений для ряда важных характеристик анализи- анализируемых моделей (см. гл. 7—11), то мультиколлинеарность со- создает трудности и неудобства при статистическом исследова- исследовании зависимостей по меньшей мере в двух направлениях: а) в реализации на ЭВМ необходимых вычислительных процедур и, в частности, в крайней неустойчивости получае- получаемых при этом числовых характеристик анализируемых моде- моделей (так, коэффициенты при объясняющих переменных в мо- моделях типа (В. 12), (В. 13) и др. могут изменяться в несколько раз и даже менять знак при добавлении (или исключении) к массиву исходных статистических данных одногб-двух объек- объектов или одной-двух объясняющих переменных); б) в содержательной интерпретации параметров анализи- анализируемой модели, что играет решающую роль в ситуациях, когда конечной целью исследования является цель типа 3 («выявле- («выявление причинных связей» и т. д., см. § В.2, соотношения (В.9) и (В.9')). Поэтому исследователь старается перейти к такой новой системе предсказывающих переменных (отобранных из числа исходных переменных л;A\ х{2\ ..., х{р) или представленных 50
в виде некоторых их комбинаций), в которой эффект мульти- коллинеарности уже не имел бы места. Этап проводится в ос- основном силами математиков-статистиков с подключением (в самом его конце) специалистов соответствующей предметной области для выбора из нескольких предложенных вариантов набора объясняющих переменных, наиболее легко и естест- естественно интерпретируемого. Рекомендации по проведению этого этапа даны в гл. 8. Этап 6 (вычисление оценок неизвестных параметров, вхо- входящих в исследуемое уравнение статистической связи). Итак, в результате проведения предыдущих этапов были решены, в частности, следующие задачи: а) определены результирующие и объясняющие перемен- переменные и тип исследуемой зависимости (В, С или D, см. § В.5); б) собрана и подготовлена к счету па ЭВхМ исходная ста- статистическая информация вида (В.1); в) изучены характер и теснота статистических (корреля- (корреляционных) связей между исследуемыми переменными; г) выбран класс допустимых решений F, т. е. класс (или параметрическое семейство) функций f (X), в рамках которо- которого будет подбираться наилучшая (в определенном смысле) аппроксимация f (X) искомой зависимости типа (В. 14), (В. 16) или (В.20). Теперь можно приступать к определению этой наилучшей аппроксимации f (X), которая является решением оптимиза- оптимизационной задачи вида T(X)=-argextrAn(f), (B.24) f(TF где функционал Дп (f) задает критерий качества аппроксима- аппроксимации результирующего показателя rj (или Y) с помощью функ- функции f (X) из класса F. Выбор конкретного вида этого функцио- функционала опирается на знание вероятностной природы остатков е в моделях типа (В. 14), (В. 16) и (В.21), причем он строится, как правило, в виде некоторой функции от невязок е(*\ ?<?>, ...,7W (k = 1, 2, ..., m), где 7^ = y(ki>-fW(Xi) (один из распространенных вариантов такого функционала, а именно функционал метода наименьших квадратов, упоминается в примере В.1, см. соотношение (В.7')). Если в качестве класса F задаются некоторым параметрическим семейством функций {.! (X; 6)}, то задача (В.24) сводится к подбору (статистиче- (статистическому оцениванию) значений параметров в, на которых до- достигается экстремум по в функционала An (f (X; G)), а со- 51
ответствующие модели называют параметрическими. Эта часть исследования хорошо оснащена необходимым математическим аппаратом и соответствующим программным обеспечением (см. гл. 7—10). Этап 7 (анализ точности полученных уравнений связи). Исследователь должен отдавать себе отчет в том, что найден- найденная им в соответствии с (В.24) аппроксимация f (X) неизвест- неизвестной теоретической функции fT (X) из соотношений типа (В. 14), (В. 16) или (В.21) (называемая эмпирической функцией регрес- регрессии, см. гл. 5) является лишь некоторым приближением ис- истинной зависимости fT (XI. При этом погрешность б в описа- описании неизвестной истинной функции fT (X) с помощью f (X) в общем случае состоит из двух составляющих: а) ошибки ап- аппроксимации бр и б) ошибки выборки б (/г). Величина пер- первой зависит от успеха в реализации этапа 4, т. е. от правиль- правильности выбора класса допустимых решений F. В частности, если класс F выбран таким образом, что включает в себя и не- неизвестную истинную функцию f (т. е. fT (X) ? F), то ошибка аппроксимации 6F = 0. Но даже в этом случае остается слу- случайная составляющая (ошибка выборки) б (/г), обусловлен- обусловленная ограниченностью выборочных данных вида (В.1), на ос- основании которых мы подбираем функцию f (X) (оцениваем ее параметры). Очевидно, уменьшить ошибку выборки мы мо- можем за счет увеличения объема п обрабатываемых выбороч- выборочных данных, так как при fT (X) ? F (т. е. при 6F = 0) и пра- правильно выбранных методах статистического оценивания (т. е. при правильном выборе оптимизируемого функционала каче- качества модели Дп (/)) ошибка выборки б (/г) -> 0 (по вероятно- вероятности) при п -> оо (свойство состоятельности используемой процедуры статистического оценивания неизвестной функции Соответственно на данном этапе приходится решать сле- следующие основные задачи анализа точности полученной ре- регрессионной зависимости: 1) в случае F = {/ (X; в)} и fT (X) ? F, т. е. когда класс допустимых решений задается параметрическим семейством функций и включает в себя неизвестную теоретическую функ- функцию регрессии fT (X), при заданных доверительной вероят- вероятности Р и объеме выборки п указать такую предельную *В дальнейшем, говоря о вектор-функции fT (X), вектор-погрешног сти 6 и векторе результирующих показателей Y (X), мы будем иметь в виду каждую из их компонент в отдельности. 52
(гарантированную) величину погрешности 8Р^п (9Л) для лю- любой компоненты неизвестного векторного параметра 0, что с вероятностью, не меньшей, чем Р (здесь 9,t — истинное значение k-\\ компоненты неизвестного параметра 9, а 0/с — его статистическая оценка); 2) при заданных доверительной вероятности Р, объеме выборки п и значениях объясняющих переменных X указать такую предельную (гарантированную) величину погрешности бр,„ (Гср (X)), что с вероятностью, не меньшей, чем Р (здесь Уср (X) — Е (т]|Х) — неизвестное условное среднее значение исследуемого резуль- результирующего показателя при значениях объясняющих пере- переменных, равных X, a f (X) — построенная в соответствии с (В.24) эмпирическая функция регрессии); 3) при заданных доверительной вероятности Я, объеме выборки п и значениях объясняющих переменных X указать такую предельную (гарантированную) величину погрешности бр.п (У (X)), что У (Х)~Г(Х)|<6/,.Л (/(*)) с вероятностью, не меньшей, чем Р (здесь У (X) — прогно- прогнозируемое индивидуальное значение исследуемого резуль- результирующего показателя при значениях объясняющих перемен- переменных, равных X). Описанию методов анализа точности исследуемых регрес- регрессионных моделей посвящена гл. 11 настоящего издания. Заметим в заключение, что часть исследования, объеди- объединяющая этапы 4, 5, 6 и 7, принято называть регрессионным анализом. ВЫВОДЫ I. Аппарат статистического исследования зависимостей — со- составная часть многомерного статистического анализа — наце- нацелен на решение основной проблемы естествознания: как на основании частных результатов статистического наблюдения за анализируемыми событиями или показателями выявить и описать существующие между ними стохастические взаимо- взаимосвязи. 53
2. Анализируемые переменные величины по своей роли в ис- исследовании подразделяются на результирующие (прогнози- (прогнозируемые) У и объясняющие (предсказывающие, или предиктор- ные) X. Среди компонент векторов У и X могут быть и коли- количественные, и порядковые (ординальные), и классификацион- классификационные (номинальные). 3. Центральным математическим объектом в процессе стати- статистического исследования зависимостей является функция f (Л"), называемая функцией регрессии У по X и описываю- описывающая, как правило1, изменение условного среднего значения Fcp(X) результирующего показателя У (вычисленного при фиксированных на уровне X значениях объясняющих пере- переменных) в зависимости от изменения значений объясняющих переменных X. 4. Конечные прикладные цели статистического исследования зависимостей могут быть в основном трех типов: 1) установ- установление самого факта наличия (или отсутствия) статистически значимой связи между Ки X, исследование структуры этих связей; 2) прогноз (восстановление) неизвестных значений индивидуальных или средних значений результирующего показателя по заданным значениям соответствующих объяс- объясняющих (предикторных) переменных; 3) выявление причин- причинных связей между объясняющими переменными X и резуль- результирующими показателями У, частичное управление значения- значениями У путем регулирования величин объясняющих перемен- переменных X. 5. Разделы многомерного статистического анализа, состав- составляющие математический аппарат статистического исследова- исследования зависимостей, формировались и развивались с учетом специфики анализируемых моделей, обусловленной в первую очередь природой исследуемых переменных. Так, изучение зависимостей между количественными переменными обслужи- обслуживается регрессионным и корреляционным анализами и анали- анализом временных рядов (гл. 1 —12, 14), изучение зависимостей количественного результирующего показателя от неколичест- неколичественных или разнотипных объясняющих переменных — диспер- дисперсионным и ковариационным анализами, моделями типологи- типологической регрессии (гл. 13); для исследования зависимостей в условиях активного эксперимента служит теория оптималь- оптимального планирования экспериментов [2, 3, 136]; наконец, для исследования системы зависимостей, в которых одни и те же *В общей постановке задачи функция f (X) может описывать пове- поведение и других условных характеристик места группирования наблю- наблюдений результирующего признака т] (X), например условной медианы. 54
переменные в разных уравнениях этой системы могут одно- одновременно выполнять и роль результирующих, и роль объяс- объясняющих, служит теория систем одновременных эконометри- ческих уравнений (гл. 14). Аппарат исследования зависимо- зависимостей неколичественных или разнотипных результирующих показателей от количественных или разнотипных объясняю- объясняющих переменных в книге не рассматривается. 6. К основным типовым задачам практики, в которых исполь- использование аппарата статистического исследования зависимостей оказывается наиболее уместным и эффективным, следует от- отнести задачи: 1) нормирования; 2) прогноза, планирования и диагностики; 3) оценки труднодоступных (для непосредст- непосредственного наблюдения и измерения) характеристик исследуемой системы; 4) оценки эффективности функционирования (или качества) анализируемой системы; 5) регулирования пара- параметров функционирования анализируемой системы. Все эти задачи являются основными составными частями центральной проблемы кибернетики — проблемы «управления, связи и пе- переработки информации» (см.: Математическая энциклопе- энциклопедия. Т. 2— М.: Советская энциклопедия, 1979, с. 850). 7. По своей природе исследуемые зависимости могут быть разделены на: 1) детерминированные (тип А), когда исследу- исследуется функциональная зависимость между неслучайными пере- переменными; 2) регрессионные (тип Б), когда исследуется за- зависимость случайного результирующего показателя от не- неслучайных объясняющих переменных — параметров систе- системы; 3) корреляционные (тип С), когда исследуется зависимость между случайными переменными, причем объясняющие пе- переменные могут быть измерены без искажений; 4) конфлюэнт- ные (типы Dt и D2), когда исследуется функциональная за- зависимость между случайными или неслучайными переменны- переменными в ситуации, когда те и другие могут быть измерены только с некоторой случайной ошибкой. 8. Весь процесс статистического исследования зависимостей может быть разбит на семь последовательно реализуемых ос- основных этапов, хронологический характер связей кото- которых дополняется связями итерационного взаимодействия (см. рис. В.8): этап ! (постановочный); этап 2 (информацион- (информационный); этап 3 (корреляционный анализ); этап 4 (определение класса допустимых решений); этап 5 (анализ мультиколлине- арности предсказывающих переменных и отбор наиболее ин- информативных из них); этап 6 (вычисление оценок неизвестных параметров, входящих в исследуемое уравнение статистиче- статистической связи); этап 7 (анализ точности полученных уравнений связи). 55
Раздел I. АНАЛИЗ СТРУКТУРЫ И ТЕСНОТЫ СТАТИСТИЧЕСКОЙ СВЯЗИ МЕЖДУ ИССЛЕДУЕМЫМИ ПЕРЕМЕННЫМИ (корреляционный анализ) Имеется ли вообще какаях-либо связь между исследуемыми пе- переменными, какова структура этих связей и как измерить их тесноту? — эти вопросы исследователь ставит перед собой уже на ранней стадии статистического исследования зависимостей (см. описание этапа 3 в § В.6). В частности, исследователь должен уметь: а) выбрать (с учетом специфики и природы анализируемых переменных) подходящий измеритель статистической связи (индекс или ко- коэффициент корреляции, корреляционное отношение, какую- либо информационную характеристику связи, ранговый ко- коэффициент корреляции и т. п.); б) оценить (с помощью точеч- точечной и интервальной оценок) его числовое значение по имею- имеющимся выборочным данным; в) проверить гипотезу о том, что полученное числовое значение анализируемого измерителя связи действительно свидетельствует о наличии статистиче- статистической связи (или, как говорят, проверить исследуемую корре- корреляционную характеристику на статистически значимое ее отличие от нуля); г) проанализировать структуру связей между компонентами исследуемого многомерного признака, снабдив проведенный анализ специальным плоским геометри- геометрическим представлением исследуемой структуры, в котором компоненты (переменные) изображаются точками, а связи ме- между ними — соединяющими их отрезками (см. рис. 4.1 и 4.2). Описанию методов и моделей, цривлекаемых для решения всех тих вопросов, и посвящен данный раздел. Глава 1. анализ тесноты связи МЕЖДУ КОЛИЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ 1.1. Анализ парных связей 1.1.1. Понятие индекса корреляции. Прежде чем приступать к исследованию конкретного вида связей между рассматривае- рассматриваемыми переменными, т. е. к оценке неизвестных параметров В в соотношениях типа Е(т]|Х)=-/(Х; В), A.1) 50
следует выяснить, существует ли вообще эта связь, и, в слу- случае положительного ответа, попытаться установить степень тесноты этой связи. Во введении (§ В.5) описаны различные типы зависимо- зависимостей, которые могут наблюдаться между исследуемыми пере- переменными. Умение правильно классифицировать каждую кон- конкретную многомерную систему наблюдений играет решающую роль при выборе соответствующих математико-статистических методов поиска изучаемой зависимости и при ее неформаль- неформальной, физически содержательной интерпретации. Однако в данном пункте в целях унификации подхода к ре- решению исследуемой в этой главе задачи мы временно прибег- прибегнем к некоторому формальному обобщению рассмотренных ранее схем В, С и D. В частности, будет предложен подход, при котором во всех вышеупомянутых схемах зависимостей исследуемая независимая переменная интерпретируется как случайная переменная (параметр) ?, от которой зависит за- закон условного распределения зависимой переменной к\. Итак, при каждом фиксированном значении ? *=? X рас- распределение зависимой переменной rj (X) задается плотно- плотностью1 ср (К|Х), зависящей от X. Соответственно будут зависеть от X и математическое ожидание Ег\ (X) == Е (т]|Х) = / (X), и дисперсия Dt] (X) = D (ц\Х) =. o2h2 (X). Природа же ис- исследуемой многомерной схемы, т. е. тип искомой зависимости, будет определяться спецификой частного закона распределе- распределения наблюдаемой независимой переменной ?. Очевидно, в схеме В (наблюдения производятся в фикси- фиксированных точках Xlt ..., Хп без случайных ошибок в регистра- регистрации независимой переменной) случайную величину | следует рассматривать как дискретную с областью мыслимых значе- значений В — {Х1у Х2, ...» Хп} (не исключается возможность пов- повторения одинаковых значений ? в этом ряду) и с частным за- законом распределения г|) (X), задаваемым вероятностями 4>(*i) = M>(*2)=*... «*(*«)= 1/я. В схеме Dx плотность г|> (X) частного распределения опре- определяется, помимо набора наблюдаемых абсцисс Хь Х2, ..., Хп, законами распределения ошибок измерения е*. Если k (k ^ п) — число различных уровней X?, Х5,..., XI струк- структурной компоненты X, при которых снимались эксперимен- хВсе наши рассуждения остаются в силе и для дискретных случай- случайных величин т] (X); при этом лишь надо заменить условные плотности Ф (V| X) на соответствующие условные вероятности ф (У^|Х), где Yo( — возможные значения исследуемого результирующего показателя. 57
тальные данные (Хи ух), (Х2,у2), ..., (Хп,//Г1), а% (X) — плот- плотность распределения ошибки е^о, то где //,- — число наблюдений, произведенных «на уровне» = Л/ . В схемах С и D2 объясняющие наблюдаемые переменные соответственно ? и ?' по своей природе случайны, следователь- следовательно, им также соответствует некоторая плотность частного распределения \р (X). Если рассмотреть случай единственного результирующего показателя ц и мысленно спроектировать все точки исследуе- исследуемой многомерной системы на ось его возможных значений Оу, то получим выборку из одномерного закона с плотностью Ф (//), характеризующего вероятностную природу безусловной случайной величины г\. При такой интерпретации очевидно, что плотность частного (безусловного) распределения ср (у) получается как смесь соответствующих условных плотностей Ф (у\ X), а именно: ср (у) = { ср (у \ X) \р (X) (IX (в схеме В п ф (у) ™ 2ф (У I Xi) У (^i)l B Дальнейшем при усреднении по г() (X) мы не будем специально оговаривать случай схемы В, подразумевая переход от интегрирования по X к суммиро- суммированию по Xi). Соответственно в нашем дальнейшем изложе- изложении будут участвовать характеристики of == D/ (|) = j (f (X) - E/ (?)J г|. (X) dX; В - f a2 Л2 (X) if (X) dX. В j В E [a2 Рассмотрим, например, частный случай схемы С, когда вектор исследуемых показателей )=--AA) ?(р>; п(|)..... л""»)' A.2) 58
— (p + т)-мерная нормальная случайная величина [14, с. 173], и пусть М^ = Е?, Мл = Ет] — соответственно векторы средних значений объясняющих переменных | = (?A\ ?(р))' и результирующих показателей г| = (г|A>, ..., r|(m))', a 2gS, 26л и 2ЧТ1 — ковариационные матрицы [14, с. 138] соответственно векторов ?, ? и т], т]1. Тогда можно показать (см., например, [20, с. 451), что условное распределе- распределение вектора результирующих показателей ц = (т]A>, ..., r}(m))' при условии, что значения объясняющих перемен- переменных зафиксированы на уровне X = (хA), ..., xip))' (т. е. при условии ? = X), также нормально с условным средним зна- значением E(t||g=X) = MT|+STl6S6V(^-M6) A.3) и ковариационной матрицей Е {ft- Щ) (л-М,,)' U = X} = 2ЛТ| - Ел| 2Бу 26т|. A.4) Из A.3) и A.4), в частности, следует: а) функция f (X) = Е (tj | ? = X) регрессии г] по | при совместном нормальном законе распределения исследуемых показателей линейна по X; б) ковариационная матрица условного распределения век- вектора результирующих показателей ц (X) = (tj | ? = X) не за- зависит от X; в) если рассматривается парная регрессионная зависимость, т. е. зависимость единственного результирующего показате- показателя т] от единственной объясняющей переменной 1- в схеме С, причем распределение случайной величины (?, ц) подчиняет- подчиняется двумерному нормальному закону, то условное распределе- распределение случайной величины tj (а:) = (т\ | g == x) тоже нормально с условным средним значением (функцией регрессии) = mt|+ г^(х-тг) A.3') и с дисперсией -ra) A.4') ковариационные матрицы 2^, 2^, 2^ и 2^ получаются из общей ковариационной матрицы 2 вектора (|) ее разбиением на блоки B 2 \ U Si | Соответственно размерности ма- триц 2IV SgTJ, 2n& и 2лл будут: рХр,рХтутХрнтХт. 59
(здесь mi и тц — средние значения соответственно объяс- объясняющей переменной | и результирующего показателя г|, а| и а^ — их дисперсии, а г — коэффициент корреляции между ними, см., например, [14, гл. 5]). Будем рассматривать в дальнейшем (если специально не оговорено противное) случай единственного результирующего показателя, т. е. случай т = 1. Итак, величина о^ = Dx\ характеризует полную вариа- вариацию (дисперсию) исследуемого результирующего показателя х\ч в то время как of = D/ (|) определяет дисперсию функции регрессии уср = / (х), о{](х) — усредненную (по различным значениям ?*) величину условной дисперсии D (ц\% = х), т. е. среднюю величину дисперсии неконтролируемой оста- остаточной случайной компоненты е (см. соотношения (В. 14), (В.16), (В.21)). Воспользовавшись соотношением Bв.3.6) из 1117, с. 94), получим следующее полезное соотношение, связывающее три вышеупомянутые меры случайного разброса: о$= of +<J^ <*)• С1-5) Это означает, что полная вариация исследуемой зависимой переменной складывается из контролируемой нами вариации функции регрессии и из не поддающейся нашему контролю вариации остаточной случайной компоненты. Очевидно, связь между т] и 5 в соотношениях (В. 14), (В. 16), (В.21) и т. п. бу- будет тем теснее, тем определеннее, чем менее «размазанными» окажутся участвующие в них остаточные неконтролируемые оо случайные компоненты е (X), г и е;/ + 2 Ц—e.r)v/v!] /M (?). v=i Можно, в частности, задаться вопросом: какая доля степени изменчивости интересующего нас зависимого признака (т. е. какая доля дисперсии а?) обусловливается изменчивостью описывающей его функции независимой переменной / (?) (т. е. ее дисперсией of)? Так мы приходим к понятию наиболее об- общей характеристики степени тесноты связи между ц и ? — индекса корреляции /п.?, где Из A.5) и A.6) непосредственно следует, что 0 ^ /n.? ^ 1. При этом минимальное значение индекса корреляции (/л.? == = 0) соответствует полному отсутствию варьирования / (?) 60
с изменением ? (af =• 0), а это означает полное отсутствие ка- какого-либо влияния | на г), т. е., как говорят, отсутствие кор- корреляционной связи между результирующим показателем ц и объясняющими переменными ?. В то же время максимальное значение индекса корреляции (/^.g =1) соответствует полному отсутствию варьирования остаточной случайной компоненты (о^х) = 0). А поскольку среднее значение остаточной случайной компоненты равно нулю, то она практически исчезает из разложений (В. 14), (В. 16), (В.21). Это означает наличие чисто функциональной связи между г\ и ? и, следовательно, возможность детермини- детерминированного восстановления значений ц по соответствующим зна- значениям объясняющих переменных i. Таким образом, введенный с помощью A.6) индекс корре- корреляции /л.? между результи-рующим показателем ц и объяс- объясняющими переменными ? формально определен для любой дву- двумерной системы наблюдений. Квадрат его величины (I^.i) показывает, какая доля дисперсии исследуемого результирую- результирующего показателя rj определяется (детерминируется) изменчи- изменчивостью (дисперсией) соответствующей функции регрессии / от аргумента ?, поэтому часто называется коэффициентом де- детерминации. Соответственно оставшаяся доля дисперсии г\ (т. е. 1 — 1ч\-ъ) объясняется воздействием неконтролируемой случайной остаточной компоненты («помехи»), а следователь- следовательно, определяет ту верхнюю границу точности, с которой мы сможем восстанавливать (предсказывать) значения rj по за- заданным значениям объясняющих переменных ?. Наилучшие методы построения статистической оценки /^.t для неизвестного теоретического значения индекса кор- корреляции 1ц.1У так же как и различные варианты его интер- интерпретации, зависят от ряда исходных предпосылок каждой кон- конкретной двумерной схемы (общий вид функции / (?), вид рас- распределения многомерной случайной величины (?, г\) и т. п.). Описание их поэтому дается ниже отдельно для каждого из некоторых специальных частных случаев. 1.1.2. Коэффициент корреляции как измеритель степени тес- тесноты связи в двумерных нормальных схемах. Пусть исследует- исследуется парная зависимость между случайными переменными t] и ? типа С (или между г\ и ?' типа D), см. § В.5. Предполо- Предположим, что имеющиеся в нашем распоряжении результаты на- наблюдения (xlt ух), (х2, у2), ..., (хп, уп) представляют собой вы- выборку из двумерной нормальной генеральной совокупности (см. [14, с. 171]) В этом случае введенный ранее A.6) индекс Корреляции просто выражается через коэффициент корреля- 631
ции г, участвующий в записи уравнения соответствующей дву- двумерной нормальной плотности. Воспользовавшись соотноше- соотношением A.6) с учетом A.4'), получаем /л.8 = г. A-7) С помощью непосредственных вычислений, опирающихся на формулу для плотности двумерного нормального закона, можно показать, что Е[(?-ЕЕ)(тт- Ел)] ^ соу(?, л) (J8) где ковариация cov (?, rj) — второй центральный смешанный момент двумерной случайной величины (?, т\), а ог и оц — среднеквадратические (безусловные) отклонения соответст- соответственно компонент ? и г\. Величина г, определенная соотноше- соотношением A.8), называется коэффициентом корреляции1 и характе- характеризует (в силу A.7)) степень тесноты связи между случайны- случайными компонентами ? и rj. При этом лишь в данном частном слу- случае характеристика степени тесноты связи симметрична от- относительно переменных ? и rj (т. е. r^ = r^t) и имеет под- поддающийся содержательной интерпретации знак «плюс» или «минус». Положительность коэффициента корреляции г оз- означает одинаковый характер тенденции взаимосвязанного изменения случайных компонент ? и ц: с увеличением I мы наблюдаем тенденцию увеличения соответствующих индиви- индивидуальных значений ц и, следовательно, увеличивается услов- условное математическое ожидание Е (г\\1 = х). Отрицательное значение г говорит о противоположной тенденции взаимосвя- взаимосвязанного изменения компонент ? и г| (с увеличением ? умень- уменьшается Е (ц 11 = А'). Выборочное значение г коэффициента корреляции (т. е. статистическая оценка г неизвестного значения г) подсчиты- вается по исходным статистическим данным (х1у ух)у (х2У у2)> ..., (*п, Уп) по формуле 2 U-*)(</*-!/) Т '^ , A.8') 1 *П аВ ситуациях, когда наряду с г рассматриваются частные (см. п. 1.2.2) и мноокхственные (см. п. 1.3.2) коэффициенты корреляции, его называют парным коэффициентом корреляции. 62
где*- -^2ХгИ *"т2 /- 1 /=---1 Определенные соотношениями A.8) и A.8') соответствен- соответственно теоретический и выборочный коэффициенты корреляции могут быть формально вычислены для любой двумерной систе- системы наблюдений; они являются измерителями степени тесно-* ты линейной статистической связи между анализируемыми при- признаками. Однако только в случае совместной нормальной рас- пределенности исследуемых случайных величин \ и г\ коэффи- коэффициент корреляции г имеет четкий смысл как характеристика степени тесноты связи между ними. В частности, в этом, слу- случае соотношение |г| — 1 подтверждает чисто функциональ- функциональную линейную зависимость между исследуемыми величинами, а уравнение г = О свидетельствует об их полной взаимной не- независимости. Кроме того, коэффициент корреляции вместе со средними и дисперсиями случайных величин | и rj составляет те пять параметров, которые дают исчерпывающие сведения о стохастической зависимости исследуемых величин, так как однозначно определяют их двумерный закон распределения (см. [14, с. 171, формула F.9)]). Во всех же остальных случаях (распределения ? и ц от- отклоняются от нормального, одна из исследуемых величин не является случайной и т. п.) коэффициент корреляции можно использовать лишь в качестве одной из возможных характе- характеристик степени тесноты связи. При этом, несмотря на то, что в общем случае пока не предложено характеристики линей- линейкой связи, которая обладала бы очевидными преимущества- преимуществами по сравнению с г, его интерпретация часто оказывается весьма ненадежной. Если же априори допускается возможность отклонения от линейного вида зависимости, то можно постро- построить примеры, когда, несмотря на г = 0, исследуемые пере- переменные оказываются связанными чисто функциональным соот- соотношением (следовательно, /2 = 1). Поэтому о величинах, для которых г = 0; обычно говорят, что они некоррелированы, и только после дополнительного статистического и профессио- профессионального анализа (исследование степени отклонения распре- распределения рассматриваемых величин от нормального и т. п.) можно сказать, следует ли отсюда их независимость. И, на- наоборот, из высокой степени коррелированности величин при сильных отклонениях распределения \ и г) от нормального еще не следует их столь же тесная зависимость. Приведем пример. На рис. 1.1, а представлены данные, характеризующие численность населения | и соответствую- 63
щее число телевизионных точек г\ в девяти городах США— Денвере, Сан-Антонио, Канзас-Сити, Сиэтле, Цинциннати, Буффало, Нью-Орлеане, Милуоки, Хьюстоне1. По формуле A.8') получаем, что коэффициент корреляции г = 0,403; это при п = 9 свидетельствует о весьма малой сте- степени коррелированности ? и ц. Если же к этим данным при- присовокупить соответствующие сведения о Нью-Йорке (х10 = 802; у10 = 345, см. рис. 1.1,6), то объем выборки увеличивается 7], dec.ты с. 7}}дес.тыс. \ 30 10 - - S « а • у'. » • 300 200 то 30 50 70S;, dec. ты С. 400 600 800$,дес.гпыс. Рис. 1.1. Корреляционное поле, характеризующее связь между численностью населения ? и числом установленных телевизи- телевизионных точек т) в США в 1953 г.: а) в девяти городах; б) в десяти городах на единицу (п = 10), а соответственно пересчитанный коэф- коэффициент корреляции г = 0,995. Дело здесь в том, что послед- последнее (десятое) наблюдение является «аномальным», резко вы- выделяющимся, так что всю совокупность наблюдений мы уже не можем считать выборкой из одной и той же нормальной ге- генеральной совокупности (в чем читатель сможет без труда убедиться, воспользовавшись одним из приемов, описанных в [14, § 11.5]). И наконец, даже если удалось установить тесную зависи- зависимость между двумя исследуемыми величинами, отсюда еще не- непосредственно не следует их причинная взаимообусловленность. Например, при анализе большого числа наблюдений, относя- относящихся к отливке труб на сталелитейных заводах, была уста- установлена положительная корреляционная связь между време- временем плавки и процентом забракованных труб [101. Дать какое- либо причинное истолкование этой стохастической связи бы- было невозможно, а поэтому рекомендации ограничить продол- продолжительность плавки для снижения процента забракованных труб выглядели малосостоятельными. Действительно, спустя несколько лет обнаружили, что большая продолжительность 1См.: Мил л с Ф. Статистические методы. —М.: Госстатиздат, 1958. — 799 с. 64
плавки всегда была связана с использованием сырья специ- специального состава. Этот вид сырья приводил одновременно к длительному времени плавки и большому проценту брака, хотя оба эти фактора взаимно независимы. Таким образом, высокий коэффициент корреляции между продолжительностью плавки и процентом забракованных труб полностью обусловливался влиянием третьего, не учтен- учтенного при исследовании фактора — характеристики качества сырья. Если же этот фактор был бы с самого начала учтен, то никакой значимой корреляционной связи между временем плавки и процентом забракованных труб мы бы не обнаружи- обнаружили. За счет подобных эффектов (одновременного влияния не- неучтенных факторов на исследуемые переменные) может ис кажаться и смысл истинной связи между переменными, т. е., например, подсчеты приводят к положительному значению парного коэффициента корреляции, в то время как истинная связь между ними имеет отрицательный смысл. Такую кор- корреляцию между двумя переменными часто называют «ложной». Более детально подобные ситуации — обнаружение и исклю- исключение «общих причинных факторов», расчет «очищенных», или частных, коэффициентов корреляции и т. п. — исследуют методами многомерного корреляционного анализа (см. § 1.2). Такого рода недоразумения с причинным толкованием ста- статистических связей наиболее вероятны в ситуациях, когда ис- исходными статистическими данными являются показатели ра- работы действующего предприятия. Их обычно удается свести к минимуму при получении данных из искусственно постав- поставленного эксперимента. Выборочное значение коэффициента корреляции в приме- примере В.З между процентом забракованного стекла и соответст- соответствующей величиной вакуума в печи для его отжига г — —0,6551. Оно, по-видимому, свидетельствует о наличии определенной зависимости между исследуемыми переменными. Однако ут- утверждать, что повышение вакуума в печи причинно обусловли- обусловливает понижение процента брака, преждевременно: предвари- предварительно следует провести дополнительный профессионально- 1г1ри подсчетах, связанных с примером В.З, здесь и в дальнейшем пользуемся данными, соответствующими рис. В.6. При этом диапазон независимой переменной (т . е. диапазон значений вакуума в печи) раз- разбиваем на шесть равных интервалов шириной 0,5: п = 43; k — 6; т1 = = 3; т2 = 4; т3 = 8; т4 = 13; тъ = 11; те — 4. Далее воспользу- воспользуемся и разбиением диапазона зависимой переменной ц (процента за- забракованного стекла): от 1,5 через 0,5 до 4,5%, так что и число интер- интервалов группирования по вертикальной оси (ky) в данном случае также ршно шести. 3 Зак. 244 65
статистический анализ, в частности выяснить, нет ли в тех- технологических условиях данного эксперимента неучтенного фактора, изменения которого одновременно приводили бы к повышению вакуума и понижению брака производства. Замечания о необходимости известной осторожности при толковании корреляционной связи никоим образом не обесце- обесценивают желательность проверки значимости любого кажуще- кажущегося соотношения. При этом следует использовать характери- характеристики степени тесноты связи: коэффициента корреляции г и корреляционного отношения р (см. ниже). Но не всегда зна- знание этих характеристик оказывается достаточным для получе- получения информации о степени тесноты физической связи между исследуемыми переменными и тем более об их причинной вза- взаимообусловленности. 1.1.3. Распределение выборочного коэффициента корреляции и проверка гипотезы о статистической значимости линейной связи. Какую величину выборочного коэффициента корреля- корреляции следует считать достаточной для статистически обосно- обоснованного вывода о наличии корреляционной связи между ис- исследуемыми переменными? Ведь надежность статистических характеристик, в том числе и л, ослабевает с уменьшением объема соответствующей выборки, а потому принципиально возможны случаи, когда отклонение от нуля полученной вели- величины выборочного коэффициента корреляции г оказывается статистически незначимым, т. е. целиком обусловленным не- неизбежным случайным колебанием выборки, на основании ко- которой он вычислен. Ответить на этот вопрос помогает знание закона вероятностного распределения г. В случае совместной нормальной распределенности исследуемых переменных и при достаточно большом объеме выборки п распределение г мож- можно считать приближенно нормальным со средним, равным „ О—'2J своему теоретическому значению г и дисперсией агг = - - [10, с. 104]. Однако следует учитывать, что при малых значе- значениях п и г, близких к ± 1, это приближение оказывается очень грубым. Кроме того, при малых п следует принимать во вни- внимание, что величина г является смещенной оценкой своего теоретического значения г, в частности Ег = г — [г A — г2)]/2л. Относительно хорошая степень приближения нормально- нормального распределения при малых значениях \г\ позволяет полу- получить простой критерий проверки гипотезы г = 0, т. е. гипо- гипотезы об отсутствии корреляционной связи между исследуе- 66
мыми переменными. Используется тот факт, что величина /(О (п — 2) == . при условии г = 0 распределена по закону Стьюдента сд-2 степенями свободы (см., например, [117, с. 181]. Поэтому если окажется, что — г2 A.9) (здесь /0|05 (п — 2) — 5%-ная точка распределения Стьюден- Стьюдента с п — 2 степенями свободы), то гипотеза об отсутствии кор- корреляционной связи принимается. Используем этот критерий для исследования значимости корреляционной связи в приме- примере В.З: /<о = 7,3; /о.об D1) = 1,68; так что гипотеза об от- отсутствии корреляционной связи между процентом забрако- забракованного стекла и вакуумом в печи для его отжига должна быть отвергнута. Доверительные интервалы для истинного значения коэф- коэффициента корреляции г можно построить из нормальной рас- пределенности г. Концы интервала \г1у г2\ можно вычислять по приближенной формуле f Здесь иа/2> в соответствии с ранее введенными обозначе- обозначениями, — ЮОх- %-ная точка стандартного @, 1)-нормального распределения, так что истинное значение коэффициента кор- корреляции г с доверительной вероятностью 1 — а принадлежит интервалу [гь г2\. Однако использование формулы A.10) со- сопряжено со следующими оговорками: истинное значение ко- коэффициента корреляции не должно быть близким к ± 1; об- общее число наблюдений п должно быть достаточно велико; ве- личина г в поправке к «смещению» г (т. е. в выражении — ) и в дисперсии а2г заменена ее приближенным (выборочным) значением г. Избавиться от этих ограничений позволяет сле- следующее преобразование, предложенное Р. Фишером (см., на- например, [117, с. 3831: « = J-ln J-±2L. A.11) 2 i -? 67
Он показал, что величина z, определенная соотношением A.11), уже при небольших п с хорошим приближением следует нормальному закону со средним Ez ^ - In- + ^ г-. и дисперсией Dz — -^rr- Это позволяет построить довери- доверительный интервал [zlf z2] для Ez по формуле ¦In 1 + Г -r- ~ _7 у^Гз 2 («-I) - arcth ?=F—H , у;ггз 2(n-i) откуда следует, что истинное значение коэффициента корреля- корреляции г с той же доверительной вероятностью 1 — а заключено в пределах thz, <r <thz2. A.12) Здесь th z — это тангенс гиперболический от аргумента z (определяется с помощью соотношения th z — (ez — е—z)! /(ez + e~2)). Соответственно функция, определяющая величи- величину z с помощью соотношения A.11), это есть функция, обрат- обратная к тангенсу гиперболическому; так что часто вместо z — ^ In —— пишут z — arcth г (или z = th-1 г). Нахожде- ние z по данному значению г и, наоборот, определение г по заданной величине z производится с помощью табл. П. 7, в которой в крайних столбцах (левом и правом) приведены зна- значения |г|, а между ними — соответствующие значения |z| — =^ arcth \r\ (знаки у аргумента и функции совпадают, так что если, например, г отрицателен, то и соответствующее значе- значение z = arcth r также отрицательно). Так, задавшись 95%-ной доверительной вероятностью в примере В.З, находим z.s= arcth (—0,655)- —— ¦ = — 1,07; 1 V ; 40 2,42 68
С помощью табл. П.7 находим: th zx = —0,79; th z2 == = —0,44, так что с вероятностью 0,95 имеем — 0,79 <С г <; < —0,44. Использование z — преобразованной величины г — ока- оказывается более предпочтительным и при проверке значимое!и корреляционной связи, когда число наблюдений п мало. При построении доверительных интервалов для коэффи- коэффициента корреляции, так же как и при проверке статистической значимости корреляционной связи, можно пользоваться спе- специальными таблицами и графиками, в частности номограммой, изображенной на рис. 1.2. Так, для построения доверительного интервала с помощью приведенных на рис. 1.2 номограмм следует отложить значе- значение выборочного коэффициента корреляции г на горизонталь- горизонтальной оси и провести через эту точку вертикальную прямую. Ординаты г, и г2 (^ < г2) пересечения этой вертикальной прямой с двумя кривыми, над которыми надписан объем ис- используемой выборки, и являются граничными точками иско- искомого доверительного интервала, т. е. гх < г <г2. Рис. 1.2, а дает решение поставленной задачи с доверительной вероят- вероятностью Р = 0,95, а рис. 1.2, б — с доверительной вероят- вероятностью Р = 0,99 Критерий однородности двух или нескольких выборочных коэффициентов корреляции. Пусть по выборкам объемов пг и п2 из каких-то двух нормальных генеральных совокупно- совокупностей получены выборочные значения коэффициентов корре- корреляции г<1> и лB). Можно ли признать различие в значениях лA> и г<2> статистически значимым или же это различие обуслов- обусловлено случайными колебаниями выборок, следовательно, по- полученные величины гA> и гB) не противоречат гипотезе о том, что две рассмотренные генеральные совокупности имеют один и тот же теоретический коэффициент корреляции? Для статистической проверки этих предположений исполь- используется факт приближенной @, 1)-нормальной распределенно- сти статистики (справедливый лишь в предположении истин- ноет и гипотезы об однородности г^1) и г<2)) 7==B<П ~21*>I л/ —Ц / Г п\~': о — 3 где z(/> (i = 1, 2) подсчитываются по формуле A.11) соот- соответственно отдельно по первой (i = 1) и по второй (/ ~ 2) выборкам. 69
цо ,7 -,& -,5 -f4 -}3 -,2 -,1 0 +,1 +,2 +,3 *,» +,5 +,6 +,7 +,8 +,9 1,0 +,9 ««. +; -1,0 1 ¦1,0 -,9 -,S -,7 -,6 -j5-,4 -гЗ -Л2 -, Шкала Отборочного коэффициента корреляции р Рис. 1.2. Номограмма для построения доверительных интервалов для выборок с доверительной вероятностью: а) Р = 0,95; б) Р = 0,99 В частности, если оказалось, что |у| > иа, то различие  между гA> и гB> признается статистически значимым (с уров- уровнем значимости а). Пусть теперь г(|), г{2\ ..., /•<''*> — /г коэффициентов корре- корреляции, полученных по выборкам объемов пь п2, .... п^ из k каких-то нормальных генеральных совокупностей. Можно ли считать, что, несмотря на видимые различия в значениях выборочных коэффициентов корреляции гA), лB), ..., г(*\ значение теоретического коэффициента корреляции г остается одним и тем же во всех обследованных генеральных совокуп- совокупностях? Если допустить справедливость утвердительного от- ответа на поставленный вопрос, то статистика 70
-1.0 -9 -В -.7 -,В -5 -4 -3 -,2 -,/ -1,0 -10 -Т3 -,В -,7 -,В -,5 -,4 -,3 -,2 -J О +,/ +,2 +,3 +,4 Шкала Выборочного коэффициента корреляции г истинного значения коэффициента корреляции при различных объемах A.13) должна приближенно подчиняться ^-распределению с k — I степенью свободы (здесь г('">, как и прежде, подсчитываются отдельно по каждой отдельной выборке по формуле (l.ll)). Поэтому если окажется, что подсчитанное по формуле A.13) значение х2 >%а {k — I), где Ха (k — 1)--величина 100а %- ной точки х2"Распределения с k — 1 степенью свободы (см. табл. П.4), то гипотеза об однородности выборочных коэффи- 71
циентсв корреляции г<х\ г<2>, ..., г<Л> отвергается (с уровнем значимости а). В табл. 1.1 приводится пример вычислений по схеме опи- описанной процедуры (заимствован из [117, с. 386]). "— (\ 8 231 J Значение %2 - 4,4995 — ( '^ J = 1,0009 в данном при- мере оказалось существенно ^меньше 5%-ной точки ^-распре- ^-распределения с пятью степенями свободы (Хо,о5 E) = 11,07), так что следует признать непротиворечивость полученных выбо- выборочных значений коэффициентов корреляции @,318; 0,106; 0,253; 0,340; 0,116 и 0,112) с гипотезой об их однородности. Номер выборки @ 1 2 3 4 5 6 Сумма Объем вы- выборки ми- минус три (л.-З) 7 И 13 17 22 25 95 Выборочный коэффициент корреляции 0,318 0,106 0,253 0,340 0,116 0,112 0,3294 0,1064 0,2586 0,3541 0,1164 0,1125 Та (П-3J{1) 2,3058 1,1704 3,3618 6,0197 2,5608 2,8125 18,2310 блица 1.1 IS \ 2 (п-3)г{1) 0,7595 0,1245 0,8694 2,1316 0,2981 0,3164 4,4995 1.1*4. Влияние ошибок измерения на величину коэффициента корреляции. Пусть мы хотим оценить степень тесноты корре- корреляционной связи между компонентами двумерной нормаль- нормальной случайной величины (?, г|), однако наблюдать мы их можем лишь с некоторыми случайными «ошибками измерения» соответственно е& и е^ (см. схему зависимости D2 во введе- введении). Поэтому экспериментальные данные (xiy yt)y i = 1, 2, ..., л, — это практически выборочные значения искажен- искаженной двумерной случайной величины (?', г)'), где ?' = ? + + Ц ит] =т| -f en. Если предположить, что е^ и еп взаимно независимы, не зависят от | и rj, нормальны, имеют нулевые математические ожидания и конечные дисперсии соответствен- соответственно а? и а|, то двумерная случайная величина (?', г)') будет также подчиняться двумерному нормальному распределению. Однако, как легко подсчитать, параметры этого распределе- распределения и, в частнпгти коэффициент корреляции т' между ?' 72
и г)' будут соответственно отличаться от параметров исход- исходной двумерной схемы (?, т|). Действительно, в соответствии с основными правилами вычисления первых и вторых момен- моментов [14, гл. 5] получаем: A.14) Г =2 Из A.14), в частности, следует, что коэффициент корреля- корреляции признаков, на которые наложены ошибки измерения, всегда меньше по абсолютной величине, чем коэффициент корреляции исходных признаков. Другими словами, ошибки измерения всегда ослабляют исследуемую корреляционную связь между исходными переменными, и это искажение тем меньше, чем меньше отношения дисперсий ошибок к диспер- дисперсиям самих исходных переменных. Формула A.14) позволяет скорректировать искаженное значение коэффициента корреля- корреляции: для этого нужно либо знать «разрешающие» характери- характеристики измерительных приборов (и, следовательно, величины дисперсий ошибок о\ и о\), либо провести дополнительное исследование по их выявлению. 1.1.5. Измерение степени тесноты связи при нелинейной за- зависимости. При отклонениях исследуемой зависимости от линейного вида, как уже отмечалось, коэффициент корреля- корреляции г теряет свой смысл как характеристика степени тесноты связи. В этих случаях исследователь должен воспользоваться имеющимися у него двумерными выборочными данными (xi> #i)> (*2> #г)> •••» (хп> Уп) с целью построения оценок для определенной выше, в некотором смысле универсальной те- теоретической характеристики степени тесноты связи — индек- индекса корреляции /л.? (см. формулу A.6)). Способ построения таких оценок выбирается в зависимости от природы имеющих- имеющихся у нас выборочных данных и от характера некоторых до- дополнительных допущений. Корреляционное отношение. Наиболее привлекательной в этом смысле является ситуация, в которой характер выбо- выборочных данных (их количество, «плотность» расположения на плоскости) допускает их группировку по оси объясняющей 73
переменной и возможность подсчета так называемых «част- «частных» средних ординат уг внутри каждого (/-го) интервала груп- группирования. Пусть такое группирование данных произведено. При этом, как обычно, k — число интервалов группирования по оси абсцисс; m,- (i = 1, 2, ..., k) — число выборочных то- Щ чек, попавших в/-и интервал группирования; #/ = B УиIт1 — среднее значение ординат точек, попавших в i-и интервал группирования. Тогда, как легко понять, выборочным анало- аналогом (оценкой) введенной ранее дисперсии of будет величина где общее среднее y = Соответственно получаем оценку для /^.g в виде где выборочная дисперсия s? индивидуальных результатов наблюдения уи около общего среднего у вычисляется по фор- формуле ,• 1 • I Величину рл.? принято называть корреляционным от- отношением зависимой переменной ч\ по независимой перемен- переменной ?. Его вычисление не обременено никакими дополнитель- дополнительными допущениями относительно общего вида регрессионной зависимости A.1). Однако, в отличие от коэффициента корре- корреляции, корреляционное отношение несимметрично по отно- отношению к исследуемым переменным, т. е., вообще говоря, рл.? ф р|.л. Кроме того, корреляционное отношение, по определению, является величиной неотрицательной1, так как под ним подразумевается результат извлечения арифметиче- арифметического значения корня квадратного из р2. В остальном свойства корреляционного отношения во мно- многом похожи на свойства коэффициента корреляции. Из A.5) 1Иногда, в частности при монотонном характере регрессионной функции A.1), корреляционному отношению приписывают знак, сов- совпадающий со знаком первой производной этой функции. 74
и A.6), в частности, немедленно следует, что подобно коэффи- коэффициенту корреляции корреляционное отношение не может быть больше единицы. Из |р| = 1 следует наличие однозначной функциональной связи между г\ и ?, и, наоборот, однозначная функциональная связь между т| и ? свидетельствует о том, что |р| = 1. Далее, отсутствие корреляционной связи между к\ и ? означает, что условные средние yt сохраняют постоянное значение, равное общему среднему */, а потому рлд = 0. Наоборот, если Ря/? ^ 0» т0 У'1 = У* и» следовательно, частные средние yt не зависят от л;, т. е. соответствующая -линия регрессии па- параллельна горизонтальной оси. Отметим, что между рл/? и р|/л нет какой-либо простой зависимости. Некоррелированность т| с ? (т. е. равенство ну- нулю величины рч/$) не влечет за собой непосредственно некор- некоррелированности ? с т]. Возможны ситуации, в которых один из этих показателей принимает нулевое значение, в то время как другой равен единице. Допустим, например, что т| = ?2 и I принимает значения: —1, Ь и +1 с вероятностями 1/3 каждое. В этом случае рл/^ = 1, р6/л = 0 (в силу симмет- симметрии параболы относительно оси т| и симметричности распре- распределения I). Можно показать, что корреляционное отношение р не мо- может быть меньше абсолютной величины коэффициента корре- корреляции г, характеризующего зависимость между теми же пе- переменными. В случае линейной зависимости эти две характери- характеристики связи совпадают. Это позволяет использовать величину разности рл/? — г2 в качестве меры отклонения регрессион- регрессионной зависимости от линейного вида (см. п. 6.3.3). И наконец, все замечания относительно смысловой интер- интерпретации коэффициента корреляции г (в частности, о логиче- логическом соотношении понятий «корреляционная зависимость, связь между переменными, их причинная взаимообусловлен- взаимообусловленность») остаются в силе и для корреляционного отношения. Проверка гипотезы об отсутствии корреляционной связи* Какую величину корреляционного отношения можно при- признать статистически значимо отличающейся от нуля, т. е- достаточной для статистически обоснованного вывода о нали- наличии корреляционной связи между исследуемыми переменными? Ведь так же, как и в случае прямолинейного типа зависимости, принципиально возможны ситуации, когда отклонение от ну- ля полученной величины корреляционного отношения р яв- является статистически незначимым, т. е. обусловленным лишь 75
неизбежными случайными колебаниями выборки. Для по- построения соответствующего критерия воспользуемся фактом приближенной F (k — 1, п — &)-распределенности случайной величины k~] справедливым в предположении, что /71 .^ = 0 (или, что то же, рл.? = 0) и что условные распределения зависимой пе- переменной ц (х) при любом фиксированном х описываются нор- нормальным законом с постоянной дисперсией а2 (см., например, [65, с. 4011). Поэтому, если окажется, что n-k то гипотеза об отсутствии корреляционной связи между г) и 5 отвергается с уровнем значимости а (здесь, как и ранее, Va (k — 1, п — k)— 100а %-ная точка /'-распределения с чи- числом степеней свободы числителя k — 1 и знаменателя п — ky находится из табл. П.5). При выполнении обратного нера- неравенства значение корреляционного отношения рл.| призна- признается статистически незначимым, т. е. делается вывод об от- отсутствии корреляционной связи между т| и ?. Доверительные интервалы для истинного значения корреля- корреляционного отношения p4.s можно построить, опираясь на тот факт, что статистика приближенно подчиняется так называемому «нецентральному /'-распределению», который оказывается справедливым в пред- предположении (/ (х), а2)-нормальности случайных величин т| (х) и при любом отличном от нуля истинном значении корреля- корреляционного отношения рл.? = р. 76
Действительно, как известно (см., например, [14, гл. 6]), случайная величина F(vl9 v2; d)^ — у подчиняется нецентральному F-распределению с числами сте- степеней свободы числителя и знаменателя соответственно vx и v2 параметром нецентральности а, если ?1э ?2> ..., tVl, Yb 72» •••» 7v2 суть взаимно независимые нормальные случайные величины, обладающие одинаковыми дисперсиями, причем EYi = EY2 = ••• r^ Eyv8 = 0, a (El^ + (E^ + ...+(F^f = a. A.18) Намечая доказательство сформулированного выше утвер- ждения о статистике F (р) определенной формулой A.17), заметим, что в нашем случае в роли случайных величин ?г, грубо говоря, выступают значения }^тг (уг—у), а в роли случайных величин Yy = У и — значения уи — yt. Отметим также следующие соотношения, в справедливости (в некото- некоторых случаях приближенной) которых нетрудно убедиться: l 1 k—\ 1 n — k к Jam k 2 2 Gi- yf Уг) »1 — (здесь / (x) — неизвестная нам функция регрессии ц по Е; л:? — средняя точка /-го интервала группирования по оси асб- цисс, а / — среднее значение функции регрессии): 77
И наконец, параметр нецентральности в соответствии с A 18) и с учетом A.6) в нашем случае имеет вид Далее воспользуемся тем (см., например, [30, с. 99]), что распределение статистики v* F (vlt v2; а) при vx ^ 8 достаточно хорошо аппроксимируется обычным (центральным) /•"-распределением с числом степеней свободы числителя, при- приблизительно равным vt = /V|]To )» и числом степеней сво- свободы знаменателя, равным v2. Поэтому в нашем случае рас- распределение статистики (k \)\\ — p^.g/ ' 'I*5 приближенно описывается /^-распределением с числом степе- степеней свободы числителя Vf= J 1^L1L_ A.19) и числом степеней свободы знаменателя v2 — п — k. Таким образом, получаем следующее правило построения приближенных доверительных интервалов для истинного значения корреляционного отношения рл.|1 1) пользуясь формулой( 1.16), вычисляем точечную оценку Для истинного значения корреляционного отношения р| Рп?; 2) по формуле A.19) подсчитываем вспомогательное число степеней свободы v* числителя для аппроксимирующего цент- центрального /^-распределения; 3) задавшись уровнем доверия Р = 1 — 2а, с помощью табл. П.5 находим 100 A — а)%-ную точку i>?_a (vf, n — k) и 100a %-ную точку и^ (v[, n -- к) F-распределения с числом степеней свободы числителя v| и знаменателя п — к\ 4) утверждаем, что приблизительно с вероятностью Р — 78
= 1—2а истинное значение корреляционного отношения рл.? удовлетворяет неравенствам (л —*)Тч.? k— 1 —, A.20) Проиллюстрируем работоспособность описанного метода на следующем примере. Пусть в результате обработки 132 экс- экспериментальных точек (xiy yt) (i — 1,2, ..., 132) получено вы- выборочное значение корреляционного отношения р == 0,60. При этом мы воспользовались разбиением диапазона изменения независимой переменной на k = 12 равных интервалов груп- группирования. Соответственно получаем в качестве вспомога- вспомогательного числа степеней свободы числителя величину v* =• 02—1 + 132-о,зб/2 О7 . = \2_i 4-2-132-0 36 ^ (частное округляем до целого чи- числа). Задавшись доверительной вероятностью Р =¦ 0,90, из табл. П.5 находим (полагая a ~ 0,05): ^§,05B7,120) «.1,58; «8.95 B7,120) ^ ! ^—— » 0,58. o8.eeA20,27) 1,73 И наконец, в соответствии с формулой A.20) находим ле- вый (pmin) и правый (ртах) концы доверительного интервала для истинного значения p^.g: р^ 12°'°-36^—0,24; 132 132-0,64.1,58 132 120-°'36 Я-0,87. 132 V 132-0,64.0,58 132 Таким образом, при точечной оценке р^ ^0,6 истин- истинное значение заключено в пределах от ]/0,24 до ]/0,87 с ве- вероятностью, приблизительно равной 0,9, т. е. 0,49 < рл.| < < 0,93. В этом примере хорошо видна существенная несимметрич- несимметричность концов интервальной оценки относительно точечной оценки (правый конец интервальной оценки отстоит от то- точечной оценки на 0,33, в то время как левый конец — всего лишь на 0,П). 79
Для значений точечных оценок р2, близких к нулю или к единице, левый или правый конец интервальной оценки мо- может терять содержательный смысл, выходя за пределы отрез- отрезка [0, 1]. В этом случае в качестве левого или правого конца интервальной оценки следует брать соответствующее гранич- граничное значение — нуль или единицу (причина подобных нежела- нежелательных ситуаций — в аппроксимационном подходе к реше- решению данной задачи). Однако описанный прием все-таки сле- следует признать гораздо более точным, чем применяемый иног- иногда метод построения интервальных оценок для рл.?, необос- нованно использующий приблизительную (р, —з~)-нормаль- ^ Vn ность статистики p^.g. Оценка индекса корреляции по несгруппированным дан- данным. Если характер имеющихся у нас выборочных данных (*ь Уд, i ~ 1» 2, ..., п, таков, что не допускает их сколько- нибудь удовлетворительной группировки по оси объясняющей переменной (недостаточно велико пу точки (хи уь) слишком «разрежены» на плоскости), то построению оценок для 1\.% мы вынуждены предпослать принятие той или иной гипотезы об общем виде регрессионной функции A.1). О статистических методах проверки подобного рода гипотез см. ниже, гл. 6. Пусть, например, в результате анализа, описанного в гл. 6, нами принята гипотеза о том, что интересующая нас регрес- регрессионная зависимость уср = / (х) имеет вид алгебраического полинома второго порядка, т. е. уср = Е (т]|| = х) = 0О + + Qxx + Q2x2. Тогда для оценки введенной ранее характери- характеристики степени тесноты связи между исследуемыми перемен- переменными т] и ^ — коэффициента детерминации 1\.% (или индекса корреляции 1^.%) исследователю приходится вначале вычис- лить оценки 80, 0Х и 02 для неизвестных параметров — ко- коэффициентов 90, 0J и 02, входящих в уравнение регрессии (см. гл. 7). И лишь после этого, ориентируясь на правую часть формулы A.6), мы получим в качестве оценки для /^.^ величину: / = 1
так как нетрудно показать [65], что величина П — О *¦* / = 1 является в данном случае^выборочным аналогом (оценкой) теоретической дисперсии о^х)у участвующей в A.6). Пусть в общем случае нами принята гипотеза об общем ви- виде интересующей нас зависимости уср = Е (ц\1 = х) = / (х; 0О, 8Ь ..., 0Р), где / — некоторая известная функция аргумен- аргумента ху зависящая от (р + 1)-го неизвестного параметра 90, 0Ь ..., Qp. Тогда, пользуясь рекомендациями гл. 7, строим оценки 0О, 0lf ..., 0Р неизвестных параметров, входящих в описание функции регрессии, после чего вычисляем оценку /^.g коэф- коэффициента детерминации /?,.? по формуле A.21) Замечание. Можно показать, что, как и следовало ожидать, в частном случае f (х\ 0О, 0Х, ..., 0Р) = 0О + 0i^ оценка, определяемая соотношением A.21), совпадает с квад- ратом выборочного коэффициента корреляции (г2). Следует отметить, что вычисление и использование выбо- выборочных характеристик степени тесноты связи типа A.21) за- затруднено по меньшей мере тремя обстоятельствами: 1) необ- необходимостью предварительного выбора общего вида регресси- регрессионной зависимости; 2) необходимостью предварительного вы- вычисления оценок для входящих в уравнение регрессии неиз- неизвестных параметров; 3) отсутствием строгих рекомендаций по их проверке на статистическую значимость и по построе- построению соответствующих интервальных оценок. 1.2. Анализ частных («очищенных») связей 1.2.1. Трудности в интерпретации парных корреляционных характеристик, связанные с опосредованным одновременным влиянием других переменных. Выше (см. п. 1.1.2) приведен пример ситуации, в которой специалисты (технологи) некото- 81
рое время не могли дать содержательного объяснения стати- статистически выявленной положительной парной корреляционной связи между исследуемыми показателями: процентом брака в трубном производстве и продолжительностью плавки стали, из которой эти трубы делались. Вытекающая отсюда практи- практическая рекомендация — снижать, по возможности, продолжи- продолжительность плавки с целью понижения процента брака — вы- выглядела явно несостоятельной. И лишь позже выяснилось, что объяснение следует искать в одновременном опосредованном влиянии на эти два показателя третьего фактора—типа ис- используемого сырья: использование сырья определенного типа приводило к тенденции одновременного увеличения обоих ис- исследуемых показателей — и длительности плавки, и процента брака. Аналогичные трудности в интерпретации получаемых в результате статистического анализа парных корреляционных характеристик испытывают часто специалисты и в других областях деятельности (см. примеры в п. 1.2.4), причем роль опосредованно влияющего на оба изучаемых показателя фак- фактора может играть и целое множество неучтенных переменных. Это обстоятельство делает необходимым введение таких измерителей статистической связи, которые были бы «очи- «очищены» от опосредованного влияния других переменных, да- давали бы оценку степени тесноты интересующей нас связи меж- между переменными у и *</> (или x{i) и *</>) при условии, что зна- значения остальных переменных зафиксированы на некотором постоянном уровне. В этом случае говорят о статистическом анализе частных (или «очищенных») связей и используют со- соответственно частные («очищенные») коэффициенты корреля- корреляции или другие корреляционные характеристики. 1.2.2. Частные коэффициенты корреляции и их выборочные значения. Поставим в соответствие каждой из ранее введенных парных характеристик статистической связи между перемен- переменными *<*> и *</> (/, / = 0, 1, ..., р; *@> S3 у) частную («очищен- («очищенную») характеристику, определяемую по той же формуле, но только для условного распределения [14, гл. 51 <р (*(*>, х(/) | |Х(/|/) = х). Здесь ф — это функция плотности вероятности (если x{i\ x{ti непрерывны) или полигон вероятностей (если х^\ хМ дискретны); Х(/''> — множество переменных, до- дополняющих пару (х^\ х^>) до полного набора рассматривае- рассматриваемых (наблюдаемых) переменных X = (х@>, хA>, ..., *(р))> ах — (р — 1)-мерный вектор, определяющий заданные уров- уровни, на которых фиксируются значения «мешающих» перемен- переменных ХМ). Есть два взаимосвязанных обстоятельства, кото- которые препятствуют широкому практическому использованию частных характеристик статистической связи в общем случае: 82
частные характеристики статистической связи, вообще го- говоря, зависят от заданных уровней х мешающих переменных (как их выбирать в каждом конкретном случае?); для подсчета выборочных значений частных характери- характеристик статистической связи необходимо иметь выборку спе- специальной структуры, обеспечивающей наличие хотя бы не- нескольких наблюдений при каждом из заданного ряда фикси- фиксированных значений х мешающих переменных. Можно, однако, показать (см., например, [20, 65]), что если исследуемые случайные переменные (х@), х{1\ ..., х(р)) подчиняются многомерному нормальному закону (см. [14, п. 6.1.51), то указанные неудобства автоматически исчезают, так как в этом случае частные коэффициенты корреляции не зависят от уровней мешающих переменных х, определяющих условие в соответствующем условном распределении. В ча- частности, имеет место следующая формула (при условии невы- невырожденности (р + 1)-мерного нормального закона): г//.х ('• /> A.22) где rijX{i4) — частный коэффициент корреляции между пе- переменными x{i) и хМ при фиксированных значениях всех ос- остальных переменных Х(Л'\ a Rkt — алгебраическое допол- дополнение для элемента rhl в определителе корреляционной ма- матрицы R анализируемых признаков х{0) == у, х{1\ xB), ..., х{р\ т. е. в определителе det R - 1 10 г12 ' Ор Г1Р Гро Г pi ' р2 1 Формула A.22), примененная к трехмерному признаку > = у, х<1\ х<2>), при i = о, / = 1 и Х<Л/> = *<2> дает: 01.л: B) = /1 B) — 2) A.23) Последовательно присоединяя к мешающим переменным все новые признаки из рассматриваемого набора, можно по- получить рекуррентные соотношения для подсчета частных ко- коэффициентов корреляции rol<2.../t+1) порядка k (т. е. при ис- исключении опосредованного влияния k мешающих переменных) 83
по частным коэффициентам корреляции порядка к —Uk = - 1, 2, ..., р- 1): — Г0М 2 ... А;)~~ГОАН-1 B . /г)'Г1/г +1 B ... /Q V ([~~rOk±l B ... /г)) A ~ri^-l B ... /г)) A.23') Выборочные (эмпирические) значения частных коэффициен- коэффициентов корреляции вычисляются по тем же формулам A.22)— A.23') с заменой теоретических значений парных коэффициен- коэффициентов корреляции rtj их выборочными аналогами rtj (см. форму- формулу A.8')). Если исследователь имеет дело лишь с тремя-четырьмя переменными (р = 2, .3), то удобно пользоваться рекуррент- рекуррентными соотношениями A.23'). При больших размерностях ана- анализируемого многомерного признака удобнее опираться на формулу A.22), использующую расчет соответствующих оп- определителей. Вернемся к общему (негауссовскому) случаю. Практика многомерного статистического анализа показала, что частные коэффициенты корреляции, определенные соотношениями A.22)—A.23'), являются, как правило, удовлетворительными измерителями очищенной линейной связи между x{i) и х</> при фиксированных значениях остальных переменных X{it^ и в случае, когда распределение анализируемых показателей (х@), х{1), ..., х(р)) отличается от нормального. Определив с помощью формулы A.22) частный коэффициент корреляции в случае любого исходного распределения признаков (х{0\ хA\ ..., х(р)), включим его в общий математический инстру- инструментарий корреляционного анализа линейных моделей. При этом их можно интерпретировать как показатели тесноты очи- очищенной связи, усредненные по всевозможным значениям фик- фиксируемых на определенных уровнях «мешающих» переменных. 1.2.3. Статистические свойства выборочных частных коэффи- коэффициентов корреляции (проверка на статистическую значимость их отличия от нуля, доверительные интервалы). При иссле- исследовании статистических свойств выборочного частного коэф- коэффициента корреляции порядка к (т. е. при исключении опо- опосредованного влияния к мешающих переменных) следует вос- воспользоваться тем (см., например, [20, теорема 4.3.4]), что он распределен точно так же, как и обычный (парный) выбороч- выборочный коэффициент корреляции между теми же переменными с единственной поправкой: объем выборки надо уменьшить на k единиц, т. е. полагать его равным п — к, а не я. Поэтому
при проверке статистически значимого отличия от нуля выбо- выборочного частного коэффициента корреляции и при построе- построении для него доверительных интервалов следует пользоваться рекомендациями п. 1.1.3 для парного коэффициента корреля- корреляции с заменой п на п — k. 1.2.4. Примеры. Рассмотрим некоторые конкретные чис- числовые примеры, демонстрирующие возможный характер ис- искажающего опосредованного влияния «третьих факторов» на корреляцию между двумя анализируемыми переменными. Пример 1.1. По итогам года 37 однородных пред- предприятий легкой промышленности были зарегистрированы сле- следующие показатели их работы: х@) =s у — среднемесячная ха- характеристика качества ткани (в баллах); х^ — среднемесяч- среднемесячное количество профилактических наладок автоматической линии; х{2) — среднемесячное число обрывов нити. По матрице исходных данных (х{?\ х{}\ x{V)i = Tw были подсчитаны (с помощью A.8')) выборочные парные коэффи- коэффициенты корреляции ru (i, j ^- 0, 1, 2): г01 = 0,105; г02 = 0,024; 712 =-- 0,996. Проверка «на статистическую значимость», проведенная в соответствии с рекомендациями п. 1.1.3, свидетельствует об отсутствии статистически значимой парной корреляционной связи между качеством ткани, с одной стороны, и числом про- профилактических наладок и обрывов нити — с другой, что не согласуется с профессиональными представлениями техноло- технолога. Однако расчет частных коэффициентов корреляции по формуле A.23) дает значения г01B) = 0,907; г02A) = —0,906, которые вполне соответствуют нашим представлениям о есте- естественном характере связей между изучаемыми показателями. Построение доверительных интервалов для истинных зна- значений го1B) и гО2A) в соответствии с рекомендациями п. 1.1.3 (в частности, с использованием z-преобразования Фишера, поскольку наш случай характеризуется значениями коэффи- коэффициентов корреляции, близкими по абсолютной величине к еди- единице) дает: th zx < г < th z2 с доверительной вероятностью р = 1 _ а, где th z — тангенс гиперболический угла z, (л—1)—1 a ug — это ^-квантиль стандартного нормального распределе- распределения (см. табл. П.З). 85
В нашем примере п = 37, а = 0,05. Подставляя пооче- поочередно в эту формулу значения го1B> = 0,907 и г02A) = = —0,906 и пользуясь табл. П.7 значений arcth г = - In —— , ! — Т получаем: 0,821<г0, B)<0,950; — 0,950<г02A)< —0,819. Пример 1.2. С целью исследования влияния погод- погодных условий на урожайность кормовых трав Хукер (Journ. Roy. Stat. Soc, 1907, v. 65, p. 1) рассмотрел данные Мини- Министерства земледелия Англии за 20 лет, характеризующие урожайность х{0) (в ц/акр), весеннее количество осадков хA> (в дюймах) и накопленную за весну сумму «активных» (т. е. выше +5,5° С) температур xB) (в градусах по Фаренгейту) од- однородной в метеорологическом отношении области Англии, включающей в себя группу восточных графств. По выборке (jc(?), x{}\ x(V)i = T^Q были подсчитаны основные статистиче- статистические характеристики изучаемой трехмерной случайной вели- величины: '- 28,02; -Е*<1> = 4,91; Е*<2> - 594,0; = 19,54; Di<1>= 1,21; Dx<2>-7225; foi = °>80; ^2 = — 0,40; /72 = — 0,56. Действительно ли высокая температура в период созрева- созревания трав отрицательно влияет на их урожайность (ведь г02 = —0,40) или здесь сказывается опосредованное влияние «мешающего» фактора — количества осадков л^1*? Вычисление частных коэффициентов корреляции по рекур- рекуррентной формуле A.23) дает: 7oi B) =- 0,759; ?02 с D = 0,097; ?! 2 @) = — 0,436. Как видим, если исключить одновременное влияние коли- количества осадков х^Х) на урожайность (с ростом хA> она повыша- повышается) и на сумму активных температур (с ростом *A) она пони- понижается), то мы уже не обнаружим отрицательной корреляции между температурой и урожайностью (го2а) = 0,097, в то время как го2 = —0,40). вб
Построение доверительных интервалов для г01B) и rO2<i) {С уровнем доверия Р = 0,95) с использованием е-преобразо- вания Фишера дает в данном случае: 0,448<г<I <2) <0,890; —-0,419< г02 <п <0,525. Последнее неравенство свидетельствует о том, что у нас нет оснований считать положительную очищенную корреляци- корреляционную связь между урожайностью и температурой (ro2(i) = = 0,097) статистически значимой. 1.3. Анализ множественных связей 1.3.1. Степень тесноты множественной статистической связи и среднеквадратическая ошибка прогноза (аппроксимации) одной переменной по совокупности других. Интуитивно и из смысла рассмотренных выше характеристик степени тесноты статистической связи ясно, что чем теснее эта связь,тем больше информации содержит одна переменная относительно другой, тем точнее можно восстановить (спрогнозировать, аппрокси- аппроксимировать) неизвестное значение одной переменной по заданной величине другой. При решении практических задач чаще других рассматри- рассматривается схема, в которой поведение какого-то одного (результи- (результирующего) признака х\ стараются «объяснить» поведением сово- совокупности других (предикторных) переменных ? = (?A), ?B), ..., ?>{р)). Если зафиксировать «значение» ? = X, то из всех возможных способов определения прогнозного (аппроксими- (аппроксимирующего) значения у (X) для неизвестного значения ц (X) наи- наилучшим (в смысле минимума среднего квадрата ошибки прог- прогноза), как оказалось, является условное среднее значение анализируемого результирующего показателя т], т. е. величи- величина / (X) = Е (т]|| = X), где усреднение производится при ус- условии, что объясняющие переменные зафиксированы на уров- уровне X1. Действительно, легко видеть, что для любой другой функции / (X) щк f (X) будем иметь: = Е(Л- /(X) + /(X) - + Е(/(Х)-7(Х)J. 2Если объясняющие переменные д^1), *B), ..., *(/;) не случайны по своей природе, то они играют роль обычных параметров, от которых зависит закон распределения случайной величины т). 87
А поскольку E [ft — / (X)) (f (X) - f (X))} = Ex {En [A1 - - / (X)) (/ (X) - / (X))\X]} = Ex {(/(X) - / (X)) X X |En (r\\X) - Е„ (/ (X)|X)]} = Ex {(/ (X) - J (X)) [/ (X) _ - / (X)!} = 0 и E (/ (X) -/ (X)Y >0, то всегда E(n-f (*))»> Eft-/(*))«• В этих выкладках использовался способ вычисления ма- математического ожидания в два этапа: на первом фиксируют- фиксируются значения X и усреднение производится по значениям г) (при фиксированном X), т. е. берется условное математическое ожидание при условии, наложенном на ?; на втором этапе ре- результат усредняется по всевозможным значениям X (нижний индекс у знака математического ожидания показывает, по ка- каким именно значениям производится усреднение). Таким образом, мы снова (как и в п. В.5 и 1.1.1) пришли к функции регрессии f (X) = Е (т]|? = X), на этот раз как к функции от р переменных х{1\ х^2\ ..., х(р\ наиболее точ- точно (в смысле среднеквадратической ошибки) воспроизводящей условное значение исследуемого результирующего показате- показателя г] (X) по заданной величине X объясняющих переменных ?. Вернемся теперь к соотношению A.5), связывающему меж- между собой общую вариацию результирующего показателя (Оц = Dr|), вариацию функции регрессии (of = D/ (?)) и ус- усредненную (по различным возможным значениям X объясняю- объясняющих переменных) величину условной дисперсии «регрессион- «регрессионных остатков» (о^ {Х) = EXD [r)|g = X]). Оно остается спра- справедливым и в случае многомерной предикторной переменной I - (ЪA\ ?B\ .... 1{р)) (или X = (хA\ х<2>, ..., *<*>)). Следовательно, так же как и в случае парной зависимости, вариация (случайный разброс) результирующего показателя т] складывается из контролируемой нами (по значению предик- предикторной переменной X) вариации функции регрессии / (X) и из не поддающегося нашему контролю случайного разброса значений г| (X) (при фиксированном X) относительно функции регрессии / (X). Именно этот неконтролируемый разброс (ха- (характеризуемый величиной а-п(Х)) и определяет одновременно и среднеквадратическую ошибку прогноза (или аппроксимации) величины результирующего показателя г| по значениям пре- дикторных переменных X, и степень тесноты связи, сущест- существующей между величиной г|, с одной стороны, и значениями X — с другой: чем меньше значение (т^хь т^м точнее прог- 88
ноз и тем теснее связь между г\ и ?. Эти соображения приводят нас к следующему способу измерения множественной стати- статистической связи. 1.3.2. Множественный коэффициент корреляции и его свойст- свойства (общий случай). Опираясь на формулу A.5), введем измери- измеритель множественной корреляционной связи между г\ и (?<х>, ?B), •••> ?(р)) — множественный коэффициент корреляции Rr).t — аналогично тому, как мы определяли в п. 1.1.1 из- измеритель парной связи — индекс корреляции /^ (см. фор- формулу A.6)): ^ A.24) % (квадрат множественного коэффициента корреляции принято называть коэффициентом детерминации). Из соотношения A.5) немедленно вытекают следующие свойства множественного коэффициента корреляции: б) минимальное значение множественного коэффициента корреляции (Rti-i = 0) соответствует случаю полного от- отсутствия корреляционной связи между г| и (?A\ ..., ?(р*), так как это может быть только при of — D/ (?) = 0, т. е. при независимости значений функции регрессии / от величины ее аргументов ? (/ (?) = const); это соответствует ситуации, когда усредненная дисперсия «регрессионных остатков» в точ- точности равна общей вариации результирующего показателя; в) максимальное значение множественного коэффициента корреляции (Rr).t =1) соответствует полному отсутствию варьирования «регрессионных остатков» (оц(Х) = 0), что оз- означает наличие чисто функциональной связи между г\ и (?A), ..., ?(р)): г| = / (?A), ..., ?(р)). Следовательно, в этом случае мы имеем возможность точно (детерминированно) восстанавли- восстанавливать условные значения г| (X) = {г\\?, = X) по значениям пре- дикторных переменных X, и соответственно общая вариация результирующего показателя г| полностью объясняется конт- контролируемой вариацией функции регрессии; г) выборочное значение /?л.| множественного коэффициен- коэффициента корреляции R^.i определяется на базе системы наблюде- наблюдений {(х(\\ х(]\ ...,л:^; yi}i=s~n по формуле, получающейся из A.24) заменой участвующих в правой части теоретических характеристик о^(Х) и о\ их выборочными аналогами, т. е. 89
n — k 1=1 где / (XW, *<»>, ..., *«»; 6lf ..., Qh) = E (t||? = X) - функция регрессии (г\ по ?) известного общего вида, зависящая от k параметров 81э 62, .., 8^, значения которых неизвестны (оце- (оцениваются по выборке, см. гл. 6—9I, at/ — выборочное сред- нее значение результирующего показателя (т. е. у = 2 * =i д) введенные с помощью A.24) и A.24') теоретический и вы- выборочный множественные коэффициенты корреляции фор- формально определены для любой (р + 1)-мерной системы наблю- дений. Квадрат их величины R^.% и R^.% показывает, какая доля дисперсии исследуемого результирующего показателя ц определяется (детерминируется) контролируемой нами ва- вариацией соответствующей функции регрессии /(X). Соот- Соответственно оставшаяся доля дисперсии показателя г) (т. е. величина 1 — Rr\-t или 1 — Ri\-t) объясняется воздействи- воздействием неконтролируемой случайной остаточной компоненты («ре- («регрессионных остатков», «помехи») и определяет ту верхнюю Ючевидно, такое определение R^.% предусматривает априорное знание общего вида функции регрессии / (X; 0) и проведение предва- предварительных расчетов по статистическому оцениванию неизвестных зна- значений участвующих в ее записи параметров в = @lt ..., Qk). Ниже (см. п. 1.3.3) мы увидим, что последнее неудобство автоматически устра- устраняется при работе с данными из нормальных генеральных совокупно- совокупностей, причем получаемые в этом случае удобные формулы и рекоменда- рекомендации могут быть использованы как приближенные и в общем случае. Что касается неудобства, связанного с необходимостью априорного знания общего вида функции регрессии / (X, в), то в зависимости от конкретизации задачи и условий сбора исходных данных могут быть использованы следующие альтернативные подходы: а) предваритель- предварительное разбиение области значений предикторных переменных X на ги- гиперпараллелепипеды группирования Ау, вычисление условных средних yj результирующего показателя по наблюдениям, попавшим в А7-, и за- замена дисперсии <Х*(Х) в формуле A.24) ее оценкой, построенной по раз- разбросу значений г\ внутри каждого гиперпараллелепипеда группирова- группирования относительно своих условных средних yj (что приводит нас к обоб- обобщению понятия корреляционного отношения на многомерный случай, ср. с п. 1.1.5); б) использование непараметрической и частично-па- частично-параметрической техники оценивания функции регрессии / (X) (см. гл. 10). 90
границу точности, которой мы можем добиться при восстанов- восстановлении (прогнозировании, аппроксимации) значения резуль- результирующего показателя г) по заданным значениям X объясняю- объясняющих переменных ?. 1.3.3. Вычисление и свойства множественного коэффициента корреляции в рамках линейных нормальных моделей. Если предположить, что исходные статистические данные {(*4\ *(?\ ..-, х*Р\ */i}i = T7^ могут интерпретироваться как выборка объема п из (р + 1)-мерной нормальной генеральной совокуп- совокупности с вектором средних значений и ковариационной матрицей (см. сноску перед формулой A.3)) Е = f (X) = Е (г] | ? = X) - /я») + @01 а02 ... аОр) X 12 ... о1р\ - а то из A.3)—A.4) сразу следует: а) функция /(X) регрессии г) по ? = (?A\ ..., ?(^>) ли- линейна по аргументам, а именно: A.25) где ац = Е [(^> — m(i>) (?(/) — т^'>)] — ковариации анали- анализируемых переменных (мы полагаем, для единообразия запи- записи, ?<°> = Т]), а а1"' — элементы матрицы 2ц1; б) условная (остаточная) дисперсия Оц{Х) — D (г||^ = X) результирующего показателя т| не зависит от того, на каких уровнях X фиксируются знячения объясняющих переменных ?, в частности А^=о5-A-^-б). A.26) Условимся относить подобные ситуации к первому типу линейных нормальных моделей. 9)
Разрешая выражение A.26) относительно /?^.|, мы прихо- приходим (с учетом постоянства по X величины а^т в данном слу- случае) к ранее введенному определению множественного коэф- коэффициента корреляции A.24). Отнесем ко второму типу линейных нормальных моделей тот частный случай «схемы В» (т. е. зависимости случайного результирующего показателя г\ от неслучайных объясняющих переменных X, см. § В.5), в котором функция регрессии / (X) линейна по X, а остаточная случайная компонента е (X) под- подчиняется нормальному закону с постоянной (не зависящей от X) дисперсией а*. В этом случае линейность регрессии, гомо- скедастичность (постоянство условной дисперсии о^т = ol) и формула A.26) следуют непосредственно из определения мо- модели и из A.24). Можно показать (см. например, [65, гл. 27]), что при ста- статистической обработке выборок, извлеченных из линейно- нормальных генеральных совокупностей, множественный ко- коэффициент корреляции Rn.% и его выборочное значение Rr\-i обладают рядом дополнительных свойств (приведенные ниже формулы и свойства теоретического множественного коэффи- коэффициента корреляции R^.% автоматически переносятся на выбо- выборочный R^.i заменой участвующих в них теоретических ха- характеристик соответствующими выборочными значениями). 1. Вычисление /?л-? по матрице парных коэффициентов корреляции. Обозначая, как и прежде, (р + 1) X (р + 1)- корреляционную матрицу (ги) г-7 = 0,1..., Р через R, а алгебра- алгебраическое дополнение элемента rkl в ее определителе через \R\hh имеем RU=i-^r~. A-27) 2. Вычисление R^.^ no частным коэффициентам корреля- корреляции ... A-г5рA2...р-1)). A.28) 3. Множественный коэффициент корреляции мажорирует любой парный или частный коэффициент корреляции, харак- характеризующий статистическую связь результирующего показа- показателя, т. е. Ял-«>|'«/(/,) |, A-29) 92
где / = 1, 2, ..., р, a lj — любое подмножество множества индексов /0 = {1, 2, ..., р}, не содержащее индекса / (соот- (соотношение A.29) следует из A.28)). Напоминаем, что g(°>=3T). 4. Присоединение каждой новой предсказывающей перемен- ной не может уменьшить величины R (независимо от порядка присоединения), т. е. 5. Множественный коэффициент корреляции К^^ быть определен как максимальное значение обычного парного коэффициента корреляции между х\ и линейной комбинацией ?A\ 1B), •••> &р) (максимум — по всевозможным линейным ком- комбинациям) либо как обычный парный коэффициент корреля- корреляции между ц и условным математическим ожиданием Е (ц\Х). 6. Статистические свойства выборочного множественно- множественного коэффициента корреляции R^-i (распределение, моменты, доверительные интервалы) состоят в следующем. Для проверки гипотезы Яо: R^.^ = 0, т. е. для выяс- выяснения вопроса, можно ли считать выборочное значение мно- жественного коэффициента корреляции 7?л ,| статистически значимо отличающимся от нуля, пользуются фактом F (р, п—р—1)-распределенности случайной величины справедливым в рамках обоих рассмотренных выше типов ли- линейно-нормальных моделей при условии, что истинное значение множественного коэффициента корреляции R^.^ равно нулю. Если окажется, что F (/?) > у« (р, п — Р — 1)> то гипотеза об отсутствии множественной корреляционной связи между ц и (?A), ?B\ ..., 1(р)) отвергается при уровне значимости кри- критерия, равном а (здесь, как и ранее, v%, (р, п —р—1) — 100а%-ная точка F-распределения с числом степеней свободы числителя р и знаменателя п — р — 1 находится из табл. П.5). Можно показать (см. [65, гл. 27]), что в условиях второго типа линейно-нормальных моделей (объясняющие перемен- переменные X неслучайны) описанный критерий является равномерно наиболее мощным. Это вытекает из того, что при R^.t ф 0 величина F (R) подчинена нецентральному F (р, п — р — 93
— 1; nR^.i) -распределению с параметром нецентральности, равным п/?^.|. Последним обстоятельством можно воспользоваться и при приближенном построении доверительных интервалов для не- неизвестного истинного значения &%.%. В точности повторяя рас- рассуждения п. 1.1.5, относящиеся к построению доверительных интервалов для неизвестной величины квадрата корреляцион- корреляционного отношения р^.? (см. формулы A.17)—A.20)), мы придем к следующей рекомендации по построению интервальной оценки для /?^.?*, справедливой, правда, лишь при р ^ 8: с доверительной вероятностью, приблизительно равной 1 — 2а (величина а задана), выполняется неравенство х " „ , -А A.31) п в котором Vg (vlt v2) — 100^7%-ная точка центрального F- распределения с числом степеней свободы числителя Г^*Ш A.32) L \ J и знаменателя v2 = п — р — 1 (в A.32) символ [а] обознача- обозначает ближайшее целое число к а). Однако в условиях первого типа линейно-нормальных мо- моделей (наблюдения {х(\\ x(V, ..., x(fl\ Уг) извлечены из (р + 1)-мерной нормальной генеральной совокупности; со- соответственно объясняющие переменные ?A), ?B), ..., ?(р) — случайные величины) распределение величины Rr\-i при #л.? =^0 и конечных объемах выборки (п) существенно от- отличается от того распределения R^.i, которое мы имели при неслучайных объясняющих переменных (можно, правда, по- показать, что при п -> оо распределение случайной величины nR^.i сходится в линейно-нормальных моделях и первого и *Для построения доверительных интервалов для неизвестного ис- истинного значения множественного коэффициента корреляции R^.% читатель может воспользоваться также специальными номограммами, приведенными в [50] для случаев р = 3, 5, 7. 94
второго типа к нецентральному х2-распределению с числом сте- степеней свободы, равным р, и с параметром нецентральности, равным nR2). P. Фишер [183] и ряд других исследователей за- занимались изучением распределения величины /?„.? в усло- условиях первого типа линейно-нормальных моделей (различные представления соответствующей функции плотности вероят- вероятности можно найти, например, в [65, гл. 27]). Приведем здесь лишь выражения для первых двух момен- моментов интересующей нас величины. Случай /^.? = 0. (L34) Случай Rti-i -Z—(l-R*.& A.33') (n —l)(na- Скорректированная (на несмещенность) оценка R^-i- По формулам A.33), A.33') мы видим, что при вычислении выбо- рочных значений R^.i в соответствии с рекомендациями A.27), A.28), относящимися к условиям линейно-нормальных моде- моделей, получаются смещенные (а при ограниченных объемах вы- выборок п и большом числе р предсказывающих переменных — существенно смещенные) оценки для неизвестного истинного значения /?^.|. Поэтому желательно попытаться перейти к некоторой другой оценке R%\.% неизвестного теоретического значения R^.^ путем такой коррекции оценки /?^.?, которая позволила бы устранить это смещение. 95
В [233] показано, что несмещенной оценкой коэффициента -l служит статистика (i?.6) A-35) где 2 ^ р </г — 1, a F (а\ Ь\ с\ d) — гипергеометрическая функция (см., например, [1, с. 370]). Простая аппроксимация правой части A.35) дает: п — р— 1 Из последней формулы видно, что «подправленная» оцен- ^v. 2 х>» ка Rfft всегда меньше смещенной оценки Щ.ъ. Отметим, что при малых истинных значениях jR^.| и при «не слишком малых» величинах отношения pin подправлен- подправленные оценки, подсчитанные по формулам A.35) и A.35'), могут принимать отрицательные значения. Можно устранить абсурд- абсурдность отрицательных значений оценки, используя в качестве «еще раз подправленной» оценки величину %!=;max (*>*%, 0) -^ч 2 (правда, Яц*% уже не будет несмещенной оценкой). 1.3.4. Примеры. Вернемся к ранее рассмотренным примерам и оценим в них степень тесноты множественной связи между результирующим показателем, с одной стороны, и набором объясняющих переменных — с другой. Будем пользоваться рекомендациями (а именно формулами A.27), A.28)). право- правомерность которых строго обоснована лишь в рамках линейно- нормальных моделей. Пример 1.1. Оценка Яу.C.AK.B)} коэффициента мно- множественной корреляции между характеристикой качества ткани у и совокупностью двух факторов: количеством профи- профилактических наладок лгA> и числом обрывов нити х{2\ под- подсчитанная с помощью формулы A.28), дает: #?.(*A> *B)) = 1 — A — Г%х) A —Г§2 A)) = = 1 —[1—@,Ю5J] [1—@,906J1 = = 1—0,989.0,179=1—0,177 = 0,823. Отсюда Ry.(xd) *<2>) 96
В данном примере мы не можем воспользоваться формулами A.31)—A.32) для построения доверительного интервала для Ry./Xii)x<;*h9 поскольку они дают удовлетворительную точ- точность лишь при р ^ 8. Пример 1.2. Оценка Ry.x(i)x(Z) коэффициента мно- множественной корреляции между урожайностью кормовых трав (у = х<°)) и природными факторами — весенним количеством осадков (хA)) и накопленной суммой «активных» температур (л:B)), подсчитанная по формуле A.28), дает: RJ.(jcd) *B>)= 1 —A = 1 _ [ 1 _ @,80J] [ 1 — A,097J] - -1—0,36.0,99 = 0,6436. Отсюда ^ ВЫВОДЫ 1. Приступая к статистическому исследованию зависимостей между анализируемыми переменными, исследователь должен в первую очередь установить сам факт наличия статистиче- статистических связей и попытаться измерить степень их тесноты. В качестве основных измерителей степени-тесноты связей меж- между количественными переменными в практике статистических исследований используются: индекс корреляции, корреля- корреляционное отношение, парные, частные и множественные ко- коэффициенты корреляции, коэффициент детерминации. 2. Парные корреляционные характеристики позволяют изме- измерять степень тесноты статистической связи между парой пе- переменных без учета опосредованного или совместного влияния других показателей. Вычисляются (оцениваются) они по ре- результатам наблюдений только анализируемой пары показате- показателей. 3. Факт установления тесной статистической связи между переменными не является, вообще говоря, достаточным осно- основанием для доказательства существования причинно-следст- причинно-следственной связи между этими переменными. 4. Парные и частные коэффициенты корреляции являются из- измерителями степени тесноты линейной связи между перемен- переменными. В этом случае корреляционные характеристики могут оказаться как положительными, так и отрицательными в за- 4 Зак. 244 97
висимости от одинаковой или противоположной тенденции взаимосвязанного изменения анализируемых переменных. При положительных значениях коэффициента корреляции говорят о наличии положительной линейной статистической связи, при отрицательных — об отрицательной. 5. При наложении случайных ошибок на значения исследуе- исследуемой пары переменных (например, ошибок измерения) оценка статистической связи между исходными переменными, по- построенная по наблюдениям, оказывается искаженной. В ча- частности, получаемые при этом оценки коэффициентов корреля- корреляции будут заниженными. Существуют методы, позволяющие учесть это искажение. 6. Измерителем степени тесноты связи любой формы являет- является корреляционное отношение, для вычисления которого необ- необходимо разбить область значений предсказывающей перемен- переменной X на интервалы (гиперпараллелепипеды) группирова- группирования. Возможна параметрическая модификация корреляцион- корреляционного отношения, при которой вычисление соответствующих выборочных значений не требует предварительного разбиения на интервалы группирования. 7. Частный коэффициент корреляции позволяет оценить сте- степень тесноты линейной связи между двумя переменными, очищенной от опосредованного влияния других факторов. Для его расчета необходима исходная информация как по анали- анализируемой паре переменных, так и по всем тем переменным, опосредованное («мешающее») влияние которых мы хотим эли- элиминировать. 8. Множественный (совокупный) коэффициент корреляции из- измеряет степень тесноты статистической связи (любой формы) между некоторым (результирующим) показателем, с одной стороны, и совокупностью других (объясняющих) перемен- переменных — с другой. Формально он определен для любой много- многомерной системы наблюдений. Квадрат его величины (называе- (называемый коэффициентом детерминации) показывает, какая доля дисперсии исследуемого результирующего показателя опреде- определяется (детерминируется) совокупным влиянием контроли- контролируемых нами (в виде функции регрессии) объясняющих пере- переменных. Оставшаяся «необъясненной» доля дисперсии ре- результирующего показателя определяет ту верхнюю границу точности, которой мы можем добиться при восстановлении (прогнозировании, аппроксимации) значения результирую- результирующего показателя по заданным значениям объясняющих пере- переменных. 9. Наиболее удобные свойства (рекомендации по вычислению, по интерпретации, статистические свойства) выборочный ко- 98
эффициент корреляции имеет в рамках линейно-нормальных моделей, т. е. в одном из двух типов ситуаций: а) обрабатываемые статистические данные {(х(-х\ x{f\ ... , л:^*; yi}i==zT7Hl образуют выборку из (р + 1)-мернои нор- нормальной генеральной совокупности; б) результирующий показатель т] связан с объясняющими переменными (хA), ..., х(р)) линейной регрессионной зависи- зависимостью типа В (см. § В.5), причем остаточная случайная ком- компонента подчиняется нормальному закону с постоянной (не. зависящей от х{1\ *B), ..., л:(р)) дисперсией. В* этом случае разработаны рекомендации по проверке выборочного множе- множественного коэффициента корреляции на его статистически зна- значимое отличие от нуля, по построению доверительных интер- интервалов для неизвестного истинного значения множественного коэффициента корреляции. Глава 2. АНАЛИЗ СТАТИСТИЧЕСКОЙ СВЯЗИ МЕЖДУ ПОРЯДКОВЫМИ (ОРДИНАЛЬНЫМИ) ПЕРЕМЕННЫМИ Напомним (см. [14, §5.3, 10.2]), что порядковая (ординаль- (ординальная) переменная позволяет упорядочивать статистически об- обследованные объекты по степени проявления в них анализи- анализируемого свойства. Исследователь обращается к порядковым переменным в ситуациях, когда шкала непосредственного количественного измерения степени проявления этого свойст- свойства в объекте ему не известна (в том числе по причине объектив- объективного отсутствия таковой) или имеет условный смысл и интере- интересует его только как вспомогательное средство для последующего ранжирования рассматриваемых объектов. К подобным ситу- ситуациям относится рассмотрение таких переменных, как «ин- «интегральный (сводный) показатель эффективности функциони- функционирования социально-экономической системы» (специалиста, предприятия, научно-производственного объединения и т. п.), «качество (мера оптимальности) структуры потребительского бюджета семьи», «качество жилищных условий семьи», «сте- «степень прогрессивности предлагаемого проекта решения соци- социально-экономической, технической или другой проблемы» и т. п. Таким образом, в отличие от статистического анализа fe-го (k = 0, 1, 2, ..., р) количественного признака x{k\ когда в результате его измерения (наблюдения) на объектах мы мог- могли каждому статистически обследованному объекту Ог- по- 4* 99
ставить в соответствие некоторую, измеренную в физически (k) интерпретируемой шкале числовую характеристику ху, ре- результатом измередия порядковой переменной является при- приписывание каждому из обследованных объектов некоторой ус- условной числовой метки, обозначающей место этого объекта в ряду из всех п анализируемых объектов, упорядоченном по убыванию степени проявления в них fe-го изучаемого свойст- свойства. В этом случае х / называют рангом i-ro объекта по &-му признаку. В зависимости от типа изучаемой ситуации A) шкала из- измерения признака x{k) не известна исследователю или от- отсутствует вовсе; 2) существуют косвенные или частные коли- количественные показатели, в соответствии со значениями которых можно определять место каждого объекта 0t в ряду, упоря- упорядоченном по анализируемому свойству x{k)) сам процесс упо- упорядочения объектов 0ь 02t ..., Оп производится либо с исполь- использованием экспертной информации, т. е. с привлечением экс- экспертов, либо формализованно — путем перехода от исходно- исходного ряда наблюдений вспомогательного (косвенного, частного) количественного признака к соответствующему вариацион- вариационному ряду [14, п. 5.6.4]. 2.1. Ранговая корреляция 2.1.1. Исходные статистические данные (таблица или матрица рангов типа «объект—свойство»). Итак, в результате измере- измерения р + 1 порядковых переменных х@) = у, х{1\ ..., х(р) на каждом из п анализируемых объектов 01у О2, ..., 0п мы полу- получаем таблицу (матрицу) исходных данных следующего вида (табл. 2.1). В этой таблице элемент х(/1} задает порядковое место (ранг), которое занимает объект 0t в ряду всех статистически обследованных объектов, упорядоченном по убыванию сте- степени проявления &-го анализируемого свойства (т. е. по пере- переменной x{k)). Очевидно, если рассмотреть столбец с номером k этой таблицы (k = О, 1, ..., р), то он будет представлять переста- перестановку из п элементов, а именно перестановку из п натуральных чисел 1, 2, ,.., л, определяющую порядковые места объектов 01» 02» •••» 0/г в РЯДУ» упорядоченном по свойству *<*>. Замечание о случаях неразличимости рангов («объединенные ранги»). При упорядочении объектов по какому-либо свойст- свойству *<*> (k =-0, 1, ..., р) могут встретиться ситуации, когда двл объекта или целая группа их оказываются неразличимы- 100
Порядко- Порядковый номер объекта («объект») 1 2 i п Порядковый номер исследуемой переменной 0 xlp v@) X i @) Xn ' 1 х^) Xi U) Хп 3 х 1 4*> Таб/ [и да 2.1 (ссвойство») ... *i г(р) (р) хп ми с точки зрения степени проявления в них этого свойства. Тогда каждому из объектов этой однородной группы припи- приписывается ранг, равный среднему арифметическому значению тех мест, которые они делят, а полученные таким образом ран- ранги принято называть «объединенными» (или «связными»). Так, например, упорядочивая семь альтернативных проектов Л, В, С, D> Ey F, G перспективного развития некоторой под- подотрасли с точки зрения их народнохозяйственной эффектив- эффективности, эксперт поставил на 1-е место проект С, на 2-е — про- проект Л, далее располагал проекты В, D и Е, которые считал неразличимыми (равноценными) по эффективности, а послед- последнее место отвел проектам F и G. Тогда соответствующий стол- столбец таблицы «объект—свойство» будет состоять из следующих компонент: З-Н + 5 6 + 7 а г xG - —т—= 6,5. 3 + 4 + 5 = 4; Мы видим, что появление объединенных рангов может при- привести к дробным значениям рангов, составляющих массив ис- исходных статистических данных (значения рангов, соответст- соответствующие 6-му и 7-му проектам). При отсутствии объединенных рангов область возможных значений переменных #<*>, очевид- очевидно, ограничивается множеством первых п чисел натурального ряда, где п — число сравниваемых объектов. 101
Мы увидим далее, что наличие объединенных рангов не- несколько усложняет вычислительные процедуры, связанные со статистическим анализом соответствующих корреляционных характеристик. 2.1.2. Понятие ранговой корреляции. Под ранговой корреля- корреляцией понимается статистическая связь между порядковыми переменными. В статистической практике эта связь анализи- анализируется на основании исходных статистических данных, пред- представленных упорядочениями (ранжировками) п рассматри- рассматриваемых объектов по разным свойствам (см. столбцы табл. 2.1). Есть ли хоть какая-то согласованность (или связь) между упорядочением анализируемых объектов по свойству *<*> и упорядочением тех же объектов по другому свойству jc(/>? Можно ли измерить и проанализировать совокупную статисти- статистическую связь, существующую между ранжировками одних и тех же объектов Оь 02, ..., 0nt полученными в соответст- соответствии со степенью проявления в них сначала свойства *(*1}A-й способ упорядочения), затем-—свойства x{ki) B-й способ упо- упорядочения)? Таким образом, речь идет о системе понятий и методов, позволяющих измерять и анализировать статистиче- статистическую связь, существующую между двумя или несколькими ранжировками одного и того же конечного множества объек- объектов Olt О2, ..., 0п. Система этих понятий и методов и составляет раздел ма- математической статистики, который принято называть анализом ранговых корреляций. Методы ранговой корреляции широко используются, в частности, при организации и статистической обработке различного рода систем экспертных обследований (см., например, [126, 1311). 2.1.3. Основные задачи статистического анализа связей между ранжировками. Предположим, мы ввели измерители парной и множественной ранговой статистической связи (см. ниже п. 2.2—2.3). Тогда, опираясь на эти характеристики, иссле- исследователь чаще всего пытается решить следующие три основ- основные задачи статистического анализа структуры и характера связей, существующих между изучаемыми порядковыми переменными. Задача А: анализ структуры имеющейся совокупно- совокупности упорядочений X{k) = {х{\\ x{k2\ ..., х{кп})\ k = О, 1, ..., р. Интерпретируя каждое упорядочение Х(*> как точ- точку в л-мерном пространстве, можно представить, например, три наиболее характерных типа такой структуры: 1) анали- анализируемые точки равномерно разбросаны по всей области своих возможных значений (определяемой неравенствами 1 < х*Р ^ Ю2
^ n, i — 1, 2, ..., n)y что означает отсутствие какой-либо свя- связи или согласованности в представляемых ими ранжировках; 2) расположение р + 1 точек таково, что часть из них обра- образует ядро из близко лежащих друг от друга точек («сгусток»), а остальные произвольно разбросаны относительно этого яд- ядра. В этом случае существование ядра обеспечивает наличие подмножества согласованных переменных; 3) анализируемые точки — ранжировки располагаются в пространстве несколь- несколькими относительно далеко отстоящими друг от друга ядрами («сгустками»), что означает наличие нескольких подмножеств переменных таких, что переменные внутри одного подмноже- подмножества обнаруживают высокую статистическую взаимосвязь, тогда как согласованности между переменными, взятыми из разных таких подсовокупностей, практически не существует. Задача В: анализ интегральной (совокупной) согла: сованности рассматриваемых переменных и их условная ран" жировка по критерию степени тесноты связи каждой из них с остальными переменными. Подобные задачи возникают, на- например, при исследовании степени согласованности мнений группы экспертов и при попытках условного упорядочения по- последних по их компетентности. В основе этого анализа лежит расчет коэффициента совокупной согласованности — ко- коэффициента конкордации для различных комбинаций иссле- исследуемых переменных (см. п. 2.3). Задача С: построение единого группового упорядоче' ния объектов на основе совокупности согласованных упорядоче- упорядочений «ядра» (или нескольких групповых упорядочений — при наличии нескольких «ядер»). Решение этой задачи сводится к построению такого упорядочения, которое было бы, в оп- определенном смысле, наиболее близким к каждому из упоря- упорядочений заданной совокупности — «ядра». Именно с такой задачей сталкивается, например, исследователь, желающий установить неизвестное истинное упорядочение заданной со- совокупности объектов по имеющемуся в его распоряжении на- набору экспертных ранжировок тех же объектов, Для построе- построения единого (группового) варианта упорядочения Х(.ед) ча- часто используют в качестве ранга х(Т] объекта 0t среднее арифметическое или медиану имеющихся базовых рангов х(\\ x(V, ..., х(Р) этого объекта. Обоснование способа построе- построения единого варианта упорядочения может быть получено, на- например, в рамках подхода, предложенного Дж. Кемени и Дж. Снеллом [63] (и распространенного затем Б. Г. Миркиным на случай номинальных признаков [92]), который опирается на введенную ими меру близости между ранжировками (определя- 103
ется ранжировка Х( Л\ наименее удаленная , в смысле введен- введенной меры близости, от всех ранжировок Х(]\ ХBа>, •••, Х(р> базовой совокупности). Задача С может быть сформулирована и как задача наилучшего (в определенном смысле) восстанов- восстановления ранжировки Х(Ош\ связанной с результирующей перемен- переменной у гз х(С), по ранжировкам Х(]>, ХB.>, ..., Х(р.>, индуци- индуцируемым соответственно объясняющими переменными лсA>, x{2\ ..., х(рК В такой формулировке ее называют также задачей регрессии на порядковых {ординальных) переменных. 2.1.4. Вероятностные пространства ранжировок, генерируе- генерируемые порядковыми переменными [14, гл. 4, 51. Вытекающая из определения порядковой случайной величины специфика за- заключается в первую очередь в том, что ее «возможные значе- значения» определены в пространстве ранжировок, причем длина этих ранжировок (п) определяется числом статистически об- обследованных объектов (т. е. объемом выборки!). В то же вре- время множество возможных значений количественной случай- случайной переменной, а следовательно, и ее закон распределения вероятностей никак не зависят от объема обрабатываемой ста- статистической выборки 114, гл. 51. Для приведения «к общему знаменателю» этих двух схем можно воспользоваться одним из двух подходов* а) формализованным описанием (с помощью той или иной математической модели) самого механизма генерирования ран- ранжировок, основанным на допущении, что решение о предпо- предпочтении объекта О; объекту О,- принимается на базе сравнения восстанавливаемых каким-либо способом со случайной ошиб- ошибкой значений латентных (т. е. не поддающихся непосредствен- непосредственному измерению) числовых характеристик vt = v @t) и vj = -•= v (Oj) «ценности» или «предпочтительности» этих объектов (см., например, о моделях Терстоуна—Мостеллера, Льюса и др. в кн.: Статистические методы анализа экспертных оце- оценок.— М,: Наука, 1977); в этом случае параметр п (число сравниваемых объектов) сохраняет за собой роль объема вы- выборки, а закон распределения вероятностей ранжировок рас- рассматривается как распределение в выборочном пространстве, генерируемое вероятностным пространством случайной вели- величины v\ б) определением в качестве t-ro случайного эксперимента [14, п. 4.1.11 результата «наблюдения» Х((> ранжировки по i-му свойству (/ = 0, 1, 2, ..., р)\ тогда число сравниваемых объектов п будет играть роль размерности нашего наблюде- наблюдения, а объем выборки будет определяться числом рассматри- рассматриваемых свойств (т. е. р + 1), 104
Остановимся на последнем подходе к построению и интер- интерпретации вероятностных пространств ранжировок. В этом случае мы приходим к следующей модели вероятностного про- пространства ранжировок длины /г, генерируемого порядковой переменной х^1 Пространство элементарных исходов Q = {со,} 1==уъ со- состоит из М = п\ всевозможных перестановок и не зависит от номера переменной k. Распределение вероятностей зада- задается последовательностью Р<*> = {р(^} Гм> элементы которой, вообще говоря, зависят от номера «генерирующей» переменной k. Поскольку множество элементарных исходов Й дискретно (и конечно!), любое его подмножество измеримо и, следова- следовательно, может быть интерпретировано как случайное событие. Далее (см. § 2.2—2.3) будут предложены рекомендации по вычислению выборочных характеристик парной и множест- множественной ранговой статистической связи. Однако исследование их важных статистических свойств (и в частности, конструи- конструирование на их основе статистических критериев и доверитель- доверительных интервалов для неизвестных теоретических значений анализируемых характеристик) возможно лишь при некото- некоторых дополнительных допущениях (гипотезах) относительно характера последовательностей Р<*> и статистических свя- связей между jc@), xA), ..., лс(р). Наиболее исследованным является случай, когда постули- постулируется справедливость следующей гипотезы #0: (а) случайные переменные {xk}kz=zQ-i статистически #о: независимы (см. [14, §5.5]); (в) все элементарные исходы равновероятны, т. е. B.1) P<*) = Pw = ...=pW=-L,^ = 0, 1,...,р. /21 Содержательно допущения гипотезы Яо означают, что ран- ранжирования заданного множества объектов по различным свой- свойствам х@\ хA\ ..., xw никак друг с другом не связаны (допу- (допущение (а)) и что ни одно из этих свойств не определяет ника- никаких предпочтений в задаче сравнения «качества» анализируе- *Для упрощения обозначений здесь рассматривается лишь случай строгих упорядочений, т. е.* ситуации, когда принципиально невозмож- невозможна неразличимость рангов (объединение рангов). Общий случай имеет лишь технические отличия, связанные с увеличением общего числа М элементарных исходов. 10о
мых объектов, так как в результате случайного эксперимента с одинаковой вероятностью может появиться любое из п\ воз- возможных упорядочений (допущение (в)). К сожалению, стати- статистический анализ, проведенный в рамках допущений B.1), дает возможность лишь принять или отклонить гипотезу Но. А поскольку на практике выборочные ранговые корреляцион- корреляционные характеристики оказываются, как правило, весьма вы- высокими по абсолютной величине (что свидетельствует о том, что мы находимся вне условий нулевой гипотезы), то их рас- распределение в реальной ситуации оказывается неизвестным и на их основе не удается делать дальнейшие выводы (аналогич- (аналогичные, например, тем, которые следуют из п. 1.1.3, 1.1.5, 1.2.3, 1.3.3 относительно парных, частных и множественных корре- корреляционных связей между количественными переменными). Более интересными в прикладном плане нам представляют- представляются условия, постулируемые в рамках гипотезы Нх\ (а) случайные переменные {x{k)}k==— статистически независимы; (в') случайные переменные {#(А)}Л = б— одинаково распределены, т. е. Р<°> = Р(П = ... ='. Р&) = Р; (с) распределение вероятностей Р обладает свойст- свойством монотонности относительно некоторого истинного упорядочения со/о. B.2) Под свойством монотонности понимается выполнение сле- следующего условия: если введенное некоторым образом «рас- «расстояние» d (со/, (oio) между любым упорядочением со, и неко- некоторым «истинным» упорядочением coio не превосходит d (сог, o)io), то pi ~^pv\ другими словами, чем «ближе» ранжиров- ранжировка к истинной, тем с большей вероятностью мы ее получим в результате случайного эксперимента над переменной х^ (k = 0, 1, ..., р), и, следовательно, истинная ранжировка G)j0 является наиболее вероятным исходом случайного экспе- эксперимента. Некоторые результаты, связанные со статистическим ана- анализом ранжировок в рамках условий B.2), можно найти в [105, 131]. 2.2. Анализ и измерение парных ранговых статистических связей 2.2.1. Ранговый коэффициент корреляции Спирмэна. Для измерения степени тесноты связи между ранжировками Л. 106 р _ /Jk) Jk) Y(k)y u v</> __ /Ji) YU) Y(h — (X i y X 2 , ..., X n) И Л. — (X i , X 2 , ..», X n
К. Спирмэн еще в 1904 г. предложил показатель а п i названный впоследствии ранговым коэффициентом корреляции Спирмэна. Прямым подсчетом нетрудно убедиться, что для совпадающих ранжировок (т. е. при x(k) = х(Р для всех i = 1, 2, ..., п) Xkj = 1, а для противоположных (т. е. при х(к) = п — х(Р + 1, i = 1, 2, ..., п) Iff = — 1. Можно показать (см., например, [67]), что во всех остальных случа- случаях ?#| <1. Формула B.3) пригодна лишь в случае отсутствия объеди- объединенных рангов в обеих исследуемых ранжировках. Для ее распространения на общий случай определим для каждой (ft-й) ранжировки Х<*> (к = 0, 1, ..., р) величину где /п(*> — число групп неразличимых рангов у переменной x(k\ a n(t} — число элементов (рангов), входящих в ^-ю груп- группу неразличимых рангов (в частном случае отсутствия объеди- объединенных рангов имеем m(k) = м, п(к\ = п(кг = ... = п(п} = р = 1 и соответственно Tw = 0; кроме того, группы нераз- неразличимых рангов, состоящие из единственного элемента, по существу, не участвуют в расчете величины 7<Л>). Тогда ранговый коэффициент корреляции Спирмэна меж- между ранжировками X(k) и Х<{> следует вычислять по формуле 2 7[? = B.5) у [у(/1»-п)][^] Если Г^> и ТМ являются небольшими относительно g- (л3 — п) величинами, то можно воспользоваться прибли- приближенным соотношением (а при Т(к* = ТМ оно точное) Ю7
B.5') Правда, при этом же условии (относительная малость _|_ ju) по сравнению с ^ (п3 — п)) и приближенная формула B.3) дает хорошую точность. Пример 2.1. Два эксперта проранжировали 10 пред- предложенных им проектов реорганизации научно-производствен- научно-производственного объединения (НПО) с точки зрения их эффективности (при заданных ресурсных ограничениях). Занумеровав про- проекты в порядке ранжировки 1-го эксперта, получаем в каче- качестве исходных данных: Х<!>' = A; 2; 3; 4; 5; 6; 7; 8; 9; 10); Х<2>' = B; 3; 1; 4; 6; 5; 9;'7; 8; 10). Вычисления по формуле B.3) дают: т^ 1 1000-ю A + 1 + 2 + 0+1+1 + 2+1 + + 1+0) = 1 _|_.14 = 0,915, что свидетельствует о существенной положительной ранговой связи между исследуемыми переменными. Пример 2.2. Десять однородных предприятий под- подотрасли были проранжированы вначале по степени прогрес- прогрессивности их оргструктур (признак хA)), а затем — по эффек- эффективности их функционирования в отчетном году (признак jcB)). В результате были получены следующие две ранжировки: Х<*>' - A; 2,5; 2,5; 4,5; 4,5; 6,5; 6,5; 8; 9,5; 9,5); Х<2>' = = A; 2; 4,5; 4,5; 4,5; 4,5; 8; 8; 8; 10). В первой ранжировке имеем четыре группы неразличимых рангов, число элементов в которых больше единицы, а во вто- второй ранжировке — две такие группы. В соответствии с форму- формулой B.4) получаем: Т*1*^ — [B3—1) + B3 —1) + B3—1) + B3— 1)]^=~г=2,33; 7B> = — [D3—1) + C3— 1)] = 7,42. Точная формула B.5) дает т$ = 0,917. Вычисление этого же коэффициента корреляции по приближенным фор- 108
мулам B.3) и B.5') дает соответственно значения 0,921 и 0,917. Все эти результаты оказываются совпадающими при округлении до второго десятичного -знака. 2.2.2. Ранговый коэффициент корреляции Кендалла. Другой широко используемой характеристикой тесноты статистиче- статистической связи между двумя упорядочениями является ранговый коэффициент корреляции Кендалла, определяемый соотно- соотношением [67] B.6) где v (Х(*>, Х<{>) — минимальное число обменов соседних элементов последовательности Х({>, необходимое для при- приведения ее к упорядочению Х(^. Очевидно, величина v (Х(?\ Хф) симметрична относительно своих аргументов, так что с равным правом можно говорить о минимальном числе «со- «соседских обменов» элементов последовательности Х^-\ не- необходимом для приведения ее к виду Хф. Из B.6) сразу следует, что при совпадающих ранжировках Х<*> и Х</>?<?> = 1 (так как v (Х<*\ Х<>> -0), а при противоположных (т. е. при х{]р = п — х{0 +1, i = 1, 2, ..., п, так что v (Х<*>, хф) - \ п (п — 1) )?$> =—1. Нетрудно показать (см., например, [67]), что во всех осталь- остальных случаях |TJtfP|<l. Вычисление т^) связано с необходимостью подсчета ве- личины v (Х(?>, Х@) и, следовательно, является более трудоемким, чем вычисление т(|.). Однако, во-первых, коэффициент Кендалла обладает некоторыми преимущест- преимуществами по сравнению с коэффициентом Спирмэна, главные из них: а) относительно большая продвинутость в исследовании его статистических свойств и, в частности, его выборочного распределения (см. ниже, п. 2.2.4); б) возможность его ис- использования и в частной («очищенной») корреляции рангов [67, гл. 8]); в) большие удобства его пересчета при добавле- добавлении к п статистически обследованным объектам новых, т. е. при удлинении анализируемых ранжировок: для вычисления нового значения рангового коэффициента корреляции прихо- приходится переранжировать значительную часть объектов, что в случае тФ означает необходимость пересчета разностей x{k) — дЧ/). ПрИ вычислении же т|?> значения рангов не играют никакой роли, важно лишь число необходимых «сосед- 109
ских обменов», которое при добавлении новых объектов под- считывается рекуррентным способом (к старому значению v (Х(*}, Хф) может быть лишь дополнен некоторый «доба- «добавок»). Во-вторых, можно воспользоваться рекомендациями, уп- упрощающими подсчет числа v (Х{к)у Хф) как при ручном, так и при машинном счете. Так, при ручном счете полезным оказывается известный факт тождественного совпадения величин v (Х(;\ Хф) и / (Х(?\ Хф), где число инверсий I (Х{к\ Хф) —-это про- просто число расположенных в неодинаковом порядке пар эле- элементов последовательностей Х^ и Хф, являющееся ес- естественной мерой нарушения порядка объектов в одной по- последовательности относительно другой. Для удобства подсчета / (Х(^, ХФ) перенумеруем объекты в порядке, определяе- определяемом рангами последовательности Х(*>. Тогда анализируемые ранжировки Х{к\ Хф соответствующим образом видоиз- видоизменяются, т. е. преобразуются к виду соответственно Х^\ Хф, где Х<?>' - A, 2, ..., п)\ Хф'-^ф,*ф, ..., *<{>), а число инверсий / (Х<*>, Хф) = / (Х<*>, Хф), а следо- следовательно, и величина v (X(^, Хф) определятся по формуле где 1, если x(^> л:/(/) (т. е. нарушен порядок последо- последовательности О — в противоположном случае. Легко подсчитать, что число инверсий / (Х{1:\ Хф) мо- может меняться от 0 (что соответствует случаю совпадающих ранжировок) до ^ п (п — 1) (что соответствует случаю про- противоположных ранжировок). Формулы B.6)—B.7) пригодны для подсчета т<?> лишь в случае отсутствия объединенных рангов в обеих исследуе- исследуемых ранжировках. Соответствующее «подправленное» значе- ние 1^*{3) при наличии объединенных рангов в анализируемых упорядочениях будет определяться соотношением ПО
n?1- К] у . . . ... \ / в котором коэффициент т<*> вычисляется по формуле B.6)— B.7), а «поправочные» величины ?/(/> определяются соотно- соотношением 2 iffi (смысл величин m<;> и n(j> определен в п. 2.2.1, см. B.4)). Для пояснения работоспособности формул B.6)—B.8) вер- вернемся к примерам 2.1, 2.2. Анализ степени согласованности ранжировок двумя экс- экспертами десяти проектов реорганизации НПО (пример 2.1), осуществленный с использованием формул B.6), B.7), дает: Vi2 — 0; v13 = 1, v14 - v15 = vle = v17 = v18 = v19 = v1#10 = 0; v23 = 1; v24 = v25 = v26 = v27 = v28 = v29 = v2#10 = 0; V34 = 1 i V35 = V36 = V37 = V38 = V39 = V3.10 == 0j V45 == V46 = V4? = V48 = V49 s= V4.10 = 0; V56 = 1; V57 = V58 = V59 = V5.lo = 0; V6? = V68 = v69 = v6 ло = 0; V9.10-0. Таким образом, v (X<!>, X<?>) =1 + 1 + 1 + 0+1 + 0 + + 2 + 0 + 0 = 6. Соответственно ^)=1 ^-=1-0,267 = 0,733 (напомним, что коэффициент Спирмэна в этом примере был равным 0,915). hi
При вычислении рангового коэффициента корреляции Кен- далла в примере 2.2 следует воспользоваться формулой B.6'), так как исследуемые ранжировки содержат объединенные ран- ранги. Используя результаты расчета величин тA) = 4, т<2> = 2t „A) „A) „(,1) ~<1) О „B) Л „<«> О /П1и1 п О О П получаем (в соответствии с B.8)): (/A)^^B + 2 + 2 + 2) = 4; [/<2>= — D-3 +3-2) =9. Обращаясь теперь к формуле B.6'), имеем: _ 26 (напомним, что соответствующий коэффициент Спирмэна был равен 0,917). 2.2.3. Обобщенная формула для парного коэффициента кор- корреляции и связь между коэффициентами Спирмэна и Кендал- ла. Для удобства стандартной реализации системы алгоритмов корреляционного анализа на ЭВМ полезно ввести некоторый обобщенный прием вычисления парных корреляционных ха- характеристик, определенный для любой двумерной системы п наблюдений \4Л. ^>, - С этой целью определим некоторое правило, в соответствии с которым каждой паре (x\l\ xW) компонент вектора Х({> (/ = k, j) ставится в соответствие число («метка») а\1}, при- причем это правило должно обладать свойством отрицательной симметричности (т. е. aS1) = — а\1\) и центрированности (т. е. аФ=0 при всех l=k,j и всех 1 = 1,2, ..., п). Тогда обобщенный коэффициент корреляции г(об> переменных х№ и xW определяется формулой п п Н/б) = г „ ';°'f'=1 "V"'n —. B.10) Легко видеть (см., например, [67]), что практически все введенные нами характеристики парной корреляционной свя- 112
зи могут быть получены как частные случаи формулы B.10) при соответствующем выборе правила приписывания числовых «меток» а/,/2. Действительно: а) положив а\[)% = xj[> — *{/>, I = k, /, получаем фор- формулу для обычного парного коэффициента корреляции rhj, если *<'> — значение 1-й количественной переменной в /-м наблюдении (см. п. 1.1.2, формулу A.8')), н формулу для ран- рангового коэффициента корреляции Спирмэна т^>, если х\1) — ранг /-го объекта в ряду, упорядоченном по порядко- порядковой переменной *(/> (см. формулу B.3)); б) положив + 1, если 0, если *?> = *< <>; -1, если *! получаем формулы B.6) и B.6') для рангового коэффициента корреляции Кендаллат^), если под х\1) понимать ранг 1-го объекта в 1-й упорядочении. Заметим, что значения ранговых корреляционных характе- ристик т^> и т??> довольно тесно связаны одно с другим. Это следовало ожидать, так как обе характеристики являются линейными функциями от числа инверсий, имеющихся в срав- сравнении последовательностей Х(^> и Xty- различие этих функций состоит в том, что при подсчете коэффициента Спирмэна ин- инверсиям более отдаленных (по величине) друг от друга эле- элементов приписываются большие веса (см., например, [67, п. 1.17 и 2.121). Между масштабами шкал, в которых измеряют корреляцию коэффициенты t<s> и т<к> нет простого соот- соотношения. Однако уже при умеренно больших значениях п (п ^ 10) и при условии, что абсолютные величины значений этих коэффициентов не слишком близки к единице, их связы- связывает следующее простое приближенное соотношение 2.2.4. Статистические свойства выборочных характеристик парной ранговой связи. До сих пор речь шла о выборочных характеристиках ранговой связи. Попробуем ответить на во- вопрос: как точно эти выборочные характеристики (определен- (определенные, в частности, формулами B.3)—B.8)) оценивают соот- соответствующие истинные (теоретические) значения? пз
Для этого в первую очередь следует пояснить, что в дан- данном случае понимается под теоретическими характеристика- характеристиками. Представим себе сначала конечную генеральную совокуп- совокупность, состоящую из N объектов Ои О2,..., On* каждый из ко- которых снабжен двумя порядковыми номерами: Ог <-> (*<*>, **/>), i — 1, 2, ..., N, где х\1) означает место объекта 0ь в общем ря- ряду всех N объектов, упорядоченном по степени выраженности свойства х{1) (l=k, /). Будем полагать, что статистически об- следованное множество объектов О/1? О/2, ..., О,- образуется как случайная выборка объема /г, взятая из совокупности О1э О2, ..., О* (п « N). Определим теоретические (истинные) значения коэффи- коэффициентов т??>, т^ и г<,°.б> соответственно теми же соотноше- соотношениями B.3)' (или B.5))' B.6) (или 2.6')) и B.10), что и вы- выборочные с заменой объема выборки п объемом генеральной совокупности N. При работе с выборкой производится есте- естественная перенумерация объектов и их рангов, не меняющая их упорядоченности в генеральной совокупности ни по одной из переменных. В дальнейшем нас будет интересовать, как сильно могут отличаться выборочные значения t<s> и т<*> от соответст- соответствующих теоретических, в том числе в так называемых асимп- асимптотических ситуациях, т. е. при Л^->оо и n (N) -*¦ оо. Проверка статистически значимого отличия от нуля ран- ранговых корреляционных характеристик (т. е. проверка гипоте- гипотезы #0, см. соотношения B.1)) осуществляется при «не слиш- слишком малых» п (т. е. при п > 10) при заданном уровне значи- значимости критерия а с помощью проверки неравенств a_(n-2).y l яЦ ; ; B.11) B.12) -f у 9/1 (я-1) в которых tq (v) и uq, как и прежде, 100</%-ные точки соот- соответственно t (v)- и нормального распределения (см. табл. П.6 и П.З). Выполнение неравенств B.11) и B.12) сигнализирует о необходимости отвергнуть гипотезу Яо, т. е. о наличии стати- статистически значимой ранговой корреляционной связи. В слу- случае небольших объемов выборок D ^ п <Л0) статистическая проверка гипотезы об отсутствии ранговой корреляционной связи производится с помощью табл. П.9 и П. 10. 114
Таблица П.9 позволяет при малых п (п = 4,5, ..., 10) по- построить то пороговое значение т?ра>х, при превышении которо- го (по абсолютной величине) коэффициентом Спирмэна тл5> следует признать наличие статистически значимой связи меж- между анализируемыми переменными. Задавшись уровнем зна- значимости критерия а и числом сравниваемых объектов п, оп- определяем из таблицы величину Sc = Sc (n, Q), соответствую- соответствующую нашему п и значению Q = а/2 (или приблизительно равному а/2). Тогда 2Sr(n Q) *??« = I ~1' BЛЗ) где Кп = -ч (^3 — п) (значения этой вспомогательной кон- о станты приведены в последней строке таблицы). Так, в примере 2.1 для уровня значимости а — 0,06 име- имеем: я = 10; Q = 0,03; Sc = Sc A0; 0,3) = 268; /Clo == 330, так что в соответствии с B.13) max 330 Поскольку выборочное значение рангового коэффициента корреляции Спирмэна тE> в этом примере значительно пре- превосходит пороговое значение (т<5> = 0,915 > 0,624), то ги- гипотеза об отсутствии корреляционной связи отвергается. И наконец, в табл. П. 10 приведены значения вспомогатель- вспомогательных величин Sx, позволяющих вычислить (при малых п = 4, 5, ..., 10) то пороговое значение т^, при превышении которо- которого (по абсолютной величине) коэффициентом Кендалла сле- следует признать наличие статистически значимой связи между анализируемыми переменными. Для этого поступают следую- следующим образом: задавшись объемом выборки п и уровнем зна- значимости критерия а, находят в столбце, соответствующем дан- данному /z, величину, равную (или приблизительно равную) а/2; затем находят значение S/< = Sx(n, а) в левом столбце той же самой строки и вычисляют т^^ по формуле 25^) lmax (!) \<^) lmax Если окажется, что т(/С) > т^х» то гипотеза об отсутствии ранговой корреляционной связи отвергается (связь статисти- статистически значима). 115
Так, в примере 2.1 при уровне значимости а = 0,06 име- имеем: п = 10; 0,23 <С о" < 0,36; следовательно, S/c — 22 (оно лежит между 21 и 23), так что т<*> =-2^2-= — =--0,489. тах 10-9 90 Поскольку т(К) = 0,733 > 0,489, делается вывод о на- наличии статистически значимой корреляционной связи между исследуемыми переменными в данном примере. Построение доверительных интервалов для неизвестных истинных значений ранговых коэффициентов корреляции воз- возможно лишь приближенно и только при измерении ранговой корреляции с помощью коэффициента Кендалла. При этом испбльзуют (при п > 10 и значениях т(/с>, не слишком близ- близких по абсолютной величине к единице) приближенный факт нормальности распределения величины т<к> со средним зна- значением Ет(/<) « t<k> и с дисперсией Dx(K>, не пр.евышаю- щей величины ~[1 — (т(К>J]. Можно утверждать, что с до- доверительной вероятностью, не меньшей заданного уровня Р, истинное значение коэффициента Кендалла т(К> заключено в пределах |/l-[l_(^/c))a]f B.15) V П где wg — ^/-квантиль стандартного нормального распределе- распределения (см. табл. П.З). 2.3. Анализ множественных ранговых связей 2.3.1. Коэффициент конкордации (согласованности) как изме- измеритель статистической связи между несколькими порядко- порядковыми переменными. До сих пор мы рассматривали корреля- корреляцию между двумя порядковыми переменными. Однако при ре- решении основных задач А—С статистического анализа ранго- ранговых связей (см. п. 2.1.3) возникает необходимость уметь из- измерить статистическую связь между несколькими (более чем двумя) переменными. С этой целью Кендаллом [67] был пред- предложен показатель W (га), названный коэффициентом кон. 116
кордации (или согласованности), вычисляемый па формуле1 W (т) = ^ У f V *<*>>-- i!i!l±iiY, B.16) где m — число анализируемых порядковых переменных (срав- (сравниваемых упорядочений); п — число статистически обследован- обследованных объектов или длина ранжировки (объем выборки); ku &2> •••» km — номера отобранных для анализа порядковых пе- переменных (из исходной совокупности jc@), хA), хB), ..., х^р\ так что, очевидно, т <! р + 1). Нетрудно устанавливаются следующие свойства коэффи- коэффициента конкордации (см., например, [67, гл. 61): а) 0 <%< 1; б) W = 1 тогда и только тогда, когда все т анализируе- анализируемых упорядочений совпадают; в) если т>3 и анализируемые ранжировки генерируют- генерируются подобно случайному независимому га-кратному извлече- извлечению из множества всех п\ возможных упорядочений п объек- объектов (условия гипотезы Яо, см. и. 2.1.4), то связи между ними нет и W - _0; г) пусть т<5)(т) — среднее значение коэффициента Спир- мэна, подсчитанное по значениям т(т — 1)/2 коэффициен- коэффициентов т^ (i'f j = 1, 2, ..., m; i Ф /), характеризующих ранго- ранговую связь между всеми возможными парами переменных (x{k'l\ x{kj]) из анализируемого набора (x{kl>, x{k*\ ..., x{hm))\ тогда T-s)(ffl)= m?^~' ; B.17) в частности, из B.17) следует для случая т = 2, что B.17') т. е. коэффициент конкордации, исчисленный для двух пере- переменных, пропорционален введенному ранее парному ранго- ранговому коэффициенту корреляции Спирмэна. 1Мы приводим здесь формулу для подсчета выборочного значения W коэффициента конкордации W. Интерпретация и вычисление тео- теоретического значения W непосредственно следуют из рассуждений, приведенных в п. 2.2.4 в связи с анализом статистических свойств аы- борочных парных ранговых коэффициентов корреляции. 117
То, что шкала измерения W (т) не включает в себя отрица- отрицательных значений, объясняется следующим обстоятельством. В отличие от случая парных связей при анализе т (т ^ 3) порядковых переменных противоположные понятия согласо- согласованности и несогласованности утрачивают прежнюю симмет- симметричность (относительно нуля); упорядочения, произведенные в соответствии с переменными x{ki), x(k*\ ..., x(kfn\ могут полностью совпадать, но не могут полностью не совпадать в том смысле, который мы вкладывали в это понятие при т = 2. Формула B.16) получена (и справедлива) в предположе- предположении отсутствия объединенных рангов в каждом из анализи- анализируемых упорядочений. Если же таковые имеются, то формула должна быть модифицирована: (Л.) т(я+1)\Я ¦г ' - —5—1 L, B.16') V Tikj) 1 \2 K /== 1 где поправочный коэффициент T{kJ} (соответствующий пере- переменной jc(V) подсчитывается по формуле B.4). 2.3.2. Проверка статистической значимости выборочного значения коэффициента конкордации. Как ведут себя выбороч- ные значения W (т) коэффициента конкордации при повто- повторении выборок заданного объема п (из одной и той же генераль- генеральной совокупности) при отсутствии какой-либо связи между анализируемыми т переменными? Другими словами, нас ин- интересует ответ на следующий вопрос. Предположим, что каж- каждому объекту конечной генеральной совокупности (состоящей из N элементов) приписан какой-то определенный ранг по каждой из т рассматриваемых переменных. Так, например, если т = 3 и объекту Ог приписана тройка (**A> = jV; х\2) = 1; х\3) = 2), то это означает, что по переменной х^1) он стоит на последнем (jV-m) месте в упорядоченном ряду всех объектов генеральной совокупности, по переменной л:B) — на первом и по переменной хC) — на втором. Тогда по исходным данным {{х\х\ х\*\ ..., *Jm))}<=fjv с помощью формулы B.16) может быть вычислен теоретический (генеральный) коэффициент кон- конкордации W (m), характеризующий степень тесноты ранго- ранговой связи между переменными л;*1), хB), ..., л:(т). Однако ис- исследователю известны значения (x\l), xj2) х}т))лишь для на- ста объектов генеральной совокупности, а именно для слу- 118
чайной выборки объектов объема n(n<iN). После естест- естественной перенумерации рангов, сохраняющей правило упоря- упорядочения объектов, но переводящей масштаб измерения ран- рангов в шкалу A, 2, ..., п) (для этого минимальный из оказав- оказавшихся в выборке рангов по каждой переменной объявляется рангом, равным 1, следующий по величине— рангом, равным 2, и т. д.), может быть вычислен (по той же формуле B.16)) выборочный коэффициент конкордации W (т). Извлекая дру- другую выборку объема п из той же самой генеральной совокуп- совокупности, мы получим, вообще говоря, другое значение выбороч- выборочного коэффициента W (т) и т. д. Спрашивается, как сильно могут отклоняться от нуля вы- выборочные значения коэффициента конкордации W (т) в ситу- ситуации, когда значение теоретического коэффициента конкорда- конкордации W (т) свидетельствует о полном отсутствии ранговой свя- связи между анализируемыми переменными хA), хB), ..., х(т) ? Для малых значений т и п B ^С га ^20, З^См^ 7) ответ на этот вопрос может быть получен с помощью табл. П. 11а. Обозначенная в ней величина S есть не что иное, как B.18) «Входами» в табл. П. 11а является тройка чисел (т, п, S). «Выходом» — вероятность того, что величина S может быть такой, какой она является в нашей выборке, или большей в условиях отсутствия связи переменных в генеральной совокуп- совокупности. Если окажется, что эта вероятность меньше принятой нами величины уровня значимости критерия а (например, а = 0,05), то гипотезу об отсутствии связи следует отвергнуть, т. е. признать статистическую значимость анализируемой свя- связи. Табл. П.116 построена несколько иначе. В ней при уровне значимости а = 0,05 и в соответствии с «входами» (т, п) даны «критические» значения величины S, т. е. такие значе- значения, при превышении которых следует отвергать гипотезу об отсутствии связей (признавать их статистическую значи- значимость). При л >7 для проверки статистической значимости ана- анализируемой связи следует воспользоваться фактом прибли- приближенной х2 (я — 1)-распределенности величины т (п — 1) X X W (m), справедливым в условиях отсутствия связи в гене- генеральной совокупности (W (m), как и прежде, подсчитывается 119
по формуле B.16) или B.16')). Поэтому, если окажется, что т(л —1) W {т)>%Ъ{п — 1), B.18) то гипотеза об отсутствии ранговой связи между переменными x<*i), x{ki), ...,x{km> должна быть отвергнута (с уровнем зна- значимости критерия, равным а); в B.18) величина х& (п — 1)— это 100а%-ная точка х2-распределения с (п — 1)-й степенью свободы (см. табл. П.4). Можно использовать и другой способ проверки статисти- статистической значимости исследуемой ранговой связи между не- несколькими переменными, основанный на том, что в условиях отсутствия таковой в генеральной совокупности распределение 1 t (m— \)-Щт) . случайной величины -^ In __ приближенно описы- вается Z-распределением Фишера с числом степеней свободы 2 числителя vx = п — 1 и знаменателя v2 = (т — 1) vx (при большом числе объединенных рангов или значительной их протяженности в расчет vx и v2 следует ввести поправку, см. [67, гл. 61). Строгих рекомендаций по построению доверительных ин- интервалов для истинного значения W в условиях наличия ран- ранговых связей в исследуемой генеральной совокупности к на- настоящему времени не имеется. 2.3.3. Использование коэффициента конкордации в решении основных задач статистического анализа ранговых связей. Наметим некоторые подходы к решению описанных в п. 2.1.3 задач А, В и С, опирающиеся на понятие коэффициента кон- конкордации. Задача А. При анализе структуры имеющейся сово- совокупности упорядочений (или структуры связей между иссле- исследуемыми порядковыми переменными) существенную пользу может принести решение следующей задачи: найти разбиение анализируемого набора порядковых переменных х<°>, х<г\ ..., ..., х^Р) на заданное число / непересекающихся групп, опти- мольное в смысле максимизации критерия W (t) = -т [W\ + + W2 + ... + WJt где Wj — коэффициент конкордации, под- подсчитанный по переменным, входящим в /-ю группу. Задаваясь различными значениями t = 2, 3, ..., t0 (t0 < р) и прослеживая характер изменения U7^n>T в зависимости от /, можно добить- добиться успеха в выявлении групп высококоррелированных пере- переменных 120
Задача В. В приложениях, особенно при статистиче- статистическом анализе совокупности экспертных мнений (представ- (представленных в виде ранжировок), существенным оказывается вопрос упорядочения самих переменных (интерпретируе- (интерпретируемых, например, в качестве экспертов) по степени их корре- лированности со всеми остальными переменными или с какой-то их частью (представляющей, например, основ- основное ядро высококоррелированных переменных). Для ре- решения этой задачи может быть предложена следующая процедура. Пусть W (р + 1 — k\x{i'i) xi}'z) ... xiIh)) — коэффициент кон- кордации, подсчитанный по всем рассматриваемым перемен- переменным х@), л;*1), ...,х(р) за исключением переменных х^'1\ ..., xilh\ Варьируя состав группы исключенных переменных, мы полу- получим Скл_{ различных значений W (р + 1 —к). Последова- Последовательно вычислим значения всех этих коэффициентов для к — 0, 1, 2,..., k0 и упорядочим их (при каждом фиксирован- фиксированном к) в соответствии с убыванием их значений. Получим: W W(p~ 1 | *<»«>, *<'•>) > W (p— 1 | *(»•>, *<'«>) > ¦ > W {p - Эти упорядочения (на каждом «этаже») и дают нам одно- одновременно ранжировки самих переменных (по одной, по паре, по тройке и т. д.) по степени их согласованности с остальными переменными: очевидно, ту переменную (или ту пару, трой- тройку и т. д. переменных), выбрасывание которой приводит к максимальному значению меры согласованности по осталь- остальным переменным, естественно объявить наименее связанной (согласующейся) с остальными переменными. Это правило, в частности, было с успехом использовано при обработке экс- экспертных мнений в работе, описанной в [11, §5.1]. Задача С. Если коэффициент W (т) свидетельству- свидетельствует о наличии статистически значимой связи между анализи- анализируемыми показателями x{kt\ x^ki)y ..., x(km\ то представляет интерес задача построения оценки неизвестной «истинной» упорядоченности Хнст рассматриваемых объектов. Эта оцен- оценка должна быть, по-видимому, результатом некоторого агре- 121
гирования имеющихся ранжировок Х{к\\ Х{к*), ..., Х{к™К Для формирования Х^ист) чаще других используют один из трех следующих приемов: а) компоненты Х(ист) определяются в результате сравне- сравнения сумм рангов, приписываемых каждому объекту упорядо- упорядочениями Х<*«>, Х<*«>, ..., Х{к™\ б) компоненты Х(ист) определяются в результате сравне- сравнения выборочных медиан рангов, приписываемых каждому объекту анализируемыми упорядочениями; в) «присуждение» мест объектам в упорядочении Х(ист) основано на «большинстве голосов», поданных за данный объект в ранжировках Х^\ ..., X .ш> за то или иное место; на- например, больше других первых мест в анализируемых ранжи- ранжировках получил объект 05, тогда ему и присуждается ранг 1 в ранжировке Х(ист) и т. д. 2.3.4. Примеры. Рассмотрим примеры, в которых реализуют- реализуются приведенные выше рекомендации по статистическому ана- анализу множественных ранговых связей. Пример 2.3. Рассмотрим три порядковые перемен- переменные (л'A), л:B), хC)) и соответствующие им упорядочения де- десяти объектов: Х(>)' Х<>>' Сумма 1 2, 2 5, 5 5 4, 1 1 6, 5 5 2 2,5 4,5 9 4, 4, 4, 13 5 5 5 ,5 3 4,5 4,5 12 7 1 4 5 5 20 6 9 8 23 9 6,5 8 23,5 7, 10 8 25 5 ,5 10 6,5 10 26,5 В соответствии с формулами B.18), B.4) имеем: 10/3 \ 2 = _i—Bs —2)-2 = l; 12 = _L.B3 —2K=1,5; 122 = i_.D3 —4 —3) = 7.
Следовательно, в соответствии с B.16') ЩЗ) = — — -0,828. v ' 1 742,5 — 28,5 —_32.(Ю2_10)—3A + 1,5 +7) Пример 2.4. Требуется проверить статистическую зна- значимость множественной ранговой связи 28 переменных (т = = 28), характеризуемой величиной выборочного коэффициен- коэффициента конкордации W B8) = 0,08, подсчитанного по 13 объек- объектам (п = 13). Воспользуемся фактом %2 A2)-распределенности случай- случайной величины т (п — 1) W (т), который имеет место при- приближенно) в случае, если в исследуемой генеральной совокуп- совокупности множественная ранговая связь отсутствует. Тогда кри- критерий сводится к проверке неравенства B.18). Задавшись уров- уровнем значимости критерия а = 0,05, находим из табл. П.4 значение 5%-ной точки х2-распределения с 12 степенями сво- свободы Х§ 05 A2) = 21,026. В то же время т (п — 1) W (т) = = 28-12.0,08 - 27. Поскольку т (п — 1) W (m) >Xo,os A2), то оказалось, что даже такого маленького числа, как 0fi8, «хватило» для того, чтобы объявить связь между 28 исследуемыми перемен- переменными статистически значимой. ВЫВОДЫ 1. Анализ статистических связей между порядковыми пере- переменными сводится к статистическому анализу различных упо- упорядочений (ранжировок) одного и того же конечного множест- множества объектов и осуществляется с помощью методов ранговой корреляции. В зависимости от типа изучаемой ситуации (шка- (шкала измерения анализируемого свойства не известна исследо- исследователю или отсутствует вовсе; существуют косвенные или ча- частные количественные показатели, в соответствии со значе- значениями которых можно определять место каждого объекта в общем ряду всех объектов, упорядоченных по анализируемому основному свойству) процесс упорядочения объектов произво- производится либо с привлечением экспертов, либо формализованно — с помощью перехода от исходного ряда наблюдений косвен- косвенного количественного признака к соответствующему вариа- вариационному ряду. 2. Исходные статистические данные для проведения ранго- рангового корреляционного анализа представлены таблицей (ма- (матрицей) рангов статистически обследованных объектов разме- 123
pa я X (p + 1) (число объектов на число анализируемых пе- переменных). При формировании матрицы рангов допускаются случаи неразличимости двух или нескольких объектов по изу- изучаемому свойству («объединенные» ранги). 3. К основным задачам теории и практики ранговой корреля- корреляции относятся: анализ структуры исследуемой совокупности упорядочений (задача А); анализ интегральной (совокупной) согласованности рассматриваемых переменных и их условная ранжировка по критерию степени тесноты связи каждой из них со всеми остальными переменными (задача В); построение единого группового упорядочения объектов на основе имею- имеющейся совокупности согласованных упорядочений (задача С). 4. Статистический анализ взаимосвязей порядковых перемен- переменных строится на базе различных вариантов моделей вероятност- вероятностного пространства, в котором роль пространства элементар- элементарных исходов играет множество всех возможных перестановок из п элементов (п — число статистически обследованных объектов). 5. В качестве основных характеристик парной статистической связи между упорядочениями используются ранговые коэф- коэффициенты корреляции Спирмэна т<5> и Кендалла т(к> (см. формулы B.3)—B.8)). Значения этих коэффициентов меняют- меняются в диапазоне от —1 до +1, причем экстремальные значения характеризуют связь соответственно пары прямо противопо- противоположных и пары совпадающих упорядочений, а нулевое зна- значение рангового коэффициента корреляции получается при полном отсутствии статистической связи между анализируе- анализируемыми порядковыми переменными. 6. В качестве основной характеристики статистической свя- связи между несколькими (т) порядковыми переменными исполь- используется так называемый коэффициент конкордации (согласо- (согласованности) Кендалла W (т), определяемый формулами B.16)— B.16'). Между значением этого коэффициента и значениями парных ранговых коэффициентов Спирмэна, построенных для каждой пары анализируемых переменных, существуют про- простые соотношения (см. B.17), B.17')). 7. Если представить себе, что каждому объекту некоторой до- достаточно большой гипотетической совокупности (будем назы- называть ее генеральной совокупностью) приписан какой-то ранг по каждой из рассматриваемых переменных и что статистическому обследованию подлежит лишь часть этих объектов (выборка объема я), то достоверность и практическая ценность выводов, основанных на анализе ранговой корреляции, существенно за- зависят от следующего вопроса: как ведут себя выборочные зна- значения интересующих нас ранговых корреляционных характе. 124
ристик при повторениях выборок заданного объема, извлечен- извлеченных из этой генеральной совокупности. Это и составляет предмет исследования статистических свойств выборочных ранговых характеристик связи. Результаты этого исследова- исследования относятся прежде всего к построению правил проверки статистической значимости анализируемой связи и к построе- построению доверительных интервалов для неизвестных значений ко- коэффициентов связи, характеризующих всю генеральную сово- совокупность (см. п. 2.2.4, 2.3.2). 8. Парные и множественные характеристики ранговой кор- корреляции являются удобным инструментом решения основных задач (см. задачи А, В и С в п. 2.1.3) статистического анализа связей между порядковыми переменными (см. п. 2.3.3 и при- примеры 2.1—2.4). Глава 3. АНАЛИЗ СВЯЗЕЙ МЕЖДУ КЛАССИФИКАЦИОННЫМИ (НОМИНАЛЬНЫМИ) ПЕРЕМЕННЫМИ 3.1. Таблицы сопряженности Ограничимся рассмотрением таблиц с двусторонней груп- группировкой. Для них сформулированы основные гипотезы и ука- указаны методы их проверки, описана логарифмически-линейная параметризация, приведены различные меры зависимости меж- между строками и столбцами таблицы. Вводятся понятия энтро- энтропии случайной величины и информации, содержащейся в од- одной случайной величине относительно другой случайной ве- величины, представляющие самостоятельный интерес. Методы изучения таблиц с тремя и более входами можно найти в [23, 75, 154, 168, 199, 238]. 3.1.1. Три основные выборочные схемы, приводящие к табли- таблицам сопряженности. Схема I возникает в случае, когда рас- распределения строк (хп, ..., хи) i = 1, ..., / (столбцов) табли- таблицы можно рассматривать как независимые выборки из поли- полиномиальных распределений с вероятностями цц 2 qtj = 1 и фиксированным числом наблюдений П{ = 2 ха- Такая ор- организация данных обычно возникает, когда хотят сравнить между собою несколько одномерных распределений, представ- представленных выборками заранее заданного объема. Наиболее важ- важная гипотеза для первой схемы Н\ \ q:; = о j/1, где q ,• = ^v^, q,,. C.1) i 125
Гипотезу Н[ называют гипотезой однородности (см. [14, п. 1.1.3 и 11.21). Схема II. Предполагается, что (хп, х12у ..., xfJ) имеют Полиномиальное распределение с вероятностями (рп, ..., ри) и фиксированным числом наблюдений п = 2 ха- Таблица сопряженности в этом случае является обычной дву- двумерной гистограммой для п наблюдений, а аналогом C.1) —• гипотеза НП:ри = р>.рф C.2) где pi. — 2 Ри и P-J ~ 2j Ри- Если воспользоваться опре- делением условной вероятности [14, п. 4.1.3], то Р {попасть в клетку (/, /)| быть в ряду 1} = Р {быть в столбце /}. По- Поэтому гипотезу Н\1 называют гипотезой независимости. Схема III возникает, когда в схеме II общее число на- наблюдений рассматривается как случайная величина. Ее важ- важным частным случаем является случай, когда п имеет распре- распределение Пуассона. В этом случае все хи независимы между со- собою и также имеют распределение Пуассона с параметрами Xij. Аналогом C.1), C.2) является гипотеза Ки = К1..^/К., C.3) где Xt. = 2*«v. ^./= 2>*v и А,.. = 2*/у- Гипотезу Н\" I i i. f называют мультипликативной пуассоновской моделью, или, короче, гипотезой мультипликативности. В качестве примера схемы III может быть рассмотрена следующая задача. Пусть xtj — число дорожно-транспортных происшествий, зареги- зарегистрированных в какой-либо местности в L-и день на дорогах /-го типа. Параметры Хг-7- в этом случае отражают ожидаемое число дорожно-транспортных происшествий. Если использо- использование транспортом дорог разного типа существенно зависит от дня недели, то гипотеза Н\и , вероятно, не верна. Однако она может иметь место, если, например, рассматривать только ра- рабочие дни. Существует приближенный графический тест для провер- проверки гипотезы Н\и [154]. Он заключается в том, что для каждо- каждого / = 1, ..., J строится график, в котором по оси абсцисс от- откладываются точки xt. = 2*/;» а по оси ординат — Xij. Ес- / ли гипотеза Н1п верна, то нанесенные точки должны группи- группироваться вокруг линии, проходящей через начало координат с наклоном X.j/h... Вероятность выхода заданной точки за 126
/ к • / к Л\1/2 пределы ± 2 \Xi.-j-1 A ^-ч! не более 0,05. Использо- Использование такого графического представления позволяет сразу же локализовать пары (/, /), в которых происходит значимое от- отклонение от HI11. Можно доказать, что если в схеме III зафиксировать х.. = п, то она переходит в схему II с ри = Хи/Х... При этом Н1и переходит в И[1. Аналогично, если зафиксировать в схеме II суммы xtj по рядам, положив пх = 2*и'» •••» ni ~ = 2 х//» то схема И переходит в схему I с qu = Pij/pt., a Я*1 в Я^. Поэтому следует ожидать, что в математической трактовке схем I, II, III должно быть много общего. 3.1.2. Логарифмически-линейная, параметризация таблиц со- сопряженности. Для любой из описанных выше моделей положим + 0т C.4) или txii = ln^ = e<o> + ei1)+e}2>+ej/2> C.4') В данном случае мы несколько отступаем от принятых в книге обозначений, так как индексы сверху 0 означают век- векторы, а индексы снизу — их координаты. Параметры должны удовлетворять ограничениям 2 е^2) =* S W1} = S е^2) - о. C.5) Так же, как в дисперсионном анализе (см. § 13.3), величи- величины 8//2> называют взаимодействиями, 9/1) — эффектами строк, б}2> — эффектами столбцов и 9<°> — общим эффектом. При ограничениях C.5) модель C.4) имеет ровно IJ не- независимых параметров, так как всего имеется одно значение 0<°>, (/ — I) независимых б*1*, (J — 1) независимых Э(/) и (/ — 1) {J — 1) независимых 6//*\ • Из C.4') и C.5) следует, что ^~^; C.7) iM-iw C.8) |i^, C.9) где fi^ = 2 Putt, P*j =Sj*^/A И^** =2^,j/IJ. i t '. / 127
В новых обозначениях гипотезы #*, Н*1 и #Jn перехо- переходят в гипотезу Щ12): е;/2)х=0 для всех i и /. C.10) Оценки максимального правдоподобия для параметров по- получаются из формул C.6)—C.9) путем замены в них jilV на тц = In Xtj. Если все хц Ф 0, то оценки максимального прав- правдоподобия всегда существуют. Для того чтобы снять пробле- проблему существования оценок в общем случае, когда есть xtj = 0, положим для всех i, j ти = In (xu + с), где 0 <.с < 1. Асимптотические (при п -*- оо) свойства новых оценок будут такие же, как и у оценок максимального правдоподобия. 3.1.3. Проверка гипотез #0!, Н\\ Н\п. В [14, п. 11.2.21 описано применение критерия х2 Для проверки однородности нескольких рядоа распределений (гипотеза Н\ в схеме I). В обозначениях настоящего параграфа использованная для этой цели статистика имеет вид Г ^l.C3.ll> В случае когда Н\ имеет место, X2 приближенно распределе- распределено как х2 ((/ — 1) (J — 1))- Этот же критерий можно исполь- использовать для проверки гипотез Я^1 и #?п. Наряду с критерием X2 для проверки этих гипотез приме- применяют информационную статистику — 2 xj, In xj + x.. In jc.V C.12) / / которая при выполнении гипотезы о независимости или одно- однородности при п ->• оо асимптотически так же распределена, как х2 ((/ — 1) (J — 1)). Когда в таблице одна или несколько клеток содержат нули, рекомендуется применять поправку: для каждого нуля отнимать из величины 2м/ единицу1. Кри- Критерий 2п1 легко получить из общих принципов проверки слож- сложной гипотезы [14, п. 9.3.3]. В самом деле, -2 In {!(*„, ...,*„; вA), вB), вA2)-0)/Мхш ...,хи; в*1*, в<2>, хСм.: За кс Л. Статистическое оценивание. —М.: Статистика, 1976, с. 445. 128
равняется правой части C.12), а гипотеза #о12) накладывает ограничения на (/ — 1) (У — 1) параметров. Большие рас- расхождения между критериями X2 и 2п/ на практике наблюда юте я редко. Особое значение информационной статистики заключает- заключается в том, что для таблиц с многосторонней группировкой она может быть разложена на аддитивные составляющие, соответст- соответствующие различным гипотезам. При этом может быть построе- построена теория, во многом параллельная дисперсионному анализу (см. гл. 13). 3.1.4. Меры связи между строками и столбцами таблицы. Если связь, обнаруживающаяся при проверке гипотез неза- независимости или однородности, оказывается значимой, то по- полезно иметь численную меру ее. Хотя величина X2 дает нам удобный критерий значимости связи, она не может служить мерой связи. Так, если оставить неизменными все относи- относительные величины в таблице и увеличивать общее число из- измерений я, то величина X2 будет расти пропорционально п. Предложено много различных мер связи [23], но наиболее из- известными среди них являются меры, основанные на отноше- отношении Х2/п: <р = (Х21п)х/2 —квадратный корень из среднего квадрата со- сопряженности', С = IX2/(X2 + я)]1/2 — коэффициент сопряженности; Т = [X2lnV (/ — 1) (J — I)]1'2 — мера связи Чупрова. Наряду с ними практический интерес представляют ин- информационные меры связи. Прежде чем переходить к ним, вве- введем понятие энтропии случайной величины и информации, со- содержащейся в одной случайной величине относительно дру- другой случайной величины. Пусть случайная величина ? принимает конечное число значений х% (i = 1, ..., k) с вероятностями, соответственно рав- равными pi(xt), тогда ^(Б)=-2л(^Iпл(д:)=:-Е1пЛ(Б) C.13) х называют энтропией ? и рассматривают в качестве меры не- неопределенности ?. Энтропия обладает следующими свойствами: 1) Н (?) ^г 0, причем равенство достигается тогда и только тогда, когда ? принимает только одно значение; 2) Н (?) не меняется при взаимно-однозначных преобразо- преобразованиях ?; 3) Н (?) максимально, когда все возможные значения % рав- равновероятны. 244 129
По аналогии с Я (?) определяются энтропия распределе- распределения пары случайных величин и условная энтропия: я(g, т]) = — 2 pi. л (*. #)lnpg. л(*. 1/) = — Elnpi. ч (?. л); Основные свойства Я ( 1) Я (?, |) - Я (?); 2) Я (?, л) = Н&) + НШ\ 3) Я E, т]) ^ Я (^) + Я (т]), причем равенство достигает- достигается тогда и только тогда, когда \ и ц статистически независимы. Основные свойства Я (||т]): 1) Я (?11) - 0; 2) Я (?fo) ^ Я E), причем равенство достигается тогда и только тогда, когда | и г\ статистически независимы. Информационная мера зависимости ? и г\ определяется как / (g, Л) - Я (?) + Я (Л) - Я (?, Л). C.14) Про / (?, л) говорят, что она измеряет количество информа- информации в 5 относительно т] или количество информации в г\ от- относительно ?. Основные свойства / (?, л) легко следуют из свойств Я E, л): 1) / E, л) ^0» причем равенство достигается тогда и только тогда, когда ? и л статистически независимы; 2) / (|, 9 = Я (?). При анализе таблиц сопряженности используют направлен- направленные меры связи: C.15) C.15') Коэффициенты С заключены в пределах между 0 и 1 и по своим свойствам во многом аналогичны обычным коэффициен- коэффициентам корреляции. Они равны нулю, когда переменные ? и л статистически независимы; Сцц равно 1, когда I однозначно определяется по л; они не меняются при взаимно-однознач- взаимно-однозначных преобразованиях переменных. Пример 3.1. Пусть взаимное распределение ? и л задано с помощью табл. 3.1. Тогда Я (g, л) = 1,06; Я (I) = 0,77; Я (л) = 1,06; / (?, Л) = 0,77; CSI4= 1; Сч16 = 0,73. 130
Таблица 3.1 I 0 1 0 0,40 0 0,40 1 0,20 0 0,20 2 0 0,40 0,40 0,60 0,40 1 3.2. Приписывание численных значений качественным переменным (дуальное шкалирование) 3.2,1. Методическое место дуального шкалирования. Наряду со статистическими методами, изложенными в предыдущем параграфе, в работе с таблицами сопряженности может быть использован принципиально отличный подход. Градациям пе- переменных, измеренных в общем случае в шкалах наименова- наименований, приписываются численные значения так, чтобы достиг своего экстремума определенный функционал. Далее с новы- новыми переменными работают как с переменными, измеренными в качественных шкалах. В целом этот подход, который мы, следуя предложенному в [232], будем называть дуальным шкалированием (dual scaling), по своему методическому со- содержанию ближе к анализу данных, чем к традиционным ста- статистическим методам. В нем не формулируется математиче- математическая модель распределения исходных данных, предлагаемые статистические критерии носят, вообще говоря, эвристический характер, но зати четко и наглядно формулируется принцип приписывания численных значений. Дуальное шкалирование за последние 50 лет открывалось и переоткрывалось независимо разными исследователями и известно под различными названиями: «метод взаимных усред- усреднений» (the method of reciprocal averages) [210, 246], «аддитив- «аддитивное или оптимальное шкалирование» (additive or optimal scoring) [183], «метод максимизации коэффициента корреля- корреляции» (bivariate correlation approach) [198, 230], «взвешивание по Гутману» (Guttman weighting) [169], «анализ главных ком- компонент качественных данных» (principal component analysis 5* 131
of qualitative data), «одновременная линейная регрессия- (simultaneous linear regression) [2031. С точки зрения исполь- используемого алгебраического аппарата к дуальному шкалирова- шкалированию примыкают современные методы визуализации таблич- табличных данных: «биплот» (biplot) [171], «(факторный) анализ соответствий» (correspondance (factor) analysis) [165, 166], хотя их целевая направленность шире задачи оцифровки зна- значений переменных. Широкое использование при обработке данных ЭВМ сде- сделало дуальное шкалирование одним из основных инструмен- инструментов первичного анализа данных. Этим объясняется возрожде- возрождение внимания к нему в начале 70-х годов. Основные публика- публикации, последних лет по дуальному шкалированию — [222, 224, 232, 247]. Вычислительные программы могут быть найде- найдены в [169] и [232]. Сопоставление различных подходов к выбору оптимизи- оптимизируемого функционала в дуальном шкалировании позволяет глубже понять заложенные в методе возможности. Поэтому в дальнейшем сформулируем несколько различных принци- принципов приписывания численных значений и покажем, что все они ведут к одному и тому же результату. 3.2.2. Максимизация F-отношения суммы квадратов отклоне- отклонений между объектами к полной сумме квадратов отклоне- отклонений. Изложение начнем с гипотетического численного приме- примера. Предположим, что 10 экспертов произвели оценку органи- организации труда в четырех лабораториях. Эксперты могли исполь- использовать лишь три категории оценок: хорошо, удовлетворитель- удовлетворительно, неудовлетворительно, и один из экспертов оценивал лишь первые три лаборатории. Пусть полученные данные представ- представлены в виде таблицы сопряженности X, в которой Хц означа- означает число оценок градации /, полученных i'-й лабораторией (табл. 3.2). Таблица 3.2 Порядковый номер лаборатории @ 1 2 3 4 Итого x.j Оценка (/) хорошо 1 2 3 6 12 удовлетво- удовлетворительно 3 4 5 3 15 неудовлетво- неудовлетворительно 6 4 2 0 12 Итого 10 10 10 9 *.. = 39 132
Припишем численные значения оценкам: vx — хорошо, v2 — удовлетворительно, v3 — неудовлетворительно. Тогда на- набранные лабораториями оценки можно представить в виде односторонней таблицы дисперсионного анализа (см. гл. 13), в которой СКП — полная сумма квадратов отклонений, СКМ — сумма квадратов отклонений между лабораториями и СКВИ — сумма квадратов отклонений внутри лабораторий (табл. 3.3): Таблица 3.3 Порядковый номер лабо- лаборатории @ 1 2 3 4 Итого 01. 01. 01. 01, 02, 01. 01, 01, 02, 02, 01, 01, Оценки 02, 02, 02, 01, 03, 02, 02, 01, 0з. 02, 02, 01. и) 0з, 0з, 02, 02 0з, 0з, 02, 02 0з, 0з, 0з, 02 0з 0з 0з Итого (w-.) 01+3^2+603 = ^1. 2v x + 4i>2 + 4у з = w2. 3^+5^+2и3 = о'з. 6^+3^2 = ^4- 12^ + 15^2 + 12^3 = = Ш1.+Ш2.+Ш3.+^4.= 0. х . = 12+ 15+ 12 =39; 2- 4. СК„ = 5. CKM = 6. СКВН i i 3. + oi|. /10 + of| . /10 + ш|. /9; Величину т|2 = СКм/СКвн будем называть корреляцион- корреляционным отношением (correlation ratio). Поскольку СКП = СКМ + + СКВН, то 0<т|2< 1. Если v1 = v2 = v3 = const, то СКМ = СКВН = СКП = 0 и т]2 не определено. Исключим этот неинтересный случай и подберем численные значения vt так, чтобы оптимизировать ц2. Полагая для однозначности wmt = 0, v1 >0, СКП = 39 и временно опуская детали вычислений, имеем 133
C.16) Таким образом, нами одновременно решены следующие задачи: 1) приписаны численные значения {vt} градациям оце- оценок, которыми пользовались эксперты; 2) оценена в услов- условных единицах (баллах) {wj} организация труда в лаборато- лабораториях; 3) оптимизировано корреляционное отношение (т]2). Дадим общую формулировку принципа, по которому при- приписываются численные значения, и опишем соответствующую вычислительную процедуру. Матричная формулировка основного принципа оптимиза- оптимизации. Пусть X — (т X д)-матрица таблицы сопряженности; А = (Х1ч •••» Хт-У — (т X 1)-вектор сумм элементов X по строкам; В = (х.\, ..., х.п)'—(п X 1)-вектор сумм элемен- элементов X по столбцам; х.. — общая сумма элементов X; w = (mXm) r Lo 0 ' xm. ; v = (ПХП) x.\ 0 " * .0 x.n_ вспомогательные диагональные матрицы; V = (vu ..., vn)' — (n X 1)-вектор численных значений, приписанных строкам; W = (w11 ..., шт)' — (т X 1)-вектор численных значений^ приписанных столбцам; до = ^WiXiJx.. = A'WIx.. = 5'W /а:.. —общее среднее значение. В нашем примере /п = 4, л = 3, X определяется по табл. 3.2; А = A0, 10, 10, 9)'; Б = = A2, 15, 12)'; х.. = 39; 10 0 0 0 О 10 0 0 О О 10 0 0 0 0 9 векторы У, W определяются из C.16); w = 0. При сделанных предположениях (ср. с табл. 3.3) C.17) 134
откуда tf = К' X' Vf-iXV/V VV C.18) при условии, что В'К = уд = о. C.19) Оптимизация величины тJ. Поскольку уравнениями C.18) и C.19) V определяется с точностью до постоянного множи- множителя, положим для определенности х... C.20) Будем искать максимум числителя C.18) при ограничениях C.19) и C.20) методом множителей Лагранжа. Пусть Q (V) = = V'X'W^XV-^^V'VV — x..)—k2V'B, тогда для на- нахождения V должны быть решены уравнения dQ/dV = 2 [X' W-^X] V — 2X1VV — к2В = 0; C.21) dQ/дХг = V'W — x.. = 0; C.22) dQld\2 = V'B = 0. C.23) Умножим C.21) слева на V и, воспользовавшись уравне- уравнением C.23), получаем с учетом C.18), что J У'Х' W^XWV'VK ^ ч Для оценки величины Х2 умножим C.21) слева на \п = = A, ..., 1)' и воспользуемся легко проверяемыми равенства- равенствами Ux'w^x = A' w-ix = i;w- ^,; UV = B'. C.24) В силу C.19) отсюда следует, что Ха = 0. Уравнения C.21) могут теперь быть представлены в виде (V-1 X' W-1 X — т]2 I) V = 0; C.25) таким образом, т]2 должно быть собственным значением урав- уравнения C.25). Поскольку легче работать с симметричными ма- матрицами, произведем замену переменных, положив V = Vl/W. C.26) Уравнения C.21)—C.23) при этом перепишутся в виде 1/2—туЧ) У*=0; C.2Г) C.22') C.23') 135
По аналогии с цепочкой уравнений C.24) непосредственно, проверяется, что вектор Vo = Vxl2\n является собственным вектором C.2Г), отвечающим собственному числу к\2 = 1 удовлетворяет C.22') и не удовлетворяет C.23'). Отсюда следует, что искомое т]2 будет вторым по порядку после 1 собственным числом C.2Г), а вектор V — соответствующим ему собственным вектором. При этом будет выполнено и усло- условие C.23'), так как собственные векторы, отвечающие разным числам, взаимно перпендикулярны. С помощью стандартной алгебраической процедуры [102, гл. 5] можно исключить из матрицы R = V-1/2 X' W-^XV-1/2 собственное число ц2 = 1. Для этого R достаточно заменить на C.27) Нахождение максимального собственного числа и соот- соответствующего ему собственного вектора уравнения (С— у\Ч) х X V = 0 проводится стандартными методами [102, гл. 4]. 3.2.3. Двойственность в определении V и W. В примере пре- предыдущего пункта мы приписывали веса различным градациям оценок и получили баллы для лабораторий. При этом -~ sup r'v-'"X'w-»xv-'/«V C.28) -\/1п V'V Однако аналогичную задачу мы могли бы решить в обрат- обратном порядке, приписывая численные веса лабораториям так, чтобы максимизировать среднеквадратический разброс меж- между средними баллами, соответствующими разным градациям оценок. При этом по аналогии мы получили бы - sup ^w^xv^x'w-'/2^ C29) ^2m W W Если обозначить D = V-^X' W-1/2, то в формуле C.28) т]2 является вторым по величине собственным числом матри- матрицы DD', а в C.29) — вторым по величине собственным чис- числом D'D. Известно [102], что отличные от нуля собственные числа матриц DD' и D'D совпадают. Следовательно, совпа- совпадают и значения т|2. Возьмем теперь вектор Vly вычисленный как решение C.21)—C.23), и найдем вектор Wx средних значений, припи- приписанных лабораториям Wx = W-1 XVV C.30) 136
Будем считать, что лабораториям приписаны численные значения, определяемые вектором U7lf и вычислим средние баллы, которые получат градации оценок: F2=V-1X'Wr1 = V-1X'W-iXl/1. C.31) В силу C.25) левая часть C.31) есть t\2V1} т. е. векторы V2 и Vx пропорциональны. Продолжая, мы находим Wr25=W-1XF2 = W-1Xri2F1==rj2U71. C.32) Таким образом, безразлично, решим ли мы экстремальную задачу п. 3.2.2 для столбцов или строк, мы определим значе- значения V, W с точностью до множителя пропорцио^льности. На этом свойстве, а также на том, что ц2 — максимальное собственное число, меньшее 1, основан метод взаимных усред- усреднений. В нем выбирается значение Vx (или WJ так, чтобы выполнялось соотношение C.23), далее по формулам C.30) и C.31) находятся Wx и V2. Вектор V2 каким-либо образом нормируется, например умножается на величину, обратную максимальному абсолютному значению его координат. Процесс вычислений повторяется до тех пор, пока последовательные значения V не будут близки друг к другу. Условие C.23) гарантирует, что у начального вектора Vx нет составляющей, соответствующей ц2 = 1. Описанный итерационный процесс сходится тем быстрее, чем удачнее выбрано начальное прибли- приближение. 3.2.4. Максимизация коэффициента корреляции. Рассматри- Рассматривая матрицу X в качестве выборки из двумерного распре- распределения (V, W) и для простоты выкладок полагая B'V = A'W = =0, можно определить коэффициент корреляции между пере- переменными как r w v C.33) ww-v vv Будем теперь V и W искать из условия максимизации зна- значения г. Для этого, так же как в 3.2.2, воспользуемся методом множителей Лагранжа. Пусть Q(V, W) = W'XV — %! (V'VV — х..) — Х2 (W X X WB? — х..), тогда уравнения для нахождения V и W име- имеют вид: *= X' W—2X1 W = 0; C.34) dQ/dW = XV—2\2 WW - 0; C.35) 137
.. = 0; C.36) x.. = 0. C.37) Умножив слева C.34) на V\ a C.35) на W и воспользовав- воспользовавшись C.36), C.37), C.33), имеем V'X' W = 2k1V'VV^2X1x..; W XV = 2X2 W WW - 2X2 *..; Откуда r = 2kx = 2Я2. Воспользовавшись C.35), C.36), C.37), заменим в уравнении для определения г W через V: г = max —. = — max = —i— . w.v yurwwvv г к и' vv r Таким образом, г2 = т]2 и У является собственным векто- вектором C.25), т. е. максимизация коэффициента корреляции при- приводит к тем же численным значениям, что и изложенные вы- выше методы. 3.2.5. Изучение оптимального решения. Когда найдено оп- оптимальное решение (г|2, К, W), возникает вопрос, в какой степени оно исчерпывает информацию, содержащуюся в ис- исходных данных. Ведь у матрицы С (см. C.27)) есть другие собственные значения и векторы. По аналогии с методом глав- главных компонент [14, § 10.5] для ответа на этот вопрос будем ис- использовать величину 6 = 100%-rJ/Sp (С), C.38) где Sp (С) — сумма диагональных элементов С. В примере п. 3.2.2 б = 92,3%, т. е. оптимальное решение C.2Г)—C.23') объясняет существенную долю информации, содержащейся в табл. 3.2. Строго обоснованного теста для проверки значимости от- отличия от нуля оптимального значения т|2 нет. В [2321 рекомен- рекомендуется приближенный критерий х» = _[*.. _ 1 _ (п + т — 1)/2] In A — г]2) C.39) с числом степеней свободы / = т + п — 3. В нашем случае /-4 + 3 — 3 = 4, Х2 = _ [39 — 1 _ C + 4 — 1)/2] In A —0,292) - 12,10. Различие следует считать значимым с уровнем значимости 0,017. 138
Для сравнения к тем же данным применим статистиче- статистические критерии из §3.1. Традиционный критерий C.11): X2 = 12,35 (/ = 6); уро- уровень значимости связи между переменными — 0,055. Логлинейный подход C.12): 2/г/ = 13,13 (с поправкой на нулевую ячейку), (/ = 6); уровень значимости связи между переменными — 0,041. Из приведенных данных видно, что в рассмотренном при мере с точки зрения оценки статистической значимости свя- связи между строками и столбцами традиционный и логлинейный подходы к таблицам сопряженности, с одной стороны, и дуаль- дуальное шкалирование, с другой стороны, дают сравнительно близ- близкие результаты. Однако в общем случае связь между этими двумя методами пока достаточно не изучена [232, с. 181]. 3.2.6. Таблицы «объект—многомерный отклик». Исходные данные для дву-, трех- и более мерных таблиц сопряженности часто могут быть представлены в форме таблицы, в которой строки соответствуют объектам (субъектам), столбцы — гра- градациям используемых классификационных переменных и на пересечении 1-й строки и столбца, соответствующего у-й гра- градации /-и переменной, стоит 1 или 0 в зависимости от того, имеет ли место для i-ro объекта эта градация A) или нет @). В случае когда для ряда объектов значения одной из перемен- переменных не определены (измерены в непредусмотренной шкале, не измерены, утрачены при обработке и т. п.), либо исклю- исключают из таблицы соответствующие объекты, либо вводят для этой переменной дополнительную градацию «значение не опре- определено». Пример фрагмента таблицы, которая могла бы быть исходной для данных примера п. 3.2.2, дан в табл. 3.4, где приведена оценка организации труда в четырех лабораториях (таблица «Единица наблюдения —(лаборатория, оценка, экс- эксперт)»). В качестве единицы наблюдения (объекта) в ней взя- взято резюме из карточки, заполняемой экспертом после обсле- обследования и оценки организации труда в лаборатории, в котором указываются номер лаборатории, оценка, номер эксперта. Если бы априори было известно, что эксперты эквивалент- эквивалентны друг другу и их оценки не зависят как от обследуемых ими лабораторий, так и от оценок, выставляемых другими исследо- исследователями, то в табл. 3.2 и 3.4 содержалась бы одна и та же ин- информация, но представленная в разном виде. Однако на прак- практике эти условия обычно не выполняются. Так из табл. 3.4 видно, что первый эксперт по сравнению со вторым имеет тен- тенденцию завышать оценки. Поэтому табл. 3.4 содержит больше информации, чем табл. 3.2, и дает возможность изучить не 139
« о к & W к к 1 2 3 4 5 6 7 8 37 38 39 40 Ит ого Лаборатории 1 1 0 0 0 1 0 0 0 1 0 0 0 10 2 0 1 0 0 0 1 0 0 0 1 0 0 10 3 0 0 1 0 0 0 1 0 0 0 1 0 10 4 0 0 0 1 0 0 0 1 0 0 0 10 Оценка* 1 1 0 1 1 0 0 0 0 0 0 0 0 12 9 0 1 0 0 0 0 0 1 0 0 1 0 15 3 0 0 0 0 1 1 1 0 1 1 0 0 12 4 0 0 0 0 0 0 0 0 0 0 0 1 1 Табли Ц.а Эксперт 1 1 1 1 1 0 0 0 0 0 0 0 0 2 0 0 0 0 1 1 1 1 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 4 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 0 0 0 0 8 0 0 0 0 0 0 0 0 0 0 0 0 9 0 0 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 1 1 1 1 3.4 о о н X 3 3 3 3 3 3 3 3 3 3 3 3 120 * Градации оценок: хорошо, удовлетворительно, неудовлетворительно, не оп- определено. только соотношение между лабораториями и экспертами (связь экспертов с лабораториями), но и соотношение между экспертами и оценками (средний критический уровень экс- эксперта). Приписывание численных значений в таблицах «Объект — (многомерный отклик)» можно провести по полной аналогии с тем, как это сделано в п. 3.2.2 [232]. Введем необходимые обозначения, указывая в скобках соответствующий аналог в обозначениях п. 3.2.2: / — число переменных в отклике; nk — число градаций &-й переменной; п = 2 пк — общее число градаций переменных (я); т — число объектов (субъектов, единиц наблюдения) (т)\ F — (га X п) -матрица данных, состоящая из нулей и еди- единиц (X); F— (п X 1)-вектор сумм по столбцам (Л); G — (т X 1) -вектор сумм по строкам (В)\ D — (я X я)-диагональная матрица сумм по столбцам (V); II т—диагональная матрица сумм по строкам (W); /.. — общая сумма элементов F =/•/л (#..); X — (п X 1) -вектор значений, приписываемых перемен- переменным (V)\ 140
Y — (m X 1)-вектор значений, приписываемых объектам W). Условия C.19) теперь формулируются так, что сумма взве- взвешенных откликов внутри переменных должна равняться нулю. С учетом этого условия СКП = СКМ + СК0СТ + СКпер, где СКпер — 0 — сумма квадратов отклонений между средними значениями по переменным, СКП — полная сумма квадратов отклонений в таблице, СКМ — сумма квадратов отклонений между строками, СК0СТ — остаточная сумма квадратов от- отклонений. Оптимизации подвергается величина X2 = СКМ/СКП- В случае таблиц «Объект — (многомерный отклик)» так же сохраняется свойство взаимозаменяемости оптимизации, выполняемой по строкам, и оптимизации по столбцам. При вы- выполнении условий F'X = GT = 0 и с учетом более простого вида аналога W имеем . а ^ X' Г' FX/1 _ У FD-iF' Y ~" Xf DX ~~ IV Y Если оптимизация проводится по X, то C = /-1-D-1/2F/FD-1/2 — /- если по У, то Если дуальное шкалирование выполнить для таблицы со- сопряженности и соответствующей ей таблицы «Объект — (дву- (двумерный отклик)», то численные значения, приписанные пе- переменным после нормировки, совпадут, а А,2 = A + т])/2. ВЫВОДЫ 1. Распределения многомерных случайных величин, коорди- координаты которых измеряются в номинальных и порядковых шка- шкалах, часто представляют в виде многомерных прямоугольных таблиц, называемых таблицами сопряженности. При этом в клетке, соответствующей it — градации первой переменной, ..., ik — fe-й переменной указывается х^.лк — число наблю- наблюдений в выборке с этими градациями. В двумерном слу- случае по организации сбора данных различают три выборочные схемы, приводящие к таблице сопряженности: 1) распределения столбцов (строк) независимы и являют- являются полиномиальными распределениями с вероятностями {qtj} и фиксированным числом наблюдений в столбце nt = S» основная гипотеза: {qu} от i не зависит; 141
2) распределение частот в двумерной таблице есть полино- полиномиальное распределение с вероятностями {р^} и фиксирован- фиксированным числом наблюдений п = Упи; основная гипотеза: для л/ всех /, / ри = Pi.p.f 3) все Xtj независимы между собою и имеют пуассоновское распределение с параметрами А,*/, основная гипотеза в этом случае: для всех /, / Хи = )^Л.Д... 2. Для описания совместного распределения Хц предложе- предложена логарифмически-линейная параметризация таблиц сопря- сопряженности, в которой предполагается, что где параметры 6 удовлетворяют соотношениям 2 е/1»=2 0/2) = 2 Ф/2> = 2 Щ" = о. В новых обозначениях основная гипотеза записывается как Я{,12): для всех i,jQj}2)^0. Для проверки этой гипотезы используются либо обычный критерий X2 как критерий однородности распределений столб- столбцов (строк) в таблице, либо имеющий то же асимптотическое распределение информационный критерий 2д/, получаемый стандартным способом для проверки сложной гипотезы 0|}2) = 0. 3. Предложен ряд различных мер связи между строками и столбцами в двумерных таблицах сопряженности. Среди них выделяются информационные меры связи как легко допускаю- допускающие обобщение на многомерный случай. 4. Один из методов анализа двумерных таблиц сопряженности заключается в том, чтобы приписать градациям классифика- классификационных переменных численные значения так, чтобы макси- максимизировать некоторый функционал. Оказывается, что ряд из- известных под различными названиями и максимизирующих различные функционалы методов таких, как «метод взаимных усреднений», «аддитивное или оптимальное шкалирование», «метод максимизации коэффициента корреляции» и др., при- приводит к приписыванию одних и тех же численных значений. 142
Глава 4. анализ структуры связей МЕЖДУ КОМПОНЕНТАМИ МНОГОМЕРНОГО ВЕКТОРА 4.1. Связи прямые и опосредованные. Введение в проблематику 4.1.1. Цепи Маркова. Рассмотрим такую последовательность Случайных (для определенности непрерывных) величин 1и ?2,-..,?», .... D.1) что для каждого k = 2, ..., п условное распределение %k при ?,h-i = Xk-i совпадает с условным распределением %к при ус- условии, что lh-x = xh-l9 lh-2=xh-2i ..., Нх = хг для всех на- наборов Xk-x,..., хъ для которых соответствующие условные распределения определены. На языке условных плотностей это условие может быть записано так: для всех k ^ 2 к^Ч\1и-1=Ч-1) = Нк(Хи\1н.-1^Ч-ъ-''Л1 = хг) D.2) или, для краткости опуская значения случайных величин и нижние индексы у буквы /, для всех k ^ 2 f(U\lk-i) = f(h\lk-i,-,li)- D.2') Про последовательность D.1) говорят, что она образует цепь Маркова. В цепи Маркова каждый член зависит от всех предшествующих, но непосредственно зависящими (связан- (связанными) можно в силу D.2) считать только члены, стоящие ря- рядом, рассматривая не рядом стоящие члены ?z и ?z+fe (k ^ 2) как связанные опосредованно через |i+1,..., li+k-v Пример 4.1. Пусть случайные величины тIэ..., г\п не- независимы между собой и нормально распределены со средним О и дисперсией 1, р — некоторая константа 0<р<1, а li = Пи Тогда случайные величины ?i, |2»«-.> ?п также имеют нор- нормальное распределение с теми же параметрами, что и т]ь и связаны в цепь Маркова. Их корреляционная матрица имеет вид 1 р Р2 рп-l р 1 р р"- Р2 . р 1 2 pt-3 % ¦• Р" •• Р" - Р" .. 1 — 1- -2 -3 143
т. е. зависит всего от одного параметра р. Непосредственно свя- связанные члены имеют коэффициент корреляции р, а члены, опо- опосредованно связанные и отстоящие друг от друга на k членов последовательности, имеют меньший коэффициент корреля- корреляции pfe+1. Таким образом, чем связь непосредственнее, тем она сильнее. Удобна геометрическая иллюстрация цепи Маркова, при которой случайные величины изображаются точками или круж- кружками, а непосредственные (прямые) связи между ними — сое- соединяющими их отрезками (рис. 4.1). Для обозначения связей мы использовали отрезки, а не s-\ /~\ г-\ г\ стрелки, так как если последова- (Т) (?) (?) кЮ ••* тельность D.1) образует цепь Рис. 4.1. Прямые связи МаРК0«а. ™ и последователь- между случайными вели- НОСТЬ gn, ьп—i, ..., §i> K&K не- нечинами, образующими цепь трудно убедиться (см., напри- Маркова мер, [78, с. 590—591]), также яв- является цепью Маркова. Цепи Маркова являются простейшей моделью зависимостей между случайными величинами и нашли очень широкое применение в практике (физика, техника, экономика, биология, лингвисти- лингвистика) особенно в тех случаях, когда есть естественное (например, временное) упорядочение случайных величин [26, 62, 96]. В кратких обозначениях формулы D.2') плотность совмест- совместного распределения ?lf..., ln может быть выражена как -. / (Ел I En-i Ei) = / (Ei) /(E21 Ei) - /(En I En-i). D.3) Откуда следует, что для описания распределения цепи Мар- Маркова достаточно знать распределение первого члена последова- последовательности и для i = 2,..., п — условные распределения ?,• при известном значении Е,-_1э т. е. плотности условных распределе- распределений пар векторов, непосредственно связанных друг с другом. Это свойство используется ниже при введении понятий пря- прямой и опосредованной связи между координатами вектора. 4.1.2. Прямые связи между координатами вектора. По анало- аналогии с первым равенством формулы D.3) по формуле условной вероятности для координат р-мерного вектора | = (?A), ..., Е(р>)'. имеющего невырожденное непрерывное распределе- распределение, имеем S*'-1», ...,6(|)). D-4) 144
Предположим теперь, что для каждого / = 2, ..., р найдет- найдется такое / (i) < i, что выражение в правой части D.4) может быть представлено в форме, близкой к правой части D.3), а именно /F(|),..мБ^) = /(БA))/(БBIБ<^2>).-./(Б<«|Б^^>). D.5) В этом случае пары координат с номерами B,/ B)), C,/ C)), ..., (р, / (/?)) можно назвать непосредственно (прямо) связан- связанными, а остальные координаты считать связанными опосредо- опосредованно. В общем случае естественно отказаться от ограничений, накладываемых нумерацией коорди- координат вектора, предполагая, что суще- существует такая перестановка индексов координат, при которой представление вида D.5) возможно. Удобно также ввести значение / = О как соответст- соответствующее неслучайной дополнительной координате ?<°> = 1. Пример 4.2 [150]. На рис. 4.2 Рис 4.2. Прямые связи, графически показаны прямые связи, ^"ктурГ r^l выделенные при изучении структуры вых ресурсов трудовых ресурсов. Рассматривалась 9-мерная случайная величина, реали- реализациями которой являлись значения показателей по 71 регио- региону РСФСР за 1969 г. Использовались следующие показатели: 1) доля среднегодовой численности рабочих, служащих, кол- колхозников в среднегодовой численности населения; 2) доля спе- специалистов с высшим и средним специальным образованием, за- занятых в народном хозяйстве, в среднегодовой численности ра- рабочих, служащих, колхозников; 3) доля специалистов с выс- высшим и средним специальным образованием, занятых в сельском хозяйстве, в общей численности работающих в сельском хо- хозяйстве; 4) доля работающих в промышленности и строитель- строительстве в среднегодовой численности рабочих, служащих, колхоз- колхозников; 5) доля работающих в сельском хозяйстве в среднего- среднегодовой численности рабочих, служащих, колхозников; 6) доля работающих на транспорте и в связи в среднегодовой численно- численности рабочих, служащих, колхозников; 7) доля работающих в области просвещения, науки, культуры, искусства в среднего- среднегодовой численности рабочих, служащих, колхозников; 8) доля работающих в области государственного и хозяйственного уп- управления, кредита, государственного страхования в средне- среднегодовой численности рабочих, служащих, колхозников; 9) доля работающих в области здравоохранения, физической 145
культуры, социального обеспечения в среднегодовой числен- численности рабочих, служащих, колхозников. На рис. 4.2 хорошо видна на изучаемый год центральная роль в распределении трудовых ресурсов по отраслям народ- народного хозяйства доли занятых в сельском хозяйстве (показа- (показатель 5). Это хорошо согласуется с качественными представле- представлениями специалистов по трудовым ресурсам. Обращает на себя внимание тесная связь показателей 2 и 9, что также допускает качественное истолкование. Предположением D.5) введен новый малопараметрический класс распределений, обобщающий многомерные распределе- распределения, которые возникают в цепях Маркова, и получивший наз- название «распределения с древообразной структурой зависимос- зависимостей» (ДСЗ). Происхождение этого названия будет ясно из ма- материала следующего параграфа, где в более строгой и полной форме даны все необходимые определения и рассмотрены свой- свойства нормальных распределений с ДСЗ. Можно ожидать, что в приложениях новый класс распределений окажется столь же удобным инструментом, каким сегодня являются цепи Маркова при изучении временных рядов. Первые результаты использо- использования распределений с ДСЗ очень обнадеживают [113]. Распределения с ДСЗ были введены в статистическую прак- практику С. Чоу [174, 175, 176]. Если не считать краткого изложе- изложения результатов Чоу в [48], они не нашли еще отражения в мо- монографической литературе. В отечественной литературе разра- разработка теоретических вопросов, примыкающих к этому новому направлению, дана в [40, 61]. На работы В. И. Заруцкого [58, 59] мы существенно опираемся в последующем изложении. 4.1.3. Математические задачи, связанные с изучением рас- распределений с ДСЗ. Прежде всего надо более четко описать класс распределений с ДСЗ и выявить соотношения между раз- различными параметризациями одного и того же распределения, возникающими при разном упорядочении координат. Ведь да- даже в простейшем случае, когда координаты образуют цепь Маркова, возможны два упорядочения: в прямом направлении цепи Маркова и в обратном. Необходимо также найти аналог выявленному на цепях Маркова соотношению, что прямым связям отвечает более высокая корреляция между координата- координатами (см. § 4.2). Нужно научиться оценивать структуру связей по выбороч- выборочным данным. Было бы желательно исследовать свойства этой процедуры как в обычной асимптотике растущего объема, так и в специальной более адекватной для многомерных данных асимптотике, когда рассматривается последовательность задач восстановления структуры зависимостей, в которой при пере- 146
ходе от одной задачи к другой одновременно растут и объем выборки, и число координат вектора (см. § 4.3). Если несколько видоизменить формулу D.3), оставив под знаком условия не один предшествующий член, а/п^2 пред- предшествующих, т. е. то придем к так называемым т-зависимым Марковским цепям. Естественно понятие m-зависимости перенести на координаты вектора (см. § 4.4). При изучении связей между координатами мы уже исполь- использовали геометрический язык, изображая координаты точками, а связи между ними — соединяющими их отрезками. Это язык теории графов. Терминология и методы теории графов широко используют при изложении основного материала этой главы. Поэтому ниже приводятся предварительные сведения из тео- теории графов. 4.2. Распределение с древообразной структурой зависимостей 4.2.1. Предварительные сведения из теории графов. Изложе- Изложение начнем с напоминания основных понятий теории графов [134]. Определение 4.1. Простым графом G называется пара (V (G), Е (G)), где V (G) — непустое конечное множество элементов, называемых вершинами графа G (V (G) — множе- множество вершин G), a E (G) — конечное множество неупорядочен- неупорядоченных пар различных элементов из V (G), называемых ребрами графа G (E (G) — множество ребер G). В дальнейшем термин «простой» опускается. Отметим, что так как Е (G) определено как множество, а не как совокупность и состоит из неупорядо- неупорядоченных элементов, то в графе G каждую пару вершин а, Ь ? ? V (G) может соединять не более чем одно ребро (а, Ь) и (а, Ь) = ф, а). В дальнейшем (как и на рис.4.1 и 4.2) вершины графа мы будем отождествлять с координатами вектора, а реб- ребра графа — со связями. Определение 4.2. Граф G± называется подграфом G, если V (Gj) с= V (G) и Е (GJ a E (G). Определение 4.3. Конечная непустая последова- последовательность ребер графа G М = {(аи а2), (а2, а3), •••> (ат,ат+1)} называется простой цепью, соединяющей вершины ах и ат+ъ 147
если все вершины аь..., ат+1 различны, кроме, быть может, Ят+i — #1- В последнем случае простая цепь называется цик лом. Определение 4.4. Граф G называется связанным, если для любых его вершин а и Ъ существует простая цепь, сое- соединяющая а и Ь. Определение 4.5. Лесом называется граф, не содер- содержащий циклов, связанный лес называется деревом. Графы, изображенные на рис. 4.1 и 4.2, связанные и не име- имеют циклов. Следовательно, их можно назвать деревьями. На них легко проверяются утверждения следующей теоремы. Теорема 4.1 [134]. Определяющие свойства графа-дере- графа-дерева. Пусть граф Т имеет р вершин, тогда следующие утвержде- утверждения эквивалентны: 1) Т является деревом; 2) Т не содержит циклов и имеет (р — 1) ребер; 3) Т связан и имеет (р — 1) ре- ребер; 4) любые две вершины Т соединены ровно одной простой цепью; 5) Т не содержит циклов, но, добавляя к нему любое новое ребро, мы получим ровно один цикл. 4.2.2. Распределения с древообразной структурой зависимо- зависимостей (ДСЗ). Изложение начнем с определения. Определение 4.6. Будем говорить, что р-мерный вектор X имеет ДСЗ, если существует хотя бы одна переста- перестановка координат вектора а A,..., р) = (а A), а B), ..., а (р)), такая, что для каждого а (I) найдется номер /<а@) € {0, аA),..., а(х-1)}, D.7) что «почти всюду по {х(аA>>, .... д;(а(р))}» х для всех г D.8) При этом у = 0 соответствует фиктивной координате л^°> = 1 и /(<хA))=0. Для вектора X с ДСЗ рассмотрим граф G = A/, ?), где V = {0, 1, ..., р} и Е = у (f, / @). Граф G имеет р ребер и в силу D.7) не имеет цикла, поэтому согласно п.2 теоремы 4.1 он является деревом. Отсюда и происходит термин «древооб разная структура зависимостей». Граф G будем называть гра- фом структуры зависимостей X. Заметим, что в случае, когда для некоторого a (i) можно положить / (а (/)) = 0, т. с. рас- распределение jt(a«*>> не зависит от х(аA)), ....лг^-^Чтоза /(«(;)) ХВ дальнейшем изложении взятые в кавычки слова, выражающие сугубо внутриматематическое требование общности, опускаются. 148
можно было бы выбрать любое из чисел, стоящих в правой час- части D.7). Таким образом, граф G определяется, вообще говоря, неоднозначно. Однако единственность будет, если на распределение X на- наложить дополнительное ограничение; для всех пар координат xi?\ х(/\ для всех возможных значений х^ = и и х^ = v в случае дискретного распределения X Р {*<'> = и, *</> = о}>0 D.8) и в непрерывном случае (/, / ^ 1) f*<0. *</>(".»)> О- D.8') В важном частном случае невырожденного р-мерного нор- нормального распределения условие D.8') выполняется всегда. Теорема 4.2. Пусть вектор X имеет ДСЗ, выполняются условия D.8) и D.8') и Gx и G2 — два различных графа струк- структуры зависимостей X. Тогда для любого ребра (/, /)??" (Gj) и ф Е (G2), координаты (вектора) х^> и xW независимы, т. е. графы Gx и G2 отличаются друг от друга только ребрами, соот- соответствующими независимым координатам. Ввиду принципи- принципиальной важности этого результата изложим схему его доказа- доказательства. Оно проводится в несколько шагов. 1. В графе G2 выбирается простая цепь, соединяющая вер- вершины i и /. Согласно п. 4 теоремы 4.1 она всегда существует. Так как (/, /) ф Е (G2), цепь содержит хотя бы одну вершину, отличную от /, /. Обозначим эту вершину /. 2. Координаты х^\ х<1\ х^\ как лежащие на простой це- цепи (в графе G2), образуют марковскую последовательность. Следовательно, в дискретном случае совместное распределение х^\ х{1\ л:</> описывается формулой Р (*<'>) р (хЩхЫ) Р (х<1ЦхМ). D.9) 3. Возьмем в графе G2 простую цепь, соединяющую / и /. Возможны два случая: 1) цепь содержит вершину / и 2) цепь не содержит вершину /. В первом случае на простой цепи верши- вершины лежат в порядке /, /, /; во втором — в порядке /, /, /. Оба случая рассматриваются одинаково. Пусть для определенно- определенности имеет место первый случай, тогда совместное распределение х^\ х^ описывается формулой Р (*<*>) р (XU) | х(/>) р (Х(О | *</>). D.10) 4. Формулы D.9) и D.10) описывают одно и то же распреде- распределение, поэтому их можно приравнять. Опираясь на условие 149
D.8), в полученном равенстве можно произвести упрощения. После несложных преобразований получаем Р ( Произведем суммирование по всем возможным значениям В результате получаем, что что и требовалось доказать. Случай непрерывных распределе- распределений рассматривается аналогично с заменой вероятностей на со- соответствующие плотности. Рассмотрим теперь задачу о нахождении при известном гра- графе структуры зависимостей G перестановки координат а, позво- позволяющей представить распределение X в виде D.5). Положим а @) = 0 и возьмем произвольную простую цепь, начинаю- начинающуюся в 0. Будем двигаться вдоль нее от нуля, считывая но- номера проходимых координат и приравнивая их а A), а B), ... Затем берем следующую простую цепь, начинающуюся в од- одной из уже пройденных вершин или в 0, и двигаемся вдоль нее, продолжая считывание, и т. д. до тех пор, пока не будут исчерпаны все вершины графа и тем самым определена полно- полностью перестановка а. Поскольку координаты, лежащие вдоль простой цепи, образуют цепь Маркова (см. п. 2, 3 схемы дока- доказательства теоремы 4.2), из построения а сразу же следует воз- возможность представления распределения X в виде D.5). В от- отдельных случаях перед построением а может оказаться удоб- удобным в графе G изменить некоторые несущественные связи, со- соответствующие независимым координатам (ср. с теоремой 4.2). 4.2.3. Нормальное распределение с ДСЗ. Пусть X имеет невы- невырожденное р-мерное распределение с вектором средних М и ковариационной матрицей 2 = ||ст^|| с известной структурой зависимостей, заданной функцией /(/). Вопросы, связанные с нахождением / (/), обсуждаются в следующем параграфе. Наша ближайшая цель — найти общий вид плотности X. Известно (см. [14, с. 172] и теорему 2.5.1 [20, с. 45]), что ус- условное распределение #<*> при фиксированном значении компо- компоненты х^ нормально с параметрами rt 150
где о? = Оц, rtj равна: . Откуда в силу D.5) плотность X Bя)-"/2 X ехр — - '?/</))~1/2 X __т</ (О)))» D.11) Таким образом, гауссовские распределения сДСЗ имеют очень простой вид 2-1 — матрицы, обратной ковариационной. В ней над диагональю стоят не более р —1 отличных от нуля элементов. Если перестановка а совпадает с исходной нумера- нумерацией координат X, то над главной диагональю в каждом столб- столбце 2-1 стоит не более одного отличного от нуля элемента. В качестве примера приведем ковариационные матрицы случайных векторов, графы структуры зависимостей которых показаны на рис. 4.1 и 4.2. В первом случае 2-1-П — и во втором 2-1 = 0 0 0 0 0 * 0 0 ) 0 0 0 * 0 * 0 * п 0 0 * с * 0 0 0 0 — 0 0 0 * 0 0 0 0 1 -р р 1 0 -р 0 0 0 0 0 0 * 0 * 0 * 0 * * * * 0 0 * 0 0 0 0 -р 1 0 0 * * 0 0 0 0 * 0 0 ... ... ... 0 0 0 0 * 0 0 * 0 ( ( э 3 0 1 —р 0~ 0 0 0 0 0 0 * > 0 0 0 —р 1 здесь знаком * показаны отличные от нуля элементы. Полезно представление 2-1 в виде D.12) 151
где С = \\сц\\ — матрица с элементами сц - от1 A -r?j ю)-1'2; си (о = -гц ( D.13) Если перестановка а совпадает с исходной нумерацией коор- координат, то / @ < i и С — нижняя треугольная матрица. Граф структуры зависимостей G нормально распределен- распределенного вектора X может быть использован при вычислении коэф- коэффициентов корреляции между координатами X. Для этого нам необходимо знать только р коэффициентов корреляции между парами координат, соответствующих ребрам G. Теорема 4.3. Для нормального вектора X с ДСЗ для всех 1 <; i <Z j < р ги = П rkh D.14) k, I :(k, i) <=M (i,/) где M (i, j) — простая цепь, связывающая в графе G структу- структуры зависимостей вершины i и /. Доказательство. Последовательность координат X, обра- образующая простую цепь, является марковской (см. п.2 и 3 дока- доказательства теоремы 4.2). Пусть эти координаты будут г, Zlf 4» •••» h, /. В силу теоремы 1 [140, с. 122] для последовательно- последовательности нормальных величин, связанных в цепь Маркова, что и требовалось доказать. Остановимся теперь на выборочной оценке 2-1 при извест- известном графе G структуры зависимостей. В качестве первого шага по графу G находится перестановка а. Это можно, например, сделать так, как указано в конце предыдущего пункта. Далее строится С — оценка матрицы С путем замены в С величин ®и гиа) их выборочными оценками. S-1 — оценка S" нахо- находится как S^^C'^. D.12f) Если в качестве аи Пло взять обычные в нормальном слу- случае выборочные оценки [14, табл. 6.3, п. 6],то( Sr1 есть оценка максимального правдоподобия [14, § 8.2] для 2-1 при известной структуре зависимостей. Для доказательства этого можно воспользоваться леммой 3.2.2 [20], позволяющей найти в рассматриваемом случае максимум уравнения правдоподобия. 152
4.3. Оценка графа структуры зависимостей компонент нормального вектора 4.3.1. Вес связи. Пусть X — нормально распределенный век- вектор с ДСЗ своих компонент. Весом связи (/, /) назовем \ги\9 где Гц — коэффициент корреляции между #('> и *</>. Весом графа назовем суммарный вес его ребер. Тогда вес графа струк- структуры зависимостей a>(G)~ 2 \гцц)\. D.15) <*. / (О) е е (G) Формула D.14) подсказывает, что среди всех деревьев Г, ко- которые можно построить на вершинах {0, 1,..., р}, графы струк- структуры зависимостей, отличающиеся между собой (в силу теоре- теоремы 4.2) только несущественными связями с нулевым весом, будут иметь наибольший вес. Т е орем а 4.4. Для невырожденного нормального векто- вектора с ДСЗ вес графа структуры зависимостей строго больше ве- веса любого дерева, отличающегося от него хотя бы одним ребром, имеющим ненулевой вес. Доказательство теоремы проводится методом математичес- математической индукции. Для р = 2 оно верно. Предположим, что оно верно для всех р' ^ р, и докажем, что оно верно и для р + 1. Не нарушая общности, можно считать, что перестановка а со- соответствует естественной нумерации координат. Обозначим Gp и Тр граф структуры зависимостей X и произвольное дере- дерево, построенные на V (Gp) = {0, 1, 2, ..., р}. Тогда Е (GJ)+1)= =? (Gp) + (р + 1, / (р + 1)) и Е (Тр+1) = Е(ТР+ (р +1, ft), гдеk < р + 1 — некоторая вершина G. Если k = у (р + 1), то утверждение теоремы верно согласно предположению, так как D.16) Но если й=т^/(р + 1), то согласно D.14) | J — \rirk\, где вершины р + 1, / (р + 1), /ъ..., /,, k берутся вдоль про- простой цепи в Gp+l, соединяющей р + 1 и k. Поскольку все коэф- коэффициенты корреляции по модулю строго меньше единицы (в си- силу невырожденности распределения X), то l. D.17) 153
если только |/>+ь уG,+1)| Ф О. В силу сделанного предполо- предположения, а также DЛ6) и D.17) утверждение теоремы верно и для р + 1. 4.3.2. Построение графа структуры зависимостей по корреля- корреляционной матрице. Как установлено выше, граф G структуры зависимостей нормального вектора строго тяжелее любого дере- дерева, построенного на тех же вершинах и отличающегося от G хо- хотя бы одним ребром ненулевого веса. Поэтому задача нахожде- нахождения G при известной корреляционной матрице R = \\ги\\ сво- сводится к задаче отыскания среди деревьев, которые можно пост- построить на вершинах V(G) с весами, определяемыми W= |||/*^|||, дерева наибольшего веса. В теории графов последняя задача ре- решается с помощью алгоритма Крускала [1341, носящего итера- итерационный характер и заключающегося в следующем: сначала матрица W пополняется весами, отвечающими 0— 0 0...О 0 координате х<0) s I, W° = L0 W J далее в качестве первого шага выбирается любое из ребер, имеющих в W0 наибольший вес; на /-м шаге B ^ / ^ р) — любое из ребер наивысшего веса среди оставшихся и не об- образующих цикла с ранее выбранными ребрами. Поскольку всего имеется р + 1 вершина, в алгоритме Крус- Крускала делается р шагов, и на каждом из них выбирается ребро, не образующее цикла с ранее выбранными, то в результате его применения возникает дерево (см. теорему 4.1). Работу алго- алгоритма Крускала удобно проиллюстрировать на примере пост- построения дерева для однородной цепи Маркова, описанной в п. 4.1.1. На каждом из первых п — 1 шагов выбираются ребра вида (/, i + 1), на последнем шаге — ребро вида @, /), так как все остальные ребра образуют цикл с ранее выбранными. Ес- Если отбросить связь нулевого веса, то получаем дерево, изобра- изображенное на рис. 4.1. Если известна только выборочная корреляционная матрица R, то по ней может быть построена выборочная весовая функ- функция W^ llkijlll- Результат применения к ней алгоритма Крус- Крускала обозначим G. Так как при росте объема выборки R ->- R (по вероятности), то G также сходится к G в том смысле, что dG) U ?(G\G))->-0 (по вероятностиI. D.18) 1Здесь G\G означает множество элементов G, не входящих в С 154
4.3.3. Асимптотика Колмогорова — Деева. В практической работе часто р — размерность вектора X и п — число наблюде- наблюдений суть величины одного порядка. Например, в медицинских исследованиях при диагностике относительно редких заболеваний приходится работать с век- векторами размерности р = 10-^-15 при выборках объема п = 20—30. Ясно, что в этих условиях результаты типа D.18), установленные в предположении, что распределение фиксиро- фиксировано, а п ->• оо, вряд ли могут служить надежным обосновани- обоснованием. В последние годы получила распространение новая асимп- асимптотика, специально рассчитанная на многомерные задачи, в ко- которых отношение pin не стремится к нулю. В этой асимптотике рассматривается последовательность (по некоторому параметру т—>- со) многомерных задач изучаемого класса. При росте т (переходе в последовательности от одной задачи к другой) растут как р (т), так и п (т), причем их отношение стремится к пределу р (т) —>- оо, /2 (т) -> оо, р(т)/п (т) -> X <оо (т -»- оо). D.19) В этой специальной асимптотике, которую мы в дальней- дальнейшем будем называть асимптотикой Колмогорова — Деева, на- нарушаются многие привычные свойства статистических проце- процедур. Например, если X имеет многомерное нормальное распре- распределение с нулевым вектором средних и независимыми коорди- координатами с дисперсией а2 иХ,-(/= l,...,/i) — независимая вы- выборка объема п, то квадрат длины вектора выборочного сред- среднего р р ' п к — 1 к = 1 \ / = 1 а не к 0, как это было бы в обычной асимптотике. Достоинство новой асимптотики не в том, что в ней не обяза- обязательно верны многие общепринятые статистические процедуры, а в том, что полученные в ней предельные формулы, например для ошибок классификации многомерных объектов, исключи- исключительно хорошо работают даже при относительно небольших значениях п. Алгоритм Крускала оказывается устойчивым по отношению к новой асимптотике. Так, если равномерно по т для некото- некоторого б > 0 min \r\>2n~l'*+\ { } 155
т. е. при переходе от одной задачи к другой в асимптотике Кол- Колмогорова — Деева max \ги\ по всем парам координат не при- приближается слишком быстро к единице, a min \г^\ по существен- существенным (ненулевого веса) связям не стремится слишком быстро к нулю, то D.18) имеет место и в асимптотике D.19). При этом выборочные значения коэффициентов корреляции совсем не обязаны удовлетворять соотношению D.14), задающему свойство древообразности для нормальных распределений. Они только должны быть близки к теоретическим значениям коэффициентов, которые удовлетворяют D.14). 4.4. R(k) -распределения Распределения с ДСЗ обобщают совместное распределение пос- последовательных членов в дискретных цепях Маркова. Если дви- двигаться вдоль ветвей графа-дерева структуры зависимостей, то последовательно проходимые вершины графа (координаты век- вектора наблюдений) образуют цепь Маркова. Этот факт позво- позволил доказать единственность в нормальном случае графа — дерева структуры зависимостей, предложить простой алго- алгоритм его оценки по выборочной корреляционной матрице и, наконец, показать, как, зная дерево структуры зависимостей, получить исходное распределение. В этом параграфе рассматриваются R (й)-распределения (удовлетворяющие условию R (&)), обобщающие так называе- называемые ^-зависимые марковские последовательности. R (^-рас- (^-распределение — это уже известное нам распределение с ДСЗ. По аналогии со случаем k = 1 вводится понятие графа струк- структуры зависимостей и показывается, как найти этот граф по вы- выборочным данным. Однако в общем случае (k > 1) пока не уда- удалось доказать однозначность обратного перехода: восстановле- восстановления по графу структуры зависимостей и (k + 1)-мерным рас- распределениям координат вектора X исходного распределения X. Этим обусловлена некоторая незавершенность излагаемой ниже теории. 4.4.1. Основные определения. Начнем с обобщения понятия распределения с ДСЗ. Определение 4.7. Распределение X удовлетворяет условию R (k) (k ^1), если для некоторой перестановки но- номеров компонент X а = (а A),..., а (/?)) для каждого i = 1,2, ..., р найдется J (i) — такое множество из {0,1,..., р}, что J(*(i)) = {a(lj):lj<i / = 1, ...,*,<*}, D.21) 156
и почти для всех возможных значений для всех z D.22) где Х^ <«<'»> = {*<» : у 6 J (<* @)} и Из этого определения немедленно получаем, что если рас- распределение X непрерывно и удовлетворяет условию R (?), то в обозначениях D.2') /(X)- П f(x<')|X<^ <•))). D.23) 1 < i < Р При fe=l из D.21) — D.23) получаем D.7), D.8), т. е. распределение, удовлетворяющее условию R A), есть распре- распределение с ДСЗ. Для распределений, удовлетворяющих условию R (й), так же как в § 4.2, можно ввести понятие графа структуры зависи- зависимостей G, положив В отличие от случая к = 1 в общем случае k > 1 граф струк- структуры зависимостей зависит от выбора перестановки а и не оп- определяется однозначно. 4.4.2. Нормальное R (/^-распределение. Пусть /, / — два упо- упорядоченных непересекающихся подмножества / = {/i,..., х"г}> J = {/i»--«» /ft} координат вектора X. Образуем вектор и пусть его корреляционная матрица По аналогии с п. 4.2.3 имеем Е (*<'•> | Х« ('») = т(') + 2/, j (/) SJf0 j (/) (Х^ ( D (^@ | Х^ с») = о? - 2,, j (/) SJ Jo , (/) Sy (/), f ^ a? Откуда с учетом D.23) получаем ? SJ(',-, у (/) (X«J <г»> -М<^ <'»)]*/2о?. j (,-)}¦ D.24) 157
Так же, как при к --- 1, матрица 2-1 имеет очень простой вид. В случае когда а совпадает с исходной нумерацией коор- координат X, в каждом столбце 2~' над главной диагональю сто- стоит не более к отличных от нуля элементов. Пусть С (к) = |! си (к) ||, где сп (к) - аг \, (/); / j о" С/, j (о (к) = — S/t у (ij-Sj (/), j сп(к) = 0,1ф{1} \JJ(i)9 тогда имеет место аналог D.12j. Для гауссовских /? (/^-рас- (/^-распределений 2-i = C'(*)C(*). D.25) При описании алгоритма выделения графа структуры зави- зависимостей нам потребуется также следующее определение Определение 4.8. Граф GcK(C)« {I, ...,p} удов- удовлетворяет условию Т (Л), если существует хотя бы одна перес- перестановка номеров вершин {1, ...,/?}<*=* (а A), ..., а (р))., что для каждого 1 <; i < р найдется не более к вершин a (l^i)), ..., a (lk. (i)) (ki ^ k)t таких, что для всех / = 1, ..., kt\ lj @ < f; (a (i); а (/, (/)) ? ? (G) и U U (а @> а (/;(/)) = = Е (G). 4.4.3. Восстановление графа структуры зависимостей. Пусть г1и.г — частный коэффициент корреляции между х^^ и х{к) при фиксированном значении х(/> (см. § 1.2 и [20, § 2.5]). Тогда в случае нормального распределения с ДСЗ для (iy k) ? ? Е (G)— дереву структуры зависимостей и (/, /) ф Е (G) minl^fc.,1^0, min| ^..,( = 0. D.26) Это свойство после необходимого обобщения может быть ис- использовано для выделения графа структуры зависимостей в случае R (/^-распределений. Пусть rik.j — частный коэффи- коэффициент корреляции между x{i\ x{k) при фиксированном зна- значении *<'«>, ..., л'(//{), J = {/ь..., //<}; назовем k-весом связи (i> 1) SftO'./) = injn|rl7.y|, D.27) где минимум берется по всем наборам из k координат X, от" личных от Л'(/) и x(i\ Теорема 4.5. Для невырожденных нормальных R (k)- распределений граф структуры зависимостей единствен с точ- точностью до связей нулевого /г-веса. 158
Перейдем к описанию алгоритма выделения графа структу- структуры зависимостей. По своему содержанию он близок к описан- описанному в п\ 4.3.2 алгоритму Крускала, только понятие ребра графа, образующего цикл с уже выделенными ребрами, при- приходится заменить более сложной конструкцией. Обобщенный алгоритм Крускала. Выбираем на первом шаге ребро 1г наибольшего /г-веса; определяем по индукции последо- последовательность ребер /2, /3,..., /п-ь выбирая на каждом шаге ребро с наибольшим /г-весом, отличное от уже выбранных и обладаю- обладающее тем свойством, что при добавлении /п-го к отобранным реб- ребрам граф ({1, ..., р}, {/ь..., /д}) будет обладать свойством Т (k). В том случае, когда граф структуры зависимостей единст- единствен с точностью до связей нулевого /г-веса (нормальные R (ft)- распределения), обобщенный алгоритм Крускала дает возмож- возможность его восстановить. 4.5. Структура связей нормального вектора (общий случай) С важными, но частными моделями структуры связей между компонентами многомерного нормального вектора мы познако- познакомились в предшествующих параграфах. Наша цель — дать краткую сводку основных результатов общей теории [40, 56, 1791. 4.5.1. Марковская тройка. Структура многомерного вектора. Пусть X ^= (хA),..., х(р))' имеет невырожденное р-мерное рас- распределение; V= {I,..., p} — множество номеров координат X; Л, В, С — непересекающиеся подмножества V\ X{A) — подмножество координат X, номера которых входят в Л. Определение 4.9. Тройка (Л, В, С) называется мар- марковской, если f (Х<4> | Х<*\ Х<с>) = / (Х<л> | Х<*>). D.28) В определении марковской тройки допускается тривиаль- тривиальный случай С = 0. Для того чтобы тройка (Л, В, С) была марковской [61], необходимо и достаточно, чтобы 2лс=2Ле2вА2ж;, D.29) где 2лс=Е(Х<л> — ЕХ<*>)(Х<*> — ЕХ<*>)' или, что эквива- эквивалентно, 0, D.30) 159
где 2ЛС (А, С) — блок матрицы 2-1, соответствующий блоку Еле в матрице S. Условие D.30), очевидно, обобщает соответствующие ут- утверждения о нулях S-1 в случае R (/^-распределений. В [611 предложен статистический критерий для проверки гипотезы D.30), построенный в традиционной асимптотике, когда фик- фиксирована матрица 2, а число наблюдений п -> оо. Определение 4.10. Структурой связей многомер- многомерного невырожденного нормального вектора X называется граф G = (К, ?"), такой, что для любой марковской тройки (i, Ву /): а) любая цепь в С из / в / проходит через В и б) для каждого k ? В существует в G цепь из / в /, проходящая через k. Пусть Г (/) — множество вершин, смежных на G вершине /, т. е. Г @ = {/: (i, /) ??}, тогда '> | Х<г <'») ----- / (*«'> | Х^\'>), D.31) причем Г(/) минимально в том смысле, что ни для какого под- подмножества его компонент D.31) не имеет места. Теоретический способ отыскания Е состоит в том, что для каждой пары компонент (г, /) подсчитывается частный коэффи- коэффициент корреляции между i и / при фиксированных значениях всех других компонент [20, § 2.5]. Если он не равен нулю, то (/, /) ? ?", в противном случае (/, /) ?=? Е. На практике, по-ви- по-видимому, можно задавать некоторый порог б > 0 и считать связь (i, /) ??, если \ги.у\ {/,/>| 2^6, и (?, /) ф Е — в противном слу- случае. При другом способе все частные коэффициенты корреля- корреляции при фиксированных значениях всех других кохмпонент рас- располагают в вариационный ряд по абсолютным величинам и от- отбирают наперед заданное число наибольших из них. Если (i, /') соответствуют отобранным членам вариационного ряда, то принимают совокупность (i,j)?E. Статистические свойства этих рекомендаций не изучены. 4.5.2. Информационная интерпретация структуры связей. Математическое выражение количества информации в векторе X относительно вектора Y определяется [751 как ^ ГГ/(Х, Г)In f(X'Y) dXdY, JJ f[X)f(Y) где / (X), / (У), / (X, Y) — соответственно плотности распреде- распределения X, Y и (X, Y). В нормальном случае информация, за- заключенная в подмножестве Х(Л> координат вектора X ? 160
jV@,2) относительно подмножества координат Х'В) (А П В~ 0), задается выражением ([75], гл.9, формула G.4)) det 2(ЛиЛ) (. D.32) Пусть Г (/) определено, как в предыдущем пункте, тогда [561 / (*<'">, Х<г С"») > / (а:"'\ Х<л>), D.33) где В —любое подмножество компонент X, не содержащее Х(Г(/)) целиком. Сравним D.32) с формулой B0) [20, п. 2.5.2]. Из срав- сравнения и D.33) следует, что максимум взаимной информации между x{i) и Х{А) достигается на том же наборе компонент Х(Г(/)), что и максимум коэффициента множественной корреля- корреляции. При этом структура связей выделяет не парные, а мно- множественные зависимости, в большей степени отражающие ре- реальное взаимодействие переменных. Для каждой компоненты x{i) с помощью графа структуры связей легко находится груп- группа координат Х(Г(/)), непосредственно связанных с х(/> и несу- несущих максимальную информацию о ней. 4.5.3. Использование структуры для представления распреде- распределения в виде композиции более простых распределений. Нач- Начнем с формулы D.4). Разобьем каждое из подмножеств ком- компонент, входящих в правые части сомножителей D.4), на два таких подмножества {X(-1i), X(Bi)}, {X(^2), X(/^)}? ..., {X(%-i),X^-i)}, что тройки A, А1У ВО. -.. (P. Ap-i* fl;i-i) будут марковскими. В результате получаем аналог разложе- разложений D.5) и D.23): К сожалению, в общем случае так же, как для R (^-рас- (^-распределений, не выработано простых рекомендаций, как наибо- наиболее удачным образом с точки зрения простоты окончательной формулы выбрать первоначальный порядок координат. ВЫВОДЫ 1. При содержательной интерпретации взаимозависимостей между координатами случайного вектора целесообразно вы- выделять связи прямые и опосредованные. Важным примером не- непосредственной связи является связь последовательных на- наблюдений (? „, ?Л+1) в цепи Маркова. Связь наблюдений (?н, ln+h) опосредуется через наблюдения Цп+Ъ ?||+2, ..., Sn+ft-i). & Зак.244 161
Для визуального представления зависимостей широко исполь- используются графы структуры зависимостей, в которых координа- координаты вектора изображаются в виде вершин графа, а непосредст- непосредственные связи между ними — в виде связывающих их ребер. 2. Понятие древообразной структуры зависимостей между координатами случайного вектора возникает как обобщение понятия марковости для совокупности случайных величин, лишенных временной упорядоченности. Говорят, что распре- распределение X = (jcA> ,..., х{р)У имеет ДСЗ, если существует такая перестановка координат вектора (а A),..., а (р)), что где /(а@) ? {«A),..., а (/- 1)}. 3. Невырожденные р-мерные нормальные распределения с ДСЗ имеют очень простой вид матрицы 2-1, где 2 — ковари- ковариационная матрица координат вектора. В 2-1 над главной диа- диагональю стоит не более р — 1 отличных от нуля элементов. Эта малопараметричность описания ковариационной матрицы в сочетании с большим разнообразием описываемых классов зависимостей, включающим, в частности, все ковариационные матрицы цепей Маркова, делает распределения с ДСЗ одним из основных инструментов в многомерном анализе. 4. Для распределений с ДСЗ при выполнении дополнительного условия, справедливого для всех невырожденных нормальных распределений, графы структуры зависимостей определяются однозначно с точностью до связей, соответствующих независи- независимым координатам. С другой стороны, для этих распределений по графу структуры зависимостей восстанавливается, хотя и неоднозначно, естественный порядок координат, фигурирую- фигурирующий в определении распределений с ДСЗ. 5. Если известна корреляционная матрица невырожденного нормального вектора с ДСЗ, то по ней с помощью известного в теории графов алгоритма Крускала граф структуры зависи- зависимостей восстанавливается однозначно. Алгоритм Крускала, примененный к выборочной корреляционной матрице, оказы- оказывается состоятельным в асимптотике Колмогорова -г- Деева, специально рассчитанной на изучение ситуаций, когда число наблюдений вектора и его размерность суть величины одного порядка. 6. R (/^-распределения (k ^ 1) возникают как результат обоб- обобщения, с одной стороны, распределений с ДСЗ (R (^-рас- (^-распределений), а с другой — fe-зависимых марковских последова- последовательностей. На R (^-распределения удается перенести многие свойства распределений с ДСЗ. 162
7. Пусть А, В, С — непересекающиеся подмножества номеров координат, а Х(*4), Х^и\ Х<с> — соответствующие наборы координат. Тройка (Л, В, С) называется марковской, если /(Х^> | (Х(В>, Х<с>) = /(Х<л> | Х<*>)> Построены статистиче- статистические критерии для проверки гипотезы, что заданная тройка — марковская. В случае когда X имеет невырожденное нор- нормальное распределение, структурой связей X называется граф G, вершинами которого являются номера координат X, а реб- ребрами — соединяющие их дуги и для которого выполняется условие, что для каждой марковской тройки (/, В, /): а) любая цепь в G из / в / проходит через В и б) для каждого к ? В су- существует цепь в G из / в /, проходящая через k. Вся информа- информация в координатах Х\х(/> относительно координаты x{i) со- содержится только в Хт'»у где Г (/) — вершины графа G, смеж- смежные с вершиной /. Ребрам (/, /) графа G соответствуют отлич- отличные от нуля частные коэффициенты корреляции между / и / при фиксированных остальных координатах вектора X. Этот факт можно использовать для нахождения графа структуры связей. 163
Раздел II. ИССЛЕДОВАНИЕ ВИДА ЗАВИСИМОСТИ МЕЖДУ КОЛИЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ (регрессионный анализ) Глава 5. основные понятия РЕГРЕССИОННОГО АНАЛИЗА Предыдущий раздел (гл. 1—4) посвящен описанию математи- математического аппарата, привлекаемого для реализации 3-го этапа статистического исследования зависимостей (см. «Корреля- «Корреляционный анализ» в п. В.6), на котором исследователь пытается проанализировать структуру связей между рассматриваемыми переменными и измерить степень их тесноты. После того как он убедится в наличии статистически значимых связей между анализируемыми переменными, он приступает к выявлению и математическому описанию конкретного вида интересующих его зависимостей: подбирает класс функций, в рамках которого будет вести свой дальнейший анализ (этап 4); производит, ес- если это необходимо, отбор наиболее информативных предска- предсказывающих переменных (этап 5); вычисляет оценки для неизвест- неизвестных значений параметров, участвующих в записи уравнения искомой зависимости (этап 6); анализирует точность получен- полученного уравнения связи (этап 7). Этапы 4—7 и составляют содер- содержание регрессионного анализа, описанию которого посвящен данный раздел. Но прежде чем переходить к изложению методов, составля- составляющих аппарат регрессионного анализа, необходимо ввести и прокомментировать ряд основных понятий и определений. 5.1. Функция регрессии как условное среднее и ее интерпретация в рамках многомерной нормальной модели Во введении при общей формулировке задачи статистического исследования зависимостей (п.В.1), при описании основных прикладных проблем, в решении которых используется аппа- аппарат статистического исследования зависимостей (п. В.4), и при классификации основных типов исследуемых зависимостей (п. В.5) мы, по существу, уже использовали понятие «функции 164
регрессии». Перед тем как сформулировать общее определение функции регрессии, вернемся к примерам В.1 и В.2 В примере В.1 мы исследовали, как меняется средняя вели- величина удельных денежных сбережений семьи (ц) в зависимости от ее среднедушевого дохода (?), причем усреднение денежных сбережений (ц) производилось по всем семьям данной группы по доходам (т. е. при g =--= х). Другими словами, анализирова- анализировалась зависимость условного среднего значения удельных семей- семейных сбережений г/ср (х) = Е (ч\ \ ? = х) от среднедушевого дохода х (см. табл. В.1 и рис. В.2). В примере В.2 анализировалось поведение показателя сред- средней долговечности (ц) испытуемого образца в зависимости от величины характеристики эксплуатационного напряжения (#), где усреднение величины ц производилось по всем образцам, испытанным при заданном значении характеристики эксплуа- эксплуатационного напряжения х. Таким образом, речь опять идет об исследовании зависимости условного среднего значения ре- результирующего показателя ц (вычисленного при условии, что объясняющая переменная приняла заданное значение х) от те- текущего значения объясняющей переменной (см. табл. В.4 и рис. В.5). Рассмотрим общую схему. Пусть значение исследуемого ре- результирующего показателя ц при данных фиксированных величинах объясняющих переменных л^1), л:B), ..., х{р) случай- случайным образом флюктуирует вокруг некоторого (вообще говоря, неизвестного) уровня/ (#A), х{2\ ..., #(р)), зависящего от кон- конкретных значений предикторов хA), л:B> ,..., #(р\ т. е. Tl = f (*<¦>, Х<2>, .... *<*>) +?(*<¦>, ..., XiP))% E.1) где остаточная компонента е (X) определяет случайное откло- отклонение значения ц от постоянного (при фиксированных хA),..., х<р>) уровня /. При этом наличие флюктуации е может быть при- присуще самой природе эксперимента или наблюдения (как в при- примерах В.1 и В.2), а может объясняться случайными ошибками в измерении величины/ (тогдаrj является результатом несколь- несколько искаженного измерения значения /). Когда говорят, что «не- «некоторая величина (г|) случайным образом флюктуирует вокруг определенного (неслучайного) уровня /», то, как правило, име- имеют в виду, что среднее значение такой флюктуирующей слу- случайной величины должно быть равно /, т. е. Ег| = /. Посколь- Поскольку условия эксперимента и, в частности, уровень, около кото- которого флюктуирует т), зависят от конкретных значений х<г\ <2\ м некоторого набора объясняющих переменных, со- 165
ответственно I*1), |B), ..., ?(р), то из E.1) и только что сказан- сказанного непосредственно следует E.2) Функция / (jcA>, л:B), ..., х{р)), описывающая зависимость условного среднего значения уСр (X) результирующего показа- показателя т] (вычисленного при условии, что величины предсказы- предсказывающих переменных зафиксированы на уровнях #<*>, #B> ,..., ..., х{р)) от заданных фиксированных значений предсказываю- предсказывающих переменных, называется функцией регрессии. В общем случае для точного описания функции регрессии необходимо точное знание условного закона распределения результирующего показателя ц (при условии, что ? = X). Поскольку в статистической практике мы никогда не распола- располагаем такой информацией, то обычно ограничиваются поиском подходящих аппроксимаций для / (X), основанных на исходных статистических данных вида (В.1) (о методах построения таких аппроксимаций см. гл. 7—10). Однако в жестких теоретических рамках модельных допу- допущений о типе распределения исследуемого вектора показателей (?A), ?B\..., ?(р); Л) может быть получен общий вид функции регрессии / (X) = Е (tj | g = X) (здесь, как и ранее, I = = (?<*>, ..., ?<">)' и X - (х<х>, ..., *<'»>'). Так, например, если предположить, что исследуемый вектор переменных (|'; г\)г подчиняется (р + 1)-мерному нормальному распределению с вектором средних значений и с ковариационной матрицей
то из A.3) непосредственно следует = Е fa | S - X) Таким образом, если анализируемый многомерный признак {?A\ ?B>, •••, ?(р); л) подчинен (р+1)-мерному нормальному за- закону, то функция регрессии результирующего показателя ц по объясняющим переменным ЕA>, Е<2>, ..., ?(р) имеет линейный (по X) вид, а ее коэффициенты выражаются в терминах первых двух моментов анализируемых случайных величин. Происхождение термина «регрессия» (лат. «regression» — отступление, возврат к чему-либо) связано только с приклад- прикладной спецификой одного из первых конкретных примеров, в ко- котором это понятие было использовано, но никак не с его обще- смысловым наполнением. Этот термин был введен английским психологом и антропологом Ф. Гальтоном в связи с вопросом о наследственности роста. Обрабатывая статистические дан- данные, Гальтон нашел, что сыновья отцов, отклоняющихся по росту на х дюймов от среднего роста всех отцов, сами отклоня- отклоняются от среднего роста всех сыновей меньше, чем на х дюймов. Гальтон назвал выявленную тенденцию «регрессией к сред- среднему состоянию» («regression to mediocrity»). Однако термин столь прочно внедрился в статистическую литературу, что мы не делаем попытки заменить его более подходящим для выражения существенных свойств понятия статистической зависимости. 5.2. Функция Д-регрессии как решение оптимизационной задачи В предыдущем параграфе обращается внимание читателя на то, что в статистической практике приходится ограничиваться поиском подходящих аппроксимаций для неизвестной истин- истинной функции регрессии / (X), поскольку исследователь не рас- располагает точным знанием условного закона распределения вероятностей анализируемого результирующего показателя г\ (при условии, что объясняющие переменные ? приняли «значение», равное X). В данном параграфе будет уточнено, что значит «подходя- «подходящая аппроксимация», т. е. будут описаны критерии адекват- адекватности модели, в соответствии с которыми естественно измерять качество предполагаемой аппроксимации fa (X) искомой функ- функции регрессии / (X) в том или ином случае. Общий оптимизационный подход к построению статисти- 167
ческих решающих процедур описан в [13] и кратко воспроиз- воспроизведен в [14, § 1.2]. Остановимся на конкретизации этого подхода применитель- применительно к задачам статистического исследования зависимостей и, в частности, к задаче наилучшего восстановления (по исходным статистическим данным вида (В.1)) условного значения резуль- результирующего показателя ц (X) = (т| | ^ = А') и неизвестной функции регрессии / (X) = Е (г\ | ? = X). С этой целью вос- воспользуемся следующей схемой рассуждений. а. Введем функцию потерь р (е^ (X)), измеряющую убыт- убытки от неточности восстановления значения ц (X) = {г]|| ==Х} с помощью функции fa (X); здесь е; = ц (X) —fa (X), а функция р (и)у как правило, монотонно неубывающая, чаще всего выпуклая, функция аргумента и с неотрицательными значениями (см. различные варианты функции р в § 7.2). б. Определим теоретический и соответствующий ему выбо- выборочный критерии адекватности модели fa (X), используемой в качестве аппроксимации для неизвестного условного значения результирующего показателя ц (X) = (ц | | = X): теоретический А (/а)«= Ер (ef (X)); E.4) выборочный Дп (/а) - ± 2 р GSa (Xt)). E.4') Sa В E.4) усреднение производится и по всем возможным значе- значениям случайной величины Ef (X) (при каждом фиксирован- фиксированном X) и по всем возможным значениям X, а в E.4') — по всем имеющимся наблюдениям. в. Зададимся классом допустимых решений F, в рамках ко- которого будем вести дальнейший поиск наилучшей, в смысле критериев Д или Дп> аппроксимации f% (или f%) для ц (X). При этом если в качестве класса F задаются некоторым пара- параметрическим семейством функций E.5) то задача подбора наилучшей аппроксимации fa (или f%) сво- дится к определению таких значений параметров в* (или в*), при которых некоторая агрегированная характеристика точ- точности восстановления значений г] (X) по значениям fa (X; в) (или fa (X; в)) является наилучшей (подход, основанный на ис- 168
пользовании в качестве класса допустимых решений F парамет- параметрических семейств вида E.5) называют параметрическим). г. Будем называть функцию /* (X) функцией ^-регрессии, если она дает прогноз для условных значений результирующего показателя г\ (X), являющийся наилучшим в смысле критерия адекватности А. Другими словами: E.6) Покажем (на примере квадратичной функции потерь, т. е. при р (и) = ы2), что задача минимизации функционала E.4) содержит задачу наиболее точного восстановления регрессии. Действительно, для критерия E.4) справедливо тождество (см. п. 1.3.1) A (fa) = J $ (У-fa (X))* РЧ{У\Х) Р1 (X) dydX =* /-f(X))*Prl(y\X)pl(X)dyuX + Xy + \(fa(X)-f(X))*Pl(X)dX X (здесь pn (y\X) и pi (X) — соответственно условная функция плотности результирующего показателя ц при условии, что g = X, и частная функция плотности предикторной перемен- переменной I). Так как первое слагаемое в правой части этого тождества не зависит от функции fa (X), то минимум функционала А(/а) определяется величиной второго слагаемого и достигается на такой функции f^ (X) ? F, на которой минимизируется погреш- погрешность описания истинной функции регрессии / (X) с помощью функций из класса F. В дальнейшем, чтобы отличать теоретическую версию этого определения (которая соответствует функционалу E,4)) от выборочной (функционал E.4')) и с целью упрощения обозначе- обозначений, будем полагать (если не требуется специальных поясне- пояснений, связанных с выбором критерия А ) E.7) E.7') с* и называть их соответственно теоретической и выборочной an- проксимациями истинной функции регрессии. Основанием для 169
подобной терминологии служат простые асимптотические соот- соотношения,.связывающие в ряде достаточно общих случаев функ- функции / (X) = Е (г| | I = X), fa (X) и их выборочные анало- аналоги (см. следующий параграф). Обратим внимание читателя на ряд частных случаев функ- функции потерь р (и), широко используемых в теории и практике статистического исследования зависимостей: 1) р (и) = а2; получаемая в соответствии с E.6) регрессия называется среднеквадратической, а метод, реализующий ми- минимизацию функционала An (fa), принято называть методом наименьших квадратов (см. § 7.1); 2) р (и) = \и\\ получаемая в соответствии с E.6) регрессия называется сред неабсолютной (или медианной), а метод, реа- реализующий минимизацию функционала Дп (/а), называют ме- методом наименьших модулей (см. п.7.2.1); 3) р (и) — \и\ху где т-> оо; можно показать, что в этом слу- случае минимизация критерия Дп (fa) сводится к минимизации (по fa ? F) max \ yt — fa (Хг)|, поэтому соответствующую регрес- сию называют минимаксной. Другие важные частные случаи Д-регрессии читатель най- найдет в §7.2. 5.3. Взаимоотношения различных регрессий Взаимоотношения истинной и Д-регрессий существенно зави- зависят от вероятностной природы регрессионных остатков е (X) в моделях типа E.1) и от способа выбора класса допустимых ре- решений F. Попробуем вначале понять эти взаимоотношения на примере. Пример 5.1. Результирующий показатель tj связан с объясняющей переменной ? соотношением E.8) где регрессионный остаток г — случайная величина, подчиня- подчиняющаяся нормальному закону распределения со средним зна- значением Ее = 0 и с дисперсией D г = 4, а диапазон возмож- возможных значений ? определяется, отрез ком [2; 10]. Очевидно, ис- истинная функция регрессии в данном случае имеет вид ^x)^2xi>5. E.9) Предположим, нам не известен точный вид соотношения {5.8) и соответственно не известно уравнение функции регрес- 170
сии E.9). Однако мы располагаем следующей системой дву- двумерных наблюдений (xiy yi)i==r^ , генерируемых моделью E.8), т.е. связанных соотношением уг = 2х}-ъ + гь (табл. 5.1) Таблица 5.1 Номер наб- наблюдения (/) (xt) i-e наблюденное значение ? (Уг) *-е наблюденное значение т] 1 2 6,58 2 3 10,67 3 4 20,91 4 5 21,71 5 6 29,25 б 7 37,64 7 8 44,67 8 9 56,60 9 10 61,33 Расположение точек — наблюдений на рис. 5.1 дает нам основание ограничить класс допустимых решений только ли- линейными зависимостями, т. е. определить в качестве класса до- допустимых решений параметрическое семейство Рлин={во + в1х}. E.10) Имея априорную информацию о типе распределения регрес- регрессионных остатков, остановим свой выбор на квадратичной функции потерь. Решая оптимизационную задачу вида ¦mm E.11) получаем оценки Go, 6f для неизвестных параметров 60, 6Ь участвующих в записи аппроксимирующей функции fa (х) = = 60 + 0i х. График соответствующей выборочной аппрокси- аппроксимирующей функции регрессии fa (х) = 0o+9i*# изображен на рис. 5.1. Для сравнения на том же рисунке изображены гра- графики истинной функции регрессии f (х) = 2*1'5 и теорети- теоретической аппроксимирующей функции регрессии fa (x). Послед- Последняя характеризует результат, к которому мы бы неограниченно приближались (в смысле сходимости по вероятности), решая оптимизационную задачу E.11) для неограниченно расширяю- расширяющейся по объему выборки {(хь #0h=!Tm n -»- оо. Поскольку мы «не угадали» класс допустимых решений (истинная функция регрессии не принадлежит к выбранному нами классу E.10)), то в данном случае мы находимся в ситуации (к сожалению, достаточно типичной для практики статистических исследова- 17J
ний), в которой наши статистические выводы и оценки не будут обладать свойством состоятельности. Другими словами, как бы мы ни увеличивали объем исходной статистической базы, мы не сможем добиться сходимости нашей выборочной аппрокси- аппроксимирующей функции регрессии fa(x) к истинной функции рег- регрессии / (х). Напротив, если бы мы правильно выбрали класс допусти- допустимых решений, что в данном примере означало бы FCT = {6o*6lh E.12) У 60 55 50 40 35 30 25 20 15 10 5 О 123 456783 10 X Рис. 5.1. Взаимное расположение истинной, теоретической аппроксимирующей и выбо- выборочной аппроксимирующей функций рег- регрессии в примере 5.1: то неточность в описании / (х) с помощью /а (х) объяснялась бы только ограниченностью выборки, по которой строится функ- функция fa (x), и, следовательно, могла бы быть сделана сколь угодно малой за счет п -*- оо. Сформулируем в заключение несколько общих положений, относящихся к сравнению различных функций регрессии: 172
а) истинная регрессия / (X) = Е (т) | ? = X) является од- одновременно среднеквадратической, т. е. дает решение оптими- оптимизационной задачи вида E.6) при квадратичной функции потерь (р (а) == и2) и при отсутствии ограничений на класс допусти- допустимых решений F (доказательство приведено в п. 1.3.1); б) для широкого класса критериев адекватности А (/а) выборочная аппроксимирующая функция регрессии fa (X) схо- сходится (по вероятности) к теоретической аппроксимирующей функции регрессии fa (X) при п->- со; в) в случае удачного выбора класса допустимых решений, т. е. при / (X) ? F, теоретическая аппроксимирующая функ- функция регрессии fa (X) (при надлежащем выборе критериев адек- адекватности А) совпадает с истинной и соответственно выборочная аппроксимирующая функция регрессии fa (X) будет сходиться (по вероятности) к истинной; г) в случае неудачного выбора класса допустимых решений, т. е. при/ (X)^F, ошибку в описании истинной функции рег- регрессии / (X) с помощью выборочной аппроксимирующей функ- функции регрессии fa (X) удобно представить в виде суммы двух компонент: ошибки выборки и ошибки аппроксимации. При этом ошибка выборки (разность fa (X) — fa (X)) при п ->• со стре- стремится (по вероятности) к нулю, в то время как ошибка ап- аппроксимации (разность fa{X) —/ (X)) не стремится к нулю ни при каком выборе критерия адекватности А. Обсуждение мотивов выбора вида функции потерь р (и со- соответственно критерия адекватности А) приводится в гл. 7. ВЫВОДЫ 1. Центральное место в аппарате статистического исследования зависимостей между количественными переменными занимает понятие регрессии результирующего показателя г\ по объяс- объясняющим переменным J-*1), |<2>, ..., ?<р>. 2. Функция /(X), описывающая изменение условного среднего значения #ср (X) = Е (т) | I = X) результирующего показа- показателя г] в зависимости от изменения заданного значения X предикторной переменной ?, называется функцией регрессии. 3. Для точного описания функции регрессии / (X) = Е (л 15= = X) необходимо знание закона условного распределения результирующего показателя г] (при условии ? = X). В стати- статистической практике ограничиваются оценкой (на основании имеющихся выборочных данных вида (В.1)) подходящих ап- аппроксимаций fa (X) фуНКЦИИ / (X). 173
4. Наряду с приведенным выше классическим определением функции регрессии в теории и практике статистического иссле- исследования зависимостей используются функции /^-регрессии, являющиеся наилучшими прогностическими моделями для анализируемого результирующего показателя г) (X) в смысле минимизации заданного критерия адекватности (агрегирован- (агрегированной ошибки прогноза) Д (/а). Функции Д-регрессии позволяют подбирать наилучшие аппроксимации для неизвестной истин- истинной функции регрессии. Кроме того, они представляют и само- самостоятельный интерес, позволяя строить и анализировать иную, чем условное среднее, условную характеристику места груп- группирования результирующего показателя г) (X) = (г\Ц = X), обладающую в ряде ситуаций определенными преимущества- преимуществами перед условной средней. 5. Наиболее распространенными частными случаями Д-рег- рессий являются среднеквадратическая, медианная и мини- минимаксная регрессии. Весьма полезными являются и различные варианты так называемых «робастных» регрессий (см. § 7.2). 6. Соотношение истинной (/(X)), теоретической аппроксими- аппроксимирующей (fa (X)) и выборочной аппроксимирующей (fa (X)) рег- регрессий существенно зависит от выбора критерия адекватности Д (fa) (определяемого природой регрессионных остатков е) и класса допустимых решений F. В частности, даже при удач- удачном выборе критерия адекватности Д в ситуациях, когда истин- истинная функция регрессии / (X) не «накрывается» классом допус- допустимых решений F (т. е. когда / (X) ф F), выборочная аппрок- симирующая функция регрессии fa (X) не будет стремиться к истинной при неограниченном росте объема выборки (отсутст- (отсутствие свойства состоятельности у fa (X), объясняемое неустрани- неустранимостью ошибки аппроксимации). 7. Истинная регрессия f (X) = Е(г}|§ = X) является одновре- одновременно среднеквадратической, т. е. дает решение оптимизаци- оптимизационной задачи вида E.6) при квадратичной функции потерь (при отсутствии ограничений на класс допустимых решений F). Глава 6. выбор общего вида ФУНКЦИИ РЕГРЕССИИ Собственно регрессионный анализ, т. е. восстановление по име" ющимся наблюдениям предикторной переменной ? и резуль- результирующего показателя г\ Уг), (Х%9 */2),..., (ХП9 Уп)} F.1) 174
неизвестной функции регрессии / (X) = Е (г]|? = X), начи- начинается с выбора класса допустимых решений F — класса функций, в рамках которого предполагается вести поиск на- наиболее подходящей аппроксимации fa (X) для / (X). Наиболее распространенными в статистической практике являются параметрические регрессионные схемы, когда в ка- качестве класса допустимых решений выбирается некоторое пара- параметрическое семейство функций F.2) В этом случае дальнейший поиск аппроксимации / (X) сво- сводится к наилучшему (в смысле заданного выборочного крите- критерия адекватности, см. § 5.2) подбору неизвестного значения параметра в*, что в свою очередь осуществляется с помощью полностью формализованного алгоритма решения соответству- соответствующей оптимизационной задачи, составляющей математичес- математическую основу процедуры, называемой статистическим оценива- оцениванием параметра. Но до перехода к процедуре статистического оценивания не- неизвестного значения параметра мы должны сделать и обосно- обосновать определенный выбор типа параметрического семейства F.2). Так, например, в качестве класса допустимых решений можно использовать р линейные функции: /(X; 6) = 60+ 2 0ft .*<*>; F.2') k= i степенные функции: /(X; 0) = 0o(*A))ei (*B>)в2... алгебраические полиномы степени т ^ 2: /(X; 0)= 0о+2 efc.**>+ S 2 e*t*,*<*'>• и т. д. Следует подчеркнуть, что этап 4 (см. § В.6), т. е. этап ис- исследования, посвященный выбору общего вида функции регрес- регрессии (параметризация модели), бесспорно, является ключевым: от того, насколько удачно он будет реализован, решающим об- образом зависит точность восстановления неизвестной функции регрессии / (X). В то же время приходится признать, что этот этап находится, пожалуй, в самом невыгодном положении: к со- сожалению, не существует системы стандартных рекомендаций 175
и методов, которые образовывали бы строгую теоретическую базу для его наиболее эффективной реализации. Остановимся на некоторых рекомендациях, связанных с реализацией трех основных моментов, учет которых необхо- необходим при решении проблемы выбора общего вида функции рег- регрессии: 1) максимальное использование априорной информа- информации о содержательной (физической, экономической, социоло- социологической и т. п.) сущности анализируемой зависимости; 2) предварительный анализ геометрической структуры исход- исходных данных вида F.1), на основании которых конструируется искомая зависимость; 3) различные статистические приемы обработки исходных данных, позволяющие сделать наилучший выбор из нескольких сравниваемых вариантов. 6.1. Использование априорной информации о содержательной сущности анализируемой зависимости Анализируя содержательную сущность изучаемой зависимос- зависимости, исследователь еще до обращения к исходным статистичес- статистическим данным может (и должен!) попытаться ответить на ряд во- вопросов по поводу характера искомой регрессионной связи: а) будет ли искомая функция / (X) монотонной или она должна иметь один (или несколько) экстремум? б) следует ли ожидать стремления (в процессе х^ ->¦ оо) / (X) к асимптотам (по одной или нескольким предикторным переменным) и какова их содержательная интерпретация? Так, например, если / (X) — средний объем благ определенного ви- вида, потребляемых семьями группы X по доходам, то, очевидно, при X ->¦ оо следует ожидать «насыщения», т. е. / (X) будет стремиться (снизу) к горизонтальной асимптоте (см. п. 4 и 10 в табл. В.З); в) какова принципиальная природа воздействия предик- торных переменных я*1), х^\ ..., jc<p> на формирование резуль- результирующего показателя у — аддитивная или мультипликатив- мультипликативная? Так, например, многие схемы зависимостей в экономике и квалиметрии характеризуются мультипликативной природой воздействия предикторов на у (см. п. 1—3 в табл. В.З, а также 151); г) не диктует ли содержательный смысл анализируемой за- зависимости обязательное прохождение графика искомой функ- функции / (X) через одну или несколько априори заданных точек в исследуемом факторном пространстве (X, у)? Поясним необходимость и возможность максимального изв- извлечения информации об общем виде анализируемой функции 176
у, футов регрессии / (X) из соображений профессионально-теоретичес- профессионально-теоретического характера на двух примерах. Пр и мер 6.1. На рис. 6.1 представлены 63 результата специального эксперимента [50, с. 57]. Расположение точек на рис. 6.1 не дает ответа на вопрос, описывать ли зависимость между скоростью автомобиля (х миль/ч) и расстоянием (у футов), пройденным им после поданного сигнала об остановке, линейной или параболиче- параболической зависимостью. Этот вопрос остается без ответа и после построения соответствующих кривых и применения известных ста- статистических кр итер иев, предназначенных решать, насколько хорошо согласу- согласуются кривые с эксперимен- экспериментальными данными. Однако несложные рассуждения профессионально-теорети- профессионально-теорети15 20 25 30 35х,мт/ч Рис. 6.1. График зависимости тор- тормозного пути автомобиля (у) от скорости его движения (х) ческого характера все-таки позволяют сделать этот выбор. Действительно, для каждого отдельного автомобиля и водителя расстояние, пройденное до остановки, определяется в основном тремя фак- факторами: скоростью автомобиля (л:) в момент подачи сигнала об остановке, временем реакции на этот сигнал водителя (9Х, ч) и тормозами автомобиля. Автомобиль успеет пройти путь dtx до момента включения водителем тормозов и еще 92-л;2 после этого момента, поскольку согласно элементарным физи- физическими законам теоретическое расстояние, пройденное до оста- остановки с момента торможения, пропорционально квадрату ско- скорости. Итак, у = 9Х х + 92л:2, что после оценивания 9Х и 92 с по- помощью мнк (см. гл. 7) дает у = 0,76л:+0,056л:2. Пример 6.21. Рассмотрим в качестве результирующего показателя г] вес коровы, а в качестве предикторов 2;*1) — ок- окружность ее туловища и ?<2> — длину от хвоста до холки. Ста- Ставится задача определения регрессионной зависимости 1Исходные данные примера заимствованы у А. Я. Боярского и пуб- публикуются с его любезного разрешения. 177
по результатам контрольных замеров {х\г\ х(?\ */*Ь=1,2>--->20 20 коров. Были подвергнуты расчету и сравнительному анализу три варианта параметризации модели: вариант 1 (линейный): f(x<l\ x вариант 2 (степенной): f(x^l\ вариант 3 (учитывающий содержательный смысл задачи): /(*<*>, *<2>) = e (jc^)I^1). Происхождение варианта 3 легко объяснить. Для этого следует представить себе приближенно тушу коровы в форме цилиндра с длиной образующей, равной лгB>, и радиусом ос- основания, равным хA>/2я. Используя формулу вычисления объ- объема цилиндра и пропорциональную зависимость между весом и объемом цилиндра, получаем зависимость вида где остаточная компонента г отражает специфику формы туло- туловища каждой конкретной коровы. Для проверки работоспособности всех трех вариантов моде- моделей были проведены два цикла расчетов по методу наимень- наименьших квадратов (см. гл. 7). Вначале были оценены коэффициен- коэффициенты 0 моделей по всем 20 наблюдениям и подсчитаны (по тем же 20 наблюдениям) характеристики «качества» моделей: множест- множественный коэффициент корреляции Ryt{xa) xi*)) (см. формулу A.24/)) и остаточные средиеквадратические отклонения F-3) (здесь т — размерность оцениваемого векторного параметра 0, а Д/i (/) отличается от выборочного критерия адекватности Ап (/) лишь множителем , см. формулу E.4')). Результаты первого цикла расчетов приведены в гр. 2, 3 и 4 табл. 6.1. Из них как будто следует, что формально-аппрокси- мационные варианты 1 и 2 оказались несколько точнее вари- варианта 3, выбранного с учетом содержательного смысла задачи. Однако «благополучие) моделей 1 и 2 лишь кажущееся, что и выявляется в ходе второго цикла вычислений, когда имею- имеющаяся выборка из 20 наблюдений была разбита на две: первая, состоящая из 10 тяжелых коров, была использована для оцен- оценки параметров, по методу наименьших квадратов (такие выбор- 178
ки называют обучающими), а вторая, состоящая из 10 легких коров, была использована для оценки величины выборочного критерия адекватности Д„ (/) (такие выборки называют экзаме- экзаменующими1). Из гр. 5 и 6 табл. 6.1 мы видим, что формально- аппроксимационные варианты моделей не выдержали «экза- «экзамен» на устойчивость (сравните значения коэффициентов 6 в гр. 2 и 5), и, кроме того, дают явно худшую точность при их использовании в задачах экстраполяции (сравните первые две строки с третьей в гр. 6). Таблица 61 Номер варианта модели 1 1 2 3 Результаты расчетов по всем 2 0 наблюдениям Оценки коэффи- коэффициентов в 2 9^ = 4,73 6^.1 = 1,556 "9= 1,13-Ю-4 «-4 н 3 0,84 0,85 0,83 Ул2о</) 4 25,9 24,5 26,6 Оценки коэффи- коэффициентов моделей 6 по 10 тяжелым коровам 5 9^.0 = 453,2 (?.1=0,62 9^.2 = — 0,22 9^ = 0,203 6^.2= — 0,072 "8*=! ,11-10-* Оценки по 10 лег- легким коро- коровам 6 81 79 28 Этот пример убедительно демонстрирует, помимо предпочти- предпочтительности экстраполяционных и «устойчивых» свойств мо- модели 3, что не следует гнаться за чрезмерной сложностью моде- модели, ориентируясь при этом на минимизацию выборочного кри- 1Подробнее о разбиении выборки на обучающую и экзаменующую см. гл. 11, 179
терия адекватности Дп (/), когда и оценки неизвестных значе- ний параметров в модели и значение критерия Дп (/) вычисля- вычисляются на основании одной и той же выборки. Несостоятельность подобного подхода можно пояснить и теоретически: в соответст- соответствии с известным в математическом анализе результатом для любой заданной системы из п точек плоскости (хъ у^9 ..., (*п, уп) (с неповторяющимися абсциссами) можно подобрать такой алгебраический полином степени п — 1, который прой- пройдет через все точки этой системы. А значит, увеличивая число параметров в параметрическом семействе функций, задающем класс допустимых решений, мы можем добиться «идеальной «--^ точности» в смысле нулевого значения критерия Ад (/). На том, чего и как надо добиваться в действительности, мы подробнее остановимся в § 6.2, 6.3 и в гл. 11. 6.2. Предварительный анализ геометрической структуры исходных данных При выяснении вопроса о параметрическом виде исследуемой зависимости, как правило, идут от простого к сложному. Простейшей же аппроксимацией неизвестной функции регрес- регрессии / (X) = Е (т] | | = X) является, естественно, линейная модель, т. е. функция вида faWs=e0 + eiJC<1>+... + epJC^>. F.4) В предыдущей главе (см. п. 5.1) уже упоминалось, что если анализируемые переменные (&1), ?<2>, ..., !¦<*>; у\) подчиняются (р + 1)-мерному нормальному закону распределения, то ис- истинная функция / (X) регрессии r\ no |^>,..., gw принадле- принадлежит классу линейных (по x<k\ k = 1,2,..., р) функций F.4). Однако статистическая проверка многомерной нормальности изучаемой векторной случайной величины относится к зада- задачам, до сих пор плохо оснащенным достаточно эффективным инструментарием для их решения (см. сноску к с. 152 [14]). К тому же возможны ситуации, когда анализируемый много- многомерный признак (I*1),..., ?<*>>; ц) не является нормальным, но в то же время регрессия г| по (?A),..., ?(р)) линейна. Поэтому при предварительном, анализе характера исследу- исследуемых зависимостей (т. е. до проведения вычислительных про- процедур по оценке неизвестных значений параметров, входя- входящих в гипотетичные уравнения связей) ограничиваются неко- некоторыми приближенными эвристическими приемами, связанны- 180
ми в основном с изучением «геометрии» парных корреляцион- корреляционных полей. 6.2.1. Содержание геометрического анализа парных корреля- корреляционных полей. Под корреляционным полем переменных {и, v) понимается графическое представление имеющихся измерений (иъ vi)> (а2» у2)>-"> (ип, Vn) этих переменных в плоскости (ufv). Мы уже неоднократно имели дело с корреляционными полями (см. рис. В.2, В.4—В.7, 1.1, 5.1, 6.1). Анализ парных корреляционных полей состоит обычно в следующем: а) построение на основании имеющихся исходных данных вида F.1) корреляционных полей для всевозможных пар пере- переменных вида (#('>, x(k)) и (;с(/), у), отобранных из набора всех р + 1 исследуемых признаков (хA), xB\ ..., jc(p); y)\ всего таких пар будет, очевидно, р (р + 1)/2, однако процесс этот легко автоматизируется с помощью средств современных ЭВМ; б) визуальное прослеживание характера вытянутости каждого корреляционного поля: эллипсоидально-линейное (см. рис. В.6), нелинейно-монотонное (см. рис. 6.1), с наличи- наличием одного или нескольких экстремумов (см. рис. В.4) и т. п.; в) изучение поведения условных средних значений ре- результирующего показателя при изменении величины перемен- переменной, откладываемой по оси абсцисс и играющей роль предик- торной (см. рис. В.2); для этого (если значения предикторной переменной неконтролируемы в ходе наблюдения или экспе- эксперимента) предварительно разбивают диапазон значений объ- объясняющей переменной на интервалы группирования (см. [14], п. 5.4.2) и подсчитывают средние значения ординат тех точек-наблюдений, которые попали в общий интервал груп- группирования. В результате такого анализа обычно получают формули- формулировку нескольких рабочих гипотез об общем виде искомой за- зависимости, окончательная проверка которых и выбор наибо- наиболее адекватной из них осуществляются (при отсутствии апри- априорных сведений содержательного характера) с помощью соот- соответствующих математико-статистических методов. Описа- Описание наиболее эффективных, с нашей точки зрения, приемов такого типа приводится в § 6.3. Здесь же остановимся на двух вспомогательных приемах, которые полезно использовать при геометрическом анализе парных корреляционных полей. 6.2.2. Учет и формализация «гладких» свойств искомой функ- функции регрессии. Выше упоминалось, что чрезмерное усложне- усложнение класса допустимых решений F и, в частности, завышение порядка аппроксимирующего регрессионного полинома (в но- 181
гоне за снижением значения выборочного критерия адекват- ности Ап (fa)) может привести к неоправданному усложнению вида искомой функции / (л:) = Е (r]|f = х), когда случайные отклонения исходных ((xt, уг), i = 1, ..., п) или условно осред- ненныхпог] ((х%9 yk)> k= l,s) точек неправильно истолковы- истолковываются как определенные закономерности в поведении регрес- регрессионной кривой. На рис. 6.2 представлен наглядный пример такого переусложнения, когда, располагая таблицей исход- исходных данных вида табл. 6.2 п 9 В 10 12 14 1S 18 20 X Рис. 6.2. Аппроксимация регрессионной функ- функции y = \og2x (пунктирная кривая) с по- помощью полинома 3-го порядка Таблица 6.2 к х% #ср (Л) 1 1 0 2 2 1 3 4 2 4 16 4 и подбирая аппроксимирующий полином /ей = 0о + 182
проходящий через все заданные точка (х%> ycv (*?)), k = 1, ..., 4*, приходят к необоснованному нарушению гладкости неизвестной истинной функции регрессии / (л:) = log2x. Из рис. 6.2 мы видим, что это нарушение гладкости уводит нас достаточно далеко от истины как для значений х, располо- расположенных внутри отрезка [5; 15], так и при х^ 17. Поэтому не следует забывать, что если истинный общий вид функции рег- регрессии нам не известен и мы вынуждены ее формально аппро- аппроксимировать (например, алгебраическим полиномом), то вся- всякая интерполяция и тем более экстраполяция г построенной нами аппроксимационной функции регрессии является, строго говоря, действием, теоретически не обоснованным. Приведен- Приведенный пример предупреждает нас о необходимости быть очень осторожными при истолковании и применении регрессионных уравнений, не использующих специальные сведения об изу- изучаемом процессе или явлении. Интуитивные соображения относительно соблюдения необ- необходимых свойств гладкости, высказываемые при выборе об-, щего вида функции регрессии / (х), могут быть формализованы с помощью так называемых функционалов гладкости L (/). Эти функционалы2 устроены таким образом, что чем более гладкой, более плавной является функция f (х), тем меньшее числовое значение они принимают. Нетрудно показать, что к такого рода функционалам относятся функционалы вида =тах|Г (*)|; М/)= f (П *€=Х J Приведем пример, в котором выбор функционала гладкости и требование его минимизации поддаются четкой физической интерпретации. Формально задача выглядит так. Рассматри- *Очевидно, подбор числовых значений 9/ (/ =0, 1, 2, 3) осуществ- осуществляется с помощью решения системы уравнений уср (х%) = 60 + $гх% + + в2 (*/JJ + вз (*&K» k = 1» 2, 3, 4, которое в данном случае дает: 6^ = —1,410; 6^ = 1,633, 9^ = — 0,233; С^ 0,0095. 1 Интерполяция — восстановление значений функции (в данном случае — функции регрессии) по значениям аргумента, расположен- расположенным внутри статистически обследованной области предикторных пе- переменных. Экстраполяция — восстановление значений функции рег- регрессии по значениям аргумента, расположенным вне статистически обсле- обследованного диапазона предикторной переменной. 2Функционал L (/) ставит в соответствие каждой заданной функции f (x) некоторое число L (/). 183
вается парная регрессионная схема типа В (см. § В.5) П = / (X) + 8 (X) с известной величиной дисперсии остаточной случайной компо- компоненты в (*): D е (х) = о2. Имеются результаты наблюдений (xl9 yj, (х2У у2), ..., (хпууп). Требуется определить такую выборочную аппроксимацию fa (x) функции регрессии / (х), для которой одновременно вы- выполнялись бы условия — ^(Уг-ЪШГ^о^; F.5) 00 J f"a(x)Ax. Другими словами, из всех функций, для которых остаточ- остаточная дисперсия равнялась бы заданной величине а2, мы должны выбрать наиболее гладкую в смысле минимизации функционала гладкости L3 (/). Можно привести пример простой физической интерпретации формальной модели F.5): если мы рассмотрим бесконечную тонкую гибкую рейку, закрепленную в точках (*i> #i)> (*2> Уг)> •••. (хп, Уп)* но закрепленную не «намертво», а с помощью пружинок заданной силы (пропорциональной а~2), то эта рейка изогнется как раз по кривой у = fa (x), определя- определяемой соотношениями F.5). Более подробно о результатах, относящихся к решению за- задач типа F.5), см. [123]. 6.2.3. Некоторые вспомогательные преобразования, линеари- линеаризующие исследуемую парную зависимость. Часто при рассмот- рассмотрении парных корреляционных полей ни линейная, ни полино- полиномиальная' регрессия не дают желаемой точности приближения. В этих случаях приходится обращаться к другим видам зависи- зависимостей: гиперболической, степенной, показательной и др. По- Покажем, что в ряде ситуаций эти зависимости оказываются не менее удобными, чем линейная, поскольку легко к ней сводят- сводятся. Так, в примере В.2 при исследовании зависимости между долговечностью образцов N и величиной соответствующего экс- эксплуатационного напряжения v роль зависимой переменной иг- играет величина т) = lg (N — Af0), а аргумента — х = lg v. Поэтому, исследуя линейную зависимость между tj и х, мы в действительности исследуем соотношение степенного вида между исходными переменными N и v, а именно зависимость 184
вида N— No = Ax-vb*, где NOt Ахи b± — некоторые постоян- постоянные величины, две из которых (Аг и Ьг) подбираются с помощью метода наименьших квадратов (см. гл. 7). Перейти от степенной зависимости к линейной нам позво- позволило логарифмическое преобразование переменных. Какие же функциональные зависимости поддаются ли- линеаризации, каковы их основные свойства, геометрическая интерпретация? С помощью каких преобразований переменных сводятся они к линейному виду? Итак, пусть 7]' и х' — исходные переменные (соответствен- (соответственно функция и аргумент), связь между которыми подлежит ста- статистическому исследованию. И пусть между ними существует зависимость Л' = / (*') + 8' <Л\ *'), F.6) где х\ — случайная зависимая переменная, х' — аргумент (случайный или неслучайный), / (#') — некоторая функция от х\ а е' (т]', х') — так называемая остаточная случайная ве- величина, характеризующая разброс случайных значений т)' около функции / (*'), которая в самом общем случае может за- зависеть (стохастически) и от т)', и от х'. Поскольку математичес- математическое ожидание остаточной случайной величины в' (г\\ х') при любых х\ и х' равно нулю, то из F.6) следует, что условное среднее Е (x\\xr) = t/'Cp (x') связано с х' соотношением y'c»(x') = f(x'). Рассмотрим некоторые наиболее распространенные типы зависимостей / (х') и способы их линеаризации. Зависимости гиперболического типа (рис, 5.3, 6.4, 6.5) I) „„,««' +-Le-5^ji± @<*'<oo). Этот тип кривых (рис. 6.3) характеризуется двумя асимптота- асимптотами (прямыми, к которым график функции неограниченно при- приближается, не достигая их): горизонтальной у == а' и верти- вертикальной х' = 0, а также параметром искривления Ь. С помощью преобразования независимой переменной х = \1х' (т. е. пере- перехода к новому аргументу) эта зависимость приводится к линей- линейному виду у = а' + Ьх\ (- В этом случае имеются две асимптоты: у' = 0 и х = =— а'/b (рис. 6.4). Параметр, характеризующий искривление, равен 1/6. Зависимость линеаризуется с помощью перехода к 185
6>0 О Рис. 6.3. График гиперболической зави- зависимости вида у=а' Ь/' новой зависимой переменной к\ = 1/т|' (для выборочных значе- значений yt = \ly'i)\ О\ ..' X' 1/6 а' х' +Ь а'+Ь/ Рассматриваемые кривые (рис. 6.5) имеют горизонтальную асимптоту у' = 1/а', вертикальную асимптоту хг = — Ыа! и характеристику искривления, равную — Ыа2. С помощью х Рис. 6.4. График гиперболической зависимости вида у =\/(а' + Ьх): а) случай 6>0, а'<0; б) случай 6<0, а'<0 186
f " в "a.1 Рис. 6 5. График гиперболической зависимости вида у'=х'/(а'х' + Ь): ух/(х + ) а) случай «положительного» исправления (—0/а^> >0); б) случай «отрицательного» исправления (Ь/'0) перехода к переменным^ = \1х\' и х = \1х' кривые приводятся к линейному виду. Зависимости показательного типа (рис. 6.6, 6.7, 6.8) 1) г/с'р-Ле^ (— оо Кривые (рис. 6.6) проходят через точку @,Л), причем ось х является их горизонтальной асимптотой. Если вместо ц' (соответственно y'i) в качестве зависимой переменной рас- рассмотреть величину к] = In r\r (соответственно yt = In r//), то данная зависимость преобразуется к линейному виду Уср= = а' + ЬХу в котором а' == In A; 2) г/ср<=Ле6/*' @<х'<оо). При b > 0 кривая (рис. 6.7, а) имеет горизонтальную асимп- асимптоту уг = А и вертикальную асимптоту х' = 0. При b < 0 Рис. б.б. График показательной (экспоненциаль- (экспоненциальной) зависимости вида у' — АеЬх: а) случай 60; б) случай 187
(рис. 6.7, б) кривая проходит через начало координат, имеет так называемую «точку перегиба» (— ft/2, Л/е2) и горизонталь- горизонтальную асимптоту у* = Л. Переход к переменным х\ = In к\' (соответственно yt = Iny'i) и xt = 1/лг/ позволяет линеаризо- линеаризовать и эту зависимость, причем в преобразованном виде ycv= = а' + Ьх, параметр а' = In Л; 1 ( —оо<х'<оо). Рис. 6.7. График показательной (экспоненциальной) зависимости вида г/' = Аеь/х': а) случай 6>0; б) случай 6<0 Частный случай так называемой «логистической» кривой по- показан на рис. 6.8. Кривая имеет две горизонтальные асимпто- асимптоты у' = 0 и у' = 1/а' и «точку перегиба» (In (ft/a'), I/2a). Линеаризация этой зависимости производится с помощью пере- перехода к новым переменным ц = 1/т|' (соответственно yt = 1/у/) и х = ег*'. Зависимости степенного типа (рис. 6.9) у'ср=*Ах'ь @<х'<оо). Рис. 6.8. График логистической кривой, описываемой уравнением вида f/' = l/(/ &') 188
A z. 1 x' Рис. 6.9. График степенной зависимости вида у' = к(х?)ь: а) случай 6>0; б) случай Все кривые на рисунке проходят через точку A, Л), причем если Ь > 0, то они проходят еще и через начало координат — точку @, 0), а если Ь'< 0, то координатные оси являются од- одновременно асимптотами. Перейдя к новым переменным х\ = In x\ (соответственно у{ = In y't) и х = In х\ мы преобра- преобразуем исследуемую зависимость к линейному виду. Зависимости логарифмического типа (рис. 6.10) Уср^а' +ЬЛпх' @<х<оо). Кривые на рисунке проходят через точку A, а') и имеют в качестве вертикальной асимптоты ось у (т. е. хг = 0). Пере- Переход к линейному виду зависимости осуществляется с помощью логарифмического преобразования аргумента: х = In x'. а' a' X' о 1 Рис. 6.10. График логарифмической зависимости вида у=а'+ьЛпх': а) случай 6>0; б) случай Ь<0 189
Замечание. Линеаризация связей с помощью преоб- преобразования исследуемых переменных имеет недостаток. Оценки параметров о! и Ьу полученные затем (после линеаризации) с по- помощью метода наименьших квадратов, на самом деле не мини- мизируют сумму квадратов отклонений Ап (а , Ь) — - 2 (у'?— — f {x'i)Y для исходных переменных ц' и х'. Они лишь миними- минимизируют сумму квадратов отклонений преобразованных значе- значений зависимой переменной yt от соответствующей регрессион- регрессионной прямой у = а' + Ьх, т. е. квадратичную форму • 1 а это не одно и то же. Предлагается поэтому производить опре- определенную «доводку», уточнение оценок неизвестных значений параметров, полученных с помощью линеаризации связей [10, с. 172]. 6.3. Математико-статистические методы в задаче параметризации модели регрессии 6.3.1. Компромисс между сложностью регрессионной модели и точностью ее оценивания1. Из общих результатов математи- математической статистики, относящихся к анализу точности оценива- оценивания исследуемой модели при ограниченных объемах выборки, следует, что с увеличением сложности модели (например, раз- размерности неизвестного векторного параметра в, участвующего в ее уравнении) точность оценивания падает. Мы с этим уже сталкивались, например, при анализе точности оценивания частных и множественных коэффициентов корреляции (см. п. 1.2.3, 1.3.3, а также формулы A.34), A.34')). Об этом же свидетельствуют и результаты, приведенные в гл. 11. Это озна- означает, в частности, что в ситуациях, когда исследователь распо- располагает лишь ограниченной исходной выборочной информацией, он вынужден искать компромисс между степенью общности привлекаемого класса допустимых решений F и точностью оценивания, которой возможно при этом добиться. Перед тем как изложить общую схему, в рамках которой можно математически ставить и решать задачу достижения та- *В изложении материала п. 6.3.1, связанного с понятием «емкости» (сложности) класса допустимых решений F и с методом структурной минимизации критерия адекватности, участвовал В. Н. Вапник. 190
кого компромисса (метод структурной минимизации критерия адекватности [34]), поясним эту идею на следующем полуэври- полуэвристическом приеме решения одной частной задачи. Определение оптимального числа предикторов в модели ли- линейной множественной регрессии. Пусть мы строим линейную множественную регрессию результирующего показателя г\ по предикторам (л:*1), хB>, ..., л:(р>), используя для этого выборку ограниченного объема М",хГ>,...,ф;У1)м.2 „, F.7) причем величины р и п — одного порядка (но р <С п — 1) Очевидно, в данном случае сложность модели будет определять- определяться числом включенных в нее предикторов. Нужно ли для дости- достижения максимальной точности в задаче восстановления неиз- неизвестных значений результирующего показателя к\ по значени- значениям предикторов включать в модель все предикторные перемен- переменные, а если не все, то сколько и какие именно? С одной стороны, мы уже знаем (см. A.30)), что присоедине- присоединение каждой новой предсказывающей переменной может только увеличить величину множественного коэффициента корреля- корреляции R между результирующим показателем т] и предикторами и, следовательно, уменьшить ошибку в предсказании г\ (X) (см. A.26)). С другой стороны, нам известны не точные значения теоретических характеристик R, участвующих в A.26) — A.30), а лишь их выборочные аналоги — статистические оценки R. Поэтому естественно было бы добиваться максимизации не R2, а нижней доверительной границы (R2)^in для истинного значения коэффициента детерминации R2 (при заданной дове- доверительной вероятности Р). Если принять приближенное допу- щение, что (R2)™in меньше точечной оценки R2 на величину, пропорциональную среднеквадратической ошибке о^ = R — V туп* (множитель пропорциональности X (Р), конечно, зависит от заданной величины доверительной вероятности Р)у и воспользоваться приближенной формулой A.34'), то получа- получаем следующую формулу для определения (R2)Tn' (R2)pin ^ Я2— А,(Р). 2р("~р~1) A —Л2). F.8) Опираясь на F.8), можно предложить следующую процеду- процедуру определения оптимального состава и числа предикторов мо- модели множественной линейной регрессии. 191
Последовательно для каждого &=1, 2, ..., р с использова- использованием формул A.27), A.28), A.35') рассчитывается величина max F.9) а затем по формуле F.8) — величина (R2 (fe))?in. Тем самым для каждой заданной размерности k модели уже выявлен оп- оптимальный состав предикторов: это тот набор (x(li\ xA*) ..., х^*')» Ha котором достигается максимум правой части F.9). / г з • • • • t0 p Рис. 6.11. Зависимость нижней доверительной границы коэффициента детерминации от числа предикторов (пунктирная кривая) На рис. 6.11 представлены схематические графики величин /?2 (k) и (R* (k))fn как функций от к. В качестве оптимального числа предикторов, включаемых в модель, естественно взять то значение &0, для которого величи- величина (R2 (fe))pin максимальна. Метод структурной минимизации критерия адекватности. Опишем теперь, следуя [34], общую схему, в рамках которой решается задача выбора оптимальной сложности параметричес- параметрического семейства {/ (X; в)}, используемого в качестве класса до- допустимых решений F, в зависимости от объема п и геометричес- геометрической структуры исходных данных F.7). Общая логика, на кото- которой построена эта схема, та же, что и логика решения предыду- предыдущей задачи: и та, и другая опираются на умение дать гаранти- гарантированную оценку оптимизируемой теоретической характерис- 192
тики (в общей схеме — оценку сверху для теоретического кри- критерия адекватности А (в) = Д(/ (X, в)) по значению соответ- соответствующей выборочной характеристики (в общей схеме — по Д (в) = Д„ (/ (X; О)). Однако в условиях полного отсутствия какой бы то ни было априорной информации о характере сов- совместного распределенияр (X, у) исследуемых переменных (?, г\) никаких надежных заключений о величине А (в) по значению Д (в) сделать нельзя. Минимальная информация такого рода, используемая в описываемом методе, состоит в том, чтобы для некоторого q>\ знать величину кду определяющую нера- неравенство вег Ниже в целях упрощения формулировок будем требовать выполнения неравенства для случая q = 2: УЕ(,-М*;6))*<Я FЮ) вг Б(у-/(Х; в))» ^ Априорная информация, заданная в терминах неравенства F.10), является более практически доступной, чем обычно ис- используемая связанная с типом распределения регрессионных остатков. Так, если параметрическое семейство случайных ве- величин г (Х- в) = у-/(Х; в) F.11) таково, что каждая случайная величина е (X; в) распределе- распределена по нормальному закону (со своими параметрами, зависящи- зависящими от в), то Х = КЗ; если семейство F.11) подчинено закону Лапласа [14, п. 6.1.8], то X = УЪ\ если же е (Х^в) подчинено равномерному закону распределения, то X = J/2. Неравенство F.10), по существу, характеризует особенности поведения «хвостов» в случайной выборке наблюдений F.7). В ситуации, когда соблюдается условие F.10), метод струк- структурной минимизации критерия адекватности может быть по- построен на основе емкостных характеристик класса функций {/ (X; в)}, в котором ведется восстановление регрессии. Ниже мы используем одну из возможных таких характеристик — емкость (или сложность) класса функций {/(X; 6)}еег. -7 Зак. 244 193
Для определения понятия «емкость класса {/(X; в)}0ег» внедем множество индикаторных функций {J (X; у; 6, р)} == {sign (у - f (X; в) +р}* на элементах (Хь yt) выборки F.7). Индикаторные функции определяются параметрами в, р, где в ? Г — параметры, определяющие / (X; 6), и E — некото- некоторое число из интервала (— о&, с»). Каждая индикаторная функ- функция J (X, у\ в*, р*) делит выборку F.7) на две подвыборки: подмножество пар, на которых индикаторная функция прини- принимает значение+ 1, и подмножество пар, на которых инди- индикаторная функция принимает значение— 1. Обозначим jVr(Xb yx\ Х2, Уч\-"\ Хп, уп) количество различных разде- разделений множества F.7) на два подмножества с помощью инди- индикаторных функций из класса {J (X, */; в, Р)}вег- Очевидно, что Определение. Назовем функцию т*(п)=х max^ N* (Х19 ух\ ...; Хп, уп) F.12) функцией роста класса {/ (X; в)}0еГ на выборках вида F.7). Для функции роста справедливо следующее утверждение. Утверждение. Определенная соотношением F.12) функция роста либо тождественно равна 2П, либо, если для не- некоторого Л это не так, т. е. тТ (h + 1) Ф 2h+l, то для п >h справедлива оценка h\ Это утверждение позволяет оценивать функцию роста лю- любого класса {/ (X; в)}еег функций. Для получения соответст- соответствующей оценки достаточно указать такие h + 1 пар, которые не могут быть разеделены всеми 2/l+1 способами с помощью ин- индикаторных функций У(Х, у\ в, Р). В частности, для функций / (X; q), линейных по парамет- параметрам в, т. е. /(X; в)^ ?= 1 *Напомним, что функция sign B) определяется соотношенизм sien (г) - I + 1' еСЛИ Z>5; sign кг) - |__^ если 2<0# 194
где {гр! (X), ip2 (X), ..., i|)w_1 (X)} — некоторая заданная сис- система известных функций, имеет место оценка тг(п)<пт/т\ (п>т). Итак, функция роста mF (ft) оценивается либо 2п\ либо< —, если тг{Н + 1)ф2к+1, n>h. h\ Определение. Будем говорить, что класс функций / (X; в) имеет бесконечную емкость, если соответствующая функция роста тождественно равна 2Л, и имеет конечную ем- емкость ft, если функция роста оценивается сверху величиной 2? (п >h). Справедливо утверждение: с вероятностью 1 — а одновре- одновременно для всех функций {/ (X; в)}0еГ имеет место неравенство А(в)< F.13) где 4, если А ^ 0; ), если Л<0. Так как неравенство F.13) с вероятностью 1 — а выполня- выполняется одновременно для всех функций, то оно справедливо и для функции, минимизирующей эмпирический критерий адекват- адекватности. Оценка F.13), по существу, зависит от относительного (по отношению ft) объема выборки п. Таким образом, в условиях F.10) для класса F функций ог- ограниченной емкости по величине эмпирического критерия адек- адекватности Дп (в) удается оценить величину теоретического кри- критерия адекватности Д (9). Теперь на основе полученной оценки F.13) сконструируем метод структурной минимизации критерия адекватности. Пусть на исходном классе F = {/ (X; ©)}вег задана струк- структура FiCF2C...CF,, F.14 ) 7* 195
т. е. задано минимальное подмножество Fj элементов из F, затем подмножество элементов F2, содержащее Flr и т. д. и, на- наконец, подмножество FQ — F, содержащее все элементы класса {/ (X; в)Jeer- Итак, подмножества Flf..., Fh ..., Fg, таковы, что с ростом номера / емкость их растет: hx < h2 < ... < hq. На каждом из подмножеств Fy найдем функцию / (X; 6'), минимизирующую выборочный критерий адекватности. Вы- Вычислим для функции / (X; в/) величину выборочного крите- критерия адекватности Д„ (в'). Очевидно, что с ростом номера / ре- личина Дп (в/) не возрастает. Но при фиксированных я и а оценка F.13) величины теоре- теоретического критерия адекватности для функции, минимизирую- минимизирующей выборочный критерий адекватности на элементах структу- структуры {Fj}f=zj-jy достигает своего наименьшего значения не обя- обязательно на подмножестве Fg = F. Иначе говоря, для фикси- фиксированного объема выборки наилучшее приближение к функции регрессии достигается на некотором элементе структуры F^. Этот метод назван в [34] методом структурной минимизации риска (в нашей терминологии — теоретического критерия адек- адекватности). Для ограниченного объема исходных данных п он позволяет установить компромисс между «сложностью» выби- выбираемой модели регрессии (номером элемента структуры F.14)— чем больше номер, тем сложнее модель ) и качеством прибли- приближения к выборочным данным (величиной Ап (в/)), при котором достигается наименьшая гарантированная оценка теоретичес- теоретического критерия адекватйости. Можно сказать, что дальнейшее усложнение модели приводит к приближению к имеющемуся эмпирическому материалу, а не к искомой зависимости. Метод структурной минимизации риска может быть исполь- использован для восстановления регрессии в различных классах функций. Применим его для построения полиномиальной рег- регрессии. Пусть структура Ft c= ... с: Fg такова, что элемент F, со- содержит полиномы степени / — 1. В атом случае емкость клас- класса F; равна /. И проблема заключается в том, чтобы минимизи- минимизировать выборочный критерий адекватности в классе полиномов такой степени /*, чтобы достичь минимума оценки F.13). На рис. 6.12 показан пример восстановления полинома пя- пятой степени на отрезке [—2,2]. Восстановление проводилось по измерениям функции в 20 случайно взятых точках (крести- (крестики). Видно, что кривая 2 лучше приближает истинную регрес- регрессию, чем кривая /. 196
На рис. 6.13 приведен пример восстановления неполиноми- неполиномиальной истинной регрессии в классе полиномов по 20 измере- измерениям (крестики). При решении этих примеров минимизировался упрощенный вариант правой части F.13), а именно функционал A In — -In a где было принято In a = — 2. 6.3.2. Поиск модели, наиболее устойчивой к варьированию со- состава выборочных данных, на основании которых она оценива- оценивается. Идея этого подхода к выбору общего вида исследуемой регрессионной'зависимости основана на следующем простом со- соображении: если общий параметрический вид зависимости f/ср — / (*A)> *B\-.. *(р); ©) «угадан» правильно, то результаты оценивания вь 62,..., параметра в по различным подвыборкам выборки Вп = {*<]>, х{]\ ..., *<р>; yi}i=2T~n бУЛУт мало отличаться друг от друга (а следовательно, не сильно будут раз- различаться между собой и соответствующие значения / (х<1\ *<2>, ..., xW\ в^), / (х^1) х^2) х^р)' 0 ) ) И, наоборот, при неудачном выборе общего вида иско- искомой зависимости результа- результаты ее восстановления по различным выборкам, как правило, будут сильно от- отличаться один от другого. С проявлением указан- указанного свойства аппроксима- ционных регрессионных мо- моделей мы уже столкнулись в примере 6.2. Действи- рис е{2 Истинная полиномиальная тельно, по данным табл. 6.1 регрессия (—) и ее аппроксимации: МЫ видим, что оценки ко- кривая / — наилучшее приближение в классе полиномов пятой степени эффициентов 9fc0, 0ftl и 9ft2 (k =± 1,2) айпроксимацион- ных вариантов анализируе- анализируемой модели (вариантов 1 и (—о—о—о—); кривая 2 — полу- полученная с помощью алгоритма струк- структурной минимизации критерия адек- адекватности (—•—•—•—) 197
2), подсчитанные по раз- различным выборкам 'сначала по всей выборке из 20 наб- наблюдений, а затем по ее по- половине), могут отличаться не только на несколько по- порядков, но и по знаку (!). В то же время значение оценки коэффициента 0 в модели, общий вид которой выведен из содержательных соображений (вариант 3), практически остается од- одним и тем же при расчете как по всей выборке, так и по ее части. Предлагаются следую- следующая реализация только что сформулированной идеи и ее экспериментально-вычи- экспериментально-вычислительная апробация г Рассмотрим систему В подвыборок выборки Вд : В = {b:b б Вд>. Пусть на множестве X — области определения исследуе- исследуемой функции регрессии — задана система линейно-независи- линейно-независимых (базисных) функций % (X), X ? X, i = Т^ Моделью Ms (X, о Ф)) порядка 5 для функции / (X), по- построенной по базису {ipi (X)}?L 1 и подвыборке b ? В, назовем функцию вида Рис. 6.13. Истинная кусочно-линей- кусочно-линейная регрессия (—) и ее полиноми- полиномиальная аппроксимация, полученная с помощью алгоритма структурной минимизации критерия адекватности ) где коэффициенты в (Ь) = (9Ь..., 0S) = @Х (Ь), являются решением задачи минимизации min (yi-M.{XhB))*. Юписываемая ниже схема изложена на основе результатов и пред- предложений, разработанных В. А. Гусевым (см.: Классификация и аппрок- аппроксимация экспериментальных данных и надежность прогноза: Автореф. дис. ...канд. физ.-мат. наук. — М., 1982. —В надзаг.: ВЦ АН СССР). 198
Пусть 6^0 — заданное число, а X — некоторое подмноже- ство из X. Назовем множества bl ? В и Ь2 ЕЕ В б5 - эквива- эквивалентными (bx bs Ь2)у если они удовлетворяют условию | Ms (X, e(bx))-Ms (X, в (b2)) |< б, X б X. Таким образом, б^эквивалентность множеств Ьг и b2f т. е. подмножеств] множества Вд, означает следующее: значе- ние модели М8 (X, в (Ьх)) функции / (X), определенной по подвыборке bl9 отличается от значения модели М8 (X, в (Ь2))г определенной по подвыборке Ь21 в любой точке X множества X по модулю на величину, небольшую, чем б. Можно рассматри- рассматривать 6S -эквивалентность всей выборки Ъп и ее подвыборок, т. е. сравнивать модель Ms (X, в) = Ms (X, в (Вп)) с моде- лями М8 (X, в ф)), построенными по отдельным частям выбор- выборки Вп. Рассмотрим такие подвыборки b из Вп, которы.е содержат ровно а точек, и обозначим их совокупность через Ва, а их число через пга = С*. Далее, определим число та (б) подвыбо- рок b g Ba, для которых выполнено условие I Ms (X, в)— Ms (X, 0 (&)) | < б при всех X б X. Устойчивость модели М8 (X, в) порядка s на множестве X для заданного б будем измерять величиной = —!— у n-s+\ ** 1 s+ Пусть задана последовательность 0 < 8t < ... <с б,. Величину vs = - 2 vs (Sft) назовем средней устойчивость/о мо- 1 k= 1 на множестве X для последовательности FЬ 62,..., б,). Рассмотрим величину fimax(ft)*=max \M8(X, в) — М8(Х, в (fo)) |, максимальную по модулю разности .моделей на множестве X. Таким образом, можно рассматривать распределение значений величины бтах на системе подвыборок В. В частности, можно оценить математическое ожидание E6S величины 6s и гпэх тэх квантиль ир порядка Р распределения б^ах. Для оценки качества модели можно использовать следую- следующие характеристики: 199
v« (б) — характеристику устойчивости для заданного 6; vs — характеристику средней устойчивости для после- последовательности (б1э. 82,..., б^); Ебтах — математическое ожидание величины бтах> usp — квантиль порядка Р распределения величины бтах- Для наилучшей модели характеристики vs F) и vs дости- достигают максимального, а характеристики Еб^ах и и*р — мини- минимального значений. Практическая реализация данного подхо- подхода, опирающегося на анализ величин vs (б), vs, Е бтах и uspi требует привлечения ЭВМ и расчета необходимых статис- статистических характеристик этих величин с помощью метода Мон- Монте-Карло [14, §6.31. Возможна и иная форма реализации данного подхода, не предусматривающая необходимости использования статисти- статистического моделирования на ЭВМ. Она основана на анализе кри- критических статистик вида i> «a. s) = . П1 S *'*'g»' , FЛб) — У. (Уг - Ms (Xt; * n*~s xfi& где b± и b2 — непересекающиеся подвыборки объемов пх и п2 (nj + п2< п)у случайно и независимо извлеченные (без воз- возвращения) из исходной выборки Ъп. В частности, в условиях справедливости гипотезы Но: Е (г\\Ъ = X) = MS(X\Q) случай- случайная величина F.15) должна подчиняться приблизительно ^-распределению с числом степеней свободы числителя и зна- знаменателя пг — 5 и /г2 — 5 соответственно. Для статистической проверки этого факта можно восполь- зоваться сравнением подсчитанного значения статистики у с процентной точкой ^-распределения (см. табл. П.5). А при до- достаточно больших объемах п исходных выборок Ъп можно не- непосредственно проверять факт F-распределенности случайных величин у с помощью соответствующих критериев согласия [ 14, § 11.1]. Для этого, правда, следует образовать целую после- последовательность подвыборок Ьъ 62,..., Ь# из Вд, подсчитать для различных пар bif bj величины F.15) и применить к ним крите- критерий согласия. 6.3.3. Статистические критерии проверки гипотез об общем ви- виде функции регрессии. Подчеркнем сразу, что описанные ниже критерии проверки справедливости сделанного выбора общего 200
вида искомой функции регрессии не могут ответить на вопрос: является ли проверяемый гипотетичный вид зависимости на- наилучшим, единственно верным? Они лишь либо подтверждают факт непротиворечивости проверяемого вида функции рег- регрессии имеющимся у исследователя исходным данным F.1), либо отвергают обсуждаемую гипотетичную форму зависимости как не соответствующую этим данным. 1. Общий приближенный критерий, основанный на группи- группированных данных (или при наличии нескольких наблюдений при каждом фиксированном значении аргумента). Пусть высказана гипотеза об рбщем виде функции регрессии ~Н0 : Е (т]|? = Х)= =/а№9ьй2,.., 9т)(/а(Х; 0) — известная функция, (9lf 0Я,...', ®т) = в — неизвестные числовые параметры) и пусть вычислены (например, с помощью метода наименьших квад- квадратов, см. гл. 7) оценки .9lf в2,..., 9т неизвестных парамет- параметров, входящих в описание уравнения регрессии. При груп- группировке данных (или при проведении эксперимента) мы долж- должны соблюдать требование, jb соответствии с которым число интервалов группирования (или число различных значений аргумента, в которых производились наблюдения) k должно обязательно превосходить число неизвестных параметров /л, т. е. k — т ^ 1. ВсЛи высказанная гипотеза об общем виде зависимости яв- является правильной, то статистика »2= —!=LT-». F-16) 2 iv»-i должна приближенно подчиняться F (vlf у2)-распределению с числом степеней свободы числителя vt = k — т и знамена- знаменателя — v2 = п — k. Все величины в формуле F.16) соответст- соответствуют ранее введенным обозначениям. В частности, X? — сере- середина 1-го гиперпараллелепипеда группирования (или /-е зна- значение аргумента, в котором было проведено /я* наблюдений); fa (Xf\ 0) — значение гипотетической функции регрессии, вы- вычисленное в точке X = Xf; yt — условное среднее из ординат, попавших в /-й гиперпараллелепипед группирования (или из ординат, измеренных при i-ы фиксированном значении аргу- аргумента Х?)\ ytj —/-е по счету значение ординаты из числа попав- попавших в /-й интервал группирования (или из числа измеренных 201
при /-м фиксированном значении аргумента X?). Легко понять, что числитель в правой части F.16) характеризует меру рассеи- рассеивания экспериментальных данных вокруг аппроксимирующей выборочной регрессионной поверхности, а знаменатель — ме- меру рассеивания экспериментальных данных около своих услов- условных выборочных средних yt (т. е. меру, независимую от выбран- выбранного вида линии регрессии). Причем и числитель, и знамена- знаменатель являются практически независимыми (в некоторых част- частных случаях — точно независимыми) статистическими оцен- оценками одной и той же теоретической дисперсии о2 = D (г\ |? = Х). Соответственно получаем следующее правило проверки ги- гипотезы об общем виде функции регрессии. Задаемся, как обыч- обычно, достаточно малым уровнем значимости критерия а (напри- (например, а = 0,05). С помощью табл. П. 5 находим 100 A — 2J %_ НуЮ ТОЧКу V2_а И 100 ~ %-НуЮ ТОЧКУ Va F (k — /Л, П — k)- распределения. Если окажется, что величина v2, подсчитанная по формуле F.16), удовлетворяет неравенствам 2 то высказанная нами гипотеза об общем виде функции регрес- регрессии признается не противоречащей экспериментальным дан- данным F.1). Если же эти неравенства оказались нарушенными, то гипотеза об общем виде функции регрессии отвергается с уровнем значимости а. При этом если v2 «слишком мало» (т.е. v2 < v2 а) то, очевидно, при выборе общего вида регрессии мы 1 ___ неправомерно реагировали на случайные отклонения то- точек (X?, t/0 от истинной функции регрессии и тем самым необо- необоснованно завысили число параметров т, от которых зависит уравнение регрессии. Напротив, если v2 «слишком велико» (т. е. v2 >Уа), то «гибкость» аппроксимирующей функции рег- 1 рессии fa (X; в) следует признать недостаточной, поэтому це- целесообразно увеличить число неизвестных параметров регрес- регрессии (например, повысить порядок аппроксимирующего поли- полинома) . Для случая, когда условная дисперсия зависимой перемен- переменной пропорциональна некоторой известной функции аргумен- аргумента, т. е. Dt] (X) = o2h2 (X), формула F.16) преобразуется: 202
. * Z~ 2 m —г- Yi «i 2 (yu- F-16') где Так, в примере В.2: п = 40; k = 4: а = 0,05; m = 2; дисперсионное отношение у'2, подсчитанное по формуле F.16'), равно 1,04, в то время как 5% -ная точка/7 B,36)-распределения ^о,о5 = 3,26. Это свидетельствует о том, что гипотеза о линей- линейном виде регрессионной зависимости в данном случае не проти- противоречит имеющимся в нашем распоряжении эксперименталь- экспериментальным данным. При проверке линейности регрессии (так Же, впрочем, как и при проверке гипотезы о полиномиальном характере регрес- регрессии заданного порядка т) в нормальных схемах зависимостей типа В к Сг описанный общий критерий является точным. При этом в линейном случае статистика у2, определенная соот- соотношением F.16), может быть выражена в более удобной форме, не требующей предварительного вычисления выборочной ап- аппроксимирующей функции регрессии, а именно: ^-*>(?U-*>. FЛ7) Здесь, как и прежде, рч.| и г — соответственно выборочные корреляционные отношения (г) по I) и коэффициент корреля- корреляции, вычисляемые по формулам A.16) и A.8'). Логическая схема использования статистики F.17) аналогична ранее изло- изложенным критериям: задаются достаточно малым @,05 ~ 0,15) уровнем значимости а; находят по табл. П.5 100 с&%-ную точку Va распределения F (k — 2, п — k)\ сравнивают величину v2, определенную с помощью F.17), с процентной точкой v%,\ если оказывается, что v2 >> uj, то гипотезу о линейном виде ре- регрессии считают статистически необоснованной. Воспользуемся данным критерием для статистической про- проверки линейности регрессии в примере В.З. Вычисления дают: г2 = 0,429, р?.? = 0,459, так что и2 = 0,513. Принимая во вни- внимание, что величина4 5%-ной точки F D,37)-распределения рав- равна и§,05 = 2,63, делаем вывод о непротиворечивости гипотезы 203
линейности регрессии и данных нашего эксперимента в дан- данном примере @,513 < 2,63). 2. Общий приближенный критерий, основанный на негруп- пированных данных (при известной величине дисперсии остаточ- остаточной случайной компоненты). Встречаются ситуации, когда в результате предваритель- предварительных исследований или из других каких-либо соображений нам удается заранее определить величину дисперсии а2 остаточной случайной компоненты е в разложениях вида (В. 14) и (В. 16) (например, когда е — ошибка измерения, и нам известны ха- характеристики точности используемого измерительного прибо- прибора). В этом случае можно отказаться от стеснительного требо- требования группированности данных и для проверки гипотезы об общем виде функции регрессии воспользоваться фактом X2 (п — /л)-распределенности статистики ^ Щ F.18) (который имеет место при условии справедливости нашей гипо- гипотезы) . Задавшись уровнем значимости критерия а и найдя с по- помощью табл. П. 4 величины 10()(l—5)%- и 100-|%-ных точек Х2-распределения с п — т степенями свободы, соответственно X а (п — т) и х<% (п — т)у проверяем выполнение неравенст- 1 2 ва 2а (п — где у2 подсчитано по формуле F.18). Если эти неравенства ока- оказались нарушенными, то от гипотезы Но об общем виде функ- функции регрессии следует отказаться. При этом если у2 «слишком мало» (т. е. у2 ^ %2 а(п — т)), то, очевидно, при выборе об- {~ щего вида мы неправильно реагировали на случайные отклоне- отклонения экспериментальных точек (Хь yt) и тем самым необосно- необоснованно завысили число параметров т, от которых зависит урав- уравнение регрессии. Напротив, если у2 «слишком велико» (т. е. у2 ^ %а (п — —-т), то «Гибкость» аппроксимирующей кривой регрессии fa (X; 0) следует признать недостаточной, поэтому целесооб- целесообразно увеличить число неизвестных параметров регрессии (например, повысить порядок аппроксимирующего полинома). 204
Для случая, когда условная дисперсия зависимой перемен- переменной (или, что то же, дисперсия остаточной случайной компо- компоненты) не остается постоянной при изменении X, а пропорцио- пропорциональна некоторой известной функции аргумента, т. е. Dr] (Х)= = o2h2 (X), формула подсчета статистики у2 несколько изме- изменится: где со* = 1/Л2 (Xt). В остальном схема проверки гипотезы об общем виде функции регрессии остается той же самой, что и в случае Dr) (X) = а2 = const. 3. Оценка размерности модели регрессии. Предположим, что неизвестная истинная функция регрессии / (X) представи- ма в виде разложения по заданной системе базисных функций а регрессионные остатки е в моделях (В.14), (В.16) — незави- независимые нормальные случайные величины с нулевым математи- математическим ожиданием и дисперсией а2. Параметры т0, 0 = F1э ..., 9Шо) и а2 не известны исследователю. Величину т0 будем называть размерностью модели регрессии. Рассмотрим два способа оценивания т0, и, следуя) [97], опишем статистичес- статистические свойства такого оценивания. Оба способа основаны на величине «подправленного» вы- выборочного критерия адекватности д;(>>)- —— S (ifi-p) (X,; G)J, F.20) п — т l = 1 где?<"> = /с») (Х;*в) - |в;^ (Дав = (?1 Гто) - оцен- оценки наименьших квадратов параметров 6 (см. гл. 7). В первом способе в качестве оценки необходимого числа ба- базисных функций рекомендуется брать величину тЕ)х) = rnin {т : Я; (?(т~1)) > ^ (?(т)), F.21) Во втором способе с помощью критической статистики 1, п — т—2) =-= 205
которая при m0 = т и сделанных выше предположениях под- подчиняется ^-распределению с числом степеней свободы числите- числителя, равным 1, и знаменателя, равным п — т — 2 [130, с. 133], последовательно длят = 1,2, ... проверяется гипотеза т0 = т и останавливаются на таком наименьшем т(§\ при котором гипотеза впервые не отвергается. В [97] выведены асимптотические (по п ->¦ сю) распреде- распределения для оценок т(о) и т(§). Показано, что для / = 1,2: ; = k(l—k)»9 # = 0,1, где -зз- 1 е 2 dx ж 0,683 для т[1)\ =г Г е 2 dx длят@2). а В последнем соотношении ^ = ?>« A, л — т{1] — 2) — 100 а%-ная точка F A, л — т(§} — 2)-распределения. Эти результаты позволяют, в частности, строить асимптоти- асимптотические доверительные интервалы для неизвестной размерности модели регрессии. Существуют и другие различные способы оценки размерно- размерности модели регрессии, применимые при рассмотрении некоторых частных схем1. 4. Анализ регрессионных остатков. Ряд статистических кри- критериев проверки адекватности используемой аппроксимирую- аппроксимирующей модели регрессии основан на анализе регрессионных ос- остатков (невязок) е (Xt) = yt —fa (X*), i = 1, 2,..., п. В ос- основе их конструирования — положение, в соответствии с ко- которым правильный выбор модели/а (X) предопределяет асимп- асимптотическую (по п ->- сю) независимость остатков 8 (Xt). Поэто- Поэтому статистическая проверка правильности выбора общего вида 1См., например: Б о г а н и к Г. Н. Об установлении порядка урав- уравнения параболической регрессии. — Теория вероятностей и ее приме- применения, т. XII, 1967, № 4, с. 718—727. 206
функции регрессии сводится к проверке статистической незави- независимости остатков, для чего могут быть использованы, напри- например, критерии, описанные в [14, § 11.3]. На этом же основан и критерий определения порядка полиномиальной регрессии и критерии проверки независимости величин f (Xt) и е(Хг) [93]. ВЫВОДЫ 1. Этап параметризации регрессионной модели, т. е. выбора параметрического семейства функций (класса допустимых ре- решений), в рамках которого производится дальнейший поиск неизвестной функции регрессии, является одновременно наибо- наиболее важным и наименее теоретически обоснованным этапом рег- регрессионного анализа. 2. Прежде всего исследователь должен сосредоточить свои усилия на анализе содержательной сущности искомой ста- статистической зависимости, чтобы максимально использовать имеющиеся априорные сведения о «физическом» механиз- механизме изучаемой связи при выборе общего вида функции рег- регрессии. 3. Важную роль в правильном выборе параметрического клас- класса допустимых решений играет предварительный анализ гео- геометрической структуры совокупности исходных данных и в первую очередь анализ геометрии парных корреляционных по- полей, включающий в себя, в частности, учет и формализацию «гладких» свойств искомой функции регрессии, использова- использование вспомогательных линеаризующих преобразований. 4. Сформулированные с помощью содержательного и геометри- геометрического анализа рабочие гипотезы об общем виде искомой функ- функции регрессии могут быть проверены с привлечением соответ- соответствующих математико-статистических критериев. Среди фундаментальных идей, на которых базируются эти статисти- статистические критерии, следует выделить: а) идею компромисса меж- между сложностью регрессионной модели («емкостью» класса до- допустимых решений) и точностью ее оценивания; б) идею по- поиска модели, наиболее устойчивой к варьированию состава вы- выборочных данных, на основании которых она оценивается; в) идею проверки гипотез об общем виде функции регрессии на базе сравнения выборочных критериев адекватности и исследо- исследования статистических свойств получаемых при этом оценок размерности модели. 207
Глава 7. ОЦЕНИВАНИЕ НЕИЗВЕСТНЫХ ЗНАЧЕНИЙ ПАРАМЕТРОВ, ЛИНЕЙНО ВХОДЯЩИХ В УРАВНЕНИЕ РЕГРЕССИОННОЙ ЗАВИСИМОСТИ Рассмотрим общую модель линейной (относительно оцени- оцениваемых параметров в) регрессии в виде У«= S *fc(Zi)-eft+elf i=l,2,...,/i, G.1) где Qk — неизвестные параметры, которые надо оценить по вы- выборочным данным (Zu yt), i=l, ..., п\ {ipft (Z)Jfts=1— — система известных (базисных) функций векторного аргумента Z, по ко- которым разложена неизвестная функция регрессии / (Z) = = Е (л1Е = Z), т. е. / (Z) = Jx|)fe (Z) • 0ft; е,- - случайная погрешность. Сделав замену переменных х ^ = ярл (Zt) и учитывая ранее принятые обозначения модель G.1) можно представить в виде G.2) Вектор X* будем называть наблюденным значением предик- торной переменной (регрессора). В данной главе рассматриваются различные способы оцен- оценки параметра в в зависимости от предположений о природе X и характере распределения г. 7.1. Метод наименьших квадратов 7.1.1. Мнк-уравнения. Предположим, что распределение век- вектора е не зависит от X и нормально с нулевым вектором сред- средних и ковариационной матрицей S = аЧп, где а2 — неизвест- неизвестная дисперсия компонент е, а 1П — единичная матрица поряд- порядка п. Сформулированное условие записывается ве#(в»,очп). G.3) Оценка параметров в модели G.2), G.3) проводится с по- помощью метода наименьших квадратов (мнк), который описан в 208
[14, п. 8.6.3]. При этом в находится из условия минимиза- минимизации суммы квадратов отклонений наблюденных значений у от их сглаженных (регрессионных) значений, т. е. величины IIг-хеи =2 Ы- S *J*)e*Y=(V'-xe)'(y-xe).G.4) Уравнения метода наименьших квадратов, мнк-уравне- ния, в случае, когда г — ранг X равен р, имеют решение ©-(Х'Х^Х'Г. G Ъ) Если г <Ср, то в ряде случаев легко ввести дополнитель- дополнительные ограничения на параметры Нв = 0, где ранг Н равен р —г. Пусть G == (Х\ тогда G'G = Х'Х + Щ имеет размер (р X р) и ранг р и e = (G'Q)-*X'Y. G.6) Другой путь — использование обобщенной обратной мат- матрицы (Х'Х)- [17J для Х'Х. В этом случае в = (Х'Х)-Х'К. G.7) Подправленная на несмещенность оценка максимального правдоподобия [14, п. 8.6.3] для дисперсии а2 задается форму- формулой в» = ||У-Хв|1/(л-г), G.8) —* где \\Y — Хв|| часто называют остаточной суммой квадратов (ОСК). 7.1.2. Свойства мнк-оценок. В случае когда G.3) имеет место, 0 является наилучшей несмещенной оценкой 0, т. е. Е0 =0, и для всякой другой оценки 0 со свойством Е0 = 0 для про- произвольного (неслучайного) (р X 1)-вектора С ЩС 0)<D(C0). G.9) Если дополнительно потребовать, чтобы ранг X = р, то из общей теории мнк-оценок следует, что ©еЛ'@, аа(Х'Х)-1); G.10) (в-в)"Х'Х (в-в)/о* = & G.11) 209
0 не зависит от s2; |1 Y- Х6||/оа = (п- / G.12) G.13) Если сохранить требование Eet = О, Eef = а2 (I = 1,..., /г), cov (еь е;) = 0 (i ф /), но отказаться от нормальности рас- распределения е, то G.9) также будет иметь место, но уже только для линейных несмещенных оценок в. В общем случае при нарушении G.3) мнк-оценки теряют свои оптимальные свойства. Различные способы оценивания, применяемые в этом случае, описаны в § 7.2. 7.1.3. Ортогональная матрица плана. Матрицу X называют матрицей плана эксперимента. Рассмотрим случай, когда мат- матрицу плана X можно разбить на k совокупностей столбцов Хь ..., Xh (что соответствует разбиению на k подмножеств анали- анализируемого набора переменных) так, чтобы для всех i Ф j столбцы матрицы Хг- были ортогональны столбцам матрицы Х7-, т. е. Y /V V \ Y ' Y П I ' t *\ /7 1 Л \ А = (\1У ..., AfJ, Л/ \j = U {I =5= /j. (/ .14) Разобьем соответствующим образом и значения вектора в' =(в<1>', ..., 6<*>'). G.15) к Пусть далее г—ранг X* и 2^ = р. Из G.5) с учетом G.14) и /== 1 G.15) получаем Г х; хх о ... о О Х2Х2... О X'2Y о 0... Х?Х, (х; x^ XJ Г 0B) в Другими словами, 0^> является мнк-оценкой для в(<?> в мо- модели EY = Хд в<?>, а это означает, что в<?> оцениваются не- независимо друг от друга и в^> не изменится, если положить ка- какие-либо другие в<'> (/ Ф q) равными нулю. Величина ОСК в рассматриваемом случае имеет вид: 210
Если про какие-либо значения 6<?> известно, что они апри- априори равны нулю, то соответствующие слагаемые в правой части G.16) отсутствуют и ОСК соответственно больше. Поскольку @W независимы между собой, то целесообразна независимая проверка гипотез 6<?> = 0. Она проводится с помощью F-ot- ношения: Ъ'ЧЦъЪо/г, ^F(rg,n_p). GЛ7) ОСК/(п-р) д И) ' Это свойство широко используется в дисперсионном анали зе (см. гл. 13). 7.1.4. Параболическая регрессия и система ортогональных по- р линомов Чебышева. Пусть Еу = ^txk~1Qh. В силу соображе- ний, изложенных в предыдущем пункте, целесообразно перей- перейти к полиномам, ортогональным друг другу на системе наблю- наблюденных значений предиктора *ь..., хп: Введенные таким образом функции носят название ортого- ортогональных полиномов Чебышева. Соответствующие им стол- столбцы матрицы плана Xk = (tyk (Xi),..., ipfe (х„))', очевидно, ор- ортогональны, и параметры в модели Еу-2 *ftWeft GЛ8) оцениваются независимо друг от друга. Когда истинный порядок полиномиальной регрессии не из- известен, то оценка параметров модели G.18) проводится каж- 211
дый раз последовательно с проверкой гипотезы, что коэффици- коэффициент перед очередным полиномом равен нулю. Как только эту гипотезу отвергнуть нельзя, подбор коэффициентов прекраща- прекращается. Вопросы, связанные с последствием такого выбора прави- правила остановки, обсуждались в гл.. 6 (см. также [77, 147]). 7.1.5.- Обобщенный мнк. Пусть теперь в модели G.2) e?N@,o2V), G.19) где V — известная положительно определенная (п X я)-мат- рица. Важным примером подобной ситуации является случай, когда дисперсия е зависит от значения регрессора X, но ег- и 8/ при i Ф } между собой некоррелированьи В этом случае в V отличны от нуля только диагональные элементы. В общем случае отклики для различных значений предик- предиктора, вообще говоря, зависимы. Но, что принципиально важно в постановке задачи, величина их корреляции известна апри- априори. Пусть V = CC'ji Г = С-ХГ, ХГ = С-ХХ, 8* = С^е. В но- новых переменных Y, X, 8* приходим к уравнению вида G.2) Y = Хв + е*, для которого G.3) имеет место. Оценка в в преобразованной модели равна: в* - (X' X)" X' Y = (X' (СС)-1 X)-1 X' (СС')-1^- *=(Х'V-^X^X'V-^y. G.20) Очевидным образом модифицируются формулы G.8) и G.10): s*2===(y_xe*)' У-г(У—Хв*); G.21) в* е N (в, а2 (X' V-1 X)-1). G.22) 7.2. Функции потерь, отличные от квадратичной Мнк-оценки, получающиеся в результате минимизации выбо^ рочного критерия адекватности с квадратичной функцией по- потерь, неустойчивы к нарушениям предположения о нормаль- нормальности распределения случайных ошибок. С утяжелением «хво- «хвостов» распределения они быстро теряют свои оптимальные свой- свойства [14, п. 10.4.41. Это связано с тем, что квадратичная функ- функция потерь, используемая в мнк, придает слишком большой вес далеким отклонениям от регрессионной поверхности. Про- 2 12
гресс в области вычислительных методов позволяет перейти к использованию функций потерь р (и), растущих при \и\ ->оо более медленно, чем и2. Соответствующие оценки по сравнению с мнк-оценками более устойчивы. Им и посвящен настоящий параграф. Так же, как при оценивании параметров положения и масштаба [14, п. 10.4.4], определенное внимание уделяется экспоненциально-взвешенным оценкам (эв-регрессии). Они допускают простую и наглядную интерпретацию, имеют хоро- хорошие выборочные свойства в случае небольших асимметричных искажений гауссовских распределений ошибок. Для них раз- развита полная асимптотическая теория. 7.2.1. Функция потерь pv (и) = \u\v, I ^ v ^ 2. Параметры регрессионной поверхности находят из условия минимизации по вектору 9: i= 1 Р где ui = tji — S*(?)f9ft. Покажем, что для v > 1 1) решение этой задачи 0V единственно; 2) в модели G.2) для симметричных распределений случай- случайных ошибок оценка 9V состоятельна. В самом деле, функция pv(iii)t рассматриваемая как функция от в, строго выпукла вниз. Следовательно, строго выпукла вниз и сумма Qv (в), поэтому минимум Qv (в) единствен и достигается в одной точ- точке. Из строгой выпуклости р„ (и) и, следовательно, положи- положительности pv (и) вытекает, что для любой симметричной отно- относительно нуля случайной величины ? для любого афО Ер„E + а) >EPv(g). G.23) Из закона больших чисел [14, п. 7.2.1] следует, что в моде- модели G.2) для больших значений п для любого фиксированного вектора С = (с<1>,..., №)' —ХлО/л- G.24) При симметричном относительно нуля распределении слу- случайных ошибок, как следует из G.23), правая часть G.24) бу- будет наименьшей при С = в. Следовательно, в силу G.24) 6^ должно быть при большом п близко к в, т. е. оценка Ov состоя- состоятельная. 213
В сформулированных выше условиях асимптотическая ко- ковариационная матрица Ov имеет вид (см. также гл. 11): EFv-e) (в„-е)' = к-1 -4^-,, G.25) n где К = 2 XtX'i't e — случайный регрессионный остаток. В практической работе математические ожидания, стоящие в правой части G.25), заменяются на их выборочные оценки: ~ п~х Ч1 n2f/7 X1- Й )• Z 9fU n Epv(e)-^ n'1 y\ pv (yi~X'iQv). G.27) Напомним, что формула G.25) верна только для независи- независимых и симметрично (относительно нуля) распределенных рег- регрессионных остатков. «^* Методы вычисления 6V [44, 94, 1863. Основные уравнения имеют вид 3Qv/dQk - -v 2 sign (щ) | щ |v- 1 *<*> = 0, « = ТГр. G.28) <=i Введем под знак суммы веса wt = |wjv~2 и заменим sign (wj) Ittfl" на Wj^j. Получим систему yi ^ -2 ^л х^e/) w* = о, л = 177 1 / Система G.28') решается итеративно, при этом веса оцени- оцениваются на основе параметров, полученных на предыдущем ша- шаге. В качестве нулевого приближения параметров можно взять обычные мнк-оценки. Чтобы не иметь дела со слишком боль- большими весами, выбирают какую-либо большую константу с >0 и для wt ^ с полагают wt = с. Для минимизации Qx (в) поль- пользуются также методами линейного программирования [253, 256] или специальным геометрическим приемом [53]. В качестве математической модели симметричного распре- распределения с более тяжелыми хвостами, чем у нормального рас- распределения, часто берут распределение Лапласа с плотностью /(x) = J-exp{-UI/a}. 214
Если в модели G.2) «остатки» е,- не зависят от Хг-, независимы между собой, одинаково распределены и имеют распределение Лапласа, тоЭх есть оценка максимального правдоподобия для в 7.2,2. Оценка Хубера [213, 2141. Исходя из задачи поиска ми- минимума максимальной (по всем симметричным засорениям нор- нормального распределения) асимптотической дисперсии оценки параметра положения, П. Хубер ввел в рассмотрение функцию потерь Ки|<^ G.29) |m| —Ла/2, если \u\^k. Эта функция, являясь выпуклой, удачно сочетает достоинст- достоинства р2 при малых и умеренных значениях \и\ и рх — при боль- больших отклонениях. Применение рн для оценки регрессии в мо- модели G.2) требует обязательной одновременной оценки 0 и параметра масштаба распределения е. Тем самым теряется одно из преимуществ ри — независимость процедур оценива- ния этих параметров. П. Хубер предложил искать @н и а и из решения системы: n 2 p 2 Ph((#s — X/0)/°) = P. G.30) где Qh(u) = dpn(u)/du = max (min (k, u), — k), p = CO = (n — p) J p?/ (а) ф (м) ди и ср(м) — плотность стандартного — оо нормального распределения. Авторы [124] советуют заменить последнее уравнение в G.30) на о2 = медиана {(^—X/ 6J/а2, ? = 1, ..., л}, G.31) где а ?^ 0,675. Теоретические свойства этих оценок и соответст- соответствующие вычислительные процедуры изучаются в [43, 110, 124]. На практике для оценки ковариационной матрицы 0# в слу- случаях, когда распределение 8 можно считать симметричным, можно использовать формулы G.25), G.26), G.27) с заменой ри на рн. 215
Оценки в# все же еще недостаточно устойчивы к асиммет- асимметричным отклонениям от нормальности распределения е [1491. Следовательно, нужны функции потерь р, которые, растут при ]и] -*¦ <х? медленнее, чем р^. 7.2.3. Функции потерь, имеющие горизонтальную асимптоту. Предложены три семейства функций, специально рассчи- рассчитанных на асимметричные отклонения функции распределе- распределения ошибок от нормального закона. В унифицированных обо- обозначениях в условиях, когда дисперсия основной (незасорен- ной) части распределения регрессионных остатков известна и равна единице, они могут быть приведены к виду (ниже пара- параметр X >0): функция потерь Андрюса [156]: (и)^ mrHlctxmVu)), |и|<яBЬ); функция потерь Мешалкина [89]: рм(и)*=Х-1 A— ехр{—Ли2/2}); G.33) функция потерь Рамсея [243]: pR (а)^Я-1 A — A -ЬЯ1/2 |и |)) ехр {-V/2 | и |}. G.34) Все три функции при k-r*~ О стремятся к и2/2, т. е. перехо- переходят в обычную квадратичную функцию потерь, используемую в мнк. При % Ф О они имеют горизонтальную асимптоту, рав- равную Х"г. Взаимное расположение этих функций для двух зна- значений параметров показано на рис. 7.1. Так же, как при использовании ря, в практической работе с этими функциями приходная выбирать значение парамехра Я (настраивать рл, рй, Рд на определенный уровень отклонения от нормальности) и одновременно оценивать 0 и а. При этом возникают дополнительные по сравнению с рн трудности интер- интерпретационного плана, связанные как с отсутствием выпукло- выпуклости у новых функций, так и с сильным подавлением больших отклонений. Для иллюстрации сказанного рассмотрим пример. Пусть случайная величина е дискретна, принимает всего два значения и Р{е = ±тя BХ)-1/2} = 0,5. Несмотря на сим- симметричность распределения г относительно нуля Е рл (е)> > min Е ра ( 8— 6), причем минимум достигается по край- ь ней мере в двух различных точках. Это обстоятельство связано с локальной вогнутостью рл (и) в окрестности возможных значений е. Аналогичное утверждение имеет место и для рл* и рд. 216
В случае когда распределение е (в общем случае не обяза- обязательно симметричное) сравнительно мало отличается от нор- нормального закона N (...; 1), для всех трех функций рл, рль ря а = argminEp (е —Ь), т. е. значение Ь, при котором ь достигается минимум Ер (е —- 6), единственно и мало отличает- отличается от центра соответствующего нормального закона. Но оно, конечно, зависит от выбора функции р и от значения К. Поэто- Поэтому вопрос о содержательной интерпретации а остаётся акту. Рис. 7.1. Сравнение трех функций потерь при раз- различных значениях К альным. В [14, п. 10.4.6) такая интерпретация описана для функции рм (эв-оценки). По-видимому, аналогичная теория может быть построена и для рл и р#, но рм несколько удобнее в аналитическом отношении, особенно в многомерном случае. Вместе с тем вопрос, насколько распределение е должно быть близко к нормальному закону для того, чтобы существо- существовало только одно значение а, при котором достигается минимум Ер (е — Ь), пока не исследован достаточно подробно. Было бы интересно сравнить оценки параметров, получае- получаемые с помощью рд, рм и ря, между собой в различных ситуа- ситуациях. Но для этого требуется дальнейшее развитие теории ус- устойчивого оценивания. Дело в том, что модель независимой вы- выборки растущего объема из фиксированного распределения Fqi использованная Хубером, в которой Fq {х—\i) = A —q)X 217
ХФ (х — \i) + qH (x — [i)9 где Ф — функция нормального распределения, а Я — функция распределения произвольного симметричного относительно нуля закона не очень подходит как из-за симметрии Я, так и из-за того, что асимптотика, в ко- которой q и Я фиксированы, а объемы выборки п ->• оо, не впол- вполне адекватна статистической практике: с ростом объема выбор- выборки мы узнаем Fq с возрастающей точностью и в принципе мог- могли бы путем преобразования переменных усилить близость распределения к нормальному закону. Более адекватной мо- моделью засорения является схема последовательности серий выборок растущего объема, в которой пропорция засорения q= уп-1/2 убывает с ростом п [149, 215 и 14, п. 6.1.11]. 7.2.4. Эв-регрессия (Х-регрессия). Ниже, используя тот же ме- методический прием,что и при введении эв-оценок [14, п. 10.4.6], с помощью цепочки определений вводится эв-регрессия и спе- специальная мера отклонения от нее. Далее показывается, что эв-регрессия обладает рядом свойств, похожих на свойства обычной мнк-регрессии. Это облегчает содержательную интер- интерпретацию эв-регрессии и выбор подходящего для конкретного случая значения к. В заключение приводится асимптотическое разложение для оценок параметров эв-регрессии. Пусть w (у\Х) — весовая функция у при фиксированном значении X, F(...) — символ функции распределения. Введем d, (X, F) - J yw {у | X) AF {у | X)llw (X, F)\ G.35) gw (X, F) - J (y-dw (X, F)J w{y\X) dF (у \ X)/l (X, F)9 G.36) где/(Х, F) = $w{y \X)dF(y\X). Определение 7.1. Назовем d w (X, F) — w -взве- -взвешенной регрессией у на X (оу-взвешенным откликом вХ), а ?Ш(Х, F) — w -взвешенной дисперсией относительно поверхно- поверхности ^-взвешенной регрессии. Определение 7.2 Распределения F (у \ X) и G {у \Х) назовем регрессионно-подобными, если dw (X, F) - d, (X, G) ngw (X, F) = gw (X, G). Пусть ф {y\ a (X), a2 (X)) — плотность нормального за- закона N (у | X), (К ^-связанного с F (у \ X) [14, п. 10, 4.6], т. е. при w (у \ X) = ЦI взвешенные моменты N (у \ X) и F (у | X) совпадают. Определение 7.3. Назовем Ф*, (у, X) %-регрессион- но-связанной с F (уу X), если 1Ф (у, X) = Ф (у; а (X), a2 (X)) dydF (X). 218
Определение 7.4. Назовем а (X) — Я-регрессией (эв-регрессие^) у на X и а2 (X) — Я -дисперсией у относитель- относительно поверхности Л-регрессии. Аналог мнк утверждения для эв-регрессии. Пусть Ея (у — - с (X)J = J J (у - с (X)J ёФя (у, X), тогда а (X) = arg min Ея (у —с (X)J, т. е. если при каждом X заменить рас- с(Х) пределение F (у, X) на Я-связанный с ним нормальный закон, то для нового распределения Ф%(у, X) а (X) — обычная мнк- оденка регрессии у на X. Пусть расстояние между двумя функциями распределения б F (у) и G (у) определено как р (F, G) = sup | /й (F — G)\ a<b a и М (е), е — окрестность одномерных нормальных распреде- распределений, тогда для любого К > 0 существуют такие с = с (X) >0 и 8 = е (X, с) > 0, что для любого F (у\Х), для которого для всех X F (у | X) ? М (е) существует единственная Х-регрес- сияг/наХ, причем а (X) и? (X) — непрерывные (в смысле р) функции относительно F (у | X). Если F (у | X) нормальны, то Я-регрессия у па X совпадает с обычной регрессией. Таким образом эв-регрессия обладает всеми основными свойствами мнк-регрессии, только наблюдения в соответствую- соответствующие формулы входят со специально подобранными весами. Вве- Введение весов позволяет как бы настраивать регрессию на инте- интересующую исследователя часть выборки (рис. 7.2: в пунктир- пунктирный овал заключены наблюдения (xi9 yt)t получившие малые веса и практически не участвующие в оценке параметров эв- регрессии; куполообразные кривые на прямой эв-регрессии показывают веса, приписанные наблюдениям). Эв-регрессия значительно устойчивее мнк-регрессии и регрессии по Хубе- ру к появлению далеких отклонений от регрессионной поверх- поверхности. Однако она, естественно, не является универсальным методом оценки регрессии для всех случаев, когда нарушаются предположения G.3), лежащие в основе мнк. Четких рекомен- рекомендаций, как выбирать К в конкретном случае, пока не выработа- выработано. Ясно только, что надо давать максимальный вес «основной» части выборки и наименьший — части, где могут лежать «загрязнения». Определенные соображения по выбору величи- величины. X в некоторых модельных случаях приведены в п. 7.2.5. Минимизационное определение эв-регрессии. Для того что- чтобы охватить случай неизвестного а, несколько изменим опре- определение функции потерь по сравнению с G.33). Пусть ехр {—Ы2/2о% G.37) 219
Я-регрессия а (X) = Х'в, где в — вектор неизвестных пара- параметров, и для всех X Х-дисперсия а2 (X) = а2 и а2 также не- нев Е ( Х'Э ) Е р р () известно, Пусть далее у (в, а) = Еря (у — Х'Э, о), где Е — символ математического ожидания по мере dF (у, Х)\ тогда 6х и а*, являются решением уравнений dy/dS = 0 и dy/da = 0 G.38) и на них достигается локальный минимум у (в, а) (вообще го- говоря, не единственный). Рассмотрим итерационную процедуру получения решения G.38): У * у • 1 1 у « А &0-регрессии д ^^ Зесодая функция X Рис. 7.2. Настройка эв-регрессии на интересую- интересующую исследователя часть выборки 0(Vh) «= A +Я) Е (у-Х' в(,+1))а wh/Ewh9 GЛ9) G.40) где wk = ехр { — X (у — Х'%)ЧЬз\к)}. Обозначим WREG оператор перехода по формулам G.39), G.40) от @(ь), аA)) к (в(ь+1), а2(к+1)), тогда (в*, <*i) является неподвижной точкой оператора WREG. Последнее определение Я-регрессии удобно для построения оценок (в*,, ol) по выборочным данным. Для этого достаточно в уравнениях G.38) — G.40) заменить символ математического ожидания Ена знак суммирования по всем наблюдениям и ре- 220
шать их итерационно. Асимптотическая ковариационная мат- рица оценки F*,, а?), полученной по независимой выборке объ- объема п, имеет вид c=sn-i.K-iHKf G.41) где К, Н — квадратные матрицы порядка (р + 1) X (р + 1); и = у - Х'б*; 2at Еш hi, п-м = Для Я > 0 при любом F (у \ X) все входящие в формулы ма- математические ожидания существуют. На практике их, а также d и 0я следует заменить соответствующими выборочными оценками. 7.2.5. Минимизация систематической ошибки. Практическое использование излагаемых выше предложений по повышению устойчивости оценок коэффициентов регрессии наталкивается на следующие неопределенности. Какую минимизируемую функцию риска выбрать? Все предлагаемые оценки содержат параметры: v — в п. 7.2.1, k — в п. 7.2.2 и Я — в п. 7.2.3 и 7.2.4. Какими брать значения этих параметров? Если полезно уменьшать веса больших отклонений прогнозируемой перемен- переменной, то, может быть, полезно взвешивать и предикторные пере- переменные? В общем случае ответов на эти вопросы пока нет. Однако ориентиром может стать изучение модельных ситуаций. В ча- частности, воспользуемся моделью засорения Шурыгина [14, п. 6.1.11]. В качестве основного распределения возьмем мо- модель нормальной полиномиальной регрессии степени р, когда 22|
плотность совместного распределения предикторной перемен- переменной х и прогнозируемой переменной у имеет вид G.43) Рассматривается серия ^-засоренных выборок одинаковой длины /г, и в &-й выборке засорение концентрируется в точке (х%у У%), так что плотности распределения выборок серии имеют вид Pi{*, У) = A — 9) Ф( Рг(^ У) = A —9) Ф(х, У) +9б (^2, где 6 (xj, t/л) — дельта-функция Дирака от точки (х%, у%). Пусть в серии выборок эта точка имеет плотность распределе- распределения h (x*, у*). Найдем квадратичную погрешность регрессионного пред- предсказания у0 для неизвестного значения результирующего по- показателя у0 = у (jc0), измеренного при х = л:0, когда двумер- двумерное распределение (л, у) описывается плотностью распределе- ния G.43), а прогдоз у0 строится по оценкам, основанным на произвольной выборке G.44): (здесь усреднение производится и по л: и по у, a %j = Qj — 8j). Далее 2 вЧУ 2( 2 в,1ув) X /=о / \/=о / /=о Первое слагаемое равно а^ и не может быть минимизирова- минимизировано. Во втором слагаемом сомножители независимы, и матема- математическое ожидание первого из них равно нулю, так что нулю 222
равно все слагаемое. От способов оценивания коэффициентов регрессии зависит лишь третье слагаемое, которое, варьируя эти способы, можно минимизировать. Обозначив 1-й момент стандартной нормальной величины через 1, если / := 0; 0, если / нечетно; 1 -3-5 ... (/ — 1), если / четно, третье слагаемое можно записать в виде / = 0т=0 Предположим для простоты, что величины а?, ц и а* из- известны (устойчивые способы их оценки излагаются в [14, п. 10.4.4—10.4.6)]). Пусть оценки коэффициентов регрес- сии 0О, 01,..., Ор находятся из системы уравнений 2 Kj(xiy yh <Г0, ...,1)р) = 0, /-0, 1, ..., р во всех выборках серии G.44). Обозначим через Ek оператор математического ожидания, вычисляемого в соответствии с распределением pk (x,y) из G.44). Мы можем искать мини- минимум EkS2 по способам оценивания коэффициентов регрессии. Асимптотическое (при п ->¦ оо) поведение величины E&S2 в любой,из выборок G.44) слагается из двух компонент: из дисперсии в модели G.43) («случайная ошибка») и квадрата смещения за счет засорения («систематическая ошибка»). При росте п первая уменьшается как л, вторая — как q2. Между этими величинами возможны следующие соотношения: а) величина q2 уменьшается быстрее, чем я-1. Тогда «систе- «систематическая ошибка» оказывается асимптотически пренебре- жимой по сравнению со «случайной», имеющей порядок я*-1, классические оценки максимума правдоподобия оказываются асимптотически наилучшими, и приведенные выше рассужде- рассуждения окажутся ненужными; б) величина q2 уменьшается медленнее, чем пггу напри- например как л~1+у, где 0 < у < 1. Тогда дисперсия пренебрежимо мала по сравнению с квадратом смещения, и классические оцен- оценки не оптимальны, оптимальными будут оценки, минимизи- минимизирующие «систематическую ошибку»; квадратическая погреш- погрешность оценки уменьшается не как пг1, а медленнее, как /z~1+v; в) величины q2 и пгх имеют одинаковый порядок малости. 223
Этот вариант сводится к б) при рассмотрении иерархии серий [149]. Главный член асимптотического разложения EhS2 в асимп- асимптотике б) определяется «систематической ошибкой» из-за засо- засорения выборки и в среднем по серии G.44), которое будем обо- обозначать через ЕСер, зависит от плотности h (х*, #*), так что существует Используя известные методы минимаксной оптимизации, мы можем найти наилучшие оценки для наихудшей Л, т. е. найти arg min max со2. G.45) НК hz=H Результат зависит от множества Я, среди которого отыски- отыскивается наихудшая h. Наиболее просто предположить, что h от- отличается от ф лишь значениями параметров: h (х*, у*) =<р (х*, у*\ 8о,..., Эр, o?2,fi*, Ox2)- В этом случае решение минимакс- минимаксной задачи G.45) приводит к следующей системе уравнений: ^ / 2 x? ш,; G.46) 2 где весовые функции G.47) являются экспонентами. Коэффициенты vp растут при росте р, оставаясь меньше единицы: vx = 0,365, v2 = 0,82, v3==0,90, ... Учитывая некоторую условность рассматриваемой модели, можно использовать аппроксимацию vp « (р — 0,83)/(р — — 0,54). Система G.46) решается итерациями. Рассмотрим теперь задачу нормальной многомерной линей- ной регрессии^ когда р предикторных переменных, образующих 224
вектор X = (jc<x>,..., х^У ? N (ц,, С), используются для р предсказания скалярной величины у ? N (80 + 21в/*(/\ а2)> так что плотность совместного распределения Хну имеет вид - 2 Oj^T-у(Х-|1)' С-ЧХ-иА • G.48) Рассмотрение аналогичной G.44) схемы ^-загрязненных вы- выборок Л (X, у) = A ~д) Ф (х, у) + (/б (XT, у»; G 49) и вполне аналогичная оптимизация погрешности предсказа- предсказания у о—У (Хо) с помощью регрессии у по X при известных а2, у,, С приводят к следующей системе уравнений для оценки ко- коэффициентов регрессии: - 2 (у*- 2 ^Х1Л) »i/ 2 «>,; /iw^J^ G.60) % - 2 (у« -^о-Р2 Я- *}Л) 4Р)»I / 2 Wp где весовая функция также экспоненциальна: Х(Х~ц)'С-»(Х-11)), G.51) но величины v? убывают с ростом р: G-52) Зак. 244
Сравним полученные оценки коэффициентов регрессии с излагавшимися в предыдущих разделах. Если весовые функ- функции wt положить равными единице, то системы G.46) и G.50) дадут оценки максимального правдоподобия соответственно для плотностей G.43) и G.48). Каждая из весовых функций G.47) и G.51) распадается на два экспоненциальных множите- множителя, первая экспонента одинакова у обеих функций. Если вторые экспоненты заменить единицами, то решения совпадут с из- изложенной в предыдущем пункте эв-регрессией при X = 1/2. Вторые экспоненты определяют взвешивание по предиктор- ным переменным. 7.3. Байесовское оценивание Общая методология байесовского оценивания описана в [14, п. 8.6.61. Она сводится к введению априорной плотности рас- распределения параметров и последующему нахождению по фор- формуле Байеса с учетом экспериментальных данных их апостери- апостериорной плотности распределения. Ключевым моментом в при- применении байесовского оценивания является первый шаг. 7.3.1. Введение априорной плотности распределения парамет- параметров. Для априорных распределений возможны три интерпре- интерпретации: 1) как частотных распределений; 2) как стандартных рекомендаций, что следует полагать о распределении неизвестных параметров в ситуации неопреде- неопределенности; 3) как субъективной меры того, что полагает конкретный индивидуум. Подробное обсуждение достоинств и недостатков этих под- подходов в общем случае может быть найдено в [70]. Здесь же мы ограничимся частной задачей — их использованием при оцен- оценке параметров регрессии. Частотный подход. Предположим, что одна и та же регрес- регрессионная задача решается повторно на близком материале. На- Например, для разных районов страны изучается связь между производительностью труда и рядом параметров, характери- характеризующих условия производства Или в медицине на материале различных медицинских центров по одним и тем же признакам строятся прогностические формулы для оценки риска осложне- осложнений какого-либо заболевания и т. п. Тогда в пространстве пара- параметров, используемых в регрессионном уравнении, возникает эмпирическое распределение точек — оценок параметров, соответствующих отдельным решениям задачи (районам стра- 226
ны, медицинским центрам). После сглаживания оно может ис- использоваться в качестве априорного распределения парамет- параметров регрессии. Этот подход является бесспорным с теоретичес- теоретической и практической точек зрения, но, к сожалению, доволь- довольно редко применимым, так как каждый исследователь стре- стремится привнести что-либо свое в обработку, в набор регрессо- ров, численные значения, приписываемые градациям качест- качественных регрессоров. Простое повторение проведенных други- другими исследований мало популярно. Другое дело, если обработ- обработка данных, собранных в разных местах по единой программе, проводится централизованно. В этом случае использование байесовского подхода может существенно уменьшить разброс в оценках параметров для каждого из массивов данных за счет привлечения к оцениванию информации о распределении па- параметров в других массивах. Введение априорного распределения в ситуации неопреде- неопределенности. Стандартный подход здесь заключается в том, что элемент априорной вероятности распределения (9lf..., 9p,a) в модели G.2) берется пропорциональным [60] dBv..dQpda/a. G.53) Иногда говорят, что плотность априорного распределения про- пропорциональна 1/а: p(8i,...f вр> а) ~ 1/а. G.53') Правая часть G.53') не является плотностью в собственном смысле, так как интеграл от нее не определен, тем не менее при вычислении по формуле Байеса плотности апостериорного рас- распределения параметров формальных трудностей при работе с G.53) или не возникает, или они легко могут быть преодолены. Как мы увидим ниже в п. 7.3.2, выбор G.53) удобен в аналити- аналитическом отношении и, казалось бы, хорошо отражает полное отсутствие априорных знаний о распределении параметров. Однако в нем на самом деле скрываются очень сильные предпо- предположения: отсутствие корреляции между параметрами (не пу- путать с корреляцией между оценками значений параметров, ко- которая зависит от распределения регрессоров и величины а), пренебрежимая малость априорной вероятности того, что век- вектор параметров лежит в любом наперед заданном конечном объ- объеме, какова бы ни была его величина, и т. д. Это приводит по- порою к серьезным трудностям с интерпретацией результатов байесовского оценивания [70]. Субъективный подход. В этом случае исследователь исходя из профессиональных соображений просто постулирует ап« 8* 227
риорное распределение (в, а). Для дальнейших расчетов удоб- удобны две формулы для априорной плотности. В первой из них распределение 0 не зависит от распределения а: — в)' А @— 0)/2> (*-<*•+»> ехр / —^L?jL\ G.54) где v0 >0, с0, матрица А и вектор 0 выбираются исследова- исследователем. При этом априорная ковариационная матрица компо- компонент 0 А-1 предполагается невырожденной. Во втором случае ковариационная матрица компонент про- пропорциональна а2 и = "p(Ql, ..., 6р|а)р*(а)~ |А|/ х X ехр {-@-0)' А @ -0)/2а2} . a-<v«+!> еХр J — -^?<Ц G.55) I 2а2 J Основная трудность субъективного подхода заключается втом, что информация, полученная изданных, рассматривается на равных основаниях с распределением, построенным исходя из не полностью формализованных соображений. Однако этот подход может быть полезен, когда выборка мала. Некоторые соображения в пользу G.53') приведены в п.7.3.3. 7.3.2. Апостериорное распределение параметров. В дальней- дальнейших расчетах предполагается, что имеют место базовые пред- предположения мнк G.2), G.3), т. е. р(У\Х,в,о) —ехр{ — (Y — Х0)'(К—Х0)/2а2} = = — ехр {—[(п—р) s2 + (в—в)' X' X (в — в)]/2аа}, где ^ = G— Хв)'(У—Хв)/(«—р), в^Х'Х^Х'У— — мнк-оценка в. В предположении G.53'), р(в,а|У,Х)~-!-.р(К|Х, в, а). G.56) а 228
Откуда немедленно следует, что — 0)' X' Х@ _e)]-«/2f G.57) т. е. вектор 0 имеет так называемое многомерное распределе- распределение Стьюдента [60, с. 408—414]. Пусть. ти —элемент мат- матрицы М-1 = (Х'Х)-1, тогда величина F/ -*- fy)/s • (ml7I/2 имеет /-распределение Стьюдента с (п — р) степенями свободы, что может быть использовано при построении одномерных до- доверительных интервалов для компонент 0. exp{-(n~ _p)s2/2a2}, G.58) т. е. а имеет обратное гамма-распределение, получаемое из обычного гамма-распределения [14, табл. 6.3] заменой аргу- аргумента х на а = 1/]/"#. Априорная плотность вида G,55). В этом случае р(в; а\У9 Х)~ o>H,J!bVrH exp{-[voc§ + @ - в)' х X А @—0; +(Y — Хву (Y—X0)]/2a2} - ехр{-[гг'с2+@-0)' (А + X' X)@-0)]/2а2}, G.59) гдеп'-n+vo, п' c2 = voc20+Y'Y + в' Ав-в' (\ + + Х'ХH и в = [А + X'XJ-^Ae + X'K). G.60) Интегрируя по а, получаем апостериорную плотность /?@17, X) ~ [п' с2+@ —0)' (А+ X' X) @ — 0)]-(«Ч-р>/2# G.61) Априорная плотность вида G.54). В этом случае, повторив с очевидными изменениями проведенные выше с плотностью вида G.55) выкладки, получаем р@|У, X)~exp{-@-0)/A@-0)/2}.[voc§ + +у у —*0' X' Х0 + @ —Ъу XX' @ — 0)]-(«+v.+p)/2> G.62) где 0 — мнк-оценка 0. 229
7.3.3. Повторная выборка из toft же совокупности. Предпо- Предположим, что из одной и той же совокупности делается повтор- повторная выборка, и обозначим Yiy Xt вектор наблюдений и матри- матрицу плана, относящиеся к t-й выборке (i = 1,2). Выбираем в качестве априорного распределения параметров для первой выборки G.53'), тогда по G.56) апостериорное распределение р(в, о| Yl9 XJ ^ - Хгв)/2о*} Х(в-0)]/2а2}, G.63) где Vl = пл ~ р, Ч^ (Х( Xi)-1 X{ Гь Заметим, что G.63) имеет вид G.55) с v0 = vlf в = вх> А = Х[ХЬ с% = sf, т. е. G.63) можно рассматривать в каче- качестве апостериорного распределения, полученного по байесов- байесовскому методу для некоторой выборки при стандартном выборе G.53') априорного распределения. Возьмем теперь G.63) в ка- качестве априорного распределения для второй выборки, тогда p(8f a\Ylt Xlf Г2, Х2)~ qJ.2+1 — в)'М(в—0)]/2а2}, G.64) где М = Х[ Хх + Х^Х2, 0-М-1 (X1Y1\+ + X2Y2), vs^s=(y1-X1S)'(y1-X1e) + (yr2-X2e)' X X(F2 — X26), v = nL+n2—p, но это тот же вид, что в G.63) для объединенной выборки. Та- Таким образом, два процесса дают одно и то же апостериорное распределение параметров: 1) объединение массивов двух вы- выборок с построением апостериорного распределения с исполь- использованием предположения G.53') и 2) использование предпо- предположения G.53') в качестве априорного только для первой вы- выборки и получившегося апостериорного распределения для первой выборки в качестве априорного для второй. 230
7.4. Многомерная регрессия При изучении эконометрических моделей (см. гл. 14), описа- описании результатов сложных химических реакций, измерениях с помощью дублирующих приборов приходится сталкиваться с ситуацией, когда для каждого заданного значения регрессора X = (л:A), ..., х^У наблюдается не одномерный, как в преды- предыдущих параграфах этой главы, а векторный отклик У = (г/A\ ..., у{1)У. Соответствующую математическую задачу называют многомерной регрессией, или, более точно, многооткликовой регрессией (multiresponce regression) (п. 7.4.1). По сравнению с мнк-методом обычной регрессии (§ 7.1) оценка параметров множественной регрессии в общем случае усложняется, так как приходится одновременно оценивать параметры регрессионной зависимости и ковариационную матрицу случайных ошибок (п. 7.4.2). По аналогиис§7.2 для многомерной регрессии уда- удается построить оценки параметров, устойчивые к отклонениям от предположения нормальности распределения случайных ошибок (п. 7.4.3). В заключение обсуждается задача использо- использования понятия множественной регрессии для параметризации распределения многомерного вектора (п. 7.4.4.). 7.4.1. Случай известной ковариационной матрицы ошибок. Пусть дана последовательность наблюдений (Xit Yt)y i = 1, ..., п, и при этом предполагается, что y« = f (Хь в) + ги i= 1, .... л, G.65) где f (Хи в) = Е (Yt | Xt) — /-мерная векторная регрессион- регрессионная функция от X, известная с точностью до значения неиз- неизвестного векторного параметра 0 = @A>, ..., 0(/))'. Рассмотрим модель, линейную относительно 0 (см. G.1)): f (X, 0) - V (Х).0, (Х) 0 ... О О WW(X)... О где ЧГ(Х)*= О О матрица — функция от X, а (X) — известная Векторы случайных ошибок гг = (е<}>, еф ,..., e<z>) взаим- взаимно независимы и имеют невырожденное /-мерное нормальное распределение с Ее = 0 и Еег' = V (Хг). Для упрощения обозначений будем писать Ч^ и Vj вместо Ч*1 (Xt) и V (Хг). 231
В случае когда Vit известны и Мп определенное G.67), начиная с некоторого л, имеет полный ранг, наилучшая ли- линейная оценка для в имеет вид [1171: вп^Мд1^, G.66) где Mn^n^jg^Vr1*/; G.67) Z^n-^WtWF'Yt. G.68) Формулы G.66) — G.68) легко могут быть получены из G.20), если рассмотреть п наблюдений /-мерного вектора как 1-п наблюдений одномерных векторов с известной блочно-диа- гональной (с блоками V^ размера 1x1) ковариационной мат- матрицей между ними. В сделанных предположениях оценка G.66) состоятельна, несмещена и нормально распределена. Ее ковариационная мат- матрица равна: Е(вп— @)(вп-в)'=п-1М;1. G.69) 7.4.2. Случай неизвестной ковариационной матрицы ошибок, не зависящей от значения предикторной переменной (V (Хг)= = V). По аналогии с G.66) в рассматриваемом случае оценка в находится из решения уравнения Мп(в).в = гп(в), G.70) где G.71) zn (в)=я-12 4r«-v~1 <в)-у«; G-72) lf/e)'. G.73) /=i Решение G.70) удобно искать с помощью итерационной (по /) процедуры вида вт = Mn (&t) Zn (Qt). При выполнении дополнительного требования, что матрица М= EY (X) V-1 V (X) G.74) 232
невырождена, в [137] показано, что в окрестности истинного значения в итерационная процедура сходится с вероятностью, стремящейся к 1 при я-»- оо. В общем случае уже нельзя га- гарантировать единственность решения G.70), а можно лишь ут- утверждать, что при п -»¦ оо среди решений G.70) можно выде- лить последовательность 0П, сходящуюся к истинному значе- значению ©. Эта подпоследовательность асимптотически-нормаль- асимптотически-нормальна с параметрами в и п М. 7.4.3. Эв-оценки. Введённое в п. 7.2.4 понятие экспоненци- экспоненциально-взвешенной регрессий (А-регрессии) допускает естествен- естественное обобщение ни случай многомерной регрессии. При этом сох- сохраняется геометрическая интерпретация эв-регрессии с очевид- очевидным перенесением на многомерный отлик определений 7.1—7.4. Приведем только основные расчетные формулы, взяв за осно- основу итерационный процесс, описанный в предыдущем пункте, и модифицировав его согласно G.39), G.40): wx. i. t = exp{-%(Yt-4l <dt)' VjC1 F,) (Yt-T/ 0,)/2>; G.75) 1 (Щ Y J 2 wK и t J G.76) / i=l ' IS *>к/.*; G-77> / *=i G.78) 2 «>ь.1^(уг—чг; em) x ^,^. G.79) i 7.4.4. Использование многомерной регрессии для параметри- параметризации многомерных распределений. Плотность р (X) распре- распределения р-мерного случайного вектора X = (Х<х>; Х<2>)' = =(х<1>, ...,a:<s>, ^s+1>, ...f jcW)' всегда может быть представлена в вид^ р (X) = рх (Х<х>) р2 (X^fX*1)). В гауссовском случае, когда р(Х)*=<р(Х; М, S), a Af = (A«(»f Af<2>) и S = —вектор средних значений и ковариационная матрица, разбитые в соответствии с раз- разбиением вектора X, 233
М Замечательная особенность многомерного нормального рас- распределения состоит в том, что ковариационная матрица услов- условного распределения ХB) при фиксированном значении ХA> не зависит от ХA) [20]. В общем случае это не так, и описание условного распределения значительно сложнее. Для описания многомерного распределения предлагается распределение части координат (ХA)) аппроксимировать стан- стандартной нормальной моделью или считать таким, как оно получилось в выборке, а распределение остальных ко- координат (Х^) заменить на надлежащим образом подобран- подобранный (р—5)-мерный нормальный закон со средним, линейно зависящим от ХA), и ковариационной матрицей V условного распределения ХB> при фиксированном значении ХA), от ХA) не зависящей. Но это и есть модель линейной многомерной рег- регрессии, в которой ХA)играет роль предикторной точки-наблю- дений (X), ХB> — роль многомерного результирующего по- показателя (У), Е (ХB)|ХA)) — многомерная регрессия ХB) на Х^\ а ХB> — Е (ХB)|Х^>) — регрессионные остатки с кова- ковариационной матрицей V. Если в основу подбора параметров многомерной регрессии при описании распределения ХB> положить требование совпа- совпадения не обычных, а взвешенных моментов условного распреде- распределения Х<2> при известном значении Х^\ то при соответствую- соответствующем выборе весовой функции можно прийти к использованию эв-регрессии. 7.5. Оценивание параметров при наличии погрешностей в предикторных переменных (конфлюэнтный анализ) 7.5.1. Основные типы задач конфлюэнтного анализа. При ана- анализе функциональных связей между переменными (см. § В.5, зависимости по схеме D) можно выделить следующие два слу- случая. 1. Имеются две группы переменных r\ ? Rm и X?R?. Переменные из первой группы известны экспериментатору со значительно большей ошибкой, чем из второй. В э1юм случае целесообразно работать с зависимостями вида Л = f (X; в). G.80) Функция f (X; в) предполагается заданной, и отыскание истинной зависимости заключается в оценивании параметров 234
0 ? jR*. Переменные X могут трактоваться как предикторы (предсказатели): задаваясь каким-либо их конкретным значе- значением, можно предсказать значения переменных т|. Если пере- переменные X в процессе эксперимента могут изменяться по усмот- усмотрению экспериментатора, то говорят о контролируемых пере- переменных. Переменные г\ часто называют откликами. 2. Если все переменные, с которыми имеет дело эксперимен- экспериментатор, известны примерно с одинаковой точностью, то имеет смысл использовать зависимости, представленные в виде М (X; в) = 0. G.81) При этом по-прежнему иногда удобно разделять перемен- переменные на результирующие (т]) и объясняющие (контролируемые- X: М (% X; в) = 0: G.8Г> Ниже основное внимание уделяется регрессионным моде- моделям, связанным с представлением G.80), и лишь в заключи- заключительной части рассмотрены модели, порождаемые G.81 ')• Регрессионные модели, связанные с G.80). Возможно не- несколько постановок регрессионных задач, в основе которых ле- лежит зависимость G.80). Перечислим наиболее характерные из них. Читатель без особого труда сможет построить и некоторые промежуточные или смешанные конструкции. Классическая регрессия (см. §5.1.). В результате экспери- эксперимента (наблюдения) оказываются доступными величины Yt = = t\i + fy и Xiy где гг — случайные величины (погрешности наблюдения). Иными словами, Yt = f (Xt; в0) + *i, i - 1,2 п. G.82) Подчеркнем, что значения предикторных переменных (усло- (условий наблюдения) известны точно. Нижний индекс 0 здесь и да- далее в этом параграфе обозначает истинное значение помечен- помеченной им величины. Погрешности при фиксации условий наблюдения (активные эксперименты). Во многих экспериментах i-e наблюдение проводится при условиях Xiy несколько отличных от желае- желаемых Xoi: Xt = Xoi + eXi, где Ext — случайные величины (по- (погрешности фиксации). Таким образом, экспериментатору до- доступны величины Yt= r\i ¦+• гг и Xoi, связанные между собой соотношением Yt = t(Xoi+Bxi,Qo) + *i, ;=1,2, ..., п. G.83) Пассивные наблюдения. Нередко (например, вэконометри- ческих, социологических исследованиях) возможно лишь наб- 235
людение за одновременным изменением переменных ц и X. Если эти наблюдения проводятся с некоторыми случайными погреш- погрешностями, то для анализа становятся доступными величины Yt = Чь + 8г и Xt = Xoi + eXi, или, в несколько более под- подробной записи, Х1 = По-видимому, впервые достаточно четкое разделение моде- моделей G.83) и G.84) было осуществлено в [167], см. также [65, гл.29]. Регрессионные задачи G.82)—G.84) содержат много общего- как в постановке, так и в методах анализа. Более того, мы соз- сознательно ограничимся рассмотрением именно тех методов, ко- которые базируются на методе наименьших квадратов, широка используемом для классических регрессионных задач. В то же время внимание читателя будет обращено и на некоторые прин- принципиальные различия в методах анализа соответствующих рег- регрессионных задач. 7.5.2. Модифицированный мнк для схемы активного экспери- эксперимента. Обратимся вначале к регрессирнной задаче G.83), кото- которая наиболее близка к классическому случаю. Пусть анализируется единственный результирующий пока- показатель (т = 1) и: а) случайные величины гг и е*$ = Y'Vj, фигурирующие в G.83), независимы в совокупности и Ее, = 0, Ee?=a2, Eex/==0, E(vrv/) = d; E(|vJO v<*> vj'> |) <c<Joo, f = 1, 2, ..., n; /, q, r= 1, 2, ..., p; с — некоторая константа, d — матрица р X p, vt — стандар- стандартизованная (например, da =1) случайная величина; б) су- существуют равномерно ограниченные на множестве допустимых условий наблюдения Х01-, 1=1, ..., п, производные по X функ- функции f (X; в) (см. G.83)) до третьей включительно. В рамках предположений а) и б) имею! место соотношения: Eyt = E[f(xoi+w9 ej+*i]=7(Xo*; ©o)+o(v3); Dyi = X-*(Xoi; eo)+,O(v3), G.85) где D ( ), как обычно, означает дисперсию соответствующей случайной величины, 236
Заметим, что yui — 1, п—независимые случайные величи- величины. Таким образом, регрессионная задача G.83) с точностью до О (у3) сводится к регрессионной задаче G.86) где EjXf = 0, Ejif = X (Xoi\ в0). Отличие G.86) от G.82) заключается в том, что дисперсия погрешности зависит от неизвестных параметров в0, a2, d. Подобным задачам посвящена довольно обширная литература (см., например, [12, 86, 138]. Остановимся на простейших оценках (or2 и d известны), пред- предложенных в [182, 138]. Они определяются как предельная точ- точка следующей итерационной процедуры: G.87) S-*oo 6S = arg min л-1 2 Л- (Xoi, в.-i) Wt - J (Xot, в)]2, или ее модификацией, близкой к методу Ньютона — Рафсона: 6S = в..х Л-^-Zn1 (в,.,)- Wn F...0, G.88) где Zn (в) = п-1 2 А.(Хо|, Щ-Р (Хв„ в) F' (Х„, в); ; e)]F(X0J; в); Множитель as выбирается так же, как и в обычной процеду- процедуре Ньютона — Рафсона. Во избежание усложнений теорети- теоретического плана предполагается, что 68f Q для любого s. Если в дополнение к условию а) из п. 7.5.2 и к условиям, сформулированным в комментариях к G.85), потребовать: в) последовательность ^Х(Хог;во)[/(Хо!;в)- 237
сходится равномерно по Of fi, причем lim v\ @) = у2 (в), и функция v2 (в) имеет единственный минимум при в = в0; г) при всех G ? Q существуют^ непрерывные по в произ- водные в—' и f ^ q,—-, и последовательности -1 2 2 ь во)Ф(Хо,; в)-ф(Хв|; 0)J, где функции ф (Хог-; в) и яр (Хо/; в) могут совпадать с любой из указанных выше производных, сходятся равномерно по е g Q; п д) матрица Z@O)= lim/г 2 ^(^оь ®о) X x/(Xof;eo).F'(Xo,; в0)- неособенная, тогдл: 1) lim Рп = 1, где Рп — вероятность того, что при выбор- ке объема /г процедура сходится; 2) оценка 0П, определяемая G.87), сильно состоятельная, причем если при данных Хо G.87) имеет несколько решений, то за в,, принимается любое из них; 3) опенка вп асимптотически-нормальная, т. е. lim Р {Уп (вп-в0) <t} = Oh (t\ 0, Z-Цв,)), причем Z., @П) (см. G.88)) является сильно состоятельной оцен- оценкой матрицы Z @О). Отметим, что Данная теорема говорит о свойствах оценок для задачи G.86). Для исходной регрессионной задачи все утверждения верны лишь в рамках приближения G.85). Оценки G.87) достаточно просты как с точки зрения их ста- статистического анализа, так и с вычислительной точки зрения. Однако они не могут быть использованы при неизвестных а2 и d. Небольшое усложнение оценок G.87) позволяет преодолеть 238
эту трудность. Рассмотрим следующую вспомогательную рег- регрессионную задачу: Eg,=:Of E&*=b-4Xoi; 68). G.89) В отличие от G.85) в G.89) не предполагается какой-либо специальной структуры X (Хо?; во). Более того, функции g (Хо; во) и К (Хо; во) могут зависеть от разных групп пара- параметров, входящих в во. Чтобы избежать непринципиальных усложнений, будем предполагать, что случайные величины %i распределены нормально (в исходной задаче следует пред- предположить нормальность е и v); при этом в G.85) остаточный член, впрочем, как и для любого другого симметричного рас- распределения, будет равен О (у4). Оценки параметров 0* определяются следующим образом: G.90) = arg min n-i S U(Xoh @t-i)lyi~g(Xoiy 0*)]2 + Свойства оценок G.90) можно проанализировать примерно так же, как это делается в [182] с оценками G.87). Предположим, что функции g (Хо; 0*) и А,-1 (Хо', В*) удов- удовлетворяют условиям, аналогичным (г), а функция + условию в). Введем матрицу ОЛв*)^»-1 S [Л.(Х.«; в*)р(Х0|; в^р'(Х„; ©*) + 1=1 ±W(Xol; Q*)q(Xol; ©*)<7'(Xoi; 0*)}, 239
и потребуем {ср. с в)), чтобы существовала матрица G FJ) = = lim Gn (во) и чтобы она была невырождена. В рамках сделанных предположений: 1) lim Рп = 1, где Рп — вероятность того, что итераци- П-*-оо онная процедура G.90) сходится при выборке объему л; 2) оценка 6J — сильно состоятельная, причем если при данном п имеется несколько решений, то за в« принимается любое из них; 3) оценка в„ асимптотически-нормальна, т. е. limР{Vn (SI— 08)</} = Фк(t; 0, G-1 @J))f причем матрица Gn (&n) является сильно состоятельной оцен- кой матрицы G (во). Выше предполагалась нормальность распределения слу- случайных величин It. Результаты остаются в силе, если потре- потребовать, чтобы 1г имели конечные четыре момента, и заменить всюду «агрегат» ^ X (Xoi; в*) на тГ\(Хьи в*), где Конечно, на практике знание четырех моментов весьма про- проблематично. Но первые два пункта останутся справедливыми и без такой замены, хотя выражение для асимптотического зна- значения дисперсионной матрицы примет при этом несколько бо- более сложный вид. Интересно отметить, что в тех случаях, когда процедура G.90) сходится, т. е. вп определено, то предложен- предложенная оценка совпадает с оценкой максимального правдоподобия. Сформулированные утверждения позволяют получить некото- некоторые полезные результаты для исходной задачи. Если параметры а2ис1 известны (см. комментарии к G.87)), то р (Хо; в) = F (Хо; в) и дХ Асимптотическое значение ковариационной матрицы 2 определяется матрицей GF8)=[lim л-1 2 [М*о*; 68) .F(Xoi; 68) F' (Xoi; 68) + i; eg) .?(XOI.; ej).?(Xel; в»]. 24a
С точностью до О (у4) данная матрица совпадает с матрицей Z F0), т. е. в рамках используемого приближения исходной задачи усложненная итерационная процедура G.90) не при- приводит к оценкам асимптотически лучшим, чем G.87). При не- неизвестных d и а2 можно без труда построить матрицу G (вв; ag; d0), имея в виду, что Из двух последних формул видно, что а2 и d оцениваемы раздельно, если компоненты вектора (О, F') или вектора A, рBУ) линейно-независимы на множестве точек Хь..., Хп. 7.5.3. Пассивные наблюдения. В теоретическом плане регрес- регрессионная задача, определяемая G.84) и условиями а) из п.7.5.2> оказывается существенно сложнее регрессионной задачи G.83). Тем не менее ввиду своей актуальности она уже давно привлек- привлекла внимание статистикой. По-видимому, первая работа, посвя- посвященная задаче G.84), появилась в 1901 г. [235] и содержала идею, лежащую в основе практически всех результатов, свя- зайных с упомянутой задачей. Идея предельно проста: за оцен- оценки параметров 0 принимать те значения, при которых мини- минимально суммарное расстояние точек (Хоь t/i) от поверхности у sb f (Х;6) в легко интерпретируемой метрике, т. е. :arg min JJ //(в), G.91) 241
где 6) Оценки G.91) называют оценками метода наименьших рас- стояний. Ниже рассмотрен приближенный вариант этих оце- оценок, позволяющий обойтись численными процедурами, разви- развитыми для метода наименьших квадратов. Несложные вычисле- вычисления приводят в линейном случае (/ (X; в) = в'Х) к простой формуле 1!=^(у1 — в'Х01)У(о2+уЮ' d&). В случае произволь- произвольной функции / (X; 6) (но имеющей необходимое количество производных) и при ошибках ег и v^, удовлетворяющих усло- условиям а) из п. 7.5.2, имеет место приближенная формула G.92) где Х0 Определим оценки следующим образом: вп = arg min |] К (Xoi; 0) (yt - f(Xoi; в)J. вй & и d(x;e) = G.93) Введем функции Пусть выполняются условия а) —д) из п. 7.5.2 с очевид- очевидной заменой F (Хо; в) на F~(X\ в) и /(Хо; в) на? (Х\ в) и до- дополнительно существует предел ; 0о) • d {Xu 0О); z (О0) = lim м-1 тогда в рамках приближения G.92): 1) оценка G.93) и сильно состоятельна и асимптотически- нормальна, т. е. lim P {Vn (в„-0О) < 0 = Ф, (t; 0, 2^.), 242
где 2U = Z1 (в0) [Z (в0) + y> z (в0)] Z* (в0); 2) сильно состоятельными оценками матриц Z (в0) и z (в0) являются соответственно матрицы л-1 2 МХоГ, ©n) [F(Xot; 0n) F' (X0f;en) 2 /=1 Ряд полезных результатов, описывающих поведение «при- «приближенных» оценок в рамках исходной модели G.91), обсуж- обсуждается в [81]. При подсчете оценок G.93) оказывается удобным введение фиктивных наблюдений */ф ==г 0 и отклика f(Xoi; в) =,*»/* (*of, в)[у,-?(*„; в)]. Для минимизации функции можно обратиться к любой программе нелинейного мнк. Обыч- Обычно в этих программах в качестве оценки ковариационной мат- матрицы используется матрица 2^ (n) = Ъ~\, где Z =п-1 V дГ(Х0;; 6) df(Xoi; в) Можно показать, что Zn -> Z (в0) + y2l2 (®о) ПРИ п ~** °° почти наверное, т. е. 2в (л) является заниженной оценкой дисперсионно-кова- дисперсионно-ковариационной матрицы 2^ч. 7.5.4. Некоторые принципиальные отличия регрессионных задач G.83) и G.84). Как нетрудно видеть, в первом случае любая оценка вида 243
является сильно состоятельной. Оценка G.87) является по эф- эффективности асимптотически эквивалентной наилучшей (т. е. с оптимально выбранными весами ю*) среди них. Для задачи G.83) оказывается возможным состоятельно оценить парамет- параметры 0, не используя информации о Дисперсиях а2 и d. Этот факт позволяет в свою очередь говорить о состоятельном оценива- оценивании параметров а2 и d (см G.90)). В случае G.84) отсутствие информации о а2 и d не позволяет построить состоятельных оце- оценок параметров 0. Подобный результат был впервые отмечен, по-видимому, в [223]. Другим, менее существенным отличием является знак поп- поправки к функции / (Хо; 0) в схемах активного и пассивного экспериментов. 7.5.5. Неявное задание отклика. В тех случаях, когда пере- переменные, подверженные ошибкам, не разделяются естествен- естественным образом на две группы (зависимые переменные и предик- предикторы), целесообразно обратиться к рассмотрению неявных зави- зависимостей G.81). Будем рассматривать модель М (Хо; 0) = 0,Xi = X0i + е,, i ^TTT. G.94) Экспериментатору известна функция М (Хо; 0) и искажен- искаженные наблюдения Xt. Переменные % входящие в G.8Г), опу- опущены, так как их введение непринципиально для последующих результатов. Предположим, что ошибки е* = yvt удовлетворяют следую- следующим правилам: они независимы в совокупности и Evt =* 0, Е (vz. v/) *= d, Е (| vf> v<*> vj'>|) < с < oo, i=l,2, ...,ai; /, <7,r=l,2, ...,/?. Так же, как и выше, рассмотрим оценки метода наименьших расстояний: ^ G.95) где /?(©):= гшп(Х;-Х01.)' d-1^*-^); M(Xoi; Пусть вначале М{Х0; 0)=1+®'^о- Тогда Г* 6'de * <== 1 244
что, по существу, совпадает с G.91). Если М (Хо; в) = 1 + в' г|> (Хо), то, полагая дХ -и с точностью до О (y3) G.85) можно переписать в виде В случае произвольной параметризации с точностью до O(y3): вп= argmin у где М (Xt; в) = М (Хг, 0) — -?- Sp Для оценок вп имеют место результаты, практически пол- полностью аналогичные изложенным в п. 7.5.3. В заключение отметим, что в [86] можно найти описание конкретных реализаций на ЭВМ описанных выше алгоритмов. 7.6. Оценивание в регрессионных моделях со случайными параметрами (регрессионные задачи второго рода) ISA. Постановка задачи. Рассмотрим следующую модель: i=\7nh /=ТГ^ G.9б> где случайные величины е^ при фиксированном / удовлет- удовлетворяют стандартным требованиям: Ее^=?=0, Е (еув^)=вд»вЛ Параметры 0у предполагаются случайными, причем в} == 245
(i/ .... в„), ESj - e0> E l(Qj - 0O) @,- - eoI = 2. В зависимости от постановки задачи вектор в0 и матрица 2 мо- могут быть илизаданы, или неизвестны. Величины 07- и ги пред- предполагаются некоррелированными. В практических исследованиях индексом / может служить, например, номер предприятия из совокупности аналогичных, номер партии сырья, номер пациента из группы больных, под- подвергающихся одному и тому же способу лечения, и т. д. В тех случаях, когда выясняется поведение каждого /-го объекта,^необходимо решать задачу об оценивании параметров 0у, / = l9k. Если же необходимо понять поведение всей сово- совокупности объектов, то приходится говорить об оценивании век- вектора 0О. 7.6.2. Случай, когда средние значения 0О и ковариационная матрица 2 оцениваемых параметров известны (требуется оце- оценить параметры ©у). Необходимо, чтобы оценки удовлетворяли следующим требованиям (ср. с. § 7.1): == Li в; = 0; G.97) )=E[(в,-е,)(в,-е,)']*= min где В G.97) подразумевается, что матрица В* является реше- решением экстремальной задачи А (В*) = min А (В), где А (В)— положительно .полуопределенная матрица при всех допусти- допустимых В, если выполняется матричное неравенство А (В) ^ А* >() По аналогии с§7.1 нетрудно получить (см. например, [135]), что в, = (М, + S-M-i (S-i в0 + Y,)\ G.98) где 246
2 Очевидно, что D (в7) ^ D (ву), где Qj — обычная мнк- оценка (в = М~/^). Выше предполагалось, что дисперсия а2 задана. В противном случае в G.98) следует использовать какую-либо подходящую оценку этой величины, например 2 ev- ¦ Конечно, два последних требования из G.97) будут при этом выполняться лишь приближенно. Данное замечание от- относится и к случаям, рассмотренным в п. 7.6.3 и 7.6.4. Нетруд- Нетрудно проверить, что оценки G.98) могут быть получены так же, как решение следующей экстремальной задачи: 6,*= argmjnjo2 2 (Уц-в'ПХи))*+(в-е0)' 2-1(в-0оI. G.99) 7.6.3. Случай, когда известна только ковариационная матрица 2 (требуется оценить параметры Qj и 0О). Начнем с оценки для 60. Регрессионная задача G.96) может быть переписана в виде причем из свойств случайных величин 6У- и е^- следует S; = a4rt/ + F/ SFif v/ = (vu> ..., vnji). В соответствии с 115] (случай коррелированных наблюде- наблюдений) наилучшие линейные оценки имеют следующий вид: в^ЛГ1?, DF0) = J^, G.100) где 247
Формула G.100) приводит к весьма громоздким вычисле- вычислениям, особенно при tij > /, вследствие необходимости обраще- обращения матриц Sj-, / = 1, k. Можно уменьшить объем вычислений, если прибегнуть к формуле которая является очевидным следствием известной формулы [117] (А + ВСВ')-1 = А-1—А-1 В (В' А-^В+С-^В'А-1. При |F/F/| Ф 0 удается добиться дальнейшего упроще- упрощения вычислений. Оказывается, что где Qj = M~}Yj. Иными словами, в0 является линейной ком- комбинацией наилучших линейных несмещенных оценок для каж- каждой /-й серии наблюдений без учета случайного характера в/, ^го позволяет проводить основную часть расчетов по стандартным алгоритмам линейного регрессионного анализа. Вычисления становятся совсем простыми, если F? s F, т. е. планы экспериментов над различными объектами одинаковы. При этом 0О = ft-i 2 ® ^ где М = a2FF' Оценки 07- вычисляются по формуле G.98) с заменой в0 на оценку в0. 7.6.4« Случай неизвестных 80 и S (требуется оценить в/, О0 и S). В качестве оценок Qj можно использовать G.98), если 0О и S заменить на любые подходящие оценки. Например, в качестве таких оценок можно выбрать следующие величины: в0 ^0з, в; )-1; G.101) 248
Если F; = F, то итерационная процедура G.101) оказыва- оказывается состоящей из одного шага: eo^k-* 2s* s=(ft-i)^2 (б,-ео)(е,-~во)'. выводы 1. Общая математическая модель линейной регрессии имеет вид Y = X© + е, где Y — (п X 1)-вектор наблюдений, X = (Хх... Хп)'— (п X р)-матрица плана экспериментов, Xk — регрессор й-го наблюдения, в — (р X 1) -вектор не- неизвестных параметров, г — (п X 1) — вектор случайных ошибок. В классической постановке задачи линейной регрес- регрессии предполагается, что 8 ? Л/" @, оЧп), где 1П — (п X п)- единичная матрица. Оценки по методу наименьших квадратов (мнк-оценки) отыскиваются из условия минимизации по 0 величины \\Y — Хв||. Когда |Х'Х|=т^0 (ранг X равен р), в = (Х'Х^ХТ. Оценкой а2 является s2 = \\Y — Х0|| /(/i — г) где г — ранг матрицы X. Случай, когда г ? N @, a2V), где V— известная положительно определенная матрица, легко сводится к рассмотренному путем линейного преобразо- преобразования Y и X. 2. В классических предположениях в случаях, когда матрицу плана экспериментов можно представить состоя- состоящей из k взаимоортогональных совокупностей столбцов X = (Xlv...9 Xft), X/X; = 0, 1=7^/, вычисления значительно упрощаются, и компоненты вектора 0=(©A>',..., ©<*>') , соот- соответствующие Xk, оцениваются независимо друг от друга. Для проверки гипотез Я?:0(/> = 0 (ранг X/ равен rt) исполь- зуются отношения F = ©^'Х/Х^в^/г^2, имеющие, когда Ht верно, F (rt, n—/^-распределение. 3. В классических предположениях мнк-оценки совпада- совпадают с оценками максимального правдоподобия и явля- являются наилучшими среди всех несмещенных оценок 0. Однако при отклонении распределения г от нормаль- нормального в сторону увеличения вероятности больших отклоне- отклонений мнк-оценки быстро теряют свои оптимальные свойства. В связи с этим в практической работе широко используются функции потерь р(и) Ф и2. Среди них выделяется функция ря, (и) = А,-1 A — ехр {— А,м2/2}), при К -> 0 стремящаяся к и2/2, а при и -*- оо (X > 0) имеющая горизонтальную асимпто- асимптоту. Она приводит к так называемым эв-оценкам параметров регрессионной зависимости (эв-регрессия или Х-регрессия). Эти оценки устойчивы к нарушению предположения нормаль- 249
ности, имеют наглядную геометрическую интерпретацию, для них (при весьма общих предположениях) получены асимптоти- асимптотические (при п -> оо) разложения. 4. Формой учета априорных сведений о распределении пара- параметров регрессионной модели является байесовское оценива- оценивание. При этом следует различать три подхода: частотный; стан- стандартные рекомендации, как поступать в условиях неопреде- неопределенности; субъективный. Частотный подход не вызывает воз- возражений с методологических позиций. Во втором подходе апри- априорная (несобственная) плотность распределения параметров полагается пропорциональной clG^1)... d9(p)da/a, что приводит порою к серьезным интерпретационным трудностям. Основная трудность субъективного подхода состоит в том, что информа- информация, полученная из данных, рассматривается на равных осно- основаниях с распределением, получаемым из не полностью фор- формализованных соображений. Вместе с тем байесовское оценива- оценивание обладает замечательным свойством — если выборка раз- разбита на две части, то эквивалентны результаты двух подходов к оцениванию: 1) применение байесовского оценивания к первой выборке, использование полученного апостериорного распределения в качестве априорного для второй и повторное байесовское оце- оценивание параметров второй выборки; 2) одномоментное применение байесовского оценивании к объединенной выборке. 5. В экономических и технологических исследованиях при фиксированном значении регрессора X часто рассматривается многомерный отклик Y = W (Х)Э + е, где Y — (/X 1) - вектор наблюдений при значении регрессора X, 41* — извест- известная (/ х р)-матричная функция X, в — (рх 1)-вектор неизвест- неизвестных параметров, а е — (/X 1)-вектор ошибок ? N (О, V), где V — неизвестная положительно определенная (/ X /)- матрица. Оценка вектора в многомерной регрессии проводится одновременно с оценкой матрицы V путем итеративного реше- решения нелинейной системы уравнений. Разработаны устойчивые методы оценки многомерной регрессии. Многомерная регрес- регрессия может использоваться при описании многомерных распре- распределений. 6. Во многих задачах регрессионного типа разбиение перемен- переменных на две жесткие группы (в первую входят переменные, наблюдаемые с ошибкой, во вторую — переменные, значения которых известны точно) оказывается неадекватным реальному положению дел: все переменные наблюдаются или фиксируют- фиксируются с некоторыми ошибками. К настоящему времени в литера- литературе предложен ряд моделей, описывающих подобные ситуа- 250
ции. Соответствующие им оценки базируются в основном на традиционном мнк. 7. При анализе поведения схожих объектов (например, реак- реакция однородной группы больных на испытываемое лекарство) удобно использовать регрессионные модели второго рода (на- (например, уи=в/ -1(Хи)-\-еи, где индекс/ соответствует номеру объекта). Предполагая, что параметры 67- (точнее, их измен- изменчивость) могут быть описаны некоторой вероятностной мо- моделью, удается построить оценки, которые оказываются эф- эффективнее оценок, строящихся в отдельности для каждого /-го объекта без учета имеющейся информации о других схожих объектах. В формальном плане эти оценки оказываются во многом схожи с байесовскими оценками. Глава 8. оценивание параметров регрессии в условиях мультиколлинеарности И ОТБОР СУЩЕСТВЕННЫХ ПРЕДИКТОРОВ 8.1. Явление мультиколлинеарности и его влияние на мнк-оценки Рассмотрим обычную модель линейной по параметрам регрес- регрессии с неслучайными переменными X = A) ))' Еь 1=1, П. (8.1) Оценки коэффициентов регрессии G получаются из решения системы уравнений (см. п. 8.6.1) (8.Г) где S — матрица ковариаций объясняющих переменных раз- размера р X р, Сух — р-мерный вектор оценок ковариаций между объясняющими переменными и у. Пусть теперь X = (д:A>,..., х(р))' — вектор, компоненты которого суть средние значения предсказывающих переменных п !</) = -L JJ *</>. (8.2) п ._ Тогда с учетом очевидного тождества для свободного „член а— 90 = Еу — Х'в, его оценка может быть записана в виде Эо = 251
= у — X' 6, где у = - 2i/i — оценка среднего значения Еу. Предсказанное значение у может быть вычислено по одной из следующих формул: у* = 6о + Х{ @ или yi = #4-X/f в, (8.3) где Xic = Xt —X — центрированный вектор X. Матрица ковариаций между оценками параметров запи- запишется V@) =J-o2S-1, (8.4) п а ее оценка VF)=-Ls2S-i, (8.4') где s2 — несмещенная оценка а2 (см. § 11.1). Далее иногда будут использоваться и стандартизованные (нормированные) объясняющие переменные (jc</>— ~x{i))/oh (8.5) где ^ п гт? — — V (yV) ~Y(i)\2 (Я Ъ'\ \J l ?j уХ\ ' Лх ') у {СО ) of — дисперсия переменной х^К Оценки коэффициентов регрессии для стандартизованных переменных получаются из решения системы уравнений (8.6) где R — матрица корреляций объясняющих переменных, гух— вектор оценок корреляций переменных X с у, а? = - 2 (i/j —i/J» / = l Деление мультиколлинеарности возникает, если между объясняющими переменными существуют почти точные линей- линейные зависимости (в интервале их изменения, определяемого матрицей плана X). В случае существования точных линейных соотношений между переменными матрица S (а следователь- следовательно, и R) будет вырожденной и значит обычная обратная матри- матрица S" (R") не существует, а матрица X (мы рассматриваем 252
случай п>р) будет Матрицей неполного ранга. (Случай точ- точной линейной зависимости иногда называют «мультиколлине- арностью в строгом смысле»). В случае почти точных зависимо- зависимостей матрицы S и R будут плохо обусловлены (см. п. 8.6). Мультиколлинеарность в основном появляется в задачах пассивного эксперимента, когда исследователь, собирая дан- данные, не может влиять на значения объясняющих переменных. В активном эксперименте матрица данных X планируется (см. [ 136]), причем таким образом, что либо матрица S хорошо обус- обусловлена, либо априори точно известны линейные зависимости, имеющие место между строками (столбцами матрицы X), и, следовательно, ее ранг. Применение обычного мнк в условиях мультиколлинеар- ности приводит к некоторым нежелательным последствиям (ни- (ниже используются нормированные переменные): 1) значения нормы вектора оценок параметров Эй соответ- соответственно абсолютных величин отдельных его компонент могут быть очень велики; количественно оценить этот эффект можно, рассматривая величину среднего значения квадрата нормы век- вектора ^ + -2L & -L, (8.7) где kt (i=l—р) собственные числа матрицы R; если минималь- минимальное собственное число кт-т достаточно мало, то вклад второго слагаемого будет велик; 2) дисперсии компонент вектора в могут стать относитель- относительно столь большими, что оценки параметров будут статистичес- статистически незначимыми; из A1.11) легко получить, что дисперсия оцен- оценки параметра 9? равна: где Rf — коэффициент множественной корреляции между переменной х(/) и остальными предсказывающими перемен- ными; сама оценка параметра 9^ распределена по нормальному закону N (9?, Dfy) (см. A1.13)); очевидно, если Q что может произойти при величине R*, достаточно близкой к 1, то вероятность того, что значение |9*| превзойдет некоторый уровень, выбранный для отвержения нулевой гипотезы (т.е. гипотезы 9, = 0), будет мала; 253
3) абсолютные значения коэффициентов корреляции между оценками параметров 6? и 0у (/, /= 1,р; / ф /) близки к 1, что делает, например, бессмысленным построение доверительных интервалов отдельно для каждой из этих оценок (в подобных ситуациях приходится строить совместную доверительную об- область для обеих оценок); 4) величины оценок 0; существенно меняются при незначи- незначительном возмущении матрицы X (может измениться даже знак коэффициента 6г); здесь количественной характеристикой яв- являются числа обусловленности матриц X и R (подробнее о числах обусловленности см, п.8.6). Все эти эффекты затрудняют и без того сложную задачу ин- интерпретации коэффициентов регрессии или вообще делают не- невозможным ее решение без привлечения новых способов обра- обработки и дополнительной информации. В этих условиях нельзя применять уравнение регрессии и для прогноза значений пере- переменной у. В то же время если уравнение регрессии предполага- предполагается использовать для целей прогноза значений переменной у только в точках, близких к значениям объясняющих перемен- переменных хA), ..., х^из матрицы данных X, то оно может оказать- оказаться вполне удовлетворительным: независимо от степени связи между предсказывающими переменными качество уравнения регрессии определяется значением коэффициента множествен- множественной корреляции Ry.x между переменной у и переменными X (хотя при этом может быть необходимо принять некоторые предосторожности чисто вычислительного характера). Таким образом, последствия мультиколлинеарности тем серьезнее, чем больше информации мы хотим получить из имеющейся со- совокупности наблюдений. 8.2. Регрессия на главные компоненты Поскольку мультиколлинеарность связана с высокой степенью корреляции между исходными переменными, можно попытать- попытаться обойти эту трудность, используя в качестве новых перемен- переменных некоторые линейные комбинации исходных переменных, выбранные так, чтобы корреляции между ними были малы или вообще отсутствовали. Тогда матрица корреляций между оцен- оценками параметров относительно новых переменных будет близ- близка к диагональной, что существенно упростит интерпретацию. 254
Когда переменных немного или имеются некоторые априорные теоретические данные, выбор таких комбинаций может быть осуществлен из содержательных соображений; в более общей ситуации один из возможных подходов основывается на исполь- использовании так называемых главных компонент (см. [14, п. 10.5.2]), что приводит к регрессии на главные компоненты [195, 201, 219]. Пусть Ult..., Up — нормированные собственные векторы матрицы R, расположенные в порядке убывания соответствую- соответствующих им собственных чисел А,х ^ А,2 ^ ... ^А,р. Тогда /-я глав- главная компонента [14, п. 10.5.2] определяется как линейная ком- комбинация исходных переменных, коэффициенты которой равны компонентам /-го собственного вектора, т. е. z('> = 2 UtjX{i)- Поскольку главные компоненты некоррелированы, значе- значения оценок gj параметров gj регрессии при у-й компоненте не зависят от того, какие еще компоненты включены в уравнение регрессии, и равны: Ъ = r-±rr 2 4Л Ук = -~ G'yx U,), (8.9) где z(?> — значение /-й главной компоненты для fe-ro наблюде- наблюдения. Матрица ковариаций оценок g} диагональна, и непосред- ственно из A1.11) следует, что дисперсия /-го коэффициента gj равна: оа/(л—1)Я/, (8.10) т. е. ошибка коэффициента регрессии минимальна для первой главной компоненты и растет с увеличением номера главной компоненты. Квадрат коэффициента корреляции между /-й главной ком- компонентой и у П=& Vjflh^l (8.11) Отсутствие корреляции между главными компонентами по- позволяет легко организовать пошаговую процедуру отбора (см. п.8.7.3) информативных для предсказания у главных ком- компонент, результат которой в этом случае будет эквивалентен полному перебору. Рассмотрим следующие критерии отбора, использующие главные компоненты. 255
1. /-статистика для проверки значимости коэффициента регрессии при /й главной компоненте: В случае истинности нулевой гипотезы (gj = 0) эта величи- величина имеет /-распределение. Будем использовать схему пошагово- пошагового удаления переменных. Задаваясь некоторым пороговым зна- значением /удал, исключаем из уравнения регрессии /-ю главную компоненту, если (8.13) В силу независимости оценок параметров^-никакого пере- пересчета остальных крэффициентов при удалении той или иной главной компоненты проводить не надо. Обычно в качестве 'удал» выбирают значения /Otl, /0f05, /0|025 для /-распределе- /-распределения с соответствующим числом степеней свободы. Другой спо- способ выбора критического значения дан в п. 8.5.2 (см. (8.58)). Число степеней свободы зависит от того, какая оценка дис- дисперсии ошибки используется. Можно использовать мнк-оцен- ку дисперсии или, что эквивалентно, оценку дисперсии, полу- получаемую при включении в уравнение регрессии всех р главных компонент. Тогда число степеней свободы v = п — р — 1, а оценка дисперсии sa имеет вид: ^('-«Ь> (8Л4) п—р— 1 где Ry.p = Ry.x — оценка коэффициента множественной корреляции между у и всеми р главными компонентами. С другс^й стороны, пусть после удаления очередной главной компоненты /ft+1 осталось k главных компонент. Тогда, про- продолжая процедуру отбора, можно использовать оценку дис- дисперсии s|, соответствующую уравнению с оставшимися k глав- главными компонентами: п — где Ry.k — коэффициент множественной корреляции между у и оставшимися k главными компонентами. Поскольку главные р компоненты некоррелированы, то имеем R\.k = 2ЛГ<?> гДе |1 bt — 1, если главная компонента включена в набор главных 256
компонент, входящих в уравнение регрессии, и 0 — в против- противном случае. При такой оценке дисперсии число степеней сво- свободы v = п — k — 1. 2. F-статистика для добавочной информации. Используем пошаговую процедуру простого присоединения главных компо- компонент. Пусть в наборе уже имеется k главных компонент. Тогда из всех оставшихся главных компонент находим компоненту с максимальным значением F-статистики и включаем ее в уравнение регрессии, если выполняется условие F >/7вкл- В качестве критического значения FBWt берут значения процентных точек, например Fo,ObJ FOy02b Для ^-распределения с одной hv^ л — k — 2 степенями свободы. Если компонент, для которых выполняется условие F >/7вкл, нет, то процесс отбора главных компонент считается окон- оконченным. Можно показать, что использование /^-критерия при- приводит к тому же набору компонент, что и использование /-критерия с меняющейся оценкой дисперсии (8.15). 3. Величина собственного числа для t-й главной компонен- компоненты. Именно эта величина предлагается для отбора главных компонент в некоторых работах [163, 43, 219]. Если xA\...t х^ сильно взаимно коррелируют, то, начиная с некоторого номера iOy значения собственных чисел А,г-0+1, ..., Я7> близки к нулю, а соответствующие коэффициенты регрессии могут стать большими по абсолютной величине. Дисперсии оценок коэффи- коэффициентов регрессии, соответствующих этим главным компонен- компонентам, также будут велики. Отсюда следует целесообразность уда- удаления главных компонент с малыми собственными числами, т. е. полагаем gj = J J ffi 10, i • если XJ > ^кР; (8.16) если А,у<Азд, или, учитывая, что главные компоненты упорядочены по убы- убыванию собственных чисел, gj ;= \gJ> если /<V, (8Л6') [0, если /> i0, где i0 — первый номер, для которого выполняется неравенство ho < ^кр- 9 зак. 244 257
Критическое значение Якр обычно выбирается в виде К 2 где Sp (R) = р — след корреляционной матрицы; е — малая величина, например 10~5. Другой метод выбора числа компонент основан на общепри- общепринятой методологии использования главных компонент. Зада- Задаемся некоторой величиной доли следа а, близкой к 1, и вклю- включаем в уравнение регрессии компоненты до тех пор, пока Как только это неравенство перестает выполняться, вклю- включение компонент прекращается, и коэффициенты регрессии ос- оставшихся главных компонент объявляются статистически не- незначимыми. Подход к отбору главных компонент на основе величины собственных чисел эквивалентен регуляризации при вычис- вычислении псевдообратной матрицы на ЭВМ [17]. Он может быть ис- использован и при наличии точной линейной зависимости между переменными, которая, однако, «замаскирована» ошибками округления при представлении данных в ЭВМ. Однако процедуры отбора главных компонент, основанные на /-и F-статистиках, правильнее нацелены на решение сущно- сущности задачи, хотя при их использовании могут быть отброше- отброшены и некоторые главные компоненты, соответствующие боль- большим значениям kt (если они слабо коррелированы с перемен- переменной у). Правда, как правило, компоненты с малыми значения- значениями собственных чисел оказываются одновременно и слабо кор- коррелированными с у и также отбрасываются, так что отбор су- существенных главных компонент по этим критериям автомати- автоматически приводит и к регуляризации задачи. Зная включенные в уравнение компоненты и соответствующие им коэффициенты регрессии, легко найти коэффициенты регрессии относительно исходных переменных хA),..., х(р> где 6ft =1, если главная компонента включена в информатив- информативный набор, и 6k = О — в противном случае. 258
Вообще говоря, полученные таким образом оценки для ко- коэффициентов 9; будут смещенными. Формулы для дисперсий и смещений этих коэффициентов приведены в п. 8.5. 8.3. Смещенное оценивание коэффициентов регрессии Как известно (см. п. 7.1.2 и 11.1.1), мнк-оценки являются не- несмещенными оценками с минимальной дисперсией в классе ли- линейных по Y = (у1у ..., уп)' оценок. Однако в условиях мульти- коллинеарности эта минимальная дисперсия может быть чрез- чрезмерно велика. Оказывается, если отказаться от несмещенно- несмещенности, можно построить линейные по Y оценки в, для которых средний квадрат отклонения от истинных значений парамет- параметров в будет меньше, чем для мнк-оценок в, т. е. Е(в — в)'(в —в)<Е(в — в)'(в—в). (8.20) Любую оценку в, линейную по У', можно представить в виде в = Св, (8.21) где В обычная мнк-оценка, а С — матрица размера р X р, не обязательно невырожденная, называемая матрицей редук- редукции. Оценка вида (8.21) имеет следующие математическое ожида- ожидание и матрицу ковариаций: Ев-Св; У(в) = С.У(в).С' = — CS-XC. (8.22) п Для нормированной суммы квадратов отклонений имеем (8.23) где Дп (О) — нормированная сумма квадратов отклонений для мнк-оценки. После некоторых преобразований выражение (8 23) можно записать: ? (в) = Д, (в) 4- в' (С -1„)' S (С - 1Р) в. (8.24) 9* 259
Среднее значение величины Ап равно: ё <*-*-'> sP(c-ip)». п() (p)(p)+ п п (8.25) Введем функционал, характеризующий качество оценки (8.21) (функцию потерь) Lw (в, в) = Е [(в — в)' W (в —в)], (8.26) где W — неотрицательно определенная весовая матрица. Наиболее часто используются весовые матрицы вида W = = Ip, W- diag(sn spp), W = S. Будем искать теперь оценки Э, минимизирующие функцию по- потерь (8.26). g^ (С0, в). (8.27) с Такие оценки допускают следующую интерпретацию. Пусть, используя матрицу X и я-мерный вектор значений про- прогнозируемой величины К, мы получили некоторую оценку па- параметров 0 и среднего значения зависимой переменной у. Ис- Используем теперь эти оценки для прогноза значений перемен- переменной у для векторов X*, не входящих в матрицу X. Будем счи- считать при этом, что модель (8.1) остается верной,а компоненты векторов X* распределены согласно некоторому закону распре- распределения с вектором средних значений X = (х<1\ ..., *<*>)' и матрицей ковариаций W. Пусть б2 (X*, 0) есть квадрат ошиб- ошибки предсказания значения у* для вектора X*: !2(Х*, в) = (у* — 0; (Х-*Х)—^J = (в'ХМ- Е где X? — X* — X — центрированный вектор X*. Тогда Ех* б2 (X*, 01 Y) = @ — в)' W @ — в) + 0/- Е^J + (в*J + 2в*(^-Ег/). Усредняя теперь по е*, имеем Взяв далее математическое ожидание по V, получаем, что tf5 (X*, 0) - Ur + — + о\ (8.28) п 260
Таким образом, уравнение регрессии с параметрами, опре- определенными из условия минимума функционала (8.26), миними- минимизирует математическое ожидание квадрата ошибки прогноза на векторах X*, не входящих в состав матрицы плана X, ис- использованной для оценки, в то время как обычная мнк-оценка ми- минимизирует сумму квадратов отклонений для матрицы X. Линейное преобразование объясняющих переменных. Рас- Рассмотрим теперь, как преобразуются оценки параметров урав- уравнения регреосии и функционал (8.26) при линейном преобразо- преобразовании объясняющих переменных. Пусть для некоторого набора переменных хA),..., х{р) оп- определена оценка вида (8.21), удовлетворяющая условию (8.27) минимума функционала (8.26) с весовой матрицей W*. Перей- Перейдем теперь к системе переменных z =- (z<l>,..., z(p))', связан- связанных с X невырожденным линейным преобразованием L : Z =• «= L'X. Тогда мнк-оценкой параметров уравнения регрессии для переменных Z будет вектор B^L^Ox, (8.29) где через &х> ®z обозначена мнк-оценка соответственно для переменных X (Z). Аналогично смещенная оценка в* (8.21) преобразуется в оценку ez^L-'ex^L-'Cxdx. (8.29) С учетом (8.29) имеем )Bz. (8.30) Таким образом, оценке параметров уравнения регрессии в пространстве переменных X с матрицей редукции Сх в про- пространстве переменных Z соответствует оценка с матрицей ре- редукции Cz^LCxL-1. (8.31) Весовая матрица в мере качества оценки тоже меняется. Имеем (8.32) 261
Таким образом, матрица Cz получается как решение задачи минимизации функционала (8.26) с преобразованной весовой матрицей > Wz - (L-1)' Wx L. (8.33) Заметим, что если Wx есть ковариационная матрица пере менных X, то матрица Wz будет ковариационной матрицей переменных Z. 8.4. Редуцированные оценки для стандартной модели линейной регрессии Как уже указано в § 8.3, общий вид редуцированной оценки коэффициентов регрессии задается с помощью соотношения (8.21). Используемая там матрица редукции С, как показано дальше, является либо функцией неизвестных параметров в, т. е. С = С (в), либо функцией оценок этих параметров С = = С (в). Следовательно, в последнем случае С будет случайной величиной. Такую матрицу назовем стохастической (формулы (8.22), (8.25) в случае стохастической матрицы уже не будут верными). Если матрица С — стохастическая, то оценки вида (8.21), строго говоря, не будут линейными по Y, однако самое важное их свойство, определяющее их полезность для прило- приложений,— уменьшение среднего квадрата отклонений (8.26) (в метрике матрицы W) — сохраняется. Первоначально название «редуцированные («shrinkage») оценки» относилось к оценкам вида 6 = А,6, где скаляр к ? ? @,1). Матрица С для этой оценки имеет вид С = diag (Я,..., К). Смысл введения множителя А, состоит в уменьшении длины (евклидовой нормы) вектора оценок в, по сравнению с в, ко- которая в условиях мультиколлинеарности может существенно превышать длину истинного вектора параметров в (см. (8.7)). 8.4.1. Оценка Джеймса — Стейна. Для рассмотрения оценки Джеймса — Стейна перейдем предварительно к ортонормиро- ванным переменным V = (u(l>,..., viP))' и модель регрессии запишем в виде yi = Vo+T'Vt + Eh 1 = ТГп, (8.34) Такая модель может быть получена, например, в полиноми- полиномиальной регрессии при переходе к ортонормированной системе полиномов. В общей модели регрессии ортонормированными 262
переменными, в частности» будут переменные и(/) --= = zM/ynkj, гдег<'> — главные компоненты (см. §8.2) матри- матрицы X. Мнк-оценка для коэффициентов Г записывается в виде Г =- =. пСиу, и ее распределение подчиняется р-мерному нормаль- нормальному закону Г ~ Nр (Г, o2lp). Пусть теперь в качестве функции потерь, соответствующей некоторой оценке Г паоаметров регрессии Г, используется функция потерь вида (8.26) с единичной матрицей, т.е. Li (Г, Г)- 2 Е (Г, — Г4)*=^ Е || Г — Г ||«. (8.35) Для мнк-оценки L\ (Г, Г) = /?а2, верна следующая теоре- теорема [216]. Теорема Джеймса — Стейна. Пусть р ^ 3. Тогда оценка r(c)=XjSf, (8.36) где Xjs = A —- псАп (Г)/||Г||2), с — любое число в интер- интервале 0<? < 2 (р — 2I (п — р + 2), «лучше» мнк-оценки Г, в смысле критерия (8.35), каков бы ни был вектор неизвестных параметров Г. Иными словами, при любом Г верно неравенст- неравенство Ц (Г (с), Г) - Е || Г (с) - Г ||2 < Е || Г-Г |Р - ро\ Условие р ^ 3 является существенным, так как, как пока- показано в [216J, когда р = 1 или р = 2, не существует оценки Г* лучшей, чем мнк-оценка в смысле (8.35), т. е. такой оценки, что- чтобы L! (Г*, Г) < L! (Г\ Г) для всех Г. Используя оценку коэффициента множественной корреля- корреляции между у и X, множитель Стейна можно записать в виде, инвариантном относительно преобразования предсказываю- предсказывающих переменных hs^l-c n~p~X (l-Rlx)/Ry\x. (8.37) п Когда с = 2 (р — 2I {п — р + 1), получим оценку Г, для которой L\ (Г, Г) = L\ (Г, Г) = ра2 при всех Г, так что это значение*; приводит к оценке, не лучшей чем мнк-оценка. Если с = 0, оценка Стейна, очевидно, просто совпадает с мнк-оцен- Кой. Минимальное значение функции потерь L\ (Г (с), Г) 263
достигается при значении с* = (р—2) / (п —р + 2). Тогда Li (Г (с*), Г) = 2по'2/(п — р ~\- 2), т. е. примерно рав- равно 2а2, когда п^> р. Отсюда следует, что оценка Джеймса — Стейна при больших р и п лучше мнк-оценки примерно в р/2 раз. В то же время при наличии мультиколлинеарности оценка Джеймса — Стейна может оказаться столь же неудовлетвори- неудовлетворительной , как и обычная мнк-оценка. Чтобы показать это, вер- вернемся от ортонормированных переменных V к главным компо- компонентам Z, что соответствует линейному преобразованию z(/> = ~ VrikjvW (j =* l, p). Тогда согласно формуле (8.30) оценка Джеймса — Стейна для параметров уравнения регрессии на главные компоненты будет иметь в точности вид (8.36). т. е. G = A.J5 G. (8.38) Однако согласно формуле (8.32) оценка G минимизирует уже не функцию потерь (8.35), а функцию потерь ~ р ~ а (О, G) = E у А; (я,—Яг)"- (8.39) Таким образом, ошибки оценок коэффициентов gif соответ- соответствующих главным компонентам с минимальными значения- значениями дисперсии ki, т. е. компонентам, «наиболее ответственным» за мультиколлинеарность, входят в функцию потерь с мини- минимальными весами А,;. Это означает, что улучшение оценки Джеймса — Стейна по сравнению с мнк-оценкой достигается в первую очередь за счет уменьшения вклада компонент с отно- относительно большой дисперсией, хотя при мультиколлинеарно- мультиколлинеарности, напротив, следует подавлять вклад компонент с минималь- минимальной дисперсией. Улучшенная оценка Джеймса — Стейна. Как следует из выражения (8.37), при достаточно малых значениях Ry x мно- множитель A,js может стать отрицательным. Этого недостатка ли- лишена улучшенная оценка типа Джеймса — Стейна, приведен- приведенная в 1249] 1. Она определяется как редуцированная оценка <Э* ----- |iB. (8.40) 2В [249] приведены ссылки на источники, в которых получена и изучалась улучшенная оценка Джеймса—Стейна. 264
где множитель |X,,(rt. когда *,.(CJ>0; (g41) 10, когда Xjs (с) < 0, в — обычная мнк-оценка. Для ортонормированных переменных V показано [249], что оценка с редуцирующим множителем \i лучше оценки Джеймса — Стейна (а тем более мнк-оценки по критерию L\ (Г, Г)), хотя оптимальное значением* и соответствующее ми- «шлал&ное значение L\ (Г (с*), Г) для нее аналитически не оп- определены. Однако можно полагать, что онет близки соответст- соответствующим значениям для оценки Джеймса — Стейна. Для регрессии у на главные компоненты и на исходные пере- переменные оценки типа (8.40) лучше оценки Джеймса — Стейна и мнк-оценки по соответственно взвешенным критериям L\ и и. Применение оценки Джеймса — Стейна для уточнения час- части параметров. Оценку Джеймса — Стейна, равно как и улуч- улучшенную оценку (8.40), можно применить для уточнения части параметров уравнения регрессии, лишь бы количество уточ- уточняемых параметров q удовлетворяло неравенству q ^ 3. Рассмотрим снова модель (8.34). Представим вектор Г' в виде Г' = (Г*1)', Г<2>'), где Г<х>' имеет размерность р — q> а г<2>' — размерность q. Вектор Г разобьется на два подвек- тора Г' = (Г<1)', П2>') размерности р — q и q соответственно Введем множитель | где 0 < с & <2(q- 2)/(/i ~ p + 2). Тогда оценки (8.41), (8.42) зУ Г<2>/ V лучше мнк-оценки по критерию (8.35). Оптимальное значение с<2) = (q — 2I (п — р + 2). В таком виде оценка Джеймса— — Стейна позволяет существенно улучшить мнк-оценку в ус- условиях мультиколлинеарности. Действительно, выделяя во вторую составляющую Г<2> вектора Г коэффициенты, соответ- соответствующие, например, малым собственным числам %г или ма- 265
лым значениям ^-статистики (8.12), и используя затем множи- множитель Стейна, можно существенно уменьшить вклад этих компо- компонент в оценку параметров уравнения регрессии при возвраще- возвращении к исходным переменным. 8.4.2. Редуцированная оценка Мейера — Уилке. Матрица ре- редукции С для этой оценки получается как решение задачи ми- минимизации следа ковариационной матрицы вектора Э = С*8 при условии, что нормированная сумма квадратов отклоне- отклонений Ад (в) = б0 >0 [231]. Используя формулы (8.22), (8.24), задачу минимизации для определения матрицы С* можно за- записать в виде С* = arg min Sp (CS" С) (8.43) с при условии К(©) +в'(С*~-I)S(C* — 1)в = б0, (8.43') что дает в результате С* = 6вв'A+6в'в')-1, (8.44) где б выбирается так, чтобы выполнялось условие (8.43'), от- откуда после преобразования по формуле Бартлетта [117] оцен- оценка1 запишется e = WO, (8.45) где Как положительное качество оценки (8.45) отметим, что множитель Xmw является функцией только мнк-оценки. С дру- другой стороны, поскольку оценка Мейера и Уилке является сто- стохастической редуцированной оценкой, формула (8.22) для ко- ковариационной матрицы будет неверна (матрица С*^-1 С*' отнюдь не является в этом случае ковариационной матрицей оценки), поэтому нельзя утверждать, как это делают авторы оценки, что она минимизирует след ковариационной матрицы. Величина функционала качества (8.26) для нее также пока не- неизвестна, так что в отличие от оценки Стейна нельзя сказать, при каких условиях и в каком смысле она лучше мнк-оценки. Некоторые другие типы редуцированных оценок приведены в [43, §6.5]. ХВ [231] при преобразованиях была допущена ощибка, в результа- результате чего множитель XMW определен неверно. Эта ошибка исправлена в [43]. 266
8.5. Оценки, связанные с ортогональным разложением Использование функционала Ly, (8.26) как меры качества оцен- оценки в не гарантирует еще, что каждая компонента вектора Э имеет меньшую среднеквадратическую ошибку, чем вектор мнк-оценок (см., например, п. 8.3.1). Однако, как г оказано в [192], оценки, уменьшающие среднеквадратическую ошибку каждой из компонент вектора, существуют, в частности таки- такими являются ридж-оценки [208, 209]. В настоящем разделе проводится рассмотрение достаточно общего класса оценок, об- обладающих указанным выше свойством. Вернемся к регрессии на главные компоненты Z = (z<x>,..., z(p>) (см. п. 8.2). Пусть, как и прежде, вектор G есть вектор те- .»—> еретических значений параметров, a G — вектор мнк-оценок. Пусть (Ух,..., Up — собственные векторы матрицы S. По- Поскольку матрица S невырождена, векторы Ut (i — 1,р) об- образуют полную ортонормированную систему (см. [102]), и по- поэтому любой вектор оценок параметров может быть представ- представлен в виде 8=S git/,. <8-47> Для мнк-оценки *gt = gt = y*^, где СуХ — оценка вектора ковариаций Сух между прогнозируемой переменной у и переменными (хA),..., х^р)). Для самого вектора неизвестных параметров^- = gt. Мы будем рассматривать класс оценок ви- вида (8.47) с коэффициентом gt = atgi. Таким образом, множитель at можно рассматривать как относительный вес i-й главной компоненты в оценке параметров регрессии в (8.47) по сравнению с ее весом в мнк-оценке. Дальше веса А = (#!,..., ар) будут определяться из усло- условия минимума функционала качества (8.26). Будем полагать при этом, что весовая матрица W перестановочна с матрицей S, т. е. что векторы Ut являются и собственными векторами мат- р рицы W, и она представима в виде W = 2>? (иги$. Очевидно, /= 1 здесь охвачены случаи W = I и W = S. После несложных преобразований получаем следующую формулу для функцио- функционала качества (8.26): U=E2 WiQi-gif. (8.48) 267
Чтобы получить аналитическое выражение Lw, запишем его в виде и-в ?-.(¦?-•*-«)'• <8-49> где сь =Сух Uiy ct ^C'yxUi- Взяв теперь математическое ожидание, получим L2(G, G)= t ^^((я*~1J+М?аа/л), (8.50) или в эквивалентной форме L4G, 0)=pS», fg? (a,- IJ +-j-af aVn]. (8.50') Для дальнейшего анализа понадобится еще преобразован- преобразованное выражение для нормированной суммы квадратов отклоне- отклонений Д„ F). Из (8.23) имеем An(G) = (/i-/>-l)'^(l-^.*)+ S ^i(fl«- 1)*г?- (8-51> Первое слагаемое в (8.51) соответствует применению мнк- оценки, а второе возникает, если хотя бы один из вкладов ахф\. Укажем некоторые часто используемые типы оценок, пред- ставимые в виде (8.47). Однопараметрическая гребневая регрессия [208, 209]. Стандартная запись этой оценки имеет вид1 e(k) = (S+k\)^CyX, (8.52) или, что более предпочтительно, когда диагональные элемен- элементы матрицы S различны, 6^(S+feDG(S))-1C,x, (8.52') где DG (S) — диагональная матрица diag (su,...T spp), k >0— малое число, так называемый параметр гребня. ХВ литературе часто употребляется запись вида (Х'Х+^I) Х'У, которая для центрированных переменных эквивалентна (8.52). 268
От оценки вида (8.52') можно перейти к оценке вида (8.52) с помощью нормировки матрицы S к матрице корреляций. Даль- Дальше будем рассматривать только оценки вида (8.51). Собственные векторы Ui (i = 1,р) матрицы S являются и собственными векторами матрицы S + k\ с собственными чис- числами \xt = Xt + k. Следовательно, матрица (S + kl)-1 = = 2 г\А и с учетом (8.48) и вида gt получаем, что относитель- = 1 * • ные весовые коэффициенты at для оценки гребневой регрессии равны; (8.52") Значение параметра k подбирается из решения минимиза- ционной задачи для функционала (8.50). Многопараметрическая гребневая регрессия [192]. Стан- Стандартная запись соответствующей оценки имеет вид. 6ГР (*)«(S + К)-1 Сух, (8.53) где К — матрица, перестановочная с S. Собственные числа этой матрицы пусть будут ?lf..., kp. После несложного пересчета получаем, что веса вкладов главных компонент для этой мо- модели равны: [i = T7p). (8,53) Значения параметров kt (i = l,p) подбираются из решения оптимизационной задачи для функционала (8.50). Оценка Марквардта [227] (оценка дробного ранга). Для этой оценки определяются два параметра: ранг г и вес а. Весаа^ имеют вид 1, Кг; S 1, i -= г; 0, i>r. Методы определения ранга г и а приведены в [227]. Регрессия на главные компоненты. Веса а\ могут принимать одно из двух значений: а-г — 1, если выполняется какое-либо из условий информативности данной главной компоненты (см. п. 8.2), либо at = 0, если данная компонента удаляется. Заметим, что редуцированные оценки Джеймса — Стейна И 269
Мейера — Уилке также могут быть легко представлены в тер- терминах весовых коэффициентов аь. 8.5.1. Оптимальное взвешивание вклада главных компонент. Найдем теперь значения вкладов аь минимизирующие функционал Ly/ (G (Л), G) (8.50). Для этого учтем, что функцио- функционал (8.50) представляет собой сумму квадратичных по at сла- слагаемых, каждое из которых является функцией только одного параметра at и не зависит от весовых коэффициентов дог в функ- функционале качества. Значения аи минимизирующие функцию потерь, будут оп- определяться простыми выражениями (8.54) и не зависят от весовой матрицы W. Минимальное значение величины Lw (8 (А*), А), соответ- соответствующее точке минимума А* = (а*, •¦•¦ Яр)» будет равно: - р ог gf Lb(G, G)= 2 wt -?-. : . (8.55) в то время как для мнк-оценки L2v,(GyG) = t a, * . /-! nXi Оценка G (Л*), соответствующая оптимальному значе- значению Л*, обладает следующими свойствами: 1) средний квадрат отклонения любого коэффициента gi(A*) при z-й главной компоненте от истинного значения gt меньше, чем для мнк-оценки gt. Действительно, в силу (8.49) каждый член суммы в (8.55) представляет собой средний квад- квадрат отклонения коэффициента gt(А*) от истинного значения 8и т. е. Е (Ъ (А*) - giJ - ^ • gf + l,%in, что меньше со- а2 ответствующеи величины -т- для мнк-оценки; tlKi 2) среднеквадратическое отклонение любого из параметров Ъг, (i = 1,р) оценки G (Л*) (8.48) для переменных х^,..., х(р) от истинного значения 0 меньше, чем у мнк-оценок для со- соответствующих параметров [192]; 270
3) для применения выражения (8.54) важным является то, что в точке щ = 1 (i = \Ур) первая производная нормиро- нормированной суммы квадратов отклонений An (G (А)) по щ равна О (см. формулу (8.51)), и, следовательно, величина Дд (G (А)) в окрестности точки at = 1 (i = l,p) меняется медленно. В то же время первая производная L2 (G (A), G) в окрестности точ- точки at = 1 (/= 1,р) положительна. Это позволяет надеяться, что можно подобрать такие значения at < 1, что значение ве- величины Дп (G (А)) возрастет ненамного, а значение функцио- функционала L2 (G (Л), G) при этом уменьшится достаточно заметно. В заключение заметим, что многопараметрическая гребне- гребневая регрессия (8.53), основанная на определении значений пара- параметров гребня kt (i = 1,/?), которые минимизируют функцио- функционал (8.49), полностью эквивалентна регрессии с оптимальными весами вкладов главных компонент. 8.5.2. Оценка оптимальных вкладов главных компонент. Воз- Возникает вопрос, как воспользоваться формулой (8.54) на прак- практике, если обе величины gt и а2 неизвестны? Следуя [207], рас- рассмотрим два метода оценивания аг. 1. Вместо значений gf подставляем в (8.54) мнк-оценки git а в качестве оценки для а2 берем величину s2= nAn(&) Тогда получим оценки ^^Q). (8.56) 2. Можно организовать итеративную процедуру следую- следующим образом: Значения a(V получаем из (8.56). Величина s2 остается не- неизменной на всех итерациях. Аналогично [207] можно пока- показать, что такой итеративный процесс сходится. Предельное значение at должно удовлетворять уравнению а = (a*gf)/(a2gf-{- + s2lnki). Это уравнение имеет три корня: а = 0 и корни, удовлетворяющие квадратному уравнению a2gf — agf + s2/ 271
Ink = 0. Последнее имеет вещественные корни, когда выполня- выполняется условие at « Отсюда получаем, что О, если riki gf/s2 < 4; (8.59) 1 у gi —4s2fkt n , если nkt gf/s2 ^ 4. 2 С Заметим, что отношение nKtgf/s2 есть квадрат /-статистики, ис- использованной в § 8.2 в одном из методов выделения существен- существенных главных компонент. Таким образом, отношение (8.57) устанавливает еще одну границу для объявления коэффициен- коэффициентов при главных компонентах нулевыми. 8.6. Вопросы точности вычислительной реализации процедур линейного оценивания 8.6.1. Два метода получения мнк-оценок. Когда набор пред- предсказывающих переменных и модель определены, мнк-оценки неизвестных параметров линейного уравнения регрессии мож- можно определить путем решения одной из следующих четырех сис- систем линейных уравнений: 1) ХО^Г, (8.60) где X — матрица данных, расширенная путем добавления стро- строки из единиц; ©^ = (90, 6')— вектор размерности (р + 1), а 0О — свободный член уравнения регрессии; 2) ХС0 = 7С, (8-60') где Хс — центрированная матрица данных; Yc — я-мерный вектор центрированных значений зависимой переменной у\ 3) (X'XNP = XY, (8.60*) т. е. вр является решением нормальной системы уравнений, связанной с системой (8.60); 272
т. е. в является решением нормальной системы уравнений, свя- связанной с системой (8.60"). Решение системы нормальных уравнений (8.60") или (8.60'") начали применять для получения оценок коэффициен- коэффициентов регрессии раньше, чем непосредственное решение системы линейных уравнений (8.60). Последний метод стали использо- использовать примерно с середины шестидесятых годов [193, 194] (см. также более поздние работы [142, 143]). Основанием для актив- активной пропаганды непосредственного решения системы (8.60), минуя этап получения нормальных уравнений, является дока- доказанная в [193] большая устойчивость численного решения урав- уравнения (8.60) при наличии ошибок округления и представления данных в ЭВМ по сравнению с решением системы нормальных уравнений. Однако, как показано далее, увеличение устойчиво- устойчивости может быть обосновано лишь при некоторых предположе- предположениях относительно свойств системы уравнений (8.60), которые далеко не всегда имеют место на практике. Вопрос о выборе способа численного решения имеет смысл лишь в том случае, когда погрешность вычисления оценок ко- коэффициентов регрессии на ЭВМ сравнима по величине с их ста- статистическим разбросом, который определяется формулой (8.8). Необходимым для этого условием, как мы увидим далее, явля- является наличие мультиколлинеарности. Но при выраженной мультиколлинеарности с точки зрения статистической устой- устойчивости оценок лучше переходить к решению регуляризован- ных (тем или иным способом) систем уравнений (8.60), (8.60'), {8.60"), (8.60"). Для систем нормальных уравнений метода- методами регуляризации будут уже рассмотренные метод главных компонент (см. § 8.2) и гребневая регрессия (см. § 8.5). 8.6.2. Оценки величин возмущений для решений центриро- центрированной и соответствующей ей нормальной системы уравнений. Пусть А'9 = С некоторая система линейных уравнений, мат- матрица А' которой имеет размерность q X k (k не обязательно равно q)t 9 — вектор размерности fe, правая часть С — вектор размерности q. Как показано в [39], решение такой системы, получаемое на ЭВМ1, на самом деле совпадает с решением некоторой воз- возмущенной системы уравнений *В том случае, когда система А'6 = С не имеет ръшенмя в «бъгч- ном смысле или имеет не единственное решение* ^ й й р руд пониматься псевдорешение с минимальной нормой, т. е. так называемое нормальное псевдорешение A7]. 273
Введем относительную величину возмущения решения 0: «вв||в-в»||/цв||. Величина возмущения 6в как функция возмущений ДС,Р зависит от двух характеристик системы уравнений: 1) числа обусловленности матрицы системы [39] * (А) = pmax (A)/pmin (A), где ртах, pmin — соответственно наибольшее и наименьшее (ненулевое) сингулярные числа матрицы А. Если матрица А имеет ранг /, то у нее имеется / ненулевых сингулярных чисел Pi > Р2 > ••• > Pi и ргаах = Pi, Pmin = Pz- Дл* сингулярных чисел матрицы АА' соответствующей нормальной системы урав- уравнений имеют место равенства [39] Ртах (АА') = pLx (A), pmin (АА') = pmin (A), поэтому 2) величины относительной несогласованности системы Ао2тн (А, С) - min || А0 -С ||2/|| С \\\ е Для согласованной системы уравнений Д^н (А, С) = 0. Рассмотрим теперь для определенности центрированную систему уравнений (8.60"), т. е. А = Хс, С = Y9 q = n, k = р. Тогда верно следующее'утверждение. Утверждение. Квадрат величины относительной несог- несогласованности для центрированной системы уравнений {0, когда п<р+ 1; Соответствующая нормальная система уравнений всегда согласована, поэтому Д2ТН (ХДС, X'CY) = 0. Используя результаты [39, п. 37; 257], запишем теперь сле- следующие оценки сверху для относительных погрешностей реше- решений центрированной системы (8.60") и нормальной системы (8.60"'): 4,9Aх(Хс) +1 {у? (X.) +1) Дотн (Хс, Y)) е 274
О* Норм— II в II где емаш — машинная ошибка округления [136, п.2.2]. Когда система плохо обусловлена, величина х (Хс) велика, и основную часть погрешности определяют слагаемые с множи- множителем х2 (X). Из приведенных неравенств можно видеть, что с точки зре- зрения влияния квадрата числа обусловленности х(Х) на верх- верхнюю границу погрешности решения решать систему (8.60) вы- выгоднее, если система неопределенная (п < р), а в случае пере- переопределенной системы полного ранга (п >р, I = р), только г- .... если выполняется неравенство 4,9 р ]/ ^~ A — R2y.x) < 3, т. е. если коэффициент множественной корреляции между у и X достаточно велик. Для нецентрированной системы получает- получается аналогичный результат. Сравнивая два способа решения систем (8.60) (непосредст- (непосредственно с матрицей X и с переходом к системе нормальных урав- уравнений), можно сделать вывод, что несогласованные системы (8.60), как правило, лучше решать, используя переход к нормаль- нормальной системе уравнений. В статистической практике несогла- несогласованные системы возникают, когда матрица данных X переоп- переопределена, т. е. число объектов (столбцов) в ней больше числа переменных (строк), и при этом линейные уравнения, входя- входящие в систему (8.60), не могут выполняться точно. Но превы- превышение числа объектов над числом переменных — типичная си- ситуация в регрессионном анализе. Второе условие несогласо- несогласованности также часто выполняется, так как обычно системы ли- линейных уравнений используются для оценки параметров линей- линейных моделей типа (8.1), являющихся лишь приближением дей- действительных соотношений между переменными (мерой этого приближения как раз и является дисперсия случайной компо- компоненты е). Для обоснования перехода к нормальной системе уравнений существенно и то, что матрица Х'Х тесно связана с ковариационной матрицей, которая является исходным объек- объектом для различных видов многомерного анализа (главных ком- компонент, факторного анализа и т. д.). 8.6.3. Центрирование и нормирование матрицы данных. Рас- Рассмотрим более подробно, как связаны решения систем нормаль- нормальных уравнений для центрированной Хс и расширенной мат- матриц данных. Так как элементы первой строки расширенной матрицы дан- данных полагаются равными единице, система нормальных урав- 275
нений (8.60") имеет вид пх (Х) пх п A) ... пх (р) п V v(i) —, . n nx (p) (8.61) где x{J) — среднеарифметическое значение переменной х{}'\ а суммирование в выражениях для элементов вектора Х'У и матрицы Х'Х проводится от 1 до п. Если решать систему (8.61) методом последовательного ис- исключения Гаусса или приведением матрицы Х'Х к треугольной форме, то первый шаг состоит в делении первого уравнения на п и вычитании соответствующих кратных первого уравнения A-й строки матрицы Х'Х) из остальных уравнений (строк мат- матрицы Х'Х) таким образом, чтобы оставшиеся р элементов первого столбца матрицы Х'Х обратились в нуль. Таким обра- образом после первого шага мы получим систему уравнений вида I XA)... ? 0 0 nS So (8.6Г> При этом элементы ковариационной матрицы sjh (i, / = = 1,р) фактически вычисляются по формуле = У\ xWxW—"xU)'xik). (8.62) Хотя выражение (8.62) теоретически эквивалентно выраже- нию (8.63) 276
однако при реализации на ЭВМ формула (8.63) позволяет вы- числять элементы sjk с существенно меньшей погрешностью (особенно когда п велико), чем формула (8.62) (подробнее см. в п. 8.Ь.4). Из первого уравнения системы (8.6Г) следует, что "e. = F-S^*(/>' (8.64) /= 1 а вектор О' = F1э..., 6Л) является решением системы nS9 == = пСух> т. е. системы (8.60'"), поскольку nS = ХсХс. Таким образом, решение нормальной системы уравнений для расширенной матрицы данных сводится к решению систе- системы нормальных уравнений с центрированной матрицей данных не только теоретически, но и во многих случаях при практичес- практической реализации вычислительной процедуры. Отметим в связи с этим следующее. 1. Согласно теореме о разделении собственных чисел [1021 имеют место неравенства Атпах(Х/Х) ^ А,тах(Хс Хе) И Хт{п (X 'X) ^ Kwin (Хс' Хс), где Хтах B), Хт[п B) — соответственно максимальное и ми- минимальное собственные числа матрицы 2. Поэтому для чисел обусловленности имеет место неравенст- неравенство х (Х'СХС) < х (Х'Х), т. е. центрированная система, как пра- правило, лучше обусловлена, чем система с расширенной матрицей данных. 2. Вычисление элементов ковариационной матрицы S прово- проводится по неудовлетворительной, при реализации на ЭВМ, фор- формуле (8.62), что может привести к возникновению дополнитель- дополнительной погрешности в решении. Поэтому если переходить к систе- системе нормальных уравнений, то целесообразнее получать устой- устойчивую (в вычислительном отношении) оценку ковариационной матрицы S (см. п. 8.6.4), решать систему вида (8.60'") или эк- эквивалентную ей систему Se = CyX> а значение свободного чле- члена 60 получать из (8.64). Дальнейшее улучшение обусловленности системы (8.60"') и повышение точности вычислительной процедуры можно полу- получить, переходя к нормированным переменным [163]. 8.6.4. Вычисление элементов ковариационной матрицы. Коэф- Коэффициенты системы линейных уравнений для центрированных переменных являются элементами матрицы ковариаций с точ- точностью до множителя п. В связи с этим возникает задача акку- аккуратного вычисления элементов матрицы ковариаций, чтобы из- избежать внесения дополнительной погрешности в решение ис- 277
ходной системы (8.69') при переходе к соответствующей нор- нормальной системе уравнений. Для этого следует воспользовать ся так называемой двухэтапной оценкой = nsn = 2 (*i'> -xU)) (x(il) - *«>). (8.65) Эта оценка названа двухэтапной, поскольку требует предва- предварительного вычисления средних значений х^'К Довольно часто в литературе по регрессионному анализу предлагается исполь- использовать оценку вида ап = \ х\п х\1)—- *(/) *(/)- (8-66> Эта оценка обладает определенным преимуществом перед двухэтапной оценкой (8.65) с точки зрения организации вычис- вычислений, поскольку позволяет вычислить элементы a\i за один просмотр данных. Однако она является неудовлетворительной в отношении величины погрешности, с которой вычисляются элементы ковариационной матрицы. Приведем некоторые результаты, позволяющие сравнить точ- точность оценки диагональных элементов atj при использовании формул (8.65) и (8.66). Далее для упрощения формул опустим индекс номера переменной и будем считать, что оценивается дисперсия некоторой переменной х соответственно по одной из двух схем: ~^J; (8.67) #2 ==: Я$2 = Zj Xi X . (о.О/ ) . /г t = l Теоретически sf = s| = sj. Для оценки погрешности вве- введем, следуя [173], число обусловленности данных k = \\x\\/]/^nsx, п где s? — точное значение дисперсии л:, ||л:||2 = ^xf. Легко видеть, что значение 4>1 и оно возрастает, когда si убывает при фиксированном значении ||л:||. Для относитель- относительной погрешности оценок (8.67) и (8.6Г) верны следующие не- неравенства: si — i ^маш» 2 Маш» 278
где емаш — машинная ошибка округления. Для реальных задач /гемаш < 1 и, следовательно, двух- этапная оценка существенно точнее оценки (8.66), особенно когда значение числа обусловленности для данных k велико. В некоторых случаях оценка (8.66) может дать даже отрица- отрицательные значения для sj. He вдаваясь в детальный анализ, можно сказать, что относительно низкая точность оценки (8.66) объясняется тем, что она представляет собой разность двух неотрицательных величин, которые при больших k (малых зна- значениях si) близки друг другу. При вычислении на ЭВМ такая ситуация как раз и приводит к потере точности. В некоторых ситуациях, например, когда объем данных ве- велик, и они размещены во внешней памяти, желательно избе- избежать двукратного считывания данных при вычислении элемен- элементов ковариационной матрицы. Для этого можно использовать оценки типа скользящего среднего, которые позволяют вычис- вычислять ковариационную матрицу с той же относительной погреш- погрешностью, что и двухэтапная оценка. Приведем один из возмож- возможных вариантов алгоритмов вычисления элементов ап [259]: t\t) - Vd Ф> 1 f Однако этот алгоритм без дополнительных затрат памяти нельзя использовать при наличии пропущенных наблюдений. Когда значения k и п велики, величина погрешности для двухэтапного алгоритма может стать недопустимо большой. Один из простых способов улучшения оценки в этом случае состоит в вычислении средних значений х^ с двойной точно- точностью. Тогда имеет место следующее неравенство для погрешно- погрешности ошибки: I sl-s* Для оценки скользящего среднего этого же эффекта можно добиться, накапливая с двойной точностью значения tf и tl. О некоторых дальнейших возможностях повышения точно- точности оценок ковариационной матрицы см. [173]. 279
8.7. Отбор существенных переменных в задачах линейной регрессии 8.7.1. Влияние отбора переменных на оценку уравнения рег- регрессии. Один из подходов к оцениванию параметров уравнения регрессии при наличии мультиколлинеарности состоит в со- сокращении количества входящих в модель предсказывающих переменных путем отбора подмножества предсказывающих переменных, существенных для прогноза значений переменной у. Каким бы способом ни проводился отбор переменных, число обусловленности уменьшается с уменьшением числа регрессо- ров. Процедура отбора существенных переменных, рассматри- рассматриваемая как процедура выбора модели, полезна и когда исход- исходная матрица Х'Х хорошо обусловлена. Но особенно она эффек- эффективна в условия* мультиколлинеарности, когда объясняющие переменные сильно коррелированы. Так, если две какие-либо переменные сильно коррелированы с у и друг с другом, то час- То бывает достаточно включения в модель одной из них, а до- дополнительным вкладом от включения другой можно пренеб- пренебречь. Отбор существенных переменных в пространстве главных компонент рассмотрен в п. 8.3. Как там-показано, он приводит к следующим результатам: с одной стороны, к некоторому уве- увеличению наблюдаемого значения нормированной суммы квад- квадратов отклонений Д„, но одновременно к уменьшению средне- квадратического отклонения от соответствующих истинных значений параметров и к уменьшению средней ошибки прогноза для векторов X*> не входящих в матрицу плана X (т. е. в обу- обучающую выборку, см. п. 11.3). Последнего можно достичь и при отборе существенных переменных в исходном пространст- пространстве (опять-таки за счет увеличения нормированной суммы квад- квадратов отклонений на обучающей выборке). Фактически отбор переменных означает, что исходное множество из р переменных делится на два подмножества X (р—q) и X (q), состоящих из таких р — q и q переменных, что коэффициенты регрессии при р — q переменных, входящих в первое подмножество, по- полагаются равными нулю, а коэффициенты при q переменных из второго подмножества оцениваются по мнк (по окончании про- процедуры отбора для оценки можно использовать и методы, изло- изложенные в § 8.2—8.5). В предположении, что матрица данных X является неслу- неслучайной, возможны две точки зрения на оценку уравнения рег- регрессии, полученную после отбора существенных предсказы- предсказывающих переменных. 280
Первая точка зрения исходит из того, что модель регрессии (8.1) является истинной, и несмещенная оценка коэффициен- коэффициентов регрессии получается мнк путем решения системы уравне- уравнений (8.3) (в условиях мультиколлинеарности эта оценка может быть неудовлетворительной, но тем не менее несмещенной). Тогда принудительное приравнивание части коэффициентов регрессионного уравнения к 0, что и происходит при отборе переменных, естественно, приводит, если матрица S недиаго- йальна, к смещенным оценкам коэффициентов при оставшихся переменных, т. е. мы приходим к классу смещенных оценок, рассмотренных в § 8.3. С другой стороны, процесс отбора существенных перемен- переменных можно рассматривать как процесс выбора истинной моде- модели из множества возможных линейных моделей, которые могут быть построены с помощью набора предсказывающих перемен- переменных, и тогда полученные после отбора оценки коэффициентов можно рассматривать как несмещенные, хотя сама процедура отбора вводит некоторое смещение [931. Этой точки зрения мы будем придерживаться далее. Для случая, когда переменные хA),..., х(;;), у — случайные величины, вопрос о правильности (истинности) модели не воз- возникает. Все, что мы ищем в этом случае,— это модель, сохраня- сохраняющую ошибку предсказания на разумном уровне, при ограни- ограниченном количестве переменных. 8.7.2. Критерии качества уравнения регрессии. Любой алго- алгоритм отбора существенных регрессоров выполняет следующую последовательность действий: генерацию подмножеств переменных; сравнение этих подмножеств по некоторому критерию каче- качества уравнения регрессии, построенного по этим пере- переменным; проверку конца генерации (остановки алгоритма). Рассмотрим наиболее употребительные критерии качества уравнения регрессии. Почти все они основаны на измерении средней величины ошибки прогноза, на векторах X, не вошед- вошедших в обучающую выборку (матрицу данных X), при тех или иных предположениях о распределении или способе формиро- формирования этих векторов. !. Коэффициент детерминации (квадрат коэффициента мно- множественной корреляции) х ¦=- 281
Максимизация Ry x эквивалентна минимизации нормиро- нормированной остаточной суммы квадратов Лп. В этом смысле Ry х можно рассматривать как меру согласия модели с данными. Однако, поскольку в выражение для Ry.x входит и дисперсия переменной уу при анализе двух различных совокупностей дан- данных (матриц (X, Y)) может иметь место ситуация, когда одна из регрессий имеет меньшее значение Д„ и в то же время мень- меньшее значение Ry.x за счет увеличения дисперсии <згу. В случаях задачи отбора переменных это обстоятельство можно не учи- учитывать, поскольку матрица данных не меняется и Ry.x мож- можно рассматривать как относительную меру качества уравнения регрессии. Недостаток Ry.x как критерия качества уравнения регрес- регрессии состоит в том, что значение коэффициента детерминации не убывает (по крайней мере) с ростом числа предсказывающих переменных, входящих в модель. Таким образом, модели, в ко- которых больше переменных, будут более предпочтительными, ес- если для сравнения использовать R*y.x> Однако для сравнения уравнений регрессии с одинаковым числом зависимых перемен- переменных величина R%.x является вполне подходящей. Некоторые из перечисленных ниже критериев являются монотонными функциями от Щ. х, которые в то же время зависят от числа включенных в модель регрессоров q и объема выборки п и мо- гут убывать с ростом Ry. x. 2. Скорректированный коэффициент детерминации. Чтобы ввести скорректированный коэффициент детерминации, вспомним, что при п -*¦ оо имеет место равенство а2 = = сг2 A — Ry-x(q)) или Rl-xiq) = 1 — а2/<т?. Для конечного объема обучающей выборки несмещенной оценкой для а2 яв- является величина s2 = An l(n — q — 1) (q — число регрессоров в модели), а для а% — величина Определим теперь скорректированный коэффициент детер- детерминации из равенства 7?J.x^> = 1 — s2/ol. После несложных преобразований получаем связь между обычным и скорректи- скорректированным коэффициентами детерминации: <,>т^ (<«) (8-69) 282
В отличие от обычного скорректированный коэффициент дерерминации может уменьшаться с ростом числа предсказы- предсказывающих переменных q, если в результате введения дополнитель- ной переменной изменение 1 — Ry-x{q) оказывается недоста- недостаточным для компенсации увеличения отношения (п — 1)/ l(n — q—1). В отличие от обычного коэффициента детерминации скор- скорректированный уменьшается с ростом числа предсказываю- предсказывающих переменных qy если в результате введения дополнитель- дополнительной переменной изменение 1 — Rl.x(q) оказывается недоста- недостаточным для компенсации увеличения отношения (п — 1)/ l(n-q~- 1). 3. Статистика Мэллоуза Ся. В [225] предложено использо- использовать так называемую Ся статистику как меру качества уравне- уравнения регрессии с q предсказывающими переменными. В приня- принятых здесь обозначениях (8.70) l~Ry.X (p) 4. Средний квадрат ошибки предсказания СКОП. Этот критерий предлагается в [24] (см. также [164, 42, 52]). При вве- введении этого критерия предполагается, что переменные (у, хA), ..., х^) являются случайными величинами и имеют в совокуп- совокупности (р + 1) -мерное распределение. Таким образом, мат- матрица данных (X, Y) представляет собой выборку объема п из (р + 1)-мерного нормального распределения. Пусть теперь y{q) (X) = 'у + в'(?) (X(q)—X (q)) — функция регрессии, основанная на q из р возможных предсказыва- ющих переменных, и в (q) — мнк-оценка вектора регресси- регрессионных коэффициентов для набора из q переменных, X (q)— ^-мерный вектор средних значений для переменных х^\ принадлежащих набору X (q). Пусть теперь уравнение рег- регрессии используется для предсказания значения переменной у для некоторого нового случайного вектора X*. Величина СКОП определяется как СКРП(„ = Е^(ч)(Х*)-у*Г, где математическое ожидание берется по всем случайным пере- переменным, в том числе и по «новому» наблюдению X*. Если ис- использовать понятия обучающей и контрольной выборки, то можно- сказать, что СКОП определяет среднюю квадратичес- кую ошибку прогноза на контрольной выборке. 283
В 1251) показано, что где К (л, q) - (п2 — п — 2)/(л (л — ? — 2)), л X/ + 2 и а^.х(<7) — условная дисперсия (/ относительно q переменных, входящих в уравнение регрессии. При применении этого кри- критерия неизвестное значение дисперсии oly X(q) заменяете** ее оценкой максимального правдоподобия: °1х(д) =(п— l)sl(l— Rl.x(q))/(n — q — 1). Окончательно используемая как критерий оценка имеет вид -^^ . (8.71) q2) 5. Несмещенная оценка коэффициента множественной кор- корреляции. Если переменные (у, л;<1\..., х^р)) имеют в совокуп- совокупности многомерное нормальное распределение, то оценка квад- квадрата коэффициента множественной корреляции Ry.x(q) явля- является смещенной. Несмещенная оценка (с точностью до членов О A/я2)) определяется с помощью выражения (q) = Ky.X (q) n — q— 1 \2 (8.72) Эта величина также может быть использована как критерий качества уравнения регрессии. 8.7.3. Схемы генерации наборов переменных. Когда критерий качества набора предсказывающих переменных фиксирован для выбора оптимального или хотя бы «хорошего» набора, не- необходимо провести сравнение достаточно большого числа раз- различных наборов переменных и выбрать среди них наилучший. Рассмотрим некоторые схемы генерации наборов, применяю- применяющиеся в настоящее время. Схемы полного перебора («всех возможных регрессий», метод «ветвей и границ» ). Задачу полного перебора можно сформулировать следующим образом: для ^ = 1, ..., р — i найти набор из q предсказывающих переменных с минималь- минимальным значением остаточной суммы квадратов Ax(?) или, что эквивалентно, с максимальным значением коэффициента де- детерминации Ry.x(q)- Так как критерии, приведенные в 284
П. 8.7.2, ЯВЛЯЮТСЯ МОНОТОННЫМИ фуНКЦИЯМИ ОТ Rl.X{q)± ТО этот набор будет оптимальным и по любому из них. Число различных подмножеств из q переменных, если всего имеется р переменных, будет равно Cq (числу сочетаний по q элемен- элементов из р возможных), а полное число наборов при изменении q от 1 до р будет 2р. Ясно, что это число очень быстро растет с ростом р. Так, при р = 20 оно будет примерно 10е, а при р = 30 — 109. Все же на современных ЭВМ возможна реали- реализация полного перебора для значений р порядка 15. В связи с необходимостью просмотра большого числа регрессионных моделей особенно важное значение приобрета- приобретает использование экономных (в смысле количества машинных операций) методов расчета значений критерия и коэффициен- коэффициентов для соответствующих регрессионных моделей. Поэтому процедура генерации последовательности наборов перемен- переменных должна удовлетворять двум требованиям. Во-первых, переход от набора к набору должен осуществляться путем добавления или отбрасывания только одной переменной, что позволяет использовать экономные схемы пересчета значений критерия (см. п. 8.7.4) вместо полного решения соответствую- соответствующей новой задачи регрессии. Среднее число операций для прямого расчета регрессии с q переменными имеет порядок д3, а формулы пересчета уменьшают среднее число операций до порядка q2. В [189] предложена еще более эффективная процедура пе- пересчета, позволяющая сократить число операций до порядка <7, если требуется вычисление коэффициентов регрессии, и 6, если вычисляется только величина R% x(q)- При этом, одна- однако, требуется дополнительная память для размещения р ма- матриц размера р X р. Второе требование состоит в том, чтобы любой набор гене- генерировался только один раз. Описания процедур генерации, удовлетворяющих этим требованиям, приведены в [189, 191, 2481. Если в качестве основного лимитирующего фактора принять время вычислений, то наилучшим из алгоритмов полного перебора в настоящее время следует признать алго- алгоритм Фёрнивала, предложенный в [189]. Объем вычислений при прямом переборе с ростом р растет настолько быстро, что уже при р ^ 20 превышает реальные возможности большинства ЭВМ. Выход из положения ищут с помощью методов ветвей и границ. Смысл этого метода за- заключается во введении какого-либо грубого правила, кото- которое позволяет отбросить большинство наборов, не вычисляя для них значения критерия в силу их бесперспективности. Такое правило может быть ' основано на неравенстве 285
^ий^() где X (А) — любой набор предсказываю щих переменных, а X (В) — его подмножество. Другими сло- словами, при исключении из регрессии каких-либо переменных значение R%.x(t) может только убывать. Пусть теперь мы знаем некоторую оценку снизу Rg для оптимального значения q)- Если для какого-либо набора X (/) /??.*</> < Rg и / , то, очевидно, все поднаборы размерности qy получен- полученные из X (у), являются бесперспективными и могут не рас- рассматриваться. Использование методов ветвей и границ позволяет рас- рассматривать задачи ср« 50—70. Наиболее эффективной яв- является реализация алгоритма, предложенная в работе Фёр- нивала [190]. Подробное описание одного из алгоритмов, реализующего метод «ветвей и границ», — алгоритма Хокин- га—Лесли [206] на русском языке приведено в [79]. 8.7.4. Пошаговые процедуры генерации наборов. Существен- Существенного сокращения числа генерируемых для сравнения наборов предсказывающих переменных можно добиться с помощью пошаговых (STEP—WISE) процедур отбора переменных. Хотя ни одна из пошаговых процедур не гарантирует получе- получения оптимального по заданному критерию набора переменных (соответствующие примеры приведены, например, в [226, 205, 79]), все же обычно получаемые с их помощью наборы переменных являются достаточно хорошими для практичес- практического применения. Кроме того, возможны простые модифика- модификации традиционных пошаговых схем, которые позволяют прео- преодолеть ряд присущих им недостатков. Основными пошаговыми процедурами генерации наборов являются процедура последовательного присоединения, про- процедура присоединения-удаления и процедура последовательного удаления. Рассмотрим один из возможных способов организации вы- вычислений в пошаговой процедуре последовательного присое- присоединения. На первом шаге из исходного набора предсказывающих пе- переменных X (р) — (хA), ..., х(р)) выбирается переменная х{'и\ имеющая максимальное значение квадрата коэффициента пар- парной корреляции с уу т. е. /i—-argmaxrj (Л). i < к < р ух Признак *(ь> составляет информативный набор предска- предсказывающих переменных X A). Применяя теперь к матрице А 286
прямой оператор симметричного выметания Wjt (см. п. 8.7.5), получим матрицу Ах и переходим ко второму шагу. Второй шаг состоит в следующем. Пусть уже построен информативный набор из q предсказывающих переменных X (q) = (x(/l\ ..., хия}); пусть Aq — матрица, полученная из исходной матрицы А путем применения оператора выметания по переменным из X (q). Ищем переменную jt^Vf-O^ имеющую максимальное значение квадрата коэффициента частной кор- корреляции с у при фиксированных переменных из X (q): К(, (X <«)>)¦ При этом как кандидаты на присоединение к набору X(q) используются лишь переменные, для которых вычисляется условие (см. п. 8.7.5) 1 — Rl(k).x<q) >тш>р- Если таких пере- переменных не окажется, то работа алгоритма (отбор переменных) прекращается. Отбор переменной jt(/<?+l) из условия максимума квадрата частного коэффициента корреляции эквивалентен ее выбору из условия максимума коэффициента множественной корре- корреляции между у и набором X (q + 1) = X (q) © хия+1\ так как имеет место тождество (см., например, [24, п. 3.2.4]) После определения переменной х(/<7+1) проверяется условие остановки процедуры отбора. Основные из используемых условий остановки следующие: а) процедура останавливается, если отобрано заданное пользователем количество переменных &, т. е. если q + 1 = = k. При этом переменная x(/9+i) присоединяется к набору X (q), а к матрице Aq применяется оператор выметания по переменной jt(/'g+i); б) проверяется гипотеза Ни : г? + 1 = rlx(iq+i) iX{q)) = 0, для чего вычисляется значение /^-статистики Если величина Fg+1 < FWJl9 где FBHJI — некоторая зара- заранее заданная величина, то переменная j^'g+i) не присоединя- присоединяется к набору X {q)y который и считается результатом работы алгоритма. 287
Используемая статистика Fq+1 формально совпадает со статистикой для проверки значимости соответствующего рег- регрессионного коэффициента в обычной задаче регрессии. Поэ- Поэтому в качестве значения для FBKJ1, как правило, выбирают классические уровни §1начимости E, 10, 15%), соответствую- соответствующие F-распределению с 1 и (n — q — 2) степенями свободы. Однако величина Fg+X в пошаговой процедуре на самом деле не подчиняется /^распределению с соответствующим числом степеней свободы, поскольку проверяется гипотеза о равенст- равенстве нулю максимального по абсолютной величине коэффициен- коэффициента частной корреляции из р-—.q коэффициентов частной кор- корреляции для переменных, не входящих в X {q). Неизвестно поэтому, какому уровню значимости соответствует выбранное значение; в) процедура останавливается, если достигнуто макси- максимальное (минимальное) значение критерия качества набора переменных. Пусть Кг^— текущее значение какого-либо из критериев п. 8.7.2. Тогда процедура останавливается, если выполняются условия Kq < Kq+i для критериев (8.69), (8.72) или Кд >/Сд+хДля критериев (8.70), (8.71). Результирующим считается набор X (q). Можно показать, что правило остановки по текущему зна- значению критерия эквивалентно правилу остановки по значению F-статистики при некоторой величине Ръкл. О других спосо- способах использования критериев в правилах остановки см. в [1641. Если условие остановки не выполняется, то к матрице Ад применяется оператор прямого выметания по переменной Jt(/Vn\ и путем включения вХ (q) переменной ^('д+О форми- формируется новый текущий информативный набор X (q + 1). За- Затем второй шаг повторяется для набора X(q+\). Пошаговая процедура последовательного присоединения- удаления переменных (обычно именуемая в литературе просто как процедура последовательного присоединения) была впер- впервые предложена в [180]. Приводимое ниже описание процеду- процедуры имеет некоторые отличия от исходной процедуры Эфро- имсона. Формирование информативного набора переменных в этой процедуре организовано следующим образом. Первый шаг совпадает с первым шагом процедуры после- последовательного присоединения. На втором шаге, начиная с q = 3, перед поиском присое- присоединяемой переменной хия+1} добавляется подшаг поиска пере- переменной х<1\ которую целесообразно удалить из текущего на- набора X (q). Для этого определяется переменная х<1) 6 X (<$f ?88
удаление которой приводит к минимальному уменьшению коэффициента детерминации, т. е. / = argmin (R2y.x w—'rS.x^ <«-n), *(*) ex (g) где X-k (q — 1) — набор X (q) с удаленной переменной x^k>. После определения номера / целесообразность удаления пе- переменной х^ обычно проверяется на основе сравнения ^-СТаТИСТИКИ ДЛЯ ПрОВерКИ ГИПОТеЗЫ Но I Ry.X(q) = Ry X^iq-i) или эквивалентной ей гипотезы о коэффициенте частной кор- корреляции #0 : ryx(i){X (<7_1}) = 0 с некоторым заранее заданным пороговым значением /искл. Обычно выбирают значение ^искл >^вкл (так чтобы исключить переменные из набора было труднее, чем добавлять) соответственно 2%-, 1%-, 0,5%- ному уровням значимости при /-распределении с 1 и (п—q—2) степенями свободы. На самом деле по тем же причинам, что и при присоединении переменных, величина /-статистики при удалении переменных не подчиняется /-распределению, и точный уровень значимости неизвестен. Другой способ определения целесообразности удаления переменной х^ основан на проверке «улучшения» качества набора по какому-либо из критериев качества п. 8.7.2. Если качество набора «улучшается», то переменная уда- удаляется. При удалении переменной х(/) из X (q) к матрице Aq применяется оператор обратного выметания О\. После фазы удаления переменной проводится фаза расширения набора (X (q), если не было удаления, и Х_/ (q — 1), если была уда- удалена переменная хЩ, точно так же, как и в процедуре после- последовательного присоединения. Остановка процедуры присое- присоединения-удаления проводится по тем же правилам, что и ос- остановка процедуры последовательного присоединения. Пошаговая процедура последовательного удаления (исклю- (исключения). Перед началом работы процедуры необходимо по- получить матрицу Ар. Именно она теперь является той исходной матрицей, к которой применяется последовательность опера- операторов выметания Wht Uk. Для этого необходимо вычислить Кх\в(Х(р))=Ъ и Rl.X(p). Первый шаг процедуры последовательного удаления сос- состоит в определении такой переменной a:(/i), удаление которой из исходного набора X (р) приводит к минимальному увели- чению остаточной суммы квадратов Дл или, что эквивалентно, к минимальному уменьшению коэффициента детерминации. Величина изменения коэффициента детерминации проверяется Ю Зак. 244 289
на значимость таким же образом, как и в фазе удаления про- процедуры последовательного присоединения (q при этом заме- заменяется на р). Можно также проверять «улучшение» качества набора по какому-либо из критериев. Если значение .F-ста- тистики превышает значение ^удал или если произошло «улучшение» качества набора переменных, то формируется набор X (р — 1) с удаленной переменной x{ii\ а к матрице Ар применяется оператор обратного выметания Uix. Второй шаг состоит в следующем. Пусть X (q) — текущий информативный набор, полученный в результате удаления (Р — Я) переменных, и Aq— матрица, полученная из Арпри- менением к ней (р — q) операторов обратного выметания. В наборе X (q) ищем переменную х^1я\ удаление которой из X (q) приводит к минимальному уменьшению коэффициента множественной детерминации. Затем проверяется условие остановки. Могут быть использованы следующие условия остановки: а) получение набора с заданным количеством к предиктор- ных переменных, т. е. проверяется условие & = q— 1; б) превышение порогового значения F11CKJ1 величиной ^-статистики для проверки гипотезы Яо : Ry.xu) = Ry.x{q-i)l в) отсутствие «улучшения» качества набора по какому-либо из критериев п. 8.7.2. По поводу других правил остановки см. [24, п. 3.3.2]. Если выполняются условия остановки б) и в), информа- информативным набором при выходе из процедуры считается набор X (q), а при выполнении условия а) выходным будет набор X (q — 1), получаемый из X (q) удалением переменной х^1я\ и к матрице Aq применяется оператор ?А . Если остановки процедуры не происходит, то текущим ин- информативным набором становится набор X (q — 1), к матрице kq применяется оператор выметания Ui . После этого второй шаг повторяется в применении к набору X (q — 1). Рассмотрим теперь один экономичный по количеству вы- вычислений способ определения удаляемой переменной х^1\ Он может быть использован и в фазе удаления переменной для процедуры присоединения-удаления. Пусть 9; (X (q)) (i = 1, q) — оценка коэффициента урав- уравнения регрессии у для переменной xifi) 6 X (q). Эти коэффи- коэффициенты являются соответствующими элементами матрицы Aqy и, следовательно, проводить дополнительных вычислений не нужно. Предлагаемый метод расчета основан на следующем равенстве. Если из набора X (q) удаляется переменная x(JkK 290
то где a/ft/ft — элемент обратной матрицы корреляции для пере- переменной из X (q)\ X_fe (q — \) — набор переменных, получен- полученный из X (q) при удалении x(Jk\ Значение величины dh'h также может быть извлечено из матрицы Aq. Напомним, что рассматриваемое равенство относится к нормированным пе- переменным. Переменная, подлежащая удалению, определяется как = argmin Д/??. xfheX (q) 8.7.5. Оператор симметричного выметания. С вычислительной точки зрения пошаговые процедуры последовательного при- присоединения и присоединения-удаления удобно реализовать как. последовательность операций выметания, примененных к ис- исходной расширенной корреляционной матрице А размера (р + 1) (р + 1), которую можно представить в виде сле- следующей блочной матрицы A = уХ] У где Rx — матрица коэффициентов корреляции между предска- предсказывающими переменными порядка р X р\ туХ — р-мерный вектор коэффициентов корреляции независимой переменной у с предсказывающими переменными. Таким образом, при отборе переменных мы фактически переходим к нормирован- нормированным предсказывающим переменным и у. Рассматриваемый ниже оператор симметричного вымета- выметания предложен в [162, 191, 119 п. 12.2]. Будем различать опе- оператор прямого выметания Wk по переменной х (fe) (это соответ- соответствует расширению текущего набора за счет включения пере- переменной л:(/г)) и оператор обратного выметания Uh по перемен- переменной х{к) (что соответствует удалению переменной х(/г> из те- текущего набора). Действие оператора выметания на матрицу А состоит в пересчете ее элементов по одной из следующих схем: для оператора прямого выметания ik — 1/#/?/{; IOB HOB i HOB r • • i i 1 • * * / U\* 10* 291
для оператора обратного выметания ов • , k — —l/ahh, Uh (A) = аТ - аТс = -aik al? (t - 1, /> + 1; i =? k); а1Г = Щ?в = au-aih at?" (i, j = 1, p + 1; i, j Ф k). Операторы выметания Wh, Uh обладают следующими важ- важными свойствами: а) обратимость б) коммутативность Эти свойства легко интерпретируются в терминах включе- включения и исключения переменных л'и) и х(/) в текущий набор; в) оба оператора сохраняют симметрию матрицы А. Бла- Благодаря свойству в) при вычислениях необходимо использовать только верхний треугольник матрицы А, что позволяет вдвое сократить необходимую память и объем вычислений. Предположим, что в результате работы какой-либо про- процедуры отбора получен информативный набор X (q) из q пред- предсказывающих переменных и при этом применялся пересчет элементов матрицы А с помощью соответствующей последо- последовательности операторов выметания Whi Uh. Для упрощения обозначений будем считать, что в набор X (q) включены q пер- первых переменных хA), ..., ,v(<?> (этого всегда можно добиться перенумерацией переменных из X). Тогда результирующая матрица А^ будет иметь следующую структуру: А„= - I Rx\q) I L -B'(X(?))I i — i -B(Xfo)> Cx (p-q) (X G)) -в(Х(,)) CyX (p-q) (X (q) где Rxlq) — матрица размера q X q, обратная к матрице кор- корреляций переменных из X (q)\ Cx(P~q)(x(q)) — матрица раз- размера (р — q) X (р — q) частных ковариаций нормированных переменных X (р — q) = (x{q + l), ...,x(p)), не включенных в 292
информативный набор; В (X (q)) — матрица размера q X X (р—q), компоненты /-го столбца которой представляют собой коэффициенты регрессии нормированной переменной xiq + n 6 X (р — q) на нормированные переменные из X (q)\ 0 (X (q)) — ^-мерный вектор коэффициентов регрессии нор- нормированной переменной у на нормированные переменные из X(q)\ CyX(p~q) (X(q) — (р — ^-мерный вектор частных коэф- коэффициентов ковариаций нормированных переменных из X (р — q) с у\ R2y.x{q))— квадрат коэффициента множествен- множественной корреляции между переменной у и предсказывающими переменными из X (q). Таким образом, матрица Aq содержит полное решение за- задачи регрессии независимой переменной у на переменные из X (q) за исключением значения свободного члена. Из нее также легко извлечь частные коэффициенты корреляции переменных rtx(Q+ihx( )) с У* не°бходимые для продолжения пошаговых процедур. Именно СХ /\\ l-~CX (p-q) (X {q)) V \ ~~ %l. X (q) X (p-q) iX(q)) где c}/x(i)-q)X(q) — '-и элемент вектора частных ковариаций; cx{p-q)(X(q)) — диагональный элемент (остаточная дисперсия нормированной переменной x((J+i)) матрицы частных ковариа- ковариаций Cx(p-q){X{q))' Зная значение Ry.x{q), легко вычислить и значения кри- критериев качества уравнения регрессии, приведенных в п. 8.7.2. Диагональные элементы матрицы частных ковариаций Cx(P-q)(X(q)) представляют собой остаточные дисперсии норми- нормированных переменных x{q+i) 6 X (р — q) относительно пере- переменных из X (<7) и могут быть записаны в виде Т/ = CX(p-q) (X (q)) "¦= 1 — Rx<1 + О . х (q)' В условиях мультиколлинеарности значения Rl{q+i).x(q) для некоторых переменных л;<?+'> могут быть очень близки к'1. При попытке добавить такую переменную в информатив- информативный набор необходимо использовать величину, обратную к ть что при чрезмерной малости последней может привести к вычислительным трудностям. Поэтому целесообразно ввести пороговое значение, которое запретило бы использовать пере- переменную л:<'7+/), если соответствующее значение тг- будет мень- 293
ше порогового, т. е. если выполнится неравенство xt < тпор, то переменная х(<7+'> не будет использоваться для расширения набора X (q). Если же это неравенство выполняется для всех переменных из X (р — q), то отбор переменных следует счи- считать оконченным. 8,7.6. Методические аспекты использования процедур отбора существенных предикторных переменных. Когда число потен- потенциальных переменных велико, формальное применение любой из рассмотренных процедур отбора может привести к неудов- неудовлетворительному с содержательной точки зрения набору пре- предикторных переменных. Рассмотрим некоторые методические приемы, позволяющие увеличить эффективность применения пошаговых процедур отбора. 1. Повторное применение процедур отбора с принудитель- принудительно включаемыми переменными (ПВП). Возможность принуди- принудительного (обязательного) включения переменных в выходной набор X (q) достигается достаточно простой модификацией описанных пошаговых процедур, а также методов «всех рег- регрессий» и «ветвей и границ». При использовании ПВП в процедурах последовательного присоединения и присоединения-удаления формирование вы- выходного информативного набора происходит путем расшире- расширения начального набора, состоящего из ПВП, а для процедуры последовательного удаления переменная, удаляемая на ка- каком-либо шаге, не должна входить в число ПВП. Если имеется возможность использовать ПВП, целесооб- целесообразно провести, помимо автоматизированного отбора, также и несколько вариантов отбора с различными ПВП. Оконча- Окончательный набор получится в результате сравнения найденных наборов. Состав ПВП определяется, например, из эксперт- экспертных соображений. Другой возможный подход к формирова- формированию ПВП основан на анализе графика какого-либо из крите- критериев качества набора, выводимого при работе пошаговых про- процедур. С этой целью отбор переменных целесообразно прово- проводить по возможности до исчерпания всего исходного множест- множества потенциальных переменных с одновременным выводом на каждом шаге значений коэффициентов детерминации и крите- критериев качества набора. Такой режим легко осуществить, если в процедуре предусмотрено условие остановки по достижении определенного числа k переменных в выходном наборе. Тог- Тогда, например, для процедур прямого присоединения и присое- присоединения-удаления достаточно положить k = р. В случае ус- условия остановки, управляемого величиной Fmjl, увеличения числа отбираемых переменных можно добиться, уменьшая 294
значение FBKJ1, полагая его равным 20% или даже 30% уров- уровню значимости. На рис. 8.1 приведены два графика критерия качества на- набора для процедуры последовательного присоединения (зна- (значения критерия качества определены лишь в целых точках, однако для наглядности они соединены линией). Кривая I отражает случай, наиболее часто возникающий при отборе переменных: сначала монотонное возрастание величины кри- критерия качества, а затем ее монотонное убывание. Набор, со- 0,5 Число переменных 6 наборе Рис. 8.1. Варианты зависимости несмещенной оценки коэффи- коэффициента множественной корреляции (Ry.X(q)) от количества переменных для пошаговой процедуры последовательного присоединения ответствующий точке максимума, или какой-либо набор в ближайшей (плюс—минус одна-две переменные) его окрест- окрестности, является искомым информативным набором. Кривая II представляет потенциально более интересный случай от- отбора: после достижения локального минимума кривая вновь начинает возрастать, и величина критерия качества даже пре- превосходит первый максимум. В этом случае целесообразно ис- исследовать следующие вопросы: добавление какой переменной изменило ход графика? пусть это переменная х^'О, тогда сочетание каких пере- переменных из X— / (/ п и x^l) привело к скачку критерия ка- качества? В первую очередь подозрительна переменная *</i-i>. Затем необходимо провести отбор переменных с принудитель- принудительным включением переменных х{'1\ х^1-^ и других переменных, обусловивших изменение хода графика (такой отбор может также использоваться и для получения ответа на второй во- 295
прос, если, кроме xill~l\ в изменении хода графика «виновны» еще и другие переменные из X-jt (/ — 1)). 2. Экспертное упорядочение переменных по степени их информативности. Для успешного применения процедур от- отбора, в особенности когда переменных много, важную роль играет априорная (экспертная) оценка значимости потенци- потенциальных переменных для рассматриваемой задачи [2, 3, 93]. Например, источником для такой априорной оценки могут быть, во-первых, содержательные соображения об исследуе- исследуемом явлении и, во-вторых, задачи-аналоги, с которыми уже имел дело исследователь. Во всяком случае полезно разделить имеющиеся переменные на три группы ([93, гл. 15]): 1) ключевые—переменные, о которых известно, что они оказы- оказывают существенное влияние на зависимую переменную у\ все или некоторые из этих переменных могут быть по требованию исследователя включены в выходной набор в принудительном порядке; 2) потенциально информативные — переменные, возможность влияния которых на зависимую переменную у представляется достаточно обоснованной; 3) «шумовые» — пе- переменные, влияние которых на переменную представляет- представляется маловероятным. После сортировки переменных отбор производится сле- следующим образом. На первом этапе задача регрессии решается в пространстве ключевых переменных. Проводится анализ точности и адек- адекватности соответствующей линейной модели (см. гл. 11). Если не все из ключевых переменных необходимо в принудитель- принудительном порядке включить в итоговую модель, то можно попытать- попытаться сократить их число, применяя тот или иной пошаговый алгоритм. При этом переменные, не вошедшие в информатив- информативный набор, переводятся ь группу потенциально информатив- информативных переменных. Второй этап проводится, если качество регрессионного уравнения, оцененного на первом этапе, является неудовлет- неудовлетворительным. На этом этапе осуществляется отбор перемен- переменных из множества, полученного объединением ключевых и потенциально информативных переменных. Переменные, отобранные на первом этапе, включаются в выходной набор в обязательном порядке. Переменные, не вошедшие в информа- информативный набор на втором этапе, переводятся в группу «шумо- «шумовых». Если первые два этапа не привели к удовлетворитель- удовлетворительному результату, проводится отбор среди «шумовых» пере- переменных с принудительным включением переменных, отобран- отобранных на первом и втором этапах. 296
выводы 1. При практическом применении мнк-оценок исследователь часто сталкивается с явлением мультиколлинеарности, когда объясняющие переменные сильно коррелированы, т. е. су- существуют выраженные, хотя и неточные, линейные связи меж- между несколькими или всеми объясняющими переменными. В этой ситуации точность обычных мнк-оценок резко падает: ошибки некоторых параметров уравнения регрессии становят- становятся очень большими, эти ошибки сильно скоррелированы, вы- выборочные дисперсии резко возрастают. Резко сокращаются возможности интерпретации уравнения регрессии. Степень мультиколлинеарности измеряется либо обратной величиной минимального собственного числа нормированной (корреля- (корреляционной) матрицы, либо числом обусловленности, равным от- отношению максимального собственного числа к минимальному. Если минимальное собственное число равно нулю, то степень мультиколлинеарности и число обусловленности являются бесконечно большими, и мы имеем дело с точной мультикол- линеарностью или вырожденной системой линейных уравнений. 2. Оценивание параметров уравнения регрессии в случае сильной мультиколлинеарности основано на различных ме- методах регуляризации задачи — модификациях регрессии на главные компоненты, гребневых и редуцированных оценках. Со статистической точки зрения получаемые оценки являются, в отличие от мнк-оценок, смещенными. Однако они обладают рядом оптимальных свойств, в частности обеспечивают лучшие прогностические свойства оцененного уравнения регрессии на объектах, не вошедших в обучающую выборку. 3. Одним из методов получения оценок параметров уравнения регрессии при мультиколлинеарности является отбор сущест- существенных (информативных) объясняющих переменных. Сущест- Существует ряд мер качества набора переменных, которые исполь- используются алгоритмами отбора. Все они являются функциями от коэффициента детерминации, объема выборки и количества переменных, входящих в набор. В отличие от коэффициента детерминации, который не может уменьшаться при расшире- расширении набора объясняющих переменных, меры качества, исполь- используемые при отборе переменных, могут при этом убывать. 4. Алгоритмы отбора переменных отличаются используемым критерием качества набора и способом генерации наборов пе- переменных для их сравнения. Из схем генерации удобными с вычислительной точки зрения являются пошаговые схемы — простого добавления, простого удаления, добавления с уда- удалением и схемы выметания. В настоящее время в связи с рос- 297
том возможностей ЭВМ получают распространение и схемы прямого перебора, и различные его оптимизации на основе ме- метода ветвей и границ. Пошаговые схемы хотя и не гарантиру- гарантируют получения оптимального по выбранному критерию набора, однако позволяют обычно получить наборы, вполне удовлет- удовлетворительные для практического применения. Глава 9. вычислительные аспекты МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ 9.1. Итерационные методы поиска оценок метода наименьших квадратов (мнк-оценок) 9.1.1. Введение. Гл. 7, 8, 10 и И в той или иной мере посвяще- посвящены изучению статистических свойств оценок, порождаемых регрессионными моделями. В них рассмотрены такие вопросы, как состоятельность, несмещенность, эффективность и т. п. В настоящей главе все внимание уделено численным процеду- процедурам отыскания оценок. Для отыскания большинства оценок (см. гл. 5, 7) приходится решать экстремальные задачи вида j [Ki-ftX^ei'W,^—f(X,;e)]. (9.1) j] [it^,^(,;) Обычно на подобные задачи ссылаются как на задачи взве- взвешенного метода наименьших квадратов. В дальнейшем (9.1) будет именоваться задачей мнк и рассматриваться лишь слу- случай одномерного отклика. Итак, ближайшая цель — изложение численных методов решения экстремальной задачи 6* = arg rnin S\ wt (Ух — f №; в)J. (9.2) @ег ~{ Для некоторого упрощения записей там, где это не вызовет разночтений, вместо / (Хг\ в) будет использоваться запись П (В). Можно рассматривать (9.2) как задачу нелинейного про- программирования: (), в€Г п где J (в) = I,Wi (i/i —fi (В)J. Многочисленные стандартные 298
алгоритмы и программы для решения задач нелинейного про~ граммирования имеются в математическом обеспечении прак- практически любой современной ЭВМ (см. гл. 15). Особенности использования общих алгоритмов миними- минимизации в статистических задачах неоднократно обсуждались в литературе (см., например, 1172], эта работа содержит об- обширную библиографию; 1145, 146, 135, 43]). Вообще говоря, любой из этих алгоритмов пригоден для решения (9.3), однако имеются веские аргументы для развития специальных алго- алгоритмов и программ решения экстремальных задач, связанных с анализом данных регрессионных экспериментов. Во-первых, учет структуры функции J @) позволяет отобрать алгоритмы, работающие наиболее эффективно именно при решении задач типа (9.2). Во-вторых, решение экстремальной задачи (9.2) или (9.3) составляет примерно лишь половину от общего объема вычис- вычислительной работы, которую необходимо проделать при рег- регрессионном анализе. Действительно, сами оценки, т. е. числа 0*, содержат не так уж много информации для исследователя. Необходимо знать ковариационные матрицы оценок или их оценки, доверительные интервалы для неизвестного значения результирующего показателя (отклика), ряд величин, харак- характеризующих адекватность регрессионной модели и т. д. (см. гл. 11). В вычислительном плане крайне удобно, когда упомя- упомянутая числовая информация подсчитывается как «побочная» при отыскании самих оценок. Именно алгоритмам, обладаю- обладающим такими свойствами, отдается предпочтение при создании программ по регрессионному анализу. 9.1.2. Алгоритмы квазиградиентного типа. Предположим, что область допустимых значений параметров Г совпадает со всем евклидовым пространством Rm (m — число неизвестных па- параметров, т. е. размерность вектора 0). Наибольшее распространение в настоящее время получи- получили алгоритмы итерационного типа es+i=e8 + Ps6s, (9.4) где s — номер итерации; 8Л — вектор, определяющий направ- направление движения на s-й итерации; ps — длина шага. Идея, лежащая в основе этих алгоритмов, очень проста: на каждом шаге двигаться в направлении минимума функции J @). Различные алгоритмы отличаются способом выбора это- этого направления и правилами выбора длины шага. В данной главе обсуждаются лишь алгоритмы, движение в которых осу- осуществляется в направлении под острым углом к антиградиен- 299
ту—VJ (в) функции J (в) (или некоторой ее аппроксимации). Такие алгоритмы будут назы- называться в дальнейшем алгорит- алгоритмами квазиградиентного типа- Напомним, что аптигради. ент—это направление, проти- противоположное градиенту, а гра- градиент в точке в перпендикуля- перпендикулярен к линии постоянного зна- значения функции Ув), проходя- проходящей через эту точку (рис. 9.1). Полезно иметь в виду, что гра- градиент определяется часто сле- следующим образом: Рис. 9.1. Определение направ- направления градиента где е'е = 1. Таким образом, градиент в каком-то смысле указывает нап- направление локального наискорейшего возрастания функции J (9). Компоненты градиента определяются формулой д ~~дв @)=/— «/(©),..., У (в) Легко проверить, что дли функции J (в), соответствующей задаче мнк, Д7(в)=—2^F), где ае По рисунку видно, что в некоторых точках направление, указываемое антиградиентом, существенно отличается от на- направления, указывающего на точку 6*. По этой причине мно- многие алгоритмы предусматривают движение, вообще говоря, отличное от антиградиента. Для алгоритмов квазиградиентпого типа соотношение (9.4) принимает вид: в.+1=в;-р,Нву/, (9-5) 300
Вектор "VJs либо совпадает с градиентом VJ FJ, подсчи- подсчитанным в точке 6А., либо представляет из себя его некоторую аппроксимацию. Матрица Hs — положительно полуопреде- ленная матрица, т. е. Vys'H>sV./.s ^ 0, что и гарантирует дви- движение под острым углом к антиградиенту. В табл. 9.1 представлены выражения для наиболее рас- распространенных алгоритмов безусловной минимизации с с % 1 2 3 4 5 Метод Градиент- Градиентный спуск Ньютона Ньютона — Гаусса (линеари- (линеаризации) Вариант Марквардта Сопряжен- Сопряженных гради- градиентов Матрица Hs y[MH-vsn V/' (в&) у7 (Qs) Та Пункт книги, где описан способ выбора 9.2.1 9.3.1 9.4.1 9 4 2 9 5 3 блица 9l Гип скорости сходимости Геометриче- Геометрическая прогрессия Сверхлиней- Сверхлинейная (квад- (квадратичная) Геометри- Геометрическая прогрессия Геометриче- Геометрическая прогрессия Сверх- линеиная 9.2. Градиентный спуск 9.2.1. Описание общей схемы алгоритма. При градиентном спус- спуске движение осуществляется непосредственно в направлении антиградиента, т. е. Hs -^ Im (напомним, что \т — единичная матрица размерности т X т). Итерационная процедура та- таким образом принимает вид: в.+г=е, 4-4-Р.'^. (9-6) 301
где %s = V- (вв). Перечислим несколько возможных способов выбора вели- величины шага р5. Обозначим ps = ~^уs направление минимизации. Сущест- Существуют два основных способа, приводящих к снижению значения J (в) на каждом шаге и к сходимости итеративного процесса. 1. Зададимся некоторым О <С е << 1. Дроблением шага добьемся того, чтобы Поскольку Ps^J -(®&) < 0, всегда J (Bs+1) — J (В6.) < 0. 2. Длина шага определяется из условия ps = arg min J (Bs + p p&). (9.7) При таком выборе шага обычно говорят о «наискорейшем спуске». Экстремальная задача (9.7) чаще всего решается с помощью квадратичной аппроксимации по р. Решение одномерной задачи минимизации вторым способом может оказаться чрезвычайно трудоемким. Дело может ос- осложниться тем, что функция J (В) вдоль выбранного направ- направления может быть мультимодальной. Поэтому первый способ нам кажется более предпочтительным. Описанные способы вы- выбора шага могут применяться и в других методах минимиза- минимизации (см. § 9.3—9.5). Сравнение эффективности различных способов выбора дли- длины шага применительно к задачам регрессии проведено в 1159I. Алгоритмы типа (9.6) (см., например, [35, 107, 251) обес- обеспечивают при определенных ограничениях на функцию J (В) сходимость последовательности {9S} со скоростью геометри- геометрической прогрессии В частности, такая скорость сходимости обеспечивается так называемой линейной сходимостью, при которой где ||0S — 9*|| — длина вектора Bs — 0*; С и q — констан- константы, определяемые видом J (В). 302
Например, если помимо некоторых не очень существенных ограничений градиент удовлетворяет условию Липшица: при всех4 6, в ? /?m, L = const > 0, и функция J (в) сильно выпукла с показателем \i\ J [a 6 + A —а) 6] < aj (в) + A —а) J (в) — — [лаA— а) (в — в)'(в— в) при всех в, в ?Rm и 0<а< 1, то q - 1— \i/2L. 9.2.2. Замечание об эффективности алгоритма. Одним из ос- основных достоинств градиентного спуска является его простота. Однако реальная скорость его сходимости уменьшается при приближении 6S. к точке в*. Для функций овражного типа с сильно вытянутыми линиями уровня в окрестности в* эффек- эффективность методов типа градиентного спуска особенно низка, так как обычно для таких функций ц близко к нулю. При решении статистических задач с помощью градиентно- градиентного спуска приходится на заключительном этапе проводить до- дополнительные расчеты по отысканию оценок ковариационных матриц и прочих величин, описывающих статистические свой- свойства оценок. Обычно градиентный спуск целесообразно применять лишь на начальных этапах минимизации, используя найденные в результате сравнительно небольшого числа итераций величи- величины вч в качестве начального приближения для более сложных методов, обладающих большей скоростью сходимости. 9.3. Метод Ньютона 9.3.1. Описание общей схемы метода. Идея метода Ньютона (иногда его называют методом Ньютона—Рафсона) заключа- заключается в квадратичной аппроксимации функции J (в) в окрест- окрестности точки 6S. Значения 6s4l находятся из условия миниму- минимума аппроксимирующего полинома второй степени и опреде- определяются в случае положительной определенности матрицы G - по формуле (9.9) 303
Положительная определенность гессиана Gs является су- существенным ограничением использования метода Ньютона. Вместе с тем, чем ближе начальное приближение к минимуму, тем скорее можно ожидать выполнение этого условия. Ведь в точке минимума, весьма вероятно, матрица G (в*) положи- положительно определена, а из непрерывности G (в) следует, что в некоторой окрестности в* гессиан также будет положительно определен. Поэтому наибольший эффект имеет применение этого метода в достаточно близкой окрестности решения. Иными словами, ps = 1, Hs = Gs. Несложные выкладки показывают, что для (9.2) Gs - 1/2 (Ms + Vs), где дв дв' двдв' При линейной параметризации ft (в) = в'!0 (X,) решение в* получается на первом же шаге независимо от выбора 9q. На практике предпочитают использовать метод Ньютона с регулировкой шага ©s+l = ©s + 9s (Мв + V,)-l &89 (9.10) где ps выбирается, например, в соответствии со способом 1 из предыдущего параграфа или из условия p, g р>0 Процедура (9.10) оказывается более стабильной по срав- сравнению с (9.9), которая особенно чувствительна к выбору на- начального приближения 0О и подвержена эффекту «раскачки» при его неудачном выборе. 9.3.2. Скорость сходимости процедуры. Если дополнительно к условиям, сформулированным в конце п. 9.2.1, потребовать, чтобы ||G (в) — G (в)|| < /СЦв —"в|| при всех В,В? /?«, то при упомянутых последовательностях {ps} независимо от выбора 60 последовательность {®s} сходится к в* с квадра- квадратичной скоростью, т. е. 304
где константа С определяется видом функции J (в) и не зави- зависит от s. При решении практических задач на данное утве^шдение (впрочем, как и на аналогичное утверждение из § 9.2)"ве сле- следует особенно полагаться. Дело в том, что проверка условий, его сопровождающих, за исключением тривиальных слу- случаев, реально невозможна. К тому же большинство из них для «экзотических» выборок (маловероятных выборок) заведома не будут выполняться. Тем не менее подобные утверждения все же имеют смысл, так как позволяют дать оценку той мак- максимальной скорости сходимости, которую можно достигнуть с помощью данного метода. Данное замечание имеет место для всех методов, рассматриваемых в этой главе. Одним из наиболее существенных недостатков метода Нью- Ньютона является необходимость подсчета производных \is и Ф^. Для достаточно сложных функций /г- (в) это приводит к весьма громоздким вычислениям и заметно усложняет работу пользователя, так как приходится составлять специальные дополнительные программы по подсчету производных. 9.4 Метод Ньютона-Гаусса и его модификации 9.4.1. Общая схема метода. Заметно более простым по-срав- по-сравнению с предыдущим методом является метод Ньютона—Гаус- Ньютона—Гаусса, в котором матрица Hs = M71. Практика показывает, что именно для регрессионных задач его эффективность такая же, как и метода Ньютона. К итерационной процедуре Ньютона—Гаусса в.+1=в;н-р,мв-^, (9.11; можно прийти из следующих соображений. Для достаточно гладких функций ft (в) в окрестности точки Qs можно пола- полагаться на простейшую аппроксимацию Л(в)=/,(вв) + ^(в-С). (9-12) Полагая yt = yt —• ft FiS) и В = 0 — 6S, приходим к необходимости минимизации (см. (9.2)) функции 305
При исследовании этой задачи в гл. 7 показано, что ми- минимум достигается при В = МГ1 %&. Отсюда следует, что Для линейного случая решение достигается за один шаг. При нелинейной параметризации процедура повторяется: e,+1~ee + Ms-l^e. (9.13) Именно эта процедура и носит название метода Ньютона— Гаусса. Для рассматриваемой экстремальной задачи метод Нью- Ньютона—Гаусса близок методу Ньютона. При линейной парамет- параметризации они совпадают. Их близость при малых вторых про- производных Ф18 очевидна. Имеется и более глубокая причина их близости. Действительно, при п —>¦ оо и некоторых не слиш- слишком ограничительных предположениях в силу закона больших чисел имеем следующую сходимость (с вероятностью единица) 1(у1~}1(в8))Фы~^ limn-1 где Эи — истинные значения искомых параметров. 9.4.2. Обсуждение скорости сходимости процедуры. Метод Ньютона—Гаусса очень чувствителен к обусловленности матриц M.s.. При плохо обусловленных матрицах M.s наблюда- наблюдается «раскачка» итерационного процесса, а если он и сходится, то его предельные точки меняются с изменением начального приближения в0. Наиболее распространенной причиной пло- плохой обусловленности матриц M.s является неудачный выбор режимов наблюдений X. Поэтому, сталкиваясь с плохо обус- обусловленными матрицами Ms, экспериментатору следует попы- попытаться в первую очередь разобраться в своих опытных данных, и, может быть, провести дополнительные наблюдения. Если же структура данных не может быть улучшена, то приходится обращаться к методам, которые менее чувствительны к виду матриц M<s. Одним из наиболее широко применяемых является метод Марквардта: в^-^ + рлМ. + ^А,]-1^, (9.14) который может трактоваться как некоторое усовершенствова- усовершенствование метода Ньютона—Гаусса. 306
В (9.14) ys^ О» As — положительно полуопределенная •матрица. При уя = 0 реализуется метод Ньютона—Гаусса, при ys -> оо и Ая — 1 направление движения приближается к антиградиенту. Выбор ptS. и уя в большинстве модификаций (9.14) проводится из соображений монотонного убывания J (В). Матрица As в большинстве компьютерных реализаций (9.14) выбирается диагональной, причем ее элементы совпадают с диагональными элементами матрицы М.ч. Полезно иметь в виду следующий факт. Если опираться на линейную аппроксимацию (9.12), то при ps = 1 каждый шаг в методе Марквардта может быть истолкован как минимиза- минимизация функции Иными словами, в этом методе па каждом шаге проводится регуляризация исходной задачи. Сходимость метода Ньютона—Гаусса и его модификаций изучалась, например, в 1109,200, 2371, различные коммен- комментарии и дополнительную библиографию можно найти в [145, 146, 25, 431. Скорость сходимости в зависимости от условий, накладываемых на функции /f (В), f/s., Ф1яу и способов выбора Р». Y*-» А« может быть линейной (||В5+1 — в*|| ^д||Вч.—В*|() сверхлинейной (||BS+1 — В*|| ^ <7.Ч-||В€Ч — В*||, qs —>- 0) или квадратичной (|{вя+1 — в*|| < C|1b.s. — В* 112). 9.4.3. Рекомендации . по правилу остановки итерационной процедуры. Для регрессионной задачи (9.2) матрица D = = М (В*) может быть использована в качестве оценки ко- ковариационной матрицы мнк-оценок. Если lim B,s. =- В*, то S->oo итерационная процедура Ньютона—Гаусса наряду с оценка- оценками В* поставляет и матрицу D (D » М«г*!, где s* —• номер заключительной итерации). Этот факт позволяет также сфор- сформулировать простое и естественное правило остановки. Рас- Расчеты прекращаются, как только (в.+i-e.)' M.4L, (в,+1-в.) < а, (9.15) где а — наперед заданная точность. 307
Данное правило более естественно, чем, например, правило, используемое в общих программах минимизации. (^«и — ^.s) (^.s-h — ^s) ^ <*• Действительно, точность на- нахождения В* целесообразно соизмерять со статистической точностью (ее ковариационной матрицей) мнк-оценок. 9.5. Методы, не использующие вычисления производных 9.5.1. Основные подходы к устранению необходимости вычи- вычисления производных. Как уже отмечалось, существенным не- недостатком методов, изложенных в предыдущих параграфах, является необходимость подсчета производных fiiS, а в методе Ньютона — и вторых производных Фы на каждой итерации. При сложных функциях /,- F) это, во-первых, оказывается утомительным с программистской точки зрения, а во-вторых, приводит к громоздким вычислениям на каждой итерации. Возможно несколько способов избавления от необходимости подсчета производных: использование методов прямого поиска (нулевого поряд- порядка), таких, как симплекс-метод, метод случайного поиска и т п. 11851, аппроксимация производных конечно-разностными ана- аналогами, специальные методы аппроксимации матриц Hs, V./.s, поз- позволяющие реализовать итерационные процедуры, близкие по эффективности к процедурам Ньютона и Ньютона—Гаусса, но с меньшим объемом вычислений. Прямые методы минимизации оказались малоэффективны- малоэффективными для задач регрессионного типа даже но сравнению с гра- градиентными методами [251. К тому же после отыскания с их помощью экстремальных значений 6* требуется проведение объемистых вычислений по нахождению статистических харак- характеристик, описывающих качество оценок. Конечно-разностная аппроксимация хотя и избавляет пот- потребителя от утомительной работы по составлению дополни- дополнительных программ для вычисления производных, но не решает проблемы сокращения объема вычислений. Чаще всего она приводит к его заметному увеличению. Наиболее перспективными и удобными оказались методы третьей группы. Они завоевали весьма прочное место во мно- многих статистических пакетах (см., например, [1691). 308
9.5.2. Разностные аналоги метода Ньютона — Гаусса. Основ- Основная идея, на которую опираются методы третьей группы, за- заключается в использовании на (s + 1)-й итерации информа- информации, полученной на предыдущих s итерациях, для построения разумных аппроксимаций элементов матрицы Hs и компонент градиента VJS. При решении регрессионных задач хорошо зарекомендова- зарекомендовали себя методы, являющиеся, по существу, аппроксимация- аппроксимациями метода Ньютона—Гаусса. По-видимому, работа [236] яв- является в этом направлении пионерской. Упрощенный и непо- непосредственно приспособленный к задачам регрессии алгоритм предложен в [2421, см. также П691. Достаточно подробный анализ алгоритмов подобного типа и их дальнейшее развитие содержатся в 137, 381. Данную совокупность методов целесо- целесообразно назвать методами Ньютона—Гаусса без подсчета про- производных. Как и обычный метод Ньютона—Гаусса (см. п. 9.4.2), эти методы опираются на линейную аппроксимацию функций /,- (в) в окрестности точки Вй: ft (в) «Л- («„) + v/s (в-вв). (9.16) В отличие от метода Ньютона—Гаусса коэффициенты Y/s не совпадают с производными f/s, а подсчитываются по зна- значениям функции /,• (в/), полученным по прошлым итераци- итерациям. В принципе величины \is могут быть подсчитаны самыми различными способами, но в программах по регрессионному анализу оказывается очень удобным отыскивать их с помощью все того же мнк. Определим yis как решение задачи мнк: v IS где о),;/— веса, описывающие вклад того или иного значения fi (St). При этом s значений получены непосредственно из ите- итерационной процедуры, а выбор остальных q значений парамет ров в будет объяснен позднее. В частности, в алгоритме, пред- предложенном В [242], (Os.s-f-f = (Os.e+f — l = -.. ^ (Os.s + f-m — 1» а остальные веса полагаются нулевыми. Хорошие результаты дает выбор весов вида cost = = Ф [У (в/I, где q> — убывающая функция, например ехр \-~kJ F,)|. Можно показать, что Yi^Qs-'f/is, (9.17) 209
где Подставляя теперь в (9.2) приближенное значение функции ft (в) =¦- Л ((?s) \- yis(® —Я) (ср. с §9.4), получим, что функция У (в) достигает своего минимума при в — (-)s = где После несложных преобразований приходим к очень удоб- удобной в вычислительном плане формуле где ms-^Wi UisU'i Итерационная процедура Ньютона—Гаусса, опирающаяся на (9.18), принимает вид 0Sм =хВ, + [КQ,т;> ^ Uu (yi~ft (В.,)). (9.19) Выбор p.s осуществляется по одному из правил, принимае- принимаемых для процедуры Ньютона—Гаусса с переменным тагом. Остановимся на некоторых особенностях процедуры (9.19). Ее основное достоинство состоит в том, что на каждом шаге до. статочно всего одного вычисления функции f -г (О) (естественно^ при всех / — 1, п). Данное свойство оказывается чрезвычайно полезным при сложных функциях / (Х,; в), например, в тех случаях, когда эта функция удовлетворяет некоторому диф- дифференциальному уравнению, допускающему лишь численное решение, для получения которого требуются специальные объемистые вычисления. Процедура (9.19) содержит операцию обращения матрицы, от которой можно было бы избавиться, заменив ее обращением 310
с помощью рекуррентных формул. Однако, как правило, тру- трудоемкость этой операции несущественна по сравнению с тру- трудоемкостью подсчета значений функций ft (В). В 12421 утверждается, что вместо непосредственного обра- обращения матрицы ms целесообразно использовать пошаговые процедуры, применяемые при отборе существенных факторов (см. гл. 8). Подобный прием особенно удобен при функциях J (В) «овражного» типа (матрица ms. плохо обусловлена). Для определения Y/i требуется подсчет функций /,• (В) по крайней мере в (т + 1)-й точке В,. На последующих итера- итерациях достаточно проведения подсчета функций ft (В) лишь в одной точке 6S. Однако при плохо обусловленных матрицах ms рекомендуется использовать в (9.17) дополнительные зна- значения функций, подсчитанные в точках ®tl1 ..., 0/ft . Таким S образом, упоминавшееся ранее q равно ]У./г/. Дополнительные /-= 1 точки рекомендуется располагать на направлениях, ортого- ортогональных к направлению, определяемому (9.17). При линейной параметризации метод Ньютона—Гаусса без подсчета производных дает точное решение задачи мнк на первой итерации, если pt = 1. На наш взгляд, выигрыш в объеме вычислений при пере- переходе от итерационной процедуры (9.18) к более сложным про- процедурам весьма сомнителен ввиду резкого увеличения слож- сложности расчетов на каждой итерации. 9.5.3. Некоторые замечания о выборе длины шага. Один из главных недостатков изложенного метода состоит в следую- следующем. Как показано ранее, существенным свойством квази- квазиградиентных методов является возможность отыскания такого (может быть, достаточно малого) шага р., в выбранном направ- направлении, который приводит к уменьшению значения минимизи- минимизируемой функции. Это имеет место всякий раз, когда направ- направление минимизации составляет острый угол с антиградиентом. Выбор же направления в формуле (9.19) не гарантирует нам этого. Поэтому даже при малых ps > 0 мы будем не в состоя- состоянии уменьшить значение J (В). В [242] предлагается попере- попеременно для ps пробовать как положительные, так и отрицатель- отрицательные значения. Например, если задаться коэффициентом ре- редукции О <С Р <С 1, то можно положить р — (—Р)г, где г =. = 0, 1, ...; ps тогда соответствует первому г, для которого J (®«4i) < J (®s). Однако и эта процедура иногда может не привести к уменьшению функции, (например, в случае, когда направление минимизации ортогонально градиенту). Тогда 311
следующую точку можно искать методом случайного поиска, в окрестности данной B.s. 9.5.4. Разностные аналоги метода Ньютона. В предыдущем пункте отправной точкой при конструировании итерационных процедур служила доступность.информации* лишь о функци- я* fi (®«). Иногда в регрессионных задачах оказывается срав- сравнительно просто подсчитать производные \is. Подчеркнем, что речь идет о непосредственном подсчете величины f/s, а не их разностных аналогов, которые требуют, по крайней мере (т + 1)-го вычисления функций /,• (Bs). Обращение к разност ным формулам для вычисления fis делает применение изло- изложенной ниже группы методов бессмысленным. Каждый шаг, ими определяемый, будет по трудоемкости близок к несколь- нескольким шагам из итерационных процедур, рассмотренных в п. 9.4.1 и 9.5.2. По-видимому, наиболее известным из рассматриваемой группы методов является метод Дэвидона—Флетчера—Пау- элла. Идея, лежащая в основе данных методов, состоит в отыс- отыскании на каждом шаге направлений спуска, близких к направ- направлению метода Ньютона, но без использования матрицы вторых производных. Матрица Hs, аппроксимирующая матрицу Нл. из метода Ньютона, может быть, например, выбрана как решение сис- системы vy(e/)-vj@/_1)-H-l(B/~^-i); t<s, (9.20) где Н — симметричная матрица. Решение системы (9.20) при s < га неоднозначно, поэтому возможны различные способы конструирования матрицы Н Различные методы рассматриваемой группы отличаются способами конструирования этой матрицы и правилами вы- выбора направлений H7*VJ (в*), если они не определены одно" значно. Матрица Hs должна удовлетворять одновременно урав- уравнениям (9.20) при всех / <I s. Приведем способы конструирования матриц Hs. для неко- некоторых наиболее распространенных методов (см. 1108, 115, 240, 2111): а) метод сопряженных градиентов: 312
где gs = VJ (в5) — УУ (Os-j), матрицу Но часто выбирают единичной или диагональной с элементами воа/УУа F0), <i — 1, т\ б) метод Дэвидона—Флетчера—Пауэлла: й в) измененный вариант метода Дэвидона—Флетчсра—/7а- уэлла: ( () При квадратичной функции J (в) (в нашем случае — ли- линейной параметризации) после т шагов матрица Н, подсчиты- подсчитываемая любым из методов а)—в), в точности совпадает с матри- матрицей Hs, определенной в п. 9.3. Иными словами, при ps = 1 в этом случае точное решение исходной экстремальной задачи будет заведомо получено за т шагов. Если ps выбирается из условия наискорейшего спуска в направлении —HSV/ FS), то при выполнении не слишком ограничительных условий после- последовательность {в5} сходится при 5-^ оо к в* со сверхлиней- сверхлинейной скоростью независимо от выбора 0О. 9.6. Способы нахождения начального приближения В задаче минимизации функции J F) первостепенное значение имеет удачный выбор начального приближения 60. Разумеет- Разумеется, невозможно придумать общего правила, которое было бы удовлетворительно для всех случаев, т. е. для всех возможных нелинейных функций {/J. Каждый раз приходится искать свое решение. Ниже предлагается набор некоторых способов нахождения грубых начальных приближений, который на практике может служить отправной точкой поиска удовлет- удовлетворительных приближений в конкретной задаче. 9.6.1. Поиск на сетке. Особенно эффективен этот метод при не- небольшом числе собственно нелинейных параметров. Часто функции fi устроены так, что при фиксации значений одних параметров (которые и называем собственно нелинейными) 313
остальная часть параметров становится линейной. Задаваясь тогда нижней и верхней границей для нелинейных параметров, с некоторым шагом можно устроить перебор вариантов на по- полученной сетке значений этих собственно нелинейных пара- параметров и выявить ту линейную регрессию, которая приводит к минимальной сумме квадратов. [ В качестве примера рассмотрим функцию f(Xi;e) = Q1 + e2x?}+Qse°'Xi . (9.21) Здесь собственно нелинейным параметром будет 94. Допус- Допустим, известно, что 04^ Э4 ^ 04. Пусть h — шаг для па- параметра Э4. Вычислим К = @4 — ?$)/А линейных регрессий Jk(Xt; e) = B1+Q2xl»+Qazlh, где zih = exp [(^4 + hk)xj2)], k = 1, ..., /С, и найдем для каждой из них минимальную сумму квадратов. Наименьшей из них соответствует оптимальное начальное приближение. В принципе шаг Л, от которого зависит «густота» сетки, может варьироваться, так что за счет уменьшения величины h значе- значения параметров могут быть найдены с любой точностью. 9.6.2. Преобразование модели. Иногда некоторым преобра- преобразованием модель можно свести к линейной или же уменьшить число собственно нелинейных параметров (см. п. 6.2.3). Пока- Покажем, как этого можно добиться, на примере логистической кривой f(xt\ 0) = 1 +А exp @з Производя над соответствующими уравнениями регрессии обратное преобразование, получим Уь Si 01 Обозначая г{ = l/yh l/Ql = 0(, 92/Qi = 02, приходим к новой функции, число линейных параметров которой увели- увеличилось с одного @Х) до двух @[ и 02). Оценка для параметра 03 в новой модели может быть найдена, например, по преды- предыдущему методу. Здесь уместно сделать следующее замечание о преобразо- преобразованиях регрессионных моделей. Следует иметь в виду, что ошибка е, входившая аддитивно в исходное уравнение, после преобразования, вообще говоря, уже не будет аддитивна. 314
Пользуясь разложением в ряд Тейлора и обозначая преобра- преобразование ft (9) через q (ft)y получим, пренебрегая слагаемыми порядка ег3, zt = q (Уд = Я (ft + е») = q (/,) + q (Д) е, + -j q(ft) e?. Отсюда следует, что Ezt = Eq(yi) = qtf,)+± '<?(/*) о2. Последнее равенство можно взять за основу для анализа задачи с преобразованной моделью. 9.6.3. Разбиение выборки на подвыборки. Для нахождения начального приближения можно разбить всю выборку на т подвыборок (с приблизительно равными объемами), где т — число неизвестных параметров. Для каждой подвыборки най- найдем средние по у и по X, которые обозначим соответственно (yjy Xj), j = 1, ..., т. Решим систему нелинейных уравнений относительно 8Ь ..., 9Ш: Решение этой системы и будет являться начальным при- приближением параметров. Очевидно, для того чтобы данный ме- метод «работал», необходимо, чтобы эта система нелинейных уравнений решалась довольно легко, например аналитически. 9.6.4. Разложение в ряд Тейлора по независимым перемен- переменным. Основой итеративной минимизации суммы квадратов является разложение функции регрессии в ряд Тейлора до линейных членов по параметрам. Для нахождения грубого начального приближения иногда бывает полезна процедура аппроксимации регрессии путем разложения ее в ряд Тейлора по независимым переменным Xt. Будем для простоты считать Xt одномерным. Пусть х — среднее значение, тогда прибли- приближенно ; в) «/ (*; e) + {Xi-x)fr> (х; в) + ... + -±-(хь - Обозначим (xt — x)k = zih, /?Л) (х\ в) = ФЛ, таким образом приходим к линейной модели 315
Пусть Фк — мнк-оценки параметров этой линейной ре- регрессии. В качестве начальных приближений примем реше- решение нелинейной системы уравнений относительно 9Ь ..., 9W: Очевидно, этот метод приемлем в том случае, когда по- последняя система относительно первоначальных параметров решается довольно просто (аналитически). Покажем использование этого приема на примере нели- нелинейной регрессии (9.21). Для простоты будем считать х{2>> = = 0. Тогда ее^2) ~ 1 +(J^>_^<2>)94+ ± (*Р>-3?2))ав|. Подставляя это разложение в (9.21), получим ^1) + ее^2) +eej(*na Обозначив 00 = 9! + 93, Фх = 92, ф3 = 83е4, Ф4 = = в3е1/2, *}1} = ziu *|а) = zi2, (A2)J = zi3, приходим к ли- линейной по Ф модели Тогда если Ф, — мнк-оценки линейной регрессии, то легко проверить, что начальным приближением для парамет- параметров в будут (Г2 = Ф^, 9^ = 20^/аГ3, ^з = Фз/^Ji = ®о — -в;. В реальности возможна комбинация предложенных спо- способов. Практика показывает, что таким образом можно полу- получить достаточно хорошее начальное приближение для широ- широкого круга нелинейных регрессионных задач. 9.7. Вопросы существования и единственности мнк-оценки 9.7.1. Существование. Запись (9.1), строго говоря, не совсем корректна, так как мнк-оценка может отсутствовать, если априорное множество параметров Г не является компактом (по предположению ft считаем непрерывными на Г). Отсут- Отсутствие решения в задаче мнк практически приведет к тому, что итеративный процесс минимизации J F) будет расходиться 316
и ПОЛ-** «* при s~>- оо. Естественно, перед тем как решать задачу минимизации, желательно удостовериться, что она корректна. Изложим один подход к решению этой проблемы (более подробно см. [43, 44]). Назовем нижней границей функ- функции J (в) на бесконечности число 7=lim inf У@). Можно показать, что если существует такое начальное при- приближение в0, что J @О) < У, то мнк-оценка существует, а множество 5 (в0) = {в ? Rm : J (в) < J (в0)} компактно. Компактность его гарантирует существование хотя бы одной предельной точки последовательности значений параметров, вырабатываемой одним из методов минимизации. Нелинейная регрессия имеет бесконечные хвосты, если при цв||-> оо \ft (в)|-> оо для любого / = 1, 2, ..., п. Наоборот, регрессия имеет конечный хвост, если существует такая последовательность параметров ||0ft||-^°o, ?->-оо, что l/i (®I ^ М < °° Аля всех ь ~ 1» 2, ..., п. Можно показать, что У = +оо тогда и только тогда, когда регрессия имеет бес- бесконечные хвосты. В случае J = оо мнк-оценка всегда сущест- существует. Например, в случае логлинейной модели, т. е. когда f (Xi\ в) = exp F'Xi), регрессия имеет бесконечные хвосты, если векторы Х1у ..., Хп ? Rm разнонаправлены (для любого а ? jRm существует вектор Х7«, для которого а'Х7- < 0). В то же время можно показать, что если наблюдения yt > 0, то в логлинейкой модели мнк-оценка всегда существует. Оценки снизу для величины J в каждом конкретном случае находят аналитически до начала процесса минимизации. 9.7.2. Единственность. Сумма квадратов может быть мульти- модальной. Более того, можно доказать, что вероятность муль- тимодальности J @) отлична от нуля для любой нелинейной регрессии, не сводящейся к линейной преобразованием в про- пространстве параметров. Дело усугубляется тем, что все методы минимизации в лучшем случае приводят к локальному мини- минимуму функции. Проверка того, является ли этот минимум гло- глобальным является следующей, возможно, не менее трудоем- трудоемкой операцией. На практике часто поступают следующим об- образом. Процесс итераций начинают из другого начального приближения. Тогда, если он сойдется к точке, полученной в первой попытке, можно быть более уверенным в том, что нели- нелинейный минимум является глобальным. Существуют аналитические методы проверки на достижи- достижимость глобального минимума суммы квадратов. Все они пред- 317
полагают аналитическое исследование поверхности отклика. Иногда при исследовании этой проблемы бывает полезен сле- следующий результат. Пусть 'найдено выпуклое множество пара- параметров S, на котором гессиан d2J/dSdS' положительно оп- определен. Пусть далее найдена оценка снизу М, такая, что J (в) ^ М для всех 6 ? S. Тогда, если найденной точке в процессе итераций в* ? 5 соответствует локальный минимум со значением J (в*) < М, то J (в*) — глобальный минимум функции. Яапример, для логлинейной модели [43] / (X,; в) = exp (Q'Xi) с положительными наблюдениями уг мно- множеством S будет S=:{QeRm:@' X^lnyt— In 2, i=l, ..., n}, а в качестве простейшей оценки снизу можно взять М = = j min yf. Подобные оценки, как и в случае исследования на существование мнк-оценки, необходимо проводить анали- аналитическими методами. ВЫВОДЫ 1. При исследовании параметрических моделей регрессии наи* более распространенным типом оптимизируемого (с целью нахождения оценок неизвестных значений параметров рег- регрессии) критерия адекватности модели является взвешенный (или обобщенный) критерий наименьших квадратов (см. (9.1), (9.2)). Следует стремиться к построению таких вычислитель- вычислительных алгоритмов решения оптимизационных задач, которые наряду с решениями этих задач —- значениями оценок в не- неизвестных параметров в,—давали бы необходимые харак- характеристики их точности (оценки элементов ковариационных матриц, доверительные области и т. п.). 2. Наибольшее распространение среди методов поиска оценок наименьших квадратов получили алгоритмы итерационного типа, позволяющие на каждой следующей ((s + 1)-й) итера- ции получать приближенные значения 6s+i искомых оценок параметров, лежащие «ближе» к истинному решению 0* соот- соответствующей оптимизационной задачи, чем значения 63 пре- предыдущей итерации, т. е. 6S+1 = Qf + ps - 6S, где 5 — номер итерации; 6S— вектор, определяющий направление движения на s-й итерации; ps — длина шага. Если движение осуществ- осуществляется в направлении под острым углом к антиградиенту оп- 318
тимизируемой функции, то алгоритм относится к классу ал- алгоритмов квазиградиентного типа. 3. Если движение в итерационной процедуре уточнения зна- значений оценок параметров осуществляется непосредственно в направлении антиградиента, то процедуру относят к алгорит- алгоритмам градиентного спуска. Подобные алгоритмы обеспечивают (при определенных ограничениях на минимизируемую функ- функцию) сходимость последовательности Gs со скоростью геомет- геометрической прогрессии (линейная сходимость). Из-за того, что реальная скорость сходимости таких алгоритмов резко сни- снижается при приближении Qs к предельному значению в*, градиентный спуск целесообразно применять лишь на началь- начальных этапах минимизации, используя найденные в результате сравнительно небольшого числа итераций величины 6S в качестве начальных приближений для более сложных мето- методов, обладающих большей скоростью сходимости. 4. В методе Ньютона значения неизвестных параметров на каждой следующей итерации 0S+1 находятся из условия ми- минимума квадратичного полинома, аппроксимирующего исход- ную критериальную функцию в окрестности точки &s. При этом соответствующая процедура будет менее чувствительна к выбору начального приближения (в частности, будет менее подвержена эффекту «раскачки» при его неудачном выборе), если использовать ее вариант с регулировкой шага. При опре- определенных условиях метод Ньютона обеспечивает квадратичную скорость сходимости последовательности 6S к в*. 5. Используя линейную (по параметрам) аппроксимацию ис- исследуемой функции регрессии в окрестности точки 6tS, мож- можно прийти к модификации метода Ньютона — методу Ньюто- Ньютона—Гаусса. Он существенно проще в вычислительном плане, однако бывает слишком чувствительным к эффекту слабой обусловленности используемых в нем матриц Ms. Скорость сходимости этого метода в зависимости от условий, наклады- накладываемых на регрессионную функцию и свободные параметры алгоритма, может быть линейной, сверхлинейной или квадра- квадратичной. 6. Существенным недостатком методов квазиградиентного типа, в том числе метода Ньютона, метода Ньютона—Гаусса и других, является необходимость подсчета производных от искомых регрессионных функций на каждой итерации. Ос- Основная идея, на которую опираются методы, позволяющие обходиться без подсчета производных, заключается в ис- 319
пользований на (s -Ь 1)-й итерации информации, полученндй на предыдущих s ятерациях, для построения разумных аппрок- аппроксимаций для элементов матриц, определяющих выбор направ- ления и шаг движения к решению в*. 7. Первостепенное значение для скорости сходимости исполь- используемых итерационных процедур решения оптимизационной задачи метода наименьших квадратов имеет удачный выбор на- чального приближения в0, Для реализации этого выбора ис- используется ряд приемов: «поиск на сетке» (п. 9.6.1), вспомо- вспомогательное преобразование (линеаризующее) модели (п. 9.6.2), разбиение имеющейся выборки на подвыборки (п. 9.6.3), раз- разложение регрессионной функции в ряд Тейлора (п. 9.6.4). 8. При вычислительной реализации метода наименьших квад- квадратов в нелинейном (по оцениваемым параметрам 0) случае приходится исследовать вопросы существования и единствен* ности решения. Необходимо помнить, что используемые (в том числе все описанные выше) методы оптимизации приводят в лучшем случае лишь к локальному минимуму критериальной функции. Проверка того, является ли этот минимуму глобаль- глобальным, является следующей, зачастую не менее трудоемкой, вы- вычислительной операцией. Глава 10. НЕПАРАМЕТРИЧЕСКАЯ, ЛОКАЛЬНО-ПАРАМЕТРИЧЕСКАЯ И КУСОЧНАЯ АППРОКСИМАЦИЯ РЕГРЕССИОННЫХ ЗАВИСИМОСТЕЙ На практике далеко не всегда исходя из профессиональных соображений удается найти аналитический вид регрессионной зависимости. Использование же для ее описания одного из стандартных классов функций может привести к заметной систематической ошибке. Для уменьшения э.той опасности при- прибегают к методам локального (при заданном значении регрес- сора) оценивания регрессии (§ ЮЛ—10.2) или же разбивают область возможных значений регрессора на несколько частей и для каждой из них строят свое аналитическое описание рег- регрессионной зависимости (§ 10.3). Построение простейших непараметрических оценок рас- рассматривается в п. 10.1.1. Их слабое место: недостаточно эф- эффективное использование гладкости регрессии и особенностей геометрического расположения выборочных значений регрес- регрессора. Возможны два пути борьбы с этим недостатком: 1) ус- усложнение весовой функции в A0.2) и 2) локальное использо- 320
вание обычной параметрической регрессии для оценки коэф- коэффициентов при первых членах разложения регрессионной кри- кривой (поверхности) в ряд Тейлора в окрестности изучаемой точ- точки. В этой главе принят второй путь как более наглядный и традиционный для статистики. 10.1. Непараметрическое оценивание регрессии 10.1.1. Роль и место непараметрических методов. Непарамет- Непараметрический подход к оцениванию позволяет ослабить два основ- основных требования классической постановки регрессионной за- задачи. Первое—предположение о том, что Е (у\Х) как функция X представима в виде / (X; В), где /(...,...) — известная функция своих аргументов, а В — вектор неизвестных пара- параметров, оцениваемый по выборочным данным, — заменяется на более слабое предположение, что / (X) — непрерывная и гладкая функциях. Второе—требование постоянства а2 (X)— дисперсии случайной погрешности — заменяется на предпо- предположение непрерывности <т2 (X). В простейшей непараметрической оценке выбирается не- некоторая непустая окрестность точки Хо О (Хо) и, предполагая, что в этой окрестности / (X) приблизительно постоянна, пола- полагаем ?(*о)= S yt I 2i (ЮЛ) Х^ОХ I (X I I Xi где суммирование в числителе и знаменателе проводится по всем выборочным точкам X/ 6 О (Xt). Формуле A0.1) можно придать несколько другой вид, удобный для дальнейших обо- обобщений. Введем весовую функцию w (X, Хо) = 1, если X ? О (Хо), и равную нулю в противном случае. Тогда A0.1) перепишется в виде Т(хо)^= 2>(X, х0)У|/2>(X, х0). (Ю.2) Классическая непараметрическая оцеш:а регрессии полу- получается из A0.2) путем предположения,, что w{Xt X0) = k(\\X-X0\\*'*/b)9 где k (и) — известная функция неотрицательного аргумента, стремящаяся к нулю при и —> оо; Ь — параметр масштаба, за- задающий размер окрестности. Обычно полагают *k (и) - ехр {— и2/2} или к (и) =¦ 1/ A + и2). A0.3) И Зак. 24 1 321
Поскольку в непараметрических оценках / (Хо) использу- используется не вся выборка, а только ее часть — совокупность пар 0/ь Хд с Xiy входящими в окрестность О (Хо), где прибли- приближенно верны классические предположения, то в случае, когда 1) классические предположения верны для всей области измене* ния X и 2) параметрическое представление регрессионной за- зависимости известно исследователю, непараметрические оценки всегда менее эффективны по сравнению с классическими. Однако они имеют меньшее смещение, когда эти предположения нару- нарушаются. В реальных задачах, выбирая метод оценивания рег- регрессии, следует стремиться сбалансировать обе погрешности: случайную, как правило, уменьшающуюся при расширении объема используемой выборки, и систематическую, растущую при этом. 10.1.2. Примеры. Прежде чем переходить к последователь- последовательному изложению непараметрических оценок, приведем два примера их использования, заимствованных из опублико- опубликованных работ. Пример 10.1 [49]. Для анализа производительности труда изучалась зависимость у— выработки (руб.) на одного рабочего в строительно-монтажном тресте от *A> — объема (млн. руб.) строительно-монтажных работ (СМР); jcB> — рен- рентабельности в процентах к сметной стоимости СМР; л:C) — объема продукции подсобных предприятий в процентах к сметной стоимости СМР; х<4> — ритмичности СМР в течение года по кварталам (%); *<5> — фактической стоимости потреб- потребленных материалов в процентах к общей стоимости СМР; *<«) __ фондоемкости; х<7> — текучести кадров к среднемесяч- среднемесячному числу рабочих. За единицу наблюдения был взят строи- строительно-монтажный трест. Выборка объема п = 47. После проведения классического регрессионного анализа с отсевом незначимых факторов была получена модель у = 5607,4 + 63,74jc<1) + 48,65*<2> — 16,87х<3> A0.4) Эта модель легко интерпретировалась с точки зрения эко- экономического содержания. Действительно, хA> и хB) являются ведущими аргументами, увеличение которых положительно сказывается на выработке, а хC) — это производство продук- продукции внутри треста, которое в силу малой мощности предприя- предприятий не может быть рентабельным, но без него невозможно строи- строительство. Погрешность аппроксимации в терминах е — сред- среднего абсолютного относительного отклонения и а — стандарт- стандартного отклонения составила для A0.4) л = 0,082; сткл == 780. 322
Оценка той же регрессионной зависимости с помощью не- непараметрической процедуры A0.2) дала заметно лучшее при- приближение: енецар = 0,051, анецар = 424. Правда, интерпре- интерпретация непараметрической модели сложнее. Работа не оканчи- оканчивается получением оценок значений регрессии в заданных точках, а требуется еще установить, как в среднем меняется регрессионная зависимость при изменении аргументов. Часто атому не уделяется должного внимания. v Пример 10.2 [22, 881. Рассматривалась модельная од- одномерная задача, где х — случайная величина, равномерно распределенная на отрезке @; 10), / (х) = 10A-+- ехр {— х/2})9 а (х) = 0,1 • / (х). В качестве меры погрешности /-го метода аппроксимации бралось 6; = 2 (/ (xj) —// (х/)J/п. На рис. 10.1 показаны значения 6* (/ = 0, 1, 2), соответст- соответствующие непараметрическому оцениванию с помощью метода локальной параболической (порядка 0 аппроксимации (§ 10.2) с весовой функцией w (xt х0) = ехр {—(х — хоJ/2Ь2}. Пара- Параметрическое оценивание с неадекватно предположенной мо- моделью /цар = (а + сх)-1 в обоих случаях (п = 75 и п = 300) дало значительно большую погрешность йпар>1. По рисунку видно, что при использовании неадекватной параметрической модели погрешность наибольшая. Локаль- Локальная параболическая аппроксимация с использованием поли- полинома второй степени лучше, чем традиционно применяемая аппроксимация полиномом нулевой степени. Первая не толь- только дает наименьшую погрешность, но и значительно устой- устойчивее к выбору величины Ь. 10.1.3. Выбор параметра масштаба Ь. Это наиболее ответст- ответственный момент при использовании непараметрических оце- оценок типа A0.2). Здесь возможны два подхода: 1) выбор еди- единого значения Ь для всей области изменения X (так обычно поступают на практике) и 2) локальный выбор Ь в зависимости от того, насколько близко к искомой точке Хо расположены точки Xt (i = 1, ..., п) выборки. В первом случае целесообразно построить как функцию b кривую A0.5) задающую асимптотически (при п -*¦ оо) несмещенную оценку величины среднеквадратической погрешности непараметри- 323
ческой аппроксимации. Подходящее значение 60 находится из условия, что d2 F0) ^ d2 (b) для всех Ь Ф Ьо. Локальный выбор Ь целесообразен, когда Xt расположены в области интересующих нас значений очень неравномерно. В этом случае можно, например, потребовать, чтобы Ь (Хо) — величина Ъ в точке Х{) — выбиралось из условия где т — некоторое наперед заданное число. Для нахождения оптимального значения т можно воспользоваться описанной выше процедурой, но с заменой в A0.5) в левой части d2 (b) на d2 (m), а в правой под знаком второй суммы b — на bm (Xt), где bm (Xt) определяется A0.6). Так же как b, monT находит- находится из условия минимизации d2 (m). 10.1.4. Более эффективное использование гладкости f (X). Если регрессионная поверхность достаточно гладкая и в ок- окрестности Хо может приближенно считаться линейной, т. е. f (Х) = /(Х0L-в'(Х0)(Х-Хв) + О(||Х-Х0||), A0.7) где в (Хо) = (9A), ..., Q(p))' — неизвестный вектор, завися- зависящий только от Хо, то для оценки / (Хо) вместо A0.2) можно вос- воспользоваться оценкой (Хо) = z0 u01 ... uOp zx un ... ulp Un ... Ulp A0.8) (/?=0); Ujo = uOJ = %(x\ Zp 11рЛ ... UpJt I UpQ Upi ... Up где zQ = 2j/i и;№, Xo); Zj—^t/i (х(р — ^{/>) а;(Хг, Xo-) ю(Х„Х0); (Xh Xo) для k, j Ф 0. Для обоснования A0.8) заметим, что предло- предложенная точечная оценка есть обычная мнк-оценка постоянно- постоянного члена в случае линейной поверхности регрессии, когда в A0.7) отброшены члены, обозначенные О (||Х — Хо||). В при- примере 10.2 мы видели, что эта оценка (соответственно бх) может быть значительно лучше оценки A0.2) (соответственно б0). Она специально рассчитана на случай, когда X* не заполняют рав- равномерно пространство возможных значений X. Использование оценки A0.8) вместо A0.2) открывает воз- возможность содержательной интерпретации регрессионной за- 324
висимости, на необходимость чего было обращено внимание в примере 10.1. Для этого достаточно наряду с оценкой / (Хо) построить В (Хо) — оценку вектора В (Хо) в A0.7) Uq, Uop -t-i > Up, (I-I) Zp UPt Woo lp0 lp Up pp .A0.9* Сравнение В (Х) для разных значений X дает возможность оценить, как, насколько меняется влияние изучаемых факто- факторов на регрессию в разных областях пространства возможных значений X. При использовании формул A0.8), A0.9) выбор величины b можно производить так же, как указано в предыдущем пунк- пункте. 10.2. Локальная параметрическая аппроксимация регрессии в одномерном случае Основная цель этого параграфа — дать в краткой форме тео- теоретическое объяснение тем фактам, которые были выявлены путем моделирования в примере 10.2. Это целесообразно сде- сделать потому^ что локальная параметрическая аппроксимация не нашла еще достаточного отражения в теоретических иссле- исследованиях и мало используется в практических работах. 10.2.1. Основная формула для оценки. Из разложения f (х) в ряд Тейлора в О (х{)) — окрестности х == х0 до членов поряд- порядка / A0.10) и уравнений мнк (см. гл. 7) получаем оценку z0 ик z1 и2 ... uk ... uk+l ft u0 ... uh ux ... uk A0.11) где Zj = ZijiVLw (vi)\ uj = 2v{w (vt); v = x — x0; w (v) = I, когда x0 + v 6 О (х0) и равно нулю в противном случае. Если рассматривать только пары точек (yiy xt)y где xt 6 О (х0), то 325
/ (x0) — это просто мнк-оценка постоянного члена в A0.10),. когда пренебрегают вкладом о (\v\<). На практике за w (и) обычно берутся функции типа A0.3). Однако в теоретическом исследовании мы выберем A,еслиМ<6; 10, если|у|>Ь 10.2.2. Асимптотическая оценка точности приближения / (л:0). Пусть в окрестности х0 / непрерывна и имеет / первых непре- непрерывных производных /</> (х), причем /<о (х) удовлетворяет ус- условию Липшица порядка 0<а<! 1, т. е. для некоторого' с <i оо \fu) (х + v) — /(/> (х)\ ^ c\v\a. Предположим далее, что точки х1у ..., хп распределены независимо друг от друга с плотностью р (х). Пусть далее р (х) и а (а:) — стандартное от- отклонение погрешности в точке х — непрерывны в окрестности х = х0 ир (х0) > 0. При сделанных предположениях при росте объема выборки (п ->¦ оо) и Ъ ->¦ 0 имеем, что дисперсия случайной ошибки есть величина порядка \ltib, а квадрат систематического смещения fi(x0) не превосходит Ь21 + 2а. Уравновешивая обе погрешности, получаем Ь = я~1/A + 2/ + 2а), и среднеквадрзтическое отклоне- ние оценки ft (x0) будет величиной порядка п~{1^ а>/(Н 2/+2а>- Заметим, что для гладких функций / Ь убывает очень медлен- медленно. 10.2.3. Сравнение /0 и fx. Пусть в некоторой окрестности х = = х0 регрессия / (х) линейна, / (х) = / (х0) + 6 (х — xo)t а а (х) up (x) постоянны. Обозначим т число точек xt ? 6 ix0 — Ь, х{) + Ь\. Пусть далее число наблюдений л-> оо, оу (и) определяется A0.12), a b -> 0, тогда обе оценки /0 и /г с некоторого момента несмещены и T A0.13) A0.14) Формулы A0.13) и A0.14) асимптотически эквивалентны. Однако члены второго порядка малости в них различны. При Ь = /г~б, где 6 < V3, и 9 =т^= 0 члены второго порядка малости в A0.14) асимптотически меньше, чём в A0.13). Если р Ф Ф const, то даже при линейной функции / оценка /0 смещена если только 9^0. Как показывает модельный пример 10.2, вклад выборочных флуктуации х даже при значениях п по- 326
рядка нескольких сотен заметен. Тем более неравномерное распределение точек X,- должно сказываться в многомерном случае, что служит еще одним аргументом в пользу оценок <10.8) по сравнению с оценками A0.2). 10.2.4. Изучение дисперсии оценок /, (/> 2). По рис. 10.1 видно, что при малых значениях Ь б2 >б0. Для того чтобы изучить этот эффект, сделаем дополнительное упрощающее предположение, что xt лежат на равном расстоянии друг от друга. Предположим далее, что все оценки /у несмещены для 0,2 Г) -75 j 0,8 а У 0,1 0,3 0,2 0,1 Рис. 10.1. Зависимость погрешности локальной параболиче- параболической аппроксимации от величины Ь для выборки объема* а) п = 75; б) л = 300 \х — хо\ <6, и при фиксированном Ьи/n-voo оценим ряд отношений D/o : D^ : D/2 : ... Для этого удобно использовать полиномы Чебышева, ортогональные на \х — xQ\ ^. b 177). Обозначим ф/ (v) — полином /:го порядка, где v = х — хо\ Cj — коэффициент перед фу в разложении / (xQ + v)t и"с,- -— оценку cj. Очевидно, Jt = ^c^j @). Откуда / 0 A0.15) поскольку оценки Cj независимы. Используя явный вид по- полиномов Чебышева [77], получаем 327
или D?0:D?:D7;= 1:2,25: 3,51 ... Из приведенного рассуждения можно сделать вывод, что при р (х), непрерывном в окрестности х = х0, р (х0) ^0 и достаточно малом Ъ переход от f2l. к f2l+1 не вызывает заметно- заметного роста дисперсии оценки, в то время как при переходе к /го+i) дисперсия оценки увеличивается приблизительно на 1,25 D/o. Таким образом, лучше использовать оценки нечетно- то порядка (Д, /3, и т. д.). Напомним, что контроль среднеквадратического отклоне- отклонения, учитывающего и случайную, и систематическую состав- составляющие ошибки, целесообразно проводить с помощью кривой A0.5). 10.3. Кусочно-параметрическая (сплайновая) техника аппроксимации регрессионных зависимостей В последние два десятилетия в вычислительной математике и в инженерной практике широкое распространение получили функции, называемые сплайнами. Этот термин произошел от английского spline, означающего упругую и гибкую метал- металлическую линейку, использовавшуюся для проведения глад- гладкой кривой, проходящей через заданные точки. Одномерный сплайн степени / представляет собой функцию, непрерывную вместе со своими (/ — 1)-ыми производными, у которой произ- производная /-го порядка постоянна на интервалах между заданны- заданными точками, называемыми узлами. Сплайн /-й степени можно представить состоящим из гладко (до (/—1)-го порядка) скле- склеенных в узлах полиномов 1-й степени. Сплайны сравнительно мало известны прикладным ста- статистикам. Вместе с тем, по мнению ряда авторов [54, 114], они являются наиболее удачными аппроксимирующими функциями для приложений. Дело здесь в том, что поведение функции, выражающей физические взаимоотношения, в одной области пространства может быть полностью .не связанным с ее пове- поведением в другой области. Полиномы наряду с большинством других математических функций обладают как раз обратным свойством. Их поведение в малой области однозначно опре- определяет поведение в любой другой точке. Сплайны, поскольку они определяются кусочно, лишены этого недостатка, и для 328
I ^ 3 они прекрасно представляют гладкие кривые физичес- физического мира. В последние годы сплайны стали широко исполь- использоваться при аппроксимации регрессионных зависимостей. Основная часть этого параграфа посвящена одномерным сплайнам. 10.3.1. Определение одномерных сплайнов. Пусть на отрезке [а, Ь] выделено т точек и1у ..., ит> которые мы будем называть узлами, Pt (m) (i = 1, ..., т + 1) — полиномы степени /, удовлетворяющие условию t) = P«\ (ид, * = 0, ..., /- 1; i= 1, ..*, ш, A0.16) где P(k) означает производную (по х) fe-ro порядка от Р. Тогда b) A0.17) называют сплайном 1-го порядка с т узлами. Таким образом,, если исследователь хочет использовать сплайны, он должен определить: а) / — порядок сплайна, т. е. степень полиномов Pt (x)\ б) т — число узлов, равное числу различных полиномов без одного; в) положение узлов ut (i = 1, ..., т) на [а, Ь]\ г) т + / + 1 свободных коэффициентов сплайн-функции (каждый полином имеет (/ + 1) коэффициент и каждое ус- условие гладкости A0.16) накладывает / связей, откуда числа свободных параметров равно: (т + 1) (/ + 1) — tnl — т + + /+ 1). Полиномы Pi могут быть представлены в одной из двух форм: или Отсюда для сплайна на отрезке [а, Ь] получаем представление [54] Sl(x) = Pi(x)+ %ct(x-udl+9 A0.18) где d — а\1\х — bil\ а знак + справа снизу скобок означает усечение 329
v+ ^lv ПРИ lo при v В формулу A0.18) линейно входят только m + / + 1 неизвест- неизвестных коэффициентов, поэтому в принципе она могла бы быть использована в методе наименьших квадратов или в какой- либо другой подходящей процедуре оценивания. Однако с вы- вычислительной точки зрения иметь дело со степенными функ- функциями не удобно и желательно использовать другое представ- представление St (x) через так называемые базисные сплайны. Для этого введем дополнительно / узлов слева и-г < ... ... < и-! < а и / узлов справа Ь < ыт+2 < ... < Например, можно положить и [Uo + fa b) при k<0\ UW + ftfcW и«) при k>m+l. Определим теперь базисные сплайны (В-сплайны) как (ниже знак i справа сверху В — индекс, а не знак возведения в сте- степень) \\ 1 A0.19) ?/-сплайны обладают [541 следующим свойством: ^^Одляхе^,^^); ( 10 ДЛЯ Х$ (Uh U) Сплайн-функция St (x) однозначно представляется в виде Для равноотстоящих на единицу масштаба узлов базисные сплайны Во> В1у В2, В3 показаны на рис. 10.2. 10.3.2. Выбор порядка сплайна, числа и положения узлов. Это важная и ответственная задача, по своей методической роли эквивалентная выбору класса аппроксимирующих функций в обычном регрессионном анализе. От -ее успешного решения существенно зависит, удастся ли при анализе данных ис- использовать все преимущества, представляемые сплайнами, или нет. Здесь трудно дать рекомендации, верные для всех практических задач. Однако, следуя [2581, мы попытаемся вы- 330
сказать некоторые общие соображения для случая, когда на- наблюдений относительно немного или они распределены край- крайне неравномерно вдоль оси регрессора. В этих условиях жела- желательно: 1) использовать сплайны 3-го порядка; 2) вводить настолько мало узлов, насколько это возможно. На интервал между узлами иметь не менее 4 или 5 наблюдений. Это правило вызвано тем, что проблема «сверхподгонки» пред- представляет для сплайнов реальную опасность; -0,5 0,5 -10 1 -10 1 -24012 Рис. 10.2. Базисные сплайны с равноотстоящими узлами: а) Во; б) Bi\ в) В2\ г) В3 3) иметь не более одной экстремальной точки (максимум или минимум) на интервале. Желательно, чтобы эта точка при- приходилась на центр соответствующего интервала, а точки пере- перегиба линии регрессии были в окрестности узлов. Другой подход к выбору узлов можно найти в [197, 245]. 10.3.3. Оценка параметров и проверка гипотез. Если при фик- фиксированном порядке сплайна / и заданном положении узлов верны классические предположения регрессионного анализа, т. е. yt = St (xt) + |j, причем %t взаимно независимы, не за- зависят от Xt и ?j ? N @; а2), где а — неизвестная постоянная, то оценка параметров в = (9_г, ..., 8т)' проводится с помо- помощью мнк (см. §7.1). Обозначим 0 — мнк-оценку в == = (V'VJ-Wy, где Y = (уъ ..., уХ V - п X (т + / + 1)- матрица с элементами vtj = в[ l l (xt). В сделанных пред- предположениях в имеет нормальное распределение со средним в и ковариационной матрицей =*Е{в.- 6).(в—ej'^ Оценка для а2 строится стандартным образом как -s, (*,))•/(«-« -/-1), = 2 ^tBi(x) <§7Л или I14' n-8-6-3D- 331
Из A0.20) следует, что в матрице С = *\\сц\\ для \i — /| ^ ^ / + 1 Ctj = 0, т. е. матрица имеет B1 + 1)-диагональный вид. Основные гипотезы, связанные с кубическими сплайн- функциями (/ = 3). Рассмотрим гипотезы о поведении сплай- сплайна между узлами. Гипотеза 1: между узлами Uj-lt uj кубический сплайн является квадратическим. Используя точки как знак диффе- дифференцирования S3 (x) по ху эту гипотезу можно выразить как 5з(и/-1)~5з(и,)-0, A0.22) или в терминах В-сплайнов: Г т ~|2 ^ e*(8*-Yi) =0, U=—3 J ,-Т|) = О, или где 8j = Blz (Uj-i), 7t — Bla (uj) — известные постоянные, за- зависящие только от расположения узлов uj, j = —3, ..., т + 4. Последняя формула может быть использована для построения ^-критерия для проверки A0.22). Обозначим D = F_3 — Y-з» • •-, бт — Ym)/ тогда в случае, когда гипотеза A0.22) верна, величина FD'6e;D/D/(V/V)-1Ds2 имеет f(l, n —m~^-распре- —m~^-распределение. Гипотеза 2: на отрезке между узлами и$-х и Uj ку- кубический сплайн линеен. В использованных выше обозначениях эту гипотезу можно представить как S,(uj^)=S3(uj)^0 A0.23 или Последняя форма удобна для построения /^-критерия. Обо- Обозначим Д = (б-з, .... 6те)\ Г = G~з» ..-, Vm)' и найдем расп- ределение двумерного вектора Z = (А'в, Г'в)'. Вектор Z нормален, имеет B X 2)-ковариационную матрицу а^ (Д, Г)'х X (VV)-1 (Д, Г) ив случае, когда A0.23) имеет место, ну- нулевые средние. Поэтому для проверки гипотезы A0.23) может быть предложен критерий F=Z' [(Д, Г)' (V V)-1 (Д, T)]-*Z/2s\ где F имеет F B, п — т — 4)-распределение. 332
10.3.4. Билинейные оплайны. Наряду с одномерными сплайн- функциями в приложениях, особенно в экономике [114], по- получили распространение простейшие сплайны, задаваемые с помощью прямоугольной решетки. Внутри каждого из пря- прямоугольников решетки они представляют билинейную функ- функцию своих аргументов (лс, у) г = а + ьх + су + dxy, A0.24) согласованную таким образом, чтобы г было непрерывной функ- функцией (ху у) при переходе от одного прямоугольника к другому. Пусть на оси х выделено / + 1 точек Аи = {ио> иъ ..., и/} и на оси у J + 1 точек Av = {v0, vlt ..., vj). Пусть далее —Ui-!, если x>ui~1 (/=1,...,/); 0 , если _\y—i>j-i, если y>vj~1 (/=1,...,/); , если Л /= 1 •.», = (W7i,..., W})'. Билинейным сплайном на Ди, Av называется функция вида w, A0.25) где А - (alf ..., а/)', В = фь ..., ру)', Г = (у119 ..., уи)' — вектор-столбцы параметров размерности соответственно /, У, /У. Нетрудно видеть, что билинейный сплайн непрерывен и зависит от 1 + / + J + IJ параметров. Заметим, что если бы не. было условий согласования значений функций A0.24) на решетке, то сплайн зависел бы от 4/У параметров. Пусть иг-г <^<м/И Vj-! ^ у ^ Vj. Представим г в ло- локальных координатах (х — и^ и (у — ty-i): Vj-1). A0.26) Эта форма представления удобна для содержательной ин- интерпретации двумерных сплайнов. 333
Существует простая связь между представлениями A0.25) и A0.26) сплайна. Пусть А = ||а„||, В = ||6(/||, С = \\си\\, D | |d|| ) / е ах _«' 1 «0 1 ы, 1 и, 1 «,_ 0 1 0 1 0 1 Рг • • Уп • • V/. • • 0 0 и%—и, 1 И/_1 — 0 1 1 •Р./ 0 0 0 0 0 1 ... 0 ... 0 ... 0 . . 0 ... 0 ... 0 0 0 0 ;_1— Ы/_20 0 0 0 0 1 1 1 1 1 и матрица V размерности 2/ X (У + 1) определена аналогич- аналогично U с заменой элементов ui на vit тогда A14] unv ЧА С1 LB Dj выводы 1. Непараметрический подход к оцениванию регрессии позво- позволяет ослабить ряд основных предположений регрессионного анализа: 1) требование априорного знания с точностью до неизвестных значений параметров аналитического вида регрессионной зависимости Е (у\Х) и 2) требование постоян- постоянства (для всех значений регрессора) дисперсии случайной по- грешности Е ((у — Е (у\Х)J\Х). В простейшем случае т — непараметрическая оценка Е (у\Х0).— строится следующим образом: выбирается О (Хо) — некоторая окрестность Хо; вы- выделяются все пары наблюдений (yiy Xt), такие, что Xt 6 О (Хо); пусть таких пар будет k и и = 2#ь где суммирование прово* дится по всем выделенным парам, тогда т = ulk. При выбор* 334
диаметра О (Хо) приходится уравновешивать два источника погрешности: при увеличении диаметра растет отклонение Е (у\Х) от Е (у\Х0), а при его уменьшении падает эффектив- эффективность оценивания. 2. Использование традиционных регрессионных моделей (ли- (линейных при многомерном X и параболических в одномерном случае) в применении к относительно большим подобластям изменения регрессора позволяет сочетать простоту расчетов, свойственную классическим моделям регрессии, с эффективным использованием выборочной информации. Эти методы получи- получили название локально параметрических. 3. В последние годы для описания регрессионной зависимости стали широко использоваться сплайны. Сплайном называют конечную совокупность гладко склеенных между собой поли- полиномов, каждый из которых определен на своей подобласти из- изменений регрессора. Подобно локально параметрическим ме- методам оценивания сплайны позволяют удачно сочетать до- достоинства локальных методов (уменьшение смещения оценки) с высокой эффективностью параметрических процедур оце- оценивания. Глава П. исследование точности СТАТИСТИЧЕСКИХ ВЫВОДОВ В РЕГРЕССИОННОМ АНАЛИЗЕ После реализации этапов 1~6, связанных с построением оцен- оценки (аппроксимации) / (X) для искомой регрессионной зависи- зависимости / (X) = Е (г\\% = X) (см. § В.6), исследователю необхо- необходимо ответить на вопросы: какова точность полученной им оценки (аппроксимации) / (X) и, в частности, как определить ту гарантированную (с заданной доверительной вероятностью Р) величину погрешности, за пределы которой мы не выйдем, восстанавливая неизвестные нам значения параметров 6h, ис- истинной функции регрессии / (X) или анализируемого резуль- результирующего показателя т] (X) = (т]|? = X) по значениям оце- нок соответственно Qk и / (X). Достаточно исчерпывающие й теоретически обоснованные ответы на эти вопросы мы в состоянии дат** лишь в рамках схе- схемы, постулирующей, что: а) выбор класса F допустимых ре- решений (т. е. выбор общего параметрического вида функции регрессии / (X)) осуществлен удачно, а именно: / (X) 6 F; б) рмеется априорная информация о вероятностной природе чнапример, о типе закона распределения) регрессионных ос- 335
татков е в моделях вида (В. 14), (В. 16) и (В.21). Будем назы- называть эту схему идеализированной. Если же у нас нет оснований рассчитывать на выполнение постулатов а) и б) (что, к сожа- сожалению, и бывает в большинстве реальных ситуаций, а потому будем называть эту схему реалистической), то получить сколь- сколько-нибудь законченные и теоретически обоснованные резуль- результаты по оценке точности статистических выводов в регресси- регрессионном анализе не удается. В этом случае можно предложить лишь некоторые полу эвристические приемы и рекомендации, нацеленные на приближенное решение данной задачи. 11.1 Линейный (относительно оцениваемых параметров) нормальный вариант идеализированной схемы регрессионной зависимости В данном параграфе рассматривается регрессионная модель зависимости случайного результирующего показателя г\ от неслучайных объясняющих переменных Е=(?A\ ?B), ..., ?(р))' вида (ИЛ) где {tyh (Ш/г="б^ — система известных (базисных) функ- функций (в частном случае \|H (?) = 1, tyh (?) = ?<fe> для k = 1,2, ..., р), в = F0, 6Ь ..., 6т)'— неизвестные (подлежащие оце- оцениванию) параметры, а остаточная случайная компонента е подчиняется нормальному закону распределения со средним значением Ее = 0, и с дисперсией (вообще говоря, неизвест- неизвестной) De = а2, т. е. е?#@, а2). A1.2) Отсюда, в частности, следует, что истинная функция рег- регрессии / (X) = Е (т]|| = X) имеет вид f(X) = f(X\ в)-ео^(Х) + в1^1(Х) + ...0тг|)т(Х), A1.3) т. е. является линейно зависящей от неизвестных параметров в (форма ее зависимости от X определяется выбором системы базисных функций (г|>ь (Х)}^-^. ) 336
Соотношение A1.1) определяет связи между имеющимися наблюдениями { (X;#,•)}.= j— вида У=Х6+г, A1.4) где У =- (у1у у2У ..., #п)' — вектор-столбец наблюденных зна- значений результирующего показателя, г = (еь е2, ..., е,,)'— век- вектор-столбец ненаблюдаемых регрессионных остатков, а х== матрица плана, т. е. матрица значений базисных функций в наблюденных точках предикторной переменной. При этом по- постулируется, что нормально распределенные регрессионные остатки еь е2, ..., гп взаимно некоррелированы, т. е. что их ко- ковариационная матрица V = (Е (е,^))^.^,— имеет вид V=oa-In, A1.5) где 1„, как обычно, единичная матрица размерности п X п. Из A1.2) и A1.5) имеем в(ЕЛГп(О, a2-In). A1.2') Предполагается также, что этап выбора общего параметри- параметрического вида искомой зависимости (этап 4, см. § В.6) реализо- реализован удачно, а именно: в качестве класса допустимых рецлений F определено семейство, «накрывающее» истинную функцию регрессии A1.3), т. е. r, (H.6) и, следовательно, f(X) = E(T||S = X)€F. A1.7) Модель, определяемую соотношениями и условиями A1.1), A1.2), A1.4) и A1.5), будем называть линейным (относительно оцениваемых параметров) нормальным вариантом идеализи- идеализированной схемы регрессионной зависимости (идеализация, кгк было отмечено, заключается в постулировании редко вы- выполняющихся в статистической практике допущений A1.7) и A1.2)). 11.1.1. Основные свойства оценок метода наименьших ква- квадратов. Напомним (см. гл. 7—9, а также U4, п. 8.&3^э что оценки в неизвестных параметров в = (90, 0Ь ..., 6т)', уча- 337
ствующих в аналитической записи искомой функции регрес- регрессии / (X; в), определяются, в соответствии с методом наимень- наименьших квадратов, из условия минимизации (по 0 ) выборочного критерия адекватности Дп = Дп (в), построенного на базе квадратичной функции потерь р (и) (см. в§ 5.2 формулу E.4') и п. 1). Применительно к рассматриваемой в данном парагра- фе схеме это приводит к задаче минимизации (по 0) выраже- выражения: г' Д(вJB 6 *(*> = (У —Хв)'(У — Х,0) = У'У —20'Х'У + 0'Х'Х0. A1.8) При получении правой части A1.8) использовалось что 0'Х'У = (B'X'Y)' = Y'XS. Дифференцируя A1.8) по в и приравнивая полученный вектор-столбец производных д (е'е)/<Э0 к вектору О, состоящему из одних нулей, приходим к системе уравнений относительно 0 = (Эо, 8lf ..., Эт)г: или Х'Х0-Х'У, откуда получаем1 в = (Х'Х)-1Х'У. A1.9) Перед тем, как перейти к описанию основных свойств мнк- оценок 0, выразим их, подставляя в A1.9) значения У, пред- представленные в виде A1.4), через истинные значения параметров 0 и регрессионные остатки е: в = (X' X)-1 X' (Хв + в) - (X' X)-1 (X' X) 0 Ь Х)-1Х'е. A1.10) 1Легко убедиться, что решение A1.9), являющееся, вообще гово- говоря, лишь стационарной точкой квадратичной формы A1.8), в данном случае является ее точкой минимума. Для этого достаточно восполь- воспользоваться тождеством (Y — Хв)' (Y — Хв) = (У — Хв)' (Y — Хв) -f + (в — в^Х'Х (в — в), из которого видно, что левая часть достига- ет минимума при в = в. 338
Используя A1.10), легко получить следующие статисти- статистические характеристики для мнк-оценок в. Несмещенность мнк-оценок в. Применяя оператор теоре- теоретического усреднения к левой и правой частям A1.10), полу- получаем что, если учесть Ее = 0, и доказывает несмещенность оценок в1. Ковариационная матрица мнк-оценок в. Как известно, точность оценок, их эффективность [14, п. 8.1.51 определяют- определяются характером их выборочного распределения, и, в частности, мерой их случайного разброса относительно истинных значений оцениваемых параметров, который мы наблюдали бы при пов- повторениях выборок и принятой процедуры оценивания. В свою очередь эта мера случайного разброса значений оценок 0 от- относительно истинных значений 0 определяется в первую оче- очередь их дисперсиями и ковариациями, т. е. их ковариацион- ковариационной матрицей 2U. = Е [@ — 0) @ — в)'1. Подсчитаем кова- риационную матрицу 2—., используя A1.10) для выражения разности 0 — 0: 2g « Е [@ — 0)@ —0)'1 = Е {[(Х'Х)-1 Х'е] [(Xf X)-1 X'el'} - (при переходе к правой части мы воспользовались прави- правилом транспонирования произведения матриц и симметрич- симметричностью матрицы (Х'Х)-1. Если теперь учесть, что ковариа- ковариационная матрица V = Е (ее') регрессионных остатков про- пропорциональна единичной (см. A1.5)), то в конечном счете получим 2§ =а2(Х'Х)-\ A1.11) где <т2 = De, a X — определенная выше матрица плана *3десь и в дальнейшем мы пользуемся возможностью выносить вы- выражения, зависящие от матрицы плана <Х» из-под знака теоретического усреднения Е в соответствии с известным правилом: Е (сЪ) = с • Е| (где с -- неслучайная величина), поскольку величины \|?ь (X;) в рас- рассматриваемой идеализированной схеме не являются случайными. 339
Оценка а2 для дисперсии а2 регрессионных остатков. Оцен- Оценка для а2, полученная с помощью метода максимального прав- правдоподобия [14, п. 8.6.1], имеет вид [119, формула D.8I однако она оказывается смещенной. В частности, можно пока- показать [119, § 3.31, что, взяв в качестве оценки для а2 величину ?- —-<п ! -(у-Хв)'.(У-Хв), A1.12) я — т — 1 л — т — 1 мы добьемся несмещенного оценивания этого параметра. Состоятельность оценок В и а2. Она определяется структу- структурой матрицы плана X. Пожалуй, наиболее удобным (для при- приложений) условием состоятельности оценок В и о2 является следующее [119, §3.21: оценки В и а2 состоятельны тогда и только тогда, когда наименьшее собственное значение матри- матрицы Х'Х стремится к бесконечности при я-> оо. Оптимальность оценок В и а2. Можно показать, что в ус- условиях рассматриваемой идеализированной регрессионной схемы оценки Bfe (fe=0, 1,2, ...,m) и а2, определяемые соотно- соотношениями A1.9) и A1.12), являются эффективными [119, §3.2], т. е. имеют минимальную дисперсию среди всех несмещенных оценок. Тем же свойством обладает и величина / (X) = = / (X; В) = ?оч>о (X) + вГч>1 (X) + ... + *Ът ч>те(Х), рас- рассматриваемая как оценка истинной функции регрессии / (X; в) = 90гр0 (X) + 9^ (X) + ... + 6mipm (X). Распределение оценок регрессионных параметров. Харак- Характер случайного варьирования оценок В, а2 и / (X) около оцениваемых ими величин соответственно В, а2 и / (X) описы- описывается лишь приближенно их ковариационной матрицей и дис- дисперсиями. Исчерпывающую же информацию о характере этого случайного варьирования доставляют соответствующие зако- законы распределения вероятностей. Нетрудно убедиться, что в рамках рассматриваемой в дан- данном параграфе идеализированной схемы справедливы следую- следующие утверждения: 340
а) оценки в подчиняются (m + 1)-мерному нормальному1 распределению Nm+1 (в, 2 ^) с вектором средних значений в и с ковариационной матрицей A1.11), т. е. в6^т+1(в;а2.(Х'Х)-1); A1.13) б) случайная величина (В — в)'Х'Х (в — в)/а2 подчи- подчиняется ^-распределению с т + 1 степенями свободы, т. е. в) оценки в и а2 являются статистически независимыми] г) случайная величина (п — т — 1)а2/а2 подчиняется х2- распределению с п — т — 1 степенями свободы, т. е. П~т2~~[^ех2(п-т~1). A1.15) а2 Действительно, поскольку в = CY (см. A1.9)), а У в силу A1.2') и A1.4) подчиняется n-мерному нормальному распре- распределению, то утверждение A1.13) следует непосредственно из того, что линейные комбинации нормально распределенных величин также распределены нормально [20, теорема 2.4.П. Утверждение A1.14) является прямым следствием A1.11) и тео- теоремы 3.3.3 из [201. Статистическая независимость оценок в и а2 и утверждение A1.15) следуют, например, из теоремы 8.2.2 120]. Полное доказательство сформулированных результатов можно найти также в [119, § 3.4]. Замечание. Обращаем внимание читателя на тот факт, что допущение A1.2)—A1.2') о нормальном характере распре- распределения регрессионных остатков г используется лишь при выводе распределений оценок A1.9), т. е. при получении резуль- результатов A1.13)—A1.15). Остальные свойства рассматриваемых оценок: несмещенность, состоятельность, оптимальность (но только в классе линейных несмещенных оценок), вид ковариа- ковариационной матрицы A1.11) — остаются в силе и при отказе от хДля простоты полагаем здесь, что матрица плана X имеет полный ранг (т. е. ранг (X) = т +• 1). Если это не так (т. е. если ранг (X) < < т + 1), то все сформулированные в данном параграфе результаты остаются в силе с поправкой на соответствующее снижение числа сте- степеней свободы или размерности того пространства, о котором идет речь. Более подробно об этом см. [119, §3.8]. 341
нормальности остатков е (достаточно потребовать их одинако- одинаковой распределенное™, независимости и существования конеч- конечных дисперсий Det = а2 < оо). 11.1.2. Решение основных задач по оценке точности регрес- регрессионной модели. В § В.6 сформулированы три основные задачи анализа точности регрессионной модели. Эти задачи сводятся к умению указать такие гарантированные (с заданной дове- доверительной вероятностью Р) предельные величины погрешно- погрешностей, за пределы которых мы не выйдем, если вместо неизвест- неизвестных истинных значений параметров 0ft (k = 0, 1, ..., m), функ- функции регрессии / (X) (при заданном значении предиктора X) и анализируемого результирующего показателя г\ (X) = = (г)|? = X) (тоже при заданном значении предиктора X) будем использовать их оценки соответственно 0^, / (X) = = f (X; в) и снова J(X) - / (X; в). ^^ Описанные в п. 11.1.1 свойства оценок в позволяют пред- предложить следующий способ конструирования этих предельных гарантированных величин погрешностей. Погрешность 8Рп (9/;) в оценивании параметра 0Л. Вос- Воспользуемся нормальной распределенноетъю оценки 0ft (см. A1.13)) и знанием ее среднего значения Е Qh == 0fe, (см. свой- свойство несмещенности оценок в в п. 11.1.1) и дисперсии D0A == = о2 (X'X)~ii (см. A1.11); здесь (Х'Х)й1 обозначает Л-й диа- диагональный элемент матрицы (Х'Х)-1). Это, с учетом статис- статистической независимости в и а2 и A1.15), позволяет утверждать, что величина М/1-/Я-1) =• (efc-efc)/a[(X'X)u4l/2 подчиняется /-распределению, или распределению Стьюдента [14, п. 6.2.2], с п — т — 1 степенями свободы. Следовательно, если задана величина доверительной вероятности Р, то, отыс- отыскав по табл. П.6 100A—Р)/2%-ную точку t\-p (п — т—1), мы можем с вероятностью Р гарантировать выполнение нера- неравенства <Ct\-p(n—m — 1), 342
или, что то же, где 6р,„ <8ft) - tt _„ (п — т - 1) 7 V(\' A1.16) Погрешность 8РгП (#ср (X)) в оценивании функции рег- регрессии (при заданном значении X предиктора). Обозначим W (X) = (г|?0 (Х),^ (X), ..., г|)т (X))' и вычислим, учитывая A1.11) и Е/ (X) = / (X) (что следует из несмещенности оценок в*, k = 0, 1, ..., т), дисперсию оценки / (X): = v'(X)-E[(e—вне—e)V = о1 IW'(XHX'X)-1 •?(*)]. (H-17) Учитывая полученное выражение для D / (X), несмещен- *—» ность и нормальную распределенное^ оценки / (X) = = ?' (X) • 6 (как линейной функции от нормально распре- распределенных случайных величин в0, 0lf ..., 0m) и ее статисти- статистическую независимость от а2 (см. п. 11.1.1), а также A1.15), получаем факт t {п — т — 1)-распределенности случайной величины -7/„_^__п ?(*)-/(X) a Vх?' (Х).(Х' (X) Следовательно, можно гарантировать с заданной величиной доверительной вероятности Р выполнение неравенства /^(л-т-1), A1.18) где ta (v) — 100а%-ная точка распределения Стьюдента с v степенями свободы (определяется из табл. П.6). Очевидно, что A1.18) равносильно неравенству \?{Х) -f(X)\<bp.n(ycp(X))9 где -я (п—т — 2 A1.18') 343
выполнение которого гарантируется ? заданной доверительной вероятностью Р. Погрешность бр.п (л (^0) в восстановлении «индивидуаль- «индивидуального» значения результирующего показателя (при заданном значении предиктора). В данном случае нас интересует оценка сверху для величины погрешности, которую мы можем допус- допустить, восстанавливая (прогнозируя) с помощью / (X) неизвест- неизвестное значение результирующего показателя \\ (X) при заданном фиксированном значении X предикторной переменной. Дру- Другими словами, статистическому анализу следует подвергнуть величину f (X) —г] (X). Принимая во внимание Е/ (X) = = Ет] (X) = / (ХУ, A1.2) и статистическую независимость ве- величин е (X) - г\ (X) - / (X) и? = (у, —7(Х\), ух - Т(Х2)У ...,Уп-1(Хп))\ имеем Е (?(Х) - г] (Х)Г -= Е 1(Т(Х) - / (X)) _ (П (X) -/ (Л))Р - - Е (?(Х) -/ (X)J 4- Е <¦* (X) = D?(X) + а2, где дисперсия D/(X) определяется соотношением A1.17). Учитывая @, а2 • [1 + V (X) (Х'Х)-1^ (Х)])-нормальную распределенность погрешности / (X) — г\ (X) и ее статисти- статистическую независимость от о2 (см. в) в п. 11.1.1), получаем факт t (п — m — 1)-распределенности случайной величины Следовательно, задавшись величиной доверительной вероят- вероятности Р и определив из табл. П.6 величину 100 A—Р)/2%- ной точки распределения Стьюдента с п — т — 1 степенями свободы t 1-я (п — т — 1), можно гарантировать (с вероят- ~2 ' ностью Р) выполнение неравенства tz(n—m—\) 1< t\-.P(n—m—l), 2 или, что то же, 2 хК1 + х^(Х)ЧХ/Х)-1?(Х). A1.19) 344
Замечание (о построении доверительных областей). Хотя и весьма редко, но возникают ситуации (в частности,, при статистическом анализе и управлении ходом технологи- технологического процесса), когда требуется дать оценки погрешностей, вида A1.18') и A1.19), которые были бы справедливыми с за- заданной доверительной вероятностью Р одновременно для це- целого множества А значений предикторной переменной X, т. е. для всех X 6 А. В таких ситуациях говорят о построении доверительных областей для f (X) (или г\ (X)) при X 6 А. Обоб- Обобщение оценок A1.18'), A1.19) на этот случай можно найти в [119, гл. 5]. 11.1.3. Случаи линейной (по предикторным переменным) и полиномиальной регрессии. Воспользуемся полученными в пре- предыдущем пункте рекомендациями для анализа точности моде- моделей линейной и полиномиальной регрессии. Нас будет инте- интересовать, в частности, конкретизация формул A1.18') и A1.19) в этих случаях. Парная линейная регрессия. Рассматривается модель вида A1.1), в которой размерность предиктора р = 1, а система ба- базисных функций задается соотношениями: гр0 (х) = 1; г^ (х) = = ху так что в конечном счете анализируется зависимость ви- да г\ = 0О + Qxl + е или г/г-ео + Мг+е,, A1.4') Тогда (Х'Х)-1- Х'У- 345
п где х = 2*;*/л и !/= Ss/i/л — арифметические средние зна- чения наблюденных величин предиктора х и результирующего показателя у соответственно. Далее V (X) (X' X)-1 V (X) = A ,х> • - ! X так что (в соответствии с A1.18') и A1.19)) с вероятностью Р будем иметь выполнение неравенств (при заданном фиксиро- фиксированном значении предиктора х): —2) X Г 1 ^ и-^J , I/ n s fe-xJ V A1.19*) где /a (v), как и прежде, 100a % -ная точка распределения Стью- дента с v степенями свободы; а2 — оценка остаточной диспер- дисперсии (см. A1.12)), т. е. 346
a 60 и 6j — оценки наименьших квадратов неизвестных коэф- коэффициентов 60 и 0! (см. A1.9)), т. е. 1=1 Из A1.18") и A1.19'), в частности, видно, что: а) величина погрешности и в том и в другом случае зависит от того, при каком именно значении предиктора х производится оценка, причем эта погрешность (и соответственно ширина доверитель- доверительного интервала) увеличивается по мере удаления заданного значения х от среднего арифметического х и наблюденных зна- значений предикторной переменной; б) погрешность оценивания неизвестной функции регрессии / (х) = 0О + Вгх пропорцио- пропорциональна величине сг/у'п и, следовательно, неограниченно убы- убывает с ростом объема выборки (п), по которой производится оценивание; в) погрешность оценивания индивидуального (а не среднего) значения результирующего показателя г\ (х) = = (т]|? = х) с помощью вычисленной по методу наименьших квадратов функции регрессии / (х) = 80 + Qtx при неограни- неограниченном увеличении объема выборки (т. е. при п ->• оо) в отли- отличие от предыдущей погрешности не убывает до нуля, но стре- стремится, как это и должно быть (в соответствии с допущением A1.2)), к величине A — Р)/2%-ной точки @, а2)-нормального распределения, т. е. к величине и\+р • а (поскольку, как из- _ вестно [71], / (у)-распределение сходится к стандартному нор- нормальному при v-^oo, а следовательно, при п~>-оо, t\-p(n — 2)-> и 1+р, где иа—^-квантиль стандартного нор- 2 ~Г" ^ мального распределения; а а2-> а2 = De в силу состоя- состоятельности а2). Множественная линейная регрессия. Обобщим модель A1.4') на случай р (р ;> 1) предикторных переменных X = = (л:*1), х12\ ..., х№ У. Запишем исследуемую модель ц = = 00 + б^1) + ... + 9Р|^> + е в терминах центрирован- центрированных наблюденных переменных,* т. е. ?)) A1.4") 347
Тогда получаем следующую интерпретацию общих обозна- обозначений п. 11.1.1 и 11.1.2: = ол р—1); / т-р,где Jw=--L выборочные ковариации переменных х^ и л:(^ [14, п. 5.6.71. Соответственно <х'х)-« JL где a(fe*/> — (fe, /)-й элемент матрицы, обратной к выборочной ковариационной матрице предиктора X. Таким образом, v/ чг\ 1 \Jf / у*\ fv^) ~v^^ *Д2) ~Z.B) y(P) ____> Л Л; X (А;— »^Л Л X X ... Л п Поэтому в соответствии с A1.18') и A1.19) с вероятностью Р можно гарантировать выполнение следующих неравенств 348
при заданном фиксированном векторном значении X = = (л:<1>, х{2\ ...,x<p>)' предикторных переменных: -X(A))I< a ^ , p <t,P(n — x_p{n-p)-~=r-\V 2 ± — Уп У ft=i/=I A1.18'") U= i 4-^ X "l/ 1+ — II S (a:(*)- Предварительный переход к центрированным переменным обусловил то, что правые части A1.18'") и A1.19") не учиты- учитывают погрешности в оценке неизвестного теоретического сред- среднего ап = Еп. Модификация левых и правых частей A1.18'") и A1.19"), соответствующая возвращению к исходной (нецент- рированной) записи модели, заключается в следующем: в левые части неравенств надо прибавить (внутри прямых скобок) ве- величину у — От,, а в правые части (под знак радикала) — соот- соответственно единицу и 1/п, изменив в обоих случаях число сте- степеней свободы у процентной точки /-распределения на п — — р — 1. Нетрудно увидеть, что записанные в таком моди- модифицированном виде неравенства A1.18'") и A1.19") дают в качестве своего частного случая при р = 1 неравенства A1.18") и A1.19'). Полиномиальная регрессия. Рассмотрим случай скаляр- скалярного (т. е. одномерного, р = 1) предиктора х, и пусть искомая функция регрессии / (х) принадлежит классу алгебраических полиномов степени т, т. е. Ограничимся для определенности случаем т = 2 (пере- (переход к общему случаю т > 2 осуществляется очевидным обра- образом без каких-либо затруднений) и представим функцию рег- регрессии в системе базисных функций (ф0 (д:),^ (#),ip2 (*)}* являющихся ортогональными (на совокупности наблюденных 349
значений предиктора (хи x2t .... хп) полиномами Чебыше- ва (см. гл. 7, а также [10, с. 131; 77, с. 2751), т. е. где )=х—х; Взаимная ортогональность полиномов % (jc) (на системе наблюдений хи х2, ..., л:п) означает, что = 0 ПРИ что обеспечивает диагональность матрицы Х'Х. В частности, имеем Х'Х = 2*8 0 о о о о 1=1 2 о о о о Полученные в соответствии с A1.9) мнк-оценки Qk = п п = 2 Hi • Фь (#iV2* (* = 0, 1, 2) оказываются статисти- 350
чески взаимно независимыми и имеют дисперсии DQh = а2 • gj« (xt))-\ Учитывая, что в данном случае n можно (в соответствии с A1.18') и A1.19)) гарантировать с вероятностью Р выполнение неравенств (при заданном значе- значении х): c= О <t х_р (л-3).ох X где i+S^ n—3 а ^а (v) — 100а%-ная точка распределения Стьюдента с v степенями свободы (определяется из табл. П.6). 351
11.2. Нелинейный нормальный вариант идеализированной схемы регрессионной зависимости В данном параграфе исследуются вопросы точности регресси- регрессионного анализа применительно к общей параметрической мо- модели регрессии, в которой наблюденные значения yt и X* = = (х{}\ ..., x\rt)' соответственно результирующего показа- показателя ц и объясняющей (неслучайной) переменной ? = • ••» ?(р))' связаны соотношениями y*=f(Xu в0, 9lf ...feTO)+ef, i-1,2, ...,п. A1.20) При этом постулируется выполнение следующих допуще- допущений: 1) выбранный исследователем класс допустимых решений F содержит в себе искомую функцию регрессии / (X; в) = = Е(т,|Б= X), т. е. /(X; 6NF; A1.21) 2) регрессионные остатки е = (ех, е2, ..., еп)' несмещены относительно нуля, взаимно некоррелированы и одинаково @; а2)-нормально распределены, т. е. е6#@; а2- 1П); A1.22) 3) искомая функция регрессии / (X; в) нелинейно зависит от подлежащих статистическому оцениванию параметров в = = (во» вь •••> 0т)» однако характер этой зависимости доста- достаточно гладкий (например, существуют всевозможные вторые производные от / (X; в) по параметрам 0^, 6,-, fe, / = 0, 1, ...,m). Напомним, что главным (принципиальным) пунктом «идеа- «идеализации» анализируемой схемы является первый, т. е. до- допущение A1.21). Два других носят, скорее, полутехнический характер. Относительная сложность решения различных вопросов точности регрессионного анализа (по сравнению с предыдущим линейным вариантом) состоит в том, что в данном случае мнк- оценки в неизвестных параметров в определяются не в виде явных аналитических выражений (ср. с A1.9)), а лишь в ходе итерационных алгоритмических процедур (см. гл. 9), что су- существенно затрудняет исследование их свойств. В основе обычно используемых в данной схеме подходов — разложе- разложение в ряд Тейлора (по параметрам в в окрестности наилучшей 352
оценки в) оптимизируемого критерия адекватности Д (f (X'» в)) = Д (Q\ (см. гл. 5 и 9) и искомой функции регрессии /(Х;0). 11.2.1. Основные свойства мнк-оценок. Поскольку мнк-оцен- ки в параметра В в условиях A1.20)—A1.22) совпадают с оценками максимального правдоподобия [14, п. 8.6.1; 25, гл. 4], то мы можем воспользоваться общими результатами о свойст- свойствах последних. Из них, в частности, следует, что мнк-оценки 6 регрессионных коэффициентов в модели A1.20) являются (при условии соблюдения упомянутых условий) состоятель- состоятельными, асимптотически-несмещенными, асимптотически-эффек- асимптотически-эффективными и асимптотически-нормальными (асимптотика по п ->- сю). Для того чтобы перейти непосредственно к решению задач анализа точности нелинейной регрессионной модели, нам не- необходимо получить предварительно выражение, аналогичное A1.11), для ковариационной матрицы 2^ мнк-оценок В. С этой целью воспользуемся разложением функции регрес- регрессии / (X,-; В) в ряд Тейлора в окрестности точки 0 = 6, (где 0 — мнк-оценка параметра В, полученная с помощью про- процедур, описанных в гл. 9), ограничиваясь линейными членами разложения: f(Xt; 6)»/(Х<; в)+F-6)'- дПХ? в) или, в обозначениях гл. 9 (см. п. 9.3.1): е)'./„ (п.23) где /,(в) = /(*,; в) и Л = (а/,/авв, ..., dft/dQmy. Выражение A1.23) для произвольного значения X дает: f(X; 0) -/(X; в) «(в -в)'-/. A1.24) Введение обозначений ij?ft (X) = м '—- 6 = 0-в; /(Х;в)=/(Х; в + в) -/(X; в); V W = / = (Фо (X), Ь (X), ..., фт (X))' позволяет записать выражение A1.24) в виде /(X; 0)«0'.?(Х) A1.24') 12 Зак. 244 . 353
и свести, таким образом, нелинейную модель A1.20) к ее ап- аппроксимации линейной схемой, рассмотренной в предыдущем параграфе. Решение задач анализа точности регрессионной модели основано на исследовании точности оценок Э и отклонений / (X; 0) — / (Х\ В). Примем во внимание приближенные со- соотношения A1.24) и A1.24'), равенство ковариационных мат- матриц оценок В и в (т. е. 2- = 2~) и возможность использова- использования обычного приближенного приема вычисления вторых мо- моментов статистических оценок, когда в полученные выражения для этих моментов, зависящие от неизвестных значений оце- оцениваемых параметров, вставляются их оценки. Тогда можно, опираясь на результаты предыдущего параграфа (см. также [25, § 7.51), получить следующие выражения для ковариаци- ковариациоценок в и для ее оценки 2^: оннои 2^ л в где матрицы 1 п — т — 1 п -1 1е~ A1.25), A1.26) A1.27) /== 1 ; в)\2 ) df(Xj\ в) df(Xi; в) ае0 df(Xt; в) df(Xi\ в) 7^1 df(Xt; в) df(Xt; в) д/(Xt; в) df (Xt; в) aem ' дв0 двт ' аех dl(Xi; в) df(Xit в) - df(Xr, в) Э/(ХГ, в) i; в) у 354
причем производные, участвующие в выражении элементов матрицы Me» (Xi), берутся в точке в = в*, т. е. df(Xt, в) df(Xt; в) dfjXr. в) _ df(Xi- в) k, / = 0, 1: ...,/т?; Э* *= в, в. 11.2.2. Решение основных задач по оценке точности нелиней- нелинейной регрессионной модели. Подчеркнем два главных отличия данного случая от линейного, рассмотренного в § 11.1. Во- первых, используемые для построения доверительных интер- интервалов свойства состоятельных мнк-оценок © — несмещенность, оптимальность, нормальность, а также свойства б), в) и г) из п. 11.1.1 справедливы лишь в асимптотическом (по п-+оо) смысле. Во-вторых, следует учитывать приближенный харак- характер базовых соотношений A1.24) и соответственно A1.25) и A1.26). Следует признать, что возможны различные уточнения описываемого здесь приближенного подхода [1611. Однако вряд ли они существенно усовершенствуют предлагаемые в дан- данном параграфе практические рекомендации: ведь даже так называемые точные критерии и доверительные интервалы на практике оказываются всего лишь приближенными (они точны лишь в той мере, в какой соблюдаются в реальной ситуации те идеализированные допущения, на которых строятся соответст- соответствующие статистические выводы). Поэтому, говоря о том, что интересующая нас погрешность не превзойдет определенной величины с доверительной вероятностью, например, равной 0,95, мы должны всегда отдавать себе отчет в приближенном характере подобных заключений. Учитывая сделанное замечание, читатель может использо- использовать для приближенного решения трех основных задач оценки точности нелинейной регрессионной модели соотношения A1.16), A1.18') и A1.19) предыдущего параграфа с заменой: матрицы (Х'Х) матрицей М^ (см. A1.28)); оценки о2 оценкой, в подсчитанной по формуле A1.27); вектор-столбца *F (X) век- вектор-столбцом 12* 355
11.3. Исследование точности регрессионной модели в реалистической ситуации Неточный выбор общего вида функции регрессии, приводя- приводящий к нарушению базового допущения A1.21), на которое су- существенно опираются все выводы по оцениванию точности регрессионной модели, может заключаться как в неполном или избыточном представлении набора объясняющих переменных х{1\ х<2), ..., х{р\ так и в искажении самой структуры моде- модели. Наиболее неприятные последствия влечет второй тип ошиб- ошибки1. В этом можно убедиться при рассмотрении примера 6.2, а также примера, представленного в табл. 6.2 и на рис. 6 2. Действительно, анализируя данные табл. 6.1 (в которой представлены результаты расчетов по примеру 6.2), мы видим, в частности, что при использовании формально-ап- проксимационных вариантов регрессионной модели (т. е. в ситуации / (X) ф. F) оценки среднеквадратической ошибки остатков (а), полученные по формуле A1.27) по данным той же самой выборки, по которой вычислены и оценки в неизвестных параметров модели, дают более чем в 3 раза заниженные (по сравнению с действительными) значения (см. графы 4 и 6). Более того, из примера, представленного на рис. 6.2 (и в табл. 6.2), следует, что значение выборочного критерия адек- адекватности Ап (пропорционального величине а2) вообще может быть нулевым (!), в то время как ошибки восстановления не- неизвестных значений функции регрессии / или результирую- результирующего показателя г\ по заданной величине предиктора х могут быть практически сколь угодно велики (ср. поведение fa (x) с f (х) и т] (х) при х ? [7; 14] и при х ;> 17). Подмеченные в рассмотренных примерах особенности аппроксимационных вариантов регрессионных моделей (так мы будем называть варианты, в которых истинная функция регрессии / (X) б? F = {/а (X; в)}0еГ) приводят к следу- следующим основным положениям исследования точности ста- статистических выводов в регрессионном анализе в данной ситуа- ситуации: 1Влияние неполного или избыточного представления набора объяс- объясняющих переменных на свойства оценок и соответственно на точность статистических выводов в регрессионном анализе (при правильном оп- определений структуры модели) может быть учтено в рамках строгих ма- математических конструкций (см., например, [119, гл. 6]). 356
1) при анализе точности аппроксимационных вариантов регрессионных моделей не следует претендовать на построение сколько-нибудь точных доверительных интервалов ни для не- неизвестных значений параметров 9 (они, как правило, не имеют в данной ситуации самостоятельной содержательной интер- интерпретации), ни для функции регрессии / (X) или результирую- результирующего показателя г) (X) (поскольку, пользуясь аппроксимаци- аппроксимацией fa (X), отличающейся по структуре от истинной функции регрессии / (X), мы не можем иметь достоверной априорной информации о вероятностной природе остатков et = yt — -Та (X,)); 2) имеющуюся выборку наблюдений Вп = { (Х2, у±), ..., (Хп, Уп)} целесообразно разбить (одним или несколькими различными способами) на две непересекающиеся подвыборки объемов пх и п2 {rii + п2 = п): обучающую /??б, на основании наблюдений которой строятся мнк-оценки ©<П1) неизвестных параметров аппроксимационной функции регрессии fa (X; в), и экзаменующую (или контрольную) Вэпкз, по наблюдениям которой оцениваются основные характеристики точности ана- анализируемой модели (в первую очередь регрессионные остатки ^=^-/а(Х1-;в(««>)); 3) основной (и, по существу, единственной) характерис- характеристикой точности аппроксимационного варианта регрессионной модели является оценка о среднеквадратической ошибки ап- аппроксимации а, вычисляемая по формуле (П.270 i — т— 1 /=1 3 где подразумевается, что имеющаяся выборка наблюдений В1Х = { (Хь уг), ..., (Хп, уп)} разбита k различными способа- способами на две непересекающиеся подвыборки — обучающую В°? и экзаменующую (или контрольную) В3*3 соответственно объе- 2j мов nv и n2j (j — 1, 2, ..., ft), а мнк-оценки в^и* неизвест- неизвестных параметров В построены только по пц данным, входящим в состав обучающей выборки В°п6 . Знание о позволяет оце- оценить максимально возможную погрешность аппроксимации неизвестной функции регрессии / (X) (в пределах обследо- 357
ванного диапазона значений X) приблизительно величиной порядка ±2 а/У я, а результирующего показателя ц (X)— величиной порядка ±2ст; 4) следует проявлять известную сдержанность и осторож- осторожность при использовании аппроксимационных вариантов рег- регрессионных моделей для решения задач интерполяции и (осо- (особенно) экстраполяции, т. е. при восстановлении неизвестного значения функции регрессии / (X) или результирующего по- показателя т] (X) но значению предиктора X, лежащему вне ста- статистически обследованной области значений объясняющих пе- переменных (см. также гл. 6 и 8). Поясним подробнее конструктивную реализацию положе- положений 2) и 3) на примере использования широко применяемого метода скользящего экзамена1. Определим п разбиений исход- исходной выборки Ъп = { (Хъ ух), ..., (Хп, уп)} на обучающую (Б°б ) и экзаменующую (Вэпкз) следующим образом: Щ;--~{(Х19 уг), ..., (Xj-l9 (/;_!), (Х;Ч1, уИ1), . ., (Хп, уп)}\ ?;r {(Xjy у j)}J~~: 1,2,..., п. Таким образом: л17- = п — 1 и n2j = 1 для всех / = 1, 2, ..., п\ у-й вариант обучающей выборки содержит все наблю- наблюдения исходной выборки Вп кроме одного — (Xj*.yj)\ соответ- соответственно /-й вариант экзаменующей выборки содержит единст- единственное наблюдение — (Xj, yj). Применение к такой последо- последовательности обучающих и экзаменующих выборок формулы A1.27') дает: e^))\ A1.27") fl —¦ /72 — 1 1=1 Величина среднеквадратической погрешности о, подсчи- подсчитанная с помощью метода скользящего экзамена A1.27"), в аппроксимационных схемах регрессии оказывается, как пра- правило, существенно больше аналогичной характеристики, вы- вычисленной с помощью обычной формулы A1.27). Замечание (по поводу вычислительной реализации метода скользящего экзамена). На первый взгляд реализация ]Этот метод (в зарубежной литературе он называется «методом складного ножа», или «jackknife method») является одним из вариантов реализации общего подхода, впервые предложенного, по-видимому, в связи с задачей устранения смещения в статистических оценках (см. 165]). 358
метода скользящего экзамена связана с многократным повто- повторением громоздких вычислений на ЭВМ. Действительно, про- процедура предусматривает я-кратное вычисление оценок в<л»»)э в<л»2>, ..., ®{пт\ /22-кратное вычисление выборочных функ- функций регрессии fa (Хг\ 6(nu*)) (/, / = 1, 2, ..., /г) и т. д. Однако непосредственный анализ основных формул метода наимень- наименьших квадратов в случае линейного вида аппроксимирующих функций fn (X; О) = е(^0 (X) + ... + 0тг|)т (X) - в> (X) (см. формулы A1.3), A1.9)—A1.12)) позволяет установить по- полезные соотношения между интересующими нас характерис- характеристиками, подсчитанными по всей выборкеBn,w теми же харак- характеристиками, подсчитанными по выборке, в которой нет на- наблюдения (Хь tji): \—qt .) = в'?(Хг)+^ yi~~ y i} ; A1.29) в); A1.30) ? 'ef (в(я1*>) - ? ^—j- ^(в); A1-31) (/2__. 1) A^n_2 ('в*Л1^) = л'Дп('в) I+^^ (У(—®' ^(Х^)J. A1.32) \—qt Соотношения A1.28)—A1.31) позволяют избежать много- многократной вычислительной «прогонки» процедур метода наи- наименьших квадратов на различных вариантах обучающей вы- выборки за счет пересчета значений В{пи\ f (Xt\ Q{n^'l)) = = s{n^i)fxV (Xt) и т. д. по соответствующим характеристикам, подсчитанным по наблюдениям всей выборки Вп. *При самых естественных ограничениях на структуру матрицы плана X величина <7ь несмотря на зависимость от X;, ведет себя при п -+¦ оо (при фиксированной размерности т + 1 оцениваемого парамет- параметра) как л-1; если же и m -^ оо, то qx ~ (т + 1)/л. 359
выводы 1. Завершив построение оценки (или аппроксимации) f (Х\ в) = = / (X) для неизвестной истинной функции регрессии / (X) = = Е (г)|? — Лг), исследователь должен по возможности опре- определить ту гарантированную (с заданной доверительной веро- вероятностью Р) величину погрешности, за пределы которой он не выйдет, восстанавливая неизвестные значения параметров 07-, истинной функции регрессии / (X) или анализируемого ре- результирующего показателя т) (X) = (т]|? = X) по значениям их оценок соответственно В,-, / (Л) и / (X). 2. Решающим моментом во всей процедуре исследования точ- точности статистических выводов в регрессионном анализе явля- является соотношение между истинной функцией регрессии / (X) и выбранным исследователем параметрическим классом до- допустимых решений F -^ {[а (X; в)}еег. Если класс F выбран удачно (т. е. если / (X) 6 F), то исследователь находится в рамках идеализированной схемы и при некоторых дополнитель- дополнительных априорных сведениях о природе регрессионных остатков е (А) = г\ — / (А) имеет возможность дать достаточно точный отвег на все три основных вопроса анализа точности регрес- регрессионной модели (см. §11.1, 11.2). Если исследователь не может гарантировать включения / (А) ? Р (что и бывает в большинстве практических ситуаций), то он находится в рамках реалистической схемы и может, в лучшем случае, дать лии.ь весьма грубую оценку а для сред- неквадргтической погрешности аппроксимации. 3. Решение задач оценки точности линейной (по оцениваемым параметрам) модели регрессии в рамках идеализированной схемы опирается на такие свойства мнк-оценок 0 неизвестных параметров регрессии Э, как состоятельность, несмещенность, оптимальность и нормальность, а также на умение вычис- вычислить (в терминах матрицы наблюдений, или матрицы плана X) ковариационную матрицу оценок Э. 4. Решение задачи оценки точности нелинейной модели рег- регрессии в рамках идеализированной схемы опирается на те же свойства мнк-оценок в, справедливые в данном случае, прав- правда, лишь в асимптотическом (по п ->¦ °°) смысле, а также на разложение функции регрессии / (Х\ 0) в ряд Тейлора (по параметру 6) в окрестности точки 0 = 0 (где 0 — мнк-оцен- ка параметра 0) и на умение вычислить (в терминах частных 360
производных dj (Х\ 6)/сЮ;) ковариационную матрицу оценок в. 5. Анализ точности регрессионной модели в рамках реалис- реалистической схемы сводится к вычислению оценки ст для средне- квадратической погрешности аппроксимации сх по обычной формуле выборочной остаточной дисперсии. Однако остатки ?*• = Ui —/ О^ь ©), на основании которых подсчитываете я величина о (см. формулы A1.27), A1.27') и A1.27")), следует вычислять лишь для тех наблюдений (Xiy */<•), которые не вошли в состав данных, по которым рассчитываются мнк- оценки в. Следовательно, анализ точности регрессионной мо- модели в реалистической ситуации предусматривает необходи- необходимость предварительного разбиения имеющихся исходных ста- статистических данных на две непересекающиеся выборки — обучающую (по данным которой строятся мнк-оценки G) и экза- экзаменующую (по данным которой оцениваются регрессионные остатки zt =r= у. — f (Xt\ в)). 6. Частным (и весьма распространенным) вариантом оцени- оценивания а2 по экзаменующей выборке является метод скользя- (цего экзамена, в котором в качестве п экзаменующих выборок последовательно используется каждое из п исходных наблю- наблюдений (Xj,^), ..., (Хпуп), а соответственно остальные п—^1 наблюдений используются в качестве обучающих выборок. При этом оценка о2 вычисляется по формуле A1.27"). Глава 12. статистический анализ АВТОРЕГРЕССИОННЫХ ДИНАМИЧЕСКИХ ЗАВИСИМОСТЕЙ В данной главе рассматривается случай, когда исследуется по- поведение единственной случайной переменной х во времени. Ис- Исходной статистической базой для такого исследования явля- является ряд значений х1у х2у ...., хп A2.1) исследуемой переменной, зарегистрированных в последова- последовательные моменты времени соответственно tu t2, ..., tn. 361
Последовательность наблюдений типа A2.1) принято на- называть временным рядом. Он имеет два главных отличия от рассматриваемых наблюдений анализируемого признака, об- образующих случайные выборки: а) образующие временной ряд наблюдения х1у х2, ..., хпч рассматриваемые как случайные величины, не являются взаимно независимыми, и, в частности, значение, которое мы получим в момент времени tk (k = 1, 2, ..., л), может существенно зависеть от того, какие значения были зарегистрированы до этого момента времени; б) наблю- наблюдения временного ряда (в отличие от элементов случайной вы- выборки), вообще говоря, не образуют стационарной последова- последовательности, т. е. закон распределения вероятностей k-vo чле- члена временного ряда (случайной величины xh = x (th)) не ос- остается одним и тем же при изменении его номера k\ в частности, от tk могут зависеть основные числовые характеристики слу- случайной переменной xk — ее среднее значение Ex (tk) и диспер- дисперсия Dx (tk) (функцию от аргумента /, описывающую зависи- зависимость Ел: (/) от времени, часто называют трендом временного ряда). Статистическое исследование последовательностей вида A2.1) осуществляется с помощью специального раздела мате- математической статистики — анализа временных рядов. В данной главе рассматриваются модели лишь одного частного типа — модели авторегрессии. Базовая идея, на которой эти модели строятся, как раз и заключается в использовании вышеука- вышеуказанной особенности (а) временных рядов, и, в частности, в постулировании возможности восстановления значения ана- анализируемой переменной х в момент времени / (т. е. величины х (t)) по ее же собственным значениям, зафиксированным в пре- предыдущие моменты времени /— 1, / — 2, ... (отсюда и проис- происхождение названия моделей). Более полное и основательное освещение аппарата анализа временных рядов приведено в [21, 28, 41, 66, 80, 144]. 12.1. Дискретные динамические модели Одним из наиболее наглядных, простых и в то же время весьма часто и плодотворно используемых динамических мо- моделей являются модели вида 2 ? 9 A2.2) 362
где Ov и У] — параметры, подлежащие оцениванию по наблю- наблюдениям A2.1), а ?ч — случайные величины, удовлетворяющие условиям ^: A2-2.) если / Ф t. Если р =~- 0, то A2.2) называют моделью авторегрессии. Если же в правой части A2.2) равно нулю первое слагаемое, то говорят о модели скользящего среднего. При р >0ит >0 соотношения вида A2.2) называют смешанной моделью авто- авторегрессии и скользящего среднего. В отличие от регрессионных моделей, где случайность ча- чаще всего описывает погрешность наблюдения, модель A2.2)—¦ A2.2') предполагает, что уже сам исследуемый объект описы- описывается вероятностной моделью, т. е. что анализируемая пе- переменная х — случайная величина.- Типичной областью при- применения модели A2.2)—A2.2') являются эконометрические исследования (см. гл. 14). При учете трендов оказывается удоб- удобным рассматривать вместо A2.2) ее несколько усложненный вариант: v=1 v= 1 /=0 где ipv (/)—заданные функции. Нередко «точные» значения xt оказываются недоступными. Тогда модели A2.2) или A2.3) приходится дополнять предположениями, что для анализа доступны лишь «зашумленные» наблюдения yt = xL+Et. A2.4) Обычно предполагается, что Е(е,)= 0, E(ef)^ о2, Е(е, ег)-0при *#*'; A2.4) Как будет ясно из дальнейшего, численные аспекты задач оценивания, порождаемых моделями A2.2)—A2.3), не вызы- вызывают каких-либо затруднений, так как опираются на стан- стандартный аппарат метода наименьших квадратов (см. гл. 7—9). Однако изучение статистических свойств соответствующих оценок приводит к целому ряду довольно сложных проблем. С большинством из них приходится сталкиваться уже при изу- изучении простейшего варианта модели A2.2) — авторегрессии первого порядка. Именно поэтому авторегрессия первого по- порядка и будет достаточно подробно изучена в следующем па- параграфе. 363
12.2. Авторегрессия первого порядка 12.2.1. Нормально распределенные «возмущения». Рассмот- Рассмотрим простейший вариант модели A2.2): Xt r^ е^-,. + е„ t =¦ 1, 2, ..., п. A2.5) Предположим вначале, что случайные величины et («воз- («возмущения») распределены по нормальному закону и Е (е?) = О, Е (е?) = а8, Е (е^) = 0 при t =? /'. Пусть также задано на- начальное условие х0. Соотношение A2.5) удобно представить в виде LX = 8, A2.6) где Х-= (х1у ..., хп)\ г = (ег + 8х0, е2, ..., еп)', а матрица L имеет размерность п X п и представляется в виде L = 1 —0 0 0 0 1 —e 0 0 0 l 0 ... 0 ... 0 ... 0 ... l A2.7) Из A2.6) следует, что вектор X имеет нормальное распре- распределение со средним X, удовлетворяющим уравнению LX=X0, A2.8) где Х0=--(хс% 0, ..., 0)'. Нетрудно видеть, что Ext = хо№. Ко- Ковариационная матрица D (X) вектора X равна: D(X)-g2LL'. A2.9) Заметим, что |L| = |LL'| = 1. Из A2.8) и A2.9) следует, что распределение вектора наблюдений X описывается плот- плотностью р(Х|а2, 9)- —^ехр — У (xt — Qxt-Xf I FV ; Bла2)п/2 I 2а2 ?? 1 \ Как обычно, для получения оценок максимального прав- правдоподобия о% и 6П необходимо максимизировать функцию р (Х/а2, 0) по а2 и 0. Нетрудно видеть, что решениями этой экстремальной задачи являются \ = Мпгуп, A2.10) 364
где п *^1 t=\ A2.11) Таким образом, с вычислительной точки зрения мы имеем дело с простейшей линейной задачей метода наименьших квадратов. Изучение же статистических свойств оценок A2.10) и A2.11) оказывается заметно сложнее, чем для классической линейной регрессии. 12.2.2. Асимптотические свойства оценок. Изучение предель- предельного поведения (при п ->- оо) оценки 0„ опирается на анализ п п поведения последовательностей Ух?_1 и Х^Л-ъ так как t= I t=i С-в- Оказывается, что при любом Э оценка дп является состоя- состоятельной (т. е. сходится по вероятности к Э). Предельное распределение оценки Qn оказывается различ- различным при |8| < 1, |0| > 1 и |в| = 1. Если |0| < 1, то говорят об устойчивом случае. При этом lim Ехп = 0. В устойчивом случае случайная величина i/'n @Л — Э) име- имеет в пределе нормальное распределение с нулевым средним и дис- с» Персией D = (^б25) = 1 — б2. Обратим внимание, что при п |6| <С 1 величина У,х}In сходится по вероятности ка2A—б2). Если |6| >> 1, то мы имеем дело с неустойчивым («взрыв- («взрывным») случаем. При этом lim Ехп = оо. В неустойчивом случае случайная величина |0|п @п — В) X X @2 — I)-1 имеет в пределе распределение Коши [14, п. 6.1.101 с параметрами @, 1). 365
Наиболее сложным оказывается промежуточный случай, когда |0| = 1. Доказано, что при |0| = / случайная величина п (Qn — 0)/]^2 имеет в пределе распределение с плотностью'. oo J дх — oo где ~Г ' sin 2 12.2.3. Произвольное распределение «возмущений». Оценка A2.10) формально совпадает с мнк-оценкой. Так же как и в случае регрессионных задач, кажется естественным исполь- использовать ее и при распределениях «возмущений» е,, не совпа- совпадающих с нормальным, а лишь удовлетворяющих условиям A2.2'), дополненным требованием их одинаковой распреде- распределенное™ и независимости. Оказывается [21, 1551, что в этом случае оценка A2.10) является состоятельной при любых 0, причем: 1) при |0| <С 1 случайная величина Y п FП — 0) асимпто- асимптотически нормально распределена с нулевым средним и диспер- дисперсией 1—02; 2) при |0| > 1 случайная величина |0|'1 (дп — 0) @ — 1)~2 имеет некоторое предельное распределение, характеристики которого зависят от закона распределения «возмущений»', 3) аналогичное утверждение имеет место и для |0| == 1, но для случайной величины п (дп — 0)/|/2. Во всех рассмотрен- рассмотренных выше случаях асимптотическая «точность» (точнее, пре- предельное распределение выписанных выражений) не зависит от дисперсии «возмущений». Подводя итог результатам, изложенным в данном и преды- предыдущем пунктах, можно сказать, что при |0| < 1 скорость схо- 1^ димости порядка п 2; при |0| ;> 1 — порядка |0|~п A — 0J и при |0| = 1 — порядка п~1]/г2. Таким образом, устойчивая авторегрессия первого порядка с точки зрения оценивания является «наихудшей». Для всех рассмотренных выше случаев (как в п. 12.2.2, так и в п. 12.2.3) оценка A2.11) является состоятельной, при- причем при достаточно больших п предельное распределение слу- чайной величины о%/о2 близко к %2-распределению с п степе- степенями свободы. 366
12.3. Авторегрессия произвольного порядка В полной аналогии с A2.6) для авторегрессии т-го порядка можно записать, что LX - где A2.12) = (хи ..., хп)\ е- ех начальные условия, где "О 0 0 1 0 0 О 1 0 . О О" . О О . О О A2.13) _0 О О . . . 1 0_ Вектор X при нормальных и независимых «возмущениях» (см. комментарии к A2.5)) распределен по нормальному зако- закону со средним X, удовлетворяющим уравнению L X = Хо, где Хо- и с ковариационной матрицей D(X) - a2LL\ A2.14) ^1-т. О, ... , О Г, A2.15) Решение уравнения A2.14) (точнее, его k-ю компоненту) можно представить в виде A2.16) 367
где Zj — корень уравнения гт^ j? 0v2"'-v , A2.17) qj — кратность этого корня, г — количество различных кор- корней, константы bjt определяются из начальных условий. Урав- Уравнение A2.17) является характеристическим для разностного уравнения т которое, впрочем, эквивалентно матричному уравнению LX = 0. При т = 1 решение A2.16), конечно же, совпадает с уже упоминавшимся в предыдущем параграфе решением xk = x0Qk. Из A2.12), A2.14), A2.15) следует, что плотность распре- распределения для вектора X может быть представлена в виде р(Х\о*; в) = 1— ехр 2)П/2 Г—-V У(^~У 9v*-v VI • A2.18) Так же как и при т = 1, полезно иметь в виду, что |L| = - |LL'| = 1. С учетом A2.18) оценки максимального правдоподобия в„ = (91П, ...,?mn)' и^ имеют вид (ср. с A2.10) и A2.11)): On^iVU1 Гл, A2.19) где компоненты матрицы Мп (ма$) и вектора У'п (уа) опреде- определяются соотношениями: п п Ма& ZZ У Xt — « Xt — 6 , #а ~ ^ X Xt _ (а 6 = Т~т)' ""A2 20) /=1 ^=1 i=--\ \ а=\ Формулы A2.19) и A2.20) полностью аналогичны A2.10), A2.11), так что для отыскания 6„ и о\ могут быть использо- 368
ваны стандартные программы метода наименьших квадратов. Следует, однако, иметь в виду, что матрица М в задачах ав- авторегрессии, как правило, оказывается плохо обусловленной (см. гл. 8). Асимптотическое поведение компонент 0ап векторной оцен- оценки Qn определяется значениями корней уравнения A2.17). Наиболее хорошо изучен случай, когда все корни по модулю меньше единицы: |zv|< 1,Y = 1, г (см., например, [21, гл. 51). При этом предположение о нормальности распределения «воз- «возмущений» оказывается несущественным. Если все корни характеристического уравнения A2.17) по модулю меньше единицы, а случайные «возмущения» et независи- независимы, Е (г.) — О, Е (е^) = а2, / = 1, п и имеют одинаковые рас- распределения, то оценки A2.19) и A2.20) состоятельные. Более того [21], случайная величина у п FП — в) имеет в пределе нормальное распределение с нулевым средним и ковариационной матрицей А-1, где А = ^ w l* B's. 1 0 0 . 0 . . . 0\ . .0 \ о /00. /10. 01. . . 0 . . 0 . . 0 l{ = 0 0. . . 0 / \ 0 0 ... 0 Так же как и в предыдущем параграфе, асимптотическая дисперсия оценок не зависит от дисперсии «возмущений» гь а целиком определяется истинными значениями параметров в. В практических задачах полезно иметь в виду, что матрица n~~1afAn (см. A2.19)) является состоятельной оценкой матри- матрицы А. В неустойчивом случае (по крайней мере один из корней характеристического уравнения по модулю больше единицы) оценки A2.19) и A2.20) по-прежнему состоятельны, однако предельное распределение оценок A2.19) уже не является нор- нормальным (см., например, [21, §5.5]). Если все корни характеристического уравнения по модулю -больше единицы, то матрица (Вп — В) Ът~2 имеет предель- предельное распределение, которое определяется распределением слу- случайных «возмущений» гг (см. [155]). В этом утверждении Вп получается из В заменой истинных значений параметров 369
©i, ¦-., ©m и* оценками 0ln, ..., Qmn. Приведенная формула для матрицы А (обратной к ковариационной матрице оценок в) позволяет оценивать скорость сходимости оценок в к истин- истинным значениям параметров в. ВЫВОДЫ 1. Совокупность наблюдений х (/х), х (/2), ..., х (tn) исследу- исследуемой случайной величины, произведенных в последовательные моменты времени tl9 /2, ..., tni называется временным рядом. 2. Временной ряд {х (^), x (/2), ..., х (tn)} отличается от по- последовательности наблюдений {хь х2, ..., хп}, образующих случайную выборку, тем, что члены временного ряда не явля- являются ни статистически независимыми, ни одинаково распре- распределенными. 3. Функция / (/), описывающая изменение среднего значения анализируемой переменной в зависимости от времени / ее на- наблюдения, называется функцией тренда, или просто трендом. Очевидно, тренд может интерпретироваться как регрессия исследуемой переменной по фактору времени1. 4. Моделью авторегрессии порядка т называется модель рег- регрессии, в которой в качестве результирующего показателя рассматривается анализируемая переменная в некоторый мо- момент /, а в качестве объясняющих переменных (предикторов) используются значения той же самой переменной в т непо- непосредственно предшествующих / моментов ее наблюдения. Мо- Модели авторегрессии относятся к наиболее распространенным прогностическим моделям, используемым при исследовании динамических зависимостей. 5. Численно задачи оценивания неизвестных значений пара- параметров моделей авторегрессии решаются с помощью стандарт- стандартного аппарата метода наименьших квадратов (см. гл. 7—9). Более сложные проблемы возникают при исследовании ста- статистических свойств получаемых оценок. 1В ряде работ по математической статистике под трендом понима- понимается лишь так называемая долговременная составляющая функции Ел: @ — некое устойчивое, систематическое («очищенное» от различ- различных периодических или сезонных колебаний) изменение в течение дол- долгого периода (см., например, [66, с. 483]). Такое определение не пре- претендует на математическую точность, оставаясь несколько расплыв- расплывчатым: ведь понятие «долгий», «долговременный», используемое в нем, является относительным. То, что с одной точки зрения является дол- долгим, с другой таковым не будет. 370
6. Оценки метода наименьших квадратов параметров модели авторегрессии в широком классе случаев (а именно при усло- условии независимости, одинаковой распределенное™ и конечно- конечности дисперсий участвующих в них случайных «возмущений» ги см. A2.2)) являются состоятельными. Асимптотические распределения оценок в «устойчивом» случае всегда явля- являются нормальными, причем их дисперсия (ковариаци- (ковариационная матрица) не зависит от дисперсии «возмущений» е^. В общем случае (т. е. в ситуации, когда некоторые из корней характеристического уравнения A2.17) по модулю превосхо- превосходят единицу) асимптотическое распределение оценок опреде- определяется распределением случайных «возмущений» е,. Математическая модель авторегрессии m-го порядка: xt = т = 2 9v**-v + e,, где 9V — параметры, подлежащие оцени- v=l ванию по наблюдениям, а гг — случайные величины, удов- удовлетворяющие условиям Eet = 0, Eet et* = о2, если t = t\ и ^~0, если t=?f. В отличие от регрессионных моделей, где случайность обычно описывает погрешность наблюдений, модель авторегрессии предполагает, что уже сам исследуе- исследуемый объект описывается вероятностной моделью, т. е. что анализируемая переменная х — случайная величина. 371
Раздел III.исследование зависимости КОЛИЧЕСТВЕННОГО РЕЗУЛЬТИРУЮЩЕГО ПОКАЗАТЕЛЯ ОТ ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ СМЕШАННОЙ ПРИРОДЫ Глава 13. ДИСПЕРСИОННЫЙ И КОВАРИАЦИОННЫЙ АНАЛИЗ Допустим, что экономиста колхоза интересует зависимость урожайности какой-либо сельскохозяйственной культуры от типа почвы, сорта семян и работающего на поле звена. Допус- Допустим, далее, что в колхозе имеется / типов почвы, используется J сортов семян и обработкой культуры заняты К звеньев. Экономиста интересует: а) средняя урожайность каждого сорта семян для выбора наиболее подходящего для данного хозяйства сорта; б) влияние почвенных условий на урожай- урожайность и в) различие в трудовой отдаче звеньев, что важно для дифференцированной оплаты труда. С математической точки зрения экономист должен изучить зависимость количествен- количественной случайной величины (урожайности) от величин номиналь- номинальных (сорт, звено, тип почвы). Пусть на /-м поле с i (/)-м типом почвы работало k (/)-e звено, которое возделывало / (/)-й сорт, и пусть уг — урожайность /-го поля. Приступая к расчетам, экономист может построить математическую модель вида УГ-=т + аа1)+Ьт+сШ) + г1 (/ = 1,... ,L), A3.1) где m, at, bj, ck — константы, отражающие соответственно средний урожай в колхозе, влияние на урожай типа почвы, сорта семян и звена, a et — «остаточная» случайная величина, представляющая собой отклонение наблюдаемой урожайно- урожайности от модельных предположений. В модели обычно предпо- предполагается, что «остатки» ег независимы между собой, одинаково распределены и имеют нормальное распределение с нулевым средним. Конечно, модель A3.1) можно сделать более точ- точной, введя в правую часть дополнительные константы, учи- учитывающие, например, эффект взаимодействия типа почвы и сорта семян, сорта семян и звена и т. п. Модели типа A3.1) называют моделями дисперсионного ана- анализа с постоянными факторами, а совокупность методов их изучения - собственно дисперсионным анализом (ДА). Эти модели описаны в § 13.2, 13.3. 372
Представим теперь, что анализ проводит экономист района или области и его интересуют не успехи отдельных звеньев, а скорее тот вклад в общую изменчивость урожайности, кото- который вносит разная работа звеньев. В этом случае постоянную ck(D, которая характеризовала в A3.1) работу звена, целе- целесообразно заменить на случайную величину ? (/) и назвать случайным фактором. Линейные модели ДА, содержащие толь- только случайные факторы, называют моделями со случайными фак- факторами. Модели, куда входят одновременно постоянные и слу- случайные факторы, называют смешанными моделями диспер- дисперсионного анализа (последние два типа моделей описаны в § 13.4; см. также [148]). Если требуется проанализировать данные за ряд лет, раз- различающихся, например, по своим погодным условиям, кото- которые характеризуются количественными переменными X = = (*A), ..., х(р))\ то для того, чтобы учесть влияние климата, к правой части A3.1) можно добавить дополнительные члены т вида ]?0q • tyq (Хд, где 9^ — неизвестные постоянные коэф- 4 = 0 фициенты, оцениваемые по обычным данным, a tyq (X) — из- известные количественные (базисные) функции внешних условий X (например, средней температуры, количества осадков и т. п.). Эти дополнительные количественные факторы называют рег- регрессионными переменными, а методы изучения моделей, в ко- которых часть переменных является неколичественными, а часть количественными (регрессионными), —ковариационным ана- анализом (модели ковариационного анализа посвящен § 13.5). 13.1. Классификация моделей дисперсионного анализа по способу организации исходных данных Во введении к данному разделу описана классификация мо- моделей, основанная на анализе математической природы входя- входящих в них объясняющих переменных. Для дисперсионного анализа существенна также классификация, основанная на способе организации исходных данных, т. е. на том, как гра- градации одних факторов (переменных) в исходных данных соче- сочетаются с теми или иными градациями других переменных и как распределено общее число имеющихся наблюдений между различными возможными сочетаниями градаций переменных. Эти классификации тем более целесообразны, что ДА наи- наиболее эффективен именно тогда, когда исследователь активно 373
вмешивается в организацию сбора данных или, как говорят, участвует в планировании экспериментов. Предположим, что в исследование включено Р факторов, причем /-й фактор имеет lt (i = 1, ..., р) градаций, тогда име- имеется ж = /д • ... • /р различных сочетаний значений факто- факторов (условий эксперимента). Если каждому из возможных условий соответствует хотя бы одно наблюдение, то такую ор- организацию (планирование) экспериментов называют полным Р-факторным планом. В противном случае планирование на- называют неполным Р-факторным планом. В примере с колхозным экономистом для того, чтобы план был полным, необходимо, чтобы каждое из К звеньев обрабатывало бы все / типов поч- почвы и на каждом из типов использовало бы все J сортов семян. С практической точки зрения это трудно организовать, поэ- поэтому больше распространены неполные планы. В случаях, когда требуется сравнить в эксперименте / со- совокупностей условий (например, / сортов семян), часто груп- группируют эксперименты в блоки (например, по типу почвы) так, чтобы внутри блока результаты эксперимента (урожай) были бы более похожи друг на друга, чем на результаты эксперимен- экспериментов в других блоках. Если внутри каждого из блоков удается разместить все / условий, то такой план эксперимента назы- называют полным блочным планом; если только часть из них — то неполным блочным планом. Для того чтобы нивелировать влия- влияние не учитываемых при анализе факторов (например, звень- звеньев), размещение условий (сортов) внутри блока (тип почвы) часто производят случайно (по отношению к звеньям). Такие планы экспериментов называют случайными или рандомизи- рандомизированными планами. 13.2. Однофакторный дисперсионный анализ 13.2.1. Представление в виде регрессионной модели. Матема~ тическая модель однофакторного ДА имеет вид Уи=вяо + ед, + е,у> /=1,•..,/,•; е = i /. A3.2) где 0Лг — неизвестные константы, удовлетворяющие равенст- равенству 2 щ вд,=о, Wi > о, J щ ="i A3-3) 1=1 /=1 374
(Wf — некоторая заданная (вводимая исследователем) систе- система весовI, а е,у — случайные погрешности, независимые меж- между собой и имеющие нормальное распределение с нулевым сред- средним и неизвестной дисперсией о2 >> 0. С содержательной точки зрения однофакторный анализ можно рассматривать как / рядов (каждый ряд длины Jt) не- независимых наблюдений над нормально распределенными слу- случайными величинами со средними 9Д0 +0д, и дисперсией а2. Используя векторную запись, модель A3.2) можно предста- представить в виде Уп У 21 Уп 1 1 0 ... О 1 1 0 ... О 1 0 1 ... О 1 0 1 ... О 1 0 0 ... 1 10 0. . .1 A3.4) или в обозначениях главы 7 (положив для краткости п = .2Vi) i у=хдея + 8, A3.4') где Y — (п X 1)-вектор наблюдений; Хд— (п X (/ + 1))- матрица плана экспериментов, имеющая ранг /; вд — ((/ + 1) X 1)-вектор неизвестных констант и г — (п X 1)- вектор случайных погрешностей2. Векторы Y и г иногда обо- обозначают так же, как vec (уи) и vec (e^-) или [yij] и [е^]. В дальнейшем мы будем пользоваться первым из этих обозна- 3Совокупность весов {wi} выбирают из содержательных сообра- соображений. Например, если у — урожайность, а индекс i отвечает сорту, то, если выбрать Wi пропорциональным занятой i-м сортом площади посевов в колхозе, 6Д0 будет соответствовать средней урожайности в колхозе, а Эд/ — разности между урожайностью i-го сорта и 0ДО. 2Нижний индекс д у объясняющих переменных x<k), матрицы плана X и оцениваемых параметров G подчеркивает, что речь идет об упомя- упомянутых характеристиках модели дисперсионного (а не регрессионного) анализа. Там, где это не вызывает недоразумений, этот индекс опуска- опускается. 375
чений. В ДА обычно проверяется гипотеза об отсутствии влияния рассматриваемых неколичественных переменных на результирующий показатель, т. е. Н : Эд1 = 6д2 = ... = Эд1 = = 0. /^-критерий для проверки этой гипотезы задается с помощью статистики (см. гл. 7). _ (ОСКя-ОСК)/^-.!) 13 5) ОСК/(я —/) ' где ОСК- min а ОСКн ¦= niin 22 (уи — 01ОJ» имеющей при правильности гипотезы Я F (/¦— 1, п —/^распределение с числом степеней сво- свободы (/ — 1) (в числителе) и (п — /) (в знаменателе). Миними- Минимизация ОСК легко выполняется методом Лагранжа. ОС К до- достигает минимума при 9ДО = 2^гг/^ и 0дг- = уи — 0ДО, Ji где уI* — ^yij/Jt — оценка среднего1 в i-м ряду наблюдений; /=] ОСК = 22 (Уи — J^i*J; ОСК// (достигает минимума при •"-* i i едо = У** = %Уы JJn и равно 2S (f/iy — !/**J- Путем не- «/ сложных алгебраических преобразований получаем = S S (Уи-yi*J +22 (у/*-у**J. так как сумма со смешанными произведениями равна нулю. Откуда ОСК/у — ОСК = 2^; (Уи — #**J> и критерий Т7 принимает вид ~ A3.5') / J / i 2 2 (Уи~уиJ/(п~п 2 *^— i /= 1Подстрочный индекс , означает усреднение по индексу, который он заменяет. 376
Числитель F обозначают sh, а знаменатель—s%. Таким об- образом, если окажется, что подсчитанная по формуле A3.5')' (или A3.5)) величина F превосходит значение 100а%-ной точ- точки Fa (/ — 1, п — /) jF-распределения с числом степеней сво- свободы числителя, равным / — 1, и знаменателя — п — / (см. табл. П.5), то гипотеза Н отвергается (с уровнем значимости критерия, равным а). Различные суммы квадратов, встреча- встречающиеся в ДА, принято располагать в виде специальной табли- таблицы ДА для однофакторного анализа (табл. 13.1). Последний столбец таблицы объяснен в следующем пункте. Таблица 13.Г Источник из- изменчивости Между гра- градациями Ошибки «Полная» сумма квадратов Сумма квадратов (СК) скя=2 /i (уы- </,*J скв-22(ш- уи)г 1 У ' У Число степеней свободы (чес) /—1 2'«-7 i i Ul v 11 IS sh — E (CK) a2+(/_l)-lX i Терминология для сумм, используемых в столбце «источ- «источник-изменчивости», в разных работах разная. Так, вместо тер- термина «между градациями» употребляют термины «между сово- совокупностями», «между способами обработки»; вместо терми- термина «ошибка» говорят о сумме квадратов «внутри групп», «вну- «внутри совокупностей», «остаточной» сумме квадратов. 13.2.2. Геометрический смысл ДА. Хотя общие вопросы про- проверки гипотез в случае линейной регрессии уже рассмотрены в гл. 7, представляется интересным конкретизировать их в случае однофакторной модели ДА. Положим i и определим п-мерные векторы аналогично тому, как это было сделано в предыдущем пункте: —0*); 377
Из модели A3.2) следует, что U = vec (е**), W =¦ = vec (eu — е&), а V=K0-t-vec @,-0*), A3.6) где V0 = vec(si* Из тождества следует, что е = U + Vo + W. Векторы (/, VOi W взаимно ортогональны, что легко проверя- проверяется непосредственно, поэтому VoVo+W W. A3.7) Квадратичные формы, стоящие в правой части A3.7), взаимно независимы и имеют ранги, в силу определения и условия, A3.3), соответственно равные 1, /— 1, п — /. Поскольку ранг правой части A3.7) равен п = 1 + (/ — 1) + (п — /), в силу теоремы Кохрана ([148, приложение VII), отсюда сле- следует, что i/'(//a2, VoV0/o2, WW/o2 имеют ^-распределения с числами степеней свободы, равными их рангам. Таким обра- образом, числитель и знаменатель критерия A3.5), A3.5') незави- независимы, и F имеет /^распределение с числами степеней свободы / — 1, п — /.В случае, когда Н не имеет места, F имеет не- нецентральное /^распределение с тем же числом степеней сво- свободы и параметром нецентральности б2, равным в силу A3.6) б2- vec(9; — 9J' vec (в, — 0*)/a2 = 2 «Ме*~-9*J/а2. A3.8) Диаграммы для нахождения мощности f-критерия при задан- заданных п, /, б можно найти в [148]. 13,2.3. Доверительные интервалы. Если в результате приме- применения /^-критерия гипотеза Н отвергается, то следующий шаг состоит в выяснении того, насколько параметры Qt отлича- отличаются друг от друга. В частности, обычно представляют инте- интерес разности вида 9L — 92, Qx — (92 + 93)/2, (9Г + 92)/2 — — (93 + 64 + ^в)/3 и т. п. Эти линейные комбинации, имею- имеющие вид I,CiQi = 0, где 1>сг = 0, называются сравнениями или контрастами (contrast) параметров 0,-. Если бы линей- линейная комбинация была задана до получения экспериментальных данных, то A — а) — доверительный интервал для 2с*0* — мы могли бы построить как SC, У и ± (/а/2 (Л-/)) 2 4- *е> A3.9) 378
где /р (k) — 100C %-ная точка /-распределения Стьюдента с k степенями свободы. Однако на практике представляющие интерес сравнения составляются обычно после получения экспериментальных данных, т. е. тогда, когда уже известны оценки 0f. Исследо- Исследователь, опираясь на них, среди всех возможных сравнений отбирает те, которые кажутся ему наиболее важными. Приме- Применение формулы A3.9) к отобранным сравнениям не оправдано и приводит к более узкому, чем должно быть, доверительному интервалу. Тактика исследователя в этих условиях должна заключаться в том, чтобы отказавшись от индивидуального доверительного интервала строить доверительные интервалы множественные, которые одновременно выполнялись бы либо для всех возможных сравнений, либо для какого-либо выделен- выделенного подмножества сравнений. Наиболее известны три мето- метода построения таких интервалов: S-метод Шеффе,, Т-метод Тьюки и метод уменьшения уровня критерия Стьюдента. S-метод Шеффе опирается на следующее простое рассуж- рассуждение: С? \!/2 i V Ji (НУ A3.10) Правая часть A3.10) состоит из двух сомножителей, пер- первый из которых носит неслучайный характер, а второй не за- зависит от выбора с,, распределен как "|/"а2ха (^ — 1) и не зависит от si. Отсюда можно вывести, что величина второго сомножи- сомножителя с вероятностью A —а) будет меньше, чем [(/—1) X X Fa (I — 1, я — l)]lt2se. Следовательно, с вероятностью не меньшей 1 — а, для всех сравнений одновременно выпол- выполняется неравенство 1/2 X X [(/_i)Fa(/-l, л-/)]1/2 se. A3.10') 379
Т-метод Тьюки применяется только к сравнениям вида @j- — 97% Пусть tji* — 8? расположены в вариационный ряд, обозначим Zmln — наименьшее из них и Zmax — наибольшее. Для всех / (/ — 1)/2 пар (i, j) \ У1*—У]* — Ъг + е; К 2max—ZmIn = = max гш—minejV A3.11) Разность в правой части неравенства A3.11) при Jt = J с вероятностью 1 — а ограничена величиной qa (/, п — I)se, где qa (/, п — /) — 100а%-ная точка стьюдентизированного размаха с числом степеней свободы /, п — I1. Метод уменьшения уровня критерия Стьюдента. Если требуется построить k доверительных интервалов, где k не •слишком велико, то можно воспользоваться неравенством A3.9) с меньшим значением уровня а' = a/k. В этом случае вероят- вероятность того, что будут верны одновременно все k доверительных интервалов, не менее 1 — а. Пример 13.1. Допустим, что а = 0,05, / = 5, Jt = 6, i = 1, ..., 5. Доверительные интервалы строятся только для разностей 0^ — 0;- (k = 10). Тогда введенные выше три метода дают следующую длину доверительных интервалов (в едини- единицах se). S-метод: 2(^~) К'-*)(МЛ п-Г)]1'2= 11,50; Г-метод: 2qa (/, п—1) = 8,32; метод уменьшения уровня критерия Стьюдента в k раз: i/2 (Л —/)=Ю,67. Таким образом, наименее экономным оказался S-метод, но это и естественно, так как в нем интервал рассчитан на произ- произвольное сравнение. 1Пусть случайные величины Tjlf ..., \\It %2 (k) независимы между собой и щ 6 N @, 1), тогда случайная величина q^ = (max щ — —min Tji)/"l/xa (^) называется стьюдентизированным размахом, с чис- числом степеней свободы /, k. 380
13.3. Полный двухфакторный дисперсионный анализ 13.3.1. Взаимодействия. Рассмотрим полный двухфакторный эксперимент с факторами А и 5, имеющими соответственно / и J градаций (уровней). Обозначим 017- среднее значение ре- результата эксперимента при сочетании t-ro уровня фактора А с /-м уровнем фактора В (среднее значение в (t, /)-ячейке прямоугольной таблицы, в которой строкам соответствуют градации фактора Л, а столбцам — градации фактора В). Пусть {vt}, {wt} (Zvt = I>Wj = 1, vt ^ 0, wj >0) системы весов, выбранные в соответствии с градациями факторов А и В. Например, если фактор А — тип почвы, а В — сорт, ре- результат эксперимента — урожай, то vt может быть пропор- пропорционально площадям с i-м типом почвы, a Wj — площадям, занятым /-м сортом. Средним значением /-го уровня (фактора) А называют at — ijwjQij. В рассмотренном выше примере at — ожидаемая средняя урожайность на t'-м типе почвы при условии, что выбор сорта при посеве не зависит от типа почвы и пропорционален {wj}. Эти условия выполняются, в частности, когда либо тип почвы оказывает приблизительно одинаковое влияние на урожай- урожайность всех сортов, либо низка общая культура земледелия, и землепользователю просто неизвестны или он лишен возмож- возможности использовать оптимальные сочетания сорта и типа поч- почвы. Аналогично определяется среднее /-го уровня (фактора) В bj = J&iQij. В примере bj — это ожидаемая средняя уро- урожайность /-го сорта при случайном распределении его по по- полям, пропорциональном {vt}. Генеральным средним называют е0- 2 wj bj^ 2 vt at = 2 2 щ «v % Главный эффект /-го уровня А определяется как а^ = = ut — 80. Очевидно, {аг} удовлетворяют условию 2^-^ = 0. A3.12) Аналогично главный эффект /-го уровня В определяется как ру- = bj — 80, и {$;} удовлетворяют условию S»jPi=о. ' A3.13) 381
Взаимодействием /-го уровня А с /-м уровнем В называют Yi/=6iy—а*—&, + ео = (в„ — ев)—а, —р,. Взаимодействия удовлетворяют условиям: S^Tii—0 Для всех /=!...•»«/; A3.14) 2^/7о::=0 Для всех t=l,...,/. Итак, математическая модель для средних имеет вид в^ = в0 + оь4 + ру + v«/, A3.15) где аь Ру, уи удовлетворяют уравнениям A3.12)—A3.14). Очень важным для практического использования ДА яв- является следующее утверждение [148, §4.11: Если при некоторой системе весов {vt}t {wj} все взаимодействия равны нулю, то они равны нулю при любой другой системе весов. В этом случае модель называют аддитивной. В аддитивной модели каждое сравнение средних {at} или {bj} и главных эффек- эффектов {at} или {Р;} имеет значениеу не зависящее от системы ве- весов {Vi} U {Wj}. Содержательная интерпретация результатов ДА проста и наглядна, когда мы решаем (tfa основании статистических или других соображений), что взаимодействия отсутствуют. В этом случае заключением о главных эффектах можно завершить весь анализ. Однако если гипотеза об отсутствии взаимодей- взаимодействий была принята на основании только того, что она не была отвергнута некоторым /^-критерием, то следует посмотреть мощность этого критерия и оценить, насколько статистически невыявленные взаимодействия могут повлиять на интерпре- интерпретацию результатов. Часто величины взаимодействий могут быть уменьшены с помощью подходящего преобразования наблюдаемых слу- случайных величин [14, п. 10.3.4]. Пример использования преоб- преобразования с целью сделать модель аддитивной можно найти в [170]. Среди статистиков нет единого мнения о целесообразности изучения главных эффектов в условиях статистически значи- значимых взаимодействий. Нам кажется, что этот вопрос носит, скорее, содержательный, чем формально-математический ха- характер. Если введенные средние имеют смысл, то изучение их свойств целесообразно. Наконец, взаимодействия могут быть 382
значимы статистически, но относительно малы по сравнению с главными эффектами. Всюду в дальнейшем, если не оговорено противное, будет выбираться система весов: vt = 1//, wj = l/J. Такие веса иногда называют равными. 13.3.2. Двухфакторный анализ с равным числом /(наблюде- /(наблюдений в ячейках (/С>1). Обозначим у^к fe-e наблюдение в (/, /)-ячейке, тогда математическая модель имеет вид н, 1= Г7;/= 177,*= пс, A3.16) где eijh независимы и имеют нормальное распределение со средним, равным нулю, и дисперсией а2, а константы аь Ру, ytj удовлетворяют соотношениям A3.12)—A3.14) с равными весами. Обычно проверяются следующие гипотезы: На: все ^=0; Нв: все Р,= 0; НАв: все Yu-~"°- Оценки для параметров строятся аналогично тому, как это делается в § 13.2.1: Уи = Уи* — У1**—У*& + У***- Возьмем тождество Уш—У*** = (Уш — Уи*) + (Уи* — Ут—У*1*+У***) возведем в квадрат его правую и левую части и просуммируем по всем значениям индексов t, /, k. Так как все смешанные произведения при суммировании равны нулю, получаем СКп-СК. + СКлв + СКл + СКя. A3.17) Поскольку сумма рангов слагаемых правой части A3.17) совпадает с рангом квадратичной формы левой части, согласно теореме Кохрана получаем, что суммы квадратов правой час- части независимы и соответственно распределены как а2 • %2 с числом степеней свободы, совпадающим с рангом соответству- соответствующей формы. Таким образом, критерии для проверки гипотез НА% Н в, Пав могут быть построены как соответствующие /^-отношения sXIsl, s%ls2e, s\Blsl9 дгде s%> s|, s2AB, s2e определе- определены в таблице ДА для двухфакторного анализа с К > 1 наб- наблюдениями в ячейке (табл. 13.2). 383
сз я ч со н и CCL СГ Ъ ъ ъ ЭЭЬ о о 5Р (СК) *J> ''i. л! W- Й- и и и и Р 384 •е- со S со 9 S ? 3 ? I « Ч о> Ч й> fo S U-9- U-9- CQ 5 3 о g ^ о X
Доверительные интервалы для сравнений {а*} / {} могут быть построены с помощью S-метода аналогично тому, как это сделано в случае однофакторного анализа. Г-метод может быть также применен к разностям главных эффектов. Однако к взаимодействиям он уже не применим. 13.3.3. Случай неравных Ktj. В общем случае не существует простого разложения, подобного A3.17). Поэтому остаются две возможности: либо воспользоваться точным, но громоздким методом анализа, изложенным, например, в монографии [148], либо применить приближенный метод. Последний заключает- заключается в следующем. Приближенно считают, что У и* ~ 0о + а? + ру + уи + вф где еи независимы и нормально распределены с нулевым сред- средним и дисперсией о21К\ К •= 22^/У А а {а,}, {Р7}, {уи} удовлетворяют соотношениям A3.12)—A3.14) с и,- = 1//, Wj = \IJ. Оценка а2 в этом случае строится с помощью СК<,=•- — 222(#*м ~Уа*J- Далее анализ проводится так же, как i i k _ в п. 13.3.2 с /С=/С. В частном случае, когда для всех (г\ /) Кц = Kj.К.//С.., где/С«. - 2^C * 2^ /С 2Л 2f б ре у, = KiJK.. и о/; =/С.//С.. разложение типа A3.17) имеет место, и ДА проводится с очевидными изменениями в табл. 13.2. 13.3.4. Случай Кц = 1. Как правило, подобные данные воз- возникают при использовании планов с рандомизированными блоками, когда можно априори ожидать, что или взаимодейст- взаимодействие между изучаемым фактором А (способом обработки) и фактором В (блоком) мало в среднем, или что существует ма- малопараметрическая параметризация взаимодействий. Ниже указываются основные модели. Аддитивная модель без взаимодействий 9 t=l,...f/; /-1,...,Л A3.18) где 2а* = О, 2Р./ = 0f a ги независимы, нормально распре- распределены N @, а2). При рандомизированных блоках г у отражает суммарное влияние двух источников случайных отклонений: отклонения, связанного со случайностью расположения фак- фактора А в блоке, и отклонения, равного случайной погрешности воспроизведения эксперимента при заданном расположении А в блоке. Поскольку в аддитивной модели предполагается, что взаимодействия отсутствуют, проверка гипотез На - оь* = О (i = 1, ..., /) и Нв : Р/ = 0 (/ = I, ..., J) проводится так же, 13 Зак. 244 385,
как в п. 13.3.2, только роль суммы квадратов ошибок играет сумма квадратов взаимодействий. Табл. 13.3 — это таблица ДА для аддитивной модели двухфакторного анализа с одним наблюдением в ячейке. Таблица 13.3 Источник из- изменчивости Главные эффекты (способы обработки) Главные эффекты (блоки) Ошибки «Полная» сумма квадратов Сумма квадратов <СК) ск «/Efr*.-*..I / * / * 1 Число степеней свободы (чсе) / — 1 /—1 (/-Ох п" IS si ^ е(ск) 02+/ X Х(/ 1) Х2а/ 02+/Х а2 — Модель с однопараметрическим описанием взаимодействий носит стандартный вид A3.16), только дополнительно предпо- предполагается, что yu = Y*tfa- A3.19) Гипотеза об отсутствии взаимодействий в этом случае эк- эквивалентна гипотезе Яг : у = 0. Для ее проверки можно ис- использовать критерий (ОСК —СКг)/[(/— 1) (/— 1) — где A3.20) A3.21) 386
Критерий F в A3.20) при 7 = 0 имеет /^-распределение с 1, (// — / — J) степенями свободы. Гипотезы На и Нв про- проверяются так же, как в п. 13.3.2, только сумма квадратов оши- ошибок определяется как СКе = ОСК — СКг и имеет на одну сте- степень свободы меньше, чем в табл. 13.3. Более реалистической является модель с I + J — 1 па- параметрическим описанием взаимодействий [217]. Она похожа на предыдущую, только в ней предполагается, что взаимодей- взаимодействия пропорциональны произведению не главных факторов, а некоторых констант, оцениваемых по выборке, Yu-Vi^. где Пусть Г =- llYivll — (/ x- «/)-матрица cyo-, определенными, как в A3.21), тогда at и р;- определяются, как выше, а К2 ~ 1Ъ где 1г— наибольшее собственное число матрицы Г'Г; F = = {/,-}'—нормализованный собственный вектор Г Г', соот- *^х ***** ветствующий собственному числу lx\ G = {gj}'— аналогич- аналогичный вектор Г'Г. Для проверки гипотезы Но : X = 0 исполь- используется отношение типа A3.20) с естественной заменой СКг на 1Х. Однако распределение отношения сложнее и не сводится к /^-распределению. 13.4. Модели дисперсионного анализа со случайными факторами 13.4.1. Место моделей со случайными факторами. В ряде экс- экспериментов, проводимых по схеме дисперсионного анализа, значения, которые принимает некоторый фактор, нельзя оха- охарактеризовать ничем, кроме того, что они «наудачу» извлече- извлечены из некоторой генеральной совокупности. В этом случае вряд ли целесообразно связывать с индивидуальными значе- значениями фактора числовые характеристики их вклада в общий итог (у), а лучше оценить вклад фактора в целом в общую из- изменчивость у. В этом случае, как указано в§ 13.1, и возникают модели со случайными факторами. При этом, если окажется, что вклад фактора в общую изменчивость достаточно велик, то целесообразно из профессиональных содержательных сооб- соображений найти характеристики значений фактора, предполо- предположительно связанные с г/, и изучить с помощью традиционного анализа их влияние на итог. Так, если нас интересует влияние личности рабочего на его производительность труда, то здесь 13* 387
целесообразна случайная выборка среди всех рабочих, заня^ тых однотипным трудом, и использование модели со случай- случайным фактором — влиянием личности рабочего. Если же нас интересует различие в производительности труда рабочих с различным уровнем образования, то целесообразно разбить рабочих на группы по уровню образования и взять для срав- сравнения по нескольку человек из каждой группы. Здесь больше подходит смешанная модель вида + е„Л, A3.22) где t)ijk — производительность в й-й день /-го рабочего с /-м уровнем образования; 0О — среднее значение производитель- производительности труда; 0г- — постоянная, отражающая влияние /-го уровня образования B0г- = 0); ?г-7- — случайный фактор, характеризующий отклонение от общего среднего производи- производительности труда /-го рабочего из группы с уровнем образова- образования i\ eiJk — случайное колебание в производительности труда в й-й день эксперимента этого рабочего. Другой пример. При изучении воспроизводимости хими- химических анализов часто говорят о средней межлабораторной ошибке [95]. В этом термине различные лаборатории рассмат- рассматриваются как случайные, наудачу выбранные из совокупности лабораторий какой-либо отрасли. Для оценки этой ошибки подходит модель со случайным фактором — названием лабо- лаборатории. Если же лаборатории можно классифицировать по какому-нибудь доступному и существенному для точности анализов признаку, например по уровню оснащения совре- современным оборудованием, то межлабораторную ошибку целе- целесообразно определять отдельно внутри однородных по этому признаку классов. В частности, можно использовать модель вида A3.22), в которой первый фактор (*') соответствует уров- уровню оснащения лаборатории современным оборудованием, а второй фактор (/) отражает условный номер лаборатории сре- среди однотипных по оборудованию лабораторий. В модели A3.22) мы встретились с так называемым иерар- иерархическим или группированным, или, как еще говорят, гнездо- гнездовым планом, в котором каждому уровню первого фактора (i) соответствует свое подмножество значений второго фактора (У)- 13.4.2. Однофакторный анализ. Простейшая математическая модель имеет вид Уи=*в + Ь + *и> *=1,...,/; /=1,...,Л A3.23) где 0 — постоянная; ^ — случайная составляющая, отра- отражающая влияние 1-го выборочного значения фактора ?; ei7- — 388
случайная ошибка; / + J • / случайные величины {?*} и {еи} независимы в совокупности и ? 6 N @, of), е 6 N (О, а|). Поскольку а? = а; + а|, величины а? и а? называют компо- компонентами дисперсии (наблюдения). Модель A3.23) существенно отличается от близкой модели с постоянными факторами A3.2). В ней: 1) все наблюдения имеют одинаковые математические ожидания и 2) наблюде- наблюдения не являются статистически независимыми. В частности, положительно коррелированы наблюдения уи и у1Г (/ Ф /')» соответствующие одному и тому же значению (*') изучаемого фактора. Соответствующий коэффициент корреляции, равный р = а?/ (а| + а|), называют коэффициентом внутриклассо- внутриклассовой корреляции. Основная проверяемая гипотеза Н: al<Xoa|, A3.24) где Хо ^ О — заданная константа. Определим sh и sf так, как указано в табл. 13.1, и построим .Р-отношение A3.5'). Статис- Статистический критерий для проверки гипотезы A3.24) F ^ <I Fa (I — 1, (У — 1)/) имеет мощность, выражающуюся только через центральное /^распределение [148], X Jib.). (.3.25, Точечные оценки для компонент дисперсии o! = s* nlfl = J-l{sh—sl). A3.26) Одна из трудностей дисперсионного анализа со случайны- случайными факторами состоит в том, что для негауссовских распреде- распределений среднее арифметическое и среднеквадратическое откло- отклонения уже не являются устойчивыми оценками параметров положения и масштаба [14, п. 10.4.4]. Для того чтобы обойти эту трудность, в однофакторном случае может быть рекомен- рекомендована следующая приближенная процедура: 1) для каждой (по i) серии наблюдений ytj (j = 1, ..., J) вычислить устойчивые оценки положения и масштаба. Обо- Обозначить их у^ и sc 2) заменить исходные серии наблюдений ytj на ?=1,2,..., У); (здесь uq — ^-квантиль стандартного N @, 1^распределения). 389
3) провести с наблюдениями zik обычный дисперсионный анализ по описанным выше формулам. 13.4.3. Иерархический план на двух уровнях. В качестве при- примера рассмотрим сначала описанную, в п. 13.4.1 задачу по оп- ределейию точности проведения химического анализа в лабо- лабораториях какой-либо отрасли промышленности. Предположим, что все лаборатории отрасли могут быть разбиты на группы, примыкающие к городам, в которых есть метрологические центры по данному виду анализа. Эксперимент состоит в том, что сначала наудачу выбирается несколько метрологических центров (городов), а затем для каждого из выбранных центров также наудачу отбирается несколько из примыкающих к не- нему лабораторий, и в каждой из лабораторий проводится не- несколько повторных определений одного и того же образца. Простейшая математическая модель для рассматриваемого иерархического плана с двумя случайными факторами имеет вид k=l,...,K, A3.27) где tjijh — результат k-ro анализа в у-й лаборатории, примы- примыкающей к /-му городу; Э — истинная (обычно неизвестная) определяемая концентрация; ?г- — эффект г-го метрологичес- метрологического центра; ц^ — эффект у-й лаборатории /-го центра и eijk — случайная ошибка fe-го повторения анализа в у-й лаборатории г-го центра; величины {?$}, {ть7}, {&ии} взаимно независимы и нормально распределены с нулевыми средними и диспер- дисперсиями а?, а^ и Ge соответственно. Разложение общей суммы квадратов на части, соответству- соответствующие рассматриваемой модели, показано в таблице ДА для иерархического плана с двумя случайными факторами (табл. 13.4). /^критерии для гипотез Н^ : а\ = О, НЦ : Оц = 0 строят- строятся с помощью соответствующих отношений средних квадратов. Например, для проверки Я; используется отношение s|/s^, ко- которое в случае, когда гипотеза Hi верна, имеет F(I~ 1, / («/— 1)) распределение. В рассматриваемом случае имеет смысл и оцен- оценка суммы G2y = g\ + Оц + Ое, которая является характерис- характеристикой воспроизводимости анализа в случайно выбранной лабо- лаборатории. В заключение рассмотрим иерархическую смешанную мо- модель A3.22). В дополнение к сделанным выше (п. 13.4.1) пред- предположениям допустим, что {?,(} и {&ij} взаимно независимы, 390
Таблица 13.4 п/п 1 2 3 Источник из- изменчивости Между гра- градациями первого фак- фактора (?) Между гра- Л Я TI И ЯМ И ДаЦИЛМИ второго фак- фактора (ц) по первому фактору (?) Ошибка Сумма квадратов (СК) wy _ ^J I** »/*** 7 222 (yijk—y***J i / Ar Число степеней свободы (чес) / — 1 /(/-1) U(K-\) 1 «j U 1 з* I! lo s? «n Se e(ck) ?,- 6 Л^ @, gD и ео- 6 А/ @, а|). В этом случае таблица диспер- дисперсионного анализа для модели A3.22) получается из табл. 13.4 путем замены в первой строке sf на s| и g\ + Kg\ + /С«/ст| на 2 \ ^У2в? 13.5. Ковариационный анализ (КЛ) и проблема статистического исследования смесей многомерных распределений 13.5.1. Определение и модель ковариационного анализа. Сле- Следуя [6], определим ковариационный анализ (КА) как совокуп- совокупность методов и результатов, относящихся к математико-ста- тистическому анализу моделей, предназначенных для иссле- исследования зависимости среднего значения некоторого количест- количественного результирующего показателя у от набора неколичест- неколичественных факторов Хд и одновременно от набора количествен- количественных (регрессионных или сопутствующих) переменных X. Ре- Результирующий признак у может быть векторным (тогда говорят о многомерном ковариационном анализе). Неколичественные факторы Хд задают сочетания условий (качественной природы), в которых производилась фиксация каждого из наблюдений (экспериментальных значений) у и X, и описываются обычно с помощью так называемых индика- индикаторных переменных. Среди индикаторных и сопутствующих 391
переменных могут быть как случайные, так и не случайные (контролируемые в эксперименте). Основные теоретические и прикладные разработки по КА относятся к линейным моделям. В частности, если анализи- анализируется схема из п наблюдений со скалярным результирующим признаком у, с k возможными типами условий эксперимента и с р сопутствующими переменными хA>, л;B>, ...,л:(р>, то ли- линейная модель соответствующего КА задается уравнениями: A3.28) где индикаторные переменные x^i = 1, если /-е условие экс- эксперимента имело место при i-ы наблюдении, и равны нулю — в противном случае; коэффициенты 0Д7- определяют эффект влияния /-го условия; x\s) — значение сопутствующей перемен- переменной х{5\ при котором наблюдался результирующий признак ух (i = 1, 2, ..., п\ s= 1,2, ..., р)\ 0, (Хд<) — значения соот- соответствующих коэффициентов регрессии у по x^s\ вообще го- говоря, зависящие от конкретного сочетания условий экспери- эксперимента, т. е. от вектора ХД|=(*д/\ ..., х{$)\ а е^Хд^) —вели- —величина остаточных случайных компонент («ошибок измерения»), имеющих нулевые средние значения. Основное содержание КА — в построении статистических оценок для неизвестных параметров 0д1, ..., 0М; 0Ь ..., 0Р и статистических критери- критериев, предназначенных для проверки различных гипотез отно- относительно значений этих параметров. Если в A3.28) постулировать априори 6Ь = ... = 0ps== == 0, то получится модель дисперсионного анализа; если же из A3.28) исключить влияние неколичественных факторов (т. е. положить 0д1 = ... = QRh = 0), то получится линейная мо- модель регрессионного анализа. Своим названием КА обязан тому обстоятельству, что в его вычислениях используются раз- разбиения ковариаций переменных у и X точно так же, как в дис- дисперсионном анализе используются разбиения остаточной сум- суммы квадратов. Считается, что термин «КА» введен Р. А. Фишером в связи с рассмотрением одной частной схемы этой модели в § 49 144-го издания книги «Статистические методы для исследователей» (пер. с англ.—М.: Статистика, 1958). Весьма полные сведения по современным методам КА мож- можно найти в [29, 66, 119, 148]. 392
13.5.2. Оценивание неизвестных значений параметров и про- проверка гипотез в модели КА. Запишем линейную модель КА A3.28) в матричном виде: или1 A3.28') где Y — (п X 1)-вектор-столбец наблюдений результирующе- результирующего показателя; Хд — (п X й)-матрица плана эксперимента по неколичественным факторам Хд; 0Д — (k x ^-вектор-стол- ^-вектор-столбец неизвестных параметров, соответствующих неколичест- неколичественным факторам (общее среднее, главные эффекты, взаимо- взаимодействия и т. п.); X — (п X р)-матрица плана регрессионных (количественных) объясняющих переменных; в — (р X 1)- вектор-столбец параметров (неизвестных коэффициентов рег- регрессии); е — (п X 1)-вектор-столбец случайных остатков мо- модели, подчиняющийся нормальному распределению N @, а2 X X 1П), где остаточная дисперсия а2 неизвестна (подлежит оце- оцениванию). Предполагается, что тип условий эксперимента Хд («способ обработки» —в исходной терминологии ДА) не влияет на матрицу плана регрессионных экспериментов X, т. е. столбцы матрицы X линейно не зависят от столбцов матрицы Хд (существенное предположение). К несущественным пред- предположениям относятся допущения о том, что матрицы Хд и X имеют полный ранг (соответственно k и р) и что не имеется ог- ограничений на параметры 6Д (о простых модификациях опи- описываемых процедур в случае отказа от этих допущений см., например, [119, п. 3.8.3]). Для нахождения оценок 9Д и 6 неизвестных параметров 0Д и 6 можно было бы формально рассмотреть A3.28') как одну большую модель регрессии и применить к ней обычный 1Запись (А, В), где А и В — матрицы с одинаковым количеством строк, означает матрицу, полученную присоединением столбцов матри- матрицы В к столбцам матрицы А. Аналогично I I — это матрица, получен- полученная присоединением к строкам матрицы С строк матрицы D (где С и D — матрицы с одинаковым количеством столбцов). Существенное отличие моделей A3.28)—A3.28') от внешне похожих на них моделей регресси- регрессионного и классического ковариационного анализа — в зависимости ко- коэффициентов в от неколичественных переменных Хд. В этом случае анализ моделей A3.28) осуществляется с помощью специальных мето дов расщепления смесей. 393
метод наименьших квадратов (см. §7.1, гл. 11, а также [14, п. 8.6.3]). Однако можно добиться существенного упрощения анализа за счет использования специального строения матри- матрицы (Хд, X) и наших знаний специфики модели ДА. С этой целью используется так называемый двухшаговый метод наи- наименьших квадратов (подробнее о нем см. гл. 14). Этот метод (применительно к модели КА) состоит из следующих этапов: 1. В модели A3.28') полагаем 0 э 0 и находим по описан- ным в § 13.2—13.4 правилам оценки вд@) и остаточную сумму квадратов (при условии 0 == 0): ОСК@)'= Y'QY, A3.29) где Q = 1Й - Хд (ХдХ^Хд. 2. Заменяем в A3.29) Y на Y — X • 0 и находим такое 0, которое минимизирует полученное выражение. Итак, ОСК @) = (Y — xey Q (Y — Хв); <МОСК(в)} =2X'QX-0-2X дв откуда ^.X'QY. A3.30) 3. Подсчитывается остаточная сумма квадратов для общей модели A3.28') ковариационного анализа, равная [119, п. 3.7.11: = ттОСК(в)=(У —Х.в)'О(У в —0'X'QF. A3.31) 4. Для получения оценок 0Д заменяем в выражении для 0Д @) вектор У вектором У — X • 0. Проверка гипотез относительно параметров 0д^ проводится так же, как в моделях ДА, только со значением ОСК, подсчи- подсчитанным по формуле A3.31) и с числом степеней свободы /г, равным числу степеней свободы ОСК модели ДА минус ранг матрицы X. Проверка гипотезы Не '• 0 = 0 проводится с по- помощью статистики I \ранг(Х) 394 0' X' QY) I— -ОСК,
которая в предположении справедливости гипотезы #в име- имеет F (/, /^-распределение (/-ранг (X)). 13.5.3. Связь с проблемой статистического исследования сме- смесей многомерных распределений. Посмотрим на модель рег- регрессии результирующего показателя г\ по объясняющим пере- переменным хA), хB>, ..., х<р) как на одну из характеристик их закона распределения, например, функции плотности />(*/; *<'>,..., *<*»; 6(ХД), У(ХД)), A3.32) зависящей от параметров регрессии в и ковариационной матрицы «остатков» V, которые в свою очередь зависят от типа условий эксперимента Хд1. Тогда, анализируя данные вида зафиксированные при различных типах условий эксперимента Хдь в действительности имеем дело с выборкой из смеси рас- распределений вида A3.32), поскольку при варьировании типа условий Хд$ меняются и значения параметров 6 и V, от ко- которых зависит анализируемый закон распределения, а сле- следовательно, меняется и вид искомой регрессионной зависи- зависимости /(X) = Е(т||Х). Игнорирование этого обстоятельства является причиной многих недоразумений и неудач в прикладных исследованиях, опирающихся на аппарат регрессионного анализа. Для объяс- объяснения этого обстоятельства представим себе, что при исследо- исследовании линейной парной регрессионной зависимости исходные данные \(хи #0Ь=ТГИ фиксировались при переключающемся (в неизвестные для исследователя моменты времени) режиме типа условий эксперимента: либо в режиме 1, в котором (при весьма высокой корреляции) регрессия имела монотонно воз- возрастающий характер, либо в режиме 2, в котором (при столь же высокой корреляции) регрессия имела монотонно убываю- убывающий характер (см. рис. 13.1). Очевидно, попытки выявить связь между у и х по такой смешанной выборке не увенчаются успехом: вычисления покажут, что связи нет. В то же время, если предварительно (или одновременно с решением задач рег- регрессии) разбить имеющиеся данные на однородные (по усло- условиям эксперимента) подвыборки и строить функции регрес- 1Если объясняющие переменные случайны, то речь идет о (р^ мерной плотности, зависящей от параметров 0 и V. Если *<*), ..., неслучайны, то они интерпретируются как варьируемые (но известные) значения параметров, от которых зависит одномерная плотность р (у; Х- в, V). 395
сии отдельно для каждой такой подвыборки, то удастся уста- установить тесную статистическую зависимость между исследуе- исследуемыми переменными. Ковариационный анализ предоставляет исследователю один из возможных подходов к реализации описанной схемы. Дру- Другие подходы опираются на статистический анализ смесей мно- О Рис. 13.1. Прямые 1, 2 и 3 — графики аппрокси- аппроксимирующих функций регрессии, построенных соот- соответственно по наблюдениям подвыборок: 1 (точ- (точки), 2 (крестики) и по объединенной выборке, состоящей из тех и других наблюдений гомерных распределений: оценку параметров смеси распреде- распределений [11], модели типологической регрессии [4, 11, 821. Под- Подробное описание этих методов предполагается дать в следую- следующем томе данного издания. 13.6. Влияние нарушений основных предположений Мы уже видели ранее, что отклонения от предположения нор- нормальности распределения могут существенно сказываться на эффективности оценок среднего и дисперсии [14, п. 8.6.1 и 10.4.4]. Проиллюстрируем еще раз этот факт на примере влия- влияния эксцесса на величину доверительного интервала для s2, 396
построенного по выборке большого объема. Согласно [14, п. 8.6.51 в нормальном случае доверительный интервал стро- строится по величине (п — I)s2/a2, имеющей распределение 2 (п — 1). Для s2/o2 в случае нормального распределения X E(s2/a2) = 1: D (sVa2) = 2/(n — 1). A3.33) A3.34) При отличном от нуля эксцессе р2 [14, п. 5.6.6] при любом п ситуация сильно меняется, так как, хотя A3.33) и остается тем же, вместо A3.34) имеем: D (s2/a2) = 2/{м — A3.35) При больших п отношение A3.34) к A3.35) приближается к 1 + Р2/2, и поскольку s2 имеет приблизительно нормальное распределение, легко может быть подсчитан доверительный интервал для а2. В табл. 13.1 для разных значений р2 показана вероятность Р того, что истинное значение а2 не попадает в 95%-ный доверительный интервал, построенный согласно нормальной теории при больших значениях п. Эксцесс Р 9- -1.6 10-5 -' 6-Ю — 0,5 0,024 0 0 ,05 0 0, .5 08 Га 0, 6л 11 и 0 ца 2 ,17 13.5 4 0,26 [148] 7 0,36 Как видно по таблице, для реально встречающихся на практике распределений (см. [14, п. 6.1.11]) истинная ошибка первого рода может быть очень большой, в несколько раз пре- превышая нормальную ошибку в 5%. Будем называть выводы, относящиеся только к постоян- постоянным факторам ДА, выводами о средних, а выводы, относящие- относящиеся к случайным эффектам, — выводами о дисперсиях. При- Примером первых являются критерии для проверки гипотез о главных эффектах и взаимодействиях в моделях с постоянными факторами и соответствующие доверительные интервалы. При- Примером выводов о дисперсиях являются критерии равенства дисперсий в моделях со случайными факторами и доверитель- доверительные интервалы для компонент дисперсии. Нарушение предпо-
ложений нормальности оказывает слабое влияние на выво- выводы о средних и очень опасно при выводах о дисперсиях. Пер- Первым на это обратил внимание Е. Пирсон [148, 234J. Другая опасность, подстерегающая исследователя при ис- использовании ДА, — это не отраженная в модели коррелиро- ванность между наблюдениями. Рассмотрим простейшую мо- модель корреляции между последовательными наблюдениями. Предполагается, что cor (xiy xi+1) = р для i = 1, ..., п — 1, а все остальные коэффициенты корреляции равны нулю. Воз- Возможны все р, такие, что |р| ^ 0,5. Некоторым обоснованием этого предположения является наблюдение Стьюдента [148, § 10.1], вычислившего коэффициенты корреляции между по- последовательными анализами пяти различных химических свойств с выборками из одной и той же партии хорошо переме- перемешанного материала: 0,27; 0,31; 0,19; 0,09; 0,09. Для иллюстрации влияния отклонений от предположения независимости воспользуемся тем же методическим приемом, что и выше, а именно: построим: при большом п доверительный интервал для среднего \i исходя из предположения независи- независимости наблюдений и подсчитаем Р — вероятность того, что 95%-ный доверительный интервал не накроет истинное зна- значение \х. Результаты показаны в табл. 13.2. Из нее следует один вывод: неучтенная корреляция последовательных наблюдений может серьезно влиять на статистические выводы. Таблица 13.6 [148J р р -0,4 10-5 -0,3 0,002 —0,2 0,011 —0,1 0,028 0 0,050 0,1 0,074 0,2 0,098 0,3 0,12 0,4 0,14 Значительная неучтенная корреляция может возникнуть в моделях со случайными факторами при иерархической клас- классификации (§ 13.4), когда при построении модели и планиро- планировании сбора данных пропускается один из источников варьи- варьирования результатов экспериментов. Влияние неравенства дисперсий наблюдений изучалось многими авторами. Общий вывод [148, §10.4]: в моделях с постоянными факторами его надо учитывать только в случае плохо сбалансированного распределения экспериментальных точек.
выводы 1. Дисперсионным анализом называется метод организации (планирования), статистического анализа и интерпретации результатов экспериментов, в которых изучается зависимость количественной переменной у от сочетания градаций качест- качественных переменных Хд. В ДА используются линейные мо- модели с постоянными и случайными факторами. Дисперсион- Дисперсионный анализ с постоянными факторами можно рассматривать как специальный случай регрессионного анализа. Свое наз- название ДА получил из-за того, что при проверке гипотез о влия- влиянии на у изучаемых факторов используется разложение суммы квадратов 2 (yt — уJ на слагаемые, соответствующие про- i веряемым гипотезам. 2. Простейшая модель ДА с одним постоянным фактором имеет вид уи =0О + fy +ги, / = 1~.., Jt\ i = 1,..., /, где 26*= 0, etj ? N @, о2) и независимы между собой. Основ- ная гипотеза Н: дг~ ... = 9/—0. Для ее проверки исполь- используется критерий F = (I — I) • 2Jj • (Уг*~-У**J/1(п — п - 2 2S* ^сли Н верна, то F имеет F(I— 1, л —/)-распреде- i / ление. Если Н отвергается, то изучают, насколько 0* отли- отличаются друг от друга. Для этого строят одновременные до- доверительные интервалы для сумм 2^* CSC* ==^)» назьшае- i i мых сравнениями. 3. Основными схемами организации ДА с двумя факторами являются: 1) перекрестная классификация, в которой каждая градация одного фактора сочетается в эксперименте с каждой градацией другого с математической моделью вида Eytj — = 9 + at + р, + yih где %<*i = 2P; = IXu = 0; 2) uepap- i j S хическая {гнездовая) классификация с моделью вида Eytj = = 9 + at + pfy, где 2а« = 0, 2р^ = 0. Большинство ис- используемых на практике моделей ДА может быть получена путем различных сочетаний указанных основных схем орга- организаций экспериментов. 4, Схемы ДА с постоянными факторами довольно устойчивы к нарушениям предположений о распределении случайных ошибок (нормальность, равенство дисперсий). Этого нельзя сказать о схемах ДА со случайными факторами. Нарушения 399
(фактически непроверяемых) предположений о характере рас- распределения эффектов случайных факторов (нормальность, не- независимость) могут привести к существенным ошибкам при проверке гипотез и построении доверительных интервалов. 5. Ковариационным анализом (КА) называется совокупность методов организации (планирования), статистического анализа и интерпретации результатов эксперимента или наблюдений, в которых изучается зависимость количественной переменной у от сочетания градаций (типов условий эксперимента) ка- качественных переменных Хд и одновременно от набора количест- количественных объясняющих переменных X, которые в данной схеме называются сопутствующими. 6. Основной метод, используемый при оценивании неизвест- неизвестных параметров модели КА, — это двухшаговый метод наи- наименьших квадратов. 7. Если качественные переменные Хд в схеме КА неконтро- лируемы, то задача сводится к исследованию моделей рег- регрессионного анализа на основании выборки, извлеченной из смеси генеральных совокупностей (количество компонент сме- смеси равно числу типов условий эксперимента, при которых ре- регистрировались выборочные данные). Эта задача предусматри- предусматривает предварительное (или одновременное с процессом постро- построения искомых регрессий) разбиение исходной выборки на однородные (по условиям эксперимента) части и оценку функ- функции регрессии отдельно для каждой такой части.
Раздел iv.системы одновременных УРАВНЕНИЙ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ АППАРАТА СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ ЗАВИСИМОСТЕЙ Глава 14. оценивание параметров СИСТЕМ ОДНОВРЕМЕННЫХ ЭКОНОМЕТРИЧЕСКИХ УРАВНЕНИЙ 14.1. Системы одновременных уравнений 14.1.1. Определение и специфика проблематики систем одно- одновременных уравнений. При изучении функционирования эко- экономических систем исследователь обычно сталкивается со сле- следующей ситуацией. Состояние системы в каждый момент времени / описывает- описывается набором переменных Z*t, ..., Z^m, среди которых есть как эндогенные (внутрисистемные), так и экзогенные (внешние по отношению к рассматриваемой системе). Между переменными существуют функциональные и статистические связи. К перво- первому типу относятся тождества, вытекающие из определений и содержательного смысла переменных. Ко второму типу от- относятся поведенческие связи, являющиеся выражениями эко- экономических законов, действующих в системе. Поскольку по- поведение экономических систем носит статистический характер (присутствуют случайные возмущения, погрешности, неуч- неучтенные факторы), то для описания поведенческих связей ис- используются регрессионные уравнения. В теории экономико- статистического моделирования систему взаимосвязанных рег- регрессионных уравнений и тождеств, в которой одни и те же пе- переменные в различных регрессионных уравнениях могут одно- одновременно выступать и в роли результирующих показателей, и в роли объясняющих переменных, принято называть систе- системой одновременных (эконометрических) уравнений. При этом в соотношения могут входить переменные, относящиеся не только к периоду /, но и к предшествующим периодам, назы- называемые лаговыми («запаздывающими») переменными. Для экономистов большой интерес представляет количест- количественный анализ модели, т. е. нахождение оценок параметров на основании имеющейся в распоряжении исследователя ин- информации о значениях переменных. Первая из возникающих здесь проблем: можно ли в предложенной модели однозначно 401
восстановить значение некоторого параметра или же его оп- определение принципиально невозможно на основе рассматри- рассматриваемой модели? Это так называемая проблема идентифицируе- идентифицируемости1 — первоочередная на этапе формирования модели, поскольку прежде, чем переходить к процедурам оценивания, необходимо быть уверенным, что их применение имеет смысл. Проблема оценивания здесь также имеет свои особенности. Основная трудность состоит в том, что в эконометрических моделях переменная, играющая роль независимой (объясня- (объясняющей) переменной в одном соотношении, может быть зависи- зависимой в другом. Это приводит к тому, что в регрессионных урав- уравнениях системы объясняющие переменные и случайные воз- возмущения оказываются, вообще говоря, коррелированными. Наконец, в современной практике встречаются модели, име- имеющие десятки и даже сотни уравнений (в том числе и нели- нелинейных), в связи с чем возникают и вычислительные трудности. Указанные обстоятельства обусловили необходимость по- построения специальной теории, изучающей статистический ас- аспект экономико-математических моделей. К настоящему вре- времени довольно хорошо разработан ее раздел, относящийся к моделям, описываемым системами линейных уравнений. Име- Имеется ряд итоговых монографий (содержащих обширную биб- библиографию), среди которых отметим [46, 80, 106, 143]. Гл. 13 и 14 [46], посвященные проблемам идентифицируемости и оце- оценивания для систем одновременных уравнений, могут быть ре- рекомендованы для первоначального ознакомления с предметом. Современные исследования в указанной области состав- составляют содержание журналов «Econometrica» и «Journal of Econometrics». 14.1.2. Два традиционных примера. Прежде чем перейти к фор- формулировке общей линейной модели, рассмотрим в качестве иллюстраций два классических примера. Пример 14.1. Рассмотрим модель спроса и предложе- предложения («крест Маршалла»). Спрос Q на некоторый продукт и его предложение Q' зависят от цены р продукта. Рыночный меха- механизм формирует цену таким образом, что спрос и предложение уравниваются. Наблюдению доступна равновесная цена и спрос (совпадающий с предложением). Возникающая здесь линейная модель выглядит следующим образом: *В литературе распространен также термин «проблема идентифи- идентификации», который представляется менее удачным, поскольку зачастую «идентификация» используется как синоним термина «оценивание». 402
(«спрос пропорционален цене»), аг < 0; Qt^a2pt + $2 + u; («предложение пропорционально цене»), а2 > 0; Величины utJ и\, t = 1, ..., n, — случайные возмущения, имеющие нулевые средние. Оказывается, без дополнительных предположений (например, на структуру случайных возму- возмущений) интересующие экономистов параметры at и Рг одно- однозначно в этой модели определить нельзя, т. е. они неиденти- фицируемы. Точные определения и утверждения даны в сле- следующем параграфе. Пример 14.2. Содержательный смысл модели спроса состоит в утверждении, что потребительские расходы, т. е. спрос, пропорциональны доходу. В свою очередь доход есть сумма потребительских и непотребительских расходов. Математическая формулировка модели такова: ct= a+ Pj/, + щ\ A4.1) yt = ct + zt4 A4.2) где с — потребительские расходы; у — доход; г — непотреби- непотребительские расходы; и — случайное возмущение (учитывающее неполноту информации, незамкнутость системы и т. п.). Пред- Предполагается, что уровень непотребительских расходов задан извне, т. е. переменная г экзогенна и определяется независимо от с и у. Случайные величины ии t = 1, ..., пу некоррелирова- ны, имеют нулевые средние и одинаковые дисперсии а2. Тре- Требуется оценить параметры модели а, р, а2. В A4.1) переменная у коррелирует со случайным возму- возмущением. В самом деле, = а 1 , щ г~ 1-Р ' 1-Р l 1-P Поэтому ЕМ0*Е^)Ен?^О, 1— р и посылки метода наименьших квадратов для уравнения A4.1) не выполняются. Это приводит к тому, что обычные мнк- оценки параметров A4.1) оказываются смещенными и несос- несостоятельными. Например, мнк-оценка параметра Р имеет вид ot_, Pmzz + 0 + Р) fl*zM -1- ти и A4 3) + 2rn + 403
где п п п mzz == 2j z^ » mzu ~ 2j Zt Uu Шии ~' 2j ut • Предполагая, как обычно, что P-lim mzu = О1 (это со- соотношение всегда справедливо в силу закона больших, чисел, если zt — детерминированные), P-lim mzz = mzzt где mZ2 — некоторая константа, имеем P-lim?- В + A—6)- и, значит, P-lim F> P, если р<1, и Р-Нт^р<р, если Р > 1. Таким образом, при р Ф 1 оценка A4.3) несостоятельна. 14.1.3. Общая линейная модель. В данной главе мы будем изу- изучать линейную модель вида Pii У и + Pz2 y2t + — + Р/о Уа + Уп хи + '.. + ViK *Kt = uit\ A4.4) /= 1, ..., п\ i= 1, ..., G. Здесь yit — значения эндогенных переменных в момент /; xit — значения экзогенных переменных в момент / и лаговых эндогенных переменных. Переменные xit в момент времени / называются предопределенными. Совокупность равенств A4.4) называется системой одновре- одновременных уравнений в структурной форме. На коэффициенты A4.4) накладываются априорные ограничения, например, часть коэффициентов считаются равными нулю. Это и обес- обеспечивает возможность статистическиого оценивания оставших- оставшихся. Систему A4.4) удобно переписать в следующем матричном виде: Щ + Txt = ui9 A4.5) где В — матрица порядка G X G, состоящая из коэффициентов при текущих значениях эндогенных переменных; Г — матри- матрица порядка G X /С, состоящая из коэффициентов при предоп- предопределенных переменных; Уг = (Уи>-- . yot)'\ xt={xu,... , xKt)'\ ut = (uu,... , uGt)' — вектор-столбцы. 1P-lim — обозначение для предела по вероятности. 404
Предположим, что матрица В невырождена. Тогда уравне- уравнение A4.5) можно разрешить относительно yt: yt = Hxt+ru. (И.6) где П = —В-ХГ — матрица размерности G X /С;г],= В^ — случайное возмущение. Равенство A4.6) называется приве- приведенной формой системы одновременных уравнений. Введем обозначения: Уг ;х=ц. Ч A4.7) Тогда все уравнения A4.5) для всех периодов наблюдений могут быть записаны в виде одного матричного уравнения YB'+ХГ-и. ' A4.8) Эта компактная форма будет использоваться в дальнейшем. 14.2. Спецификация модели и проблема идентифицируемости 14.2.1. Идентифицируемость приведенной формы. Мы будем рассматривать модель, описываемую системой одновременных уравнений, имеющих структурную форму вида В^ + Г^-а,, *=1,...,л, A4.9) где матрица В порядка G X G невырождена. Для простоты будем считать, вообще говоря, стохастические переменные xt экзогенными. Спецификация модели помимо списка эндогенных и экзо- экзогенных переменных включает в себя априорную информацию: ограничения на коэффициенты и гипотезу о случайных воз- возмущениях uty а также правило нормализации. Типичным примером априорных ограничений являются исключающие ограничения, выражающие то, что некоторые переменные заведомо не входят в отдельные уравнения и, сле- следовательно, соответствующие им коэффициенты равны нулю. В качестве гипотезы о случайных возмущениях примем, что случайные величины щ независимы и имеют один и тот же закон распределения \хи с нулевым средним. Предположим, что i'-е уравнение может быть разрешено от- относительно ун и масштабы коэффициентов выбраны так, что 405
коэффициент при ун в i-м уравнении равен единице. Это и есть правило нормализации. В рамках данной спецификации фиксируем какую-либо структуру 5, т. е. матрицы В, Г и распределение \iu случай- случайного возмущения (параметрами структуры будут элементы матриц В, Г и само распределение [iu). Тогда вектор yt при заданном xt будет иметь некоторое распределение Ps (хг). Поскольку далее хг фиксировано, мы будем употреблять для этого распределения более короткое обозначение pf. Структуры 5 и 5 называются (наблюдаемо) эквивалентны- эквивалентными, если Pf = Pf, t = 1, ..., п. Параметр а называется идентифицируемым в структуре 5, если а — а для любой структуры S, эквивалентной 5. Ины- Иными словами, параметр а идентифицируем, если из равенств Pt — Pf, t = 1, ..., я, следует, что а = а. Структура S называется идентифицируемой, если все ее па- параметры идентифицируемы. Рассмотрим вопрос об идентифицируемости приведенной формы yt=*Uxt+r\t, A4.10) связанной со структурной формой соотношениями П=: — В-1 Г, г^-В-1 щ. Предложение 1. Пусть rank X = К — числу эк- экзогенных переменных. Тогда структура приведенной формы A4.10) является идентифицируемой. Доказательство. Пусть S = (П, щ) и S = (Й, [i~) — две эквивалентные структуры, т. е. Р? = Pf, / <! п. Наряду с A4.10) имеем, что yt = Tbct + r\t, где случайные векторы цг подчиняются распределению \х~. По предположению Eyt = = Eyt. Поскольку r[t и t)t имеют нулевые математические ожидания, то Ilxt = Hxt. Введем матрицу Х/<, столбцами которой являются К линейно независимых векторов xtt9..., xtK. Тогда (П — П)Хк = 0 и, значит, в силу невырожденности хк, п - п. Наконец, имеет место и равенство распределений jin = = |i-, поскольку r\t = yx — Ib;t, r\t = yt — Uxu а распре- распределения pf и pf случайных векторов yt и yt совпадают. 406
14.2.2. Проблема идентифицируемости для структурной J>op- мы. Пусть S = (А, \ли), S = (А, рх), где А = [В, Г], А = = [ВГ]. Предложение 2. Пусть rank X = /С. Структуры S и S эквивалентны тогда и только тогда, когда существует не- невырожденная G X G матрица D, такая, что А «= DА и распре- распределение ut совпадает с распределением Du( (т. е. jli~ = jj^D-1). Доказательство. Пусть матрица D с указанными свойст- свойствами существует; yt = Uxt + j\t, yt =• Ihct + 4)t — приве- приведенные формы, отвечающие структурам S и S. Поскольку В = = DB и Г=ОГ, то П= —В1 Г-В D1 ОГ = В-! Г = Й. Распределения случайных векторов т] и т) также совпадают: Следовательно, совпадают и распределения векторов yt и у*- Обратно, пусть S и S — эквивалентные структуры. По- Положим D — ВВ. Тогда В = DB. Согласно предложению 1 из совпадения распределений yt и yt при всех / ^ п вытекает совпадение матриц П и П и распределений р,л и \i~. Но равенство —В~1Г = —В~1Г влечет равенство Г = DP. В свою очередь соотношение [1Ц — \х~ означает, что fxuB = = [л—В, откуда вытекает требуемое свойство: \xu = jx-D-1. Далее мы будем предполагать выполненным условие пред- предложений 1 и 2 об отсутствии мультиколлинеарности у экзо- экзогенных переменных: rank X — К. Предложение 1 показывает, что весь класс эквивалент- эквивалентных структур обладает одной и той же приведенной формой. Из этого следует, что коэффициент матрицы А = [ВГ] будет идентифицируемым, если априорные ограничения обеспечи- обеспечивают однозначность его восстановления по матрице приве- приведенной формы. Для решения проблемы идентифицируемости можно вос- воспользоваться и предложением 2, из которого следует, что мно- множество матриц структурных коэффициентов во всех структу- структурах, эквивалентных данной структуре S, получается умноже- умножением А слева на невырожденные матрицы из некоторого клас- 407
са А!, который определяется априорными ограничениями. Ин- Интересующий нас коэффициент будет идентифицируем тогда и только тогда, когда он инвариантен относительно преобразо- преобразований структурной формы матрицами из М. 14.2.3. Критерии идентифицируемости. Рассмотрим некото- некоторые наиболее важные типы ограничений и приведем критерии идентифицируемости, используемые в практических задачах. Будем предполагать, что априорные ограничения являют- являются линейными однородными функциями, каждая из которых зависит только от коэффициентов одного из уравнений струк- структурной формы. Выясним, когда коэффициенты матрицы А мо- могут быть однозначно восстановлены по матрице приведенной формы П. Пусть 1/< — единичная матрица порядка К X /С. Введем обозначение w = - п Соотношение ВП + Г = О между структурной и приве- приведенной формой теперь может быть записано в виде AW - О, (И.11) где А — матрица порядка G X (G + /С); W — матрица по- порядка (G + К) X /С, имеющая ранг К. Пусть ах — первая строка матрицы А. Тогда из A4.11) следует, что axW - 0. A4.12) Равенство A4.12) представляет собой систему из К (неза- (независимых) уравнений относительно G + К неизвестных — эле- элементов вектора ах. Согласно предположению априорные ограничения на эле- элементы могут быть записаны в виде ахФ = 0, A4.13) где Ф — матрица из G + К строк, имеющая столько столб- столбцов, сколько ограничений. Например, пусть априори известно, что коэффициент р12 = = 0. Тогда один из столбцов матрицы Ф имеет вид @, 1, 0, ...,0)'. Из A4.12) и A4.13) следует, что элементы вектора аг яв- являются решениями системы уравнений a^WO] = 0. A4.14) 408
В силу правила нормализации фп = 1) для идентифицируе- идентифицируемости первого уравнения необходимо и достаточно, чтобы про- пространство решений системы A4.14) было одномерным, т. е. rank [WO] = G + К — 1. A4.15) Пусть L — число ограничений. Тогда [WO] содержит К + L столбцов и для выполнения A4.15) необходимо, чтобы L >G— 1: для идентифицируемости какого-либо из уравнений необ- необходимо, чтобы число ограничений было не меньше числа урав- уравнений модели, уменьшенного на единицу. Если имеются только исключающие ограничения, т. е. априорная информация о равенстве нулю некоторых коэффи- коэффициентов, то необходимое условие идентифицируемости опре- определенного уравнения таково: число неизвестных, исключенных из уравнения, должно быть по меньшей мере равно числу уравнений минус единица. Последнее условие может быть сформулировано следующим образом: число исключенных из уравнения экзогенных переменных должно быть не меньше числа участвующих в нем эндогенных переменных, уменьшенного на единицу. Сформулированные необходимые условия (так называемые правила порядка) в силу своей простоты являются весьма по- полезными при решении проблемы идентифицируемости, по- поскольку при построении модели они позволяют сразу выявить неидентифицируемые уравнения. Однако эти условия могут оказаться далекими от достаточных. Необходимое и достаточ- достаточное условие A4.15) не годится для проверки идентифициру- идентифицируемости модели, поскольку требует построения матрицы П. Тем не менее из него можно извлечь критерий идентифици- идентифицируемости и в терминах структурной формы (правило ранга). Первое уравнение системы идентифицируемо тогда и толь- только тогда, когда rank (АФ) = G — 1. Это утверждение может быть выведено непосредственно из A4.15), но мы получим его из соображений, связанных с инвариантностью коэффициентов при умножении структурной формы на допустимые матрицы. Запишем A4.9) в виде Azt= щ, A4.16) где гх = lyixiY. Применяя к A4.16) невырожденную (ОхС)-матрицу D, получим преобразованную структурную форму DAzt = Dut. Матрица D допустима, если преобразованная структурная 409
форма удовлетворяет априорным ограничениям, которые мо- могут быть записаны в виде с^Ф = 0 или, эквивалентно, ( 1) где ех = A, 0, ..., 0) — вектор длины G. Первая строка пре- преобразованной структурной формы имеет вид с^А, где dx — первая строка матрицы D. Поэтому = 0. A4.17) Идентифицируемость первого уравнения структурной фор- формы означает, что ^А = dxk. В частности, ехВ = dxB. Так как матрица невырождена, то ех = dv Таким образом (с учетом правила нормализации), вектор-строка dx из A4.17) опреде- определяется однозначно; с точностью до пропорциональности ре- решение A4.17) есть ех. Следовательно, rank (АФ) = G— 1. В свою очередь это равенство влечет идентифицируемость пер- первого уравнения. Проиллюстрируем полученные выводы при- примерами. Пусть имеется следующая система, состоящая из двух урав- уравнений: y22x2t = u2t. В силу соглашения о правиле нормализации (Зп = р22 = 1. Пример 14.3. Предположим, что априорные ограни- ограничения касаются только коэффициентов матрицы Г : Yi2 — От 722 ~ 0- Отметим, что именно эти ограничения имеются в мо- модели спроса и предложения (пример 14.1). Для первого уравнения системы Ф = @, 0, 0, 1)', АФ = = @, 0)'. Ранг АФ равен 0 и, следовательно, первое уравне- уравнение идентифицируемо (здесь G — 1 = 1 =^= 0). То же самое имеет место и для второго уравнения. Пример 14.4. Пусть 712 = 0» Y21 ^ 0. Для первого уравнения Ф = @, 0, 0, 1)' и АФ = (у12, y22)' = = @, У22У - При условии, что у22 Ф 0, мы имеем rank (АФ) = — 1 ~ G— 1. Следовательно, первое уравнение идентифи- идентифицируемо; аналогичный вывод можно сделать и для другого уравнения. Решая уравнение аг [\?Ф] = 0, которое в данном случае имеет вид (Ри. Ри. Yib Y12) яи я21 1 0 Я12 я22 0 1 0 0 0 1 = 0, 410
и, пользуясь равенством ри = 1, получаем однозначное вы- выражение параметров первого уравнения через параметры при- приведенной формы. Пример 14.5. Пусть уп = 0, у12 = 0. Для первого уравнения ~ 0 0 1 0 о - 0 0 1 Ф= и и ; АФ = ГО 01 LY21 722 J Следовательно, rank (АФ) = 1 ( в предположении Y21Y22 Ф Ф 0), и первое уравнение идентифицируемо. Записывая под- подробно уравнение ах [W<D] = 0, получаем систему Pll Я12 + Pl2 Я22 = Yl2 = О', Vn = 0; Tl2=0, откуда =-" я12/я22. Таким образом, для того, чтобы не возникло противоречие, должно выполняться определенное соотношение между коэф- коэффициентами приведенной формы. Встретившаяся ситуация, когда имеются ограничения на коэффициенты приведенной формы, носит название сверхидентифицируемости. Если мы будем оценивать коэффициенты матрицы приве- приведенной формы без учета ограничений, а затем из полученных оценок образуем оценку для $12 (т. е. применим так называе- называемый косвенный метод наименьших квадратов), то выражения —Яц/я21 и —я12/я22 не будут равны друг другу. Косвенный метод наименьших квадратов непригоден для оценивания в случае сверхидентифицируемости. При рассмотрении проблемы идентифицируемости мы ог- ограничились случаем, когда имеются априорные ограничения только на структурные коэффициенты. Ясно, что ограничения на вид распределения случайных возмущений могут сузить класс М допустимых преобразований так, что неидентифици- руемое без этих ограничений уравнение станет идентифици- идентифицируемым. 4И
14.3. Рекурсивные системы Среди систем одновременных уравнений наиболее простыми являются рекурсивные системы, для оценивания коэффици- коэффициентов которых можно применять обыкновенный метод наимень- наименьших квадратов. Система одновременных уравнений Byt + Txt= щ A4.18) называется рекурсивной, если выполнены следующие условия: 1) матрица В является нижней треугольной матрицей, т. е. рг7 = 0 при / >*, Ри = 1; 2) ковариационная матрица возмущений диагональна: Е ии! = 2 = (аи)9 аи = 0 при i Ф /; 3) каждое ограничение на структурные коэффициенты от- относится к отдельному уравнению. Предложение 3. Пусть rank X = К и матрица 2 невырождена, т. е. вц >0 при / = 1, ..., G. Тогда струк- структурная форма рекурсивной системы идентифицируема. Доказательство. Пусть 5 = (В, Г, fxu), S = (В, Г, fx~) — две эквивалентные структуры. Согласно предложению 2 су- существует матрица D, такая, что B-DB, 2 = D2D\ A4.19) Матрица В представляет собой нижнюю треугольную матрицу с единицами на главной диагонали. Такой же будет и матрица D = ВВ-1, т. е. с1и = 0, / > f, da = 1. Из второго равенства в A4.19) вытекает, что й^а^ = 0, i Ф /, следова- следовательно, du = 0 и когда i > /. Значит, D — единичная матрица; структуры S n S сов- совпадают, что и требовалось доказать. Покажем, что процедура оценивания коэффициентов струк- структурной формы рекурсивной системы методом наименьших квадратов, примененным к отдельному уравнению, приводит к состоятельным оценкам. Запишем i-e уравнения рекурсивной системы для всех п периодов наблюдений в следующем виде: Jto) = Ze + H@> A4.20) где Уа) = (уи, ..., уiny, Z = [Y@Xl; YU) — матрица, со- состоящая из первых i — 1 столбцов матрицы Y, которая вместе с X была введена в A4.7), иа) = (uilt ..., uin)'. Оцениванию 412
подлежит вектор коэффициентов 6 =— фп, ,.., pj j_b yilt: Будем предполагать, что выполнены следующие условия a) P-lim — X'U = 0; П П в) P-lim-i-Z'Z=2«, где 222 — невырожденная матрица. Предложение 4. При выполнении условий а) и в) мнк-оценка параметра 9 для A4.20) состоятельна. Доказательство. Прежде всего покажем, что P-lim-i-Y'(/) и(/, = 0. A4.21) Транспонируем равенство A4.8), умножим его затем слева на В-1, а справа на U/n. Переходя к пределу по вероятности при п->оо и пользуясь условием а), получаем в результате, что P-lim — Y'U^B-1 2 = 2УЦ. A4.22) п Матрица 2 диагональна, В**1 — нижняя треугольная мат- матрица, поэтому Syu — также нижняя треугольная матрица. Следовательно, равенство A4.22) влечет A4.21). Соотношение A4.21) показывает, что случайное возмуще- возмущение в /-м уравнении не коррелирует в пределе с эндогенными переменными, входящими в это уравнение. Поэтому для i-ro уравнения с точки зрения оценивания переменные ylf..., уг~г ничем не отличаются от предопределенных переменных, что и приводит к состоятельности оценки 9 наименьших квадратов, которая здесь имеет вид (Z' Z)-1 Г уA) = Ясно, что P-lim 0 = 0, поскольку в силу а), в) и A4.21) P-lim (Z' Z)-1 Г щп - P-lim (— Z' п п \ П Доказательство завершено. 4ia
Указанные выше привлекательные свойства рекурсивных систем вызывают желание использовать именно их в эконо- метрических исследованиях. К тому же можно привести аргу- аргументы в пользу того, что реальные экономические системы яв- являются рекурсивными по своей природе. Например, многие экономисты считают модель примера 14.1 несовершенной. Действительно, трудно представить себе рынок, где равновесные цены и спрос формировались бы од- одновременно. Реалистичнее выглядит следующая ситуация. Цены в день t устанавливаются в зависимости от объема про- продаж в предыдущий день, в то время как покупки в день t за- зависят от цены товара в день /. Математическая формализация приводит к системе где случайные возмущения ut и vt можно считать независи- независимыми, т. е. к рекурсивной системе. Необходимость рассматривать системы, отличные от ре- рекурсивных, возникает в связи с тем, что исследователь обыч- обычно располагает некоторыми усредненными (агрегированными) данными. Например, данные о рыночной конъюнктуре могут быть усреднены по недельным или месячным периодам. Пред- Предположим, что известны величины: Pt — средняя цена за не- неделю t и Qt — средний объем ежедневных продаж за неделю /. Если считать время реакции рынка, как и раньше, равным одному дню, то соотношение Pt = а0 + cx1Qt-1 + uL вряд ли можно признать разумным. В этой ситуации рассмотренная в § 14.1 модель представляется более естественной. 14.4. Двух- и трехшаговый методы наименьших квадратов 14.4.1. Наиболее распространенные методы оценивания сис- системы одновременных уравнений. Формальное применение мнк для получения оценок коэффициентов системы одновременных уравнений приводит, вообще говоря, к оценкам с плохими ста- статистическими свойствами — смещенным и несостоятельным. Поэтому область его применения ограничена рекурсивными системами. Для оценивания параметров точно идентифици- идентифицируемой системы можно применить косвенный метод наимень- наименьших квадратов, состоящий в оценивании обычным мнк коэф- коэффициентов приведенной формы и подстановке оценок в выра- 414
жения для коэффициентов структурной формы через коэффи- коэффициенты приведенной формы, что приводит к смещенным, но состоятельным оценкам. В случае сверхидентифицируемости косвенный метод наименьших квадратов, как отмечалось в 14.2, не применим. Для оценивания произвольных систем одновременных уравнений в настоящее время имеется довольно значительное количество методов, которые делятся на две группы. К пер- первой группе относятся методы, применимые к каждому урав- уравнению в. отдельности: двухшаговый метод наименьших квадра- квадратов B мнк), метод максимума правдоподобия с ограниченной информацией, называемый также методом наименьшего дис- дисперсионного соотношения [46] или методом Комиссии Коулса [80], и некоторые другие. Вторая группа содержит методы, предназначенные для оценивания всей системы в целом. Это методы максимума правдоподобия и трехшаговый метод наи- наименьших квадратов C мнк). Несколько особняком стоят ите- итеративные методы, или методы неподвижной точки, которые обладают определенными вычислительными достоинствами, что немаловажно при исследовании систем большой размер- размерности, однако статистические их свойства изучены в недоста- недостаточной степени. 14.4.2. Двухшаговый метод наименьших квадратов. Наиболее важным методом оценивания отдельного уравнения системы, получившим широкое распространение, является двухшаго- двухшаговый метод наименьших квадратов. Он дает состоятельные, во- вообще говоря, смещенные оценки коэффициентов, является до- достаточно простым с теоретической точки зрения и удобен для вычислений. Запишем интересующее нас уравнение (для определенности, первое системы A4.4)) в виде , A4.23) где у = (ylt> ..., у1пу — вектор п наблюдений над переменной уг\ Yx — матрица п X g наблюдений над другими текущими значениями эндогенных переменных, входящих в уравнение; Р — вектор размерности g X 1 структурных коэффициентов, относящихся к переменным из матрицы Y2; Хх — матрица по- порядка п X k наблюдений над предопределенными переменны- переменными, входящими в уравнение; у — вектор размерности k X 1 коэффициентов, относящихся к переменным из матрицы \г; и — вектор случайных возмущений, имеющий размерность п X 1. Рассмотрим часть приведенной формы, состоящую из урав- уравнений, которые выражают эндогенные переменные, входящие 415
в правую часть A4.23), через предопределенные переменные системы: A4.24) Пусть Лг — мнк-оценка матрицы П{, т. е. где X = [XxXal; X2 — матрица наблюдений над предопре- предопределенными переменными, не входящими в A4.23). Положим Yi= ХПХ = X (X' X)-1 X' Yx; A4.25) У1==^~?. A4.26) Тогда уравнение A4.23) может быть записано в следующем виде: 1/-Z6 + 6, A4.27) где Z-fcxj, 6=[Р'тТ, t Применим к A4.27) метод наименьших квадратов. В резуль- результате для вектора неизвестных коэффициентов б получаем оцен- оценку которая в исходных переменных имеет вид bl|-YiX(X'X)-1X'Y1 ^ХЛ-» rYiX(X'X)-X,l L xijf J Эта оценка и носит название оценки двухшагового метода наименьших квадратов параметров р и у. Таким образом, существо двухшагового метода состоит в замене матрицы \г расчетной матрлцей Yb после чего иско- искомые коэффициенты вычисляются обыкновенной регрессией у на Yj и X. Далее мы будем предполагать, что матрица Yx состоит из наблюдений за эндогенными переменными с номерами 2, ...,?+ 1, матрица Хх — из наблюдений за предопределен- 416
ными переменными с номерами 1, ..., к (этого можно добиться изменением нумерации). Теперь введенные выше обозначения согласуются с обозначениями 14.1, 14.2, причем п Гя21 ...л,2К j а первая строка матрицы А - 1ВГ1 имеет вид (для уравнения A4.23) мы имеем только исключающие огра- ограничения). Пусть \k — единичная матрица ft X ft; 0^ — нулевая матрица порядка к X (К — ft); в == 11*0*1. Рассмотрим (g + *) х К-матрицу nl" в ¦ Лемма 1. Пусть уравнение A4.23) идентифицируемо. Тогда rankftx - g \-k. Доказательство. Из A4.14) вытекает, что ах является един- единственным решением системы уравнений где А =--= feJWOl, ех -^ A, 0, ..., 0) — вектор длины G + К\ Ф — матрица, с помощью которой записаны соответствую- соответствующие исключающие ограничения: ах> ^+2 = 0, ..., o,\,g ~r О, ai, G+fe + i =r 0» •••» ai, G+л' = 0. Значит, rank A = G + /(, и все строки А линейно независимы. Линейная независимость строк с номерами 2, ..., g + 1, G + 1, ..., G + ft влечет ут- утверждение леммы. Предложение 5. Пусть уравнение A4.23) иденти- идентифицируемо и выполнены следующие условия: а) P-lim —X'U = 0; п П б) P-lim —Х'Х-2ЖЖ, где Ъхх — невырожденная матрица. Условие а) всегда выполнено в силу закона больших чи- чисел, когда xt детерминированы. Тогда 2 мнк-оценка состоя- состоятельна. 14 Зак. 244 417
Доказательство. Из A4.25)—A4.27) следует, что d - 6 -f (Z' Z)-1 Z' (и + \ГТ C) --- 6 + (Z' Z)-1 Z; /7. В силу предположений а) и в) Р-НтП; ---П,', A4.29) л поэтому P-Y\m— M\u P-lirn— U.Wu -П^Р-lim—Х;«---0. п П п П п П Следовательно, РЛ\т—Ги P-lim — п п Xi 1 U .0, и нам осталось показать только, что P-lim — Z'Z является п невырожденной матрицей. Имеем в силу условия б) и соотношения A4.29), что -lim [fi"i I — X' п I в J п - Я-lim — Ъ Ъ Я-lim [fii I — X' X [Й; в'| - п п I в J и невырожденность 222 вытекает из леммы 1 и известного свойства положительно определенных матриц. 14.4.3. Трехшаговый метод наименьших квадратов. Этот ме- метод применяется для оценки параметров системы одновремен- одновременных уравнений в целом. Сначала к каждому уравнению при- применяется двухшаговый метод с целью оценить коэффициенты и возмущения каждого структурного уравнения, а затем по- построить оценку для ковариационной матрицы возмущений. После этого для оценивания коэффициентов всей системы при- применяется обобщенный метод наименьших квадратов. Приведем формальное описание трехшагового мнк. Для этого рассмотрим систему одновременных уравнений, содер- содержащую G эндогенных и К предопределенных переменных, ко- которые будем считать нестохастическими. Запишем i-e урав- уравнение в виде где у-, — вектор, образованный из п 4- 1 наблюдений над за- зависимой переменной с номером /; Yf — матрица порядка я х gi, составленная из наблюдений за остальными эндоген- 418
ными переменными, входящими в это уравнение; X, — матри- матрица порядка п X kt наблюдений над предопределенными пере- переменными i-vo уравнения. В обозначениях б,- 1-е уравнение системы переписывается следующим образом: yi^Z^i + u,. A4.31) Если X - матрица порядка п * К, образованная из на- наблюдений за всеми предопределенными переменными, то X' //, X' Z, 6j Г V;. Ковариационная матрица возмущений v-t A4.32) Х'и-, имеет вид Vj v\ -¦¦¦¦ ЕХГ и( ul X -- ou X' X, где On — дисперсия случайного возмущения, испытываемого /-м уравнением исходной системы. Применяя к A4.32) обобщенный метод наименьших квад- квадратов, получаем оценку dr iz; x(x/x)-1x/z/]-1z/ x(x' х)-хх'^ вектора коэффициентов бь которая, как нетрудно убедиться, совпадает с 2 мнк-оценкой для A4.30). Запишем все уравнения A4.32) в следующей форме: "X' X' -X' У* Ус. _ X'Z, 0 о о X'Z, о о X'Z ¦а_ '6, t- X' iii X' u2 \f A4.33) Если бы матрица ковариаций S была известна, то формаль- формальное применение обобщенного метода наименьших квадратов 1 4* 419
к A4.33) привело бы к оценке параметров системы, содержа- содержащей матрицу ковариаций вектора возмущений ап X' X а12Х'Х... o2l X' X a.22 X' X ... 02G X' X X X Og2 X X... ' X 2®Х'Х Идея трехшагового метода наименьших квадратов состоит в использовании вместо S ее оценки S = (s^), где 6 = В результате приходим к искомой 3 мнк-оценке z; х о ... о ~ О Z2X... О X О 0 ... ZgX X'ZX О О X'Z2 X S-1®(X' X)-1 о о о X о ' гх о ... о О X'Z2... О 0 X х'у2 'X)-i О О ... X'ZG. которая после упрощений может быть записана в виде s11 z; x (X' х)-1 х-' z4... slG z; x (X' x)-1 x' г; _sG1 To X (X' X)-1 X' Zo... s°aZb X (X' X)-1 X' ZG_ X г- G X где s1"/ — элементы матрицы S. 420
В случае, когда матрица 2 не является диагональной, т. е. когда одновременные возмущения, входящие в различные структурные уравнения, зависимы, трехшаговая процедура имеет лучшую асимптотическую эффективность по сравнению с двухшаговой. 14.5. Метод неподвижной точки Для оценивания параметров систем одновременных уравнений в настоящее время помимо классических методов, рассмотрен- рассмотренных в предыдущих параграфах, используются различные ите- итеративные процедуры, основанные на методе неподвижной точ- точки. Запишем общую линейную модель A4.7), A4.8) в следую- следующем виде: Y = YC + XD + U, где матрица С получена из —В' заменой диагональных эле- элементов последней нулями, D = —Г'. Соответствующая при- приведенная форма имеет вид с P = D(I —С)-1, V Положим Y* = XD (I — С)-1. Тогда, очевидно, Y=Y*C + XD + V; A4.31) Y*=Y*C + XD. A4.35) Соотношения A4.34), A4.35) называют переформулирован- переформулированной формой системы одновременных уравнений. В методе неподвижной точки соотношение A4.34) рассмат- рассматривается как регрессионное уравнение, в котором помимо не- неизвестных С и D неизвестными являются и объясняющие пе- переменные Y*, для которых должно выполняться соотношение A4.35). Оказывается, при выполнении некоторых дополни- дополнительных условий С, D и Y* определяются однозначно (дока- (доказательство использует теорему о неподвижной точке, отсюда и название метода). Более того, они могут быть найдены при помощи следующей итеративной процедуры. Начальное значение Y0 (нулевое приближение для Y*) берется произвольным, после чего первые приближения С1 и ИВ Зак. 244 421
D1 для С и D вычисляются из регрессии Y на Y0 и X, т. е. из соотношения Y = Y°C4 -XD4-V1. Следующее приближение Y1 для Y* определяется равенст- равенством Далее указанный процесс повторяется: s=2,3,... При этом Y* = P-limYs, C = /Mi s Таким образом, алгоритм метода неподвижной точки пред- представляет из себя комбинацию метода наименьших квадратов и итерационного метода Якоби решения системы линейных алгебраических уравнений. На практике, однако, было уста- установлено, что этот алгоритм далеко не всегда является сходя- сходящимся. Для улучшения сходимости были предложены раз- различные его модификации. Например, в релаксационном ме- методе неподвижной точки приближение Ys для Y* находится по формуле где Ys = Y^O + XDS; a — некоторая постоянная, а 6 6 @, 2). Имеются также модификации, цель которых состоит в уменьшении объема вычислений (рекурсивные методы не- неподвижной точки). Отметим, что теоретические свойства оце- оценок, полученных по методу неподвижной точки, изучены не- недостаточно. Показано, однако, что если соответствующие ите- итеративные процедуры сходятся, то полученные оценки пара- параметров являются состоятельными. Исследованы свойства метода для малых выборок и произведено его сравнение с дру- другими методами при помощи, численного моделирования. Имеющиеся здесь результаты носят достаточно противоречи- противоречивый и неполный характер. В экспериментах был замечен один большой недостаток метода [106]: оценки являются неустой- неустойчивыми и не всегда сходятся к какому-либо одному решению. 422
14.6. Сравнение методов К настоящему времени предложено значительное количество методов состоятельного оценивания параметров систем одно- одновременных эконометрических уравнений. Как отмечено в 14.4.1, они могут быть разбиты на две группы. Первую группу составляют методы ограниченной инфор- информации. Представителями оценок этой группы являются 2 мнк- оценки (см. 14.4.2) и оценки максимального правдоподобия с ограниченной информацией. Можно показать, что 2 мнк-оцен- ки и оценки максимального правдоподобия с ограниченной информацией асимптотически эквивалентны. Вторую группу составляют методы, использующие полную информацию о системе, т. е. о строении ее уравнений и о сте- степени их стохастической зависимости. Наиболее известными представителями этой группы являются трехшаговый метод наименьших квадратов, рассмотренный в 14.4.3, и метод мак- максимального правдоподобия. Между оценками, получаемыми при помощи этих методов, существует тесная взаимосвязь: 3 мнк-оценки можно рассматривать в качестве первого при- приближения оценок метода максимума правдоподобия, по оп- определению минимизирующих функцию плотности распреде- распределения наблюдений (в предположении, что они распределены по нормальному закону). Более того, указанные оценки асимп- асимптотически эквивалентны. Основываясь на асимптотике оценок, можно утверждать, что если отклонения в уравнениях нормально распределены, то оценки с полной информацией для выборок большого объе- объема будут более эффективны, чем оценки с ограниченной ин- информацией. Однако уместна ли апелляция к асимптотическим свойствам оценок в условиях малых выборок и невозможности эффективной проверки гипотезы о нормальном распределении отклонений? Другой важный вопрос связан с устойчивостью оценок по отношению к ошибкам спецификации, т. е. к неправильно выбранной форме связи, автокоррелированности или гетеро- скедастичности отклонений, нарушениям гипотезы о нормаль- нормальности возмущений и т. д. К сожалению, ответов, основанных на теоретических рабо- работах, на поставленные вопросы на сегодняшний день не су- существует. По-видимому, единственным инструментом иссле- исследования свойств оценок параметров одновременных экономет- эконометрических уравнений в условиях конечных выборок является метод статистических испытаний, или метод Монте-Карло. 14В* 423
Приведем некоторые общие выводы, на которых сходятся авторы большинства статистических экспериментов. 1. Все методы дают смещенные оценки. 2. При большом количестве наблюдений теоретические выводы, основанные на асимптотических свойствах, в основном подтверждаются. 3. В условиях малых выборок предпочтительность одного метода другому может меняться при переходе от одной эконо- метрической модели к другой. Иногда, вопреки всем статис- статистическим аргументам, лучшим оказывается обыкновенный ме- метод наименьших квадратов. 4. Оценки с ограниченной информацией оказываются бо- более устойчивыми к ошибкам спецификации модели. Наоборот, оценки с полной информацией весьма чувствительно реаги- реагируют на изменения структуры. На практике при оценивании параметров конкретных од- одновременных уравнений принимаются во внимание не только статистические свойства оценок, но и соображения вычисли- вычислительного характера. К сожалению, вплоть до настоящего времени одним из наи- наиболее распространенных методов оценивания является обыч- обычный мнк (который, как показано в 14.1.2, не является состоя- состоятельным). Из состоятельных методов наиболее часто исполь- используется 2 мнк, который удобен и с точки зрения объема вычис- вычислений. Применение методов с полной информацией сдержива- сдерживается большой размерностью задач оценивания (число уравне- уравнений достигает иногда несколько сотен и даже тысяч), а также отсутствием удовлетворительных пакетов программ. ВЫВОДЫ 1. Одновременные уравнения возникают при изучении слож- сложных систем, поведение которых описывается совокупностью законов, связывающих характеристики системы. Статисти- Статистическое моделирование таких систем осуществляется при по- помощи регрессионных уравнений. При этом переменные, явля- являющиеся объясняемыми в одном уравнении, в других уравне- уравнениях могут играть роль объясняющих. 2. Восстановление коэффициентов системы одновременных уравнений возможно лишь при наличии определенной апри- априорной информации, например, равенства нулю каких-то ко- коэффициентов или функций от них. Первый этап исследования модели направлен на то, чтобы ответить на вопрос, достаточно ли этой априорной информации, для чего используются кри- критерии идентифицируемости (правила порядка и ранга). В слу- 424
чае неидентифицируемости обычно модель должна быть моди- модифицирована. 3. Простейшими системами являются рекурсивные системы, в которых матрица коэффициентов при эндогенных переменных имеет треугольный вид. Такие коэффициенты идентифицируе- идентифицируемы, и для их оценивания используется обычный метод наи- наименьших квадратов. 4. Для оценивания коэффициентов систем одновременных уравнений в общем случае используются специальные мето- методы: двух- и трехшаговые методы наименьших квадратов, методы неподвижной точки и др. Наиболее употребительным является двухшаговый метод наименьших квадратов, который дает состоятельные оценки, достаточно хорошие и для конеч- конечных выборок. Он применяется к каждому уравнению в отдель- отдельности и состоит в вычислении регрессии эндогенных объяс- объясняющих переменных, входящих в я-е уравнение, на все пред- предопределенные переменные системы, а затем в использовании для оценивания искомых коэффициентов п-то уравнения вмес- вместо данных значений объясняющих переменных их оценок, по- полученных на первом шаге. Глава 15. программное обеспечение СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ ЗАВИСИМОСТЕЙ Методы статистического исследования зависимостей, в осо- особенности регрессионный анализ, анализ временных рядов, дисперсионный анализ, анализ таблиц сопряженности, пла- планирование эксперимента, наиболее употребительны среди ме- методов обработки данных в различных областях науки и тех- техники. Соответственно к настоящему времени существует и продолжает разрабатываться обширное программное обеспе- обеспечение, связанное с исследованием зависимостей. Ниже кратко рассмотрены программные средства — пакеты и библиотеки программ, доступные пользователям в СССР, а также наибо- наиболее интересные, на наш взгляд, для обеспечения статистичес- статистического исследования зависимостей зарубежные пакеты и библио- библиотеки. Основные сведения о пакетах и библиотеках программ приведены в табл. 15.1. В табл. 15.2 приведены данные о разделах статистического исследования зависимостей, охватываемых пакетами и биб- библиотеками программ. Номера вертикальных граф табл. 15.2 соответствуют следующим разделам и методам статистическо- статистического исследования зависимостей: 425
1. Корреляционный анализ: а) вычисление и анализ значимости множеств частных и множественных коэффициентов корреляции; б) анализ коэффициентов корреляции Спирмэна, Кен- далла и др. 2. Регрессионный анализ: а) линейная множественная регрессия; б) отбор переменных в линейной регрессии методом полного перебора или «ветвей и границ»; в) пошаговые процедуры отбора переменных; г) регрессия на главные компоненты; д) гребневая регрессия и другие виды регрессии в ус- условиях мультиколлинеарности; е) робастная регрессия; ж) полиномиальная регрессия с подбором степени полинома; з) регрессия нелинейная относительно оцениваемых параметров; и) оценивание параметров стандартных нелинейных регрессионных моделей (логистическая, экспоненциаль- экспоненциальные и другие кривые); к) непараметрическая регрессия. 3. Дисперсионный анализ (ДА). 4. Статистическое исследование зависимостей в случае не- неколичественных переменных и переменных смешанной природы: а) стандартный анализ таблиц сопряженности; б) логлинейный анализ таблиц сопряженности; в) выравнивание шкал (оцифровка, переход к бинар- бинарным переменным). 5. Статистический анализ систем структурных экономет- рических уравнений. 6. Анализ временных рядов. Приведем теперь сведения о программном обеспечении не- некоторых разделов статистического исследования зависимостей, не включенные в табл. 15.1, 15.2. Анализ временных рядов. Дополнительная информация приведена в табл. 15.3. Логлинейный анализ таблиц сопряженности. Соответству- Соответствующее программное обеспечение описано в [91, 23]. Анализ нечисловой информации. Программное обеспечение обработки нечисловой информации методами оцифровки пред- представлено в [121], корреспонденс-анализа — в [221]. Отбор переменных в регрессионном анализе. Программа, реализующая метод «ветвей и границ» и некоторые другие ме- 426
Таблица 15.1 Пакет или биб- библиотека программ 1 ПНП -БИМ (па- (пакет научных под- подпрограмм, библио- библиотека института ма- математики АН БССР) ППСА (пакет про- программ по приклад- прикладному статистиче- статистическому анализу) Система статисти- статистической обработки Пакет программ по математической статистике Организация- разработчик 2 Институт матема- математики АН БССР, г. Минск Центральный эко- номико-математи- номико-математический институт АН СССР, г. Моск- Москва Тартуский ордена Трудового Красно- Красного Знамени госу- государственный уни- университет г. Тарту Институт киберне- кибернетики АН Эст. ССР, г. Таллин ЭВМ 3 ЕС ЭВМ ЕС ЭВМ (модели 1022 и выше) Минск 32 ЕС ЭВМ ЕС ЭВМ Операцион- Операционная система 4 ОС, ДОС ОС ОС ОС Использован- Использованный язык лрограмми- роиания 5 Фортран ПЛ/1 Фортран Фортран Литера- Литературные источники 6 [111] [99] [127, 129] [72, 73, 74] Примечание 7 Распространяется в виде загрузочных модулей Пакет программ стати- статистической обработки многомерных данных многоцелевого назначе- назначения. Управляется с по- помощью языка пользова- пользователя; распространяется в виде загрузочных мо- модулей Пакет программ стати- статистической обработки дан- данных многоцелевого на- назначения. Управляется с помощью языка пользо- пользователя То же
Продолжение табл. 15.1 Пакет или биб- библиотека программ 1 ОТЭКС (пакет прикладных про- программ для обра- обработки таблиц экс- экспериментальных данных) Организация- разработчик 2 Институт матема- математики СО АН СССР, г. Новоси- Новосибирск ЭВМ 3 ЕС ЭВМ Операцион- Операционная система 4 ОС Использован- Использованный язык программи- программирования 5 Фортран Литера- Литературные источники 6 [98] Примечание 7 Предназначен в основ- основном для решения задач классификации; управ- управляется в диалоговом ре- режиме; для исследования зависимостей имеются нетрадиционные про- процедуры: — непараметрического прогноза значений не- независимой переменной (алгоритм ZET); — определения логи- логических закономерно- закономерностей для предсказания значений количествен- количественных (с точностью до интервала) и порядко- порядковых признаков; — отбора переменных в регрессионном анали- анализе по величине коэф- коэффициента детермина- детерминации с помощью метода случайного поиска с адаптацией [76]
СОД—ГС (пакет прикладных про- программ статистиче- статистической обработки данных) СОРРА-2 (система оперативной раз- разработки распоз- распознающих алгорит- алгоритмов) DIAS (диалоговая автоматизирован- автоматизированная система) 429 Институт киберне- кибернетики АН УССР, г. Киев Институт матема- математики и кибернети- кибернетики АН Лит. ССР, г. Вильнюс Вычислительный центр СО АН СССР, г. Новоси- Новосибирск ЕС ЭВМ БЭСМ-б БЭСМ-6 ОС ДИСПАК DIMON Фортран Фортран Фортран [100] [104] [141] Управляется с помощью языка пользователя, об- обрабатывающая часть по- построена на основе под- подпрограмм ПНП-БИМ Пакет предназначен в основном для решения задач классификации при наличии обучающих выборок; статистиче- статистическое исследование зави- зависимостей представлено программами: — линейной регрессии с "возможной проверкой качества методом сколь- скользящего экзамена; — непараметрической регрессии; — пошаговой процедуры отбора переменных. Управляется с помощью языка пользователя, име- имеется возможность рабо- работы в полудиалоговом ре- режиме Управляется с помощью языка пользователя, об- обрабатывающая часть построена на основе ПНП IBM [118]
Продолжение табл. 15.1 Пакет или биб- библиотека программ 1 САОН (статисти- (статистический анализ и обработка наблю- наблюдений) NAG (библиотеки подпрограмм) Организация- разработчик 2 Всесоюзный инсти- институт по проектиро- проектированию организа- организаций энергетическо- энергетического строительства (Оргэнергострой) Минэнерго СССР NAG Ltd., Велико- Великобритания, NAG (Numerical algo- algorithms group) объединение со- сотрудников универ- университетов Англии, занимающихся разработкой про- программного обеспе- обеспечения в области численного анали- анализа и статистики ЭВМ 3 ЕС ЭВМ Практически все типы ЭВМ, имеющие транс- трансляторы с Форт- Фортрана, Алгол 60, Алгол 68 Операцион- Операционная система 4 ОС Использован- Использованный язык программи- программирования 5 ПЛ/1 Фортран, Алгол 60, Алгол 68 Литера- Литературные источники G [122[ [153, 158] Примечание 7 Содержит широкий спектр методов статисти- статистической обработки дан- данных (дескриптивная ста- статистика, непараметри- непараметрическая статистика, фак- факторный анализ, статисти- статистическое исследование за- зависимостей и т. д.). Уп- Управляется с помощью языка пользователя Существует значитель- значительное число модификаций этих библиотек, в зави- зависимости от конкретных версий Фортрана, Алгол 60 и Алгол 68. Наиболее полные персии библиотек Ж К*- содержат около 500 под- подпрограмм. Библиотеки распространяются в виде текстоп подпрограмм на
GENSTAT1 (General Statisti- Statistical Program) GLIM1 (General Linear Model) P—STAT To же To же Вычислительный центр Принстон- ского университе- университета, США. Правом распространения пакета владеет P-STAT Inc. IBM 360/370 CDS DEC SYSTEM 10/20 To же IBM 360/370 OS, OS/VS NOS, SCOPE 20 TOPS 10/20 To же OS, OS/VS, VS1 Фортран Фортран Фортран [153] [158] [241] сооответствующем язы- языке высокого уровня (пе- (печатные тексты, микрофи- микрофиши, магнитная лента), а при желании пользовате- пользователя — и в виде загрузоч- загрузочных модулей Многоцелевая система статистического анализа. Управляется с помощью языка пользователя. Об- Обрабатывающая часть соз- создана на базе библиотек NAG Программа для оценки параметров обобщенной линейной модели в ин- интерактивном режиме. Управляется с помощью языка (команд) пользо- пользователя. Обрабатываю- Обрабатывающая часть создана на ба- базе библиотек NAG Многоцелевая система статистического анали- анализа. Отличительной чер- чертой является чрезвычай- чрезвычайно широкая возможность управления и манипуля- манипуляция данными. Возможна работа в интерактивном режиме
Продолжение табл. 15.1 Пакет или библио- библиотека программ 1 IMSL (Internati- (International Mathematical Statistical Library) SPSS1 (Statisti- (Statistical Package for the Social Sciences) SAS Организация- разработчик 2 IMSL Inc., США SPSS Inc., США SAS Institute Inc., США ЭВМ 3 Все типы ЭВМ, имеющие транс- транслятор с Форт- Фортран IBM 360/370 DEC SYSTEM 10/20 DEC PDP11 IBM 360/370 Операционная система 4 OS, OS/VS, VSl TOPS 10/20 PSTS, UNIX RT-11, IAS RSX-11 OS, OS/VS, VSl и т. д. Использован- Использованный язык прог- программирования 5 Фортран Фортран ПЛ/1 Ассемблер Литера- Литературные источники 6 [218] [250] [160] Примечание 7 Имеются многочислен- многочисленные модификации биб- библиотек IMSL, настроен- настроенные на различные «диа- «диалекты» Фортрана. Явля- Является одной из самых об- обширных библиотек в об- области численного анали- анализа, линейной алгебры и статистического анализа. Подпрограммы, входя- входящие в состав IMSL, об- обладают высокой надеж- надежностью Пакет программ стати- статистической обработки многоцелевого назначе- назначения. Управляется с по- помощью языка пользова- пользователя. В настоящее время разработана версия это- этого пакета SCSS для ра- работы в интерактивном режиме Система программирова- программирования для статистической обработки и управления
BMDP (Biomedi- cal Computer Prog- rams) BMDP Software, США IBM 360/370 OS, OS/VS, VS1 и т. п. Фортран [169] данными. Обладает наи- наиболее широкими воз- возможностями управле- управления данными среди из- известных пакетов про- программ статистической обработки. Язык управ- управления, помимо интегри- интегрированных команд на об- обработку данных и управ- управления ими, позволяет лег- легко включать матричные операции, организовы- организовывать циклы из процедур обработки и т. д. Возможна работа в ин- интерактивном режиме. В отличие от большинства зарубежных пакетов предназначен только для ЭВМ типа IBM 360/370 Многоцелевой пакет программ статистической обработки данных. Уп- Управляется с помощью языка пользователя. По- Последние версии допуска- допускают интерактивный ре- режим. Разработаны вер- версии пакета для весьма широкого круга ЭВМ. Версия этого пакета от 1975 г. адаптирована в СССР для ЕС ЭВМ [84] 1 В графе 3 перечислены лишь некоторые типы ЭВМ, для которых имеются версии пакета. Более подробную информацию можно получить из соответствующего литературного источника. Версии пакета для различных ЭВМ могут отличаться по некоторым харак- характеристикам (максимальное допустимое число переменных, разрядность операций, возможности управления данными и т. д.).
Пакет или библиотека ПНП—БИМ1 ППСА ССОД Тартуского орде- ордена Трудового Красного Знамени государственного университета ППМС Института кибер- кибернетики АН Эст. ССР отэкс СОД—ГС СОРРА-2 DIAS САОН NAG (Библиотеки подпрограмм MARK8 MARK9) GENSTAT GLIM 1 а да да да да нет да нет да да да да да б да да да да нет нет нет нет нет Да да да 2 а да да да да нет да да да да да да да б нет нет нет нет нет2 нет нет нет нет нет нет пет в да да да да нет нет да да Да да да да г нет да нет нет нет нет нет нет нет да да нет д нет да нет нет нет нет нет нет нет да Да нет е да да пет нет нет нет нет нет да да да да Р—STAT да | да | да | нет да нет | нет да IMSL SPSS SAS BMDP4 | да | да | да | да Да да да да да да да да да нет нет да* Да да Да да 1 нет j нет | нет | нет нет нет нет нет 1 1 1 1 нет нет нет да 1 Список реализованных методов взят из [111]. 2 См. графу «Примечание» в табл. 15.1. 3 Для проведения нелинейной регрессии можно использовать процедуры поис 4 В версиях 1982, 1983 гг. имеются программы логлинейного анализа и анализа 5 В версии 1975 г. отсутствует. 434
Таблица 15.2 ж да нет да Да нет да нет нет Да да да Да 3 да да нет нет нет нет нет нет да нет3 нет нет и да да нет нет нет да нет нет нет да да да к нет нет нет нет да2 нет да нет Да нет нет нет 3 да нет да да нет нет нет да нет да да да 4 а нет да да нет нет нет нет да нет да да Да б нет нет нет нет нет нет нет нет нет да Да в нет да да нет да нет нет нет нет нет нет 5 да нет нет нет нет нет нет нет нет да нет нет 6 да нет нет да нет да нет нет да да да нет | да | да | да | нет | да да нет3 нет да да да да нет да да нет нет нет нет нет да да да да да да да да да да нет да нет нет нет нет | нет нет | да нет j нет да | да нет | нет нет да нет да нет ка минимума функции многих переменных из этой библиотеки, временных рядов. 435
Таблица 15.3 Пакет или библио- библиотека программ Пакет промышлен- промышленных программ для анализа и прогноза временных рядов ПАРИСС МАВР Пакет ДЕЛЬТА- СТАТ (А-стат) для обработки данных в интерак- интерактивном режиме TSA Организация- разработчик РВЦ ЦСУ РСФСР, г. Москва Киевский орде- ордена Ленина го- государственный университет им. Т. Г. Шев- Шевченко, г. Киев То же Институт ки- кибернетики АН УССР, г. Киев NAG, Велико- Великобритания ЕС ЭВМ ЕС ЭВМ (модели 1022 и выше) ЕС ЭВМ (модели 1045 и выше) ЕС ЭВМ Широкий круг ЭВМ I» si ос ос ОС ОС — Язык прог- программирования Фортран » Фортран Ассемблер Фортран X о. к 4S [101] [120] [120] [36] [254] тоды отбора, описана в [87]. Отбор в условиях многомерной функции отклика рассматривается в [151]. Математическое обеспечение прикладного статистического анализа для мини- и микроЭВМ рассматривается в [83, 157]. Дополнительную информацию по вопросу программного обеспечения статистического анализа можно получить в [24, 69, 188]. 436
ПРИЛОЖЕНИЯ. МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ Таблица Значения функции плотности (р(х) = (р(х; 0; 1) стандартного нормального закона распределения . . 1 «2/О П.1 Ф (х) ф(АГ) 0,50 0,3945 0,55 0 0,65 0 0,00 0,3989 0,05 0,3984 0,10 0,3970 0,60 0 0,15 0,20 0,25 0,300,3814 0,35 0,3752 0,40 0,45 0,39100,700 0,3867 0,3683 0,75 0 0,80 0 0,85 0 0,90 0 0,3605 0,95 0 0,3521 ,3429 ,3332 ,3230 ,3123 ,3011 ,2897 ,2780 ,2661 ,2541 00 0 1, 1, 1, 1, 1, 1 1,35 1 1,45 05 0 100 150 20 0 25 0 30 0 40 0 ,2420 ,2299 ,2179 ,2059 ,1942 ,1826 ,1714 0,1604 ,1497 0,1394 1,50 1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90 1,95 0,1295 0,1200 0,1109 0,1023 0,0940 0,0863 0,0790 0,0721 0,0656 0,0596 2,00 2,05 10 15 20 25 30 35 2,40 2,45 0,0540 0,0488 0,0440 0,0396 0,0355 0,0317 0,0283 3,0252 0,0224 0,0198 2,50 2,55 2,60 2,65 2,70 2,75 2,80 2,85 2,90 2,95 3,00 0,0175 0,0154 0,0136 0,0119 0,0104 0,0091 0,0079 0,0069 0,0060 0,0051 0,0044 Пример. Требуется определить значение функции плотности ф (х\ а; о) нормального закона в точке х = 3,36 при среднем с= 1 и среднеквадратическом отклонении о — 2. 1. Подсчитываем х0 = (х — а)/о = C,36 — 1)/2 = 1,18. 2. Находим с помощью таблицы значение функции q> (x; 0; 1) в точке х0 = 1,18, прибегая в случае необходимости к линейной интерполяции, а именно: Ф(*о; 0; 1)=ф(дг1; 0; 1)— х0- 0; 1)-ф(*2;0; 1)], где *! и х2 — два соседних табличных значения аргумента (xt < х2), между которыми находится интересующее нас значение х0. В нашем примере ФA,18;О; 1)=ФA,15; 0; 1)— i'**"""*'** [ф A,15)—ф A.20I = -0,2059— -—@,2059—0,1942) = 0,199. 5 3. Подсчитываем ф (х\ а; а) с помощью формулы Ф(*; а\ о) = —Ф!"^11^; 0; l)= — ф A,18; 0; 1) =0,0995. а \ а /2 Замечание. В силу четности функции ф (х) для нахождения ее значений при отрицательных величинах аргумента доста- достаточно найти из таблицы ее значение при том же самом, но п о л о ж и- тельном аргументе [т. е. ф (-—ж0) = ф (*о) ПРИ любом х0]. 437
Таблица П.2 Значения функции Ф(*)=Ф(л;; 0; 1) стандартного нормального распределения X 0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,35 0,90 0,95 Ф (X) 0,500000 0,519939 0,539828 0,559618 0,579260 0,589706 0,617911 0,636831 0,655422 0,673645 0,691463 0,708840 0,725747 0,742154 0,758036 0,773373 0,788145 0,802338 0,815940 0,828944 X 1,00 1,05 1,10 1,15 1,20 1,25 1,30 1,35 1,40 1,45 1,50 1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90 1,95 Ф<*) 0,841345 0,853141 0,864334 0,874928 0,884930 0,894350 0,903200 0,911492 0,919243 0,926471 0,933193 0,939429 0,945201 0,950528 0,955434 0,959941 0,964070 0,967843 0,971283 0,974412 X 2,00 2,05 2,10 2,15 2,20 2,25 2,30 2,35 2,40 2,45 2,50 2,55 2,60 2,65 2,70 2,75 2,80 2,85 2,90 2,95 3,00 Ф(х) 0,977250 0,979818 0,982136 0,984222 0,986097 0,987776 0,989276 0,990613 0,991802 0,992857 0,993790 0,994614 0,995339 0,995975 0,996533 0,997020 0,997445 0,997814 0,998134 0,998411 0,998650 Пример. Требуется определить значение функции распреде- распределения Ф (х; а; а) нормального закона в точке х = 3,36 при среднем а ~ 1 и среднеквадратическом отклонении а = 2. 1. Подсчитываем х0 = (х — а)/о = C,36 — 1)/2 = 1,18. 2. Находим с помощью таблицы значение функции Ф (х) в точке х0 = 1,18, прибегая в случае необходимости к линейной интерполяции, а именно: l [ф (х2)-Ф (Xl)], х2 — хх где х± и х2 — два соседних табличных значения аргумента (хг < дг«>), между которыми находится интересующее нас значение х0. В нашем примере =0,8749 + -^- @,8849—0,8749) =0,8809 5 438
Замечание. При отыскании значений Ф (х) для х <с 0 сле- следует пользоваться соотношением Ф (х) = 1 — Ф (—х). Например, если надо найти значение Ф (х) в точке х = —0,25, то имеем: Ф (—х) = = Ф @,25) = 0,5897, так что Ф (— 0,25) = 1 — Ф @,25) = 1 — — 0,5897 = 0,4103. Таблица П.З Значения ^-квантилей uq стандартного нормального распределения я 0,50 51 52 53 54 0,55 56 57 58 59 0 60 61 62 63 64 0,65 66 67 68 69 0 0 0 0 ич ,000000 025069 050154 075270 100434 ,125661 150969 176374 201893 227545 ,253347 279319 305481 331853 358459 ,385320 412463 439913 467699 495850 я 0,70 71 72 73 74 0,75 76 77 78 79 0,80 81 82 83 84 0,85 86 87 88 89 0,524401 553385 582842 612813 643345 0,674490 706303 738847 772193 806421 0,841621 877896 915365 954165 994458 1,036433 080319 126391 174987 226528 С С 0 0 я ),90 91 92 93 94 ),95 96 97 971 972 973 974 975 976 977 978 979 980 981 982 1 1 1 2 2 "я ,281552 340755 405072 475791 554774 ^ ,644854 750686 880794 895698 911036 926837 943134 ,959964 977368 995393 ,014091 033520 ,053749 074855 096927 0 0 0 0 я ,983 984 ,985 986 987 988 989 ,990 991 992 993 994 ,995 996 997 998 999 2 2 2 3 ич 120072 144411 , 170090 197286 226212 257129 290368 ,326348 365618 408916 457263 512144 575829 652070 747781 878162 ,090232 Пример. Найти 0,9-квантиль &о,э- Величину и^^ находим из таблицы в графе, расположенной справа от соответствующего значения q = 0,9, т. е. и0^ =~- 1,28155. Замечание!. Если заданная величина q попадает между дву- двумя соседними табличными значениями qx и q2 {qx < Яъ\ это может слу- случиться при графической проверке нормальности распределения), то следует воспользоваться линейной интерполяцией, а именно формулой Я— Я\ и и +(Ч« ) Замечание 2. При нахождении #-квантилей для значений q <i 0,5 следует воспользоваться соотношением uq = —uv-.q. Напри- Например, иОу4 = — «i-0,4 = --"о,б = —0,25335. Замечание 3. При отыскании 100<2%-ных точек wQ следует воспользоваться соотношением ^n— wi—о* Например, Шо,о5 ~ wo,95 == = 1,64485. 439
s I о CO О S R S X rfCD'—'CM CDCDNOCO СМ О> LO rf CO СО CM LO -rf CM rf CD 00 О 05NNIOO) CO CD ОЭ Oi O> —< N CO CD CM C7> СЛ CO CD Tpr^NLOOO СО Ю Oi «—< —• О CD —* LO CO NLOOOOO N LO CM O) LO •—• N CM 00 CO CO CM N *—' LO CO»-- *......«• ^ - - - .......... •-O CMtF CDOOO'-^CO LOCDOOOi'-H CM "tf1 Ю N CO ^. _ _ _ ^ _« ^ ^ cxj CM CM CM CM CO CO CO CO CO CO О rt< O> N CO O> CO CM О COOOCOCO O5 O) N CO 00 CJ5 CO tf CD CD *—« LO О CD Oi LO N CO •—' N СЛ 00 LO О rf CO Tt4 N CO —* N CTJ CD О CM ""¦"' 00 rf N СЛ О С5 CD CO'-^COCM OoOtJ<OcD CMNCMCD»-^ LO CT> "^ 00 —• CDCM-- .......... ^«nr.r. ^ ^ ^ r- ^ - -—•CO LO CD 00 О —• C0t*<CDNO О —< CO rf CD <?> (Ji *-« r-* _<_«,— cvjcvj CMCMCMCMCM COCOCOCOCO O> CD О СО Ю г** CO CD 00 —• О N CD О rf^O^fO OON^fCO СМСЛС^-ФСМ fOOCOLOO) OOLO'-^CDCM CONOOrt1 СОт^-^ГОСМ OOCMCOCO'-^ COrfCDCMLO CM N т? —• ООт^ОЮО rfOiCON'-^ rfOO*-'LOOO CO CO CO •• **.***.„ „ ,.•.».». *.,.*.*.* — O-hC0tJ<(D NOOO—CM CMCMCMCMCM CMCMCOCOCO CDNCOCO ЮСО^ООО О —• —* —* 00 00 OJ "< 00 Ю rfTj^NN О «—' NN C7i NLOCDCM^t1 LOCDNCT^CO -Hrn^ts NO)COO-• ONCMCDCO C75O500 CD.rt^ rh O5 —i CO ОЮОЮ05 CO CD О CO CD О CM lO CO —« СОСЛОО^ «*«^^ «^^^^ ^^^^^ ^ .. ^ л •—'CM^LOCD СОСЛ'-^СМСО tJ«CDN00O COlONO) ^-^^^^_^H^-i '-h^-^CMCMCM CMCMCMCMCO rt<Na>Tt< LOCDOCDN ^O tJ«O5(N CMOOO'^CO LO •—• CO rt1 CO rj* N *—* CO t4"» LO CT> *—* Tf N> t~-1 C~ " LO Ю —< CD CDt*<--*CD00 OOr^Tf<'-HCD OtJ<C OOlON COCDOCOCD C7>CMLOCOO COlONCDCM N CD CM N CM---*. -....-,. ^^^лл •••»•• л •> CO CM СО tJ< lO N 00 CD *-~• CM CO ^ LO N^ CMtJ<CDN сТ>^,-*,ч_ r_^H^-i^HCM CMCMCMCMCM OO OOtOcO ^-hCO'-^t^CD 00 05COC0 Ю СО СЧ О) О5 CT5CMNCM CO1-' —^ LO •—' *—«NOOlOLO t^CMLOTfO NNCOCD 0^00 0H0 lONCO'~hCT> CDCMOOCDLO lO О Tf CO г~ш> О CO CO CD CD N CO ^f 00 ^f *—* О 00 CD ^-h^-^OOCD CD CM CO rj< •—• COlOCOON ЮСО - - - О CM LO О »^^.^ ^.^^^ ^ „о О —« ^ ,. ^ , >-|C^ C^CO Tt< "^fLOCDNN 00О)>-1 *-< t—i OOP'- 1° ° >- 'Г> *-* CD 4 CM f*" C7i LO tJ< »~< CO «—• CO CD CO ^i4 tJ* CD CD О 5N ^ CO CO CD —• COooOCOCD CTJCDN'^fN Д, CM •—' О lOlONWlO OrfCO'-'O О '—4 «—• О *-< r*<COCDCOCM T^r-CMC^N COCDNO)-^ ^-н CD ""' N CO OilO(N00lO СМСЛСОСО » ex g O § О NTj lO rr CM rf CM CO N NQO^O CO CO CO N О CO CM CD —• N NiOOtM C7> N N N N CD LO CO CO CO t^OON rf CD 00 LO LO CM N Tf О CD CD О CD CO О CM CTJ LO CM CD CDCDNCOCO SScno . О CO —• So О -«^ N t^. О —* CM s - . LO »^ О CD lO О Ю —h CD LO *-н CD '-^ CO CO CM N СЛ N CJ> CM N г** CM CM —• О "-• CO CM CO rj« О CD ^ ^ c^ см со со tj< tj< о о I '-4 CM О LO —i О —* CM CM СЛ ONO) N О О CM см - * - (J> О О О со О N LO СЛ CD f CM CD —* CM ^ Ю O) rj< tJ< -•N00^00 -rf CD C7i CO N Ю —• CM CO CM 00 incOCOi incOCOinrJ* LO ON CD N *-i CD ОЮ О тр tJ« rh ^-н со СЛ CM CM 00 CJ> О CM N -^ CO О tfOCO1^ CD -1 CD CM CO О О О --^ —« CMCMCOCOTf LOcDNOOCTi 440
00 СП en со см CD CD to- CO 1696 00 s CO О CM Tf OO CM 426 CM 00 о in 00 о « in en о CM 00 386 CO to- toco CM о о —« t CM s 00 CO 4789 | in CO s CD CM CO t in CD m CM 396 CM CO 913 | in CM oo CM о о CM 897 CO 366 | ,03 00 CM я СП г- CM я oo CM о 7807 j CM СП CO CO 133 CO о CO 0415 380 | 00 CM CO CM 3 о en CM s en 272 | CD 00 CM CM CO oo oo CO CD 41, 0757 [ я in CM «—< in CO m о CM CO 479 oo 8 о 00 in 00 CO CD _! CD 2 о 042 | CM en CO CM in Ю Ю oo en СП CM ,3641 1 СП CO in CD CO CO s CO CO 587 CD in 484 1 00 CO о CM s о 623 I 00 00 en CM OO s? CD CO 6465 | о Ю CM in CD CO CD 00 CO CO 734 CD 114 1 CD 2! en •—• 00 о 524 *-' Ю О in CM en en ,28 oo CD in 9232 | —• CM 00 oo CO _ 00 CO in in CO 919 CM 791 | CO in СП CO 00 CO 2 CM 8 CD ~. CD CM en CD en о CO 8 CD 1944 | CO CO CO ~— 40, CM t^- CD CO 138 —• 00 513 | •—¦ CD CO CO tO CD CO 00 CM CD О СЗО ~- CM CO CO о in CM CO Го. CM 00 4607 | CM CO CO en in en ^_ CO CM en 00 279 | СП CD en о CO in OO 564 CO CO CM 00 CM 8 ,33 CM in СП 58 СП 7222 1 in СП CD in in CM in 00 о en CO 677 Is"- en 083 1 to- о CD in 256 CM 00 en CM о CM «o CO in CM CM en 00 о in 9792 | CD en CM t"oi CO о s CM о 992 Ю о CM 926 j 00 oo о en CD in 953 CD 00 CO 8 en in CD о en CD CO CD 3417 1 en in ю CO ю t^- in ю о § OO _, Ю s о СП CM 00 Ю CO 24, CO 164 22, о о о СП СП со in 8 4202 | 048 ю CD ^н CD 00 CD CD CO 642 | t^- Я m CO CM CO 706 29, 9907 | t^ S en СП СП §8 2976 1 со CO СП 00 о СП 1^ о СП СО Tj« to. 589 CD 879 1 •—• со oo CO 484 to- toco CD 2 in О CD tO CM о in CM о 0231 | cS CM CO in о en t CM Ю a 290 CO to in 393 1 to- to CD to- 48, oo 441 45, CM in CM CO i? CM CO CD en CM CO 106,629 | en oo - о CM oo Ю CD en 778 CM CD 915 | CO о CD CM CO in Ю о 540 53, о см _ 8 8> OO CM CD CM CD CO oO in m 58 912 CM CO 260 | en CD CD m CD _4 754 61, CO s о en en CD ),80 2 5,561 CM CM CO CM oo en s CO a 963 СП 77, en CM CM to- oO 064 70, CD CM CO t*. 100 441
CO O> COCO О CNt4» O> CD (ONOlflO CO CM Oi CO CO -нС CQ^^nts, _« f^. ^ с^-н OC75050000 Ь-Ь-CjOCOCO СО СО*О*Ю CO* CO CM* CM* of CM* CN ~ ~S *-< г-* ^^н^н^н^н со СОООтРОО CM "«t1 Oi CM 00 OOOCOOOCO О> Ю СМ О> Ь- tNOO^N Of-hN -Hb-fCO-н 000H0 00 b-b-t>«COCO CO COCO ЮЮ COO) IT) CO CO* CM* CM CM CM CO f CO —« f «-« ~« CO COO CO CNOOinCNO 00 CO "Ф CM ~« «Ь- Ю CO CM -нОСЙООО OONNNN COCOCOCOCO CM O> Ю CO COCNCNCNCN CN CN —« -н -н -н -н —« ^ ^ _< _< ^ _* ^ СО СО f^ CO О СО 00 ^ СО СО СО Ю ОЭ СО ОЭ Ю-нСОЮСО *—' Oi t- CO f lOTtl«-<00'—'Ь-mCOCN —« О О> О) 00 00 00 Ь- t- t- t- СО СО СО СО СМ*о"ю СО* СО* CN* CM* CM CM* СМ* СМ* -Г-Г'-' -Г— ^Г^Г^-Г ~н *-Г-н ^Г ,-Г СО СОСОЬ-CN NO СОООЮ СО 00 —• СО —• t^Tt«»-iOOCO "J4 CNOCftN CN f »—'00 —^ 00 Ю CO CN «000H5 OOOOOON l4^» l4^ b- t^ CO CO cAOiioco co"cn"cn'cn cnT cn'cn cn*—Г^-Г r-S~Sr-S~S^ r-SS*S*Sr~? CO ОЮООСО 05CN00O00 OOOf OOf ON^-. O5 О rf —< OO ^-lOOirDrfCN *-н ¦—i О О О) OiOOOOoOt4^ CNOSIOCO COCNCNCNCN CNCNCN—«'-« «««^^-4 CO -HTfOCNO OCNCO^CO CNOcOt^^-h OiOOCOrf CNOOiOTtiCO CN*-h0005 O500000000 tЬ l^ oinCO COCNCNCNCN CNCNCNCN-н ^^h^h^h^h CO CNCNOb- Tft-OOCO""*1 ^NOin-< N ^ »w O) CO rfCO^OOO СМ^СМООСМООСО^СО CN-ч—«OO 0^050H000 00000000b- *-* CJi\OCO CO CN CNCN CN (NCNCNCNCN —«—«—< ^-T^ —Г ^н" ^-Г r-S ^н* CO ^ .—¦ —< CN О t^ONOOO 00 "-<ЮОЮ CM О) CO CO •—• CDt^CO^fCO Ь-^СМО5 СМ05СОЮСО СМСМ-ч-нО 005050505 ОООООООООО о*оГю~со со см см см* см" см см cnГ см" см см —*—¦Г—Г^ ^Г^Г^Г^Г^Г со О5О5С0СМ O^OrfCM (N Ю О) 4f О СООООООСО TfCNOOSOO ^-COCMOS C0O5t^lOrf COCN-hi-«i-« 0000505 CD05050000 ООЪХПСО со" CM CMCM CM* CM* CM CM СМем" СМСМСМ'-н'-н* —Г^*,-Г.-Г.-Г __^ ,_ COOOrf^ CMCOCNCO^ Ю N -и CO C>J 05C0C0O00 CO Ю CO CM —< 0000CMO5 СООЭГ^-Ю^ CO CM CM —• —* CD <Z> CD CD Oi &) O) O) (J> <J) O> <J>\Jb CO COCMCMCMCM CMCMCMCMCMCMCMCMCM'-h «r-4—ч^^ч Tt<GOiOCT>t-- ОООП^ОЮ CMOSCOrfCM ОООЬ-ЮтГ" coa>t-io^ со со см см —* —< о о о о cd о>с?> о> о CD CD Ю СО OOCNCNCNCN СМ СМ СМ СМ См" СМ СМ СМ СМ* СМ* СМ —« *-* *— ~ ю —¦ Ю Г-- 00 С^- —< 00 СМ —1 —< Tt« 00 СО СП СОСООООСО т^СМ'-'О^ОО CDCOCMO) COONCDiO т^ СО СМ СМ —i ~* —ч ^н О О 0000H) оо* О)" ю" со* со со см см" см" см смоГсмсм* см см* см см" см cnTcmcm 1-н—Г ОСООО^ч ОЮСОКЮ COCncOOOrf —^ 00 Ю СО —« СЛОО СОЮ"^ СМСОСМО т^ОООСОЮ ^СОСОСМСМ СМ т—i ~-< т-i т-i ООООО 00О5Ют^ СОСОСМСМСМ CNCNCNCNCN СМСМСМСМСМ СМСМСМСМСМ _Ю ¦^ CD —« Ю LO—"ООСО-н СМЮО)Ю-н N Tf СЧ О 00 смемооо т^—.aot^-co ю^сососо смсмсмсм— r^O5LOTt*00COCNCNCN OaCMCMCM^CN СМСМСМСМСМ СМСМСМ СМ* СМ ю ш OOTf^^H СМ 00 О —< О> 1-н^ООСОСТ» СО СО —* О) N IOCOCN—«О) ООСМОО-н 1Л —< СП 00 СО COlOTfTfCO COcOCOCMCM CMCNCMCM-h m*o*m*Tt* оо со* см см см см см см см* см* см" см* <м <м*см см* см* см см* см Ю O5COCDO5 CNONCN-^ CO CO —* CO CM OiCO^CMO ООСОЮ^СО Ю r-, CO*-* C0CMOO500 ^-СОСОЮЮ T^rffrfrf COCOCOCOCO СОСПЮтР COCOCOCMCM СМСМСМСМСМ СМСМСМСМСМ СМСМСМСМСМ UP ООСОСМ 00 CO CO — i-ч CNCOi-чСОСО Ob-TfCN-н lOO-^CO Nr^CN^O CDOOOOt-r- f-COCOCOCO CD CD lOrf* CO* CO* CO CO* CO* CM* CM* CM* CM* CM* CM* CM* CM CM CM CM* CM CM CM* CM COCOtJ<tJ< CO00O5COCO 05C000rfO N Ю OO ^ O) h-COlOrfCO 00ЮЮЮ ONW^fO сЧСЧ^н^н^ OOOOO) CD CD CD CD CD ОH0Ют^ n~C0C0C0CO COCOCOCOCO COCOCOCOCM CMCM CM* CM CM CO IOCOS00O5 О —< CN CO tJ« Ю CO N 00 O) O^CMCO"^1 ^н^,-,^^ ^ч^^^н^н СМСМСМСМСМ 442
СМ О CD 00 Г- СО 00 CD CD О lOlO^T^Tf "*F СО СМ —'О СО <«*« СО СМ *-< О СЧ Ю СО Г- Ю Ю LO Ю Ю Ю rt« CO CM --« CD 00 t"- СО Ю rf C-» О СМ « ююююю ю ^ ^t* со см СО —' О О СО f- —¦ т*< f- О со со со ю ю ю ю ^ со со СО LO rt< СО CM »-i "Tj* 00 —* Tj« " COCOCOCOCO СОЮ"* "^ СО CfH0N СО Ю rf« t— —' LO CO COCOOCOO CO lO Ю "* CO CM -и О СГ> 00 Г-- —' "*f 00 CM rttcoo со со lo ^ ^ <N —« О CD OO N-hCDOiO 00 0O0ON N Г-, f- CO CO LO t^ CO Ю ^ CO (NCD'-'inO OO 00 00 00 00 00 f- Г- СО СО CD OO t-* t-» CO ЮСЛ^ООСО OOOOOOOOOO 00 b~ t- CO CO CO CM '-< О CD OOCOt^ <NN CD CD CD CD 00 00 00 t- t^- CO t»- CO Ю " О5СТ>СП (N->OOOi OO CO C OOOOC0 7575 CN CM <N CM —^ ,_< _«,_<,-. _н O5 00NCD CO VO О Ю О Ю OOOOO О О СТ> СТ> 00 ci(NCMCMc>J <N СМ — —' ^-» 00 t^- t>- СО Ю rf O5^ CD rf г-н^н^-i—ч^-< »-hOOG5G5 СЧ СМ СЧ CN <N CM CM CM —« -и СЧ r-< О CO 00 OO CO 00 CO 00 CO^CO COCMCN CMCN'-h^-hO <N(M(N<N<M СЧ <N CM CM (N CO CM -и О О О> rf CJilO О ЮЮЮЮЮ ^ ^ OO OO CO <N CM <N СЧ (N СЧ oTcM CN CM 00 rt« O5 Ю -^ 0000Г^Ь-Ь- w о) cn см см е*смемсмсм COOCOOO CO Г-- CO CO —• Tt4 О О —< CO "lOlOtO COCOCMCDh- Ю rt* CO CM »—' IOCT500LO xfC0COCM(M CMCMOJCNCM см —• СОСПЮСО OOh-Г-Ю LOCDOOlO TfCOcOCMCM CMCMCNCNC4 СЧ «—• (NOOr-CTi CO -^O -"СП (N05 00OC4 '"^ЮСО rf NC0ON СОт^СОСОСЧ 1Л CT5 00 Ю ^ CO CO CO CN CN CN CS CN CM CN —• — t>- CD <M COt- ^ tJ« CO OrOCOtN "t ION 't N C0O00 ОЮт? COCN LOCOOOlO T^COCOCOCM (NCMCNCMCN «—• CO CN Ю О -ОООСО ONN00- -"^t4 tDN Ю00С0О00 t^lO^COCO О--- ^~~л^ ^««лл ЮСЛООЮ "^fCOCOCOCM CNCSCNCNCN CN *—* -*Ю^Ь CO^'-'WO r}< —« —. CNlO -TfCOt4- LCOOTf-<CJ> t^.cOuO^CO гГ О5 00Ю •^r'COCOCOCN CMCMC4CNCM CN —¦ ОЮСОО СОГ^-^Ю"^ С^-Ю^сОСТ) -TfOOO LO 00 rf —«CD SOlO^CO oo TfCDOOiO ^COCOCOCN CMCNCMCN(» CN —« CD CO О CO CN TP *— CM — LO CN CN CO CO -TJ< b. 00 CO CD Ю CM О OOr-cOlO^f "^CDOOIO 't CO COCO CO (NCNCNCNCM CN *-* CD —« rf —. 00ON00N — CD CD О CO -rt^t^-CD СООЮСМО О^Г-СОСОЮ Tf CD 00 Ю ^ tJ' CO CO CO CN CN CN CM CM CM —+ CDOCDCO Tf^'t UO^ CX)l/DlOt^-0 -rt^t^CD h-OCOcO'-* CD 00 t— CO CO TfCnoOlO ^ rt^ CO CO CO CMCNCNCNCN CN --* ЮОО-^О N000 05 00 CM О О —« Ю -COOOO Ь- -н СО СО -ч OCDOOt^-CO Tf CD 00 СО Tf т^ СО СО СО СО CM CN CN CM СМ —* CDr-.lO'^ СМЮСО-^fCO Г-l/DlOh-O -COOOO 00 -ч Г- rt< СМ О CD 00 Г- !>• 00 COCD00CO ^ т^ СО СО СО СО CN CM CM CN CN -+ OOlOCDCD O0»-«CDOCD ^»-<—'COO -COOOO OOCNt^-lOCN ^OCDoOt-- COCDOOCO Tf^COCOCO COCOCMCNCM см ~— О CO Tf CO Ю 00 Г- ОС h- CM CD О CM LO -COCD*-^ CDCNOOLOCO CNOOCD00 COCDOOCO ^ -^ CO CO CO COCOCOC4CN CM — CNO'-чСО uOCDh-CDOO COO'—'COCO "COOCN OCOCDCOt^ СОСМ'-чОСО о--- ^«^~^ ~ - ~ ~ ~ COCDCDCO lO^COCOCO COCOCOCOCM CM "-« COlOCNCD CDCOCM^CO OO CO CO 00 —« -CM—«CO —• Ю —« 00 CO Tt« CO CM —* i-ч tJh CM CD CD CO LOrfTt«COCO COCOCOCOCO CM "-« t^ CO 00 CD rH^mNCD —• CD CD —"^ "H<NiO ^NCOOCO b-uO^rfCO Ю * - - ----- ----- -^ CD CD CO Ю^^т^СО COCOCOCOCO ЮО Ю rf CD rf rf CO CO О OO CD —« Tt~~ -OlOCD Г^^-Hr^TfcM '-HCTiOOOOt- CD CD CD CO Ю LO J4 J4 Tf r^ CO CO CO CO "tf —« OO—• —« CD CD CM CM CO ^ Ю t^- О -LO—«l^ CO CD LO 00 —' CD 00 1^- CO CO CD00ON LO СОГ4- 00 CD CN CM CM CM CM о о о о OO J4 COCN UQ СО Г- 00 CD О ^ CM CO Tf 443
О •C5 ^yjfNOO rf —¦< OO CO CO —• O5 Г- Ю ^* CM »-< CD lO О CD CD 00 OOOON NN N CO CO CO CO CD Ю CO CM > О 00 CO •) Ю — ^ 3 CD CO CO CD CM —< -<О-¦< N- CO О N rf ^-< CX> ЬЮСО^О OOOONlOCN *-< О О CD CD CD 00 00 00 N- Ь-NN-N-N CD Ю 't CO CN CDCDOOOOOO OOOONNN CD CD CM CO CO "^ CM Ю CO •> - - CO CD CO CO CD CM —. CO 00 CM tO ^4 ОЮОСОСО CD CO "^ —'CD t-~ Ю ^ CN (N^^OO CD CD CD CD 00 0000000000 CN -—' CD CD CD О CD 0000 N CO Ю Ю CO CNCNCNCNCN CO CD CO CO CD CM •—< 00 t*« ^ N см - - - CO CD CO CO CD CM —¦ CO ^ Ю 00 см см см см см см см • CD rt< CD Ю — OO Ю CO —« 00 CO Ю 00 *-< О CD CD О —« CN CM CM •—« »—< •—« О О О О CD CD CD CD CD CD OO Г*- t^ CO tO CM CM CM CM CM CM CM CM CM ¦—' ^-i —н -* »-« —i _-,_«_,,-<»-_, CO 00 CO CD CO CNOMOrt —ч CD N- CO ^ CO^lOCDN 00 CM CM —* "-« —-.,—.000 OCDCDCDCD C75 00 N CO Ю CMCMCMCMCM CM CM CM CN CM CM *— —¦ —« *-< —• —« —« —< -и CO CD CO CO CD CM —¦ CO CD CO CO CD CM *-< CD Ю CD CM Ot*(?»O O CM <O CD CO "«t1 CD CM —< ОЮ -" NCO О 00 Ю CO —• CDNCO^CO '—'CM^LOh- Tf CO CO <M CM CM —. —i — -и ООООО О CD 00 t— CO CMCMCMCMCM CN CM CM CM CM CMCMCMCMCM CM —• —« ~ —« OO CM 00 ^ —" ^^COCOCO 00ЮС0О00 СОЮСОСМО CMCMCMCM»-* — —• —« —^ ^-н > 00 N CMCMCMCMCM CMCMCMCMCM CMCMCMCMCM CM CM —i »-« —« tJ<CDlO'-<00 ЮМОМО TfCMOOiOO CD 00 CD —«00 Ю rt^ t*< rt^ 00 00 CO CO CM CM CM CM CM —« — —¦• О О5 CD 00 ^ CMCMCMCMCM CMCMCMCMCM CMCMCMCMCM (NCN'-"-<'-< r-T COOOCOOOCO CMCMCMCMCM CM'-hOCDOO CMCMCMCMCM CMCMCMCMCM CMCMCMCMCM CM CM CM —< -и ^Ф CD LO —« 00 tO CN О t- CO ^ CM — CD 00 N00O(Nt}< СОЮЮЮ'Ф "^ ^ Tj4 COCO COOOCOCMCM CM»—*'—«OO^ CMCMCMCMCM CMCMCMCMCM CMCNCMCMCM CM CM CM CM —« Ю ^ CM Ю CO CD N Tf CD CN 1— CM CD Ю CO CM CO CO CO О - •* •> (OO)N^ CM N CD О OO CO ^* OO -^ CO —< 00 rf ^CDCOr^CN OCDh-COLO COiONO)-< Ь-СОСОЮЮ Ю tJ< tJ« rf Tf ^ CO CO CO CO CO CN —• О О CMCNCNCNCN CNCNCNCNCN CN CM.CN CN CN CN CN CN CN CN CD *ф О CO CO О N Ю 00 —« CD N CO tO 00 (Nrf Ю^О NNN(O(D cOtOtOiOiO Tt^^rf^Tt1 rt1 CO CN ¦—• •—« ) O5 N Tf CD CM —< OO CO N- 00 CM CO CO CD ОЭ " * * Ю CD t-^ C7N CNtNCNCNCN CNCNCNCNCN CNCNCNCMCN CNCNCNCNCN OlO'-'N^ —«00 CO C75OOOONN NCOCO ^CM О CD N СОЮ СО Ю Г- CD ^ COCO СОЮЮЮЮ Ю ^ CO CN CN CMCMCMCMCM CMCMCMCMCM CMCMCMCMCM CMCMCMCMCM CO —« CO CO О Ь- Tf CM O»00 CO ^ CO —^ О CD —< CO LO Ь- OOCDCDCD 00000000b- t— N N b- N CO CO LO Tf CO COCOCMCMCM CMCMCMCMCM CMCMCMCMCM CMCMCMCMCM* CD CO —* •—' tO CO CD CM 00 - " • LO CD N LO CD *N —* _ тр О ^ CM со со см to LO CD 00* tO CD CM —- Ю Ю — 00 CM CM N CD СЛ^ОСОСО ONlOCOrt CD 00 CO lO CO N"t COOOO CNcNCN-h*-» —'OOOO СЛСЛСЛСЛО) CD OO b- CO CO CO CO CO CO CO COCOCOCOCO CNCNCNCNCN CNCNCNCNCN 00 00 CD Ю CN OlN^fNO OiMO^CO NCOWNO СОСОЮЮЮ Tl« т^ Tl* «^ т* COCOCOCOCO CO CN —« О О COCOCOCOCO ЧОСОСОСОСО CO CO CO* CO CO COCOCOCOCO* Ю О CN О " • oooo 2J * * • gj CDO 00 ^ CT>CO>-« ^0510-^00 IOCNOOOCO т|<СО-<000 N 00 О CN r}* Ю-^Tf 'ФСО CO CO CO CN CN <N CN CN CN —« *-¦ О О СЛ OO CD »—• <N CO чф Ю CO t4* 00 CJJ ^D ^5 ^5 О О CMCMCMCMCM CMCMCMCMCN CO^COCMO 444
<N 00 Ю СО —« О oo со oo со CDCOlO^ ~??о?2 CD CO Ю Tt4 ^f О со см со oo O)N ЮЮ^ CD **Г — CM i-- CM —< CD —' Ю O)t-inin^ 00 CO CD О 1П CO <M CD CM CO CDt-inin^ Is- —' Г- 00 00 CDt-COin^ in о со со — Ю ч*1 —' CO 00 CDt-СОЮ^ CM CO — CM CO МОС0Ю05 CDt-COin-Ф O5 CNNN — ONCDlOiO in Is- см —• со О 00 CO 00 (M о г- со in in CO 00 CM —'1П —< O) N OCO or-comin О 00 CO CO 1П CD CO CD OO —• tJ« CM CD —« CO О 00 COCO 1П Is*. Is- CD t^» О CO t -iCOOO OOOt-COin r- in со со со О 00 Г- CO CO о in in —• см —• O) t>- h- CO CO OO Ю CD CD *O t4* Tf in O) <N 0H0 1- CO NCNlOlOO) (M О) 1П CO О CO О О) 00 00 CO «П Ю СО СО <n г- см см in СО ООСМ — О -OCOSO CD СО СО — О со оо со со со О CD 1П lO CD "ф со со со со 00 00 'ф r^ 00 ОЬЮСО- rf CO 00 CO CO n со (Moon — 00 CO >ф CM •Ф со со со со in -а* о — ю Tf CO CO 00 CO CO CM 00 CD CO rf -ф CO CO CO — О СО CO —> •ф —. OO CO Ю rj< -Ф CO CO CO_ со in .—i см со Ю CM О 00 CO r^^COCO — О СО СО О C^. "Ф — CD 00 ^^ThCOOO Ю "*f О О rf« 00 Ю CO — CD ^ ^ ^ CO -^ CO CD CD CO CD CO CO — О ^^^^^ CO -Ф О О т^ омлсо- in^^rf^ О CD rf ^ 00 CM 00 CO Tt* CM CD t- CM CM CO CO О 00 CO rf inin^^^ «Ф CM CO CO CD CO CO О 00 CO ininin^^ CD Г- —« '— «Ф in in ю in ю 1П CM 1П чф CO 1П CM CD t- Ю со со m into CO-HCOO- Is- f» CO CO CO о со со о oo О О) О) О) 00 О —< CM CO "ф ("- Ю in Г- CD оо с^- со in ^ см см см см см СО ^ Ю CO ОО CD ОО Is- СО Ю СМ СМ СМ СМ СМ ю сосо>л N О CD 00 t4- CO со см см см см со см см *ф со —« О CD 00 1>- со со см см см '—' О О CM 4f СМ — О О) 00 СО СО СО СМ СМ CD OO 00 О <М CN-OOO) СО СО 00 СО СМ Г"- СО СО ОО О СО СМ »-< О О со со со со со см — —. со in 1П ч*1 СО СМ —« со со со со со СО 1П -<f CO 00 СО СО СО СО СО О О) CD —4 СО 00 СО Ю Ю rf СО СО СО 00 СО О) 00 00 О СМ 00 t^- СО СО 1П СО СО СО СО СО О CD CD —4 СО О ОО Г- Г- СО Tf СО СО СО 00 чф СО 00 rt4 t~- — О О) 00 Г- ^^00 СО СО СМ О О — чф СО СМ —4 О CD ^^^^со СО "Ф Tj< in Is- ^^^^^ О) Г- t-- 00 О 00 t4*» CO lO 1П ^^^^^ см О) оо О) — rf СМ -и О О ю in ю in in CO CO —' — СО CO CM —* О О) СО COCO СО 1П 00 СО О О) 00 со ю ^ см —. 00 00 00 00 00 in со г— оо О) см со — со —< "Ф СО СО СМ СМ см см см см см мсоою-* 1П "Ф rf СО СО см см см см см — ю о ю о см см см <м см сосоюю? см см см см см 00 CM t^» СМ ОО Г4- С4- СО СО Ю см см см см см со о ю о со см см см см см "Ф 00 СО 00 "ф О) 00 00 t4- f*» (М CM CM CM CM CD 00 0O CO CD О О CD О) 00 со со см см см со с- см Is- со CM — —« О О CO OO CO CO CO fv, ^н СО — Is- 00 СО СМ СМ —« СО СО 00 СО СО СО О 1П О СО чф -ф СО СО СМ СО СО СО СО СО СО -н 1П —* СО 1П Ю "Ф rt« CO со со со со со О ч*1 CD "^ О СО СО СО СО СО Г>, ^_ со —¦!>. 00 00 Is- Is- СО СО 00 СО СО СО SOCDCDCD rt4^ СО СО СО СО Is- —• СО СМ -ф СО СО СМ СМ ^-^^^^ Tf Is- СМ СО СМ CD 00 00 Ь- Is- 1П 00 СМ СО —* 00 Г- Is- СО СО in ю in in in О CM Ю 00 CM --« О CD 00 00 OOOO^-t-t- О —« CM CO tJ4 см см см см см г- со о со со — — — о о см см см см см CM CM CM — —• см см см см см CO CO CD CD CO CO CO CM CM CM CM CM CM CM <M in см oo in со см см см см см rfON^- CM CM CM CM CM CM OO Ю CM CD со in in in ч^< см см см см см О CD CO О t~- f- CO СО СОЮ CM CM CM CM CM in —« oo in со 00 00 Is- h- Г- CNCNCNCMCN CD CO CO О Г- CD CD CD CD 00 см см <м см см CO CD CO 00 О ~чО О О О СО СО СО СО СО СМ ОО 1П CM CD 00 00 СО СО СО СМ О) СО СО О СО <М CN <M(N СО СО СО СО СО СО СМ О) СО СО СО СО СО СО СО СО О) COCO О со in ю in in со со со со со Ю СМ 00 Ю СО 00 00 Г- Is- t4- СО СО 00 COCO 00 tJ4 —¦«{->. т}« 4*4*^^^ OO^J4 ON-* со со со ю ю ^^^^^ Is- СО CD 1П CM in in in in ю NOJOOr^O Г4-- l^. CO CO CO Ю CO t-- 00 CD CM CM CN CN CM —« О О 00 О О 00 CO 00 О СМ —* — —« —* "- СМ СО СО СМ — О h- 1П СО СМ — — —« —. —«см чф со г-- CN О 00 'О 'ф см см —« — —. О — ч^ со CD CM CN у—< —< —• CD О СО СО О СО СМ О 00 Is- CN CM CN '—• —« Is- CD CN Ю CD "^ <N —«О) Is-. CM CN CN — —• юг>ооооо Ю СО CN О 00 CM CM CN CM — О CN LO CD «Ф Г- Ю CO —- О CM CN CM CM CN OO CO Ю CO —• CM CN CN CN CM OO О СО Is- CN CD 00 CO 4f CO CM CN CN CM CM t- O) CN CO — CO CM CN CN CN Is- CD CM CO -4 —^ O) 00 CO Ю • COCN CM CM CN О CN 1П CD Tt< CO CO CM CN CM NCDCNCOO •<*« CN -4 CD 00 CO CO CO CN CN g^CO-O со со со со со CN CO 1П 00 CM О 00 CO rt« CO rf CO CO CO CO »-« —« СО 1П 00 1П CO *-< O) Is- -Ф^^сОСО О) 00 00 CD — CO — CD Is- CO iOiO^Tt<t CO —« 00 1П CO in со о oo со с-г-(-.сосо О О О О о СО т*< СО СМ 0 445
Таблица П6 Значения lOOQVo-ных точек tQ(v) распределения Стьюдента (/-распределения) с v степенями свободы V 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо Q=0.4 2Q=0.8 0,325 289 277 271 0,267 265 263 262 261 0,260 260 259 259 258 0,258 258 257 257 257 0,257 257 256 256 256 0 256 256 256 256 256 0,256 255 254 254 253 0,25 0,5 1,000 0,816 765 741 0,727 718 711 706 703 0,700 697 695 694 692 0,691 690 689 688 688 0,687 686 686 685 685 0,684 684 684 683 683 0,683 681 679 677 674 0, 1 0,2 3,078 1,886 ,638 ,533 ,476 ,440 ,415 1,397 ,383 1 ,372 1,363 1 ,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1 ;з19 1,318 1,316 1,315 1,314 1,313 1,311 1 ,310 1,303 1,296 1,289 1,282 0,05 0, 1 6,314 2,920 2,353 2,132 2,015 1,943 1 ,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,658 1,645 0,025 0,05 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,980 1,960 0,01 0, 02 31,821 6,965 4 541 3>47 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2 ,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,358 2,326 0, 005 0,01 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,617 2 576 0,0025 0, 005 127,32 14,089 7,453 5,598 4.773 4,317 4,029 3,833 3,690 3,581 3,497 3,428 3,372 3,326 3,286 3,252 3,222 3,197 3,174 3,153 3,135 3,119 3,104 3,091 3,078 3,067 3,057 3,047 3,038 3,030 2.971 2,915 2,860 2,807 446
Преобразование Фишера (z-преобразование) выборочного коэффициента корреляции г ( th7) Таблица П.7 = th z, z = г ),00 1 2 3 4 ),05 6 7 8 9 ,ю 1 2 3 4 ),15 6 7 8 9 ),20 1 2 3 4 3,25 6 7 8 9 3,30 1 2 3 4 3,35 6 7 8 9 ,000 0000 0100 0200 0300 0400 0500 0601 0701 0802 0902 1003 1104 1206 1307 1409 1511 1614 1717 1820 1923 2027 2132 2237 2342 2448 2554 2661 2769 2877 2986 3095 3205 3316 3428 3541 3654 3769 3884 4001 4118 , 002 0020 0120 0220 0320 0420 0520 0621 0721 0822 0923 1024 1125 1226 1328 1430 1532 1634 1737 1841 1944 2048 2153 2258 2363 2469 2575 2683 2790 2899 3008 3117 3228 3339 3451 3564 3677 3792 3907 4024 4142 ,004 0040 0140 0240 0340 0440 0541 0641 0741 0842 0943 1044 1145 1246 1348 1450 1552 1655 1758 1861 1965 2069 2174 2279 2384 2490 2597 2704 2812 2920 3029 3139 3250 3361 3473 3586 3700 3815 3931 4047 4165 ,006 0060 0160 0260 0360 0460 0561 0661 0761 0862 0963 1064 1165 1267 1368 1471 1573 1676 1779 1882 1986 2090 2195 2300 2405 2512 2618 2726 2833 2942 3051 3161 3272 3383 3496 3609 3723 3838 3954 4071 4189 ,008 0080 0180 0280 0380 0480 0581 0681 0782 0882 0983 1084 1186 1287 1389 1491 1593 1696 1799 1903 2007 2111 2216 2321 2427 2533 2640 2747 2855 2964 3073 3183 3294 3406 3518 3632 3746 3861 3977 4094 4213 г 0,50 1 2 3 4 0,55 6 7 8 9 0,60 1 2 3 4 0,65 6 7 8 9 0,70 1 2 3 4 0,75 6 7 8 9 0,80 1 2 3 4 0,85 6 7 8 9 ,000 5493 5627 5763 5901 6042 6184 6328 6475 6625 6777 6931 7089 7250 7414 7582 7753 7928 8107 8291 8480 8673 8872 9076 9287 9505 0,973 0,996 1,020 1,045 1,071 1,099 1,127 1,157 1,188 1,221 1,256 1,293 1,333 1,376 1,422 ,002 5520 5654 5791 5929 6070 6213 6358 6505 6655 6807 6963 7121 7283 7447 7616 7788 7964 8144 8328 8518 8712 8912 9118 9330 9549 0,978 1,001 1,025 1,050 1,077 1,104 1,133 1,163 1,195 1,228 1,263 1,301 1,341 1,385 1,432 ,004 5547 5682 5818 5957 6098 6241 6387 6535 6685 6838 6994 7153 7315 7481 7650 7823 7999 8180 8366 8556 8752 8953 9160 9373 9594 0,982 1,006 1,030 1,056 1,082 1,110 1,139 1,169 1,201 1,235 1,271 1,309 1,350 1,394 1,442 ,006 5573 5709 5846 5985 6127 6270 6416 6565 6716 6869 7026 7185 7348 7514 7684 7858 8035 8217 8404 8595 8792 8994 9202 9417 9639 0,987 1,011 1,035 1,061 1,088 1,116 1.145 ,175 ,208 ,242 ,278 ,317 1,358 1,403 1,452 ,008 5600 5736 5874 6013 6155 6299 6446 6595 6746 6900 7057 7218 7381 7548 7718 7893 8071 8254 8441 8634 8832 9035 9245 9461 9684 0,991 1,015 1,040 1,066 1,093 1,121 1,151 1,182 1,214 1,249 1,286 1,325 1,367 1,412 1,462 447
г 0,40 1 2 3 4 0,45 6 7 8 9 г , 000 4236 4356 4477 4599 4722 4847 4973 5101 5230 5361 ,000 , 002 4260 4380 4501 4624 4747 4872 4999 5126 5256 5387 ,002 ,004 4284 4404 4526 4648 4772 4897 5024 5152 5282 5413 ,004 ,006 4308 4428 4550 4673 4797 4922 5049 5178 5308 5440 ,006 , 008 4332 4453 4574 4698 4822 4948 5075 5204 5334 5466 ,008 г 0,90 1 2 3 4 0,95 6 7 8 9 г , 000 1,472 1,528 1,589 1,658 1,738 1,832 1,946 2,092 2,298 2,647 ,000 Продолжение , 002 1,483 1,539 1,602 1,673 1,756 1,853 1,972 2,127 2,351 2,759 ,002 , 004 1,494 1,551 1,616 1,689 1,774 1,874 2,000 2,165 2,410 2,903 ,004 » табл. , 006 1,505 1,564 1,630 1,705 1,792 1,897 2,029 2,205 2,477 3,106 ,006 П.7 , 008 1,516 1,576 1,644 1,721 1,812 1,921 2,060 2,249 2,555 3,453 ,008 Примеры. 1. Дано г = 0,206. Определить z = arc th 0,206. Находим (в левом столбце таблицы) строку, соответствующую г = = 0,20. Чтобы получить заданное значение г, к 0,20 надо прибавить 0,006, а потому искомое число находится (в этой строке) в столбце, рас- расположенном под 0,006. Итак, z = arc th 0,206 = 0,2090. 2. Дано г — —0,515. Определить z = arcth (—0,515). Находим (в левом столбце таблицы) строку, соответствующую **** ^>» г = 0,51. Чтобы получить значение г = 0,515, к 0,51 надо прибавить 0,005, а потому arc th 0,515 находится как среднее арифметическое двух чисел данной строки, расположенных в столбцах, соответствующих верхним индексам 0,006 и 0,004, т. е. 0,5709 + 0,5682 arcth 0,515=- !—¦ =0,56955. 2 Соответственно z = arc th (—0,515) = —arcth 0,515 = —0,56955. 3. Дано z — 0,8752. Определить 7*= th z. Находим в таблице число, равное 0,8752, и определяем, какому значению г оно соответствует. В нашем случае г = 0,704. Примечание. В тех случаях, когда в таблице не найдется в точности заданного числа, берут два приближенных (ближайших к не- нему) значения — с недостатком и с избытком. Искомое значение г бу- дет лежать между двумя значениями гх и r2i соответствующими этим приближенным величинам z. 448
Таблица П.8 Верхняя (положительная) граница доверительного интервала для истинного значения коэффициента корреляции в случае отсутствия корреляционной связи (при доверительной вероятности P—l—2Q) п — 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100 0,05 0,9877 9000 805 729 669 0,621 582 549 521 497 0,476 457 441 426 412 0,400 389 378 369 360 0,323 296 275 257 243 0,231 211 195 183 173 164 0,025 0,92692 9500 878 811 754 0,707 666 632 602 576 0,553 532 514 497 482 0,468 456 444 433 423 0,381 349 325 304 288 0,273 250 232 217 205 195 0,01 0,9*507 9800 9343 882 833 0,789 750 715 685 658 0,634 612 592 574 558 0,543 529 516 503 492 0,445 409 381 358 338 0,322 295 274 257 242 230 0,005 0,93877 92000 9587 9172 875 0,834 798 765 735 708 0,684 661 641 623 606 0,590 575 561 549 537 0,487 449 418 393 372 0,354 325 302 283 267 254 0,0025 0,94692 92500 9740 9417 9056 0,870 836 805 776 750 0,726 703 683 664 647 0,631 616 602 589 576 0,524 484 452 425 403 0,384 352 327 307 290 276 0,0005 0,95877 93000 9414 9741 9509 0,9249 898 872 847 823 0,801 780 760 742 725 0,708 693 679 665 652 0,597 554 519 490 465 0,443 408 380 357 338 321 Примечание. Верхний индекс B,3 и т. д.) над цифрой 9 оз" начает, что эта цифра занимает первые 2,3 и т. д. разряда десятичной дроби. Например, 0,94692 = 0,9999692. Пример. Если мы оцениваем корреляционную связь по п — 2Q наблюдениям, то при доверительной вероятности Р = 0,95 (т. е. при 2Q = 0,05) значение коэффициента корреляции, не превосходящее по абсолютной величине 0,444, еще не говорит о статистической значимости этой корреляционной связи (т. е. о том, что истинное значение коэффициента корреляции г отлично от нуля). 449
S VO < н ctf н г S 1<5 I * 1» si ? ¦§¦ в- о s § со S о о о 1! с 11 с со 11 II с II с ю II 1 с СУ О СО СУ о» CJ ^0 СУ о со о» СО СУ СО СУ О со 0,235 184 139 102 072 0,048 030 017 0087 0036 0,001 СОССОООООО ООООООООСО 00 О—(М СО "* Ю Q NOO О^ О CM CM CM CM CM CN CM CM CM CM CO 0,218 168 125 089 060 0,038 022 011 0041 0010 O^CNOOO СО ^ СМ О 00 IC^NOCOO СГ> О —< CM CM 0,250 195 150 108 076 0,048 029 014 0054 ООП 00 ^t О CO CM CO^OCDOJ о~-«с-а<мсо со^ююсо 0,249 198 151 118 083 0.055 033 017 0062 0014 •*Г 00 CS СО О Tf 00 <N CO О t— t^ CO GO СП 05 000-' 0,210 178 149 121 088 0,068 051 029 017 0083 0,0014 OCM^fCOOO OO^CQOO О ЮЮЮЮ^О COCOCOCOCD t**» 0,475 392 342 258 225 0,175 117 067 042 0083 СМ^СОООО СО Tf CO 00 О <M<MOJ(NCO COcOCOCOTf 0,458 375 208 167 042 CM Tf CO GO О —< ~н —i —i СМ 330 240 168 112 о О т^ О см '§ 5 II К К 5 2 о. о. о* о. о о X я* II Я Sf 3" Я 5 « О * II M «j о. 3 — rf О CM 3 СО СО О тГ (J> тГ 5 Tf СО СО СМ —- -ч СО —*\П OOOO'rt* COCOtFCOCO CM —< О о^ю со см —" оо ^f ооо —* О О OOOOO ООО о о оо СМ О СО '—' "~ч О5 00 lO lO "^t1 ^ О О 00 00 О5 — СО СО —> LO --• О Ю СО СМ — —' ООООО О о" о о > О Ю СО 00 S8S28 g§S '-ч СО Ю IS- СГ> —ч —« СО Ю Ь- О5 —«СОЮ СМ СМ СМ СМ СМ СО СО СО ОО'-СООО СоООООО СМСМС0СЛСМ TfCOOOOCO Г--С005СОСО СМ — СО СМ —ч lOTfCOCOCM '—' — ООО ООООО -^ 00О5 ( ООСМО-^СЛ оОО^т^—^СО N(NO( -rfLOcOt^-CJi COOOlOCO"—' ОООС Ю Tf СО CM —¦¦ —<ОООО ООО< С7)О t-ч-* Ю Tf СМ —ч О ю ю t^- см CM t^. CO ^ со со *-• о О СМ "^ СО СО OCMTfCOOO OCM^fCOOO О ^^,^-н^^ СМ СМ СМ СМ СМ СО I
Таблица Проверка статистической значимости выборочного значения коэффициента конкордации w(m) Вероятность того, что данное значение S будет достигнуто или превзойдено, для п = 3 и m от 2 до 10 П.11а 0 2 6 8 14 18 24 26 32 38 42 50 54 56 62 72 74 78 86 96 98 104 114 122 126 128 134 146 150 152 158 162 168 182 200 т 1, 0, 0, 0, -» 000 833 500 167 т 1, 0, 0, 0, 0, 0, 000 944 528 361 194 028 1 0 0 0 0 0 0 0 0 ,000 ,931 ,653 ,431 ,273 ,125 ,069 ,042 ,0046 / 1 0 0 0 0 0 0 0 0 0 0 0 п=Ь ,000 ,954 ,691 ,522 ,367 ,182 ,124 ,093 ,039 ,024 ,0085 ,0377 t 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ,000 ,956 ,740 ,570 ,430 ,252 ,184 ,142 ,072 ,052 ,029 ,012 ,0081 ,0055 ,0017 ,0313 т 1, 0, 0, 0, 0, 0, о, о, 0, о, 0, о, о, о, о, о, о, о, 0, о, 0 = 7 000 964 768 620 486 305 237 192 112 085 051 027 021 016 0084 0036 0027 0012 0332 0332 0*21 т=8 1,000 0,967 0,794 0,654 0,531 0,355 0,285 0,236 0,149 0,120 0,079 0,047 0,038 0,030 0,018 0,0099 0,0080 0,0048 0,0024 0,0011 0,0386 0,0326 0,0*61 0,0*61 0,0*61 0,0536 т = 9 1,000 0,971 0,814 0,685 0,569 0,398 0,328 0,278 0,187 0,154 0,107 0,069 0,057 0,048 0,031 0,019 0,016 0,010 0,0060 0,0035 0,0029 0,0013 0,0366 0,0335 0,0320 0,0*97 0,0*54 0,0*11 0,0*11 0,0*11 0,0*11 0,0^60 т=10 1,000 0,974 0,830 0,710 0,601 0,436 0,368 0,316 0,222 0,187 0,135 0,092 0,078 0,066 0,046 0,030 0,026 0,018 0,012 0,0075 0,0063 0,0034 0,0020 0,0013 0,0383 0,0351 0,0337 0,0318 0,0311 0,0*85 0,0*44 0,0*20 0,0*11 0,0^21 0,0^99 451
Продолжение Вероятность того, что данное значение S будет достигнуто или превзойдено, для /i = 4t m = 3 и га=5 5 1 3 5 9 11 13 17 19 21 25 27 29 33 35 37 41 43 45 49 51 53 57 59 m=3 1,000 0,958 0,910 0,727 0,608 0,524 0,446 0,342 0,300 0,207 0,175 0,148 0,075 0,054 0,033 0,017 0,0017 0,0017 m = 5 1,000 0,975 0,944 0,857 0,771 0,709 0,652 0,561 0,521 0,445 0,408 0,372 0,298 0,260 0,226 0,210 0,162 0,141 0,123 0,107 0,093 0,075 0,067 61 65 67 69 73 75 77 81 83 85 89 91 93 97 99 101 105 107 109 113 117 125 m —5 0,065 0,044 0,034 0,031 0,023 0,020 0,017 0,012 0,0087 0,0067 0,0055 0,0031 0,0023 0,0018 0,0016 0,0014 0,0*64 0,0333 O,0321 0,044 0,0*48 0,0530 Продолжение вероятность того, что данное значение 5 будет достигнуто нли превзойдено, для гс=4 и т=2, т=4 и т=6 S 0 2 4 6 8 10 12 14 16 18 20 22 24 т=2 1,000 0,958 0,833 0,792 0,625 0,542 0,458 0,375 0,208 0,167 6,042 1,000 0,992 0,928 0,900 0,800 0,754 0,677 0,649 0,524 0,508 0,432 0,389 0,355 т=6 1,000 0,996 0,957 0,940 0,874 0,844 0,789 0,772 0,679 0,668 0,609 0,574 0,541 s 82 84 86 88 90 94 96 98 100 102 104 106 108 т=6 0,035 0,032 0,029 0,023 0,022 0,017 0,014 0,013 0,010 0,0096 0,0085 0,0073 0,0061 452
Продолжение s 26 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 62 64 66 68 70 72 74 76 78 80 0,324 0,242 0,200 0,190 0,158 0,141 0,105 0,094 0,077 0,068 0,054 0,052 0,036 0,033 0,019 0,014 0,012 0,0069 0,0062 0,0027 0,0027 0,0016 0,0394 0,0394 0,0394 0ДУ72 0,512 0,431 0,386 0,375 0,338 0,317 0,270 0,256 0,230 0,218 0,197 0,194 0,163 0,155 0,127 0,114 0,108 0,089 0,088 0,073 0,066 0,060 0,056 0,043 0,041 0,037 S 110 114 116 118 120 122 126 128 130 132 134 136 138 140 144 146 148 150 152 154 158 160 162 164 170 180 т = 6 0,0057 0,0040 0,0033 0,0028 0,0023 0,0020 0,0015 0,0390 0,0387 0,0*73 0,0365 0,0340 0,0336 0,0328 0,0324 0,0322 0,0312 0,0*95 0,0*62 0,0446 0,0*24 0,0*16 0,0*12 0,0580 0,0524 0,0*13 Продолжение Вероятность того, что данное значение 5 будет достигнуто или превзойдено, для гс = 5 и т=3 S 0 2 4 6 8 10 12 14 16 18 20 т = Ъ 1,000 1,000 0,988 0,972 0,941 0,914 0,845 0,831 0,768 0,720 0,682 5 22 24 26 28 30 32 34 36 38 40 42 т=3 0,649 0,595 0,559 0,493 0,475 0,432 0,406 0,347 0,326 0,291 0,253 s 44 46 48 50 52 54 56 58 60 62 64 т = 3 0,236 0,213 0,172 0,163 0,127 0,117 0,096 0,080 0,063 0,056 0,045 66 68 70 72 74 76 78 80 82 86 90 т = 3 0,038 0,028 0,026 0,017 0,015 0,0078 0,0053 0,0040 0t0028 0,0390 0,0*69 453
Таблица П.ПГ> Проверка статистической значимости выборочного значения коэффициента конкордации W(m) Критические значения 5 при уровне значимости а 0,05 т 3 4 5 6 8 10 15 20 48.1 60 0 89,8 119,7 1 49,5 62,6 75,7 101 ,7 127,8 192,9 258,0 и 64,4 88,4 112,3 136.1 183,7 231 ,2 349,8 468.5 в 103,9 143,3 182,4 221 ,4 299,0 376,7 570,5 764,4 7 157,3 217,0 276,2 335.2 453,1 571 ,0 864,9 1158,7 Дополнительные значения для п~- т 9 12 14 16 18 S 54,0 71,9 83,8 95,8 107.7 ИСПОЛЬЗУЕМЫЕ В КНИГЕ ОБОЗНАЧЕНИЯ Исходные наблюдения п — число статистически обследованных объектов, объем выборки из многомерной генеральной совокупности; р — число объясняющих (предикторных) переменных, регистрируе- регистрируемых на каждом из объектов; *{¦ * — обозначение /г-и объясняющей переменной на /-м обследуемом объекте; yi — значение исследуемого результирующего показателя («отклика») на 4-м обследованном объекте; — вектор-столбец значений р объясняющих переменных. хлп) зарегистрированных на /-м обследованном объекте; \ у\ \ yj2\ .... у\ *) —значения входных («объясняю- («объясняющих») (*<*)) и выходных («результирующих») {yW) переменных, заре- зарегистрированные в (-м наблюдении (или на i-м обследованном объекте); в„ \ , п — выборка объема я, исходные стати- статистические данные; В — система подвыборок выборки Вп; /у/\ Y- - I — вектор-столбец наблюденных значений результирующей ^ Уп / переменной («отклика»); 454
матрица (размера п X (т - 1)) исходных данных по объясняющим (предикторным) переменным, матрица плана (здесь г|:0(Х), фг(Х), ..., 1|V< (X) — известные базисные функции, по которым разложена функ- функция регрессии /(X; в)); в частном случае линейной (по объясняющим переменным) модели регрессии матрица плана имеет вид: 1 хО) В гл. 3 X используется для обозначения матрицы исходных данных таблицы сопряженности (т. е. ее элемент X(j — это число объектов в двумерной выборке объема л, отнесенных по первой случайной компо- компоненте к градации i, а по второй случайной компоненте — к градации /), а в гл. 6 — для обозначения некоторого подмножества области опреде- определения исследуемой функции регрессии /(X; в). Законы распределения вероятностей и их числовые характеристики Л'к (М. 2) — &-мерный нормальный закон распределения вероятностей с вектором (столбцом) средних значений М и ковариационной матрицей 2 (если контекст не требует уточнения размерности закона, нижний индекс может быть опущен); /•"(v,, v2; a) — нецентральное Г-распределение с числами степеней сво- свободы числителя и знаменателя соответственно vl и v2 и с параметром не- нецентральности а; ?, N{M, 2) — обозначение факта: «случайная величина ? имеет рас- распределение N{M, 2)»; Uq — квантиль уровня д(^-квантиль) стандартного нормального рас- распределения; X?(v) — 100ос°/(,-ная точка у-распределения с v степенями свободы; ^a(v) — 100а%-ная точка распределения Стьюдента с v степенями сво- свободы; yd(vi' V2) — 100а°/о-иая точка центрального /-"-распределения с числами степеней свободы числителя и знаменателя соответственно v, и v2; pjj — элемент последовательности чисел, задающей двумерный (дис- (дискретный) закон распределения вероятностей: вероятность, что случайно извлеченный объект будет отнесен по первой компоненте к i-Pi градации, а по второй — к /-Й; i i ц(Х) - (г\ | ^ X)—случайная величина г|, анализируемая при усло- условии, что значение другой случайной величины (?) зафиксировано и рав- равно X; Е? — теоретическое среднее (математическое ожидание) случайной вели чины |; 455
D? — дисперсия случайной величины ?; Е(л \? = X) — условное среднее значение случайной величины т|, вы- вычисленное при условии, что значение другой случайной величины ? зафиксировано на уровне Х\ D(tj \\ = X) — условная дисперсия случайной величины т], вычисленная при условии, что значение другой случайной величины ? зафиксировано на уровне Х\ cov(?, л) — Е[(? — Е?)(т| — Ет])] — ковариация случайных величин ? и л; ,0) \ Если ? = | • I и л covE, л) = 2 — ковариационная матрица (размера (р + т) X (р -f /n)) вектора (?', л')'» причем она в ряде мест книги разбита на подматрицы по следующей схеме: ¦у __ где подматрицы 2ц, 2^, S^^ и 2^ имеют соответственно размеры рх X р, р X т, т X р, т X т. Корреляционный анализ г = f — коэффициент коор реляции меж- IE (I - Щ2 • Е (Л - ЕлJ] Т ду случайными величинами | и л; п 2 (xi-^x) (yi~'y) f — ' выборочный коэффициент корреляции между ? и т] (здесь *j и e/i — i-e наблюденные значения случайных величин соответственно ? , а лг= у. xi пи у; ^"т1-|"~1/ ' — —индекс корреляции, характеризующий тесноту статистической связи между л и ? в общем случае (здесь а2 — =0л—безусловная дисперсия случайной величины л» а °п(Х) —УсРеД" ненная по различным значениям X случайной величины ? величина условной дисперсии 0(л | ? г- Х))\ 456
2 jtl P<n-6="~" —корреляционное отношение, характе- ризующее тесноту статистической связи между г\ и ? при разбиении диа- диапазона изменения объясняющей (предикторной) переменной на k ин- интервалов группирования (здесь у и — /-е наблюденное значение_ре- зультирующей переменной г) в i-м интервале группирования, у^ = ii -— средняя величина всех mt наблюденных значе- значений г], оказавшихся в i-м интервале группирования, а у = = ( S miyi I /л — общее среднее значение всех п наблюденных значе- значений случайной величины т|); /(?, г\) = НA) + #(т}) — //(g, т]) — информационная мера статистичес- статистической связи между дискретными случайными величинами ? и т], где #(?) == = — ^Рч\г) In р^ (г) =—Е (In рИ?)) — энтропия случайной величины g (здесь /7^ (z) = Р {? = z}, а суммирование производится по всем воз- возможным значениям случайной величины ?); Л. (^ ;) — частный (очищенный) коэффициент корреляции между компонентами *@ и ^(/) вектора X ~ (^(°), д:^), ..., *(Р))' (вычислен при условии, что все остальные компоненты Х^* ^ вектора X зафикси- зафиксированы на некотором постоянном уровне); Гц. ik k k ) — частный коэффициент корреляции между х^ и х^ при условии фиксации на постоянных уровнях компонент х г\ х^ 2\...f x x (^ ~газ 02))'* "(l~"r0p (I2...p~i)) —множественный коэффициент корреляции между результирующей переменной г\ = ?(°) и объяс- объясняющими переменными l^1), ..., %>(р)\ Яц.ь — коэффициент детерминации между г\ и 5; ^-^ — ранговый коэффициент корреляции Спирмэна; ^^ — ранговый коэффициент корреляции Кендалла; W(m) — коэффициент конкордации (согласованности), измеряющий степень согласованности т различных ранжировок одних и тех же объек- объектов. Регрессионный, дисперсионный и ковариационный анализ / (X; 8)=Е(т1 | ? = Х)—функция регрессии результирующей переменной г\ по объясняющим переменным ? (параметрическая запись): р(и) — функция потерь, измеряющая убытки от неточности восстанов- восстановления значения г)(Х) = {г\ | ? = X) с помощью функции fa(X), где и = и(Х\ fa) = г)(Х) — /О(Х), а /а(Х) — некоторая аппроксимация неизвестной функции регрессии f(X); 15 Зак. 244 457
A (fa) == Ep (u(X\ fa)) — теоретический критерий адекватности модели Ш; Ап (/а) = —^ p(w(X$; /а))—выборочный критерий адекватности с = 1 модели /а(^); F — класс допустимых решений (класс функций, в рамках которого подыскивается наилучшая аппроксимация для /(X) = Е(т] | ? = X); f?(X) = arg min A (/a) — функция А-регрессии; ® = (^о» 61э •••! вт)' — вектор-столбец неизвестных параметров, от которых зависит уравнение искомой функции регрессии /(X; в); 9 — статистическая оценка векторного параметра в; |(Х) = (г|H(Х), у\\(Х), ..., г|)т (X)' — вектор-столбец базисных функций ро(), .., г|)т (X), по которым разложена функция регрессии /(X; в); /(X; в) = г|)'(Х) . в = 90г|H(Х) + егг|)г(Х) + ... + вте ¦ г|)т(Х) - функ- ция регрессии, разложенная в системе базисных функций г|)(Х), линей- линейная по параметрам; v ^ — ковариационная матрица оценок в; М(г\у X; в) = 0 —общая (неявная) запись модели регрессии г\ по X; Хд = (*д!), ..., х^) — индикаторные переменные в схеме ковариацион- ковариационного анализа, соответствующие k возможным типам условий эксперимен- эксперимента (нижний индекс д показывает, что эти переменные относятся к «дис- «дисперсионной части» модели ковариационного анализа); вд = (ЭД1, ..., 9дк)' — параметры (неизвестные) модели ковариаци- ковариационного анализа, определяющие сравнительный эффект влияния каждого из k типов условий эксперимента на исследуемый результирующий по- показатель.
СПИСОК ЛИТЕРАТУРЫ 1. Абрамовиц М., С т и г а н И. Справочник по специальным функциям (с формулами, графиками и математическими таблица- таблицами). Пер. с англ. — М.: Наука, 1979. —831 с. 2. Адлер Ю. П. Введение в планирование эксперимента. — М.: Металлургия, 1969. —' 159 с. 3. А д л е р Ю. П. Предпланирование эксперимента. — М.: Знание, 1980. — 72 с. 4. А з а р я н О. В. Прогноз технико-экономических показателей проектируемых гидросооружений с помощью метода типологичес- типологической регрессии. — В кн.: II Всесоюз. школа-семинар «Програм- «Программно-алгоритмическое обеспечение прикладного многомерного стя- тистического анализа» (сент., 1983 г.): Тез. докл. М., 1983, с. 125— 137. 5. Азгальдов Г. Г. Теория и практика оценки качества това- товаров. — М.: Экономика, 1982. —256 с. 6. А й в а з я н С. А. Ковариационный анализ. — В кн.: Матема- Математическая энциклопедия. М., 1979, т. 2, с. 901—902. 7. А й в а з я н С. А. Конфлюэнтный анализ. — В кн.: Математи- Математическая энциклопедия. М., 1979, т. 2, с. 1083. 8. Айвазян С. А. Многомерный статистический анализ. — В кн.: Математическая энциклопедия. М., 1982, т. 3, с. 731—736. 9. Айвазян С. А. Об опыте применения экспертно-статистичес- кого метода построения неизвестной целевой функции. — В кн.: Многомерный статистический анализ в социально-экономических исследованиях. М., 1974, с. 56—86. 10. Айвазян С. А. Статистическое исследование зависимостей. — М.: Металлургия, 1968. — 227 с. 11. А й в а з я н С. А., БежаеваЗ. И., Староверов О. В. Классификация многомерных наблюдений. — М.: Статистика, 1974. — 240 с. 12. Айвазян С. А., Богдан овский И. М. Методы статис- статистического исследования парных зависимостей в схеме конфлюэнт- ного анализа и их применения. — Заводская лаборатория, 1974, . т. 40, № 3, с. 285—295. 13. А й в а з я н С. А., Е н ю к о в И. С, Мешал ки н Л. Д.О структуре и содержании пакета программ по прикладному ста- статистическому анализу. — В кн.: Алгоритмическое и программное обеспечение прикладного статистического анализа. М., 1980, с. 7—62. 14. Айвазян С. А., Енюков И. С, М е ш а л к и н Л. Д. Прикладная статистика: Основы моделирования и первичная об- обработка данных. —М.: Финансы и статистика, 1983. —472 с. 15* 459
15. Айвазян С. А., Р о з а н о в Ю. А. Некоторые замечания к асимптотически-эффективным линейным оценкам коэффициентов регрессии. — Труды Математического института им. В. А. Стек- лова АН СССР, 1964, т. LXXI, с. 24—36. 16. Айвазян С. А., Тамар ин А. А. Методика нахождения татировочных зависимостей для косвенного контроля технологи- технологических параметров изготовления железобетонных изделий и их конструкционных характеристик. — В кн.: Неразрушающие ме- методы контроля качества железобетонных конструкций. М., 1972, с. 58-76 17. А л б е р т А. Регрессия, псевдоинверсия и рекуррентное оцени- оценивание. Пер. с англ. — М.: Наука, 1977. —223 с. 18. Анализ авторегрессий: Сб. статей. Пер. с англ. — М.: Статистика, 1978. — 231 с. 19. Алгоритмы многомерного статистического анализа и их примене- применения. — М.: ротапринт ЦЭМИ, 1975. — 176 с. 20. Андерсон Т. Введение в многомерный статистический ана- анализ. Пер. с англ. — М.: Физматгиз, 1963. —500 с. 21. Андерсон Т. Статистический анализ временных рядов. Пер. с англ. — М.: Мир, 1976. — 755 с. 22. А п р а у ш е в а Н. Н., Конаков В. Д. Использование не- непараметрических оценок в регрессионном анализе. — Заводская лаборатория, 1973, т. 39, № 5, с. 566—569. 23. А п т о н ( Г. Анализ таблиц сопряженности. Пер. с англ. — М.: Финансы и статистика, 1982. — 143 с. 24. А фи фи А., ЭйзенС. Статистический анализ: Подход с исполь- использованием ЭВМ. Пер. с англ. — М.: Мир, 1982. —486 с. 25. Бард Й. Нелинейное оценивание параметров. Пер. с англ. — М.: Статистика, 1979. — 349 с. 26. Б а р у ч а-Р и д А. Т. Элементы теории марковских процессов и их приложения. Пер. с англ. —М.: Наука, 1969. — 511 с. 27. Бешелев С. Д., ГурвичФ. Г. Математико-статистические методы экспертных оценок. — М.: Статистика, 1980. — 263 с. 28. Бокс Дж., ДженкинсГ. Анализ временных рядов: Прог- Прогноз и управление. — М.: Мир, 1974. Вып. 1. — 406 с; вып. 2. — 224 с. 29. Б о л ч Б., X у а н ь К. Дж. Многомерные статистические методы для экономики. Пер. с англ. —М.: Статистика, 1979. —317 с. 30. Большев Л. Н., Смирнов Н. В. Таблицы математичес- математической статистики. — М.: Наука, 1965. — 464 с. 31. Браун М. Теория и измерение технического прогресса. Пер. с англ. — М.: Статистика, 1971. —208 с. 32. Б у х ш т а б е р В. М., М а с л о в К. В., М а р к и н В. Г. Обратные задачи прикладной статистики и томография. — В кн.: II Всесоюз. школа-семинар «Программно-алгоритмическое обес- обеспечение прикладного многомерного статистического анализа» (сент. 1983 г.): Тез. докл. М., 1983, с. 26—33. 33. В а н-д е р-В а р д е н Б. Л. Математическая статистика. Пер. с нем. — М.: ИЛ, 1960. — 434 с. 34. В а п н и к В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979. — 447 с. 35. В а с и л ь е в Ф. П. Численные методы решения экстремаль- экстремальных задач. —М.: Наука, 1980. —520 с. 36. Веревка О. В. Функциональные возможности пакета Д- СТАТ. — В кн.: II Всесоюз. школа-семинлр «Программно-ал- 460
горитмическое обеспечение прикладного многомерного статисти- статистического анализа» (сент. 1983 г.): Тез. докл. М., 1983, с. 291—293. 37. Вересков А. И. Сходимость некоторых алгоритмов миними- минимизации, не использующих производных. — В кн.: Методы иссле- исследования сложных систем: Тр. семинара аспирантов и молодых специалистов ВНИИ системных исследований. М., 1981, с. 58—62. 38. В е р е с к о в А. И., Леви н В. Е., Федоров В. В. Ре- гуляризированный м. н. к. без производных. — В кн.: Линейная и нелинейная параметризация в задачах планирования эксперимен- экспериментов. М., 1981, с. 20—27. 39. В о е в о д и н Г. В. Вычислительные основы линейной ал- алгебры. — М.: Наука, 1977. —304 с. 40. Гаврилец Ю. Н. Социально-экономическое планирование: Системы и модели. — М.: Экономика, 1974, — 174 с. 41. Г р е н д ж е р К., X а т а н а к а М. Спектральный анализ вре- временных рядов в экономике. — М.: Статистика, 1972. — 312 с. 42. Д е е в А. Д., БурлуцкийГ. И. О распределении условной невязки прогноза в модели множественной регрессии и отборе информативных признаков. — В кн.: II Всесоюз. науч.-техн. конференция «Применение многомерного статистического ана- анализа в экономике и оценке качества продукции»: Тез. докл. Тар- Тарту, 1981, с. 208—213. 43. Демиденко Е. 3. Линейная и нелинейная регрессии. — М.: Финансы и статистика, 1981. — 302 с. 44. Д е м и д е н к о Е. 3. Гребневая регрессия.— М., ИМЭМО АН СССР, 1982 (препринт). — 126 с. 45. Денисов В. И. Математическое обеспечение системы «экспе- «экспериментатор». — М.: Наука, 1977. — 132 с. 46. Джонстон Дж. Эконометрические методы. Пер. с англ. — М.: Статиггика, 1980. — 446 с. 47. Д р е й п е р Н., С м и т Г. Прикладной регрессионный анализ. Пер. с англ. — М.: Статистика, 1973. — 392 с. 48. Дуда Р., X а р т П. Распознавание образов и анализ сцен. Пер. с англ. — М.: Мир, 1976. —511 с. 49. Д у к а р с к и й О. М., Левит Б. Я. Некоторые применения непараметрических оценок регрессии. — В кн.: Многомерный статистический анализ в социально-экономических исследованиях. М., 1974, с. 31—37. 50. Е з е к и э л М., Фокс К. А. Методы анализа корреляций и регрессий. Пер. с англ. — М.: Статистика, 1966. — 559 с. 51. Е н ю к о в И. С. Методы оцифровки неколичественных призна- признаков. — В кн.: Алгоритмическое и программное обеспечение при- прикладного статистического анализа. М., 1980, с. 309—316. 52. ? н ю к о в И. С. Оценивание параметров и критерии отбора информативных переменных в линейных регрессионных моделях со случайными аргументами. — В кн.: II Всесоюз. науч.-техн. конференция «Применение многомерного статистического ана- анализа в экономике и оценке качества продукции»: Тез. докл. Тарту, 1981, с. 214—218. 53. Е п и ш и н Ю. Г. Об оценках параметров регрессии по методу наименьших абсолютных отклонений: — Экономика и математи- математические методы, 1974, т. 10, вып. 5, с. 1023—1б28. 54. Завьялов Ю. С, Квасов Б. И., Мирошниче ко В. Л. Методы сплайн-функций.— М.: Наука, 1980. — 352 55. Загоруйко Н. Г. Эмпирическое предсказание. — Новоси- Новосибирск: Наука, 1979. — 124 с. 461
56. Зайцева Л. М. Структурный подход к определению взаимо- взаимосвязей в системе случайных величин. — Изв. АН СССР. Техни- Техническая кибернетика, 1984, № 4, с. 61—82. 57. 3 а к с Л. Теория статистических выводов. Пер. с англ. —М.: Мир, 1975. — 776 с. 58. 3 а р у ц к и й В. И. Классификация нормальных векторов про- простой структуры в пространстве большой размерности. — В кн.: Прикладной многомерный статистический анализ. М., 1978, с. 37— 51. 59. 3 а р у ц к и й В. И. О выделении некоторых графов связей для нормальных векторов в пространстве большой размерности. — В кн.: Алгоритмическое и программное обеспечение прикладного статистического анализа. М., 1980, с. 189—208. 60. Зельнер А. Байесовские методы в эконометрии. Пер. с англ.— М.: Статистика, 1980. —439 с. 61. К а р а п е т я н К. А. Об одном статистическом критерии про- проверки гипотезы о структуре многомерных наблюдений. — В кн.: Многомерный статистический анализ в социально-экономических исследованиях. М., 1974, с. 294—308. 62. К а ц М. Вероятность и смежные вопросы в физике. — М.: Мир, 1975. —406 с. 63. К е м е н и Дж., С н е л л Дж. Кибернетическое моделирование: Некоторые приложения. Пер. с англ. —М., Советское радио, 1972. — 192 с. 64. К е н д а л л М. Дж., Стьюарт А. Теория распределений. Пер. с англ. — М.: Наука, 1966. —587 с. 65. КендаллМ. Дж., Стьюарт А. Статистические выводы и связи. Пер. с англ. — М.: Наука, 1973. —899 с. 66. К е н д а л л М. Дж., Стьюарт А. Многомерный статистичес- статистический анализ и временные ряды. Пер. с англ. —М.: Наука, 1976. — 736 с. 67. К е н д э л М. Ранговые корреляции. — М.: Статистика, 1975. — 214 с. 68. Киселев Н. И. Экспертно-статистический метод определения функции предпочтения по результатам парных сравнений. — В кн.: Алгоритмическое и программное обеспечение прикладного статистического анализа. М., 1980, с. 111—123. 69. Конаков В. Д. О структуре и содержании библиотеки программ по разделу «Статистическое исследование зависимос- зависимостей». —В кн.: Алгоритмическое и программное обеспечение при- прикладного статистического анализа, M.t 1980, с. 63—92. 70. Кокс Д., Хинкли Д. Теоретическая статистика. Пер. с англ. — М.: Мир, 1978. —560 с. 71. Крамер Г Математические методы статистики. — 2-е изд. Пер. с англ. — М.: Мир, 1975. — 648 с. 72. Куке Я. П., В и й к м а н н Э. В., П у к к К. Г. Программы корреляционного и одномерного регрессионного анализа.—Тал- анализа.—Таллин: АН ЭССР, 1980, ротапринт. — 50 с. 73. Куке Я. П., Т и й т с Т. В., В и й к м а н н Э. В. Программы множественного регрессионного анализа. — Таллин: АН ЭССР, 1979. — 61 с. 74. Куке Я. П., Т и й т с Т. В. Программы дисперсионного ана- анализа.— Таллин: АН ЭССР, 1980, ротапринт. —72 с. 75. К у л ь б а к С. Теория информации и статистика. Пер. с англ. — М.: Наука, 1967. —408 с. 462
76. Л б о в Г. С. Методы обработки разнотипных экспериментальных данных. — Новосибирск: Наука, 1981. — 180 с. 77. Л и н н и к Ю. В. Метод наименьших квадратов и основы матема- тико-статистической теории обработки наблюдений. — М.: Физ- матгиз, 1958. — 333 с. 78. Л о э в М. Теория вероятностей Пер. с англ. — М.: ИЛ, 1962. — 719 с. 79. МалолеткинГ. Н., Мельников И. Н., X а ш и н В. М. Об алгоритмах выбора наилучшего подмножества признаков в регрессионном анализе. — В кн.: Вопросы кибернетики: Теоре- Теоретические проблемы планирования эксперимента. М., 1977, вып. 35, с. 110—145. 80. М а л е н в о Э. Статистические методы в эконометрии. Пер. с франц.— М.: Статистика, 1975, вып. 1, 422 с; 1976, вып. 2, 325 с. 81. Малютов М. Б., М а р т и н е с-К р е с н о К. X. Оценива- Оценивание тренда и компонент дисперсии линейной регрессионной мо- модели.'— В кн.: Математическая статистика. Пермь, 1980, с. 114— 134. 82. М а р а к у е в А. В. Статистические модели для формирования нормативов в судоремонтных работах. — В кн.: II Всесоюз. науч.-техн. конференция «Применение многомерного статисти- статистического анализа в экономике и оценке качества продукции»: Тез. докл. Тарту, 1981, с. 123—127. 83. Математические алгоритмы и программы для малых ЭВМ. — М.: Финансы и статистика, 1981, с. 123—127. 84. Математическое обеспечение ЕС ЭВМ. — Минск: Институт ма- математики АН БССР, 1980, вып. 1, с. 202. 85. М а т ю х а И. Я. Статистика бюджетов населения. — М.: Ста- Статистика, 1967. — 248 с. 86. М а ц е в и ч Д. А., П е т р о в и ч М. Л., Федоров В. В. Экспериментальное сравнение методов оценивания параметров регрессионных моделей в случае ошибок в независимых перемен- переменных. — В кн.: Программное обеспечение ЭВМ, Минск, 1982, вып. 35, с. 42—56. 87. Мельников Н. Н., Малолеткин Г. Н. Стандартное математическое обеспечение ЕС ЭВМ для анализа регрессионных экспериментов. — В кн.: II Всесоюз. научн.-техн. конференция «Применение многомерного статистического анализа в экономике и оценке качества продукции»: Тез. докл. Тарту, 1981, с. 379—382. 88. Мешал кин Л. Д. Использование весовой функции при оцен- оценке регрессионной зависимости. — В кн.: Многомерный статисти- статистический анализ в социально-экономических исследованиях. М., 1974, с. 25-30. 89. Мешалкин Л. Д., Курочкина А. И. Новый подход к параметризации регрессионных зависимостей. — В кн.: Иссле- Исследования по математической статистике: Записки научных семина- семинаров ЛОМИ АН СССР. Л., 1979, т. 87, с. 79—86. 90. М е ш а л к и н Л. Д., С т р у н и н Б. М. Методика составления таблиц перевода чисел твердости. — Заводская лаборатория, 1967, т. 33, № 11, с. 1408—1417. 91. М и р з о е в А. А. Система программ логлинейного анализа со- социологической информации. — В кн.: I Всесоюз. школа-семинар «Программно-алгоритмическое обеспечение прикладного статис- статистического анализа»: Тез. докл. Ереван, 1979, с. 259—260. 92. М и р к и н Б. Г. Анализ качественных признаков и структур. — М.: Статистика, 1980. —319 с. 463
93. Мостеллер Ф., Т ь ю к и Дж. Анализ данных и регрессия. Пер. с англ. — М.: Финансы и статистика, 1982, вып. 1. — 224 с; въщ. 2. — 240 с. 94. М у д р о в В. И., Куш ко В. Л. Методы обработки изме- измерений. — М.: Советское радио, 1976. — 192 с. 95. Н а л и м о в В. В. Применение математической статистики при анализе вещества. —М.: Физматгиз, 1969. —340 с. 96. Н е й л о р Т. Машинные имитационные эксперименты с моделя- моделями экономических систем. Пер. с англ. — М.: Мир, 1975. — 500 с. 97. Орлов А. И. Оценка размерности модели регрессии. — В кн.: Алгоритмическое и программное обеспечение прикладного ста- статистического анализа. М., 1980, с. 92—99. 98. ОТЭКС: Пакет прикладных программ для обработки таблиц экс- экспериментальных данных (версия 3.0). Новосибирск, 1981. — 27 с. 99. Пакет программ по прикладному статистическому анализу (ППСА). - М.: ЦЭМИ АН СССР, 1983. - 187 с. 100. Пакет прикладных программ статистической обработки данных на ЕС ЭВМ. — Киев: Ин-т кибернетики АН УССР, 1979. — 66 с. 101. Пакет промышленных программ для анализа и прогноза времен- временных рядов/Френкель А. Д., Гарбер Е. В., Шифрин Г. М., Горе- Горелик Н. А, — В кн.: II Всесоюз. школа-семинар «Программно- алгоритмическое обеспечение прикладного многомерного ста- статистического анализа»: Тез. докл., М., 1983, с. 167—169. 102. Парлетт П. Б. Симметричная проблема собственных значе- значений: Численные методы. — М.: Мир, 1983. — 382 с. 103. Петрович М. Л. Регрессионный анализ и его математическое обеспечение на ЕС ЭВМ. — М.: Финансы и статистика, 1982. — 109 с, 104. Пикялис В.,РаудисШ. Общее описание пакета СОРРА-2. Входной язык. Условия применения. — В кн.: Статистические проблемы управления. — Вильнюс: ИМ К АН ЛитССР, 1982, выи. 58, с. 9—26. 105. П и н к а в а Я. Вероятностные распределения в задачах статис- статистического ранжирования. — Вопросы кибернетики. Экспертные опенки. --М.: АН СССР, 1979, с. 34—52. 106. Пирогов Г, Г., Федоровский Ю. П. Проблемы струк- структурного оценивания в эконометрии. — М.: Статистика, 1979. — 32В с. 107. Поляк Б. Т. Методы минимизации функций многих перемен- переменных. — Экономика и математические методы, 1967, т. 3, № 6, с 881—902. 108. Поляк Б. Т. Метод сопряженных градиентов в задачах на экст- экстремум. — Журн. вычисл. матем. и матем. физ., 1969, т. 9, № 4, с. 807—821. 109. Поляк Б. Т. Сходимость методов возможных направлений в экстремальных задачах. — Жури, вычисл. матем. и матем. физ., 1971, т II. Ня 4, с. 855—869. ПО. Г! о л я к Б. Т., Ц ы п к и н Я. 3. Адаптивные алгоритмы оце- оценивания (сходимость, оптимальность, стабильность). — Автома- Автоматика и телемеханика, ,1979, №3, с. 71—84. 111. Программное обеспечение ЭВМ. —Минск: ИМ АН СССР, 1982, вып. 36. — 72 с- 112 Программный комплекс по планированию эксперимента для ЕС ЭВМ/Бродский Л. И., Малолеткин Г. Н., Мельников Н. И. — В кн,: I Всесоюз. школа-семинар «Программно-алгоритмическое 464
обеспечение прикладного статистического анализа»: Тез. докл. Ереван. 1979, с. 140—146. ИЗ. П р о х о р с к а с Р. П., Ж ю ж н и с В. Е., МисюненеН.Б. Применение некоторых классификаторов для прогнозирования отдаленных итогов инфаркта миокарда. — В кн.: Проблемы ише- мической болезни сердца. — Вильнюс, 1976, с. 261—267. 114. П у а р ь е Д. Эконометрия структурных изменений (с примене- применением сплайн-функций). Пер. с англ. — М.: Финансы и статистика, 1981. — 184 с. 115. Пшеничный Б. Н., Данилин Ю. М. Численные мето- методы в экстремальных задачах. — М.: Наука, 1975. — 319 с. 116. Р а й б м а н Н. С, Д о р о ф е ю к А. А., К а с а в и н А. Д. Идентификация технологических объектов методами кусочной аппроксимации. — М.; Ин-т проблем управления, 1977. — 70 с. 117. Ра о С. Р. Линейные статистические методы и их применения. Пер. с англ. — М.: Наука, 1968. — 548 с. 118. Сборник научных программ на Фортране. — М.: Статистика, 1974, вып. 1. — 216 с. 119. Се бе р Дж. Линейный регрессионный анализ. Пер. с англ. — М.: Мир, 1980. — 456 с. 120. Сильвестров Д. С, Клесов О. И., Ремнев В. Н. Пакеты прикладных программ по анализу временных рядов ПАРИС и МАВР. — В кн.: II Всесоюз. школа-семинар «Програм- «Программно-алгоритмическое обеспечение многомерного статистического анализа» (сент. 1983 г.): Тез. докл. М., 1983, 165—166. 121. Система обработки разнотипных данных SITO: Интерактивный вариант/В. В. Александров, А. И. Алексеев, Н. Д. Горский, А. М. Никифоров. — Л., ЛНИВЦ АН СССР, 1982, препринт. — 45 с. 122. Система статистического анализа и обработки наблюдений на Eq ЭВМ/О. М. Дукарский, Н. М. Кисурина, Ю. А. Кошевник и др. Энергетическое строительство, 1979, N° 10, с. 69—72. 123. Смоляк С. А. Оптимальное восстановление функций и свя- связанные с ним геометрические характеристики множеств. — В кн.: Тр. 3 зимней школы по математическому программированию и смежным вопросам. — М.: ЦЭМИ АН СССР, 1970, вып. 3, с. 509 — 557. 124. С м о л я к С. А., Т и т а р е н к о Б. П. Устойчивые методы оценивания. —ЭД.г Статистика, 1980. —208 с. 125. Степнов Н. Н. Линейный регрессионный анализ результатов усталостных испытаний алюминиевых сплавов. — Заводская ла- лаборатория, 1963, т. 29, № 10, с. 1212—1214. 126. Т е й л Г. Эконометрические прогнозы и принятие решений. Пер. с англ. —М.: Статистика, 1971. —488 с. 127. Т и й т Э. М. Актуальные проблемы анализа данных и некоторые возможности их решения. — В кн.: II Всесоюз. науч.-техн. кон- конференция «Применение многомерного статистического анализа в экономике и оценке качества продукции»: Тез. докл. Тарту, 1981, с. 64—79. 128. Типология потребления/Под ред. С. А. Айвазяна и Н. М. Рима- шевской. — М.: Наука, 1978. — 175 с. 129. Т о о д и н г Л. М. Система статистической обработки данных в вычислительном центре ТГУ: Тр. вычисл. центра, Тартуск. гос. ун-т, 1977, вып. 40, с. 3—7. 130. Тутубалин В. Н. Теория вероятностей. — М.: МГУ, 1972. — 68 с 465
131. Тюрин Ю. Н., Я х ь я А. Ю. Доверительное оценивание по- порядков на основе рангов. — Вопросы кибернетики. Экспертные оценки. М., 1979, с. 66—72. 132. Уил кинсон Дж., Райнис С. Справочник алгоритмов на языке Алгол: Линейная алгебра. Пер. с англ. — М.: Машино- Машиностроение, 1977. — 389 с. 133. Уил кинсон Дж. Алгебраическая проблема собственных зна- значений. Пер. с англ.—М.: Наука, 1970.— 564 с. 134. Уил сон Р. Введение в теорию графов. Пер. с англ.— М.: Мир, 1977.— 207 с. 135. Успенский А. Б., Федоров В. В. Вычислительные аспекты метода наименьших квадратов при анализе и планиро- планировании регрессионных экспериментов.— М.: МГУ, 1975.— 168 с. 136. Федоров В. В. Теория оптимального эксперимента. — М.: Наука, 1971.— 197 с. 137. Федоров В. В. Оценивание параметров регрессии в случае вектор-наблюдения.— В кн.: Регрессионные эксперименты. М., 1977, с. 112—122. 138. Федоров В. В. Регрессионный анализ при наличии погрешно- погрешностей в определении предиктора.— Вопросы кибернетики, 1978, вып. 47, с. 69—75. 139. Федотов А. М. DIAS — автоматизированная система хране- хранения и статистической обработки экспериментальных данных (крат- (краткое описание). — Новосибирск: ВЦ СО АН СССР, 1978, ч. 1, пре- препринт.— 36 с. 140. Феллер В. Введение в теорию вероятностей и ее приложения. Т.2. Пер. с англ.— М.: Мир, 1967.— 752 с. 141. Фишер Ф. Проблема идентификации в эконометрии. Пер. с англ.— М.: Статистика, 1978.— 224 с. 142. Форсайт Дж., Малькольм М., Моулер К-. Машинные методы математических вычислений. Пер. с англ.— М.: Мир, 1980.—280 с. 143. Форсайт Дж., М о л е р К. Численное решение систем ли- линейных алгебраических уравнений. Пер. с англ. — М.: Мир, 1969.— 167 с. 144. Френкель А. А. Математические методы анализа динамики и прогнозирования производительности труда.— М.: Экономика, 1972. —190 с. 145. X иммел ьблау Д. Анализ процессов статистическими мето- методами. Пер. с англ.— М.: Мир, 1973.— 957 с. 146. X иммельблауД. Прикладное нелинейное программирова- программирование. Пер. с англ.—М.: Мир, 1975.— 534 с. 147. Ч е н ц о в Н. Н. Статистические решающие правила и опималь- ные выводы.— М.: Наука, 1972.— 520 с. 148. Ш е ф ф е Г. Дисперсионный анализ. Пер. с англ.—М.: Физматгиз, 1963.— 626 с. 149. Ш у р ы г и н А. М. Математические модели статистического оце- оценивания.— В кн.: II Всесоюз. школа-семинар «Программно-ал- «Программно-алгоритмическое обеспечение прикладного многомерного статисти- статистического анализа» (сент., 1983 г.): Тез. докл. М., 1983, с. 73—81. 150. Ю д и н А. Д. Об одной задаче оптимальной обработки результа- результатов наблюдений. —В кн.: Алгоритмическое и программное обеспе- обеспечение прикладного статистического анализа. М., 1980, с. 279— 286. 151. Яковлев А. А., Ставицкая Н. А. Алгоритм выбора суб- субоптимальной совокупности предикторов длт множественной мно- многомерной регрессии.—Вкн.: Вопросы кибернетики. Нетрадицион- 466
ные подходы к планированию эксперимента.— М.: ВИНИТИ 1981, с. 110—118. 152. Я н ч Э. Прогнозирование научно-технического прогресса. Пер с англ.— М.: Прогресс, 1970.— 568 с. 153. AlveyN., Galwey N., LaneP. An introduction to GENS- TAT.— London, N. Y.: Academic Press, 1982.— 152 p. 154. Andersen E. Discrete statistical models with social science applications. —North Holland, 1980.— 220 p. 155. Anderson T. W. On asymptotic distribution of estimate of parameter of stochastic difference equations.— Ann. Math. Statist. 1959, vol. 30, № 3, p. 676—687. 156. Andrews D. F. A robust method for multiple linear regression.— Technometrics, 1974, voL 16, № 4, p. 523—531. 157. BachacouJ., MillierC, Masson J. P. Manuel de la programmtheqe statistique AMANCE 81.— Verasilles: I. N. R. A., 1981, 516 p. 158. BakerR. J., Richardson M. G. GLIM-3.— In: COMPS- TAT-82, Proc. in Comput. Statist.: Package and Facilities Present at COMPSTAT-82, Wien, 1982, p. 59—60. 159. В а г d Y. Comparison of Gradient Methods for the Solution of Non-linear Parametric Estimation Problems. — SI AM J. Nume- Numerical Analysis, 1970, vol. 7, p. 157—186. 160. В а г г A. J. et al. A User's Guide to SAS-76.— SAS Institute Inc., 1976.— 329 p. 161. В e a 1 e E. M. L. Confidence regions in nonlinear estimation. — J. Roy. Statist. Soc, 22, 1960, ser. B, p. 41—76. 162. В e a 1 e E. M. L. The scope of Jordan elimination in statistical computing.—J. Inst. Math. Appl., 1974, vol. 10, p. 138—140. 163. В e 1 s 1 e у D. А., К u h E., W e 1 s с h R. E. Regression diag- diagnostics: Identifying influential data and sources of collinearity.— N. Y. etc.: John Wiley and sons, 1980.— 292 p. 164. В e n d e 1 R. В., A f i f i A» A. Comparison of Stopping Rules in Forward «Stepwise» Regression. —J. Amer. Statist. Assoc, 1977, vol. 72, p. 46—53. 165. В e n z e с r i J. P. et al. L'analyse des donnees. I La Taxonomie.— Paris. Dunod, 1973. — 611 p. 166. Benzecr i J. P. et al. L'analyse des donnees: II L'analyse des correspondences.— Dunod, 4-e ed., 1982.— 632 p. 167. Berkson J. Are there two regression?— J. Amer. Statist. As- Assoc, 1950, vol. 45, p. 164—180. 168. В i s h о p Y. M., F i e n b e г g S. E., H о 1 1 a n d P. W. Discrete Multivariate Analysis: Theory and Practice. — Cambridge: NIT — Press, 1975.— 607 p. 169. BMDP Biomedical Computer Programs. Ed. W. J. Dixon.—Univ. of California Press, 1979.— 880 p. 170. В о x G. E. P., С о x D. R. An analysis of transformations. J. Roy. Statist Soc, ser. B, 1964, vol. 26, p. 211—243. 171. BraduD., GabrielK. R. The biplot as a diagnostic tool for models of two-way tables.—Technometrics, 1978, vol. 20, p. 47— 68. 172. Chambers J. Fitting nonlinear models: numerical techniques.— Biometrika, 1973, vol. 60, p. 1 — 13. 173. С h a n T. F., G о 1 u b G. H. Le V e q u e R. J. Updating Formu- Formulae and a Pairwise Algorithm for Computing Sample Variances. — In: Compstat-82, Proc. in Computational Statistics, 5 th Sympos. Wien, 1982, p. 30—41. 467
174. С h o w С. К. Tree dependence in normal distributions.— In: The 1970 International Symposium on Information Theory. The Net- Netherlands, 1970, p. 2.9. 175. С h о w C. K., L i u C. N. Approximating discrete probability distributions with dependence trees.— IEEE Trans. Inform. Theory IT — 14, 1968, p. 462—467. 176. С h о w C. K., L i u С N. An approach to structure adaptation in pattern recognition.— IEEE Trans. Sys. Sci. Cyb. SSC-2, 1966, p. 73—80. 177. Cohen A. All admissible linear estimates of the mean vector.— Ann. of Math. Statistic, 1966, vol. 37, p. 458—463. 178. CookeD., G r a v e n A. H., Clarke G. M. Basic Statisti- Statistical Computing.— London: Edward Arnold Ltd., 1982.— 156 p. 179. Dempster A. Covariance selection.— Biometrics, 1972, vol. 28, № 1, p. 167—175. 180. E f г о i m s о n M. A. Multiple regression analysis.— In: Mathe- Mathematical Methods for Digital Computers, Ed. by Ralston A. and Wilf H. S., N. Y., 1960, p. 191—203. 181. FarebrotherR. W. The minimum mean square error linear estimator and ridge regression.— Technornetrics, 1975, vol. 17, № 1, p. 127—128. 182. FedorovV. V. Regression problems with controllable variables, subject to error.— Biometrika, 1974, vol. 61, p. 49—56. 183. Fisher R. A. Statistical methods for Research workers, 10 th ed.— London: Oliver and Boyd, 1948.— 372 p. 184. F i s к P. R. Models of second kind in regression analysis. J. Roy. Statist. Soc. ser. B, 1967, vol. 29, p. 266—281. 185. Fletcher R. Function Minimization without Evaluating Deri- Derivatives.— a Review, Comput. J., 1965, vol. 8, p. 33—41. 186. Fletcher R., Grant J. A., H e b 1 e n H. p. The cal- calculation of linear best Lp — approximations — a Review, Comput J., 1971, vol. 14, № 3, p. 276—279. 187. Forsy t h e A. B. et al. A stoping rule for variable selection in multiple regression. — J. Amer. Statist. Assoc, 1973, vol. 68„ №341, p. 75—77. 188. Fransisl. A survey of statistical Software.— Computational statist, and Data analysis, 1983, vol. 1, № 1, p. 17—27. 189. F u r n i v a 1 G. M. All possible regression with less computation.— Technometrics, 1971, vol. 13, p. 403—408. 190. F u r n i v a 1 G. M., W i 1 s о n R. W. M., Jr. Regressions by leaps and bounds.— Technometrics, 1974, vol. 16, p. 499—511. 191. G a r s i d e M. J. Some computational procedures for the best subset problem.— Appl. Statist., 1971, vol. 20, p. 8—15. 192. Goldstein M., Smith A. F. M. Ridge-type estimators for regression analysis.—J. Roy. Statist. Soc, 1974, Ser. В., vol. 36, p. 284—291. 193. G о 1 u b G. Numerical Methods for Solving Linear Least Squares Problems.— Numer. Math., 1965, vol. 7, p. 206—216. 194. G о 1 u b G., К a h a n W. Calculating the Singular Values and Pseudoinverse of a Matrix.— SI AM. J. Numer. Anal., 1965, Ser. B, vol. 2, p. 205—224. 195. Greenberg E. Minimum variance properties of principal com- component regression. J. Amer. Statist. Assoc, 1975, vol. 70, p. 194— 197. 196. GrenanderU., Rosenblatt M. Statistical analysis of stationary time series. — N. Y.: Wiley, 1966.— 300 p. 468
197. G f e v i 1 1 е Т. N. E. Theory and applications of spline functi- functions — N. Y.: Academic Press, 1969. p. 20. 198. G u t t m a n L. The quantification of a class of attributes: a theo- theory and method of scale construction.— In: The Prediction of Perso- Personal Adjustment. — Bulletin № 48 N. Y.: Social Science Research. Concil, 1941, p. 319—348. 199. HabermanS. J. Analysis of frequency data.— Chicago: Univ. of Chicago Press, 1974.— 208 p. 200. H a r t 1 e у H. O. Modified Gauss-Newton method for the fitting of nonlinear regression function.— Technometrics, 1961, vol. 3, p. 269—275. 201. H a w к i n s D. M. On the investigation of alternative regressions by principal component analysis.— Appl. Statist., 1973, vol. 22, № 3, p. 275—286. 202. H a w к i n s D. M. Relations between ridge regression and eigen- analysis of the augmented correlation matrix.— Technometrics, 1975, vol. 17, № 4, p. 477—480. 203. Hirschfeld H. O. A connection between correlation and contingency.— Proceedings of Cambridge Philosophical Society, 1935, 31, p. 520—524. 204. Hocking R. R. Griteria for selection of a subset regression: whith one should be used? — Technometrics, 1972, vol. 14, p. 967— 970. 205. Hocking R. R. The analysis and selection of variables in li- linear regression.— Biometrics, 1976, vol. 32, № 1, p. 1—49. 206. HockingR. R., LeslieR. N. Selection of the best subset in regression analysis.— Technometrics, 1967, vol. 9, p. 531—540. 207. H о с к i n g R. R., S p e e d F. M., L у n n M. J. A class of biased estimators in linear regression.— Technometrics, 1976, vol. 18, No 4, p. 425—438. 208. H о e r 1 A. E., К с n n а г d R. W. Ridge-regression. Biased esti- estimation for non-ortogonal problems.— Technometrics, 1970, vol. 12, № 1, p. 55—68. 209. H о e r 1 A. E., К e n n a r d R. W. Ridge-regression. Applicati- Applications to non-ortogonal problems.— Technometrics, 1970, vol. 12, № 1, p. 69—82. 210. H о r s t P. Measuring complex attitudes. J. of Social. Psychology, 1935, vol. 6, p. 369—374. 211. H u a n g N. Y., Unified Approach to Quadratically Convergent Algorithms for Function: Minimization.— J. Optim. Theory Ap- plic, 1970, vol. 5, 6, p. 405—423. 212. H u b e r P. J. Robust Statistics: a review. Ann. of Math. Statist., 1972, vol. 43, p. 1041 — 1.061. 213. H u b e г P. J. Robust estimation of a location parameter.— Ann. Math. Statist., 1964, vol. 35, p. 73—101. 214. H u b e r P. J. Robust regression: asyptotic, conjectures and Monte- Carlo.— Amer. Statist., 1973, vol. 1, № 5, p. 799—821. 215. J a e с к e 1 L. B. Robust estimates of location: symmetry and asummetric contamination.— Ann. Math. Statist., 1971, vol. 42, № 4, p. 1020—1034. 216. James W., S t e i п С Estimation with guadratic loss. — In: Proc. Fourth Berkeley Symp. Math. Statist, and Prob, 1961, vol. 1, p. 361—379. 217. JohnsonD. E., G г а у b i 1 1 F. A. An analysis of a two-way model with interaction and no replication. — J. Amer. Statist Assoc, 1972, vol. 67, p. 388—394. 469
218. IMSL Library Information, Fortran subroutines.— USA, IMSL Inc., 1981, p. 25. 219. Kendall M. G. Л course in multivariate analysis. — London: Griffin, 1957.— 185 p. 220. La M о t t e L. R., Hocking R. R. Computational efficiency in the selection of regression variables.—Tcchnometrics, 1970, vol. 12, p. 83—93. 221. L e b а г t L., Morincau A. SPAD — Sysleme portable pour Г analyse des donnees.— Paris: Cesia, 1982.—243 p. 222. LeeuwJ. Canonical analysis of Categorical Data.— The Net- Netherlands Psychological Institute, Univ. of Leiden, 1973. -=- 120 p. 223. L i n d 1 e у D. Regression lines and the linear functional relation- relationship.— J. Roy. Statist. Soc, 1947, vol. 9, Suppl.. p. 218—225. 224. Lingoes J. C. Geometric Representations of Relational Data: Readings in Multidimensional Scaling Ann. Arbor: Mathesis Press, 1977.— 165 p. 225. M a 1 1 о w s C. L, Some Comments on Cp.— Technomctrics, 1973, vol. 15, № 4, p. G61—676. 226. M a n t e 1 N. Why step down procedures in variable selection? — Technometrics, 1970, vol. 12, № 3, p. 621—625. 227. MarquardtD. W. Generalised inverses, ridge regression, biased linear estimation and nonlinear estimation. — Technomet- Technometrics, 1970, vol. 12, № 3, p. 591—612. 228. Mason R. L, Gunst R. F., Webster J. T. Regression analysis and problems of multicollinearity. — Communications in Statist., 1973, № 4, p. 277—292. 229. Massy W. F. Principal components regression in exploratory statistical research.— J. Amer. Statist. Assoc, 1965, vol. 60, № 2, p. 234—256. 230. M a u n g K. Measurement of association in contingency table with special reference to the pigmentation of hair and eye colours of Scottish school children.— Ann. of Eugenics, 1941, vol. 11, p. 189— 223. 231. M а у е г L. S., W i 1 1 к е Т. A. On biased estimation in linear mo- models.— Technometrics, 1973, vol. 15, p. 497—508. 23?. N i s h i s a t о Sh. Analysis of categorical data: duel scaling and its applications.— Toronto — Buffalo — London: Univ. of To- Toronto press, 1980.— 285 p. 233. О 1 к i n I., P r a t J. W. A Biased Estimation of Certain Corre- Correlation Coefficients.—Ann. Math. Statist., 1958, vol. 29, p. 201—211. 234. Pearson E. S. The analysis of variance in a cases of nonnormal variation.— Biomctrika, 1931, vol. 23, p. 114—133. 235. Pearson K. On lines and planes closest fit to systems of points in space. — Phil. Mag., 1901, S. 6, vol. 2, p. 559—572. 236. PeckhamG. A new method for minimizating a sum of squares without calculating gradients. — Computer J., 1970, vol. 13, p. 418—420. 237. Pereyra V. Iterative Methods for Solving Nonlinear Least Squa- Squares Problems.—SIAM J. Numerical Analysis, 1967, vol. 4, № 1, p. 27—36. 238. P 1 а с к e t t R. L. The Analysis of Categorical Data.— London: Griffin ,1974.— 159 p. 239. P 1 a u t H. C. Ber. Fachausschusse Dtsch. Glastechn. Ges., 1931, № 19, p. 121 — 130. 240. P о w e 1 1 M. I. D. A Survey of Numerical Methods for Unconst- Unconstrained Optimization, SIAM Rev., 1970, vol. 12, № 1, p. 79—97. 470
241. P-STAT: Conversational Statistical and Data Management Soft- Software.— In: COMPSTAT-82, Proc. in Computational Statist., 5-th Symp., Packages and Facilities Present at COMPSTAT-82, Wieri, 1982, p. 47—48. 242. Ralston M. L., Jennrich R. I. Dud, a derivative-free algorithm for non-linear estimation.— Technometrics, 1978, vol. 20, p. 7—14. 243. Ramsay J. O. A comparative study of several robust estimates of slope, intersept and scale in linear regression. J. Amer. Statist. Assoc, 1977, vol. 72, № 3, p. 608—615. 244. Rao C. R. Simultaneous estimation of parameters in different linear models and applications to biometric problems.— Biometrics, 1975, vol. 31, p. 545—554. 245. R e i n s с h С. Н. Smoothing by spline fuction.— Numer. Math., 1967, vol. 10, p. 177—183. 246. Richardson M., К u d e г G. F. Making a rating scale that measures.— Personnel Journal, 1933, vol. 12, p. 36—40. 247. Saporta G. Liaisons entre plusieurs ensembles de variables et codage de donnes qualitatives.— Paris VI: L' universite Purre et Marie Curie, doctoral thesis, 1975.— 110 p. 248. Schatzoff M., Fienberg S., Tsao R. Efficient calculation of all possible regressions.— Technometrics, 1968, vol. 10, p. 768— 779. 249. S с 1 о v e S. L. Improved estimators for coefficients in linear reg- regression. — J. Amer Statist. Assoc, 1968, vol. 63, p. 596—606. 250. SPSS Statistical Package for the Social sciences Second ed.—Me. Graw — hill book company, 1975.—675 p. 251. S t e i n С Multiple regression. — In: Contributions to Probability and Statistics, Essays in honor of Harold Hotelling, Stanford Uni- University Press: Palo Alto, Calif, 1960, p. 424—443. 252. S t e i n C. Inadmissibility of the usual estimator for the mean of multi-variate normal distribution.— Proc. Berkeley Symp. Math. Statist, and. Prob., 1956, vol. 1, p. 197—206. 253. T а у 1 о r L. D. Estimation by minimising the sum of absolute errors.— In: Frontiers in econometrics, N. Y., 1974, p. 169—190. 254. TSA (A program for times series).— In: COMPSTAT-82, Proc. in Computational Statist., Statist. Packages and Facilities Presented at COMPSTAT-82, Wien, 1982, p. 69—72. 255. Van T a s s e 1 D. BASIC-Pack Statist. Programs for Small Compu- Computers.— London: Prentice-Hall, 1981.— 230 p. 256. Wagner H. M. Linear programming techniques for regression analysis.—J. Amer. Statist. Assoc, 1959, vol. 54, p. 206—212. 257. W i 1 к i n s о n J. H. The classical error analysis for the solution of linear systems.— J. Inst. Math. Appl., 1974, vol. 10, p. 175— 180. 258. Wold S. Spline functions in data analysis.— Technometrics, 1974, vol. 16, № 1, p. 1 — 11. 259. Youngs E. A., Cramer E. M. Some results relevant to choice of sum and sum-of-product algorithms.— Technometrics, 1975, vol. 17, p. 458—467. 47)
АЛФАВИТНО-ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Авторегрессия первого порядка 364 — произвольного порядка 367 Активные эксперименты 235 Алгебраический полином 175 Алгоритм градиентного спуска 301 -*- Крускала 154—156 обобщенный 159 Алгоритмы квазиградиентного ти- типа 299 Анализ связей между ранжировка- ранжировками 102—104 — точности уравнений регрессии 52, 335 Аппроксимация функции регрессии 356 теоретическая 169, 172 выборочная 169, 172 оценивание регрессии Байесовское 226—230 Блочные планы в ДА 374 Вероятностные пространства ран- ранжировок 104 Взаимодействие 382 Временной ряд 362 Генеральное среднее 381 Главный эффект 381 Гладкие свойства функции регрес- регрессии 181 Гнездовая классификация в ДА см. Иерархическая классификация в ДА 388 Граф 147—148 — структуры зависимостей 148, 157 Диагностика 27, 28, 31 Дисперсионный анализ 372—391, 396—399 аддитивная модель 382, 385 иерархическая классификация 390 классификация моделей 372— 374 нарушение предположений 396—398 перекрестная классификация 374 сравнение 378 Дуальное шкалирование 131 Емкость (сложность) класса функ- функций 193, 195 Зависимости гиперболического ти- типа 185, 186, 187 — логарифмического типа 189 — показательного типа 187, 188 — степенного типа 1в<8, 189 — структурного типа 41 Индекс корреляции 60, 80 Индикаторные функции 194 Интерполяция функции 183 Информационная мера зависимо- зависимости 130, 160 Исходные статистические данные 10, 48 Итерационные методы поиска мнк-оценок 298 Класс допустимых решений F 16, 17, 49, 51, 168, 175 Классификационные (номиналь- (номинальные) переменные 23 Ковариационная матрица мнк-оце- мнк-оценок 339 Ковариационный анализ 391—396, 400 проверка гипотез 394—395 Количественные переменные 23, 99 Конфлюэнтный анализ 41, 234 Корреляционно-регрессионная за- зависимость 39 Корреляционное отношение 73, 98, 133 доверительные интервалы для него 76 472
Корреляционное поле 181 Корреляционный анализ 49, 56 Коэффициент конкордации (согла- (согласованности) 116—117 случай связных рангов Ы8 Коэффициент корреляции 61, 97 внутриклассовой 389 множественный 89—96, 98, 161 распределение его выбороч- выборочного значения 66 частный 83, 84, 97, 98, 158, 160, 163 Коэффициент сопряженности 129 Критерий качества аппроксимации (адекватности модели) 11, 12, 17, 168 Критерии качества уравнения рег- регрессии 281 Лаговые переменные 401 Линеаризация 184 Линеаризующие преобразования переменных 184 Марковская тройка 169—160, 163 Метод ветвей и границ 284 — взаимных усреднений 131, 137 — всех возможных регрессий 284 — Дэвидона — Флетчера — Пау- элла 313 — максимизации коэффициента корреляции 137—138 • ^-отношения 132—137 — наименьших квадратов (мнк) 170, 208—210, 298 двухшаговый B мнк) 394, 415, 423, 424 косвенный 411, 414 модифицированный (для случая погрешностей в предиктор- ных переменных) 236 обобщенный 212 ¦ трехшаговый C мнк) 415, 418, 423 — наименьших расстояний 242 — неподвижной точки 421, 422 -г Ньютона — Гаусса 306 — Ньютона — Рафсона 303 — сопряженных градиентов 312 -- структурной минимизации кри- критерия адекватности 192 — уменьшения уровня критерия Стьюдента 380 — 5* Шеффе 379 — Т Тьюки 380 Множественная линейная регрес- регрессия 347 Модель авторегрессии 363 — дисперсионного анализа с по- постоянными факторами 372, 374— 387 двухфакторная 381—387, 390—391 однофакторная 374—380, 388—390 -со случайными факторами 388—391 доверительные интервалы 378—380 смешанная 390—391 — Шурыгина 221, 222—226 Мультиколлинеарность 50, 252 Непараметрическое оценивание ре- регрессии 321—325, 334—336 Неразличимые («связные», «объе- «объединенные») ранги 100, 101 Нормальная система уравнений 272 Неявное задание отклика 244 Нормирование 26, 27 Обобщенная обратная матрица 209 Обучающая выборка 179, 357 Основные типы зависимостей 35 Основные этапы статистического исследования зависимостей 46 Остаточная сумма квадратов 131, 141, 209, 376, 386, 394 Оценка Джеймса — Стейна 262 — ковариационной матрицы типа скользящего среднего 279 двухэтапная 279 — Марквардта 269 — труднодоступных параметров 28 — эффективности функционирова- функционирования (или качества) анализируемой системы 28—33 Ошибка аппроксимации 52 — выборки 52 Параметризация многомерного рас- распределения 233-^234 Параметрические регрессионные схемы 175 Пассивные наблюдения 235, 241 Переменные входные (объясняю- (объясняющие, предсказывающие, предиктор- ные) 9 Переменные выходные (результи- (результирующие, «отклики») 10 473
Планирование 27, 28, 31, 32 Погрешности в предикторных пе- переменных 234 Погрешность решения системы ли- линейных уравнений 273 Полиномиальная регрессия 211, 349 Полиномы Чебышева 211, 327 Порядковые (ординальные) пере- переменные 23, 99 Пошаговые процедуры отбора пе- переменных 286 Правило порядка 409, 424 — ранга 409, 424 Предопределенные переменные 404 Причинные связи 21 Проблема группового выбора (упо- (упорядочения) 103 Прогноз 20, 27, 30, 31, 32 Разностные аналоги метода Нью- Ньютона — Гаусса 309 Ранг объекта 100, 123, 124 Ранговая корреляция 100, 102, 123 Ранговый коэффициент корреляции 106 Спирмэна 107, 124 случай связных рангов 108 Кен да лл а 109, 124 случай связных рангов 111 Реалистическая ситуация 336, 356 Регрессионная зависимость 35 идеализированная схема 336 линейный нормальный вариант 336 нелинейный нормальный вариант 352 Регрессионные модели со случай- случайными параметрами 245 Регрессионный анализ 24, 53, 164 Регрессия 167, 235 — гребневая однопараметрическая 268 многопараметрическая 269 — локально-параметрическая 325— 328 — медианная (среднеабсолютная) 170 — минимаксная 170 —- многомерная 231—234, 250 эв-оценки 233 — на главные компоненты 254— 257 Регулирование параметров функ- функционирования системы 33—35 Редуцированные оценки 262 Рекурсивные системы одновре- одновременных уравнений 412, 414 Сверхидентифицируемость 411 Связи вес 153, 158 — мера 129—131 направленная 130 Чупрова 129 — прямые и опосредованные 143— 145, 161 — структура 160—161, 163 Система одновременных уравнений 401, 402 переформулированная фор- форма 421 приведенная форма.405 структурная форма 404 Смесь многомерных распределений 395, 396 Смешанная модель авторегрессии и скользящего среднего 363 Смещенные оценки коэффициентов регрессии 269 Спецификация модели 405 Сплайн 328—334 — базисный 330—331 — билинейный 333—334 Степень согласованности мнений группы экспертов 103 Статистическое исследование зави- зависимостей (общая формулировка задачи) 10, 11 Структура (общий вид) модели регрессии 11, 22, 49, 174 Структура совокупности упорядо- упорядочений 102 Таблицы «объект — многомерный отклик» 139—141 Таблицы сопряженности 125—142 основные гипотезы 125—127, 141 — 142 проверка 128— 129 оцифровка 131 —139 параметризация 127—128 Типы конечных прикладных целей исследований 20—22 Тренд временного ряда 362 Устойчивость модели 197 Устойчивость модели М на множе- множестве X для заданного б 199 474
Функционал гладкости функции 183 Функция линейная 175 — потерь для оценки параметров регрессии-168, 213, 215, 216, 260 — регрессии 19, 165, 166, 167, 173 — роста 194 — степенная 175 Функция А-регрессии 169, 174 Цепи Маркова 143 т-зависимые 147 Число обусловленности.данных 278 — обусловленности матрицы си- системы линейных уравнений 274 Экзаменующая (контрольная) вы- выборка 179, 357 Экзогенные переменные 9, 401, 403, 404 Экспоненциально-взвешенная ре- регрессия (эв-регрессия) 218—221, 226, 233—234, 249 Экстраполяция функции 183 Эксцесс 397 Элементарный объект исследова- исследования 10, 47 Эндогенные переменные 10, 401, 404 Энтропия 129-130 — условная 130 Этап параметризации модели (оп- (определение класса допустимых ре- решений) см. также Структура мо- модели регрессии 11, 22, 49, .174
ОГЛАВЛЕНИЕ ПРЕДИСЛОВИЕ 5 ВВЕДЕНИЕ: Статистическое исследование зависимостей. Содержание, задачи, области применения . . 9 8.1. Предварительное обсуждение задач 9 8.2. Какова конечная прикладная цель статистического исследования зависимостей? 19 8.3. Математический инструментарий 22 8.4. Некоторые типовые задачи практики 25 8.5. Основные типы зависимостей между количественными переменными 35 8.6. Основные этапы статистического исследования зави- зависимостей 46 Выводы 53 Раздел I. АНАЛИЗ СТРУКТУРЫ И ТЕСНОТЫ СТАТИСТИЧЕ- СТАТИСТИЧЕСКОЙ СВЯЗИ МЕЖДУ ИССЛЕДУЕМЫМИ ПЕРЕМЕН- ПЕРЕМЕННЫМИ (корреляционный анализ) 56 Г л а в а 1. Анализ тесноты связи между количественными пере- переменными 56 1.1 Анализ парных связей 56 1.1.1. Понятие индекса корреляции 56 1.1.2. Коэффициент корреляции как измеритель степени тесноты связи в двумерных нормальных схемах 61 1.1.3. Распределение выборочного коэффициента кор- корреляции и проверка гипотезы о статистической зна- значимости линейной связи 66 1.1.4. Влияние ошибок измерения на величину коэффици- коэффициента корреляции 72 1.1.5. Измерение степени тесноты связи при нелинейной зависимости 73 1.2. Анализ частных («очищенных») связей 81 1.2.1. Трудности в интерпретации парных корреляцион- корреляционных характеристик, связанные с опосредованным одновременным влиянием других переменных . . 81 1.2.2. Частные коэффициенты корреляции и их выбо- выборочные значения 82 1.2.3. Статистические свойства выборочных частных коэффициентов корреляции (проверка на статистичес- статистическую значимость их отличия от нуля, доверительные интервалы) , 84 476
1.2.4. Примеры 85 1.3. Анализ множественных связей 87 1.3.1. Степень тесноты множественной статистической связи и среднеквадратическая ошибка прогноза (аппроксимации) одной переменной по совокуп- совокупности других 87 1.3.2. Множественный коэффициент корреляции и его свойства (общий случай) 89 1.3.3. Вычисление и свойства множественного коэффици- коэффициента корреляции в рамках линейных нормальных моделей 91 1.3.4. Примеры 96 Выводы 97 Глава 2. Анализ статистической связи между порядковыми (ординальными) переменными . 99 2.1. Ранговая корреляция 100 2.1.1. Исходные статистические данные (таблица или матрица рангов типа «объект-свойство») 100 2.1.2. Понятие ранговой корреляции. 102 2.1.3. Основные задачи статистического анализа связей между ранжировками 102 2.1.4. Вероятностные пространства ранжировок, генери- генерируемые порядковыми переменными 104 2.2. Анализ и измерение парных ранговых статистических связей 106 2.2.1. Ранговый коэффициент корреляции Спирмэна . . 106 2.2.2. Ранговый коэффициент корреляции Кендалла . 109 2.2.3. Обобщенная формула для парного коэффициента корреляции и связь между коэффициентами Спи- Спирмэна и Кендалла 112 2.2.4. Статистические свойства выборочных характерис- характеристик парной ранговой связи .ИЗ 2.3. Анализ множественных ранговых связей .116 2.3.1. Коэффициент конкордации (согласованности) как измеритель статистической связи между не- несколькими порядковыми переменными 116 2.3.2. Проверка статистической значимости выборочного значения коэффициента конкордации 118 2.3.3. Использование коэффициента конкордации в реше- решении основных задач статистического анализа ранго- ранговых связей 120 2.3.4. Примеры 122 Выводы 123 Глава 3. Анализ связей между классификационными (номи- (номинальными) переменными 125 3.1. Таблицы сопряженности • 125 3.1.1. Три основные выборочные схемы, приводящие к таблицам сопряженности 125 3.1.2. Логарифмически-линейная параметризация таб- таблиц сопряженности 127 3.1.3. Проверка гипотез Я*, Я", НШ 128 477
3.1.4. Меры связи между строками и столбцами табли- таблицы 129 3.2. Приписывание численных значений качественным переменным (дуальное шкалирование) 131 3.2.1. Методическое место дуального шкалирования . . .131 3.2.2. Максимизация /^отношения суммы квадратов от- отклонений между объектами к полной сумме квадра- квадратов отклонений 132 3.2.3. Двойственность в определении V и W 136 3.2.4. Максимизация коэффициента корреляции . . . .137 3.2.5. Изучение оптимального решения 138 3.2.6. Таблицы «объект — многомерный отклик» . ... 139 Выводы 141 Г л а в а 4. Анализ структуры связей между компонентами мно- многомерного вектора 143 4.1. Связи прямые и опосредованные. Введение в проблема- проблематику 143 4.1.1. Цепи Маркова 143 4.1.2. Прямые связи между координатами вектора . . . 144 4.1.3. Математические Задачи, связанные с изучением распределений с ДСЗ 146 4.2. Распределение с древообразной структурой зависимо- зависимостей 147 4.2.1. Предварительные сведения из теории графов . . 147 4.2.2. Распределения с древообразной структурой зави- зависимостей (ДСЗ) 148 4.2.3. Нормальное распределение с ДСЗ 150 4.3. Оценка графа структуры зависимостей компонент норма- нормального вектора 153 4.3.1. Вес связи 153 4.3.2. Построение графа структуры зависимостей по кор- корреляционной матрице 154 4.3.3. Асимптотика Колмогорова — Деева 155 4.4. R (й)-распределения 156 4.4.1. Основные определения 156 4.4.2. Нормальное R (^-распределение 157 4.4.3. Восстановление графа структуры зависимостей 158 4.5. Структура связей нормального вектора (общий случай) 158 4.5.1. Марковская тройка. Структура многомерного век- вектора 159 4.5.2. Информационная интерпретация структуры свя- связей 160 4.5.3. Использование структуры для представления рас- распределения в виде композиции более простых рас- распределений 161 Выводы 161 Раздел II. ИССЛЕДОВАНИЕ ВИДА ЗАВИСИМОСТИ МЕЖДУ КОЛИЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ (регрес- (регрессионный анализ) 164 Глава 5. Основные понятия регрессионного анализа .... 164 5.1. Функция регрессии как условное среднее и ее интер- интерпретация в рамках -многомерной нормальной моде- модели 164 478
5.2. Функция Л-регрессии как решение оптимизационной задачи 167 5.3. Взаимоотношения различных регрессий 170 Выводы 170 Глава 6. Выбор общего вида функции регрессии 174 6.1. Использование априорной информации о содержатель- содержательной сущности анализируемой зависимости 176 6.2. Предварительный- анализ геометрической структуры исходных данных 180 6.2.1. Содержание геометрического анализа парных кор- корреляционных полей 181 6.2.2. Учет и формализация «гладких» свойств искомой функции регрессии 181 6.2.3. Некоторые вспомогательные преобразования, лине- линеаризующие исследуемую парную зависимость . . 184 6.3. Математико-статистические методы в задаче парамет- параметризации модели регрессии 190 6.3.1. Компромисс между сложностью регрессионной модели и точностью ее оценивания 190 6.3.2. Поиск модели, наиболее устойчивой к варьиро- варьированию состава выборочных данных, на основании которых она оценивается 197 6.3.3. Статистические критерии проверки гипотез об об- общем виде функции регрессии 200 Выводы 207 Глава 7. Оценивание неизвестных значений параметров, ли- линейно входящих в уравнение регрессионной зависи- зависимости 208 7.1. Метод наименьших квадратов 208 7.1.1. Мнк-уравнения 208 7.1.2. Свойства мнк-оценок 209 7.1.3. Ортогональная матрица плана 210 7.1.4. Параболическая регрессия и система ортогональ- ортогональных полиномов Чебышева 211 7.1.5. Обобщенный мнк 212 7.2. Функции потерь, отличные от квадратичной .... 212 7.2.1. Функции потерь j)v (и) = |нр\ 1 < v < 2 . . . 215 7.2.2. Оценка Хубера 215 7.2.3. Функции потерь, имеющие горизонтальную асимптоту 216 7.2.4. Эв-регрессия (А,-регрессия) 218 7.2.5. Минимизация систематической ошибки 221 7.3. Байесовское оценивание 226 7.3.1. Введение априорной плотности распределения . . параметров 226 7.3.2. Апостериорное распределение параметров 228 7.3.3. Повторная выборка из той же совокупности . . . 230 7.4. Многомерная регрессия 231 7.4.1. Случай известной ковариационной матрицы ошибок 231 7.4.2. Случай неизвестной ковариационной матрицы оши- ошибок, не зависящей от значения предикторной переменной (V (Хг) = V) 232 7.4.3. Эв-оценки 233 479
7.4.4. Использование многомерной регрессии для парамет- параметризации многомерных распределений 233 7.5. Оценивание параметров при наличии погрешностей в предикторных переменных (конфлюэнтный анализ) 234 7.5.1. Основные типы задач конфлюэнтного анализа . . . 234 7.5.2. Модифицированный мнк для схемы активного экс- эксперимента 236 7.5.3. Пассивные наблюдения 241 7.5.4. Некоторые принципиальные отличия регрессион- регрессионных задач G.83) и G.84) 243 7.5.5. Неявное задание отклика 244 7.6. Оценивание в регрессионных моделях со случайными параметрами (регрессионные задачи второго рода) 245 7.6.1. Постановка задачи 245 7.6.2. Случай, когда средние значения 0О и ковариацион- ковариационная матрица 23 оцениваемых параметров известны 246 7.6.3. Случай, когда известна только ковариационная мат- матрица 2 (требуется оценить параметры Bj и 0О) . . 247 7.6.4. Случай неизвестных 0О и S (требуется оценить 6/, 0О и 2) 248 Выводы 249 Г л а в а 8. Оценивание параметров регрессии в условиях муль- тиколлинеарности и отбор существенных предикторов 251 8.1. Явление мультиколлинеарности и его влияние на мнк- оценки 251 8.2. Регрессия на главные компоненты 254 8.3. Смещенное оценивание коэффициентов регрессии . . 259 8.4. Редуцированные оценки для стандартной модели ли- линейной регрессии 262 8.4.1. Оценка Джеймса — Стейна 262 8.4.2. Редуцированная оценка Мейера — Уилке .... 266 8.5. Оценки, связанные с ортогональным разложением. 267 8.5.1. Оптимальное взвешивание вклада главных ком- компонент 270 8.5.2. Оценка оптимальных вкладов главных компонент 271 8.6. Вопросы точности вычислительной реализации про- процедур линейного оценивания 272 8.6.1. Два метода получения мнк-оценок 272 8.6.2. Оценки величин возмущений для решений центри- центрированной и соответствующей ей нормальной системы уравнений 273 8.6.3. Центрирование и нормировка матрицы данных . . . 275 8.6.4. Вычисление элементов ковариационной матрицы 277 8.7. Отбор существенных переменных в задачах линейной ре- регрессии 280 8.7.1. Влияние отбора переменных на оценку уравнения регрессии 280 8.7.2. Критерии качества уравнения регрессии 281 8.7.3. Схемы генерации наборов переменных 284 8.7.4. Пошаговые процедуры генерации наборов . . . . 286 8.7.5. Оператор симметричного выметания 291 8.7.6. Методические аспекты использования процедур от- отбора существенных предикторных переменных . . 294 Выводы 297 480
Г л а в а 9. Вычислительные аспекты метода наименьших квад- квадратов 298 9.1. Итерационные методы поиска оценок метода наименьших квадратов (мнк-оценок) 298 9.1.1. Введение 298 9.1.2. Алгоритмы квазиградиентного типа 299 9.2. Градиентный спуск 301 9.2.1. Описание общей схемы алгоритма 301 9.2.2. Замечание об эффективности алгоритма 303 9.3. Метод Ньютона 303 9.3.1. Описание общей схемы метода 303 9.3.2. Скорость сходимости процедуры -. . 304 9.4. Метод Ньютона—Гаусса и его модификации 305 9.4.1. Общая схема метода 305 9.4.2. Обсуждение скорости сходимости процедуры . . 306 9.4.3. Рекомендации по правилу остановки итерационной процедуры 307 9.5. Методы, не использующие вычисления производных 308 9.5.1. Основные подходы к устранению необходимости вычисления производных 308 9.5.2. Разностные аналоги метода Ньютона — Гаусса 309 9.5.3. Некоторые замечания о выборе длины шага . . .311 9.5.4. Разностные аналоги метода Ньютона 312 9.6. Способы нахождения начального приближения . . . 313 9.6.1. Поиск на сетке 313 9.6.2. Преобразование модели 314 9.6.3. Разбиение выборки на подвыборки 315 9.6.4. Разложение в ряд Тейлора по независимым пере- переменным 315 9.7. Вопросы существования и единственности мнк-оценки 316 9.7.1. Существование 316 9.7.2. Единственность 317 Выводы 318 Глава 10. Непараметрическая, локально-параметрическая и ку- кусочная аппроксимация регрессионных зависимостей 320 10.1. Непараметрическое оценивание регрессии 321 10.1.1. Роль и место непараметрических методов . . . 321 10.1.2. Примеры 322 10.1.3. Выбор параметра масштаба Ь 323 10.1.4. Более эффективное использование гладкости / (X) 324 10.2. Локальная параметрическая аппроксимация регрессии в одномерном случае 325 10.2.1. Основная формула для оценки 325 10.2.2. Асимптотическая оценка точности приближения f(x0) . . . х. _ 326 10.2.3. Сравнение^ и 71 326 10.2.4. Изучение дисперсии оценок fi (I > 2) 327 10.3. Кусочно-параметрическая (сплайновая) техника ап- аппроксимации регрессионных зависимостей ..... 328 10.3.1. Определение одномерных сплайнов 329 10.3.2. Выбор порядка сплайна, числа и положения узлов 330 10.3.3. Оценка параметров и проверка гипотез 331 Ш.3.4. Билинейные сплайны 333 Выводы 334 481
Глава И. Исследование точности статистических выводов в регрессионном анализе 335 11.1. Линейный (относительно оцениваемых параметров) нор- нормальный вариант идеализированной схемы регрессион- регрессионной зависимости 336 11.1.1. Основные свойства оценок метода наименьших квадратов 337 11.1.2. Решение основных задач по оценке точности рег- регрессионной модели 342 11.1.3. Случаи линейной (по предикторпым переменным) и полиномиальной регрессии 345 11.2. Нелинейный нормальный вариант идеализированной схемы регрессионной зависимости 352 11.2.1. Основные свойства мнк-оценок 353 11.2.2. Решение основных задач по оценке точности нели- нелинейной регрессионной модели 355 11.3. Исследование точности регрессионной модели в реали- реалистической ситуации „ 356 Выводы 360 Глава 12. Статистический анализ авторегресснонных динами- динамических зависимостей . . . . ж „ „ 361 12.1. Дискретные динамические модели 362 12.2. Авторегрессия первого порядка 364 12.2.1. Нормально распределенные «возмущения» .... 364 12.2.2. Асимптотические свойства оценок 365 12.2.3. Произвольное распределение «возмущений» . . 366 12.3. Авторегрессия произвольного порядка ....... 367 Выводы 370 Раздел III. ИССЛЕДОВАНИЕ ЗАВИСИМОСТИ КОЛИЧЕСТВЕН- КОЛИЧЕСТВЕННОГО РЕЗУЛЬТИРУЮЩЕГО ПОКАЗАТЕЛЯ ОТ ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ СМЕШАННОЙ ПРИРОДЫ 372 Глава 13. Дисперсионный и ковариационный анализ 372 13.1. Классификация моделей дисперсионного анализа по способу организации исходных данных 373 13.2. Однофакторный дисперсионный анализ 371 13.2.1. Представление в виде регрессионной модели . . 374 13.2.2. Геометрический смысл ДА 377 13.2.3. Доверительные интервалы 378 13.3. Полный двухфакторный дисперсионный анализ . . . 381 13.3.1. Взаимодействия 381 13.3.2. Двухфакторный анализ с равным числом /(наблю- /(наблюдений в ячейках (/(> 1) 383 13.3.3. Случай неравных Ки 385 13.3.4. Случай /(,7=1 385 13.4. Модели дисперсионного анализа со случайными факь торами 387 13.4.1. Место моделей со случайными факторами 387 13.4.2. Однофакторный анализ . . ~. 388 13.4.3. Иерархический план на двух уровнях 390 13.5. Ковариационный анализ (КА) и проблема статисти- статистического исследования смесей многомерных распре- распределений 391 482
13.5.1. Определение и модель. ковариационного анализа 391 13.5.2. Оценивание неизвестных значений параметров и проверка гипотез в модели КА 393 13.5.3. Связь с проблемой статистического исследования смесей многомерных распределений 395 13.6. Влияние нарушений основных предположений .... 396 Выводы 399 Раздел IV. СИСТЕМЫ ОДНОВРЕМЕННЫХ УРАВНЕНИЙ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ АППАРАТА СТА- СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ ЗАВИСИМОС- ЗАВИСИМОСТЕЙ 401 Глава 14. Оценивание параметров систем одновременных эконометрических уравнений 401 14.1. Системы одновременных уравнений 401 14.1.1. Определение и специфика проблематики систем од- одновременных уравнений 401 14.1.2. Два традиционных примера 402 14.1.3. Общая линейная модель 404 14.2. Спецификация модели и проблема идентифицируемо- идентифицируемости 405 14.2. К Идентифицируемость приведенной формы 405 14.2.2. Проблема идентифицируемости для структурной формы 407 14.2.3. Критерии идентифицируемости 408 14.3. Рекурсивные системы 412 14.4. Двух- и трехшаговый методы наименьших квадратов 414 14.4.1. 'Наиболее распространенные методы оценивания системы одновременных уравнений 414 14.4.2. Двухшаговый метод наименьших квадратов . .415 14.4.3. Трехшаговый метод наименьших квадратов . . 418 14.5. Метод неподвижной точки 421 14.6. Сравнение методов 423 Выводы « „ 424 Глава 15. Программное обеспечение статистического иссле- исследования зависимостей 425 Приложения. Математико-статистические таблицы 437 Используемые в книге обозначения 457 Список литературы 459 Алфавитно-предметный указатель . „ 472 483
CONTENTS Preface 5 Introduction. STATISTICAL STUDY OF RELATIONSHIPS. CONTENT, PROBLEMS, AREAS OF APPLICA- APPLICATIONS 9 1.1. Preliminary discussion of problems and some basic con- concepts 9 1.2. What is the final applied aim of statistical study of relationships 19 1.3. Mathematical tools 22 1.4. Some typical practical problems 2S 1.5. Basic types of relationships between quantitative variables 35 1.6. Basic steps of statistical study of relationships. 46 Conclusions 53 Part I. ANALYSIS OF STRUCTURE AND POWER OF STATIS- STATISTICAL RELATIONSHIPS BETWEEN VARIABLES (correlation analysis) 56 Chapter 1. Analysis of power of relationship between quantita- quantitative variables 56 1.1. Analysis of pair relationships 56 1.2. Analysis of partial («cleared») relationships 81 1.3. Analysis of multiple relationships 87 Conclusions 97 Chapter 2. Analysis of statistical relationship between ordinal variables -. 99 2.1. Rank correlation 100 2.2. Analysis and measurment of pair rank statistical rela- relationships 106 2.3. Analysis of multiple rank relationships 116 Conclusions 123 Chapter 3. Analysis of relationships between nominal variables 125 3.1. Contingency tables 125 3.2. Assignment of numerical values to nominal variables (dual scaling) . 131 Conclusions 141 Chapter 4. Analysis of the structure of relationships between components of multidimensional vector . . ^ . . . .143 4.1. Direct and indirect relationships. Introduction to the problem 143 484
4.2. Distributions with the tree dependence structure . . 147 4.3. Estimation of the dependence structure graph of normal - vector components 153 4.4. R (k)-distributions ..'.'.'. 156 4.5. Structure of relationships of normal vector (general ca- case) 159 Conclusions 161 Part II. STUDY OF SHAPE OF DEPENDENCE BETWEEN QU ANT1TATIVE VARIABLES (regression analysis). . 164 Chapter 5. Basic concepts of regression analysis 164 5.1. Regression function as a conditional mean and its interpretation in the framework of the normal model . . . 164 5.2. Function of Д-regression as a solution of optimizational problem 167 5.3. Relations of differently defined regressions 170 Conclusions 170 Chapter 6. Choice of general shape of regression function . . . .174 6.1. Use of a prior information on contensive essence of ana- analyzed dependence 176 6.2. Preliminary analysis of data geometrical structure . . . 180 6.3. Mathematical and statistical methods used in the problem of regression model parametrization . » 190 Conclusions 207 Chapter 7. Estimation of unknown parameters, which enter li- linearly into formula of regression function 208 7.1. Least-squares method 208 7.2. Risk functions different from quadratic one 212 7.3. Baysian .estimation 226 7.4. Multidimensional regression .' 231 7.5. Parameter estimation in the case when there are errors in predictive variables (confluent analysis) 234 7.6. Estimation in regression models with random parameters (second order regression problems) 245 Conclusions 249 Chapter 8. Regression parameter estimation under condition of multicollinearity and screening of significant predi- predictors 251 8.1. Multicollinearity and its influence on least-squares esti- estimates . . ; * 251 8.2. Regression on principal components 254 8.3. Biased estimation of regression coefficients 259 8.4. Reduced estimates for standard model of linear regres- regression 262 8.5. Estimates connected with orthogonal decomposition . . 267 8.6. Questions of accuracy of computational realisation of li- linear estimation procedures 272 8.7. Screening of significant variables in linear regression ' problem 280 Conclusions 292 48
Chapter 9. Computational problems of least-squares method 298 9.1. Iterative methods of least-squares estimates searching 298 9.2. Gradient descent 301 9.3. Newton method 303 9.4-. Gausse-Newton method and its modifications 305 9.5. Methods without calculations of derivatives 308 9.6. Methods of initial approximation finding 313 9.7. Questions of existence and uniqueness 316 Conclusions 318 Chapter 10. Nonparametric, local parametrical and piecewise ap- approximations of regression relationships 320 10.1. Nonparametric estimation of regression 321 10.2. Local parametric approximation of regression in one-di- one-dimensional case 325 10.3. Piecewise parametric (spline) technique of regression approximation 328 Conclusions 334 Chapter 11. Accurasy study of statistical conclusions in regressi- regression analysis 335 11.1. Linear (on parameters) normal variant of idealized scheme of regression relationships 336 11.2. Nonlinear normal variant of idealized scheme of regre- regression relationships 352 11.3. Study of regression model accuracy in realistic situa- situation 356 Conclusions 360 С h a p t e г 12. Regression analysis of autoregressive dynamical de- dependences 361 12.1. Discrete dynamical models 362 12.2. Autoregression of the first order 364 12.3. Autoregression of arbitrary order 367 Conclusions 370 Part III. STUDY OF DEPENDENCE OF QUALITATIVE RE- RESULTING VARIABLE FROM EXPLANATORY VA- VARIABLES OF MIXED NATURE 372 Chapter 13. Analysis of variance and analysis of covariance . 372 13.1. Classification of analysis of variance models according to a way of data organization 373 13.2. One-way analysis of variance 374 13.3. Two-way complete analysis of variance 381 13.4. Models with random factors 387 13.5. Covariance analysis and problem of statistical study of miltidimensional distributions mixtures . . . 391 13.6. Stability of analysis of variance to deviations from basic assumptions 396 Conclusions 399 486
Part IV. SYSTEMS OF SIMULTANEOUS EQUATIONS AND SOFTWARE OF STATISTICAL STUDY OF DEPEN- DEPENDENCES 401 Chapter 14. Estimation of parameters of systems of simultaneous econometrical equations 401 14.1. Systems of simultaneous equations 14.2. Model specification and identification problem . . . . 405 14.3. Recursive systems 412 14.4. Two-and three-step methods of least-squares 414 14.5. Method of fixed point 421 14.6. Methods comparison 423 Conclusions 424 Chapter 15. Software of statistical study of dependences . . . .425 Appendix. Tables 437 Notation .457 Bibliography 459 Index 472 487
Сергей Артемьевич Айвазян, Игорь Семенович Енюков, Лев Дмитриевич Мешалкин ПРИКЛАДНАЯ СТАТИСТИКА ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ Зав. редакцией Р. А. Казьмина Редактор Л. Н. Вылегжанина Мл. редакторы А. В. Щурова, В. Л. Долгова Техн. редакторы К. К. Букалова, Г. А. Полякова Корректоры Г. В. Хлопцева, Г. А. Башарина, Т. Г. Кочеткова и М. А. Синяговская Худож. редактор М. К. Гуров Переплет художника Н. А. Пашуро ИБ № 1544 Сдано в набор 27.04.84. Подписано в печать 19.12.84 А14099. Формат 84ХЮ87з2. Бум. офс. № 2. Гарнитура «Литературная». Печать высокая. Усл. п. л. 25,62. Усл. кр.-отт. 25,62. Уч.-изд. л. 27,46. Тираж 13 000 экз. Заказ 244. Цена 1 р. 70 к. Издательство «Финансы и статистика», 101000, Москва, ул. Чернышевского, 7 Московская типография № 4 Союзполиграфпрома при Государственном комитете СССР по делам издательств, полиграфии и книжной торговли 129041, Москва, Б. Переяславская, 46