/
Text
Wiley Series in Probability and Mathematical Statistics
Robust Statistics
PETER J. HUBER
Professor of Statistics
Harvard University
Cambridge, Massachusetts
John Wiley and Sons
New York • Chichester • Brisbane • Toronto
1981
П.ХЫОБЕР
Робастность
в статистике
Перевод с английского
И. А. Маховой и
В. И. Хохлова
под редакцией
И. Г. Журбенко
Москва «Мир» 1984
ББК 22.17
Х98
УДК 519.24
Хьюбер Дж. П.
X 98 Робастность в статистике: Пер. с англ.— М.: Мир,
1984. —304 с, ил.
Первое систематическое изложение теории робастных оценок — важного и
интенсивно развивающегося направления современной математической
статистики. Монография написана американским специалистом — одним из создателей
этой теории. В ней обобщены разрозненные методы проверки устойчивости
конкретных статистических процедур. Часть результатов публикуется впервые.
Приведены алгоритмы вычислений робастных оценок, а также таблицы, количественно
характеризующие робастность нескольких оценок.
Для научных работников, инженеров и студентов, специализирующихся в
области математической и прикладной статистики.
v 1702060000-071 оо лл ББК 22.17
Х 041@1)—84 66~~т>4-1 517.8
Редакция литературы по математическим наукам
Copyright © 1981 by John Wiley & Sons, Inc. All
Rights Reserved. Authorized translation from
English language edition published by John
Wiley & Sons, Inc.
(g) Перевод на русский язык, «Мир», 1984
Предисловие редактора перевода
Любые статистические выводы всегда основываются на тех
или иных начальных предположениях. К числу таких
предположений очень часто относят ограничения на форму
рассматриваемых распределений. Например, нередко используемым
априорным допущением является предположение о нормальности
рассматриваемых распределений. Естественно, что такие
ограничения на практике могут выполняться лишь с некоторой
степенью точности. Остаются ли при этом верными статистические
выводы, полученные в начальных предположениях для
«невозмущенных» данных? Оказывается, что существует целый класс
так называемых «робастных» процедур, которые обладают этим
свойством. Термин «робастность» был введен для выделения
класса статистических процедур, слабочувствительных к
небольшим изменениям начальных предположений. Для этих же
целей некоторые авторы используют термин «устойчивость»,
излишняя популярность которого во многих областях математики
делает его неудобным для читателя.
Предлагаемая книга является первой монографией, целиком
посвященной изучению проблемы робастности статистических
процедур. Тематика книги вплотную примыкает к
классическому направлению теории вероятностей— сходимости
вероятностных мер, основы которого были заложены и развиты
советской вероятностной школой. Результаты книги в основном
относятся к области теоретической статистики, но в настоящее
время ни одно практическое применение статистических методов
не обходится без проверки робастности этих методов. В этом
плане данная монография играет исключительную роль в
прикладной статистике, обобщая разрозненные методы проверки
робастности многочисленных конкретных статистических
процедур, предоставляя исследователю точный и строгий
математический инструмент проверки качества используемых статистик.
Книга служит превосходным примером того, какие широкие
возможности открывает применение глубоких математических
теорий в практических областях. Таким образом она,
несомненно, дает толчок как новым исследованиям в области
теоретической статистики, так и обоснованным применениям статистики
в самых разнообразных областях.
В настоящее время существует обширная отечественная и
зарубежная литература по данному вопросу, что связано как
с теоретической, так и с практической важностью
рассматриваемого круга вопросов. Однако большая часть литературы,
особенно советских авторов, оказалась не затронута. Безусловно,
ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА
этот недостаток будет восполнен с появлением отечественных
монографий на эту тему.
Книга написана достаточно строгим математическим языком,
рассуждения и доказательства прозрачны и лаконичны. Текст
постоянно сопровождается пояснениями и примерами,
необходимыми для ясного понимания прикладной сущности
рассматриваемых вопросов. Книга вполне доступна студентам старших
курсов математических специальностей, аспирантам, инженерам
и научным сотрудникам, интересующимся развитием и
применением статистических методов на практике. Она будет
интересна и математикам-теоретикам, и статистикам-прикладникам.
При подготовке рукописи перевода были внесены
необходимые исправления к тексту оригинала, любезно
предоставленные нам автором книги, а также устранены замеченные
переводчиками опечатки.
И. Г. Журбенко
Предисловие
Предлагаемая монография — первая попытка
систематического изложения теории робастных оценок. Словом «робаст-
ность» как термином стали пользоваться лишь с 1953 г. (ввел
его Дж. Е. П. Бокс) и только к середине шестидесятых годов
названное этим словом свойство начали рассматривать как
предмет специального исследования, однако саму эту
проблематику по существу нельзя назвать принципиально новой. Среди
ведущих ученых конца девятнадцатого и начала двадцатого
столетий было несколько статистиков-практиков (назовем хотя
бы некоторых из них: астроном С. Ньюкомб, астрофизик А. Эд-
дингтон и геофизик Г. Джеффрис), которые в своих
исследованиях проявляли совершенно отчетливое понимание идеи робаст-
ности. Они знали об опасностях, порождаемых длинными
хвостами функций распределения ошибок; ими были предложены
вероятностные модели для грубых ошибок и даже придуманы
превосходные робастные варианты стандартных оценок, заново
переоткрытые лишь совсем недавно. Вместе с тем статистики-
теоретики долгое время старались избегать этой, как считалось,
расплывчатой и «недостойной» темы. Хочется думать, что
рассеять это предубеждение помогла моя работа 1964 г. Забавно
(хотя это и вызывает беспокойство), что с недавних пор, по-
видимому, ударились в другую крайность и ныне слово «робаст-
ность» становится чем-то вроде магического заклинания,
призванного добавить респектабельности.
Эта книга задумана как довольно полное введение в теорию
робастности, предназначенное в равной мере и специалистам
по теоретической статистике, и статистикам-прикладникам. Хотя
монография написана в теоретическом ключе, упор в ней сделан
не на математическую завершенность, а на идейное содержание
предмета. Уровень изложения намеренно неоднороден: в
некоторых главах простые случаи разобраны со всей математической
строгостью, в других (например, для оценок регрессии в
многопараметрической постановке и оценок ковариационной
матрицы) результаты, подробно разобранные для простых случаев,
по аналогии переносятся на более сложные ситуации, в
которых доказательства не всегда проходят, или проходят лишь при
некоторых искусственных допущениях. В книгу включен также
ряд алгоритмов для вычисления робастных оценок: там, где
это возможно, приводятся доказательства сходимости процедур.
Глава 1 содержит общее введение и обзор: она обязательна
для всех читателей. В гл. 2 под идеи качественной и
количественной робастности подводится формальная математическая
ПРЕДИСЛОВИЕ
база. Эту главу читатель, готовый принять на веру некоторые
результаты, может пропустить (или бегло просмотреть). В гл.3
вводятся и рассматриваются три основных типа оценок (М-, L-
и /^-оценки), а в гл. 4 изложена теория асимптотической
минимаксности для оценок сдвига: обе эти главы также обязательны.
Дальнейшее изложение охватывает разные направления, так
что последующие главы достаточно независимы и замкнуты.
Их можно читать или изучать в более или менее произвольном
порядке.
В книге отсутствуют упражнения — я пришел к выводу, что
в затронутой области придумать достаточное количество задач,
которые были бы и нетривиальными, и не слишком трудными,
довольно сложно, поэтому она не отвечает некоторым
формальным критериям учебника. Тем не менее материал разных
частей рукописи довольно успешно использовался при чтении
специальных курсов.
Книга не претендует на энциклопедический подход. Мне
хотелось лишь осветить те аспекты и методы, которые лично я
считаю наиболее важными. Некоторые пропуски и пробелы
отчасти сделаны преднамеренно, а отчасти объясняются просто
острым дефицитом времени: больше нельзя было откладывать
выход книги (первый вариант рукописи появился еще в 1972 г.).
Например, были исключены адаптивные оценки, которые я
теперь предпочитаю относить не к робастным, а к
непараметрическим оценкам (в части, касающейся непараметрического
эффективного оценивания). Так называемый байесовский подход к
робастности связывает рассматриваемый предмет с
допустимым оцениванием в соответствующей параметрической
супермодели, и до сих пор не найдено столь надежных правил
выбора супермодели и приоритета, которые в конечном счете имели
бы некое отношение к робастности. Изложение L- и /^-оценок
было сокращено по сравнению с более ранними планами,
поскольку эти оценки не допускают удобных обобщений и в
многопараметрических ситуациях вызывают трудности при
вычислениях и обработке.
Значительная часть окончательного варианта рукописи была
написана в Гарвардском университете осенью 1977 г.; я
приношу благодарность студентам, в частности П. Розенбауму и
И. Йсидзоэ, активно посещавшим семинар и сделавшим много
ценных замечаний.
П. Дж. Хьюбер
Кембридж, Массачусетс
Июль 1Ш г.
ГЛАВА 1
Общие основы
11. ЗАЧЕМ НУЖНЫ РОБАСТНЫЕ ПРОЦЕДУРЫ?
Статистические выводы лишь отчасти основываются на
наблюдениях. Столь же важную основу этих выводов составляют
исходные предположения об исследуемой ситуации. Даже в
самых простых случаях делаются явные или неявные допущения
о случайности и независимости, о виде тех или иных
распределений в изучаемой модели, например о виде исходных
распределений для некоторых неизвестных параметров, и т. д.
От такого рода предположений не требуется абсолютной
точности. Они представляют собой математически целесообразные
приближения, отвечающие зачастую не вполне точным знаниям
или представлениям. Как и во всякой другой отрасли
прикладной математики, такие приближения или упрощения крайне
необходимы; при оценке обоснованности их применения
обращаются к принципу своего рода непрерывности или
устойчивости: малая ошибка в математической модели не должна
приводить к существенной ошибке окончательных выводов.
К сожалению, этому принципу отвечают далеко не все
модели. На протяжении последних десятилетий росло понимание
того факта, что некоторые наиболее распространенные
статистические процедуры (в том числе те, которые оптимальны в
предположении о нормальности распределения) весьма
чувствительны к довольно малым отклонениям от предположений. Вот
почему теперь в изобилии появились иные процедуры — «ро-
бастные»1).
Со словом «робастность» связывают — и подчас
безосновательно— различные понятия. В настоящей книге это слово
используется в относительно узком смысле, диктуемом нашими
целями: робастность означает нечувствительность к малым
отклонениям от предположений.
Обратимся сначала к робастности по распределению, т. е.
к ситуациям, в которых истинная функция распределения
незначительно отличается от предполагаемой в модели (как
правило, гауссовской функции распределения). Это не только наи-
[) От англ. robust — крепкий, здоровый, дюжий. — Прим. перев.
10 ГЛ 1. ОБЩИЕ ОСНОВЫ
более важный случай, но и наиболее полно изученный. Гораздо
меньше известно о том, что происходит в тех ситуациях, когда
несколько нарушаются прочие стандартные допущения
статистики, и о том, какие меры защиты должны предусматриваться
в подобных случаях.
Приведем пример (из работы Тьюки (I960)), показывающий,
к каким последствиям приводит отсутствие робастности по
распределению в некоторых классических процедурах.
Пример 1.1. Предположим, что имеется набор, составленный
большим числом п «хороших» и «плохих» случайно
перемешанных наблюдений Xi некоторой величины (г. Каждое «хорошее»
наблюдение появляется с вероятностью 1 — е, «плохое» — с
вероятностью е, где е-малое число. В первом случае
наблюдения xi имеют нормальное распределение Jf(\i, а2), во втором —
нормальное распределение JF{\i, 9a2). Иначе говоря, все
наблюдения имеют одно и то же среднее, а ошибка для некоторых
из них в три раза больше, чем у остальных.
Можно дать следующее эквивалентное описание
приведенной ситуации: величины xi независимы и имеют одно и то же
распределение
(^) (^) A.1)
где
X
ф(дс)= » J e-yPdy A.2)
00
— функция стандартного нормального распределения.
Рассмотрим две широко известные оценки разброса —
среднее абсолютное отклонение
'-*1 0.3)
и среднее квадратичное отклонение
По поводу относительных преимуществ оценок dn и $п
противоположных точек зрения придерживались Эддингтон A914,
с. 147) и Фишер A920, сноска на с. 762). Эддингтон защищал
использование первой из них: «Хотя это входит в противоречие
с рекомендацией большинства учебников, как нетрудно
показать, правильнее пользоваться именно ею». Фишер решал
вопрос, по-видимому, на основе того факта, что для нормально
распределенных наблюдений величина sn примерно на 12 %
более эффективна, чем dn.
1.1. ЗАЧЕМ НУЖНЫ РОБАСТНЫЕ ПРОЦЕДУРЫ? Ц
Разумеется, статистиками sn и dn измеряются разные
характеристики распределения ошибки. Например, если ошибки имеют
в точности нормальное распределение, то величина sn сходится
к а, в то время как величина dn стремится к л/'Щп а « 0.80сг.
Поэтому нам следует уточнить, как нужно проводить сравнение
качества этих статистик. Изберем асимптотическую
относительную эффективность (АОЭ) статистики dn по статистике sn,
определяемую следующим образом:
— цт D (sn)/(EsnJ _ [3 A + 80e)/(l
— jirn D {d)/(EdJ — я (i + 8e)/B (
j D {dn)/(EdnJ — я (i + 8e)/B A + 2e)*) - 1 #
Значения этого показателя при различных в приведены на
рис. 1.1.1.
е
0
0.001
0.002
0.005
0.01
0.02
0.05
0.10
0.15
0.25
0.5
1.0
АОЭ(?)
0.876
0.948
1.016
1.198
1.439
1.752
2.035
1.903
1.689
1.371
1.017
0.876
Рис. 1.1.1. Асимптотическая эффективность среднего абсолютного
отклонения относительно среднего квадратичного отклонения. Из работы Хьюбера
A9776) с уведомлением издателя.
Полученная картина удручает: уже двух плохих наблюдений
на тысячу достаточно, чтобы свести на нет 12 %-ное
преимущество средней квадратичной ошибки, причем наибольшее
значение, которое показатель АОЭ(е) принимает вблизи значения
б = 0,05, превосходит 2.
Такое положение усугубляется, в частности, тем фактом, что,
оказывается, в естественных науках типичные выборки
«хороших данных» довольно точно моделируются законом
распределения ошибки вида A.1), где е лежит в пределах от 0.01 до 0.1.
(Это не значит, что такие выборки содержат от 1 до 10 %
больших ошибок, хотя довольно часто это именно так; приведенный
выше закон A.1) может служить просто удобным' описанием
функции распределения с несколько более длинными хвостами,
12 ГЛ. 1. ОБЩИЕ ОСНОВЫ
нежели у функции нормального распределения.) Поэтому
приходится с сожалением констатировать, что таких естественно
появляющихся отклонений от идеальной модели бывает
достаточно, чтобы лишить смысла применение традиционной теории
асимптотической оптимальности: на практике, безусловно,
следует отдать предпочтение статистике cln перед sn, поскольку она
лучше при всех е от 0.002 до 0.5.
Чтобы избежать недоразумений, сразу же укажем, какие
выводы не следует делать из приведенных здесь соображений.
Во-первых, не следует делать вывод, что мы защищаем
использование среднего абсолютного отклонения (в то же время оно
дает лучшие оценки масштаба). Во-вторых, некоторые считают,
что приведенный пример не соответствует реальности, поскольку
«плохие» наблюдения будут выступать в качестве
выделяющихся наблюдений, а всякий добросовестный статистик до
вычисления средней квадратичной ошибки что-нибудь предпримет
относительно этих наблюдений. Здесь это возражение не по
существу; при предварительном усечении выделяющихся
наблюдений средняя квадратичная ошибка может по достоинствам в
значительной мере превзойти среднюю абсолютную ошибку, но
мы ограничились выше рассмотрением только немодифицирован-
ных классических оценок.
Приведенный пример побуждает вплотную заняться
вопросом о длине хвостов распределения: удлинение хвостов
распределения дискредитирует дисперсию оценки sn (и в значительно
меньшей мере влияет на dn). С другой стороны, укорачивание
хвостов оказывает на распределения этих оценок незначительное
влияние. (Оно может привести к потере абсолютной
эффективности за счет понижения асимптотической границы Крамера —
Рао, но последняя настолько неустойчива при малых изменениях
распределения, что указанному влиянию можно не придавать
особого значения.)
Такая чувствительность к удлинению хвостов распределения
типична для классических процедур и не исчерпывается
данным примером. Вследствие этого «робастность по
распределению» и «защищенность от выделяющихся наблюдений» —
понятия, различные в идейном плане, — на практике выступают как
синонимы. Всякая разумная формальная или неформальная
процедура для усечения выделяющихся наблюдений призвана
защитить от возможных ошибок в выводах.
Теперь имеются основания задать следующие вопросы.
Нужны ли вообще робастные процедуры; может быть, достаточно
руководствоваться подходом, в котором предусмотрены два
шага:
A) «редактирование» данных усечением выделяющихся
наблюдений по некоторому правилу,
1.2. ЧТО ТРЕБУЕТСЯ ОТ РОБАСТНОЙ ПРОЦЕДУРЫ? 13
B) последующее применение для полученных данных
классических критериев и процедур оценивания?
Будут ли эти два шага кратчайшим путем к результату?
К сожалению, не будут по следующим причинам.
A) Указанные шаги довольно редко удается четко
разграничить; например, в задачах многопараметрической регрессии
выделяющиеся наблюдения распознать трудно, если не иметь
надежных робастных оценок для параметров.
B) Даже если исходный набор составляют перемешанные
с некоторым числом больших ошибок наблюдения, имеющие
нормальное распределение, то данные отредактированного
набора не будут иметь нормальное распределение (что
объясняется статистическими ошибками двоякого рода — неверными
усечениями и ошибочными сохранениями); еще хуже ситуация,
когда исходный набор, за исключением вкраплений больших
ошибок, получен из данных, подлинное распределение которых
не гауссовское. Поэтому теоретические выводы, основанные на
предположении о нормальном распределении наблюдений,
неприменимы для отредактированных данных и оценка
действительной ценности рассматриваемой процедуры из двух шагов
может оказаться более сложной, чем для непосредственной
робастной процедуры.
C) Практикой установлено, что лучшие процедуры усечения
не достигают в полной мере качеств лучших робастных
процедур. По-видимому, предпочтение следует отдать последним,
так как они допускают плавный переход от полной
неизменности до усечения всех наблюдений; см. Хэмпел A974 а; 1976),
1.2. ЧТО ТРЕБУЕТСЯ ОТ РОБАСТНОЙ ПРОЦЕДУРЫ?
Мы будем придерживаться точки зрения, которую можно
назвать «прикладной параметрической» точкой зрения, т. е.
будем считать, что имеется параметрическая модель, пусть (и даже
наверное) не абсолютно точно, но, надо полагать, хорошо
приближающая истинную изучаемую ситуацию. Подобная точка
зрения предполагает у любой статистической процедуры
наличие таких желательных особенностей.
A) Для выбранной модели процедура должна иметь
достаточно хорошую (оптимальную или почти оптимальную)
эффективность.
B) Процедура обязана быть робастной, иначе говоря,
малые отклонения от предположений о модели должны ухудшать
качество процедуры лишь в малой степени, т. е. характеристики
процедуры (например, асимптотика дисперсии или уровень
значимости и мощность критерия) должны быть близки к
номинальным величинам, вычисленным для принятой модели.
14 ГЛ. 1. ОБЩИЕ ОСНОВЫ
C) Несколько большие отклонения от допущений модели
не должны приводить к катастрофическим последствиям.
Использование критериев, основанных на асимптотических
результатах, необходимо сопроводить некоторыми
дополнительными оговорками. В частности, необходимо, чтобы сходимость
в окрестности принятой модели была равномерной или по
крайней мере была бы там односторонне равномерно ограниченной,
поскольку в противном случае нельзя гарантировать робаст-
ность при каждом конечном п независимо от того, насколько
велико п. Эта тонкость в прошлом нередко упускалась из виду.
Следует еще раз подчеркнуть, что появление больших
ошибок в наблюдениях, составляющих небольшую долю выборки,
нужно трактовать как малое отклонение и что главное
назначение робастных процедур в отличие от ряда крайне
чувствительных классических процедур — исключить влияние больших
ошибок.
В литературе можно встретить и немало других явных и
неявных требований к робастным процедурам. Например, от них
требуют высокой асимптотической относительной
эффективности (по отношению к некоторым конкретным классическим
процедурам) или высокой абсолютной эффективности как для
совершенно произвольных (достаточно гладких)
предполагаемых распределений, так и для конкретных параметрических
семейств.
Однако, на наш взгляд, требования такого рода имеют
второстепенное значение и никогда не должны занимать
главенствующее положение по отношению к трем упомянутым выше.
Робастные и непараметрические процедуры. Свободные от
распределения критерии. В традиционной классификации
робастные процедуры относят к тому же классу, который
содержит непараметрические и свободные от распределения
процедуры. По нашему мнению, эти три вида процедур имеют очень
мало общего.
Процедуру называют непараметрической, если она
предназначена для применения к ограниченному ^параметризованному
множеству допустимых распределений. Например, выборочные
среднее и дисперсия служат непараметрическими оценками
истинных среднего и дисперсии соответственно. Будучи
непараметрической оценкой, выборочное среднее весьма чувствительно
к выделяющимся наблюдениям и, следовательно, не робастно.
В тех относительно редких случаях, когда оценкой истинного
среднего интересуются специально, ничего больше не остается,
как воспользоваться выборочным средним «на авось».
Критерий называют свободным от распределения, если
вероятность ошибочно отвергнуть нулевую гипотезу одна и та же
1.2. ЧТО ТРЕБУЕТСЯ ОТ РОБАСТНОЙ ПРОЦЕДУРЫ? 15
для всех возможных непрерывных распределений основной
гипотезы (оптимальная робастность справедливости гипотезы).
Типичными примерами критериев такого рода служат двухвы-
борочные ранговые критерии проверки гипотезы идентичности
распределений. Как оказалось, большая часть критериев,
свободных от распределения, обладает достаточно стабильной
мощностью, а следовательно, имеет хорошую робастность всех
характеристик. Но этот факт — не более чем счастливое
совпадение, так как свобода от распределения никак не отражается на
поведении функции мощности.
Оценки, получаемые в свободных от распределения
критериях, иногда тоже называют свободными от распределения.
Однако здесь налицо неправильное употребление термина:
случайное поведение точечных оценок тесно связано с мощностью (но
не уровнем) критериев, в которых они возникают, и зависит от
истинного распределения. Единственным исключением служат
интервальные оценки, получаемые в ранговых критериях.
Например, истинная медиана попадает в интервал между двумя
определенными выборочными квантилями с фиксированной
вероятностью (но зависимость распределения длины этого
интервала от действительного распределения остается).
Робастные методы, как они понимаются в этой книге, в
идейном плане намного ближе к классическим
параметрическим методам, чем к непараметрическим или свободным от
распределения методам. Особенность робастных методов,
предназначенных для работы с параметрическими моделями, состоит
в том, что эти модели уже не предполагаются совершенно
точными, и это влечет за собой в свою очередь необходимость
соответствующих формальных построений.
Приведенные соображения оправдывают наше намерение
относить робастные оценки к состоятельным оценкам неизвестных
параметров в идеальной модели. В силу робастности эти оценки
не могут отклоняться слишком сильно, если модель верна лишь
приближенно. В этом случае вне модели можно определять
параметр, который должен оцениваться, по преде*чьному значению
оценки. Например, если используется выборочная медиана, то
ею естественно оценивать истинную медиану и т. д.
Адаптивные процедуры. Возможность создания эффективных
непараметрических критериев и оценок обнаружена Стейном
A956). Позднее ряд авторов, в частности Такеути A971), Би-
ран A974), Сакс A975) и Стоун A975), рассмотрели
конкретные оценки сдвига, асимптотически эффективные для всех
достаточно гладких симметричных плотностей. Поскольку эти
оценки, если можно так выразиться, сами адаптируются к
основному распределению, они получили известность под
16 ГЛ. I. ОБЩИЕ ОСНОВЫ
названием адаптивных оценок. См. также обзор Хогга
A974).
В то же время, и это почти очевидно, методы робастной
статистики нацелены в конечном счете на построение вполне
эффективных адаптивных оценок.
Однако связь между адаптивностью и робастностью не столь
проста, и главная причина здесь заключается в том, что робаст-
ность в гораздо большей степени обращена на защищенность
выводов, нежели на эффективность. Поведение адаптивных
процедур в случае несимметричных распределений практически
не исследовано. При очень больших объемах выборок, когда
адаптивные оценки представляются на первый взгляд более
привлекательными, статистическая изменчивость этих оценок
падает ниже их возможных смещений (обусловленных
загрязнением 'выборки из-за несимметричности и тому подобных
причин), а соображения робастности говорят в этом случае в
пользу оценок, имеющих меньшую эффективность, как это имеет
место для выборочной медианы, которая минимизирует
смещение. Поэтому мы предпочитаем следовать оригинальной
терминологии Стейна и относить адаптивные оценки не к робастным,
а к эффективным оценкам непараметрических процедур.
Устойчивые процедуры. Статистическую процедуру называют
устойчивой1) (ср. Мостеллер, Тьюки A982, с. 204)), если на
значение оценки не оказывают влияния малые изменения в
основной выборке (имеются в виду малые изменения всех или
большие изменения нескольких значений). Никаких
предположений об истинном распределении не делается. Понятие устойчивой
процедуры хорошо приспособлено, в частности, к анализу
(исследовательских) данных и, разумеется, отлично от понятия
робастной процедуры. Вместе с тем, как показывает теорема Хэм-
пела (см. § 2.6), почти во всех практических ситуациях эти два
понятия выступают как синонимы.
1.8. КАЧЕСТВЕННАЯ РОБАСТНОСТЬ
В этом параграфе приводится формальное определение
качественной асимптотической робастности и поясняются
причины, по которым мы принимаем это определение. Качественная
робастность для статистик, представимых в виде функционала Т
от эмпирического распределения, по существу эквивалентна
#¦-слабой непрерывности функционала Г, и чтобы изложение
дальнейшего стало яснее, остановимся сначала на этом частном
случае
*) В оригинале resistante.— Прим. перев.
1.3. КАЧЕСТВЕННАЯ РОБАСТНОСТЬ 17
Многие наиболее широко распространенные оценки и
статистики критериев зависят от выборки (х\, ...> *п) только через
эмпирическую функцию распределения
C.1)
или, в случае более общих выборочных пространств, через
эмпирическую меру
Fn = n'lZ 6Xi, C.2)
где 6* обозначает единичную массу, сосредоточенную в точке х.
При такой зависимости от выборки справедлива запись
Тп(х{9 ..., xn) = T(Fn), C.3)
где Т — некоторый функционал, определенный (по крайней
мере) на пространстве эмпирических мер. Нередко функционал
Т допускает естественное продолжение на пространство Ж (или
его подпространство) всех вероятностных мер на выборочном
пространстве. Например, можно положить
T(F)=limT(Fn), C.4)
rt>oo
rt->oo
если существует предел по вероятности в правой части C.4);
здесь F — истинное основное распределение, одно и то же для
всех наблюдений. Если для функционала Т выполняется
равенство C.4), то функционал Т называют состоятельным
функционалом для распределения F.
Пример 3.1. Статистика критерия, основанного на лемме
Неймана — Пирсона. Наиболее мощные критерии различения
плотностей ро и рх основаны на статистике вида
в которой
¦ W = Iog[piW/PoW]. C.6)
Пример 3.2. Оценка параметра 9 для предполагаемого
семейства плотностей f(xt 0), получаемая методом наибольшего
правдоподобия, находится из уравнения
= 0, C.7)
где
iM*> В) = -35- log / (х> 6).
18 ГЛ. 1. ОБЩИЕ ОСНОВЫ
Пример 3.3. Величину, называемую а-урезанным средним,
можно представить в виде
1-а
1 f ""^O*. C.9)
Пример 3.4. Так называемая .оценка Ходжеса — Лемана
представляет собой половину медианы свертки меры Fn с самой
собой:
(l/2)med(Frt*Fn). (ЗЛО)
(Примечание. Величина C.10) есть медиана всех п2 возможных, попарных
средних (Xi + Xj)l2; в более распространенном варианте этой оценки
используются попарные средние только с i<. j или i ^ /. Асимптотически все три
варианта эквивалентны.)
Теперь предположим, что выборочное пространство —
евклидово или, в более общем случае, полное сепарабельное метри-
зуемое пространство. На статистику вида C.3) мы
накладываем естественное условие робастности (более точно —
устойчивости) , согласно которому функционал Т должен быть
непрерывен в *-слабой топологии. Эта топология есть по определению
самая слабая из топологий в пространстве Ж всех
вероятностных мер, в которых отображение
C.11)
из Ж в R непрерывно для любой ограниченной непрерывной
функции я|). Справедливо также обратное утверждение: если
линейный функционал вида C.11) непрерывен в слабой топологии,
то^ функция г|) должна быть ограниченной и непрерывной (см.
гл. 2, где этот вопрос рассмотрен более подробно).
За сформулированным условием устойчивости кроется
требование, суть которого иллюстрирует следующий пример.
Возьмем линейную статистику вида C.5) и произведем небольшие
изменения в выборке, т. е. либо внесем небольшие изменения во
все наблюдения Xi (округление, группировка), либо сильно
изменим лишь некоторые из них (большие или грубые ошибки).
Если г|з — ограниченная и непрерывная функция, то эти
изменения послужат причиной небольшого изменения значения
функционала T(Fn)= \ ^dFn. Но если -ф есть, скажем,
неограниченная функция, то единичная большая ошибка, попавшая в
«стратегически важную» точку, может совершенно исказить величину
T(Fn). Если же г|) не является непрерывной функцией и если
у меры Fn оказалась ненулевая масса в точках разрыва, то
небольшие изменения во многих наблюдениях xi могут привести
к большим изменениям величины T(Fn).
1.4. КОЛИЧЕСТВЕННАЯ РОБАСТНОСТЬ 19
Исходя из этих соображений, нашему расплывчатому
интуитивному представлению об устойчивости или робастности мы
можем придать более строгую форму, считая линейный
функционал Т робастным всюду тогда и только тогда, когда
соответствующая функция г|) ограниченна и непрерывна, т. е. тогда
и только тогда, когда функционал Т слабо непрерывен.
Последнее свойство можно было бы рассматривать как
определение и называть (необязательно линейный)
статистический функционал Т робастным, если этот функционал слабо
непрерывен.
Однако мы предпочитаем следовать несколько более общему
определению, которое можно найти в работе Хэмпела A971).
Пусть Xt (/= 1, ..., п) — независимые одинаково
распределенные наблюдения, имеющие одно и то же распределение F,
{Тп}—последовательность оценок или статистик критерия:
Гя = Тп(Х\, ..., хп). Тогда последовательность называется ро-
бастной для F = FOf если последовательность отображений
распределений
F&(T) C.12)
равностепенно непрерывна в F0) т. е. в пространстве JL
вероятностных мер имеется подходящая функция d* расстояния,
порождающая слабую топологию, и для любого положительного г
найдутся такие б > 0 и п0 > 0, что для всех F при п ^ п0
справедлива импликация
rf. (Fo, F) < 6 => rf# (SV, (Гя), SF (Tn)) < e. C.13)
Если последовательность {Тп} составляют значения
функционала Тп = T(Fn), то, как показано в § 2.6, это определение,
по существу, эквивалентно слабой непрерывности
функционала Г.
Отметим, что имеется близкая формальная аналогия между
этим определением робастности и определением устойчивости
в теории обыкновенных дифференциальных уравнений; пусть
Ух(-) есть решение дифференциального уравнения dy/dt —
= f(ty у) при начальном условии у@) = х. Тогда в точке х = xq
решение устойчиво, если для любого положительного е
существует такое положительное б, что для всех х и всех / ^ 0
справедлива импликация
d(xQ9
1.4. КОЛИЧЕСТВЕННАЯ РОБАСТНОСТЬ
В силу ряда причин бывает полезно количественное описание
изменений, которые малое изменение основного распределения
F вносит в распределение 2?f(Jti) оценки или статистики
20 ГЛ. 1. ОБЩИЕ ОСНОВЫ
Тп = Тп(хи ..., Хп). Не исключено, что при этом набор из
нескольких простых и грубых числовых показателей может быть
гораздо эффективнее очень подробного описания.
Поясним идею упрощения такого рода. Допустим, что
последовательность {Тп} получена при помощи функционала
Т: Тп = T(Fn). В большинстве случаев, представляющих
практический интерес, оценка или статистика Тп состоятельна, т. е.
Tn->T(F) по вероятности, D.1)
и асимптотически нормальна:
2? Ч~п [Тп - Т (F)]} -> JT @, A (F; Г)). D.2)
Тогда количественно характеризовать робастность функционала
Т при больших выборках удобно поведением асимптотического
смещения T(F)—T(Fq) и асимптотической дисперсии A{F\T)
в некоторой окрестности !?z{Fq) распределения Fo, принятого
в модели.
Например, в качестве ^е может выступать окрестность Леей
{F I(V/) Fo (t - 8) - e < F @ < Fo (t + e) + e} D.3)
или «окрестность» загрязнения
&e(Fo) = {F\F = (l-B)Fo + eH, ffei) D.4)
(последняя не является окрестностью в слабой топологии).
Соотношение D.4) истолковывают также как модель больших
ошибок.
При таком подходе наибольшее значение приобретают две
характеристики: максимальное смещение
Ме)= sup \T(F)-T(FQ)\ D.5)
и максимальная дисперсия
vl(e)= sup A(F;T). D.6)
Нередко рассматривается также супремум дисперсии A (F; Т)
лишь по некоторому слою распределений F окрестности ^е, в
котором значения T(F) постоянны, например, только по
множеству симметричных распределений.
К сожалению, рассмотренный выше подход к вопросу не
вполне сообразен нашим целям. В то время как хотелось бы
знать, что для достаточно больших п выбранная оценка Тп
хорошо ведет себя при всех распределениях Fe^e, описание
в терминах величин Ь\ и v\ позволяет устанавливать лишь, что
для каждого фиксированного распределения Fe^g оценка Тп
ведет себя хорошо при достаточно больших п. Это различие, за-
1.4. КОЛИЧЕСТВЕННАЯ РОБАСТНОСТЬ 21
ключающееся в смене порядка следования кванторов, имеет
фундаментальное значение, но в литературе оно большей частью
обходилось молчанием.
В большей степени отвечает поставленным целям следующий
подход. Пусть M(FyTn)—медиана распределения 9?F\Jn —
— T(Fo)] и Qt(F, Tn) —нормированный /-квантильный размах
распределения ^(V^^n)» гДе нормированный f-квантильный
размах Qt для данного распределения G определяется
соотношением
Q-»A-0-Q-»ffl
здесь Ф — стандартное нормальное распределение. Величина t
произвольна, но зафиксирована. Например, полагают t = 0.25
(межквартильный размах) или t = 0.025 (95%-ный размах,
использование которого хорошо согласуется с традиционными
95%-ными доверительными интервалами). Для нормального
распределения величина Qt совпадает со стандартным
отклонением, поэтому QI нередко называют также псевдодисперсией.
Теперь определим максимальное асимптотическое смещение и
максимальную асимптотическую дисперсию соотношениями
6 (в) = lim sup \M(F,Tn)\, D.8)
П->ОО e
с
о (в) = lim sup Qt(F,Tnf. D.9)
Теорема 4.1. Если величины Ьх и v\ определены корректно,
то справедливы неравенства &(e)^s&i(e) и v(e)^vi(s).
Доказательство. Для упрощения рассуждений положим, что
Г(/0)=0. Допустим, что оценка Тп состоятельна: T(Fn)->T(F)
по вероятности. Тогда выполняется равенство Umn-+ooM(F9 Гл)==
= T(F), и значит, имеет место следующее неравенство,
справедливое для любого F е ^8:
Ь(е) = lim sup |М(F, Тп) |> lim \M(FfTn)\ = \T(F)|.
Поэтому 6F)>supFe<^ \T(F)\ = bx(e). Аналогично, если
величина л/п [Тп — T(F)] имеет в пределе нормальное распределение,
имеем: Hm^^Q^F, Tn)=A (F;T), и неравенство v(e)^Vi(e)
следует из такой же цепочки соотношений, как выше. Ш •
Использование величин Ь и v неудобно на практике, поэтому
вместо них обычно работают с Ьх и v\. При этом, однако,
необходимо проверять, выполняются ли для рассматриваемых
частных окрестности ^е и оценки Тп равенства Ь\ = Ь и V\ = v.
К счастью, обычно это так.
22 ГЛ. 1. ОБЩИЕ ОСНОВЫ
Теорема 4.2. Если ^8 — окрестность Леви, то ft(e)^&i(e + 0)=
= limn ^ e &i (л)-
Доказательство. Согласно теореме Гливенко — Кантелли,
равномерно по F выполняется соотношение sup \Fn (x) — F(х) |->
->-0 по вероятности. Поэтому для любого 6>0 вероятность
того, что Рп содержится в ФЬ(Р) и, значит, Fn содержится в
^е+б(^о), равномерно по F, принадлежащим ^е(^о), стремится
к единице. Поэтому Ь(г)^Ь\(г + Ь) для всех б > 0. ¦
Заметим, что для окрестностей указанных выше типов
д>х = Л есть множество всех вероятностных мер в выборочном
пространстве, поэтому 6A) —наихудшее возможное значение Ъ
(обычно равное оо). Определим асимптотическую пороговую
точку функционала Т для Fo:
s* = e*(Fo, Т) = sup{e|&(e)< ЬA)}. D.10)
Пороговая точка дает, образно говоря, предел той доли резко
выделяющихся наблюдений, с которой может совладать оценка.
Во многих случаях величина е* не зависит от распределения Fo
и нередко оказывается одной и той же для всех обычных
способов выбора &>е.
Пример 4.1. Для пороговой точки а-урезанного среднего
имеет место равенство е* = а. (Это равенство на интуитивном
уровне очевидно; его формальный вывод содержится в § 3.3.)
Аналогично можно определить и асимптотическую пороговую
точку дисперсии
D.11)
впрочем, это понятие полезно в гораздо меньшей мере.
1.5. ИНФИНИТЕЗИМАЛЬНЫЕ АСПЕКТЫ
Что произойдет, если мы добавим к очень большой выборке
еще одно наблюдение, равное х? Его влияние на оценку или
статистику T(Fn) можно характеризовать соответствующим
образом нормированным пределом
IC(x; F, T) =
где 6* обозначает единичную массу в точке х. Величина E.1)
как функция х была введена Хэмпелом A968, 1974) и получила
у него название кривой (или функции) влияния AСI).Она
оказалась, пожалуй, самым полезным эвристическим инструментом
От английского influence curve. — Прим. перев.
1 5 ИНФИНИТЕЗИМАЛЬНЫЕ АСПЕКТЫ 23
теории робастных статистик. Более детально функция влияния
будет рассмотрена в § 2.5.
Используя функцию IC(x\ F, Т), достаточно регулярный
функционал Т можно линеаризовать вблизи распределения F\ если
распределения G и F близки, то первые члены разложения
в ряд Тейлора дает формула
T(Q)r=T (F) + \ 1С (x; F, T) [G (dx) - F (dx)] + ... . E.2)
Имеем
\lC(x; F, T)F(dx) = O, E.3)
поэтому, заменяя в разложении E.2) распределение G
эмпирическим распределением F«, получим
У« (Т (Fn) - Т (F)) = *Jn\lC {x; F, T) Fn (dx)
.. . E.4)
Согласно центральной предельной теореме, первый член в
правой части E.4) имеет асимптотически нормальное
распределение со средним 0, если наблюдения х,- независимы и имеют одно
и то же распределение F. Нередко оказывается, что в пределе
остальными членами в правой части E.4) можно пренебречь
(хотя доказательство этого факта бывает делом непростым).
Величина «fn [T (Fn) — Т (F)] в таких случаях также имеет
асимптотически нормальное распределение со средним нуль и
дисперсией
A (F; Т) = J 1С2 (х; F, T) F (dx). E.5)
Итак, изучение функции влияния полезно в основном с двух
точек зрения. Во-первых, эта функция позволяет оценить
относительное влияние отдельного наблюдения на значение оценки
или статистики критерия. При неограниченной функции
влияния не исключены неприятности, причиной'которых послужат
выделяющиеся наблюдения. Максимум абсолютного значения
этой функции, т. е. величина
; F,T)\, E.6)
названа Хэмпелом чувствительностью к большой ошибке.
Величина E.6) тесно связана с максимальным смещением D.5); для
модели больших ошибок D.4) выполняется приближенное
равенство
T(F)~T (Fo) ^ е J 1С [х; f 0, Т) Н (dx). E.7)
24 ГЛ. 1. ОБЩИЕ ОСНОВЫ
Поэтому
Ьх (в) = sup | Т (F) - Т (Fo) |* eY*. E.8)
Впрочем, здесь налицо некоторые рискованные и, возможно,
незаконные перестановки супремумов и переходов к пределу.
Позднее (в § 3.5) мы приведем два примера, в которых
A) у* <Z оо, но Ь\(е) = сю при любом е > О,
B) у* = оо, но Ь(г) = О при е-^0.
Во-вторых, кривая влияния дает возможность эвристически
оценить асимптотические свойства статистики простым и
непосредственным способом, так как знание этой кривой
обеспечивает нас приближенной оценкой асимптотики дисперсии по
явной формуле E.5) (полученный при такой прикидке результат
следует затем строго обосновать уже иными средствами).
Функция E.1) имеет ряд аналогов для случая конечной
выборки с изменениями в разности и нормировке или без
таковых; наиболее важные аналоги — кривая чувствительности
(Тьюки A970)) и псевдозначения в методе «складного ножа»1)
(Кенуй A956), Тьюки A958), Миллер A964, 1974)). Кривая
чувствительности SC2) получается заменой в определении E.1)
F на Fn-\ и 5 на 1/п:
sCn-\ w= xfn =
= п[Тп{хи ..., xn_ux) — Tn_i(xu ..., xnmml)].
В методе «складного ножа» рассматривается оценка
Тп(х\9 • • • > хп)> которая остается, по существу, «одной и той же»
при разных объемах выборки (допустим, например, что в
качестве такой оценки берется функционал от эмпирического
распределения). Тогда i-м псевдозначением в методе «складного
ножа» по определению служит разность
T%i=nTn — (n—l)Tnmmi{xu ..., xt_u x(+u ..., хп).
Например, если Тп — выборочное среднее, то Tti—Xi.
Величина Г^ и значение функции влияния 1С(xi)связаны простым
соотношением. Более точно, подставив в выражение E.1) Fn
вместо F и — 1/(я— 1) вместо s9 получим
Т ([пЦп - 1)] Fn - [Щп - 1)] 6Х.) - Т (Fn) _
— [1/(л—1)] —
~~ Т1»-! (xi> • • •» xi-\y xi+\> • • •» хп)]= Tni — Тп.
х) Метод «складного ножа» (jacknife) иногда называют методом
расщепления выборки. — Прим. перев.
2) Аббревиатура от sensitivity curve. — Прим. перев
1.6 ОПТИМАЛЬНОСТЬ И РОБАСТНОСТЬ 25
Для состоятельной оценки Тп параметра 0, смещение
которой допускает асимптотическое разложение Е(Тп — 0)=ai/tt +
+ а2/п2 + О (я-3), я->оо, оценка Г* = я-]?* {Т*Р
построенная по псевдозначениям, имеет меньшее смещение: Е (Г* — 8) =
=-а2/п2 + О{п-3), л-*оо.
Пример 5.1. Если Тп=п^п^1{х1—хJ9то Tnt =[п/{п—1]Х
х (*i - *J иг!=(«-1)-1 zLi (*< - *J-
Как показал Тьюки A958), величина[п (я — l)]~l ?ft G1*/ —
— Г*J (аналог E.5) в случае конечной выборки) обычно
служит хорошим приближением дисперсии оценки Тп. (Эту
величину также можно использовать в качестве дисперсии оценки
^*, хотя для оценки Тп она подходит в большей степени.)
Предостережение. Во многих ситуациях, а именно в тех, где функция
влияния IC(x\ F, Т) зависит от распределения F не гладко, метод «складного
ножа» не подходит — он может дать совершенно неприемлемую дисперсию.
Так происходит, в частности, в тех случаях, когда оценки строятся по
небольшому числу порядковых статистик, подобных медиане.
1.6. ОПТИМАЛЬНОСТЬ И РОБАСТНОСТЬ
В § 1.4 были введены некоторые количественные показатели
робастности. Ими все возможности, разумеется, не
исчерпываются. Но поскольку робастность мы определяли, исходя из
требования нечувствительности к малым отклонениям от
предположений, всякий количественный показатель робастности
должен как-то отражать максимальное возможное ухудшение
оценки при е-отклонении от предположений. Принятое толкование
робастности приводит к представлению об оптимальной робаст-
ной процедуре, как о процедуре, минимизирующей
максимальное ухудшение, и следовательно, представляющей собой в
некотором роде минимаксную процедуру. Обладая значительной
свободой выбора количественного описания характеристик
процедуры и е-отклонений, мы можем принять множество
определений оптимальной робастности, по-разному оценивая
полезность процедур и удобство их описания математическими
средствами.
Точные минимаксные результаты для случая конечных
выборок имеются в двух простых, но важных частных случаях:
первый из них соответствует робастному варианту леммы
Неймана— Пирсона, второй дает интервальные оценки сдвига. Об
этих результатах говорится в гл. 10. Получающиеся критерии и
оценки очень просты, но подход, с помощью которого они
получены, не допускает естественных обобщений. В частности, не
26 ГЛ. 1. ОБЩИЕ ОСНОВЫ
представляется возможным получить явные результаты для
конечных выборок в случае присутствия мешающих параметров
(например, в случае неизвестного масштаба).
Если используются критерии, основанные на асимптотиках
характеристик (возможно, на асимптотиках дисперсий),
получаются асимптотические минимаксные оценки, о которых пойдет
речь в гл. 4—6. Асимптотические методы хорошо работают
только при наличии высокой степени симметрии (левой
(правой) симметрии, инвариантности по отношению к переносу
и т.д.), зато они допускают распространение на случай
мешающих параметров. По счастливому стечению обстоятельств
некоторые асимптотические минимаксные оценки, полученные при
совершенно иных допущениях, совпадают с рядом минимаксных
оценок для случая конечных выборок. Этот факт дает веский
довод в пользу использования асимптотических оптимальных
критериев.
Симметрии в задачах многопараМетрической регрессии и
оценивания ковариационных матриц вполне достаточно для того,
чтобы можно было перенести сюда упомянутые выше
результаты об асимптотической оптимальности (гл. 7 и 8). В то же
время польза такого переноса в какой-то мере сомнительна из-за
того, что на практике число наблюдений на параметр бывает,
как правило, неприемлемо малым. В задачах планирования
отодвинуть робастность по распределению как таковую на
второй план могут иные угрозы, требующие, например, нахождения
точек разбалансировки.
Для задач, в которых нельзя пользоваться инвариантностью,
например для задачи оценивания одного параметра в общей
постановке, Хэмпел A968) предложил добиваться оптимальной
робастности минимизацией асимптотики дисперсии для модели,
налагая условие ограниченности на чувствительность к
большим ошибкам у*, определенную равенством E.6). В
техническом плане этот подход наиболее прост, но с идейной стороны
он имеет известные недостатки; в самом деле, этот подход
приводит к тем же оценкам, к которым приводит минимаксный
подход для конечных выборок в случаях, когда последний
применим. Этот вопрос подробно рассмотрен в § 11.1.
1.7. ВЫЧИСЛЕНИЕ РОБАСТНЫХ ОЦЕНОК
Во многих практических приложениях (скажем) метода
наименьших квадратов составление и решение уравнений
наименьших квадратов сами по себе представляют довольно малую
часть всей программы вычислений. Поэтому для робастных
процедур вместо исчерпывающих все необходимые операции бло-
1.7. ВЫЧИСЛЕНИЕ РОБАСТНЫХ ОЦЕНОК 27
ков мы должны стараться строить алгоритмы, которые нетрудно
включить в состав уже существующих программ.
Фактически это сделать можно. Техническая сторона дела
рассмотрена в гл. 7; здесь остановимся лишь на ключевых
идеях.
Допустим, что по наблюдениям yi сделана подгонка по
методу наименьших квадратов и в результате получены значения
Qi подгонки и остатки п = yi — yi. Пусть si — некоторая оценка
стандартной ошибки наблюдений yt (или, что еще лучше,
стандартной ошибки остатков п).
Метрически винзоризуем наблюдения yif заменяя их
псевдонаблюдениями у*:
!yh если |r, K<ttf,
pi — csh если гi < — csh G.1)
Pi + csh% если ri > cst.
Константой с регулируется степень робастности. Значения с
хорошо выбирать из промежутка от 1 до 2, например с =1.5.
Затем по псевдонаблюдениям у* вычисляются новые
значения Pi подгонки (и новые si). Действия повторяются до
достижения сходимости.
Если все наблюдения совершенно точны, то классическая
оценка дисперсии отдельного наблюдения имеет вид
S2'-
и стандартную ошибку остатка г* можно в этом случае
оценивать величиной st = V1 —his, где hi есть /-й диагональный
элемент матрицы Н = Х(ХТХ)~ХХТ.
При использовании вместо остатков г,- модифицированных
остатков rf = i/f — Pi* как нетрудно видеть, получается
заниженная оценка масштаба. Появившееся смещение можно
ликвидировать, полагая (в первом приближении)
где п — р есть число наблюдений без числа параметров, am —
число неизменных наблюдений [yf =^).
Очевидно, что эта процедура сводит на нет влияние
выделяющихся наблюдений. Кроме того, имеются варианты
приведенной процедуры, для которых доказана сходимость. В
качестве предельных выступают достаточно хорошо изученные
М-оценки,
28 ГЛ. 1. ОБЩИЕ ОСНОВЫ
Приведенные соображения вполне точно иллюстрируют
рецепт получения робастного варианта любой процедуры.
Сначала данные «редактируются» — выделяющиеся наблюдения
замещаются значениями, полученными при подгонке в духе
формулы G.1), а затем последовательно проводят переподгонку до
тех пор, пока не появится сходимость. После этого к
псевдонаблюдениям yf применяется нужная процедура. Конкретные
примеры приводятся в сообщении Хьюбера A979) и в работе
Кляйнера и др. A979).
ГЛАВА 2
Слабая топология
и порождающие ее метрики
2.1. ОБЩИЕ ЗАМЕЧАНИЯ
В этой главе сделана попытка составить более или менее
замкнутый свод формальных математических построений,
лежащих в основе понятий качественной и количественной робаст-
ностй. Читатель, готовый принять на веру некоторые результаты,
может пропустить эту главу — повсюду в книге, где необходимо,
наиболее важные результаты будут приводиться и
сопровождаться неформальными пояснениями.
Изложение в этой главе опирается на основополагающую
работу Прохорова A956) и монографию Биллингсли A977);
некоторые необходимые сведения, касающиеся польских
пространств, в наиболее элегантной форме изложены в монографии
Неве A969).
2.2. СЛАБАЯ ТОПОЛОГИЯ
Выборочным пространством Й обычно будет служить
конечномерное евклидово пространство, но в этом параграфе
рассматривается несколько более общий случай польского
пространства Q, т. е. топологического пространства с такой
топологией, порождаемой некоторой метрикой d, что Q — полцое и
сепарабельное (т. е. содержащее счетное всюду плотное
подмножество) пространство. Пусть Л — пространство всех
вероятных мер на (Q, ^), где $ есть борелевская а-алгебра (т. е.
минимальная а-алгебра, содержащая открытые подмножества
пространства Q). Множество конечных знакопеременных мер1)
на (Q, .$), т. е. линейное пространство, порожденное
пространством Ж, обозначим Л'. Элементы пространства Q будут
обозначаться прописными латинскими буквами, набранными
курсивом. Если в качестве Q берется вещественная прямая R, то
как для меры, так и для связанной с ней функции
распределения будет использоваться одна и та же буква F с тем
различием, что для функции распределения принимается запись
*) Наряду с термином знакопеременная мера в отечественной литературе,
используются также термины заряд и обобщенная мера* —Прим. пере%х
30 ГЛ. 2. СЛАБАЯ ТОПОЛОГИЯ И ПОРОЖДАЮЩИЕ ЕЕ МЕТРИКИ
F(-), а для функции множества — запись F{-\: F(x) =
= F{(-ootx)}.
Хорошо известно, что любая мера ?^Ж регулярна в том
смысле, что всякое борелевское множество В е к можно
приблизить по мере F компактными множествами С снизу и
открытыми множествами G сверху:
sup F{C}=F{B}= inf F{G} B.1)
(см., например, Неве A969)).
Напомним, что *-слабая топология пространства Ж есть
самая слабая из топологий пространства Ж, в которых для
любой ограниченной непрерывной функции г|э отображение
\ B.2)
из Ж в R непрерывно.
Пусть L — линейный функционал на ~Ж (или, более точно,
сужение на Ж линейного функционала на Ж').
Лемма 2.1. Линейный функционал L слабо непрерывен на
Ж тогда и только тогда, когда он допускает представление вида
B.3)
для некоторой ограниченной непрерывной функции \|).
Доказательство, Очевидно, что всякий функционал, предста-
вимый в таком виде, линеен и слабо непрерывен на Ж.
Обратно, предположим, что функционал L слабо непрерывен
и линеен. Положим гр (л:) == L(8X), где 6* обозначает меру с
единичной массой в точке х. В силу линейности равенство B.3)
справедливо для любой меры F с конечным носителем. Ясно,
что какова бы ни была последовательность точек {хп}>
сходящаяся к точке х> имеет место слабая сходимость бХп->6х;
поэтому ty{xn) = LFXn)-+LFx) = $(x)9 и, значит, функция г|)
обязана быть непрерывной.
Теперь допустим, что г|) — неограниченная функция, например
sup\|)(x)= оо. Выбрав такую последовательность точек хп, что
if (хп)^ n2t положим (для произвольного xo):Fn = (l —n~lNXQ+
+ пГ1Ьх . Очевидно, что в этом случае имеет место слабая
сходимость Fn к 6*0, в то время как последовательность
значений ?(/^) = ф(*о) + я~Ч*(*л) —Ф(*о)] не сходится. Это входит
в противоречие с предположением о непрерывности
функционала L. Следовательно, -ф — ограниченная функция.
Далее, множество мер с конечным носителем всюду плотно
в пространстве Ж (для любой меры FeI и любого
конечного множества {-фь •.., tyn} ограниченных непрерывных
функций нетрудно найти такую меру F* с конечным носителем, что
2.2. СЛАБАЯ ТОПОЛОГИЯ 31
разность \ ij^d/7* — \ tyi dF будет как угодно мала
одновременно для всех /). Поэтому представление B.3) имеет место
для всех F е Л. Ш
Лемма 2.2. Следующие утверждения эквивалентны:
A) меры Fn слабо сходятся к F;
B) liminf Fn{G}^ F{G} для всех открытых множеств G;
C) \im sup Fn{A}^: F{А} для всех замкнутых множеств Л;
D) UmFn{B}= F{B} для всех борелевских множеств с
/¦"-мерой границы нуль (т.е. F{B}= F{B}= F{B}, где В —
внутренность, а Л —замыкание множества ВI).
Доказательство проведем по схеме A)=^ B)^^C) =>D)=>
=И1).
Эквивалентность утверждений B) и C) очевидна. Покажем,
как из них выводится утверждение D).
Если граница множества В имеет Лмеру нуль, то из B) и
C) следует цепочка соотношений liminf Fn {В} ^ F{B}= F{B} =
о
= F{B) ^ lim sup ^„{5}, которая в силу неравенств Fn{B} ^
^ Fn{B}^. Fn{B) влечет за собой утверждение D).
Теперь покажем, что A)=ф*B). Зададим е > 0. Пусть G —
открытое множество и А (А си G) — такое замкнутое множество,
что F{A}^ F{G} — 8 (напомним, что мера F регулярна). По
лемме Урысона (ср. Келли A981, с. 157)J) существует
непрерывная функция г|э, удовлетворяющая неравенствам 1л ^ ip ^ 1g.
Поэтому из утверждения A) следуют соотношения lim infFn{G}^
> lim \ o|) dFn = ^ o|) dF > F {A} > F {G} — e, которые в силу
произвольного выбора е влекут за собой утверждение B).
Осталось доказать импликацию D) =*-(!). Для этого
достаточно установить сходимость \ i|) dFn -> \ г|) dF с положительной
функцией 1|э. Будем для определенности считать, что 0 ^ г|) ^ М;
в этом случае имеет место равенство
м
Fn№>t}dt. B.4)
Для почти всех t множество {г|) > t} есть открытое множество
с границей, имеющей F-меру нуль. Согласно утверждению D),
1) Такие множества называют также F-множествами непрерывности
(Прохоров A956)). — Прим. перев.
2) Эта лемма, доказанная П. С. Урысоном, в отечественной литературе
известна также под названием «большой» леммы Урысона (см., например,
Александров П. С. Введение в теорию множеств и общую топологию. М.:
Наука, 1977, с. 172). — Прим перев.
32 ГЛ. 2 СЛАБАЯ ТОПОЛОГИЯ И ПОРОЖДАЮЩИЕ ЕЕ МЕТРИКИ
подынтегральное выражение в правой части B.4) сходится для
почти всех t к F{§ > t), а это в силу теоремы о мажорируемой
сходимости влечет за собой утверждение A).
Следствие 2.3. На вещественной прямой слабая сходимость
Fn->F имеет место тогда и только тогда, когда
последовательность функций распределения сходится в каждой точке
непрерывности F.
Доказательство. Если последовательность Fn слабо сходится,
то сходимость в точках непрерывности F следует
непосредственно из утверждения D) леммы.
Докажем следствие в обратную сторону. Пользуясь
соображениями монотонности и сходимостью Fn в точках
непрерывности F, получим
F (х) = F {х - 0) < Iim inf Fn (х) < lim sup Fn (x + 0) < F {x + 0),
B.5)
где F(x-\-0) и F(x — 0) — соответственно правый и левый
пределы./7 в точке х. Проверим, что справедливо утверждение B)
леммы. Всякое открытое множество G есть объединение
непересекающихся открытых интервалов (alybi), поэтому
справедливо представление Fn {G} = ? [F n(bi) — Fn {at + 0)], из которого
в силу леммы Фату и неравенств B.5) следует
iim inf Fn {G} > E lim inf [Fn (bt) - Fn (a, + 0)] >
Определение 2.4. Семейство мер У а М называется
плотным1), если для каждого положительного е существует такое
компактное множество К a Q, что F{K} ^ 1 — е для всех F из 9>.
В частности, всякое конечное семейство мер плотно (это
следствие свойства B.1) регулярности мер).
Лемма 2.5. Семейство мер 9* а Ж плотно тогда и только
тогда, когда для любых положительных г и б существует такое
конечное объединение В=[}В( шаров Bt ={y\d{Xi, y)^8}
радиуса б, что F{B}^ 1 — е для любой меры F из 9*.
Доказательство. Пусть 9 — плотное семейство мер. В этом
случае существование нужного объединения б-шаров нетрудно
вывести из того факта, что всякое компактное множество /CczQ
можно покрыть конечным объединением открытых б-шаров.
Докажем обратное утверждение леммы. По данному е > 0
для каждого натурального k построим такое конечное объедине-
1) Обращаем внимание читателя на различие двух прочно
укоренившихся в отечественной литературе терминов — характеристик множеств:
плотное (tight) в теоретико-вероятностном смысле и всюду плотное (dense) в
топологическом смысле. — Прим. перев.
2.2. СЛАБАЯ ТОПОЛОГИЯ 33
ние Bk= U"li^*/ шаров Bki радиуса l/k, что F{Bk}^ I—e2-ft
для всех fe^.
Рассмотрим пересечение K = (]Bky для которого, очевидно,
имеет место неравенство Р[К) ^1 — 2 в2"~& = 1 — е. Убедимся,
что /( — компакт. Поскольку множество К замкнуто, достаточно
показать, что любая последовательность {хп}> хп^К, имеет
точку накопления [) (для польских пространств наличие у {хп}
хотя бы одной такой точки влечет за собой компактность). Для
каждого k шары Bku ..., Bknk образуют конечное покрытие
пересечения /(, поэтому можно последовательно выбирать
множества Bkik так, чтобы для каждого т пересечение Ат== [}k<mBkik
содержало бесконечно много членов последовательности {хп}.
Выберем некоторую подпоследовательность {хпт}> хпт е Am,
Эта подпоследовательность есть последовательность Коши,
поскольку d(xnm, хП[) ^2/min(m, /). Так как пространство Q
полно, эта последовательность сходится. ¦
Теорема 2.6. (Прохоров). Семейство мер 9* а Ж плотно тогда
и только тогда, когда его слабое замыкание слабо компактно.
Доказательство. В силу утверждения C) леммы 2.2 семейство
плотно тогда и только тогда, когда плотно его слабое
замыкание, поэтому теорему достаточно доказать для слабо замкнутых
семейств & си Ж.
Пусть ^-—пространство ограниченных непрерывных
функций на Q. Построим доказательство на основе теоремы Даниэля
(Неве A969, предложение Н.7.1, с. 92)), согласно которой
определенный на Ф положительный линейный функционал L,
удовлетворяющий условию L(l)= 1, задается некоторой
вероятностной мерой F:
в том и только в том случае, когда из (поточечной) сходимости
фл \ 0 следует, что L (tyn) \ 0.
Пусть в пространстве 9? определенных на ^ положительных
линейных функционалов, удовлетворяющих неравенству L(l)^
^ 1, топология задана топологией поточечной сходимости на ^.
Тогда S есть компакт, причем семейство* У можно
естественным образом отождествить с подпространством 9*^2?.
Очевидно, семейство 5Р компактно тогда и только тогда, когда оно
замкнуто как подпространство пространства 9?.
*) Иногда используется термин точка прикосновения последовательности,
что может приводить к неверному отождествлению этого понятия с понятием
точки прикосновения множества. — Прим. перев.
2 Зак. 61f
34 ГЛ. 2. СЛАБАЯ ТОПОЛОГИЯ И ПОРОЖДАЮЩИЕ ЕЕ МЕТРИКИ
Теперь предположим, что У — плотное семейство мер. Пусть
функционал Lei? лежит в замыкании 9>\ мы хотим показать,
что L(tyn)\0 для любой монотонной убывающей
последовательности *ф« | 0 ограниченных непрерывных функций. Не
ограничивая общности, можно считать, что 0 ^ ф„ ^ 1. Пусть
положительное е и компакт К таковы, что F{K}^ 1—е для всех
F е ^. Последовательность сужений функций фя на компактное
множество К обладает не только поточечной, но и равномерной
сходимостью; будем считать, что $п ^ е на К при п ^ я0.
Поэтому для всех мер F е У и всех п ^ п0 справедливы
неравенства
из которых следует 0 ^ L(^rt)^2e. Значит, HmL(i|)n) = 0,
поскольку е было выбрано произвольно. Таким образом,
функционал L задается вероятностной мерой и, следовательно, лежит
в подпространстве У (которое по предположению есть слабо
замкнутое подмножество пространства М), что доказывает
компактность У (9> замкнуто в &).
Докажем обратное утверждение теоремы. Предположим, что
9> есть компакт и что ф„ е У, причем tyn \ 0. Тогда на
компактном множестве 9> имеет место поточечная сходимость \$ndF \ 0,
а поэтому, и равномерная сходимость supF s # \ ^п dF [ 0.
Теперь выберем функции -фп следующим образом. Зададим
б > 0. Пусть {хп} — всюду плотная последовательность в Q,
а ер* — такие определенные согласно лемме Урысона
непрерывные функции со значениями между нулем и единицей, что
ф,(х)=*0 при d(Xi, x)<6/2 и ф{(х)=1 при d(^, х)^б.
Функ() if {() |/ < } Т
ф,() р (i, )</ ф{() р (, )^ у
ции "фл определим равенством -фл(д:)= inf {ф,(л:) |/ < л}. Тогда
я|)л ф 0, причем-ф^^ lAcf где Ап представляет собой объединение
п
б-шаров с центрами */, i = 1, ..., п. Поэтому supfe<^F{y4^
rt dF 4 0 и утверждение вытекает из леммы 2.5.
2.3 МЕТРИКИ ЛЕВИ И ПРОХОРОВА
Здесь мы покажем, что пространство Л вероятностных мер
на польском пространстве Q со слабой топологией само есть
польское пространство, т. е. полное сепарабельное метризуемое
пространство.
В случае вещественной прямой, Q = R, наиболее удобная
метрика в пространстве Ж есть так называемое расстояние Леви.
2.3. МЕТРИКИ ЛЕВИ И ПРОХОРОВА 35
Определение 3.1. Расстоянием Леей между двумя функциями
распределения F и G называется величина
dL(Ft G)'=ini
Лемма 2.3. Расстояние Леви dz. — метрика.
Доказательство. Нужно проверить выполнение следующих
свойств: A) d,L(Fy G)^0, причем dL(F,G) = Q тогда и только
тогда, когда F = G; B) dL(F, G) = dL(G, F); C) dL(F,H)^
^di(F, G) + dz.(G, Я). Все они проверяются без особого
труда. ¦
Примечание. Величина л/2 dL (F, G) — это максимальное расстояние между
графиками функций распределения F и G, где они имеют наклон в 45е
(рис. 2.3.1).
Рис. 2.3Л,
Теорема 3.3. Расстояние Леви порождает слабую топологию.
Доказательство. В силу леммы 2.3 достаточно показать, что
сходимость Fn-+F в точках непрерывности F эквивалентна
сходимости dL(FyFn) к 0. A) Допустим, что cIl(F9 Fn)-*-0. Если х
есть точка непрерывности F, то F(x±B)±e->F(x) при е->0,
значит, последовательность Fn сходится в х. B) Предположим,
что Fn-+F в точках непрерывности F. Пусть х0 < х\ < ... < л:^
суть такие точки непрерывности F, что F(xo)<.e>/2, F(xN)>
> 1—8/2, причем jc/+i — xi < е. Пусть л0 — число, достаточно
большое для того, чтобы при всех / и п > д0 выполнялось
неравенство | Fn(Xi) — F(xi) | < е/2. Тогда в промежутке х^\ ^x^xi
выполняются неравенства Fn(x) ^ Fn(Xi) < F{xi) -f e/2 ^ F(x +
+ e)-f-e. Полученная оценка, очевидно, справедлива при дс < д:0
и при х > Хм- Тем же способом устанавливается неравенство
Fn(x)^ F(x — г) — г. ¦
В общем случае польских выборочных пространств Q слабую
топологию в М можно задать при помощи так называемого
расстояния Прохорова. В идейном плане эта метрика наиболее
привлекательна, хотя для прикладных расчетов она и не совсем
удобна.
36 ГЛ. 2. СЛАБАЯ ТОПОЛОГИЯ И ПОРОЖДАЮЩИЕ ЕЕ МЕТРИКИ
Сначала дадим два вспомогательных определения.
Для любого подмножества Лей определим замкнутую
8-окрестность подмножества А:
A6 = {x^Q\ inf ^(*,*/)<6}. C.1)
У ^ А
Лемма 3.4. Для произвольного множества А выполняются
равенства А6 = А6 = А6 = А6 (черта, вверху обозначает
замыкание). В частности, множество А6 замкнуто.
Доказательство. Достаточно доказать включение Дб с: А6.
Пусть х^Л6. Зададим ц > 0. Тогда можно последовательно
указать такие i/g!6, 26Д и /еЛ, что d(x, у) < г), d(y,z)<i
< б + г] и d(z,t)<.i\. Значит, d(xy /)< б + Зц, и так как т]
задано произвольно, то х е А6. ¦
Пусть G (Gel)—фиксированная вероятностная мера, 8
и б — положительные числа. Множество
&>Qi6={FeE:J{\F{A}^G{Ab}+e для всех /1е«} C.2)
носит название окрестности Прохорова меры G. Нередко будем
полагать, что е = б.
Определение 3.5. Расстоянием Прохорова между двумя
мерами F, G ^.Л называется величина
dn(F,G)=\ni{s>0\F{A}<^ G{A*}+e для всех А <=$}.
Покажем, что расстояние Прохорова — метрика. Сначала
установим, что введенное расстояние симметрично относительно
F и G. Этот факт непосредственно вытекает из следующей
леммы.
Лемма 3.6. Если F{A} ^ G{A6}+ г для всех /1g^, to
A}^F{A&}+e для всех А ^9&.
Доказательство. Зададим 6' > б и в качестве множества А
посылки леммы возьмем множество ВЬс (верхний индекс с
обозначает дополнение). Тогда G {B6'c 6c} ^F {В6'} + е. Теперь
покажем, что ВсБ6'сбс, или, что то же, В6'с6 а Вс. Допустим, что
х е Вб'с6, тогда существует такая точка у ф В6', что d(x, у) ^ б'.
Поэтому х ф. В, поскольку в противном случае d(x, у) > 8'.
Следовательно, G {?}< F {В6} + е. Так как В6 = П Я6', то утвер-
б'>б
ждение леммы доказано. ¦
Теперь покажем, что из равенства dn{F, G) — 0 следует, что
F = G. Поскольку ПехИ8 = А, из равенства dn(Fy G) = 0
следует, что Fj/l}^ G{A} и G{i4}^ F{A} для всех замкнутых
множеств А. Поэтому F= G (напомним, что все рассматриваемые
меры регулярны). Докажем неравенство треугольника. Для
этого предположим, что dn(F, G) ^ г и dn(G, H) ^ б. Тогда
F{A} ^ G{A&} -f e < Я {(Л8N} -j- e -f б. Поэтому достаточно про-
2.3. МЕТРИКИ ЛЕВИ И ПРОХОРОВА 37
верить справедливость включения (Л8Ncz Л8+6, которое
нетрудно доказать при помощи неравенства треугольника для
метрики d. Ш
Теорема 3.7 (Штрассен). Следующие два утверждения
эквивалентны:
A) F{A}^ G{A6}+e для всех А <=Д;
B) существуют такие (зависимые) случайные величины X и
У со значениями в Q, что 2(Х) = F, 2? (Y) = G и P{d(Xy У)<
^ 6} ^ 1 — 8.
Доказательство. Так как^имеет место включение {Х^А}а
c:{Y<=A6}{]{d(Xy Y)> б}, утверждение A) есть
непосредственное следствие B). Доказательство обратной импликации
содержится в известной работе Штрассена A965, с. 436 и далее). I
Примечание 1. В теореме, приведенной выше, можно положить 6 = 0.
Тогда в силу того, что меры F и G регулярны, утверждению A)
эквивалентно утверждение о том, что расстояние dnB полной вариации между F и G
удовлетворяет условию dnQ (F, G) = supAe#\F(A) — G(A) \ ^ e. В этом
случае из теоремы Штрассена следует, что существуют такие две случайные
величины X и У с маргинальными распределениями F и G соответственно, что
Р{Х ф Y} ^ е. Вместе с тем необходимо отметить, что расстояние полной
вариации не порождает слабой топологии.
Примечание 2. Если G — принятое в модели распределение, a F —
истинное распределение, причем dn(F,G) ^ е, то, как показывает теорема
Штрассена, всегда можно полагать, что имеются некая идеальная (но
ненаблюдаемая) случайная величина У с распределением ^(У)= G и наблюдаемая
величина X с распределением 2?{Х) = F, удовлетворяющие неравенству
P{d(X, Y) ^ е}^ 1 — е, т. е. расстоянием Прохорова в совершенно явной
количественной форме предусмотрены как появление малых ошибок с
большими вероятностями, так и больших ошибок с малыми вероятностями.
Теорема 3.8. Метрика Прохорова порождает в пространстве
Ж слабую топологию.
Доказательство. Пусть Р (Р^Ж) — фиксированная мера.
Тогда семейством окрестностей меры Р9 образующим базу ела*
бой топологии, служат множества вида
e, / = 1, ..., k]9 C.3)
где ер* (/=1, ..., К) суть ограниченные непрерывные функции.
Согласно лемме 2.2, имеются еще три другие базы для данной
системы окрестностей, а именно образованная множествами
{(Эе=Ж\<Э(О1)>Р(О1)-еу / = 1, ..., k}, C.4)
где Gi (/=1, ..., ft)—открытые множества; образованная
множествами
/=1, ..., k}, . C.5)
38 ГЛ. 2. СЛАБАЯ ТОПОЛОГИЯ И ПОРОЖДАЮЩИЕ ЕЕ МЕТРИКИ
где множества Л* (/= 1, ..., к) замкнуты; и образованная
множествами
{Q€=jr||Q(fi,)-P(fi,)l<e, *«1, ..., *}, * C.6)
где множества Bt имеют Р-меру границы нуль.
Сначала покажем, что любая окрестность вида C.5)
содержит окрестность Прохорова. Допустим, что даны мера Р,
положительное е и замкнутое множество Л. Очевидно, найдется
такое б, 0 < б < е, что Р(Лб)<Р(Л) + A/2)е. Если dn(P,Q)<
<A/2N, то Q(A)< P{A*) + A/2N <Р(А) + е. Эти неравенства
показывают, что окрестность вида C.5) содержит окрестность
Прохорова. Чтобы доказать обратное, зададим е > 0 и выберем
б < A/2)е. В силу леммы 2.5 найдется такое конечное
объединение множеств Aiy имеющих диаметр меньше б, что ^(U/LH/)>
>1—б. Множества Ai можно выбрать так, чтобы они не
пересекались и имели Р-меру границ нуль. Если
зФ—(конечный) класс объединений множеств Аи то каждый элемент
класса s4> имеет Р-меру границы нуль. Согласно определению C.6),
найдется такая окрестность (слабой топологии) Щ меры Р, что
<U= {Q\ |Q(?) — Р(В)|<6 для Bg^}. Теперь покажем, что
dn(P, Q) < е, если Q e °U. Пусть В (Ве^)- произвольное
множество и А—объединение множеств Л,-, пересечение
которых есть Б. Тогда имеют место включения ВczA\J [ULi^]* и
Л с В6, поэтому Р(В)< Р(А) + б < Q(A) + 26 < Q(B6)+ 26,
что завершает доказательство. ¦
Теорема 3.9. Пространство Ж есть польское пространство.
Доказательство. Осталось лишь показать, что Ж—-сепара-
бельное и полное пространство. Выше уже отмечалось (см.
доказательство леммы 2.1), что меры с конечным носителем
составляют всюду плотное подмножество пространства Ж. Теперь
рассмотрим счетное всюду плотное подмножество Qo
пространства й. Нетрудно показать, что уже счетное множество Жо,
составленное мерами с конечными носителями, содержащимися
в Qo, и с рациональными массами, всюду плотно в пространстве
Ж, Этим доказана сепарабельность.
Далее, пусть {Рп} есть последовательность Коши в
пространстве Ж. Зададим 8 > 0 и выберем число п0 так, чтобы
dn{Pn,Pm)<: е/2 при гп, п ^ п0, т.е. Рт (А) ^ Рп (Л «/2) + е/2.
Конечная последовательность {Pmjm^ro составляет плотное
семейство мер, поэтому по лемме 2.5 найдется такое конечное
объединение В шаров радиуса е/2, что Pm(fi)^l—е/2 при
пг < п0. Но в этом случае Рп {Вг/2) > Р^ {В) — е/2 > 1 — е, *,
поскольку окрестность Ве/2 содержится в конечном объединении
е-шаров (с теми же центрами, что у шаров, образующих объ-
2.4. ОГРАНИЧЕННАЯ МЕТРИКА ЛИПШИЦА 89
единение В), заключаем, привлекая лемму 2.5, что
последовательность {Рп} есть плотное семейство мер. Таким образом,
последовательность {Рп} имеет в М точку накопления (которая
обязательно единственна). ¦
2.4. ОГРАНИЧЕННАЯ МЕТРИКА ЛИПШИЦА
Слабую топологию могут порождать и другие метрики.
Особый интерес представляет одна из них — так называемая
ограниченная метрика Липшица йвь. Предположим, что функция d
расстояния ограничена на Q единицей (при необходимости всегда
можно заменить эту функцию функцией d(x,y)/[l + d(x>у)}).
Определим величину
p| \ J | D.1)
где супремум берется по всем функциям -ф, удовлетворяющим
условию Липшица
D.2)
Лемма 4.1. Функция расстояния ubl — метрика.
Доказательство. Единственную сложность представляет
доказательство того факта, что равенство dBL(F, G)= О влечет за
собой равенство F = G. Очевидно, равенству cIbl(F9 G) = О
равносильно равенство [tydF^XtydG для всех функций,
удовлетворяющих условию Липшица |i|>(*) — ty(y) | ^ cd(x, у) при
некотором с. В частности, можно в качестве гр (л:) взять функцию
A —cd(jcfi4))+, где d(x9A) = inf{d(x,y)\yeA}.Torjia\ir(x) —
— $(У)\< cd(x,y) и 1Л^'Ф^1Л1/с. Полагая с -»-оо, получаем
равенство F(A)=G(A) на всех замкнутых множествах Л, что
влечет за собой нужное равенство F = G. Ш
Для этой метрики справедлив также аналог теоремы Штрас-
сена (впервые доказанный Канторовичем и Рубинштейном
A958) в одном частном случаеI).
Теорема 4.2. Следующие два утверждения эквивалентны:
A) dBL(F,G)^s;
B) существуют такие случайные величины X и У с
распределениями g{X) = F и &(Y)*mO, что *СХ У)
1) Весьма изящные доказательства упомянутых теорем, основанные на
методе построения минимальных метрик в классе А,-метрик Золотарева
(см. Золотарев В. М. Метрические расстояния в пространствах случайных
величин и их распределений. — Матем. сб., 1976, т. 101 A43), № 3 A1),
с. 416—454; Золотарев В. М. Вероятностные метрики. — Теория вероятн. и ее
примен., 1983, т. XXVIII, в. 2, с. 264—287) содержатся в недавней работе
Шульги (см. Szulga A. On minimal metrics in the space of random variables.—
Теория вероятн. и ее примен., 1982, т. XXVII, в. 2, с. 401— 405.). — Прим.
перев.
40 ГЛ. 2. СЛАБАЯ ТОПОЛОГИЯ И ПОРОЖДАЮЩИЕ ЕЕ МЕТРИКИ
Доказательство. Импликация B)=^A) тривиальна:
Чтобы доказать обратную импликацию, предположим
сначала, что й — конечное множество. По существу, в этой
ситуации нужная импликация есть частный случай теоремы Куна —
Такера A951), но отдельное доказательство, вероятно, более
поучительно. Предположим, что элементы пространства Q
занумерованы натуральными числами от 1 до п. Тогда
вероятностные меры F и G представимы в виде двух n-мерных векторов
(/ь ¦••>/*) и (g\, ..., gn) с вещественными элементами, а
вероятность на ИХй можно представлять матрицей {иц}. Таким
образом, нужно попытаться минимизировать математическое
ожидание
Е D.3)
при ча* \ ' р лечениях
иц >0, ? иц = gh Е иц = fh D.4)
где коэффициенты йц удовлетворяют условиям
+ djb. D.5)
Матрицы с элементами иц, удовлетворяющие таким
ограничениям, существуют (например, этим ограничениям
удовлетворяет матрица с элементами un = figj), и из простых
соображений компактности следует, что у поставленной задачи
минимизации решение имеется. Методом множителей Лагранжа эту
задачу можно свести к задаче на безусловный экстремум:
минимизировать в области иц ^ 0 сумму
Eto/ —**-|i/)ity. D.6)
В точке минимума (который, как нам известно, существует)
должны выполняться следующие импликации:
uif>0=>dif = Xi + \xI, D.7)
иц = 0 =ф* da >ht + |i7, D.8)
поскольку иначе сумма D.6) уменьшилась бы при достаточно
малых изменениях некоторых иц. Из D.4), D.7) и D.8)
выводим, что минимальное значение ц математического ожидания
D.3) удовлетворяет равенствам
Л = Z duuit = Е (*< + И/)«// = Е Kfi + Е й#|. D.9)
2.4. ОГРАНИЧЕННАЯ МЕТРИКА ЛИПЩИЦА 41
Допустим на время, что jul,- = —Xi при всех / (это вытекало
бы из D.7), если бы для всех i выполнялись строгие
неравенства Ui/>0). В этом случае, как следует из D.7) и D.8),
множители h удовлетворяют условию Липшица \h — h/|^d/y, и
D.9) влечет за собой неравенство ц ^ е, что и доказывает
утверждение B) теоремы.
Для того чтобы установить равенство уц = —h при
фиксированном /, предположим сначала, что как // > 0, так и gi > 0.
Тогда как i-я строка, так и /-й столбец матрицы из элементов
Uij должны содержать положительный элемент. Если иц > 0,
то в силу соотношений Xi + уц = da = 0, вытекающих из D.7),
нужное равенство выполняется. Если иц = 0, то должны
найтись два положительных элемента: иц >0 и и и > 0. В этом
случае U + [xj = dij, Xk + in = йы. Воспользуемся неравенством
треугольника: hk + jx/ < dk} ^ dki + йц = Xk + \xt + h + |xy.
Таким образом, 0 ^ \ki + h ^ da = 0 и, следовательно, %t -f-
+ \n = 0.
В случае /,- = gi = 0 доказывать, по сути дела, нечего
(можно /-ю точку вывести из рассмотрения).
Наиболее затруднительным представляется случай, когда
лишь одно значение из ft и gi равно 0; пусть ft > 0, a gi = 0.
Тогда иы = 0 для всех k, a %k + Щ ^ dku но множитель |л*,
вообще говоря, определен неоднозначно; заметим, что в формуле
D.9) стоящий при щ сомножитель равен 0. Поэтому можно
увеличивать множитель щ до тех пор, пока при некотором k не
выполнится равенство %k + Щ = dki- Если k = i, то
доказательство заканчивается. Но если k ф i, то должно найтись
некоторое /, для которого щ/ > 0, поскольку // > 0; при этом имеет
место равенство h + ц,/ = dih и можно повторить то же
рассуждение с привлечением неравенства треугольника, что и
выше.
Рассмотрением последнего случая завершено доказательство
теоремы для конечных множеств Q.
Теперь покажем, что теорема верна для любых мер F и G
с конечным носителем, например множеством {хи ..., хп}.
Чтобы это сделать, достаточно показать, что любую функцию ф,
определенную на множестве {хи ..., хп} и удовлетворяющую
условию Липшица | г|) (xt) — -ф (*/) | ^ d (xi, xf), можно
продолжить до функции, удовлетворяющей условию Липшица всюду
на Q.
Пусть х\у *2> • • • — всюду плотная на Q последовательность.
Сделаем предположение индукции, состоящее в том, что
функция я|) определена на множестве {х\, ..., хп) и удовлетворяет
на нем условию Липшица. В этом случае функция г|) будет
удовлетворять этому условию на {х\у ..., xn+i} тогда и только тогда,
42 ГЛ. 2. СЛАБАЯ ТОПОЛОГИЯ И ПОРОЖДАЮЩИЕ ЕЕ МЕТРИКИ
когда для значения ty(xn+i) будет иметь место включение
¦ (*»+i) е { max [ф (*,) — d (xi9
1 <*<
min [¦(*,) + <*(*,. *»+!)]}. D.10)
1 < / < л
Достаточно показать, что рассматриваемый интервал не пуст,
т.е. для любых /, j^n имеет' место неравенство yJp(xi)—
— d(xi, Xn+\)^ ty(x})-{- d(Xjy jcn+i) или эквивалентное ему
неравенство ^(Xi) — ^(Xi)^d(xt9Xn+i) + d(Xf9Xn^i)t очевидно,
справедливое в силу неравенства треугольника.
Таким образом, можно определить функцию -ф на всюду
плотном множестве, а затем по равномерной непрерывности и
на всем Q.
Теперь осталось доказать теорему для мер F и G общего
вида, что делается непосредственным переходом к пределу
следующим образом.
Во-первых, покажем, что для любого 6>0 и любой меры F
существует такая мера F* с конечным носителем, что
dBL(F, F*) < б. Для этого сначала найдем такой компакт К с= Q,
что F(K)> 1—6/2, затем покроем К конечным набором
непересекающихся множеств U\, ..., Un с диаметрами меньше 6/2,
положим Uo = Кс и выберем точки xi e t//, i = 0, ..., п.
Определим меру F* с носителем {хо, •.., *п} значениями F*{xt} =
= F{Ui}. Тогда для любой функции if», удовлетворяющей
условию Липшица, имеем:
Итак, меры F и О можно аппроксимировать такими мерами
F* и G* соответственно, что справедливо неравенство
dBL(F*9 G*)< е + 2б и, кроме того, меры со звездочками имеют
конечный носитель. Поэтому.на QXQ найдется такая мера Р*
с маргинальными мерами F* и G*, что \d(X9 K)dP*<e + 26.
Если взять последовательность значений 6, стремящуюся к 0,
то соответствующая последовательность Р*, очевидно, будет
плотна в пространстве вероятностных мер на Q X Q и ее
маргинальные меры будут слабо сходиться к мерам F и G
соответственно. Следовательно, существует слабо сходящаяся
подпоследовательность мер Р*, предел которой Р удовлетворяет
утверждению B). Тем самрм теорема полностью доказана. ¦
2.4. ОГРАНИЧЕННАЯ МЕТРИКА ЛИПШИЦА 43
Следствие 4.3. Для любых двух мер F, G е М имеют место
неравенства
dn{F, GJ^dBL(F, G)^2dn(F, G).
В частности, dn и dei. порождают одну и ту же топологию.
Доказательство. Для любой вероятностной меры Р на Q X &
имеет место оценка
, Y) > е} -
Если dn(F, G)^e, то можнр (согласно теореме 3.8) выбрать
меру Р так, чтобы правая часть оценки не превосходила
е + A — е)е^ 2е; этим доказано неравенство йы. ^ 2d/z. С
другой стороны, согласно неравенству Маркова, справедливы оценки
P{d{X, K)>
если dst (F, G) ^ e2 и, значит, d\ < rfBL. ¦
Неравенства для иных метрик. Расстояние полной вариации
dnB(F, G) = sup | F{A) - G {A} \ D.11)
и расстояние Колмогорова
dK (Л G) = sup | F W - G (*) | D.12)
на вещественной прямой не порождают слабую топологию, од:
нако обладают рядом удобных свойств иного рода. В частности,
имеют место неравенства
D.13)
. D.14)
Доказательства неравенств D.13) и D.14). Определение
расстояния Прохорова
dn (F, G) = inf {е | ОМ е Л) F {Л} < G {Л8} + е} D.15)
превращается в определение расстояния Леви du если сузить
класс множеств А в правой части до класса множеств вида
(—оо, х] и [х, оо). Определение D.15) обращается в
определение расстояния полной вариации, если множество Ае заменить
на А и, следовательно, наложить более строгие условия. Далее,
последнее определение можно превратить в определение
расстояния Колмогорова, если ограничиться классом множеств А
вида (— оо, jc] и [я, оо). Наконец, если в правой части
неравенства D.15) расширить множество А до Ае и, следовательно,
уменьшить инфимум, то получится расстояние Леви. ¦
44 ГЛ. 2. СЛАБАЯ ТОПОЛОГИЯ И ПОРОЖДАЮЩИЕ ЕЕ МЕТРИКИ
2.5. ПРОИЗВОДНЫЕ ПО ГАТО И ФРЕШЕ
Предположим, что d# — метрика (или псевдометрика —
нами, по существу, нигде не будет требоваться, чтобы имела
место импликация d*(F, G) = 0 =>- F = G) в пространстве
вероятностных мер Ж, которая
A) совместима со слабой топологией в том смысле, что
множества {F\d* (G, F) < е} открыты для любых 8 > О,
B) совместима с аффинной структурой пространства Ж\ если
Ft = (l-t)F0 + tFu то d.(Ft,F8)=O(\t-s\).
«Обычные» функции расстояния, порождающие слабую
топологию, разумеется, удовлетворяют первому из этих условий. Они
удовлетворяют также и второму, хотя это и должно проверяться
в каждом случае.
Заметим, что в случае метрики Леви имеют место
соотношения \Ft(x)-Fs(x)\ = \t-s\\Fi(x)-Fo(x)\:
справедливо неравенство dx(Ft, Fs) ^\t — s
/ — 51; - поэтому
и a fortiori
Для метрики Прохорова справедлива аналогичная цепочка
соотношений: \Ft{A}— FS{A) \ = \t — s\ \Fl{A}—FQ{A} | < \t —
— s\. Таким образом, dn(Ft, Fs)^\t — s\.
В случае ограниченной метрики Липшица имеем: для любой
функции г|), удовлетворяющей условию Липшица,
Полагая -ф= sup\|)(#) и \Sp = inf г|)(х), получим: -ф —-ф ^
^ supd{x7 f/X 1. Таким образом, \ ^dFx — \ i|)rfF0<^ tydF{ —
— \ i|) dF0 ^ 1 и, следовательно, deL (Ft, Fs) ^ 11 — s \.
Говорят, что статистический функционал Т дифференцируем
по Фреше в F, если его можно аппроксимировать таким
линейным функционалом L (определенным на пространстве конечных
знакопеременных мер), что для всех мер G справедливо
соотношение
\T(G)-T(F)-L{G-F)\r=o[d*(F,G)]. E.1)
Разумеется, функционал L — LF зависит от базовой точки /\
Нетрудно видеть, что функционал L (в существенном)
единствен: если L\ и 1*2 — два линейных функционала,
удовлетворяющих соотношению E.1), то для их разности имеет место
соотношение | (L\ — L2) (G — F) | = o[d*(F, G)], из которого, в
частности, полагая Ft = (l — t)F + tGy получим: | (L\ — L2) (Ft —
— f) | = /| (L, _ L2) (G - F) | = o(d*(Fy Ft))+o(t), поэтому для
любой меры G имеет место равенство L\(G — F) = 'L2(G — F).
2 5 ПРОИЗВОДНЫЕ ПО ГАТО И ФРЕШЕ 45
Из последнего равенства вытекает, что функционал L
определен однозначно на пространстве конечных знакопеременных
мер полной массы 0 и в точке F его можно определить
произвольно, например, полагая L(F)= 0.
Если бы функционал Т был определен не только на
некотором выпуклом множестве, но и на целой открытой окрестности
точки F в некотором линейном пространстве, то из слабой
непрерывности функционала Т в точке F вместе с условием E.1)
вытекала бы непрерывность функционала L по G в точке G = F
и в силу линейности функционала L — непрерывность
функционала L всюду.
К сожалению, это не так, поэтому возникает необходимость
в более сложном подходе.
Заметим, во-первых, что, определив функцию ф равенством
¦ (*)= 1(в,-/Ъ E.2)
в силу линейности L получим
^ E.3)
для любой меры G с конечным носителем.
В частности, для меры Ft = A —t)F -\-tG получим
= I T {Ft) -T{F)-j\^dG\=o « (F, Ft)) = o(t). E.4)
Предположим, что функционал Т непрерывен в точке F\
тогда из равенства d*(F, Ft)= O(t) вытекает, что \T(Ft) —
— T(F)\ = o(l) равномерно по G. Сравнивая последнее
соотношение с формулой E.4), заключаем, что функция if» должна
быть ограниченной.
Формулу E.4) можно переписать в виде равенства
т (Ft) - Т (F)
справедливого равномерно по G. Далее, если Т — функционал,
непрерывный в окрестности меры F, и имеет место слабая
сходимость Gn-^Gy то имеет место и слабая сходимость Fn,t =
= A — t)F -\-tGn-+- Ft- Поскольку величину / можно выбрать
произвольно малой, получаем \ tydGn-> \ tydG. В частности,
полагая Gn = dXfi, где хп-+х, заключаем, что функция <ф должна
быть непрерывной. Если G — произвольная вероятностная мера
и Gn — меры с конечным носителем, аппроксимирующие меру
G, то, как нетрудно получить теми же рассуждениями, интеграл
46 ГЛ. 2. СЛАБАЯ ТОПОЛОГИЯ И ПОРОЖДАЮЩИЕ ЕЕ МЕТРИКИ
\ "Ф dGn сходится одновременно к \i|)dG (поскольку г|э—
ограниченная и непрерывная функция) и к L{G — F)\ следовательно,
равенство L(G — F)=[tydG имеет место для всех G^Jt. Та-
ким образом, доказан следующий факт.
Предложение 5.1. Если 7 —слабо непрерывный в
окрестности меры F функционал, дифференцируемый по Фреше в точке
F, то его производная Фреше в F есть слабо непрерывный
линейный функционал, представимый в виде
pdG E.5)
где iff — ограниченная и непрерывная функция, причем
К сожалению, понятие дифференцируемости по Фреше
оказывается слишком сильным — слишком часто производной по
Фреше не существует, а если она и существует, то установить
"этот факт очень сложно.
К почти самому неограничительному понятию
дифференцируемости приводит понятие производной по Гато (в литературе
по статистике она называлась обычно производной Вольтерра,
но оказалось, что это неправильно, ср. с диссертацией Ридза
A976)). Говорят, что функционал Т дифференцируем по Гато
в точке F, если существует такой линейный функционал L = LF,
что для всех G ^Ж
lim Г(^7ПЛ = LP(G - F)> E.6)
( )
Очевидно, что если функционал Т дифференцируем по
Фреше, то он дифференцируем и по Гато, причем обе производные
Lf совпадают. Мы обычно дополнительно предполагаем, что
производная по Гато Lf допускает представление LF(G — jF) =
= \ ф/7 dG через измеримую функцию -ф^, обычно определяемую
так, что \tyFdF = 0. (Заметим, что имеются не непрерывные
линейные функционалы, которые нельзя представить как
интегралы по измеримой функции г|э, например такого
представления не допускает функционал L(F)y который сопоставляет
функции распределения F сумму скачков F(x-{-Q)—F(x — 0).)
2.5. ПРОИЗВОДНЫЕ ПО ГАТО И ФРЕШЕ 47
Значения функции -ф^ (л:) получаются подстановкой в
формулу E.6) мер G = 6*; следуя Хэмпелу A968, 19746), запишем
1С (х; F, 0 = lim r (fr) - ПЛ % E.7)
*о 1
где ^ = A — t)F + tdx и /С означает кривую влияния.
Во всем остальном производная по Гато есть не что иное,
как обычная производная вещественнозначной функции T(Ft)
по вещественному параметру t. Интегрирование производной
абсолютно непрерывной функции восстанавливает эту функцию;
в затронутом частном случае справедливо полезное равенство
T{F,)-T (Fo) = \\ 1С (х; Ft,T)d (F, - Fo) dt. E.8)
о J
Доказательство. Имеем
Далее,
и поскольку
Ft+h = A —Г^Т) Ft
1 — t ^ь
при условии, что производная по Гато существует в Ft, получим
-ЗГТМ
\lC(x;Ft,T)d{Fl-F0).
Если эмпирическое распределение Fn сходится к истинному
распределению со скоростью п~1/2, т. е.
d^F,Fn)=OP(n-W), E.9)
и если функционал Т имеет производную по Фреше в точке F,
то соотношения E.1) и E.5) позволяют получить
доказательство асимптотической нормальности в одну строчку:
48 ГЛ. 2. СЛАБАЯ ТОПОЛОГИЯ И ПОРОЖДАЮЩИЕ ЕЕ МЕТРИКИ
таким образом, левая часть имеет асимптотически нормальное
распределение со средним 0 и дисперсией \ ^2FdF.
Для расстояния Леви соотношение E.9) справедливо — это
следует непосредственно из неравенств D.14) и хорошо
известных свойств статистики Колмогорова — Смирнова. К
сожалению, соотношение E.9) не выполняется как для расстояния
Прохорова, и для ограниченного расстояния Липшица, лишь
только у F оказываются достаточно длинные хвосты (для того
чтобы соотношение E.9) не выполнялось, достаточно, чтобы у F
имелось степенное убывание хвостов: F{\X\>t)~t~k для
некоторого k).
Доказательство. Идея доказательства основана на том
соображении, что для распределений F с длинными хвостами
экстремальные порядковые статистики претерпевают широкий
разброс, поэтому окружив их е-окрестностями, мы захватим
очень малую массу меры F. Для определенности предположим,
что F(x) = \x\~k при больших по модулю отрицательных х,
б — малое положительное число, которое должно быть указано
позднее, m = я1/2+б и A={x{ih ..., x(m)}—множество
порядковых статистик, занявших крайние m левых позиций. Положим
е = 2"п~1/2+б. Мы намерены показать, что для больших п имеет
место неравенство Fn{A}—e^F{A&}, и, значит, выполняется
неравенство dn(F, Fn)^ е. Поскольку Fn{A} = m/n = 2e,
достаточно показать, что F{i48} ^ 8. Приведем только набросок
необходимых выкладок.
Справедливо приближенное неравенство F{A&} ^ ?Г=1 2ef (x{i)),
в котором / — плотность F. Теперь представим х^ как величины
F-l(U(i))y где щъ есть /-я порядковая статистика для
равномерного распределения на @, 1) и f(F-l(t))= kt{k+l)/k. Имеем:
Поскольку u{i) « tfcn + 1), правую часть можно
аппроксимировать выражением
т т/п
/ 1 - 1 I ^^ ^orv/Z
/Lm/ V fb "i I /
2-1
2е^/г / m \2+i/fc 2A 1 л_1/94-л../^-1/24-л\2+1/й
2+\lk 2
2+1/A'"
Если величину б выбрать достаточно малой, то последнее
выражение станет величиной меньшего порядка малости, чем
2 6 ТЕОРЕМА ХЭМПЕЛА 49
Ср. также с работой Керстинга A978).
С другой стороны, соотношение E.9) выполняется для
функций расстояния dn и deu если F — равномерное распределение
на конечном интервале, но для равномерного распределения
на единичном кубе трех или более измерений оно снова не имеет
места (детально этот вопрос рассмотрен в работе Дадли
A969)).
Как оказывается, возникающим здесь трудностям мы
обязаны явлению, получившему красочное название «проклятие
размерности»: чем выше размерность, тем больше свободная
часть пространства, и с ростом размерности становится все
труднее соотнести с истинной мерой зернистую и разбросанную
эмпирическую меру.
Дифференцируемости по Гато как таковой недостаточно для
того, чтобы устанавливать асимптотическую нормальность (если
не имеется также производных более высоких порядков, ср.
с работами Мизеса A937, 1947), который ввел понятие
дифференцируемого функционала, и Филипповой A962)).
По-видимому, наиболее многообещающим является промежуточный
подход Ридза A976), основанный на понятии компактной
дифференцируемости (Авербух и Смолянов A967, 1968)).
2.6. ТЕОРЕМА ХЭМПЕЛА
Сначала вновь приведем определение качественной
асимптотической робастности (см. § 1.3).
Пусть xi (/= 1, ..., п)— независимые наблюдения с одним
й тем же распределением F и {Тп}—последовательность оценок
или статистик критерия, Тп= Тп(х\, ..., хп), со значениями в
R*. Последовательность {Тп} называется робастной для меры
F = Fq, если последовательность отображений распределений
F ->- 3?f(Tu) равностепенно непрерывна в Fq, т. е. для любого
положительного е существуют такие б > 0 и п0, что для всех
распределений F при п ^ п0 справедлива импликация
d.(FOt F)< 6 ^d, (SV,(Tn), %f(Тп))<e. F.1)
Здесь d# — некоторая метрика, порождающая слабую
топологию. Отнюдь не ясно, приводят ли разные метрики к
эквивалентным понятиям робастности; для определенности будем считать,
что имеются в виду метрика Леви для F и метрика Прохорова
для &(Тп).
Предположим, что последовательность {Тп}, Тп = T(Fn),
получена при помощи функционала Г, определенного на некотором
слабо открытом подмножестве пространства JK.
Предложение 6.1. Если функционал Т слабо непрерывен в F,
то последовательность {Тп} состоятельна в том смысле, 4TQ
Tn-*-T(F) по вероятности и почти наверное.
50 ГЛ. 2. СЛАБАЯ ТОПОЛОГИЯ И ПОРОЖДАЮЩИЕ ЕЕ МЕТРИКИ
Доказательство. Из теоремы Гливенко — Кантелли и
неравенств D.14) вытекает, что по вероятности и почти наверное
cLl (/% Fn) ^ йк (F> Fn)-** 0; следовательно, имеет место слабая
сходимость Fn-+F и, значит, T(Fn)->T(F). ¦
Следующая теорема есть вариант несколько более общих
результатов, впервые доказанных Хэмпелом A971).
Теорема 6.2. Пусть последовательность {Тп} состоятельна в
окрестности распределения Fq. Функционал Т непрерывен в Fo
тогда и только тогда, когда последовательность {Тп} робастна
для распределения Fo.
Доказательство. Сначала допустим, что функционал Т
непрерывен в Fo. Справедливо неравенство dnC?Ft (Tn), 2?(T))^
<^я(бг(Р0), &F*(Tn)) + dn(&T(Foh &F{Tn))> В КОТОрОМ 6Т
значено вырожденное распределение, сосредоточенное в точке
T(Fo). Поэтому робастность для Fo будет доказана, если мы
сможем показать, что в том случае, когда для любого
положительного е существуют такие б > 0 и я0, что dL(FQi Fn)^6, имеет
место неравенство dn{&T(F0), 3?F{T(Fn)))^ A/2)е для п^п0.
Из импликации B) =^ A) теоремы Штрассена (теорема 3.7
выше) следует, что последнее неравенство выполняется, если
имеет место неравенство PF{d{T(Fo)> T(Fn))^ (l/2)e}^ 1 —
— A/2)е. Но поскольку функционал Т непрерывен в Fo,
существует такое б > 0, что из неравенства di^o, F) ^ 26 следует
неравенство d(T(Fo), T(F))^ (l/2)e, поэтому достаточно доказать
неравенство PF{dL{F^ Fn) ^ 26}^ 1 — A/2)е. '
Заметим, что сходимость Гливенко —Кантелли равномерна
по F: для любых 6 > 0 и е > 0 существует такое /го, что для
всех F и п^ по имеет место неравенство Pp{dL(F, Fn) ^ 6}^
^ 1 — A/2)е. Но поскольку d*{F0, Fn) < d*(F0,F) + d*(F, Fn),
робастность для Fo установлена.
Обратно, предположим, что последовательность {Тп}
робастна для Fo. Заметим, что для вырожденных законов
распределения б*, у которых вся масса сосредоточена в единственной
точке х, расстояние Прохорова совпадает с обычным
расстоянием: dn(8x,8y)=d(xyy).
Поскольку последовательность {Тп} состоятельна для любого
распределения F из некоторой окрестности распределения F0)
имеем: dn{8T(F)y 3?р(Тп))-+0. Поэтому из импликации F.1)
следует, в частности, импликация cIl{Fq, /7)^6=^^яFг(р0), бг(л) =
= rf(r(F0), T(F))^ 8, а это означает, что функционал Т
непрерывен в Fo. Ш
ГЛАВА 3
Основные типы оценок
3.1. ОБЩИЕ ЗАМЕЧАНИЯ
В этой главе введены оценки трех основных типов (М, L и R)
и рассмотрен вопрос об их качественной и количественной ро-
бастности. Буквы М, L и R отвечают соответственно оценкам
типа максимального правдоподобия, линейным комбинациям
порядковых статистик и оценкам, получаемым в ранговых
критериях.
По причинам, которые подробно будут затронуты в конце
§ 3.5, основное внимание будет уделено Af-оценкам. Это
наиболее гибкие оценки —они допускают прямое обобщение на
многопараметрический случай, даже несмотря на то (или, пожалуй,
в силу того), что они не являются автоматически инвариантными
относительно масштаба, а это вынуждает в практических
применениях сопровождать их вспомогательной оценкой масштаба
(см. гл. 6 и далее).
3.2. ОЦЕНКИ ТИПА МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ
(М-ОЦЕНКИ)
Всякая оценка Тп, определяемая как решение экстремальной
задачи на минимум вида
B.1)
или как решение неявного уравнения
0, B.2)
п
где р — произвольная функция, -ф (х; 0) = (д/дв)р(х\ 0),
называется М-оценкой (или оценкой типа максимального
правдоподобия; заметим, что выбор в качестве р(*;0) функции
—log/(x; 0) дает обычную оценку максимального
правдоподобия).
52 гл. з основные типы оценок
В частности, нас будут интересовать оценки сдвига
п
Zp(*?-rre) = min! B.3)
или
?ф(*<-7Л) = 0. B.4)
Последнее уравнение можно записать в эквивалентном виде:
twt(Xi-Tn) = 0, B.5)
где
Уравнение B.5) приводит к представлению оценки Тп в форме
взвешенного среднего
tjtt B.7)
с весовыми коэффициентами w-u зависящими от выборки.
Замечание. Функциональный аналог задачи B.1) несет в
себе определенную опасность: оценку T(F) в общем случае
нельзя определить как величину t, на которой достигается
минимум интеграла
\p(x;t)F(dx). B.8)
Отметим, например, что медиане отвечает функция p(x;t) =
= |* —/|, но
\\x-t\F(dx) = oo B.9)
равномерно по t, если у распределения F первый абсолютный
момент не конечен. Здесь имеется простое лекарство: нужно
заменить функцию p(x;t) на функцию p(x\t) — p(x\t0) для
некоторого фиксированного /о (т. е. в случае медианы
минимизировать вместо интеграла B.9) интеграл
\(\x-t\-\x\)F{dx)). B.10)
Что же касается получающегося из B.2) функционала,
определяющего оценку T(F) как решение уравнения
; T(F))F(dx) = 0, B.11)
3 2. ОЦЕНКИ ТИПА МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ 53
то он застрахован от такого рода осложнений, но может иметь
больше решений (соответствующих локальным минимумам
интеграла B.8)).
Функция влияния М-оценок. Для того чтобы получить
функцию влияния Af-оценки, подставим в уравнение B.11) Ft =
= A — t)F-\-tG вместо F и возьмем производную по / в точке
t = 0. Проведем эти выкладки подробно. Положим для
краткости 7 = limr-»o [T {Ft) — Т (F)]/t. Дифференцируя определяющее
уравнение B.11), получим
7 J -щ- $(х\ Т (F)) F (dx) + \ ф (*; Т (F)) (dG - dF) = 0. B.12)
Вопрос об условиях регулярности пока оставим в стороне.
Напомним, что, согласно B.5.7), при G = 8Х производная Т дает
значение функции влияния в точке х. Поэтому, решая
уравнение B.12) относительно 7\ получим
1С (хх F. t) = —c
- уд№)Ъ(х- T(F))F(dx)
Иными словами, функция влияния М-оценки пропорциональна
функции i|?.
Для задачи о сдвиге функция if>(jc;0) имеет вид ty(x — 0),
поэтому в данном частном случае получим
IC(x; FJ)=C И'-НП] . B.14)
Отсюда нетрудно усмотреть, что величина л/п [Тп — Т (F)]
имеет асимптотически нормальное распределение со средним 0
и дисперсией
A (F; Т) = J [1С {х; Л Г)]2 F {dx). B.15)
Однако это утверждение требует строгого доказательства.
Асимптотические свойства М-оценок. Довольно просто и
естественно теория строится для оценок с функциями г|)(л:; 0),
монотонными по 0; о более общих случаях будет идти речь в гл. 6.
Предположим, что функция яр (я; 0) измерима по х и убывает
(т. е. не возрастает) по 0 от строго положительных к строго
отрицательным значениям. Введем обозначения
j
B.16)
54
ГЛ. 3. ОСНОВНЫЕ ТИПЫ ОЦЕЙОК
Очевидно, что — оо < Т*п ^ Т*п < оо и любая величина ТПу
удовлетворяющая неравенствам П <: rrt < 7Т, может быть выбрана
в качестве нужной оценки. Рисунок 3.2.1 призван помочь уяснить
существо обозначений Т*п и Г?\
Рис. 3.2.1.
Отметим включения
{Tn<t}
{П* < t) с
} cz {К < /}.
B.17)
в силу которых имеют место равенства
B.18)
в точках непрерывности / левых частей.
Распределение традиционной центральной оценки A/2) (П +
+ Тп*) выводится довольно сложно, в то время как
рандомизированная оценка Тп> принимающая с равными вероятностями
значения Т*п и П\ имеет функцию распределения, допускающую
явное выражение
B.19)
3.2. ОЦЕНКИ ТИПА МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ 55
Из этой формулы следует, что точные распределения величин
Т*П) Т*п и Тп можно вычислять через /z-кратную свертку
распределения S(^{x\ t)).
Разлагая распределения Gn = 9?[ ? ty(xh 0) в
асимптотические ряды, можно найти асимптотические аппроксимации.
Можно воспользоваться традиционным разложением Эдж-
ворта
[± ± ] B.20)
однако оно дает в какой-то мере неудовлетворительную
аппроксимацию на хвостах, т. е. именно в той области, которая для нас
наиболее интересна. Поэтому предпочтительнее пользоваться
так называемым методом наискорейшего спуска и перемещать
центр распределения в интересующую нас точку. Так, если
имеются независимые случайные величины Yt с плотностью
f(x) и нужно определить распределение Gn суммы Y\ + ... + Yn
в точке /, то исходную плотность / заменяют связанной с ней
плотностью ft:
ft(z) = ctea*zf(t + z), B.21)
где величины Ct и at выбираются так, чтобы функция ft(z) была
функцией плотности вероятности со средним 0 (см. Даниелс
A954)).
Позднее Хэмпел A9736) заметил, что главный член ошибки
метода наискорейшего спуска, оказывается, содержится в
нормирующей константе (приводящей общую массу Gn к единице),
и, значит, было бы лучше разлагать не распределение Gn или
его плотность gn, а отношение g'Jgn, и вслед за этим
определять нормирующую константу численным интегрированием.
Поэтому его процедура выглядит следующим образом.
Определяются второй и нормированный третий моменты с плотностью ft:
o% B.22)
Ограничиваясь первыми двумя членами разложения Эдж-
ворта, вычисленными в точке х = 0, записывают приближенное
равенство
g'n/gn~-nat-ht/2at> B.23)
из которого двумя интегрированиями и одним потенцированием
получают gn и Gn\ константа интегрирования выбирается так,
чтобы функция Gn была функцией распределения, т, е. имела
56 гл. з основные типы оценок
общую массу 1. Оказывается, что первое интегрирование может
быть выполнено явно:
log gn (t) ~ —nct — log at + const. B.24)
Обнаружилось, что этот метод дает фантастически точные
приближения вплоть до крайне малых объемов выборки (п = 3
или 4). Подробно этот вопрос рассмотрен в работе Филда и
Хэмпела A982).
Теперь обратимся к предельному распределению оценки Тп.
Введем обозначение
X(t) = X(Г; F) = Ej4 (X;t). B.25)
Если величина X существует и конечна по крайней мере при
одном значении t, то она существует и монотонна (хотя и
необязательно конечна) при всех t. Это непосредственно
вытекает из замечания, что разность i>(X\ t) — г|?(Х; s) положительна
для t ^ s и, следовательно, имеет математическое ожидание
(возможно, равное -f- oo), определенное корректно.
Предложение 2.1. Допустим, что существует такое fa что
X(t) > 0 при t < /о и X(t) < 0 при t > to.
Тогда величины Тп и Т*п* сходятся к tQ по вероятности и
почти наверное.
Доказательство. Утверждение предложения нетрудно
получить из равенств B.18) и слабого (усиленного) закона больших
чисел, примененного к сумме n~l'?islip(xi\ /0±8)- ¦
Следствие 2.2. Если величина T(F) определена
единственным образом, то последовательность {Тп} состоятельна для
F: Tn-+T(F) по вероятности и почти наверное.
Заметим, что из равенства X(s\ F) = Х(Т\ F) вытекает
равенство г|) {х\ s) = <ф (х; t) (F-u. н.), поэтому во многих
отношениях X(t) дает более удобную параметризацию, нежели само
t. Если функция X непрерывна, то предложение 2.1 можно
переформулировать так: Х(Тп) — состоятельная оценка 0;
утверждение в таком виде остается справедливым и в том случае, когда
функция X обращается в нуль на невырожденном интервале.
Кроме того, через Х(Тп) лучше всего изучать и другие аспекты
предельного поведения оценки Тп. Поскольку функция X
монотонно убывает, справедливы, в частности, включения
{-Х(Тп) < -М0} <= {Тя <<)<= {Tn<t} с {-Х(Тп) < - M0J.
B.26)
Теперь мы намерены показать, что величина л/пХ(Тп) имеет
асимптотически нормальное распределение при следующих дот
лущениях.
3.2. ОЦЕНКИ ТИПА МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ 57
(АЛ) Функция ^(x\t) измерима как функция х и монотонно
убывает по /.
(А.2) Имеется по крайней мере одно значение /0, при
котором X(to) = 0.
Пусть Го — множество тех значений t, при которых X(t) — Q.
(А.З) Функция К непрерывна в окрестности множества Го.
(А.4) Дисперсия G2(t)= Ef^>2(X; t) — ^(Z;/7) конечна,
тождественно не равна нулю и в окрестности множества Го
непрерывна. Полагаем ао = о>(?о).
Асимптотически поведение всех оценок Тп из интервала
Тп^Тп^.Т*п* одно и то же; формально же мы работаем с Т*п.
Пусть у — произвольное вещественное число. Пользуясь
допущением (А.З), определим последовательность {tn} таким
образом, чтобы у = —л/пк((п) для достаточно больших п. Поло-
жим
у _ ¦('гЦ-Ч'») (9<т
Величины Ул/A^/^л) — независимые одинаково
распределенные случайные величины с математическим ожиданием 0
и дисперсией 1. В силу соотношений B.18) и включений B.26)
имеем
B.28)
если у1л/п есть точка непрерывности распределения величины
К (Т*п), т. е. для почти всех у.
Лемма 2.3. Если п-> оо, то равномерно по z
Доказательство. Нам надо проверить выполнение условия
Линдеберга, которое в данном случае имеет следующий вид:
еО^Г, I Yni | > <у/пг}->0у Аг->оо, для любого положительного
е. Поскольку функции X и о непрерывны, последнему
эквивалентно условие Е W" {х\ /я); \^(х\ tп)\ > л/пе}->0у /2->оо, для
любого положительного е.
Таким образом, достаточно показать, что семейство
случайных величин (я|) (х\ U))n>nQ равномерно интегрируемо (ср. Неве
A969, с. 79)). Но так как функция г|> монотонна, то t|J(Z;5)^
58 ГЛ. 3. ОСНОВНЫЕ ТИПЫ ОЦЕНОК
^ i|J(X; 5о) + ^2(Х; s\) при s0 ^ 5 ^ s\. Поэтому указанное
семейство случайных величин ввиду допущения (А.4)
мажорируется интегрируемой случайной величиной и, следовательно,
равномерно интегрируемо. ¦
Таким образом, в силу равенств B.28) справедлива
Теорема 2.4. Если выполняются допущения (АЛ) — (А.4), то
равномерно по у выполняется соотношение
Р {- Ул X (Тп) < у) - Ф (-?) -*0, B.29)
т. е. величина л/пХ(Тп) имеет асимптотически нормальное
распределение Jf @, el).
Доказательство. Осталось лишь показать, что указанная
сходимость равномерна. Это, очевидно, имеет место для любого
конечного интервала [—#о, Уо] оси у. Поэтому, выбрав по
заданному е > 0 значение уо столь большим, чтобы Ф (—уо/оо) < е/2,
и величину По столь большой, чтобы разность в B.29) была
меньше г/2 при всех п^по и всех t/s[—yOt t/0], получим, что
разность в B.29) должна быть меньше е при всех у. Ш
Следствие 2.5. Если функция X имеет производную X'(to) < О,
то величина Уя(Гд —/0) имеет асимптотически нормальное
распределение со средним 0 и дисперсией оЦ{Хг (^0)J.
Доказательство. В рассматриваемом случае tn = h —
— rrxt2{y/%'{to))-\-o(nrxi2). Сравнивая равенства B.28) и
соотношение B.29), получим утверждение следствия. ¦
Сопоставляя полученный результат с полученным
эвристически выражением B.15), замечаем, что последнее справедливо,
если только можно изменить порядок интегрирования и
дифференцирования в знаменателе отношения B.13), т. е. если в точке
t=T(F)
§\\ t)F(dx) = \jT$(x; t)F(dx).
Чтобы проиллюстрировать некоторые из полученных
результатов, рассмотрим случай сдвига, в котором я|) (х; t) = *ф (х — t).
Если распределение F имеет гладкую плотность, можно
написать равенства X (/; F) — J а|) (х — /) / (*) dx = J -ф (х) f (х +1) dx,
поэтому X' (Г; F) = \ ф (#) f {x + t)dx— производная функции
Х(Т\ F) — ведет себя хорошо, даже если функция -ф не
дифференцируема.
Но если F = (l —e)G + edXo есть смесь гладкого
распределения и вырожденного в точке Хо распределения и,
следовательно, X (<; F) = A — в) J i|) (х — /) g {x) dx + е-ф (*0 — i), то
3.2. ОЦЕНКИ ТИПА МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ 59
V(/;F) = A — e,)[ty (x) g' (x +t)dx — ег|/(л;0 — /), и если
производная г|/ разрывна и случайно окажется, что она имеет скачок
в точке хо — T(F), то левая и правая производные функции К
в точке t=T(F) будут существовать, но будут различными.
Как следствие, асимптотическое распределение величины
<у/п [Тп — T(F)] не будет нормальным, поскольку функцию
предельного распределения будут составлять левая и правая
половины функций нормальных распределений с различными
стандартными отклонениями.
До сих пор мы обращались к ситуации фиксированного
основного распределения F. Применительно к вопросу о робаст-
ности эти результаты имеют ограниченную ценность; на самом
деле нам хотелось бы, чтобы сходимость в теореме 2.4 была
равномерной по F в некоторой окрестности распределения Fo,
принятого в модели. Для этой цели потребуются более
ограничительные условия регулярности.
Например, предположим, что функция -ф (х\ t) ограниченна я
непрерывна как функция х и что отображение /->я|>(-;0
непрерывно в топологии равномерной сходимости. В этом случае
функции X(t; F) и a(t\F) непрерывны как по U так и по F.
Используя теорему Берри — Эссеена, можно для разности в
B.29) получить оценку, равномерную по F (ср. Феллер A967,
с. 620 и далее)).
Разумеется, приведенных условий еще не достаточно, чтобы
асимптотическая дисперсия
А /17. Т) - a2(T(F> F>
величины Уя [Тп — Т (F)] была непрерывна как функция F.
Качественная и количественная робастность М-оценок. Здесь
мы вычислим максимальное смещение Ь\ (см. § 1.4) для
М-оценок. Рассмотрим случай сдвига ^{x\t) = ^(x—t) с монотонно
возрастающей функцией г|), выбрав в качестве Фг окрестность
Леви (оказывается, что результаты для окрестности Прохорова
остаются теми же). Для простоты полагаем, что базовое
значение оценки T(Fo) равно 0.
Введем обозначения
b+(e) = snp{T(F)\dL(F0, F)<e}, B.31)
b. (e) = inf {T (F) | dL (Fo, F) < e}, B.32)
в которых
6,(e) = max{6+(8), -b_(e)}. B.33)
В силу теорем 1.4.1 и 1.4.2 имеем: 61(е) = 6(е) в точках
непрерывности Ь\.
60 ГЛ. 3. ОСНОВНЫЕ ТИПЫ ОЦЕНОК
Как и прежде, полагаем к (/; F) = \ i|) (л: — /) F (dx).
Заметим, что X — убывающая по t функция; по F эта
функция возрастает, если F становится стохастически больше (см.,
например, Леман A979, с. 89, лемма 2A)). Решение t = T(F)
уравнения k(t'y F) = 0 необязательно единственно; имеем:
T(F) T{ T**(F), где
F)>0}
Т** (F) = inf {t\k(t;F)<0}, ( ]
причем после определения величин Ь+ и &_ выбирается
наихудшее возможное значение T(F).
Стохастически наибольшим элементом окрестности cLl{Fo, F)^g
служит (несобственное) распределение F\ (имеющее массу е в
+ оо):
-b)+; B.35)
т. е. ^!(л:) = 0 при х^хо + г и F\{x) = F0(x — г) — е при
*>*o + s, где значение х0 определено уравнением Fo(xo) = 8.
Вопроса о тех (несущественных) усложнениях, которые
возникают в случае разрывной функции F0) множеству значений
которой 6 не принадлежит, мы касаться не будем.
Таким образом, справедливо неравенство
оо
Я (/; F) < Я (/; Л) = \ ¦ (х ~ t + e) Fo (dx) + eip (oo), B.36)
Ха
и соотношение
?i)<0}. B.37)
Величина 6-(е) вычисляется аналогично; в важном частном
случае, когда распределение Fq симметрично и г|) — нечетная
функция, разумеется, выполняются равенства Ь\(г) = 6+(е) —
= -Ъ- (8).
Нетрудно вывести, что й+(е)< й+A)== оо при условиях
г|)(+оо)<оои
limM';^i) = U— «)¦(— оо) + ег|)(+оо)<0. B.38)
Поэтому, для того чтобы неравенство в правой части не
нарушалось, необходимо, чтобы выполнялось неравенство е/ A — е) <
<—г|)(—oo)/i|)(-|- оо). Приняв во внимание и левую часть,
получим пороговую точку
в* = 4/A+Л), B.39)
где
3 2. ОЦЕНКИ ТИПА МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ 61
которая достигает своего наилучшего из возможных значения
е^ = 1/2 при ф(—оо) = —г|э(+оо). Если Ф— неограниченная
функция, то е* = 0.
Свойства непрерывности Т устанавливаются также довольно
просто. Пусть
|г|)(+оо)-гИ-оо); B.41)
тогда из неравенства B.36) следует: A,(/ + s; ^о)—ИфИе ^
< k(t; F)^ X(t — е; Fo) + IMIe. Поэтому если г|?— ограниченная
функция и функция X(T;Fq) имеет единственный нуль в точке
t = T(Fo), то T(F)->T(Fo) при 6-^0 и, значит, функционал Т
непрерывен в Fq. С другой стороны, если ф — неограниченная
функция или если нуль у функции K(t\ Fo) не один, то, как
нетрудно проверить, функционал Т не может быть непрерывным
в Fo.
Сведем полученные результаты в следующей теореме.
Теорема 2.6. Пусть ф — монотонно возрастающая, но
необязательно непрерывная функция, принимающая значения обоих
знаков.
Тогда М-оценка Т сдвига, определяемая уравнением
\ -ф (х — Т (F)) F (dx) ===== 0, слабо непрерывна в Fo тогда и только
тогда, когда функция -ф ограниченна и значение Г^о)
единственно. Пороговая точка е^ определяется равенствами B.39)
и B.40) и достигает своего максимального значения е* = 1/2
при условии ф(— оо) = —1|)(+ °°)-
Пример 2.1. Медиана, которая соответствует функции ty(x) =
= sgn(A:), есть функционал, непрерывный во всех
распределениях Fo, медиана которых определена однозначно.
Пример 2.2. Если функция ф ограниченна и строго
монотонна, то соответствующая М-оценка непрерывна всюду.
Если функция г|} не монотонна, то ситуация становится
гораздо более сложной. Приведем конкретный пример: -ф(л:) =
= sin(x) при — л ^ х ^ я, ф(л;) = 0 в остальных точках (эта
оценка предложена Д. Эндрюсом). Здесь сумма Е^ФО^ — Тп)
имеет, вообще говоря, много различных нулей, а при больших
абсолютных значениях Тп и вовсе тождественно равна нулю.
Выбор решений сводится к двум возможностям: A) найти"
абсолютный минимум суммы Ya-\ P(xt ~~ Тп)> гдер(*) = 1 — cos(a:)
при -—я ^ х ^ я, р(х) = 2 при остальных х\ B) найти решение,
ближайшее к выборочной медиане.
С вычислительной точки зрения предпочтительнее вариант
B) или следующий вариант, построенный на основе B): начав
итерационную процедуру нахождения корня с выборочной
62 ГЛ. 3 ОСНОВНЫЕ ТИПЫ ОЦЕНОК
медианы, взять любой корень, для которого эта процедура
сходится.
При варианте B) эта процедура наследует от медианы
высокую пороговую точку е* = 1/2.
Состоятельность и асимптотическая нормальность М-оце-
нок вновь будут затронуты в § 6.2 и 6.3.
3.3. ЛИНЕЙНЫЕ КОМБИНАЦИИ ПОРЯДКОВЫХ СТАТИСТИК
(L-ОЦЕНКИ)
Рассмотрим статистику, которая представляет собой
линейную комбинацию порядковых статистик или, в более общей
постановке, значений на них некоторой функции h:
C-1)
Предположим, что весовые коэффициенты порождаются при
помощи (знакопеременной) меры М на интервале @, 1):
(Такой выбор коэффициентов оставляет общую массу без
изменений, т. е. ?;а=1а/л=А1{@, 1)}, и обеспечивает
симметричность коэффициентов, если мера М симметрична относительно
точки t = 1/2.)
В рассматриваемом случае оценка Tn=T(Fn) получается
при помощи функционала
T(F) = \h(F-l(s))M(ds). C.3)
Точное равенство Тп = T(Fn) получается, если
подынтегральное выражение в точках его непрерывности положить равным
A/2)h(Fn{ (s - 0)) + A/2)h(f;1 (s + 0I C.4)
однако если не принять соответствующих мер, речь может идти
только об асимптотической эквивалентности. Здесь, как обычно,
под функцией, обратной к функции распределения F, понимается
функция
'^s}1 0< s < 1. C.5)
Функция влияния L-оценок. Нахождение функции влияния
IC(x\FtT) для Т требует теперь лишь простого счета: нужно
подставить в равенство C.3) Ft = A —t)F-\- tG и взять
производную по t в точке / = 0 для G = 6*,
3.3. ЛИНЕЙНЫЕ КОМБИНАЦИИ ПОРЯДКОВЫХ СТАТИСТИК 63
Начнем с производной оценки Ts=Fil (s), т. е. возьмем
s-квантиль. Дифференцируя тождество
Ft(Ffl(8))=8 C.6)
по t и взяв значение производной в точке t = О, получим
или, что то же,
Гд = *-ву!<*>). C.8)
Если G есть вырожденное распределение 6* с единичной
массой в точке х, то последнее выражение дает функцию влияния Ts:
1 (s)) для х > F (s).
Совершенно очевидно, что проведенные выкладки имеют смысл
лишь в том случае, когда F имеет в F~l(s) не равную нулю
конечную производную /, но лишь в этом случае они и законны.
По правилу дифференцирования композиции функций
получается функция влияния для h(Ts):
IC(x; F9 h(Ts)) = IC(x; Fy Ts)h'{Ts), C.10)
а из нее в свою очередь получается функция влияния для самого
функционала Т:
1С (х; F, Т) = J 1С (х; F, h (Ts)) M (ds) =
3 f(F-4s))
Разумеется, правомерность взятия производной под знаком
интеграла в формуле C.3) должна устанавливаться в каждом
частном случае.
Если у распределения М имеется плотность /я, то
выражение C.11) для IC(x\ F, Т) допускает более удобную запись:
х
IC(x;F,T)= \h'(y)m(F(y))dy-
- — 00
00
- \(l-F(y))fi'(y)m(F(y))dy. C.12)
64 ГЛ. 3. ОСНОВНЫЕ ТИПЫ ОЦЕНОК
Эту формулу нетрудно запомнить, взяв производную функции
влияния:
-j; 1С (х\ F, Т) = ti (x) m {F (х)). C.13)
Последние две формулы справедливы и в том случае, когда
у У7 не имеется плотности. В этом нетрудно убедиться, если
начать выкладки с иной версии формулы C.3):
Т(F) = J h (F'] (s)) m (s) ds = J h(y) m (F (y)) F (dy) =
= -\h'{y)M(F(y))dy. C.14)
Если теперь подставить в C.14) Fs и взять производную, то
получится выражение C.12). Конечно, и здесь необходимо
проверять законность интегрирования по частям и
дифференцирования под знаком интеграла, однако для «обычных» функций h
и m это не так уж трудно.
Пример 3.1. Для медианы (s = 1/2) имеем
— [2/ G7 A/2))]" для x<F~l(l/2)y
1С{х; F9Tm)= l/ 1 " , C.15)
\2f(F~l(l/2))] для jo/? A/2).
Пример 3.2. Если Т (F) = 2 $tF~l (si)9 то функция влияния
IC(x\ F,T) имеет скачки величины $i/f(F~l(Si)) в точках
Пример 3.3. Для а-урезанного среднего требуется выбор
функций h(x) = х и
Для « < 5 < 1 — а,
( jгг Для < 5 < 1 ,
m(s) = \ !-2а C.16)
0 для остальных s;
таким образом,
1-а
Отметим, что а-урезанное среднее T(Fn) в том виде, который
определяется формулой C.17), обладает следующим свойством:
если an — целое число, то с обоих концов выборки удаляется
по a/i наблюдений и среднее берется для оставшейся части
выборки. Если же число an не целое и равно, скажем, [а/г] + р,
то после удаления с обоих концов выборки по [an] наблюдений
среднее вычисляют для оставшейся части выборки, приписывая
крайним наблюдениям *([ал]+п и Х(Я-[ал]) веса 1—р.
3.3. ЛИНЕЙНЫЕ КОМБИНАЦИИ ПОРЯДКОВЫХ СТАТИСТИК 65
Функция влияния а-урезанного среднего имеет, согласно
выражению C.12), вид
Для x<F~l(a)y
для p~lia)<x<F~l(l-a)>
[)(F)] для x>F-l(l-*)-
C.18)
Здесь W — функционал, соответствующий так называемому
а-винзоризованному среднему:
1-а
= A - 2а)Т(F) + aF~l(а) + aF A-а). C.19)
Очевидно, что если крайние точки F-1(a) и F~x(l—а)
определены неоднозначно (т. е. F~l имеет там скачки), то в
интерпретации формулы C.19) неизбежны затруднения.
Пример 3.4. Функцию влияния a-винзоризованного среднего
C.19) дают соотношения
IC(x; F, IP) —
(a)) "
x-C{F) для
для x>F~l(l-a),
C.20)
где
Таким образом, функция влияния имеет скачки в точках
F-Ца) и F~l(l— a).
Вычислению a-винзоризованного среднего соответствует
замена a/г крайних левых наблюдений на Х(ап+\) и an крайних
правых наблюдений на Х(П-ап) с последующим вычислением
среднего получившейся модифицированной выборки. Идея,
которая стоит за такой последовательностью действий,
заключается в том, чтобы не «отбрасывая» совсем an крайних левых
и an крайних правых наблюдений, как при вычислении
а-урезанного среднего, лишь сократить их влияние на значения более
умеренной порядковой статистики. Это дает наглядный пример
того, как может подвести наша интуиция: из сравнения
функций влияния мы знаем, что урезанное среднее не только не
3 Зак. 617
66 ГЛ. 3. ОСНОВНЫЕ ТИПЫ ОЦЕНОК
отбрасывает всю информацию, сидящую в удаленных данных, но
и целиком заменяет винзоризованное среднее во всем том, что
требовалось от последнего.
Количественная и качественная робастность L-оценок. Теперь
перейдем к вычислению максимального смещения Ъ\ (см. § 1.4)
для L-оценок. Идею такого вычисления поясним на примере
статистического функционала, у которого А (*) = *, а М —
положительная мера с общей массой 1. Очевидно, что
получающийся функционал соответствует оценке сдвига; если Fax+ь
обозначает распределение случайной величины аХ + 6, то
Т (Fax+ь) = aT(Fx)+b, где а > 0. C.22)
Почти очевидно, что функционал Т не может быть
непрерывным, если носитель меры М (т. е. наименьшее замкнутое
множество, имеющее общую массу 1) содержит в себе 0 или 1.
Пусть а есть наибольшее вещественное число, для которого
отрезок [а, 1 — а] содержит носитель меры М. Тогда, как
нетрудно видеть, пороговая точка удовлетворяет неравенству
е* ^ а. Теперь покажем, что е* = а.
Предположим, что базовое значение статистического
функционала Т равно 0: T(F0) = 0. Пусть 0<е<а. Определим
величины &+> Ь- соответственно формулами B.31) и B.32).
Тогда для распределения Fu заданного формулой B.35), имеем
1-а
6+(8) = Jfr1(s)Af(rfs) = e+ J Fol(s + e)M(ds).
а
Аналогично получим
1-а
Fbl(8-e)M(ds).
Величину 6i(e), как и раньше, определяет формула B.83).
Поскольку соотношение Fo'^s + e) —FtT^s-—е)|0 при
е ф 0 имеет место всюду, за исключением точек разрыва
функции Fq1 , заключаем, что &i(e)^6+(e) — 6_(е)|0 тогда и
только тогда, когда функции М и Fol не имеют общих точек
разрыва, и, значит, функционал Т непрерывен в Fq. Так как
величина Ь\(г) конечна при е < а, то должно выполняться
неравенство е* ^ а.
В частности, а-урезанное среднее при 0<а<1/2
непрерывно всюду. Непрерывно также в Fo и а-винзоризованное
среднее, если только значения Fol(а) и Fo A — а) определены
однозначно (т. е. Fo} не имеет там скачков).
3.3. ЛИНЕЙНЫЕ КОМБИНАЦИИ ПОРЯДКОВЫХ СТАТИСТИК 67
Разберем обобщение на случай знакопеременных мер. В
части, касающейся достаточности, перенос результата не
составляет труда: если М = М+ — М~, то из непрерывности
функционалов T+(F) = ^F"y(s)M+(ds) и T-{F) = \F-[(s)M~{ds)
следует непрерывность функционала Г(/7)= \ F~l(s)M(ds)\ если
пороговые точки как Г+, так и Т~ не меньше а, то пороговая
точка функционала Т также будет не меньше а.
Доказательство необходимости требует привлечения более
тонких рассуждений, однако в том случае, когда существуют
такие окрестности крайних точек аи 1 —а, что мера М
принимает в них значения одних и тех же знаков, проходят и те
рассуждения, что приводились выше. По всей видимости,
равенство е* = а справедливо всегда, но в случае знакопеременных
мер не доказано даже, что равенство а = О влечет за собой
разрывность Т.
Теорема 3.1. Пусть М = М+ — М- есть конечная
знакопеременная мера на @,1) и T(F) = \ F~l(s)M{ds). Пусть а —
наибольшее вещественное число, при котором отрезок [а, 1 — а]
содержит носитель мер М+ и М~.
Если а > 0, то при условии, что М не имеет ненулевой
массы в точках разрыва функции Fol, функционал Г слабо
непрерывен в Fo- Пороговая точка е* удовлетворяет неравенству
е* ^ а. Если М — положительная мера, то е* - а и равенство
а = 0 влечет за собой разрывность Т.
Поскольку из слабой непрерывности функционала Т в F
следует состоятельность. (T(Fn) -+T(F))9 приведенная выше тео»
рема дает простое достаточное условие состоятельности.
Разумеется, эта теорема не охватывает случая а = 0.
Асимптотические свойства ^-оценок изучать довольно
сложно. В случае а = 0 (который и без того представляет для нас
ограниченную ценность, поскольку отсутствует робастность),
оказывается, требуются некоторые неудобные условия
гладкости, налагаемые на хвосты распределений F и М (Чернофф
и др. A967)). Теорем, которые охватывали бы сразу все
наиболее интересные случаи одновременно, нет, даже если а > 0.
Однако если величина <y/n(T(Fn) — T(F)) имеет асимптотически
нормальное распределение, то, как оказывается, выражение
\[/С(л:; F, T)]2F(dx) всегда дает правильную асимптотику
дисперсии. Для нас наиболее интересен следующий вариант
соответствующей теоремы.
а»
68 ГЛ 3. ОСНОВНЫЕ ТИПЫ ОЦЕНОК
Теорема 3.2. Пусть М есть абсолютно непрерывная
знакопеременная мера с плотностью т, причем носитель этой меры
содержится в интервале [а, 1 —а], где а > 0. Пусть T(F) =
Величина V>i G* (Frt) — Г(F)) имеет асимптотически
нормальное распределение со средним 0 и дисперсией \ [IC(x; F, T)fF(dx)
при условии, что одновременно выполняются следующие
условия A) и B):
A) плотность m имеет ограниченную полную вариацию
(и, значит, имеет разрывы только первого рода);
B) у плотности m нет разрывов, совпадающих с разрывами
функции F*1.
Доказательство, См., например, книгу Хьюбера A969).
Условие B) необходимо: без него даже функцию влияния нельзя
определить корректно (см. замечание в конце примера 3.3 и
работу Стиглера A969)). ¦
3.4. ОЦЕНКИ, ПОЛУЧАЕМЫЕ В РАНГОВЫХ КРИТЕРИЯХ (Я-ОЦЕНКИ)
Рассмотрим двухвыборочный ранговый критерий для
определения параметра сдвига: пусть хи ..., хт и уи ..., уп суть
две независимые выборки с распределениями F(x) и 6(х) =
= F(x — А) соответственно. Сольем эти выборки в одну
выборку объема т + п. Пусть /?/ есть ранг наблюдения xt в
объединенной выборке. Зададим веса ai = a(i), 1^/^m + n.
Критерий для проверки гипотезы Д = 0 при альтернативе А > 0
построим на основе статистики
т
Как правило, мы полагаем, что весовые коэффициенты
получаются при помощи некоторой функции / по формуле
<4-2>
Есть и другие способы задания весов щ при помощи
функции /, например:
' / - 1/2 '
a<-/(J
D.3)
it(m+n)
или at = {m + n) \ J{s)ds, D.4)
3.4. ОЦЕНКИ, ПОЛУЧАЕМЫЕ В РАНГОВЫХ КРИТЕРИЯХ 69
причем в действительности мы предпочитаем работать именно
с этим последним вариантом. Для «хороших» функций / и
распределений F все эти методы получения весов дадут, конечно,
асимптотически эквивалентные критерии. Более того, в случае
критерия Уилкоксона, в котором / (/) = t—1/2, все три
приведенных варианта дадут один и тот же критерий.
Для того чтобы упростились выкладки, мы с этого момента
будем предполагать, что т = п. Запишем статистику D.1)
в виде функционала:
S (F9 Q) = J / [(l/2)F (х) + A/2H (х)] F (dx)9 D.5)
который при подстановке F(x) = s примет вид
S (F, О) = J У [A/2) 5 + A/2) О (F-1 (s))] ds . D.6)
Если распределение F непрерывно и строго монотонно, то
формулы D.5) и D.6) эквивалентны. В случае разрывных
распределений, например при подстановке эмпирических
распределений Fn и Gn, соответствующих выборкам {xi} и {*/,}, точная
эквивалентность нарушится. Более того, в этом случае
функционал D.5) перестает быть корректно определенным (его
значения будут зависеть от того, как определяются значения
функции Н = (l/2)/7 + (l/2)G в точках ее разрыва).
Если положить Н(х) = A/2)Н(х — 0) + A/2)Н(х + 0), то
выражение D.5) вместе с вариантом вычисления весов D.3)
приведет к D.1). В любом случае D.6) совместно с D.4) дает
D.1); предполагается, что связей между значениями {х$ и
{tji} нет. Для определенности условимся работать ниже лишь
с D.6) и D.4). Кроме того, нами раз и навсегда будет
полагаться выполненным условие
\j(s)ds
, D.7)
соответствующее равенству
Е«/»0. D.8)
В этих предположениях математическое ожидание
статистики D.1) при нулевой гипотезе равно 0.
Оценки сдвига Дя. в двухвыборочной постановке и сдвига Тп
в случае одной выборки можно получить при помощи
следующих ранговых критериев.
A) В случае двух выборок получить Ап из приближенного
уравнения Sn,««О, полученного для выборок {хи ..,, хп) ч
{У\ — Дя, .,«, |/л — ДЛ),
70 ГЛ. 3. ОСНОВНЫЕ ТИПЫ ОЦЕНОК
B) В случае одной выборки получить Тп из условия Sn,« « О,
вычисленного для выборок (х\, ..., хп) и BТп— хг> ...
..., ТГп — хп). В этом случае отсутствующей второй выборкой
служит зеркальное отражение исходной выборки.
Иными словами, вторая выборка смещается до тех пор, пока
критерий не перестанет чувствовать различие в сдвиге.
Заметим, что нулевое значение в точности может и не достигаться,
поскольку Sn>n — разрывная функция.
Пример 4.1. Критерий Уилкоксона, в котором /(^) == ^ —1/2,
приводит к оценкам Ходжеса — Лемана, а именно к оценкам
An — med {yi — xj} и Тп = med {A/2) (xi + #/)}. Заметим, что
наш рецепт во втором случае приводит к медиане набора из всех
п2 пар; в более традиционных вариантах используются только те
пары, у которых i < / или i ^ /, но асимптотически все три
варианта эквивалентны.
Таким образом, наша оценка сдвига Гл, полученная при
помощи функционала T(F), определяется неявным
уравнением
J / {A/2) [s + 1 - F BT (F) - F-* (s))]} ds - 0. D.9)
Функция влияния R-оценок. Теперь перейдем к вычислению
"функции влияния функционала T(F). Для сокращения записи
введем функцию распределения объединенной выборки
К(х)= (l/2)[F(x)+l-FBT(F)-x)]. D.10)
Предположим, что распределение F имеет строго
положительную плотность f.
Подставив Ft = A — t)F + tO вместо F в формулу D.9) и
взяв производную d/dt (обозначим ее точкой * над буквой) в
точке t = 0, получим
/' {К (F-1 (s))) [FBГ - F-1 (s)) + fB[G-Q*}) F (F~l (a)) +
s — 0. D.11)
Разобьем выражение в левой части на сумму трех
интегралов и подставим в первый из них х ==• 2Т — F~l {s) (таким
образом, s = FBT — x)), а во второй и третий интегралы
подставим х = F~l (s). Получим
t\j'(K{x))fBT-x)f(x)dx =
\ =Q. D.12)
3.4. ОЦЕНКИ, ПОЛУЧАЕМЫЕ В РАНГОВЫХ КРИТЕРИЯ^ 1\
Теперь предположим, что функция, при помощи которой
получают веса, симметрична в том смысле, что
/(!_/)=_/(/), 0<*<1 D.13)
(в случае одной выборки рассматривать несимметричные
функции не имеет особого смысла); в этом случае уравнение D.12)
можно упростить, если ввести функцию U(x), которая
представляет собой неопределенный интеграл
U'(x) = J'{(l/2)[F(x)+l-FBT(F)-x)]}fBT(F)-x).
D.14)
Теперь уравнение D.12) принимает вид
*Q. D.15)
Взяв второй интеграл по частям, получим
Поскольку Р = G — F, в правой час?ти любая аддитивная
постоянная сократится. Полагая О = б* и решая D.15)
относительно Т, получаем теперь функцию влияния
IQ (щ Л Г)- т—й —^ . D.16)
\u'(x)f{x)dx
Для симметричных распределений F последняя запись допускает
существенное упрощение, поскольку в этом случае U(x)=*
/(F())
IQ (xi P,T)~ 7—J-l?i& . D. Щ
yf(F
Пример 4,g. Функцию влияния оценки Ходжеса —Лемана
(J(t) = t— 1/2) дает формула
1С(х; F> r)== m-FVT{F)-x) D I8)
\fVT(F)-x)f(x)dx
где T(F) определяется уравнением
F BT (F) -x)F (dx) = 1/2. D.19)
Для симметричных распределений F функция влияния
принимает более простой вид
1С {х; F, T)=Fcix)~m D.20)
12 ГЛ. 3. ОСНОВНЫЕ ТИПЫ ОЦЕНОК
и асимптотическая дисперсия величины л/п[Т(Рп) — T(F))t
действительно, совпадает с известным значением
A (F; Т) = J /С2 dF = [l2 ( J /2 (*) tf*)]. D.21)
(Формула D.18) показывает, что оценка Ходжеса — Лемана
совершенно не подходит для определенных несимметричных
плотностей, поскольку знаменатель выражения для функции
влияния может оказаться очень мал по величине.)
Пример 4.3. Оценка с нормальными весами определяется
функцией получения весов /(/)= Ф~Ч0- Для симметричных
распределений функция влияния в этом случае имеет вид
1С & F, Т)-Ф-*р (х))[\ ,{ф?$ш dx]-\ D.22)
где ф = Ф' есть плотность стандартного нормального
распределения. В частности, при F = Ф получаем
/С(*;Ф,Г) =*. D.23)
Количественная и качественная робастность R-оценок.
Теперь вычислим максимальное смещение (см. § 1.4) для /?-оце-
нок. Предположим, что функция /, при помощи которой
получаются веса, есть монотонно возрастающая и симметричная
(J(l — t) = —J(t)) функция. Для того чтобы функционал D.6)
был определен корректно, потребуем, чтобы выполнялось
условие
J|/(«)|<fa<co. D.24)
В этом случае функция
^ (ft F) = J / {| [8 + 1 - F B/ - F-1 (я))]} ds D.2B)
будет монотонно возрастать по t и возрастать по F, если F
становится стохастически больше. Таким образом, среди всех
распределений F, удовлетворяющих условию dL(FOi F) ^ е (а
также и dn(FOyF)^e), наибольшее значение %(t; F) даст
(несобственное) распределение Fu определенное формулой B.35).
Поэтому нам следует вычислить %{t\ F\).
Во-первых, заметим, что
для 0<s<l— e,
оо для s > 1-е.
3.4. ОЦЕНКИ, ПОЛУЧАЕМЫЕ В РАНГОВЫХ КРИТЕРИЯХ 73
Таким образом, при условии, что выполнены неравенства 0 ^
^ s ^ 1 — ей 2/ — Frl (s) ^ х0 + е, где FQ (х0) = 8, имеем
Fi [2/ - Frl (s)] = Fo [2/ - 2e - Fo E + e)] - 8.
Второе неравенство условия можно переписать в виде s <;
^ F0Bt — 2s — х0) — е. Учитывая все приведенные выше соот-
ношения, получим
So
Я {?, Fd=[j (A/2) [s + е + 1 - Fo B (/ -,е) - Fо1 (s + e))]) ds +
+l))ds, D.26)
где so = [FoB(/ — е) — Яо) — е]+. Далее, имеем: 6+(е) =
= inf{/|Я(^; F\) < 0}; из соображений симметрии вычисляем
также 6-(е). Если распределение Fq симметрично, то,
разумеется, 6i(e)=6+(e) = —6_(е). Относительно пороговой точки
заметим: Ь+(е) < оо тогда и только тогда, когда lim X(t\ Fx) < 0.
t
Поскольку предел
1-е 1
Hm Я(/; FX)= \ J[(l/2)(s + s)]ds+ \ J[(l/2)(s+ l))ds =
¦]•
г1/2
-2 S
Le/2 l-e/2
в силу симметрии функции / равен
[1 1-8/2
J J(s)ds- J
1 -8/2 1/2
пороговой точкой 8* служит такая точка е, что
1-8/2 1
J J(s)ds= J J(s)ds. D.27)
1/2 1-8/2
Пример 4.4. Для оценок Ходжеса — Лемана (J(t)=t—1/2)
пороговая точка е* равна 1 — 1/У2 « 0.293.
Пример 4.5. Для оценки с нормальными весами (/(/) =
= ф-^О) пороговая точка е* равна 2Ф(— Vln 4) « 0.239.
Когда е 10, подынтегральное выражение в D.26) убывает
и стремится к подынтегральному выражению, соответствующему
74 ГЛ. 3. ОСНОВНЫЕ ТИПЫ ОЦЕНОК
FOi для почти всех s и /. Из теоремы о монотонной сходимости
следует, что l{t; F\)\ K(t\ Fo) во всех точках непрерывности
Х(-'у Fo). Следовательно, если функция X(t; Fq) имеет
единственный нуль, т. е. если значение T(Fq) определено однозначно, то
функционал Т непрерывен в Fo. Если же значение T(F0)
определено неоднозначно, то функционал Г, естественно, не может
быть непрерывным в Fo. В качестве достаточного условия
единственности может служить, например, условие, заключающееся
в том, что существует производная функции X(t; Fo) no /, не
равная нулю в точке Т = T(F0). Эта производная уже
появлялась (с противоположным знаком) как знаменатель в D.16)
и в D.17).
Сведем полученные результаты в следующей теореме.
Теорема 4.1. Предположим, что функция /, при помощи
которой получаются веса, есть монотонно возрастающая,
интегрируемая и симметричная (т. е. /A — /)=—/(*)) функция.
Если /?-оценка T(Fo) определена уравнением D.9)
однозначно, то функционал Т слабо непрерывен в Fо. Пороговая
точка е* функционала Т определяется уравнением D.27).
3.5. АСИМПТОТИЧЕСКИ ЭФФЕКТИВНЫЕ М-, L- И Я-ОЦЕНКИ
Главная цель, которая ставится в этом параграфе,
заключается в том, чтобы получить некоторое эвристическое правило
выбора функций ф, /п и /, которые определяют соответственно*
М-, L- и /^-оценки. Рассуждения в том виде, как они здесь
представлены, справедливы лишь для функционалов,
дифференцируемых по Фреше.
Пусть (Fq)q<=q есть параметрическое семейство
распределений, и пусть функционал Т есть оценка параметра 0,
состоятельная по Фишеру, т. е.
*=9 для всех 9. E.1)
Предположим, что функционал Т дифференцируем по Фреше
в F. Покажем, что соответствующая оценка асимптотически
эффективна для ^е тогда и только тогда, когда ее функция
влияния удовлетворяет равенству
IC(x; Fe, Г)--^J»-(log/e). E.2)
J
Здесь /е есть плотность распределения Fe, а величина
nFo)=\(-wlogfQJdFB E.3)
есть информация Фишера.
З.б. АСИМПТОТИЧЕСКИ ЭФФЕКТИВНЫЕ М-, L- и ЯОЦЕНКИ 75
Предположим, что справедливо равенство dz^e, ^е+д) =
= 0F), имеет место сходимость
б->0, E.4)
в среднем квадратичном (L2{Fe)) и справедливы неравенства
0</(Fe)<oo. E.5)
Тогда по определению производной по Фреше имеем
- о (dL (FQ, FQ+6)) - о (б), б -> 0. E.6)
Разделим обе части полученного соотношения на б и устремим
6 к 0. Учитывая соотношения E.1) и E.4), получим
1С (х; FQ9 Т) ^ (log /в) fe dx - 1. E.7)
Неравенство Шварца, примененное к E.7), позволяет
сделать два вывода. Во-первых, асимптотика A(F& T) дисперсии
величины <у/п [Т (Fn) — Т (FQ)] удовлетворяет неравенству
A (FQ; Т) = J 1С {х; Fe, ГJ dFe > -^L-. E.8)
Во-вторых, равенство в E.8) (т. е. асимптотическая
эффективность) достигается только тогда, когда функция влияния
IC{x\Fq,T) пропорциональна производной (д/dQ) log fe.
Коэффициент пропорциональности получить нетрудно; он дает
нужное равенство E.2).
Замечание. Вариант соотношения E.2) можно получить
даже в том случае, когда не предполагается дифференцируе-
мость по Гато функционала Г. Допустим, что имеет место
сходимость E.4) и последовательность {Тп} эффективна для Fq9
или, более точно, предел выражения, подобного A.4.9),
удовлетворяет неравенству
lim lim sup Qt (FQ+6> Tnf < 1/7 (Fe). E.9)
8->0 П |6|<
В этом случае можно утверждать, что величина л/п(Тп — в)
имеет асимптотически нормальное распределение со средним О
и дисперсией I/I(Fq) и что имеет место асимптотическая
эквивалентность
Л/;Г (Тп - 9) ~ j^ J] -^ log /e (хй). E.10)
Для всех практических приложений последнее соотношение
совпадает с E.2). Более подробно с данным вопросом можно
76 гл. з. основные типы оценок
ознакомиться по докладу Гаека A972) и более ранним
работам Ле Кама A953) и Хьюбера A966).
Теперь посмотрим, может ли выполняться соотношение E.2)
для М-, L- и ^-оценок по крайней мере в случае параметра
сдвига: /е(*) = Ы* — е)-
A) Для М-оценок достаточно взять функцию (ср. с B.14))
о|> (х) = - cf'o (x)/f0 (x), ' где с Ф 0, E.11)
B) Для L-оценок необходимо брать h(x) = x (иначе не
будет инвариантности относительно переноса, и, значит, будет
потеряна состоятельность). В этом случае будет правильным
согласующийся с C.13) выбор
т (FQ (х)) — [/ (F0)r (log /о (*))", E.12)
Нетрудно проверить, что \т (s)ds = l (инвариантность
относительно переноса). Если плотность /о недифференцируема
дважды, то выбор E.12) следует заменить несколько более сложным
интегрируемым вариантом для самого распределения М.
C) Для /?-оценок мы предполагаем, что распределение Fo
симметрично. Тогда с D.17) согласуется выбор функции
где сфО, E.13)
которая действительно дает соотношение E.2). При
несимметричном распределении Fo полной эффективности для /?-оценок
получить нельзя.
Разумеется, в каждом конкретном случае следует проверять,
являются ли эти оценки действительно эффективными (самые
сильные условия регулярности — дифференцируемость по Фре-
ше, — которые использовались при доказательстве
эффективности, выполняются довольно редко).
Пример 5.1. Нормальное распределение fo(x)= (l/<у/2л)е~х*/2.
М: ty(x) = x выборочное среднее, неробастна,
L: m(t)= 1 выборочное среднее, неробастна,
#: /(<) = ф~1(/) оценка с нормальными весами, робастна.
Пример 5.2. Логистическое распределение F0(x)= 1/A -f-
М: ф (#) = th (х/2) робастна,
L: m(t) = 6t(l — t) неробастна,
/?: J(t)=t—1/2 Ходжеса — Лемана, робастна.
Пример 5.3. Распределение Коши fo(x)= 1/[яA+х2)].
М: ty(x) = 2x/(l+x2) робастна.
L: m(t) = 2cosBnt) [cosBя/) — 1 ] неробастна,
#: /(/)=— sinBjiO робастна (?).
3.5. АСИМПТОТИЧЕСКИ ЭФФЕКТИВНЫЕ М-, ?.- и Я-ОЦЕНКИ 77
Пример 5.4. Распределение «с наименьшей информацией»
(см. пример 4.5.2): /0(х) = Се~х*B при | х |< с, /0 (*) = С*~с 1 х '+с?/2
при \х\> с.
М: ty(x)=max[—с, min(c,x)] оценка Хьюбера, робастна,
L: /и(/) = < 1~~*
\ О при остальных /,
а-урезанное среднее, робастна,
R: соответствующая оценка изредка встречается в
литературе, но эта оценка не имеет простого описания;
робастна.
Некоторые из этих оценок заслуживают более пристального
рассмотрения.
A) Эффективная Я-оценка для нормального распределения,
т.е.оценка с нормальными весами, имеет неограниченную
функцию влияния и, следовательно, бесконечную чувствительность
к большой ошибке: у* = оо (см. § 1.5). Тем не менее она ро-
бастча! В то же время, на мой взгляд, ее не следует
рекомендовать для практического использования — показатели ее
количественной робастности 6(е) и v(e) возрастают очень быстро при
отклонении от нормальной модели, и оценка очень быстро
становится хуже, чем, например, оценка Ходжеса — Лемана (см.
рис. 6.6.2).
B) Эффективная L-оценка для логистического
распределения неробастна, и Ь\(&)= оо при всех е > 0, даже несмотря на
то, что «чувствительность к большой ошибке» у* для Fo (см.
§ 1.5) конечна. Заметим, впрочем, что функция влияния этой
оценки для произвольного (необязательно логистического)
распределения F удовлетворяет соотношению
-j; 1С (*; F, Г) = 6F (х) [ 1 - F (х)].
Поэтому если распределение Р имеет хвосты такого же типа,
как распределение Коши, то функция влияния становится
неограниченной.
Урок, который следует извлечь из этих двух примеров,
состоит в том, что нельзя ограничиваться рассмотрением функции
влияния только для распределения, принятого в модели.
Необходимо также принимать во внимание и то, как эта функция
ведет себя в окрестности модели. В случае оценки с нормальными
весами удлинение хвостов распределения сплющивает хвосты
функции влияния; в случае логистической L-оценки происходит
обратное. Более удобны для работы Af-оценки, поскольку у них
поведение функции влияния фиксируется посредством \|).
78 ГЛ. 3. ОСНОВНЫЕ ТИПЫ ОЦЕНОК
Построить L- и /?-оценки с предписанными свойствами ро-
бастности довольно сложно. Для М-оценок это более простая
задача. Если нужна робастная оценка с хорошей
эффективностью для распределения Fq, принятого в модели, то функцию
"ф необходимо выбрать так, чтобы, с одной стороны, она была
ограниченной, а с другой — была почти пропорциональна
функции— (log/о)'. Если мы полагаем, что очень резко
выделяющиеся наблюдения должны быть совершенно исключены, то
функция г|) должна стремиться к нулю (или быть равной нулю)
при больших по абсолютной величине значениях х. Такой
выбор находит свое теоретическое подтверждение также в том
факте, что кривая влияния эффективной оценки для более толстых,
нежели экспоненциальных, хвостов убывает к нулю (сравните
с примерами 5.3 и 5.4). Для L-оценок такого рода эффекта
достичь по всему диапазону распределений невозможно. Для
/?-оценок это сделать можно, но с известным недостатком. Дело
в том, что изменение функции влияния на концах оси х
затрагивает исключительно распределения с длинными хвостами, в то
время как изменения на концах оси t [t = F(x)] затрагивают
все распределения в равной степени.
В однопараметрических задачах сдвига L-оценки, в
частности, урезанные средние, представляются весьма
привлекательными из-за того, что их просто вычислять. Однако если
используются относительно неэффективные высокие коэффициенты
урезания (т. е., по существу, выборочная медиана), то а-урезанное
среднее проявляет очень плохие пороговые свойства. В
частности, ситуация довольно сложна при малых объемах выборки.
Например, для выборки объема меньше 20 урезанное среднее
с уровнем 10% не сможет совладать более чем с одним резко
выделяющимся наблюдением.
ГЛАВА 4
Теория асимптотической минимаксности
для построения оценок параметра сдвига
4.1. ОБЩИЕ ЗАМЕЧАНИЯ
На практике обращение к качественной робастности мало
чем помогает делу выбора робастной процедуры, подходящей
для конкретного приложения. Сделать разумный выбор можно,
лишь дополнительно вовлекая в рассмотрение количественные
аспекты робастности.
В необходимости этого помогает убедиться приведенное
Анскомбом A960) очень наглядное сравнение ситуации с той,
что возникает в проблеме застрахованности. Обычно под
классической процедурой подразумевается оптимальная процедура,
которая строится для некоторой идеальной (как правило,
нормальной модели). Если окажется, что она неробастна, а мы
хотим застраховаться от тех неприятностей, которыми чреваты
отклонения от модели, то, естественно, придется расплачиваться
за это некоторой потерей эффективности, достижимой для
идеальной модели. И весь вопрос здесь упирается в то, какой
долей эффективности мы готовы пожертвовать и до какой степени
плохими должны быть те наблюдения, от которых мы намерены
застраховаться.
Один из возможных подходов к решению такого рода задач
состоит в том, чтобы сформировать некоторую окрестность
модели и принять меры защиты внутри этой окрестности (Хьюбер
A964)). Этот подход в случае оценки сдвига приводит к
несложно решаемым минимаксным задачам (даже если
пространство чистых стратегий для природы целиком и не охватывается)
как для критериев, основанных на асимптотиках характеристик
(асимптотиках смещения или дисперсии, см. эту главу), так и
для критериев, предназначенных для конечных выборок (см.
гл. 10). Если качество критерия характеризовать асимптотикой
дисперсии, то наименее предпочтительное из возможных
распределение Fo (минимаксная стратегия природы) допускает
простое и непосредственное описание — это то распределение, на
котором в заданной окрестности достигается минимум
информации по Фишеру, причем минимаксная стратегия обеспечивает
статистику эффективность для распределения fo- Как правило,
80 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
получающееся наименее предпочтительное распределение
представляется весьма правдоподобным распределением, если
окрестность модели выбирается не слишком большой. (Это
распределение оказывается ближе к распределениям наблюдений с
ошибками, встречающимся на практике, нежели нормальное
распределение.) Поэтому мы имеем право игнорировать главный
критический довод непрекращающихся споров о правомерности
минимаксного подхода, а именно тот, что такой подход
предохраняет от слишком уж невероятных возможностей.
К сожалению, рассмотренный подход не допускает перехода
к задачам, в которых теряется высокая степень симметрии
(например, теряется инвариантность относительно переноса или
преобразования масштаба). И тем не менее он достаточно
хорошо работает в пределах весьма обширной области
традиционной статистики. В частности, полученные результаты можно
непосредственно перенести на задачи регрессии.
Другой подход (предложенный Хэмпелом A968)) основан
на идее, примыкающей к идее Анскомба даже в большей
степени. В этом подходе асимптотика дисперсии для принятой
модели минимизируется (т. е. минимизируется потеря
эффективности) при ограничении на чувствительность к большой ошибке
(также для принятой модели). В идейном плане такой подход
имеет недостаток, заключающийся в том, что
предусматриваются только бесконечно малые отклонения от модели, но именно
вследствие этого он работает для произвольных однопарамет-
рических семейств распределений. Этот вопрос рассмотрен
в гл. 11.
4.2. МИНИМАКСНОЕ СМЕЩЕНИЕ
Предположим, что истинная функция распределения F
лежит в некоторой окрестности 9*z распределения Fo, принятого
в модели, и что наблюдения независимы и имеют одно и то же
распределение F(x — 8). Надлежит оценить параметр сдвига 0.
В этом параграфе будет показано, как можно обеспечить
оптимальный с точки зрения свойств робастности выбор оценки
сдвига при помощи минимизации максимального
асимптотического смещения Ь(г) оценки для распределений Fg^8. По
причинам, упомянутым в § 1.4, мы начнем с минимизации
максимального смещения Ь\(г) функционала Г, порождающего
оценку. Установить после этого, что ft(e) = &i(e), не составляет
особого труда: ср. теоремы 1.4.1 и 1.4.2.
Поясним идею такого выбора на примере е-загрязненного
нормального распределения
д>% = {F | F = A — е) Ф + еЯ, U е= Ж). B.1)
4.2. МИНИМАКСНОЕ СМЕЩЕНИЕ 81
Покажем, что минимум величины Ь\(&) достигается на
медиане.
Очевидно, что максимальное абсолютное смещение Ь\(г)
медианы достигается при расположении всей массы
загрязнения с одной стороны, например правой. В этом случае значение
этого смещения есть решение х0 уравнения A—е)Ф(л:о)= 1/2
или
Ьх (в) = *0 = Ф-1 BA!_8)). B.2)
Теперь построим два е-загрязненных нормальных
распределения F+ и F-, которые симметричны относительно точек Хо и
Рис. 4.2.1
—Хо соответственно и получаются друг из друга переносом.
Распределение F+ зададим плотностью (рис. 4.2.1)
|A—е)ф(л;) для *<лг0,
U [Х) - \ A - е) Ф (х - 2х0) для х > х0, B.3)
где ф = Ф' есть плотность стандартного нормального
распределения, и
( B.4)
Таким образом, равенство
-) = 2хо B.5)
выполняется для любого функционала, индариантного
относительно переноса. Очевидно, что ни одна оценка не может дать
на F+ и F- одновременно абсолютного смещения, меньшего xq.
Тем самым доказано, что наименьшее максимальное
смещение среди всех функционалов, инвариантных относительно
переноса, имеет медиана. Тот факт, что 6(е) = Ь\(е), проверяется
очень просто. Итак, доказано, что решением минимаксной
задачи минимизации максимального асимптотического смещения
служит выборочная медиана.
Как нетрудно видеть, в рассуждениях выше нигде не
использовались свойства нормального распределения, з*з исключением
82 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
симметричности и унимодальности. Поэтому они сохраняют силу
и для других окрестностей. Например, если взять окрестность
распределений
B.6)
т. е. взять окрестность Леви, то выражение B.2) заменится
выражением
B.7)
но во всем остальном рассуждения не претерпевают никаких
изменений.
€
0.25
0.1
0.05
0.01
b(e)
0.4307
0.1396
0.0660
0.0126
5
50
230
6300
Рис. 4.2.2.
1 Таким образом, минимизация максимального смещения
приводит к одному и тому же выводу: для симметричных
унимодальных распределений решением неизменно служит
выборочная медиана.
Итак, выборочная медиана — лучшая оценка при
сверхбольших объемах выборки, когда_стандартное отклонение оценки
(которое имеет порядок l/Ул) сравнимо со смещением Ь(г)
или меньше, чем Ь(г). В таблице на рис. 4.2.2 приведены
значения смещения B.2) при различных л, причем л = [6(е)]-2. Из
этой таблицы видно, что для обычных объемов выборки и не
слишком больших е (т. е. при е ^ 0.1) статистическая
изменчивость оценки играет более существенную роль, чем ее
смещение.
4.3. МИНИМАКСНАЯ ДИСПЕРСИЯ: ВВЕДЕНИЕ
Вопрос о минимизации максимальной дисперсии v(e)
требует привлечения более глубокой теории. Начнем с вопроса о
минимизации очень удобной величины
°1(е)=Д^р Л(/?; Г) (ЗЛ)
(см. § 1.4). Значение е предполагается зафиксированным,
поэтому в обозначениях будем его опускать,
4.3. МИНИМАКСНАЯ ДИСПЕРСИЯ: ВВЕДЕНИЕ $3
Предположим, что наблюдения независимы и имеют одну
и ту же функцию распределения F(x— G). Следует дать оценку
параметра сдвига 0 при условии, что распределение F может
быть любым из распределений множества ?Р = 3>г
распределений. Здесь возникают некоторые трудности в топологическом
плане. В некоторых доказательствах существования требуется,
чтобы множество 0* было компактом, однако многие
интересующие нас окрестности ^8 не плотны и, значит, их замыкания не
компактны в слабой топологии. В этой ситуации мы видим
выход во введении еще более слабой V-топологии (см. ниже); она
позволяет усилить компактность, правда, ценой включения в 3*
субстохастических мер (или, что то же, вероятностных мер,
имеющих ненулевую массу в ±оо). Такие меры можно
представлять как формализацию возможности появления
бесконечных резко выделяющихся наблюдений. С этого момента
предполагается, что множество 9* замкнуто в V-топологии и,
следовательно, компактно.
Определим V-топологию1) в пространстве JL+
субстохастических мер на Q как самую слабую из топологий, в которых
отображения F-+\tydF непрерывны для всех непрерывных
функций i|) с компактным носителем. Заметим, что мы сейчас
работаем с вещественной прямой, поэтому Q = R есть не
только польское, но и локально компактное пространство. В этом
случае J(+ есть компакт (см., например, Бурбаки A967,
гл. III)).
Пусть Fo — распределение, на котором достигается минимум
информации Фишера
= \{f'lf?fdx C.2)
по всем распределениям из !?. При довольно широких условиях
существует одно и только одно такое распределение Fq\ см.
ниже.
Для любой последовательности {Тп} оценок асимптотика
дисперсии величины л/пТп для jF0 в лучшем случае равна
l/I(F0)y см. § 3.5. Поэтому минимаксная задача будет, очевидно,
решена, если удастся найти такую последовательность {Тп}
оценок, что асимптотика ее дисперсии не будет превосходить
I/I (Fo) для любого распределения F из ^.
В частности, такая последовательность {Тп} должна быть
асимптотически эффективной для fo, что дает намек на
то, где следует искать асимптотически минимаксные
оценки.
!) От англ. vague. — Прим. первв.
84 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
4.4. РАСПРЕДЕЛЕНИЯ, НА КОТОРЫХ
ДОСТИГАЕТСЯ МИНИМУМ ИНФОРМАЦИИ ФИШЕРА
Прежде всего изменим определение информации Фишера
таким образом, чтобы случай бесконечного значения,
допускаемый в классическом определении C.2), не имел места. Точнее,
мы примем следующее определение.
Определение 4.1. Информацией* Фишера для сдвига
распределения F на вещественной прямой называется величина
= sup (\VdFJ/\^dF, D.1)
где супремум берется по множеству <9\ всех непрерывно
дифференцируемых функций с компактным носителем,
удовлетворяющих неравенству \ я|J dF > 0.
Теорема 4.2. Следующие утверждения эквивалентны:
A) /(F)<oo;
B) распределение F имеет абсолютно непрерывную
плотность /, причем \ {f'/fffdx < оо.
В обоих случаях имеем: I{F)= \ {f'/fJfdx.
Доказательство. Если \ {f'lfffdx < оо, то интегрирование по
частям и неравенство Шварца приводят к оценке
( J o|>7 d%y - ( \ я|) (/'//) fdxJ < J ф2 f dx J (riff f dxy
следовательно, /(F)<\ {flfffdx < oo.
Докажем обратную импликацию. Пусть /(F)<oo, или, что
то же, линейный функционал Л, определенный равенством
D.2)
на всюду плотном подмножестве VlK гильбертова пространства
^2{F) функций, F-интегрируемых с квадратом, ограничен:
^оо. D.3)
Следовательно, функционал А можно продолжить по
непрерывности на все гильбертово пространство L2(F) и, более того, по
теореме Рисса можно найти такую функцию geZ^f/7), что
gdF D.4)
4.4. РАСПРЕДЕЛЕНИЯ, МИНИМИЗИРУЮЩИЕ ИНФОРМАЦИЮ ФИШЕРА $5
для всех \|)eL2(/r). Заметим, что
dF = 0 D.5)
(в этом нетрудно убедиться, исходя из непрерывности А и
определения D.2): нужно аппроксимировать 1 гладкими
функциями с компактным носителем).
На данном этапе доказательства мы еще не знаем, имеет
ли распределение F абсолютно непрерывную плотность /, но
если это так, то из D.2) интегрированием по частям выводится
равенство
следовательно, g = /'//. Поэтому определим функцию f
равенством
/(*)= S g(y)F(dy) D.6)
у<х
и проверим, что так определенная функция, действительно, есть
плотность распределения F.
Применив к D.6) неравенство Шварца, убеждаемся, что
функция / ограничена,
и стремится к нулю при х->—оо (то же справедливо и для
я-^ + оо; в этом случае используется равенство D.5)). Если
-ф е VlK, то по теореме Фубини имеем
= - \\^{x)g{y)F{dy)dx
<
у<х
Сравнивая полученный результат с определением D.2)
функционала Л, заключаем, что f(x)dx и F(dx) определяют на
множестве Ч* = {i|/11|) е ф1к} один и тот же линейный функционал.
Множество W всюду плотно в L2(F). Поэтому F(dx) и f(x)dx
определяют одну и ту же меру и, значит, / есть плотность
распределения F.
Наконец, имеем:
86 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
(Впервые эта теорема была получена Хыобером A964);
приведенное здесь элегантное доказательство сообщил автору
Т. Лиггет.)
Если множество 3> наделено [/-топологией, то информация
Фишера D.1) полунепрерывна снизу как функция от F (т. е.
представляет собой поточечный супремум по множеству
функций, непрерывных в V-топологии),
Из этого факта вытекает, что I(F) достигает своего инфи-
мума на любом множестве 9*> компактном в 1/-топологии. Таким
образом, мы доказали
Предложение 4.3 (о существовании). Если д> есть компакт
в V-топологии, то существует Fo e ^, минимизирующее
информацию Фишера I(F).
Далее, заметим, что информация Фишера I(F) есть
выпуклая функция F. Этот факт — непосредственное следствие того
факта, что \ $' dF и \ ty2dF суть линейные функции F, и простой
леммы.
Лемма 4.4. Пусть u{t), v(t) суть линейные по / функции,
причем v(t) > 0 для 0 < t < 1.
Тогда функция w(t) = и2(t)/v(t) выпукла при 0</<1.
Доказательство. Для второй производной функции w имеем
w"(t) = 2[u'v(t)—u(t)v']*/v*(t)^0 для 0</<1. ¦
Теперь все готово для доказательства единственности Fo-
Предложение 4.5 (о единственности). Допустим, что
A) множество 9* выпукло,
B) распределение F0^!P минимизирует информацию
Фишера I(F) в ^, причем 0 < I(F0) < оо,
C) множество, на котором плотность /0 распределения Fq
строго положительна, выпукло и содержит носитель каждого
из распределений множества ^.
Тогда распределение Fo есть единственное распределение из
^, минимизирующее информацию Фишера I(F).
Доказательство. Предположим, что имеется еще одно
распределение Fu минимизирующее информацию Фишера I(F).
Тогда у I{Ft) в силу выпуклости значение остается постоянным
вдоль целого отрезка 0 ^ / ^ 1; здесь Ft = A — t)F0 + tF\. He
ограничивая общности, можно считать, что распределение Fo
абсолютно непрерывно относительно F\ (если это не так, то F\
нужно заменить на Ft, для некоторого фиксированного to,
О</о<1).
Нетрудно видеть, что подынтегральное выражение в правой
части соотношения
4.4. РАСПРЕДЕЛЕНИЯ, МИНИМИЗИРУЮЩИЕ ИНФОРМАЦИЮ ФИШЕРА 87
есть выпуклая функция /. Если допустимо двойное
дифференцирование под знаком интеграла, то
Ъ'т*- D-8)
Так действительно можно делать. Если Q(t)=s[qt(x)dxJ где
qt(x) есть некоторая выпуклая функция /, то подынтегральное
выражение для разности
№ + h) - Q(t)]/h = J (qM - qt)lh dx
монотонно по ft. Следовательно, Q'(t)=\q'tdx в силу теоремы
о монотонной сходимости. Более того, подынтегральная функция
для разности
[Q' (/ + А) - Q' Ш - J (<?;+„ - 4t)/h dx
положительна. Поэтому по лемме Фату Q"(t)^[ q"dx^0, что
доказывает обоснованность дифференцирования D.8).
Таким образом, должно выполнятся равенство
/i/A = fo//o п. в. D.9)
Интегрируя это соотношение, получим
fx^cfo D.10)
для некоторой константы с (здесь мы воспользовались
допущением C) предложения 4.5: множество, на котором плотности
/о и /i отличны от нуля,; выпуклы и, значит, в частности, связны).
Поскольку
/(Л) = $ (К//02Udx=\ (/o//oJchdx = cl(Fo),
приходим к выводу, что с = 1. ¦
Примечание 1. В предложении 4.5 не сказано, что меры имеют общую
массу, равную единице (обратите внимание на рассуждение, которым
доказывается, что в D.10) константа с равна единице). В принципе
минимизировать информацию Фишера может и субстохастическое распределение Fo,
Однако нам не известно ни одного реального множества #*, для которого это
было бы так, т. е. распределение FOt минимизирующее информацию Фишера,
для таких множеств & никогда не несет ненулевую массу в точках ±оо. Такое
положение служит хорошим подтверждением правильности выбора множеств
#*. Для «реальных» множеств & любая масса в точках ±с» на самом деле
не находится в бесконечности, она должна появляться лишь в пределе, когда
загрязнение уходит на бесконечность. Интуитивно ясно, что задача обратного
сдвига этой массы к конечным значениям становится для статистика камнем
преткновения, поскольку уже нельзя точно разобрать, где истинные
наблюдения, а где резко выделяющиеся наблюдения.
88 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
Примечание 2. Как показано в работе Хьюбера A964), в предложении
4.5 нельзя обойтись без допущения C) или подобного ему. Например, зададим
функции распределения Fo и F\ их плотностями: *
f <х\ _ J ~л v* -г ху для —
\0 для остальных х;
D. Ill
у\2 ппя л ^- ..-^ 1 Vх-**/
. """ Л) ДЛл
\0 для остальных х\
и пусть & = {Л|/е [0, 1]}. Тогда значение информации Фишера I(F) на ^
конечно и постоянно.
Для достаточно гладких плотностей f(x\ 8) имеется ряд
других эквивалентных выражений информации Фишера. Для
полноты изложения приведем некоторые из них:
/(Л в).
D.12)
-л
(штрих обозначает дифференцирование по 0).
4.5. ОПРЕДЕЛЕНИЕ РАСПРЕДЕЛЕНИЯ ^о ВАРИАЦИОННЫМИ
МЕТОДАМИ
Предположим, что 9* — выпуклое множество. В силу
выпуклости /(•) распределение Fo^9* минимизирует информацию
Фишера тогда и только тогда, когда (d/dt)I(Ft)^ 0 в t = 0 для
любого распределения F\ e &и где &\ есть множество всех мер
F е^, для которых I(F)< оо. Дифференцирование под знаком
интеграла в равенстве D.7), допустимое в силу теоремы о
монотонной сходимости, приводит к неравенству
Введем функцию ф (*) = — f[ (x)/f0 (x). Если функция ф имеет
производную г|/ и, значит, возможно интегрирование по частям,
то неравенство E.1) можно переписать в более удобном виде
E.2)
или в виде
- 4 J [(УЮ7У/о ] (/i - /о) <** > 0 E.3)
для всех распределений F\ s #V
4.6. ОПРЕДЕЛЕНИЕ РАСПРЕДЕЛЕНИЯ Л> ВАРИАЦИОННЫМИ МЕТОДАМИ 8§
Среди приведенных ниже примеров первый пример выявляет
забавную связь между распределениями, минимизирующими
информацию Фишера, и наименьшим собственным решением в
квантовой механике. Второй пример играет центральную по
важности роль в робастном оценивании.
Пример 5.1. Пусть 9> — множество всех вероятностных рас*
пределений F, для которых с некоторой заданной функцией V
выполняется неравенство
^0. E.4)
Для распределения Fo> минимизирующего информацию Фишера
на 9>> в E.3) и E.4) имеют место равенства. Комбинируя E.3),
E.4) и равенство
J/>(</*)= 1, F.5)
при помощи метода множителей Лагранжа (здесь это множи*
тели а и Р) получаем дифференциальное уравнение
4 {л/пТЫп - оУ + Р = 0, E.6)
которое при обозначении и = V?o имеет вид
и = 0. E.7)
Последнее уравнение есть, по существу, уравнение Шредингера
движения электрона в поле потенциала V.
Если /о есть решение уравнения E.6) при условиях E.4) й
E.5), то в предположении а > 0 оно удовлетворяет
неравенству E.3). Умножим уравнение E.6) на /о и возьмем интеграл
по х. Получим /(F0)=p. Таким образом, нас интересует (на
языке квантовой механики) наименьшее собственное решение,
соответствующее наименьшему собственному значению р.
В частном случае V(x) = x2—1 получается хорошо
известное наименьшее собственное решение для гармонического
осциллятора. Это решение в свою очередь полностью согласуется
с тем также хорошо известным фактом, что среди всех
распределений с дисперсией, не превосходящей 1, наименьшее
значение информации Фишера дает стандартное нормальное
распределение.
С точки зрения робастности оценок больший интерес
представляет «прямоугольный» потенциал
{— а <0 для |*|<1,
»>i
90 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
Нетрудно видеть, что в этом случае уравнение E.6) имеет
общее решение вида
E.9)
для |х|> 1,
где со и К — некоторые постоянные. Для того чтобы решение
было строго положительным, следует взять 0 < о < л. Выбором
постоянных интегрирования уже предусмотрено, что функция fo
должна быть непрерывной. Если же вдобавок требуется, чтобы
была непрерывной функция -ф = —(log /o)r, то следует положить
A, = ootg(©/2) E.10)
и определить С так, чтобы \fodx = l:
Г cos2 (@/2) /й t n
U= l+2/[a)tg @/2)J • 1°Л1'
Заметим, что в этом случае
и, следовательно,
Теперь убедиться в том, что неравенство E.3) выполнено, т. е.
в том, что среди всех вероятностных распределений F,
удовлетворяющих неравенству
F{(-1, I)»ft{(-1, 1)}=1-2СД, E.14)
распределение Ро Дает наименьшее значение информации
Фишера, не составляет никакого труда.
Пример 5.2. Пусть G — фиксированное вероятностное
распределение с такой дважды дифференцируемой плотностью g,
что функция — \ogg(x) выпукла на выпуклом носителе
распределения G. Зададим е > 0. Пусть ЯР есть множество всех
вероятностных распределений, получающихся из G посредством
е-загрязнения:
Н9 Н&Л). E.18)
Здесь Ж, как обычно, обозначает множество всех
вероятностных мер на вещественной прямой, хотя в качестве Ж можно
рассматривать и множество всех субстохастических мер.
Последнее делает множество & компактным в V-топологии.
4.5. ОПРЕДЕЛЕНИЕ РАСПРЕДЕЛЕНИЯ Fo ВАРИАЦИОННЫМИ МЕТОДАМИ 91
Неравенство E.3) подсказывает, что плотность /0
распределения, дающего минимум информации Фишера, по всей
видимости, должна иметь следующий вид. Имеется некоторая
центральная область, в которой плотность /0 касается границы,
fo(x) = (l—e)gX*). Ha^ хвостах должно оставаться постоянным
отношение (V/o)'7Vfo> T- е. на хвостах плотность /о убывает
экспоненциальным образом: /о(*) = Се~к1хК Все это
действительно так, и сейчас мы получим решение /0 явным образом.
Пусть хо и a:i(xo<*i) суть концы интервала, на котором
выполняется неравенство \g'/g\^k> а величина k связана со
значением е соотношением
E.16)
Хо
Как *о, так и х\ могут принимать бесконечные значения.
Теперь положим
A - е) g (*0) в» <*-*•> для х < xOt
для a:0<a:<^i, E.17)
(x-rt для х^хи
Условие E.16) гарантирует, что интеграл функции /0 равен
единице; таким образом, загрязненное распределение Hq = [F0 —
— A—e)G]/e также имеет общую массу единица, и остается
лишь проверить, что его плотность Ао неотрицательна. Но это
сразу вытекает из того факта, что выпуклая функция —logg(x)
лежит над своими касательными в точках хо и х\, т. е. g (x) ^
^g{Xo)ek{x~Xo) и ?W<?Wrft(j;-4 Очевидно, что как сама
функция fo, так и ее производные непрерывны; имеем:
{--[lo
-g'
k
{--[log Ы*)]'= — k при
-g'(*)/g(x) при хо<х<хи E.18)
при
Теперь проверим, что неравенство E.2) выполняется в данном
случае. Поскольку $'(х)^0 и Л2 + 2г|)/ —1|J^0 при хо^х^
^Х\9 причем в остальных случаях k2-\-2ty' — -ф2 = 0, имеем:
E.19)
92 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
в силу того, что /i ^ /о на интервале хо < х < хи и того, что
\ (/i — h)dx^Q (допускается, что мера F\ может быть
субстохастической!).
Обратимся к важному случаю, когда G есть Ф —
стандартное нормальное распределение, и посмотрим, как выглядят эти
г
0
0.001
0.002
0.005
О.01
0.02
0.05
0.10
0.15
0.20
0.25
0.3
0.4
0.5
0;65
0.80
1
к
2.630
2.435
2.160
1.945
1.717
1.399
1.140
0.980
0.862
0.766
0.685
0.550
0.436
0.291
0.162
0
0
0.005
0.008
0.018
0.031
0.052
6.102
0.164
0.214
0.256
0.291
0.323
0.375
0.416
0.460
6.487
0.5
1.000
1.010
1.017
1.037
1.065
1.116
1.256
1.490
1.748
2.046
2.397
2.822
3.996
5.928
12.48.
39.0
00
Рис. 4.5.1. 8-загрязненные нормальные распределения, на которых в задаче
оценки сдвига достигается минимум информации.
результаты применительно к данному случаю. Информация
Фишера минимизируется в рассматриваемом случае плотностью
l~8 -v2/0 при
/оМ-
F.20)
при
где величины k и е связаны соотношением
2q>(k)/k — 2Ф(—k) = e/(l— г) E.21)
(функция ф, ф = Ф', есть плотность стандартного нормального
распределения). Таким образом, в данном случае
ф (х) = — [log /о (*)]' = max [—ft, min (k, x) ]. E.22)
С некоторыми численными результатами знакомит рис. 4.5.1,
4.5. ОПРЕДЕЛЕНИЕ РАСПРЕДЕЛЕНИЯ Fo ВАРИАЦИОННЫМИ МЕТОДАМИ 93
Пример 5.3. Пусть 9* есть множество всех распределений,
расстояние которых от стандартного нормального
распределения в метрике Колмогорова не превосходит е:
sup\F(x) —Ф(х)\ ^е. E.23)
Нетрудно догадаться, что здесь решение Fo должно быть
симметричным и что найдется такая пара (возможно,
совпадающих) постоянных 0 < Хо ^ хи что Fo(x) = Ф(х) — 8 при х0 ^
^ х ^ х\7 а для остальных х > 0 выполняется строгое
неравенство \F0(x)—Ф(я)|<е. Исходя из E.3), следует ожидать, что
отношение (У/о)'7У/о в интервалах @, х0) и (хи оо)
постоянно, поэтому решение будем искать в виде
М») = /.<-*)-
qp(*) " при лго<л:<л:1, E.24)
ф(Х!)в"Х(*"Х|) ПрИ
Рассмотрим два случая.
Случай А. Величина в мала, xq<X\. Для того чтобы
функция
тг) при
ПРИ
при
была непрерывной, необходимо, чтобы выполнялись
соотношения
^o, E.26)
А = хь E.27)
Для того чтобы при Хо ^ х ^. х\ выполнялось равенство F0(x) =
= ф(х) — 8 и общая масса распределения Fo была равна
единице, должны иметь место равенства
X* Хо
/о (*) dx = J ф (х) d* - е, E.28)
[
ОО
fo(x)dx = \ q>(x)dx + e. E.29)
J
Xi Xi
Для заданного г соотношения E.26) —E.29) определяют
четыре величины — xq, х\, со и Я. Однако явные формулы удобнее
94 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
записывать, используя в качестве независимого переменного
величину
и = о>*о, E.30)
где 0 < и <С я, вместо е. В этом случае из соотношений E.26),
E.30) и E.28) получаются соответственно соотношения
xo = (utg(u/2))ll\ ' E.31)
а> = и/х0, E.32)
е = Ф(*0) - 1/2 -*0Ф(*о) ]t+bsuU ; E'33>
величина х\ должна определяться из E.29), т. е. в конечном
счете из уравнения
,-1М_ф (_,,). E.34)
Оказывается, что Xq < х\, пока е < ео ^ 0.0303. Остается
проверить, что выполняются неравенства E.23) и E.3). Первое из
них нетрудно получить из соотношений М*о)= ф(*о), /o(*i) =
= <p(*i) и неравенства — [logfo(x)]' = У(х)^ — [\ogq>(x)]\
справедливого при х ^ 0. Если это неравенство
проинтегрировать, то получатся неравенства }о{х)^ц>(х) при 0^.х^.х0 и
fo(x) ^ <р(х) при х ^ х\. Вместе с соотношением Fo(x) =
= Ф(л:) — 8, справедливым при ^о^-^^^ь они дают E.23).
Перейдем к доказательству неравенства E.3). Для этого
заметим сначала, что достаточно ограничиться лишь
симметричными распределениями Fi (поскольку I{F)— выпуклый
функционал, симметризованное распределение F(x) = (\/2)[F(x)+I —
— F(—x)], полученное для F, даст меньшее значение
информации Фишера, нежели само F). Имеем: величина — 4(Vfo)///V?o
равна (о2 при 0 ^ х < xQi равна 2 — х2 при Хо < х < х\ и равна
— х\ при х > Х\. Поэтому для G = F\ — Fq в левой части E.3)
получим:
= («,2 + Х2 _ 2) G (х0) + 2G (х,) - x\G (оо) + \ xG (x) dx.
Заметим, что
что G(x) > 0 при хо < x ^ ATi и что G(oo) ^ 0. Таким образом,
все члены в преобразованной левой части E.3) неотрицательны,
что и доказывает неравенство E.3),
4.5. ОПРЕДЕЛЕНИЕ РАСПРЕДЕЛЕНИЯ Ре ВАРИАЦИОННЫМИ МЕТОДАМИ 95
Случай Б. Значение s велико, Хо = Х\. В этом случае
выражение E.24) для fo (x) упрощается и принимает следующий вид:
E.35)
j-X(*-*o) прИ X> Xo.
Помимо иного масштаба эта плотность ничем не отличается от
уже встречавшейся выше плотности E.9).
Для того чтобы функция
при О<д;<а:о,
E-36)
А при х > х0
была непрерывной, следует положить
%Хо = Шо tg (солго/2), E.37)
а для того чтобы интеграл функции f0 был равен единице, долж*
но выполняться равенство
(|) \ E.38)
где и = ®хо\ ср. с выражением для С в формуле F.11).
Здесь снова вместо в в качестве независимого переменного
удобнее пользоваться и = (ох0. Сначала из E.38) получаем
Хо ^ 1 (имеется также решение, меньшее единицы), а затем
из F.37) получаем К. В силу E.29) имеем
в = Ф (х0) А — Ф (—*о). E.39)
Эта формула имеет место при г ^ ео = 0.0303. Доказать, что
распределение Fo удовлетворяет неравенству E.23), в данном
случае несколько сложнее, см. работу Сакса и Илвисейкера
A972). На рис. 4.6.2 представлены некоторые численные
результаты.
Располагая теперь небольшой коллекцией ситуаций, в
которых найдены распределения, минимизирующие информацию
Фишера, мы должны уделить некоторое внимание вопросу о том,
насколько точно они отражают действительность.
Во-первых, может показаться удивительным, что у
распределений Fo, минимизирующих информацию, нет слишком длинных
хвостов. Но, с другой стороны, нельзя согласиться и с тем, что
у этих распределений могут быть слишком короткие хвосты,
поскольку в таком случае исчезла бы возможность появлений
очень резко выделяющихся наблюдений, с которыми иногда
можно встретиться на практике.
ГЛ 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
е
0
0.001
0.002
0.005
0.01
0.02
0.03033
0.05
0.10
0.15
0.20
0.25
0.3
0.4
*о
0
0.6533
0.7534
0.9118
1.0564
1.2288
1.3496
1.3216
1.3528
1.4335
1.5363
1.6568
1.7974
2.1842
О)
1.4142
1.3658
1.3507
1.3234
1.2953
1.2587
1.2316
1.1788
1.0240
0.8738
0.7363
0.6108
0.4950
0.2803
00
2.4364
2.2317
1.9483
1.7241
1.4921
1.3496
1.1637
0.8496
0.6322
0.4674
0.3384
0.2360
0.0886
1//(/Ь)
1.
1.019
1.034
1.075
1Л36
1.256
1.383
1.656
2.613
4.200
6.981
12.24
23.33
144.2
Рис. 4.5.2. Распределения, доставляющие минимум информации в окрестности
sup | F (х) - Ф (*) |< 6 (см. пример 4.5.3, формулы E.25), E.35)).
I
1
I
J
0.0001 0.001 0.01
0.1
0.9
0.99 0.999 0.9999
Рис. 4.5.3.1. Нормальное распределение. 2. Распределение, минимизирующее
информацию для сдвига (е = 0.02). 3. Эмпирическое распределение. 4.
Распределение, минимизирующее информацию для масштаба (е = 0.02). Число п
равно 8688. Источник: Романовский, Грин A965).
4.6. АСИМПТОТИЧЕСКИ МИНИМАКСНЫЕ Af-ОЦЕНКИ 97
Во-вторых, нам нужно сравнить их с реальными,
предположительно нормальными распределениями. Для этого требуются
очень большие выборки, которые выглядят совершенно
безупречно; ряд выразительных примеров собрали Романовский и
Грин A965). Их выборка наибольшего объема (я = 8688),
нанесенная на вероятностнук) бумагу для нормального
распределения (рис. 4.5.3), дает картину, крайне похожую на ту, которая
получается для доставляющего минимум информации
нормального распределения с 2 %-ным загрязнением (полученная
кривая попадает между незначительно различающимися кривыми
распределений Fo, минимизирующих информацию в случае сдвига
и в случае масштаба (см. E.6.15))). Для приведенных ими
выборок меньших объемов делать столь же определенные выводы
становится более затруднительно в силу большей случайной
изменчивости, однако и в этом случае выборочные функции
распределения близки к некоторым е-загрязненным распределениям
Foj минимизирующим информацию (здесь е находится в
диапазоне от 0.01 до 0.1).
Таким образом, имеются очень веские основания для
использования в целях борьбы с е-загрязнением при е, лежащих в
упомянутых выше границах, минимаксных процедур.
На рис. 4.5.4 на вероятностной бумаге для нормального рас»
пределения изображены симметризованные эмпирические
распределения ряда больших выборок, взятых из работы
Романовского и Грина A965). Показаны также асимптотики дисперсий
сс-урезанного среднего и логарифма а-урезанного стандартного
отклонения (что соответствует выборке с возвращением из сим-
метризованных эмпирических распределений).
Все приведенные множества данных хороши, поэтому клас*
сические оценки не доставляют здесь неприятностей. Заметим
вместе с тем, что умеренное урезание никогда не приносит
особого вреда, зато дает подчас значительно лучшие результаты.
4.6. АСИМПТОТИЧЕСКИ МИНИМАКСНЫЕ М-ОЦЕНКИ
Предположим, что распределение Fo имеет минимальную
информацию Фишера в задаче о сдвиге на выпуклом множестве 0*
функций распределения. В этом параграфе будет показано, что
асимптотически эффективные М-оценки сдвига для Fo
фактически обладают на & определенными минимаксными свойствами.
Согласно равенству C.5.11), следует положить
¦ М«-*Ш//о(*). F.1)
чтобы обеспечить асимптотическую эффективность для Fo
(значение постоянной с Ф 0 никакой роли не играет). В данный
момент нас не интересуют условия регулярности, однако отметим,
4 Зак, 617
J а°/а
Рис. 4.5.4. Асимптотические дисперсии величин ха (урезанное среднее) и log Sa (урезанное эмпирическое стандартное от»
клонение). Источник данных: Романовский, Грин A965),
\
/
ч
N4033
Г
f Т f
/1
^ г-^
ttt t
50 PO 5 1.5 Jcc%5Q
Рис. 4.5.4. Продолжение,
N=914
T III Iff 1
г
/
X
/
\
N=451
2
I i I
/
J / .J Jqc°/q 50 го 5 1.5 Ja°/a
100 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
что во всех примерах § 4.5 функция F.1) была монотонной и,
значит, были применимы результаты § 3.2, а М-оценки,
определенные соотношением
= Q, F.2)
были асимптотически нормальны
2?{<s/7i[T(Fn)-T(F)]-*jr@, A(F, T)) F.3)
и имели асимптотическую дисперсию
J « (х - Т (F)? F (dx) J * (х - Г (F)J F (dx)
[Л (f(Fm [\*'(x-T(F))F(dx)]
В частности,
A(F0\ T)=l/I(F0). F.5)
Не ограничивая общности, можно предполагать, что
) 0
Но здесь мы сталкиваемся с известным техническим
затруднением, причиной которому служит переменная величина T(F)
в выражении F.4) для асимптотики дисперсии. Если в &
входят только симметричные распределения, то
T(F)= 0 для всех f€=5* F.6)
и упомянутое затруднение отсутствует.
По традиции и из соображений удобства в литературе по
робастности принимается большей частью допущение о
симметричности распределений. Следует, однако, заметить, что
стремление ограничиться лишь в точности симметричными распре*
делениями
A) подрывает сам дух робастности,
B) оставляет без внимания те модели, в которых истинное
распределение не симметрично.
По этим причинам мы воспользуемся несколько иным
подходом. Заменим 9* выпуклым множеством
Q}. F.7)
Такая замена обеспечивает выполнение F.6) и устраняет
явную зависимость от T(F) в выражении F.4). Кроме того, она
приводит к более «чистой» задаче; при изучении асимптотики
дисперсии на ^0 нам не нужно заботиться об асимптотическом
смещении T(Fn). Ясно, что вопрос о поведении статистики T(F)
и дисперсии A (F; Т) на 3*\^о по-прежнему требует отдельного
рассмотрения (см. § 4.9),
4.6. АСИМПТОТИЧЕСКИ МИНИМАКСНЫЕ М-ОЦЕНКИ 1Q1
Согласно лемме 4.4, отношение l/A(F\T) есть выпуклая
функция распределений F е &>о. Пусть Ft = A — t) Fo + tFu
причем Fi^fPoOiPu где ^i есть подмножество множества ^,
состоящее из всех распределений, имеющих конечную
информацию Фишера (см. § 4.5). Тогда простыми выкладками с учетом
неравенств E.1) и E.2) получаем
-о - S
f
~F •<*м
(б-8)
В силу выпуклости функции 1/Л (F; Г) справедливо неравенство
i4(F; T)^A(FQ; Т) для всех Fe^ofl^i. F.9)
Иными словами, оценка максимального правдоподобия для
сдвига, построенная на основе распределения, доставляющего
наименьшую информацию, минимизирует максимум
асимптотики дисперсии для альтернатив, лежащих в ^оП^ь Если
подмножество ^i всюду плотно в ^, такая оценка обычно
минимаксна для всего ^о, однако в каждом случае необходимо, по-
видимому, отдельное рассмотрение.
Для иллюстрации возьмем случай, рассмотренный в примере
5.2, полагая, что функция (—logg)" непрерывна. Ниже рассуж-
дения в большой мере опираются на доказательство асимптотик
ческой нормальности, приведенное в § 3.2.
Сначала отметим очевидное неравенство
г|J (х) F (dx) < J о|J (х) Fo {dx) для всех F s ^0> F.10)
справедливое в силу того, что все загрязнение распределение
Fo вносит в максимум г|J.
Некоторые затруднения возникают с функцией K{t\ T7)»»
= \ 'Ф (* — 0 F {dx), у которой может не быть производной. Для
того чтобы увидеть, что здесь следует делать дальше, положим
ш = (—logg)"(Xi), ; = 0, 1, где xi те же, что в примере 5.2.
Если распределение F несет в xi точечные массы е/, то, как
показывают простые выкладки, функция %(-]F) имеет все же
(возможно, различные) односторонние производные в точке
t = 0; действительно,
V(+0; F) — А/(—0; F) = еоио — вхщ. F.11)
В любом случае для всех распределений F е ^° имеем
F) ^ -VJO, Fo) > 0. FЛ2),
102 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
Теорема 3.2.4 остается справедливой, но в качестве
предельного распределения величины ^nT(Fn) служит, как показы*
вают более пристальные рассмотрения, уже не просто
нормальное распределение, а распределение, образованное правой
половиной нормального распределения с дисперсией вида F.4),
вычисленной с правой производной функции А,, и левой половиной
нормального распределения с дисперсией, вычисленной с левой
производной функции X.
И тем не менее неравенства F.10) и F.12), взятые
совместно, влекут за собой неравенство A (F; Т) ^ A (Fo; Г), даже
несмотря на то, что величина A(F\ T) может принимать разные
значения слева и справа от медианы распределения s\/nT(Fn).
Кроме того, равномерность сходимости в C.2.29)
непосредственно позволяет установить, что v (г) = v\ (г) = A (Fo] T) (см. § 1.4)
при F, лежащих в ^0.
Замечание (интересный предельный случай.) Рассмотрим
общий случай е-загрязнения из примера 5.2 и положим е->-1.
Тогда k-+Q и fo-^О и подходящего предельного распределения
нет. В то же время асимптотически эффективная М-оценка для
Fo имеет нетривиальный предел, а именно, если не брать в
расчет аддитивную постоянную, выборочную медиану. К этому
выводу можно прийти следующим образом: функцию г|э можно
умножить, не изменив оценку, на такую постоянную, что
1 ДЛЯ X > Х*9
где точка я* определяется условием g'(x*)/g(x*) = 0. В этом
случае предельная оценка определяется как решение уравнения
и, следовательно, Тп — med {**} — х*.
Пример 6.1. Рассмотрим отдельно представляющую особую
важность минимаксную М-оценку сдвига для е-загрязненного
нормального распределения. Здесь распределение,
доставляющее минимум информации, имеет вид E.20), где параметры
связаны соотношением E.21), а оценка Тп определяется условием
где функция \J) определяется формулой E.22)*
4.7. О СВОЙСТВЕ МИНИМАКСНОСТИ ДЛЯ L- ц Я-ОЦЕНОК ЮЗ
4.7. О СВОЙСТВЕ МИНИМАКСНОСТИ ДЛЯ L- И Я-ОЦЕНОК
Для L- и ^-оценок отношение \/A(F\ T) не является
выпуклой функцией F. Хотя неравенство F.8) остается справедливым
(это доказывается или непосредственными выкладками, или
устанавливается из общих соображений на основе того факта,
что I(F) = sup I/A (F; Г), где Т пробегает каждый класс
оценок), уже нельзя утверждать, что асимптотически эффективная
для Fo оценка является асимптотически минимаксной, даже если
сузить множество 9* до множества симметричных и гладких
распределений. И действительно, Сакс и Илвисейкер A972)
построили такие контрпримеры. В то же время в важном случае,
рассмотренном в примере 5.2 (е-загрязнение), заключение о
минимаксности оказывается справедливым (Джекл A971а)).
Далее будем предполагать, что все распределения симметричны.
Сначала рассмотрим случай L-оценок, среди которых
эффективные (ср. § 3.5) характеризуются тем, что для их весовых
плотностей выполняются соотношения
О в остальных случаях,
где функция g та же, что в примере 5.2.
Функция влияния является нечетной функцией, причем дли
х ^ О она допускает представление
X
IC(x;F,T)=\m(F(y))dy,
О
или (для 1/2 < t < 1) представление
Имеем: F(x)^F0(x) при O^jc^jci и F~l(/)<Fo (t) при
l/2<fs^Fo(*i). Таким образом, при 1/2 < t < F()
104 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
Поскольку функция IC(F-l(t)\ F, Т) постоянна при
^ t ^ 1 и имеет место равенство
1
A(F;T) = 2 [lC2(F-l(t);F,T)dt,
1/2
справедливо неравенство A{F\ T)^A(F0\ Г), и, следовательно,
свойство минимаксности установлено.
Теперь перейдем к ^-оценкам. Выбор оптимальной функции
/@» при помощи которой получают веса, определяется
соотношением / (Fo (*)) = — /о М//о (*)• Значение функции влияния
в точке х = F-] (t) вычислим так:
/с(/-'@; F. г)-
-2L ^Vt—
\ У (F (х)) f (х) dx J Г (s) f (F (s)) ds
Поскольку J'(t) = 0 вне интервала (Fq(xo),Fo(x\)) и на этом
интервале f (F"I(O)>fo(^"(O)>/o(^o"l(OX заключаем: при
t > 1/2 выполняется неравенство IC(F~ (t); F, T)^IC{Fq {t)\
Fo, T). Таким образом, как и выше, A(F\T) ^Л(/70;Г)> что
доказывает свойство минимаксности.
Пример 7.1. В случае е-загрязненного нормального
распределения минимизирующее информацию распределение Fo
определяется формулами E.20) и E.21) и все перечисленные ниже
оценки асимптотически минимаксны:
A) М-оценка с функцией -ф, определенной формулой E.22),
B) а-урезанное среднее с а = Fo (—k) = A — е) Ф (—k) + е/2,
C) /?-оценка, определяемая функцией /(/), с помощью
которой получаются веса, вида / (/) = *ф (Fq] (t))9 т. е.
— k при
при / ^ 1 — а.
4.8. СНИЖЕННЫЕ М-ОЦЕНКИ
Нами уже отмечалось, что распределения, минимизирующие
информацию, имеют хвосты экспоненциального типа, т. е. хвосты
могут оказаться тоньше (!), чем следовало бы ожидать на
практике. Поэтому, возможно, имеет смысл немного увеличить
максимальный риск сверх его максимального значения для того,
чтобы улучшить характеристики оценки на распределениях с
очень длинными хвостами.
4.8. СНИЖЕННЫЕ М-ОЦЕНКИ Ю5
Этого можно достичь следующим образом. Рассмотрим
М-оценку и минимизируем максимальную асимптотическую
дисперсию при условии
q(x)=0 при \х\>с9 (8.1)
где величина с может быть выбрана произвольно.
Маиантснт
Хэмпет'
Зидрюаа
Гьнж
Рис. 4.8.1.
Для е-загрязненного нормального распределения решение
имеет следующий вид:
{—ФС— х) = х при 0<л:<а,
6 th [A/2) Ъ (с — х)] при а<л:<с, (8.2)
О при х^с,
см. рис. 4.8.1. Величины а и 6, разумеется, зависят от е.
Полученная таким образом оценка есть оценка
максимального правдоподобия, основанная на усеченной выборке для
106 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
ПЛОТНОСТИ
{Ы—*) = A—е)<р(*) при
сЬЧ^Жс^а)]0112^1/2)^^^ приа<^<с,(8.3)
A ~е)ф(л:) при х^с.
Заметим, что эта плотность имеет разрывы в точках ±с. Для
того чтобы интеграл /о был равен единице, следует положить
с
2\[fQ(x)-(l-e)<?(x)]dx = e; (8.4)
а
это дает первое соотношение между величинами е, а и Ь\ второе
соотношение дает условие непрерывности функции -ф в точке а:
a = bth[(l/2)b(c — a)]. (8.5)
Полученное решение может быть найдено, по существу, теми
же вариационными методами, что использовались в § 4.5; для
заданного распределения F наилучшим выбором функции 1|з
служит следующий:
-/'(*)//(*) при \х\<с,
(8,6)
в остальных случаях.
щ
Соответствующая асимптотическая дисперсия равна \/Ic{F)t
где
\FdF, (8.7)
ср. с § 6.3. Теперь минимизируем_/сОР)^из условий
вариационной задачи вытекает, что — 4 (V/o)///V/o = const на множестве,
где /0(л:)>A—е)ф(я), и что i|>Fo(± с) = 0. Это приводит к
соотношениям (8.2) — (8.5), и остается лишь проверить, что
действительно получено решение. Подробно этот подход изложен
в работе Коллинза A976).
На рис. 4.8.2 приведены некоторые численные результаты.
В последней колонке приводится значение максимального риска
\/Ic{Fq). Как видно, выбор с^Ъ увеличивает риск по
сравнению с его минимаксным значением (с = оо) лишь в
незначительной мере, в то время как выбор с ^ 3 чреват весьма
печальными последствиями. Иными словами, оказывается, что
функции if» сниженных М-оценок гораздо более чувствительны
к неверному масштабированию, нежели их монотонные версии.
Реальное поведение такого рода оценок, по всей видимости,
не слишком сильно зависит от небольших отклонений графику
4.8. СНИЖЕННЫЕ М-ОЦЕНКИ \Q7
€«0.01
€«0.05
€*0Л0
г «0.25
с
2
3
4
5
00
2
3
4
5
00
2
3
4
5
00
2
3
4
5
00
ь
2.747
2.451
2.123
1.991
1.945
1.714
1.693
1,550
1.461
1.399
1.307
1.376
1.289
U17
1Л40
0.692
0.912
0.905
0.865
0.766
а
1.539
2.032
2.055
1.982
1.945
1.105
1.460
1.488
1.445
1.399
0.838
1.171
1.220
1.194
1.140
0.356
0.711
0.810
0.820
0.766
l/UF0)
1.727
1.166
1.082
1.068
1.065
2.640
1.503-
1.314
1.271
1.256
4.129
1*963
1.621
1.532
1.490
21.741
4.575
3.089
2.683
2.397
Рис. 4.8.2. Минимаксные сниженные М-оценки (см. (8.2) и (8.3)).
функции г|) от приведенного варианта. В качестве других
версий функций г|) сниженных М-оценок служат кусочно линейная
функция Хэмпела
х при 0^х^.а,
а при а<л: <6,
(8.8)
Щ
(8.10)
sin х при — я^лг^я,
О для остальных х
синусоида Эндрюса
и бивес Тьюки
( х(\ —х2J для
*ф (х) = <
(О для остальных х.
Ср. с монографией Эндрюса и др. A972), см. также рис. 4.8.L
Ш Ш- Ь
При выборе того или иного варианта функции г|э следует
иметь в виду, что она не должна снижаться слишком круто; если
загрязнение попадет в область спусков, то это может привести
к весьма плачевным изменениям знаменателя в выражении для
асимптотической дисперсии
A(F; T) = \tfdF/(\VdF)\
К особенно пагубным последствиям приводит, в частности,
сочетание больших по модулю отрицательных значений i|/(x) с
большими положительными значениями i|J(x) в то время, как
рроло х образовался кластер резко выделяющихся значений,
(Некоторые пользуются очень рискованным вариантом оценки
Хэмпела, выбирая слишком крутые спуски между точками b и с
в своих вычислительных программах).
Предостережение. По мнению автора, встречающееся подчас
мнение о важности использования сниженных функций г|)
преувеличено сверх всякой меры. Действительно, получающиеся
оценки приносят определенную пользу в присутствии очень рез-
jco выделяющихся наблюдений, но улучшение здесь относительно
невелико (несколько процентов асимптотической дисперсии) и
оплачено ценой возрастания минимаксного риска. Если на
самом деле важны эти несколько процентов потенциального
улучшения, то использование программы с плохо подобранной
функцией \|) представляется более рискованным и менее
эффективным, чем удаление «невозможных» данных тщательным
просеиванием данных на основе физических условий. Укажем здесь,
в частности, на возрастание чувствительности при
неправильном масштабе. Если не принять мер предосторожности, то
возможно неверное определение локального минимума суммы
? P(xi ~~Тп). Особенно остро этот вопрос стоит в задачах
многопараметрической регрессии.
4.9. О ЗАГРЯЗНЕНИИ, ОБУСЛОВЛЕННОМ АСИММЕТРИЕЙ
В предыдущих, параграфах оценки, минимизирующие
максимальную асимптотическую дисперсию, определялись лишь по
некоторому подмножеству множества & = {Рв. Именно,
рассматривались только симметричные распределения F или, в
несколько более общей постановке, только те распределения F из
&*> у которых смещение для выбранной оценки равнялось нулю:
Г(/7)=0. Теперь изучим поведение этих оценок на оставшейся
части множества &е.
Необходимо получить ответы на два вопроса.
4.9. О ЗАГРЯЗНЕНИИ, ОБУСЛОВЛЕННОМ АСИММЕТРИЕЙ Щ
A) Как велико максимальное асимптотическое смещение
Ь(г) на ^е и насколько оно больше смещения медианы
(которая, согласно результату § 4.2, минимаксна)?
B) Как велика максимальная асимптотическая дисперсия
уа(е) для F, пробегающего все множество ^8, и насколько она
велика по сравнению с максимальной асимптотической
дисперсией vs{&), полученной для более узкого множества
распределений F из 9*г> составленного только симметричными
распределениями F?
« 0 0.01 0.02 0.05 0.1 0.15 0.2 0.25 0.3 0.4 0.5
0.01 2.37 2.71- оооооооооооооооооо
0.02 2.14 2.26 2.51 оооооооооообоооо*
0.05 1.83 1.88 1.94 2.27 оо оо оо ©о оо оо оо.
0.1 1.60 1.63 1.66 1.78 2.13 оо оо оо оо оо оо
0.15 1.48 1.50 1.53 1.60 1.77 2.10 оо 66 оо оо оо
0.2 1.40 1.42 1.44 1.50 1.63 1.8Q 2.12 *оо. ^ оо оо
0.25 1.35 1.37 i.38 1.44 ISA 1.67 U5 2.18 oq «oo оо
0.3 1.31 Д.33 1.34 1.39. 1.48 1.59 1.73 1.Й 2.29 оо оо
0.4 1.26 1.28 1.29 1.33 1.41 1.51 1.62 1.7tf 1.95 2.73 оо
0.5 1.25 Г.26 1.28 1.32 1.39 1.48 1.59 1.72 1.89 2.42 оо
Рис. 4.9.1. Максимальные смещения а-урезанных средних для е-загрязненных
нормальных распределений (затабулировано отношение Ь(г)/е).
Как показывают результаты § 3.2—3.4, касающиеся
пороговых свойств оценок, большую, нежели М- и /J-оценки,
чувствительность к асимметрии распределения проявляют L-оценки.
Поэтому ограничимся рассмотрением лишь а-урезанных средних и
е-загрязненных нормальных распределений.
Имеем для малых е (см. A.5.8))
Ь (е) ~ е sup| 1С (х; Ф, Т)\. (9Л)
X
Поэтому представлйется разумным затабулировать значения от*
ношения 6(е)/е, поскольку для него получается не слишком
большой разброс табличных величин, отличных от оо; см.
рис. 4.9.1. Нижняя строка таблицы (а = 0.5) соответствует
медиане.
Таблица на рис. 4.9.2 характеризует асимптотические
дисперсии. В ней затабулированы величины vs(&) и va(z)/vs(&) (см.
вопрос B) выше).
Для а-урезанного среднего асимптотические смещение и
дисперсия достигают своих максимальных значений, надо полагать,
110 ГЛ. 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
в том случае, когда вся масса е загрязнения целиком
сосредоточена в + оо. Для смещения это утверждение тривиально, а
для дисперсии в высшей степени правдоподобно (но до сих пор
не имеет доказательства). Вычисления таблиц на рис. 4.9.1 и
а
0.01
0.02
0.05
0.1
0.15
0.2
0.25
0.3
0.4
0.5
0
1:004
1
1.009
1
1.027
1
1.061
1
1.100
1
1.144
1
1.195
1
1.252
1
1.393
1
1.571
1
0.01
1.08
00
1.07
1.0065
1.07
1.0017
1.09
1.0007
1.13
1.0004
1.17
1.0003
1.22
1.0003
1.28
1.0002
1.42
1.0002
1.60
1.0002
0.02
00
00
1.14
00
1.12
1.0084
1.13
1.0031
1.16
1.0019
1.20
1.0013
1.25
1.0010
1.31
1.0009
1.45
1.0007
1.64
1.0007
0.05
00
00
00-
00
1.30
00
1.26
1.027
1.27
1.014
1.30
1.010
1.35
1.007
1.40
1.006
1.55
1.005
1.74
1.004
е
0.1
00
00
00
00
00
00
1.54
00
1.49
1.08
1.50
1.05
1.53
1.04
1.58
1.03
1.73
1.02
1.94
1.02
0.15
00
00
00
00
00
00
2.03
00
1.80
00
1.75
1.18
1.76
1.11
1.79
1.08
1.94
1.06
2.17
1.05
0.2
00
00
00
00
00
00
00
00
2.25
00
2.08
00
2.05
1.29
2.06
1.18
2.20
1.12
2.45
1.11
0.25
00
00
00
00
00
оо
00
00
3.07
00
2.56
00
2.42
00
2.40
1.45
2.51
1.24
2.79
1.20
0.3
00
00
00
00
00
00
оо -
00
00
00
3.28
00
2.93
00
2.83
00
2.90
1.47
3.21
1.38
•0.4
00
00
00
00
00
00
00
00
00
00
00
00
4.81
00
4.20
00
4.01
00
4.36
2.55
0.5
00
00
00
00
00
00
00
00
оо
00
00
00
00
00
7.26
00
5.94
00
6.28
00
Минимаксная
граница ьооо 1.065
1.116 1.256 1.490 1.748 2.046 2.397 2.822 3.996 5.928
Рис. 4.9.2. Максимальные дисперсии а-урезанных средних е-загрязненных
нормальных распределений в симметричном и несимметричном случаях (за-
табулированы величины vs (e) и va (e)/vs (e)).
4.9.2 доставляют, между прочим, поучительный пример
использования некоторых формул, полученных в § 3.3.
Особых комментариев заслуживают следующие характерные
особенности таблиц. Отношение Ь(г)/& увеличивается с ростом
е очень медленно и в действительности остается ограниченным
справа вплоть до пороговой точки.
При малых е избыток асимптотической дисперсии va по
отношению к асимптотической дисперсии vs пренебрежимо мал
4.9. О ЗАГРЯЗНЕНИИ, ОБУСЛОВЛЕННОМ АСИММЕТРИЕЙ \\\
(и имеет порядок е2). Тем самым апостериори оправдано
стремление при минимизации асимптотических дисперсий
ограничиваться рассмотрением симметричных распределений. В то же
время для больших е расхождение становится ощутимее.
Возьмем е = 0.2 и 25 %-ное урезанное среднее, асимптотическая
дисперсия которого для симметричного загрязнения очень близка
к минимаксной границе для vs; получим va/vs= 1.29.
Таблицы на рис. 4.9.1 и 4.9.2 помогают также уяснить, как
выявляются две пороговые точки е* и е**, определенные в
§ 1.4: Ь(г) = оо при е > е* = а и vs(e>) = оо при е ^ е** = 2а.
ГЛАВА 5
Оценки масштаба
6.1. ОБЩИЕ ЗАМЕЧАНИЯ
Оценкой масштаба мы называем всякую положительную
статистику Sn, для которой при преобразовании масштаба с
параметром а > 0 имеет место равенство
Sn(axu .-> axn) = aSn(xu ..•, хп), A.1)
т. е. при а > 0 статистика Sn есть однородная функция первой
степени относительно всех своих аргументов. Многие оценки
масштаба являются также инвариантными относительно
сдвигов и перемены знака:
SniXi + b, ..., xn + b) = Sn(xu ..., хп\ A.2)
Sa(-xu ..., -xJ = Sn{xu ..., хп). A.3)
Задачи оценки масштаба в чистом виде возникают редко.
На практике параметр масштаба обычно выступает в роли
мешающего параметра в задачах оценивания сдвига или в более
общих регрессионных задачах. Поэтому мы должны направить
исследование свойств подчиненных оценок масштаба в русло
самодовлеющих задач оценки сдвига. Например, для нас
представляется неприемлемым положение, при котором хорошие
пороговые свойства оценки сдвига оплачены ценой низкой
пороговой точки оценки масштаба. По тесно связанным с этим
причинам оказывается, что значительно важнее удержать малое
смещение оценки масштаба, нежели добиться уменьшения
(асимптотической) дисперсии.
Изложенные соображения, требующие построения
вспомогательной оценки масштаба, выделяют в качестве таковой
единственную и крайне полезную величину — так называемое
абсолютное медианное отклонение (АМО). Эта величина
определяется как медиана абсолютных отклонений от медианы:
где Mn = med{xi). Для симметричных распределений эта
величина асимптотически эквивалентна половине интерквартиль-
щ)го размаха. В то же время при е-загрязнении величина A.4)
8.1. ОБЩИЕ ЗАМЕЧАНИЯ ИЗ
обладает лучшими пороговыми свойствами (е* = 0.5 против
е* = 0.25 для интерквартильного размаха).
Отметим, что такая картина вступает в противоречие с
широко распространенным мнением, согласно которому в задачах
оценки масштаба следует большее внимание уделять хвостам и,
значит, следует использовать более низкие уровни удаления или
урезания, поскольку основная информация о масштабе
содержится в хвостах. Да, с таким рецептам можно согласиться, если
речь идет о задаче оценки масштаба, поставленной в чистом
виде. Но если масштаб играет роль только мешающего
параметра, то дело обстоит иначе.
Задачи оценки масштаба, поставленные в чистом виде,
служат ступенью на пути к более сложным задачам оценивания.
Кроме того, они имеют превосходную особенность —
логарифмированием их можно свести к задачам оценки сдвига, что
позволяет в свою очередь пользоваться методами, рассмотренными
в предыдущих главах. Правда, получающиеся в результате
такого преобразования распределения оказываются крайне
асимметричными, и для них естественный масштаб
(соответствующий центру симметрии) отсутствует. В большинстве случаев
оценки удобно нормировать таким образом, чтобы они были
состоятельны для идеального распределения, принятого в
модели (см. замечания в конце пункта из § 1.2, где шла речь о
связи робастности, непараметрических процедур и свободных от
распределения критериев). Например, для того чтобы оценка
АМО стала для нормального распределения состоятельной, ее
следует поделить на величину ф-1 C/4)^ 0.6745.
Изложение в этой главе близко к изложению двух предыду*
щих глав и ведется параллельно им; мы вновь сосредоточим
внимание на оценках, представляющих собой функционалы от
эмпирической функции распределения, Sn = S(Fn), и вновь
воспользуемся эвристическим подходом, основанным на изучении
функций влияния.
Поскольку асимптотическая дисперсия величины <\/n[S(Fn)—
•— S{F)] зависит от произвольно выбираемой нормировки
оценки S, ее нужно заменить более пригодной характеристикой
асимптотических свойств. Выберем относительную
асимптотическую дисперсию оценки S, т. е. асимптотическую дисперсию
^g^- A.5)
величины
При оценивании изменчивости заданной оценки возникает
другая важная задача типа задачи оценки масштаба. На
114 ГЛ. 5. ОЦЕНКИ МАСШТАБА
вопросе мы уже кратко останавливались в § 1.5. В классической
теории нормального оценивания оба затронутых случая
зачастую не различают — в конечном счете классические оценки
стандартной ошибки отдельного наблюдения и выборочного
среднего ничем иным, кроме множителя Уя, не отличаются, —
но мы должны между ними проводить четкую границу.
Обсуждение такого рода задач отложим до конца гл. 6.
5.2. Л1-ОЦЕНКИ МАСШТАБА
М-оценка S масштаба определяется неявным образом как
решение уравнения вида
)idx)==0' Bл)
Как правило (но необязательно), % есть четная функция:
Х(—х) = %(*)•
По формуле C.2.13) получим выражение для функции
влияния:
1С (х; F, S)
Пример 2.1. Оценка максимального правдоподобия
параметра а масштаба семейства плотностей o^f(x/a) есть М-оценка,
у которой
]-l. B.3)
Пример 2.2. Хьюбером A964) предложен следующий
вариант выбора функции %: для некоторой постоянной величины k
-р при |*|<*.
-p прн|х|>*.
где параметр р определяется таким образом, чтобы 5(Ф)= 1,
т.е. \%{x)O(dx) = 0.
Пример 2.3. Выбор
-l) B.5)
приводит к абсолютному медианному отклонению S = med (| X \),
т. е. к такой величине S, что F(S)—F(—S)= 1/2. (Строго
говоря, это есть абсолютное медианное отклонение от 0, которое
следует отличать от абсолютного медианного отклонения от
медианы.)
5.3. L-ОЦЕНКИ МАСШТАБА Ц5
Как свойства непрерывности, так и пороговые свойства
можно получить тем же способом, что и в случае параметра сдвига,
рассмотренном в § 3.2, хотя все рассуждения несколько
усложнятся. Поэтому мы ограничимся лишь тем, что покажем, как
можно получить пороговую точку при е-загрязнении.
Предположим, что % есть четная функция, монотонно
возрастающая при положительных значениях аргумента. Пусть
11x11= х(°°) — %@)« Запишем определение B.1) в виде
S Iх Ып) -%@)]F{dx) + * <°) = °-
Нетрудно убедиться, что в условиях модели больших
ошибок загрязнение е > — %@)/||%||, сосредоточенное в точках
|х|=оо, приводит к тому, что левая часть B.6) оказывается
больше нуля при всех значениях S(F). Аналогично, загрязнение
в > 1 +х(О)/Их11| сосредоточенное в нуле, приводит к тому, что
левая часть B.6) оказывается при всех значениях S(F) меньше
нуля. (Так как в наиболее интересных случаях выполняются
неравенства 0 < —-х(О)/11x11 ^ 1/2, то, как правило, вторую
возможность позволительно игнорировать) С другой стороны, если
для е выполняются строгие противоположные неравенства, то
решение S(F) уравнения B.6) отделено от 0 и оо.
Таким образом, заключаем, что для е-загрязнения (а также
для расстояния Прохорова) пороговую точку дает соотношение
в* = -Х@)/Их11<1/2. B.7)
В случае расстояний Колмогорова и Леви эту величину нужно
уменьшить вдвое:
е* = -х@)/211х11<0.25. B.8)
Причина столь большого различия результатов кроется в
следующем. Если взять массу е из центральной части
распределения F и разнести ее половины в крайние левую и правую
точки прямой, то получится распределение, расстояние от которого
до исходного в метрике Прохорова будет равно е, а в метрике
Леви— лишь е/2.
5.3. L-ОЦЕНКИ МАСШТАБА
Для изучения L-оценок масштаба здесь применяются
полученные в § 3.3 общие результаты, которые в данном контексте
не требуют заметной перенастройки. В силу свойства A.1)
инвариантности относительно преобразования масштаба оказы-
116 ГЛ. 5. ОЦЕНКИ МАСШТАБА
ваются возможными только следующие типы функционалов:
S(F) = [J (F (t))q M(dt)fq с целым q Ф О, C.1)
S (F) = [J | F~l (/) ГМ (dt)]Uq с вещественным д Ф 0, C.2)
гдеМ{@, 1)} = 1. C.3)
Мы встречаемся как с оценками первого типа (интерквантиль-
ный размах, урезанная дисперсия), так и с оценками второго
типа (медианное отклонение), однако в тех примерах, что
последуют ниже, мы ограничимся лишь типом C.1).
Взяв в качестве исходного выражение C.3.11), по правилу
дифференцирования сложной функции получим следующее
предоставление для функции влияния:
Если распределение М имеет плотность т, то
?lC(x; F, S)=-?^m(F(x)). C.5)
Пример 3.1. Для l-квантильного размаха
C.6)
функция влияния имеет вид
IC(x;F, S) =
-iT-r-c(F) при х <F-1(t),
f О7'1 (<))
-c(F) при F-1(O<Ar<F-'(l —/), C.7)
—TL—
6.3. L-ОЦЕНКИ МАСЦ|ТА|& ЦТ
Если F есть симметричное распределение, то выражение для
функции влияния несколько упрощается:
lC(x;F,S) =
1 ~ЧпТпри *< F~*w или *> F~l (I ~ ь
, , C-9)
При этом асимптотическая дисперсия величины
— S(F)] дается формулой
(ЗЛ0)
щ асимптотическая дисперсия величины ^nlog[S(Fn)/S(F)] —
формулой
Некоторые численные значения приведены на рис. 5.7.3.
Например, в случае интерквартильного размаха (t = 0.25) асимпто-»
тическая дисперсия А (Ф; log 5)= 1.361; в этом случае
асимптотическая относительная эффективность (по отношению к
стандартному отклонению) равна 0.5/1.361 = 0.3674. То же
справедливо для АМО.
Пример 3.2. Так называемая а-урезанная дисперсия
определяется как соответствующим образом нормированная дисперсия
а-урезанной выборки:
\Y C.12)
Нормирующий множитель выбирается так, чтобы выполнялось
равенство 5(Ф) = 1, т. е.
1 с1
-^ - ) *2Ф (х) dx - 1 - 2a - 2?Ф О, C.13)
где | = ф-1 A—а). Согласно соотношению C.5), для функции
влияния a-урезанной дисперсии выполняются равенства
при остальных х,
118 ГЛ. 5. ОЦЕНКИ МАСШТАБА
поэтому
IC(x;F9S) =
1 (а)J - с (F)] при х < F~l (а),
"с(/7I при F~lW<x<F"'<! -а>>
-0pylKf A-а))--с(П\ при
C.14)
где
(l-*))*] C.15)
F (a)
есть а-винзоризованная дисперсия.
Пример 3.3. Введем функционал
ll C.16)
где множитель у (а) — тот же, что и в формуле C.13). Для этого
функционала функция влияния получается интегрированием
уравнения
/C(*;F.S)-f при e<F(*)<l-«, (ЗЛ7)
пх 10 при остальных х.
Все рассмотренные выше функционалы имеют также сим-
метризованные версии 5, которые получаются следующим
образом. Положим
C.18)
l C.19)
Говорят, что распределение F получено симметризацией
исходного распределения F относительно нуля (симметризацию
можно проводить и иначе — относительно медианы и т. д.). Симмет-
ризованную версию 5 определим равенством
S(F) = S(F). C.20)
Нетрудно установить, что
/С(х; F, S) = A/2) [1С(х- F, S) + /C(-*; F,S)]. C.2I)
Таким образом, если S — симметричный функционал (т. е.
S(F) = S(F) для всех F) и если истинное предполагаемое рас-
5.4. Д-ОЦЕНКИ МАСШТАБА Ц9
пределение F симметрично (F = F), то имеет место равенство
S(F) = S(F)9 а, значит, 5 и 5 имеют одну и ту же функцию
влияния для F. Следовательно, для симметричных
распределений F асимптотические свойства функционалов одинаковы.
Поведение симметризованных и несимметризованных оценок
на несимметричных распределениях F (а также на малых
выборках для симметричных истинных распределений) совершенно
различно. Это хорошо заметно, в частности, при сравнении
пороговых свойств таких оценок. Для примера рассмотрим оценку
вида C.1) с мерой М, которая либо положительна (если q —
четное число), либо положительна на интервале [1/2, 1] и
отрицательна на интервале [0, 1/2] (если q— нечетное число).
Пусть а — такое наибольшее вещественное число, что интервал
[а, 1—а] целиком содержит носитель меры М. Тогда, согласно
теореме 3.3.1 и замечаниям, предшествующим ей, пороговая
точка е* для несимметризованной оценки оказывается равной а
(для е-окрестностей загрязнения, полной вариации, расстояний
Прохорова, Леви и Колмогорова).
В случае симметризованной версии для расстояний Леви и
Колмогорова пороговая точка 8* остается равной а, но для
окрестностей остальных трех типов она увеличивается вдвое:
е* = 2а. Этот факт говорит в пользу выбора симметричных
оценок масштаба.
Пример 3.4. Пусть 5 есть половина интерквартильного
размаха: S{F) = (l/2)[F'lC/4) — F-l(l/4)]. Тогда симметризован-
йая версия 3 есть абсолютное медианное отклонение (см.
пример 2.3).
5.4. Я-ОЦЕНКИ МАСШТАБА
Ранговые критерии для масштаба дают возможность
определять относительный масштаб двух или более выборок;
позволявшую рассматривать одновыборочные ранговые критерии и
оценки сдвига лево-правую симметрию в данном случае заменить
нечем (впрочем, синтезируя вторую выборку, для масштаба
можно получить некоторые одновыборочные ранговые критерии
и оценки; например, с этой целью используются усредненные
порядковые статистики для нормального распределения).
Ограничимся здесь лишь беглым знакомством с возможным
подходом, чего будет вполне достаточно.
Пусть (хи ..., Xw) и (уи ..., уп) суть две выборки, /?, есть
ранг наблюдения хь в объединенной выборке объема N = т + п.
Рассмотрим ту же, что и в § 3.4, статистику критерия:
120 ГЛ. б. ОЦЕНКИ МАСШТАБА
где весовые коэффициенты в/ = а({) получаются при помощи
некоторой функции / по формуле
ifN
J J(s)ds. D.2)
Обычно в качестве весовой функции берут функцию от \t— 1/21,
например:
J(t) = 11 — 1/21 — 1/4 (Энсери — Брэдли — Сигель — Тьюки),
D.3)
= ^-1/2J-1/12 (Муд), D.4)
-1 (Клотц). D.5)
Теперь обратимся к оценкам относительного масштаба,
возникающим для критериев такого типа. Зафиксируем некоторое
число X, 0<Я,<1 (позднее мы будем выбирать X = m/N)t и
определим функционал S = S(F> G) таким образом, чтобы
выполнялось равенство
\l[xF(x) + (l-k)Q (-I-)] F (dx) = 0 D.6)
или более удобное равенство (получающееся после подстановки
0. D.7)
Если предположить, что \/(/)d/ = 0, то функционал
S(/7, G) в том случае, когда он определен равенством D.7)
корректно, оказывается показателем относительного масштаба, об-»
ладающим свойством
D.8),
где Fax есть распределение случайной величины аХ.
Подставим в левую часть D.7) вместо F и G распределения
Fu = A — и) F + uF\ и Gu = A — и) G + uG\ и возьмем произ*
водную по и в точке м = 0. Если F = G, то получаем довольно
простое выражение для производной:
- - ( / (F (х)) Л (Л) -{ / (F (х)) G, (rfx)
4-S(Fe> Gu)] -J = * . D.9)
Полученная формула D.9) дает, таким образом, производные
по Гато в точках F и G при F = G.
Если обе выборки получены с одним и тем же распределе*
цием Z7, то при подстановке эмпирических распределений Fm
8.5. АСИМПТОТИЧЕСКИ ЭФФЕКТИВНЫЕ ОЦЕНКИ МАСШТАБА 121
и Gn вместо распределений соответственно F\ и G\ получится
разложение Тейлора (и = 1)
S(Fm,Gn)=l+S +..., D.10)
которое приводит к приближенному равенству
. D.11)
Можно, таким образом, ожидать, что величина D.11)
распределена асимптотически нормальна со средним 0 и дисперсией
[p(t)dt
D.12)
Этот факт должен иметь место, если тип стремятся к оо срав*
нительно быстро; если т/п-+0, то величина ^/m [S(Fm, Gn) — 1]
имеет асимптотически нормальное распределение с дисперсией
D.12), в которой множитель 1ДA—X) заменен единицей.
Все приведенные выше соображения и выкладки носят
эвристический характер; строгое построение доказательств выводов
требует обращения к обширной литературе, посвященной
поведению ранговых критериев при альтернативах, в частности к
работам Гаека A968) и Гаека и Дупача A969). Содержащиеся в
этих работах результаты дают возможность довольно простым
способом перейти от свойств критериев к свойствам оценок;
ср. с § 10.6.
5.5. АСИМПТОТИЧЕСКИ ЭФФЕКТИВНЫЕ ОЦЕНКИ МАСШТАБА
В задачах оценивания масштаба, поставленных в чистом
виде, требуется построение оценки параметра а для
параметрического семейства плотностей
р(*;а) = A/а)/(*/о), <т>0. E.1),
Поскольку
для информации Фишера имеем
J[^*»T/w*f <5-3>
122 ГЛ. 5 ОЦЕНКИ МАСШТАБА
Без ограничения общности можно полагать, что истинное
значение параметра масштаба равно единице: а=1. Для того
чтобы оценка была асимптотически эффективной для F,
очевидно, должно выполняться (см. § 3.5) равенство
E.4)
Поэтому для М-оценок, определяемых соотношением B.1),
асимптотическую эффективность обеспечивает следующий выбор
функции х (с точностью до постоянного множителя):
-1. E.5)
Для L-оценок типа C.1) необходимо, чтобы мера М имела
плотность т, удовлетворяющую соотношению
f+1. E.6)
Для /?-оценок относительного масштаба необходимо, чтобы
(с точностью до постоянного множителя) выполнялось
соотношение
J(F(x))=-[r{x)/f(x)]x-l. E.7)
Пример 5.1. Пусть f(x) — <f)(x) есть плотность стандартного
нормального распределения. В этом случае асимптотически
эффективной М-оценкой служит, разумеется, оценка S2(Fn) —
= (l/n)Zxl
Эффективная L-оценка при q = 2 имеет такой же вид. В
случае q=\ имеем: т(/) = Ф"!@ и> значит, S(F)=J F (ОФ {t)dt;
ctiXah где аь = \ Ф (/) dt.
Эффективная 7?-оценка получается для J(t) из критерия
Клотца (см. D.5)).
5.6. РАСПРЕДЕЛЕНИЯ, МИНИМИЗИРУЮЩИЕ ИНФОРМАЦИЮ
ФИШЕРА ДЛЯ ПАРАМЕТРА МАСШТАБА
Пусть 9* есть такое выпуклое множество функций
распределения, что вместе с каждым Fg^b множество 9* входят также
зеркальное отражение F распределения F и симметризация F
распределения F (см. C.19) и C.20)). Предположим, что все
наблюдения Xi имеют одно и то же распределение F(x/o),
зависящее от параметра а, который следует оценить.
Отметим, что на любом параметрическом семействе плот*
ностей f(x;Q) информация Фишера выпукла: согласно лем*
5.6. РАСПРЕДЕЛЕНИЯ, МИНИМИЗИРУЮЩИЕ ИНФОРМАЦИЮ ФИШЕРА 123
ме 4.4.4, на любом интервале ft(x, 8) = A — t)fo(x, 0)+,
/,(*;8) dx <6Л>
есть выпуклая по t функция.
Очевидно, что F и F имеют одно и то же значение
информации Фишера для параметра масштаба, а это влечет за собой
неравенство I(F; a)^/(F; a)=/(F; a). Следовательно, решая
задачу минимизации информации Фишера для масштаба,
достаточно ограничиться симметричными распределениями F.
В этом случае величина Yi = log\Xi\ служит достаточной
статистикой для Xi\ ее функция распределения имеет вид
ey), F.2)
T=-loga. F.3)
Соответствующая плотность имеет вид
F.4)
Заметим, что информация Фишера для параметра
масштаба a
; o) = ±-\[~x[f'(x)/f(x)]-~l]>f(x)dx F.5)
совпадает с точностью до множителя I/a2 с информацией
Фишера для сдвига т:
=\[fc log f*(y
= J [-* [Г (*)//(*)] - l?f(x)dx. F.6)
Таким образом, задача минимизации информации I(F*;%)
эквивалентна задаче минимизации информации o2I(F\o)\ по
причине инвариантности относительно масштаба мы должны отдать
предпочтение последнему выражению перед I{F\ о).
Кроме того, если множество 9 распределений выпукло, то
множество &* = {F*\F&!?} преобразованных распределений
также выпукло, причем к множеству &* применимы методы и
результаты § 4.4 и § 4.5. В частности, е-окрестность загрязнения
для F преобразуется в е-окрестность загрязнения для F*y так
что модель больших ошибок переносится безо всяких
изменений. Для окрестностей других типов требуется несколько более
осторожный подход,
124 ГЛ. б. ОЦЕНКИ МАСШТАБА
Мы рассмотрим лишь случай е-загрязнения для нормального
распределения. Пусть ф есть плотность стандартного
нормального распределения. Тогда
Vi Fл)
следовательно,
—1о&Ф^(г/) = A/2)^ —г/ + A/2Iоё(я/2) F.8)
есть выпуклая функция, причем ее производная монотонна:
[-logcp*(</)]' = ^-l. F.9)
Теперь, используя результат, полученный в примере 4.5.2,
покажем, как найти распределение, минимизирующее
информацию Фишера. Рассмотрим два случая.
Случай А. Значение г велико. Определим два числа уо ^ у\
из равенств
#у* _!=_?, #ы _ 1 = ?, F.10)
где величина k < 1 связана с е соотношением
F.ц)
Тогда элемент множества ^*, на котором информация Фишера
достигает минимума, имеет плотность
(l-e)<p*(t/o)e*<»-*> при у<у0,
О-е)ф-(У) при Уо<У<У» F.12)
1-в)ф'(у,)в-*»-'"> при у>ух.
Если теперь совершить обратный переход к переменному х, то
соотношения F.10)—F.12) превратятся в следующие:
xl = (l-k)+, ^i = l +k, F.13)
2 Гф^)^+2^ОФ(ДСОJ+2ДС1Ф(Ж')= L-. F.14)
/о(*) =
при |*|<*о,
при х0<\х|<д:,, F.15)
1 при
Случай Б. Малое е. В этом случае крайняя левая точка уо
равна — <?о и соответственно jcq = 0. Больше ничего не. мецяется,
5.6. РАСПРЕДЕЛЕНИЯ, МИНИМИЗИРУЮЩИЕ ИНФОРМАЦИЮ ФИШЕРА 125
и формулы F.13) —F.15) остаются справедливыми в том же
виде (с k ^s 1).
Заметим, что в случае А возникает в высшей степени
причудливое распределение Fo, минимизирующее информацию
Фишера — его плотность равна оо в точке х = 0. В случае Б
распределение Fo в центре соответствует нормальному распределению, а
на хвостах ведет себя подобно /-распределению с k =х\ — 1 > 1
8
0
0.001
0.002
0.005
0.01
0.02
0.05
0.1
0.15
0.20
0.205
0.25
0.30
0.40
0.50
0.65
0.80
1
*о
0
0
0
0
0
J0
0
0
0
0
0
0.35
0.45
0.60-
0.70
0.81
0.90
1
*1
со
2.88
2.70
2.4$
2.27
2.07
1.81
1.62
1.50
1.42
1.414
1.37
1.34
1.28
1.23
1.16
1.09
1
Ж-*о)
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.388
0.357
0.313
0.299
0.267
0.255
6.25
0
0.002
0.004
0.009
О.016
0.029
0.059
0.098
.0/132
0.162
0.165
0.182.
0.192
0.210
0.223
0.237
0.246
0.25
№*)
0.50
0.52
0.53
0.56
0.60
0.66
0.81
1.02
1.23
1.45
1.472
1.72
1.98
2.82
4.16.
8.72
28,6
Рис. 5.6.1. е-загрязненные нормальные распределения, минимизирующие
информацию для масштаба.
степенями свободы. Граничному между А и Б случаю отвечают
значения *0 = 0, хх = л/2 и 8 = 0.205. На рис. 5.6.1 приводятся
некоторые численные результаты.
Теперь определим асимптотически эффективные М- и L-оцен-
ки масштаба для этих распределений (см. § 5.5), дающих
минимум информации. Асимптотически эффективная М-оценка
масштаба, заданная B.1), определяется функцией % вида
xl~l при |*|<*0,
а:2—1 при *о<1*К*ь F.16)
х\ — 1 при | * | > *4.
— х
126 ГЛ. 5. ОЦЕНКИ МАСШТАБА
Эффективная L-оценка (тип C.1) с q = 2) подобна урезан-
ой дисперсии, причем в случае А урезание проводится и
ьиутри; весовая функция этой оценки имеет плотность
Г 2 при FoixoXtKFoixi)
m(t) = < ! (^ *) и при Fo (- ^)< / < FQ (- xQ), F.17)
(^ О в остальных случаях.
Как и в случае параметра сдвига, предельный случай е->1
приводит к интересной нетривиальной оценке — предельные М-
и L-оценки параметра т совпадали с медианой множества
{log|x*|}, поэтому соответствующая оценка параметра а есть
медиана множества {|*,-|}. Таким образом, абсолютное
медианное отклонение (см. A.4), примеры 2.3 и 3.4) может
претендовать называться «наиболее робастной оценкой масштаба».
Отметим, что обе оценки, полученные для функций F.16) и
F.17), для нормальных данных оказываются смещенными. Для
того чтобы удалить их асимптотические смещения на Ф,
следует поделить их на подходящие постоянные, а именно на 5(Ф)
(см. рис. 5.7.1—5.7.3, где эти постоянные приведены). К тому
же результату можно прийти для оценки, полученной для функ-
гии F.16), заменяя вычитаемую единицу таким числом |3, что
Е 0
5.7. МИНИМАКСНЫЕ СВОЙСТВА
Основные результаты, полученные в § 4.6, показывают, что
М-оценка, определенная в предыдущем параграфе, по
отношению к дисперсии обладает минимаксным свойством для
совокупности е-загрязненных нормальных распределений,
удовлетворяющих условию S(F) = 1, т. е.
) = 0. G Л)
Условие G.1) довольно ограничительно, особенно в случае Б,
когда Хо = 0 и х{ > ^2. Оно означает, что сравниваться могут
те и только те распределения F = A — е)Ф + еЯ, у который вся
масса загрязнения гН расположена вне отрезка [—х\9х\]. Для
всех таких распределений асимптотическое поведение
функционала S одно и то же: S{F) = S(F0) = 1, A(F; S) = A(F0; S) =
l/I(Fl)
/(
Можно ли избавиться от этого неудобного условия? Да,
можно, но лишь в частном случае достаточно малых е(е ^ 0.04,
а значит, Xi^l.88); интересный вопрос о том, каков точный
диапазон е,*при которых возможен утвердительный ответ, до сих
пор остается открытым»
6.7. МИНИМАКСНЫЕ СВОЙСТВА 12?
В своей основе возникающие при решении этого вопроса
затруднения восходят, разумеется, к тому способу, которым мы
определили асимптотическую потерю как A (F\ S)/S2(F).
Действительно, если внутрь отрезка [— х\, х\] извне внести какую-
то долю массы загрязнения, то уменьшатся и числитель, и
знаменатель, так что неясно, как поведет себя при этом
отношение—увеличится или уменьшится.
Учитывая выражение B.2) для функции влияния, получаем
SHF) _[\x'WS)(xfS)F«x)]2
1 ' \%*(x/S)F(dx)
при (определяющем функционал S) условии
\ %(¦§¦) F{dx)= 0, 7.3)
где
х2 — 1 при
х\ — 1 при | х | > х\ \
{
Нам следует показать, что распределение Fo минимизирует
отношение G.2) на всем множестве распределений 0>г = {F\F =
= A— е)Ф + е#, Яе1}, а не только на подмножестве тех
распределений F, что удовлетворяют условию G.1).
Сначала заметим, что подмножества множества ^8, на
которых функционал S(F) принимает заданные фиксированные
значения, выпуклы и что на каждом из них отношение G.2) есть
выпуклая функция F (по лемме 4.4.4).
Далее, на подмножестве, где функционал S(F) принимает
фиксированное значение, отношение G.2) минимизируется при
загрязнении еЯ, сосредоточенном на множестве {0}|J[—*i,*i]c.
Причина такого положения вещей на интуитивном уровне
очевидна: ведь при условии S(F) = const указанное расположение
загрязнения минимизирует числитель, максимизируя в то же
время дисперсию величины %(x/SO а значит, и знаменатель, так
как загрязнение оказывается в экстремальных значениях %
(заметим, что S(F)<1). Этому рассуждению нетрудно придать,
основываясь на вариационных методах, строгую форму (в силу
выпуклости достаточно знать локальные свойства); детали та*
кого уточнения оставляем читателю.
Теперь, применив удобную подстановку
Х(х) = г|J(*)-1, G.4)
128 ГЛ. б. ОЦЕНКИ МАСШТАБА
перепишем соотношения G.2) и G.3) в виде
S*(F)
Г J (*/S)»F(*O|
L-sxi J
(dx) = l. G.6)
Поскольку выражение G.5) достаточно минимизировать при
загрязнении, сосредоточенном на множестве {0} U [—*b*i]c,
предположим, что загрязнение привносит в {0} массу е — ei и в
отрезок [—*i,Xi]c массу ei. Это предположение приводит
соотношения G.5) и G.6) к виду
S2(F) _
A-8) J (JC/SJO(^)
G.7)
I Ф (dx) + e^xi — 1
о -e) S +1 (т)ф {dx)+*rf=l• G-8)
Теперь следует определить» при каких значениях е выбор ei = 8
минимизирует выражение G.7) при условии G.8).
Соотношение G.8) позволяет получить производную
функционала S по ei. При е ^ 0.04 находим (после некоторых
вычислений), что числитель и знаменатель G.7) имеют
отрицательную и положительную производные по ei соответственно,
причем такое положение сохраняется на всем диапазоне,
допустимом для S. Таким образом, при е < 0.04 минимум G.7)
достигается в точке ei = 8. При больших 8 ситуация становится
более запутанной, и нам неизвестно, остается ли при них
полученный результат справедливым.
Таблицы на рис. 5.7.1—5.7.3 дают возможность сравнить
асимптотические характеристики нескольких оценок масштаба
для нормального распределения, симметрично е-загрязненного
вблизи точек ± оо. Чтобы эти характеристики было сравнивать
проще, значения х\ в таблице на рис. 5.7.1 подбирались таким
образом, чтобы характеристики для нормального распределения
были согласованы с соответствующими характеристиками а-уре-
занного стандартного отклонения. Значения ешт в таблицах на
рис. 5.7.1 и 5.7.2 указывают, при каком распределении,
доставляющем минимум информации, оценка асимптотически
эффективна (ср. с рис. 5.6.1)»
а
2.370
@.01)
2.130
@.02)
1.804
@.05)
1.555
@.10)
1.414
@.149)
1.311
@.20)
1.234
@.25)
0.0069
0.016-
0.051
0.123
0.205
—
—
5(Ф)
0.982
0.964
0.912
0.824
0.736
0.642
0.547
i
0
1.000
0.530
1.000
0.557
1.000
0.640
1.000
0.796
1.000
0.989
1.000
1.257.
1.000
1.630
S(F)/1
0.005
1.013
0.566
о.ои
0.581
1.008
0.654
1.007
0.805
1.006
0.995
1.006.
1.262
1.006
1.633
>(Ф) а
0.01
1.027
0.605
1.022
0.607
1.017
0.668
1.014
0.813
1.013
1.001
1.012
1.266
1.011
1.637
A(F,\ogS)^m
¦е
0.02
1.056
0.697
1.046
0.665
1.035
0.698
1.028
0.831
1.025
1.014
1.024
1.276
1.022
1.645
0.05 0.10
1.163.
1.138 •:
1.128 ]
0.909 ]
1.094 1
0.810 ]
1.075
0.892
1.066
1.056 1
1.061
1.308
1.058
1.669
.458
5.677
1.323
1.854
.215
.110
1.165
1.031
1.144
1.146
1.131
1.372
1.124
1.718
0.15
2.361
38.14
1.690.
6.059
1.384
1.741
1.276
1.244
1.235
1.269
1.212
1.455
1.199,
1.778
0.20
00
00
3.045
91.43
1.650
3.525
]
1.419
1.608
1.346
1.449
1.308
1.566
1.285
1.855
0.25
оо
00
00
2.200
12.9.7
1.615
2.329
1.485
1.728
Г.422
1.720
1.386
1.956
Рис. 5.7.1. Оценка масштаба по Хьюберу; \ % [x/S (F)] F (dx) = 0, где % имеет вид. F.16), *0 = 0; асимптотические
значения и асимптотические дисперсии для разнесенного симметричного е-загрязнения.
а
0.01
0.02
0.05
0.10
0.15
0.20
0.25
0.005
0.013
0.041
ОЛОЗ
0.180
-
?(Ф)
0.925
0.873
0.749
0.592
0.466
0.359
0.267
0
1.000
0.530
i.ooo
0.557
1..000
0.640
.1.000
0.796
1.000
0.994
1.000
1.257
1.000
1.630
8(Г)/.5(Ф) и
0.005 (
1.014
0.565 (
1.011
0.579 (
1.008
3.01
1.029
3.617
1.023
3.605
1.017
0.652 0,664
1.007 ]
1.014
0.803 0.810
1.006
0.998
1.006
1.261
1.005
1.633
1.013
1.003
L012
1.264
1.011
1.636
A{FM
0X32 (
00
00
1:048
0.678
1.035
IS) дль
?
г
3.05 0.1 (
00
оо
00
оо
1.097
0.691 0.81E
1.029
1.076 1
0.825 0.879 1
1.025
1.014
1.024
1.272
1.022
1.642
1.067 ]
1.049 ]
1.061 1
1.298 1
1.058 1
1.662 1
00
00
00
00
00
00
.169
.022
.145
1.128
L132
,352
1.124
L702
3.15
00
00
00
00
оо -
00
1.293
1.351
1.238
1.249
1.213
1.425
1.199
1.753
0.2 (
00
оо
оо
00
ОС
оо
00
00
1.356
1.462
1.310
1.530
1.286
1.820
3.25
00
00
00
00
00
00
00
00
1.513
1.963
1.428
1.693
1.388
1.912
Рис. 5.7.2. Урезанные стандартные отклонения 5 (F) = Г \ " (F~l (t)Jdt\ '2; асимптотические значения и асимптотиче
ские дисперсии для разнесенного симметричного е-загрязнения.
5.7. МИНИМАКСНЫЕ СВОЙСТВА 131
а
0,01
0.Q2
0.05
0.10
0.15
0.20
5(Ф)
2.327
2.054
1.645
1.282
1.036
0.841
0
1.000
1.277-
1.000
0.972
J.000
0.782
1.000
0.791
1.000
0.899
1.000
1.081
0.005
1.045
1.940
1.026
1.162.
1.014
0.828
1.009
0.808
1.007
0.909
1.006
1.088
0.01
1.106
3.556'
1.055
1.433
1.028
0.880
1.018
0.827
1.015
0,920
1.013
1.095
1 и A(F,\ogS)
?
0.02
00
00
1.129
2.531
1.059
1.008
1.037
0.867
1.030
0.942
1.026
1.110
0.05 (
00
00
00
00
1.178
1.786
1.102 1
1.026 1
1.080 1
1.021 1
1.069 1
1.160 1
для
и
00
00
00
00
00
00
[.243
.548
[.178
.213
.150
.268
0.15
00
00
00
00
00
00
1.475
3.465
1.304
1.554
1.247
1.425
0.2
00
00
00
00
00
00
00
00
1.480
2.306
1.367
1.672
0.25
00
00
00
00
00
00
00
00
1.770
5.041
1.523
2.109
0.25 0.674 1.000 1.006 1.012 1.024 1.062 1.134 1.217 1.316 1.435
1.361 1.366 1.371 1.382 1.417 1.488 1.583 1.713 1.902
Рис. 5.7.3. Межквантильныи размах; 5 (F) = A/2) [F~l(l - а) - F \о)]\
асимптотические значения и асимптотические дисперсии для разнесенного
симметричного е-загрязнения.
ГЛАВА 6
Многопараметрические задачи.
Частный случай — совместное оценивание
параметров сдвига и масштаба
6.1. ОБЩИЕ ЗАМЕЧАНИЯ
Выше уже отмечалось (см. § 5.1), что М-оценки сдвига в
силу их неинвариантности относительно масштаба (исключение
составляет медиана ty(x) = sign(A:)) на практике должны
сопровождаться одновременной оценкой масштаба. Таким
образом, возникает двухпараметрическая задача.
Переход от одного параметра к двум (или нескольким)
параметрам несет в себе определенные трудности. Это
обусловлено потерей ряда технических преимуществ, что объясняется
в свою очередь невозможностью естественного упорядочения на
вещественной прямой. По этой причине доказательства сильно
усложняются.
Хотя L- и ^-оценки инвариантны относительно масштаба
и, следовательно, не требуют одновременной оценки масштаба,
их разумные обобщения на случай многих параметров
оказываются невозможными. Дело в том, что эти оценки слишком
тесно связаны с упорядочением и при переходе к случаю
нескольких параметров фактически лишаются своих преимуществ.
Например, L-оценки, подобные урезанному среднему, теряют
свою простоту, для /?-оценок перестают существовать
непараметрические доверительные интервалы. Помимо того,
вычисления оценок крайне усложняются.
По указанным причинам мы ограничимся в этой главе
исключительно М-оценками. В § 6.2 и 6.3 приводятся некоторые
довольно общие результаты (без доказательств) о
состоятельности и асимптотической нормальности многопараметрических
М-оценок; в остальных параграфах главы изучаются совместные
оценки сдвига и масштаба (последний рассматривается как
мешающий параметр).
6.2. СОСТОЯТЕЛЬНОСТЬ М-ОЦЕНОК
В этом параграфе приводятся две теоремы о состоятельности
М-оценок. Первая из них относится к оценкам, определенным
на основе свойства минимальности, вторая —к оценкам, опре«
6.2. СОСТОЯТЕЛЬНОСТЬ М-ОЦЕНОК 133
деленным посредством системы неявных уравнений.
Доказательства можно найти в докладе Хьюбера A967).
Случай А. Оценки, определенные на основе свойства мини-
мальности. Предположим, что параметрическое множество 0
есть локально компактное пространство со счетной базой
(например, открытое подмножество евклидова пространства),
C6, $Ф> Р) — вероятностное пространство и р(х, 9)— некоторая
вещественнозначная функция на 86 X в.
Предположим, что х\, x2i ... суть независимые случайны^,
величины со значениями в 36, имеющие одно и то же
распределение вероятностей Р. Пусть Тп(х\, ..., хп) — член
последовательности таких функций Тп: 36п-+® (необязательно
измеримых), что при п-+оо соотношение
п
Z^8^0 BЛ)
выполняется почти наверное (или по вероятности). В
большинстве случаев выражение в левой части B.1), которое обозначим
Zny будет равно нулю. Тем не менее рассматривать для этого
выражения предельное соотношение предпочтительнее. Дело
в том, что это избавляет от необходимости вводить
дополнительные условия, нужные лишь для того, чтобы гарантировать
существование последовательности функций Тп,
минимизирующей нормированную сумму «"'Ер^ в). Поскольку
допускается, что величины Zn могут быть неизмеримыми, правильнее
говорить не о сходимости по вероятности, а о сходимости по
внешней вероятностной мере, т. е. о сходимости P*(|ZW| > е)->-
->¦ О для любого е при п-+оо.
Приведем теперь достаточные условия того, что любая
последовательность {Тп}> удовлетворяющая соотношению B.1),
сходится почти наверное (или соответственно по вероятности) к
некоторой постоянной 6о, свойства которой будут определены
ниже.
Условия. (АЛ) Для каждого фиксированного 9 ев функция
р(х, 0) есть i^-измеримая функция. Кроме того, функция р се-
парабельна по Дубу, т. е. существуют такие множество N,
имеющее Р-меру нуль, и счетное подмножество в'св, что для
любого открытого множества t/czG и любого замкнутого
интервала А множества
{*|р(х, 6)еЛ, Vest/}, {*|p(*, 9)еЛ, У8е?/Г)в'} B.2)
различаются не более чем на подмножество множества N.
Это условие обеспечивает измеримость инфимумов и пределов,
фигурирующих в условиях (А.2) и (А.б). Для фиксированной
134 ГЛ. 6. МНОГОПАРАМЕТРИЧЕСКИЕ ЗАДАЧИ
меры Р функцию р всегда можно заменить сепарабельной
версией (Дуб A956, с. 52 и далее)).
(А.2) Функция р п. н. полунепрерывна снизу по 0, т. е.
in! p(x, 0')-*р(*> 0) п. н., B.3)
6'€= U
если окрестность ?/, содержащая точку 0, стягивается к {0},
(А.З) Существует такая измеримая функция а(х), что,
Е{р(я, 0) — а(х)}-< оо для всех 8еО,
Е{р(#, 0) — а(*)}+< °° Для некоторого 8g8. B.4)
Таким образом, математическое ожидание v(9)= Е{р(*>9)—
— а(х)} определено корректно для всех 0.
(А.4) Существует такая точка 80е9, что неравенство
у @) > у @О) справедливо для всех 0 ф 0о.
Если параметрическое множество 0 не компактно, то
символом оо будет обозначаться бесконечная точка одноточечной
компактификации этого множества.
(А.5) Существует такая непрерывная функция Ъ @) > 0, что
/•\ • t Р (*» 6) — а (х)
для некоторой интегрируемой функции А;
(И) Hminf6@)>Y(8o);
Если множество в компактно, то неравенства (И) и (ш)
излишни.
Пример 2.1. Пусть 0 = ^ есть вещественная прямая, Р —
любое распределение вероятностей с единственной медианой 0о.
Тогда условия (АЛ) — (А.5) выполняются для функций р(дг, 0)=*=
— 1 jc — 0|, а(х) = \х\, 6@) = |0|+1, h(x) = — 1. Из этого
следует, что выборочная медиана — состоятельная оценка медианы.
Условия (А.2), (А.З) и (А.5) (i), собранные воедино,
допускают в силу монотонной сходимости следующий вариант
условия (А.2).
(А^) Если окрестность U точки 0 стягивается к {0}, то
Е inf {Р {х, 00 - а (х)} -> Е {р {х, 0) - а (х)}. B.5)
Заметим, что множество {0 е0|Е[|р(х, 0) — а(х) |] < оо} не
зависит qt конкретного выбора функции а(х)\ если функция а{х)
6.2. СОСТОЯТЕЛЬНОСТЬ М-ОЦЕНОК 135
со свойствами, перечисленными в условии (А.З), существует, то
в ее качестве можно рассматривать функцию а (х) = р (*, 60).
Чтобы излишне не усложнять рассуждения, в качестве
функции а(х) всегда будем выбирать функцию р(х, 0о).
Лемма 2.1. Если выполнены условия (АЛ), (А.З) и (А.5),
то существует такое компактное множество С с= в, что члены
Тп любой последовательности, удовлетворяющей соотношению
B.1), начиная с некоторого, попадают в С почти наверное (или
соответственно с вероятностью, стремящейся к единице).
Теорема 2.2. Если выполнены условия (АЛ), (А.2'), (А.З)
и (А.4), то каждая последовательность {Тп}у удовлетворяющая
соотношению B.1) и заключению леммы 2.1, сходится к точке
0о почти наверное (или соответственно по вероятности).
Условие (А.5) зачастую не выполняется, в частности при
совместном оценивании сдвига и масштаба. Однако заключение
леммы 2.1 удается без особых затруднений приспособить
применительно к этому случаю. Автору не известен какой-либо
удачный вариант замены условия (А.5).
В случае совместного оценивания сдвига и масштаба задача
ставится следующим образом. Возьмем для определенности
оценку максимального правдоподобия параметра 0 = (g, а), где
а > 0, основанную на плотности /0 (истинное распределение Р
может этой плотности не соответствовать). Имеем
Р (*; 0) = Р (*; 5, а) = log а - log f0 (?~). B.6)
Здесь трудность заключается в том, что при параметре 0,
стремящемся к «бесконечности», т. е. при подходе к границе сг==0,
что происходит при g = х и а->0, функция р стремится к — оо.
Если распределение Р непрерывно, то вероятность связей между
наблюдениями jc,- равна нулю. Здесь помогает следующий прием:
в качестве одного нового наблюдения берутся пары уп =
= (*2л-ь *2п) исходных наблюдений. В этом случае
соответствующая функция
Р2(У, 6) = р(л; g, а) + р(х2; g, а) B.7)
уже позволяет обойти упомянутую трудность. Несколько
обобщая, можно утверждать, что от такого рода трудности мы
застрахованы в тех случаях, когда для оценки максимального
правдоподобия Qn = (f«, on) непосредственно удается
установить, что начиная с определенного момента для некоторого б
выполняются неравенства ап ^ б > 0. (Если истинное
наблюдаемое распределение не непрерывно и плотность f0 имеет очень
длинные хвосты, то потребуются и другие ухищрения.)
Случай Б. Оценки, определенные посредством неявных
уравнений. Пусть в есть локально компактное множество со счетной
136 ГЛ. б. МНОГОПАРАМЕТРИЧЕСКИЕ ЗАДАЧИ
базой, ($В> $&, Р) —;зероятностное пространство, а "ф (jc, в) —
некоторая функция, определенная на 36 X 0 и принимающая
значения в m-мерном евклидовом пространстве Rm.
Предположим, что х\, х2, ... суть независимые случайные
величины со значениями в SSy имеющие одно и то же
распределение вероятностей Р. Прежде чем будут приведены достаточные
условия сходимости почти наверное (или по вероятности) к
некоторой постоянной 0о любой последовательности функций Тп:
$?"->©, для которых выполняется при /г->оо соотношение
п
— ^^(xh FJ-^O п- н. (или по вероятности), B.8)
сделаем одно замечание.
Если 0 — открытое подмножество пространства Rm и
функция -ф(х, 0) определяется равенством -ф(л:, 0) = (d/dQ)\ogf(x,0),
где f(x> 0) — дифференцируемое параметрическое семейство
плотностей вероятности, то оценки максимального правдоподобия,
конечно, удовлетворяют соотношению B.8). Однако мы не
требуем, чтобы функция г|) была дифференцируемой всюду. (Это
важная оговорка, поскольку такое допущение дает, например,
возможность строить совместные оценки сдвига и масштаба,
составляя их из двух по существу самостоятельных УИ-оценок
сдвига и масштаба.)
Условия. (Б.1) Для любого фиксированного 8g8 функция
tt>(jt, 0) сепарабельна (см. условие (АЛ)) и ^-измерима по х.
(Б.2) Функция г|) непрерывна по 0 п. н.:
Iim | ф (*, 0') - -ф (*, 0) | = 0 п. н. B.9)
е'-»е
(Б.З) Математическое ожидание % @)= Е-ф (л:, 0) существует
при всех Веб и равно нулю в единственной точке 0 = 0О.
(Б.4) Существует такая непрерывная функция 6@),
отделенная от нуля (Ь @) ^ bo > 0), что
(i) функция sup «,а\ интегрируема;
9 0 \Р)
<">
Удловиям (Б.4) (i) и (Б.2), взятым совместно, равносильно
следующее условие.
6.3. АСИМПТОТИЧЕСКАЯ НОРМАЛЬНОСТЬ М-ОЦЕНОК 137
(Б.2') Если окрестность U точки 0 стягивается к {0}, то
выполняется соотношение
Е [sup | ф (х, 00 - * (*, 0) | ] - 0. B.10)
Из условия (Б.2') следует, что функция X непрерывна. Кроме
того, если существует функция Ь со свойствами, перечисленными
в условии (Б.4), то в ее качестве можно взять функцию
60). B-11)
Лемма 2.3. Если выполнены условия (Б.1) и (Б.4), то
существует такое компактное множество С с: в, что члены Тп любой
последовательности, удовлетворяющей соотношению B.8),
начиная с некоторого, попадают в С п. н.
Теорема 2.4. Если выполнены условия (Б.1), (Б.2') и (Б.З),
то каждая последовательность {Тп}9 удовлетворяющая
соотношению B.8) и заключению леммы 2.3, сходится к точке 0О почти
наверное. Аналогичное утверждение справедливо для сходимости
по вероятности.
6.3. АСИМПТОТИЧЕСКАЯ НОРМАЛЬНОСТЬ М-ОЦЕНОК
Здесь и далее будем предполагать, что в есть открытое
подмножество евклидова пространства Rm размерности т,
(8В,зФу Р)— вероятностное пространство, ф: #?X©->ROT есть
некоторая функция.
Предположим, что х\, х% ... суть независимые случайные
величины со значениями в SB, имеющие одно и то же
распределение Р. Приведем достаточные условия, гарантирующие, что
общий член последовательности {Тп} = {Тп(хи ..., хп)},
удовлетворяющей условию
—т=г V if (xl9 Тп) -> 0 по вероятности, C.1)
"V ti *—*
имеет асимптотически нормальное распределение.
Предполагается, что состоятельность для последовательности {Тп} уже
установлена каким-либо способом.
Условия. (Н.1) Для каждого фиксированного 6g9 функция
•ф(л:, 0) есть i^-измеримая функция. Кроме того, функция о|) се-
парабельна (см. предыдущий параграф, условие (АЛ)).
Положим
Я@) = Еф(дг, 0), C.2)
и (х, 0, d) = sup | ф (х, т) - ф (х, 0) |. C.3)
Математические ожидания всюду берутся по истинному
наблюдаемому распределении? Pt
138 ГЛ. 6. МНОГОПАРАМЕТРИЧЕСКИЕ ЗАДАЧИ
(Н.2) Существует такая точка Эо, что Я@О)== 0.
(Н.З) Существуют такие положительные числа а, Ь, о и do,
что
(i) Ще)|>а|9-80| при |e-eo|<do,
(ii) Еи( , Э, d)^bd при |9-9ol + d<rfo>
(Hi) Е [и (х9 9, df] < а* при 19 - 601 + d < d0.
Здесь |9| обозначает любую норму, эквивалентную евкли*
довой норме. Условие (iii) несколько строже, чем это
необходимо: доказательство остается в силе и в том случае, когда
Е[F d)]*(\ld\l)
(Н.4) Величина Е(|г|)(я, 0о) |2) не равна нулю и конечна.
Теорема 3.1. Если в условиях (Н.1) — (Н.4)
последовательность {Тп} удовлетворяет условию C.1) и Р(\Тп — 90|<
<do)->l, то
п
-4=- У 'Ф (*h во) + V^"Л (Тп) ->0 по вероятности. C.4)
V» ft
Доказательство. См. доклад Хьюбера A967). ¦
Следствие 3.2. В дополнение к условиям теоремы 3.1
предположим, что функция X имеет в точке 90 невырожденную
матрицу производного отображения Л (т. е. Щ0) — Х(9о)~Л- (9 —
_9о)] =о(|е-во|)).
Тогда величина л/п(Тп — в0) имеет асимптотически
нормальное распределение со средним 0 и ковариационной матрицей
А~1С(Ат)-\ где С есть ковариационная матрица для гр(л:, во)*
Теперь рассмотрим обычную оценку максимального
правдоподобия, т. е. предположим, что dP = f(x, %)d\i и что г|)(л:, 9) =
= {d/dQ)logf(x,Q). Допустим, что-функция ф(х, 6) измерима
по совокупности переменных, что соотношения условий (Н.1),
(Н.З) и (Н.4) локально выполняются равномерно по 9о и что
оценка максимального правдоподобия состоятельна. Далее,
предположим, что матрица информации Фишера
/ (в) = J * (*, 9) * (х9 в)г / (х, 9) rf|i C.5)
непрерывна в точке 9о.
Предложение 3.3. В только что перечисленных условиях
имеем: Я@О) = О, Л= —С=—/(90) и, в частности, ЛС(Лг)-1 =
= /@о). Иначе говоря, оценка максимального правдоподобия
эффективна,
6.3. АСИМПТОТИЧЕСКАЯ НОРМАЛЬНОСТЬ М-ОЦЕНОК 139
Доказательство. См. доклад Хьюбера A967). ¦
Пример 3.1. Lp-оценки. Определим m-мерную оценку Тп
сдвига как величину, на которой достигает минимума сумма
2 I xt — Тп \р, где 1^р^2 и | • | обозначает обычную
евклидову норму. Эту оценку можно определить также иным,
эквивалентным способом, полагая, что Тп есть решение уравнения
?>(**; Г„) = О, где
¦ (*; б) = -у^(|*-епм*-8Г2(*-е). (з.б)
Предполагается, что m ^ 2.
Простыми вычислениями нетрудно показать, что как
функция w, так и ее квадрат и2 удовлетворяют условию Липшица
вида
u(xfQ,d) <М|*-6|*-2, C.7)
и2 (*, 0, d) ^ c2d | х — 91Р-2, C.8)
где 0 ^ d ^ do <t оо. Таким образом, условия (Н.З) (ii) и (in)
будут выполнены, если в некоторой окрестности точки 8о будет
выполняться неравенство
E(\x — Q\p-2)^K<oo. C.9)
Оно, конечно, имеет место, если истинное наблюдаемое
распределение имеет плотность относительно меры Лебега. Далее,
в том случае, если неравенство C.9) справедливо, выполняется
равенство
"Жл^~ Е—ае—• ^ло'
Тогда
и, следовательно, условие (Н.З) (i) тоже выполняется.
Проверка условия (Н.1) тривиальна. Условия (Н.2) и (Н.4)
будут выполняться в предположении Е(|х|2р~2) < оо.
Состоятельность устанавливается либо проверкой выполнения условий
(Б.1) —(Б.4) (с 6@)==max(l, IBI")), либо привлечением
независимого и простого доказательства, в основе которого лежит
свойство выпуклости функции р (л:, 0) = | л: — 8|р.
Теоремы этого и предыдущего параграфов иногда бывают
полезными и в одномерном случае.
140 ?Л. 6. МНОГОПАРАМЕТРИЧЕСКИЕ ЗАДАЧИ
Пример 3.2. Пусть 9В — 0 = R и
ГA/2)(д: —вJ при |*-в|<*,
В этом случае допущение (А.4) относительно существования и
единственности точки 0О налагает ограничения на истинное
распределение; проверка остальных допущений- (АЛ) — (А.З) и
(А.5) тривиальна (с а(х) = 0, Ь(8) = A/2)&2, h(x) в 0). Таким
образом, оценка Тп, минимизирующая сумму ? pfo, Г„), есть
состоятельная оценка параметра Во.
В несколько более строгих условиях эта оценка имеет также
асимптотически нормальное распределение. Предположим для
простоты, что 0о = 0, и допустим, что истинная основная
функция распределения F в некоторых окрестностях точек ±й имеет
плотность F', причем в этих точках плотность F непрерывна.
Допущения (Н.1), (Н.2), (Н.3)(и), (Ш) и (Н.4), очевидно, вы-
ск
полняются с функцией -ф (л:, в) = (<5/^в) р (л:, в) • Если \ F(dx)—
— kF'i—fy — kF'ifyX), то допущение (Н.З) (i) также
выполняется. Нетрудно проверить, что в рассматриваемом случае
можно применить следствие 3.2. Таким образом, оценка Тп
асимптотически нормальна.
6.4. СОВМЕСТНЫЕ М-ОЦЕНКИ СДВИГА И МАСШТАБА
Для того чтобы сделать М-оценку сдвига инвариантной
относительно масштаба, нужно объединить ее с оценкой масштаба.
При симметричном основном распределении F оценки сдвига
Т и оценки масштаба S обычно асимптотически независимы, и
асимптотическое поведение оценки Т зависит от оценки S
только через асимптотическое значение S(F). Поэтому в таких
случаях мы можем позволять себе подчинить выбор 5 другим
критериям, не заботясь о снижении статистической изменчивости.
Рассмотрим совместные оценки максимального
правдоподобия параметров 0 и а для семейства плотностей
т. е. те значения 0 и а, которые доставляют максимум
произведению
6.4. СОВМЕСТНЫЕ М-ОЦЕНКИ СДВИГА И МАСШТАБА 141
Очевидно, что так определенные величины удовлетворяют
следующей системе уравнений:
(здесь г|5(х) = — (d/dx)logf(x)).
Обобщая, назовем совместной М-оценкой сдвига и
масштаба всякую пару статистик (Тп> Sn), определенную двумя
соотношениями вида
Очевидно, что определения статистик T^=T(Fn) и Sn = S(Fn)
допускают функциональную запись:
<4-7>
Ни функцию if, ни функцию % не требуется определять через
плотность вероятности, как это было в D.3) и D.4). Наряду
с этим в большинстве случаев функция -ф будет нечетной, а
функция % — четной.
Как и выше, функции влияния нетрудно найти, подставляя
в соотношения D.7) и D.8) вместо распределения F смесь
Ft = (l—t)F + tbx и вычисляя производную по / в точке t = 0.
При этОхМ оказывается, что функции влияния IC{x\ F, Т) и
IC(x\ F, 5) должны удовлетворять системе уравнений
IC(x; F, T)\V(y)F(dx) + IC(x; F, S^
= <b(y)S(F), D.9)
IC(x; F, T)\%'(y)F(dx) + IC(x; F, S)\%'(y)yF(dx) =
= %(y)S(F), D.10)
где через у для краткости обозначено выражение у = [х —
T()]/S(F)
Если F — симметричное распределение, я|э — нечетная, а % —
четная функция, то в силу симметрии некоторые интегралы
142 ГЛ 6. МНОГОПАРАМЕТРИЧЕСКИЁ ЗАДАЧИ
обращаются в нуль и выражения для решений системы
приобретают существенно более простой вид:
™SiP) , D.11)
1С (х; F, S) = 7 t{xJS(F))S(F) . D.12)
\ %' {x/S (F)) [x/S (F)] F (dx)
Пример 4.1. Пусть
г|э(л:) = тах[—ky min(?, л:)] D.13)
2, *2)-р, D.14)
где 0 < р < с2. При р = р(с),
р (С) = J min (c\ х2) Ф {dx)y D.15)
для нормальной модели имеет место состоятельность оценки
масштаба.
В этом примере скомбинированы асимптотические
минимаксные оценки сдвига (§ 4.6) и масштаба (§ 5.7); величины k и
с = х\ можно определить из соотношений D.5.21) и E.6.14)
соответственно. В упрощенном варианте этой оценки полагают
c = k (Хьюбер A964, «Предложение 2» на с. 96)), т. е.
%(*) = 1>2(*)-Р(*). D.16)
Пример 4.2. Медиана и абсолютное медианное отклонение.
Пусть
*(*) = sgn(*), D.17)
X(x) = sgn(|x|-1). D.18)
Решая (формально) систему D.9) и D.10), получаем:
^^ D.19)
1С (х; F, 5) =
_ sgu(\x -Т\- S) -Щ (Т + S) - f(T - S))lf (T)]sgn(x -Т) (.ш
— 2[/(r + S) + /(r-S)] • K*'ZKJ)
Если F есть симметричное распределение, то выражение D.20)
упрощается и принимает вид
/С(ж; F, S)=ssn%-Fl{F))-. D.21)
Существование и единственность решений системы D.7),
D.8). Будем следовать диссертации Шольца A971), Предполо-
6.4. СОВМЕСТНЫЕ М-ОЦЕНКИ СДВИГА И МАСШТАБА 143
жим, что функции i|) и % дифференцируемы, г|/ > 0, причем
функция г|) имеет нуль в точке х = О, функция % в точке х = О имеет
минимум, а отношение %''/г|/ строго монотонно. (В частном
случае %(x) = i|J(a:)— Р это последнее допущение излишне,
поскольку оно обеспечивается условием г|/ > 0.) В качестве F
можно брать как истинное, так и эмпирическое распределение.
Якобиан отображения
F (dx), J г (^=1) F {их)) D.22)
имеет вид
tf\?(y)dF \y*'(y)dF}
D.23)
\vt'{y)dF )
где у = (х — t)/s. Определим новую вероятностную меру F*
соотношением
При этом якобиан можно представить в виде
Его детерминант [EfV {y)/s]2 covF*(y9 xW) положителен, если
только распределение F не сконцентрировано в одной точке.
Для того чтобы это доказать, предположим, что функции f и
g — любые строго монотонные функции, a Y\ и У2 —
независимые одинаково распределенные случайные величины. Поскольку
[f(Y\) — f(Y2)][g(Y\) — g"(^2)]>0 (если только не выполняется
равенство Y\ = У2), имеем
cov [/ (Y{), g (Yx)] = A/2) Е {[/ (Y{) - f (Y2)] [g (Yx) - g (Y2)]} > 0,
если только не выполняется соотношение P(Y\ = Y2)= 1.
Теперь, учитывая, что диагональные элементы якобиана
отрицательны, а его детерминант положителен, можем заключить
(ср. Гейл и Никаидо A965, теорема 4)), что отображение D.22)
осуществляет взаимно однозначное соответствие.
Перейдем к вопросу о существовании решения. Сказанное
выше позволяет утверждать существование решения на
основании следующего: A) при фиксированном s первая компонента
в правой части D.22) имеет единственный нуль в некоторой
точке / = /E), где t(s)—непрерывная функция s; B) при 5,
изменяющемся от оо до 0, вторая компонента \ % {[x—t (s)]/s) F(dx)
144 ГЛ. 6. МНОГОПАРАМЕТРИЧЕСКИЕ ЗАДАЧИ
изменяется от %@) до (по меньшей мере) A—/n)x() +
+ г1Х@)> гДе Л есть наибольшая точечная масса распределения
F. Теперь по теореме о промежуточном значении для
непрерывных функций заключаем, что пара статистик [r(F),r(S)]
существует и единственна, если %@)< 0< х(± оо) и
распределение F не имеет слишком больших точечных масс;
наибольшая масса должна удовлетворять неравенству т] < %(±оо)/
Л(±)@)]
х)х()]
Хотя это доказательство не охватывает частный случай,
рассмотренный в примере 4.1, поскольку функция i|) не строго
монотонна, утверждение остается в силе (функцию -ф нужно
аппроксимировать строго монотонными функциями; независимое
доказательство содержится в работе Хьюбера A964, с. 98, ср.
также с § 7.7).
Интуитивно ясно (впрочем, нетрудно привести и строгое
доказательство), что отображение F-+(T(F)t S(F)) не только
определено корректно, но и является слабо непрерывным, если
только функции if и % ограниченны; таким образом,
функционалы Т и S качественно робастны по Хэмпелу. Это в свою
очередь влечет за собой состоятельность оценки (Тп, Sn) в силу
теоремы Гливенко — Кантелли. Пользуясь свойствами
монотонности и дифференцируемости функций г|э и %у довольно просто
проверить, что выполняются условия (Н.1) — (Н.4) из § 6.3.
Поэтому,, учитывая, что в силу предположения отображение D.22)
дифференцируемо, и пользуясь следствием 3.2, заключаем, что
статистика (Тп, Sn) имеет асимптотически нормальное
распределение. Частный случай, рассмотренный в примере 4.1, этим
рассуждением не охватывается в полной мере и здесь. Дело
в том, что для распределения F, имеющего точечные массы в
точках разрыва производной i|/, точно так же, как это было
в случае оценки одного сдвига (§ 3.2), нарушается
асимптотическая нормальность. Вместе с тем для конечных п этот эффект
в данном случае выражен слабее, так как случайные
флуктуации оценки масштаба сглаживают разрывности.
Если распределение F симметрично, а г|э и % — нечетная и
четная функции соответственно, то, как следует из соображений
симметрии, оценки сдвига и масштаба не коррелируют и,
следовательно, являются асимптотически независимыми.
6 .5. М-ОЦЕНКИ С ПРЕДВАРИТЕЛЬНЫМ ОЦЕНИВАНИЕМ МАСШТАБА
Совместный поиск решений уравнений D.5) и D.6) в какой-
то мере неоправданно сложен. Несколько проще иной вариант,
а именно получение М-оценки сдвига с предварительной
оценкой масштаба. Возьмем любую оценку Sn = S(Fn) масштаба и
определим оценку сдвигу соответственно из соотношений D.5)
6 5 М-ОЦЕНКИ С ПРЕДВАРИТЕЛЬНЫМ ОЦЕНИВАНИЕМ МАСШТАБА 145
или DJ). Зная функцию влияния оценки масштаба, из
уравнения D.9), а в симметричном случае и просто по формуле D.11),
можно найти функцию влияния оценки сдвига. Заметим, что
в симметричном случае выражение для функции влияния
статистики Т содержит только предельное значение S(F) и Г не
зависит ни от функции влияния статистики S, ни от
асимптотической дисперсии статистики 5.
Еще проще вариант, основанный на использовании так
называемой одношаговой Af-оценки. В нем начинают с некоторых
предварительных оценок To(F) и Sq(F) сдвига и масштаба, а
затем получают приближенное решение Т уравнения D.7),
применяя метод Ньютона один оаз. Ограничиваясь начальными
членами разложения Тейлора левой части D.7) по переменному
Т в точке Го = T0(F)
оценку формально определяют как функционал
*)
E.1)
Зная функции влияния для То и So, нетрудно получить
функцию влияния и для статистики Т из E.1). В общем
несимметричном случае получаются весьма неприятные и запутанные
выражения
~ So U U U"
JC(x; F, 70=^ф-77^*' + -^?ДгГ/С(х; F,
S*' (И (И
Н /С(*; F, So), E.2)
где у функций г|), г|O и г|)г/ один и тот же аргумент у = [х —
— Tq(F)]/So(F), а все интегралы берутся с dF.
Если предположить, что статистика То инвариантна
относительно переноса и нечетна, T.e.T0(Fx+c)= To(Fx) + c,To(F-.x) =
= —To(Fx), что функция -ф кососимметрична, а распределение
F симметрично, и исключить тем самым из выражения E.2) все
146 ГЛ. 6. МНОГОПАРАМЕТРИЧЕСКИЕ ЗАДАЧИ
члены, кроме первого, то формула E.2) упростится и примет
вид D.11):
IC(x; F, Т) =
+' (x/So (F)) F (dx)
Из сравнения функций влияния нетрудно усмотреть, что
оценка с предварительным оцениванием масштаба и
соответствующая одношаговая оценка будут асимптотически нормальны и
асимптотически эквивалентны друг другу, если Го есть
состоятельная оценка. Построение доказательств асимптотической
нормальности, в которых в качестве вспомогательного инструмента
используются одношаговые оценки, как правило, не особенно
затруднительно.
6.6. КОЛИЧЕСТВЕННАЯ РОБАСТНОСТЬ
СОВМЕСТНЫХ ОЦЕНОК СДВИГА И МАСШТАБА
Пороговые свойства оценок, рассмотренных в двух
предыдущих параграфах, определяются главным образом пороговыми
свойствами входящих в них оценок масштаба. Поэтому может
наблюдаться заметное отличие поведения совместных М-оценок
от поведения М-оценок сдвига с фиксированным масштабом.
В качестве первого примера рассмотрим совместные М-оцен-
ки, у которых нечетная функция г|> и четная функция %
непрерывны, причем и г|), и % монотонно возрастают на
положительной полуоси. Ограничимся лишь случаем е-загрязнения
(полученные результаты справедливы и для е-окрестностей
Прохорова). Основное внимание мы уделим _ вопросу о сдвиге,
рассматривая масштаб как мешающий параметр.
Пусть е* и е* есть инфимумы множеств значений 8, для
которых соответственно S(F) и T(F) могут принимать бесконечно
большие значения. Сразу заметим, что е* <е^, поскольку в
противном случае для T(F) пороговая точка достигалась бы уже
в тот момент, когда значение S(F) было бы еще ограниченным.
Таким образом, имея, как и в случае с фиксированным
масштабом, е* =0.5, нельзя получить 8* > 0.5, ср. с E.2.7). Вопрос о
пороговом значении для масштаба при «взрывной» ситуации
S-*-0 в данном контексте малоинтересен, поскольку оценка
сдвига превратится в оценку, обладающую высокой степенью
робастности — выборочную медиану.
Теперь предположим, что {F} есть последовательность таких
е-загрязненных распределений вида F = A — е) /^ + еЯ, что
7(F)->-oo, S(F)->- oo при e->8j, = e*. He ограничивая общности,
6.6. КОЛИЧЕСТВЕННАЯ РОБАСТНОСТЬ 147
можно считать, что предел
0<lim|^ = y<oo F.1)
существует (если необходимо, можно перейти к
подпоследовательности).
Запишем определяющие уравнения D.7) и D.8) в виде
= 0, F.2)
= O. F.3)
Если в коэффициенты при е подставить наибольшие
значения г|)(оо) и х(°°)> то из F.2) и F.3) получатся неравенства
О - в) $ ф ((* - T)/S) Fo (dx) + еф (оо) >0, A - в) $ х ((* - T)/S) X
X ^о (dx) + е% (оо) ^ 0. Переходя к пределу, получим:
4(«>)>0f F.4)
*х(оо)>0. F.5)
Поэтому в силу свойств симметрии и монотонности функций if
и х имеем оценки
X (- Т^-Х (оо)) < у < ф (у^ ¦ (оо)) , F.6)
из которых вытекает, что решение е0 уравнения
дает нижнюю границу для е* (для простоты допустим, что
решение 80 уравнения F.7) единственно).
Нетрудно проверить, что это же уравнение справедливо и
для верхней границы пороговой точки е*. Предположим, что
величина е настолько мала, что решение [T(F), S(F)] системы
F.2), F.3) остается ограниченным при всех Я. В частности,
полагая, что распределение Н есть вырожденное в точке + оо
распределение, из F.2) и F.3) получим
A - е) J %
<b(°o) = 0, F.8)
(dx) + ex (oo) = 0. F.9)
Станем увеличивать е до тех пор, пока решения T(F) и S(F)
уравнений F.8) и F.9) не начнут различаться. Снова можно
предположить, что неравенства F.1) выполняются с
некоторым у% Предельное значение е должно быть по крайней мере
148
. 6. МНОГОПАРАМЕТРИЧЕСКИЕ ЗАДАЧИ
столь же большим, как и пороговая точка, и должно
удовлетворять равенствам в F.4) и F.5). Поэтому решение ео
уравнения F.7) доставляет верхнюю границу для е* и в то же время
служит общей пороговой точкой для Т и 5.
Припер 6.1
ПоеР ъпжршш *?
к
3.0
2.5
2.0
1.7
1.5
1.4
1.3
1.2
1.1
1.0
0.7
С*
0.100
0.135
0.187
0.227
0.257
0.273
0.290
0.307
0.324
0.340
0.392
п Припер 6.2
Масштаб: Масштаб:
межибартильный медианное
размах отклонений для Ф
*
ОЛИ "
0Л56
0.230
0.294
0,346
0.375
0.407
0.441
0.478
0.516
0.645 .
• 0.25 0.5 0.5 0.5 -
¦
Урезанное
среонее,
эквивалентное
дляФ, (
е* = а
0.001
0.006
0.023
0.045
0.067
а.081
0.097
0.115
0.136
0.159
0.242
в«-2а
0.003
О.ОЦ
0.046
0.090
0.134
0.162
0.194
0.230
0.272
0.318
0.484
Рис. 6.6.1. Пороговые значения для оценок из примеров 6.1 и 6.2, а также
для урезанного среднего, имеющего эквивалентные характеристики для
нормального распределения.
Пример 6.1 {продолжение примера 4.1). Здесь мы имеем:
я|)(оо)= fc, г|?-1[(б/A— е))г|з(оо)] = (е/A— е))&. Поэтому
уравнение F.7) можно переписать в виде
t'2 - Р (*М = о. (ело)
Если c = ky то решение уравнения F.10) имеет очень простой
вид
е* = Р(*)/(Р(*) + *2). F.11)
При симметричном загрязнении пороговая точка [и(е)->оо]
для дисперсии оценки сдвига дается равенством
F.12)
Числовые значения этих величин нужно сравнить с
соответствующими пороговыми значениями е* = а и е** = 2а для
а-урезанного среднего. Чтобы сравнивать их было проще, в
приводимую нами таблицу (рис. 6.6.1) пороговых точек включен
«эквивалентный коэффициент урезания» <%ф=Ф(—k)> с кото-
6.?. ВЫЧИСЛЕНИЕ Af-ОЦЁНОК 149
рым соответствующее а-урезанное среднее имеет для
нормальной модели те же функцию влияния и асимптотические
характеристики.
Пороговые свойства М-оценок с предварительным
оцениванием масштаба тоже подчинены пороговым свойствам своих
оценок масштаба, но ситуация в этом случае намного проще.
Чтобы убедиться в этом, достаточно рассмотреть следующий
пример.
Пример 6.2. Оставив ту же функцию г|), что и в примере 6.1,
возьмем в качестве оценки масштаба интерквартильный
размах (нормированный таким образом, что 5(Ф) = 1). Имеем:
е* = 0.25 и е** = 0.5. Для симметризованной версии 5
(абсолютного медианного отклонения, ср. с § 5.1 и 5.3) пороговую
точку можно «дожать» до е* = е** = 0.5 (рис. 6.6.1).
Во второй таблице (рис. 6.6.2) для сравнения помещены
супремумы Vs(z) асимптотических дисперсий различных оценок
в случае симметричного е-загрязнения. Свойства этих оценок
для конечных выборок изучены Эндрюсом и др. A972). Среди
приведенных оценок: оценки Н14, НЮ и Н07 есть оценки
«Предложения 2» Хьюбера с k= 1.4, 1.0 и 0.7 соответственно,
см. примеры 4.1 и 6.1; оценки А14, А10 и А07 имеют ту же
функцию г|), что и соответствующие Н-оценки, но в качестве
предварительной оценки масштаба в них используется АМО/0.6745
(ср. § 6.5); оценки 25А, 21А, 17А и 12А есть сниженные оценки
Хэмпела с константами (a, ft, с), указанными после названия
в скобках (ср. § 4.8, в частности D.8.8)), в качестве
предварительной оценки масштаба для этих оценок берется АМО.
6.7. ВЫЧИСЛЕНИЕ М-ОЦЕНОК
Приведем несколько вариантов оценок и начнем с тех, у
которых вспомогательной оценкой масштаба служит абсолютное
медианное отклонение.
Вариант 1. Модифицированные остатки. Положим
G.1)
G.2)
Выполним хотя бы один шаг метода Ньютона, т. е. вычислим
итерацию
( }
По аналогии с рассуждением в § 6.5 заключаем, что одношаго-
вая оценка Л1* асимптотически (при az->oo) эквивалентна
итерационному пределу Т^°°\ если наблюдаемое распределение
О 0.001. 0.002 0.005 0.01 0.02 0.05 0.1 0.15 0.2 0.25 0.3
0.4
0.5
С нормальными Весами 1.000
Ходжеса-Лемана 1.047
И 14 1.047
А14 1.047
10%-урезсшное среднее 1.061
1.107
1.107
1.100
1.187
1.187
1.195
1.025
1.050
1.092
1.166
.014
.051
.050
.050
.064
.110
.110
.103
.189
.189
.198
.031
.055
1.096
1.170
1.026
1.056
1.054
1.054
1.067
1.113
1.113
1.106
1.192
1.192
1.201
1.036
1.060
1.100
1.174
1.058
1.068
1.065
1.065
1.077
1.123
1.123
1.115
1.201
1.201
1.209
1.053
1.075
1.113
1.185
1.106
1.090
1.084
1.084
1.095
1.138
1.138
1.131
1.215
1.215
1.223
1.082
1.101
1.135
1.205
1.197
1.135
1.123
1.124
1.131
1.170
1.170
1.163
1.244
1.244
1.252
1.143
1.155
1.180
1,247
1.474
1.286
1.258
1.257
1.256
1.276
1.276
1.270
1.339
1.339
1.346
1.356
1.342
1.331
1.383
2.0.13 :
1.596 :
1.554
1.539
1.541 :
1.490
1.490
1.492
1.525
1.524 ]
1.530 1
2.714
2.006
1.992
1.928
2.030
1.770
1.768
1.797
1.755
1.754
1.758
1.843 2.590
1.759 2.376
1.653 2.099
1.661 2.025
3.659
2.557
2.698
2.482
00
2.150
2.140
2.253
2.046
2.047
2.046
3.790
3.333
2.743
2.516
4.962
З.ЗЮ
4.003
3.31
00
2.690
2.660
3.071
2.423
2.431
2.422
5.825
4.904
3.715
3.201
6.800
4.361
7.114
4.61
00
3.503
3.434
00*
2.926
2.954
2.930
9.530
7.676
5.280
4.201
13.415
8.080
00
10.51
00
7.453
6.752
00
4.645
4.915
4.808
33.70
25.10
13.46
8.47
29.161
16.75S
со
оо
00
64.4
00
00
9.09
оо
оо
оо
оо
оо
оо
ню
А 14
15%
Н07
А 07
25%
25А B.5,4.5,9.5)
21А B.1,4.0,8.2)
17А A.7,3.4,8.5)
12А A.2,3.5,8,0)
Минимаксная граница 1.000 1.010 1.017 1.037 1.065 1.116 1.256 1.490 1.748 2.046 2<*97 2,822 3.996 5.928
Рис. 6.6.2. Супремумы vs (г) асимптотической дисперсии для симметрично е-загрязненных нормальных распределений,
для различных оценок сдвига.
6.7. ВЫЧИСЛЕНИЕ Af-ОЦЕНОК 151
симметрично, а функция i|? кососимметрична. Знаменатель
выражения G.3) особой роли не играет и может быть заменен
постоянной величиной. Если 0 ^ г|/^ 1, то любой постоянный
знаменатель, больший 1/2, будет обеспечивать сходимость
(доказательство см. в § 7.8). Если же функция tf> кусочно линейна, то
итерации G.3) приведут к точному решению уравнения
2>[(*<-7yS<0)]=0 G.4)
за конечное число шагов (если этот процесс вообще сойдется).
Вариант 2. Модифицированные веса. Снова Г@> и 5@>
определим, как и выше. Вычислим несколько итераций
где
• G'6)
Доказательство сходимости также приводится в § 7.8;
разумеется, решением уравнения G.4) служит итерационный
предел Г<°°>.
Вариант 3. Совместные М-оценки сдвига и масштаба.
Предположим, что нужно решить систему уравнений
L G.7)
G.8)
где р = Еф(г|J), а функция -ф предполагается кососимметричной
и монотонной, 0 ^ г|/ ^ 1.
Начнем с тех же Г<°> и S@), что и выше. Пусть
12 _ 1 у ^2 (xl ~ Tm \ Г o(mI2 (? Q,
J -^-DpZ,* I, s™ )[S Ь G'9)
Доказательства сходимости (с постоянным знаменателем в
правой части G.10)) приводятся в § 7.8.
Вариант 4. Совместные оценки сдвига и масштаба,
продолжение. Предположим, что ty(x)= max[—c,min(c,x)]. Пусть /щ,
пг2 и т3 суть числа наблюдений, удовлетворяющих неравенст-
рам Xiz?T — cS, T — cS<Xi<T + cS и T + cS^xi соответ-
152 ГЛ. 6. МНОГОПАРАМЕТРИЧЕСКИЕ ЗАДАЧИ
ственно. В этом случае уравнения G.7) и G.8) можно
переписать в виде
?' xt — т2Т + (щ - шх) cS = 0, G.11)
Z' (xt - Tf + (m, + /Цз) c2S2 - (л - 1) PS2 = 0. G.12)
Здесь штрих у знака суммы указывает, что суммирование
проводится лишь для тех наблюдений, которые удовлетворяют
неравенству \xi — T\<cS. Определив Т из уравнения G.11) и
подставив его в уравнение G.12), можно получить
эквивалентную систему уравнений
*' = Е'Xtlm2, G.13)
о \х*~х ) /7 14\
G.15)
Теперь покажем, как эти последние три уравнения
используются для поиска Т и S. Предположим, что значения Г<т> и
S(m) уже известны. Найдем по соответствующему разбиению
выборки, определяемому величинами Г<т> ± cS<w>, величины
G.13) и G.14), узнаем по ним 5(т+1) и, наконец, по формуле
G.15) вычислим Г<т+1> по полученному значению 5(т+1).
Сходимость этой процедуры пока не доказана. Существуют,
правда, контрпримеры, относящиеся к случаю малых
значений с. Тем не менее на практике скорость сходимости этой
процедуры очень высока и точное решение получается за конечное
число шагов.
6.8. СТЬЮДЕНТИЗАЦИЯ
В принципе каждая оценка Тп = Тп(хи *.*, хп) любого
параметра 0 должна сопровождаться оценкой Dn = Dn(x\, ..., хп)
ее собственной статистической изменчивости. Поскольку оценка
Тп нередко имеет асимптотически нормальное распределение,
оценку Dn следует нормировать так, чтобы она становилась
оценкой (асимптотического) стандартного отклонения оценки Тп>
т. е. __
4 (8.1)
nlA->A{F; T). (8.2)
Наиболее вероятно применение оценки Dn в двух целях: A)
для нахождения доверительных интервалов (Тп — cDn, Tn + cDn)
для оцениваемого величиной Г„ неизвестного истинного пара-
в 8. СТЬЮДЕНТИЗАЦИЯ 153
метра, B) для нахождения (асимптотических) стандартных
отклонений для функций от оценки Тп в так называемом Д-методе:
o(h(Tn))*\h'(Tn)\o(Tn). (8.3)
В § 1.2 предлагалось нормировать оценку Т параметра 9
таким образом, чтобы для данной модели она оказывалась
состоятельной по Фишеру, т. е. T(Fq) = 9. В противном случае
необходимо определить оцениваемую величину через предельное
значение оценки.
Для оценки D такой свободой выбора мы не располагаем,
условием (8.2) оцениваемая величина асимптотически
зафиксирована. Поэтому наша оценка при условии A (Fn\ T)-+A(F\ T)
должна удовлетворять соотношению
<sfcDn~[A(Fni T)]XI\ (8.4)
которое фактически и позволяет определить оценку Dny т. е.
с2(х'>рп>П (8-5)
Сомножитель п — 1 (вместо п) подставлен сюда с тем, чтобы
обеспечить совпадение с классической формулой для оценки
стандартного отклонения выборочного среднего.
Почти так же может использоваться и метод «складного
ножа» (§ 1.5).
В ряде случаев как оценку (8.5), так и метод «складного
ножа» применить не удается. В качестве примера назовем
выборочную медиану. В этом частном случае можно перенацелиться
на хорошо известные доверительные интервалы для медианы,
определяемые интервалом между двумя выбранными порядковыми
статистиками (x{i)y X(n+\-i)) * Поделив разность *(л+1-о — Хщ на
подходящую постоянную 2с, можно получить оценку Dn,
которая также будет удовлетворять условию (8.2). В силу
центральной предельной теоремы константу с нужно определять
из условия
с = Ф-1 A/2 + а/2), (8.6)
где а есть доверительный уровень.
Если совместное распределение величин Тп и Dn
асимптотически нормально, то в случае симметричного распределения они
должны быть асимптотически независимы (из соображений
симметрии следует, что их ковариация равна 0). Можно ожидать,
что отношение
(Tn-T(F))/Dn (8.7)
154 ГЛ. 6. МНОГОПАРАМЕТРИЧЕСКИЕ ЗАДАЧИ
будет вести себя подобно ^-статистике. Остается, правда,
открытым вопрос о числе степеней свободы.
Это очень тонкий вопрос, и исчерпывающего ответа на него,
пожалуй, дать нельзя. Причиной тому служат два важных
момента: A) оценку (8.5) мы намерены использовать не только
для данных с нормальным распределением, B) сам ответ
представляет интерес только для случая относительно малых
объемов выборки, когда асимптотические приближения работают
еще плохо и очень сильно зависят от действительного
распределения F наблюдений.
Все сходятся во мнении, что соответствующее число степеней
свободы несколько меньше классического п—1, но насколько
оно меньше, остается только догадываться. Поскольку обычно
нас интересует 95 %-ный или 99 %-ный доверительный
интервал, по сути дела, имеет значение лишь поведение хвостов
распределения величины (8.7). В подавляющем большинстве
случаев это поведение определяется видом плотности величины Dn
вблизи 0. С этой точки зрения подход Хьюбера A970), в
котором нужное число степеней свободы определяется подгонкой
асимптотик моментов величины D2n к асимптотикам моментов
распределения %2, в какой-то мере может вводить в
заблуждение.
Несмотря на все эти «но», величины (8.5) и (8.7) прекрасно
работают в случае Л1-оценок; сравните с обширным
исследованием Шорака A976), пользовавшегося методом Монте-Карло.
(Способы получения и использования Шораком числа степеней
свободы df* ошибочны — величина df* не только неустойчива
относительно небольших отклонений функции ф, но даже, будучи
использованной в E), дает неверную асимптотику. Однако для
его любимой оценки Хэмпела расхождение величин df* и п—1
незначительно.)
Пример 8.1. Для Af-оценки Т сдвига из формулы (8.5) с
учетом полученного ранее выражения D.11) для функции влияния
получим
Пример 8.2. Случай а-урезанного среднего ха позволяет
провести поучительное и точное сравнение оценок разброса,
полученных методом «складного ножа», через функцию влияния.
Предположим, что выборка упорядочена: Х\ ^ х% ^ ... ^ хп.
Рассмотрим отдельно два случая.
Случай А. Выполнены неравенства g — 1 ^ (п — 1)а <
<na^g, g —целое число. Здесь при p = g — nay q = g —
— (п—1)а имеем: A — 2а)пха,п = pxg-\-x?+i + ... + *«-?+'
6.8. СТЫОДЕНТИЗАЦИЯ 155
-f- pXn-g+i. Псевдонаблюдения метода «складного ножа» могут
быть представлены в виде
где {л;]*'} есть а'-винзоризованная выборка (а' = а (я — 1)/п),
т. е.
!qxg-\-(l—q)xg+i при i^g,
х{ при g<i<n-g+l, (8.10)
A — q) xn_g + qxn_g+t при / ^ n — g + 1
и
-*+i). (8.11)
Таким образом, имеет место равенство
= ха, п г A _ 2а) П I ^ ' Х8+1 * Xn-g xn-g±lU (8.12)
поэтому дисперсия в методе «складного ножа» дается формулой
i — in) — n_x A - 2aJ
(8.13)
Случай Б. Выполнены соотношения (n—\)a = g — q^g^
^ g -[- р s= na, г<Э^ g — ^влоб число. Здесь имеем
A — 2а) ЯХа, п = A — р) Xg+X + Л?+2 + . . . + ^п-^-1 + О — Р) ^n-g-
(8.14)
Формулы (8.9) — (8.13) остаются справедливыми, если полагать,
что
А = qxg + pxg+{ + pxn-g + qxn-g+u (8.15)
и в (8.12) множитель перед квадратной скобкой заменить на
tn-g)q/{(l-2a)n).
Подход, основанный на формуле (8.5), т. е. на
использовании функции влияния, реализуется следующим образом.
Вычислим функцию влияния a-урезанного среднего по формуле
C.3.18). Как определять при этом величину Fnl(<*)— дело
вкуса: можно полагать Fnl{а) = Х[па)=х8> а можно получать Fn1 (a)
линейной интерполяцией, полагая Fnl (a) = pxg + A — р) xg+x для
156 ГЛ. 6. МНОГОПАРАМЕТРИЧЕСКИЕ ЗАДАЧИ
тех же g и р, что и в случае А. При любом выборе получается
представление
_2аJ
(8.16)
где параметр винзоризации, использованный в определении
выборки, есть соответственно g/n или ос. Ясно, что отличие этой
дисперсии от той, что "была получена выше для метода
«складного ножа», незначительно, что следует объяснить главным
образом теми небольшими различиями, которые имеются в
определениях оценок и выборочных функций распределения.
Впрочем, как нетрудно видеть, подход, основанный на функциях
влияния, в тех случаях, когда он применим, удобнее с точки
зрения вычислений.
ГЛАВА 7
Регрессия
7.1. ОБЩИЕ ЗАМЕЧАНИЯ
Робастность, связанная с регрессией, носит особый характер,
и здесь возникают довольно сложные задачи. Рассмотрим один
пример. Предположим, что требуется начертить прямую,
приближенно проходящую через 6 точек, координаты которых
представлены в таблице на рис. 7.1.1. Подгонка методом наимень-
Точка
1
2
3
4
5
6
Рис. 7.1
-4
-3
-2
-1
0
10
о.с.о.
.1.
.У
2,48
0.73
-0.04
-1.44
-1.32
0.
Подгонка
У
0.39
0.31
0.23
0.15
0.07
-0.75
/
у-у
2.09
0.42
-0.27
-1.59
-1.39
0.75
= 1.55
= 1.35
Подгонка В
У
•2.04
1.06
•0.08
-0.90
-1.87
-11.64
у-9
0.44
-0.33
-0.12
-0.54
0.55
A1.64)
о=0.55
-1.00
Подгонка J.
У
2.23
0.99
-0.09
-1.00
-1.74
0.01
у-у
•0.25
-0.26
-0.13
-0.44
0.42
-0.01
о=0.41
= 1.08
ших квадратов (подгонка 1) дает прямую, изображенную на
рис. 7.1.2, а. При поверхностном изучении приведенных на
рис. 7.1.1 данных может сложиться впечатление, что все
обстоит прекрасно: никакой из остатков не кажется слишком
большим, если сравнение проводится при помощи оценки
стандартного отклонения (о. с. о) от наблюдаемых значений. Однако
более тщательный анализ, в частности внимательное
рассмотрение рис. 7.1.2, а, наводит на мысль о сомнительности либо точки 1
(в которой самое большое значение остатка), либо, возможно,
точки 6. Если последнюю не учитывать, то получится
подгонка 2, изображенная на рис. 7.1.2,6. Но не исключено, что
линейная модель просто не подходит и следует воспользоваться
158 ГЛ. 7. РЕГРЕССИЯ
Рис. 7.1.2. а—подгонка 1; б — подгонка 2; в —• подгонка 3.
параболой (подгонка 3, рис. 7.1.2,в). Совершенно очевидно, что
для того, чтобы делать умозаключения о достоинствах и
недостатках этих подгонок, приведенных данных не достаточно. Если
судить по остаточной ошибке а, то следует склониться к
третьему варианту, которому соответствует самое низкое ее
значение. На самом же деле этот пример искусственный, и точки были
получены следующим образом: к шести точкам, лежащим на
7.2. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ 159
прямой у = —2 — х были добавлены случайные ошибки: с 1-й
по 5-ю — нормальные ошибки (с нулевым средним и
стандартным отклонением 0.6), а к 6-й —большая ошибка 12. Таким
образом, подходящей будет подгонка 2 — она почти полностью
совпадает с исходной прямой.
В нашем случае было только 2 параметра, так что графики
вроде представленных на рис. 7.1.2 помогают распознать точку 6,
интуитивно вызывающую недоверие даже при скромных
размерах соответствующего остатка. Но как быть, когда мы имеем
дело с более сложными многопараметрическими задачами?
Трудность здесь заключается в том, что большая ошибка вовсе
не обязательно проявит себя в большом остатке. По причине
общего роста других остатков она окажется как бы затянутой
дымовой завесой. Чтобы разобраться с возникшими
затруднениями, следует
A) Найти аналитические методы для выявления так
называемых точек разбалансировки, т. е. таких точек в плановом
пространстве, где некое наблюдение в силу своего положения
может повлиять на додогнанную кривую непредсказуемым
образом, а также и на свое приближенное значение. Так,
наблюдение может быть самым важным в выборке (например,
отдельное наблюдение астрономов далекой древности), но его
значение трудно или вовсе невозможно перепроверить.
B) Найти обычные методы для робастного оценивания
коэффициентов регрессии для случая, если точек разбалансировки
не оказалось.
C) Найти методы оценивания, которые при наличии
умеренно плохих точек разбалансировки будут вести себя
достаточно корректно и робастно.
Ничего удивительного, что из перечисленных пунктов
труднее всего удовлетворить последнему.
Мы оставляем в стороне все вопросы, связанные с гребневой
регрессией, оценкой Стейна и т. п. Нам кажется, что эти
вопросы и робастность находятся в практически ортогональных
плоскостях, так что их можно совмещать друг с другом, не
опасаясь при этом серьезных накладок.
7.2. МЕТОД НАИМЕНЬШИХ КВДДРАТОВ
В КЛАССИЧЕСКОМ ЛИНЕЙНОМ СЛУЧАЕ
В настоящем параграфе ставится цель изучить и понять
некоторые вопросы, связанные с точками
разбалансировки.
Предположим, что для оценки р неизвестных параметров
0ь ..., 6р используются п наблюдений уи ..., уп, причем эти
160 ГЛ. 7. РЕГРЕССИЯ
величины связаны соотношением
где хц суть известные коэффициенты, а щ — независимые
случайные величины, имеющие (приблизительно) одинаковые
функции распределения. Можно воспользоваться матричными
обозначениями:
у = *9 + и. B.2)
В классической постановке задача сводится к минимизации
суммы квадратов
Е (у* - Е XifiiY = min I, B.3)
или, что эквивалентно, к решению системы р уравнений,
полученной дифференцированием выражения B.3):
0. B.4)
Последнее с использованием матричных обозначений можно
записать в виде
2ГХв = Хту. B.5)
Если X — матрица полного ранга р, то решением будет
B.6)
а подогнанные значения (т. е. оценки уг методом наименьших
квадратов ожидаемых значений Eyt = {XB)i наблюдений)
получаются по формулам
Hy9 B.7)
Н = Х(ХТХ)~1ХТ. B.8)
Матрицу Н будем называть матрицей подгонки.
Заметим, что Н — симметричная проективная п X п-матрица,
т. е. НН = НУ имеющая р собственных значений, равных 1, и
п — р нулевых собственных значений. Ее диагональные
элементы hi = hu и след tr(#) удовлетворяют соответственно
формулам
0^А/^1, B.9)
tr(#) = p. B.10)
Будем предполагать, что ошибки щ независимы и одинаково
распределены, имеют нулевое среднее и конечную дисперсию
(функция распределения F, EM*=0, E^ = 0r9<00)- Пусть,
далее, наша регрессионная* задача представляет собой одну за-
7.2. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ 161
дачу из бесконечной последовательности аналогичных задач,
такой, что число наблюдений п и, возможно, число параметров
р стремятся к оо; индекс, указывающий положение нашей
задачи в последовательности, опускается.
Нас интересуют следующие вопросы: при каких условиях
подогнанное значение ^ состоятельно, т. е. когда имеет место
сходимость по вероятности
O. B.11)
При каких условиях все подогнанные значения состоятельны?
Поскольку Ей = 0, оценка у несмещенная, т. е.
Еу=Еу = Х9. B.12)
Следовательно, справедливы соотношения
B.13)
2 B.14)
(заметим, что 2*Л?* = А/, так как матрица Н симметрична и
идемпотентна).Таким образом,согласно неравенству Чебышева,
P[\6i -ЕЫ|^б]<М2/е2. B.15)
Доказана достаточность в следующем предложении.
Предложение 2.1. Предположим, что ошибки щ независимы,
имеют нулевое среднее и общую дисперсию а2 < оо. Значение
0t состоятельно тогда и только тогда, когда Л,->0, а все
подогнанные значения ()i состоятельны тогда и только тогда, когда
h = maxi <*<rtht -*0.
Доказательство. Нужно доказать необходимость.
Заметим, что Qt — ?#{ = htui + 2%^ i hikuk и что для
независимых случайных величин X и Y выполняются неравенства
> min [Р (X > е), Р (X < - в)].
Отсюда легко получаем утверждение:
Р (IЛ< — ЕЛ: | > е) >min [Р (щ > в/Л/), Р (ш ^ —в/А/) ]. ¦
Обратите внимание на тот факт, что h = max А/ ^ ЕЛ/ =
s= tr (Я) /п = р/п\ следовательно, без сходимости р/п-*0
невозможна сходимость Л к нулю.
6 Зак. 617
162 ГЛ. 7. РЕГРЕССИЯ
Если выполняются условия предыдущего утверждения, то
легко вывести следующие соотношения:
Ogi = hio\ B.16)
B.17)
B.18)
cov {yt - pi9 yk - gk) = F/Jk - hik) a2, B.19)
cov @i9 yk — &) = 0 для ,всех f, ft. B.20)
Введем оценку наименьших квадратов для произвольной
линейной комбинации a = аг9:
й=Х)ауе/ = агв. B.21)
Если распределение F нормальное, то очевидно, что и а
нормальна.
Нас интересует, при каких условиях а асимптотически
нормальна (при р, п->оо)9 если распределение F отличается от
нормального?
Мы можем выбрать такую систему координат в
параметрическом пространстве (не нарушив при этом общности), что
ХТХ = / будет единичной матрицей размера рХР- Далее,
положив ага = 1, имеем 8 = Хту и
B.22)
B.23)
B.24)
B.25)
Предложение 2.2. Оценка а асимптотически нормальна тогда
и только тогда, когда max,-|s/|-*0.
Доказательство, Если max/1 si [7^0, то у а либо вовсе нет
предельного распределения, либо если оно имеется, то может
быть представлено в виде свертки двух распределений, одно из
которых F (с точностью до масштабного множителя).
Следовательно, это распределение не может быть нормальным (Фел-
лер A967, с. 600)). Если у = max/|sf|-*0, то легко проверить
выполнение условия Линдеберга (и тем самым завершить
доказательство) :
где
Таким
образом,
а =
8*8
= агв = аг
= ътХтХъ
= ага
sry,
= 1.
"^г21
7.2. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ 163
Заметим, что в силу неравенства Шварца имеем
Таким образом, мы получили следствие, которое сформулируем
в виде теоремы.
Теорема 2.3. Если h = max/ hi -> 0, то все оценки
наименьших квадратов а=Ха/^/ = аГ9 асимптотически нормальны.
Если указанное условие не выполняется, то, в частности,
некоторые из подогнанных значений не будут асимптотически
нормальными.
Доказательство. Прямое утверждение следует
непосредственно из предыдущего предложения. Для доказательства обратного
утверждения напомним, что фг = ? hikyk. Для каждого п
выберем такое t, что hr= h. Тогда нормированная
последовательность [fa — Е (Pt)]/^ht имеет нулевое среднее и дисперсию,
равную а2, но она не может быть асимптотически нормальной. ¦
Остатки и выделяющиеся значения. Для /-го остатка
справедливо следующее соотношение.
П = Уг - рй = A - hd yi-Z hikyk. B.26)
кФ1
Таким образом, если hi по величине близко к 1, то большая
ошибка в tfi не обязательно проявит себя в п. Но она может
проявиться еще где-нибудь, например в г*, если hki окажется
достаточно большим. Так, в примере из § 7.1 (подгонка 1)
таким было Аб = 0.936. Точки, которым соответствуют большие А/,
и будут по определению точками разбалансировки.
Можно утверждать, что величина I/hi представляет собой
некий эквивалент числа наблюдений, фигурирующего в
определении у и Далее будет показано, что если hi = \/k и если мы
введем еще одну i-ю строку матрицы X (проведем
дополнительные наблюдения), то hi заменится на 1/(&+ 1). Иначе говоря,
если Ы велико, то его легко уменьшить, удвоив или утроив
наблюдения уи (На самом деле проводится приблизительное
дублирование, т. е. наблюдение при слегка измененных условиях;
это предпочтительнее точного дублирования, поскольку
позволяет избежать повторения систематических ошибок.)
Распишем теперь это во всех Подробностях. Имеем
B.27)
Что произойдет, если добавить к X еще одну вектор-строку хг:
B.28)
164 Г#: ?• Р5ГРЕС0ИЯ
Будем предполагать (без потери общности), что ХТХ = 1;
тогда
ХТХ = / + хх7*. B.29)
Нетрудно убедиться, что
2^ B.30)
Также легко получить модифицированную матрицу Я:
ххт-
(Хх) (Хх)т
1 +хгх
(Хх)т
1+хгх
1
1
Хх
4-х1
х^х
+ х7
г '
X
X
B.31)
Пример 2.1. Продублируем строку п. Тогда (все еще
предполагается ХТХ = /) имеем хтх = Нп и, стало быть,
, B.32)
Так как возможность неоднозначного толкования исключается,
знак тильду над АЛ+1 можно опустить. В частности, если hn = 1/ЛГ,
то АЛ+1 = 1/(*+1).
Пример 2.2. Удалим строку (например, строку «+л1 после
того, как мы ее добавили):
A) В случае когда строка л+ 1 присутствует, из B.31) имеем
D (U+i) - hn+lo* - f Xr a2. B.33)
1 +х х
B) В случае, когда строка п + 1 удалена, обозначим через ап+\ оценку
для Ё(#я+1), основанную на оставшихся наблюдениях уи ..., уп. Имеем
хг6, B.34)
а2. B.35)
Заметим, что Q(an+i) больше D(i/n+i), если hn+\ >
1/2.Справедливо равенство
^н-1 = A — Лл+i) art+i Ч- Ая+1Уя+ь B.36)
означающее, что (п+1)-е подогнанное значение представляет
собой выпуклую линейную комбинацию прогнозируемого
значения ссл+i (для него наблюдение уп+\ не учитывается) и
наблюдения уп+\ соответственно с весами 1—hn+\ и Ая+1. Это станет
ясно, если обратиться к последней строке матрицы Я,
7.3. РОБАСТНЫЙ ВАРИАНТ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ 165
Последнюю формулу можно представить в другом виде, если
использовать остатки:
Гп+\ = Уп+\ — dn+i = A — A/1+i) (Ул+i — ctn+i). B.37)
Получено весьма важное соотношение, связывающее между
собой обычный остаток уп+\ — &п+\ с остатком уп+\— ая+ь в
который входит «интерполированное» без учета наблюдения уп+\
значение С6я+1.
Разумеется, все выписанные выше соотношения справедливы
для произвольного индекса, а не только для / = л+ 1.
Из проведенного обсуждения можно заключить, что
диагональ подгоночной матрицы весьма информативна. В частности,
большие значения hi должны служить предупредительным
сигналом о том, что /-е наблюдение может играть решающую, едва
ли поддающуюся контролю роль. Значения hi <; 0.2 выглядят
достаточно надежными; значения между 0.2 и 0.5 кажутся
рискованными, и если имеется возможность управлять моделью
в целом, то значений, превышающих 0.5, лучше избегать.
7.3. РОБАСТНЫЙ ВАРИАНТ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ
Формулы B.3) и B.4) для классического случая можно
превратить в робастные: вместо того чтобы минимизировать сумму
квадратов, будем минимизировать сумму менее быстро
растущих функций — функций от остатков:
i - ? xtfii) = min!, C.1)
или (если взять производную) решать систему
lk = 09 * — l. •¦•» Р> C.2)
где г|) = р'. Если р — выпуклая функция, то эти два подхода
в сущности эквивалентны; в противном случае нахождение
«лучшего» решения для C.2) может породить дополнительные
трудности.
Введем обозначение для /-го остатка:
Ti = тг @) = yt ~- Z Xifit. C.3)
Заметим, что C.2) можно считать векторным произведением
вектора остатков г и &-го вектора-столбца матрицы X, в
которое введена робастность. Здесь остатки г< заменены их винзори-
зованными вариантами (ф
166 ГЛ. 7. РЕГРЕССИЯ
Обычно масштаб неизвестен, так что необходимо сделать
формулу C.2) инвариантной относительно масштаба. Для этого
введем некоторую оценку 5 масштаба:
2>(ri/s)*i*-0. C.4)
Можно пользоваться индивидуальными масштабами, и, более
того, можно для различных наблюдений использовать различные
функции pi и -ф f.
Здесь предполагается, что все хц известны и свободны от
ошибок. Если бы это было не так, то было бы целесообразно
модифицировать не только вектор остатков г, но и
вектор-столбец х, для того чтобы добиться робастности и относительно
ошибок коэффициентов хц. Предложен ряд очевидных приемов,
позволяющих добиться этого; они выглядят внушающими доверие,
но все еще нуждаются в серьезном теоретическом обосновании.
Есть опасение, что они могут принести больше вреда
(привнесением смещения), чем пользы.
Получим /^-оценки регрессии, если вместо выражения C.1)
будем минимизировать
C.5)
Здесь Ri есть ранг п в (ги ..., гЛ), а ап{-) — некая монотонная
весовая функция, удовлетворяющая соотношениею 2л ^@ = 0
(Джекл A972)). Заметим, однако, что этими оценками нельзя
оценить основной аддитивный эффект и что оценки сдвига не
входят в них в качестве частного случая. Напротив, чтобы
оценить основной аддитивный эффект, следует применить к
остаткам оценки сдвига.
Продифференцировав сумму в C.5), представляющую собой
кусочно-линейную выпуклую функцию от 0, получим
приближенные равенства:
Эти равенства в свою очередь можно превратить в задачу
минимизаций, например
\Z \ C.7)
Последнее было предложено в работе Юречковой A971), а
асимптотическая эквивалентность соотношений C.6) и C.7)
была доказана в работе Джекла A972). Задача решения C.6)
или C.7) методами линейного программирования кажется
невероятно трудной, если только значения ри п не будут совсем
7.4. АСИМПТОТИКИ ДЛЯ РОБАСТНЫХ ОЦЕНОК РЕГРЕССИИ 167
Все регрессионные оценки допускают одношаговые
процедуры: начинаем с некоторой достаточно хорошей предварительной
оценки 8* и затем применяем шаг метода Ньютона к C.2)
и т. д., точно так же, как в случае сдвига. Одношаговая L-оценка
регрессии была предложена Бикелом A973). Однако здесь
очень трудно найти хорошую предварительную оценку. Мы
знаем, что в случае сдвига оценка методом наименьших
квадратов, т. е. выборочное среднее, не подходит для одношаговых
оценок. Точно так же выборочная медиана, которая дает
блестящую начальную точку для сдвига, была бы так называемой
?роценкой (соответствующей р(Х) = \Х\), вычисление которой
значительно более трудоемко, чем вычисление большинства ро-
бастных оценок регрессии.
По-видимому, М-оценки обеспечивают достаточную гибкость
и благодаря им легче всего одновременно справиться с тем, что
относится к вычислениям, асимптотической теории и
интуитивному толкованию. Более того, формулы B.3) — C.1) легко
доступны и для тех, кто далек от математической статистики.
Поэтому для случая регрессии ограничимся М-оценками.
7.4. АСИМПТОТИКИ ДЛЯ РОБАСТНЫХ ОЦЕНОК РЕГРЕССИИ
Для получения асимптотик наиболее очевиден такой подход:
фиксируем число р параметров и устремляем число п
наблюдений к бесконечности. На практике, однако, величины р и п
имеют тенденцию к одновременному росту. Так, в
кристаллографии— области, в которой возникают самые крупные задачи с
тысячами параметров, решаемые методом наименьших
квадратов,— даются явные рекомендации использовать не менее пяти
наблюдений на каждый параметр (Гамильтон A970)). Это
наводит нас на мысль о том, что можно построить разумную
асимптотическую теорию, если исходить из условия р/п^0у или, что
по-видимому лучше, из Л = тахЛ/->0. Главная мысль, которая
позже получит некоторое реальное подтверждение, здесь такова.
Если в асимптотической теории требуется, скажем, сходимость
р3/п-+0, что обеспечивает хорошую аппроксимацию для п = 20
при р = 1, то при р == 10 потребуется п = 20 000 для получения
столь же хорошей аппроксимации! В асимптотической теории
с фиксацией числа параметров р такие тонкости вообще
неразличимы.
Наше изложение начнем с краткого обсуждения условий
регулярности, которые разделены на три части: условия на
матрицу плана X, на оценку и на законы распределения ошибо*к.
Условия на матрицу плана X. Предполагается, что X —
матрица полного ранга р и что диагональные элементы матрицы
ХТ D.1)
168 ГЛ. 7. РЕГРЕССИЯ
равномерно малы, т. е.
max hi=h< 1. D.2)
Точно порядок малости определяется в каждом конкретном
случае. Не ограничивая общности, выбираем такую систему
координат в параметрическом пространстве, чтобы 6° = 0 и ХТХ
была единичной р X р-матрицей.
Условия на оценку. Предполагается, что р — выпуклая
немонотонная функция, имеющая ограниченные производные
достаточно высоких порядков (приблизительно 4). В частности,
функция г|)(х) = (d/dx)p(x) должна быть непрерывной и
ограниченной. Выпуклость функции р служит гарантией эквивалентности
соотношений C.1) и C.2) и асимптотической единственности
решения. Если мы готовы отказаться от этого и удовлетвориться
локальной единственностью, то предположение о выпуклости
можно опустить. Для технических целей удобно иметь
производные и более высоких порядков, так как тогда можно разлагать
функцию в ряд Тейлора, но на окончательных результатах это,
по-видимому, не отразится.
Условия на законы распределения ошибок. Предполагается,
что ошибки щ независимы, одинаково распределены и
0. D.3)
Это требование накладывается для того, чтобы математическое
ожидание C.1) достигало минимума и математическое
ожидание C.2) обращалось в нуль при истинном значении 6°.
Предположение о независимости представляет собой
серьезное ограничение. Предположение о том, что ошибки одинаково
распределены, упрощает обозначения и вычисления, но их легко
ослабить: «случайные» отклонения (т. е. не связанные со
структурой X) могут быть смоделированы при помощи одинаковых
распределений (полученных «усреднением» общего
распределения). Неслучайные отклонения (т. е. изменения масштаба,
систематическим образом зависящие от X) могут быть обработаны
минимаксной процедурой, если они малы; если же эти
отклонения велики, то нарушено положение о робастности.
Случай Ар2->0 и йр->0. Простое, но строгое решение
можно получить в случае ftp2-»*0 или, с менее сильными
результатами, в случае hp-*0. Заметим, что это влечет за собой соот<
ветственно р*/п-+0 и р2/п-+0. Весьма умеренные значения р
приводят к очень большим и практически неосуществимым зна»
чениям п.
7.4. АСИМПТОТИКИ ДЛЯ РОБАСТНЫХ ОЦЕНОК РЕГРЕССИИ 169
Основная идея состоит в сравнении нулей двух векторных
случайных функций Фи^от 9:
=YWJ ? ¦ [Vi - ? */А) *,/. D.4)
Нуль в функции Ф и есть оценка. Нуль в функции ?,
разумеется, не будет подлинной оценкой, но, согласно
теореме 2.3, все линейные комбинации а = ? afif асимптотически
нормальны при А->0. Так что можно доказать асимптотическую
нормальность § (или, даже лучше, а =?#/()/)> показав, что
разность между вив мала.
Пусть а/ — неизвестные коэффициенты, удовлетворяющие
равенству 2) а/— 1. Для краткости введем обозначения
Si = ? xifli* D.7)
*i-E*iA. D.8)
В силу ХТХ — /, имеем
llt|p = (ze)rxe=neii2, D.9)
II в IP— I- D.10)
Разложим 2^Фу(9) в ряд Тейлора с остаточным членом
где 0<t]<l. Сгруппировав подобные члены, получим
Ха/1ф/(в)-^/(е)] =
= У AlkaД - -5=7ф7Г У! +" (У* ~ ?<) &ь D.12)
где
^ ? '(У<) ~ Et|)'{yi)] Xl'Xlk' D'13)
170 ГЛ. 7. РЕГРЕССИЯ
Попытаемся доказать, что Ф — ЧГ равномерно мало в
окрестности точки 8 =в 0, или, точнее, что D.12) равномерно мало на
множествах
D.14)
части
(I Д,*аАJ < I A% S а) I б| = S А'»1 в if- D.16)
Согласно неравенству Шварца, первый член в правой части
D.12) ограничен:
Имеем
D.17)
Пусть задано б > 0. Тогда по неравенству Маркова существует
постоянная
такая, что
Р{Ъ$ьЖМ<Ъ. D.19)
Мы заключаем, что с вероятностью, превышающей 1 — б,
одновременно для всех (а, в) из D.14) выполняется неравенство
(ЕА/*аАJ<**ЛА D.20)
Пусть ty" ограниченна, например ^"(х)!^ 2|Е('ф/) \М для
некоторого М\ тогда
D.21)
(напомним, что s\ < X) х\} ? a2j = fn; см. также D.9)).
Если объединить полученное, то можно заметить, что с
вероятностью, превышающей 1 — б, абсолютное значение
выражения D.12) ограничено величиной
г = [ (KKi) w + МК] (Ар2) '/2, D.22)
и это имеет место равномерно на множестве D.14). Поскольку
эти результаты выполняются одновременно для всех а, таких,
что ||а||= 1, то фактически можно утверждать, что с
вероятностью, превышающей 1 — б,
ОФ(в)-ЧГ(в)||<г при ||е||2</(р, D.23)
7,4. АСИМПТОТИКИ ДЛЯ РОБАСТНЫХ ОЦЕНОК РЕГРБдСВД 171
Так как
= г,- /«ь'ма Р> D.24)
и если К выбрано достаточно большим, то в силу неравенства
Маркова имеем, что вероятность
Р{Ш\2^Кр/4) D.25)
можно сделать как угодно большой. Более того, на множестве
Ц9Ц2 ^ Кр имеют место неравенства
11Ф(е)-е||<||Ф(в)-^(в)Ц + ||в||^г + (/(рI/72. D.26)
Если ftp-»-О, то г может быть сделано меньше (Кр)х/2/2,
поэтому из D.26) следует, что на множестве ||0||^ {КрI/2
выполняется
2. D.27)
Но это в точности посылка теоремы Брауэра о неподвижной
точке: мы заключаем, что отображение 8->8— ФF) имеет
неподвижную точку в, которая обязательно будет нулем функции
Ф(в), причем ||5||<(*рI/2.
Если вместо в в формулу D.23) подставить 8, то
|D-ff|<r. D.28)
Итак, мы получили
Предложение 4.1. A) Если Лр2->0, то
||в — 8||->0 по вероятности. D.29)
B) Если /ф-*0, то
Ив — e||/pI/2->0 по вероятности. D.30)
(Заметим, что в силу D.24) имеем ||8— 8°||~р1/2.)
Пусть теперь а=?а/8/ и а = 5] а/8/ при ||а||= 1.
Напомним, что а именно та оценка, которая исследуется, а а
представляет собой сумму независимых случайных величин; она
асимптотически нормальна, если h->0.
Предложение 4.2. A) Если Ар2->0, то
lct —а |->0 по вероятности. D.31)
B) Если а выбрано случайным образом для инвариантной
меры на сфере ||а||= 1 и если Лр->0, то
а — а->-0 по вероятности. D.32)
Если выполнены оба условия, то а асимптотически нормальна.
172 ГЛ. 7. РЕГРЕССИЯ'
Доказательство. A) является непосредственным следствием
пункта A) предыдущего предложения; аналогично B) есть
следствие пункта B) предложения D.1) и того факта, что
среднее |а—-а|2, взятое по сфере ||а|| = 1, равно ||0 — вII2//?. ¦
Замечание 1. Мы в сущности показали, что ФF)
асимптотически линейна в окрестности точки 8° истинного параметра. На
самом деле предположение 8° = 0 использовалось лишь
однажды, именно в D.27). Если 8*-— любая оценка,
удовлетворяющая ||8* — 8°||= Ор(р1/2), то точно так же можно показать,
что всего лишь один шаг метода Ньютона для решения
уравнения с пробным значением 8* приводит к оценке 8*,
удовлетворяющей ||8* — 8[|->0, ||8* — 8||->-0 по вероятности, если только
Л20
Замечание 2. Недавно йохаи и Маронна A979) установили
этот результат и показали, что а асимптотически нормальна при
произвольном выборе а, предполагая вместо /гр2->0 лишь
Лр3/2->0. Думается, что условие hp-^О будет достаточным для
того, чтобы D.32) выполнялось для произвольного а, и что
условие hpl/2-+Q необходимое, если распределение либо для щ, либо
для р несимметрично. Если же оба распределения симметричны,
то, по-видимому, уже условие h-+Q будет достаточным, как в
классическом случае метода наименьших квадратов.
7.6. НЕКОТОРЫЕ ПРЕДПОЛОЖЕНИЯ И ПРАКТИЧЕСКИЕ ВЫВОДЫ
Асимптотическая теория, которая строится на предпосылке
hp2-+0 (а следовательно, a fortiori pz/n-*-Q) для всех
практических целей абсолютно беспомощна; немногим лучше обстоит
дело и в случае /ф->0 — даже для сравнительно небольшого
числа параметров нам потребуется сделать невероятно большое
количество наблюдений. То, что мы не умеем доказывать
теоремы, предполагая лишь А->0, еще не означает, что робастные
оценки не способны быть состоятельными и асимптотически
нормальными. Но что, если они и в самом деле не способны? Чтобы
научиться хоть как-то разбираться в том, что происходит,
прибегнем к помощи асимптотических разложений. В последних
отсутствуют остаточные члены, так что результаты получаются
неточные, но их можно уточнить методом Монте-Карло.
Достаточно подробно разложения описаны в работе Хьюбера A973а);
здесь мы отразим лишь наиболее существенные моменты.
Смещение. Предположим, что либо функция распределения
ошибок ш, либо функция р, либо они обе несимметричны. Тогда
параметры, которые мы собираемся оценивать, из соображений
симметрии определять нельзя; мы предпочли установить их,
исходя из соглашения Ег|)(а*)=0. Например, оценка Тп сдвига,
7.6. НЕКОТОРЫЕ ПРЕДПОЛОЖЕНИЯ И ПРАКТИЧЕСКИЕ ВЫВОДЫ 173
определяемая равенством ?/=1*ф (ut — Тп) = О, асимптотически
нормальна и имеет среднее, равное нулю, но при конечном п
ее распределение несимметрично и плохо центрировано
относительно нуля.
Рассмотрим, далее, следующий простой регрессионный план
(представляющий собой в сущности наихудший случай из
возможных); Предположим, что имеется р неизвестных параметров
0ь ..., 0Р; для каждого из них проведем г независимых
наблюдений и еще одно наблюдение уп, чтобы проверить совокупную
величину
Здесь п = гр + 1 есть общее число наблюдений и
соответствующая матрица Н оказывается сбалансированной, т. е. все ее
диагональные элементы hi равны р/п.
Из интуитивных представлений понятно, что любая робаст-
ная оценка регрессии для вектора @i, ..., 0^) во всех
практических ситуациях эквивалентна оцениванию по отдельности р
параметров по формуле ?[-ф(у, — Q{) = 0 и т. д., поскольку
последнее наблюдение уп взвешенной суммы могло бы иметь лишь
пренебрежимо малое влияние. Так что прогнозируемым
значением этого последнего наблюдения будет
где каждое 0* оценивалось по г наблюдениям отдельно.
(Определение величины g в статье Хьюбера A973а, с. 810) следует
читать, как g2 = r/(n — р).) Однако распределения величин 0;
несколько несимметричны и не идеально центрированы
относительно их «истинных» значений. Так что, если провести
подробные вычисления, можно убедиться, что ап подвержено смещению
порядка р3/2/я. Заметим, что порядок асимптотической
дисперсии величины ап есть р/п, так что смещение, выраженное в
единицах стандартного отклонения, есть р/п1/2. Асимптотическое
поведение подогнанного значения §п разумеется совпадает с
поведением величины ап-
Иначе говоря, если Л = р//г-*О, но р3/2/я->сх>, может
случиться так, что остаток гп = Уп — $п станет бесконечно расти не
потому, что в уп имеется большая^ ошибка, а потому, что при
суммировании малых смещений в в/ получится большое
смещение в ^л! Однако поспешим добавить, что это смещение порядка
л/р р/п асимптотически пренебрежимо мало по сравнению со
смещением д/г/(/г — р) р& ** л/р б, вызванным систематической
ошибкой +б во всех наблюдениях.
174 ГЛ. 7. РЕГРЕССИЯ
Кроме того, количественные аспекты здесь таковы, что
далеко не просто обнаружить это явление при моделировании
методом Монте-Карло: при р/п = 1/8 понадобится р « 100, чтобы
сделать смещение величины уп приблизительно равным (Ь&пI/2;
при этом функции распределения ошибок в большой мере
несимметричны (распределения %2 с двумя или четырьмя
степенями свободы).
Из всего сказанного можно вывести следующие практические
рекомендации.
A) Смещения, вызванные несимметричностью функций распределений
ошибок, могут пошатнуть здание асимтотической теории, но для
большинства практических приложений этими смещениями можно пренебречь,
поскольку они достаточно малы.
B) Смещения бывают самыми большими в ситуациях, которых следует
избегать еще и по другой причине (робастность плана), а именно в
ситуациях, когда оценка производится путем интерполяции наблюдений, далеко
отстоящих друг от друга в плановом пространстве. Так было в нашем
примере, где величина а « J]0;оценивалась по наблюдаемым значениям
отдельных 6/. В подобных случаях отклонения от линейной модели могут вызвать
большие отклонения в подогнанных значениях.
7.6. АСИМПТОТИКИ КОВАРИАЦИЙ И ИХ ОЦЕНИВАНИЕ
Матрица ковариаций для оценок внк, полученных
классическим методом наименьших квадратов, обычно оценивается
следующим образом:
cov (9„к) ~ [1/(« - р)](? rVj (XTX)-\ F.1)
Как изменится это соотношение в случае робастности?
Предельным выражением для ковариаций робастной оценки
в силу предложения 4.1 будет
\ F.2)
из которого непосредственно получаем оценку
Если мы хотим вернуться к формуле F.1) в классическом
случае (ty(x) = x)y то следует умножить правую часть F.3) на
п/(п — р) и, возможно, ввести другие поправки порядка h =
= р/п. Возможно, также, что придется заменить матрицу ХТХ
чем-то вроде
IP/*-S ¦'(',)*,/*,» F.4)
Далее, что, по-видимому, даже еще важнее, целью
асимптотических разложений, упомянутых в предыдущих параграфах,
7.6. АСИМПТОТИКИ КОВАРИАЦИЙ И ИХ ОЦЕНИВАНИЕ 175
является нахождение выражений для поправочных членов
порядка Л.
Выражения для общего случая чрезвычайно громоздки, но
для сбалансированной матрицы (Ы = h = р/п), симметричных
функций распределения ошибок и несимметричной функции -ф,
если мы предположим, что К р < /i, и пренебрежем членами
порядков к2 = (р/пJ или 1/я, то получим следующие
выражения для несмещенных оценок covF):
) ( т г, (
(Ь.О)
K F.7)
Поправочные коэффициенты представлены в виде степеней К:
^-^t-Tewop- F-8)
Обычно величины Е(г|/) и D(^/) не известны и их оценивают по
формулам
E(t')«/n=(l/n)Zf (n), F.9)
A/л) Z (*' (г,) - тJ. F.10)
В частном случае i|)(лс) = min[с, max(—с, х)] вид выражения
F.8) упрощается:
где m есть относительная частота остатков п9 —с < п < с.
Заметим, что в классическом случае формулы F.5) — F.7)
приводятся к виду F.1).
В простом случае сдвига (р = 1, хц = 1) эти три выражения
совпадут, если положить К = 1 (т. е. пренебречь членами
порядка 1/га).
Относительно подробностей и сравнения с результатами,
полученными по методу Монте-Карло, см.статью Хьюбера A973а).
Для нормально распределенных ошибок результаты разложения
в ряд и моделирования методом Монте-Карло прекрасно
совпадают вплоть до р/п = 1/4, для ошибок Коши совпадают до
р/п = 1/16 и все еще приемлемы при р/п = 1/8.
176 ГЛ. 7* РЕГРЕССИЯ
Примечание, Так как 9 можно формально считать решением взвешенной
задачи оценивания методом наименьших квадратов
веса Wt =s yh(n)/ri в которой зависят от выборки, то другой вариант
выражения для ХТХ
" vlxiixik F.13)
вместо F.4) кажется весьма заманчивым, если еще вместо ( ^ф2 (rj))l(n -" р)
воспользоваться
В общем случае, однако, выражение F.14) не робастно (величина
wir\=s'^{ri)ri будет ограниченной, только если ф — убывающая функция)
и оно не дает состоятельной оценки для E(i|>2). Так что надо серьезно
подумать, следует ли пользоваться формулой F.14).
Вместо матрицы ХТХ можно было бы воспользоваться подходящим
образом нормированной матрицей F.13):
[Zwixaxik]/[^n)Zwil <6Л5>
как мы поступили с Т^в формулах F.6) и F.7), но тогда выражения для
поправочных коэффициентов смещения становятся чрезвычайно сложными.
7.7. СОПУТСТВУЮЩИЕ ОЦЕНКИ МАСШТАБА
До сих пор ради простоты предполагалось, что масштаб
известен и постоянен. В реальных задачах, однако, нам придется
оценивать параметр а масштаба и вместо системы уравнений
C.2) решать
Это приводит к некоторым техническим затруднениям, как
это было в гл. 6, но никак не влияет на асимптотики. Дело в том,
что если имеется некая оценка, для которой подогнанные
значения t)i состоятельны, то исходя из соответствующих остатков
n = yi — fa можно состоятельно оценить масштаб а и затем
использовать это а в G.1) для подсчета окончательной оценки 0.
На практике оценки 6 и а вычисляются одновременно
итеративными процедурами (что может вызвать известные трудности
при доказательствах их сходимости).
Какой же оценкой масштаба мы будем пользоваться? Для
простого случая сдвига вполне определенный ответ дают
результаты принстоыского исследования (Эндрюс и др. A972)):
лучшими будут оценки, использующие медиану абсолютных
значений отклонений
a = med{N}, G.2),
7.7. СОПУТСТВУЮЩИЕ ОЦЕНКИ МАСШТАБА 177
выраженных остатками относительно выборочной медианы. Этот
результат дает теоретическое обоснование тем фактам, что
медиана абсолютных значений отклонений A) минимаксна
относительно смещения (см. § 57) и B) имеет наибольшую из
возможных пороговых точек (е* = 1/2).
Использование медианы абсолютных значений отклонений
в формуле G.2) в случае регрессии менее оправданно.
Во-первых, ее невозможно вычислить заранее (аналог выборочной ме-
дианы — Li-оценка — может вычисляться дольше, чем наша
искомая оценка в). Во-вторых, нам все еще недостает
доказательства сходимости для процедур одновременной итерации G.1) и
G.2) (которые, однако, для реальных задач зарекомендовали
себя неплохо).
Несколько обобщим постановку, предполагая далее, что
оценки 0 и а удовлетворяют системе уравнений относительно 8
и а (функции ft не обязательно линейны):
0, 1-Х Р. G.3)
0. (ТА)
Заметим, что эти уравнения, в частности, дают
A) Оценку максимального правдоподобия. Предположим,
что плотность распределения наблюдений имеет вид
тогда по формулам G.3) и G.4) можно получить оценки
максимального правдоподобия, если положить
V(x) = -g'(x)/g(x) G.6)
%(х) = х*(х)-1. G.7)
B) Медиану абсолютных значений отклонений в качестве
оценки масштаба, если положить
X(*)=sgn(H-l). G.8)
Если функции г|э и % никак между собой не связаны, при
доказательстве существования и сходимости могут возникнуть
некоторые трудности. Исключительно из технических соображений
введем следующую задачу минимизации:
G.9)
где функция р выпукла и в точке 0 имеет минимум, строго
больший нуля. Взяв частные производные от обеих частей G.9) по
178 ГЛ. 7. РЕГРЕССИЯ
0/ и or, получим следующие соотношения, характеризующие
точку минимума:
57 = °' G.10)
= 0, G.11)
-ф (л:) = р' (лг), G.12)
Х(х)=Х^(х)-р(х). G.13)
Заметим, что при х ^ 0 производная %'(х) = х$'(х)
отрицательна, а при х ZSs 0 положительна, следовательно, в точке
х = 0 функция зс достигает своего абсолютного минимума:
Х@)=-р@)<0.
В частности, для функции
при UKc
при |*1>с ( Л j
получим
{ при л:^ — су
х при — с<л;<е, G.15)
при л; 2^ с,
G.16)
{
Заметим, что полученные функции я|) и % были предложены при
рассмотрении минимаксной процедуры одновременного
оценивания параметров сдвига и масштаба (см. пример 6.4.1) и что
обе эти функции ограниченны (тогда как при использовании
метода максимального правдоподобия имеем неограниченные
функции: % выражается через монотонную функцию *ф; см.
G.7)).
Если функции fi линейны, то Q(8, а) фактически будет
выпуклой функцией по (в, а), а не только по в. Для наглядности
предположим, что @, а) линейно зависит от некоторого
вещественного параметра и возьмем вторую производную по / от
слагаемых выражения G.9):
G.17)
Обозначив дифференцирование по / точкой над
соответствующей буквой и опустив индекс /, получим
L) p.,8,
7.8. ВЫЧИСЛЕНИЕ Af-QUEHOK РЕГРЩХИИ 179
Итак, функция Q выпукла. Если р не дифференцируема дважды,
результат все же верен (можно воспользоваться
дифференцируемой аппроксимацией функции р).
Далее предположим, что
0< lim [p(*)/|*|] = c<oo. G.20)
U|->oo
При с < оо функцию Q можно по непрерывности продолжить:
Q(9, О) = (ф)?|^-Ыв)|. G.21)
Таким образом, предельный случай 0 = 0 соответствует Li-оцен-
ке. Разумеется, соотношения G.10) и G.11) на границе а = 0
не выполняются, но тем не менее множество решений (в, а),
удовлетворяющих соотношению G.9), будет выпуклым
подмножеством (р+ 1)-мерного пространства. Нередко оно сводится
к единственной точке. Поэтому для нас достаточно, например,
чтобы функция р была строго выпуклой, функции ft — лицей-
ными, а столбцы и матрицы плана хц = dfi/dQj и вектор Xi— fi
остатков были линейно независимыми (т. е. матрица плана —
матрица полного ранга и не существует точного решения с
обращающимися в нуль остатками). Тогда функция Q также
строго выпукла (см. G.19)) и решение (8, а) единственно.
Даже если функция р не всюду строго выпукла, а лишь
кусочно, то при большом значении h/p решение обычно
единственно (поскольку для справедливости изложенных выше
аргументов достаточно уже и того, что в областях строгой выпуклости
функции р остатки будут уменьшаться).
7.8. ВЫЧИСЛЕНИЕ М-ОЦЕНОК РЕГРЕССИИ
Опишем теперь несколько простых алгоритмов. В них
попеременно вычисляются пробные значения оценок и постепенно
уменьшается значение выражения G.9). Последнее
предпочтительнее записать в виде
где ро@) = 0 и а > 0. Тогда уравнения G.10) и G.11)
обращаются в
где %(х) = р'0(х), (8.4)
— РоМ (8.5)
180 ГЛ. 7. РЕГРЕССИЯ
Заметим, что в точке х = 0 функция %0 достигает своего
абсолютного минимума %о(О) = 0. Везде далее будет предполагаться,
что функции чро и Хо непрерывны.
Для того чтобы получить состоятельную оценку параметра
масштаба для модели с нормальным распределением и иметь
возможность получить классические оценки при выборе
классического значения ро (х) = х2/2, предлагается воспользоваться
а=[(п-р)/п]Еф(п>). (8.6)
Вычисление параметра масштаба. Пусть 9(т) и а(т) —
пробные значения для в и а; и положим п = \)i — /*F(m)). Введем
определение
(a(m+i,J = _L ? ъ (_?_) {amif. (8.7)
Замечания. Для классического случая ро(#) = л:2/2 при а,
заданном выражением (8.6), имеем
?1 (8.8)
Если в качестве ро(*) взять G.14), то получим
' (8'9)
(8.10)
В этом случае говорят, что а(т+1> есть обычная оценка
дисперсии (8.8), но полученная из метрически винзоризованных
остатков:
{— са{т) при тг < — ccr(m),
г, при |г,|<со<»>, (8.11)
ссг(т) при Г/ > са(т>,
с поправкой р, учитывающей смещение.
Лемма 8.1. Пусть функция р0 неотрицательна и выпукла,
ро(О) = О и функция ро(*)А выпукла при х<0и вогнута при
х > 0. Тогда
a
(m))
) -Q(B(m), ^)>fl(g(m+1lffl;g(m)Jt (8.12)
В частности, если только соотношение (8.3) уже не выполнено,
функция Q будет строго убывающей.
Доказательство. Идея доказательства состоит в том, чтобы
построить такую «сравнительно похожую» функцию t/(a), что
в точке a = a<m> ее значения совпадают со значениями функции
7.8. ВЫЧИСЛЕНИЕ Af-ОЦЕНОК РЕГРЕССИИ 181
Q(9(m), а), она целиком лежит выше QF(m), •) и достигает
своего минимума в точке а(т+1):
U{a) = Q(e(m>, а(т>) + а(о-
Понятно, что ?/(а<т)) = QF(m), а(т>). Вычислим производные
этих функций по а:
^Ш(^У + ". ,8.14)
о. (8.15)
Они совпадают в точке а = а(т). Определим функцию
/(z) = [/(l)-Q(e(m), 1), z>0. (8.16)
Она выпукла, так как- ее можно представить в виде
(8.17)
где bo и Ь\ — некоторые постоянные. Зта функция имеет
горизонтальную касательную в точке 2=1/а(т) и обращается в
этой точке в нуль. Отсюда заключаем, что f(z)^O для всех
z > 0; следовательно при всех а > 0 имеем
U(o)^Q(Q(m\o). (8.18)
Заметим, что функция U достигает своего минимума в точке
a(>«+i). Используя формулу (8.7), чтобы исключить 2 Хо> при
помощи несложных вычислений получаем
U (a(w+1)) = Q (8(m>, o{m)) + а (а{т+1) - а(т)) +
Теперь утверждение леммы следует из (8.18). ¦
Имеются два варианта для шага алгоритма,
осуществляющего сдвиг: один с модифицированными остатками, другой с
модифицированными весами.
182 ГЛ. 7. РЕГРЕССИЯ
Вычисление сдвига с модифицированными остатками. Пусть
6(т) и а(т) — пробные значения для 9 и а; положим
(8.20)
(8.21)
Решим задачу минимизации
f J (8.22)
для т, которое представляет собой решение т = t уравнения
ХтХх == Хтт*.
Положим
в<«+1) = е<т> + ?*, (8.24)
где 0 < # < 2 есть произвольный релаксационный множитель.
Замечание. За исключением того, что остатки п заменены
их метрически винзоризованными аналогами г*, изложенное
выше есть не что иное, как шаг итерации обычного метода
Гаусса — Ньютона для решения нелинейных задач, в которых
используются наименьшие квадраты (если все функции /, линейны,
решение получается за один шаг).
Лемма 8.2. Предположим, что р0 ^ 0, р0 @) = 0, 0 ^ р? ^ 1
и что все fi линейны. Выберем систему координат так, чтобы
ХТХ — I (что не приведет к потере общности). Тогда
Q(9(m), a(m))-Q(e(m+1), a(m))>
В частности, если только (8.2) уже не выполнено, функция Q
будет строго убывающей.
Доказательство. Как и в шаге вычисления параметра
масштаба, используем сравнительно похожую функцию, которая
совпадает с Q в точке 6(т), лежит целиком выше Q и достигает
своего минимума в точке 0(/п+ 1). Положим
), a(m))
7.8. ВЫЧИСЛЕНИЕ М-ОЦЕНОК РЕГРЕССИИ 183
Как нетрудно проверить, значения функций W(x) и Q(8(m)+.
+ т, а(т)) и их первых производных в точке т =» 0 совпадают.
Матрица производных второго порядка от разности
положительно полуопределена; следовательно, для всех т
IF (t) > Q (9<m> + т, а<т>). (8.28)
Минимум функции W(t) достигается в точке т = Хтг* и (в чем
легко убедиться) равен
({\^J^ (8.29)
Функция W(qx) — Q(9(m), a<m>), как функция переменной qf
квадратичная, обращается в нуль при q = О, имеет минимум
в точке q = 1 и в силу симметрии должна обращаться в нуль
и при q = 2. Следовательно, квадратичной интерполяДией
получаем
W (Я*) - Q (в(т), сг(т)) = - q B - q) \\ t ||/2a(m)n. (8.30)
Утверждение леммы теперь следует из 8.28. ¦
Замечание. Релаксационный множитель q первоначально
был введен потому, что теоретические исследования
рекомендовали вместо q = 1 пользоваться q « 1/Ея|/ ^ 1, которое должно
было давать лучшую сходимость. На практике оказалось, что
различие весьма незначительно.
Вычисление сдвига с модифицированными весами. Вместо
(8.2) воспользуемся эквивалентной системой уравнений
где веса, зависящие от остатков п9 определяются по формуле
о>* = [* (n/oW) ] I (n/oW) (8.32)
Пусть e(w) и a(w) суть пробные значения; тогда значение 6(т+1>
определяется из решения взвешенной задачи (8.31), т. е.
решением т = т уравнения
XTWXx = XTWr, (8.33)
где W — диагональная матрица с элементами wi на диагонали,
и соотношением
0(m+l) = Q(m) ^ ^
184 ГЛ. 7. РЕГРЕССИЯ
Лемма 8.3. (Дуттер A975)). Предположим, что функция ро
выпукла и симметрична, функция ^(х)/х ограниченна и
монотонно убывает при х > 0 и что функции ft линейны. Тогда (если
только 9(т> уже не минимизирует Q(-,a(m))) при а>0 имеем
QF(w+1>, a(m))< QF(m), a(w)). Скорость убывания Q превышает
соответствующую величину при вычислении с
модифицированными остатками.
Рис. 7.8.1.
Доказательство. Для упрощения обозначений положим
оК"*) = 1. Воспользуемся также сравнительно похожей
функцией (/, определив ее по формуле
где Ui — квадратичная функция:
Ui(x) = ai + biX2/2, (8.36)
а величины щ и bi определены так, что для всех х и п = yi —
Ut(x)>p0(x), (8.37)
(8.38)
7.8. ВЫЧИСЛЕНИЕ Af-ОЦЕНОК РЕГРЕССИИ 185
Из сказанного заключаем (рис. 7.8.1), что ?/, и р имеют
общую касательную в точке г с
(8.39)
Таким образом,
(8.40)
(8.41)
Мы убедились, что неравенство (8.37) выполняется. Вместо п
будем писать г. Разность
= Ро(г) - г^о (г)/2 + [*о(г)/2г] х* - Ро(х) (8.42)
удовлетворяет соотношениям
2(г) = г(-г) = 0, (8.43)
г'(г) = г'(-г) = 09 (8.44)
*'{х) = Мг)х/г-Ъ0(х). (8.45)
Поскольку при х > 0 функция -фо (x)/jc убывает, имеем
z'(*)<0, если 0<*<г,
г'(х)>0, если ^>г. (8'46)
Следовательно, при дс^О выполняется неравенство z(x)^
>г(г)=0ив силу симметрии то же справедливо и при х ^ 0.
На основании (8.40) можно написать
Последнее, разумеется, минимально в точке 6(т+1). Первая часть
утверждения леммы доказана. Вторая часть следует из того
замечания, что если бы мы использовали сравнительно
похожие функции вида
* = ai + cix + x2/2 (8.48)
вместо функций (8.36), мы бы вернулась к доказательству
леммы (8.2); кроме того, для всех х
U](x)>Ui(x) (8.49)
при условии 0 ^ р" ^ 1 (если это необходимо, нужно взять
другой масштаб для tp). Следовательно, W(r)^ ?/F(m) + т)^
^p(8(m) + t). Фактически на том же основании можно
утверждать, что U — наилучшая из возможных квадратичных функций,
используемых в качестве сравнительно похожих.
186 ГЛ. 7. РЕГРЕССИЯ
Замечание 1. Если мы не будем требовать выпуклости, а
ограничимся лишь предположением, что при х > 0 функция
р(х) возрастает, то приведенное доказательство все еще
проходит и показывает, что алгоритм с модифицированными весами
сходится к локальному минимуму, если масштаб остается
постоянным.
Замечание 2. Из второй части леммы следует, что подход с
модифицированными весами должен приводить к более быстрой
сходимости, нежели подход с модифицированными остатками.
На практике мы, однако, наблюдаем лишь незначительное
различие скоростей. Поскольку подходе модифицированными
остатками (для линейных функций //) предполагает использование
одних и тех же матриц во всех итерациях, нам кажется, что
его применение даст некоторый выигрыш в стоимости общих
вычислений (Дуттер A977а, б)).
Если попеременно выполнять шаги алгоритма для
вычисления параметров сдвига и масштаба (используя любой из двух
вариантов для вычисления сдвига), то получится
последовательность (9(т), а(т)), которая на каждом шаге будет
обязательно уменьшать значение Q. Теперь нужно доказать
сходимость последовательности к решению системы (8.2) и
(8.3).
Теорема 8.4. A) Последовательность (8(m), a(m>) имеет по^
крайней мере одну предельную точку (9, а).
B) Каждая предельная точка (8, а) при а > О представляет
собой решение системы (8.2) и (8.3) и минимизирует
выражение (8.1)
Доказательство. Множества вида
Аъ = {(в, а) | а ^ О, Q (9, а) ^ Ь) (8.50)
компактны. Прежде всего очевидно в силу непрерывности
функции Q, что они замкнуты. На множестве Аь выполняется а^
^ ft/а. Так как функции fi линейны и предполагается, что
матрица производных Xq = dfi/dQj имеет полный ранг, то значение
||61| должно быть также ограничено (в противном случае по
крайней мере одна из функций fr(8) была бы неограниченной на
Аь, а следовательно, и op{[tji — //(в)]/а} было бы
неограниченно). Из компактности множества Аь, очевидно, следует
утверждение A) теоремы. Для доказательства B) предположим, что
а > 0 и что 8(m/), <j(W/) — сходящаяся к (9, а)
подпоследовательность. Тогда в силу леммы 8.1
7.8. ВЫЧИСЛЕНИЕ М-ОЦЕНОК РЕГРЕССИИ 187
два внешних члена этого неравенства стремятся к Q(8,a);
отсюда (см. леммы 8.2 и 8.3)
сходится к нулю. Из этого, в частности, заключаем, что
1
сходится к 1; следовательно, переходя к пределу, имеем
Итак, формула (8.3) справедлива.
Точно так же из леммы 8.2 получаем, что
стремится к 0; в частности,
Переходя к пределу, следовательно, получаем
и, значит, выполняется также и (8.2). В силу выпуклости
функции Q каждое решение системы (8.2) и (8.3) доставляет
минимум выражению (8.1). ¦
Теперь нас интересуют условия достаточности, при которых
не существует предельных точек, если a = 0. Основное из них —
условие, гарантирующее, что максимальное число остатков,
которые одновременно могут быть сделаны равными нулю, не
слишком велико. Предположим, что функция %о симметрична и
ограниченна и
п-р'>(п-р)Еф(%о)/%о(оо\> (8.51)
Заметим, что с вероятностью 1 выполняется равенство р' = р,
если функция распределения ошибки абсолютно непрерывна
относительно меры Лебега. Так что, поскольку Е d (%о) <гпах(л'О) =
= Хо(°°)> неравенство (8.51) автоматически выполняется.
Предполагается, что начальной точкой итерационного
процесса служит (8@), <т@)), причем а(°> > 0. Тогда a(w) > 0 для
любого конечного т. Более того, для всех т последовательность
(ее*), a<m>) принадлежит компактному множеству Аь% где Ь ¦•
188 ГЛ- 7. РЕГРЕССИЯ
f= Q(8@), сг@)). Значит, во всех последующих рассмотрениях
достаточно ограничиться множеством Аь для (9, а).
Неравенство (8.51), очевидно, эквивалентно следующему:
для достаточно малого а имеем
т ? х» (т) >а - ^
Последнее усилено в лемме 8.5.
Лемма 8.5. Предположим, что выполняется неравенство
(8.51). Тогда существуют ао > О и rf> 1, такие, что для всех
(в, о)^Аь при а ^ ао выполняется неравенство
(8.53)
Доказательство. Для каждого в порядок соответствующих
остатков совпадает с возрастающим абсолютным значением.
Будем предполагать, что A(8) = |r(p,+1)| — функция, (р'+1)-я
по величине, начиная с наименьшей. Тогда функция А (8)
непрерывна (фактически кусочно линейна) и положительна.
Поскольку множество Аь есть компакт, функция Л (в) достигает
своего минимума Ло> причем Ао > 0. Отсюда заключаем, что
A/л) Е Хо{п/о)> [{п - рУп]Хо(Л(М (8.54)
Переходя к пределу при ог-^0 в правой части, получаем
Еф(»)-а (8.55)
(согласно неравенству (8.51)). Понятно, что строгое неравенство
должно выполняться уже для некоторого ненулевого ао, и
утверждение леммы доказано. ¦
Предложение 8.6. Предположим, что выполняется неравенство
(8.51), функция /о симметрична и ограниченна и что сг<°> > 0.
Тогда последовательность (8(т\ а(т)) не может иметь
предельных точек на границе а «= 0.
Доказательство. Из леммы 8.5 вытекает, что a(m+1> ^ da^mK
Из этого заключаем, что последовательность а(т) не может
бесконечно долго находиться ниже а0 и что должно существовать
бесконечно много таких т, для которых а(т) > ао. Таким
образом, последовательность (в(т), а(т)) имеет предельную точку
(в, д), причем а > 0. В силу теоремы 8.4 эта точка доставляет
минимум функции Q@, а). Из неравенства (8.51) имеем, что на
границе выполняется соотношение Q(9,0)> Q (§,#) = bo. Более
того, при каждом е > 0 последовательность (8(m), a(m>)
обязательно принадлежит множеству Аьо+г и при достаточно малом г
множество Аьо+г не пересекает границу.
Теорема 8.7. Предположим, что выполняется неравенство
(8.51), Тогда, если при вычислении параметра сдвига исполь-
7.8. ВЫЧИСЛЕНИЕ Af-ОЦЕНОК РЕГРЕССИИ 189
зуется вариант с модифицированными остатками,
последовательность F(т), а(т)) всегда сходится к некоторому решению
системы (8.2) —(8.3).
Доказательство. Если решение @, а) задачи минимизации
(8.1) или системы (8.2) —(8.3)^ единственно, тогда в силу
теоремы 8.4 и предложения 8.6 (в, а) должна быть единственной
предельной точкой последовательности, и доказывать нечего.
Рис. 7.8.2.
Будем предполагать теперь, что (обязательно выпуклое)
множество 5 решений состоит более чем из одной точки.
На рис. 7.8.2, благодаря которому доказательство будет
более наглядным, показано множество S и несколько
поверхностей Q@, а) = const.
Очевидно, что при /п->-оо имеет место сходимость Q@(m\
a(m))->inf Q@, а), т. е. последовательность @(w>, a<m>) сходится
на множестве S. Основная идея состоит в том, чтобы показать,
что после вычисления @(m), а<т>) результаты, полученные на
всех последующих шагах алгоритма, будут оставаться внутри
некоторой приблизительно конусообразной области (на рис. 7.8.2
она заштрихована). С ростом m основание соответствующего
конуса будет уменьшаться, что повлечет за собой сходимость,
поскольку каждый конус содержится в предыдущем. Дадим
лишь общий набросок доказательства, чтобы не запутаться в
утомительных подробностях.
190 ГЛ. 7. РЕГРЕССИЯ
Возьмем такую систему координат, что ХТХ = 2ап1. Тогда
(m) г,
а градиент Q задается соотношениями
Иначе говоря, в выбранном частном случае системы координат
приращение А0/ = —<j(m>g//2a, Ao = —o(tn)gP+\/2a будет идти
в направлении отрицательйого градиента из точки (9(т), а(т>). ¦
Нам не известно, справедлива ли эта теорема и для
вычисления параметра сдвига с модифицированными весами.
Разумеется, описанные выше алгоритмы следует дополнить
правилом остановки, например останавливать итерационный
процесс, когда снос каждой линейной комбинации а = аг6
будет меньше, чем е, умноженное на ее оцениваемое стандартное
отклонение (по формуле F.5)), где 8 = 0.0001 или другая
малая величина. Опыт показывает, что в среднем нужно около
10 итераций (функция р задается формулой G.14),где с= 1.5);
зависимость от р и п сравнительно невелика.
Если г|э — кусочно линейная функция, то можно придумать
алгоритмы, которые давали бы точное решение за конечное
(обычно малое, меньше 10) число итераций, если только они
вообще будут сходиться: разобьем остатки в соответствии с
кусками линейности функции я|> и определим точное
аналитическое решение при предположении, что разбиение остатков
остается таким же при новых значениях параметров. Если это
предположение соответствует истине, мы получим точное
решение @, а); в противном случае — приближенное. В случае
одномерного сдвига эта процедура будет, по-видимому, сходиться
беспрепятственно; в общем случае регрессии придется принять
некоторые меры предосторожности против вырожденных матриц
и других неприятностей; см. Хьюбер A973а) и Дуттер A975,
1977а, б).
В качестве исходного значения F@), а@)) мы, как правило,
берем обычную оценку методом наименьших квадратов,
несмотря на ее скромные возможности (см. Эндрюс и др, A972)'
относительно простого случая сдвига).
7.9. ТОЧКИ УМЕРЕННОЙ РАЗБАЛАНСИРОВКИ 191
Убывающие функции -ф весьма ненадежны, в особенности
если в качестве исходных значений итерации мы выбрали неро-
бастные. Остатки, случайно увеличившиеся из-за неудачных
начальных параметров, могут остаться большими навсегда, потому
что они никак этому не сопротивляются. Поэтому
предпочтительно начинать с монотонной функции г|?, итерировать до упора и
затем добавить одну-две итерации с немонотонной функцией ф.
7.9. ТОЧКИ УМЕРЕННОЙ РАЗБАЛАНСИРОВКИ
Обратимся к примеру из § 7.1 и напомним формулы,
выведенные в § 7.2. В частности, в классическом случае наименьших
квадратов при D(yt) = о2 имеем
(9.1)
)о*9 (9.2)
А/)]<т2, (9.3)
ft,) = o»/(l-*i). (9.5)
Здесь через #/ обозначено подогнанное значение, а через а/ —
интерполированное значение, которое оценивалось без
использования tfi.
Если в робастном методе наименьших квадратов решается
система G.1), т. е.
? Ф((У* - Pi)/<y)xu = 0, ] = I, ..., Р, (9.6)
где функция г|) задана формулой G.15), и если /-я точка
оказалась точкой разбалансировки с высоким значением А/, то у%
может очень сильно отличаться от обычных значений, a (yi — Si)/с
все еще будет оставаться в линейной части функции ф —
ситуация, разумеется, нежелательная.
Можно попытаться исправить положение, если, введя
весовой коэффициент у> уменьшить общее влияние i-ro наблюдения,
или можно укоротить линейную часть, если сократить масштаб
при помощи множителя б, а можно сделать и то и другое
(величины у и б, конечно, зависят от А/ и, возможно, от других
переменных). Все это означает, что в формуле (9.6) вместо
выражения i|)((#/ — Si)/в) воспользуемся
. (9.7)
Необходимы веские аргументы в пользу выбора у = б и
какие-то соображения, обосновывающие выбор
(9.7)
192 ГЛ. 7. РЕГРЕССИЯ
Аргументы эти таковы. Прежде всего предположим, что
различие между t/i и интерполированным значением щ лишь весьма
незначительное, так что остаток попадает в линейную часть
функции -ф. Тогда выражение (9.7) в сущности означает, что
t'-e наблюдение берется с весом у/8. Понятно, что если hi мало,
то должно быть у « б « 1. С другой стороны, если hi велико,
скажем больше 0.5, то, согласно формуле (9.3), «хорошее»
наблюдение iji лучше скалибровано, чем аи Если основное
распределение представляет собой умеренно загрязненное
нормальное распределение (е равно 1—10%), то весьма вероятно, что
yi будет «хорошим» наблюдением, если оно не очень сильно
отклоняется от а*. Но в таком случае нам бы не хотелось, чтобы
экстраполированное значение а* получило преимущество над уи
иначе говоря, нам бы не хотелось подавлять у%. (Заметим, что
ее/ в любом случае более влиятельно, чем ус, см. B.36).) Итак,
мы вынуждены положить у = 6.
Теперь вообразим, что остатки большинства наблюдений
приходятся на линейную часть функции \f>, так что параметры
определяются в сущности обычным методом наименьших
квадратов. Будем менять величину отдельного наблюдения yi от — оо
до оо. Пусть yi — такое значение наблюдения уи что
полученное при нем решение методом наименьших квадратов будет
совпадать с решением робастного варианта, основанного на
выражении (9.7). Используя (9.4), найдем, что
(9-9>
В силу соотношения (9.5) кажется естественным выбрать
6 = ^1 — hiy так что разбивка формулы (9.9) на две части
касалась бы естественного масштаба величины \yt — at].
Иными словами, предлагается видоизменить (9.6)
следующим образом:
(9.10)
где параметр масштаба а определяется из
7.9. ТОЧКИ УМЕРЕННОЙ РАЗБАЛАНСИРОВКИ 193
Это эквивалентно одновременной минимизации по в и а
выражения
2E^)А,H, (9.12)
где р задано формулой G.14), а р равно ?<x>i|J.
Что касается вычислительной стороны, то здесь новых
проблем не возникает: вместо модификации остатка ri = yi — Qi
к виду r*i = ztco при условии |п|> со проводится его
модификация к виду г\ = ± V -~ ^i ев при условии | Ti | > дЛ — Л* са
(см. вычисление сдвига с модифицированными остатками).
Если же взглянуть на это с точки зрения количественных
соображений, то при hi ^ 0.2 разница между (9.6) и (9.10) будет
едва различимой (и вряд ли стоящей затраченных усилий), а
при hi ^ 0.8 мы можем и не получить достаточно хорошей
защиты от нежелательных последствий наличия выделяющихся
наблюдений.
Поэтому ряд исследователей предложили более решительные
меры борьбы с точками разбалансировки, чтобы иметь
возможность (одновременно для всех положений в плановом
пространстве) ограничивать влияние любого наблюдаемого значения на
любую оцениваемую величину. Это представляет собой некое
развитие идей Хэмпела (§ 11.1). Очень многие работы не были
опубликованы; на сегодняшний день наиболее систематизиро-
ванно они представлены в работе Краскера, Уэлша A980), где
имеется исчерпывающий перечень более ранних источников,
составленный Хэмпелом, Мэллоузом, Швеппе и др. В указанной
работе найдены асимптотически эффективные оценки для
модели, подчиненной некоторому общему ограничению на
чувствительность к большим ошибкам как в значении наблюдаемой
величины, так и в ее положении.
Тем не менее еще целый ряд вопросов ждет своего решения.
Самый серьезный из них заключается в том, что нам
приходится иметь дело с малыми выборками — подогнанное
значение в точке высокой разбалансировки определяется в сущности
по единственному наблюдению. Поэтому мы не можем всерьез
полагаться на средства, предлагаемые асимптотической
теорией, такие, как функция влияния, и должны все сверять с
представлениями, почерпнутыми из теории для конечных выборок
(гл. 10). Некоторые предварительные исследования в этом
направлении позволяют полагать, что подход Краскера — Уэлша
может оказаться слишком пессимистическим по отношению к
выделяющимся наблюдениям в точках разбалансировки и
недостаточно пессимистическим по отношению к малым
систематическим ошибкам в обычных точках. Очень неприятно, что, когда
настоящих точек разбалансировки нет (т. е. значение max Л*
7 Зак. 617
1Й4 Wl. 7. РЕГРЕССИЙ
мало, но велико по сравнению с р/п), первый эффект
оказывается особенно сильным. В этой области, очевидно, еще
немало надо потрудиться.
Чтобы избежать возможных недоразумений, следует
добавить, что предыдущее обсуждение мало касалось робастности
по отношению к выделяющимся наблюдениям среди
независимых величин (строки матрицы X). Хотя за последние годы
появился ряд работ, посвященных этой важной проблеме, не
складывается впечатление, что достигнуто по-настоящему глубокое
и адекватное ее понимание. В частности, если у нас нет
(приблизительной) модели, порождающей строки матрицы X,
понятие робастности может быть некорректно определенным. В ряде
случаев трактовка посредством робастных матриц ковариации и
корреляции может оказаться более осмысленной, нежели
регрессионный подход.
7.10. ДИСПЕРСИОННЫЙ АНАЛИЗ
В геометрической интерпретации дисперсионный анализ
имеет дело с вложенными моделями (скажем, с большей р-па-
раметрической и меньшей ^-параметрической моделями, q < р)
и с ортогональными проекциями наблюдаемого вектора у в
линейные подпространства Vq cz Vp, натянутые на столбцы
соответствующих матриц плана; рис. 7.10.1. Пусть у(Р) и у^) —
соответствующие подогнанные значения.
Если ошибки эксперимента независимы и распределены
нормально с единичной (для определенности) дисперсией, то
квадраты разностей Ну —у<*)||2, Ну — У(/>I12, 11у<р) — У«7)Н2 имеют
^-распределение соответственно с п — q, п — р и р — q
степенями свободы, причем два последних независимы. Таким
образом,
имеет F-распределение, опираясь на которое мы можем строить
проверку адекватности меньшей модели.
Что из перечисленного можно будет спасти, если ошибки
перестанут быть нормальными? Разумеется, предположения
относительно распределений, скрывающиеся за A0.1), тогда
нарушаются и что хуже, мощность критериев может сильно
понизиться.
Если мы попытаемся улучшить положение,
воспользовавшись робастным оцениванием у<р> и у^), то эти две величины
будут по крайней мере асимптотически нормальными при весьма
7.10. ДИСПЕРСИОННЫЙ АНАЛИЗ 196
общих предположениях (см. § 7.4 и 7.5). Поскольку теперь
проекции не ортогональны, а определяются неким сложным
нелинейным образом, то если проектировать сначала на VP, а
затем на Vq, мы получим результат, отличающийся от того,
который дает непосредственное проектирование на Vq (несмотря на
то, что эти результаты асимптотически эквивалентны). Когда
речь идет о числе вложенных моделей, большем двух, мы
предпочитаем для сохранения внутренней непротиворечивости
пользоваться первым вариантом (проектировать
посредством Vp).
Рис. 7.10.1.
Как следует из предложения 4.1 при подходящих условиях
регулярности и подходящем масштабе величина ||у(р) — У(<7>|12
для робастных оценок асимптотически сохраняет распределение
X2 с р— q степенями свободы. Знаменатель в формуле A0.1)
не робастен, так что использовать его в таком виде
бессмысленно. Его следует заменить чем-то, что будет робастной и
состоятельной оценкой математического ожидания числителя. В силу
F.5) нам представляется наиболее естественным выбрать в
качестве знаменателя
п-р lU/«) I
A0.2)
7*
196 ГЛ. 7. РЕГРЕССИЯ
где nssztfi — fi(Q(P)). Так как асимптотические аппроксимации
ведут с$бя достаточно хорошо только при разумно малых
значениях р/п (например, при р/п ^ 0.2) и так как р ^ 2, то число
п — р должно значительно превышать р — q и числитель в виде
будет обладать большей изменчивостью, чем выражение A0.2).
Таким образом, частное от деления A0.3) на A0.2)
/С2
будет очень неплохо аппроксимироваться переменной, имеющей
распределение %2 с р — q степенями свободы, поделенной на
р — q> и, возможно, даже лучше аппроксимироваться
переменной, имеющей распределение F, с р — q степенями свободы в
числителе и п — р степенями свободы в знаменателе. Можно
утверждать, что это последнее число (но не коэффициент п — р
из выражения A0.4)) должно было быть несколько меньше.
Насколько именно — нам не известно: это, вообще говоря, зависит
от основного распределения. Поэтому будем придерживаться
классического значения п — р.
Завершим этот параграф следующим предложением
относительно проведения дисперсионного анализа. Оно, к сожалению,
применимо лишь тогда, когда число наблюдений значительно
превышает число параметров, скажем р/п ^ 0.2. Прежде всего
надо согласовать самую большую модель с проводимыми
рассуждениями, задавая ур. Убедимся, что точек разбалансировки
нет (ошибочное наблюдение в точке разбалансировки большей
модели может стать причиной ошибочного отклонения
меньшей модели), или хотя бы будем отдавать себе отчет в
опасности. Затем оценим дисперсию этой «единицы веса»,
подогнанной с помощью выражения A0.2). Оценим параметры меньшей
модели обычным методом наименьших квадратов, используя ур
(а не у). Дальше будем действовать стандартным образом
(заменив [1/(я — р)]11у — У(р)\\2 выражением A0.2)).
Между прочим, описанную выше процедуру можно
представить и по-другому. Зададим величины
г\ = КЪ (Ыо)о/±. ? t|/ (rt/a), A0.5)
У*=У(р) + г*. A0.6)
Затем будем действовать стандартным образом, используя
вместо у псевдонаблюдение у*.
7.10. ДИСПЕРСИОННЫЙ АНАЛИЗ 197
Следующий подход на первый взгляд тоже может
показаться вполне приемлемым. Начнем с подгонки самой большой
модели, установив у(Р). Эти значения получаются обычным
взвешенным методом наименьших квадратов с модифицированными
весами (8.32). Далее установим окончательный вид весов wt и
будем продолжать стандартным образом, используя yt и одни и
те же веса wi для всех моделей. Однако такой способ приводит
к непригодным (несостоятельным) значениям для знаменателя
в выражении A0.1), а для монотонных функций г|э это не будет
даже устойчивым выделяющимся значением.
ГЛАВА 8
Робастные ковариационные
и корреляционные матрицы
8.1. ОБЩИЕ ЗАМЕЧАНИЯ
Ковариационные и корреляционные матрицы в их
классическом виде используются для самых разных целей. Перечислим
только несколько:
•Они (или, вернее, связанные с ними эллипсоиды)
позволяют дать простое описание общих очертаний «облака» точек
в р-мерном пространстве. Этот довольно важный аспект
находит применение в дискриминантном анализе, а также в
факторном анализе и анализе главных компонент.
• Они позволяют вычислять дисперсии в произвольных
направлениях: D (а7х) = аг cov (х) а.
•В случае многомерного нормального распределения
выборочная ковариационная матрица с выборочным средним
представляет со'бой достаточную статистику.
• Их можно использовать в критериях для проверки
независимости.
К сожалению, выборочные ковариационные матрицы весьма
чувствительны к выбросам. Нередко бывает, что «объяснения»
методом главных компонент или факторным анализом той или
иной структуры при ближайшем рассмотрении оказываются
порожденными всего лишь одним или двумя выделяющимися
наблюдениями (рис. 8.1.1).
Подходы, использующие робастные ковариационные и
корреляционные матрицы, можно приблизительно разбить на три
группы:
A) Робастное оценивание отдельных матричных элементов
ковариационной (корреляционной) матрицы.
B) Робастное оценивание дисперсий в достаточно многих
выбранных направлениях (к которым затем подгоняется
квадратичная форма).
C) Непосредственное (методом максимального
правдоподобия) оценивание вида матрицы некоторого эллиптического
распределения.
Третий из этих подходов обладает аффинной
инвариантностью; первый, разумеемся, нет. Ёторой же подход находится
8.1. ОБЩИЕ ЗАМЕЧАНИЯ 199
где-то посередине между ними: в зависимости от того, какие
направления выбраны. Например, их можно выбрать
относительно координатных осей и определять матричные элементы
как в A) или можно по аналогии с определением собственного
вектора (собственного значения) найти направление с
наименьшей (наибольшей) робастной дисперсией, приводящее к
некоторому ортогонально инвариантному подходу.
Первая главная компоненту,
Рис. 8.1.1. Из работы Девлина, Гнанадесикана, Кетенринга A979); см. также
Чжен, Гнанаденсикан, Кетенринг A974) (с уведомлением авторов).
Подход, зависящий от координат, более уместен для
оценивания корреляционных матриц (которые и так зависят от
координат); подходы, обладающие аффинной инвариантностью,
больше годятся для ковариационных матриц.
На рис. 8.1.1 и 8.1.2 демонстрируется серьезность подобных
различий.
На рис. 8.1.1 представлен анализ методом главных
компонент 14 экономических характеристик для 29 химических
компаний. Представлены проекции данных на плоскость двух
первых компонент. Выборочная корреляция между двумя главными
компонентами равна нулю, как и должно быть, но в нижнем
правом углу имеется одна заблудшая точка, делающая анализ
неубедительным.
Рис. 8.1.2.
8.2. ОЦЕНИВАНИЕ ПОСРЕДСТВОМ РОБАСТНЫХ ДИСПЕРСИЙ 201
На рис. 8.1.2 сравнивается влияние выделяющихся
наблюдений на классическое и робастное ковариационное оценивание.
Сплошными линиями изображены эллипсы, полученные из
классического выборочного ковариационного анализа, которые
теоретически содержат 80% полной массы для нормального
распределения. Пунктирные эллипсы соответствуют оцениванию
методом максимального правдоподобия на основе формулы
A0.26) при х = 2; это эллипсы |у| = # = 2, которые
асимптотически также содержат около 80% общей массы при условии,
что основное распределение нормальное. Наблюдения,
представленные на рис. 8.1.2, а, суть случайная выборка объема 18
из двумерного нормального распределения с ковариационной
матрицей
V0.9 1
Рисунок 8.1.2,6 соответствует случаю, когда в выборку
добавлено два загрязняющих наблюдения с ковариационной матрицей
-3,6
8.2. ОЦЕНИВАНИЕ МАТРИЧНЫХ ЭЛЕМЕНТОВ
ПОСРЕДСТВОМ РОБАСТНЫХ ДИСПЕРСИЙ
Описываемый здесь подход опирается на следующее
тождество (Гнанадесикан, Кетенринг A972)), справедливое для
случайных величин X и У, интегрируемых с квадратом:
cov(Z, Y) = [D(aX + bY)— D(aX — bY)]/4ab. B.1)
Предположим, что 5 — робастный функционал масштаба: для
краткости будем писать S(X) = S(Fx) и полагать
S(aX + b) = \a\S(X). B.2)
Если D(-) заменить на 5(-J, то тождество B.1) обратится в
определение робастного аналога С(Х, У) ковариации между X
и У:
С{ХУ Y)=[S(aX + bYJ—S(aX — bYJ]/4ab> B.3)
Постоянные а и b можно выбирать произвольным образом,
но если величины аХ и bY окажутся абсолютно разного
масштаба, то соотношение B.3) будет обладать неудобными и
неустойчивыми свойствами. Поэтому Гнанадесикан и Кетенринг
рекомендуют брать в качестве а и b соответствующие обращения
робастных оценок для X и У. Можно, например, взять
a=l/S(X), b=l/S(Y). B.4)
202 ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
Тогда выражение
[S(aX + bYJ — S{aX — 6УJ]/4 B.5)
дает некоторый аналог робастной корреляции. Нет, однако,
никакой необходимости ограничиваться интервалом [—1,+1]«
вместо выражения B.5) в качестве определения робастного
коэффициента корреляции лучше воспользоваться соотношением
(Y Y\ S(aX + bY)*-S(aX-bY)*
\лу I)— s (аХ + bYJ + S (аХ - bYJ *
Для «ковариации» тогда получим
С*(X, У) = R*(X, У)S(X)S(Y). B.7)
Удобно следующим образом стандартизовать S: S(X)=1,
когда X — случайная величина с нормальным распределением
,/Г@, 1). Тогда, если совместное распределение (Ху Y)
двумерное нормальное, имеем
С (X, Y) = С* (Ху Y) = cov (Xy Y). B.8)
Доказательство B,8). Заметим, что случайная величина
аХ dzbY нормальна с дисперсией
a2D(X)±2abcov(X, Y) + b*D(Y). B.9)
Отсюда и из B.2) следует B.8). ¦
Если величины X и У независимы, но не обязательно
нормальны, то при условии, что одно из их распределений
симметрично, очевидно равенство С(Х9 У) = С*(Х, Y) = 0.
Пусть, далее, Sn(X) и Сп(Х, У) соответствуют конечным
выборкам и получены на основании наблюдений (хиух)у ...
».., (ХпуУп)- Можно ожидать, что асимптотическое
распределение величины <\/п[Сп(Х> Y) — C(X, Y)] будет нормальным, но
даже при условии, что исходное распределение было
нормальным, мы получим чрезвычайно сложные выражения. А если это
условие не соблюдено, то складывается крайне запутанная
ситуация.
В таком подходе кроется еще один более серьезный изъян:
применение метода к р компонентам вектора X = (Хи ..., Хр)
само по себе не приводит к образованию положительно
определенных робастных ковариационных и корреляционных матриц
[C(Xi, Xj)]. Последние служат причиной возникновения
вычислительных трудностей и осложнений теоретического характера
(например, эллипсоид может принять форму гиперболоида!).
Предложенные в работе Девлина и др. A975) схемы,
вынуждающие матрицы становиться положительно определенными, по
всей вероятности, с трудом поддаются теоретическому
обоснованию.
8.3. ОЦЕНИВАНИЕ ПОСРЕДСТВОМ РОБАСТНЫХ КОРЕЛЛЯЦИЙ 203
Есть одна заманчивая и, насколько мне известно, еще не
изученная разновидность описанного подхода, в которой отсутствует
указанный изъян. Непосредственным образом определяем
собственные значения fa и собственные векторы и/ робастной
ковариационной матрицы, т. е. находим такой единичный вектор ui,
для которого величина X{=S(vtfXy будет максимальной
(минимальной), затем проделываем то же самое с единичным век-
торо^м U2, ортогональным Ui, и т. д. Таким образом, сама собой
получается положительно определенная матрица.
8.3. ОЦЕНИВАНИЕ МАТРИЧНЫХ ЭЛЕМЕНТОВ
ПОСРЕДСТВОМ РОБАСТНЫХ КОРРЕЛЯЦИЙ
Настоящий подход основывается на замечательном свойстве,
не зависящем от распределения, отдельно взятого коэффициента
корреляции
( ч Z (**-*) (У1 - У)
Теорема 3.1. Если векторы хт = (х\, ...,хп) и у7 =
= (Уи ..., Уп) независимы и распределение одного из них
(х или у) инвариантно относительно перестановок компонент
вектора, то Е (гп) = 0, Е (г2п) = 1/(л - 1).
Доказательство. Достаточно при случайной перестановке
вычислить вместо указанных условные математические ожидания —
при заданном х и при заданном у. ¦
Несмотря на полученный не зависящий от распределения
результат, величина гп, очевидно, не робастна — одна-единствен-
ная достаточно сильно выделяющаяся пара (xt, yi) может
сдвинуть гп на любое значение из интервала (—1, +1).
Имеется, однако, средство исправить положение. Вместо
гЛ(х, у) возьмем гЛ(и, v), где и и v вычисляются соответственно
из х и у согласно приведенным ниже довольно общим правилам.
Первые два из этих правил существенны, остальные добавлены
для удобства.
A) Вектор и получается из х, a v — из у по формулам
u = ^(x),v = S(y).
B) Матрицы W и S коммутативны относительно
перестановок компонент векторов х, и и у, v.
C) Матрицы W и S сохраняют монотонный порядок
компонент векторов х и у.
D) Выполняется равенство W = В.
(б) Va>0, V6, 3*i > 0, 3*1, Vx 4r(ax + ft)=a,T(x) + ft1.
Правила A) и B) гарантируют выполнение предположений
теоремы 3.1 для и и v, если они справедливы для х и у. Если
204 ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ Ц КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
выполняется правило C), то сохраняются полные рангобые
корреляции. И наконец, из D) и E) в совокупности следует, что
сохраняются корреляции ±1. Ниже приводятся два примера,
в которых выполнены все пять правил.
Пример 3.1. Положим
и, = а (/?,), C.2)
где Ri есть ранг компоненты xi в (хи ..., хп), а а(-) есть не*
кая монотонная функция положений. Выбрав a(i)=i получим
классический случай ранговой корреляции Спирмена между
х и у.
Пример 3.2. Пусть Т и S — произвольные оценки сдвига и
масштаба, удовлетворяющие соотношениям
T(ax + b) = aT(x) + b, C.3)
S(ax + b) = \a\S(x), C.4)
функция -ф монотонна, причем
C.5)
Например, S может быть абсолютным медианным отклонением,
Т может быть М-оценкой, удовлетворяющей уравнению
ЕФ((**-ад = о. (з.б)
Выбрав -ф (jc) 5= sgn(jc) и Т = med{^}, получим так называемую
квадрантную корреляцию.
Свойства модифицированных корреляций. Минимаксное
смещение. Пусть G и Я — распределения в R2, симметричные
относительно центра, и распределение для (X, У) представляет
собой смесь F(l—г)Ь + гН. Тогда обычный коэффициент
корреляции pF между я|)(Х) и я|)(У) удовлетворяет соотношению
A -r))pG -г) ^ Pf ^ A -t])Pg + Л- C.7)
Эти границы строгие, причем
Л _
Таким образом, ц будет наименьшим, если ty(x) = sgn(;t).
Другими словами, квадрантное распределение асимптотически
минимаксно относительно смещения. Это аналог минимаксного
свойства выборочной медианы (§ 4.2).
Критерии для проверки независимости. Сформулируем
следующую задачу проверки гипотез. Выдвигается гипотеза:
величины (X*, К*) получаются по вероятностному правилу
X* = X + 6-Z9 У*= У + 8-Zb C.9)
8.3. ОЦЕНИВАНИЕ ПОСРЕДСТВОМ РОБАСТНЫХ КОРРЕЛЯЦИЙ 205
где Ху У, Z и Z\ суть независимые' симметричные случайные
величины, причем Z и Z\ ограниченны и имеют одинаковые
функции распределения. Предполагается, что D(Z)= D(Zi) = 1;
б — малая величина.
В альтернативной гипотезе предполагается все то же самое
и дополнительно, что Z —Z\.
Согласно лемме Неймана — Пирсона, наиболее мощными
будут критерии, которые основываются на статистике
hA(xityt)
(ЗЛ0)
где hH и На — плотности распределения случайной величины
(Х*у У*) соответственно при справедливости гипотезы и при
справедливости ее альтернативы. Если / и g представляют
собой Плотности величин X и У, то
hA (*. У) = Е [/ (х - 6Z) g(y- 6Z)] FЛ1)
и, следовательно,
у. У) ___ 1 , соу [/ (х - 6Z), g(y-L-,,
Если функции / и g можно разложить в ряд Тейлора
x)- .... C.13)
то получаем соотношение
Таким образом, асимптотически при 6-* 0 самым мощным будет
критерий, в котором используется статистика
Г»«=2>(**)ХМ, C-15)
где
, C.16)
. C.17)
Если поделить выражение C.15) на его (оцененное)
стандартное отклонение, то получится робастная корреляция в виде,
предложенном в примере 3.2.
При справедливости гипотезы статистика C.16) критерия
имеет математическое ожидание 0 и дисперсию
Е„GУ) = „Е(г|>2)Е(х2). C-18)
206 ГЛ. 8. РОБАСТНЫЁ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
Если же выполняется альтернативная гипотеза, то
математическим ожиданием будет
а дисперсия останется той же самой (с точностью до членов
более высокого порядка по б). Отсюда заключаем, что
асимптотическую мощность критерия можно выразить с помощью
отношения дисперсий
W^TWT- <3-20)
Последнее справедливо и для таких функций г|) и %,
зависимость которых от / и g отличается от формул C.16) и C.17).
(Такие вопросы при менее строгих условиях на регулярность
довольно тщательно разработаны в работе Гаека, Шидака
A971).)
Если посмотреть на формулу C.20), то можно заметить, что
имеется тесная аналогия с задачами оценивания сдвига.
Например, если функции распределений величин X* и У* изменяются
на некоторых множествах и если мы стремимся
максимизировать минимальную асимптотическую мощность критерия для
проверки независимости, то нам надо найти распределения /
и g, минимизирующие информацию Фишера для сдвига (!).
Все это, разумеется, можно перенести непосредственно на
оценки корреляций, поскольку в большинстве случаев требуется
так оптимизировать оценки, чтобы они были наилучшими для
почти независимых переменных.
Выбор функции if. Пусть я|)с (я) = 2Ф (х/с)—1, если с > 0,
и tyo(x) = sgn(A:), где Ф — стандартное нормальное
распределение.
Предложение 3.2. Если (Ху У) имеет двумерное нормальное
распределение со средним 0 и ковариационной матрицей
1
то [^(Л^()]/)(/())
Доказательство, Сначала рассмотрим случай с = 0.
Случайную величину У можно представить в виде Y = рх — д/1 — р2 Z,
где X л Z независимы и имеют стандартное нормальное
распределение. Справедливо равенство E[i|)o(-Х)фо(У)] = iP{X > 0,
У > 0}— 1. Далее замечаем, что
Р{Х>0,
8 3. ОЦЕНИВАНИЕ ПОСРЕДСТВОМ РОБАСТНЫХ КОРЕЛЛЯЦИЙ 207
есть интеграл от двумерной нормальной плотности, взятый по
области, которая заштрихована на рис. 8.3.1. Тангенс наклона
ограничивающей прямой равен р/д/l — р2, таким образом,
Ф = arcsin p, и отсюда заключаем, что
Итак, частный случай доказан.
Z
Рис. 8.3.1.
Обратившись к общему случаю, заметим, что
Если ввести дополнительно две случайные величины Z\ и Z2%
которые имеют стандартное нормальное распределение и не
зависят от X и У, то можно записать
Е [Ф (Х/с) Ф (Y/c)] = Е [Рх {X - cZx > 0} PY {У - cZ2 > 0}] =
= P{X-cZ{>0, Y-cZ2>0},
где Рх и PY обозначают условные вероятности при заданных
соответственно X и У. Но поскольку корреляция между
величинами X — cZ\ и У — cZ2 равна р/A +с2), заключаем, что общий
случай следует из частного.
Примечание 1. В теореме демонстрируется, как, благодаря выбору
соответствующей функции г|з, можно очень просто, исходя из корреляции между
X и У, восстановить корреляцию между ty(X) и ty(Y). Однако такое
преобразование, будучи примененным к элементам выборочной ковариационной
(корреляционной) матрицы, вообще говоря, нарушает положительную определен-
208 ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
ность. Так что следует, по-видимому, предпочесть работать с ковариациями
между "ф(Х) и фСУ), несмотря на то, что они смещены.
Примечание 2. Если Тх, п и Ту, n суть оценки сдвига, которые определяются
по формулам ^i|) (хь — Тх) =* 0, J] ф (^ — Гу) = 0, то корреляцию р(г|)(Я"),
г|?(У)) можно интерпретировать как (асимптотическую) корреляцию между
оценками Тх,п и Ту, п сдвига. (Эвристические соображения: используя
функцию влияния» запишем:
*'* п Zj Е(ф')
предполагается без потери общности, что предельные значения величин
TXt n*Tyn равны нулю. Таким образом,
cov (TXt n, TY9 п) а A/д) Е [ф (X) ф G)]/[Е (ф')]2).
Относительная эффективность этих ковариационных (корреляционных)
оценок выражается квадратом соответствующей эффективности оценок
сдвига, поэтому потери в эффективности могут быть весьма серьезными.
Предположим, например, что описанные в предложении 3.2 величины имеют малую
корреляцию р. Имеем
Р (Ъс (X), *с (У)) « Р/0 + с8) arcsin [1/A + с2)]
» РB/я). Таким образом, если проверяется гипотеза
р(, У) = 0 против альтернативной гипотезы р (X, Y) = р = p«/V^ для
выборки объема я, то асимптотическая эффективность оценкигя(i|)c(Я),"фс(У))
по сравнению с rn(X, Y) есть
[A +с2) arcsin A/A+с2))]
При с =» 0 это выражение равно 4/я2 ж 0.41.
8.4. АФФИННО ИНВАРИАНТНЫЙ ПОДХОД
Оценки максимального правдоподобия. Пусть / (х) ===== г/( | х|) —
сферически симметричная плотность распределения в
пространстве Rp. Применим общее невырожденное аффинное
преобразование х->К(х — t), чтобы получить семейство р-мерных
сдвигов и масштаба для «эллиптических» плотностей
/(x;t,K)-|detK|/(|V(x-t)|). D.1)
Ставится задача оценки вектора t и матрицы V по п
наблюдениям вектора х.
Очевидно, что V определена неоднозначно (она может быть
произведением слева на произвольную ортогональную матрицу),
а матрица VTV определена однозначно. Введя подходящие
граничные условия, можно добиться единственности матрицы V.
Например, можно потребовать, чтобы она была симметричной
и положительно определенной или нижней треугольной с
положительными диагональными элементами. Обычно принимаются
и другие соглашения: одни из них больше подходят для числен-
рых операций, другие — для доказательств.
8.4, АФФИНИО ИНВАРИАНТНЫЙ ПОДХОД 209
Оценка максимального правдоподобия для (t, V) получается
при максимизации выражения
log (det I/) + Е [log / (| К(х — t) | ], D.2)
где через Е(-) обозначено среднее, взятое по выборке.
Необходимое условие существования максимума состоит в том, чтобы
выражение D.2) оставалось тем же самым при любых
бесконечно малых изменениях переменных t и V. Так что будем
предполагать, что t и V дифференцируемы по некоему фиктивному
параметру, производную по которому будем обозначать точкой
над соответствующей буквой. Продифференцировав, получим
условие
где использованы обозначения
y = l/(x_t)f D.4)
S = VV~\ D.5)
Поскольку выведенное соотношение справедливо для
произвольных бесконечно малых приращений i и V, формулу D.3) можно
представить в виде системы матричных уравнений
ЕМ1У1)У] = О, D.6)
ЕМ1у|)ууг-/]=0, D.7)
где / есть единичная рХр-матрица и
И|У|) = -П|У|)/|У|/(|У|). D.8)
Пример 4.1. Пусть f(|x|) = Bя)-^2ехр(—|х|2/2) есть
плотность стандартного нормального распределения. Тогда aisl и
систему D.6) — D.7) можно представить в эквивалентном виде
t=E(x), D.9)
(yry)-i = E{(x-t) (x-tH. D.10)
В этом случае (VTV)~l представляет собой обычную
ковариационную матрицу вектора х (выборочную, если среднее берется
по выборке, и истинную, если — по распределению).
Вообще говоря, будем называть (VTV)~l
псевдоковариационной матрицей вектора х, если t и V определяются из системы
уравнений
Е(И|У|)У) = О, D.11)
0, D.12)
где у= V{x — t) и и, v, w суть произвольные функции,
210 ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
Заметим, что формула D.11) определяет параметр сдвига t
в виде взвешенного среднего
t=E(w(\y\)x)/E(w(\y\))y D.13)
причем веса до(|у|) зависят от выборки.
Аналогично псевдоковариационную матрицу можно
определить в виде некоей взвешенной матрицы ковариаций
ri _ E(s(ly|)(x-t)(x-t)r) E (s A у I)) иы,
~ E(s(|y|)) ' Е (t; (| у |)) ' 14Л4'
где веса
DЛ5)
зависят от выборки. Если положить v равным s, то получим
наиболее изящное выражение^ поскольку коэффициент масштаоа
в D.14) исчезнет.
8.5. ОЦЕНКИ, ОПРЕДЕЛЯЕМЫЕ НЕЯВНЫМИ УРАВНЕНИЯМИ
В настоящем параграфе показывается, что если функции и
и v произвольные, то формула D.12) представляет собой
наиболее общий в некотором смысле вид неявного уравнения для
определения ковариаций (VTV)-1.
Чтобы упростить изложение, будем предполагать, что
параметр сдвига t известен и фиксирован, именно t = 0. Тогда D.12)
можно записать в виде
E(?(Vx)) = 0, E.1)
где
*F(x) = s(|x|)xxr-i;(|x|)/, E.2)
причем s задано выражением D.15). Каким будет наиболее
общий вид функции ЧГ?
Пусть нам задана достаточно гладкая, но в других
отношениях произвольная функция ЧГ, переводящая пространство Rp
в пространство симметричных /?Хр-матриц. Мы будем иметь
надлежащее число уравнений для р{р -\-\)/2 компонент
матрицы (VTV)~K
Определим матрицу V так, чтобы выполнялось равенство
Е(Т(Кх)) = 0, E.3)
где усреднение проводится по фиксированному (истинному или
выборочному) распределению вектора х.
Предположим, что функция W и распределение вектора х
таковы, что уравнение E.3) имеет по крайней мере одно
решение К, что SV также будет его решением, если S — произволь-
S.5. ОЦЕНКИ, ОПРЕДЕЛЯЕМЫЕ НЕЯВНЫМИ УРАВНЕНИЯМИ 211
ная ортогональная матрица, и что все решения приводят к одной
и той же псевдоковариационной матрице
Cx = {VTV)-\ E.4)
Предположение о единственности тут же влечет за собой, что
матрица С* при линейных преобразованиях В видоизменяется
так же, как классическая ковариационная матрица
СВх = ВСхВт. E.5)
Пусть теперь S — произвольное ортогональное
преобразование; определим
Ws(x) = ST4r(Sx)S. E.6)
Преобразованная функция Ws определяет новую
псевдоковариационную матрицу (WTW)~~] посредством решения W
уравнения
E(Ws(Wx))= E(STW(SWx)S) = 0.
Оно, очевидно, имеет решение W = STV, где V — произвольное
решение уравнения E.3) и, таким образом,
VTSSTV= VTV.
Из чего заключаем, что функции W и Ws определяют одну и
ту же псевдоковариационную матрицу.
Далее, усредняя по S (используя инвариантную меру на
ортогональной группе), получим
W(x)=E(Ws(x)). E.7)
Очевидно, что каждое решение уравнения E.3) остается
решением уравнения Е(Чг(Ух)) = 0, но, разумеется, предположение
о единственности матрицы E.4) в процессе усреднения может
нарушиться.
Понятно, что Ч? инвариантно относительно ортогональных
преобразований, т. е.
*FS (х) = STW (Sx) S = W (x), E.8)
или, что эквивалентно,
4F(Sx)S = SY(x). E.9)
Пусть, далее, х Ф 0 есть некий фиксированный произвольный
вектор. Тогда в силу E.9) матрица *F(x) коммутирует со всеми
ортогональными матрицами S, которые оставляют х
неподвижным. Из этого следует, что ограничение функции ЧГ(х) на
подпространство пространства Rp, ортогональное вектору х,
должно быть кратно тождественному преобразованию. Более того,
для каждого S, которое оставляет х неподвижным, имеем
212 tJl. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
S4?(x)x== W(x)x. Следовательно, S оставляет также
неподвижным и ЧР*(х)х, которое в свою очередь должно быть кратным
вектору х. Таким образом, с помощью скаляр^означных
функций s и v можно представить Ч? (х) в виде W (х) = s (х) ххг —
— v(x)I. В силу соотношения E.8) функции s и v ^зависят от х
только посредством |х|, из чего заключаем, что W имеет вид
F.2).
Глобальная единственность, постулируемая в виде E.4),—
требование весьма жесткое. Приведенные выше рассуждения в
своих наиболее существенных аспектах остаются в силе и при
более слабом требовании локальной единственности в такой
окрестности матрицы Сх, в которой не содержится других
решений, кроме Сх. Для симметризованного варианта формулы E.2)
множество достаточных условий локальной единственности
приводится в конце § 8.7.
8.6. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ РЕШЕНИЙ
Приводимые ниже результаты о существовании и
единственности решений получены Маронной A976) и Шёнхольцером
A979). Для совместного оценивания параметров t и V эти
результаты не очень приемлемы.
Оценка рассеяния V. Прежде всего предположим, что
параметр сдвига t фиксирован и равен нулю. Существование
доказывается конструктивно, введением итерационного процесса,
сходящегося к решению V уравнения D.12). Шаг итерации, на
котором из Vm получается Vm+\ = h(Vm), определяется
следующим образом:
(UT (T)
- E{v(\VmX{)) . F.1)
Если процесс сходится, то предельное значение V должно
удовлетворять D.14) и, значит, служить решением уравнения D.12).
Если формула F.1) используется в реальных вычислениях, то
удобно предполагать, что матрицы Vm — нижние треугольные с
положительными диагональными элементами, а для
приводимых ниже доказательств удобнее взять симметричную
положительно определенную матрицу. Совершенно не важно, что
именно мы предпочтем: при умножении матриц Vm и Vm+i слева на
произвольные ортогональные матрицы левая и правая части
соотношения F.1) не меняются.
Условия
(С.1) Функция s(r) монотонно убывает, s(r)>0 при г>0.
(С.2) Функция v(r) монотонно возрастает, v(r)>0 при
О
8.6. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ РЕШЕНИЙ 213
(С.З) Справедливо равенство u(r)=r2s(r) и функция v{r)
ограниченна и непрерывна.
(С.4) Справедливо неравенство u@)/v@)<. р.
Пусть для любой гиперплоскости Я выборочного
пространства (т.е. dim(H) = p— 1) Я(Я) = ЕA[х <=#]) будет
вероятностью Я или соответственно долей наблюдений,
принадлежащих Я (в зависимости от того, с каким распределением мы
имеем дело — с истинным или с выборочным).
(С.5) (i) Для всех гиперплоскостей Я выполняется
неравенство Р(Н)< l—pv(oo)/u(oo).
(п) Для всех гиперплоскостей Я выполняется неравенство
Н)<1/
Н)<1/р.
Лемма 6.1. Если выполняются условия (С.1) — (С.З) и (С.5)
и существует г<> > 0, такой, что
ЕИг0|х|))/ЕИго|х|))<1, F.2)
то h имеет неподвижную точку V,
Доказательство. Пусть z — произвольный вектор. Тогда из
F.1) и F.2) при Vo = г0/ получаем
о
Следовательно, (y\Vxyl < A//*о)/ (где А<СВ означает, что
матрица В — А положительно полуопределена). Таким образом,
имеем rol <V\ = h(rol). В силу (С.1) и (С.2) равенство
Vm+i = h(Vm) определяет возрастающую последовательность
г0/ = Vo < V\ < У2 < .... Поэтому для доказательства
сходимости Vm-*-V достаточно показать, что последовательность Vm
ограничена сверху. В силу непрерывности из условия (С.З)
матрица У удовлетворяет соотношению D.14).
Введем векторное пространство Я = {z | lim| Утг \ < оо}.
Предположим, что Я есть собственное подпространство
пространства Rp. Так как Ут < Vm+ь имеем
E(v(\Vmx\)) '
Вычислив след от обеих частей, получим
P>E(u(\Vmx\))/E(v(\Vmx\))>E(u(\Vmx\))/v(oo). F.4)
214 ГЛ 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
Поскольку для всех хфИ имеет место |Vmx|foo, из теоремы
о монотонной сходимости получаем неравенство
p>[\-P(H)](ll(oo)/v(oo),
которое противоречит условию (C.5i).
Следовательно, Н = Rp, но это возможно лишь в том случае,
если Vm остается ограниченной (заметим, что след должен
сходиться). ¦
Замечание. Условие F.2) служит гарантией существования
такой начальной матрицы Vo, что h(Vo)> Vq. Предположим,
например, что неравенство F.2) справедливо для всех достаточно
малых го. В пределе при го->О получим, что матрица (VJV{yl
будет кратным обычной ковариационной матрицы.
Предложение 6.2. Предположим, что выполнены условия
(С.1) — (С.5). Тогда h имеет неподвижную точку V.
Доказательство. Если функция s ограниченна, то
существование неподвижной точки следует из леммы 6.1. Если же s
неограниченна, то выберем г\ > 0 и заменим 5 функцией § по
следующему правилу: s(r) = s(r\) при г^Г\ и s(r) = s(r) при
г ^ г\. Функцию Я определим по формуле F.1), в которой 5
заменена функцией 5. Тогда в силу леммы 6.1 Я имеет
неподвижную точку V. Так как s ^ s, то для всех V справедливо
неравенство Л(У)<Я(У). Следовательно, h(V)< K(V)= Vy и из
(C.I) и (С.2) заключаем, что Vm+\*=h(Vm) определяет
убывающую последовательность 9 = Vo > V\ > V2 > ... . Поэтому,
для того чтобы доказать, что матрица V = lim Vm есть
неподвижная точка отображения Л, достаточно доказать, что она те-
вырожденна.
Как и при доказательстве леммы 6.1 находим, что
I<E(s(\Vmx\)(Vmx)(Vmx)T)/E(v(\Vmx\))y F.5)
и, вычислив след, получаем
p<E(u(\Vm*\))/E(v(\Vmx\))^E(u(\Vmx\))/v(O). F.6)
Приходим к выводу, что не все собственные значения матрицы
Vm могут сходиться к 0, поскольку в противном случае по
теореме о монотонной сходимости
р < lim E (и( | Vmx)) /v @) = и @) /v @),
что противоречило бы условию (С.4).
Предположим теперь, что qm и zm суть собственные векторы
матрицы Vm единичной длины, соответствующие наибольшему
Хт и наименьшему \im собственным значениям матрицы Vm. Если
8.6. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ РЕШЕНИЙ 215
обе части неравенства F.5) умножить слева на гтт и справа на
zm, то получим
/ < Е [s (I Vm* I ) |1* (ZUYVEV (\VmX\ ). F J)
Поскольку имеет место монотонная сходимость наибольших
собственных значений %т | А, > 0, имеем
с: {х 11 h«x | < г/Л} = Hm, Л F.8)
здесь же содержится определение Gm> г и Нт> г.
Из условия (С.5Н) следует, что для каждого г > 0 найдется
г\ > 0, такое, что
Р{Нт>г}^1/р + е, г^гь F.9)
а в силу (С.4) "можно выбрать Ь > 0 и е > 0, такие, что
[И0)+й)Д,@)][A/р)+е]<1. F.10)
Если Го < п выбрано так, что для г ^ Го выполняется
неравенство w(r)^«@) + 6, то из F.7) и F.9) получаем
неравенство
(x)s(\Vmx\)ii2m(zTmxJ}]/v@)^
x|2, 11@0)]/* @)}.
Если limjjim равен 0, то самое последнее слагаемое по теореме
о мажорированной сходимости стремится к нулю; в силу
неравенства F.10) получаем противоречие. Следовательно, Итцот>
> 0 и предложение доказано. В
Единственность неподвижной точки доказывается при
следующих условиях:
Условия
(ЕЛ) Функция 5(г) убывающая.
(Е.2) Функция u(r) = r2s(r) непрерывная и возрастающая и
и(г)>0при г>0.
(Е.З) Функция v(r) непрерывная и убывающая, v(r)^0t и
v (г0) > 0 при 0 ^ г < г0.
(Е.4) Для всех гиперплоскостей ЯсКр выполняется
неравенство Р(Н)< 1/2.
Замечание. В силу условия (С.2) и (Е.З) одновременное
доказательство существования и единственности возможно, только
если функция v постоянная (как и в случае ML).
Предложение 6.3. Пусть выполнены условия (ЕЛ) — (Е.4).
Если V и V\ — две неподвижные точки преобразования й, то
существует действительное число %, такое, что Vi = %V, и для
почти всех х выполняется и(\ Vx|) = u(k\ Vx\)t y(|l/x|) =
216 ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
= v(X/V\\). В частности, если X = 1, то либо и, либо v строго
монотонно.
Сначала докажем одно частное утверждение.
Лемма 6.4. Утверждение 6.3 справедливо, если либо V > V\t
либо V < V\.
Доказательство леммы. Без ограничения общности можно
предполагать, что V\ = /. Предположим, что V > / (случай
V < / доказывается аналогично). Тогда
Е {« (| Кх |)}
Если вычислить след, то получим
"~ Е {о(|х 1)} —Р' ^л^
В силу условий (Е.1) и (Е.З) имеем
Е{и(|7х|)} = Е{м(|х|)}, ЕМ|Ух|)} = Е{о(|х|)}. F.13)
Поскольку V > /, для почти всех х справедливы равенства
a(|Vx|)=a(|x|)f v(\Vx\)=v{\x\). F.14)
Если либо и, либо у строго монотонно, приходим к V = I.
В силу F.14) из F.11) заключаем, что
Пусть, далее, z есть собственный вектор, отвечающий
наибольшему собственному значению К матрицы V. Тогда равенство
F.15) влечет за собой
(^i)}0. F.16)
Выражение в фигурных скобках будет положительным, если
только A) вектор х не окажется собственным вектором,
отвечающим собственному значению % матрицы V, или B) вектор х
не будет ортогонален z.
Если V = XI, то лемма доказана. Если же V ф XI, то в силу
условия (Е.4) объединение х-множеств A) и B) обладает
массой, меньшей 1, что приводит к противоречию. ¦
Доказательство предложения 6.3. Пусть V и / —
неподвижные точки и предположим, что ни V</, ни V > / не имеет
8.§. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТИ РЕШЕНИЙ 21?
места. Выберем такое 0<г< 1, что г/ < V. В силу условий
(Е.2) и (Е.З) имеем
Ь(гГГ2— E{Mrlxl)xx7|x|2} 1 ^
П(Г1) Е{о(г|х|)} 7*"^
^ E{«([x|)xx7|xl2} ± = ±_,
^ Е{(||)} ' 2 2
или, г/ < Л (г/). Из неравенств г/ < / и г/ < V следует, что
Vi = limAm(/7) есть неподвижная точка, причем V\<I и
V\ < V. Тогда обе пары—Vi, / и V\y V — удовлетворяют
условиям леммы 6.4, так что 1Л, / и V — скалярные множители друг
для друга. Это противоречит предположению, что ни V < /, ни
V > / не имеет места. ¦
Оценка параметра сдвига t Пусть V — неподвижная точка и
V = L Тогда при условии, что -ф (г) = w(r)r есть монотонная
возрастающая функция положительного аргумента г, легко
установить существование и единственность оценки параметра сдвига
t. В этом случае существует выпуклая функция р(х) = р(|х|)=
SJ х |
ty(r)dr, такая, что с ее помощью оценку t можно опре*
о
делить как величину, минимизирующую выражение Q(t)=*
= Е (р (| х — 11)). Мы рассматриваем только усреднение по
выборке, поэтому нас не должно заботить, существует ли среднее
по распределению. Таким образом, множество решений t не
пусто и выпукло и если имеется по крайней мере одно такое
наблюдение х, что р"(|х —1\)>0, то решение фактически
единственно.
Доказательство. Покажем, что функция Q строго выпуклая.
Предположим, что zeRp есть линейная функция параметра s.
Возьмем производные по этому параметру (которые будем обо*
значать точками над соответствующими буквами):
Заметим, что р' ^ 0, (zrzJ ^ {гтг) (гтг) и р"(г) = -ф'(г) ^ 0.
Следовательно, p(|z|) есть выпуклая функция аргумента z.
Более того, если p//(|z|)>0 и p/(|z|)>0, то p строго выпукла
в точке z: если z ортогональна z, то
218 ГЛ. 8. РОВАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
Если же эти условия не выполняются, то
Случай р"(г)>0, р'(г) = О возможен, только если г = 0.
Нетрудно убедиться в том, что z = 0. будет точкой строгой
выпуклости. Следовательно, функция Q строго выпукла, из чего и
вытекает единственность. ¦
Совместное оценивание параметров t и V. В том случае, когда
на функции t и V не наложены условия регулярности, легко
доказать и существование обоих решений t и V. Предположим, что
при каждом фиксированном t существует единственное решение
Vt системы D.12), которое непрерывным образом зависит от t,
и что при каждом фиксированном V существует единственное
решение t(V) системы D.11), представляющее собой
непрерывную функцию от V. В силу D.13) решение t(V) всегда
принадлежит выпуклой оболочке Н наблюдений. Таким образом,
непрерывная функция \=$*i(Vt) отображает Н в себя и,
следовательно, по теореме Брауэра, имеет неподвижную точку.
Соответствующая пара (t, Vt) будет, очевидно, решением системы
D.11) — D.12). До сих пор единственность неподвижной точки
доказывалась только при условии, что распределение случайной
величины х имеет центр симметрии; для выборочных распреде^
лений это маловероятно (Маронна A976)).
8.7. ФУНКЦИИ ВЛИЯНИЯ
И КАЧЕСТВЕННЫЕ АСПЕКТЫ РОБАСТНОСТИ
Нетрудно заметить, что оценки t и V, определяемые по
формулам D.11) и D.12) при помощи усреднения по выборочному
распределению, можно рассматривать как функционалы t(F) и
V(F) от некоторого основного распределения F. Эти оценки
принимают соответственно векторные и матричные значения;
функции влияния, описывающие изменения t и V при бесконечно
малых изменениях F, очевидно, тоже будут соответственно вектор-
но- и матричнозначными.
Можно выбрать без потери общности такую систему
координат, что t(F) = 0 и V(F) = /. Будем полагать, что F (по
крайней мере) симметрична относительно центра. Для того чтобы
найти функции влияния, нужно включить Fs ==A—s)jF + s6x
в определяющие соотношения и взять производную по 5 в точке
5 = 0; обозначать ее будем точкой над буквой.
8.7. ФУНКЦИИ ВЛИЯНИЯ 219
Сначала возьмем выражение D.11). Только что описанная
процедура дает
w(\x\)x^^ G.1)
Второй член (в который входит V) дает при усреднении 0, если
F симметрична относительно центра. Можно получить
значительные дальнейшие упрощения, если предполагать, что F
сферически симметрична (или по крайней мере, что условная
ковариационная матрица для у/|у| при заданном |у| равна A/р)/
у|), поскольку тогда выполняется E{(yrt)y| |y|} =
для всех
Ч. Так что G.1) обращается в
-О/рIу
Следовательно, функция влияния для параметра сдвига имеет
вид
1С (х- F t) = У('*1>* G о\
Точно так же, дифференцирование соотношения D.12) дает
^ ^} 0. G.3)
Второй член (в который входит t) при усреднении дает 0, если
функция F симметрична относительно центра.
Удобно разбить G.3) на два уравнения. Вычислим сначала
след для G.3) и поделим полученное выражение на р. Это дает
G.4)
Вычтя теперь G.4) из диагональных элементов выражения G.3),
получим
G.5)
220 ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
Если функция F обладает сферической симметрией, то процесс
усреднения удлинится на один шаг. Тогда из G.4) и G.5) (при
W = A/2) (V -(- VT)) соответственно получим
G.6)
^-y/) = 0. G.7)
(Относительно этого процесса усреднения см. § 8.10, после
формулы A0.15).) Понятно, что существенна только симметричная
часть Й7 функции влияния V = /С(х; Fy V) и это можно
сформулировать в явном виде. Из G.6) и G.7) получим
(l/p)u(\x\)-v(\x\)
±r(W\
Р ir\W>- EF{l(llp)u'(\y\)-.v'(\y\)]\y\}*
ххт\
. G.8)
Функция влияния для псевдоковариационной матрицы будет
иметь вид
/С(х; F, (VTV)-1) = —2W G.9)
(всюду предполагается, что выбрана такая система координат,
что V = I).
Из G.2) и G.8) заключаем, что функции влияния
ограниченны тогда и только тогда, когда ограниченны w(r)r, u(r) и
v(г) (знаменатели в G.2) и G.8) не равны нулю).
Качественная робастность, т. е. в сущности непрерывность
функционалов t(F) и V(F), плохо поддается изучению по той
простой причине, что мы еще не знаем, для каких функций эти
функционалы однозначно определены. Они, однако, будут так
определены для эллиптических распределений типа D.1), и по
теореме о неявной функции мы можем заключить, что решения
будут все еще определены в некоторой окрестности. Это
позволяет провести тщательный анализ функций влияния не только
для данной модели распределения (которое по предположению
сферически симметрично), но также и в некоторой ее
окрестности. Иначе говоря, мы должны вместо более простых
выражений G.2) и G.8) использовать в обсуждении непосредственно
G.1) и G.3).
8.8. СОСТОЯТЕЛЬНОСТЬ И АСИМПТОТИЧЕСКАЯ НОРМАЛЬНОСТЬ 221
Таким образом, наши дела обстоят неплохо, если
знаменатели выражений G.2) и G.8) больше нуля и функции до, wr,
w'r, w'r2, и, и/г, а\ и'Гу v, vf и v'r ограниченны и непрерывны,
поскольку тогда функция влияния будет иметь один и тот же
вид в данной модели распределения. Используя соотношение
B.5.8), заключаем, что малые изменения F влекут за собой
малые изменения значений функционалов.
8.8. СОСТОЯТЕЛЬНОСТЬ И АСИМПТОТИЧЕСКАЯ НОРМАЛЬНОСТЬ
Оценки t и 1/ состоятельны и асимптотически нормальны —
доказательство этого факта можно обнаружить в § 6.2 и 6.3.
В то время как доказательство состоятельности — процесс
довольно сложный (здесь приходится иметь дело с задачей
одновременного определения масштаба и сдвига, когда не
выполняются предложения (А.5) или (Б.4)), асимптотическая
нормальность доказывается непосредственной проверкой условий
(Н.1) — (Н.4). На функции w, и и v должны быть, разумеется,
наложены некоторые условия регулярности. Заметим, в
частности, что нас ждут неприятности, если функция и(г)/г
неограниченна и масса ее сконцентрирована в начале координат.
Более подробно об этом см. работы Маронны A976) и Шёнхоль-
цера A979).
Асимптотические дисперсии и ковариации оценок совпадают
с аналогичными величинами их функций влияния. Поэтому их
легко вывести из формул G.2) и G.8). В силу симметрии
оценки сдвига и ковариации асимптотически некоррелированны и,
следовательно, независимы.
Компоненты сдвига ?/ асимптотически независимы с асимптот
тической дисперсией
P->E[w(\x\)\x\]> rn
Асимптотические дисперсии и ковариации компонент матрицы
V можно представить следующими выражениями
(предполагается, что V — нижняя треугольная матрица):
(8.3)
, (8.4)
(8.6)
222 ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
где
Все другие асимптотические ковариации между величинами
р-1 tr^), Р//— р-1 tr 9 и Р/Л равны нулю.
8.9. ПОРОГОВАЯ ТОЧКА
Будем считать, что пороговая точка может появиться в том
случае, если по крайней мере одно решение уравнения D.12)
ведет себя плохо. Тогда (если е-загрязнение симметрично
относительно центра) для пороговой точки всегда выполняется
неравенство е* ^ 1/р. Предполагается, что это точная граница
(если мы допускаем несимметричные окрестности загрязнения,
то границей будет 1/р + 1).
Излагаемые ниже соображения принадлежат В. Стахелю
(частное сообщение). Пусть G и Я —распределения в R",
симметричные относительно центра (но не сферически
симметричные), с центром в точке 0. Введем функцию F = A — е) G + еЯ.
Предположим, что абсолютная величина |х| имеет одно и то же
. распределение при G и при Я (а значит, и при F).
Будем полагать, что условная матрица ковариации вектора
х/|х| при заданном |х| диагональна и в случае распределения
G, и в случае распределения Я. Именно, при распределении G
диагональ имеет вид @,1/(р—1), ..., 1/(р—1)), а при
распределении Я диагональю будет вектор A,0,0, ... 0).
Например, в качестве G можно взять распределение вектора @, z2, ...
..., zp)t где z2, ••¦> Zp суть независимые случайные величины
со стандартным нормальным распределением, а в качестве Я —
распределение вектора (zi, °, ..,, 0), где случайная величина z\
имеет распределение %2 с р — 1 степенями свободы. При 8 = 1/р
условная ковариационная матрица вектора х/|х| при заданном
|х| в случае распределения F будет диагональной, причем ее
диагональю служит вектор (Г/р, ..., 1/р).
Пусть, далее, F есть сферически симметричное
распределение, полученное усреднением распределения Fjio ортогональной
группе. Для обоих этих распределений F и F радиальное
распределение (т. е. распределение величины |х|) будет %2 с р — 1
степенями свободы. Тогда очевидно, что соотношение типа
D.12) будет давать для распределений F и F одну и ту же
оценку в виде функционала, т. е. некоторое кратное единичной
матрицы.
Дадим этому результату следующую интерпретацию:
симметричное загрязнение на оси х\ при е = 1/р может вызвать
появление пороговой точки,
6.10 РАСПРЕДЕЛЕНИЯ, МИНИМИЗИРУЮЩИЕ ИНФОРМАЦИЮ 223
Значение пороговой точки е* ^ 1/р при увеличении
размерности неутешительно падает. Один из способов избежать этого
следующий. Прежде всего оценим параметр сдвига t и
псевдоковариационную матрицу (VTV). Затем найдем выделяющиеся
значения в пространстве векторов .у (у = V(x — t)). Если
пороговые точки, с которыми мы столкнулись в этом параграфе,
можно отнести к разряду типичных (что сомнительно), то
«хорошие» точки у будут располагаться в плоскости круга, а
«плохие», вызвавшие возникновение порога, — группироваться вдоль
оси круга. Инвариантная робастная оценка масштаба
(абсолютное медианное отклонение) должна, по-видимому, служить
корректно определенным минимумом в этом направлении.
8.10. РАСПРЕДЕЛЕНИЯ, МИНИМИЗИРУЮЩИЕ ИНФОРМАЦИЮ
Сдвиг. Рассмотрим семейство распределения
/(x;t,/) = f(|x-t|), x,teR*, A0.1)
где / принадлежит некоторому выпуклому множеству $Г
плотностей распределений. Предположим, что t есть
дифференцируемая функция некоторого действительного параметра 0. Тогда
информацией Фишера относительно 0 будет
Ставится задача найти функцию foeST, минимизирующую /(/).
Очевидно, что это достигается минимизацией выражения
где Ср означает площадь поверхности единичного шара в
пространстве Rp. Это немедленно приводит к соотношению
при граничном условии
JrP-'6/rfr=O. A0.5)
Или, применяя множитель Лагранжа у, имеем
4vrp-i _ (/'//) V-1 — 2 [ (ГЛ)/"-1]' = 0 A0.6)
224 ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ Й КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
на множестве значений г, где функция / меняется произвольным
образом. На множестве, где 6/^0 знак «=» меняется на «^».
При a = V/ получаем линейное дифференциальное
уравнение
и" + [(р-1)/г]и'-уи = 0, A0.7)
справедливое на множестве, где функция f меняется
произвольным образом.
Пример 10.1. Пусть 2Г— множество сферически
симметричных е-загрязняющих распределений в пространстве R3. Тогда
уравнение A0.7) имеет частное решение
A0.8)
Поскольку функции /0 и f'0/f0 должны быть непрерывны, после
несложных вычислений получаем
е~Г. r>r0,
а-A -е)Bя)-3/2, Ь = A-е)Bя)-3/2г02е(Г»/2)-2,
с = 2Л/7 = '-о-2/го. A0.10)
Таким образом,
Постоянные гоие определяются из условия, что функция /0
есть плотность вероятности:
{r)rp-4r = \. A0.12)
В частности, постоянная с должна быть больше нуля и,
следовательно, r0 > V2> в предельном случае с = 0 соответствует
г0 = л/2 и е = 1.
Из немонотонности A0.11) можно заключить, что —log /о (| х |)
не является выпуклой функцией х. Следовательно, оценка
наибольшего правдоподобия параметра сдвига, вообще говоря, не
должна быть единственной, так что нас ждут некоторые
неприятности при доказательствах, когда е велико.
Для наших целей сдвиг не должен быть, во всяком случае,
мешающим параметром, так что это пустая трата времени —
возиться со сложными оценками параметра сдвига. Поэтому
будем работать с простой монотонной аппроксимацией выражения
A0.11) в виде (ср. с D.6))
w(r)r-
Г г, г
Uo, r
8.10 РАСПРЕДЕЛЕНИЯ. МИНИМИЗИРУЮЩИЕ ИНФОРМАЦИЮ 225
Матрица ковариации. Рассмотрим семейство распределений
/(х;0, V) = \Ae\V\f(\Vx\)% xgR". A0.14)
Предполагается, что V — дифференцируемая функция
некоторого действительного параметра 0. Тогда информация Фишера
относительно 9 для V = V = 1 имеет вид
1Ю-Е {[?*№; 0, пП_Е {[„«-+flfflf -^П-
A0.15)
В силу симметрии достаточно рассмотреть этот частный случай.
Для того чтобы упростить A0.15), возьмем сначала
условное математическое ожидание при заданном |х|, т. е. будем
усреднять по равномерным распределениям на сферах |х|==
= const. Условные средние от \TVx и (х7УхJ суть
соответственно р|х|2 и у\х\\ где p = (l/p)tr 1/и
) l
/. *
если предположим, что матрица V симметрична (на общности
это не отразится). Доказать это проще всего так. Покажем, что
в силу симметричности и однородности средние должны быть
пропорциональны соответственно |х|2 и |х|4 и затем из
частного случая! когда х есть р-мерный нормальный вектор, а V —
диагональная матрица, определим коэффициенты
пропорциональности. Таким образом, если положить
и(г) = -[Г(г)/№]г, A0.16)
то получим
p2p2. A0.17)
Следовательно, для того чтобы минимизировать информацию
/(/) на множестве &~9 достаточно минимизировать функцию
}гр+^г. A0.18)
Используя обычный прием вариационного анализа, получаем
оо
6jr(f) = Ср J (- и2 + 2ри + 2ruf) rp~l6f dr. A0.19)
о
8 Зак. 617
226 ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
Объединив последнее с граничным условием Ср \ rp~l dfdr,
заключаем, что функция и, соответствующая значению /о, при
котором достигается минимум, должна удовлетворять уравнению
2ги' + 2ри — и2 = с, A0.20)
для тех значений г, где функция /о меняется произвольным
образом, или, что эквивалентно,
—2ги' + (и — рJ = р2 — с = и2, A0.21)
где и— некоторая постоянная.
Для наших целей в качестве решений можно ограничиться
постоянными, соответствующими и' = 0. Итак, имеем
и = р±%. A0.22)
В частности, пусть
^ = {/|/(О = A-е)ф(г) + еА(г), к&Жш) (Ю.23)
есть множество всех плотностей сферически симметричных
загрязненных нормальных распределений, где
Ф(г) = Bя)-Р/2е-г''2, A0.24)
и Ms есть множество плотностей всех сферически симметричных
распределений в Rp.
Теперь легко убедиться, что для минимизации функций /(/),
а значит, и /(/), достаточно взять функцию
а<г<ь> A0-2б>
U2,
и соответственно
fo(r) = \ а-в)ф(г), a^r^b, A0.26)
1A-е)ФF)F/гГ, 6<г.
Постоянные а и Ъ должны удовлетворять равенствам
а = д/(р — х)+, Ь = ^р + к, A0.27)
а х определяется из условия равенства общей массы функции
/о единице, или, что эквивалентно, из
а Ь
[а
ф @) S (т)"' г'~'
С0.28)
8.10. РАСПРЕДЕЛЕНИЯ, МИНИМИЗИРУЮЩИЕ ИНФОРМАЦИЮ 227
Оценку максимального правдоподобия
псевдоковариационной матрицы для /о можно описать соотношением D.12), где
функция и задана формулой A0.25) и t/sl, Тогда имеет
место следующее минимаксное свойство. Пусть ИГС^-ЯГ — такое
подмножество, что эта оценка будет состоятельной оценкой
единичной матрицы. Тогда она минимизирует супремум по ЗГС
асимптотических дисперсий вида (8.2) — (8.6).
Если х<р и, следовательно, а > 0, то плотность /0
распределения, минимизирующего информацию, будет весьма
нереалистична в силу ее вырожденности в начале координат. Иначе
говоря, соответствующая минимаксная оценка предназначена
для того, чтобы защитить нас от неправдоподобных
случайностей. Более того, если основное распределение оказалось
сконцентрированным в начале координат (или в процессе
вычислений выборочная точка совпала с пробным значением t), то
соотношения D.12) и D.14) не будут корректно определенными.
Если мы отделим соображения, связанные с масштабом
(информацию, содержащуюся в |у|), от соображений, связанных
с направлением (информацию, содержащуюся в у/|у|), то, по-
видимому, значения а > 0 окажутся полезными только в
смысле масштаба: они помогут обеспечить пороговые свойства при
«взрывной» ситуации, вызванной идущими внутрь
наблюдениями. Предельная оценка масштаба при х-^0 есть, в
сущности, абсолютное медианное отклонение med{|x|}, хорошие
робастные свойства которого мы уже прокомментировали в
одномерном случае. Точно так же то, что уравнение D.12) не
определено в точке у = 0, имеет значение лишь для
направления, но не для масштаба.
С точки зрения соображений, связанных с направлением,
значение и@)Ф0 весьма неудобно. Чтобы получить хотя бы
интуитивное представление о том, что при этом происходит,
заметим, что для оценок t и 9 наибольшего правдоподобия
линейное преобразование величин у= 9(\ — t) обладает следующим
свойством (рис. 8.10.1): если выборочные точки области |у|<а
и точки области |у| > b движутся по радиальным направлениям
соответственно изнутри шара |yj = а и извне шара |у| = 6,
тогда как точки из области a^\y\^Lb остаются там же, где
они были, то таким образом видоизмененная выборка имеет
(обычную) ковариационную матрицу /.
Расположенное очень близко от начала координат значение
у, очевидно, не дает никакой информации относительно
направления. В самом деле, у/|у| изменяется случайным образом при
малых случайных изменениях t. Таким образом, следует
сдерживать движение точек к шару радиуса а, когда они подходят
близко к началу координат, но нам бы хотелось запомнить
содержащуюся в них информацию относительно масштаба. Этого
8*
228 ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
можно достичь, если и будет убывать к нулю при г->0 и
одновременно v будет изменяться так, что след от выражения D.12)
останется неизменным. Например, можно изменять A0.25),
полагая
u(r) = (a2/r0)r, r^ro< a; A0.29)
г ^
К сожалению, это нарушает доказательство единственности из
§ 8.6.
Рис. 8.10.1. Из работы Хьюбера A977а) с уведомлением издателя.
Обычно бывает желательно стандартизовать относящиеся к
масштабу составляющие оценок таким образом, чтобы получить
правильные асимптотические значения нормальных
распределений. Лучше всего в конце концов будет, если мы применим
корректирующий коэффициент т, как это сделано ниже.
Пример 10.2. Для стандартных нормальных наблюдений х и
функции и, определенной по формуле A0.25), имеем
где %2(р, •) есть распределение %2 с р степенями свободы.
Найдем т из Е[и(т|х|)] = р и затем умножим
псевдоковариационную матрицу (J^V), полученную из соотношения D.12), на
8.1} НЕКОТОРЫЕ ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ 229
т2. В таблице (рис. 8.10.2) приводятся некоторые численные
результаты.
Теперь следует прокомментировать вопрос о сферической
симметрии. Во-первых, заметим, что, когда минимизируется
информация Фишера, предположение о сферической симметрии
необязательно. Информация Фишера — выпуклая функция
переменного /, так что усредняя по ортогональной группе, получаем
(в силу неравенства Йенсена) /(E{f}) ^ Е{/(/)}, где Е{/} =f
есть плотность сферически симметричного распределения. Так
что вместо того, чтобы минимизировать /(/) для сферически
симметричных функций /, можно минимизировать Е {/(/)} для
функций / более общего вида; минимум будет достигаться на
сферически симметричной функции /. Во-вторых, можно
подвергнуть критике подход, ограничивающий рамки рассмотрения
эллиптическими функциями плотностей (исключение составляет
только § 8.9).
Такое предположение относительно симметрии имеет смысл
в том случае, когда мы работаем с подлинными р-мерными
распределениями, имеющими длинные хвосты. Однако, например,
в модели больших ошибок типичные выделяющиеся значения
порождаются процессом, отличным от того, которым
порождалось основное семейство, и, следовательно, они должны иметь
совершенно иную ковариационную структуру. Например,
основное семейство может состоять из плотных и узких эллипсоидов,
лишь несколько главных осей которых значимо отличаются от
нуля, тогда как облако выделяющихся наблюдений будет
рассеянным и примерно шарообразным. Либо это могут быть
выделяющиеся наблюдения, отражающие структуру и
располагающиеся вдоль некоторого вполне определенного подпространства
меньшей размерности, и т. п. Разумеется, если имеет место
аффинная инвариантность, эти две ситуации практически
неразличимы.
Но мы не претендуем на то, что обладаем средством, с
помощью которого можно непосредственно решать такие
многомерные разделяемые задачи (разве что у нас имеется
какая-нибудь предварительная информация). Оценки, полученные в
§ 8.4 и далее, полезны именно потому, что они предоставляют
нам беспристрастную оценку общего вида конфигурации
главной составляющей точечного облака, зная которую можно
приступать к более серьезному анализу его составляющих.
8.11. НЕКОТОРЫЕ ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ
До сих пор, к сожалению, мы не имеем ни по-настоящему
быстрой, ни очевидно сходящейся процедуры одновременного
оценивания сдвига и рассеяния. Можно получить относительно
230 ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
Масса распределения Го
Ниже а
выше Ь
0.01
0.05
0.10
0.25
1
2
3
5
10
20
50
100
1
2
3
5
10
20
50
100
1
2
3
5
to
20
50.
100
1
2
3
5
10
20
50
100
4.1350
5.2573
6.0763
7.3433
9.6307
12.9066
19.7896
27.7370
2.2834
3.0469
3.6045
4.4751
6.2416
8.8237
13.9670
19.7634
1.6086
2.2020
2.6635
3.4835
5.0051
7.1425
11.3576
16.0931
0.8&78
1.3748
1.7428
2.3157
3.3484
4.7888
7.6232
10.8052
0
0
0
0
0.0000
0.0038
0.0133
0.0187
0
0
0
ОЛ3087
0.0454
0.0659
0.0810
0,0877
0
0
0.0445
0.0912
0.1193
о.ш?
0Л469
0.1523
0.2135
0.2495
0.2582
0.2657
0.2730
0.2782
0.2829
0.2854
0.0332
0.0363
0.0380
0.0401
0.0426
0.0440
0.0419
0.0395
0.1165
0.1262
0.1313
0.1367
0.1332
0.1263
0.1185
0.1141
0.1957
0.2101
0.2141
0.2072
0.1965
0.1879
0.1797
0.1754
0.3604
0.3406
0.3311
0.3216
0.3122
0.3059
0.3004
0.2977
1.0504
1.0305
1.0230
1.0164
1.0105
1.0066
1.0030
1,0016
1.1980
1.1165
1.0873
1.0612
1.0328
1.0166
1.0067
1.0033
1.3812
1.2161
1.1539
1.0908
1.0441
1.0216
1.0086
1.0043
1.9470
1.3598
1.2189
1.1220
1.0577
1.0281
1.0110
1.0055
Рис. 8.10.2. Из работы Хьюбера A977а) с уведомлением издателя.
6.Jl. НЕКОТОРЫЕ ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТ^ 231
просуой ц прямой способ, если воспользоваться формулами
D.13) и D.14).
A) Начальные значения. Возьмем, например, классические
оценки t:=E{x}, 2:=Е{(х— t) (х — t)r}. Произведем
декомпозицию Чолески 2 = ВВТУ где В есть нижняя треугольная
матрица, и положим У:=В-!. Затем будем чередовать шаги
вычисления рассеяния и масштаба, описашще ниже.
B) Вычисление рассеяния. При у= V(\ — t) положим
Произведем декомпозицию Чолески С = ВВ~Х и положим
W:=*B~l, V:= W.
C) Вычисление сдвига. При у = V(x — t) положим
D) Правило окончания. Итерация заканчивается, когда
выполнены оба условия: \\W — /||<e, ||Fh||<6. Толерантные
границы е и б определяются заранее, например е = б = КН.
Заметим, что в этом алгоритме предпринята попытка
улучшить численные характеристики: по возможности обходятся
плохо обусловленные матрицы VTV.
Если мы зафиксируем t или У, то не составляет труда
показать, что алгоритм сходится при весьма общих предположениях.
Доказательство сходимости при фиксированном t содержится в
доказательстве леммы 6.1.
Если фиксирована матрица V, то легко доказать сходимость
вычисления сдвига при условии, что функция w(r) монотонно
убывающая, a w(r)r монотонно возрастающая. Для простоты
в качестве V возьмем Дав качестве р(г)— неопределенный
интеграл от w{r)r. Тогда функция р(|х —1|) будет вьщуклой как
функция переменного t и нахождение минимума Е{р(|х —1|)
эквивалентно решению системы D.11).
Так же как это делалось в § 7.8, введем «сравнительно
похожие» функции. Пусть г* = |у*| = |х* — t(m>|, где t<m> есть
текущее пробное значение, а индексом / обозначено j-e
наблюдение. Функции ии предназначенные для сравнения, определим
следующим образом: щ(г) = щ + A/2N,г2, щ(п) ш р(п),
u't (г,) = р' (г.) = w (rt) rr Из последнего условия заключаем, что
bi == w(ri), следовательно,
232 ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
Поскольку w — монотонная убывающая функция, имеем
Таким образом, щ(г)^ р(г) для всех г.
Отыскание минимума Е{м/(|х,- —tj)} эквивалентно
выполнению одного шага алгоритма, вычисляющего сдвиг t(m+1), если
известно значение t(m). Таким образом, функция Е{р(|х —1|)} —
строго убывающая, если только t(m) = t(m+1) не есть решение,
и сходимость к минимуму теперь легко доказать.
Когда t и V оцениваются одновременно, сходимость еще пока
не доказана.
Скорость сходимости алгоритма вычисления сдвига
удовлетворительная, но хуже обстоит дело с более расточительным
алгоритмом вычисления рассеяния (большая часть работы здесь
тратится на построение матрицы С).
В работах Маронны A976) и Хьюбера A977а)
описываются процедуры,, которые, по мнению авторов, должны быть более
быстрыми. В первой работе предпринята попытка ускорить
алгоритм вычисления рассеяния посредством «сверхрелаксации»
(в наших обозначениях декомпозиция Чолески должна была бы
применяться не к С, а к С2, так что алгоритм удлинялся
примерно вдвое). Во второй работе предлагается
модифицированный метод Ньютона (где гессиан заменяется его средним по
сферам |у| = const). Но ни тот ни другой метод не дал достаточно
хррщщ? результатов на наших численных примерах (меход Ма-
ронны слишком часто приводил к осциллирующим значениям,
а метсщ Хьюбера фактически не дал выигрыша в скорости). При-
менение непосредственно метода Ньютона мы не включили в
рассмотрение из-за слишком большого числа переменных.
На сегодняшний день наиболее удачным (и дающим
примерно вдвое большую скорость сходимости) следует считать некую
версию метода сопряженного градиента (СГ), использующую
вторые производные в явном виде. Идея этого метода такова.
Предположим, что ищется минимум функции f(z), zsRft, и
что последним шагом итерации был z(m) := z(m~^ + Ь(т~!). Если
градиентом функции f в точке z(m> является g(m), то
аппроксимацией функции
F\tu h) — f (z(m> + hg™ + W"-1))
будет квадратичная функция Q{t\,U), имеющая в точке t\ =
= ^2 = 0 такие же производные до второго порядка. Найдем
минимум функции Q (пусть он достигается в точках i\ и i2) и
положим h^m> := fig^m> + ^2h<w-1> и z^m+1):=z<m) + h^). Первые и
вторые производные функции F должны выражаться
аналитически.
8.11. НЕКОТОРЫЕ ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ 233
Если функция / квадратичная, то процедура алгебраически
эквивалентна стандартному методу сопряженного градиента и
минимум по ней получается за п шагов (где п — длина вектора
z). Преимущество этого метода над более привычными его
разновидностями с рекурсивным получением Ыт) (метод Флетчера —
Пауэлла и т. д.) состоит в том, что он позволяет избегать
неустойчивости из-за накопления ошибок, связанных с A)
отклонением функции / от квадратичной и B) округлением (в
сущности обычное рекурсивное определение величины h(m)
равносильно численному дифференцированию).
В нашем случае мы отправляемся от задачи отыскания
оценки максимального правдоподобия D.2) и предполагаем, что
требуется найти минимум функции
Q = _lOg(det V)- E{log/(| V(x-t) |)}.
Обозначим V(x— t) через DP (у), причем y=l/0(x — t);
величины t и Vo будут соответствовать текущим пробным значениям.
Предположим, что W — нижняя треугольная матрица, линейно
зависящая от двух действительных параметров s\ и s2: W =
= / + s\U\-{- s2U2i где U\ и U2 суть нижние треугольные
матрицы. Если
= _log(det^)-log(detVo)-E{log/(|lFy|)}
дифференцируема по линейным параметрам, входящим в W, то
Q(W) = -tr(WW-i)+E{s(\Wy\)(Wyy(Wy)},
где s(r) = —f'(r)/rf(r)' При s\ = s2 = 0 имеем
= E{s(\y\)yTWy}-ir(W),
E{^{^(yr^
В частности, если взять частные производные от Q по всем
р(р4~ 1)/2 элементам матрицы W, то на основании изложенного
выше заключаем, что градиент U\ естественным образом
определяется как нижний треугольник матрицы
Только что описанная идея далее"дается в приложении. Мы
всегда можем работать вблизи единичной матрицы, и это дает
нам то преимущество, что соответствующие формулы
упрощаются, а матрицы делаются лучше обусловленными.
Шаг итерации метода СГ для вычисления рассеяния. Пусть
tn V — текущие пробные значения, причем у == ^(x — t), матрица
Ui — нижняя треугольная: U\\ = E {s(|y| )ууг} — / (верхний
треугольник не принимаем во внимание).
2S\ ГЛ. 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ И КОРРЕЛЯЦИОННЫЕ МАТРИЦУ.
Предполагается, что на первом шаге итерации / = k = 1; на
всех последующих шагах j к k принимают значения 1 или 2.
Пусть, далее,
s( |y \){Uiyy(Uky)}t
b, = -tT(U,)+E{s{\y\)(yW,y)}
(тогда Q(W)^Q (/) + ? bjS; + j ]Г a/*S/Sft) . Решаем систему
уравнений ?fca/fc5fc + fy =0 относительно si и s2 (на первом
шаге 52 = 0). Затем положим [/2:= S\Ui + S2f/2. Если
элементы матрицы [/г окажутся слишком велики, искусственно
уменьшим их, разделив на соответствующий коэффициент. Например,
U2 = ct/2, где с= l/max(l,2d), причем d есть наибольший по
абсолютной величине диагональный элемент матрицы f/г.
Положим W: = I + U2, V: = WV.
На реальных задачах для р, не превышающего 20 (т. е. не
более 20 параметров сдвига и не более р(р+ 1)/2 = 210
параметров рассеяния), процедура давала хорошую сходимость и
достаточную точность вычислений на ЭВМ.
ГЛАВА 9
Робастность в планировании
9.1. ОБЩИЕ ЗАМЕЧАНИЯ
Выше уже дважды встречались задачи, имеющие отношение
к планированию. Первый раз это было при рассмотрении точек
разбалансировки (§7.1 и 7.2), второй — при обсуждении тонких
вопросов, связанных со смещением (§ 7.5). В обоих случаях
шла речь о единичных наблюдениях, расположенных в
изолированных точках планового пространства, а возникающие в
этих случаях трудности объяснялись, по существу, тем, что
наблюдения не могли перепроверяться.
К задачам планирования можно подходить с разных сторон.
Однако в тех случаях, когда во главу угла ставится робастность,
на первый план выступает требование, суть которого состоит в
том, что должен иметься избыток наблюдений, достаточный для
того, чтобы все могло быть перепроверено. В этой небольшой
главе будет приведен один пример, также касающийся робаст-
ности в планировании, но позволяющий взглянуть на указанное
требование с несколько иных позиций. Пример наглядно
иллюстрирует тот неожиданный факт, что отклонение от
линейности, слишком малое для того, чтобы оно могло быть
обнаружено, оказывается уже достаточно большим для того, чтобы
склонить чашу весов не в пользу «оптимальных» планов,
которые строились в предположении точной линейности и требовали
размещения наблюдений в крайних точках диапазона
наблюдений, а в пользу «наивных» планов, в которых наблюд» ?шя
распределяются по всему пространству планирования более или
менее равномерно (и в которых предусмотрена тем самым
возможность проверки на линейность).
Сам пример, иллюстрирующий этот факт, взят из работы
Хыобера A975). Пример прост, но вполне отвечает
поставленной цели. Дальнейшее развитие в интересных направлениях он
получил в работах Сакса и Илвисейкера A978), Бикела и Герц-
берга A979).
9.2. МИНИМАКСНАЯ ПОДГОНКА НА ИНТЕРВАЛЕ
Предположим, что / есть почти линейная функция,
определенная на интервале / = [—1/2, 1/2]. Необходимо возможно
более точно аппроксимировать ее линейной функцией. В каче-
236 ГЛ. 9. РОБАСТНОСТЬ В ПЛАНИРОВАНИИ
стве меры расхождения выбирается средняя квадратичная
ошибка
\ U (х) — а — Р*]2 dx* B.1)
В этом параграфе все интегралы берутся по интервалу /.
Очевидно, что интеграл B.1) принимает минимальное значение при
[ xf (х) dx
Оо=\/(*)Лс, Ро = ^7 . B.2)
Минимальное значение интеграла B.1) обозначим Q/:
Qf = \[f(x)-ao-VoxYdx. B.3)
Теперь допустим, что значения функции / могут наблюдаться
лишь с некоторой ошибкой измерения. Далее, предположим, что
такие наблюдения для функции / могут быть получены в п
произвольно выбранных точках хи •••, хп интервала /, причем в
полученных наблюдениях
yt = f(xt)+u{ B.4)
ошибки щ суть независимые случайные величины, имеющие
одно и то же нормальное распределение Л9@, а2).
Таким образом, наша исходная задача превратилась в
следующую. Необходимо найти такие оценки аир коэффициентов
линейной функции, основанные на наблюдениях у/, что
математическое ожидание средней квадратичной ошибки
-Й-
dx} B.5)
имеет наименьшее из возможных значение. Величину Q можно
разложить в сумму неизменного слагаемого Qf и слагаемых Qc
и Qa, соответствующих смещению и дисперсии:
Q = Qf + Qc + Qe, B.6)
где слагаемое Qf зависит только от / (см. B.3)), слагаемое Qc
имеет вид
Qc = (ai-aoJ + (pi-PoJ/12 B.7)
(здесь
ai = E(a), p1 = E(P)), B.8)
а слагаемое Q<? есть сумма
Q*=D(a)+D(p)/l2. B.9)
План удобно характеризовать мерой плана
9 2. МИНИМАКСНАЯ ПОДГОНКА НА ИНТЕРВАЛЕ 237
где 6Х обозначает единичную массу, сосредоточенную в точке х.
Мы допускаем, что ? может быть любой вероятностной мерой
(в действительности она должна аппроксимироваться мерой
вида B.10)).
Чтобы несколько упростить дальнейшие рассуждения,
ограничимся лишь традиционными линейными оценками
для симметричного плана хи ..., хп. При фиксированных
х\, ..., хп и линейной функции / эти оценки, разумеется, будут
оптимальными. То, что мы ограничились симметричными
планами, несущественно, поскольку это ограничение нетрудно снять
ценой некоторых усложнений. Что же касается линейности
оценок, то дело здесь обстоит серьезнее, и с чисто теоретической
точки зрения такое ограничение, несомненно, неоправданно.
В сделанных предположениях для величины B.5)
получается следующее явное представление:
Q(f, t) =
где ai=E(a) = \f(x)dh B.13)
dgf B.14)
B.15)
Если бы функция / была в точности линейной, то
выполнялись бы равенства Qf = Qc = 0 и величина B.12) достигала бы
минимального значения при максимальном значении величины
у, т. е. при сосредоточении всей массы меры ? в крайних точках
±1/2. Отметим, что равномерному плану (у которого мера §
имеет плотность т = 1) отвечает значение Y = \ x2dx= 1/12,
в то время как «оптимальному» плану (вся масса сосредоточена
в точках ±1/2) отвечает значение у = 1/4.
Теперь вернемся к предположению о том, что кривая
отклика / линейна лишь в некотором приближении, например
положим Qf ^ г], где г] —малое положительное число. Далее,
предположим, что статистик и природа вступают в игру,
функция потерь которой есть Q(/, ?).
Теорема 2.1. Игра с функцией потерь Q(fy g), где /е#\,=
= {f\Qf < т)Ь имеет седловую точку (/о, go): 0(/, go) ^ Q(/o, So) <
238 ГЛ 9- РОБАСТНОСТЬ В ПЛАНИРОВАНИИ
SQ(/o, ?). Мера плана ?0 имеет плотность вида то(х) =
= (ах2-^Ь)+у а функция /о пропорциональна плотности то (если
не учитывать того, что к /0 может быть добавлена произвольная
линейная функция).
Зависимость точки (Д>, |о) от величины г] может быть описана
в параметрической форме, причем в. качестве единственного
параметра будет выступать величина у. Если 1/12^ у ^3/20, то
мера go имеет плотность
то(х)= 1 +E/4) A2V- 1) A2х2- 1), B.16)
а функция fo(x) имеет вид
М*) = A2**-1)е, B.17)
где
p2_f^_ ! /О \Я\
8 ~ п 2 A2уJA2у— 1) ' К }
Л = D/5)е2. B.19)
Если 3/20 ^ 7 ^ 1/4', то решение оказывается гораздо более
сложным. Здесь лучше перейти к другому параметру cg[0, 1),
не давая ему определенной интерпретации. Имеем
то (х) = A+feKA,c), D*2 - сГ. B.20)
B2П
20A+ 2с) f KZ'Zl)
-l]e, B.22)
е2 125A-сKA+2с)* B ооч
Ь ~ 72 C + 6с + 4с2 + 2с3J A + Зс + 6с2 + 5с3) ' V '
25A^сJA + 2с)з ( .
Л ~ 18 C + 6с + 4с2 + 2с3J # V '
В граничном случае 7 == 1/4 параметр с равен 1 и решение
получается вырожденным: все распределение для то
сосредоточено в точках ±1/2, причем общая масса 1 распределяется
между этими точками поровну.
Доказательство. Прежде всего зафиксируем меру | и
предположим, что она имеет плотность т. При этом функция потерь
Q(/, ?) достигает своего максимального значения в том случае,
когда принимает максимальное значение слагаемое Qc = (ai —
— aoJ + (Pi — роJ/12, соответствующее смещению. Не
ограничивая общности, функцию / можно определить так, что а0 =
9.2. МИНИМАКСНАЯ ПОДГОНКА НА ИНТЕРВАЛЕ 239
= Ро = 0- Таким образом, необходимо максимизировать
величину
Qc = (J ftndxJ + (J xfmdxJ/l2y2 B.25)
при условиях
\dx = O, B.26)
$*/<** = О, B.27)
J/»<** —Л- B.28)
Стандартными приемами вариационного исчисления
показывается, что функция /, на которой достигается максимум,
должна иметь вид
B.29)
с некоторыми А и В— множителями Лагранжа. Эти множители
уже подобраны так, что функция / удовлетворяет условиям
B.26) и B.27). Подставив f в формулы B.25) и B.28), мы
придем к следующей задаче: максимизировать величину
Qc = A2 [J (m ~ lJ^] + В2 -U Щ2 L B.30)
при условии
A2 J (т - IJ dx + В2 J (m - 12уJ*Ч* = ть B.31)
Перед нами задача линейного программирования (линейная по
А2 и В2), в которой максимум, очевидно, достигается на
границах А2 = 0 или В2 = 0. Какое именно из равенств А = 0 и
В = 0 выбирается, зависит от того, какое неравенство — верхнее
или нижнее — имеет место в формуле
(т - \fdx *? ^ \ (т - \2yffdxi B.32)
оказывается, что во всех интересующих нас случаях
выполняется верхнее неравенство, поэтому В = Pi = 0 (проверку
оставляем читателю). Таким образом, разрешив B.31) относительно
А2 и подставив полученное решение в равенство B.30), мы
получим для sup Qc явное выражение, из которого следует
supQ(/, 6) = П +Л $(«-!)*<** +-?(l+T5y). B-33)
240 ГЛ. 9. РОБАСТНОСТЬ В ПЛАНИРОВАНИИ
Минимизируя эту величину при условиях
l, B.34)
\ y, B.35)
получим
mo{x) = (ax2 + b) + B.36)
с некоторыми множителями Лагранжа а и ft. Нетрудно
проверить, что при 1/12 ^ у ^ 3/20 как а, так и Ъ неотрицательны.
При 3/20 ^7^1/4 имеем Ь < 0. Наконец, минимизируя по у,
приходим к формулам B.16)-—B.24). ¦
Полученные результаты нуждаются в истолковании и
некоторых разъяснениях. В самом деле, сразу же возникают
закономерные вопросы, неизбежные, коль скоро мы имеем дело с
минимаксной процедурой. Не объясняется ли ее рассмотрение лишь
желанием перестраховаться, оградить себя от тех неожиданных
случайностей, которые, быть может, никогда и не станут
помехой на нашем пути? Не слишком ли мрачно мы взираем на
вещи? Увы, не слишком: ничего неправдоподобного в том, что
функция f получит возмущение почти параболического типа,
конечно, нет, так что появление функции вида B.17) совершенно
оправданно. Но, может быть, нелинейность функции fo
настолько очевидна, что никто, находясь в здравом рассудке, и не
станет приближать эту функцию прямой?
Чтобы получить на последний вопрос объективный ответ,
нужно построить наиболее мощный критерий, отличающий /о
от прямой.
Для произвольного фиксированного симметричного плана
наиболее мощный критерий основывается на статистике
-fo], B.37)
где fo—jE/ofo); <2'38)
функция /о — та же, что и в B.17). Если гипотеза справедлива,
то EZ = 0; дисперсия DZ одна и та же для гипотезы и ее
альтернативы. Отношение сигнала к шуму или* отношение
дисперсий получить нетрудно:
^S B.39)
Доказательство выбора B.57). Критерий строится для про-
зерки гипотезы f(x)=f0 против альтернативы / (х) = f0 (x). Наи*
9 2. МИНИМАКСНАЯ ПОДГОНКА НА ИНТЕРВАЛЕ 241
более мощный критерий дается леммой Неймана — Пирсона;
логарифм отношения правдоподобия H[pi(*/)/Po(**)] равен
Таким образом, для данного критерия наилучшим планом,
дающим наибольшее значение отношения дисперсий, служит
план, в котором половина наблюдений производится в точке
х = 0у а оставшаяся половина наблюдений распределяется
поровну между крайними точками х —±1/2. При этом
отношение дисперсий дает равенство
DZ ~ 4 а2 * lJeW)
Отношение дисперсий для равномерного плана (т=1) дает
равенство
Л?>1—12*1
DZ 5
Л?1—1-21
DZ 5 а2 •
наконец, для минимаксного плана
= [4 + 1A2у-1)"-A2у-1J]^. B.42)
В таблице на рис. 9.2.1 приведены некоторые численные
значения этих отношений. Заметим, что: A) согласно формуле B.18)
величина пе2/о2 зависит только от у, B) минимаксный и
равномерный планы имеют очень близкие значения отношения
дисперсий. Для того чтобы было легче представить, как выглядит
минимаксный план, в таблице приводится соответствующая
минимальная плотность то(О).
Изучив таблицу, нетрудно сделать вывод о том, что при
у ^ 0.095 использование равномерного и минимаксного планов
не дает возможности обнаружить нелинейность функции /0 с
какой-то степенью определенности. Действительно, для уровня
10% двусторонний критерий Неймана — Пирсона не достигает
даже 50 %-ной мощности (рис. 9.2.2).
Теперь обсудим еще один важный вопрос. Подберем
значение е так, чтобы равномерный план (т =s 1), минимизирующий
в сумме B.6) слагаемое Qc, и «оптимальный» план,
минимизирующий слагаемое Qa за счет разнесения всей массы по
242 ГЛ. 9. РОБАСТНОСТЬ В ПЛАНИРОВАНИИ
У
0.085
0.090
0.095
0.100
0.105
0.110
0.115
0.120
0.125
0.130
0.135
0.140
0.145
0.150
Отношение дисперсий
п* ^Нсшлучший'и
а2
24.029
5.358
2.748
1.736
1.211
0.897
0.691
0.548
0.444
0.367
0.307
0.261
0.223
0.193
B.40)
54.066
12.056
6.183
3.906
2.725
2.018
1.555
1.233
1.000
0.825
0.691
0.586
0.502
0.434
Ыномерный \Muhl
B.41)
19.223
4.287
2.198
1.389
0.969
0.717
0.553
0.438
0.356
0.294
0.246
0.208
0.179
0.154
uiimcmiu$on
B.42)'
19.488
4.497
2.364
1.518
1.067
0.790
0.603
0.470
0.371
0.296
0.237
0.189
0.151
0.119
Отношение
B.42)/B.41)
1.014
1.049
1.076
1.093
1.101
1.101
1.091
1.072
1.045
1.008
0.962
0.908
0.844
0.771
то(О)
0.975
0.900
0.825
0.750
0.675
0.600
0.525
0.450
0.375
0.300
0.225
0.150
0.075
0.
Рис. 9.2.1. Отношение дисперсий для критериев проверки линейности при
параболической альтернативе.
Уровень ос
0.01
0.02
0.05
0.10
0.20
1.0
0.058
0.093
0.170
0.264
0.400
2.0
0.123
0.181
0.293
0.410
0.556
Отношение
3.0
0.199
0.276
0.410
0.535
0.675
дисперсий
4.0
0.282
0.372
0.516
0.639
0.764
5.0
0.367
0.464
0.609
0.723
0.830
6.0
0.450
0.549
0.688
0.790
0.879
9.0
0.664
0.750
0.851
0.912
0.957
Рис. 9.2.2. Мощность двусторонних критериев как функция уровня и
отношения дисперсий.
крайним точкам интервала /, имели одинаковую эффективность.
Поскольку
Q (f0> равном.) = \ fldx + 2 •?¦, B.43)
Q (f0, оптим.) = J fl dx + BеJ +1 -?,
для е получится выражение
B.44)
B.45)
9 3. МИНИМАКСНЫЙ ПОДХОД К ОЦЕНКЕ ТАНГЕНСА 243
поэтому отношение B.41) дисперсий в этом случае даст
равенство
(EZY 2
DZ ~~ 15 •
B.46)
Для того чтобы в критерии с уровнем 5 °/о получить мощность
около' 50%, необходимо, чтобы отношение дисперсий было
около 4 (см. таблицу на рис. 9.2.2). Поэтому равенство B.46)
допускает следующее толкование. Равномерный план может
оставаться лучше «оптимального» плана и давать при этом
меньшее математическое ожидание средней квадратичной
ошибки вплоть до 30 говорящих в пользу линейности функции /о
экспериментов, подобных рассмотренному!
9.3. МИНИМАКСНЫЙ ПОДХОД
К ОЦЕНКЕ ТАНГЕНСА УГЛА НАКЛОНА
Может быть, ситуация станет иной, если интересоваться
лишь оценкой тангенса угла наклона |3? В этом случае
математическое ожидание квадрата ошибки имеет вид
Q(f, g) = E(p-poJ = (P.-
f(x)dx
в предположении, что функция / определена так, что о&о = Ро =
= 0 (используются те же обозначения, что и в предыдущем
параграфе).
Аналогично тому, как это делалось в предыдущем
параграфе, для игры с функцией потерь C.1) нетрудно получить
минимаксное решение методами вариационного исчисления.
Статистик получит минимаксный план ?0 с плотностью
<3-2>
где а —некоторое число из промежутка [0,1/2), а природа —
минимаксную стратегию
Ш~[то(х)-12у]х. C.3)
В детали вдаваться не будем, но отметим, что функция /о ведет
себя подобно кубической параболе.
Для упрощения дальнейших эвристических рассуждений
примем допущение, согласно которому функция / имеет достаточно
244 Гл 9. РОБАСТНОСТЬ В ПЛАНИРОВАНИИ
удобный и в какой-то мере даже более реальный кубический
вид
f(x) = B0x3 — 3*)e. C.4)
Так введенная функция f удовлетворяет соотношениям \fdx =
[
= 0 и
$/*(*)<** = 0/7) в2. C.5)
Теперь повторим те построения, которые были проведены в
конце § 9.2.
Насколько большим должно быть значение е, чтобы
равномерный и «оптимальный» планы были для функции риска C.1)
одинаково эффективными? Поскольку
Q(/, равном.) = 12а2/п, C.6)
Q(/, оптим.) = DеJ + 4а2//г, C.7)
для е имеем
е2 = а2/2я, C.8)
Для отношения дисперсий в наиболее мощном критерии,
различающем линейную функцию / и функцию C.4), имеем
Подставив в C.9) выражение C.8) для е2, получим 1/14.
Поэтому в данном случае положение даже серьезнее, чем то, с
которым мы встретились в конце § 9.2. Равномерный план
(минимизирующий смещение для функций f, которые могут быть и
нелинейными) может оставаться лучше «оптимального» плана
(минимизирующего дисперсию в предположении точной
линейности функции /) вплоть до 50 подтверждающих линейность
функции /о экспериментов, подобных рассмотренному!
Из приведенных примеров мы делаем вывод о том, что так
называемая теория оптимального планирования (основанная на
минимизации дисперсии в предположении абсолютной точности
модели) теряет свое значение, как только речь заходит о ро-
бастности. При этом в допущении, что модель верна лишь
приближенно, следует отдавать предпочтение минимизации
смещения. Это знали уже Бокс и Дрейпер A959, с. 622): «В типичных
случаях, когда дисперсия и смещение встречаются вместе,
оптимальный план оказывается очень близким к тому, который
получится, если дисперсию игнорировать совершенно, а план
эксперимента подчинить задаче минимизации одного лишь
смещения».
ГЛАВА 10
Точные результаты
для конечных выборок
10.1. ОБЩИЕ ЗАМЕЧАНИЯ
Допустим, что в данных, имеющихся в нашем распоряжении,
грубые ошибки составляют 1 %• В зависимости от того, каков
объем выборки—1000 или 5, — потребуются совершенно
различные в идейном плане подходы. В самом деле, в первом
случае в каждой выборке будет присутствовать около десятка
сильно ошибочных наблюдений, а в последнем случае 19
выборок из 20 никаких ошибок содержать не будут. Кроме того,
вообще говоря, неясно, остаются ли справедливыми для малых
выборок заключения, в основу которых положен
асимптотический подход. Многие люди готовы идти на 5 %-ный риск
(вспомним уровни, по традиции принимаемые в статистических
критериях, для доверительных интервалов!), так что обилия хороших
выборок, быть может, более чем достаточно для возмещения
потерь, причиной которых послужит случайно встретившаяся
плохая выборка, особенно в тех случаях, когда функция потерь
выбирается реалистически (т. е. ограниченной).
Главная цель, которая преследуется в этой главе,—
показать, что такой оптимизм неоправдан. Будут найдены точные
минимаксные оценки сдвига для случая конечных выборок. Эти
оценки, как ни удивительно, устроены так же, как и найденные
в гл. 4 асимптотически минимаксные Af-оценки. Более того,
полученные точные оценки допускают возможность их
количественного сравнения с асимптотическими оценками.
Эти оценки получены в минимаксных робастных критериях,
что требует остановки на разработке теории таких критериев.
Мы начнем с введения некоторых окрестностей,
используемых для описания вероятностей, известных лишь приближенно.
Цель, которая при этом ставится, состоит в конечном счете в
том, чтобы развить некую арифметику интервалов для
вероятностных мер (например, в рамках байесовского подхода
необходимо научиться делать шаг от приближенного априорного к
приближенному апостериорному распределению). Оказывается,
что для данной цели подходит инструмент альтернирующих
емкостей второго, а иногда и бесконечного порядков.
246 ГЛ. 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
Когда (и, по существу, только в таких случаях) неточности
могут быть описаны в терминах альтернирующих емкостей
второго порядка, минимаксные критерии устроены весьма просто.
10.2. НИЖНИЕ И ВЕРХНИЕ ВЕРОЯТНОСТИ И ЕМКОСТИ
Пусть Л есть множество всех вероятностных мер на
некотором измеримом пространстве (Q, М). Выделим четыре класса
подмножеств SPczM. Эти классы вводятся через понятия A)
верхнего математического ожидания, B) верхней вероятности,
C) альтернирующей емкости второго порядка, D)
альтернирующей емкости бесконечного порядка. Каждый из этих
классов содержит в себе следующий за ним.
Формально мы ограничиваемся рассмотрением только
конечных множеств Q, хотя все понятия и большая часть результатов
применимы и к пространствам гораздо более общего вида.
Однако если перейти к этим более общим пространствам, то
существо важных в идейном плане вопросов окажется
погребенным под массой технических сложностей топологической
природы, а также тех сложностей, появление которых
обусловливается привлечением теории меры.
Пусть ^{iPciM) есть произвольное непустое подмножество.
Определим нижнее и верхнее математические ожидания,
порожденные подмножеством &у следующим образом:
Е* (X) — Inf [х dP, E* (X) = sup [ XdP. B.1)
Аналогично определим нижнюю и верхнюю вероятности,
порожденные подмножеством &:
v* (А) = inf P (Л), v* (A) = sup P (А). B.2)
Функционалы F* и Е* нелинейны. Они обладают свойством
взаимной сопряженности, понимаемой в том смысле, что
Е*(Х) = -Е*(-Х). B.3)
Для ^ии* имеем
v*(A)= I— v*(Ac). B.4)
Можно поступить наоборот. Взяв в качестве исходных
сопряженные функционалы (Е*, Е*) или функции множеств
(v*, v*)f удовлетворяющие условиям B.3) и B.4)
соответственно, можно определить множества 3* соответственно
соотношениями
{\ \xdP>E?(X) для всех
М | J X dP < Е* (X) для всех х], B.5)
10,2. НИЖНИЕ И ВЕРХНИЕ ВЕРОЯТНОСТИ И ЕМКОСТИ 247
{Р^М \P(A)^v*(A) для всех А} =
{/> е= JT | Р (Л)< а*(А) для всех Л}. B.6)
Заметим, что, вообще говоря, исходя из B.1), нельзя
утверждать, что множество 9> будет совпадать с B.5); наоборот,
исходя из B.5), функционалы (Е*, Е*) восстановить в виде
B.1), вообще говоря, нельзя. Однако уже на втором, обратном
шаге произойдет стабилизация. Говорят, что множество 9> и
пара функционалов (F*, Е*) взаимно представляют друг друга,
если они,будучи заданными соотношениями B.1) и
B.5),взаимно порождают друг друга.
Аналогично, будем говорить, что множество 9> и пара
функций множеств (v#i v*) взаимно представляют друг друга, если
они, будучи заданными соотношениями B.2) и B.6), взаимно
порождают друг друга.
Очевидно, что достаточно ограничиваться рассмотрением
лишь одного из членов соответствующих пар (Е#, Е*) и (v%7v*),
например можно брать Е* и v*.
Введенные понятия сразу вызывают ряд вопросов.
A) Каким условиям должно подчинить пару функционалов
(Е*,Е*), чтобы она была представима некоторым множеством
9*1 Каким условиям следует подчинить множество 9>> чтобы оно
было представимо некоторой парой функционалов (F*,E*)?
B) Каким условиям должна удовлетворять пара функций
множеств (v#, v*), чтобы она была представима некоторым
множеством 9>? При каких условиях множество tP представимо
некоторой парой функций множеств (v*> v*)?
Ответ на вопросы A) очень прост. Сначала заметим, что
любое представимое множество 9> замкнуто и выпукло (поскольку
мы работаем толькб с конечными множествами Q, любое
множество 9> есть подмножество симплекса {{рь ..., рп) \ 2 pt = 1,
Pt^O}, поэтому имеется единственная естественная
топология). С другой стороны, всякий представимый функционал Е*
обладает свойством монотонности
X^Y*>E*(X)<E*(Y), B.7)
свойством положительной аффинной однородности
Е* (аХ + Ь) = аЕ* (X) + 6, а, Ь е R, а ^ 0, B.8)
свойством субаддитивности1)
Е*(Х+ У)< Е*(Х)+ Е*(У). B.9)
1) То есть полуаддитивности (в оригинале — subadditive). Причина, по
которой мы отошли от принятого в отечественной литературе термина, ясна
из следующего за B.9) предложения. — Прим. перев.
248 ГЛ. 10 ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
Функционал Е* удовлетворяет тем же условиям B.7) и B.8),
но супераддитивен *):
Е*(Х+У)>Е*(*)+Е*(У). B.10)
Предложение 2.1. Множество 3> представимо верхним
математическим ожиданием Е* тогда и. только тогда, когда
множество 3* замкнуто и выпукло. Обратно, для представимости Е*
необходимым и достаточным служит одновременное выполнение
условий B.7), B.8) и B.9).
Доказательство. Предположим, что множество ЗР выпукло и
замкнуто, и определим функционал Е* соотношением B.1). То,
что функционал Е* представляет множество ^, можно
утверждать, если для любой меры Q ф 3> всегда можно найти такие
величину X и вещественное число с, что
для всех Ре^1, а существование таких величины и числа
гарантируется, по существу, одной из хорошо известных теорем
отделимости для выпуклых множеств.
Теперь предположим, что Е* есть монотонный положительно
аффинно однородный субаддитивный функционал. Достаточно
показать, что для любой случайной величины Хо найдется такая
вероятностная мера Р, что \ X dP <! E* W Для всех X и
С Xo dP = Е* (^о)# В силу свойства B.8) можно, не ограничивая
общности, считать, что Е*(Х0)=1. Пусть U = {Х\ Е*(Х)< 1}.
Поскольку имеют место свойства B.7) и B.8), множество U
открыто: вместе с величиной X оно содержит все величины У,
удовлетворяющие неравенствам У < X + г для 8=1 — E*(Z).
Кроме того, из свойства. B.9) следует, что множество U
выпукло. Так как Хо ф. U, то существует линейный функционал X,
отделяющий величину Хо от U
^(ХХХ(Хо) при всех XeU. B.11)
В частности, из этого неравенства вытекает, что значение
функционала X на Аг0 положительно: Я(Х0)>0 (чтобы в этом
убедиться, достаточно в неравенство B.11) подставить Х = 0).
Поэтому функционал X можно нормировать таким образом, чтобы
выполнялись равенства Х(Х0)= 1 = Е*(Х0). При этом
неравенство B.11) перепишется в виде импликации
Е*(Х)< 1=>ЦХ)<1. B.12)
]) В оригинале superadditive. — Прим. перев.
10.2. НИЖНИЕ И ВЕРХНИЕ ВЕРОЯТНОСТИ И ЕМКОСТИ 249
Учитывая B.7) и B.8), имеем: X ^ 0 =>¦ Е* (X) ^ Е*@) = 0.
Поэтому из B.12) следует, что для любых с > 0, X ^ 0
справедливо соотношение сК(Х)=—Х(—сХ) > — 1 и,
следовательно, Х(Х)^—\/с. Таким образом, X есть положительный
функционал. Кроме того, мы утверждаем, что А,A)=1.
Действительно, из B.12) следует, что Х(с)<1 для с <С 1 и, значит,
ХA)^1. С другой стороны, при с > 1 имеем Е*BХ0—- с) =
= 2 — с < 1 и, значит, X BХ0 — с) = 2 — ск A) < 1, или, что то
жег ЯA) > \/с при всех с > 1. Таким образом, Х{\) — 1. Далее,
из B.8) и B.12) теперь следует, что Е*(Х) < с => Х(Х) < с для
всех с. Поэтому А,(Х)^Е*(Х) для всех X, а искомой мерой
служит Р(А)= ЯAД). ¦
На вопросы B) дать ответы сложнее. В первую очередь
заметим, что всякая представимая пара функций множеств (%, v*)
должна удовлетворять условиям
1, B.13)
v*(A) ^ v*(B)9 B.14)
0, B.15)
B.16)
Однако эти условия, как показывает приведенный ниже
контрпример, не являются достаточными условиями того, что пара
(t>#, v*) представима.
Пример 2.1. Пусть мощность |Q| пространства Q равна
четырем. Предположим, что значения функций v#(A) и v*(A)
множеств Дей зависят зголько от мощности аргументов —
множеств Л, причем таблица значений этих функций имеет вид
р*
О*
0
0
0
1
0
2
Чг
42
3
V.
i
4
1
\
Определенная таким образом пара (v#A v*) удрвлетворяет
перечисленным выше необходимым условиям. Но наряду с этим есть
только одна аддитивная функция множеств go значениями,
лежащими между значениями функций v^ и и*, — это функция
Р(А) = |Л|./4. Из этого следует, что пара (v#,u*) непредста-
вима.
Пусть &) — произвольный набор подмножеств пространства
Й, a v^\ 3) — R+ есть произвольная неотрицательная функция
множеств. Положим
для всех-ЛеД)}. B.17)
250 ГЛ. 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЩ ВЫБОРОК
То же множество & можно ввести и иначе:
^»{Pg jr|P(B)<tJ*(S) для всех таких В, что ВС<~Щ,
B.18)
где р*(?)= 1— ь*(Вс).
Лемма 2.2. Множество & вида B.17) непусто тогда и только
тогда, когда справедлива следующая импликация: если
Е^1Л/<1, а,>0, Л*€=0, то 21а,0*(Л,)<1.
Доказательство. Необходимость импликации очевидна.
Достаточность доказывается следующей ниже леммой. ¦
Определим функционал Е*(Х) выражением
Л,е=^}. B.19)
Через Е*(Х) равенством Е*(Л")=зг—Е*(—X) определим
функционал Е*(Х). Таким образом,
Е*(Х) = inf {Z М* (*i) - * I Z Мв* - ft > *,
fti>0f Д|в"Д>}. B.20)
Введем обозначения v#o и t;^0:
^0(Л)=Е^Aл), ^°(Л)=Е^Aл) дляЛсп?2. B.21)
Очевидно, что v^^v^o и v*°^v*. Нетрудно проверить, что
если в выражениях B.19) и B.20) заменить^и v* на v#Q и и*0,
a iZ) заменить на множество, составленное всеми 2й
подмножествами пространства Q, то получатся те же функционалы Е* (X)
и Е*{Х).
Лемма 2.3, Пусть ^ — множество, заданное выражением
B.17). Если ^ — пустое множество, то Е^(Х) = оо и Е*(Я)=»
== —оо равномерно по всем X. В противоположном случае
Е^и Е* совпадают с порожденными множеством 9* нижним
и верхним математическими ожиданиями B.1), a v^o и и*0
совпадают с порожденными множеством SP нижней и верхней
вероятностями B.2).
Доказательство. Сначала заметим, что E*(Z)^0, если
Х^О, причем либо Е*@) = 0, либо Е*(Х)=оо для всех X.
В последнем случае множество 9> пусто (это вытекает из уже
доказанной необходимости импликации в лемме 2.2). В первом
же случае нетрудно показать, что Е* (Е*) есть монотонный
положительно аффинно однородный супераддитивный
(соответственно субаддитивный) функционал. Непосредственно из опре-
10.2. НИЖНИЕ И ВЕРХНИЕ ВЕРОЯТНОСТИ И ЕМКОСТИ 251
делений следует, что множество 3* содержится в некотором
множестве Ф, порожденном парой (Е*, Е*):
9с§> = {Р<=М|Е* (Х)< J XdP ^ Е*(X) для всех X}, B.22)
Но, с другой стороны, из неравенств v#
i^:v*(A) следует, что имеет место включение &id!P. Таким
образом, 3* = ^. Утверждение леммы доказано. ¦
Для того чтобы доказать достаточность импликации в
лемме 2.2, остается лишь заметить, что этой импликации
эквивалентно неравенство Е* @) ^ 0.
Предложение 2.4 (Вольф A977)). Функция множеств v*,
определенная на 3), представляющем собой совокупность всех 2fi
возможных подмножеств пространства Q, представима
некоторым множеством 9* тогда и только тогда, когда она обладает
следующим свойством: если
\А < ? at\Ai — a9 где а, > 0, B.23)
то и* (А) < ? atv* (At) - а. B.24)
Достаточным служит фактически более слабый набор условий:
v* есть монотонная функция, v*@) = O, а*(й)=1, а
неравенство B.24) имеет место для всех разбиений
,. B.25)
где at > 0 для Л^йи где система индикаторов (U,» • • •> 1^)
линейно независима.
Доказательство. Если iZ> есть совокупность всех 2°
возможных подмножеств пространства Q, то необходимым и
достаточным условием представимости v* служит равенство v* = v*°,
что непосредственно вытекает из леммы 2.3. Расшифровав это
равенство, получим B.23) и B.24). Поскольку B.23)
составляется несчетным множеством условий, проверить выполнение
B.23) нелегко. Хотя для B.25) — второго варианта — число
условий может оставаться очень большим, оно все же будет
конечным (коэффициенты а* для линейно независимой системы
Aл,! •••! 1лА) определяются однозначно).
Для того чтобы доказать достаточность второго набора
условий, предположим обратное и придем к противоречию.
Именно допустим, что B.24) выполняется на всех разбиениях B.25),
но не имеет места для некоторого из неравенств B.23). Можно
считать, что в B.23) имеет место равенство; если это не так, то
за счет уменьшения некоторых at или At либо за счет
увеличения а в правой части B.23) такого равенства можно достичь.
При этом B.23) можно переписать в виде равенства B.25),
252 ГЛ. 10 ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
в котором индикаторы (Ц, ..., 1^) должны быть линейно
зависимы. Возьмем наименьшее из возможных k\ тогда все а/
отличны от 0, все Ai не равны 0, причем а, > 0, если Д- ф п.
Допустим, что X c*li4j = 0> но не все c'i равны 0. Тогда 1Л =
= Yj (ai + hCi)Ai для любых X. Пусть [A,0>?ti]—интервал тех
значений Я, для которых щ + %d ^ 0 при всех At Ф Q; очевидно,
что 0 есть внутренняя точка этого интервала. Функция
X (at + kCi)v*{Ai) линейна по X и, значит, достигает своего
минимума на одном из концов (Хо или Х\) отрезка. В этой точке
условие B.24) также не выполняется, но число k уменьшается
по крайней мере на единицу. Поскольку k по предположению
было минимальным, противоречие получено. Ш
Доказанное предложение дает ответ на вопросы B), во
всяком случае, отчасти. Заметим, что, вообще говоря, одни и те же
v% и v* порождаются несколькими различными замкнутыми
выпуклыми множествами ^. Множество, заданное
соотношением B.6), —наибольшее из них. Соответственно имеется
несколько верхних математических ожиданий Е*, определяющих
v* посредством соотношения у*(Л)= Е*Aд). Соотношение
B.20) дает наибольшее из таких ожиданий. Соотношение
B.19) дает наименьшее нижнее математическое ожидание,
определяющее v#.
Простого способа, позволяющего по заданным v# и v*
построить соответствующую (экстремальную) пару
математических ожиданий Е# и Е*, не существует — ведь сделать это
можно, исходя либо из B.6) и B.1), либо из B.19) и B.20), а в
обоих случаях приходится искать некоторые супремумы и ин-
фимумы, что составляет довольно сложную задачу.
2-монотонные и 2-альтернирующие емкости. Ситуация
упрощается, когда v# есть монотонная емкость второго порядка, а
v* ,есть альтернирующая емкость второго порядка (кратко:
2-монотонная, 2-альтернирующая), т. е. v# и v*, помимо
очевидных условий
@ MQ) B.26)
B.27)
удовлетворяют неравенствам
v*(A[)B) + v*(A{)BJ*v*(A) + v*(B), B.28)
v*(A[}B)+v*(AnB)^v*(A)+v*(B). B.29)
Такое небольшое на первый взгляд усиление предположений
B.13) — B.16) несет с собой весьма серьезные новшества,
10 2. НИЖНИЕ И ВЕРХНИЕ ВЕРОЯТНОСТИ И ЕМКОСТИ 253
Предположим, что функция множеств v* удовлетворяет
условиям B.26) и B.27). Определим функционал Е* формулой
оо
Е* (X) = jj о* {X > t) dt для X > 0. B.30)
о
Нетрудно проверить, что введенный таким образом функционал
Е* обладает свойствами монотонности и положительной
аффинной однородности. Исходя из последнего свойства (т. е. из B.8)),
этот функционал можно продолжить на множество всех X.
(Заметим, что применение конструкции B.30) к вероятностной
мере приводит к обычному математическому ожиданию:
Р {X > /} dt = \ XdP для X ^ 0.) Аналогично определим
функционал Е#» заменив v* на v#.
Предложение 2.5. Определенный формулой B.30)
функционал Е* субаддитивен тогда и только тогда, когда функция v*
удовлетворяет неравенству B.29). (Аналогично, функционал Е*
супераддитивен тогда и только тогда, когда v* удовлетворяет
условию B.28).)
Доказательство. Предположим, что функционал Е*
субаддитивен. Тогда E*(Ia+Ib)=v*(AUB) + v*(A()B) и Е*(Ы +
+ Е*Ов)= у*(Л) + v*(B). Следовательно, если Е* есть
субаддитивный функционал, то неравенство B.29) выполняется.
Обратную импликацию доказать несколько сложнее. Сначала
заметим, что неравенству B.29) эквивалентно неравенство
EM*Vy) + EM*A_y)<E*(*) + E*O0 Д^ X, У^0, B.31)
где X V У и ХГЛ У обозначаются соответственно поточечные
супремум и инфимум функций X и Y. Это непосредственно следует
из соотношений {X > t}{]{Y > t} = {X V У > t}, {X>t}i]{Y>
>/} = {ХЛУ>/}. Поскольку пространство Q состоит из
конечного числа элементов, Аг есть вектор х = (хи ..., хп), а Е*
есть функция п вещественных переменных. Чтобы завершить
доказательство, остается воспользоваться следующей леммой. В
Лемма 2.6 (Шоке). Если f есть положительно однородная
функция, т. е.
f(cx) = cf(x) для с ^ 0, B.32)
которая удовлетворяет неравенству
/(х V у) + /(х А у) ^ /(х) + f(y), B.33)
то функция / обладает свойством субаддитивности:
B.34)
254 ГЛ. 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
Доказательство. Предположим, что при х ф 0 функция /
дважды непрерывно дифференцируема. Пусть а = (х\ + h\, х2у ...
..., Хп) , b = (хи х2 + h2y ..., хп + hn), где hi ^ 0. Тогда а V b ==
= x + h, a^\b = x. Разлагая обе части B.33) в степенные
ряды по hu выводим, что члены второго порядка должны
удовлетворять неравенству ?; ф { fXvXjh{hj ^ 0 и, следовательно,
fM х < 0 при ;^1и даже, более того fx % < 0 при i Ф /.
Продифференцируем равенство B.32) по Xf.cfr (cx) = cfv (x). Поде-
X] Xj
лим полученное равенство на с и вслед за этим возьмем
производную по C'.J^ixJxx =0. Таким образом, обозначив символом
F сумму членов второго порядка разложения Тейлора функции /
в точке х, получим: 2F = — 2i[ф f xtXjfXiXi (dxi/xi — dXj/xjJ ^ 0
Следовательно, / есть выпуклая функция, что вместе со
свойством B.32) эквивалентно субаддитивности /.
Если / не есть дважды дифференцируемая функция, для нее
следует рассмотреть подходящее приближение. ¦
Таким образом, функционал Е* есть в силу предложения 2.1
верхнее математическое ожидание, порожденное множеством
для всех Л}. Следовательно, каждая 2-альтернирующая
емкость v* представима, причем соответствующее максимальное
верхнее математическое ожидание дается формулой B.30).
В частности, из представления B.30) вытекает, что для любой
монотонной последовательности А\ с: А2 с: ... czAk можно
найти такую вероятностную меру Q ^ v*9 что B(Л/)= v*(At)
для всех i одновременно.
Монотонные и альтернирующие емкости бесконечного
порядка. Рассмотрим модель большой ошибки в следующем виде.
Пусть (Q', М\ Р7) есть некоторое вероятностное пространство,
каждому элементу со7 е Q' которого сопоставлено непустое
подмножество Г (а/) с: Q. Положим
t^ (А) = Р' {со71Т (со') с= Л}, B.35)
t,* (А) = Р' {со71Т (со') П А — 0}. B.36)
Нетрудно проверить, что v* и v* — сопряженные в смысле
B.4) функции множеств. Введенная конструкция
истолковывается следующим образом. Вместо идеального, но
ненаблюдаемого результата со' эксперимента со случайными исходами
статистик получает в распоряжение произвольный (однако
выбранный не обязательно случайно) элемент множества Т(со7). Оче-
10 2. НИЖНИЕ И ВЕРХНИЕ ВЕРОЯТНОСТИ И ЕМКОСТИ 255
видно, что v^(A) и v*(A) — нижняя и верхняя границы
вероятности того, что статистик получит элемент из А.
Интуитивно ясно, что v* и v* представимы — как нетрудно
проверить, эти функции суть соответственно 2-монотонная и
2-альтернирующая емкости. На самом деле справедливо и более
сильное утверждение: эти функции суть монотонная и
альтернирующая емкости бесконечного порядка. Мы не будем
приводить здесь определений этих понятий — читатель может найти
их в основополагающей статье Шоке A953/1954). По теореме
Шоке емкость является монотонной/альтернирующей
бесконечного порядка тогда и только тогда, когда она может быть
представлена соответственно равенствами B.35) и B.36).
Пример 2.2. Пусть У и и — две независимые вещественные
случайные величины. Первая из них имеет идеальное
распределение Ро, а вторая принимает два значения, именно 8>0 и
+ с», с вероятностями 1 — е и е соответственно. Пусть Т есть
функция, значения которой суть интервалы, определяемые
соотношением 7(со') = |Т (<»/)— [/(со'), У(ю')+ ^(о/)]. Тогда с
вероятностью, большей, чем 1 — е, статистик получает значение х,
лежащее на расстоянии, не большем, чем б, от истинного: \х —
— У (со7) 1 ^ 8. С вероятностью, меньшей е, статистик столкнется .
с большой ошибкой.
Обобщенная модель большой ошибки, вводимая на основе
понятий монотонной и альтернирующей функций множеств,
восходит к Штрассену A964). В последние годы появилась
обширная литература по случайным процессам Г (о/) со
значениями, представляющими собой множества, в частности
монографии Хардинга и Кендалла A974), Матерона A978). Для
нужд статистики понятия монотонной/альтернирующей емкостей
бесконечного порядка использовались в работе Демпстера
A968) и книге Шефера A976). Следующий ниже пример
знакомит с другим применением этих понятий (пример взят из
работы Хьюбера A9736)).
Пример 2.3. Пусть <х0 — вероятностное (априорное
идеальное) распределение на конечном параметрическом пространстве
G. Тогда модель большой ошибки, или, что то же, модель е-за-
грязнения & = {а | а = A — е) а0 + еаь oci e Ж), может быть
описана посредством альтернирующей емкости бесконечного
порядка, а именно функции множеств
/а\ /A —в)ао(Л) + е для А Ф 0,
$ира(Л) = < л л ~
ае> I О ДЛЯ Л=0.
Пусть р(я|Э) — условная вероятность появления наблюдения
х при условии, что; истинный параметр равен 0. Предполагается, *
$56 ГЛ 10 ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
что p(x\Q) —точно известная величина. Пусть р@|л-)= р(л:|6)Х
X а (8)/2е Р (х 19)а (9) есть апостериорное распределение
параметра 9 при условии, что наблюдается значение х, а ро(О|х)
есть апостериорное распределение, вычисленное по априорному
распределению а0.
Отклонение от идеального априорного распределения будет
иметь следствием изменение апостериорного распределения
)
где
8
s(A) =
е
для А Ф 0,
0 для А = 0.
Определенная таким образом функция множеств s
удовлетворяет равенству s(A \j В) = max(s(Л), s(fi)) и является
альтернирующей бесконечного порядка емкостью. Точный порядок
емкости v* нам не известен (по крайней мере она является
2-альтернирующей).
10.3. РОБАСТНЫЕ КРИТЕРИИ
Классический критерий, построенный по отношению
вероятностей для различения двух простых гипотез Ро и Ри робаст-
ным быть не может — единственный сомножитель p\(Xi)/po(xi),
равный или почти равный 0 или оо, может слишком сильно
уВёсти от истинного значения статистики П! pi (^i)/Po (-^/)
критерия. Такой опасности можно избежать, подвергая каждый
отдельный сомножитель цензурированию, т. е. рассматривая
взамен упомянутой статистики П" я (*«)> где я (я*) = max {с', min[c",
Pi (*t) /Po(xt) ]}-cO<c/<c//<oo.
Несколько удивительно, но тем не менее этот критерий
обладает мшншакеньши свойствами в случае конечных выборок для
широкого круга моделей. Критерии рассмотренной выше
структуры минимаксны в задаче различения сложных гипотез ^0 и
^ь где &i могут быть окрестностями е*загрязнения
распределения Р/, окрестностями в метрике полной вариаций и т. п.
В принципе Ро и Pi можно считать произвольными вероят-
йцстньш.и мерами на произвольных, .измеримых пространствах
(ср. с Хьюбер A965)), Однако чтобы подготовить почву для
10.3. РОБАСТНЫЕ КРИТЕРИИ 257
изложения результата § 10.5, с этого момента мы будем
считать, что все встречающиеся распределения имеют носителем
вещественную прямую. Фактически это не приведет к заметной
потере общности, поскольку почти все допускает истолкование
в терминах вещественной случайной величины рх{Х)/р2{Х) при
различных распределениях величины X.
Пусть Ро и Р\(Ро ф Pi) —вероятностные меры на
вещественной прямой. Пусть ро и р\ — их плотности относительно
некоторой меры \х (например, меры \х = Ро + Pi)- Предположим, что
отношение правдоподобия Р\{х)/ро(х) есть монотонная функция
С(Х) (|1-П.Н.).
Рис. 10.3.1.
Пусть Ж есть множество всех вероятностных мер на
вещественной прямой, некоторые заданные числа е0, ej, бо и 6i лежат
в промежутке [0, 1). Положим
^0 = {Qe J(\Q{X <x}^(l-eQ)P0{X <х}~60 для всех х},
&{ = {QsEJt\Q{X>x}Xl-el)Pi{X>x}-dl для всех х}.
(ЗЛ)
Допустим, что множества &0 и &х не пересекаются (т. е.
величины 8/ и б/ достаточно малы).
Множества C.1) может помочь представить рис. 10.3.1. На
нем множество функций распределения, лежащих над сплошной
линией A — ео)Ро(*)— бо, есть ^0, а множество функций
распределения, лежащих под пунктирной линией A — ei)Pi(л:) +
+ 8i + 6i, есть 0>\. Как и прежде, символом Р{-} обозначается
функция множества, Р(-) — соответствующая функция
распределения: Р(х)= Р{(— оо,х)}.
Далее, пусть ф есть некоторый (рандомизированный)
критерий, различающий ^0 и &х и отвергающий Ф\ с условной
вероятностью <р/(х) при условии, что наблюдается значение х =
= (х\, ..., хп). Предположим, что ошибочному отвержению
гипотезы &i сопутствует потеря L/ > 0. Тогда, если Q] е 0>1 есть
истинное распределение, величина /?(Q;', ф)=/,/Ед/ (фу) есть
9 Зак. 617
258 ГЛ. 10, ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
математическое ожидание потери, или, что то же, риск. Задача
состоит в том, чтобы отыскать минимаксный критерий, т. е.
минимизировать выражение max/e0 { supQ' e<^ R(Qfj> ф).
Оказывается, что такие минимаксные критерии в
рассматриваемом случае имеют очень простую структуру. Найдется такая
пара Qoe^o, Qi^^i наименее благоприятных распределений,
что при любых объемах выборки построенный по отношению
вероятностей критерий <р, различающий Qo и Qu удовлетворяет
неравенству /?(Q/, <p)</?(Q/, Ф), где QJgS5/.
Таким образом, в силу леммы Неймана — Пирсона критерии
отношения вероятностей, различающие Qo и Qb составляют, по
существу, весь класс минимаксных критериев, различающих 9>^
и 9*\. Хотя пара Qo, Qi, вообще говоря, неединственна,
отношение вероятностей dQi/dQo, по существу, остается одним и тем
же. Как уже отмечалось, оно должно быть цензурированной
версией отношения dP\/dPo-
На самом деле нетрудно догадаться, как выглядит такая пара
Qo, Q\. Логично предположить, что существуют такие два числа
jco<*b что функции распределения Q/(-) совпадают с
соответствующими границами множеств в пределах от х0 до х\. В
частности, плотности этих распределений должны при этом
удовлетворять равенствам
qJ(x) = (l—Bf)pi(x) при *о<*<*1. C.2)
Следует ожидать, что отношения правдоподобия на (— оо, хо) и
на (х\9 оо) будут постоянными, поэтому плотности попытаемся
искать в виде
qi(x)=apo(x) + bpi(x). C.3)
С учетом ряда внутренне непротиворечивых требований, в
частности требования о совпадениях
Qi (д:) = A — вх) Рх (х) + 8, + б, при х0 < х < хи C.4)
нетрудно вывести следующие явные формулы (мы не приводим
выкладки шаг за шагом, а сразу выписываем окончательный
результат, который вслед за этим проверим).
Положим
/ е, + б,
C.5)
Оказывается, внутренний интервал, заключенный между
точками xq и х\, в известной мере удобнее описывать при помощи
10.3. РОБАСТНЫЕ КРИТЕРИИ 259
функции с (л:), нежели непосредственно через х, а именно
определять этот интервал как множество значений х,
удовлетворяющих неравенствам с' < с(х) < \/с"> где с' и с" — некие
константы, которые будут определены ниже. Поскольку не
предполагается, что функция с(х) непрерывна или строго монотонна,
нельзя говорить о полной эквивалентности обоих вариантов
задания интервалов.
Если и v' > 0, и v" > 0, то функции распределения Qo и Q\
определим их плотностями следующим образом. Обозначим
символами /_, /0, /+ соответственно области c(x)^Lc', с'<?(*)<
< 1/с"и 1/с"<с(х).Тогда
<7о (х) =
х)
на /_,
на /0,
на /+,
C.6)
на /_,
на /0,
на /+.
Если же, скажем, v' = О, то w" = 0 и формулы C.6) упростятся:
ч 1
A
на /.,
A — Ъо)Ро(х) на /0,
A —ъо)с"рх(х\ на /+,
C.7)
(х) =
для всех л:.
Нетрудно видеть, что формулы C.6) (и C.7)) обеспечивают
нужный вид отношения правдоподобия:
с' на /_,
{с на /_,
Ф) на /0,
1/с" на/+.
C.8)
260 ГЛ. 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
Кроме того, из C.6) в силу монотонности отношения с(х) =
— Р\(х)/ро(х) следует
<7о(*ХО — во)ро(*) на '-»
до(х)>A-го)ро(х) на /+. C.9)
Аналогичные соотношения имеют место для q\.
Согласно C.9), включения Qj^tPj с функциями
распределения Q/(*)> лежащими между xq и Х\ на границах, имеют
место, если выполняются четыре соотношения, первое из
которых имеет вид
$ Id - в0) р0 (х) - <7о (*)] Ф = *о> C.10)
а остальные можно получить из него, переставляя уменьшаемое
и вычитаемое, а также меняя ролями Ро и Р\.
Подставляя формулы C.6) в (ЗЛО), получим эквивалентное
условие
J [с'Ро (х) - Pi (*)]+ dii = v' + w'c'. CЛ1)
Что же касается остальных трех соотношений, то одно из
них совпадет с C.11), а два оставшихся обратятся в
[с"Рх (х) - Ро (*)]+ rf|i = ^ + *ГсГ. (ЗЛ2)
Теперь необходимо доказать, что уравнения (ЗЛ1) и (ЗЛ2)
имеют решения сг и с". Очевидно, можно ограничиться
рассмотрением лишь уравнения C.11).
Если v' = 0, то получается тривиальное решение с' = 0
(возможно, имеются и некоторые иные решения). Исключая этот
случай, положим
\ (zpo — Pi)* d\i
+
Нужно отыскать решение уравнения f(z)= 1. Для Д ^ 0 имеем
/(z) =
Л \ (о' + ш'с) ро rf|* + \ (V + wz) (z + А — с) ро dp
~ (v'+ w'z)[v'+
где ? = {x|c(xX г}, f7 = {д:|2 < c(x) ^ г +д}- Поэтому
справедливы неравенства
р, значит, /—монотонно возрастающая и непрерывная функция.
10.3. РОБАСТНЫЕ КРИТЕРИИ 261
Если г->оо, то f(z)-+ l/w\ и если г-»-0, то /(г)-^0. Таким
образом, при условии w' <C 1 существует решение с', т. е.
f(c')=l. (Заметим, что из неравенства w' ^ 1 вытекает:
&о = Л\ поскольку fpo П &\ = 0, имеем: а/ < 1.)
Исходя из C.11) и C.14), можно убедиться, что функция
f (г) при z > С\ = ess. inf с(я) строго монотонна. Следовательно,
решение с' единственно, так как f(z) = 0 при 0 ^ 2 ^ С\.
Отношение правдоподобия для Qo и Qx можно переписать
в виде
— е0
где п(х) есть с' на 1_, с(х) на /0, 1/с" на /+ (предполагается*
что с' < 1/с").
Лемма 3.1. Справедливы неравенства
Оп $ ft» ^. t\ "^^ О (tl ^. 11 для Оп с— ffi
Доказательство. Эти неравенства, очевидно, справедливы при
t ^ с' и при / > 1/с". При cr < tf ^ 1/с" они сводятся к
неравенствам в C.1). ¦
Иными словами, я является стохастически наибольшей
величиной для Qo среди всех распределений множества ^0 и
стохастически наименьшей величиной для Q\ среди всех распреде*
лений множества &\.
Теорема 3.2. Для любого объема п выборки и любого
уровня а критерий Неймана — Пирсона уровня а для различения
Qo и Qi, т. е. критерий
1 при Л\А {Xi) > с.
Ф(х) =
у при
0 при Hin(xi)<e9
где величины С и у выбираются так, чтобы выполнялось равен*
ство Е<ЭоФ — а> есть минимаксный критерий для различения ^0 и
д>х с тем же уровнем sup^oE9 = a и с той же минимальной
мощностью т^Дф = Eq^«
Доказательство. Утверждение теоремы следует непосред*
ственно из леммы 3.1 и следующей хорошо известной леммы 3.3
(в которой следует положить Ui = \ogn(Xi), 3? (Xi) = Q и т. д. ¦
Лемма 3.3. Пусть {Ui} и {У/} (i = 1, 2, ...) —две
последовательности таких независимых случайных величин, независимых
262 ГЛ. 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
внутри каждой из последовательностей, что при всех /
величины Ui стохастически больше соответствующих величин Vi.
Тогда сумма ?, Ut при любом п стохастически больше суммы
Доказательство. Пусть {Z,}— последовательность
независимых случайных величин, имеющих равномерное распределение
на @, 1), и пусть Z7, ^ Gi — функции распределения величин Ui
и Vi соответственно. Тогда величины FJ{ (Zi) имеют те же
распределения, что и соответствующие величины ?//, а величины
Gjx [Zt) — те же распределения, что и соответствующие
величины Vi. Утверждение леммы вытекает из того факта, что
Выше по необходимости полагалось, что с' <С 1/с". Сейчас
будет показано, что это предположение эквивалентно
допущению о том, что множества tP0 и ф\ имеют пустое пересечение.
Если с' = \/с"', то в силу равенства Qo = Q\ множества ^о и
9>\ будут иметь перекрытие. Так как решения с' и с" уравнений
C.11) и C.12) монотонно возрастают с ростом е/ и б/, то при
с' > 1/с" перекрытие даже увеличится. С другой стороны, при
с' < 1/с" имеют место несовпадение Qo?=Q\ и неравенство
Qo {it < t}^ Q\{n < t}, обращающееся при некотором t = t0 в
строгое неравенство (мощность критерия Неймана — Пирсона
больше размера критерия, ср. Леман A979, следствие 1 на
с. 81)). Поэтому, согласно лемме 3.1, справедливо неравенство
Qd{n < to} > Q({n <to}\ таким образом, множества ^0 и 3>\ не
перекрываются.
Известный интерес представляет критерий для предельного
случая с' = 1/с". Этот критерий есть критерий знаков,
основанный на числе наблюдений, для которого pi(x)/po(x) ^ с'.
Отметим, что если ео = еь то предельным значением будет служить
с' = 1.
Частные случаи. Ниже предполагается, что либо б/ = 0, либо
г} = 0. Заметим, что множество ^о, определенное в формуле
C.1), содержит в себе каждое из множеств A) — E), а
распределение Qo принадлежит каждому из этих пяти множеств.
Поэтому критерии, рассмотренные в теореме 3.2, в случае
критериев для окрестностей, определяемых в терминах е-загрязнения,
расстояния полной вариации, расстояния Прохорова,
расстояния Колмогорова и расстояния Леей, также минимаксны при
том лишь допущении, что отношение pi(x)/po(x) монотонно для
пары идеальных распределений, принятых в модели,
10 3. РОБАСТНЫЕ КРИТЕРИИ 263
A) е-загрязнение. При б0 = 0
{Qe=ur|Q = (l—ео)
B) Расстояние полной вариации. При е<> = 0
C) Расстояние Прохорова. При во = 0 и Ро ^ (х) = Р0(х
{Q е= jr| (Vi4)Q^}^ Ро, ч{Лч}+во}.
D) Расстояние Колмогорова. При ео = О
E) Расстояние Леей. При е0 = 0 и Ро, q(*) = Po(*— л)
(x — г]) — бо< Q(*X Ро, п(^ + Л) + So для всех
Заметим, что модель A) грубой ошибки и модель B) для
расстояния полной вариации имеют смысл и в случае
произвольных вероятностных пространств. Более пристальное
рассмотрение доказательства, данного выше, показывает, что
монотонность отношения Р\{х)/ро(х) в этих случаях не нужна и что
доказательство проходит для произвольных вероятностных
пространств.
Кроме того, заметим, что множество &0 из C.1) вместе с
каждым распределением Q содержит и все распределения Q',
стохастически меньшие Q. Аналогично, множество 3>\ вместе
с каждым распределением Q содержит и все распределения Q',
стохастически большие Q. Это имеет своим следствием тот
важный факт, что для семейства распределений {Pebs/? c
монотонным отношением правдоподобия, т. е. семейства с растущим
монотонно по х отношением Р^(х)/рео (х) с 90<9р критерий,
построенный для окрестностей &j распределений Р0/, / = 0, 1, есть
минимаксный критерий не только для проверки гипотезы Эо
против 0ь но и для проверки гипотезы 0 ^ 0О против 0 ^ 0i.
Пример 3.1. Нормальное распределение. Пусть Ро и Pi —
нормальные распределения с дисперсией 1 и со средними
соответственно —а и а. Тогда g(x) = p[(x)/p0(x)= е2ах.
Предположим, что бо = 6i = е и б0 = 6i = 6. При этом в силу
симметрии с' — с". Представим это общее значение в виде с' = е~2акй
Тогда условие C.11) запишется в виде
2akф (а _ щ _ ф (_ а _ k) = Е+А+&Г 9 C.15)
1 "~ В
"~ В
Предположим, что число k, удовлетворяющее этому уравнению,
найдено. Тогда логарифм статистики критерия, рассмотренного
264 ГЛ. 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
в теореме 3.2, можно записать, не учитывая некоторый
постоянный множитель, в виде суммы
Л(х)=
«—1
где
= max(—&,
, х)).
C.16)
C.17)
Некоторые численные результаты представлены на рис. 10.3.2.
Отметим, что значения k оказываются неожиданно малыми:
если б ^ 0.0005, то k ^ 2.5, если б ^ 0.01, то k ^ 1.5 при
любом выборе а.
а
0.05
0.1
0.2
0.5
1.0
1.5
2.0
**=0
0.020
0.040
0.079
0.191
0.341
0.433
0.477
0.5
0.010
0.020
0.039
0.090
0.162
0.135
0.111
1.0
0.004
0.008
0.016
0.034
0.040
0.027
0.014
1.5
0.0014
0.0029
.0.0055
0.0103
0.0087
0.0042
0.0015
2.0
0.0004
0.0008
0.0015
0.0025
0.0016
0JD005
0.0001
2.5
0.00010
0.00019
0.00035
0.00048
0.00022
0.00006
0.00001
Рис. 10.3.2. Значения б как функции а и k (e = 0). Из работы Хьюбера
A968) с уведомлением издателя.
Пример 3.2. Биномиальное распределение. Пусть Q ={0,1}
и b(x\p)=px(l — рI~х, х = 0,1. Ставится задача различения
гипотез р = я0 и р = яь 0 ^ я0 < Я1 ^ 1, причем
неопределенность для распределений описывается в терминах
расстояния полной вариации. Иными словами, &\ = {Ь(- |р)|0 ^ р ^ 1,
я/ — б/ < р <; я/ + б/}. Очевидно, что минимаксный критерий
для семейств ^0 и 2Р\ совпадает с критерием Неймана —
Пирсона некоторого уровня для распределений Ъ (•|я0 + б0) и
6(-|я1 —6i) при условии Яо + бо<Я1--бь (Этот тривиальный
пример используется при построении контрпримера в
следующем параграфе.)
Вообще говоря, уровень и мощность таких робастных
критериев определить непросто. Однако задачи подобного рода
допускают иной подход, основанный на асимптотиках. При этом
предполагается, что как гипотезы сближаются друг с другом
со скоростью Oi — 6о ~ гг1/2, так и параметры, определяющие
окрестности, т. е. г и б, уменьшаются с той же скоростью.
Более детально этот вопрос будет рассмотрен в § 11.2.
10 4. ПОСЛЕДОВАТЕЛЬНЫЕ КРИТЕРИИ
10.4. ПОСЛЕДОВАТЕЛЬНЫЕ КРИТЕРИИ
Пусть ^о и &\ составляют те же сложные гипотезы, что и в
предыдущем параграфе, a Qo и Q\ — пара наименее
благоприятных распределений, для которых отношение вероятностей есть
я(х) = qi(x)/qo(x). Было установлено, что эта пара остается
наименее благоприятной на любом фиксированном объеме
выборки. Что изменится, если для проверки гипотез ^0 и 9*\ будет
использован последовательный критерий отношения
правдоподобия (ПКОП) для распределений Qo и Q{>
Положим у(х)= log я (л:) и примем соглашение, что в ПКОП
решение принимается в первый момент n = N(x), как только
нарушается одно из неравенств
K" D.1)
причем будем считать, что принимается гипотеза ^0, если
нарушается левое неравенство, и гипотеза 2Р\ — если правое.
Можно рассматривать и более общую постановку, задавая на
границах рандомизацию, но мы оставляем эту возможность
читателю.
Допустим, что истинное распределение есть Qo. Нам следует
сравнить стохастическое поведение накопленных сумм ?y(**)
при распределениях Qo и Qo» Согласно доказательству
леммы 3.3, найдутся такие функции f^gn независимые случайные
величины Z/, что распределения величин f(Zi) и g(Zi) будут
совпадать с распределениями величины v№) ПРИ Qo и Qo
соответственно. Таким образом, если накопленная сумма ^g(Zi)
покинет интервал (К', К"), например в точке /С", то сумма
Ytf(Zi) также покинет интервал {К\К") в точке К!' и даже
раньше. Поэтому вероятность ошибочно отвергнуть ^0 по
крайней мере столь же велика при распределении Qo, как и при
распределении Qj. Повторяя те же рассуждения для другой
гипотезы &и приходим к выводу, что пара (Qo, Q\) для
рассмотренных вероятностей ошибок в последовательном случае
также наименее благоприятна.
Как показывает следующий пример, эта же пара для
математического ожидания объема выборки может и не быть
наименее благоприятной.
Пример 4.1. Предположим, что Хи Х2, ... — независимые
случайные величины с распределением Бернулли P{Xi= 1} =
= 1 — P{Xi = 0} = р и что проверяется гипотеза <?0 = {р ^: а}
при альтернативе &\ = {р ^ 1/2}, где 0 < а < 1/2. Возьмем
наименее благоприятную пару Qo, Qi, которая (ср. с приме-
266 ГЛ. 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
ром 3.2) должна соответствовать р = а ир=1/2. Для нее
?=( D2)
(х) \ _ log 2a при x = 1. D-2)
Допустим, что а ^ 2~m-1, где m—-натуральное число. Тогда
- log Ba) mlog2 ,
log B A - a)) ^ log 2 + log A - a) ^ m ^'^
и, как нетрудно проверить, ПКОП для р = а и р =1/2 с
границами
!Г = -т log BA-а)),
tf" = - log Bа) - (т - 1) log B A - а)) D'4)
сводится к простому правилу:
A) гипотеза 9>\ принимается при первом появлении 1,
B) но при появлении т подряд идущих нулей принимается
гипотеза t?0.
Вероятности того, что будут приняты гипотезы ^о и ^ь
равны A—р)т и 1— A—р)т соответственно, поэтому
математическое ожидание объема выборки есть величина
m-l
0-ДО~A;~Р)Я>- D.5)
Заметим, что математическое ожидание объема выборки
достигает своего максимального значения (равного т) при р = 0,
т. е. вне интервала [а, 1/2]. Вероятности ошибок первого и
второго рода ограничены сверху величинами 1 —A —a)m ^ ma ^
^ m2~w~1 и 2""т соответственно и, следовательно, могут быть
сделаны произвольно малыми (тем самым опровергается
предположение 8(i), сделанное Хьюбером в обзоре A965)).
В то же время, если границы К' и К" так далеки, что
поведение сумм определяется, по существу, их неслучайным сносом
?y№)~"EQ'[yW], D.6)
то для математических ожиданий объемов выполняются
асимптотические соотношения
Л для Q»e^o>
, DJ)
Этим эвристическим рассуждениям можно придать строгую
форму с тем, чтобы прийти к стандартным приближениям для
математических ожиданий объема выборки {см., например, Леман
10.5 ЛЕММА НЕЙМАНА - ПИРСОНА 267
A979)). Таким образом, исходя из неравенств теоремы 3.2,
можно вывести, что правые части соотношений D.7)
действительно достигают максимальных значений на распределениях
^о и ф\ соответственно. Следовательно, пара (Qo, Qi)
оказывается в определенном смысле, т. е. асимптотически, наименее
благоприятной и для математического ожидания объема
выборки при К' -> — оо и К" -> + оо.
10.5. ЛЕММА НЕЙМАНА — ПИРСОНА
ДЛЯ 2-АЛЬТЕРНИРУЮЩИХ ЕМКОСТЕЙ
Как правило, минимаксные критерии для выборок объема п
в случае сложных альтернатив ^0 и 9*\ имеют достаточно
трудную для изучения структуру. Все эти критерии, если оставить
в стороне те усложнения, которых требует привлечение теории
меры, сводятся к критериям Неймана — Пирсона, основанных
на отношении правдоподобия q\(\)/qo(x)t где и в числителе, и в
знаменателе стоят смеси произведений плотностей, заданных на
Q
Здесь %f есть вероятностная мера, имеющая своим носителем
множество ^/. Мера Я/, зависит, вообще говоря, как от объема
выборки, так и от уровня.
Тем удивительнее, что минимаксные критерии, найденные
в § 10.3, имеют простую структуру. При внимательном
рассмотрении оказывается, что этот факт имеет своим объяснением
возможность характеризации «обычных» окрестностей ^,
используемых в теории робастности, как множеств 9* = tPv, где v =
= (у, v) — пара сопряженных 2-монотонных/2-альтернирующих
емкостей (см. § 10.2).
Излагаемое ниже знакомит с основными моментами работы
Хьюбера, Штрассена A973). Пусть Q есть польское (полное,
метризуемое и сепарабельное) пространство, наделенное боре-
левской а-алгеброй зФ, и Ж есть множество всех вероятностных
мер на (Q, s&). Пусть о—-такая вещественная функция
множеств, определенная на s4>, что
= О, 6(Q)=lf E.1)
Л)<б(В), E.2)
n)]v{A)y E.3)
Fn \ F, Fn замкнуты => v (Fn) j v (F), E.4)
v{A UВ) + v{А ПB)<v{A) + v(B). E.5)
268 ГЛ. 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
Сопряженная функция ? множеств определяется равенством
v(A}= I — v(AG). E.6)
Функция v множеств, обладающая свойствами E.1) — E.5),
называется 2-альтернирующей емкостью, а сопряженная ей
функция v будет называться 2-монотонной емкостью.
Можно показать, что любая емкость регулярна- в том
смысле, что для всякого множества i4si
в {А) = sup v (К) = inf v (G), E.7)
К G
где К пробегает совокупность всех компактных множеств,
содержащихся в Л, a G пробегает совокупность всех открытых
множеств, содержащих А.
Свойство E.4) эквивалентно свойству, заключающемуся в
том, что множество &v = {Р <=Ж\Р ^v} = {P ^Ж\Р ^ v)
слабо компактно. Свойство E.5) можно заменить следующим:
для любой монотонной последовательности замкнутых множеств
Fid F2cz ..., где Ft a Q, найдется такая мера Q <; vy что
одновременно для всех i вероятности множеств Fi достигнут своих
максимумов, т. е. Q(Fi)= v(Fi).
Пример 5.1. Пусть Q — компакт. Определим для АФ0
функцию v равенством ?(Л) = A—е)Р0(Л) + е. Эта функция
обладает свойствами E.1) — E.5), причем множество &* =
= {Р|Р = A—е)Р0 + е#, Н^Ж} есть окрестность е-загрязне-
ния распределения Ро.
Пример 5.2. Пусть Q — метрический компакт. Определим для
компактных множеств А Ф 0 функцию v равенством ?(Л) =
= 1тп[Р0(Л6) + ел 1] и, пользуясь E.7), доопределим v на всю
а-алгебру s&. Таким образом, определенная функция обладает
E.1) — E.5), причем множество &v = {Реж)Р(А) ^ РО(АЬ) +
+ в для всех Л е $?} есть окрестность Прохорова
распределения Ро.
Далее, пусть v0 и S\ — две 2-альтернирующие емкости на й,
a Vo ящ — функции, им сопряженные.
""Пусть А — критическая область для проверки гипотезы о
принадлежности множествам ^0 = {Р s Ж| Р ^ v0} и $Р\ =
= {Р^Ж\Р^г)\}у т. е. гипотеза о принадлежности ^о
отвергается, если наблюдение х принадлежит Л. Тогда верхней
вероятностью ошибочно отвергнуть ^0 служит vo(A), а
вероятностью ОШИбоЧНО ПРИНЯТЬ ^о СЛУЖИТ V\(AC) = 1 —V\(A).
Предположим, что априорная вероятность реализации ^о
равна t/(l + t), 0 ^ / ^ оо. Тогда верхним байесовским риском
критической области Л по определению служит величина
1 rt
10.6. ОЦЕНКИ, ПОЛУЧАЕМЫЕ В КРИТЕРИЯХ 269
Эта сумма минимизируется минимизацией 2-альтернирующей
функции множеств
(A){A) (A) E.8)
подходящим выбором области А.
Показать, что для каждого / всегда найдется критическая
область Л/, минимизирующая функцию E.8), не слишком
трудно. Кроме того, множества At можно выбрать убывающими, т.е.
At= Us>*
Неопределим функцию я равенством
n(x)=inl{t\x<?At}. E.9)
Если vq = vQy 5\ = Щ суть обычные вероятностные меры, то
функция я есть вариант производной dv\/dv0 Радона — Нико-
дима, поэтому сказанное выше представляет собой естественное
обобщение этого понятия на 2-альтернирующие емкости.
Главный результат содержится в следующей теореме.
Теорема 5.1. (Лемма Неймана — Пирсона для емкостей.)
Существует такая пара вероятностных мер Qo e ^о и Q\ e &\9 что
при всех /
Q0{n > t) = с;0{я > f}, Qi {я > 0 = ?i {я > /}
и что я = dQi/dQo.
Доказательство. См. работу Хьюбера, Штрассена A973,
исправление 1974). ¦
Иными словами, среди всех распределений множества &ъ
стохастически наибольшей величина я будет на распределении
Qo, а среди всех распределений множества &\ стохастически
наименьшей величина я будет на распределении Q\.
Заключение теоремы 5.1, по существу, идентично заключению
леммы 3.1. Поэтому, как и там, можно утверждать, что
критерии Неймана — Пирсона для распределений Qo и Qu
основанные на статистике JJ* ,я(^) критерия, суть минимаксные
критерии для ^о и ^i при произвольных объемах выборки и
уровнях.
10.6. ОЦЕНКИ, ПОЛУЧАЕМЫЕ В КРИТЕРИЯХ
В этом параграфе будет установлено строгое соответствие
между критериями и интервальными оценками сдвига.
Пусть Хи ..., Хп — случайные величины, совместное
распределение которых принадлежит семейству распределений с
параметром сдвига, т. е.
гв(Хи ..., Xn)=*Zo(Xi + B9 ..., Xn + Q)t F.1)
причем не требуется, чтобы величины Х< были независимыми.
270 ГЛ 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
Пусть 01 < 92 и ф есть (рандомизированный) критерий для
проверки гипотезы 8i против 02, имеющий вид
!0 для h (x) < С,
Y для А 00 = С, F.2)
1 для h (х) > С.
Статистика h критерия произвольна, но должна обладать
одним свойством: h(x + &) = h(xi +Q, ..., хп + 6) есть монотонно
возрастающая по 0 функция. Пусть а = Ео,ф и Р = Ее*Ф суть
уровень и мощность рассматриваемого критерия.
Поскольку а = Еоф(х + 6), Р = Еоф(х + 0) и ф(х + 6) есть
монотонно возрастающая по 0 функция, имеем: а <; р.
Определим случайные величины Т* и Г** равенствами
Т* = sup{0|ft(x - 0) > С}, Т** = inf {в|А(х - 0) < С} F.3)
и положим
Т* с вероятностью 1
Т** с вероятностью у
( Т с вероятностью 1 у,
\ Т** с вероятностью у
Эта рандомизация не должна зависеть от (Х\, -.., Хп).
Например, можно взять равномерно распределенную на @, 1)
случайную величину U7 не зависящую от (Хи ..., Хп), и взять в
качестве Т° детерминированную функцию от вектора (Хи ..., Xn,U)f
определяя ее значения очевидным образом: Г0(Х, U)=T* или
Т** в зависимости от того, какое неравенство имеет место:
U ^ у или ^ < Y-
Легко убедиться, что все три статистики Г*, Т** и Т°
инвариантны относительно переноса в том смысле, что Г(х + 0) =
= Пх) + е.
Заметим, что Т* ^ 71** и что
{х|Г* > 0}с={х|А(х - в)> C}cz{x|^ > 0},
{х|Г^>в}с={х|А(х-в)>С}с{х|71**>в}. F.5).
Если А(х — 0) есть непрерывная по 0 функция, то
соотношения F.5) упростятся, приняв вид {Т* > 0} = {А(х — 0)> С},
{Т** ^ 0} = {А(х — 0) ^ С}. В обоих случаях имеем: для
произвольного совместного распределения величин Хи ..., Хп и
произвольного 0
Р {Г° > 0} = A — Y) Р {Г* > 6} + \Р {Г** > 0} <
= Еф(Х-0).
Для Т° ^ 0 неравенства обращаются, поэтому
в}. F.6)
10.6, ОЦЕНКИ, ПОЛУЧАЕМЫЕ В КРИТЕРИЯХ 271
Для семейства F.1) с параметром сдвига, в частности, имеем:
Ее.Ф (X) = ЕоФ (X + 0i) = а. Поскольку статистика Т°
инвариантна относительно переноса, получаем
Pq{T° + 0i > 0}< а ^ Ре{Г° + 6i ^ 0}, F.7)
аналогично,
PQ{T° + 02 > 6} < р ^ Р*{Т° + 92 ^ 6}. F.8)
Таким образом, [Т° + 0Ь Г° + 02] есть такой доверительный
интервал (фиксированной длины), что истинное значение 0
попадает слева от него с вероятностью ^ а и справа от него —
с вероятностью ^ 1 — р. Для открытого интервала (P+0i,
Т° + 0г) неравенства поменяют знаки и вероятности ошибки
станут ^аи ^1 — р соответственно.
В частности, если распределение статистики Т° непрерывно,
то PQ{T° + 0i = 0} = Pq{T° + 02 = 0} = 0, поэтому в обоих
случаях будет выполняться равенство и, следовательно, истинное
значение параметра попадет в интервал (Р + бь Т^ + бг) с
вероятностью р — а.
Достаточное условие абсолютной непрерывности
распределения статистики устанавливается в следующей лемме.
Лемма 6Л. Если совместное распределение вектора Х =
= (Хи ..., Хп) абсолютно непрерывно относительно меры
Лебега в Rrt, то любая измеримая оценка 7\ инвариантная
относительно переноса, имеет распределение, абсолютно непрерывное
относительно меры Лебега в R.
Доказательство. Докажем лемму, получив выражение для
плотности оценки Т в явном виде: если совместное
распределение вектора X есть /(х), то плотность оценки Т имеет вид
/1 -Г(у) +
+ i)dy{...dyn_lt F.9)
где вектор (уи ..., Уп-uty для краткости обозначен у. Для
того чтобы доказать справедливость выражения F.9),
достаточно проверить, что для любой ограниченной измеримой
функции w выполняется соотношение
\w(Qg(t)dt=\w(T(x))f(x)dxt ...dxn. F.10)
По теореме Фубини можно изменить порядок интегрирования
в левой части F.10):
где список аргументов у f(...) тот же, что в выражении F.9).
272 ГЛ. 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
Сделаем замену переменного / = 7 (у) + хп = Г (у + хп) во
внутреннем интеграле и снова изменим порядок интегрирования:
Наконец, совершив замену переменных xi = yt + xn для
/=1, ..., л—1, придем к нужному равенству F.10). ¦
Примечание 1. Следующее утверждение кажется весьма правдоподобным,
но тем не менее оно неверно: для независимых случайных величин Xi с
одним и тем же непрерывным распределением непрерывно распределение
статистики Т, инвариантной относительно переноса (см. пример Торгерсена
A971)).
Примечание 2. Доверительные интервалы с точными односторонними
вероятностями ошибок а и 1 — р можно получить также в непрерывном случае,
согласившись на выбор то открытых, то замкнутых интервалов. Более точно,
если U ^ у и> значит, Т° = 7*, а множество {Q\h(x — G) > с} открыто, то
выбирается интервал [Г° + 0Ь 71° + 02); если же это множество замкнуто,'
то выбирается интервал (Р + Оь Г° + 02]. Когда Т° = Г**, а множество
{Q\h(x — 0) ^ с} открыто, берется интервал [Г0 + 0Ь Т° + 02); если
множество замкнуто, то берется интервал (Р + 0ь Г° + 02]-
Примечание 3. Для более традиционного компромиссного выбора между
7** и т** — нерандомизированной оценки Т° = 1/2(Г* 4- Г**)—важное
соотношение F.6), вообще говоря, не имеет места.
Примечание 4. Исходя из оценки Г0, инвариантной относительно
переноса, можно восстановить критерий для различения 0i и 02, имеющий
исходные уровень а и мощность 6. Это делается следующим образом. В силу
F.6) Ре1{Г0>0}<аРе1{Г^0}, Яез {Го > 0} < Р < Pe^ {Г^ > 0}. Таким
образом, если Т° имеет непрерывное распределение и, значит, Ре {^° == 0} = 0
для всех 0, в качестве критической области можно взять просто {Т° > 0}.
В общем случае границу Т° == 0 нужно расщепить в духе замечания 2 (для
этого знания значения статистики Т° совершенно недостаточно — требуется
также знать, с какой стороны доверительные интервалы открыты, а с какой
соответственно замкнуты).
Для получения оценок особенно удобны ранговые критерии,
поскольку при нулевой гипотезе они свободны от распределения.
Как правило, то же можно сказать и о критерии знаков, а также
и о других критериях, по крайней мере в случае симметричных
распределений. Для таких критериев доверительные интервалы
оказываются свободными от распределения — вероятности того,
что истинное значение лежит справа или слева от интервала,
не зависят от исходного распределения.
Пример 6.1. Критерий знаков. Предположим, что Хи ...
..., Хп — случайные величины, имеющие одно и то же
распределение FQ(x) = F(x— 0). Допустим, что распределение F
непрерывно в нуле, где нуль есть его медиана. Проверяется
гипотеза 01 = 0 против 02 > 0. Статистика критерия имеет вид
I F.11)
10.7. МИНИМАКСНЫЕ ИНТЕРВАЛЬНЫЕ ОЦЕНКИ 273
Предположим, что уровень критерия есть а. Тогда найдется
не зависящее от конкретного распределения F такое
натуральное число су что гипотеза отвергается, если для с-й порядковой
статистики Х(С) выполняется неравенство х^С)> 0, и принимается,
если *(с+о^ 0. Решение принимается случайно, если Х(С) ^ 0 <
< *(С+1). Значение соответствующей оценки Т° выбирается
случайно между Х(с) и #(с+о« Эта оценка дает свободную от
распределения нижнюю доверительную границу для истинной
медианы
Р0{0 < Г0} ^ а < Ре{0 < Т0}. F.12)
Поскольку F непрерывно в медиане, Ре{0 = Т0} — Р0{0=Т°}=0,
в формуле F.12) мы имеем фактически равенства. (Верхняя
доверительная граница Р + 02 не представляет интереса из-за
того, что ее расположение зависит от F.)
Пример 6.2. Критерий Уилкоксона, аналоги этого критерия.
Предположим, что Хи ..., Хп — независимые случайные
величины, имеющие одно и то же распределение FQ(x) = F(x — 0).
Допустим, что распределение F непрерывно и симметрично.
Упорядочим наблюдения по их абсолютным значениям и обозначим
символом Ri ранг \xi\ в полученном ряду. Рассмотрим
статистику /г(х) = 2* >оа (Ri) критерия. Если а(-) есть
возрастающая функция (как это имеет место для критерия Уилкоксона:
а@— 0> т0 функция h(x + 9) также возрастает по 9. Несложно
понять, что h — кусочно постоянная функция с возможными в
точках 0 =— l/2(xt + Xf) скачками. Поэтому оценка Т° случайно
выбирается между двумя (необязательно соседними)
значениями ПОЛуСуММ A/2) (Xi + Xf).
Из приведенных результатов становится ясно, что между
свойствами оптимальности критериев и оценок существует
четкое соответствие. Например, теория построения локально
наиболее мощных ранговых критериев для сдвига приводит к
локально наиболее эффективным /^-оценкам, т. е. к оценкам Г,
на которых достигается максимум вероятности того, что
интервал (Т — Д, Г + А) содержит истинное значение параметра
сдвига (т. е. центр симметрии распределения F) при условии,
что величина Д выбирается достаточно малой.
10.7. МИНИМАКСНЫЕ ИНТЕРВАЛЬНЫЕ ОЦЕНКИ
Минимаксные робастные критерии, полученные в § 10.3,
хорошо приспособлены для получения оценок сдвига, обладающих
минимаксными свойствами в случае конечных выборок.
Пусть G — абсолютно непрерывное распределение на
вещественной прямой, имеющее такую непрерывную плотность gt
Ю Зак 017
274 ГЛ. 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
что функция —logg строго выпукла на своем выпуклом
(необязательно совпадающим со всей вещественной прямой)
носителе.
Пусть 9* есть «раздутая» версия распределения О:
i + 6i для всех *}. G.1)
Предположим, что наблюдения Хи ..., Хп параметра G
независимы и что распределения Ft ошибок Xi — 8 наблюдений
лежат в &.
Нужно найти такую оценку Г, чтобы вероятность
отклонения от истинного параметра 6 более чем на а, где а —заранее
заданное положительное фиксированное число, была
минимальной. Таким образом, необходимо минимизировать величину
sup max [Р {Т < 6 - а), Р {Т > 9 + а}]. G.2)
*>, е
Мы утверждаем, что эта задача эквивалентна, по существу,
задаче нахождения минимаксного критерия для семейств ^_а
и ^+a, где 9>±а получаются смещением семейства 3> функций
распределения влево и вправо на ± Д.
Более точно, определим две функции распределения G_a и
G+a их плотностями
g-a(x) = g(x+*). g-*(x) = g(x-a). G.3)
Тогда отношение
c(x) = g(x-a)/g(x + a) G.4)
там, где оно конечно, есть строго монотонно возрастающая
функция.
Руководствуясь формулами C.1), получим из
распределений &o = G-a и Р\ = G+a сложные гипотезы ^о и 5РЬ а затем
найдем наименее благоприятную пару распределений (Qo, Qi)e
e^oX^i- Определим постоянные С и у, фигурировавшие
в теореме 3.2, так, чтобы вероятности ошибок первого и второго
рода были одинаковыми при Qo и Q\:
Ес?0Ф = Ед1A-ф) = а. G.6)
Если семейства &-а и ЗР+а получены из ф переносом
распределений вправо и влево на а > 0, то, как нетрудно проверить,
Qo е= 9>-а сг 0\ь Qi е= &>+а с 1. G.6)
Если определить теперь оценку 7°, согласно формулам F.3)
и F.4), по статистике h(x) = Ц"й(^) критерия из теоремы 3.2,
10.7. МИНИМАКСНЫЕ ИНТЕРВАЛЬНЫЕ ОЦЕНКИ 275
то в силу F.6) получим
Qo{ro>O}<EQ^(XXa для Qoge^o,
Q, {Г° < 0} < EQ; A - ф (X)) < а для Qi <г *>,. G.7)
С другой стороны, для любой статистики Г, удовлетворяющей
условию
Qo{r = O}=Q1{r = O}=O, G.8)
должно выполняться неравенство
max [Q0{T > 0}, Q,{r < 0}] ^ а. G.9)
Это есть следствие того факта, что статистику Т можно
рассматривать как статистику критерия для проверки гипотез Qo, Q\
и, значит, минимаксный риск, согласно G.5), равен а. Поскольку
распределения Qo и Q\ имеют плотности, любая оценка,
инвариантная относительно переноса, в частности оценка Т°,
удовлетворяет условию G.8) (лемма 6.1). В силу включений G.6)
доказана следующая теорема.
Теорема 7.1. Оценка Т° минимизирует величину G.2). Более
точно, если распределения ошибок Xi — 6 содержатся в ^, то
для всех 0
Р{Т° < 6 — а} ^ а, Р{Т° > 9 + а} < а,
причем граница а доставляет наилучшую возможность для
оценок, инвариантных относительно переноса.
Примечание. Ограничение только оценками, инвариантными
относительно переноса, может быть в силу теоремы Ханта — Стейна (Леман A979,
с. 378)) снято.
Полезно обратиться к частным случаям теоремы.
Предположим, что распределение О симметрично, eo = si и 60 = 61.
В силу симметрии С = 1, а у = 1/2. Положим
тогда
ф(х) = max {- k, min[*, log *g\*~*J$ G.11)
и оценками Т* и Т** будут служить соответственно наименьшее
и наибольшее решения уравнения
ЕФ(**-Г) = 0, G.12)
а оценка Т° случайна и равномерно распределена на отрезке,
заключенном между Т* и Т**. На самом деле в подавляющем
большинстве случаев Т*=*ТЩ неравенство Т *< 7** встреча-
19*
276 ГЛ. 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК
ется лишь тогда, когда объем выборки п есть четное число,
п = 2т, а сама выборка имеет большой пропуск в центральной
части (при этом все слагаемые в G.12) имеют значения ±k).
Хотя, как правило, оказывается, что нерандомизированная
оценка Г° = A/2) (Г* + Т**) имеет лучшие свойства, нежели
рандомизированная оценка Г°, первая не дает решения
минимаксной задачи, см. контрпример Хьюбера A968).
В частном случае G = Ф нормального распределения
функция \ogg{x—a)/g(x+ a) = 2ax линейна, и после деления
на 2а получится старый знакомый —
y(x)=max[—k',min(k'tx)]9 где V = й/Bа). G.13)
Итак, М-оценка Г°, определяемая формулами G.12) и G.13),
обладает для приближенно нормальных распределений двумя
совершенно различными свойствами.
A) В случае симметричного е-загрязнения она
минимизирует максимальную асимптотическую дисперсию.
B) Она дает точные минимаксные интервальные оценки
в случае конечной выборки для е-загрязнения, необязательно
симметричного (и для моделей, неопределимых с помощью
расстояния Колмогорова, расстояния полной вариации, а также
других).
Просматривая изложенное выше, нельзя не обратить
внимания на тот замечательный факт, что функция г|), определяющая
минимаксную оценку для конечной выборки, не зависит от
объема выборки (и зависит только от е, б и а), хотя, как уже
отмечалось, в идейном плане однопроцентное загрязнение
далеко не равнозначно для выборок объемов 5 и 1000.
Приводившиеся выше результаты были получены в
предположении фиксированного масштаба. В более близком к
действительности случае, когда масштаб выступает в качестве
мешающего параметра, точных результатов для конечных выборок
не известно.
ГЛАВА 11
Отдельные вопросы
11.1. ЭКСТРЕМАЛЬНАЯ ПОСТАНОВКА ХЭМПЕЛА
Минимаксный подход, затронутый в гл. 4 и 10, не допускает
обобщений, позволяющих выходить за рамки задач, для
которых характерно наличие высокой степени симметрии. Эта
симметрия (например, инвариантность относительно переноса)
играла существенную роль, позволяя сохранять параметризацию
идеальной модели в некоторой окрестности этой модели.
Иной подход, предложенный Хэмпелом A968, 1974 6),
позволяет обойти эту проблему за счет ухода от изменений
идеальной модели — при условии ограниченности чувствительности
к большой ошибке минимизируется асимптотическая дисперсия
именно для этой модели. Такой подход работает, по сути дела,
для произвольных однопараметрических семейств (и допускает
распространение на многопараметрические задачи). Его
уязвимость в идейном отношении вызвана тем, что допускаются лишь
«инфинитезимальные» отклонения от модели.
Для L- и /?-оценок понятие чувствительности к большой
ошибке имеет весьма сомнительную ценность (вспомним
примеры 3.5.1 и 3.5.2). Поэтому мы ограничимся лишь Af-оценками.
Пусть fo(x) = f(x; 6) есть семейство плотностей вероятности
относительно некоторой меры ц, зависящее от вещественного
параметра 6. Будем оценивать параметр 0 при помощи М-оценки
T = T(F), функционал Т для которой определяется неявным
уравнением
$(*; T(F))F(dx) = 0. A.1)
При этом функция г|) должна обеспечивать выполнение
следующего экстремального свойства.
Оценка Г, получаемая с этой функцией, должна помимо
состоятельности по Фишеру
T(FB) = d A.2)
(где dFQ = fQd\x) обладать для предписанной границы k(Q)
свойством
\1С(х; /> Г) К Л (в) для всех х A.3)
278 ГЛ. П. ОТДЕЛЬНЫЕ ВОПРОС^!
ограниченной чувствительности к большой ошибке, и на
оценке Т должен достигаться минимум асимптотической дисперсии
\lC2(x; FQ, T)dFQ. A.4)
Как показал Хэмпел, решение -ф имеет вид
где
g(x\ 0)=-Jlog/(jr, 0) A.6)
и где а (в) и 6@) >^0 — некоторые функции 0; в A.5)
использовано обозначение [*]2=тах[м, min(t>, x)].
Как выбрать границу ?@)? Хэмпел оставляет здесь полную
свободу, но отмечает, что недостаточно просто взять
функцию k(Q) достаточно малой и что, возможно, разумнее начать
с выбора подходящей функции 6@), а соответствующие а@)
и k(Q) определять уже вслед за этим. Мы изложим здесь более
систематический подход, основанный на допущении, что
граница k(Q) при всей произвольности ее выбора, должна быть
кратной «средней чувствительности к ошибке» (т. е.
квадратному корню из асимптотической дисперсии A.4)). Иначе
говоря, для функции k(Q) имеем
IC2(x; FB, T)dFQ, A.7)
где константа k должна, очевидно, удовлетворять неравенству
k ^ 1, но в остальном может выбираться произвольно (по опыту
мы рекомендуем придерживаться диапазона 1<&<2.5).
Теперь перейдем к вопросу- о существовании и
единственности функций я@) и 6@), определяемых выбором A.7).
Функция влияния М-оценки A.1) для FQ может быть
записана в виде
IC(x; FQ, Т) = -г ^-5) , A.8)
см. C.2ЛЗ). Здесь мы воспользовались состоятельностью по
Фишеру и преобразовали знаменатель интегрированием по частям.
Условия A.2) и A.3) можно в данном случае переписать
в виде
$ 0, A,9)
U.I. ЭКСТРЕМАЛЬНАЯ ПОСТАНОВКА ХЭМПЕЛА 279
а выражение, которое следует минимизировать, — в виде
A.11)
-ф (*; G) g (*; 6) / (х; 6) dp Г
Эта экстремальная задача может быть решена для каждого
отдельно взятого значения 0. Существование функции \р, на
которой достигается минимум, есть непоередственное следствие
того факта, что функция -ф ограничена, см. A.10), а также того,
чтб единичный шар в L«> слабо компактен.
Конкретный вид минимизирующей функции -ф
устанавливается стандартными приемами вариационного исчисления.
Подвергая функцию гр в формулах A.9) —A.11) небольшому
изменению 6i|), получим необходимое условие экстремума
\ [а|) — %g + v] бф/ф, > 0, где X и v — множители Лагранжа.
Поскольку функция Ф определяется только с точностью до
постоянного сомножителя, можно взять Я=1, а это значит, что
t|> = g — v для тех х, где эта функция может изменяться
свободно (т. е. там, где в A.10) имеет место строгое неравенство).
Таким образом, решение доляШо иметь вид A.6) с точностью
до постоянного сомножителя. Предельный случай
(соответствующий равенству &@)«яО) мы пока исключаем, на
некоторое время откладывая его рассмотрение.
Сначала установим, что а(§) и Ь(ё) существуют и что при
не слишком ограничительных условиях они однозначно
определяются соотношением A.9) и соотношением
AЛ2)
получаемым из A.10). Чтобы запись выкладок упростилась, мы
будем работать с одним фиксированным параметром 0, опуская
в формулах аргументы л: и 0.
Для того чтобы установить существование и единственность
решения (а, 6), удовлетворяющего A.9) и A.12), можно
воспользоваться методом, который уже применялся в гл. 7.
Действительно, полагая
+ z2) для |г|<1,
l) + |z| для |*|>1, A.13)
построим функцию
Q(a, b)~E[p(^-)b-\g\]. A.14)
280 ГЛ. П. ОТДЕЛЬНЫЕ ВОПРОСЫ
Заметим, что Q есть выпуклая функция от (а, Ь) (здесь мы
имеем частный случай задачи G.7.9) и далее), которая
достигает минимума на решении (а, Ь) системы уравнений
= 0, A.15)
= 0, A.16)
которая получается из A.14) вычислением частных производных
по а и Ь. В то же время эти уравнения эквивалентны A.9)
и A.12) соответственно.
Отметим, что, действуя таким образом, мы приходим к
оценкам параметра а сдвига и параметра b масштаба для случайной
величины g, получаемым методом Хьюбера A964,
«Предложение 2»), сравните с примером 6.4.1. Чтобы показать это,
положим tyo(z) = p'(z)=max(—1, min(l, z)) и перепишем A.15) и
A.16) в виде
[(^)] с-15')
Так же как и в гл. 7, можно без особого труда показать, что
всегда найдется некоторая пара (а0, &о) с 60 ^ 0,
минимизирующая функцию Q(ay b).
Сначала обратимся к предельному случаю Ьо = 0. Здесь tf
целесообразно определить иначе, поделив правую часть A.5)
на 6@). Для предельного случая 6 = 0 это даст соотношение
¦ (*; e) = sgn(?(x; в)-а(в)). A.17)
Дифференциальные условия того, что (а0, 0) есть минимум Q,
дадут теперь в A.16) знак ^, поскольку мы попали на границу.
Таким образом, их можно записать в виде
sgn (g (x; 9) - а @)) / (х; 0) dp = 0, A.18)
\>#P{g(x\ В)Фа@)}. A.19)
Если k > 1 и распределение g при FQ таково, что при всех
вещественных а
0) = а}<1-?-2, A.20)
то A.19) выполняться, естественно, не может. Поэтому A.20)
служит достаточным условием того, что Ьо > 0. Обратно, при
выборе k= 1 получаем Ьо = 6. В частности, если g(x; 0) имеет
при Fq непрерывное распределение, неравенство k > 1 есть
необходимое и достаточное условие того, что 60 > 0.
11.2. СУЖАЮЩИЕСЯ ОКРЕСТНОСТИ 281
Теперь предположим, что Ьо > 0. Способом, подобным тому,
что был использован в § 7.7, находим, что Q есть строго
выпуклая в (а0, bo) функция при выполнении следующих двух
условий:
A) \g — ао\ < Ьо с ненулевой вероятностью;
B) при условии \g — ao\<bo величина g непостоянна.
Тогда точка (а0, Ьо) единственна.
Иначе говоря, теперь найдена функция t|), которая
удовлетворяет условиям A.9) и A.10) и для которой величина A.11)
при бесконечно малых изменениях функции г|э остается
постоянной. Кроме того, такая функция единственна.
Если функции а (8) и b (8) не удается получить точно,
вычисление оценки Tn = T(Fn) решением уравнения A.1) может
становиться чрезмерно затруднительным. Кроме того, можно
столкнуться с неединственностью решений — проблемой, обычной для
задач с оценками максимального правдоподобия.
Предельный случай 6 = 0 представляет особый интерес,
поскольку ему отвечает обобщение медианы. Работают в этом
случае с оценкой следующим образом. Сначала ищется медиана
а (в) для g(x; 8) = (д/dQ) log/(x; 8) при истинном
распределении /> Затем определяется оценка 8« по выборке объема п.
Делается это так, чтобы половина выборочных значений
разности g(Xi; 8л)— а(§п) были положительными, а оставшаяся
половина — отрицательными.
11.2. СУЖАЮЩИЕСЯ ОКРЕСТНОСТИ
В задачах робастной проверки гипотез (а также, как о том
шла речь в § 10.6, в задачах оценивания) имеется интересный
асимптотический подход, в основу которого кладется
уменьшение как самих конкурирующих гипотез, так и расстояния между
ними с ростом объема выборки. Этот подход впервые был
использован Юбером-Каролем A970), а позднее получил развитие
в работах Райдера A978, 1979, 1980 а, б). Перечисленные здесь
источники заслуживают того, чтобы остановиться на них
подробнее.
Прежде всего отметим, что точные результаты, полученные
в гл. 10 для конечных выборок, использовать не так уж просто.
Если объем выборки п не слишком мал, размер и минимальную
мощность вычислить трудно. Это заставляет обращаться к
асимптотикам. В самом деле, при больших значениях п
статистики критерия, или, точнее, их логарифмы A0.3.6), имеют
приближенно нормальное распределение. Но вместе с тем или
размер, или мощность, или они вместе с ростом п стремятся к 0
или 1 соответственно. Эта сходимость имеет экспоненциальную
282 гл. и отдельные вопросы
скорость, что приводит к предельным теоремам,
представляющим интерес лишь в очень редких случаях. Для того чтобы
отграничить предельные размеры и мощности от 0 и 1, следует
сближать гипотезы со скоростью гг1/2 (по крайней мере в
невырожденных случаях). Если диаметры сложных конкурирующих
гипотез остаются постоянными вплоть до их соприкосновения,
мы как правило, будем приходить в конечном счете к критерию
знаков. Он может быть крайне чувствительным критерием при
работе с выборками очень больших объемов (см. § 4.2, где этот
вопрос рассматривался в оценочном контексте), но
соответствующая теория относительно бедна. Итак, с целью получить
нетривиальные предельные критерии мы сужаем гипотезы с той же
скоростью /г~1/2.
Здесь сразу же возникают две взаимосвязанные задачи.
A) Необходимо определить асимптотическое поведение
последовательности точных минимаксных критериев для конечных
выборок.
B) Нужно найти свойства предельного критерия и решить
вопрос о его асимптотической эквивалентности
последовательности точных минимаксных критериев.
Привлекательность такого подхода объясняется тем, что не
нужно делать предположений о симметрии, а это в свою
очередь дает надежду на построение удобной для приложений
теории асимптотической робаст*юсти критериев и оценок без
предположения симметрии.
Вместе с тем использование сужающихся окрестностей в
идейном отношении небезупречно; несколько жестко можно
сказать, что такие критерии робастны тольке по отношению к
нулевому загрязнению!
Оказывается, что предельные робастные критерии,
построенные на основе использования сужающихся окрестностей,
внутренне связаны с робастными оценками, получаемыми в
экстремальной постановке Хэмпела (§ 11.1), и разделяют с ними один
и тот же идейный изъян.
Кратко остановимся на этой связи. Детальнее этот вопрос
разооран в работах, упомянутых в начале этого параграфа; см.,
например, теорему 3.7 Райдера A978).
Предположим, что {Ре} есть достаточно регулярное
семейство вероятностных мер с плотностями р0, зависящими от
вещественного параметра 0. Для определенности ограничимся
рассмотрением окрестностей ^е,& распределений Ре для расстояния
пблиой вариации и предположим, что имеется критерий,
различающий две сложные гипотезьД
П.2. СУЖАЮЩИЕСЯ ОКРЕСТНОСТИ 283
и что этот критерий робастный. Согласно результату гл. 10,
статистики минимаксных критериев, различающие эти гипотезы,
имеют вид
? B-2)
где $п(Х) есть цензурированный вариант логарифма отношения
Очевидно, что предельный критерий будет основан на
статистике вида
2«№), B.4)
где ур(Х) есть цензурированная версия величины
(d/dQ)[logpB(X)]. B.5)
При весьма неограничительных условиях регулярности
предельный критерий, как нетрудно показать, действительно
асимптотически эквивалентен последовательности точных минимаксных
критериев.
Центрируя функцию яр вычитанием ее математического
ожидания так, чтобы
5-0f B.6)
придем к симметричному цензирурованию
Ъ(Х) = [(д/Щ\оёРв-ав}+_11. B.7)
Заметим, что получилось формальное совпадение с формулами
A.5) и A.6). В нашем случае постоянные а0 и bQ определяются
равенствами
dPQ = J (-Jg-logpe — «e + )
B.8)
В разобранном выше случае соответствие между точными
критериями для конечных выборок и предельным критерием
оказывается прямым и непосредственным. Свойства же
последнего допускают очень простое описание. В частности,
уравнения B.8) показывают, что предельный критерий будет почти
минимаксным на целом семействе альтернатив-окрестностей для
расстояния полной вариации с постоянным отношением б/т.
284 ГЛ. 11. ОТДЕЛЬНЫЕ ВОПРОСЫ
Более сложные задачи возникают при попытках
использовать сужающиеся последовательности для описания и характе-
ризации робастных свойств некоторого данного критерия. Ранее
уже отмечалось, что некоторые оценки оказываются при
сужающихся окрестностях менее робастными, если робастность
оценки понимается в строгом смысле, но вместо с тем limfe(e)/e=oo;
ср. с § 3.5. В частности, этим свойством обладают оценки с
нормальными весами. Поэтому не вызывает удивления, что
критерии нормальных меток не проявляют робастных свойств в
модели сужающихся окрестностей (ср. Райдер A979, 19806)).
Литература
Авербух В И., Смолянов О. Г.
A967) Теория дифференцирования в линейных топологических
пространствах. — Успехи матем. паук, т. XXII, 6, с. 200—260.
A968) Различные определения производной в линейных топологических
пространствах. — Успехи матем. наук, т. XXIII, в. 4, с. 67—116;
Дополнения. — т. 23, 5, с. 223—224.
Анскомб (Anscombe F. J.)
(I960) Rejection of outliers. — Technometrics, v. 2, № 2, p. 123—147.
Бикел (Bickel P. J.)
A973) On some analogues to linear combinations of order statistics in the
linear model. — Ann. Statist., v. 1, N° 4, p. 597—616.
A975) One-step Huber estimates in the linear model. — J. Amer. Statist.
Ass., v. 70, № 350, p. 428—434.
A976) Another look at robustness: A review of reviews and some new
developments. — Scand. J. Statist., v. 3, p. 145—168.
Бикел, Герцберг (Bickel P. J., Herzberg A. M.)
A979) Robustness of design against autocorrelation in time. I.— Ann.
Statist., v. 7, JSfe 1, p. 77—95.
Бикел, Ходжес (Bickel P. J., Hodges J. L.)
A967) The asymptotic theory of Galton's test and a related simple
estimate of location. — Ann. Math. Statist., v. 38, № 1, p. 73—89.
Биллингсли (Billingsley P.)
A977) Сходимость вероятностных мер. Пер. с англ. — М.: Наука, 352 с.
Биран (Beran R.)
A974) Asymptotically efficient adaptive rank estimates in location
models. — Ann. Statist., v. 2, № 1, p. 63—74.
A977a) Robust location estimates. — Ann. Statist., v. 5, № 3, p. 431—444.
A9776) Minimum HeHinger distance estimates for parametric models. —
Ann. Statist., v. 5, № 3, p. 445—463.
A978) An efficient and robust adaptive estimator of location. — Ann.
Statist., v. 6-, № 2, p. 292—313.
Бокс, Дрейпер (Box G. E. P., Draper N. R.)
A959) A basis for the selection of a response surface design. — J. Amer.
Statist. Ass., v. 54, № 287, p. 622—654.
Бурбаки (Bourbaki N.)
A967) Интегрирование. Пер. с франц. — М.: Наука, 396 с.
Вольф (Wolf G.)
A977) Obere und untere Wahrscheinlichkeiten Ph. D. Thesis. Zurich: Eid-
gen. Techn. Hochschule.
Гаек (Hajek J.)
A968) Asymptotic normality of simple linear rank statistics under
alternatives. — Ann. Math. Statist., v. 39, № 2, p. 325—346.
A972) Local asymptotic minimax and admissibility in estimation. — In:
Proceedings Sixth Berkeley Symposium on Mathematical Statistics
and Probability. V. I. — Berkeley Univ. Calif. Press, p. 175—194.
Гаек, Дупач (Hajek J., Dupac V.)
A969) Asymptotic normality of simple linear rank statistics under
alternatives. II. —Ann. Math. Statist., v. 40, № 6, p. 1992—2017.
Гаек, Шидак (Hajek J., Sidak Z.)
A971) Теория ранговых критериев. Пер. с англ. — М.: Наука, 375 с.
Гамильтон (Hamilton W. С.)
A970) The revolution in crystailografy. — Science, v 169, p. 133—141
286 ЛИТЕРАТУРА
Гейл, Никаидо (Gale D., Nikaido H.)
A965) The Jacobian matrix and global univalence of mappings.— Math.
Ann., v. 159, № 2, p. 81—93
Гнанадесикан, Кетенринг (Gnanadesikan R., Kettenring J. R.)
A972) Robust estimates, residuals and outlier detection with multiresponse
data, — Biometrics, v. 28 № 1, p. 81—124.
Гросс (Gross A. M.)
A977) Confidence intervals for bisquare regression estimates. — J. Amer.
Statist. Ass., v. 72, № 352, p.. 341—354.
Дадли (Dudley R. M.)
A969) The speed of mean Glivenkp —Cantelli convergence. — Ann. Math.
Statist., v. 40, № 1, p. 40—36
Даниелс (Daniels H. E.)
A954) Saddle point approximations in statistics. — Ann. Math. Statist.,
v. 25, № 4, p. 631—650.
A976) Paper presented at the Grenoble Statistics Meeting, 1976
Девлин, Гнанадесикан, Кетенринг (Devlin S. J., Gnanadesikan R.,
Kettenring J. R.)
A975) Robust estimation and outlier detection with correlation
coefficients. — Biometrika, v. 62, № 3, p. 531—545.
A979) Robust estimation of dispersion matrices and principal
components. — submitted to Amer. Statist. Ass.
Демпстер (Dempster A. P.)
A967) Upper and lower probabilities induced by a multivalued mapping.—
Ann. Math. Statist., v. 38, № 2, p. 325—339.
A968) A generalization of Bayesian inference. — J. Roy. Statist. Soc,
ser. B, v. 30, № 2, p. 205—247.
A975) A subjectivist look at robustness. — In: Proceedings 40th
Session I. S. I., Warsaw, 1975. — Bull. Int. Statist. Inst., v. XLVI,
book 1, p. 349—374.
Денби, Мэллоуз (Denby L., Mallows С L.)
A977) Two diagnostic displays for robust regression analysis. — Techno-
metrics, v. 19, № 1, p. 1—13.
Джекл (Jaeckel L. A.)
A971a) Robust estimates of location: Symmetry and asymmetric
contamination.—Ann. Math. Statist., v. 42, № 3, p. 1020—1034.
A9716) Some flexible estimates of location. — Ann. Math. Statist., v. 42,
№ 5, p. 1540—1552.
A972) Estimating regression coefficients by minimizing the dispersion of
the residuals. — Ann. Math. Statist., v. 43, №> 5, p. 1449—1458.
Дуб (Doob J. L.)
A956) Вероятностные процессы. Пер. с англ. — М.: ИЛ, 606 с.
Дуттер (Dutter R.)
A975) Robust regression. Different approaches to numerical solutions and
algorithms. Res. Rep. no. 6. Fachgruppe fur Statistik. Zurich:
Eidgen. Techn. Hochschule.
A976) LINWDR: Computer linear robust curve fitting programm. Res.
Rep. no. 10. Fachgruppe fur Statistik. Zurich: Eidgen. Techn.
Hochschule.
A977a) Numerical solution of robust regression problems: Computational
aspects, a comparison. — J. Statist. Comput. Simul., v. 5, p. 207—
238.
A9776) Algorithms for the Huber estimator in multiple regression. —
Computing, v. 18, p. 167—176.
A978) Robust regression: LINWDR and NLWDR, COMPSTAT 1978,
Proc — In: Computational Statistics (Ed. by Corsten L. C. A.)
Vienna: Physica-Verlag.
ЛИТЕРАТУРА 287
Дэниел, Вуд (Daniel С, Wood F. S.)
A979) Fitting Equations to data. 2nd ed. N. Y.: Wiley, 458 p.
Иохаи, Мароина (Yohai V. J., Maronna R. A.)
A979) Asymptotic behavior of M-estimators for the linear model. — Ann.
Statist., v. 7, № 2, p. 258—268.
Канторович Л. В., Рубинштейн Г. Ш.
A958) Об одном пространстве вполне аддитивных функций. — Вестник
Ленинградского ун-та, сер. матем., мех., астрон., № 7, 2, с. 52—59.
Келли (Kelley J. L.)
A981) Общая топология. Пер. с англ., 2-е изд. — М.: Наука, 432 с.
Кенуй (Quenouille М. Н.)
A956) Notes on bias in estimation. — Biometrika, v. 43, № 3—4.
Керстинг (Kersting G. D.)
A978) Die Geschwindigkeit der Glivenko — Cantelli — Konvergenz gemes-
sen in der Prohorov-Metrik. Habilitationsschrift. — Gottingen:
Georg-August-Universitfit.
Кляйнер, Мартин, Томсон (Kieiner В., Martin R. D., Thomson D. J.)
A979) Robust estimation of power spectra. — J. Roy. Statist. Soc, ser. B,
v. 41, Mb 3, p. 313—351.
Коллинз (Collins J. R.)
A976) Robust estimation of a location parameter in the presence of
asymmetry.—Ann. Statist., v. 4, № 1, p. 68—85.
Краскер, Уэлш (Kjasker W. S., Welsch R. E.)
A980) Efficient bounded influence regression estimation using alternative
definitions of sensitivity, unpublished.
Кун, Таккер (Kuhn H. W., Tucker A. W.)
A951) Nonlinear programming. — In: Proceedings of the Second Berkeley
Symposium on Mathematical Statistics and Probability. — Berkeley:
Univ. California Press
Ле Кам (LeCam L.)
A953) On some asymptotic properties of maximum likelihood estimates
and related Bayes' estimates. — Univ. Calif. Publ. Statist., v. 1.
Леман (Lehmann E. L.)
A979) Проверка статистических гипотез. Пер. с англ. 2-е изд., исправл.
М.: Наука, 408 с.
Лоусон, Хенсон (Lawson С. L., Hanson R. J.)
A974) Solving Least Squares Problems. Englewood Cliffs: Prentice Hall.
Маронна (Maronna R. A.)
A976) Robust M-estimators of multivariate location and scatter. — Ann.
Statist., v. 4, № 1, p. 51—67.
Матеран (Matheron G.)
A978) Случайные множества и интегральная геометрия. Пер. с англ. —
М.: Мир, 318 с.
Мизес (von Mises R.)
A937) Sur les fonctions statistiques. — In: Conference de la Reunion
Internationale des Mathematiciefts. Paris: Gauthier-Villars; also in:
Selecta R. von Mises. V. II. — Providence: Amer. Math. Soc, 1964.
A947) On the asymptotic distribution of diffcrentiable statistical
function.—Ann. Math. Statist, v. 18, № 3, p. 309—348.
Миллер (Miller R. G., Jr.)
A964) A trustworthy jackknife. —Ann. Math. Statist., v. 35, Mb 4, p. 1594—
1605.
A974) The jackknife —A review. — Biometrika, v. 61, № 1, p. 1—15.
Мостеллер, Тыоки (Mosteller F., Tukey J W.)
A982) Анализ данных и регрессия. Пер. с англ. Вып. 1; Вып. 2. — М.:
Финансы и статистика, 317 с.; 239 с.
288 ЛИТЕРАТУРА
Неве (Neveu J.)
A969) Математические основы теории вероятностей. Перев. с франц.—
М.: Мир, 310 с.
Прохоров Ю. В.
A956) Сходимость случайных процессов и предельные теоремы теории
вероятностей. — Теория вероятн. и ее примен., т. I, 2, с. 177—238.
Райдер (Rieder H.)
A978) A robust asymptotic testing model. — Ann. Statist., v. 6, № 5,
p. 1080—1094.
A979) Robustness of one and two sample rank tests against gross
errors. — Ann. Statist., v. 9. № 2, p. 245—265.
A980a) On local asymptotic minimaxity and admissibility in robust
estimation, unpublished.
A9806) Qualitative robustness of rank tests, unpublished.
Рей (Rev W. J. J.)
A978) Robust Statistical Methods. — Lect. Notes Math., B. 690, 128 S.
Рельс, Роджерс (Relies D. A., Rogers W. H.)
A977) Statisticians are fairly robust estimators of location. — J. Amer.
Statist. Ass., v. 72, № 357, p. 107—111.
Ридз (Reeds J. A.)
A976) On the definition of von Mises functional. Ph. D. thesis.
Cambridge: Dept. Statist., Harvard Univ.
Романовский, Грин (Romanowski M., Green E.)
A965) Practical applications of the modified normal distribution. — Bull.
Geodesique, v. 76, p. 1—20.
Сакс (Sacks J.)
A975) An asymptotically efficient sequence of estimators of a location
parameter. — Ann. Statist., v. 3, № 2, p. 285—298.
Сакс, Илвисейкер (Sacks J., Ylvisaker D.)
A972) A note on Huber's robust estimation of a location parameter.—
Ann. Math. Statist., v, 43, № 4, p. 1068—1075.
A978) Linear estimation for approximately linear models.— Ann. Statist.,
v. 6, № 5, p. 1122—1137.
Стейн (Stein C.)
A956) Efficient nonparametric testing and estimation. — In: Proceedings
of the Third Berkeley Symposium on Mathematical Statistics and
Probability. V. I. — Berkeley — Los-Angeles: Univ. Calif. Press.,
p. 187—195.
Стиглер (Stigler S. M.)
A969) Linear functions of order statistics, — Ann. Math. Statist., v. 40,
№ 3, p. 770—788.
A973) Simon Newcomb, Percy Daniel and the history of robust estimation
1885—1920. —J. Amer. Statist. Assoc, v. 68, № 344, p. 872—879.
Стоун (Stone С J)
A975) Adaptive maximum likelihood estimators ofa location parameter.—
Ann. Statist., v 3, № 2, p. 267—284.
Такеути (Takeuchi K.)
A971) A uniformly asymptotically efficient estimator of a location
parameter.—J. Amer. Statist. Ass., v. 66, № 334, p. 292—301.
Торгерсен (Torgersen E. N.)
A970) Comparison of experiments when the parameter space is finite.—
Z. Wahrscheinlichkeitstheor. verw. Geb., B. 16, H. 3, S. 219—249.
A971) A counterexample on translation invariant estimators. — Ann Math.
Statist., v. 42, № 4, p 1450—1451.
Тьюки (Tukey J. W.)
A958) Bias and confidence in not-quite large samples (Abstract). —Ann,
Math. Statist., v. 29, № 2, p. 614.
ЛИТЕРАТУРА 289
A960) A survey of sampling frorr contaminated distributions. — In*
Contributions to Probability and Statistisc. (Ed by Olkin I.) —
Stanford: Stanford Univ. Press, p. 448—485
A970) Exploratory Data Analysis. Mimeographed preliminary edition.
A977) Анализ результатов наблюдений. Разведочный анализ. Пер. с
англ. — М.: Советское радио, 1981, 693 с.
Феллер В. (Feller W.)
A967) Введение в теорию вероятностей и ее приложения. Пер. с англ.
Т. 2. — М.: Мир, 752 с.
Филд, Хэмпел (Field С. A., Hampel F R.)
A982) Small sample asymptotic distributions of M-estimator of location.—
Biometrika, v. 69, № 1, p. 29—46.
Филиппова A. A.
A962) Теорема Мизеса о предельном поведении функционалов от
эмпирических функций распределения и ее статистические
применения.— Теория вероятн. и ее примен., т. VII, 1, с. 26—60.
Фишер (Fisher R. А.)
A920) A mathematical examination of the methods of determining the
accuracy of an observation by the mean error square error and the
mean. — Monthly Not. Roy. Astron. Soc, v. 80, p. 758—770.
Хардинг, Кендалл (Harding E. F., Kendall D. G.)
A974) Stochastic Geometry. London: Wiley.
Хилл (Hill R. W.)
A977) Robust regression when there are outliers in the carriers, Ph. D.
Thesis. Cambridge: Harvard Univ.
Xorr (Hogg R. V.)
A967) Some observations on robust estimation. — J. Amer. Statist. Ass.,
v. 62, No 320, p. 1179—1186.
A972) More light on kurtosis and related statistics — J. Amer Statist.
Ass., v. 67, № 338, p. 422—424.
A974) Adaptive robust procedures. — J. Amer. Statist. Ass., v. 69, № 348.
Хоглин, Уэлш (Hoaglin D. C, Welsch R. E.)
A978) The hat matrix in regression and AN OVA. —Amer. Statist., v. 32,
№ 1, p. 17—22.
Холланд, Уэлш (Holland P. W., Welsch R. E.)
A977) Robust regression using iteratively reweighted least squares,—
Comm. Statist., ser. A, v. 6, p. 813—827.
Хьюбер (Huber P. J.)
A964) Robust estimation of a location parameter. — Ann. Math. Statist.,
v. 35, № 1, p. 73—101.
A965) A robust version of the probability ratio test.— Ann. Math. Statist.,
v. 36, № 6, p. 1753—1766.
A966) Strict efficiency excludes superefficiency (Abstract). —Ann. Math.
Statist., v. 37, № 5, p 1425—1426.
A967) The behaviour of maximum likelihood estimates under nonstandard
conditions. — In: Proceedings of the Fifth Berkeley Symposium on
Mathematical Statistics and Probability. V. I. — Berkeley —
Los-Angeles: Univ. Calif. Press, p. 221—233.
A968) Robust confidence limits. — Z. Wahrscheinlichkeitstheor. verw. Geb.,
B. 10, H. 4, S. 269—278.
A969) Theorie de 1'Inference Statistique Robuste. Montreal: Presses de
rUniversite.
A970) Studentizing robust estimates. — In: Nonparametric Techniques in
Statistical Inference. (Ed. by Puri M L.) — Cambridge, England:
Cambridge Univ. Press.
A972) Robust statistics: A review. —Ann. Math. Statist., v. 43, № 4
290 ЛИТЕРАТУРА
A973а) Robust regression: Asymptotics, conjectures and Monte Carlo.—
Ann. Statist, v. 1, № 5, p. 799—821.
A9736) The use of Choquet capacities in statistics. — In: Proceedings of
the 39th Session of I. S. I. -- Bull. Int. Statist. Inst, v. XLV,
book 4, p. 181 — 191.
A975) Robustness and designs. — In: A Survey of Statistical Design and
Linear Models. (Ed. by Srivastava J. N.) — Amsterdam: North
Holland.
A976) Kapazitaten statt Wahrscheinlichkeiten? Gedanken zur Grundlegung
der Statistik. — J. Deutsch. Math.-Verein., v. 78, H. 2, S. 81—92.
A977a) Robust covariances. — In: Statistical Decision Theory and Related
Topics. V. II. (Ed. by Gupta S. S., Moore D. S.) — N.-Y.: Academic
Press.
A9776) Robust Statistical Procedures. (Reg. Conf. Ser. Appl. Math.,
№ 27). —Philadelphia: Soc. Industr. Appl. Math.
A979) Robust smoothing. — In Robastness in Statistics (Proceedings of
a Workshop held at the Army Research Office, Research Triangle
Park, North Carolina, April, 1978). (Ed. by Launer R. L.,
Wilkinson G. N.) — N.-Y., Academic Press.
Хьюбер, Дуттер (Huber P. J., Dutter R.)
A974) Numerical solutions of robust regression problems. — In: COMP-
STAf 1974. Proceedings in Computational Statistics./Ed. by Bruck-
mann G. — Vienna: Physika Verlag.
Хьюбер, Штрассен (Huber P. J., Strassen V.)
A973) Minimax tests and the Neyman — Pearson lemma for capacities.—
Ann. Statist., v. 1, № 2, p. 251—263; 1974, v. 2, № 1, p. 223—224.
Хэмпел (Hampel F. R.)
A968) Contributions to the theory of robust estimation. Ph. D. Thesis.
Berkeley: Univ. California.
A971) A general qualitative definition of robustness. — Ann. Math. Statist.,
v. 42, № 6, p. 1887—1896.
A973a) Robust estimation: A condensed partial survey. — Z. Wahrschein-
lichkeitstheor. verw. Geb., B. 27, p. 87—104.
A9736) Some small sample asymptotics. — In: Proceedings of the Praga
Symposium on Asymptotic Statistics. — Prague: Akademia.
A974a) Rejection rules and robust estimates of location: An analysis of
some Monte Carlo results. — In: Proceedings of the European
Meeting of Statisticians and 7th Prague Conference on Information
Theory. Statistical Decision Functions and Random Processes.
Prague, 1974. —Prague: Akademia.
) Th
A9746) The influence curve and its role in robust estimation. — J. Amer.
Statist. Ass., v. 69, № 346, p. 383—393.
A975) Beyond location parameters: Robust concepts and methods.— In:
Proceedings of the 40th Session I. S. I., Warsaw, 1975. —Bull. Int.
Statist. Inst., v. SLVI, book 1, p. 375—382.
A976) On the breakdown point of some rejection rules with mean. Res.
Rep. no. 11. Fachgruppe fur Statistik, Zurich: Eiden. Techn. Hoch-
schule.
Чжен, Гнанадесикан, Кетепринг (Chen H., Gnanadesikan R., Kettenring J. R.)
A974) Statistical methods for grouping corporations. — Sankhya, ser. В
v. 36, P. 1, p. 1—28.
Чернофф, Гэствирт, Джонс (Chernoff H., Gastwirth J. L., Johns M. V.)
A967) Asymptotic distribution of linear combinations of functions of order
statistics with applications to estimation. — Ann. Math. Statist.,
v. 38, № 1, p. 52—72.
Шёпхольцер (Schonholzer H.)
ЛИТЕРАТУРА 291
A979) Robusle Kovarianz. Ph. D. Thesis. Zurich: Eidgen. Techn. Hoch-
schult.
Шефер (Shafer G.)
A976) A Mathematical Theory of Evidence Princeton: Princeton Univ.
Press.
Шоке (Choquet G.)
A953/1954) Theory of capacities. — Ann. Inst. Fourier, v. 5, p. 131—295.
A959) Forme abstraite du theoreme de capacitabilite. — Ann. Inst. Fourier,
v. 9, p. 83—89.
Шольц (Scholz F. W.)
A971) Comparison of optimal location estimators. Ph. D. Thesis. Berkeley:
Univ. California, Dept. Statist.
Шорак (Shorack G. R.)
A976) Robust studentization of location estimates. — Statistics Neerlan-
dica, v. 30, p. 119—141.
Штрассен (Strassen V.)
A964) Messfehler und Information. — Z. Wahrscheinlichkeitstheor. Verw.
Reb., B. 2, H. 4, S. 273—305.
A965) The existence of probability measures with given marginals. — Ann.
Math. Statist., v. 36, № 2, p. 423—439.
Эддингтон (Eddingion A. S.)
A914) Stellar Movements and the Structure of the Universe. London:
Macmillan.
Эндрюс и др. (Andrews D. F. et al.)
A972) Robust Estimates of Location: Survey and Advances. Princeton:
Princeton Univ. Press.
Юбер-Кароль (Huber-Carol C.)
A970) Etude asymptotique de tests robustes. Ph. D. Thesis. Zurich: Eid-
gen. Techn. Hochschule.
Юречкова (Jureekova J.)
A971) Nonparametric estimates of regression coefficients. — Ann. Math.
Statist., v. 42, № 4, p. 1328-1338.
Указатель 1)
Абсолютная непрерывность
распределения статистики 271
Абсолютная эффективность 12 , 14
Абсолютное медианное отклонение
112 , 114 , 116 , 119 , 126 , 142 ,
149 , 176
оценка матрицы рассеяния при
сдвиге 223
п. т. для г-загр.-окрестности н. р.
149
регрессионные задачи 176
Авербух 49 , 285
Адаптивная оценка 8 , 16
Александров 31
Анализ дисперсионный 194
Анскомб 79 , 80 , 285
Асимметричное загрязнение 108 —
111
Асимптотики для робастных о. р.
167 — 172
Асимптотическая нормальность 20
одношаговой о. с. типа М с
предварительной о. м. 146
о. м. типа R 121
о. р. типа М 171
оценок типа L 67
оценок типа М 57 , 58
подогнанных значений о. н. к. 162
робастной оценки матрицы
рассеяния 221
совместных оценок типа М 137
через производную по Фреше 47
Lp-оценок 139
Асимптотическая относительная
эффективность И , 14 , 113
интерквартильного размаха по н.р.
117
ковариационных и корреляционных
оценок 208
Асимптотическая эффективность о. м.
121 — 122
Асимптотическая эффективность
оценок типа М , L , R 74 — 78
Асимптотические разложения 55 , 172
Асимптотические свойства оценок
типа М 53 — 59
Асимптотической минимаксности
теория для сдвига 79
Байеса формула , робастный аналог
245 , 256
Бернулли распределение ,
последовательный критерий 265
Бивес Тьюки 107
Бикел 167 , 235 , 285
Биллингсли 29 , 285
Биномиальное распределение , точный
робастный критерий 264
Биран 15 , 285
Бокс 7 , 244 , 285
Большая ошибка. См. также е-за-
грязнения окрестность 11 , 14 ,
18
модель 7 , 20
для о. м. 123
обобщенная 254 , 255
Борелевская а-алгебра 29
Брэдли 120
Бурбаки 83 , 285
Вероятность верхняя 246
Весовая функция 68
ранговых критериев 68 — 70
Клотца 120
Муда 120
Энсери — Брэдли — Сигеля —
Тьюки 120
эффективной оценки типа L для
е-загр.-окрестности н. р. 126
Винзоризация метрическая 27 , 165
остатков 180 , 182
Влияния кривая см. Функция
влияния 22
Вольф 251 , 285
^-топология 83 , 86
Вуд 287
Выделяющиеся наблюдения
(значения) 12 , 27
в задачах о. р. 163 , 194
в задачах оценки ковариационных
и корреляционных матриц
201
Гаек 76 , 121 , 206 , 285
Гамильтон 167 , 285
Гейл 143 , 286
Герцберг 235 , 285
Главных компонент анализ 198
Гнанадесикан 199 , 201 , 286 , 290
Граница Крамера — Рао
асимптотическая 12
1) Для терминов , отмеченных звездочкой , используются сокращения ,
указанные в скобках.
УКАЗАТЕЛЬ 293
Граница F-меры нуль 31
Гребневая регрессия 159
Грин 96 , 97 , 288
Грубая ошибка см. Большая ошибка
Группировка 18
Гэствирт 67 , 290
Дадли 49 , 286
Да ни еле 54
Даниэль 288
Девлин 199 , 202 , 286
Декомпозиция Чолески 231
Дельта-метод , стандартные
отклонения 153
Демпстер 255 , 286
Джекл 103 , 166 , 286
Джеффрис 7
Джонс 67 , 290
Дискриминантный анализ 198
Дисперсия
в методе складного ножа 155
максимальная 20
максимальная асимптотическая 21
несостоятельность итеративной
взвешенной оценки 176 , 197
относительная асимптотическая ИЗ
/-квантильного размаха 117
оценивание 113
Дифференцируемость функционала
компактная 49
по Гато 46 , 75
асимптотическая нормальность 49
по Фреше 44
асимптотическая нормальность 47
Доверительные интервалы для
точечных оценок 153
Дрейпер 244 , 285
Дуб 134 , 286
Дупач 121 , 285
Дуттер 184 , 186 , 190 , 286
Дэниел 287
ёмкость 245
альтернирующая бесконечного
порядка 254
2-альтернирующая 252 , 267
2-монотонная 252 , 267
монотонная бесконечного порядка
254
регулярность 268
Ёсидзоэ 8
Застрахованность 79
Защищенность от выделяющихся
наблюдений 12
Золотарев 39
Илвисейкер 95 , 103 , 235 , 288
Инвариантность
аффинная 198
о. м. относительно перемены знака
112
о. м. относительно сдвига 112 , 115
относительно переноса 26 , 81 , 145 ,
271 , 272 , 277
Информация Фишера (и. Ф.) 74 , 84
выпуклость 86 , 122
матрица 138
минимальная в окрестности 79 ,
84 — 88 , 206 , 223 — 229
минимизация вариационными
методами 88—95
минимизация для 8-загрязнения 90
о. м. 121
о. с. 122 — 126
полунепрерывность снизу 86
эквивалентные выражения 88
Йохаи 172 , 287
Канторович 39 , 287
Келли 31 , 287
Кендалл 255 , 289
Кенуй 24 , 287
Керстинг 49 , 287
Кетенринг 199 , 201 , 286 , 290
Клотц 120 , 122
Кляйнер 28 , 287
Коллинз 106 , 287
* Колмогорова (К-) окрестность 93
п. т. для о. м.
типа L 119
типа М 115
робастный минимаксный точный
критерий 262
Колмогорова метрика 43
Корреляция
квадрантная 204
модифицированная 204
робастная матрица 202 , 203
Коши распределение , эффективные
оценки типа М , L , R 76
ошибок в оценивании ковариаций
175
Краскер 193 , 287
Критерий
знаков 262 , 272
Клотца 120 , 122
локально наиболее мощный 273
минимаксный робастный точный
256 , 281 — 284
мощность 13
294 УКАЗАТЕЛЬ
Муда 120
независимости робастный 198 — 204
Неймана — Пирсона 17 , 25 , 261 , 267
основанный на асимптотиках 13
ранговый двухвыборочный
для проверки идентичности
распределений 15
для о. с. 68
робастный для биномиального
распределения 264 .
робастный для нормального
распределения 263
робастный последовательный
отношения правдоподобия 262 —
267
свободный от распределения 14
связь с интервальной оценкой
сдвига 269
Спирмена 204
Уилкоксона 69 — 70 , 273
уровень 13
Энсери—Брэдли—Сигеля—Тьюки
120
Кун 40 , 287
* Леви (Л-) окрестность 20 , 22 , 82
Леви метрика 34 — 39 , 43 , 44 , 48 , 49 ,
115 , 263
Ле Кам 76 , 287
Леман 60 , 262 , 266 , 275 , 287
Лемма
Дуттера 184
Неймана — Пирсона 17 , 25
робастный аналог для 2-альтер-
нирующих емкостей 25 ,
267—269 , 268
статистика критерия 17
Урысона 31
Шоке 253
Лиггет 86
Логистическое распределение ,
эффективные оценки типа М , Ц R
76
Маронна 172 , 212 , 218 , 221 , 232 , 287
Мартин 28 , 287
Математическое ожидание верхнее и
нижнее 246
Матерон 255 , 287
Матрица
ковариационная 198
оценка элементов
робастными дисперсиями 201 —
202
через робастную корреляцию
203 — 208
корреляционная 198
плана 160 , 167
подгонки 160
проективная 160
псевдоковариационная 209
Мера 29
знакопеременная 29 , 62 , 67
регулярность 30 , 32
• с конечным носителем 30
субстохастическая 82 , 87
эмпирическая 17
Метрика , совместимость
с аффинной структурой 44
со слабой топологией 44
эквивалентность понятий робастно-
сти 49
Мешающий параметр 112 , 146
Мизес 49 , 287
Миллер 24 , 287
Минимаксная
интервальная оценка 273 — 276
оценка наклона 243
подгонка на интервале 235 — 243
робастность
асимптотическая 26
точные результаты 25 , 256
стратегия 79
Минимаксность
в г-загр.-окрестности 91 , 101 — 103
медианы 81 , 82
о. м. типа М 126 — 128
о. с. 79
оценки матрицы рассеяния типа М
227
оценок
типа L 103 — 104
типа М 97 — 102
типа R 103 — 104
Минимаксные сниженные оценки
типа М 104 — 107
Минимаксный критерий 256 — 264 , 262
для биномиального распределения
264
для нормального распределения 263
Модифицированные веса о. р. типа М
183 , 186
Модифицированные остатки о. р.
типа М 182
Мостеллер 16 , 287
Муд 120
Мэллоуз 193 , 286
Накопления точка 33
Неве 29 , 30 , 33 , 57 , 288
Непрерывность
винзоризованного среднего 66
оценки
УКАЗАТЕЛЬ 296
типа L 66 , 67
типа М 61
типа R 74
равностепенная 19 , 49
слабая и состоятельность
функционала 49
слабая производной по Фреше 46
урезанного среднего 66
функционала , *-слабая 16 , 17
Иикаидо 143 , 286
* Нормальное распределение (н. р.)
асимптотически эффективные о. м.
122
критерий робастный точный
минимаксный 263
е-загр.-окрестность для о. м. 124
эффективные оценки типов М , L , R
76
Ньюкомб 7 , 288
Ограниченная метрика Липшица 39 ,
43
Однородность аффинная 247
Округление 18
Остатки
в методе наименьших квадратов 27
модифицированные 27
регрессионные 163
Отклонение среднее абсолютное и
среднее квадратичное 10
Оценка
а-винзоризованная дисперсия 118
а-винзоризованное среднее 65
ф. в. 65
а-урезанная дисперсия 117
а-урезанное среднее 18
асимптотически минимаксная 104
непрерывность 66
оценка разброса 154
методом складного ножа 154
через ф. в. 155
пороговые свойства 22 , 78
п. т. для г-загр.-окрестности н. р.
109 — 111 , 148 — 149
смещение при асимметричном
загрязнении н. р. 109
стыодентизация 154 — 156
ф.в. 64
а-урезанное стандартное
отклонение 97 — 99 , 128
для е-загр.-окрестности н. р. 130
АМО см. Абсолютное медианное
отклонение
выборочная медиана 52 , 61 , 132 ,
142 , 146 , 153 , 167
состоятельность 134
ф. в. 64
двухпараметрическая типа М 132
состоятельность 132 , 140
асимптотическая нормальность
137
интервальная в ранговых
критериях и робастность 15
максимального правдоподобия 17
в регрессионных задачах с
сопутствующей о. м. 177
масштаба 114
масштаба (о. м.) 112
асимптотическая эффективность
121
в регрессионных задачах 176
как оценка сдвига 112
относительного 120
типа L 115
асимптотически эффективная
122
для распределений с
минимальной и. Ф. в г-загр , -
окрестности н. р. 126
интерквантильный размах 116
урезанная дисперсия 116
типа М 114
асимптотически эффективная
122
границы минимаксности 126
для распределений с
минимальной и. Ф. в е-заёр.-
окрестности н. р. 129
максимального правдоподобия
114
Хьюбера 114
типа R 119
асимптотически эффективная
122
относительного масштаба 122
матриц ковариаций и корреляций
робастная 198
робастными дисперсиями 201
робастными корреляциями 203
матрицы ковариаций классическая
и робастная 174
* метода наименьших квадратов
(о. н. к.)
асимптотическая нормальность
162
при вычислениях о. р. 190
робастный вариант 165
минимаксная асимптотически и для
конечных выборок 25 , 26
многопараметрическая типа А , /? 132
наклона минимаксная 243
^модифицированная 12
размах интерквантильный (меж-
квантильный) 21 , 116
296 УКАЗАТЕЛЬ'
п. т. для е-загр.-окрестности и. р. 131
размах интерквартильный (меж-
квартильный) 21 , 116
и абсолютное медианное
отклонение 112 , 117 , 119
п. т. для е-загр.-окрестности н. р.
149
* регрессии (о. р.)
робастная , совместная с о. м. 176
робастная состоятельная 171
типа L , робастная 166
типа М , вычисление 179
типа R , робастная одношаговая
167
робастная
аффинно инвариантная 208
вычисление 26
как состоятельная в идеальной
модели 15
рассеяния и сдвига 208 — 209
состоятельность и
асимптотическая нормальность 221 —
222
рассеяния итеративная 208 , 212
вычисление 231
единственность 215 — 217
качественная робастность 220 —
221
п. т. 222 — 223
распределения с минимальной
и. Ф. 225 — 229
существование 212 — 215
ф. в. 219 — 220
сдвига (векторного) 208
вычисление 231
единственность 217 — 218
качественная робастность 220
п. т. 222 — 223
распределения с минимальной
и. Ф. 223 - 224
существование 217 — 218
ф. в. 219
свободная от распределения и
робастность 15
* сдвига (о. с.)
интервальная 25
с предварительной о. м. АМО ,
вычисление 149
модифицированные веса 151
модифицированные остатки 149
типа М 51
асимптотическая нормальность
53 , 58 — 59
робастность качественная и
количественная 59 — 61
с предварительной о. м. 144
стыодентизация 154
точная интервальная робастная
273
ф.в. 144
типа R 69
Lx 177
U 139
сниженная
регрессии 191
совместная Хэмпела 149
типа М 104
для е-загр.-окрестности н. р
105
минимаксная 105
Тыоки бивес 105 , 107
Хэмпела 105 , 107 , 108
Эндрюса 105 — 107
с нормальными весами 72
количественная робастность 73
эффективность и робастность для
н. р. 76
совместная типа М 140
асимптотическая нормальность
137
вычисление 151 — 152 , 231
одношаговая 145
состоятельная 132 , 140
существование и единственность
138
ф.в. 142
Хьюбера 151 , 280
эффективность 138
статистической изменчивости
точечной оценки 153
Стейна 159
типа L 51 , 62
асимптотические свойства 67
нормальность 68
робастность качественная и
количественная 66 — 67
ф. в. 62
эффективность 76
типа М 51
асимптотические свойства 56
метод наискорейшего спуска 56
нормальность 58
ряд Эджворта 55
ф. в. 53 , 278
эффективность 76
типа R 51 , 68
асимптотические свойства 72
робастность количественная и
качественная 72 — 74
сдвига 69
ф. в. 70
эффективность 76 , 273
Ходжеса — Лемана 18 , 70
УКАЗАТЕЛЬ 297
робастность количественная 72 , 73
ф. в. 71
эффективность и робастность для
логистического
распределения 76 , 77
Хьюбера
в робастном оценивании
дисперсий 175
для распределения с
минимальной и. Ф. 77
типа Му п. т. для
г-загр.-окрестности н. р. 149
совместная сдвига и масштаба
142
Хэмпела 107 — 108 , 149 , 150 , 154
Эндрюса 61
Параметр мешающий 26 , 112 , 146
Плана матрица 160 , 167
План 235
«оптимальный» 237
равномерный 237
Плотность семейства мер 32 , 33
Подгонка минимаксная на интервале
235
Подгонки матрица 160
Подогнанные значения о. н. к. 27 , 160 ,
190
асимптотическая нормальность 162 ,
163
состоятельность 161
Полной вариации метрика 37 , 43 , 263
Полной вариации (п. в.-) окрестность
119 , 262
Положительная определенность
оценочных матриц 202 , 207
Полунепрерывность снизу 134
Польское пространство 29 , 34 , 38
* Пороговая точка (п. т.)
абсолютного медианного
отклонения 148 , 177
а-урезанного среднего 22 , 78 , 109 —
111 , 148 — 149
дисперсии асимптотическая 22 , 111
интерквартального размаха 149
о. м. типа М
8-загр.-окрестность 112
Л-у Я- , /С-окрестность 115
о. м. типа R> е-загр.-у Л- , /(- , п. в.- ,
Я-окрестность 119
о. с. робастной векторной 222—223
о. с. типа М с предварительной
о.м. 148 , 149
оценки (робастной) матрицы
рассеяния 222 — 223
оценки симметризованной типа R
119
оценки с нормальными весами 73
оценки типа L 67 , 78
оценки типа R 73
совместной типа М о. с. и о. м. 146
функционала асимптотическая 22 ,
109
Ходжеса — Лемана оценки 73
Хьюбера «Предложение 2» оценки
148 — 149
Порядковые статистики см. Оценки
типа L
Представимость взаимная класса и
функционалов 247
Прикладной параметрический подход
13
Принцип непрерывности
(устойчивости) 9
Производная Вольтерра см.
Производная по Гато
Производная по Гато 46 , 47 , 49
для о. м. типа R 120
Производная по Фреше 44 , 46 , 47 , 75
Проклятие размерности 49
Прохоров 29 , 31 , 33 , 288
Прохорова метрика 34 — 39 , 36 , 43 , 44 ,
48 , 49 — 50 , 115 , 263 , 268
* Прохорова (Я-) окрестность 36 , 262 ,
268
Процедура вычислений
аналог метода Ньютона 149 — 152
метод сопряженного градиента 232
модифицированных весов 151
модифицированных остатков 149
оценки типа М 149
регрессии 26 — 28 , 179 — 191
сходимость 188 — 190
с модифицированными весами
183
с модифицированными
остатками 182
совместной 151 , 152
робастной оценки 26
сходимость 27
робастной оценки ковариации
229 — 234
Флетчера — Пауэлла 233
Процедура статистическая
адаптивная 15
и робастность 16
для несимметричных распределений
16
непараметрическая и робастность
14
робастная 5 , 7 , 9 , 12 , 13
оптимальная как минимаксная 25
прикладной параметрический
подход 13
298 УКАЗАТЕЛЬ
усечения данных 12 , 13
устойчивая и робастность 16
Псевдодисперсия 21
Псевдозначения метода складного
ножа 24
Псевдоковариационная матрица 209
Псевдонаблюдения при винзоризации
27 — 28
Разбалансировки точка 26 , 159 , 163 ,
191 , 193 , 196 , 235
Райдер 281 , 282 , 284 , 288
Размах см. Оценка , размах
Распределение с «наименьшей
информацией» , эффективные
оценки типа My L , R 77
Распределение субстохастическое 82 ,
87
Распределения функция
эмпирическая 17
Расстояние. См. также одноименные
метрики
Колмогорова 43
Леви 43 , 48
ограниченное Липшица 48 , 49
полной вариации 43
Прохорова 36 , 48 , 49
Регрессия. См. также Оценка
регрессии 13 , 26 , 108
асимптотическая нормальность
оценки 163 — 163
оценка типа L 165 , 1б7
оценка тищ* М 16о , 167
оценка типа R 166
при оценке ковариашф 174 — 176
поправочные коэффициенты 175
Редактирование данных 12 , 13
винзоризацией 27
Релаксационный множитель 182
Ридз 46 , 49 , 288
Робастная ковариация , аффинно
инвариантная оценка 208 — 212
Робастная корреляция , интерпретация
208
Робастная о. р.
асимптотики 167 — 172
асимптотическая нормальность 171
выделяющиеся наблюдения 194
смещение 172 — 174
пример 157
умеренные точки разбалансировки
191
Робастная оценка
вычисление 26 — 28
ковариации , вычисление 229 — 234
определение параметра 15 , 113
построение 78
Робастная процедура , желательные
особенности 13 , 14
Робастность
аналогия с устойчивостью решения
дифференциального
уравнения 19
асимптотическая минимаксность 25
байесовский подход 8 , 245 , 256
и адаптивные процедуры 15
эффективность 16
и непараметрические процедуры 15
инфинитезимальный аспект 22
и свободные от распределения
критерии 15
и устойчивые процедуры. См. также
Защищенность от
выделяющихся наблюдений 16
как задача застрахованности 79
качественная асимптотическая 16 ,
18 , 19 , 49
и слабая непрерывность 16 , 17 ,
19 , 50
количественная 19 — 22
показатели 21 , 22
контигуальный подход
(сужающиеся окрестности) 281 — 284
минимаксная для конечных
выборок 25
оптимальная 25
оптимальная справедливости
гипотезы 15
плана 174 , 235
по распределению 5 , 9 , 10 , 12
пример Тьюки 10
термин 5 , 7 , 9
экстремальный подход Хэмпела
277 , 282
Робастный критерий 245 , 256 — 264 ,
281 — 284
Розенбаум 8
Романовский 96 , 97 , 288
Рубинштейн 39 , 287
Сакс 15 , 95 , 103 , 235 , 288
Сверхрелаксация 232
Сдвиг см. Оценка сдвига
Сепарабельность по Дубу 133
Сигель 120
Симметризация
п. т. для о. м. 119
распределения относительно 0 118
и. Ф. для о. м. 123
Симметрия распределений 22
как нереалистическое
предположение 100
право-левая 119
сферическая 208 , 229
УКАЗАТЕЛЬ 299
Складной нож 24 , 25 , 153 , 155
дисперсия для а-урезанного
среднего 154 — 155
псевдозначения 24
смещение 25
ф. в. 25
Смещение 20
в планировании 235 , 244
в робастном оценивании регрессии
172 — 174 , 235
максимальное 20
максимальное асимптотическое 21 ,
109
минимизация 80
минимаксное 80 — 82 , 204
о.м. 112
оценки корреляции , минимаксное 204
оценки типа L бо , 126
оценки типа М 59 , 126
оценки типа /? 73
сравнение со статистической
изменчивостью 82
Смолянов 49 , 285
Сопряженного градиента метод 232 —
234
Состоятельная оценка 49
типа L 67
типа М 56
многопараметрическая 132 — 137
типа R 74
Состоятельность 15 , 17 , 20 , 113
оценок матрицы рассеяния и
сдвига 221
по Фишеру 74
при подгонке 161
Среднее а-урезанное см. Оценка ,
а-урезанное среднее
Статистика
инвариантная относительно сдвига ,
перемены знака 112
Колмогорова — Смирнова 48
критерия Неймана — Пирсона 17 ,
25 , 261 , 267
нечетная 145
однородная 112
Статистический функционал 17 , 18
асимптотическая нормальность 20 ,
47 , 49
состоятельность 20 , 49
Стахель 222
Стейн 15 , 16 , 288
Стиглер 68 , 288
Стоун 15 , 288
Стьюдентизация 152 , 196
о. с. типа М 154
сравнение складного ножа и ф. в
154 — 156
урезанного среднего 154
число степеней свободы 154
Субаддитивность 247
Субстохастическая мера 83
Сужающиеся окрестности 281 — 284
Супераддитивность 248
Сходимость
по внешней мере 133
слабая распределений на R 32
Такеути 15 , 288
Таккер 40 , 287
Теорема
Даниэля 33
Канторовича — Рубинштейна 39
Куна — Таккера 40
Прохорова 33
Рисса 84
Хэмпела 50
Шоке 255
Штрассена 37 , 39 , 50
Томсон 28 , 287
Топология
V 83 , 86
слабая 29 , 34
и расстояния Леви , Прохорова 35
¦-слабая 18 , 30
Торгерсен 272 , 288
Тьюки 10 , 16 , 24 , 105 , 107 , 120 , 287 ,
288 , 289
Удаление данных 113
Урезание данных 113
Урысон 31
Условие Липшица 39
Устойчивость 16 , 18
Уэлш 193 , 287 , 289
Факторный анализ 198
Феллер 59 , 162 , 289
Филд 56 , 289
Филиппова 49 , 289
Фишер 10 , 2$9
Флетчера — Пауэлла процедура 233
Функционал
дифференцируемый 22 , 49
по Гато 44
по Фреше 46
робастный 19
слабо непрерывный 30
представление 30
* Функция влияния (ф. в.) 22 , 47
абсолютного медианного
отклонения 142
а-винзоризованного среднего 65
а-урезанного среднего 65
симметризованной версии 113
300 УКАЗАТЕЛЬ
в робастном подходе к о. р. 193
и асимптотическая дисперсия 23 , 24
и складной нож 25 , 154 — 156
использование при стыодентизации
154 — 156
как производная по Гато 47
квантиля 63
медианы 64
оценки 22
корреляции 208
робастной матрицы рассеяния
218
с нормальными весами 72
типа L 62 — 66
типа М 53 , 278
масштаба 114
одношаговой 145
сдвига с предварительной о. м.
145
типа R 63 — 65
Ходжеса — Лемана 71
размаха /-квантильного 116 , 117
связь с эффективностью 74
совместной типа М о. с. и о. м. 141
Хардинг 255 , 289
Хогг 16 , 289
Хоглин 289
Хьюбер 28 , 68 , 76 , 79 , 86 , 88 , 114 ,
133 , 138 , 139 , 142 , 144 , 149 ,
154 , 172 , 173 , 175 , 190 , 232 ,
235 , 255 , 256 , 267 , 269 , 276 ,
280 , 289 , 290
Хэмпел 13 , 16 , 19 , 22 , 23 , 26 , 47 , 50 ,
55 , 56 , 80 , 105 , 107 , 108 , 193 ,
277 , 282 , 290
Цензурирование 256 , 283
Чернофф 67 , 290
Чжен 199 , 290
Чувствительности кривая см.
Функция влияния 22 , 24
Чувствительность к большой ошибке
23 , 25 , 77 , 80 , 275 , 276
в подходе Хэмпела 277
ограниченность 26
сомнительная ценность для оценок
типа L , R 275
средняя 278
Швеппе 193
Шефер 255 , 291
Шёнхольцер 212 , 221 , 290
Шидак 206 , 285
Шоке 253 , 255 , 291
Шольц 142 , 291
Шорак 154 , 291
Шредингера уравнение 89
. Штрассен 255 , 267 , 269 , 290 , 291
Шульга 39
Эддингтон 7 , 10 , 291
Эджворта разложение 55—56
Эллипсоид , описывающий форму
расположения точек 198
Эллиптическая плотность 208 , 229
Эмпирическая функция
распределения или мера 17
Эндрюс 105 , 107 , 149 , 176 , 190 , 291
Энсери 120
8-загрязнение 115
асимметричное 108—111
минимаксный точный критерий 262
¦ 8-загрязнения (г-загр.-) окрестность
20 , 80 , 90 , 268
н. р. 276
о. м. 123
оценка векторного сдвига 224
оценка матрицы рассеяния при
сдвиге 222
п. т. для о. м.
типа L 115 , 119
типа М 112
е-загрязненное нормальное
распределение 10
минимаксная оценка 102 , 104
Эффективная оценка для
распределения
Коши 76
логистического 76
нормального 76
с наименьшей информацией 77 , 104
Эффективность
абсолютная 12 , 14
асимптотическая
о.м. 121—122
относительная 11 , 14 , 113 , 117 ,
208
оценок типа Му L , R 74 — 78
оптимальная 13
Юбер-Кароль 281 , 291
Юречкова 166 , 291
Оглавление
Предисловие редактора перевода 5
Предисловие 7
ГЛАВА 1. ОБЩИЕ ОСНОВЫ 9
1.1. Зачем нужны робастные процедуры? 9
1.2. Что требуется от робастной процедуры? 13
1.3. Качественная робастность 16
1.4. Количественная робастность 19
1.5. Инфинитезимальные аспекты 22
1.6. Оптимальность и робастность 25
1.7. Вычисление робастных оценок 26
ГЛАВА 2. СЛАБАЯ ТОПОЛОГИЯ И ПОРОЖДАЮЩИЕ ЕЕ
МЕТРИКИ 29
2.1. Общие замечания 29
2.2. Слабая топология 29
2.3. Метрики Леви и Прохорова 34
2.4. Ограниченная метрика Липшица 39
2.5. Производные по Гато и Фреше 44
2.6. Теорема Хэмпела 49
ГЛАВА 3. ОСНОВНЫЕ ТИПЫ ОЦЕНОК 51
3.1. Общие замечания 51
3.2. Оценки типа максимального правдоподобия (М-оценки) 51
3.3. Линейные комбинации порядковых статистик (L-оценки) 62
3.4. Оценки, получаемые в ранговых критериях (/^-оценки) 68
3.5. Асимптотически эффективные М-, L- и /^-оценки 74
ГЛАВА 4. ТЕОРИЯ АСИМПТОТИЧЕСКОЙ МИНИМАКСНОСТИ
ДЛЯ ПОСТРОЕНИЯ ОЦЕНОК ПАРАМЕТРА СДВИГА 79
4.1. Общие замечания 79
4.2. Минимаксное смещение 80
4.3. Минимаксная дисперсия: введение 82
4.4. Распределения, на которых достигается минимум
информации Фишера 84
4.5. Определение распределения Fo вариационными методами 89
4.6. Асимптотически минимаксные М-оценки 97
4.7. О свойстве минимаксности для L- и /^-оценок 103
4.8. Сниженные М-оценки 104
4.9. О загрязнении, обусловленном асимметрией 108
ГЛАВА 5. ОЦЕНКИ МАСШТАБА 112
5.1. Общие замечания 112
5.2. М-оценки масштаба 114
5.3. L-оценки масштаба 115
5.4. /^-оценки масштаба 119
5.5. Асимптотически эффективные оценки масштаба 121
302 ОГЛАВЛЕНИЕ
5.6. Распределения, минимизирующие информацию Фишера для
параметра масштаба 122
5.7. Минимаксные свойства 126
ГЛАВА 6. МНОГОПАРАМЕТРИЧЕСКИЕ ЗАДАЧИ.
ЧАСТНЫЙ СЛУЧАИ — СОВМЕСТНОЕ ОЦЕНИВАНИЕ
ПАРАМЕТРОВ СДВИГА И МАСШТАБА
6.1.
6.2.
6.3.
6.4.
6.6.
6,6.
6.7.
6.8.
132
Общие замечания 132
Состоятельность М-оценок 132
Асимптотическая нормальность М-оценок 137
Совместные М-оценки сдвига и масштаба 141
Af-оценки с предварительным оцениванием масштаба 144
Количественная робастность совместных оценок сдвига и
масштаба 146
Вычисление М-оценок 149
Стьюдентизация 152
ГЛАВА 7. РЕГРЕССИЯ
157
7.J. Общие замечания 157
7.2. Метод наименьших квадратов в классическом линейном 159
случае
7.3. Робастный вариант метода наименьших квадратов 165
7.4. Асимптотики для робастных оценок регрессии 167
?.5. Некоторые предположения и практические выводы 172
7.6. Асимптотики ковариаций и их оценивание 174
7.7. Сопутствующие оценки масштаба 176
7.8. Вычисление М-оценок регрессии . 179
7.9 Точки умеренной разбалансировки 191
7.10. Дисперсионный анализ 194
ГЛАВА 8. РОБАСТНЫЕ КОВАРИАЦИОННЫЕ
И КОРРЕЛЯЦИОННЫЕ МАТРИЦЫ
198
8.1. Общие замечания 198
6.2. Оценивание матричных элементов посредством робастных 201
дисперсий
8.3. Оценивание матричных элементов посредством робастных 203
корреляций
8.4. Аффинно инвариантный подход 208
8.5. Оценки, определяемые неявными уравнениями 210
8.6. Существование и единственность решений 212
8^7. Функции влияния и качественные аспекты робастности 218
8.8. Состоятельность и асимптотическая нормальность 221
8*9. Пороговая точка 222
8.10. Распределения, минимизирующие информацию 223
8.11. Некоторые вычислительные аспекты 229
ГЛАВА 9. РОБАСТНОСТЬ В ПЛАНИРОВАНИИ 235
9.1. Общие замечания 235
9.2. Минимаксная подгонка на интервале 235
9.3. Минимаксный подход к оценке тангенса угла наклона 243
ОГЛАВЛЕНИЕ 303
ГЛАВА 10. ТОЧНЫЕ РЕЗУЛЬТАТЫ ДЛЯ КОНЕЧНЫХ ВЫБОРОК 245
10.1. Общие замечания 245
10.2. Нижние и верхние вероятности емкости 245
10.3. Робастные критерии 256
10.4. Последовательные критерии 265
10.5. Лемма Неймана — Пирсона для 2-альтернирующих
емкостей 267
10.6. Оценки, получаемые в критериях 269
10.7. Минимаксные интервальные оценки 273
ГЛАВА 11. ОТДЕЛЬНЫЕ ВОПРОСЫ 277
11.1. Экстремальная постановка Хэмпела 277
11.2. Сужающиеся окрестности 281
Литература 285
Указатель 292
УВАЖАЕМЫЙ ЧИТАТЕЛЬ!
Ваши замечания о содержании книги, ее
оформлении, качестве перевода и другие просим присылать
по адресу: 129820, Москва, И-110, ГСП, 1-й Рижский
пер., 2, издательство «Мир»,
Питер Хьюбер
РОБАСТНОСТЬ В СТАТИСТИКЕ
Научные редакторы А. А. Бряндинская, И. А. Маховая
Мл. научный редактор Н. С. Полякова
Художник С. А. Бычков
Художественный редактор В. И. Шаповалов
Технический редактор Е. В. Ящук
Корректор Н. А. Гиря
ИБ № 3447
Сдано в набор 12.04.83. Подписано к печати 23.11.83.
Формат 60X90'/ie. Бумага типографская № 2. Гарнитура
литературная. Печать высокая. Объем 3,50 бум. л. Усл. печ. л 19
Усл. кр.-отт. 19 Уч.-изд. л. 17, 51 Изд. № 1/2374. Тираж 6250 зкз
Зак. 617. Цена 2 руб
ИЗДАТЕЛЬСТВО «МИР»
129820, Москва, И-110, ГСП, 1-й Рижский пер., 2.
Ленинградская типография № 2 головное предприятие
ордена Трудового Красного Знамени Ленинградского
объединения «Техническая книга» им. Евгении Соколовой Союзполи-
графпрома при Государственном комитете СССР по делам
издательств, полиграфии и книжной торговли. 198052, г.
Ленинград, Л-52, Измайловский проспект, 29.