fullscreen zoom_in fast_forward share cloud_download
Text
                    КЛАССИЧЕСКАЯ УЧЕБНАЯ ЛИТЕРАТУРА
ПО МАТЕМАТИКЕ
А. А. БОРОВКОВ
МАТЕМАТИЧЕСКАЯ
СТАТИСТИКА
УЧЕБНИК
Издание четвертое,
стереотипное
HAUL®
ЛАНЬ*
САНКТ-ПЕТЕРБУРГ · МОСКВА · КРАСНОДАР
2010


ББК22.172я73 Б 83 Боровков А. А. Б 83 Математическая статистика: Учебник. 4-е изд., стер. — СПб.: Издательство «Лань», 2010. — 704 с. — (Учебники для вузов. Специальная литература). ISBN 978-5-8114-1013-2 В учебнике излагаются основания современной математической статистики, предельные теоремы для эмпирических распределений и основных типов статистик, основы теории оценок и теории проверки гипотез. Рассматриваются методы отыскания оптимальных и асимптотически оптимальных процедур. Значительное внимание уделено статистике разно- распределенных наблюдений и, в частности, задачам однородности, задачам регрессии и дискретного анализа, распознаванию образов и задаче о разладке. Излагается единый теоретико-игровой подход к задачам математической статистики. Изучаются статистические игры и основные принципы отыскания оптимальных и асимптотически оптимальных решающих правил. Многие результаты теории оценивания и теории проверки гипотез обобщаются на случай произвольной функции потерь. Учебник рассчитан на студентов и аспирантов математических и физических специальностей вузов. ББК22.172я73 Обложка А Ю. ЛАПШИН Охраняется законом РФ об авторском праве. Воспроизведение всей книги или любой ее части запрещается без письменного разрешения издателя. Любые попытки нарушения закона будут преследоваться в судебном порядке. © Издательство «Лань», 2010 © А. А. Боровков, 2010 © Издательство «Лань», художественное оформление, 2010
ОГЛАВЛЕНИЕ Предисловие ко второму изданию 11 Введение 18 Глава 1. Выборка. Эмпирическое распределение. Асимптотические свойства статистик 21 § 1. Понятие выборки 21 § 2. Эмпирическое распределение (одномерный случай) 24 § 3. Выборочные характеристики. Основные типы статистик 28 1. Примеры выборочных характеристик (28). 2. Два типа статистик (29). 3. L-статистики (31). 4. М-статистики (32). 5. О других статистиках (33). § 4. Многомерные выборки 33 1. Эмпирические распределения (33). 2*. Более общие варианты теоремы Гливенко-Кантелли. Закон повторного логарифма (34). 3. Выборочные характеристики (35). § 5. Теоремы непрерывности 35 §6*. Эмпирическая функция распределения как случайный процесс. Сходимость к броуновскому мосту 40 1. Распределение процесса ni^(i) (40). 2. Предельное поведение процесса wn(t) (43). § 7. Предельное распределение для статистик первого типа 46 §8*. Предельное распределение для статистик второго типа 51 §9*. Замечания о непараметрических статистиках 62 § 10*. Сглаженные эмпирические распределения. Эмпирические плотности 63
4 Оглавление Глава 2. Теория оценивания неизвестных параметров 69 §11. Предварительные замечания 69 § 12. Некоторые параметрические семейства распределений и их свойства 71 I. Нормальное распределение на прямой (71). 2. Многомерное нормальное распределение (71). 3. Гамма-распределение (72). 4. Распределение «хи- квадрат» Н* с к степенями свободы (73). 5. Экспоненциальное распределение (74). 6. Распределение Фишера с числом степеней свободы к\у &2 (74). 7. Распределение Стьюдента Т* с к степенями свободы (75). 8. Бэта-распределение (В-распределение) (77). 9. Равномерное распределение (78). 10. Распределение Коши Κα,σ с параметрами (α, σ) (80). II. Логнормальное распределение La<72 (80). 12. Вырожденное распределение (81). 13. Распределение Бернулли В£ (81). 14. Распределение Пуассона Па (81). 15. Полиномиальное распределение (81). § 13. Точечное оценивание. Основной метод получения оценок. Состоятельность, асимптотическая нормальность 82 1. Метод подстановки. Состоятельность (82). 2. Асимптотическая нормальность. Одномерный случай (85). 3. Асимптотическая нормальность. Случай многомерного параметра (86). § 14. Реализация метода подстановки в параметрическом случае. Метод моментов. М-оценки 87 1. Метод моментов. Одномерный случай (87). 2. Метод моментов. Многомерный случай (89). 3. М-оценивание как обобщенный метод моментов (90). 4. Состоятельность М-оценок (92). 5. Состоятельность М-оценок (95). 6. Асимптотическая нормальность М-оценок (96). 7. Замечания о многомерном случае (98). §15*. Метод минимального расстояния 99 § 16. Метод максимального правдоподобия. Оптимальность оценок максимального правдоподобия в классе М-оценок 101 1. Определения. Общие свойства (101). 2. Асимптотические свойства о. м. п. Состоятельность (109). 3. Асимптотическая нормальность о. м.п. Оптимальность в классе М-оценок (ИЗ). § 17. О сравнении оценок 115 1. Среднеквадратический подход. Одномерный случай (116). 2. Асимптотический подход. Одномерный случай (119). 3. Нижняя граница рассеивания для L-оценок (121). 4. Среднеквадратический и асимптотический подходы в многомерном случае (124). 5. Некоторые эвристические подходы к определению дисперсий оценок. Методы складного ножа и будстрэп (127). § 18. Сравнение оценок в параметрическом случае. Эффективные оценки 128 1. Одномерный случай. Среднеквадратический подход (129). 2. Асимптотический подход. Асимптотическая эффективность в классах М- и L-оценок (131). 3. Многомерный случай (138). § 19. Условные математические ожидания 140 1. Определение у.м. о. (140). 2. Свойства у.м.о. (143). § 20. Условные распределения 146 §21. Байесовский и минимаксный подходы к оцениванию параметров . . 150 § 22. Достаточные статистики 157
Оглавление 5 §23*. Минимальные достаточные статистики 164 § 24. Построение эффективных оценок с помощью достаточных статистик. Полные статистики 171 1. Одномерный случай (171). 2. Многомерный случай (173). 3. Полные статистики и эффективные оценки (173). § 25. Экспоненциальное семейство 178 §26. Неравенство Рао-Крамера и Д-эффективные оценки 185 1. Неравенство Рао-Крамера и его следствия (185). 2. Я-эффективные и асимптотически Я-эффективные оценки (191). 3. Неравенство Рао-Крамера в многомерном случае (194). 4. Некоторые выводы (200). §27*. Свойства информации Фишера 200 1. Одномерный случай (200). 2. Многомерный случай (203). 3. Матрица Фишера и замена параметра (206). § 28*. Оценки параметра сдвига и масштаба. Эффективные эквивариант- ные оценки 207 1. Оценки параметра сдвига и масштаба (207). 2. Эффективная оценка параметра сдвига в классе эквивариантных оценок (208). 3. Минимаксность оценки Питмена (211). 4. Об оптимальных оценках параметра масштаба (212). §29*. Общая задача об эквивариантном оценивании 215 §30. Интегральное неравенство типа Рао-Крамера. Критерии асимптотической байесовости и минимаксности оценок 218 1. Эффективные и сверхэффективные оценки (218). 2. Основные неравенства (220). 3. Неравенства в случае, когда функция q(6)/I(6) не дифференцируема (224). 4. Некоторые следствия. Критерии асимптотической байесовости и минимаксности (225). 5. Многомерный случай (228). §31. Расстояния Куль бака-Лейблера, Хеллингера и χ2. Их свойства . . . 228 1. Определения и основные свойства расстояний (228). 2. Связь расстояний Хеллингера и других с информацией Фишера (232). 3. Существование равномерных границ для γ(Δ)/Δ2 (233). 4. Многомерный случай (234). 5*. Связь рассматриваемых расстояний с оценками (236). § 32*. Свойства информации Фишера.Разностное неравенство типа Рао-Крамера 238 § 33. Вспомогательные неравенства для отношения правдоподобия. Асимптотические свойства оценок максимального правдоподобия 243 1. Основные неравенства (244). 2. Оценки для распределения и моментов о. м.п. Состоятельность о. м. п. (246). 3. Асимптотическая нормальность (247). 4. Асимптотическая эффективность (249). 5. Асимптотическая байе- совость о. м. п. (250). § 34. Асимптотические свойства отношения правдоподобия. Дальнейшие свойства оптимальности о. м. π 251 §35*. Приближенное вычисление оценок максимального правдоподобия . 260 § 36. Результаты § 33, 34 для случая многомерного параметра 269
6 Оглавление 1. Неравенства для отношения правдоподобия и свойства о. м. п. (результаты §33) (269). 2. Асимптотические свойства отношения правдоподобия (результаты §33, 34) (271). 3. Свойства о.м.п. (результаты §33, 34) (275). 4. Приближенное вычисление о.м.п. (278). 5. Свойства о.м.п. при отсутствии условий регулярности (результаты § 14, 16) (278). § 37. Равномерность по θ асимптотических свойств отношения правдоподобия и оценок максимального правдоподобия 278 1. Равномерные закон больших чисел и центральная предельная теорема (278). 2. Равномерные варианты теорем об асимптотических свойствах отношения правдоподобия и оценок максимального правдоподобия (280). 3. Некоторые следствия (283). § 38*. О статистических задачах, связанных с выборками случайного объема. Последовательное оценивание 284 § 39. Интервальное оценивание 285 1. Определения (285). 2. Построение доверительных интервалов в байесовском случае (286). 3. Построение доверительных интервалов в общем случае. Асимптотические доверительные интервалы (287). 4. Построение точного доверительного интервала с помощью заданной статистики (290). 5. Другие методы построения доверительных интервалов (293). 6. Многомерный случай (295). § 40. Точные выборочные распределения и доверительные интервалы для нормальных совокупностей 296 1. Точные распределения статистик х, S* (296). 2. Построение точных доверительных интервалов для параметров нормального распределения (298). Глава 3. Теория проверки гипотез 301 §41. Проверка конечного числа простых гипотез 301 1. Постановка задачи. Понятие статистического критерия. Наиболее мощный критерий (301). 2. Байесовский подход (303). 3. Минимаксный подход (308). 4. Наиболее мощные критерии (309). §42. Проверка двух простых гипотез 311 §43*. Два асимптотических подхода к расчету критериев. Численное сравнение 315 1. Предварительные замечания (315). 2. Фиксированные гипотезы (316). 3. Близкие гипотезы (320). 4. Сравнение асимптотических подходов. Числовой пример (323). 5. Связь н.м. к. с асимптотической эффективностью о.м.п. (328). § 44. Проверка сложных гипотез. Классы оптимальных критериев 329 1. Постановка задачи и основные понятия (329). 2. Равномерно наиболее мощные критерии (331). 3. Байесовские критерии (332). 4. Минимаксные критерии (333). § 45. Равномерно наиболее мощные критерии 333 1. Односторонние альтернативы. Монотонное отношение правдоподобия (333). 2. Двусторонняя основная гипотеза. Экспоненциальное семейство (336). 3. Другой подход к рассматриваемым задачам (341). 4. Байесовский подход и наименее благоприятные априорные распределения при построении н.м.к. и р.н.м.к. (342).
Оглавление 7 §46*. Несмещенные критерии 344 1. Определения. Несмещенные р. н.м. к. (344). 2. Двусторонние альтернативы. Экспоненциальное семейство (347). §47*. Инвариантные критерии 349 §48*. Связь с доверительными множествами 353 1. Связь статистических критериев и доверительных множеств. Связь свойств оптимальности (353). 2. Наиболее точные доверительные интервалы (356). 3. Несмещенные доверительные множества (359). 4. Инвариантные доверительные множества (360). § 49. Байесовский и минимаксный подходы к проверке сложных гипотез 363 1. Байесовские и минимаксные критерии (363). 2. Минимаксные критерии для параметра α нормальных распределений (366). 3. Вырожденные наименее благоприятные распределения для односторонних гипотез (373). § 50. Критерий отношения правдоподобия 375 §51*. Последовательный анализ 378 1. Вводные замечания (378). 2. Байесовский последовательный критерий (379). 3. Последовательный критерий, минимизирующий среднее число испытаний (383). 4. Вычисление параметров наилучшего последовательного критерия (385). § 52. Проверка сложных гипотез в общем случае 388 §53. Асимптотически оптимальные критерии. Критерий отношения правдоподобия как асимптотически байесовский критерий для проверки простой гипотезы против сложной 397 1. Асимптотические свойства к. о. п. и байесовского критерия (397). 2. Асимптотическая байесовость к. о. п. (399). 3. Асимптотическая несмещенность к.о. п. (403) § 54. Асимптотически оптимальные критерии для проверки близких сложных гипотез 404 1. Постановка задачи и определения (404). 2. Основные утверждения (407). § 55. Свойства асимптотической оптимальности критерия отношения правдоподобия, вытекающие из предельного признака оптимальности . . 412 1. А. р. н. м. к. для близких гипотез с односторонними альтернативами (412). 2. А.р.н.м.к. для двусторонних альтернатив (413). 3. Асимптотически минимаксный критерий для близких гипотез, касающихся многомерного параметра (415). 4. Асимптотически минимаксный критерий о принадлежности выборки параметрическому подсемейству (417). §56. Критерий χ2. Проверка гипотез по сгруппированным данным .... 423 1. Критерий χ2. Свойства асимптотической оптимальности (423). 2. Применения критерия χ2. Проверка гипотез по сгруппированным данным (427). §57. Проверка гипотез о принадлежности выборки параметрическому семейству 430 1. Проверка гипотезы X € В^(а). Группировка данных (430). 2. Общий случай (434). § 58. Устойчивость статистических решений (робастность) 438
8 Оглавление 1. Постановка задачи. Качественная и количественная характеризации ро- бастности (438). 2. Оценка параметра сдвига (445). 3. Статистики Стьюдента и So (448). 4. Критерий отношения правдоподобия (449). Глава 4. Статистические задачи с двумя и более выборками 450 § 59. Проверка гипотез об однородности (полной или частичной) в параметрическом случае 450 1. Рассматриваемый класс задач (450). 2. Асимптотически минимаксный критерий для проверки близких гипотез об обычной однородности (452). 3. Асимптотически минимаксные критерии для задачи об однородности при наличии мешающего параметра (458). 4. Асимптотически минимаксный критерий для задачи о частичной однородности (463). 5. Некоторые другие задачи (466). § 60. Задачи об однородности в общем случае 466 1. Постановка задачи (466). 2. Критерий Колмогорова-Смирнова (467). 3. Критерий знаков (469). 4. Критерий Вилкоксона (470). 5. Критерий χ2 как асимптотически оптимальный критерий проверки однородности по сгруппированным данным (475). §61. Задачи регрессии 476 1. Постановка задачи (476). 2. Оценка параметров (477). 3. Проверка гипотез относительно линейной регрессии (484). 4. Оценивание и проверка гипотез при наличии линейных связей (488). §62. Дисперсионный анализ 491 1. Задачи дисперсионного анализа как задачи регрессии. Случай одного фактора (491). 2. Влияние двух факторов. Элементарный подход (494). § 63. Распознавание образов 496 1. Параметрический случай (497). 2. Общий случай (497). Глава 5. Статистика ρазнораспредеденных наблюдений 500 § 64. Предварительные замечания. Примеры 500 § 65. Основные методы построения оценок. М-оценки. Состоятельность и асимптотическая нормальность 507 1. Предварительные замечания и определения (507). 2. М-оценки (508). 3*. Состоятельность М-оценок (514). 4. Состоятельность М-оценок (519). 5. Асимптотическая нормальность М-оценок (521). §66. Оценки максимального правдоподобия. Основные принципы сравнения оценок. Оптимальность о. м. п. в классе М-оценок 524 1. Оценки максимального правдоподобия (524). 2. Асимптотические свойства о. м.п. (526). 3. Основные принципы сравнения оценок. Асимптотическая эффективность о.м.п. в классе М-оценок (531). § 67. Достаточные статистики. Эффективные оценки. Экспоненциальные семейства 533 § 68. Эффективные оценки в задаче оценивания «хвостов» распределений (пример 64.7). Асимптотические свойства оценок 535
Оглавление 9 1. Оценки максимального правдоподобия (535). 2. Асимптотическая нормальность Θ* в задаче В (537). 3*. Асимптотические нормальность и оптимальность в задаче А (540). § 69. Неравенство Рао-Крамера 545 § 70. Неравенства для отношения правдоподобия и асимптотические свойства о. м. π 547 1. Неравенства для отношения правдоподобия и состоятельность о. м. п. (547). 2. Асимптотическая нормальность о.м.п. (550). 3. Асимптотическая эффективность (552). 4. Замечания об о.м.п. для многомерного параметра (552). § 71. Замечания о проверке гипотез по неоднородным наблюдениям .... 553 § 72. Задача о разладке (пример 64.6) 556 1. Задача о разладке как задача проверки гипотез (556). 2. Задача о разладке как задача оценки параметра (563). 3. Последовательные процедуры (566). Глава 6. Теоретико-игровой подход к задачам математической статистики 575 § 73. Предварительные замечания 575 § 74. Основные понятия и теоремы, связанные с игрой двух лиц 576 1. Игра двух лиц (576). 2. Равномерно оптимальные стратегии в подклассах (577). 3. Байесовские стратегии (577). 4. Минимаксные стратегии (579). 5. Полный класс стратегий (587). § 75. Статистические игры 587 1. Описание статистических игр (587). 2. Классификация статистических игр (590). 3. Две фундаментальные теоремы теории статистических игр (591). § 76. Байесовский принцип. Полный класс решающих функций 593 § 77. Достаточность, несмещенность, инвариантность 599 1. Достаточность (599). 2. Несмещенность (600). 3. Инвариантность (602). §78. Асимптотически оптимальные оценки при произвольной функции потерь 605 § 79. Оптимальные статистические критерии при произвольной функции потерь. Критерий отношения правдоподобия как асимптотически байесовское решение 616 1. Свойства оптимальности статистических критериев при произвольной функции потерь (616). 2. К. о. п. как асимптотически байесовский критерий (616). § 80. Асимптотически оптимальные решения при произвольной функции потерь в случае близких сложных гипотез 620 Таблицы 625 Приложение I 634 Приложение II 637 Приложение III 644 Приложение IV 647
10 Оглавление Приложение V 658 Приложение VI 664 Приложение VII 669 Приложение VIII 679 Библиографические замечания 685 Список литературы 692 Список основных обозначений 698 Предметный указатель 701
ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ Предлагаемая книга является существенно переработанной и дополненной версией книги «Математическая статистика», вышедшей в 1984 г. в двух частях: первая часть имела подзаголовок «Оценка параметров, проверка гипотез», вторая — «Дополнительные главы». Позже эти две книги были опубликованы в виде монографии на французском (1987) и испанском (1988) языках. В 1997 г. дополненная и переработанная версия книги издана на английском языке. Одним из главных нововведений в предлагаемой книге по сравнению с изданиями 1984 г. является появление новой главы, посвященной статистике разнораспределенных наблюдений. В целом в основу предлагаемой книги положены лекции по математической статистике, которые автор в течение многих лет читал на математическом факультете Новосибирского университета. Со временем курс лекций неоднократно менялся в поисках варианта, который был бы по возможности более стройным, доступным и в то же время соответствовал современному состоянию этой науки. Были испробованы варианты, начиная с курса преимущественно рецептурного характера с изложением основных типов задач (построение оценок, критериев и изучение их свойств) и кончая курсом общего теоретико-игрового характера, в котором теория оценок и проверка гипотез представлялись как частные случаи единого подхода. Ограничения во времени не позволяли объединить эти дополняющие друг друга варианты, каждый из которых в отдельности обладал очевидными недостатками. В первом случае набор конкретных фактов мешал развитию общего взгляда на предмет. Второй вариант испытывал недостаток в простых конкретных результатах и оказывался загруженным многими новыми непростыми понятиями, трудными для усвоения. По-видимому, наиболее приемлемым является вариант, в котором изложение элементов теории оценок и теории проверки гипотез сочетается с последовательным проведением линии на отыскание оптимальных процедур. Основу книги составляет объединение материала, читавшегося в разное время в лекциях, расширенное за счет разделов, присутствие которых диктуется самой логикой изложения. Главной целью являлось изложение современного состояния предмета в сочетании с максимально возможной доступностью и математической цельностью и стройностью. Содержание книги распадается на 6 глав и приложения. В главе 1 изучаются свойства (в основном асимптотические) эмпирических распределений, лежащие в основе математической статистики. В главах 2, 3 излагаются соответственно теория оценок и теория проверки статистических гипотез. Первые части каждой главы посвящены описанию возможных подходов к решению поставленных задач и отысканию оптимальных процедур. Вторые части посвящены построению асимптотически оптимальных процедур. Такую же структуру имеет глава 6, где излагается общий теоретико- игровой подход к задачам математической статистики.
12 Предисловие Глава 4 посвящена задачам, связанным с двумя и более выборками. Статистические выводы для разнораспределенных наблюдений в более общей, чем в главе 4, постановке задачи рассматриваются в новой главе 5, которая уже упоминалась выше. Книга содержит также 8 приложений. Они связаны с теми утверждениями в основном тексте, доказательство которых выходит за рамки основного изложения либо по своему характеру, либо по трудности. Имеются еще библиографические замечания, не претендующие на полноту, но позволяющие проследить возникновение и развитие основных направлений математической статистики. При этом везде, где это возможно, оказывалось предпочтение ссылкам на монографии (как на более доступный вид литературы), а не на оригинальные статьи. В настоящее время существует довольно много книг по математической статистике. Выделим из них следующие, в которых представлено большое количество материала, отражающее современное состояние предмета — это книги Г.Крамера [58], Э.Лемана [66, 67], Ш. Закса [48], И.А.Ибрагимова и Р.З.Хасьминского [49], L.Le Cam [63], G.R.Shorak, J.A.Wellner [139]. Из них наибольшее влияние на изложение настоящей книги оказали монографии [49] (некоторые идеи этой книги использовались в §33, 34, 36, 37 главы 2) и [67] (изложение §45-48 главы 3 близко по содержанию к соответствующим разделам [67]). Остальное изложение мало связано по строю с имеющимися книгами. Существует много других книг, занимающих заметное место в статистической литературе (такие, как книги Блекуэлла и Гиршика [9], Кендалла и Стьюарта [50], Кокса и Хинкли [54], Фергюссона [112], Рао [96] и ряд других — все перечислить невозможно), но они по духу и по подбору материала существенно отличаются от предлагаемой монографии. Наряду с известными результатами и подходами в настоящую книгу включены некоторые новые разделы, упрощающие изложение, ряд методологических улучшений, а также некоторые новые результаты и результаты, впервые публикуемые в монографической литературе. Ниже приводится краткое описание методологической структуры книги (см. также оглавление и краткие предисловия к каждой из глав). Глава 1 излагает основные результаты, связанные с понятиями выборки, эмпирического распределения и статистик. В § 1, 2 вводятся понятия выборки, эмпирического распределения и устанавливается теорема Гливенко-Кантелли, которую можно рассматривать как фундаментальный факт, составляющий основу статистических выводов. В §3 вводится два типа статистик (статистики I и II типов), включающие в себя подавляющее большинство практически интересных статистик. Эти статистики определяются как значения G(P*) функционалов G (удовлетворяющих некоторым условиям) от эмпирического распределения Р*. Класс рассматриваемых статистик расширен включением в него также так называемых L-, М- и [/-статистик. Позже, в § 7, 8, устанавливаются предельные теоремы о распределении этих статистик. Это разгружает последующее изложение и освобождает от необходимости для каждой конкретной статистики проводить очень схожие рассуждения, не относящиеся притом к самому предмету статистики.
Предисловие 13 В § 5 собраны вспомогательные теоремы (названные в книге теоремами непрерывности) о сходимости распределений статистик и о сходимости их моментов. Это также разгружает последующее изложение. В § 6 (он не обязателен при первом чтении) устанавливается, что эмпирическая функция распределения F£{t) есть условный пуассоновский процесс, и приводится формулировка теоремы (доказанной в приложении I) о сходимости процесса у/п (F*(t) — F{t)) к броуновскому мосту. В § 10 вводятся сглаженные эмпирические распределения, позволяющие приближать не только само распределение, но и его плотность. Глава 2 посвящена оценкам неизвестных параметров. В § 13 вводится единый подход к построению оценок, названный методом подстановки. Он состоит в том, что оценку Θ* для параметра 0, представимого в виде функционала θ = G(P) от распределения Ρ выборки, следует искать в виде Θ* = G(P*), где Р* -— эмпирическое распределение. Все «разумные» оценки, используемые на практике, являются оценками подстановки. Оптимальность оценки достигается путем выбора подходящего функционала G. Если статистика Θ* = G(P*) является статистической I или II типов, то теоремы главы 1 позволяют немедленно установить состоятельность этих оценок и их асимптотическую нормальность. В § 14, 15 этот подход иллюстрируется на оценках, полученных с помощью метода моментов и метода минимального расстояния. Там же доказаны состоятельность и асимптотическая нормальность М-оценок. С тех же позиций в § 16 рассматриваются и оценки максимального правдоподобия. Кроме того, установлена нижняя граница рассеивания М-оценок и доказана асимптотическая оптимальность оценок максимального правдоподобия в классе М-оценок. Более полное изучение асимптотических свойств оценок максимального правдоподобия проводится позже, в § 34, 34. В § 17 установлена нижняя граница рассеивания для L-оценок. Это дает возможность для параметра сдвига строить в явном виде асимптотически оптимальные L-оценки, асимптотически эквивалентные оценкам максимального правдоподобия. Сравнение оценок в главе 2 происходит на основе двух подходов: сред- неквадратического (сравниваются Е#(0* — Θ)2) и асимптотического (сравниваются дисперсии предельного распределения у/п (θ* — Θ) в классе асимптотически нормальных оценок). В качестве иллюстрации с помощью таких подходов строятся асимптотически оптимальные оценки в классе L-оценок. В параметрическом случае такие подходы позволяют выделить три типа оптимальных оценок: эффективные оценки в классах Кь с фиксированным смещением Ь, байесовские и минимаксные оценки. На основе тех же принципов выделяются классы асимптотически оптимальных оценок при асимптотическом подходе. Для построения эффективных оценок используются следующие традиционные методы: первый носит качественный характер и связан с принципом достаточности (§ 22-24); второй метод основан на количественных соотношениях, вытекающих из неравенства Рао-Крамера (§ 26); третий связан с соображениями инвариантности (§ 28, 29), позволяющими сузить класс рассматриваемых оценок. Отысканию асимптотически оптимальных оценок, а также изучению асимптотических свойств функции правдоподобия посвящены § 30-38. Параграф 30 содержит интегральное не-
14 Предисловие равенство типа Рао-Крамера, которое позволяет, в частности, получить простые критерии асимптотической байесовости и минимаксности оценок, а также обосновать выделение некоторого подкласса оценок Ко, которым следует ограничиться в поисках асимптотически эффективных оценок. Это позволяет путем изучения асимптотических свойств оценок максимального правдоподобия в § 34 сразу установить асимптотическую байесовость и минимаксность названных оценок и их асимптотическую эффективность в Ко. Параграфы 31-33 носят вспомогательный характер. Интервальное оценивание параметров рассматривается в §39, 40, 49 главы 3. Глава 3 посвящена проверке гипотез. В § 41, 42 рассматривается случай конечного числа простых гипотез. Выделяются (аналогично теории оценивания) три типа оптимальных критериев — наиболее мощные в подклассах, байесовские и минимаксные. Устанавливаются связи между этими критериями и находится их явный вид. При этом в основу рассмотрений положен байесовский принцип (а не лемма Неймана-Пирсона), что, на наш взгляд, упрощает изложение и делает его более прозрачным. В § 43 излагаются два асимптотических подхода к расчету критериев для проверки двух простых гипотез и производится их сравнение. В § 44 рассматривается общая постановка задачи о проверке двух сложных гипотез и определяются классы оптимальных критериев (равномерно наиболее мощные, байесовские, минимаксные). Параграф 45 посвящен отысканию равномерно наиболее мощных критериев в тех случаях, когда это возможно. В §46, 47 решается та же задача, но в классах критериев, суженных на основании соображений несмещенности и инвариантности. При этом в основу рассмотрений, как и в §41, 42, положен байесовский подход. В § 48 с помощью полученных результатов строятся наиболее точные доверительные множества. В § 49 рассматриваются байесовские и минимаксные критерии. Параграфы 50, 53 посвящены критерию отношения правдоподобия. Он оказывается равномерно наиболее мощным во многих частных случаях и обладает свойством асимптотической байесовости при весьма широких предположениях. Изучение свойств асимптотической оптимальности критерия отношения правдоподобия продолжено в § 55-57. В §51 установлена оптимальность этого критерия в задачах последовательного анализа. Параграфы 54, 55 посвящены отысканию асимптотически оптимальных критериев для проверки близких гипотез и найден их простой явный вид для основных статистических задач. Существенной особенностью первых трех глав является тот факт, что в них рассмотрены лишь статистические задачи, связанные с использованием одной выборки. Глава 4 книги, как уже отмечалось, посвящена задачам с двумя и более выборками. К ним относятся прежде всего задачи об однородности (полной или частичной, §59, 60), задачи регрессии (§61) и дисперсионного анализа
Предисловие 15 (§62). На основании результатов главы 3 для задач однородности в параметрическом случае построены асимптотически оптимальные критерии в предположении, что альтернативные гипотезы являются близкими к основной гипотезе об однородности. Для задач регрессии (как для линейной регрессии, так и для регрессии по произвольным функциям) с помощью результатов глав 2, 3 найдены эффективные оценки неизвестных параметров и построены критерии для проверки основных гипотез. Рассмотрены также так называемые задачи распознавания образов (§ 63), которые появляются в учебной литературе, по-видимому, впервые. Новая глава 5 «Статистика разнораспределенных наблюдений» по своей структуре во многом повторяет главу 2. Ее появление в настоящем издании вызвано тем, что в приложениях стало появляться все больше задач, связанных с неоднородными наблюдениями, типичным примером которых могут служить задачи нелинейной регрессии (но не только они). В то же время общие методы исследования таких задач были разработаны лишь фрагментарно, отсутствовало их систематическое изложение. Не претендуя ни в какой мере на то, чтобы полностью заполнить этот пробел, автор имел своей целью перенести на неоднородный случай основные результаты и подходы, изложенные в исходной книге для статистики однородных наблюдений. В § 64 приведен ряд типичных задач (некоторые из них представляют самостоятельный интерес), относящихся к статистике разнораспределенных наблюдений. Эти примеры в дальнейшем используются для иллюстраций и для более детального изучения. В § 65 излагаются основные методы построения оценок. В основном это метод М- и М-оценивания. На эти оценки переносятся основные результаты главы 2 о состоятельности и асимптотической нормальности этих оценок. В §66 с помощью результатов §65 устанавливаются асимптотические свойства оценок максимального правдоподобия (состоятельность, асимптотическая нормальность, асимптотическая оптимальность в классе М-оценок). В § 67 содержатся комментарии об использовании результатов, связанных с достаточными статистиками и экспоненциальными семействами в случае разнораспределенных наблюдений. В § 68 в качестве иллюстрации детально изучаются асимптотические свойства оценок параметров хвостов распределений. В § 69 рассмотрено обобщение на случай разнородных наблюдений неравенства Рао-Крамера и близких задач; § 70 посвящен обобщению (на тот же случай) результатов главы 2 об асимптотических свойствах оценок максимального правдоподобия (§33, 34). Перенос большинства результатов главы 3 на случай разнораспределенных наблюдений либо не требует подробных рассмотрений, либо основан на обобщениях результатов главы 2, упомянутых выше (комментарии по этому поводу см. в § 71). В § 72 изучается задача о разладке. Для нее найдены асимптотически оптимальные процедуры. Глава 6 посвящена общему теоретико-игровому подходу к задачам статистики. Он способствует выработке общего взгляда на предмет математической статистики и позволяет обобщить многие результаты глав 2, 3. В § 74 излагаются основные понятия и результаты «обычной» теории игр (рассматриваются лишь игры двух лиц). В частности, устанавливаются
16 Предисловие связи между основными типами оптимальных стратегий — байесовскими, минимаксными, равномерно наилучшими в подклассах. В § 75 изучаются статистические игры. В § 76 формулируется и доказывается так называемый байесовский принцип, который позволяет свести задачу отыскания байесовского статистического решения к значительно более простой задаче построения байесовской стратегии для обычной игры двух лиц. В § 77 обсуждаются принципы достаточности, несмещенности и инвариантности для построения решений, равномерно наилучших в соответствующих подклассах. Параграфы § 78-80 посвящены отысканию асимптотически оптимальных решающих правил. В § 78 изучаются асимптотически оптимальные оценки параметров при произвольной (не только квадратической) функции потерь. В этом случае удается установить результаты, близкие к результатам главы 2 об асимптотической оптимальности оценок максимального правдоподобия. В § 79, 80 изучаются асимптотически оптимальные критерии при произвольной функции потерь. В § 79 доказана асимптотическая байесовость критерия отношения правдоподобия; в § 80 установлен предельный признак оптимальности критериев для проверки близких гипотез (обобщение результатов § 54, 55 главы 3 на случай произвольной функции потерь). Из приложений выделим приложение VII, в котором найдены асимптотически оптимальные процедуры в задаче о разладке, и приложение VIII, в котором доказаны две фундаментальные теоремы теории статистических игр. Чтение приложений требует более высокой математической подготовки. Книга имеет многоцелевое назначение. В ее полном объеме она, конечно, ближе к программе кандидатского минимума по специальности «математическая статистика», чем к учебному пособию для студентов. Однако в книге предусмотрена система мер, упрощающих первое чтение, которая делает книгу доступной и для студентов. Параграфы повышенной трудности или «более продвинутые» по своему содержанию отмечены звездочкой, их следует при первом чтении опускать, как и текст, набранный петитом. Кроме того, изложение технически более сложного случая, относящегося к многомерному параметру, почти везде выделено в отдельные разделы и параграфы, которые также можно пропускать. Преподаватели вузов, уже знакомые хотя бы частично с предметом, могут выбирать из книги совокупность параграфов (вариантов может быть много), используя которые (не обязательно полностью) можно составить семестровый курс математической статистики. Вот один из вариантов: § 1, 3, 5 главы 1; § 12-14, 16-22, 24, 26 (31, 33, 34), 40, 49 главы 2; §41, 42, 44, 45, 52 (53, 56) главы 3. Параграфы, взятые в скобки, посвящены асимптотически оптимальным процедурам. Их следует в зависимости от подготовленности студентов либо максимально облегчить, либо опустить вовсе. Чтение книги предполагает знакомство с курсом теории вероятностей, например, в объеме учебника А.А. Боровкова [17]. (Возможно, конечно, использование и других источников.) Ссылки на эту книгу, в отличие от других ссылок, появляются в тех местах, которые предполагаются читателю известными, и служат, главным образом, для напоминаний. При этом мы будем использовать сокращенную запись этих ссылок. Например, вместо § 3 главы 13 в [17] мы будем писать [17, § 13.3].
Предисловие 17 Нумерация параграфов в книге сквозная; нумерация теорем, лемм, примеров и т. д. в каждом параграфе самостоятельная. Для удобства чтения используются разные системы для ссылок на теоремы, леммы, примеры, формулы и т. д. в зависимости от того, в каком параграфе они находятся. Если делается ссылка на теорему 1 или формулу (12) читаемого параграфа, то ссылки на них будут выглядеть так: теорема 1, формула (12). Если делается ссылка на теорему 1 и формулу (12) одного из предыдущих параграфов (например, §13), то ссылки будут иметь такой вид: теорема 13.1, формула (13.12). Значок < означает окончание доказательства. Разделы, помеченные звездочкой, при первом чтении можно опустить. Для удобства читателя в конце книги помещены список основных обозначений и предметный указатель. Написание этой книги было весьма трудным многоэтапным делом. Значительную помощь при подготовке первоначальных записок лекций к печати и по устранению недостатков в них мне оказал И.С.Борисов. Второй вариант рукописи прочел по моей просьбе К.А. Боровков, который представил мне длинный список полезных советов и замеченных им погрешностей. Он же существенно помог мне при «чистке» окончательного варианта рукописи. В поисках новой критики я обратился с просьбой ознакомиться с рукописью к А.И. Саханенко. Он также представил мне длинный список замечаний и предложений по улучшению изложения, многими из которых я воспользовался. Наиболее существенные изменения при этом коснулись доказательств в §26, 31, 33, 37 главы 2, §53-55 главы 3, приложениях II, IV, VIII (см. также библиографические замечания). Много ценных замечании, направленных на улучшение книги, было сделано Д.М. Чибисовым. Рукопись просматривали В.В. Юринский и А.А. Новиков и также сделали ряд полезных замечаний. Всем названным коллегам и всем тем, кто так или иначе помогал мне при работе над книгой, я хотел бы выразить здесь свою глубокую и искреннюю признательность и благодарность за их труд и содействие в написании книги. А. А. Боровков
Памяти моего учителя Андрея Николаевича Колмогорова посвящается ВВЕДЕНИЕ Настоящая книга посвящена изложению основ раздела математики, который называется математическая статистика. Последнюю для краткости называют иногда просто статистикой. Однако следует иметь в виду, что такое сокращение возможно лишь при достаточно хорошем взаимопонимании, поскольку сам по себе термин «статистика» соответствует часто несколько иному понятию. Что представляет собой предмет математической статистики? Можно приводить разные описательные «определения», которые в большей или меньшей степени отражают содержание этого раздела математики. Одно из самых простых и грубых основано на сравнении, связанном с понятием выборки из конечной генеральной совокупности и с задачей о гипергеометрическом распределении, которая обычно рассматривается в начале курса теории вероятностей. Зная состав генеральной совокупности, там изучают распределения для состава случайной выборки. Это типичная прямая задача теории вероятностей. Однако часто приходится решать и обратные задачи, когда известен состав выборки и по нему требуется определить, какой была генеральная совокупность (это делается, например, при социологических опросах общественного мнения). Такого рода обратные задачи и составляют, образно говоря, предмет математической статистики. Несколько уточняя это сравнение, можно сказать так: в теории вероятностей мы, зная природу некоторого явления, выясняем, как будут вести себя (как распределены) те или иные изучаемые нами характеристики, которые можно наблюдать в экспериментах. В математической статистике наоборот — исходными являются экспериментальные данные (как правило, это наблюдения над случайными величинами), а требуется вынести то или иное суждение или решение о природе рассматриваемого явления. Таким образом, мы соприкасаемся здесь с одной из важнейших сторон человеческой деятельности — процессом познания. Тезис о том, что «критерий истины есть практика» имеет самое непосредственное отношение к математической статистике, поскольку именно эта наука изучает методы (в рамках точных математических моделей), которые позволяют отвечать на вопрос, соответствует ли практика, представленная в виде результатов эксперимента, данному гипотетическому представлению о природе явления или нет. При этом необходимо подчеркнуть, что, как и в теории вероятностей, нас будут интересовать не те эксперименты, которые позволяют делать однозначные, детерминированные выводы о рассматриваемых в природе явлениях, а эксперименты, результатами которых являются случайные события. С развитием науки роль такого рода задач постоянно возрастает, поскольку с увеличением точности экспериментов становится все труднее избежать «случайного фактора», связанного с разного рода помехами и ограниченностью наших измерительных и вычислительных возможностей.
Введение 19 Математическая статистика является частью теории вероятностей в том смысле, что каждая задача математической статистики есть по существу задача (иногда весьма своеобразная) теории вероятностей. Однако сама по себе математическая статистика занимает и самостоятельное положение в табеле о науках. Математическая статистика может рассматриваться как наука о так называемом индуктивном поведении человека (и не только человека) в условиях, когда он должен на основании своего недетерминированного опыта принимать решения с наименьшими для него потерями*). Математическую статистику называют также теорией статистических решений, поскольку ее можно характеризовать как науку об оптимальных решениях (последние два слова требуют пояснения), основанных на статистических (экспериментальных) данных. Точные постановки задач будут даны позже, в основном тексте книги. Здесь же мы ограничимся тем, что приведем три примера наиболее простых и типичных статистических задач. Пример 1. Для многих изделий одним из основных параметров, которым характеризуется качество, является срок службы. Однако срок службы изделия (скажем, электролампы), как правило, случаен, и заранее определить его невозможно. Опыт показывает, что если процесс производства в известном смысле однороден, то сроки службы ξι, ξ2,· ■ · соответственно 1-го, 2-го и т. д. изделий можно рассматривать как независимые одинаково распределенные величины. Интересующий нас параметр, определяющий срок службы, естественно отождествить с математическим ожиданием θ = Εξ;. Одна из стандартных задач состоит в выяснении, чему равно Θ. Для того чтобы определить это значение, берут η готовых изделий и проверяют их. Пусть χι,Χ2,.. .,хп — сроки службы этих проверенных изделий. Мы знаем, что ι п П ^—' п.н. г=1 1 п при η -* оо. Поэтому естественно ожидать, что число χ = ~~/\]х* ПРИ г=1 достаточно большом η окажется близким к θ и позволит в какой-то мере ответить на поставленные вопросы. При этом очевидно, что мы заинтересованы в том, чтобы требуемое число наблюдений η было по возможности наименьшим, а наша оценка числа θ по возможности более точной (завышение параметра 0, как и его занижение, приведут к материальным потерям). Пример 2. Радиолокационное устройство в моменты времени t\, t^ ... .. .,£п зондирует заданную часть воздушного пространства с целью обнаружения там некоторого объекта. Обозначим через χι,...,χη значения отраженных сигналов, принятых устройством. Если в заданной части пространства интересующий нас объект отсутствует, то значения Х{ можно рассматривать как независимые случайные величины, распределенные так же, как некоторая случайная величина ξ, природа которой обусловлена характером различных помех. Если же в течение всего периода наблюдений объект находился в поле зрения, то х; будут наряду с помехами содержать «полезный» сигнал о, и значения х; будут распределены как ξ + α. Таким образом, если *) Подробнее об этом см. в [72].
20 Введение в первом случае наблюдения х^ имели функцию распределения F(x), то во втором случае их функция распределения будет иметь вид F(x — а). По выборке χι,.. .,хп требуется решить, какой из этих двух случаев имеет место, т. е. существует в заданном месте интересующий нас объект или нет. В этой задаче окажется возможным указать в известном смысле «оптимальное решающее правило», которое будет решать поставленную задачу с минимальными ошибками. Сформулированная задача может быть усложнена следующим образом. Сначала объект отсутствует, а затем, начиная с наблюдения с неизвестным номером 0, появляется. Требуется по возможности более точно определить момент θ появления объекта. Это так называемая задача о разладке, имеющая и целый ряд других интерпретаций, важных для приложений. Пример 3. Некоторый эксперимент производится сначала щ раз в условиях А и затемп^ раз в условиях В. Обозначим через χι,...,хП1 иу1г..,уП2 результаты этих экспериментов соответственно в условиях А и В. Спрашивается, сказывается ли изменение условий эксперимента на его результатах? Иными словами, если обозначить через Ρ а распределение х^, 1 ^ г ^ ηχ, и через Рв — распределение yi? 1 ^ г ^ П2, то вопрос состоит в том, выполнено соотношение Рд = Рв или нет. Например, если нужно установить, влияет ли некоторый препарат на развитие, скажем, растении или животных, то параллельно ставятся две серии экспериментов (с препаратом и без), результаты которых необходимо уметь сравнивать. Часто возникают и более сложные задачи, когда аналогичный вопрос ставится для многих серий наблюдений, проведенных в различных условиях. Если результаты наблюдений зависят от условий, то бывает необходимым проверить тот или иной характер этой зависимости (так называемая задача о регрессии). Список примеров типичных статистических задач, разных по сложности и по своему существу, можно было бы продолжить. Однако общими для всех них будут следующие два обстоятельства. 1. Перед нами не было бы никаких проблем, если бы распределения результатов наблюдений, которые фигурируют в задачах, были нам известны. 2. В каждой из этих задач мы должны по результатам экспериментов принимать какое-то решение относительно распределения имеющихся наблюдений (отсюда и название «Теория статистических решений», упоминавшееся выше). В связи с этими двумя замечаниями принципиальное значение для всего дальнейшего и, в частности, для решения приведенных в качестве примеров задач, приобретает следующий факт. Оказывается, по результатам наблюдений χι,.. .,хп над некоторой случайной величиной ξ можно при больших η сколь угодно точно восстановить неизвестное распределение Ρ этой случайной величины. Аналогичное утверждение справедливо и для любого функционала θ = Θ(Ρ) от этого неизвестного распределения. Этот факт лежит в основе математической статистики. Ему и более точным постановкам задач будет посвящена глава 1.
Глава 1 ВЫБОРКА, ЭМПИРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ· АСИМПТОТИЧЕСКИЕ СВОЙСТВА СТАТИСТИК В § 1-4 вводятся понятия выборки и эмпирического распределения и рассматриваются их простейшие свойства, главным образом, асимптотические, лежащие в основе математической статистики. В §5 излагаются так называемые теоремы непрерывности (о сходимости распределений функций от последовательностей случайных величин), используемые на протяжении всей книги. Параграфы 6-10 посвящены более тонким асимптотическим свойствам эмпирических распределений и изучению предельных распределений для основных типов статистик. § 1· Понятие выборки Исходным материалом любого статистического исследования является совокупность результатов наблюдений. В простейших случаях они представляют собой экспериментальные (полученные в результате опытов) значения некоторой случайной величины ξ. Мы уже отмечали, что в задачах статистики распределение Ρ этой случайной величины хотя бы частично неизвестно. Точнее, пусть G — эксперимент, связанный со случайной величиной ξ. Формально для этого эксперимента со случайной величиной ξ мы должны построить математическую модель, в которую входит вероятностное пространство (Χ, ©,ν,Ρ), и задать на нем подходящим образом измеримую функцию, которая и называется случайной величиной ξ (см. [17]). Пространство (X, ЯЗ;г,Р), не ограничивая общности, можно считать «выборочным» (см. [17]), т.е. считать, что X есть пространство значений ξ(χ) = χ. В этом случае Ρ можно называть распределением ξ. Если ξ — числовая случайная величина, то X есть числовая прямая К; если ξ — вектор, то X = Km5 m > 1. В дальнейшем мы, как правило, и будем иметь в виду только эти два случая, т. е. под X понимать R (одномерный случай) или Мт, т > 1 (многомерный случай). В качестве 93χ чаще всего выбирают σ-алгебру борелевских множеств. В то же время следует отметить, что многие результаты книги, особенно в главах 2-6, вообще никак не связаны с природой выборочного пространства X, поскольку там рассматриваются не сами наблюдения, а функции от них со значениями в R или IRm, m > 1. Если заранее известно, что Ρ сосредоточено на части В Ε ΐ&χ пространства X, то может оказаться удобным под X понимать В, а под *Βχ — сужение σ-алгебры 93 д* на В.
22 Гл. 1. Выборка. Эмпирическое распределение Рассмотрим η независимых повторений эксперимента G (см. [17, § 1.3]) и обозначим через χχ,.. .,хп совокупность полученных наблюдений. Вектор Хп — (ХЬ · · ·)χη) называется выборкой объема η из совокупности с распределением Р. Иногда используются укороченные или более полные варианты этого термина: выборка из распределения Ρ или простая выборка объема η из генеральной совокупности с распределением Р. Символически соотношение «Хп есть выборка из распределения Р» будет записываться с помощью знака €= следующим образом: Хп €= Р. (1) Такого рода запись будет использоваться нами и для других случайных величин. Например, соотношение ξί= Ρ (2) будет означать, что ξ имеет распределение Р. Такое использование символа €= находится в соответствии с (1), поскольку последнее определено для любого п, в частности для η = 1. Если ξ и η есть две случайные величины (вообще говоря, заданные на разных пространствах) с одинаковыми распределениями, то этот факт будем обозначать ξ = τ/, так что если Хп и Yn есть две выборки одинакового объема d из распределения Р, то можем писать Хп = Yn. d В правых частях (1), (2) вместо распределения Ρ иногда может стоять функция распределения, соответствующая Р. Так что если F(x) = = Р((—оо,х)), то запись Xn^F будет тождественна с (1). Само понятие «выборки из генеральной совокупности» встречается также при рассмотрении простейших вероятностных моделей, связанных с извлечением шаров из урны в классическом определении вероятности (см. [17, §1.2]). Следует отметить, что введенное выше определение выборки находится в полном согласии с этим понятием, введенным ранее, и по существу совпадает с ним. Если х^ (или случайная величина ξ) могут принимать лишь s значений αχ,.. .,α5 и вероятности этих значений рациональны, т.е. ρ(ξ = «,·) = $, Σ>, = ;ν, то выборку Хп можно представить как результат «выборки с возвращением» (в смысле [17, § 3.2]) из урны с N шарами, из них на N\ шарах написано αχ, на Л^2 шарах написано аг и т. д. Как математический объект выборка X = Хп (индекс п мы часто будем опускать) есть не что иное, как случайная величина (χχ,.. ·,χη) со значениями в «n-мерном» пространстве Xй — Χ χ Χ χ •••хЛ'и распределением,
§ 1. Понятие выборки 23 определяемым для В = В\ χ Въ χ · - · χ Βη, Bj Ε *Βχ равенствами η ρ(Χ ε В) = Р(Х1 е Si,.. ,χη е вп) = JJ р(х* е я*), (з) Другими словами, распределение Ρ на Хп есть η-кратное прямое произведение заданных «одномерных» распределений. Относительно обозначений для распределения Ρ и других будем придерживаться следующих соглашений, которые мы отчасти уже использовали в (3) и которые нигде не приведут нас к недоразумениям. 1. Мы будем использовать один и тот же символ (в частности, Р) для распределений в (Χ,ΐβχ) и для прямого произведения этих распределений в (Л"\933>) (см. (3)), где 05^ — σ-алгебра борелевских множеств в Χν. Различие будет определяться лишь аргументом функции Р. 2. Вероятность попадания величины X в множество Л, скажем, из 93^, нам иногда будет удобно обозначать через Ρ (В), а иногда через Р(Х Ε В). Это одно и то же в силу того, что Хп есть выборочное пространство для X. 3. Наконец, символ Ρ будем использовать для обозначения общего понятия вероятности (т.е. для вероятности, относящейся к каким-то другим случайным величинам без конкретизации вероятностного пространства). В силу (3) можем рассматривать выборку X как элементарное событие в выборочном вероятностном пространстве (#,93^, Р) (см. [17, §3.5]). Отметим, что относительно выборки X будем допускать двойственное толкование этого обозначения и объекта: как случайной величины и как вектора реальных числовых данных, полученных в фактически осуществленных экспериментах. Как показывает опыт, такое двойное толкование вполне приемлемо и не приводит к недоразумениям, хотя и допускает одновременное существование записей вида Ρ(χχ < ί) = F(t) и вида χχ = 0,74, х2 = 0,83 и т.д. Отметим также, что координаты х; выборки X мы обозначаем «прямыми» буквами х, оставляя «наклонные» буквы χ для обозначения переменных величин. Вектор (χχ,. ..,xn) Ε Хп, хг Ε Χ, мы будем обозначать полужирными буквами χ = (χχ,.. .,χη)· Выборка является основным исходным объектом в задачах математической статистики. Однако на практике ее элементы χχ, хг,..- далеко не всегда являются независимыми. В своих рассмотрениях мы также не будем исключать такой возможности. Чтобы при этом не делать дополнительных оговорок, мы в случае зависимых наблюдений будем считать, что имеем дело с выборкой объема η = 1, а наблюдения представляют собой координаты вектора χχ (ведь природа пространства X произвольна). В следующих рассмотрениях нам часто придется иметь дело с выборками Хп неограниченно возрастающего объема п. В таких случаях удобно предполагать, что задана выборка Хоо = (χχ,Χ2, · · ·) бесконечного объема, а X = Хп есть совокупность ее первых η координат. Под выборкой бесконечного объема Хоо мы будем понимать элемент выборочного вероятностного пространства (A'oo,03;j?,P), где Х°° — пространство последовательностей (#ъ^2,.. .); сг-алгебра 05^ порождена множествами f] {χι Ε 5г}, В{ Ε 93χ, Ν = 1,2,...; распределение Р обладает свойством (3). По теореме Колмогорова [17] такое распределение всегда существует. Стало быть, предположение
24 Гл.1. Выборка. Эмпирическое распределение о существовании выборки Х^ бесконечного объема никак не ограничивает общность. Саму бесконечную последовательность (бесконечную выборку) Xqq в рассмотрениях, носящих теоретико-вероятностный характер, можно трактовать как элементарное событие (ср. с [17]). В тех случаях, когда нам нужно будет понимать Хп как подвектор -Хоо, мы будем писать где [·]η — оператор проектирования из Х°° в Хп, определенный очевидным образом. В соответствии с предыдущим запись *оо€= Ρ будет означать, что Xqq есть выборка бесконечного объема из распределения Р. Если возникает необходимость особо отметить тот факт, что речь идет о распределении в (Л^°°,23^) (или (Х71,^7^) при п<оо), а не в (Л\ Ъх), то будем использовать также обозначение Р°° (Рп). Сохранение верхних индексов ос и η во всем тексте привело бы к громоздким обозначениям. § 2. Эмпирическое распределение (одномерный случай) Пусть дана выборка X = (xi,...,xn) Ε Ρ, χ* Ε Χ = Ш. Рассмотрим вещественную прямую М с сг-алгеброй борелевских множеств 03 и дискретное распределение Р* на (К, 93), сосредоточенное в точках χχ,.. ,,хп, для которого вероятность значения х* полагается равной 1/п. Другими словами, для любого В £ 23 по определению К(В) = *&, (1) Π где и {В) — число элементов выборки X, попавших во множество В. Распределение Р* называется эмпирическим распределением, построенным по выборке X (или соответствующим выборке X). Его можно представить также в следующем виде. Пусть 1Х(В) — распределение, сосредоточенное в точке х: «*>={£ %% η тогда, очевидно, и {В) = У^1Х.(2?), = 1 *η{Β)=1~ΣΚ{Β). (2) <=1 η г=1 Ясно, что Ρ* (β) для любого борелевского В как функция от выборки есть случайная величина. Таким образом, мы имеем здесь дело со случайной функцией множеств, или со случайным распределением. Предположим теперь, что Хоо €=Р, Хп = [Хоо]п и га —>· оо. Мы получим тогда последовательность эмпирических распределений Р*. Замечательный
§ 2. Эмпирическое распределение (одномерный случаи) 25 факт состоит в том, что эта последовательность неограниченно сближается с исходным распределением Ρ наблюдаемой случайной величины. Этот факт имеет принципиальное значение для всего последующего изложения, поскольку он показывает, что неизвестное распределение Ρ может быть сколь угодно точно восстановлено по выборке достаточно большого объема. Теорема 1. Пусть В Ε 23 и Хп — [Χοο]η €=Ρ· Тогда при η —» оо К(в) ^ р(в). Сходимость с вероятностью 1 здесь имеется в виду относительно распределения Ρ = Р°° в (М00,©00,?). Предположение Хп = [Хоо] нужно нам для того, чтобы случайные величины Р^(-В) были заданы на одном вероятностном пространстве. Доказательство. Обратимся к определению (2) и заметим, что IXi{B) есть независимые одинаково распределенные случайные величины, Е1Х.(В) = P(IXi(B) = 1) = Ρ(χϊ е В) = Ρ {В). Так как Έ>*η{Β) есть среднее арифметическое этих величин, то остается воспользоваться усиленным законом больших чисел. < Теорема 1 устанавливает сходимость Р£(-5) и Р(-В) в каждой «точке» В. Однако имеет место и более сильное утверждение о том, что такая сходимость в известном смысле равномерна по В. Обозначим через 3 совокупность множеств 5, являющихся полуинтервалами вида [а, Ь) с конечными или бесконечными концами, и предположим опять, что Хп = [Хоо]п- Теорема 2 (Гливенко-Кантелли). sup|P;(B)-P(B)|—>0. Собственно, с именами Гливенко и Кантелли связано несколько иное утверждение, относящееся к важному понятию эмпирической функции распределения. По определению это есть функция распределения, соответствующая Р*. Другими словами, эмпирической функцией распределения F£{x) называется функция F:(x) = P*n((-oo,x)). Величина nF*(x) равна числу элементов выборки, которые меньше, чем х. В реальных условиях для построения F£{x) часто используют следующую процедуру. Элементы выборки (χι,...,χη) упорядочивают по возрастанию, т. е. образуют из нее последовательность х(1) < х(2) ^ · < х(п)> которая называется вариационным рядом. Тогда можем положить к Fn(x) = ~ при χ Ε (x(*),X(*+i)], где к пробегает значения от 0 до п, Х(0) = —оо, Χ(η+ΐ) = °°· Очевидно, F£{x) представляет из себя ступенчатую функцию, имеющую скачки величиной 1/го в точках Хг, если все х; различны.
26 Гл.1. Выборка. Эмпирическое распределение Пусть F(x) = Р((—оо, ж)) есть функция распределения ξ (или, что то же, χι) и Χη = [-Χ"οο]η· Теорема Гливенко-Кантелли состоит в следующем. Теорема 2А. При η —> оо 8υΡ^η*(χ)-^(χ)|-4θ. χ Π·Η· Ниже индекс η у обозначений F* мы будем опускать и писать просто F*. Доказательство теоремы 2А. Предположим сначала для простоты, что функция F непрерывна. Пусть ε > 0 — произвольно малое заданное число такое, что число N = l/ε целое. Так как F непрерывна, то можно указать числа zq = — оо, z\,.. .,гдг_1, ζχ = оо такие, что F(*0) = 0, F(*i) = е = ^, · · ·, ^Ы = ке = -, ..., F(zn) = 1. При 2 G [zjt,zjt+i) справедливы соотношения F*(z) - F(z) < F*(zfc+1) - F(zk) = F*(zk+1) - F(zk+1) + ε, F*{z) - F{z) > F*(zk) - F(zk+1) = F*(zk) - F{zk) -ε. U Обозначим через А^ множество элементарных событий ω = Xqq, на которых F*(zk) -> F(zic). По теореме 1 Р{А^) = 1. Стало быть, для каждого ω G А = лг = IJ -Ajt найдется n(cj) такое, что при всех η ^ η(ω) будет выполняться А;=0 |F*(zfc)-F(zfc)|<e, k = 0,l,...,N. (4) Но вместе с (3) эти неравенства влекут за собой sup \F*(z) - F(z)\ <2ε. (5) Ζ Итак, это соотношение имеет место для произвольного ε > О, всех ω Ε А и всех достаточно больших η ^ η(ω). Так как 'Р(А) = 1, то теорема для непрерывной функции F доказана. Для произвольной функции F(x) доказательство происходит совершенно аналогично. Надо лишь воспользоваться следующим обстоятельством: для любой F(x) существует конечное число точек — оо = zq < z\ < ■ · · < ζ^-ι < < ζм — оо таких, что F(zk+l)-F(zk+0)^e, k = 0,l,...,N-l (6) (для определенности можно считать, что множество {zj} содержит все точки скачков F, по величине больших, чем, например, ε/2). Совершенно аналогично (3) получаем, что при ζ Ε (ζ^,ζ^+ι] F*{z) - F{z) < F*(zk+1) - F{zk+l) + ε, F*(z) - F(z) > F*(zk + 0) - F(zk + 0) - ε. U
§ 2. Эмпирическое распределение (одномерный случай) 27 К множествам А^, которые определяются как прежде, добавим множества AjJ", k = 0,1,..., iV, на которых F*(z^ + 0) -> F(zfc + 0). Тогда по теореме 1 N Р{Ак) = Р(А^) = 1, и на множестве А = f) А*л4£, Р(А) = 1, при ДОСта- А^О точно больших η ^ η(ω) будет справедливо (4), а также неравенства \F*(zk + 0) - F(zA + 0)| < ε, А; = 0,1,.. , Ν. Вместе с (7) эти неравенства влекут за собой (5). < Теорема 2А является частным случаем теоремы 2, так как множества (—οο,χ) принадлежат 3; с другой стороны, теорему 2 нетрудно получить в качестве следствия теоремы 2А, поскольку для В = [а, 6) \К(В) - Р(В)\ < \К(Ь) - F(b)\ + \F*(a) - F(a)\, и, стало быть, sup\K(B) ~ Р(В)| < sup[|Fn*(b) - F(b)\ + \F*(a) - F(a)\] —► 0. Bed ajb Π·Η· Замечание 1. Нетрудно видеть, что такого же рода рассуждения позволяют нам в качестве совокупности множеств 3 в теореме 2 брать совокупности интервалов (а, 6), отрезков [а, 6] и их конечных (в числе не более некоторого Ν) объединений. С другой стороны, если в качестве 3 в теореме 2 взять достаточно богатый класс множеств, то утверждение теоремы перестает быть верным. Например, если 3 содержит объединения любого конечного числа интервалов, то множество Bn = U (Х* ~ ~2^ Хк + ~2 ) Ε α' Ρη(Βη) = 1, А;=1 ^ П П ' а для равномерного на [0,1] распределения P(i?n) < 2/п, так что suP|p;(b) - р(в)| ^ р;(в„) - р(вп) -> ι. вез В заключение этого параграфа отметим, что представление (2) позволяет получить для Р* и более точные теоремы об асимптотическом поведении, чем теоремы типа Гливенко-Кантелли (эти результаты будут представлены в §4, 6). Чтобы проиллюстрировать возможности, которые здесь есть, на- 71 помним, что yjlxi(i?) в (2) есть сумма независимых одинаково распреде- ленных случайных величин в схеме Бернулли, EIXi(B)=P(IXi(B) = l)=P(B), тЦв) = р(в), mXi(B) = p(b)(i - р(в)). Поэтому из центральной предельной теоремы немедленно вытекает следующее утверждение.
28 Гл.1. Выборка. Эмпирическое распределение Теорема 3. P£(i?) представило в виде Р*п(В) = Р(В) + ζ-^ψ-, (8) 1 n где распределение ζη(Β) = —^=)(1Х.(В)-Р(В)) сходится к нормальному распределению с параметрами (0,P(i?)(l — Р(1?))). Дальнейшее изучение Р£(5) в этом направлении содержится в § 6. Более точные теоремы о сходимости с вероятностью 1 см. в § 4. § 3. Выборочные характеристики. Основные типы статистик 1. Примеры выборочных характеристик. Выборочными характеристиками называют обычно различные измеримые функционалы от эмпирического распределения или, другими словами, функции от выборки, которые предполагаются измеримыми. Наиболее простые среди них — выборочные (или эмпирические) моменты. Выборочным моментом порядка к называется значение J ηί=ι Выборочный центральный момент порядка к равен а? = а*к°(Х) =/"(*- <)kdK(x) = Ι Σ> " <)к. J n i=i Для выборочных моментов а* и а™ в литературе распространены специальные обозначения χ и S2: В статистических задачах используются самые различные выборочные характеристики. Например, выборочная медиана ζ* — это среднее значение вариационного ряда, т.е. значение ζ* = X(m), если η = 2га — 1 (нечетно), и ζ* = (x(m) + X(m+1))/2, если η = 2га (четно). Напомним, что медианой ζ непрерывного распределения Ρ называется решение уравнения Ρ(ζ) = 1/2. Более общим понятием является понятие квантили ζρ порядка р. Это число, для которого F((p) = р. Так что медиана есть квантиль порядка 1/2. Если F имеет точки разрыва (дискретную компоненту), то это определение теряет смысл. Поэтому в общем случае будем пользоваться следующим определением. Квантилью ζρ порядка ρ распределения Ρ называется число ζρ = sup {x : F(x) <p}. Как функция от р квантиль ζρ есть не что иное, как функция F~1(p), обратная к F(x).
§ 3. Выборочные характеристики 29 Такое определение ζρ (или F~l(p)), в отличие от предыдущего, очевидно, имеет смысл для любых F{x). Ясно, что наряду с выборочными медианами можем рассматривать выборочные квантили ζ* порядка р, равные по определению значению Х(/), где / = [пр] + 1, Х(д.) — члены вариационного ряда для выборки Х) к = 1,.. .,п. Для ρ = 1/2 мы сохраним определение ζ* = ζ*/2, данное выше (оно совпадает с приведенным лишь при нечетных п). 2. Два типа статистик. Пусть дана измеримая функция S от η аргументов. Выборочная характеристика S(X) = S(xi,.. .,хп) часто называется также статистикой. Из сказанного выше ясно, что любая статистика есть случайная величина. Ее распределение полностью определяется распределением Ρ {В) = Ρ(χι Ε В) (напомним, что S(X) можно рассматривать как случайную величину, заданную на (#n,Q3^,P), где Ρ — η-кратное прямое произведение одномерных распределений χι). Мы выделим здесь два класса статистик, которые часто будут встречаться в дальнейшем. Они будут построены с помощью следующих двух видов функционалов G(F) от функций распределения F. I. Функционалы вида G(F)=hl I g(x)dF(x) где g — заданная борелевская функция, h — функция, непрерывная в точке а = / g(x) dFo(x), где Fq такова, что X €= F0. II. Функционалы G(F), непрерывные в «точке» Fq в равномерной метрике: G(F^) -> G{F0), если sup \fW(x) - ад| -> о, носители*) рас- х пределений принадлежат носителю Fo. Здесь Fo опять есть функция, для которой X €= Fo· Соответствующие классы статистик мы определим с помощью равенства s(x) = g{f:), где F* — эмпирическая функция распределения. Мы получим тогда: I. Класс статистик I типа, представимых в виде S(X) = h (/ д(х) dFn*(s)) = h (^ J2g(xi) J . Очевидно, все выборочные моменты имеют вид аддитивных статистик 1 п — 2_.9{хг) и относятся к статистикам I типа. г=1 ') Носитель Nf распределения Ρ с функцией распределения F есть множество, для которого Ρ(Νρ) = 1.
30 Гл. 1. Выборка. Эмпирическое распределение II. Класс статистик, которые будем называть статистиками II типа или статистиками, непрерывными в точке Fq. Ясно, что, например, выборочная медиана будет непрерывной статистикой в точке F, если существует медиана ζ, F(() = 1/2, и F непрерывна и строго возрастает в точке ζ. Принадлежность функционалов одному из названных классов, конечно, не является альтернативной. Функционал G(F) может не принадлежать ни одному из этих классов или принадлежать обоим сразу. Например, если G есть функционал I типа, носитель F сосредоточен на отрезке [a, b] {F(a) = 0, F(b) = 1), а функция g имеет ограниченную вариацию на [а, 6], то G будет одновременно функционалом II типа, так как в этом случае функционал о j g(x) dF(x) = g(b) - j F{x) dg(x) непрерывен относительно F в равномерной метрике. Сказанное означает, что статистики I типа χ и 52 будут также статистиками II типа, если X €= Ρ и Ρ сосредоточено на конечном интервале. Статистики вида G(F*) иногда называют также статистическими функциями. Их систематическое исследование было начато фон Мизесом (см. [75, 76, 115]). Теоремы 2.1 и 2.2 можем дополнить здесь следующим утверждением о п. н. сходимости выборочных характеристик. Теорема 1. Пусть, как и прежде, Хп = [Xoo]n^F. Тогда если S(X) = G(F*) есть статистика I или II типа, то при η —> оо G(F;) -► G(F). Здесь предполагается, конечно, что значение G(F) существует. Таким образом, выборки большого объема позволяют оценивать не только само распределение Р, но и функционалы от этого распределения — по крайней мере те, которые принадлежат одному из названных в теореме классов. Доказательство утверждения для обоих классов статистик почти очевидно. Пусть, например, G(F) = h Ι / g(x)dF(x) J . Тогда S = S(X)= i9(x)dF*{x) = ^g(xi) J n i=i есть сумма независимых случайных величин с математическим ожиданием Eg(xi)= fg{x)dF(x). Поэтому по усиленному закону больших чисел S —> Ε<?(χι). Пусть теперь А = {Хоо : S(X) -> ΕίΚχι)}. Тогда Р(А) = 1, и если Хоо € А, то S(X) -> —> E<?(xi)) h(S(X)) —> /ι(Ε<?(χι)). Другими словами, на множестве А G(F*) -> G(F).
§ 3. Выборочные характеристики 31 Утверждение теоремы для функционалов второго типа есть прямое следствие теоремы Гливенко-Кантелли. < Из теоремы вытекает, что абсолютные и центральные выборочные моменты п. н. сходятся при η -> оо к соответствующим моментам распределения Р: 4 = 4(x) = ^i^.E^ 1=1 ι п a? = a*k°(X) = - 2>i - х)* гт> Ε(χι - EXl)\ П ^ ' π.η. В частности, г=1 Таким образом, мы установили важный факт, имеющий для нас принципиальное значение: эмпирическое распределение и широкий класс функционалов от него с ростом объема выборки неограниченно сближаются с соответствующими «теоретическими» значениями. 3. L-статистики. Так называются статистики, являющиеся линейными комбинациями членов вариационного ряда или функций от них: Здесь функция д и коэффициенты φη^ заданы. Очевидно, что все выборочные квантили являются L-статистиками. Если положить φη{ί) = φη % при t Ε ( , — ) , то статистику Sn(X) \ η η J можно представить в виде 1 Sn(X) = JtpnMF-Htfidt, (1) о где F~l — обратная функция к эмпирической функции распределения F*. Если φη(ΐ) сближается при η —> сю в подходящем смысле с функцией (p(t), то естественно ожидать, что Sn(X) будет близко к статистике G(F^), где ι G(F) = J<p(t)g(F-l(t))dt = J<p(F(u))g(u)dF(u). (2) о Очевидно, что G(F*) есть L-статистика при φη^ = φ ( ] . Считая на время, что F*(u) непрерывна справа (это предположение ничего не меняет
32 Гл. 1. Выборка. Эмпирическое распределение в последующих доказательствах), получим несколько более удобную запись ψη г — φ ( ~~ ) · Представление (2) доставляет весьма широкий «регулярный» выбор для коэффициентов φη^ в определении Sn(X). Поэтому, чтобы избежать технических осложнений, ограничимся в дальнейшем рассмотрением L-статистик вида G(F*), построенных на основании функционала G, определенного в (2). Отметим, что выборочная квантиль порядка ρ и крайние значения вариационного ряда Х(х) и Х(п) являются L-статистиками вида (1), для которых φη{ί) сходятся при η —> ос к (S-функциям Дирака. В дальнейшем будем предполагать, как правило, что φ(ί) в (2) является «обычной» (не обобщенной) функцией. Так как функции φ и g в представлении (2) определены неоднозначно (с точностью до постоянных множителей, произведение которых равно еди- 1 нице), то можно фиксировать значение φ$ = I ip(t) dt. О Запись (2) показывает, что статистики I типа при h(x) = χ являются L-статистиками, а L-статистики при φ = 1 являются статистиками I типа. 4. М-статистики. Пусть ψ{χ,θ) — некоторая функция Χ χ Шк —> R. Рассмотрим функционал G(F), который определяется как точка максимума по θ функции ,φ(χ.θ)1Ρ(άχ). Μ-статистикой (или Μ-оценкой) называется значение Θ* = G(F£) или, что то же, точка #*, в которой достигается шахУ^^(хг,^) — шахη / ψ{χ,θ) dF^(x). (3) Если точек максимумов несколько, то любая из них является М-оценкой. Часто используется и несколько иное (более регулярное в известном смысле) определение. Μ-статистикой (М-оценкой) называется решение уравнений 5>(χ,,0) = ο, (4) где #, как и ψ, есть некоторая заданная функция на X х Шк. Кроме того, термин М-статистика будем использовать иногда и как собирательный, включающий в себя оба вида упомянутых выше М- и М-статистик. Если функция ψ в (3) дифференцируема по 0, то очевидно, что М-статистика (в смысле определения (3)) будет М-статистикой (в смысле определения (4) при замене в (4) g производной ф1 по Θ). При этом определение (4) может добавлять «ненужные» значения #*, в которых достигаются локальные экстремумы. Более подробно М-статистики будут изучены в главе 2. Они играют важную роль в теории асимптотически оптимальных оценок.
§ 4. Многомерные выборки 33 5· О других статистиках. Имеют распространение и некоторые другие «собирательные» классы статистик такие, например, как ίΖ-статистики, построенные на основе функционалов G{F) = h(xi,...,xm)P(dxi)...P(dxm), 1 ^ т < га, где h — симметрическая функция, называемая иногда ядром функционала. U-статистикой называется статистика G{F;)=n-mJ2h(x4,...,xim), где суммирование ведется по всем ii,..., im между 1 и гг. Очевидно, что выборочные моменты являются [/-статистиками. Почти все встречающиеся в приложениях статистики принадлежат одному из названных выше классов. С другой стороны, асимптотическое поведение распределений статистик для каждого из этих классов может быть изучено весьма полно. Результаты в этом направлении будут изложены в § 7, 8 и в главе 2. § 4. Многомерные выборки 1. Эмпирические распределения. Совершенно аналогичным образом выглядят построения эмпирического распределения и выборочных характеристик в многомерном случае, когда наблюдаемая случайная величина ξ, а вместе с ней и выборочные значения χι,...,χη есть векторы размерности т > 1: χ*; = (xfc,i·. .,Xfc,m)· Здесь Έ*(Β) = Ρ(ξ £ В) есть распределение в X = Rm, а выборочным пространством здесь будет (Α^,Ώ^,Ρ), где Ρ есть η-кратное прямое произведение распределений Ρ в (Km,53^ = 23д)· Обозначение X €= Ρ полностью сохраняет свой смысл. Эмпирическое распределение Р* по выборке X строится, как и раньше, как дискретное распределение с массами величины \/п в точках χι,..., хп, так что вд-^—Ем*), η η . где ν(Β) — число точек, попавших в множество J3, IXi — распределение, сосредоточенное в точке хг. Утверждение теоремы 1 о сходимости Р£(£?) —> Р(£?) здесь, очевидно, сохранится. Обобщение теоремы Гливенко-Кантелли на многомерный случай связано с появлением качественно новых вопросов. Один из них — обобщения понятия интервалов на многомерный случай. Таких обобщений может быть несколько — это могут быть, например, прямоугольники, выпуклые множества и др. Простейший вариант обобщения теоремы Гливенко-Кантелли таков. Пусть у = (yi,.. .,уш) есть точка Rm и Bt есть угол с вершиной в точке Bt = {y£mm:yk<tk, *=1,...,го}.
34 Гл. 1. Выборка. Эмпирическое распределение Функция iS(t) = p;(Bt) называется эмпирической функцией распределения. Теорема 1. Пусть Хп = [Хоо]П5 Xoo^F. Тогда sup|Fn*(i)-F(i)|^0 при η —> оо. 2*. Более общие варианты теоремы Гливенко-Кантелли. Закон повторного логарифма. Одно из возможных обобщений теоремы типа Гливенко- Кантелли состоит в следующем. Пусть С — класс всех выпуклых множеств вЕт. Теорема 2. Пусть Хп = [Хоо]т Аоо^Р? распределение Ρ абсолютно непрерывно относительно меры Лебега в Мт. Тогда suP|p;(B)-p(B)|—>о. (1) вес Π·Η· Другие возможные обобщения теоремы 1 можно получить с помощью утверждений приложения I. Замечание 1. Требование абсолютной непрерывности распределения Ρ относительно меры Лебега в теореме 2 существенно. На это указывает следующий пример. Пусть Ρ есть равномерное распределение на единичной окружности (т.е. на границе круга) в R2. Построим замкнутый многоугольник Βχ с вершинами в точках χι,...,χη, лежащих на окружности. Это выпуклое множество. Однако Ρ (Β χ) = О, Ρ^(Βχ) = 1, и, следовательно, соотношение (1), где £ — класс выпуклых множеств, не верно. Утверждения теорем типа Гливенко-Кантелли можно существенно уточнить — по крайней мере для простейших классов множеств. Например, для эмпирических функций распределений F*(t) (см. теорему 1) можно указать такую детерминированную последовательность Ьп —> 0 при η -> оо, для которой с вероятностью 1 (для почти всех «точек» Хоо) \imswpb-lsnp\F*(t)-F(t)\ = l. n-teo t /In In η Оказывается, что порядок малости Ъп такой же, как \ — . γ η Теорема 3 (закон повторного логарифма). Если F(t) непрерывна, то ,*%?\/Ж'Г\г"м-™\-1) = 1. Теорема 3 тесно связана с нормальным приближением для F*(t) вида (2.8), которое в многомерном случае, очевидно, также имеет место. Доказательство теорем 1, 2 отнесено нами в приложение I. Доказательство теоремы 3 см. в [52].
§ 5- Теоремы непрерывности 35 3. Выборочные характеристики. В многомерном случае, как и в одномерном, они представляют различные измеримые функции от выборки. Простейшие из них — выборочные моменты. Например, выборочные моменты первого порядка равны 1 п моменты второго порядка (обычные и центральные) — 1 п ahj = a2,ijW = - X^xMxA:j, г, j = 1,.. .,m, 1 n <*ад = Sij = - 5Z(xfc,i - αϊ,<) (xfcj - αί j) Jc=l и т.д. Как и в одномерном случае, легко убедиться с помощью усиленного закона больших чисел, что эти характеристики с вероятностью 1 сходятся к соответствующим «теоретическим» моментам. В частности, Sn —> J П.Н. —> E(xi,i — Exi)i)(xi>j — Exij). Нетрудно убедиться (подробнее об этом см. в следующем параграфе), что этим же свойством обладают и выборочные коэффициенты корреляции r _ Sjj Е(хм-Ехм)(хи-Ехц) y/SiiSjj Π·Η- ^/Dxi}iDxij Отметим, что все типы статистик, введенные в §3, за исключением L-статистик, допускают естественное обобщение на многомерный случай и случай произвольного выборочного пространства X. Для получения более точных теорем о распределении выборочных характеристик нам будут полезны так называемые теоремы непрерывности. § 5· Теоремы непрерывности В дальнейшем нам понадобятся некоторые вспомогательные утверждения, которые мы будем часто использовать и которые можно было бы назвать теоремами непрерывности. Для удобства выделяем их в отдельный параграф. Одну теорему такого типа мы уже использовали — это теорема 3.1. Первая теорема непрерывности будет очень близка к этой теореме. Теорема 1 (первая теорема непрерывности). Пусть X = [Х00]П^Р. Тогда если Sn = Sn(X) есть последовательность скалярных или векторных статистик таких, что Sn —> SO, и H(s) — функция, непрерывная п.н. почти всюду относительно распределения случайной величины SO (га. e. H(s) непрерывна в каждой точке множества В, Ρ (So Ε: В) — 1), то H(Sn(X)) —* H(S0). п.н. Если Sn сходится к So no вероятности (Sn —> So), то при тех -же ρ прочих условиях H(Sn) —> Η (So).
36 Гл.1. Выборка. Эмпирическое распределение Доказательство теоремы почти очевидно. Так как вероятности событий А = {Хоо : Sn(Хоо) -> 50(Хоо)} и С - {Хоо : 50(Хоо) G В} равны 1, то в силу равенства Р(АПС) = Р(Л)+Р(С)-Р(АиС) вероятность события А П С (на котором Я(5,п(Х0о)) -> Я"(5о(-Х"оо)) также равна 1. Чтобы упростить доказательство о сходимости по вероятности, предположим дополнительно, что Sq — const (нам только этот случай и понадобится). Для заданного ε > 0 найдется δ > 0 такое, что событие Ап = = {Хоо : |5П — 5о| < ί} влечет за собой \H(Sn) — Я(5о)| < ε и, кроме того, Р(АП) > 1 — ε при всех достаточно больших п. Следовательно, для таких η имеем 1 - ε < Р(ЛП) ^ Р(|Я(5П) - Я(50)| < ε). < Прежде чем формулировать последующие теоремы, введем некоторые обозначения, которые будут удобны в дальнейшем. Пусть дана последовательность случайных векторов ηη = (% ,.. .,r/n ) (не обязательно на одном вероятностном пространстве). Если распределения ηη слабо сходятся при η —> оо к распределению некоторой случайной величины 77, то этот факт будем обозначать символом Vn => τ/· (1) Здесь мы используем для случайных величин знак => слабой сходимости распределений. Этот знак будет употребляться по-прежнему и для самих распределений, так что соотношение (1) эквивалентно тому, что где Qn и Q суть соответственно распределения ηη и η. Такое соглашение удобно и не приводит к недоразумениям. Ясно, что из ηη —* η или ηη —► η следует ηη => '/7 (ср. с [17, § 6.2]). р п.н. Таким образом, если речь идет о соотношении (соответствующем слабой сходимости) между объектами одной природы (между случайными величинами или между распределениями), будем использовать символ =>. Наряду с этим нам было бы удобно иметь также символ для выражения «распределения ηη слабо сходятся при п —> оо к Q». Это соотношение будем записывать в виде Vn & Q, (2) так что символ €> выражает тот же факт, что и =>, но соединяет объекты разной природы так же, как это делает символ €= в соотношении η €= Q (слева в (2) стоят случайные величины, а справа — распределение). Пусть ηη и η есть случайные векторы из W. Теорема 2 (вторая теорема непрерывности). Если ηη => η и H(t), t Ε Μ5, есть непрерывная функция из Rs θ Rk, mo Η(ηη) => Η(η). Отметим, что эта теорема на самом деле верна и в более общей форме*): Если ηη =ϊ η и H(t) непрерывна в точках множества Α Ε 235, Ρ (г/ Ε Α) = = 1, то Η{ηη) => Η{η). *) Подробнее об этом см. в [7].
§ 5. Теоремы непрерывности 37 Доказательство теоремы 2. Пусть Qn и Q есть соответственно распределения ηη и η. Слабая сходимость Qn => Q означает по определению, что для любой непрерывной и ограниченной функции /: Rs —)► К выполняется / f(y)Qn(dy) -> J f(y)Q(dy), или, что то же самое, Е/Ы -> E/fo). (3) Аналогичное соотношение мы должны получить и для распределений Η(ηη) и Η(η). То есть мы должны установить, что для любой непрерывной ограниченной функции д: Rk —> К справедливо Ед(Н(щ)) —> Eg(Hfa)). Но это очевидным образом следует из (3), так как суперпозиция 'д = доН :RS —> —> К непрерывна и ограничена. < Теорема 3 (третья теорема непрерывности). Пусть ηη => η £ Κ, .#(£), t Ε 1, есть функция, дифференцируемая β точке а. Тогда если Ьп —> О есть числовая последовательность, то H(a + bnV)-H(a) ^ On Доказательство. Рассмотрим функцию Н{а + х)-Н(а) х^О, h(x) = { χ .Η'(α), χ = 0, которая будет непрерывной в точке χ = 0. Так как Ьпг\п => 0, то в силу первой теоремы непрерывности h{bnr\n) =Ф- h(0) = Η1 [а). Пользуясь второй теоремой непрерывности, получим Н(а + 6П?7П) - Н{а) , Г = HbnVnWn =* Η (α)η. < On Мы приведем теперь два последовательных обобщения теоремы 3 на многомерный случай, которые будут нам полезны. Теорема ЗА. Пусть ηη = (ηηι\ .. .,Vns)) =>η = (t/W, .. .,τ/β>), H{t) - скалярная функция вектора t = (£ι,...,£5) такая, что существует про- изводная Hit) = { ——,..., -ζ— Ι β точке а. Тогда при Ъп —> 0 Н(а + Ьпч)-Н(а) ^ η{Η,{α))Τ = А вЯМ^Ю (5) Здесь индекс Τ соответствует транспонированию.
38 Гл.1. Выборка. Эмпирическое распределение Если т/(Я'(а))т = О с вероятностью 1 (например, Н'(а) = 0), а ма- трица Η [t) производных — существует в точке а, то atiOtj Н{а + Μη) - Н{а) 1 „ т 1 А ш =ϊ-ηΗ(α)η = -^ 52Я(а) ь1 2' к J' 2.4^ aiiS* 7/«т/Л· (6) <J = 1 '^J Пусть теперь H(t) — векторная функция. Тогда, очевидно, предельное распределение для каждой компоненты Hj будет описываться теоремой ЗА, а относительно совместного распределения будет справедлива Теорема ЗВ. Пусть ηη => η Ε IK5, Я(£) Ε R* — векторная функция такая, что производные Я'·, j = !,...,&, удовлетворяют условиям теоремы ЗА. Тогда Ща + ЬпПп)-Ща) ^ η(Η,{α))τ On Если 77(Я'(а))т = 0 с вероятностью 1, α матрицы Я'7, j = 1,...,/с, существуют в точке а, то Доказательства этих утверждений по существу ничем не отличаются от доказательства теоремы 3, и поэтому предоставляем их читателю в качестве упражнений. Кроме того, предлагаем убедиться, что символ => в (4)-(6) можно заменить на —► или —>, если соответственно выполняется 4 ' п.н. ρ ηη —> η или ηη —> η. п.н. ρ Содержание теорем 1-3 можно резюмировать следующим образом. Пусть ~* означает один из символов —», —►, =ϊ . Тогда если Я непрерывна, то из П.Н. ρ ηη ~» η следует Η(ηη) ~> Η (η). Если Я дифференцируема в точке а, т^ ~* ?7, то для Ьп —> О Я(а + 6п;?п)-Я(а) ^ ^ £>п Замечание 1. Нетрудно видеть, что если α = ап зависит от п так, что ап = ао + ^(1), и производные в теоремах 3, ЗА, ЗВ непрерывны, то соотношение (7) сохранится в форме #К + Μη) - #К) ^ я,(ао) ( On Для доказательства достаточно заметить, что левая часть (8) предста- вима в виде Η'(αη)ηη, где ап = 9ап + (1 - 0)(αη 4- bn^n) ~* «о» 0 ^ 0 < 1, и воспользоваться второй теоремой непрерывности.
§ 5. Теоремы непрерывности 39 То же самое замечание справедливо для многомерных аналогов этого утверждения в теоремах ЗА, ЗВ. Сформулированные теоремы касались сходимости почти наверное и сходимости распределений. Четвертая теорема непрерывности относится к сходимости интегралов. Теорема 4 (теорема непрерывности для моментов). Пусть {ηη} — последовательность числовых случайных величин и ηη=> η при п —> оо. Тогда если выполнено хотя бы одно из следующих условий: 1) limsup / Р(|??п| > #) dx —> 0 при N —> оо, п—юо J N оо 2) Р(|тм| > ζ) < φ(χ), \ φ{χ)άχ < оо, о |1+α 3) Е|т7п| < с < оо для некоторого а > О, то lim Έηη = Е77. η—юо ОС / Отметим, что условие 1) означает равномерную по п сходимость к нулю Р(|*7п| > х) dx при N -> оо. N Доказательство. Из обобщенного неравенства Чебышева Р(Ы>я?) х1+а следует, что условие 3) влечет за собой условие 2). В свою очередь, условие 2) влечет за собой условие 1). Пусть выполнено условие 1). Для простоты рассуждений предположим сначала, что ηη ^ 0. Тогда, интегрируя по частям, получим оо оо Ет?п = - / χάΡ(ηη ^ х) = / P(?7n ^ x) dx. о о Из этого представления, из сходимости Ρ (77η ^ χ) —> Ρ (г/ ^ χ) для почти 00 всех а: и из равномерной по η сходимости интеграла / P(?7n ^ я) dx следует о законность предельного перехода под знаком интеграла, в силу которого оо оо lim Έηη = lim / Ρ(ηη ^ x)dx = / Ρ(η ^ x)dx — Ε77. η-»οο π-»οο у у О О В общем случае следует воспользоваться представлением г\п = η£ — η~, где 7/+ = max (т/п,0), η~ = max (-τ?η,0). <
40 Гл. 1. Выборка. Эмпирическое распределение Отметим, что условие 1) можно рассматривать так же, как условие равномерной интегрируемости ηη, из которой немедленно следует сходимость Εηη -> Εη (см., например, [17, гл. 6; 72, §6.2)]. § 6·* Эмпирическая функция распределения как случайный процесс· Сходимость к броуновскому мосту В этом параграфе будем предполагать известным понятие случайного процесса (скажем, в объеме [17]) и, в частности, определения и простейшие свойства винеровского и пуассоновского процессов. 1. Распределение процесса nF£(t). Ограничимся рассмотрением случая X = Ж. Пусть, как и прежде, F*(t) = Р*((—оо,£)) есть эмпирическая функция распределения, соответствующая выборке X = Хп €=Р. Функция F*(t) есть функция двух переменных: t и X, или, что то же, случайная функция от t или случайный процесс. Найдем конечномерные распределения этого процесса. Пусть t\ < < Ϊ2 < ... < tm — произвольные т точек числовой оси. Положим ίο = — оо, im+i = оо и обозначим через Aj0 = 0(*j+i)-0(*i) приращения функции g(t) на полуинтервалах Δ^· = [ij, ij+i)> J = 0,1,..., m. Рассмотрим приращение Δ^πη процесса πη(ί)=η^(ί). Очевидно, это есть число элементов выборки, попавших в Δ^. Вероятность попадания одного элемента выборки (скажем, χχ) в Δ^ равна pj = Ρ(Δ^). Так как попадания в Δ^, j = 0, 1,...,га, представляют собой т + 1 несовместных событий, то, очевидно, имеем здесь полиномиальное распределение (см. [17, § 5.2]) для вектора (Δοπη,..., Аткп) с вероятностями ро> · · *,Рт, ТП y~]pj = 1· Как известно, i=o Ρ(Δ0πη = fc0l.. ·, Δ™πη = fcm) = П> fp£°.. .ρ*Γ, (1) ko\...km\ m где V^ kj = n. j=o Пусть теперь η(ν), и Ε [0,1], есть непрерывный слева пуассоновский процесс (см. [17, § 16.4]) с параметром λ, 77(0) = 0. Приращения этого процесса независимы, P(iW=*)=e-to1^. Если функция распределения F(t) = Р((—οο,ί)) непрерывна, то можем сделать непрерывную замену времени, положив и = F(t), — 00 < t < 00,
§ 6. Эмпирическая функция распределения как случайный процесс 41 и определить тем самым процесс n(t) = η(Ρ(ί)) на всей оси. Рассмотрим приращения этого процесса Δ,π = n(tj+1) - π(ί,) = v(F(tj+i)) - v(F(tj)) на интервалах Δ^. Тогда Ρ(Δ0π = fc0,..,A^ = U = Де-^ШИ = e-^"J] Г7- m а условная вероятность того же события при условии π(οο) = \^Δ^π = η j=o будет равна Ρ Δ0π = feo,.. ·, Δ™π = fc, ^Δ,π = η ι = i=o Ρ(Δ0π = fcp,..., Δ7ηπ = fcm) Ρ(π(οο) = η) λ ! rn r) J = Ρ(Δ0π = fc0>. · -, Am* = km)^- = η! JJ -i-. (2) Мы получили при любом λ > 0 то же самое выражение, что и в правой части (1). Таким образом, мы доказали следующее утверждение. Теорема 1. EcAuF(t) непрерывна, то распределение процесса nF*(t) совпадает с условным распределением процесса π(ί) = (η(Ρ(ί)) при условии π(οο) = η (77(1) = η). Теорема показывает, что отклонения n[F^{t) — F(t)) распределены так же, как 7/(F(i)) — nF(t) при условии η(1) — η, и задача с точностью до замены времени и = F(i) сводится к изучению отклонений т/(и) — тш для условного (?7(1) = п) пуассоновского процесса на отрезке [0,1] или, что то же, к изучению отклонений n{F^(t) — t), где F£{t) соответствует равномерному на [0,1] распределению. Полезным бывает и другое представление для процесса nF*(t). Пусть Сь Сг> ■ · · — точки скачков пуассоновского процесса т;(£), так что ^(Ofc+O) ~ ^- Как известно [17], разности ^ — Cfc — Сл—ι (Со = 0), А = 1,2,..., независимы и показательно распределены, Ρ (ξ* > х) = е~Хх, ζΐς имеет Г-распределение с плотностью (см. также § 12)
42 Гл. 1. Выборка. Эмпирическое распределение Чтобы упростить формулировки, предположим, что F(t) — ί, t G [0,1], to = = 0, im+i = 1, так что η(ί) — π(ί). Теорема 2. Распределение процесса nF*(t) совпадает при любом ν > 0 с условным распределением процесса 7г(£г>), 0 < ί < 1, npw условии Cn+l = U> Другими словами, утверждение теоремы 1 сохранится, если условие π(1) = η заменить значительно более узким условием π(1) = η, π(1 + 0) = = η + 1 (мы считаем, что траектории π(ί) непрерывны слева). Поскольку вероятность этого нового условия равна 0, то, возможно, следует добавить (см. [17, §4.8 об условных математических ожиданиях, а также §19]), что под условным распределением мы понимаем здесь вероятности τ>(Δ//- ·λ Р(Л;Сп+1 edv) где А = {Δοπ(ίυ) = fco, · ·>, Δ771π(^) = fcm}, Δ^π(ίυ) = π(^>ι^) - n(tjv). Доказательство. Событие {ζη+ι € dv} представим в виде произведения двух событий В = {π{υ) = η}, С = {π(υ 4- cfo) - π(υ) = 1}. События 5 и АВ не зависят от С, так как события В и АВ, с одной стороны, и событие С — с другой относятся к приращениям процесса π на непересекающихся интервалах времени. Поэтому Р(Л/С„+1 = ν) = Щ^ = ^ = Ρ(Λ/π(«) = η). (3) Точно так же, как в (2), убеждаемся, что это выражение от ν (как и от λ) не зависит и совпадает с (1). < Следствие 1. Распределение процесса nF*(t) совпадает с распределением π(£ζη+ι), 0 ^ t ^ 1. Это вытекает из того, что для В = {Δ0π(*(η+ι) = fc0,. - ■> Am^(<Cn+i) = fcm} имеем в силу (3) Р(5) = У Р(Л/С„+1 = г;)Р(Сп+1 € rf«) = η! Ц -^-. Из следствия 1 вытекает Следствие 2. Совместное распределение элементов вариационного ряда Х(!),.. .,Х(П) выборки X из равномерного распределения совпадает с
§ 6. Эмпирическая функция распределения как случайный процесс 43 совместным распределением Cl Сп Сп+1 Сп+1 или, что то же, совместное распределение разностей х^), Х(2) — X(i),... ■ · ·5χ(η) — χ(η-ΐ)> 1 — х(п) совпадает с совместным распределением £ΐ ξη+1 Cn+1 Cn+1 В заключение этого пункта найдем моменты второго порядка для приращений процесса n(F*(t) — F(t))> Нам будет удобнее иметь дело с процессом wn(t) = yfr{FZ(t)-F(t)). Очевидно, что EAjWn = О, E{AjWn)2 = AjF(l - AjF). Для вычисления смешанных моментов заметим, что (г φ j) E(AiWn ■ AjWn) = i £ Ε(ΙΧ4(Δ<) - Ρ(Δ;))(ΙΧ,(Δ,·) - Ρ (Δ,·)) = = τ Σ {ΕΙχ,(Δί)Ιχ,(Δ,·) - Ρ(Δ<)Ρ(Δ,·)}. η k,l= "*,!= Так как ew*.)ma,)={r-)P(^ ^ίϊί: το Ε(Δ<ιι;η · Ajwn) = -Ρ(Δ,)Ρ(Δ;) = -A,F · AjF. Таким образом, приращения процесса wn отрицательно коррелированы. 2. Предельное поведение процесса wn(t). Мы будем считать, что F(t) непрерывна. В предыдущем пункте мы видели, что задача отыскания распределения nF^(t) для произвольной непрерывной функции распределения F может быть редуцирована в известном смысле к той же задаче для функции распределения U(t) = £, 0 < t ^ 1, соответствующей равномерному на [0,1] распределению. Такой редукцией будем пользоваться и в дальнейшем. Сделаем в связи с этим несколько предварительных замечаний. Пусть x(F) = ini{t: F(t) > 0} — левая граница носителя распределения F. Положим F~~l(0) = χ(ρ\ Ρ~λ(η) =sup{ir. F(v) < и} при и > 0. Функция F_1(u) называется обратной к F, она так же, как и F, непрерывна слева. Если F непрерывна, то F~l(u) есть минимальное решение уравнения F(v) = и (решение единственно, если F(v) строго монотонна). Нетрудно видеть также, что если F непрерывна, то F(F~l(t)) = ί, t Ε [0,1]. В этом случае функции от наблюдений у^ = -^(ха;) представляют собой выборку У из равномерного на [0,1] распределения, так как по определению обратной функции P(yfc < t) = P(F(xfc) < ί) = P(xfc < ^_1(ί)) = F(F~4t)) = t.
44 Гл. 1. Выборка. Эмпирическое распределение Так как, кроме того, PiF-Hyk) <t) = P(y* < F(t)) = F(t), ТО Y = (yi,...,Vk)eU, (F-Hy^.-.F-HykV^F. Если U£ — эмпирическая функция распределения, соответствующая выборке Υ из равномерного на [0,1] распределения, то из сказанного следует, что Fn*(t) = K(F(t)). (4) Действительно, левая и правая части этого соотношения равны k/n при t € (х(*),Х(А;+1)] или, что то же, при F{t) е {F{x{k),F{x{k+l})] = (у(*),У(*+1)], Л = 1,...,п. Итак, если найдем способы приближать тем или иным образом распределение процесса U*(t) при больших п, то тем самым в силу (4) мы найдем подходы и к приближенному описанию распределения процесса F*(t) для произвольной непрерывной F. В дальнейшем в этом пункте будем считать, что F(t) = U(t) есть равномерное на [0,1] распределение. Обозначим через w(t) стандартный винеровский процесс, т.е. процесс с независимыми приращениями, для которого w(t) распределено нормально с параметрами (Ο,ί). Процесс w°{t) = w(t)-tw(l) называют броуновским мостом (по той причине, что у него закреплены оба конца: w°(0) = w°(l) = 0). Распределение этого процесса совпадает с условным распределением процесса w(t) при условии w(l) — 0 (более точно, надо взять условие |ги(1)| < ε и перейти к пределу при ε ~> 0). Оказывается, что конечномерные распределения процессов wn(t) = ^(F*(t)-F(t)), i G [0,1], сходятся при η —> оо к соответствующим распределениям броуновского моста w°(t). Этот факт позволяет приближать процессы wn(t), которые называют иногда эмпирическими процессами, с помощью процесса w°(t). Именно, мы можем представлять себе, что при больших η имеет место приближенное равенство V^{F:(t)-F(t))*w°(t), (5) описывающее распределение уклонений F£{t) от F(t) (напомним, что мы считаем здесь F(t) = t, t Ε [0,1]). Однако утверждение типа (5) нам понадобится в более сильной форме. Рассмотрим, например, статистику S~\/nsup[F^(t) — (t)). Высказанное t утверждение делает естественным предположение о том, что при больших η
§ 6. Эмпирическая функция распределения как случайный процесс 45 случайная величина S приближенно распределена так же, как sup w°(t). Однако из нашего утверждения это никак не следует, поскольку 5 нельзя представить как функцию от значений wn(t) = y/n (F^(t) — f{t)) в каком- либо конечном числе точек. Поэтому существенно более сильным является следующее утверждение. Обозначим через D(a,b) пространство функций на отрезке [а,6], непрерывных слева (в точке α справа) и имеющих лишь конечное число скачков, и через C(a, b) пространство всех непрерывных на [а, 6] функций. Через i^o(a, 6), Со(а, Ь) будем обозначать подпространства функций из D(a,b), С(а, Ь) соответственно, обращающихся в нуль в точках а и Ь. Очевидно, что траектории wn(t) принадлежат А)(0,1). Кроме того, известно (см. [17, §16.2]), что траектории w°(t) принадлежат Со(0,1) с вероятностью 1. Для простоты можем считать, что все траектории w(t) и, следовательно, w°(t) лежат в С0(0,1) (см. [17]). Поскольку С0(0,1) С D0(0,1), то (£>о(0, l),crD), где σο есть σ-алгебра подмножеств из ί>ο(0,1), порожденная цилиндрическими множествами*), мы можем считать выборочным пространством**) процессов wn и w°. Теорема 3 (функциональная предельная теорема для эмпирических процессов). Пусть f — функционал, определенный на пространстве Do(0,1) и обладающий следующими свойствами: 1) f(wn) uf(w°) являются случайными величинами (m.e.f(y) осуществляет измеримое отображение (Dq(0,1),<7£>) в (R, 93)); 2) /(у) есть функционал, непрерывный в «точках» пространства Со(0,1) относительно равномерной метрики, т.е. f(yn) —> /(у) при η —> -> оо, если у е Со(0,1) и р{уп,у) = sup \yn{t) - y(t)\ -> 0. Если эти условия выполнены, то f(wn) => f(w°). Если функционал f непрерывен в равномерной мелп,рике в любой точке у Ε Do(0,1), то условие 1) выполняется автоматически. Очевидно, что функционал S, рассмотренный выше, удовлетворяет условиям теоремы, так что при η —> оо S=> sup w°{t). Поскольку распределение правой части в этом соотношении можно найти в явном виде (см., например, [7, 104]) Р{ sup w°{t) > ζ} = e~2z\ *) To есть множествами вида {y(t\) 6 £ι,.. .,y(im) € Вт}> где В\,.. .,Bm — борелев- ские множества. **) (-D, σ) есть выборочное пространство процесса ξ(ί), если на нем задано распределение процесса £, так что траектории £(£) лежат в D.
46 Гл. 1. Выборка. Эмпирическое распределение то мы получаем таким образом приближенное выражение для распределения 5. Использование теоремы 3 для вычисления предельного распределения других статистик рассмотрено в последующих параграфах. Доказательство теоремы 3 отнесено нами в приложение II. Возвращаясь к произвольным непрерывным функциям распределения F и пользуясь (4), можем записать Kit) = U*(F(t)) = F(t) + -±=wn(F(t)), (6) где поведение процесса wn(t) описано в теореме 3. Отметим, что левая и правая части (6) равны и без предположения о непрерывности F. § 7. Предельное распределение для статистик первого типа Напомним, что статистиками первого типа мы называем статистики Sn(X) = G(F*)i где функционал G имеет вид G(F) = Μ / g(x)dF(x)) . Другими словами, Sn(X) = /J±f>(Xi)J. Мы уже видели (теорема 3.1), что если Χ ξ= Fq и h непрерывна в точке a = / g(x) dFo(x), то Sn —> h(a). Теорема 1. Если X €= Fo, h дифференцируема в точке a, g (x)dFo(x) < оо, то yfr{Sn{X)-h{a))=>ti{a)t, где £ ξ= Φ л „г, σ2 = J(9(x)-a)2dFo(x), Φο,σ2 — нормальное распределение с параметрами (Ο,σ2). Доказательство. Статистику Sn(X) представим в виде где по центральной предельной теореме (см. [17], гл. 8 или приложение IV) 1 " Лп = -7= 53(з(хг) - а) ©■ *ο,σ2, σ2 = Ε(0(χι) - ο)2 = j{g{x) - a)2 dF0(x).
§ 7. Предельное распределение для статистик первого типа 47 Отстается воспользоваться третьей теоремой непрерывности при bn = = 1/у/п. < Иногда функционалы первого типа удобнее рассматривать в виде G(F) = g{x) d(F — Fq) 1 . Очевидно, все сказанное сохраняется и для них с -AI той лишь разницей, что α следует положить равным нулю. Приведем аналог теоремы 1 для случая, когда функция g = (<7ь.. ·, <7S) есть вектор (т.е. G{F) = h(jgi{x)dF{x),...,ig8{x)dF(x)j\ Теорема 1А. Пусть Sn(X) = G(F*), h(t) дифференцируема β точке = [ 9{x)dF0{x), а матрица вторых моментов σ = ||о"^*|| = Е(д(х\) — а a)T(g(xi) —α) конечна. Тогда dh{a) (Sn(X) - h[a))Ji => ξ(Λ'(α))τ = £ ^fr W с вероятностью 1, α матрица вторых производных существует в точке а, то Л"«) dijdi ■ли №№-Μ«))η*1ί»·(.)£τ.ΐΣ|^ *- Я2',.,,.,, ί=α Для доказательства теоремы ΙΑ следует воспользоваться теоремой непрерывности 5.ЗА и многомерной центральной предельной теоремой, в силу 1 п которой —1= У^(<7(хг) — а) => ζ (см. приложение IV). Совершенно аналогично выглядит теорема о предельном распределении 5П(Х), когда функция /г, а вместе с ней и статистика 5П(Х) являются векторами. Читатель без труда воспроизведет ее формулировку и доказательство с помощью теоремы 5.3В. Пример 1. Пусть X ^ Ро и Ро таково, что Εχι = а > 0, Dxi = = d2 < оо. Что из себя представляет в этих условиях предельное распределение статистики 1 / 1 п \ S = - Ι χ = — > Хг I ? Условия теоремы 1 здесь, очевидно, х V nU ) выполнены при h(t) = 1/ί, g(x) = χ, при этом α = α, σ2 = d2, /ι(α) = 1/α, fr'(a) = —1/α2. В силу теоремы 1 a/ or
48 Гл.1. Выборка. Эмпирическое распределение так что IS- -) \/η&Φ042/α*. Пример 2. Найдем предельное распределение статистики 524ς(*<-*)2> t=l если Εχι = α, Dxi = d2 и Ex4 < oo. (Мы уже знаем, что в силу первой теоремы непрерывности S2 —> (Р.) Найти требуемое предельное распреде- п.н. ление нетрудно непосредственно, воспользовавшись представлениями η s2 = -X>-«)2-(*-«)2. ni=i 1 n (S2 - d2)yfr = 4= Y[(*i ~ a)2 - d2} - y/H(x - a)2. Однако мы воспользуемся теоремой ΙΑ. В условиях этой теоремы мы должны положить G{F)= f{x-a)2dF{x)- (fxdF{x)-a\ , так что gi(x) = {χ — α)2, дъ(х) — х, h(t) = t\ — fa — a)2. Поскольку в точке a = (d2,a) dh(a) _ dh(a) _ то (S2 - d2)V^ =* ξ, ξ ^ Φ0,^5 ^2 = E(xi - a)4 - d\ Пример 3. Статистика χ2. В заключение этого параграфа рассмотрим пример статистики, которую можно относить к статистикам как I, так и II типов. Рассмотрим статистики, построенные с помощью функционалов вида G(F) = h\^J gdFj, (2) где д есть функция ограниченной вариации на отрезке [a, b] таком, что F(a) = 0, F(b) = 1 (α и Ъ могут быть бесконечными). Так как / gdF = = g(b) — / Fdg, то функционал G(F) будет непрерывным в равномерной
§ 7. Предельное распределение для статистик первого типа 49 метрике, если только непрерывна функция Л. Нетрудно понять, что выделенный класс статистик представляет собой пересечение классов статистик I и II типов. То же самое справедливо в случае, когда g есть векторнозначная функция с компонентами #, имеющими ограниченную вариацию. Рассмотрим теперь разбиение вещественной оси (пространства X) на непересекающиеся интервалы Δι,...,ΔΓ и положим щ = ηΡ*(Δζ), pi = = Ρο(Δζ·) (Ро есть распределение, соответствующее Fq, так что X €= Ро)· Статистикой «хи-квадрат» ξ2 = χ2{Χ) называют статистику t=l ПРг Очевидно, что это есть статистика II типа, так как она с точностью до множителя η соответствует функционалу Чтобы представить χ2{Χ) как статистику I типа, рассмотрим функционал вида (2) -(/ G(F) = h[ gd(F-Fo) с функцией h(u) = У^^ и векторной функцией g с координатами J —— при χ Ε Aj9 [О при χ φ Aj. Так как функция h дифференцируема, dh(0)/duj = О, д2!г(0)/дщ duj = 2δψ (5ij — символ Кронекера), то, положив Sn{X) = G(F£), мы получим „4№ _„£ [(a _W)_L]'_,»(*,. При X ^ Pq ъ силу второй части теоремы 1А x2{x)^J2il (з) 3 = 1 где ξ = (ξι,.. .,£г) есть нормально распределенный вектор (предельный для *Ί ~ "Pi ντ--ηρΛ\ 2 — , - -.,—# ] ι с нулевым средним и с матрицей σΔ = σ^· y/ηρι y/npr J J вторых моментов, <*ij = Щ£з = E(5i(xi) - y/Pi)(9j(xi) ~ V^J)
50 Гл. 1. Выборка. Эмпирическое распределение (из определения gj следует, что E#j(xi) = у/р])> Так как gi{x)gj{x) = 0 при г φ J и P(^?(xi) = l/Pj) = ρ,, PfaJ(xi) = 0) = 1 - Pj, то Выясним теперь, что из себя представляет распределение правой части в (3) (т.е. предельное распределение χ2{Χ)). Рассмотрим ортогональное преобразование в W с матрицей С и рассмотрим вектор η = ξϋ. Вектор η так же, как и ξ, будет нормально распределен. Действительно, нормальность величины ξ означает, что ее характеристическая функция (х. ф.) равна (см. [17, § 7.6]) Ее^Т=е-^2'т, где σ2 = ||σ^|| есть матрица вторых моментов. Но х.ф. для η ΕβίίηΤ = EeiicT^T = е-№т°2с*т имеет тот же вид и, следовательно, η есть нормальный вектор, но с матрицей вторых моментов d2 = С a2C — ||dyl|j так чт0 di3 = E^r/j = 22,cuaikCkj = 2^сц(81к - y/ptPkVkj = ΣСнС1з ~ (ΣciiVPi) (ΣСк'зV^fc) · (4) Выберем теперь матрицу С так, чтобы ее первый столбец имел координаты Qi = y/pi (это соответствует фиксированию первого вектора преобразован- г ной системы координат и возможно, так как Υ^ c?i = Σ^ = 1)· Тогда, оче- видно, второе слагаемое в (4) в силу ортогональности С равно единице лишь при г — j = 1 и нулю в противном случае. Это означает, что с/ц = Е771 = 0, dij — Er/i^j = Sij при г ^ 2, и, следовательно, 771 = 0 с вероятностью 1, а величины щ,.. .,т}т независимы и нормально распределены с параметрами (0,1). На основании ортогональности С получаем j=i i=i j=2 i=2 Распределение правой части в этом равенстве называется распределением χ2 («хи-квадрат») с г — 1 степенями свободы (см. [17, §7.7], а также § 12). Мы будем встречать это распределение в последующем изложении неоднократно. Еще одно доказательство (5) будет получено в следующем параграфе. Кроме того, (5) будет доказано в § 56 с помощью более общих соображений. Некоторые другие примеры использования теорем 1, 1А будут содержаться в последующих главах.
§ 8. Предельное распределение для статистик второго типа 51 § 8.* Предельное распределение для статистик второго типа В этом параграфе будем изучать предельное распределение G(F*) в случае X — R, где G{F) есть функционал второго типа, осуществляющий измеримое отображение (Ζ)(-οο,οο),σ£)) в (К, 55) (или измеримое отображение (V(—οο,οο),σν) в (К, 05), где V(—οο,οο) — пространство функций ограниченной вариации на (—οο,οο), σγ — σ-алгебра, порожденная цилиндрическими множествами). Применительно к рассматриваемым задачам в дальнейшем под С(—оо, оо) (D(—οο,οο)) можно понимать пространство функций / на (—οο,οο), полученных из элементов / Ε С(0,1) (/ Ε 12(0,1)) путем непрерывной замены «времени»: f(t) = f(F(t)), где F — непрерывная функция распределения. Отметим прежде всего, что для статистик II типа справедлива Теорема 1. Если Хп = [Х^]п <^ F0, mo G(F*) —► G(F0). Это утверждение немедленно следует из теоремы 2.2А. Для того чтобы можно было найти предельное распределение для функционала второго типа G(i^), необходимо, как и в предыдущем параграфе, наложить на функционалы G(F) некоторые условия гладкости. Положим для краткости \\х\\ — sup |#(£)|. —оо<£<оо Определение 1. Функционал G{F) называется непрерывно дифференцируемым порядка к в точке Fo, если существует функционал G'(-Fo,^), который для любой функции ν Ε С(—οο,οο) и любой последовательности Vh € D(—оо, оо) такой, что Цг^ — г>|| -> 0 при h -> 0, удовлетворяет соотношениям G{F° + hV^-GiFo)->G'(F0,v), G'{F^vh)->G\Fo,v). (1) Последнее соотношение означает, очевидно, непрерывность в равномерной метрике в точках из С(—οο,οο) функционала G'(Fq,v), который можно называть производной порядка к от G по направлению v. Замечание 1. Введенное понятие производной шире понятий производных по Гато и Фреше, так как здесь не предполагается линейность функционала С по г) и равенство к = 1. Названные производные применительно к задачам робастности (см. § 58) называются также функционалами влияния (подробнее см., например, [124-126] и §58). Значение G'(Fo,v) совпадает, очевидно, с обычной производной функции G(Fq + hv) по h в точке h = 0. Рассмотрим несколько примеров. В дальнейшем будем обозначать через F~l функцию, обратную F* (см. §6): F"1(0)=x(i), F-l{u) = sup {v :Fn»< и} при и > 0.
52 Гл. 1. Выборка. Эмпирическое распределение Пример 1. Пусть G(F) есть квантиль порядка ρ функции распределения F, т.е. G{F) = F~l(p). Это значит, что G(F*) = F~l(p) = ζ* есть выборочная квантиль порядка р. Покажем, что в этом примере G(F) дифференцируем первого порядка в точке i*o, если Fo(t) дифференцируема в точке CP = JF0-1(p)1F%)>0. Действительно, по определению G(F0 + hvh) = max{t: F0{t) + hvh(t) < ρ}. Так как этот функционал является непрерывным в равномерной метрике в точке Fo, то мы можем положить G(Fq + hvh) = ζρ + £, где 6 = 6(h) -> 0 при h —► 0. Далее, из соотношения \\vh - v\\ -+ 0, υ Ε С(—оо, оо), следует |«л(р + *)-ил(р)| ξγ(Λ) ->0 при /ι —> 0. Так как FoiCP + S)=p + SF^p) + o{S), то для £ = G(Fo + hvh) = ζρ + # получаем *b(i) + /юл(<) = Ρ + Мо(Ср) + о(*) + ΛνΛ(ζρ + «) = = Ρ + ^о(Ср) + ο{δ) + Η{υΗ{ζρ) + rr{h)) < ρ, где |г| ^ 1. Аналогичное обратное неравенство можно написать, пользуясь тем, что Fo(t + 0) + hvh{t 4-0) ^ р. Отсюда следует, что ό + о(6) = -τ-— , |п| < 1, так что G(Fo + ^)-G(Jb) = £ ν(ζΡ) h h F^PY Таким образом, производная G'(Fq,v) в этом примере равна Пример 2. Рассмотрим функционал G[F) = sjip\F(t)-F0(t)\. t Очевидно, что он дифференцируем первого порядка по любому направлению ν Ε С(—οο,οο), так как G(Fq) = 0, , G(F0 + hv) G{F0,v) = ^—r = sup v(t) , Л t при этом G^Fqjv) от Fq не зависит.
§ 8. Предельное распределение для статистик второго типн 53 оо Пример 3. Функционал G{F) = / \F{t) - F0(t)\k dR(t) для любой функции ограниченной вариации R(t) является непрерывно дифференцируемым порядка к по любому направлению ν Ε С(—οο,οο), так как оо 0'(Ρ0,ν) = 0{Ρο+Ηυ) = f\v(t)\4R(t). -оо Пример 4. Рассмотрим функционал G{F) ~ ^ A~F0 ' где AjF суть приращения функции F на интервалах Δ^· = [ij,<j-+-i)> образующих разбиение вещественной прямой. Очевидно, что nG(F*) есть не что иное, как статистика χ2, рассмотренная в примере 7.3 в качестве статистики I типа. Рассматриваемый функционал будет непрерывно дифференцируемым второго порядка, так как для него G'(F0,v) = G(F0 + hv) ,Α (Δ^)2 h? Обобщением функционалов в примерах 2-4 являются функционалы вида G(F) = Gi(F — Fo), где функционал Gi является однородным в том смысле, что Gi(hv) = hkGi(v). Очевидно, все такие функционалы будут дифференцируемыми. Пример 5. Статистики I типа, введенные в § 3, соответствуют функционалам G{F) =h( J g{x)dF{x)) . Эти функционалы будут одновременно функционалами II типа, если функция h непрерывна в точке / g(x) dFo(x), a д имеет ограниченную вариацию. В этом случае, считая, не ограничивая общности, д{—оо) = 0, получим, что интеграл / g(x)dF(x) = / (1 — F(x))dg(x) непрерывен относительно F в равномерной метрике. Если вариация д не ограничена, то такая непрерывность, вообще говоря, будет отсутствовать. Если, например, h(x) = χ, д{х) =х, FM = (l--jF04--Fi, где a = xdF0{x) < оо, ί xdFx{x) = = оо, то ||F(n) - Foil -+ 05 G(F0) = a, G{F^) = оо при всех п. Если функция h дифференцируема в точке a = / g(x)dFo(x), g имеет ограниченную вариацию, то функционал G дифференцируем первого по-
54 Гл.1. Выборка. Эмпирическое распределение рядка в точке Fo, при этом (\\νε — υ\\ -> 0 при ε -> 0) G;(Fo,t;) = lime""1 (h (α- ε / ^(ж)^(х) J -Λ(α)) = = -Λ#(α)^Φ)*(^) Пример 6. L-статистики были введены в §3. Мы будем рассматривать L-статистики, соответствующие функционалу 1 G(F) = JV(t)g(F-1(t))dt, (3) о где F"1 — функция, обратная к F\ ψ и g — заданные функции. Пусть ι f<p(FQ(t))gf(t)dt <оо, (4) о функции Fq и g непрерывно дифференцируемы. Опуская ввиду громоздкости обоснование предельного перехода под знаком интеграла, в силу примера 1 будем иметь (F^(t) = f(t)) ОД + hvh) = J <p(t)g hoHt) ~ уШШ + °(Л)) dt = 1 1 / _! ч = J' v(t)<p(F0-\t)) dt -hJ^y(F-\t))V-^^+ o(h); 0 1 lim /^[ОД + hvh) - G(F0)} = - Кш^Ч*))^}^· Это значит, что функционал G, определенный в (3), дифференцируем первого порядка, 1 _, оо G'(F0,v) = - J φ(ι)9'{F0-\t))V-^^ = - J V(Fo(t))^(t)t;(t)dt. О —оо (5) Сформулируем теперь основную теорему о предельном распределении функционалов второго типа. Через fg мы будем обозначать функцию fg{x) —
§ 8. Предельное распределение для статистик второго типа 55 Теорема 2. Пусть Fq непрерывна, X ^ Fq u функционал G(F) дифференцируем (порядка к в смысле определения 1). Тогда nk'2{G{F*n) - G(F0)) => G'(Fo,w°F0), (6) где w° есть броуновский мост. Доказательство. Воспользуемся теоремой 6.3. В ней доказана сходимость распределений функционалов от процесса wn(t) = y/n(F*(t) — F(t)), где X ^ Fq = U, U есть равномерное на [0,1] распределение. В соответствии с этим функционалы в теореме 6.3 определены на пространстве (ί}(0,1),σ£>), а не на (D(—οο,οο)σ#), как в общем случае. Поэтому предварительно мы должны произвести редукцию рассматриваемой задачи к условиям теоремы 6.3. Для этого воспользуемся соотношением F£ = U^Fq (см. (6.4)), где U£ — эмпирическая функция равномерного на [0,1] распределения, Fq — распределение, соответствующее выборке X. Это соотношение позволяет сводить изучение распределения G(F£) (G определен на D(—оо, оо)) к изучению распределения Gq(U*), где функционал Go определен на элементах Η из D(0,1) равенством Gq(H) = G(HFq), так что Go(·) есть значение исходного функционала G, но от функции, у которой произведена замена «времени» t на Fo(t). При таком определении Go имеем G(F) = GiFF-'Fo) = GoCFFo"1). Так как F^Fq1 = U* соответствует согласно (6.4) выборке из равномерного на [0,1] распределения, то g{f;)=g0(u:). Покажем теперь, что если функционал G дифференцируем, то Go также дифференцируем, G'Q(U,v) = G'(Fq,vFq). Действительно, при Цг^ — υ\\ —> 0 имеем G'Q(U,v) = limh-k[GQ{U + hvh)-GQ{U)] = = lim h-k[G(F0 + hvhF0) - G(F0)} = G'(F0>vF0). Итак, нам достаточно доказать теорему 2 в предположении Fq = U. Рассмотрим величину [G{F$ - G(U)]nk/2 = G'(U,wn) + Hn(wn), где Нп{х) = [G{U+x/y/n)-G{U)]nk/2-G'{U,x). Так как в силу теоремы 6.3 и определения 1 G'{U,wn) => G'(i7,ги°), нам достаточно убедиться, что Я„Ю -^ 0. (7)
56 Гл.1. Выборка. Эмпирическое распределение Заметим, что для любого компакта К С С(0,1) и любой последовательности hn —> 0 при η —> оо sup |Яп(ж)| -> О, (8) xGD(0,l) xe(K)hn где (if)e есть ε-окрестность множества К. Допустив противное, придем к существованию последовательности xn G jD(0, 1) такой, что \\хп — х\\ -> 0, χ Ε С(0,1). limsup\Hn(xn)\ > О, что противоречит дифференцируемое™ G. п—юо Напомним теперь (см., например, [7]), что компакты в метрическом пространстве непрерывных функций С(0,1) с равномерной метрикой описываются следующим образом. Каждой функции <£>(Δ) > О, </?(Δ) -* 0 при Δ —> О, и числу N > 0 соответствует компакт К = Κ(φ, N) = {ye С(0,1) : шА(у) ^ φ(Α), |у(0)| ^ Ν}, где о>д(у) есть модуль непрерывности у: ^д(у) = sup |y(i)-y(tz)|. Обозначим через К^ множество Kh = {ye £>(0,1) : соА{у) < φ{Α) для всех Δ ^ Л; |у(0)| ^ Ν}. Множества Kh можно было бы назвать «предкомпактами» (этот термин используется в функциональном анализе в ином смысле), порожденными ком- оо пактом К. Ясно, что К^ С К^2 при h\ < /12, Π К ι/η = К и что К^ С 71=1 с {K)^hl Покажем теперь, что для заданного δ > 0 существуют компакт К (и, стало быть, соответствующее ему семейство предкомпактов К^) и последовательность hn —¥ 0 при η —> оо такие, что limsupP(wn £#,>„) О- (9) 71—VOO Действительно, по теореме 6.3 для любого функционала /, непрерывного в равномерной метрике, выполняется f{wn) =>· /(w°), где wn(t) = = y/n(F*(t) — ί), 0 < t < 1. Так как о>д(у) является таким функционалом, то а>д (ги71) =>> о>д(м°). Но о>д(м°) —^ 0 при Δ -» 0, так как траектории п.н. ги° почти наверное непрерывны. Следовательно, для заданных ε и δ при достаточно малом Δ Ρ{ωΑ{υι°)>ε)^δ. Считая, не ограничивая общности, число ε точкой непрерывности распределения и;д(^°), мы получим HmsupP^ACu/1) > ε) ^ δ. η—>·οο
§ 8. Предельное распределение для статистик второго типа 57 Пусть теперь ε^ I 0 — некоторая последовательность, а числа Δ& | О таковы, что г limsupP(o;Afc(ujn) > ek) < -j-^. η—>·οο -ώ ^ Образуем функцию <£>(Δ) = ε& при Δ G [Δ^+ι, Δ^). Ясно, что <^(Δ) -> 0 при Δ —> 0, и мы можем рассмотреть предкомпакты К^ построенные по функции ψ. Тогда для любого к < оо HmsupP(ti;n £ К^к) ^ HmsupУ^(^ (wn) > Sj) < η—юо п->оо . - fc+1 , ^ VlimsupP^^71) > е,-) ^ - 1 п—»оо ^ .7=1 (при к — оо это неравенство может быть неверным). Полученное соотношение означает, что при каждом δ существует последовательность hn —> 0 при η —¥ оо такая, что выполнено (9). На основании (8), (9) получаем P(\Hn(wn)\ >е)^ Р(|ЯПК)| >*,«;»€ #Лп) + P(wn i Khn), HmsupP(|tfn(wn)| > ε) ζ δ. η-»οο Так как £ произвольно, το соотношение (7), а вместе с ним и утверждение теоремы доказаны. < Вернемся к рассмотрению примеров. В примере 1 для выборочной квантили ζ* = F~l(p) порядка ρ имеем согласно (2) и теоремы 2. Следствие 1. Если Xn €= Fo, Fq непрерывно дифференцируема в точке Ср, ^о(Ср) > О? wo Для доказательства надо заметить лишь, что условия следствия 1 означают непрерывную дифференцируемость F^~ в точке р: {F°~1{p))' щроЧр)) тРг Так как Ew°(p) = О, Ow°{p) = E(w{p) - pw(l))2 = Е(ги(р)(1 - ρ) + + p(w(l) — w(p)))2 = p(l -p)2 +p2{l —p) =p(l ~ p)» то утверждение след-
58 Гл.1. Выборка. Эмпирическое распределение ствия 1 можно записать также в виде (c;-Cp)^e>*o^ *2 = й^· < О распределении выборочных квантилей см. также п. 12.9. В примере 2 функционал G(F) — sup \F(t) - Fo(i)| дифференцируем и, стало быть, по теореме 2 G(F*)^^sjip\w°{FQ(t)\ = sup |u;0(i)|. Это соответствует тому, что для произвольной непрерывной функции распределения Fq распределение статистики D(X)=snp\F*{t)-F0(t)\ t остается тем же, что и для случая Fo(t) = t, t Ε [0,1]. Распределение η = sup |tu°(<)| найдено в явном виде [104]: оо Ρ(η < ζ) = К (ζ) Ξΐ+2 ]£(-1)*е-2*2*2. Jc=l Функция К (ζ) называется функцией Колмогорова. Мы получили, таким образом, Следствие 2 (теорема Колмогорова). Если X €= Fo, Fo непрерывна, то y/^D{X) & К. Это означает, что максимальное уклонение -D(A") функции F*(t) от Fo(£) имеет порядок \j\fn и может быть приближенно представлено в виде D(X) « В примере 3 в силу теоремы 2 получаем nk'2 j\F*{t) - F0(t)\k dR{t) => f\w°(F0(t))\kdR(t). В частности, при к = 2 и R(t) = Fo(t) мы получим статистику, обозначаемую о;2, распределение которой инвариантно относительно Fo и для которой справедливо Следствие 3. Если X ^ Fo, Fq непрерывна, то ι ,2 о f[w°{t)]2dt. 1 12 /[»°(*)] Распределение / [ги (t)] dt также найдено в явном виде и наряду с рас- о пределением К [ζ) табулировано.
§ 8. Предельное распределение для статистик второго типа 59 Применительно к примеру 4 теорема 2 дает X^l· W Если обозначить через SjF приращение F на интервалах Sj = [tj, τ^+ι), ту = = Fo(tj) и обозначить той же буквой 5j длину интервала <5у, то мы получим Следствие 4. ЕЪш А" ^ Fq, Fq непрерывна, mo г 'Γ „0Л2 Σ .2 . \^ W (ίΧ)2 ■ 1 *J Если положить ξ = (ξι,...,ξΓ)ϊ fj — $jw°/y/fij) T05 пользуясь тем, что (^•гу° = SjW — w(l)Sj, где w — стандартный винеровский процесс, получим г Здесь матрица σ2 = \\σ^\\ та же, что и в примере 7.3, так как 5jW° = SjW - ί Χ) **™ ) *7 = Σ akjhw> ^ k ' k=l akj = ifej - *j, E(^tu)(J^) = £fc/4 (£jw — символ Кронекера), Ε(<^)(<^°) 1 ^ σΐ3 = /ΊΓΊΤ = /ΤΤ~ / > akiakjOk = '#t<5j (£y Ji — ί,-ij) = % - y/S{Sj. Повторяя рассуждения примера 7.3, получим, что 2_] £у имеет распределение χ2 с г — 1 степенями свободы. Для примера 5 справедливо Следствие 5. Если X^Fq, Fq непрерывна, функция g имеет ограниченную вариацию, h непрерывно дифференцируема в точке а — = / g{x)dFo{x), то yfc{G(FZ-h{a)) => -ti(a)Jw0(FQ(x))dg(x). (10)
60 Гл.1. Выборка, Эмпирическое распределение Правая часть здесь имеет нормальное распределение с параметрами (o,(h'(a))2J(g(x)-a)2dF0(x)y (11) Чтобы вычислить распределение правой части в (10), можно воспользоваться простейшими свойствами стохастических интегралов, в силу которых (интегрирование по частям) - J w°(F0(x))dg(x) = J g(x)dw°(F0(x)) = = Jg(x)dw(F0(x))-w(l)J(g(x)dF0(x)) = J'(g(x) - a)dw(F0(x)). Этот интеграл имеет нормальное распределение с параметрами (o,J(g(x)-a)2dF0(x)y Если названные свойства стохастического интеграла (правило интегри- 1 Ib{t)dw{t) рования по частям и нормальность / b{t) dw[t) читателю не известны, о можно воспользоваться аналогичными свойствами сумм случайных величин, η , поскольку / b(t) dw(t) для непрерывных &(-) можно рассматривать как η предел /~^£а:,п&(&/п)> гДе £fe,n = w{k/n) — w((k — Ι)/η) суть независимые, A;=l одинаково (нормально) распределенные случайные величины с параметрами (0,1/п). Аналогичную трактовку следует использовать для исходного интеграла вида fw\t)dg(t) W£)=5>.»· -Ί;)-^)-^1» Тогда, меняя порядок суммирования (аналог интегрирования по частям), мы придем к асимптотическому равенству допредельных сумм, а следовательно, и к равенству пределов. Замечание 2. Второе утверждение следствия 5 (см. (11)), как показывает теорема 7.1, справедливо и при более общих предположениях, когда вместо ограниченности вариации функции g требуется лишь существование g2(x)dF0(x). I Для L-статистик G(F*) в примере 6 (функционал G определен в (3)) в силу теоремы 2 справедливо
§ 8. Предельное распределение для статистик второго типа 61 Следствие 6. Если X €= i<o, g и Fo непрерывно дифференцируемы и выполнено (4), то ι v^(G(Fn*) - ОД)) =► Ja(t)w°(t)dt, (12) о a(t)=<p(t)g'{F0-l(t))/f{F0-1(t)). Правая часть в (12) нормальна с параметрами О, о 1 ,j A*(t)dt-A2Y (13) zdeA{t) = I a{t)dt, A= I A(t)dt. t о Чтобы убедиться в последнем утверждении, надо, как и в предыдущем следствии, воспользоваться интегрированием по частям: 1 1 J a(t)w{t) dt = ( A(t)dw{t), о о 11 11 ί a{t)w°(t)dt = ( A(t)dw(t)-w{l) fta{t)dt = /{A(t) - A)dw(t), 0 0 0 где правая часть нормальна с параметрами ), Г {A{t) - A)2 dt) = (θ, ΓA2{t)dt-A2 Замечание 3. Можно показать (см., например, [102]), что второе утверждение следствия 6 (о нормальном предельном распределении y/n(G(F*) — G(Fq)) с параметрами (13)), как и в следствии 5 (см. замечание 2), остается справедливым и при более широких условиях, когда ι требуется лишь / A (t) dt < со JA\t), о Существует много других примеров, показывающих, что теорема 2 остается справедливой и при условиях более широких, чем те, что сфор-
62 Гл.1. Выборка. Эмпирическое распределение мулированы в теореме 2. Если воспользоваться представлением F£{t) — = Fo(t) -i—y=wn(Fo{t)) (см. (6.6)), где поведение wn описано в теореме 6.3, то можно записать Vii{G{F*) - G(F0)) =^(g (f0 + -^™nF0) - G(F0)\ « G'(F0,wnF0), (14) где производная G'(F0,v) = lim h-^GiFo + hv) - G{F0)) может быть определена на элементах ν из какого-нибудь другого пространства (не обязательно С( —οο,οο)), а функционал G'(F$,v) не обязан быть непрерывным относительно ν в непрерывной метрике. Тем не менее в этих условиях мы по-прежнему можем иметь требуемую сходимость Gf(Fo,wnFo) =*► G'(Fo,w°Fo) (как это имело место в примерах 5, 6), если, конечно, правая часть этого соотношения имеет смысл (см. также результаты § 14 о распределении М-оценок). По своему существу теоремы 1 и 2 близки соответственно теоремам непрерывности 5.1 и 5.3, но они действуют в функциональных пространствах. В заключение этого параграфа отметим, что далеко не все статистики, представляющие интерес, могут быть отнесены к статистикам I и II типа. Достаточно рассмотреть, например, [/-статистики (скажем, U(X) = η = 2_\ h{xi,Xj); см. §3) или статистики 5, связанные с функционалами Gn(F), где функционалы Gn «существенно» зависят от η (не только через выборку), такие, как, скажем, максимальный член вариационного ряда S{X) =x(n) = СГ_1/Пидр. § 9.* Замечания о непараметрических статистиках Есть одно свойство, в отношении которого статистика ζ* в примере 8.1 существенно отличается от статистик в примерах 8.2-8.4. Это свойство состоит в том, что предельное распределение статистик в примерах 8.2-8.4 (см. следствия 8.2-8.4) никак с функцией распределения Fo не связано. Этого нельзя сказать о статистике ζ* и о статистиках в примерах 8.5, 8.6 (ср. со следствиями 8.1, 8.4, 8.5). Определение 1. Статистика S(X) называется асимптотически непараметрической, если S(X) ©► Q, когда η -> оо, и Q не зависит от распределения X, т.е. не зависит от Fq, если X ^ Fq. Отметим, что сама функция S при этом может зависеть от Fq. Сам термин «непараметрическая» является не совсем удачным; однако он весьма распространен (он оправдан в случае, когда Fq принадлежит некоторому параметрическому семейству — тогда распределение Q не зависит от параметра и в этом смысле является непараметрическим). Иногда используется другой термин — «свободный от распределения».
§10. Сглаженные эмпирические распределения 63 Мы видели в §6-8, что статистики y/nD(X), ηω2(Χ), χ2{Χ) являются асимптотически непараметрическими. Заметим теперь, что теорема 6.1 делает возможным введение и более узкого понятия. В теореме 6.1 установлено, что nF^(t) распределено так же, как 77(^0(^)5 где v{u) — условный пуассоновский процесс с произвольным параметром λ > 0 при условии 77(1) = η (см. § 6), т. е. процесс, от Fq не зависящий. Таким образом, если статистика S построена как функционал G(F£) (или G(F£ — Fq)), который инвариантен относительно замены «времени» t у аргумента, то распределение S от Fq зависеть не будет. Например, D = snp\FZ{t)-Fo{t)\ = -suvfo{FQ(t))-nFo(t)\ = - sup \η(η)-ηη\. t d Π t пиф,1] (1) Сказанное делает уместным Определение 2. Статистика S(X) называется непараметрической, если ее распределение не зависит от Fq (X ^ Fq). Соотношения (1) означают, что статистика D является непараметрической. Мы отмечали также (см. следствие 8.3), что статистика ω2 наряду с D не зависит от Fq и, стало быть, тоже является непараметрической. Статистика χ2, являясь асимптотически непараметрической, не будет обладать свойством непараметричности. В этом легко убедиться непосредственно на примере, положив г = 2, η = 1. Другие примеры непараметрических статистик мы получим, если рассмотрим значения F*((p), где ζρ — квантиль порядка р, так что nF*((p) = d = η(ρ) (см. §6). Число rj элементов выборки X, меньших, чем х^, — так d называемая ранговая статистика — также будет непараметрической статистикой. Понятия непараметрической и асимптотически непараметрической статистик весьма полезны в теории проверки статистических гипотез (см. главу 3), так как распределение этих статистик, знать которое необходимо при построении критериев, достаточно вычислить лишь один раз (например, для равномерного распределения Fq) и оно будет годиться для любых других распределений выборки. § 10.* Сглаженные эмпирические распределения. Эмпирические плотности В § 2 мы каждой выборке X поставили в соответствие распределение P*j, которое назвали эмпирическим и которое представляет собой сумму η атомарных распределений, сосредоточенных в точках χχ,.. .,хп. Это распределение обладает рядом замечательных свойств, описанных в предыдущих параграфах. Однако использованное нами определение Р* далеко не единственно возможное, а в ряде случаев и не самое естественное. Существуют и другие подходы к определению Р£, при которых изученные выше полезные свойства эмпирических распределений не только полностью сохраняются, но и дополняются рядом новых.
64 Гл. 1. Выборка. Эмпирическое распределение Мы ограничимся здесь обсуждением вопроса о природе распределений, которые мы помещаем в точки х^. В использованном нами определении Р* это были вырожденные распределения IXi(i?), так что ρη(β) = ^Σ^(β)· w В этом случае эмпирическое распределение оказывается сингулярным относительно меры Лебега и, стало быть, не имеет плотности. Это может оказаться неудобным в тех случаях, когда нам заранее известно, что исходное распределение Ρ имеет плотность. При этом условии было бы желательно иметь такое гладкое эмпирическое распределение Р*, для которого вместе со сходимостью Р£ -4 Ρ во всех установленных выше смыслах имела бы место также сходимость плотностей /* —> /, где /* и / есть плотности, соответствующие Р* и Р. Этого нетрудно добиться следующим образом. Пусть Q — какое-нибудь распределение, имеющее плотность. Положим •WJ-sEQ^)· (2) В -χ где —;— есть множество точек у € •£, для которых χ 4- yh € В] hn —» О h при η —> оо. Очевидно, что Р**(В) есть не что иное, как «средняя сумма» распределений Q, сжатых до размеров hn и «посаженных» в точки х^. Определение (2) обобщает (1). Формула (1) получается из (2), если положить Q = Ιο, так как IXi(B) = Iq(B — xt·) = Ιο Ι —г—- ] при любой последовательности {hn}. Отметим следующие свойства распределения Р**, которое будем называть сглаженным эмпирическим распределением. 1. Распределение Р** есть свертка распределений Р£ и Q(B/hn), a РП(В) = ЕКЧВ) = J Q {^) РШ есть свертка распределений Ρ и Q(B/hn). Другими словами, Рп(В) есть распределение случайной величины ξ + /ιη77, где ξ ^ Ρ, η €= Q. Из теорем непрерывности следует, что при hn —> О Рп => Р. (3) Напомним, что для распределения Р£ мы имели точное равенство ер; = р.
§ 10. Сглаженные эмпирические распределения 65 2. Распределение Р** будет удовлетворять теоремам типа теоремы Гли- венко-Кантелли. Действительно, в этом случае сходимость (3) будет означать равномерную сходимость распределений по всем интервалам. Ограничиваясь для простоты одномерным случаем, будем иметь (F**(x), Fn(x) и Q(x) обозначают функции распределения, соответствующие Р**, Рп и Q) F? - F(x) = |Q (^) dF*n{y) - F(x) = = -JF*n{y)dyQ{^>j-F{x) = = Fn(x) - F(x) - f{F*{y) - F(y)) dyQ (^) . Здесь, как уже отмечалось, разность Fn(x) — F(x) -* 0 равномерно по я, а интеграл, присутствующий в правой части, не превосходит syxV\F*n{y)-F{y)\—Ю. у П.Н. 3. Преимущество Р** перед Р£, ради которого это распределение и вводилось, состоит в том, что это распределение имеет плотность я»-±р{Ч?)-Ы'{Ч?)'х (У) (4) (q(x) есть плотность распределения Q), которая при каждом χ при η —> оо, hn -> 0 сближается с плотностью f(x) распределения Р. Прежде чем доказывать соответствующее утверждение, заметим, что для получения хороших результатов о сближении f^\x) с f(x) следует пользоваться гладкими ограниченными плотностями q. При выборе, скажем, неограниченных q оценка f^{x) гладкой плотности f(x) будет нарочито портиться. Так как выбор q находится в наших руках, то мы можем считать, что по крайней мере выполнено условие d2= ί q2{t)dt <ос. (5) Теорема 1. Если q удовлетворяет условию (5), f(x) непрерывна и ограничена, hn -> 0 при η —> оо так, что nhn —> оо, то км = /„(*) + ^Ы=, (6) y/nhn где /п(ж) есть неслучайная функция fn(X)=Bf*(x)=m-1q(^^- = ^Jq(^1^)f(t)dt = Jq(z)f(x-zhn)dz^f(x) (7)
66 Гл.1. Выборка. Эмпирическое распределение при hn —> 0. Случайные величины ζη(χ) асимптотически нормальны, ζη{χ) & Φ0,σ2(*), <72(ζ) = f{x)d2. Доказательство. Сумма в (4) есть сумма независимых одинаково распределенных случайных величин в схеме серий, при этом /η(#) = Έ/*(χ) представлено в (7). Положим hnfn{x)\ s/c,n — y/nhn hn Тогда 1 n Vnhn^ hn \ hn J hn J \ hn J = fq2{z)f{x-zhn)dz->f{x)fq2{z)dz = f{x)d2. (8) Таким образом, Εξ^η ~ f(x)d2/n, если f(x) > 0. Условие Линдеберга в нашем случае имеет форму ηΕ(£?,η;|£ι,η|>ε)-»0 при η —>· оо и любом ε > 0. Так как hnfl{x) -> О, <«<2(^(^)+*"/«<*))' то для выполнения (9) достаточно, чтобы '№№> .(^)>.^)-а Это соотношение имеет место, так как левая часть его равна (ср. с (8)) / q2{z)f{x- zhn)dz ^c / q2(z) dz -> 0. (9) ς(^)>εν/η/ιη q(z)>ey/nhn Таким образом, к случайной величине ζη(χ) = /_~]£а;,п применима цен- k=l тральная предельная теорема. Это доказывает теорему 1. <
§10. Сглаженные эмпирические распределения 67 В рассматриваемой задаче естественно возникает вопрос об оптимальном выборе hn и функции q(t). Однако ответ на него зависит от свойств гладкости f(x). В самом деле, пусть, например, f(x) положительна лишь на конечном интервале и дважды непрерывно дифференцируема с фиксированным значением φ = / (f"{x))2 dx. Предположим также, что / zq(z) dz = 0 (это всегда так для симметричных q(z)) и что D2 = / z2q(z) dz < оо. Тогда fn(x) = / q{z)f(x - zhn) dz = = Jq(z) [/(χ) - zhnf'(x) + ^f"(x) + o{z2h2n)] dz = = f{x)^l^^jz2q{z)dz + o{hl). Мы видим, что Я(.)-/(.)-^И + ^ + .(«). E[№)-/(x)]2=(^^)2 + ^ + oW). Минимизация этого выражения по hn и q даст, в силу асимптотической нормальности ζη(χ)·> наименьший возможный «разброс» f^[x) около значения fix). Однако минимизирующие значения hnnq при этом будут зависеть от χ через неизвестные значения f(x) и f"(x). Чтобы избавиться от этого эффекта и получить оптимальность «в среднем», естественно рассмотреть интеграл "E[/*(x)-/(x)]2dx, (И) /' главная часть которого будет равна (Ζ)2/ι2/2)2<£> + d2/nhn (это получится, если в (10) убрать ο(Λ„))· Минимум этого выражения достигается при hn — (d2/nD4<p)1/5. При таком выборе hn интеграл (11) будет равен !»>,/5(1И2)4/5„-4/5 + (>(„-4/5)> дм - т - (gf (Ш + /(х)^?„) + «.-«·). (12) ξη & Φθ,1·
68 ГлЛ. Выборка. Эмпирическое распределение Таким образом, скорость сходимости здесь составляет лишь η 2'5 в отличие от скорости η""1'2, которая имеет место для сходимости функций распределения. Это естественный факт, так как в оценке значения f(x) принимает участие, грубо говоря, не вся выборка, а лишь те наблюдения, которые сосредоточились в некоторой убывающей окрестности точки х. Выражение (12) позволяет оптимальным образом выбрать и функцию q{z), т.е. функцию, для которой минимизируется Dd2. Считая, не ограничивая общности, что D = 1, получим задачу минимизации d2 = / q2(z)dz при условиях / q(z) dz = / z2q(z) dz = 1, / zq{z) dz = 0. Отметим, что если / имеет непрерывные производные более высокого порядка 2га > 2, то можно получать и более высокие скорости сходимости к нулю разности f^{x) — }{x)· При этом, однако, надо использовать обобщенные распределения Q, «плотность» которых q может принимать значения обоих знаков и позволяет удовлетворять условиям / z2mq(z)dz = 1, / z3q(ζ) dz = 0 при всех 1 ^ j < 2га — 1. В этом случае путем прежних рассуждений мы сможем получить скорость сходимости порядка η 2m/(4m+1) = = n-i/2+i/2(4m+i) ? к0т0рая будет тем лучше, чем больше т. Этот факт объясняется тем, что для более гладких f(x) к оценке значения f(x) привлекаются элементы выборки, лежащие во все более широких окрестностях точки х. С другой стороны, выбирая гладкие функции q(z), мы можем обеспечить возможность оценивать не только плотности /(ж), но и их производные. В этом также можно убедиться с помощью приведенных выше рассуждений. Функции fn(x) вида (4) называют часто оценками Розенблата-Парзена плотности f(x) или ядерными оценками /(ж). Функции q(z) называют при этом ядрами. На практике часто используют «прямоугольные» ядра, т.е. полагают «(*) = { 1 при ζ Ε 0 при ζ £ 1 1 2'2 1 1. 2'2 Иногда поступают еще проще — разбивают вещественную прямую на маленькие интервалы Δ^ (длиной hn) и полагают f^{x) = Vjjnhn при χ Ε Aj, где Vj — число элементов выборки, попавших в Δ^. Такая функция fn{x) называется гистограммой выборки. Нетрудно проверить, что если f(x) непрерывна, то гистограмма fnix) наряду с функцией, определенной в (4), также обладает свойством сходимости f^{x) —> /(#), если только hn —> 0, nhn —> оо.
Глава 2 ТЕОРИЯ ОЦЕНИВАНИЯ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ Параграф 12 содержит описание наиболее распространенных параметрических семейств распределений и их основных свойств. В § 13-16 излагаются основные методы получения точечных оценок. В § 17, 18 обсуждаются подходы к сравнению оценок. Параграфы 19-30 посвящены методам построения оптимальных (в том или ином смысле) оценок. Выделены следующие 4 направления: 1) (§ 19-21, 30) Байесовский и минимаксный подходы к построению оптимальных оценок. Параграфы 19, 20 носят вспомогательный характер и содержат определения и изложение основных свойств условных математических ожиданий и условных распределений. 2) (§ 22-25) Построение оптимальных (эффективных) оценок с помощью принципов достаточности и несмещенности. 3) (§ 26, 27, 30-32) Построение оптимальных (эффективных) оценок на основе неравенства Рао-Крамера. 4) (§ 28, 29) Использование соображений инвариантности. В §31, 33-37 изучаются асимптотические свойства отношения правдоподобия. На этой основе устанавливается асимптотическая оптимальность оценок максимального правдоподобия. Результаты этих параграфов составляют также основу теории асимптотически оптимальных критериев, развитой в главе 3. Параграфы 39, 40 посвящены интервальному оцениванию. § 11. Предварительные замечания Как мы уже отмечали в предыдущей главе, исходным объектом статистических исследований является выборка Хп — (хь · · ·>χη)> χ^ Ε А', из распределения Р, которое полностью или частично неизвестно. В математической статистике традиционно выделяют в качестве основных два следующих класса задач. 1. Оценка неизвестных параметров. 2. Проверка статистических гипотез. Задачи первого класса возникают, когда по выборке X = Хп нужно оценить какую-нибудь неизвестную числовую характеристику θ распределения Ρ (оно ведь неизвестно). То есть для заданного функционала θ = 0(Р) от распределения Ρ мы должны указать функцию от выборки (или, что то же, статистику) Θ* = 0*(ХП),
70 Гл. 2. Теория оценивания неизвестных параметров предназначенную для использования вместо параметра θ в качестве его приближения. Мы видели в предыдущей главе, что предпосылки для этого существуют. Статистику Θ* называют оценкой параметра Θ. Разумеется, оценок для параметра θ может быть очень много. Теорема 3.1 показывает, что, например, для оценки функционала θ = 0(Р) вида θ = Jg(x)dF(x) естественно использовать статистику «* = ££>(*)■ Но можно, конечно, рассматривать и другие оценки, скажем L-статистики - п-и2 ^i/i + l (см. пример 8.5), где xyj, j — l,...,n, — элементы вариационного ряда и т. д. В качестве Θ* можно брать и значения, не зависящие от выборки. Можно положить, например, Θ* = 0, хотя это не всегда разумно и совсем плохо, если множество возможных значений θ не содержит 0. В связи с последним замечанием отметим, что часто в постановке задачи об оценивании содержится указание на то, каким является множество Θ возможных значений параметра Θ. Например, если оценивается доля θ какого-нибудь минерала в руде, то ясно, что θ Ε [0,1]. Во многих случаях бывает заранее известно также, что распределение Ρ выборки X не может быть произвольным, а принадлежит какому-то определенному семейству распределений V» К задачам оценки параметров относится пример 1 из введения. Задачи второго класса имеют дело с проверкой того или иного предположения (гипотезы) о неизвестном распределении Р. Например, мы можем проверять гипотезу о том, что Ρ имеет тот или иной заданный вид. К этому типу задач относится пример 2 из введения. Позже мы увидим, что качественной разницы между задачами первого класса (теории оценок) и второго класса (проверка статистических гипотез) не существует. В этой главе мы приведем постановки задач и подходы, которые тесно связаны с результатами предыдущей главы и которые можно назвать «чисто статистическими» в отличие от более общих теоретико-игровых подходов, изложенных в главе 6. В известной мере чисто статистические подходы выражают существо методов математической статистики. Исторически они были осознаны значительно раньше, чем более общие методы. Что же касается их применения, то, по-видимому, человек пользовался ими, явно или неявно, на протяжении всего пути процесса познания. Все это оправдывает отдельное изложение чисто статистических подходов несмотря на то, что некоторые моменты этого изложения в рамках более общих концепций можно рассматривать как частные случаи. Одновременно
§ 12. Некоторые параметрические семейства распределений 71 мы обнаружим некоторую недостаточность чисто статистического подхода для более точных постановок задач. Это поможет нам понять целесообразность других точек зрения. § 12. Некоторые параметрические семейства распределений и их свойства Рассмотрим некоторые семейства распределений, зависящих от параметров (или параметрические семейства распределений), которые часто возникают в приложениях и будут появляться в дальнейшем изложении как по существу его, так и в качестве иллюстраций. 1. Нормальное распределение на прямой. Символом Φα>σ2 мы будем обозначать нормальное распределение с параметрами (α,σ2), т.е. распределение с плотностью -(х-а)2/2<72 так что σ\/2π в Если ξ €= Φο,ι и к ^ 0 — целое число, то, очевидно, щ2к+1 = 0 Для моментов четного порядка, пользуясь заменой χ = \/2и, находим 00 00 ъ+2к 2 f 2k -x*/2 J 2 + Г к -и du 2к _ / 1 щ2к = _^ / х2ке χ /2 άχ = _^ ι ике и—^ = ρ А: + - х/2^ J yfa J V2u A V 2 где оо Γ(λ)= f x^e^dx (l) о есть Г-функция, Γ(λ) = (λ - 1)Γ(λ - 1), Г(1/2) = χ/тг, так что Е£2/с = (2* - 1)!! = (2к - l)(2fc - 3)... 1. Такой же результат мы получили бы, дифференцируя 2к раз характеристическую функцию е~ь /2 в точке t = 0. 2. Многомерное нормальное распределение. В многомерном случае # = = Мт символ Φα?σ2 означает нормальное распределение в Шт с вектором математических ожиданий а — (ai,...,am) и матрицей центральных вторых моментов а2 — ||σ^||, i,j = l,...,m. Если А есть матрица, обратная
72 Гл. 2. Теория оценивания неизвестных параметров к σ2 (в тех случаях, когда она существует), то плотность φα,σ2(χ) Β распределения Фа^2 будет иметь вид (см. [17, §7.6]) Ψν,σΦ) = ,2^)m/2 ехр ί --(χ ~ a)Aix ~ α)Τ) > где χΎ есть транспонированный вектор. Напомним также (мы этим фактом уже пользовались в §7), что х.ф. величины ξ €= &α,σ2 равна где t = (*ι,..., tm) есть вектор в Rm. 3. Гамма-распределение. Символ Га>д будет означать так называемое гамма-распределение (или Г-распределение) с параметрами (а, А). Плотность 7α,λ(χ) эт01,0 распределения зависит от двух параметров а>0иА>0и равна (см. [17, §7.7]) ( ^λ 7α,λ(χ) = < α -а*-^-**, я>0, Γ(λΓ , ~^, (2) 10, ζ<0, где Γ(λ) есть Г-функция, определенная в (1). Характеристическая функция Г-распределения имеет вид [17] Jeitx7aiX(x)dx=^^ . (3) о Если ξ ^ rQjA, то оо _ оо О О Такой же результат при целых t > 0 можно было бы получить, дифференцируя характеристическую функцию. Полагая t = 1,2, находим Εξ = -, ϋξ = Α (5) Из формул (3), (4) видно, что параметр α играет роль масштаба, так что - ^ Γα>λ, если η ξ= Γι)λ. α В силу этого обстоятельства многие свойства Г-распределения достаточно изучать при каком-нибудь одном значении а, например при α = 1 или a = 1/2. Второе значение часто будет для нас более удобным, так как распределение Γ!/2,λ играет важную самостоятельную роль в математической
§12. Некоторые параметрические семейства распределений 73 статистике и называется распределением «хи-квадрат» (или %2-распределе- нием). 4. Распределение «хи-квадрат» Щ с к степенями свободы. Так называется распределение Н* = Г1/2,А;/2 пРи целых к > 0. Мы сохраним это название за распределением Щ и при произвольных к > 0. Характеристическая функция распределения Щ равна в силу (3) (1-2ί*Γ*/2. Отметим следующие три свойства распределения Н*. 1) Если щ независимы, щ €= Hfct, г = 1,..., s, то S S <=1 t=l Это свойство сразу вытекает из вида характеристической функции распределения Η&. 2) Если ξ €= Φα>σ2, где Φα>σ2 есть к-мерное нормальное распределение с невырожденной матрицей вторых моментов σ2, то ρ(ξ) = (ξ-α)σ-2(ξ-α)τ^Η*. Действительно, характеристическая функция случайной величины Q(£) равна Ββ*κ° = (^Р / βΧΡ (4Q(*)(1 " Ш)) dxi··-dxk- Произведя замену переменных Xj\/1 — 2it = у^, мы получим выражение (l-2i*)-*^Iy'e-i«Wc^...^fc=:(l-2it)-t> что и требовалось доказать. Независимость интеграла в левой части от изменения области интегрирования вытекает из аналитичности подынтегральной функции и ее быстрого убывания при \у\ —> оо. Из сказанного вытекает, что распределение Η*, имеет случайная величина где £j независимы, £j ^ Φο,ι· Термин «число степеней свободы» связан именно с этим представлением. 3) Так как Εξ2 = 1, Щ* = 3, Όξ% = 2 для ξι ^ Φ0,ι, то в силу центральной предельной теоремы при к —> оо v2 -jfe -ж^*°->- (6)
74 Гл. 2. Теория оценивания неизвестных параметров Отсюда и из теорем непрерывности § 5 следует, что наряду с (6) 2χ2 - VU^l @> Фод. Эта сходимость служит основой для приближенного (при больших к и х) равенства Hfc((0,:r)) « Ф(л/2я - \/2fc - 1), Ф(х) = Φο,ι((-οο,ζ)), которое, как правило, оказывается более точным, чем приближение Н^((0,ж)) « « Φ [ — J , вытекающее из (6). Отметим еще один частный случай Г-распределения, часто встречающийся в приложениях. 5. Экспоненциальное распределение. Это есть распределение Гад с плотностью ae~ax, х > 0. Из формул (5) получаем для ξ ^ Гад щ = -, Ώξ = \ α az Рассмотрим теперь некоторые распределения, связанные с нормальным и Г-распределениями и играющие важную роль в математической статистике. В отличие от предыдущих эти распределения нам прежде не встречались. 6. Распределение Фишера с числом степеней свободы &ι, &2· Так называется распределение случайной величины Μι κ= ι—> «1*72 где щ независимы, r/j Ш Η*., j = 1,2. Нам будет удобнее изучать распределение Ffcb*2 случайной величины которая, очевидно, связана с ус соотношением ус = --—. Причина введения в определении ус нормирующего множителя — состоит в том, что при к\ -> оо, «1 /с2 —> со в силу закона больших чисел будет выполняться ус —> 1. Р Из свойств Г-распределений следует, что распределение ζ останется тем же при щ €= Та,к/2 и любом о: > 0 и что ζ при целых kj допускает представление , *? + ··· + & где случайные величины £j, ζ& независимы, ^· ^ Фод, Cfc €= Φο,ι-
§ 12. Некоторые параметрические семейства распределений 75 Найдем плотность распределения Ffcb£2. Имеем Р(С < х) = Л T1M(du)T1M(dv) =11 ^'^'^e-^dudv; u/v<x ^=0 u=0 00 . , , <iP(C<i) /,(»ι)Λι-1»Λ>-1 _^„ ^ 0 00 Γ(λι)Γ(λ2) /,υλ1+λ2-1 -„(!+«) rf _ ?_! Γ(Λ1 + Λ2) /7Ν Требуемая плотность получится, очевидно, если подставить сюда Xj = kj/2. Нетрудно найти моменты случайной величины ζ (если они существуют): w Γ(λ!+λ2) Г х>*+1-1 , _ Г(Л! + рГ(А2 -1) оо /Χλ (1+ж)А1+А2^= ' Γ(λ!)Γ(λ2) '- (8) О В частности, при / = 1,2 находим λι _2 λι(λι + 1) Е< = ^, ЕС- λ2-1' (λ2-1)(λ2-2)' Распределение Фишера называют иногда также распределением Снеде- кора. Это связано с тем, что Фишер предложил использовать и табулировал, собственно, не распределение х, а распределение случайной величины -1η χ. Распределение же к было несколько позже подробно табулировано Снедекором. В дальнейшем в формулировках результатов, связанных с распределением Фишера (см., например, §61, 62), нам будет удобнее использовать распределение Ffcb£2. При этом следует иметь в виду, что при отыскании квантилей распределения FkiM c помощью таблиц распределения Фишера надо вводить поправочный множитель: если /ε, >сЕ — квантили порядка 1-е распределений Fkifa и Фишера, соответственно, то f£ = —-—. 7. Распределение Стьюдента*) Т& с к степенями свободы. По определению это есть распределение случайной величины \/м«?+-+ш' *) Стьюдент — псевдоним В. С. Госсета.
76 Гл. 2. Теория оценивания неизвестных параметров где £j независимы, £j ^ Фо,ь 3 = О,...,Л. Очевидно, что —ί имеет то же самое распределение и, стало быть, распределение Стьюдента симметрично относительно начала координат. Далее, ίΔ = 2 оо~ ' где щ независимы, 771 ^ Hi, 772 €= Щ. Это значит, что t2 /к имеет распределение Фишера. Рассмотрим случайную величину τ — >/С, С = Vi/V2j щ €= Н^. Так как Ρ (г < χ) = Ρ (ζ < я2), то плотность /(т)(я) случайной величины г будет равна /(т) W ^;(ς)1χ ) ^Γ(λι)Γ(λζ) (1 + 3.2)λ1+λ2 _Γ(ΛΧ + Λ2) 2s2*'-1 _^ ΓίλΟΓ^α+χψι+λ»' j 2' 1>υ· Отсюда при λι = 1/2, λ2 = λ/2 очевидным образом можно получить плотность \t\/vk. Так как распределение t симметрично, то для плотности f(t)(x) случайной величины t окончательно получаем , , . Г((*+1)/2) {, i2V(l+1)/2 Ясно, что все моменты t нечетного порядка (если они существуют) равны нулю. Для моментов четного порядка 2/ имеем в силу (8) m -кЕС-к Γ(λι)Γ(λ2) , где следует положить λι — 1/2, Аг = fc/2, 2/ < /с. При / = 1 получаем ЕГ /с-2" По своей форме функция f(t){x) напоминает плотность нормального закона. Более того, с ростом к f(t)(x) -х2/2 что означает сходимость t ©► Фод при к —> со. Однако fm{x) имеет более «толстые хвосты», поскольку функция (9) убывает с ростом |д;| значительно медленнее, чем е~х /2, так что при всех Ъ > О Тк((-Ь,Ь))<Ф0А((-Ь,Ь)). (10) При этом разница между правой и левой частью в (10) при небольших к может быть существенной.
§12. Некоторые параметрические семейства распределений 77 Сходимость t = у/Що/у/П2 к нормальному закону читатель может доказать и другим путем с помощью теорем непрерывности. Например, достаточно заметить, что — = —(ξ? + · · · + ξϊ) —> 1; и, стало быть, t —> £о> к к п.н. п.н. 8. Бэта-распределение (В-распределение). Так называется распределение ВдьА2 с ПЛОТНОСТЬЮ [о, χ £ [ο,ι]. Своим названием оно обязано бета-функции ι В(АЬ А2) = jx^~\l - χ)**'1 Лх = Щ^ Γ(λχ)Γ(λ2) λ2)' Бета-распределение связано с гамма-распределением и с распределением Фишера путем следующего утверждения. Если щ независимы, η^ ^ Га>д; {или щ ^ Н^д,), mo m + m ζ +1 где ζ = 771/772 ^F2Ab2A2. Доказательство этого утверждения весьма просто, так как в силу (7) Для моментов случайной величины β имеем 1 ЪР ~ r(A0r(A2) J [1 X) dX~ Γ(λΟΓ(λι + λ2 О При 1 — 1,2 находим ±R 2+0' λΐ πα2_ Αι(Λι + 1) Έβ = -—L—, Εβ λι + λ2' и (λι + λ2)(λι+λ2 + 1)'
78 Гл. 2. Теория оценивания неизвестных параметров 9. Равномерное распределение. Частным случаем В-распределения является равномерное на [0,1] распределение, которое получится, если положить λ! = λ2 = 1. Символом \Jafb мы будем обозначать равномерное распределение на отрезке [а, 6], так что Вхд = Uo,i. С помощью В-распределения можно описать распределение членов вариационного ряда X(fe) выборки X. Теорема 1. Если X €= Ρ есть выборка из распределения Ρ с непрерывной функцией распределения F, то У (к) = ^(Х(А;)) ^ Вк,п-к+1- Доказательство. Так как yk^Ffa) €=Uo,i, то y^j =F(x^) можно рассматривать как член вариационного ряда выборки У^Иод. Найдем P(y(fc) ε (u,u + du)). Событие {у(^) G (u,u + du)} можно представить как объединение непересекающихся событий Аз = {у* ^ (гх,и + Ах), у,- = y(jb)}, которые происходят, когда yj попадает в (и, и + du) (вероятность этого равна du), к—1 иг оставшихся п — 1 наблюдений попадает в область (0, и), п — & наблюдений — в область (и, 1). Следовательно, P{Aj) = C^V-^l - u)n-*du, Р(У(*) е (и, и + du)) = пС^и*-1 (1 - u)n"*du. Это и значит, что плотность у^) существует и равна ϋ! ^(l - u^-* = Г(п + 1) uk-i(1 _ )П-к На основании теоремы 1 можно без большого труда получить и предельное распределение членов вариационного ряда, когда объем выборки X неограниченно возрастает. Мы остановимся здесь лишь на одном результате, вытекающем из теорем непрерывности. Теорема 2. Если а = —> ац Ε (0,1) при η —> оо, πιο η + 1 . \Λο(1 ~αο) t t ^ - У(А;) = « + " -д ξη, ξπ ©> *0,1- Доказательство. В силу теоремы 1 у^ ^ Β^η_£+ι и? стало быть, в силу свойств В-распределения справедливо представление 77т У(к) = —Τ—» %^Hfc., ki = 2k, k2 = 2(n-k + l). κ ' d ηι + η2 J
§ 12. Некоторые параметрические семейства распределений 79 Положим для удобства αϊ = а, а2 = 1 - а и предположим, что а = ао фиксировано. Тогда, очевидно, kj/(n + 1) = 2aj, j = 1,2, ив силу свойств распределения χ2 У(*) = . / Ql t(l) , / Q2 >(2) Остается воспользоваться теоремой непрерывности 5.ЗА при Так как щ (а стало быть, и ξη ) независимы и ая *2 зя ίι ati (*i+*2)2' dt2 (*ι+ί2)2' то мы получаем (У(*) - οι)λ/π + 1 =► α2λ/αΓ^(1) - ^л/^ £(2) = χ/αΐ^ f, ξ ^ Φ0|ι· Если α зависит от η, то следует воспользоваться замечанием 5.1. < Следствие 1. Если a = k/(n+ 1) —> αο Ε (0,1) w непрерывная функция F непрерывно дифференцируема в точке ζ$ = F~l(aa) (квантиль порядка ао), тпо X(fc) = C+ /(Co)v^ ' &е>*°.ь (11) г<?е ζ = F"1(a) — квантиль порядка α, f(x) = F'(x). Это утверждение получается сразу из теоремы непрерывности 5.3 (с учетом замечания 5.1), если воспользоваться представлением dF~llx) 1 и тем фактом, что — dx HF^ix))' тверждение (11) неск обобщить и в другом \F(x)-F(C)\~c\x-C\\ 7>0. Замечание 1. Утверждение (11) несколько обобщает утверждение следствия 8.1. Его можно обобщить и в другом направлении. Пусть при χ —> ζ
80 Гл. 2. Теория оценивания неизвестных параметров Тогда нетрудно видеть, что при у -> a |1/7 \F-l(y)-F-1(a)\r. и что, стало быть, (xW-On^^iaoil-oo))1^ 3/-α ξΙ1^ sign£, ξ^Φο,ι. (12) При 7 = 13 с — /(С) отсюда следует (11). 10· Распределение Коши Καί<τ с параметрами (α, σ). Так называется распределение с плотностью σ 1 1 π[σ2 + (χ - α)2] πσ (χ-α. Κα,σχΖ') — Как и в случае нормального закона, параметры α и σ здесь являются соответственно параметрами сдвига и масштаба. Форма распределения Код очень похожа на форму Фод, однако Atyi, как и плотность распределения Стью- дента, имеет значительно более «толстые хвосты» (т.е. более медленное убывание при |д;| —> со), так что распределение Код не имеет даже конечного математического ожидания. В [17, гл.8] отмечалось, что распределения Κα>σ, как и нормальные распределения, обладают свойством устойчивости. Характеристическая функция ход(0 распределения Код равна поэтому *r0,iW = exp(-|i|), ^α,σ(ί) = exp{iat - σ|ί|}, (ί) = ехр{г(с*1 + a2)t - (σι + σ2)|ί|}, так что свертка Και>σι и KQ2)(T2 равна Και+α2>σι+σ2. Нетрудно видеть, что Код = Τι- В приложениях часто приходится иметь дело с разного рода функциями от нормально распределенных случайных величин. Одна из них — экспоненциальная функция, с которой связано так называемое логнормальное распределение. 11. Логнормальное распределение La<T2. Мы будем говорить, что η ^ ^ Ι»ασ2, если 1ητ/ €= Φα,σ2. Другими словами, η = е^, где ξ €= Φα,σ2. Отсюда видно, что распределение La<72 сосредоточено на положительной полуоси. Плотность η €= LaiT2 в силу формул для плотности функции от случайной величины (см. [17, §3.2]) равна φα%σ2{]ιιχ)χ
§ 12. Некоторые параметрические семейства распределений 81 Кроме того, находим Ет/ = / ехру—7=ехр J σγ2π (v-<*) 2σ2 (α + σ2)2_α2 dy = exp — χ (у - α-σ2)2λ , ία + σ2 ay = exp exp (2y)-^ exp1 КУ } dy - exp (2a 4- 2σζ). 12. Вырожденное распределение. Символ Ια (это обозначение нами уже использовалось в § 2) будет означать вырожденное распределение, сосредоточенное в точке а. В общем случае, когда рассматривается произвольное семейство рас- пределенищ зависящих от параметра θ (скалярного или векторного), мы будем использовать обозначение Р#. Само семейство будет обозначаться символом {Рв}вев, где Θ — множество возможных значений параметра Θ. Такие же обозначения будут применяться к семействам распределений 1-12. Например, {Φα,ι}α^κ будет означать семейство всех нормальных распределений с единичной дисперсией. Распределения 1-11 абсолютно непрерывны относительно меры Лебега. Введем теперь обозначения для трех хорошо известных дискретных распределений (абсолютно непрерывных относительно считающей меры μ{Β): μ(Β) = А;, если В содержит к целочисленных точек). 13. Распределение Бернулли В™. По определению ξ €= В£ (п целое, ρ Ε G [0,1]), если P(£ = *) = C*p*(l-p)n-*, 0O<n. 14. Распределение Пуассона Ид. Это распределение определяется равенством Пл(В)=Е^в"А' λ>°· кев, 15. Полиномиальное распределение. Мы будем обозначать его В£, где г η > 0 — целое число, р= (pi,.. ·,ρΓ)> Pj ^ 0, /^Pj = 1· Для целочисленного i=i случайного вектора ν — {у\,..., vr) мы будем писать ν €= В™, если для к = г = (fci,..., fcr), kj ^ 0, 2_] kj ==: n справедливо
82 Гл. 2. Теория оценивания неизвестных параметров Распределение В£ соответствует последовательности η независимых испытаний, в каждом из которых наступает один из г несовместных возможных исходов Αι,.. .,АГ; при этом вероятность появления исхода А3 в одном испытании равна р3. Координаты v3 вектора ν означают частоты появления событий А3 после η испытаний (см., например, [17, §3.3]). Очевидно, что при каждом j = 1,..., г Исход j-το испытания в описанном эксперименте можно описать г-коорди- натным вектором xj5 у которого г — 1 координат равны нулю и одна координата равна единице. Номер этой координаты есть номер события, которое η произошло при j-м испытании. Очевидно, что ν — /^Xj. Относительно j = l выборки X, составленной из χι,.. .,хп, нам будет удобнее писать X €= Вр, где Вр = Вр. Пространство X для такой выборки, очевидно, конечно и состоит из г точек. Если ρ = (рьрг), Pi + Р2 = 1» то мы получим схему Бернулли, для которой мы будем использовать те же обозначения, отождествляя В(рьр2) с ВР1 = Βρχ (см. п.13). В общем случае распределение Вр зависит на самом деле лишь от (г — 1)-мерного параметра (ρχ,.. .,pr_i), так что вместо индекса ρ можно было бы писать (рь .. .,pr_i). Многие из рассмотренных выше распределений, например распределения Фо,ь Нь ^kuk2i Tjt, 1Г\, табулированы в руководствах по математической статистике и в специальных таблицах (см., например, [10]). § 13. Точечное оценивание. Основной метод получения оценок. Состоятельность, асимптотическая нормальность 1. Метод подстановки. Состоятельность. Понятие оценки было введено нами в § 11. Формально оценка — это то же самое, что и статистика, т.е. любая измеримая функция Θ* от выборки. Неформально смысл, вкладываемый в этот новый термин, состоит в том, что оценками Θ* мы называем лишь статистики, предназначенные для использования вместо неизвестного параметра Θ. Другими словами, Θ* есть некоторое приближение для 0, основанное на выборке. Величину Θ* называют также точечной оценкой для θ в отличие от интервальных оценок, которые будут рассмотрены позже. Задание оценки обычно предполагает задание функций (от выборок Хп), определенных при всех возможных значениях п. Поэтому в дальнейшем термин «оценка», будет означать семейство статистик Θ* = 0*(Хп), определенных при всех η = 1,2,..., где Θ* есть функция на Xй, или, что то же, одну функцию Θ* = 0*(гг,Хоо), определенную на произведении множества целых чисел и Х°°. В соответствии с § 11 мы будем считать, что в постановке задачи об оценивании определено множество Θ возможных значений параметра θ и семейство V возможных распределений Ρ выборки X (это могут быть, скажем, лишь нормальные распределения Фад или распределения Пуассона Щ, для которых требуется оценить неизвестные параметры α, λ). Если какие-либо
§13. Точечное оценивание. Основной метод получения оценок 83 ограничения на θ (на Р) отсутствуют, то можно считать, что Θ (V) совпадает с евклидовым пространством соответствующей размерности (с множеством всех распределений). Если для обозначения параметра вместо θ используется какая-нибудь другая буква, например λ, то оценки этого параметра будут обозначаться тем же способом: добавлением к λ верхнего индекса «звездочка». Например, для параметра α нормального закона естественно рассматривать оценку 1 п а* = -У^Хг· г=1 Выборочные моменты, используемые для оценки Εχι = / χ = P(dff), Dxi = / (χ - Exi)2P(cb), имеют свои специальные традиционные обозначения η г--' τι г—' г=1 г=1 Мы уже отмечали, что для данного параметра можно указать сколь угодно много разных оценок, и прежде чем обсуждать, каким образом в каждой конкретной ситуации следует сравнивать их достоинства, мы остановимся на некоторых общих «регулярных» методах их построения. Эти методы объединяют в себе наиболее разумные подходы к проблеме оценивания и позволят нам получать в дальнейшем наилучшие в том или ином смысле оценки. В основе почти всех приемов оценивания лежит следующий основной метод, который можно было бы назвать методом подстановки эмпирического распределения (или, для краткости, методом подстановки.) Пусть Хп §Ри неизвестный параметр θ представим в виде некоторого функционала G от распределения Р: θ = G(P). Пусть, далее, Ρ*, как и прежде, означает эмпирическое распределение. Тогда метод подстановки предписывает в качестве оценки Θ* взять функцию θ* = 0(Ρ*η). Такие оценки мы будем называть оценками по методу подстановки или просто оценками подстановки. Функционал G иногда бывает задан в неявном виде как решение некоторого уравнения #(#, Р) = 0, разрешимого относительно Θ. В этом случае оценками подстановки в соответствии с основным определением мы будем называть любое решение уравнения #(0,Р*) = 0. Если известно, что множество возможных значений параметра θ Ε Шк ограничено областью θ из Rfc, не совпадающей с Kfc, то эту информацию можно учесть при построении оценок подстановки. Допустим, что область Θ замкнута, и пусть V есть множество возможных распределений выборки X,
84 Гл. 2. Теория оценивания неизвестных параметров Θ = {<7(Р)}рер. Определим функционал Gi(P) для произвольного Ρ как значение t Ε Θ, для которого достигается min|i-G(P)| = |G1(P)-G(P)|, (1) так что (?ι(Ρ) есть точка из Θ, ближайшая к G(P). Так как Gi(P) = G(P) = = 0, если Ρ Ε V, то оценка e* = Gi(P;) (2) вместе с G(P^) будет оценкой подстановки, при этом множество возможных значений Θ* будет принадлежать Θ. Про оценки (1), (2) мы будем говорить, что они получены сужением метода подстановки. Пусть, например, оценивается параметр а нормального распределения Фад, и нам заранее известно, что а Ε [0,1]. Тогда может оказаться, что оценка а* = χ ^ [0,1] (очевидно, что χ = J t dF*(t) есть оценка подстановки). Сужение метода подстановки рекомендует в качестве оценки взять точку из [0,1], ближайшую к х. Отметим теперь, что в сформулированном виде метод подстановки не всегда имеет смысл. Дело в том, что исходный функционал G может оказаться не определенным на множестве эмпирических распределений. Пусть, например, заранее известно, что распределение Ρ принадлежит классу V абсолютно непрерывных относительно меры Лебега распределений, так что каждое Ρ Ε V имеет плотность /. Нас интересует значение θ = G(P) - J/2(x) dx=[ №\ dx. Ясно, что в этом случае (?(Р*) не имеет смысла, так как Р* есть дискретное распределение. В таких случаях метод подстановки всегда можно естественным образом модифицировать так, чтобы он сохранил свое существо. В приведенном примере, где б(Р) есть функционал от плотности /, следует в качестве Θ* в соответствии с методом подстановки рассмотреть значение G(P**), где Р** — сглаженное эмпирическое распределение (см. § 10), обеспечивающее сходимость эмпирической плотности к /(х). Может оказаться также, что в некоторых случаях С?(Р*) будет иметь смысл не для всех Хп, а лишь для Хп Ε Ап, где "Р{Хп Ε Ап) —> 1 при η —> оо. Это обстоятельство для существа дальнейшего изложения роли играть не будет, и для определенности можно положить G(P*) = 0 для Хп ^ Ап. В этом параграфе мы для простоты будем предполагать, что (7(Р£) имеет смысл при всех Хп Ε Хп и что Θ* есть случайный вектор, т.е. функция G(P*) осуществляет измеримое отображение Хп в R*, где к есть размерность Θ. Принцип подстановки представляет собой весьма естественный подход к задаче, поскольку, как мы уже знаем, распределение Р* неограниченно сближается с Ρ с ростом п. ПуСТЬ Хп = [Хоо]п-
§13. Точечное оценивание. Основной метод получения оценок 85 Определение 1. Оценка Θ* = 0*(ХП) (или последовательность Θ^(Χ)) называется состоятельной, если Θ* —>θ р при η —> оо. Оценка θ* называется сильно состоятельной, если при η —> оо 0*—> б. п.н. Пусть F, как обычно, есть функция распределения, соответствующая Р. Теорема 1. Пусть θ = G(P) w функционал G принадлежит одному из двух классов: либо он представим в виде G(P) = h^jg(x)dF(x)y (I) где h — функция, непрерывная в точке а = g(x)dFo(x) (функционал I типа), либо в виде G(P) = d(n (И) где функционал G\ непрерывен в точке Fo в равномерной метрике (функционал II типа). Тогда если X ^ Fo, то Θ* — G(P*) есть сильно состоятельная оценка: Θ* —> Θ. п.н. Утверждение этой теоремы немедленно следует из теоремы 4.1. 2. Асимптотическая нормальность. Одномерный случай Определение 2. Оценка Θ* параметра θ называется асимптотически нормальной (а.н.) с коэффициентом σ1 > 0, если (Θ* — в)у/п ©► Φο,σ2· Последнее соотношение может читаться также следующим образом: оценка Θ* а.н. с параметрами (θ,σ2/η). Коэффициент σ2 мы будем иногда называть также коэффициентом рассеивания (или разброса). Пусть Θ* есть оценка подстановки параметра θ = G(P) и выполнено (I), т.е. θ* = h[lΣ,^(χгη (3) есть статистика I типа. Тогда из результатов § 7 вытекает следующее утверждение. Предположим, что θ — скалярный параметр, a g — скалярная функция. Теорема 2. Пусть X€=Fo, h дифференцируема в точке а = = / g(x)dF0(x), 0 < \ti(a)\ < оо, / g2(x)dF0(x) < оо. Тогда Θ* — а.н. оценка с коэффициентом a2 = [ti(a)]2 J(g(x)-a)2dF0(x).
86 Гл. 2. Теория оценивания неизвестных параметров Примеры, рассмотренные в § 7, можно взять в качестве иллюстраций и к этой теореме, так как статистики, рассмотренные в них, используются в качестве оценок. Аналогичным образом мы могли бы, пользуясь результатами § 8, получить условия асимптотической нормальности оценок, являющихся статистиками II типа. Читатель может получить нужные утверждения, если воспользуется теоремой 8.1 без каких-либо ее изменений, потребовав, однако, чтобы в ее формулировке выполнялось к = 1, а производная д была такой, что g{F0,w°) ^Φ0,σ2· 3. Асимптотическая нормальность. Случай многомерного параметра Определение 2А. Оценка Θ* — (0f,...,0£) называется а. н. оценкой θ = (01,..., 6k) с матрицей σ2, если (θ*-θ)^^Φ0<σ2, (4) где Φο,σ2 есть ^-мерное нормальное распределение с нулевым вектором математических ожиданий и матрицей вторых моментов σ2 = ||о\;||. Плотность этого распределения равна (см. §12) где А — матрица, обратная к σ2, χ — (д;χ,.. .,£*). Матрицу σ2 мы будем называть также матрицей рассеивания (или разброса). Если Θ* есть оценка подстановки и она является статистикой I типа (т. е. представима в виде (3), где д, вообще говоря, вместе с Θ* и h есть векторная функция), то для выяснения условий асимптотической нормальности можно воспользоваться теоремой 7.1 А и замечанием к ней. Мы получим тогда следующее утверждение. Теорема 2А. Пусть θ* Ε Rk определяется равенством (I), где g = (gi,...,ffs) E Ms, а вектор-функция h(t) — (Λχ(ί),..., Λ*(ί)), t == = (ίι,.. .,is), имеет в точке а = (αϊ,.. .,αβ), α? = / <7j0&) di*o(s)j ΟΙ производные ——(α), / = 1,..., /с, j = 1,..., 5. Тогда если X ^ Fo, mo {θ* -0)\Λ^ξ#τ, где ξ = (£ι,···,£δ) €= ^od2 ^cmb нормально распределенный вектор с нулевым средним и матрицей вторых моментов d = ||<%||, d*j — = E(<7i(xi) — ai)(<7j(xi) ~ aj)> Μ = 15···55; -Η" — ||Лу|| есть матрица размера к χ s с элементами hij = тг^(а)? г = 1,..., fc; j = 1,.. .,5. Otj Это означает, в свою очередь, что 0* при выполнении условий теоремы 2А является а. н. оценкой с матрицей σ1 = Hd2HT = ΈΗξτξΗτ. Отметим, что матрицы σ2 и d2 здесь имеют, вообще говоря, разные размерности (к и s). частные
§14. Метод подстановки в параметрическом случае 87 § 14. Реализация метода подстановки в параметрическом случае. Метод моментов. iVi-оценки Пусть Χ ^ Р#, где {Ρθ}θεΘ есть известное нам семейство распределений Pfl, зависящих от параметра Θ. Неизвестный параметр θ из множества Θ может быть в наших рассмотрениях как скалярным, так и векторным. Например, если X €= Φα)σ2, то θ = (α,σ2) двумерно, а множество Θ может быть как полуплоскостью {—оо < α < οο, σ ^ 0}, так и какой-нибудь ее частью. Математическое ожидание и дисперсию статистики S — S(X) по распределению Р# будем обозначать соответственно E^S, OqS. Мы рассмотрим ниже несколько методов оценивания, каждый из которых можно трактовать как реализацию принципа подстановки эмпирике ского распределения. 1. Метод моментов. Одномерный случай. Выберем д(х) так, чтобы функция πι(θ) = Εθ9(χ1) = Jg(x)Pe(dx) (l) была монотонной и непрерывной. Область т(0) значений га(0), θ Ε Θ, имеет ту же «природу», что и Θ. Если, например, Θ есть отрезок вещественной оси, то ττι(Θ) также будет отрезком. Очевидно, что уравнение τη(θ) = t однозначно и непрерывно разрешимо в области ττι(Θ) относительно θ: θ = m-1(£), и что (1) эквивалентным образом можно записать в виде e = m-4J g(x)Pe(dx)\. (2) Предположим для простоты, что Г 1 " д= 9(χ)άΡ·η(χ) = -Σ9(χί)£τη(θ) J nU при всех X е Хп. Определение 1. Оценкой по методу моментов называется оценка в* = т-\д). (3) Если д ψ m(0), то можно положить согласно (13.1), (13.2) в* = т-1(д0), где (?о ^ τη(θ) есть ближайшая к ~д точка из т(0). Нетрудно видеть, что это есть оценка по принципу подстановки. Выбор функции т{в) позволил нам выразить θ в виде функционала (2). Ясно также, что оценка (3) является статистикой I типа, так что в силу теоремы 13.1 оценки по методу моментов будут сильно состоятельны. Если к тому же
88 Гл. 2. Теория оценивания неизвестных параметров функция m дифференцируема в точке 0, / д2(х)Р$(ах) < оо, то по теореме 13.2 оценка по методу моментов будет а. н. с коэффициентом рассеивания (m'(0))-2D,5(Xl). Метод моментов был предложен К.Пирсоном (в несколько более частном виде) и исторически является первым регулярным методом построения оценок. Свое название «метод моментов» получил потому, что его существо состоит в приравнивании друг другу «теоретических» и эмпирических моментов (математических ожиданий) величины д(х\): ведь оценка (3) есть не что иное, как решение уравнения ** · 1 Можно добавить также, что в качестве д(х) часто выбирают функцию д(х) = χ или д(х) = хк, к > 1, так что наше уравнение превращается в уравнение для обычных моментов. Равенство (4) можно рассматривать так же, как результат приравнивания среднего значения величины g{xi) «по пространству» ее среднему значению «по времени». Неоднозначность метода моментов, как и всего принципа подстановки, здесь видна особенно хорошо: ведь выбор функции д(х) почти ничем не ограничен. Пример 1. Пусть X €= Гад и α не известно. Построим оценки по методу моментов с двумя простейшими функциями д(х): д\{х) = х и ^(^) = я2· Справедливы следующие равенства (см. п. 12.2): 00 mi (a) = EQffi(xi) = / xTQti(dx) = -, J Οί о оо m2{a) = EQ#2(xi) = / x2Tail{dx) = —^. о 1 n Решая уравнения m\{a) = χ, 7712(a) = — Ух?, мы получим оценки по методу моментов / η 4-1/2 Обе эти оценки являются статистиками I типа, и мы можем описать их асимптотические свойства. На основании равенств (12.4) получаем 1 20 Daffi(xi) = Daxi = —, Da^2(xi) = Daxj = —т. ΟίΔ ОТ
§14. Метод подстановки в параметрическом случае 89 Так как для первой оценки m[(a) = —Ι/α2, а для второй га'2(а) = — 4/а2, то на основании теорем 13.1, 13.2 мы получаем, что обе оценки а* и а** являются сильно состоятельными и а.н. с коэффициентами рассеивания соответственно 1 4 2 20 а6 5 2 —а =а , — · — = -а . а1 а4 16 4 Видимо, оценку а* следует предпочесть, так как ее «разброс» при больших η вокруг истинного значения а, измеряемый дисперсией предельного распределения, меньше, чем «разброс» для а**. 2· Метод моментов. Многомерный случай. Совершенно аналогичным образом рассматривается случай, когда θ — многомерный параметр. Пусть, как и прежде, к есть размерность Θ. Выберем вектор-функцию g{x) = {gi{x),...,9k{x)) так, чтобы уравнение т(0) = ί, где t =(tb...,**), т(0) = (т!(0),...,т*(0)), mj{9) = Ε^-(χι) = / gj{x]PB(dx), было однозначно и непрерывно разрешимо относительно θ — m 1(t) в области τη(Θ) значений т(0), 0 Ε Θ. Допустим для простоты, что вектор = (-Σ^(χ«)'···'^Σ^(χί) \ г=1 г=1 / принадлежит области га(Э) при всех Χ Ε Л"\ Определение ΙΑ. Оценка θ* = m~l(jj) называется оценкой по методу моментов. Как и прежде, из теоремы 13.1 следует, что такие оценки Θ* будут сильно состоятельными. Для того чтобы имела место а.н. #*, нужно потребовать дополнительно, чтобы функция т была дифференцируемой, / д^(х)Р$(ах) < оо. Утверждение о предельном распределении Θ* нетрудно получить с помощью теоремы 13.2А. Пример 2. Рассмотрим в качестве {Р#} семейство нормальных распределений Φα>σ2. Полагая д\{х) — х, д2{%) = χ2, получим следующие уравнения для метода моментов: 1 п — 2 2 ■*· Ч Л 2 а = х, σ + α = - > χ», п. * * П · 1 г—1 решение которых есть =* (^2г = ^Ехг2-(х)2 = 52. α г=1
90 Гл. 2. Теория оценивания неизвестных параметров Мы предлагаем читателю в качестве упражнения найти оценки по методу моментов для всех параметрических семейств, приведенных в § 12. 3. М-оценивание как обобщенный метод моментов. Возможно следующее обобщение метода моментов, которое существенно расширяет рассмотренный выше класс оценок. Пусть 0о — истинное значение параметра: X €= Р#0. Оценка по методу моментов была основана на том, что уравнение относительно θ τη(θ) = j9(x)Pe(dx) = Jg(x)P(dx) (6) имело единственное решение θ = G(P) = πι λ ί / g(x)P(dx) I , совпадаю- ■ (/*> щее при Ρ = Р#0 с #о> так что оценка по методу моментов Θ* — G(P*), как мы уже отмечали, оказывается оценкой подстановки. Первое соотношение в (6) можно записать в виде /< (0(х)-т(0))Рв(<*г)=О, (7) а уравнение (6) в виде ' (д(х)-т(в))Р((1х) = 0. /< Основываясь на этих двух соотношениях, мы можем рассмотреть теперь более общее уравнение. Пусть функция д{х,в) ^ 0 такова, что / 9{χ,θ)Έ>θ{άχ)=0 (8) (д(х,9) = д(х) — πι(θ) в (7)). Функцию д{х,9), удовлетворяющую (8), можно получить из любой интегрируемой функции д\{х,в), положив д{х,в) = = 9ι(χ,θ) — / 9iix^)Pe{dx)· Если уравнение / g{x,0)P{dx) =0 (9) имеет единственное решение θ — G(P), то в силу (8) выполняется G(P^0) = = 0q. Стало быть, метод моментов допускает следующее естественное обобщение. Определение 2. Значение 0*, являющееся решением уравнения £>(xi,0) = O (Ю) (ср. с (9) при Ρ = Ρ*), называется оценкой решения θ уравнения (9) по обобщенному методу моментов или М-оценкой. Очевидно, что М-оценка является М-статистикой (см. п. 3.4).
§ 14. Метод подстановки в параметрическом случае 91 Здесь, как и прежде, 0* = G(P*), где G(P) есть решение (9) относительно 0. Нетрудно видеть, что определение 2 М-оценки допускает выход за рамки параметрического случая и сохраняется в более общем случае, когда речь идет об оценке по выборке X ^ Ρ фукционала θ = G(P), который определяется как решения уравнения (9) при некоторой функции д(х,9)\ при этом Ρ может быть произвольным распределением, не обязательно принадлежащим параметрическому семейству. Равенство (8) в параметрическом случае нужно лишь для справедливости равенства G(Pfl0) = во* Если 0 Ε Шк — многомерный параметр, то в качестве g в (9), (10) следует брать вектор-функцию той же размерности, что и 0, так, чтобы уравнения (9), (10) представляли собой систему из к независимых уравнений. Иногда М-оценки определяют иначе. Пусть ψ(χ,θ) — заданная скалярная измеримая функция. Определение 2А. М-оценкой 0* называется значение 0, при котором достигается η тахУ^(хп0). (И) θ t=l Если φ для п.в. χ дифференцируема по 0, то, полагая д(х,в) = ^(х,0), мы получим, что М-оценка будет М-оценкой в смысле определения 2. Обратное, вообще говоря, не верно, так как М-оценки в смысле определения 2 могут быть точками локальных экстремумов У^?/>(х;,0). Если решение 0* уравнения (10) единственно и в точке 0* достигается максимум, то, очевидно, 0* будет М- и М-оценкой. Использование М-оценок естественно в тех случаях, когда существует функция ^(я,0) такая, что неизвестный параметр 0о максимизирует ψ{χ,θ)Ρ{άχ). I Пример 3. Среднее 0 распределения Ρ минимизирует / (х — 0) P(dx)> Поэтому М-оценкой параметра 0 будет значение 0*, минимизирующее /J(xj — 0)2, или, что то же, решение 0* = χ уравнения /J(xi — 0) =0, являющееся М-оценкой. Здесь ip{x,t) = —(χ — 0)2, g(x,t) = 2(х — θ). Так как 0 = / xP(dx), то сказанное согласуется, очевидно, с тем, что 0* является также «непосредственной» оценкой подстановки 0*= xP^(dx) =x. Аналогичное замечание справедливо и относительно медианы выборки X. Предварительно заметим, что квантиль ζρ порядка ρ распределения Ρ с функцией распределения F может быть определена как решение уравнения / д(х - Θ) dF(x) = 0,
-1 0 Ρ 1 ~ при χ < 0, при χ = 0, при ж > 0. 92 Гл. 2. Теория оценивания неизвестных параметров где I 1 — ρ Поэтому выборочная квантиль ζ* является М-оценкой в смысле определения 2. Она определяется как решение уравнения - ^/(х,- < е)+^- χ;/(χί > б) = о. Медиану ^/2 распределения Ρ с непрерывной в точке Ci/2 функцией распределения F можно рассматривать также как значение, минимизирующее / \χ—θ\ dF(x), т. е. М-оценку. Действительно, производная этого интеграла п. в. существует и равна Р((0, оо)) — Р((—оо,0)). Она монотонно убывает с ростом 0 и обращается в нуль при 0 = ζ\/2· Мы получили, что ζ^2 является одновременно М- и М-оценкой. Она является решением уравнения £j(xi>0)-£;/(xj<0)=o. (Если η нечетно, то ζ*/2 = χ((η+ΐ)/2)· Если η четно, то левая часть этого уравнения обращается в нуль при любом 0 Ε (x(n/2)>x(n/2+i)); Для Определи х(п/2+1) + х(п/2) _ \ ленности можно положить θ — —^ — K—L-L = ζ*,2·) Более содержательные примеры М-оценок рассмотрены в § 16,33,34. Там же можно найти примеры М-оценок, не являющихся М-оценками (см. пример 16.5). Легко построить также примеры М-оценок, не являющихся М-оценками. Таким образом, классы М- и М-оценок близки, но не совпадают. В известном смысле М-оценки имеют более широкую область определения: М-оценки определены и в тех случаях, когда функция φ не дифференцируема, и уравнение (10) для д = ф'е не определено. Если же φ'θ существует, то М-оценки являются М-оценками. М-оценки были введены П. Хьюбером в [127] как обобщение оценок максимального правдоподобия (см. § 16; об М-оценках см. также [129, 67, 102]). Основное внимание в настоящей книге уделяется регулярному случаю, когда функция φ является гладкой. Изучение асимптотических свойств М-оценок (а стало быть, и М-оценок) посвящены п. 4-6. Для полноты картины мы приводим также условия состоятельности М-оценок в «нерегулярном» случае, когда не предполагается гладкость ф. 4. Состоятельность М-оценок. Мы приведем здесь условия сильной состоятельности М-оценок при весьма слабых ограничениях на функцию φ(χ,θ) в (11). Введем в рассмотрение следующие условия.
§14. Метод подстановки в параметрическом случае 93 /· (Ас) Множество Θ компактно. Это условие вводится для упрощения. С точки зрения приложений всегда можно указать достаточно большой компакт К = [ίο,ίι] такой, что искомое 0о наверняка принадлежит внутренности К и, следовательно, можно ограничиться поисками точки Θ* максимума (11) лишь в компакте К. При этом под Θ* можно понимать любую точку максимума (11), принадлежащую К, Если же максимум достигается вне К, скажем в точке θ > t\, то можно положить Θ* равной t\ или равной точке максимума на К, Содержание последующих утверждений от этого не зависит. [Ао] Функция φ[χ,ί) такова, что φ(χ,ί)Ρ(άχ) достигает своего максимума в единственной точке t = 0, так что Φ(ί, 0,Ρ) = ί{φ{χ, t) - φ{χ, θ))Ρ{άχ) < 0 при всех t φ 0, t £ Θ. Эти два условия мы будем предполагать выполненными на протяжении всего этого параграфа. Далее, по выборке Χ ^ Ρ строится М-оценка 0*, являющаяся точкой максимума Υ^?/>(χ;,ί), или, что то же, Φ(ί,0, Ρ*). Нам понадобится также следующий равномерный вариант условия [Ао]. (Ао) Для любого δ > О inf Φ(ί,0,Ρ) < -ε t:\t-e\^S при некотором ε = ε(δ) > 0. Очевидно, что условие (Ао) будет следствием (Ас), [Ао] и непрерывности Ф(£,0,Р) по t. Обозначим φ (ζ,ί) = sup φ(χ,ί + ύ) |ι*|$Δ и наряду с [Ао], (Ао) рассмотрим также условие (А^) Для любого δ > 0 существует Δ = Α(δ) такое, что при всех £, \ί-θ\>δ \φΑ{χ,ί) -φ{χ,θ))Έ>{άχ) < -ε (12) /< при некотором ε > 0. Теорема 1. Если выполнено (А^), то М-оценка 0* сильно состоятельна.
94 Гл. 2. Теория оценивания неизвестных параметров Как будет показано в § 16, одного условия (Ао) для состоятельности Θ* недостаточно. Доказательство. Так как *{θ;β,ρ·η) >φ(θ,θ,Κ) = о, то для доказательства теоремы нам достаточно убедиться, что с вероятностью 1 limsup sup Φ(ί,0,Ρ*) < -ε п-юо \ί-θ\^δ при некотором ε > 0. (Это и будет означать, что для п. в. Х^ €? Р, начиная с некоторого η = n(Xoo) < ε, выполняется \θ* — θ\ < δ.) Пусть δ фиксировано, Δ удовлетворяет (12), (θ)δ есть ^-окрестность точки 0. Покроем множество Θ \ (θ)δ окрестностями Δ^ = {t : \t — tk\ ^ Δ}, к = 1,.. .,iV < oo, где ijt € Θ, ijt ^ {θ)δ. Тогда по усиленному закону больших чисел в силу (12) \t-9\>6 * "" * ί€Δ, sup Φ (ί, θ, Ρ;) < max sup Φ (ί, 0, Ρ*η) ζ k teAk 1 η < max - У^ SUP [^(ХЬ *) ^ ФЫ, θ)} —> к П *—" л . п.н. к Π . —► ma.xE[ipA{xutk) -ф(хиЬк)] < -ε. < п.н. к Условие (Aq ) можно эквивалентным образом представить в несколько иной форме. Обозначим φ°(χ,ί) = limsup^(x, u). u-*t Теорема 2. Условие (А^) эквивалентно одновременному выполнению следующих двух условий: (Aq) для всех t φ θ [φΌ{χ,ί)-φ{χ,θ)]Ρ{(Ιχ) <0; / (J) при всех t и некотором Δ > 0 [φΑ(χ,ή - φ{χ,θ)]Έ>(άχ) < oo. / Условие (J), как, впрочем, и (А§), (А^), означает интегрируемость положительных частей подынтегральных функций. Такие функции естественно называть интегрируемыми сверху. Условие (J) в силу (Ас) по существу эквивалентно ограниченности сверху интеграла / [ф{х, Θ) - ф{х, θ)]Ρ{άχ) < oo, где φ(χ,θ) = δ\ιρφ(χ, t).
§ 14, Метод подстановки в параметрическом случае 95 Доказательство теоремы 2. Тот факт, что из (А^) следует (Aq) и (J), очевиден. Пусть теперь выполнены (Ад) и (J). Если допустить, что (А^) не имеет места, то найдутся последовательности tk —> t Ε Θ, Δ^ —> 0, Sk —> 0 такие, что J[rl>*b(x,tk) -φ(χ,θ)]Έ>(άχ) > -ek. Здесь подынтегральная функция мажорируется в силу условия (J) интегрируемой сверху функцией, поэтому в силу леммы Фату limsup [[tpAk{x,tk) -φ{χ,θ)]Ρ{άχ) ^ f[tl>°{x,t) - φ{χ,θ)]Ρ{άχ) < 0. /c-»oo J J Мы получили противоречие, доказывающее теорему. < Более простые достаточные условия, обеспечивающие выполнение (А§) и (J) для конкретных функций ψ(χ,ί), приведены в § 16. Асимптотическая нормальность М-оценок требует выполнения условий гладкости по t функции ψ(χ, t). Поэтому ее естественно изучать в рамках п. 6, посвященного асимптотической нормальности М-оценок. 5. Состоятельность М-оценок. Сначала мы ограничимся рассмотрением одномерного случая Θ С Μ и вновь для простоты будем предполагать везде, что выполнено условие (Ас) о том, что Θ С [£ο>*ι] — компакт. Положим з(0)=Ед(хив) = Jg(x,9)P(dx). (13) Нам понадобятся следующие условия. (Μι) Пусть sup|0(a;,0)| ^j{x), / nf{x)P{dx) < °о. 0€Θ J (М2) Функция g(x,9) для п. β. χ непрерывна по Θ. (Мз) Уравнение s{9) = 0 имеет внутри Θ единственное решение во. Теорема 3. При выполнении условий (Mi)-(Ma) М-оценка Θ* сильно состоятельна. Для доказательства теоремы нам понадобится следующее утверждение. Положим п *—' Лемма 1. При выполнении (Μι), (Μ2) wn-4oo функция s(t) непрерывна. sup|<(i)-s(i)|—>0, tee Π·Η·
96 Гл. 2. Теория оценивания неизвестных параметров Доказательство. Чтобы упростить рассуждения, везде в дальнейшем мы будем считать g(x,t) непрерывной по t при всех χ (этого можно добиться, выбросив из X множество нулевой Р-вероятности). Обозначим через шА{х)= sup \g{x,t + u) - g{x,t)\ модуль непрерывности функции s{i) на θ. Тогда ω δ = Εο;δ(χι) = / u)&(x)P(dx) -> О при Δ —> оо. Это следует из теоремы о мажорируемой сходимости, так как в силу (Μι), (М2) имеем с^д(я) -> 0 при Δ -> О, ω^(χ) < 2j(x). Из этих же соображений вытекает непрерывность s(t). По усиленному закону больших чисел 1 п ω*±{Χ) = sup \s*n{t + u) - s*n{t)\ < -ΣωΑ№ ΤΪ ωΔ' i€0,i+ue©,|u|^A ηχτ{ Π·Η· Далее, пусть η^ = ίο + ΑΔ, к = Ο, l,...,m (τ0 = to, rm = ίι), — точки разбиения отрезка [ίο,ίι] D Θ. Тогда s£(tj) —> s(r,·) при всех г. Остается заметить, что п,н" 5n = sup|5*(i) -a(i)| ^тах|5*(гг)-5(гг)| + ω*Α{Χ) +ωΛ —► 2ωΔ, te& г Π,Η· где левая часть от Δ не зависит, а правая выбором Δ может быть сделана сколь угодно малой. Это доказывает утверждение леммы. Доказательство теоремы 3. Пусть δ таково, что (#о — S,#о + δ) С Θ и для определенности s(t) > О при t > θο и s(t) < 0 при t < 9q. Ясно, что для любого δ > 0 найдется δι = δ\(δ) такое, что inf s{t) > 2ib sup s{t) < —2*i. (14) t>9o+S t<e0-6 В силу леммы 1 для п. в. Χ ^ Ρ найдется n(Jf) такое, что при всех η ^ п(Х) будет выполняться inf s*(£) > δ\, sup 5*(ί) < —ίχ. Так как функция 5* (ί) непрерывна, то при η ^ п(Х) существует б* G (#о — #, #о + Я) такое, что s^(0*) = 0. Итак, мы получили, что для заданного δ > 0 существует п(Х) такое, что при всех η ^ п(Х) выполняется |0* — θο\ < δ. < 6. Асимптотическая нормальность М-оценок. Здесь в дополнение к (Μι), (М2) нам понадобятся следующие условия. (Mj) Функция д(Х)О) для η. β. χ непрерывно дифференцируема по 0, s\ip\g'(x,t)\ < 71 (ζ), / 7i(s)P(<*x) < l€© У оо.
§ 14. Метод подстановки в параметрическом случае 97 Из этого условия следует, что в (13) законно дифференцирование по Θ: 5'(0) = Е</(хь0). (М4) a2 = Eff2(xi,0o) <oo. В этих условиях #о — решение уравнения (9). Теорема 4. При выполнении условий (М^), (М^), (Мз), (М4) М-оцен- ка 0* асимптотически нормальна с коэффициентом σ2[5'(0ο)]-2· Доказательство. Так как (М'х), (М^) влекут за собой (Μι), (Мг), то условия теоремы 3 выполнены и Θ* —> 0q. Так как s^(t) непрерывно дифференцируема, то (полагаем для краткости βη(θη = 0 = sn(90) + (θ* - θοΚ(θ), θ£ [0О,П (15) где θ—> θο. Π.Η. Заметим теперь, что в силу (M'J, (М'2) функция s'n(t) удовлетворяет условиям леммы 1 и, следовательно, sf(t) непрерывна, supl^O-*'(*)| —>0. tee Π·Η· Это значит, что з'п(в) - з'(в) —> 0, и так как s'(0) —> s'(9o), то з'п(в) —> =·«■ Итак, в силу (15) ^(Г - 0О) =-ч/^п(0о)К(0)) -1 где згп(в) —> sf(9o) φ 0 и по центральной предельной теореме — \fnsn{Oo) & & Φο,σ2· Нам остается воспользоваться второй теоремой непрерывности. < Из сказанного в доказательствах теорем 1, 2 легко извлечь также, что для любой последовательности δη —> 0 случайный процесс у (и) = y/nsnx χ (00 + и/у/п) допускает в области \и\ < 6пу/п представление где ξη <Ξ> Ν0>σ2, \εη(θο,Χ,ύ)\ ^ εη(θ0,Χ) -^> 0 при η -> оо. Замечание 1. Предельное распределение для М-оценок можно получать и пользуясь подходами §8, где изучалось асимптотическое поведение статистик второго типа (см. замечание в конце §8). Так как М-оценка параметра θ есть значение G(i^), где функционал G(F) является решением
98 Гл. 2. Теория оценивания неизвестных параметров относительно θ уравнения / д(х,9) dF(x) = О, то мы имеем тождество / g(x,G(F))dF(x) = 0, (16) пользуясь которым можно найти значение производной G'(Fq,v) (cm. §8). Пусть ν = F\ — Fo, где Fi, как и Fo, есть функция распределения. Тогда Fo + hv — снова функция распределения, и, подставляя в (16) Fq + hv вместо F, получим / [д(х, G{F0 + hv))] d{F0(x) + hv{x)) = 0. Предположим, что функция д(х,6) для всех χ непрерывно дифференцируема по Θ. Так как G'(Fq,v) является обычной производной функции G(Fo + hv) по h в точке h = 0 (см. замечание 8.1), то, пользуясь процедурой отыскания производной от неявной функции, получим Jg'(x,G(F0))G'(Fo,v)dFo(x) + jg(x,G(F0))dv(x) = 0, G'(F0,v) = -Jg(x,G(F0))dv(x) (Jg'(x,G(Fo))dFo) . Стало быть, в силу (8.10), (16) ^(G(Fn*)-G(F0))» *-Jg(x,G(F0))dwn(F0(x)) (Jg'(x,G(F0))dFo(xf) => =Ф -(s'tfo))-1 J g(x,0Q)dwo(Fo(x)) = -(s'tfo))-1 J g(x,eQ)dw(F0(x)). Это значит, что v^ (^(F^) — G(Fo)) асимптотически нормально с параметрами, указанными в теореме 2. 7. Замечания о многомерном случае. Если неизвестный параметр θ = = (01,...,0*) E R* многомерен (к > 1), то исходным при построении М-оценок является предположение о том, что 0 является решением системы уравнений з(в) = 0, где s(0) = (si(0),.. .,s*(0)), Si(6) = Jgi(x,e)P(dx). В соответствии с этим М-оценка определяется как решение системы урав- нений s*n(t) = 0, где <(ί) = «д(<),.. .,<,*(*)), 1 п ' 77 *■" ·* П ι
§15. Метод минимального расстояния 99 Утверждения, относящиеся к состоятельности и асимптотической нормальности М-оценок, сохранятся при естественной модификации условий. Основным для доказательства асимптотической нормальности является следующий аналог уравнения (15): <i(O = O = <j((9) + ((6*-(9,grad<i<(6))+o(|(9*-0|), г = 1,...,к. (17) 1К<(*) _ dsj{9) dtj сходится п. н. к матрице з'{9) = ||s^||, s^ — t=e Здесь матрица , i,j = l,...,fc. Поэтому уравнение (17) в векторной форме можно Эвг записать в виде 3*η(θ) + (θ*-θ)3'(θ)+ο(\θ*-θ\) = 0, которое в предположении \s'(0)\ Φ 0 дает соотношение (θ*-θ)*-3*η(θ)(3'(θ)Γ\ означающее асимптотическую нормальность в*: Μ = [(3'(θ))-ψϋ(3'(θ))-\ D = \\дЩ, д&) = E5i(xi,%(xb^). § 15·* Метод минимального расстояния Метод, указанный в заголовке, как и методы § 14, является реализацией принципа подстановки и состоит в следующем. Рассмотрим какой-нибудь функционал от двух распределений d(P,Q), который обладает тем свойством, что как функция от Q он достигает своего минимума при Q = Ρ и d(P, Q) > d(P,P) при Q φ Р. Мы будем рассматривать величину d(P, Q) (или d(P,Q) — d(P,P) как «расстояние» между Q и Р, так что Ρ можно определить как значение Q, при котором d(P, Q) достигает своего наименьшего значения. Пусть теперь X €= Ρ, Ρ неизвестно и принадлежит семейству V. Обозначим через {Q)v распределение из Р, ближайшее к распределению Q в смысле расстояния d, и допустим, что оно существует: d((Q)p,Q) = mjnd(II,Q), так что {Q)v = Q> если Q Ε V. Определение 1. Оценкой распределения Ρ по минимуму расстояния d называется распределение Р* = (Р^)^ Ξ Φι гДе Р£> как и прежде, эмпирическое распределение. Таким образом, при Π = Ρ*! = (Р£)^ минимизируется с/(П, Ρ*). Если V совпадает с множеством всех функций распределения, то, очевидно, Р* = = Р*
100 Гл. 2. Теория оценивания неизвестных параметров Пусть теперь V = {Ρθ}θξΘ еСть параметрическое семейство, удовлетворяющее следующему условию. (Ао) Пусть ΡΘι φ Ρθ2 при θλ φ 02. В этом случае отображение 0 -» Ρ# взаимно однозначно, так что распределение Ρ € V позволяет единственным образом восстановить параметр 0, для которого Ρ = Р#. Этот факт можно выразить и иначе: существует функционал G, определенный на V, такой, что 0 = G(P^). Введем в рассмотрение функционал G\(Q) = G((Q)p). Это есть, очевидно, значение 0 Ε Θ, при котором Р# будет ближайшим к Q распределением в смысле расстояния d, так что G1(Pe) = G(Pg)=e. (1) Определение 2. Оценка 0* = Gi(P*) называется оценкой параметра θ по минимуму расстояния d. Другими словами, 0* есть значение из Θ, для которого ά(Έ>θ.,Ρ*η) = Μά(Ρθ,Ρ*η). Очевидно, что здесь мы снова имеем дело с принципом подстановки. Это вытекает из определений и (1). Разумеется, расстояние d и семейство V = {Р#} должны обладать свойствами, обеспечивающими измеримость отображения Xй в R*, осуществляемого функционалом (?ι(Ρ*) так, чтобы 0* была случайной величиной. Отметим теперь, что β параметрическом случае при выполнении условия (Ао) сужение метода подстановки (см. (13.1), (13.2)) и метод минимального расстояния дают один и тот же класс оценок. Действительно, мы уже знаем, что оценки минимального расстояния 0* являются оценками по методу подстановки, при этом 0* £ Θ. Пусть теперь 0* есть оценка по методу подстановки: 0* = G(P£), где G{Pq) = 0, 0* G Θ. Определим расстояние rf(P, Q) = |G(P) —G(Q)|. Тогда, очевидно, при 0 = 0* достигается mf d(p,,p;) = mf |σ(ρ,) - g(p;)| = ы \θ- о{р*п)\ = о. Ясно, что можно указать много «разумных» расстояний с/, которые можно использовать для построения оценок. Мы могли бы в качестве d взять расстояние d(P,Q)=sup\FP(x)-FQ(x)\ X ИЛИ d(P, Q) = J(FP(x) - FQ(x))2 dFQ{x), где Fp(x) — функция распределения, соответствующая распределению Р. Оценками 0* по минимальному расстоянию здесь будут значения 0, для
§ 16. Метод максимального правдоподобия 101 которых достигается соответственно mfsup\FPe(x)-FZ(x)\, ν χ /ι η / k — 1 \2 (^) (*■*(*) - FZ(x))2dK(*) - У" Σ (*Ь(*<*>) " —J · В некоторых задачах (ср. с [58]) используются так называемые оценки по минимуму χ2 (хи-квадрат). Это есть оценки по минимуму расстояния ^■«»-§(Р(^У. где Δί,..., ΔΓ — разбиение R (или Мт, если х^ га-мерны) на г < оо интер- г валов, так что |J Δ, = R. Таким образом, оценка Θ* по минимуму χ2 есть t=l значение 0, при котором минимизируется η (Pfl(Ai) - ι/j/n)2 ^ (nPg(Aj) - vjf Здесь ι/, = ηΡ*(Δϊ) есть число наблюдений х^, попавших в интервал Δ*. Статистика в правой части (3) есть уже известная нам статистика χ2, отсюда и происходит название оценки. Ниже мы увидим, что существует такой функционал G, θ = G(P$), для которого оценки по принципу подстановки, называемые оценками максимального правдоподобия, будут в известном смысле наилучшими. Эти оценки будут являться также М-оценками, М-оценками (при некоторых условиях регулярности) и оценками минимального расстояния. Расстояние, минимизируемое этими оценками, будет близко к расстоянию Кульба- ка-Лейблера между распределениями, которое будет введено в §31. § 16. Метод максимального правдоподобия. Оптимальность оценок максимального правдоподобия в классе М-оценок 1. Определения. Общие свойства. Пусть снова V есть параметрическое семейство {Ρθ}θ€θ· Относительно этого семейства будем предполагать в дальнейшем везде, где это потребуется, выполненным условие (Ао) Пусть Ρ*ι/Ρ*2 при θχ+θϊ, а также условие (Αμ) Существует σ-конечная мера μ в фазовом пространстве (Х,Ъх) такая, что все распределения Р# £ V имеют относительно
102 Гл. 2. Теория оценивания неизвестных параметров этой меры плотность f$(x) = —:—(я), так что αμ Έ>Θ(Β) = f !9{χ)μ{άχ). в В этом случае говорят, что мера μ доминирует распределения Р#. Все семейства распределений, рассмотренные в § 12, очевидно, удовлетворяют условиям (Ао), (А^). В качестве μ для одних распределений надо взять меру Лебега (абсолютно непрерывные распределения), для других — считающую меру (дискретные распределения). Считающая мера μ определяется так: μ {В) = &, где к есть число точек с целочисленными координатами, принадлежащих В. К первым относятся нормальное Φα>σ2, логнормальное LQ σι распределения, Г- и В-распределения, равномерное распределение, распределение Коши, распределения Стьюдента и Фишера. Ко вторым — распределения Бернулли, Пуассона, вырожденное в нуле и полиномиальные распределения. Вид плотностей fe{x) этих распределений приведен в § 12. В дискретном случае (когда μ есть считающая мера) плотность fe{x) совпадает с вероятностью Р$({х}) события {χχ = χ}; здесь {χ} означает множество, состоящее из одной точки х. Можно отметить также, что, например, нормальное распределение Φα>σ2 и распределение Пуассона взаимно сингулярны. Вместо меры Лебега и считающей меры мы могли бы брать и другие меры — например, нормальное распределение Фод и распределения Пуассона Πι соответственно. Однако в этом случаи плотности fe(x) будут, очевидно, другими. Мы предлагаем читателю найти их. Приведенные выше примеры относились к случаю X = R или X — Rm, m > 1. В произвольном фазовом пространстве (X, 55^) природа меры μ может быть более сложной. Введение условия (Αμ) удобно прежде всего тем, что оно позволит нам в дальнейшем с единой точки зрения рассматривать два наиболее важных в приложениях типа распределений — абсолютно непрерывные и дискретные. С точки зрения условия (Αμ) качественная разница между ними отсутствует. Кроме того, становится несущественной размерность фазового пространства X. Условимся писать f{x)=g{x) п. в. [μ], если существует множество Α, μ{Α) = 0 такое, что f(x) = g(x) для всех χ £ А. Очевидно, f(x) = g(x) п. в. [μ] тогда и только тогда, когда 1(/(χ)-9(χ))2μ(άχ) = 0. Лемма 1. Пусть fug — две плотности вероятности относительно меры μ. Тогда Ι' /{χ)1η/{χ)μ{άχ) > f /{χ)\η9{χ)μ{άχ), (1) если оба эти интеграла конечны. Знак равенства возможен лишь в случае f = gn.e. [μ].
§ 16. Метод максимального правдоподобия 103 Здесь принято соглашение, что интегралы в (1) по множеству А, на котором f(x) = 0, равны нулю при любой д{х). Доказательство. Нам надо доказать, что / Так как 1п(1 + х) ^ χ при всех χ ^ — 1 и знак равенства возможен лишь при χ = 0, то и знак равенства здесь возможен лишь при f(x) = д(х). Поэтому Jf(x)\n^(dx) < Jf(x) (№ - l) „(ώ) = = J 9{χ)μ{άχ)- J f{xM<b)=Q. (2) Если соотношение f = д п.в. [μ] не имеет места, то, очевидно, знак неравенства в (2) будет строгим. < Рассмотрим теперь семейство V = {Ρθ}θβΘι удовлетворяющее условиям (Ао), (Αμ), и «расстояние» d(Pe, Q) между произвольным распределением Q и распределением P^GP d(Pe,Q) = -J\nfe(x)Q(dx). (3) Определим функционал G(Q) как значение Θ, при котором достигается mmd(Pe,Q) = d(PG(Q),Q). Из леммы 1 и условия (Ао) следует, что - / Ль 1η/β/ί(ώ;) > - / /в„ \η/θομ(άχ), ά(Ρθ,Ρθο)>ά(Ρθο,Ρθο) при # т^ $ο· Это означает, что <?(Ρθ0) = б0. (4) Определение 1. Оценкой максимального правдоподобия (о.м.п.) называется значение Θ* = <7(Р*), т.е. значение б, при котором достигается Г 1 п max / In/0(0;) Ρ* (da;) — max — У^ ln/g(xj). (5)
104 Гл. 2. Теория оценивания неизвестных параметров Символ «~» над обозначением оценки везде в дальнейшем будет соответствовать о. м. п. Из определения и (4) следует, что о. м. п. является оценкой подстановки. Ее можно рассматривать также как М~оценку и оценку по минимуму расстояния (3). Это расстояние, как уже отмечалось, тесно связано с расстоянием Кульбака-Лейблера между распределениями, которое играет в математической статистике особую роль и будет нами рассмотрено позже. В определении 1 семейство {Р#} предполагается таким, чтобы Θ* была случайной величиной *). Поскольку максимум некоторой функции может достигаться в нескольких точках, то о.м.п., вообще говоря, не единственна. Соответствующий пример мы приведем несколько позже. Название этой оценки связано со следующей важной интерпретацией выражения η η £>/,(*) =1пП/*(х<), 2=1 2=1 присутствующего в (5). Для простоты рассмотрим сначала дискретный слу- п чай, когда μ — считающая мера. Тогда ТТ/^(хг) есть вероятность появле- г=1 ния исхода X = (χι,.. .,хп). Стало быть, мы выбираем в качестве Θ* значение параметра, которое максимизирует эту вероятность (ведь функции φ(θ) > 0 и \ηψ(θ) достигают экстремумов в одних и тех же точках). Аналогичное толкование имеет место и в общем случае. В силу независимости хг· имеем для множеств В = В\ χ - · · χ Бп, В{ £ Я$х Р9(Х е В) = J MzMdxi)- · · f ίθ(Χη)μ(άχη)' (6) Βι Βη Напомним, что Х{ в отличие от элементов выборки хг обозначают переменные величины, вектор (а;ι,.. >,хп) обозначается через х. Пусть μη есть гг-кратное прямое произведение мер μ, так что μη(άχ) = Υ^μ(άχ{). Тогда (6) означает, 2=1 ЧТО Т?9{Х € В) = J (f[h(xi) J μη(άχ) В η и, стало быть, функция /я (ж) = ТТЛ(^г) есть плотность распределения г=1 случайного вектора X в Хп относительно меры μη, ff0(x№(dx) = l. хп *) То есть Θ* осуществляет измеримое отображение (^п,53дг) в (Rk,*Sk).
§16. Метод максимального правдоподобия 105 Таким образом, Τ\/θ{χί)μη{άχ) можно интерпретировать (аналогично дис- г=1 кретному случаю) как вероятность попадания выборки в параллелепипед, образованный пересечением «полос» (xi,x% + dxi), и оценка максимального правдоподобия максимизирует по θ эту вероятность. Функция η как функция от θ называется функцией правдоподобия, а функция η где 1(χ,θ) = lnfe(x), — логарифмической функцией правдоподобия. Такое же название за функциями / и L мы будем сохранять и в том случае, когда в качестве аргумента вместо X стоит переменный вектор ж. Таким образом, функция правдоподобия fe{x) есть функция на Хп χ Θ, являющаяся при каждом θ Ε θ плотностью вероятности относительно меры μη, так что плотность feixi) в X также есть функция правдоподобия для случая п = 1. С другой стороны, /#(^0, например, в случае X = Ш можно рассматривать как функцию правдоподобия выборки объема 1 в многомерном случае, когда X = Rm = Rn. Важно отметить, что о. м. п. от выбора меры μ никак не зависит, так как при замене μ на какую-нибудь эквивалентную меру μι функция правдоподо- άμη бия fe{x) изменится лишь на множитель —~{х), от θ не зависящий. αμι ^ В соответствии с определением 14.2А о. м. п. является М-оценкой для функции φ(χ)θ) = 1(χ,θ). Это соответствует тому, что значение t = θ максимизирует Jl(x,t)Pe(dx) = j 1η/,(*)/β(α0μ(ώ0. (7) Если 1(χ,θ) имеет непрерывные производные 1'{χ,θ) по 0, то точка 0*, в которой достигается максимум (5), будет с необходимостью удовлетворять уравнению η L'(X,e) = J2H^0) = 0. (8) i=l В соответствии с определением 14.2 и замечаниями к нему это означает, что в этом случае о. м. п. Θ* является М-оценкой (надо положить в определении 14.2 g(x,9) = l'(x,t)). Это соответствует тому, что значение t = θ в предположении законности дифференцирования интеграла (7) удовлетворяет уравнению ' l'{x,t)Pe(dx) = 0. (9) /-
106 Гл. 2. Теория оценивания неизвестных параметров Тот факт, что о.м.п. является М-оценкой, можно получить и из других соображений, не связанных с максимизацией (как и тот факт, что t — 0 является решением уравнения (9)). Для этого в рамках параметрического случая надо предполагать, что законно дифференцирование по 0 равенства /· /θ{χ)μ{άχ) = 1, что дает нам равенство вида (14.8) при д = V ίΐ'(χ,θ)Ρθ(άχ) = [ϊ{χ,θ)Μχ)μ(άχ) = [ ffaMdx) = 0. (10) В этом случае согласно определению 14.2 решение уравнения (8) (или уравнения (14.10)) является М-оценкой параметра 0. Обратное утверждение о том, что М-оценка, соответствующая функции д(х, 0) = /'(ж, 0), является о. м. п., вообще говоря, не верно. Функция L(X, 0) может иметь несколько изолированных точек локальных максимумов, в которых будет удовлетворяться (8), однако maxL(X, 0) достигаться не будет. Это будет иметь место в тех случаях, когда J(t) = f 1(χ,ί)Ρβ(άχ) имеет несколько точек максимума по t и, следовательно, решение уравнения (9) не единственно. Соответствующие примеры легко построить, если взять в качестве 0 параметр сдвига: /^(ж) = /(ж — 0) (# = R, θ = R), а в качестве f(x) симметричную «двухгорбную» функцию (например, f(x) = = -(φ(χ + 1) + φ{χ — 1)), где φ — плотность нормального распределения с параметрами (0,1)). Тогда интеграл J(0) будет иметь три точки 0 = 0, 0 = ±0ι, 01 > 0, в которых J(0) достигает локальных максимумов, J'(0) = = J'(±0i) = 0, при этом J(0) > J(±0i). Примерно такая же картина при больших η будет иметь место и для функции L(X,9). Найдем функции правдоподобия и о.м.п. для некоторых распределений из § 12. Для гладких функций правдоподобия максимум проще всего искать путем приравнивания нулю первых производных. Пример 1. Нормальное распределение Φα>σ2 и X = R имеет плотность (χ - α)2Ί Ψ"·ΑΧ) = ^^[ Ίο* Полагая в этом случае θ = (α,σ2), получим -оо < α < оо, σ > 0. Мх) = (2π)-"/2σ-"βχρ { -^ £> - «)2| , ЦХ,в) = -| 1η2π - ηίησ - ~ ]Г(х* - а)2. г=1
§16. Метод максимального правдоподобия 107 Так как In есть монотонная функция, то, как уже отмечалось, / и L достигают максимума при одних и тех же Θ. Имеем dL 1 ^, ч dL η Ι χ^, ч2 г=1 г=1 Решая для точки максимума систему уравнений 9α 'da получаем α* = χ, (σ2)* = 52 = ±][>-ϊ)2. Нетрудно проверить, что в этой точке действительно достигается максимум L. Пример 2. Рассмотрим Υ-распределение с плотностью 1а{х) = ^ду^"16"^' * ^ °> α > °> в случае, когда параметр λ известен. Имеем η η L(X,a) = ληΐηα - η1ηΓ(λ) + (λ — 1) ^1ηχζ - α^χ^, i=l i=l dL Xn _ λ •χ- = χη, α = -. σα α χ Пример 3. Биномиальное распределение Вр. Здесь для X ^ Вр имеем Р(х, = 1)=р, Р(х,=0) = 1-р, /р(Х)=р1/(1-р)яЛ где ν — число появлений 1 среди элементов χι,.. .,хп. Стало быть, L(X,p) = *Лпр + {п — ^)1п(1 — р), dL ν η — ν ^+ ν op ρ I — ρ η Мы предлагаем читателю в виде упражнения попытаться найти о.м.п. для всех параметрических семейств, приведенных в § 12, и сравнить их с оценками по методу моментов. Приведем теперь два примера несколько иного типа, когда функция fe не является гладкой по θ и методы отыскания о.м.п., связанные с дифференцированием, не действуют.
108 Гл. 2. Теория оценивания неизвестных параметров Пример 4. Пусть X ё U^i+fl (равномерное распределение на [Θ, 1+0]). Здесь /·(*) хе[в,1 + θ], χϊ[θ,ι + θ], fe(X) = lh 0<χ(ΐ)^χ(η)<1+0, \θ в противном случае, где Х(!) ^ ... ^ Χ(η) — вариационный ряд. Оценка м.п. в этом примере не единственна. Действительно, f$(X) = 1 (т.е. максимальному значению) при любых 0, удовлетворяющих соотношениям Х(п) -1^0^ х^. Так как х(п) ~~ х(1) ^ 1» т0 такие 0 всегда существуют. Мы можем взять, в частности, 0* = х(1) или 02 = х(п) - 1· Та« как θ\ > 0, 02 < 0, то лучше, по-видимому, взять ^ = |Й + ^) = ^(х(1)+Х(п)-1). Пример 5. Пусть Χ £ Uq,0. Здесь Λ(χ) = \о, х£[О,0], , /л_ч Г0~п> если χ, G [0,0] при всех г = 1,2, ...,п, 1^0 в противном случае. Чтобы получить более простую запись функции fe(X) как функции от 0, перепишем условие х^ Ε [0,0], i = Ι,.,.,η, в эквивалентной форме 0 ^ > таххг = Х(„). Таким образом, fe(X) = 0 при 0 Ε [0,Х(П)) и /^(Х) = 0"п при 0 £ [х(п),оо). График этой функции представлен на рис.1. Здесь, как * ив предыдущем примере, функция /# раз- | AW рывна. Максимум fg достигается в точке ^=Х(п)· Аналогичным образом читатель может найти о. м. п. для двумерного неизвестного параметра (α.β), когда Χ ^ υα,β· χ Q Если fe[x) не ограничена и точки xq, в которых fe(xe) = оо, зависят от 0, то ме- Рис· 1 тод максимального правдоподобия в значительной мере теряет свой смысл (мы приняли здесь соглашение fei^e) = оо, если fe(x) -> оо при χ I xq или χ ^ xq). Проще всего это понять на примере параметра сдвига, когда fe(x) = f{x - 0), f(x) > 0, /(0) = оо. Тогда fe{X) = оо при 0 = χι,..., 0 = хп и, стало быть, 0* принимает по крайней мере η значений, совпадающих с элементами выборки. Существо этого эффекта в том, что в этом случае «всплески» fe(X) не дают возможности судить о положении точки «истинного» максимума fe{X), обусловленного влиянием всей выборки (ср. с §34). Чтобы получить таковой, следовало бы каким-то образом «сгладить» выбросы fe{X)-
§ 16. Метод максимального правдоподобия 109 Оценки м. п. обладают следующим важным свойством инвариантности относительно замены параметра. Теорема 1. Пусть β(θ) есть функция, осуществляющая взаимно од- позначное отображение множества θ на множество В. Тогда если Θ* есть о.м.п. по выборке X параметра 0, то β* = β(θ*) будет о.м.п. по выборке X параметра β = β(θ) для параметрического семейства {Qp = *Ρ0(β)}β€Β, где θ(β) есть функция, обратная κ β(θ). Доказательство теоремы мы опускаем ввиду его очевидности. Отметим, что неявно мы уже пользовались теоремой 1 в примере 1, где в поисках о. м. п. для σ2 искали максимум L по σ и затем взяли (σ2)* = (Э*)2. Другой пример использования теоремы 1 — отыскание о. м. п. в случае X €= La<72, т.е. в случае, когда распределение хг- логнормально: 1пхг- ^ €= Φασ2. Для таких х^ среднее а и дисперсия d2 равны соответственно (см. § 12) а — ехр < а + — >, d2 = a2(exp (σ2) — 1). Если обозначить α* и (d )* о.м.п. для а и d2, то в силу свойства инвариантности получим для функции (a,d2) = /3(α,σ2) (см. пример 1) {-#}· а* = ехр (У + "f j ι (*)* = (S*)2(«P(#) - 1), 1 п 1 п где У = (у1,...,уп), Уг = lnxi, у = - УЧЙ, S£ = -У)(уг-у)2· г—I г=1 Приближенному вычислению о. м. п. в более сложных ситуациях посвящен § 35. 2. Асимптотические свойства о.м.п. Состоятельность. Как уже отмечалось, о. м. п. являются М-оценками и при выполнении некоторых условий регулярности — М-оценками. Если сравнивать условия состоятельности, которые можно получить для о. м. п., используя соответствующие результаты для М- и М-оценок, то окажется, что М-оценки являются более общими уже потому, что не требуют дифференцируемости /(я, Θ) по Θ. Поэтому для получения условий состоятельности о. м. п. мы воспользуемся результатами § 14 о состоятельности М-оценок. Следуя п. 14.1, мы будем предполагать везде, что выполнено условие (Ас) о компактности Θ (замечания по этому поводу см. в п. 14.1). Условие [Ао] и его аналоги в § 14 мы будем использовать в новой редакции применительно к функциям ψ(Χ)θ) = 1(χ,θ) и Р{А) = Pq(A). Эта новая редакция [Aq] следует из леммы 1 и приведена в начале параграфа в виде условия (Ао).
по Гл. 2. Теория оценивания неизвестных параметров Она означает, что расстояние Кульбака-Лейблера (см. §31) p(9,t)= ί\η^.Μχ)μ(άχ)>0 J ft[x) при t φ θ. Условия (Ао), (А(^) будут иметь соответственно вид: (Ао) Для любого δ > 0 inf ρ(θ,ί) > ε при некотором ε = ε(<5) > 0. (ΑΑ) Для любого δ > 0 существует Δ = Δ(<5) > 0 такое, что при всех ί, \t — θ\ > <5, Jlnj^yfe(xMdx)>e (11) при некотором ε > О, где ftA{x) = sup ft+u{x)· Из теоремы 14.1 вытекает Следствие 1. Если выполнено (А^), то о.м.п. Θ* сильно состоятельна. Пусть Л°(я) = limsup/u(a;). Из теоремы 14.2 вытекает u-*t Следствие 2. Условие (Aq ) эквивалентно одновременному выполнению следующих двух условий. (Aq) Для всех t φ θ I \ηψ&·Μχ)μ(άχ)<0. (J) При всех t и некотором Δ > О / fAlx) \ηψ^-'/θ{χ)μ{άχ) <оо. Условие (J), означающее интегрируемость положительных частей подынтегральных функций, эквивалентно по существу ограниченности / fQ(x) In —7— - /θ(χ)μ(άχ) < оо, где /θ(x) = sup ft(x). tee Приведем теперь более простые достаточные условия, обеспечивающие выполнение (А§) и (J) и, стало быть, сильную состоятельность о.м.п. Определение 2. Будем говорить, что ft(x) принадлежит классу Д), если для каждого t € Θ существует множество Ct € 93,*, Pe(Ct) — 1, на котором ft{x) непрерывна по t ftk(x) —> ft(x) при t^ —> t, x Ε Ct.
§16. Метод максимального правдоподобия 111 Классу -Do помимо непрерывных (по t) ft{x) на не зависящем от t множестве С, Р#(С) = 1> принадлежат, конечно, и многие другие функции такие, например, для которых ft{x) в плоскости (£,я) имеет изолированные линии разрыва, не имеющие участков, параллельных оси х. Так будет, в частности, если ft{x) как функция от χ имеет изолированные разрывы в точках (1) (2) х\ ' ,х\ ,..., которые непрерывно зависят от t. Теорема 2. Если ft{x) £ -Do и выполнено (J), то выполнено условие (Aq), Щ следовательно о.м.п. Θ* сильно состоятельна. Доказательство. Если ft(x) G Д>, то ft{x) = ft(x) при χ Ε Ct и, стало быть, / In £М · MxMdx) = -р(0, <) < 0. < Следствие 3. Ясли /*(ж) € Do ограничена, а интеграл /θ{χ)1η/θ{χ)μ{άχ) (12) /· конечен, то о. м. п. сильно состоятельна. Утверждение следствия 3 немедленно вытекает из теоремы 2, так как ограниченность ft(x) и конечность интеграла (12) влекут за собой условие (J). Следствие 4. Если φ(Α) = / sup \ft+u(x) - Μχ)\μ{άχ) -> 0 (13) J \u\^A при Δ —> 0, то о. м. п. сильно состоятельна. Доказательство. Воспользуемся теоремой 2. Принадлежность ft{x) £ Dq очевидна, так как (13) может выполняться лишь в случае, когда ft+u{x) -* ftix) при гл —> 0 для п. в. [μ] значений х. Далее, J £[χ)μ{άχ) < φ(Α) + jίι{χ)μ{άχ) = φ(Α) + 1, fA(X) и условие (13) означает также интегрируемость f^(x). Так как In f ^ few fA(x) ^ ь v — 1, то отсюда получаем, что интеграл в условии (J) не превосходит ЛИ Ι/ίΑ(χ)μ(άχ)-1^φ(Α). < Вместо (13) мы могли бы требовать сходимости к нулю величины <Ρι(Δ)= / sup {y/ft+u{x) - y/ft{x) )2μ{άχ), J Ы\<А
112 Гл. 2. Теория оценивания неизвестных параметров так как φ(Δ) можно оценить с помощью φι{Δ) неравенством φ(Δ) ^ / sup \y/ft+u(x)- \βάχ)\ sup \y/ft+u(x) + \ίΰ(χ)\μ{άχ) < < φ\Ι2{Δ) / sup (Vft+u(x) - у(Щ+ 2\/7t(^) )V(<*r) < <[2¥>1(Δ)(^1(Δ)+4)]1/2. Следствие 5. Если ft(x) дифференцируема no t для η. β. [μ] значений χ и (14) \ίΆχ)\μ(άχ) <с<оо, то о. м. п. Θ* сильно состоятельна. Доказательство. Принадлежность ft(x) G Do очевидна. Для выполнения условия (J) достаточно, как мы видели в доказательстве следствия 4, интегрируемости /гЛ(я). Но f &(χ)μ(άχ) ^ J Шх) + f\ft+u{x)\ du μ(άχ) = = 1 + Δ - f [f\fl+u{x)№dx) -Δ du < 1 + 2Δα Остается воспользоваться теоремой 2. Следствие 6. Пусть θ есть параметр сдвига семейства fe(x) = = f(x — 9), J f(x) lnf(x) dx > — оо. ^слг/ функция f(x) ограничена (иначе метод максимального правдоподобия теряет свой смысл; см. замечание перед теоремой 1) и имеет множество В точек разрыва, лебегова мера замыкания которого μ(Β°) равна нулю, то о. м. п. Θ* сильно состоятельна. Доказательство. Проверим выполнение условий теоремы 2. Условие (J) выполнено очевидным образом. Принадлежность ft{x) G Do вытекает из определения Do, в котором надо положить Ct — Bc — t (это есть сдвиг множества Вс на t, Bc есть дополнение к замыканию множества В). Так как множество Вс открыто, то χ — t G Bc — t влечет за собой χ — ί* G Bc — t при достаточно малых |ί* — ί|. Это означает, что f{x — tk) —> f(x — t). Следствие доказано. < Отметим, что в условиях следствия б предполагать выполненным условие (Ао) излишне — оно выполняется автоматически. Если допустить, что
§16. Метод максимального правдоподобия 113 (Ао) не имеет места, то мы придем к периодичности функции /(ж), что невозможно. Относительно условий следствия 6 заметим, что условие на «непрерывность» /(я), сформулированное в нем, является весьма слабым. Но и оно, по-видимому, не существенно. На это указывает в какой-то мере следующий пример. Пример 6. Пусть f(x) — произвольная функция, имеющая ограниченный носитель (а, Ь) = {х : f(x) > 0}. Тогда Р*# - 0| > *U (1 - F0(a + δ))η + F£(b - ί), (15) χ где Fo(x) = / f(y)dy. Неравенство (15) означает сильную состоятель- -00 ность Θ*. Оно следует из соотношений вида (71 ") П Ц/,+,(*,) > О I С р|{хг ^ α + θ + δ}, i~l J i=l Ρθ{θ* -0>S)<^[l-Fo{a + 9 + δ)]η = [1 - F0(a + i)]n. Условие на конечность интеграла / f(x)lnf(x)dx в следствии 6 в известном смысле тоже не существенно: легко построить пример, когда этот интеграл обращается в —оо, а условие (J) будет выполнено. Все сказанное в следствии 6 и после него полностью сохраняет свою силу для параметра масштаба. Если бы для отыскания условий состоятельности о. м. п. мы стали применять теорему 14.3 о состоятельности М-оценок, то мы столкнулись бы среди других с требованием дифференцируемости ft(x) по £, которое само по себе есть намного более сильное условие (при выполнении (Ао)), чем, скажем, (11). Замечание 1. В целом применительно к о.м.п. имеет место в известном смысле парадоксальная ситуация (мы будем убеждаться в этом на примерах): для доказательства состоятельности (и особенно асимптотической нормальности; см. ниже) мы предполагаем выполнение некоторых свойств гладкости ft{x)· На самом же деле, чем менее регулярна /^(а:), тем, как правило, лучше оказываются свойства о. м. п. Иллюстрации этого факта можно найти в § 30, 32. 3. Асимптотическая нормальность о.м. п. Оптимальность в классе JVf-оценок. Обратимся теперь к свойству асимптотической нормальности о. м. п. Она будет вытекать из следующего утверждения, являющегося следствием теоремы 14.4. Это утверждение устанавливает также нижнюю границу для разброса М-оценок и оптимальность о. м. п. в классе М. Теорема 3. Предположим, что функцияд(х,0) удовлетворяет условиям теоремы 14.4 и законно дифференцирование под знаком интеграла
114 Гл. 2. Теория оценивания неизвестных параметров β равенстве 9{χ,θ)/θ{χ)μ{άχ) = 0. /■ Пусть, кроме того, выполнены следующие условия: a) Ι(χ,θ) дважды непрерывно дифференцируема по 0; sup|Z"(x,0)| </(z), [1{χ)/θ{χ)μ(άχ) < οο; (16) 0€θ J b) пусть 0 < Ι(θ) = Εβ(ΐ'(χι, θ))2 = J(l'(x, θ))2Μχ)μ(άχ) < οο; (17) c) законно дифференцирование под знаком интеграла в равенствах j ίθ{χ)μ{άχ) = 1, [ ϊ(χ,θ)Μχ)μ(άχ) = 0; d) уравнение относительно t 1'(χ,ί)Μχ)μ(άχ)=0 l· имеет единственное решение t = Θ. (В с) второе равенство получается дифференцированием первого; из с) вытекает, что Ε^/7(χι,θ) = —7(0).) При выполнении этих условий М-оценка 0*, соответствующая функции д, и о. м. п. Θ* асимптотически нормальны. Коэффициент разброса Θ* (см. теорему 14.4) удовлетворяет неравенству Έθ92(χ1,θ)(Εθ9'(χ1,θ))-2 > Г1 (θ) (18) и достигает своего наименьшего значения, равного Ι~ι(θ) при д(х,в) = = Ι'(χ,θ) (т. е. коэффициент разброса 0* всегда больше или равен коэффициенту разброса 0*). Доказательство. Заметим прежде всего, что условия a)-d) достаточны для того, чтобы функция V(x,6) наряду с д(х,9) удовлетворяла условиям теоремы 14.4. Поэтому нам надо доказать лишь последнюю часть теоремы, связанную с неравенством (18). Имеем (аргументы для краткости опускаем) УV/ + jV = o = уV/ + Уgi'f, Евд'(хив) = Jg'f = -jgl'f = -Ввд(хив)1'(хив).
§ 17. О сравнении оценок 115 По неравенству Коши-Буняковского отсюда находим (Евд'(хив))2 = (Евд(хив)1'(хив))2 < Εβ92(χ1,θ)Εθ(ϊ(χ1,θ))2. (19) Это доказывает неравенство (18). В силу a)~d) все сказанное применимо и к функции д = /', для которой в (19) достигается равенство. Теорема доказана. < Замечание 2. Условие с) о законности дифференцирования будет выполнено, если эти интегралы после дифференцирования сходятся равномерно по θ (в окрестности точки Θ). Это условие, в свою очередь, будет выполнено, если в (16) и в условии {М[) из § 14 потребовать, чтобы оценочные интегралы вида / 1(χ)/β(χ)μ(άχ) сходились равномерно по θ (в окрестности точки Θ); см. об этом также в §34 и в приложении V. Значение Ι(θ) = Ε0(/'(χι,0))2, присутствующее в (17), (18), играет значительную роль в теории оценивания параметров. Оно будет характеризовать наименьший возможный разброс оценки около истинного значения параметра θ не только в классе М-оценок, но и в классе вообще всех оценок. Асимптотические свойства о.м.п. будут более подробно изучены в § 33-37. В примерах 1-5 мы имели дело с распределениями, для которых о. м. п. без труда могла быть найдена в явном виде. В общем случае поиски о. м. п. сопряжены обычно со значительными вычислительными трудностями. Например, для параметра сдвига θ распределения Коши с плотностью [π(1 + (χ — 0)2)]"1 о.м.п. θ* является решением уравнения степени 2п — 1, так что при больших η отыскание Θ* становится весьма сложным. Все условия теорем 2, 3 при этом выполнены, так что Θ* будет в этом случае 1'{χ,θ) = ; —, 1 + (ж — θγ Ε»«'<^»2 = !/(ΤΤ^ = {)- Процедура приближенного вычисления Θ* в этом примере приведена в § 35 (см. также §18 об асимптотической эквивалентности Θ* L-оценке). Там же содержатся другие примеры, удовлетворяющие условиям теорем 2, 3 и иллюстрирующие процедуру вычисления о. м. п. § 17· О сравнении оценок Мы видели, что существует много весьма естественных подходов к получению оценок. Возникает вопрос — как сравнивать между собой разные оценки и какие оценки следует предпочитать другим? В этой главе мы выделим два подхода к сравнению оценок — среднеквадратический и асимптотический. Более общий подход, основанный на использовании элементов
116 Гл. 2. Теория оценивания неизвестных параметров теории игр и произвольных (не только квадратических) функций потерь, изложен в главе 6. Первый из двух названных подходов основан на сравнении среднеквадратичных уклонений. Второй подход применим лишь к выборкам большого объема, так как он основан на сравнении «рассеиваний» распределений для (0* — 0)у/п при больших п. Основанием для такого сравнения служит обычно вид предельных распределений для (0* — в)у/п при η —> со (если таковые существуют). Соответствующие предельные теоремы дают нам условия, при которых распределение (0* — 9)у/п при больших η можно приближать с помощью упомянутых предельных распределений. В этом параграфе предполагается, что оценки сравниваются при каком-то одном неизвестном, но фиксированном распределении выборки Р. 1. Среднеквадрэтический подход. Одномерный случай. Этот подход используется при рассмотрении оценок по выборке X любого фиксированного (не обязательно большого) объема. Он состоит в сравнении среднеквадратичных уклонений Е(0* — 0)2. Правило 1. Оценку 0*, в соответствии со среднеквадратическим подходом, будем считать лучшей, чем 0£, если Έ,{ΘΙ-Θ)2<Έ,{Θ*2-Θ)\ (1) Широко распространено представление о том, что среднеквадратичная погрешность является наиболее подходящей числовой характеристикой точности оценки, хотя это обстоятельство со многих точек зрения является спорным — ведь можно сравнивать, скажем, величины Е|0* — 0|, также описывающие средние значения уклонений 0* от 0. Несомненное преимущество характеристик Е(0* — Θ)2 составляет тот факт, что (0* — 0)2 есть аналитическая функция разности 0* — Θ. Это делает многие рассмотрения более удобными, а также позволяет приближать, как мы увидим позже, значения Е/(0* — 0) для гладких функций /. Наряду со среднеквадратичным уклонением для описания свойств оценок часто используется также величина смещения. Определение 1. Смещением оценки 0* называется величина b = Е0* - 0. Оценка 0*, для которой 6 = 0, называется несмещенной. Среднеквадратичное уклонение связано со смещением и дисперсией оценки равенством Е(0* - 0)2 = D0* + б2, так что для несмещенных оценок среднеквадратичное уклонение совпадает с дисперсией. Само по себе свойство несмещенности представляется, очевидно, желательным свойством оценок, поскольку оно означает, что в данной последовательности оцениваний среднее значение оценок будет совпадать с истинным значением параметра. Если этого свойства нет, то оценка называется смещенной.
§17. О сравнении оценок 117 Пример 1. Рассмотрим следующие три оценки для среднего значения θ = Εχι распределения Ρ 6>Г = х, (?| = Г, ^з = Х(1)2Х(П)' (2) где ζ* — выборочная медиана, Х(м, к = 1,..., п, — значения вариационного ряда, так что С* = Χ((η+ΐ)/2)ι если п нечетно, и (* = ^(п/2) + Χ(η/2+ΐ))ι если η четно (при η = 1,2 все три оценки совпадают). Все оценки являются несмещенными, если распределение Р, из которого извлечена выборка, симметрично относительно θ (Р((—оо, θ — t)) = Р((0 + t, оо)) при любом t ^ 0). Это следует из того, что распределение всех трех оценок также будет симметричным относительно 0. Для χ утверждение о несмещенности Ех = 0 очевидно и без предположения о симметрии. Вычислим среднеквадратичные уклонения оценок (2). Для простоты мы ограничимся случаем Ρ = Uo,i, n = 3, для которого оценки (2) перейдут в д* _ = д* _ ν й* _ χ(ΐ) + Х(3) Имеем 2 36 ^-/(.-i)'*-!, ЕИ-^ = И-^-^ Далее, в силу определения медианы (п нечетно) {С* < х} — {F^{x) > 1/2} и, стало быть, ^ ' к=(п+1)/2 (3) Для η = 3 p{f;(x) = ι) = ρ т{* < *}) = **(*). P(3F3*(z) = 2) =3i?2(s)(l-*"(*))■ Вероятность Р(С* € (гх,г* + с/и)) складывается из вероятностей событий вида {xi Ε (г*, г* + du)}{x2 < ^}{хз > ^}· Так как всего возможно шесть таких комбинаций, то Р(С* £ {щи + du)) = 6f{u)F{u){l — F{u))du, и, следовательно, С* имеет плотность, равную (это вытекает и из (3)) 6f(u)F(u)(l-F(u)),
118 Гл. 2. Теория оценивания неизвестных параметров где F(u) = / f{t)dt = Ρ(χι < и). В случае Р = Uo,i эта плотность будет — 00 равна 6х{\ — х) при χ Ε [0,1], так что ι Е(С*)2 = |б*3(1 - x)dx = 6 Q - \} - iQl о DC* = Е(С*)2 - (ЕС*)2 = — - - = —. s ^ ; ^ ^ 10 4 20 Нам осталось найти дисперсию оценки 0* _ x(i) + х(з) 3 2 Рассуждая аналогично предыдущему, нетрудно убедиться, что вероятность Ρ(χ(ΐ) £ {u,u + du), Х(з) € (υ,υ + ώ)) при u < ν равна 6f(u)f(v) x χ (F(i;) — i^(w)) dudv. Поэтому для Р = Uo,i ι ν 2 Значение этого интеграла равно 11/40 (вычисления читатель может провести самостоятельно), так что ва; = ЕИ)'-(Е*з)2 = 1Н = |;. Итак, оценка θ% оказалась наилучшей. Для других значений η и других распределений Ρ положение может оказаться другим. Мы увидим, например, что для Ρ = Φα?σ2 наилучшей оценкой для α будет 0* = х. При мер 2. Несмещенные оценки дисперсии. Рассмотрим оценку для дисперсии а также оценку S! = -T(xi- Ex;)2 = - У; х2 + (ЕхО2 - 2хЕХ1 (обе по принципу подстановки) в том случае, когда Εχι известно. Оценка S\, очевидно, является несмещенной. В то же время 52 = - ]Г(х; - χ)2 = i J> - χ ± ΕΧ1)2 = = - Σ(χ< - ЕхО2 - (χ - ЕхО2 = Sf - (χ - EX1)2 < Si
§ 17. О сравнении оценок 119 Таким образом, оценка S2 является смещенной, ES2 = Dxi - Dx = (1 - - J Dxi. Это соотношение показывает, что мы можем рассматривать и в случае неизвестного Εχι несмещенную оценку дисперсии, равную So2 = -V2 = -Ц- Σ(χ< - χ)2' Е5о = Dxi· П — 1 П — 1 ^—-' Перейдем теперь к асимптотическому подходу к проблеме сравнивания оценок. В этом случае правило для предпочтения оценок выбирается однозначно. 2. Асимптотический подход. Одномерный случай. Пусть даны две оценки 0* и 0£ такие, что -U UL- ^ q5 L* L ^ q5 (4) σι σ2 где Q — некоторый предельный закон распределения, один и тот же для 0* и #2? ^ σ2 > 01- Тогда при больших η распределения (0* — 0) χ/η/σ^, г = 1,2, будут близки к Q, и несомненно, что «рассеивание» 0£ вокруг 0 будет больше «рассеивания» 0*, и нам следует предпочесть θ\. Числа <т; естественно называть коэффициентами рассеивания. Таким образом, существо асимптотического подхода состоит в сравнении предельных распределений оценок. Мы уже видели и будем убеждаться в этом и в дальнейшем, что многие возникающие естественным образом оценки, в том числе и оптимальные (об этом ниже), являются асимптотически нормальными, т.е. для них справедливо (4) при Q = Фол· Это позволяет нам сформулировать следующее естественное правило сравнения а. н. оценок. Пусть даны две а. н. оценки 0* и 0£ с коэффициентами рассеивания σ\ и σ? соответственно 2 Правило 2. Оценку 0* следует признать лучшей, чем 0£, если σ\ < σ\. Мы использовали это правило для выделения оптимальных оценок в п. 16.3. В дальнейшем, при использовании этих и других правил, будем наряду с термином «лучше» использовать, где это требуется, также слова «не хуже», «хуже», «не лучше». Они будут соответствовать знакам неравенства ^, >, ^ между σ\ и σ\ (или между Е(0* — 0) и Ε(02 - θ) в (1)). Если σ\ = σ\, то оценки мы будем называть асимптотически эквивалентными. Предлагаемое соглашение естественно, и в дальнейших определениях мы оговаривать его каждый раз не будем, а будем ограничиваться лишь определением отношения «лучше» или аналогичных ему. Отметим, что в классе а. н. оценок минимальность рассеивания 0* означает, что величина lim Р(|0*-0|/<г^) π—юо
120 Гл. 2. Теория оценивания неизвестных параметров будет максимальной при каждом и. Это обстоятельство делает указанное правило для сравнения а. н. оценок бесспорным. Асимптотический подход при всей своей естественности обладает существенным недостатком: он применим лишь к выборкам большого объема и лишь в классе a. w. оценок. Отмеченные два подхода в известном смысле близки друг к другу — в обоих случаях дело сводится к сравнению дисперсий или величин, близких к ним. Конечно, величина σ2/η в (4) при Q = Ф0д может, вообще говоря, существенно отличаться от Е(#* — Θ)2. Однако примеры, иллюстрирующие этот факт (мы предлагаем читателю построить их), носят, как правило, искусственный характер. Дальнейшее изложение этой главы во многом связано с построением оценок, оптимальных для каждого из двух введенных подходов. Пример 3. Пусть X €= Γαιι· В примере 14.1 было показано, что обе оценки -1/2 «ί-m-. «4-(sE^)' являются оценками по методу моментов. Кроме того, а* является также о. м. п. Было установлено, далее, что обе оценки а.н. с коэффициентами соответственно а2 и ~а2, так что оценка а* лучше, чем а^, с точки зрения асимптотического подхода. Тот же результат при η ^ 2 получим для среднеквадратического подхода. Приведем теперь пример, показывающий, что в зависимости от свойств распределения одна и та же оценка может быть лучше или хуже, чем некоторая другая фиксированная оценка. Пример 4. Рассмотрим задачу об оценке θ = Εχχ, если известно, что I § Ρ иР — симметричное относительно точки θ распределение (ср. с примером 1). В этом случае медиана распределения ζ совпадает с Θ. Мы рассмотрим две оценки для θ (обе по принципу подстановки): среднее 0* = χ и выборочную медиану Q\ = ζ*. Пусть, для определенности, η нечетно. Из следствия 12.1 при к = (п + 1)/2 следует, что если функция распределения F непрерывно дифференцируема в точке θ = £, то (С*-СЬ/^=*2Лё), ^фо,ь f(x) = F'(x). Иными словами, в этом случае ζ* является а.н. оценкой с коэффициен- том а\ = 1/(4/2(0). С другой стороны, а.н. оценка χ имеет коэффициент σ\ = Dxi. Таким образом, если / Ϊ2 — ν . 1 (x-CYdF{x) < 4/2(С)' то мы должны предпочесть оценку х. Если знак неравенства будет обратным, то С*. Следует отметить, что числа / (х — ζ)2 dF(x) и /(ζ) представляют очень мало связанные между собой характеристики распределения.
§17. О сравнении оценок 121 Рассмотрим важный частный случай, когда мы оцениваем параметр α по выборке X €= Φα,σ2. В этом случае /(α) = /(ζ) = 1/<7\/27г, так что 2 π 2 ^ 2 2 ^2 = 2σ >σ =σι· Это значит, что статистика х, являющаяся в данной ситуации о. м. п. для а, лучше, чем ζ*. Это обстоятельство тесно связано с общим фактом, который будет установлен нами несколько позже, что в широких классах а. н. оценок Θ* о. м. п. Θ* является асимптотически наилучшей: ее коэффициент рассеивания является наименьшим в этих классах. Возвращаясь к примеру 4 о сравнении выборочных медианы и среднего, еще раз отметим, что, как было показано, существуют распределения, для которых выборочная медиана будет предпочтительнее х. Пример с медианой весьма поучителен и в другом отношении. Он показывает, что скорость убывания степени рассеивания ζ* — ζ с ростом η может быть любой. Чтобы убедиться в этом, достаточно обратиться к замечанию 12.1. В условиях этого замечания нормирующим множителем, который обеспечивает сходимость распределения ζ* — ζ к предельному распределению, является величина nl^2l\ где 7 может быть любым неотрицательным числом (см. (12.12)). Множитель у/п соответствует лишь гладким распределениям. Приведем теперь один численный эксперимент с выборкой X объема η = = 101 из нормальной совокупности Фдд и посмотрим*), как значения χ и ζ* приближают 0 при η = 11, 21, 51, 101. Полученные данные приведены в следующей таблице: η X г 11 -0,283 -0,291 21 -0,254 -0,292 51 -0,148 -0,078 101 -0,072 -0,044 В этом примере оценка ζ* при η = 51, 101 ведет себя лучше, что есть результат случайного отклонения. Чтобы почувствовать преимущества х, надо было бы провести много таких экспериментов. Приведем теперь некоторые общие результаты, связанные с рассмотренными примерами. 3. Нижняя граница рассеивания для Ь-оценок. В связи со сформулированным выше правилом сравнения а. н. оценок возникает естественный вопрос, насколько малым может быть сделан коэффициент рассеивания этих оценок. Для некоторых классов оценок нижняя граница возможных значений рассеиваний может быть найдена в явном виде. Для М-оценок такие границы были найдены в теореме 16.3. Здесь мы остановимся на этой задаче для L-оценок, т.е. для оценок, являющихся L-статистиками, рассмотренными нами в §3, 8. Это есть класс оценок (или статистик), представимых в виде линейной комбинации членов вариационного ряда (мы предполагаем, *' Выборка X построена с помощью случайных чисел, взятых из таблиц в [10] (взяты первые 101 чисел на с. 434).
122 Гл. 2. Теория оценивания неизвестных параметров что Xi ЕМ), или функций от них. Как и в главе 1, ограничимся L-оценками не самого общего вида: η . °° θ* = 1^φ(^9^{ΐ))= j ψ(Ρ*{η))9{η)άΡ*{η) = 0{Ρ*η), (5) 1=1 -оо или в несколько иной, близкой, записи: 1 o* = fv>(t)g{F;1{t))dt, (6) о где ψ, д — заданные функции, F~l — функция, обратная к F£- В §8 было установлено (см. следствие 8.6, замечание 8.3), что если X €= F, φ и F непрерывно дифференцируемы, то L-оценки являются а.н. оценками: yfr{G{FZ)-G{F))&*w, 1 σ2- /A2{t)dt-A\ о 1 A{t) = J α(ί)Λ, ο(ί) t Так как σ2 инвариантно относительно замены A(t) на ±A(t) + с, то можно сказать также, что в (7) A(t) — любая функция с производной Л'(£), равной —α(ί), и считать ее выбранной так, что А = 0. Простоты ради положим ^(х) ξ я. Это не очень ограничивает общность, так как для монотонной д значения #(x(i)) вместе с х^ образуют вариационный ряд (см. (5)). В этом случае все разнообразие L-оценок доставляется функцией φ. Фиксируем значение ι / ψ{ί) dt = const = φο, (8) о где φο может выбираться, например, так, чтобы оценка Θ* была несмещенной. Итак, если X €= F) F имеет плотность /, то в сделанных предположениях мы можем записать ι a2 = jA\t)dt, А'(*) = -"М = -п%-щу О) О где φ удовлетворяет (8). Через /, /, /, I будем обозначать производные f(x) и 1{х) — In/(а;) по х, сохраняя обозначения /#. /^', /', I" для производных fe{x) и Ι(χ,θ) = Infe(x) по параметру Θ, ι А= J A{t)dt, о 4>W(F-l(t)) F'(F-Ht)) ■ (7)
§17. О сравнении оценок 123 Теорема 1. Если f имеет производную /, то при всех φ, удовлетворяющих (8), σ2 > σΐ = ψΐΓ\ (10) iij^du^J{i{u))2f(u)du. (11) 7 = Если I < oo, / имеет вторую производную f и существует / f(u)du, то I — — If {и) du и равенство в (10) достигается при <p{t)=<p0r4(F-1{t)), (12) где φο из условия (8). Здесь мы опять сталкиваемся с тем, что интеграл 7, аналогичный (16.17), определяет нижнюю границу возможных значений коэффициентов разброса. Доказательство. Так как f(u) —> 0 при и —> ±оо, то, интегрируя по частям, получим в силу (9) i 1 1 φ0= I\p{t)dt = fa{t)f(F-l(t))dt = ί A(t) о о По неравенству Коши-Буняковского 1 1г. f(F-4t)) dt. Ψο ^ ίA2{t)dt ί ο ο L f(F-4t)) dt, (13) где второй интеграл после замены t = F(u) превращается в 7. Отсюда следует (10). Равенство (11) следует из соотношений / = *"/, f = 'if + (i)2f, y/(«)d« = o, последнее из которых получается, если два раза продифференцировать по θ в точке θ = 0 равенство / f{u + 0)du = 1. Знак равенства в (13) достигается при ^i)=c/Pi=c,'(F"1(i))· Отрицательная производная этой функции равна 'i(F-Ht)) (14) a(t) = —с f(F-4t)Y
124 Гл. 2. Теория оценивания неизвестных параметров Сравнивая это с (9), получаем <p(t) = -d(F-1(t)). Для этой функции A(t) = cl(F~l(t)) +с\. Условие А = 0 и соотношение (14) будут выполнены при с\ = 0. Условие (8) будет выполнено при с = —φοί"1. Теорема доказана. < Заметим, что свойство l(u) = const реализуется лишь для нормального закона. С другой стороны, из (6) видно, что оценка Θ* будет статистикой I типа (см. § 3) лишь при φ(η) = const. Это означает, что нижняя граница возможных значений σ2 может достигаться на статистиках I типа (в классе L-статистик) лишь для выборок из нормальных совокупностей. Посмотрим теперь, как выглядят два подхода к сравнению оценок, сформулированные в п. 1,2 в многомерном случае, когда θ есть вектор (0ι,..., θ^)· 4. Среднеквадрэтический и асимптотический подходы в многомерном случае. Асимптотический подход, как и прежде, мы будем использовать лишь в классе а. н. оценок. В этом случае все дело сводится к сравнению многомерных нормальных распределений (предельных для (Θ* — 0)\/п), которые полностью описываются матрицей вторых моментов σ2 (см., например, теорему 13.2А). Если рассматривать среднеквадратический подход к сравнению точных распределений 0*, то дело также сведется к возможности сравнивать два распределения в Шк на основании знания моментов (θ* — Θ) второго порядка. Таким образом, в обоих случаях мы должны уметь сравнивать по «степени рассеивания» матрицы моментов второго порядка. Рассмотрим наиболее естественные способы сравнения. Пусть Qi и Q2 — произвольные распределения в Шк. Обозначим через ξι и £2 какие-нибудь случайные векторы, обладающие этими распределениями: ^ €= Q^. Определение 2. Мы будем говорить, что среднеквадратичное рассеивание распределения Qi около точки α Ε Шк не больше, чем рассеивание Q2, если для любого вектора α = (αϊ,..., α&) Ε(ξι-α,α)2<Ε(ξ2-α,α)2, (15) к где (х, a) = 2_.xiai есть скалярное произведение. i=l Будем говорить, что рассеивание для Qi меньше, чем для Q2, если в (15) имеет место знак строгого неравенства хотя бы для одного а. Если а = Εξι = Е^2? то неравенство (15) означает, что по любому направлению а дисперсия распределения Qi (т.е. дисперсия проекции ξι на а) не превосходит такой же величины для Q2. Если df = \\dJ\\ — матрица вторых моментов Qj, I = 1,2, то, раскрывая скобки в (5) при α = 0, получим для любых αϊ,..., α& к к Σ 4))а^ < Σ diij)aiaj' (16) ij=l i,j=l
§17. О сравнении оценок 125 Это соотношение на языке матриц мы будем обозначать 4 ^ 4 (17) Оно означает неотрицательную определенность матрицы d| — ^ϊ· Таким образом, среднеквадратичное рассеивание Qi около нуля не превосходит такового для Q2 тогда и только тогда, когда для матриц моментов второго порядка имеют место неравенства (16), (17). Правила предпочтения оценок в многомерном случае можно сформулировать следующим образом. Среднеквадратический подход: оценка 0* лучше, чем 0£, если среднеквадратичное рассеивание 0* около точки 0 меньше, чем такая же величина для #2- Если df есть матрица вторых моментов 0г* — 0, то утверждение «оценка 0* лучше, чем 0£» означает, что d\ < d\. Асимптотический подход: оценка 0* лучше, чем 0г[, если среднеквадратичное рассеивание около нуля предельного распределения для (0* — 0) у/п меньше, чем такая же величина для (02 — в)у/п. Другими словами, если (0* — 0) у/п ©► Φα σ2, то утверждение «оценка θ\ лучше, чем 0£» означает, что σ\ <σ\. Можно показать, что если 0* и 02 — две а. н. оценки и 0* лучше, чем 02, то lim ((0? - 0)7^ £ В) > lim Р((0£ - 0)^ Ξ В) (18) для любого центрального эллипсоида*) В. Мы видим, что в обоих случаях сравнение оценок сводится к установлению неравенств для матриц моментов второго порядка. Некоторое отличие состоит в том, что в первом случае моменты не обязательно центральные. Установим теперь некоторые соотношения, эквивалентные (16), (17). Положим <;(0*) = E(0*-0)F(0*-0)T и обозначим через 93+ множество всех неотрицательно определенных матриц V = \\vij\\. Если \\dij\\ есть матрица вторых моментов 0* — 0, то, очевидно, ν{θ*) = Y^Vijdij. Лемма 1. d\ ^ d\ тогда и только тогда, когда г>(0*) ^ ^(0^) для любых V G 55+. Доказательство. В одну сторону утверждение очевидно, так как матрица Va = ||α;α^'|| Ε 55+, и для такой матрицы να{θΙ) = Ε (β? - Θ)να{θΐ - θ)Τ = Σ*αί4'} (см. (16)). А: *' Ради краткости условимся область Σ dijXiXj ^ с называть эллипсоидом в R*, а к поверхность Σ dijXiXj = с — эллипсом.
126 Гл. 2. Теория оценивания неизвестных параметров Чтобы доказать утверждение в обратную сторону, заметим, что частичный порядок, основанный на неравенствах (15), инвариантен относительно вращения осей координат. Именно, если С — матрица ортогонального преобразования и Θ* лучше #2 Для параметра 0, то 9\С лучше Q\C для параметра 0С. Это следует из равенств (θΐΟ - ΘΟ, а) = ((в; - в)С, а) = (θ\ - 0, аСт) и определения 2. Пусть теперь d\ < ά%, т.е. Σφααι, К^ЛУащ. (19) Это означает, что ν(βΐ) < ν {θ2) для матриц V вида Va = ||ai%"||> a стало быть, и для диагональных матриц Vdiag Ε 23+, поскольку последние пред- ставимы в виде суммы к матриц вида Va. Пусть теперь V — произвольная матрица из 55+, С есть ортогональное преобразование такое, что CTVC — = Vdiag- ТогД3 υ{θΙ) = Έ(θί - θ)ν(θ{ - Θ)Ύ = E(0J - θ)θνάΪΆ&Οτ{θΙ - Θ)Τ. Из сделанных выше двух замечаний и из (19) следует, что правая часть этого равенства меньше, чем Е(02* - e)CVdiaeCT(ΘΪ - Θ)Τ = Ε{θ*2 - θ)ν(θ*2 - θ)Τ = υ(θ*2). < Существует и другой способ сравнения рассеивания (см. [58]), который предполагает, однако, что оба распределения Qi и Q2 не вырождены в Rfc и имеют нулевое среднее. В этом случае матрицы центральных вторых моментов df будут положительно определены, и для них существуют обратные 4 = КГ1. Пусть d2 есть матрица вторых моментов распределения Q и А = (d2) l. Определение 3. Эллипсоидом рассеивания распределения Q называется эллипсоид tAtT ^ к + 2, который однозначно выделяется среди всех эллипсоидов следующим своим свойством: если рассмотреть равномерное распределение U на этом эллипсоиде (т. е. распределение вКАс постоянной плотностью внутри эллипсоида и нулевой плотностью вне его), то первые и вторые моменты Q и U совпадают (см. [58, с. 333]). Лемма 2. Пусть матрицы d2, I = 1,2, невырождены. Среднеквадратичное рассеивание Qi около нуля не больше рассеивания Q2 тогда и только тогда, когда эллипсоид рассеивания для Qi лежит в эллипсоиде для Q2- Доказательство. Пусть эллипс tA\tT — 1 лежит внутри tA2tT — — 1. Как известно, существует невырожденное линейное преобразование
§17. О сравнении оценок 127 t = uL, которое переводит эллипс tA\tT = 1 в единичную сферу 5ι, а эллипс tA2tT = 1 — в эллипс #2 с главными осями по направлениям осей координат. Это означает, что А\ = LA\LT — Ε (единичная матрица), A2 = LA2LT = diag (λ?,...,λ|), 0 < Aj < 1, j = 1,...,Л. Так как If1 = β, Α^1 = diag (λ^2,..., λ^2), то эллипс tA^t1 = 1 будет инверсией относительно единичной сферы S\ эллипса 5г, и, следовательно, он будет располагаться в S\. Так как А^ = {L )~lA2L~l, то, делая «обратное» преобразование и — tLT, получим, что эллипс tA^ltT = td\tT = 1 лежит снаружи от tA^t1' = td\tT = 1. Очевидно, что такое же соотношение справедливо для эллипсов td\tT = с и td\tT = с. Но это означает, что равенство tdftr -=- с влечет за собой td\t^ = с ^ td2tT. Утверждение в обратную сторону доказывается точно так же. <] Важно заметить теперь, что в отличие от одномерного случая сравнение рассеиваний распределений с помощью матриц вторых моментов устанавливает лишь частичный порядок на множестве всех распределений. Например, матрицы d\ = ( 9 J и d2 = ( п ) не лучше и не хуже одна другой, так как для вектора a = (1,0) неравенство (16) справедливо, а для вектора a = (0,1) оно будет обратным. Это существенное неудобство введенного порядка, хотя сам по себе он сомнений не вызывает. Мы можем сделать множество оценок (или множество распределений) вполне упорядоченным, если будем сравнивать, скажем, Έ\θ* — 0|2, где | · | есть евклидова норма в R*, так что к Е\в*-в\2 = Е^2(в*г-9г)\ (20) Такой способ упорядочивания является уже спорным, так как в разных обстоятельствах точность по различным направлениям может цениться по- разному. Чтобы как-то учесть это обстоятельство, можно в качестве обобщения рассматривать меру точности ν{θ*) = Ε{θ*-θ)ν{θ*-θ)τ, где V — неотрицательно определенная матрица (случай (20) соответствует V = E). Из леммы 1 следует, что если рассеивание 0* около θ меньше, чем рассеивание #2> т0 ν{θι) < v(02i)· Обратное, вообще говоря, неверно — выполнение неравенства ν (β*) < ν[θ2) для какой-нибудь одной матрицы V (предложенный выше полный порядок основан на фиксированной матрице) не означает еще, что рассеивание Θ* около θ меньше, чем рассеивание 6%. 5. Некоторые эвристические подходы к определению дисперсий оценок. Методы складного ножа и будстрэп. Мы видели, что важнейшую роль при сравнении оценок играют величины дисперсий этих оценок. Однако вычисление этих величин может представлять значительные трудности. В связи
128 Гл. 2. Теория оценивания неизвестных параметров с этим был предложен ряд эвристических процедур (иногда они могут быть теоретически обоснованными) для определения дисперсий оценок по самой выборке. Мы ограничимся рассмотрением лишь одномерного случая θ Ε R. L Метод складного ножа (jacknife; см. [78, 107]). Для определения дисперсии заданной оценки Θ* = 0£(Х), построенной по выборке X объема η (т.е. заданной функции от X и п) предлагается рассмотреть η «подвыборок» Χ^,.,.,χΜ объема η - 1, где X® получается из X выбрасыванием г-го наблюдения xj. По каждой из этих подвыборок строятся оценки 9^_г(Х^) 1 п и Θ*(Χ) = — ^ 0*_Χ(Χ^) (последняя оценка, как правило, имеет меньшее г—1 смещение по сравнению с Θ*(Χ)). В качестве оценки дисперсии σ2 = ΌΘ* предлагается использовать значение (σ2)* = ^ΣΚ-ι(*(ί)) -Θ*{Χ))\ г=1 2. Вудстрэп (bootstrap; см. [47]). Здесь для оценки σ2 = ΌΘ* = a2(F), Χ €= F предлагается использовать значение σ2 (F*), а для оценки σ2 (i^) — следующую процедуру типа Монте-Карло. По выборке X = (χι,.. .,хп) строятся новые выборки Х^\ ..., χ(Ν\ каждая из которых получается независимым образом как выборка из распределения F£* Иначе говоря, элементами χΜ — (xj',. .., Xn ) являются χι,..., хп, при этом х^ есть результат случайного равновероятного выбора с возвращением из совокупности (χι,.. .,хп). Точно также независимо от х^ определяется х^ и т. д. Оценкой будстрэпа для 0, построенной по Х^г\ называется значение 0* (Х^). В качестве оценки значения a2(F*) принимается величина г=1 г=1 которая выбором N может быть сделана сколь угодно точной. Вернемся к общей задаче оценивания и перейдем к рассмотрению важного параметрического случая, когда оцениваются неизвестные параметры распределений из параметрических семейств. § 18· Сравнение оценок в параметрическом случае. Эффективные оценки В предыдущем параграфе мы выделили два подхода (среднеквадрати- ческий и асимптотический) к сравнению качества оценок. Введем теперь некоторые понятия, связанные с этими подходами в параметрическом случае, когда распределение выборки X принадлежит некоторому семейству V = {Р#}. Символами Е# и Ό о обозначаем, как и прежде, математическое ожидание и дисперсию по распределению Р#.
§18. Сравнение оценок в параметрическом случае 129 1. Одномерный случай. Среднеквадратический подход. Напомним, что в соответствии со среднеквадратическим подходом мы должны говорить, что θI лучше, чем 0£, если d\{9) = Έ6{θ\ - θ)2 < Εθ(θ*2 - θ)2 = 4(θ). (1) Но в параметрическом случае g^(0), / = L2, суть функции от θ, и мы должны говорить «0J1 лучше 0£ β точке 0», если d\{9) < d<2.(6). Аналогичным образом дело обстоит при использовании асимптотического подхода, когда сравниваются а.н. оценки при больших объемах выборки η путем сравнения их предельных распределений. Оценка 0* считается лучше, чем 0£, в точке 0, если в соотношениях {Θ! - Θ) = yfc & Ф0^{в), 1 = 1,2, (2) справедливо σ\(θ) < σ2{θ)*). Таким образом, в обоих случаях задача сравнения оценок приводит к вопросу о сравнении функций, скажем, άι(θ), 0 Ε Θ. Это множество неупорядоченное, и в классе всех оценок можно ввести частичный порядок следующим образом. Правило 1. Оценка 0* лучше, чем 0£, если d\{9) ^ с^(0) (или соответственно σ\(θ) ^ σ2(0)) при всех 0 Ε Θ и хотя бы для одного 0 выполняется строгое неравенство ά\(θ) < cfeW· Если оценка 0* такова, что для нее существует оценка 0|, которая лучше, чем 0*, то в таких случаях говорят, что 0* — недопустимая оценка. Остановимся сначала на среднеквадратическом подходе в одномерном случае и рассмотрим существующие тут возможности сравнивать оценки. Прежде всего следует отметить, что наилучшей оценки в смысле приведенного определения, вообще говоря, не существует. То есть не существует оценки 0* такой, что для любой другой оценки 0* справедливо неравенство d(9) < di(0), где d\{9) определено в (1), d{9) соответствует 0*. Действительно, если взять оценку 0* = θ\ = const Ε Θ, το ά\(θ) = = Ε^(0ι — 0) =0 при 0 = 0ι, и для наилучшей оценки 0* (если бы такая существовала) будет выполняться d2(0i) = Έθι{θ* — #ι)2 = 0. Поскольку 0χ произвольно, то d2(0) = 0. Но это возможно лишь в «вырожденном» случае, когда наблюдения однозначно определяют значение параметра 0. Например, когда X €= 1θ или X ^ U^+i и Θ = {1,2,...}. Таким образом, нижняя огибающая всех функций d2{9) равна нулю, но в «невырожденных» случаях ни для какой оценки 0* эта функция не реализуется. Задачу можно сделать более содержательной, если искать наилучшие оценки 0* в тех или иных подклассах оценок, которые выбираются достаточно разумным образом. Одним из возможных способов выделения таких подклассов является фиксирование смещения 6(0). *) Мы уже отмечали, что в широком классе случаев d](6) = η~ισ?(θ) + о{п~1). Однако из определений чисел df (θ) и af(9) это не следует.
130 Гл. 2. Теория оценивания неизвестных параметров Определение 1. Оценка θ$ Ε К называется эффективной в классе К, если для любой другой оценки Θ* Ε К Έο(θ^ -θ) ^ Εο{θ* - θ)2 при всех θ е Θ. Особую роль играет класс Kq несмещенных оценок — это класс оценок, для которых Ь(в) = 0. Эффективные оценки в классе Ко = {Θ* : Едв* = 9} несмещенных оценок называются просто эффективными. Так что эффективные оценки — это несмещенные оценки с минимальной дисперсией. Само по себе свойство несмещенности, как уже отмечалось, является несомненно желательным, так как оно означает отсутствие систематической погрешности при использовании оценки. Вопрос о существовании оценок с данным смещением Ъ{в) (в частности, несмещенных оценок) сводится к разрешимости интегрального уравнения относительно д(х) [д{х)Ре{Хеах)=в + Ъ(в)) (3) где д{Х) = Θ*; левая часть этого уравнения представляет собой Eq6*. η Если выполнено условие (Αμ) и fe{x) = ТТ/0(#г) есть функция правдо- подобия, то уравнение принимает вид J 9(χ)/θ(χ)μη(άχ) = в + Ь{в). (4) Следует отметить, что решение (4) для заданной Ъ{9) существует далеко не всегда, и, в частности, не для всех семейств {Ре} существуют несмещенные оценки параметра Θ. Рассмотрим, например, схему Бернулли с неизвестным параметром ρ (вероятностью исхода {х\ = 1}) и допустим, что нам дано оценить параметр θ = <р(р), где φ — заданная функция. Тогда уравнение (4) для несмещенной оценки будет иметь вид 2>(а)Л(а) = 0 X или, что то же, f^G(k)pk(l-p)n-k = <p(p), (5) А;=0 где G(k) = \2 9{χ)·> Ak есть множество точек я, у которых к коорди- нат равны единице. Но левая часть (5) есть полином от ρ степени п. Это означает, что уравнение (5) может быть разрешимо, если только φ(ρ) есть полином степени не выше п. Рассмотрим теперь класс Кь оценок с фиксированным смещением Ь(в) и допустим, что существует эффективная в Кь оценка.
§18. Сравнение оценок в параметрическом случае 131 Теорема 1. Эффективная в Кь оценка единственна с точностью до значений на множестве А С Xй, для которого Р#(А) = 0 при всех Доказательство. Пусть 0J, θ* — две эффективные в Кь оценки. Обозначим Ό = Όθθΐ At = e;-e, в* = ?Ц?±, ι = ο,ι. Так как (6) то /Δρ + ΔΛ2 + /Δο-ΔΛ2 = Δ^ + Δ2 Εθ(θ* - θ)2 + -АЩ{в1 - θ*,)2 = D + Ь2{0). (7) Но θ* е Kb, и, стало быть, Έθ{θ* - θ)2 ^ D + Ь2(в). Из (7) вытекает тогда, что 0* = 0о*п.в.*) < Проведенное обсуждение проблемы сравнения оценок относилось к сред- неквадратическому подходу. К нему же относится по существу и следующее Определение 2. Оценка θ{ Ε К называется асимптотически эффективной (а. э.) в классе К, если при η —> оо для любой другой оценки Θ* из К и каждого θ Ε Θ Εθ(θ*}-Θ)2 "iSPs&bsH1· (8) 2. Асимптотический подход. Асимптотическая эффективность в классах Λί- и L-оценок. Мы перейдем теперь к асимптотическому подходу, с которым определение 2 тесно связано. Задача здесь, как и прежде, состоит в сравнении функций σ(#), характеризующих предельное нормальное распределение, но проблема в целом несколько упрощается. Дело прежде всего в том, что сравнение происходит лишь в классе а. н. оценок, который мы в дальнейшем будем обозначать через Кф. *) Справедливо следующее утверждение, обобщающее в известном смысле теорему 1. Если во — эффективная в Кь, о, Θ* — произвольная в Кь оценки, так что h = = Όβθο/Όβθ* ζ 1, то коэффициент корреляции ρ{θ{,θ*) между оценками 6q и Θ* равен Доказательство читатель может провести самостоятельно, убедившись, что при р(#о>0*) Φ \/h и соответствующем выборе а оценка θ\ — (1 — α)θο + <*θ* 6 Кь будет удовлетворять неравенству Oq9{ < Όβθ^ противоречащему эффективности 0J.
132 Гл. 2. Теория оценивания неизвестных параметров Пусть К — некоторый класс оценок из Кф. Временно вместо (8) мы будем использовать несколько иное определение асимптотически эффективной оценки. Определение 3. Оценка 0* Ε К называется асимптотически эффективной в К, если для любой другой оценки θ* Ε К σ\{θ) ^ σ2{θ) при всех θ £ Θ, где σ2(0) и σ\(θ) — коэффициенты рассеивания 0* и 0J соответственно. Позже мы покажем, что при широких предположениях определения 2 и 3 эквивалентны. Если в качестве К взять класс М-оценок Км, построенных по функциям д, удовлетворяющим условия теоремы 14.4 (об асимптотической нормальности), то из теоремы 16.3 немедленно вытекает следующее утверждение. Следствие 1. При выполнении условий регулярности, приведенных в теореме 16.3, о. м. η. Θ* является а. э. оценкой в Км с коэффициентом рассеивания σ*(θ) = Γι{θ); Ι(θ) = Ι{ΐ'(χ1,θ))2Μχ)μ(άχ), (9) где fe(%) — плотность наблюдений х^. Класс Км является весьма широким (в него входят, например, все оценки, являющиеся статистиками I типа; достаточно положить д{х,в) = = д(х) — h~l(9), где jh/i — функции из определения статистик I типа в §3). Однако остается неясным, содержит ли Км все а.н. оценки, т.е. все оценки из класса Кф, в котором нам хотелось бы построить а.э. оценки. Чтобы двигаться в этом направлении, мы произведем несколько позже иное сужение класса Кф, по-видимому, менее существенное. Обратимся теперь к L-оценкам применительно к задачам оценивания параметров (изначально определение L-статистик с параметрическими семействами не связаны). Использование результатов теоремы 17.1 в параметрическом случае будет эффективно, если функция l(FQl{t),e) (см. (17.12)) от Θ не зависит. По- видимому, это возможно лишь для параметров сдвига и масштаба. Рассмотрим сначала задачу об оценке параметра сдвига θ = а для параметрического семейства Ра(А) = Ρ (А — а) (А — а = {х : х + а Ε Α}, Χ = К, Θ = R). В этом случае Fa(x) = F(x - α), /α(χ) = f{x — α), где функции F и / = F' известны, F~l{t) = а + F^t); fQ{F-l(t)) = f{F~l(t)) от α не зависит. Заметим, что ι ι G(Fa) = /\>{t)F-l{t)dt ^ftpWia + F-1®) dt = ау>о + ОД) = a + G{F) о о
§ 18. Сравнение оценок в параметрическом случае 133 при любой функции </?, удовлетворяющей условию Ψο= f<p{t)dt = l. (10) Поэтому оценка подстановки a* = G(F*) — G(F) является с точностью до постоянной G(F) (зависящей от φ\) L-статистикой, зависящей от φ, и естественно поставить вопрос об оптимальном выборе </?. Оценки, являющиеся с точностью до постоянных слагаемых L-статистиками, также будем называть L-оценками. Пусть / имеет вторую производную / и φ удовлетворяет (10). Обозначим через Kl класс L-оценок вида а* = G{FZ) - G(F), a* = J<p(FZ(u))udK(u) ~ G(F). Тогда согласно следствию 8.6 и замечанию 8.3 Kl С Кф. Несомненное преимущество L-оценок перед М-оценками состоит в том, что первые выписываются в явном виде. Из теоремы 17.1 вытекает Следствие 2. Пусть 1(х) = 1η/(α:), 0 < I = f(i{x))2f{x) dx < ос. (11) Тогда L-оценка a* G Kl при φ(χ) = I"4(F~1(x)) является а.э. в классе Kl и имеет коэффициент рассеивания 7-1. Очевидно, что для параметра сдвига θ = а значение /(а) в (9) от а не зависит и совпадает с I. Это означает, что оценка а* = J"1 yV"1^)))"^») - <W = = (n/)"1X;r(li-1(i))x(0-G(i·) (12) (мы считаем здесь в соответствии с договоренностью в § 3, что F*(и) непрерывна справа, так что F*(x^) = г/п) асимптотически эквивалентна о.м.п. (имеет то же предельное распределение) и в этом смысле оценку (12) можно рассматривать также как М-оценку, соответствующую решению уравнения 2_]ЧХ1 "~ а) — 0-* она будет обладать всеми свойствами асимптотической оптимальности, каким обладает о.м.п. δ*. Замечание 1. Так как 1{и) = const лишь для нормального распределения, то представление (12) дает следующую характеризацию этого распределения: а.э. оценка параметра сдвига (или о. м. п.) реализуется как статистика вида — YJ φ Ι — J x, (статистика I типа) лишь для нормального закона F = Ф.
134 Гл. 2. Теория оценивания неизвестных параметров Аналогично обстоит дело с оценкой параметра масштаба θ — σ для параметрического семейства Ί?σ{Α) = Ρ Ι —- В этом случае *·,(*) = *■(!), 1М = У(1), (13) где функции F и / = F' известны, F~] (t) = aF~l(t). Имеем 1 1 G(Fa) = J<p(t)F^(t)dt = aj<p(t)Fr1(t)dt = aG(F), (14) о о так что при любой φ такой, что G(F) = G(F, φ) -ψ 0 * ~ "ОД"· (15) Это делает естественным рассматривать в качестве оценки σ* параметра σ значение » G(Fn) " G(F) ' являющееся L-оценкой. Для этой оценки функция φ в «исходном» представлении L-оценок (как / ip(t)F~l (t) dt) удовлетворяет условию f<p(t)F-4t) dt = 1. (16) (Это равенство дает возможность аналогично (17.10) получать с помощью неравенства Коши-Буняковского другие нижние границы для разброса L-оценок.) Следствие 3. Если выполнено (11) и то L-оценка h = [l{u)uf{u)du/0, (17) соответствующая функции φ(ί) = l(F l{t))1 является а.э. в классе L-оценок, удовлетворяющих (16), и имеет коэффициент рассеивания σ2ΐΓ2Ι. Доказательство. Воспользуемся теоремой 17.1, в которой роль F, 7, f(F~l(t)), /'(F"1^)) бУлУт играть соответственно Fa, σ~2Ι, -/(F"1^)), σ
§18. Сравнение оценок в параметрическом случае 135 —l(F 1{t)), где F и / из (13) от σ не зависят. Согласно этой теореме в каче- & стве оптимальной ψ надо взять φ(ί) = φοΙ~ 1/(F~1(i)), где </?о определяется из (16): φ0Γ1 fl(F-l(t))F-1(t)dt=h φο^ΐΓ1!· Следствие доказано. <] Для весьма распространенного класса симметричных распределений F (/(—х) — /(#), /(—х) = /(х)) условие (17) не выполнено. В этом случае можно перейти к наблюдениям у* = |х;| (в §22 увидим, что {|χϊ|} образуют здесь достаточную статистику и потери информации при переходе от хг к |х^| не происходит). После этого можно перейти к наблюдениям ζ; = In у*, для которых P(z, < t) - Р(|хг| < ег) = 2Fa{el) - 1 = 2Р{ег~1псг) - 1 = F{t- α), где α = Ιησ, F(u) = 2F(ew) - 1. Мы свели задачу об оценке параметра масштаба σ к оценке параметра сдвига для параметрического семейства с плотностью f(u — α), f(u) = 2f(eu)eu, и > 0. Остается воспользоваться следствием 2. При этом в новой задаче при очевидном соглашении относительно обозначений Т(и) = 1{еи) + In 2 + щ Т{и) = 1{еи)еи + 1, Г= /"(eu)e2u + /(eu)eu, так что оо 7 = -2 f f{t)dt[i{t)t2 + l{t)t]. (18) о Итак, из следствия 2 вытекает Следствие 4. Если распределение F симметрично, то оценка a- = (nf)-1X;f(ii-1(i))zw-G(ii), G(F) = 7"1 il(F-l{u))F-\u)du = Г1 [T(u)uf(u)du, (19) будет а. э. β классе оценок L и будет иметь коэффициент разброса I 1. Оценка σ* = еа* будет а. к. с коэффициентом разброса σ2/-1. Для стандартного нормального распределения 1(и) = — и, /(гх) = —1, 7 = 2 (см. (18), а также §26,27) и оценка σ* = ea* будет иметь разброс σ2/2. Такой же разброс будет иметь о.м. п. σ*~ ϊΣ* Τ 1/2 (20)
136 Гл. 2. Теория оценивания неизвестных параметров Это вытекает из следствия 1 или непосредственно из соотношений „„-2/^2 ^ тт с ... ησ-2{σ*)2-η ησ (σ) § Ηη, ξη — ί== ©> Φο,ι (см. 12.4), так что ""-'('WI) =σ(1+^;ίη+ε")' где εη —> 0. Таким образом, для нормальных распределений оценка σ* = = еа* оказалась асимптотически эквивалентной а. э. оценке σ* в классе Км- Отметим еще раз, что несомненным преимуществом оценки σ* — еа* является наличие ее явного вида. Сравним оценки (19), (20) с естественной несмещенной L-оценкой параметра σ вида σ* = — V>,|, (21) па ^—' 00 где а = 2 / xdF(x), так что Е|х;| = ασ (X ^ Fa, распределение F симме- о оо трично). Если обозначить d = χ dF(x) < ос, то мы получим, что σ* — 00 является а. н. оценкой с коэффициентом разброса (σ* - σ)ν^ = ^ Σ ("t" " σ) ^ φο,^2σ2· Для нормального закона а2 = —, d2 = 1, D2 = σ2 Ι— — 1) . Так как — — π V 2 / 2 — 1 > -, то коэффициент разброса для оценки (21) больше, чем для оценок (19), (20). Вернемся теперь к общим определениям 2, 3 асимптотической эффективности и введем в рассмотрение несколько иное сужение Кф, упоминавшееся выше, которое, по существу, обеднять Кф не будет. Именно, будем рассматривать класс Кф}2 С Кф а.н. оценок 0*, обладающих тем свойством, что для них сходимость происходит вместе с двумя первыми моментами: Εθ(θ* - 0)Vn -» Ο, Εθ{θ* - θ)2η -> σ2(0). (22)
§ 18. Сравнение оценок в параметрическом случае 137 Отметим, что первое из этих двух соотношений нетрудно получить из второго с помощью теоремы непрерывности для моментов (см. §5). Сужение Кф до класса Кф% мало обедняет первый из этих классов по двум причинам. Во-первых, а.н. оценки, в которых (22) нарушено, практически не встречаются (мы отмечали, что для этого обычно нужны искусственные построения). Во-вторых, для θ* Ε Кф по лемме Фату \ιπιΜΕθη{θ* - θ)2 > σ2(θ) n-юо (мы имеем дело с интегралами от неотрицательных функций), так что Ε#η(0* — θ)2 при больших η может отличаться от σ2(θ) лишь в сторону больших значений. Но оценки с таким свойством вряд ли могут конкурировать с оценками, для которых (22) выполнено. Таким образом, при асимптотическом подходе мы можем в качестве класса а.н. оценок, в котором производится сравнение, рассматривать класс Кфу2- Он будет для нас удобнее. Если К — класс оценок такой, что К С Кф^, то определение 3 асимптотической эффективности эквивалентно определению 2. Эквивалентность определений вытекает из того, что для θ* Ε Кф^ Εθ{θ*-Θ)2= 2-^1(1+ rn(0)), rn(0)->O при η "Чоо. η В этом случае соотношение (8), означающее, что Εθ{θί - θ)2 < Εθ(θ* - Θ)2{1 + r'n(9)), τ'η{θ) -». О, для любой θ* Ε К, очевидно, эквивалентно неравенству в определении 3. < Упомянутое ранее некоторое упрощение проблемы сравнения при асимптотическом подходе состоит в том, что здесь мы сравниваем лишь дисперсии предельных законов. Роль смещения Ь{в) оценок здесь исчезает, поскольку в классе Кф$ в силу (22) выполняется соотношение 6(0) = о(1/>/п), означающее «почти несмещенность» оценок или «асимптотическую прене- брегаемость» смещения с точки зрения соотношений (2). Аналогично теореме 1 может быть получена Теорема 2. Пусть К С Кф^· Тогда если θ\ и θ% — две а.э. оценки в К такие, что —{θ* + #£) ^ ^ то они асимптотически совпадают, га. е. νϊι{θΐ-θ*2)^ο, Εθ[νϊϊ{θΐ-θ*2)}2->ο. Доказательство. Нам достаточно установить второе соотношение, так как первое из него следует. Пусть Μι>η = Εθη{θϊ-θ)2, Αι = θ!-Θ, θ* = %^1, 1 = 1,2.
138 Гл. 2. Теория оценивания неизвестных параметров Тогда на основании (6) получаем в,п(в. _ θγ + ι-Έθη(θι - θΐγ = Μ^ + Μ2,η (23) Но θ* Ε К и, стало быть, после перехода к пределу в последнем равенстве получим в силу асимптотической эффективности 0* lim Εθη(θ{ - ΘΧ)2 < 0. < Приведенные выше рассмотрения содержали лишь один из возможных путей выделения оценок (в нашем случае — эффективных оценок), которые по ряду естественных соображений следует предпочесть другим. Однако возможны, конечно, и иные подходы (напомним, что нам приходится сравнивать неупорядоченные элементы — функции ά(θ) или σ(θ)). Поскольку оценок с наименьшим при каждом θ возможным значением с/(0), вообще говоря, не существует, можно сравнивать, скажем, средние значения / d(t)q(t)dt, где q(t) ^ 0, / q(t)dt = 1, или максимальные значения maxd(0). Это есть J 0€θ способы упорядочивания множества всех оценок. Первый из этих двух способов мы назовем позже байесовским, второй — минимаксным. Байесовские и мимимаксные оптимальные оценки будут рассмотрены нами в § 21, эффективные оценки — в более поздних параграфах. Более подробно проблема выбора оценок будет рассматриваться в главе 6. 3. Многомерный случай. Рассмотрим теперь случай, когда θ и Θ* есть векторы из R*. Здесь задача сравнения оценок становится труднее. Дело в том, что в многомерном случае нам пришлось ввести частичный порядок уже для сравнения оценок при фиксированном Θ. Для сравнения оценок на всем множестве Θ, как и в одномерном случае, также приходится вводить частичный порядок, но уже в «другом направлении» (ведь в основе сравнения лежит среднеквадратичное уклонение, которое есть функция двух переменных: θ и вектора о, на который проектируется уклонение θ* — Θ). Наилучшие оценки в «обоих направлениях» и составляют предмет следующих определений. Определение 4. Оценка θ$ является эффективной в классе К, если для любой оценки Θ* из К среднеквадратичное рассеивание Θ* около θ при всех θ Ε Θ не меньше, чем рассеивание 0q. Это определение эквивалентно следующему. Векторная оценка θ$ параметра θ эффективна в К, если для любого вектора а оценка aj = (#ο>α) является эффективной оценкой скалярного параметра а = (0,а) в классе оценок а* = (#*,а), Θ* £ ЯГ, т.е. если при всех θ е Θ, а е Rk, 0* е к Εθ(ΘΖ-θ,α)2^Εθ{θ*-θ,α)2. (24)
§ 18. Сравнение оценок в параметрическом случае 139 Как мы уже видели, это неравенство эквивалентным образом записывается в виде άΙ(θ) ^ бР(0) или id id при всех 0 е Θ, a£Rk, где ά2{θ) = ||dy (0)|| и d§(0) = ||^O)(0)|| — матрицы вторых моментов 0* — 0 и 0q — 0 соответственно. Эффективные оценки в классе Kq несмещенных оценок называются просто эффективными. Поскольку определение (24) эффективности строится на использовании одномерного случая, из теоремы 1 нетрудно установить, что эффективная оценка в классе Къ оценок с фиксированным смещением Ь(в) = Е0* — θ единственна. Определение а. э. оценок в многомерном случае аналогично определениям 2, 3. Определение 5. Векторная оценка θ\ параметра 0 асимптотически эффективна в К, если для любого вектора а оценка (0*,а) является а. э. оценкой скалярного параметра а = (0,а) в классе оценок а* = (0*,а) € К. Другими словами (см. §17), среднеквадратичное рассеивание предельного распределения (0* — в)у/п для а. э. оценки является наименьшим. Это, в свою очередь, означает что для любых 0* Ε К, a Ε R*, 0 G Θ выполняется σ?(0Κσ2(0), или ^σ^\θ)αια^ ^ ]Γσ^·(0)α^·, id id гдеа2(0) = ||o"ij(0)||, σΊ(θ) = \\σ\„; (0)|| суть соответственно матрицы вторых моментов предельных распределений (0* — 9)у/п и (0* — 9)у/п. Из рассмотрений предыдущего параграфа можно заключить, что множество оценок в многомерном случае при фиксированном 0 можно сделать упорядоченным, если качество оценки измерять количеством (при средне- квадратическом подходе) υ{θ*) = Εθ(θ* - θ)ν{θ* - 0)τ = ν{θ\ 0), (25) где V — неотрицательно определенная матрица. Аналогичное количество, связанное с матрицей вторых моментов предельного нормального распределения, можно рассматривать и при асимптотическом подходе в классе Яф,2· Двигаясь дальше по этому пути, можно сделать вполне упорядоченным множество всех оценок и на всем множестве Θ. Именно, можно проводить сравнение средних ( ν{θ*,t)q(t) dt, q{t) > 0, Jq{t)dt = 1, аксималы в (25). или максимальных тахг;(0*,£) значений количеств г>(0*,0), определенных
140 Гл. 2. Теория оценивания неизвестных параметров Если окажется, что оценка, наилучшая при таком подходе, будет оставаться наилучшей при любой неотрицательно определенной матрице V, это будет означать в силу леммы 17.1, что эта оценка будет наилучшей и в смысле частичного порядка, установленного в § 17 (т.е. усредненное среднеквадратичное уклонение будет наименьшим в любом направлении). Чтобы строить оценки, оптимальные в смысле определений, рассмотренных в этом параграфе, нам понадобятся понятия и свойства условных математических ожиданий и достаточных статистик. § 19. Условные математические ожидания В этом параграфе напомним определение и основные свойства условных математических ожиданий (у.м. о). Более полное изложение см. в приложении III, а также в [17, 35, 46, 72, 137]. 1. Определение у. м. о· Пусть ξ и η есть две случайные величины, заданные на вероятностном пространстве (Ω,#, Ρ). Условное математическое ожидание Έ(ξ/Β) случайной величины ξ относительно события i?, Ρ (В) > 0, определяется равенством т/в) = Щ^, (1) где Έ(ξ]Β) = / ξάΡ = Ε(ξΙ#), 1в = Ib{u) есть случайная величина, в равная индикатору множества В. Допустим, что ξ и η независимы, В = {η = χ} и Ρ (Β) > 0. Тогда для любой измеримой функции φ(χ,ν) согласно (1) «г (t w ί Е<^(^у/)/{т?=х} Ey^aQi^s} 4<P&v)h = *]= Р(,Л) = P{f,Jx) '=ίΜ&*)- (2) Последнее равенство справедливо, так как случайные величины φ(ξ)χ) и Ιίη-Χ\ как функции соответственно от £ и η независимы и, стало быть, Εφ{ξ,χ)Ι{η=χ} = Εφ{ξ,χ)ΕΙ{η=χ} = Εφ{ξ,χ)Ρ(η = χ). Соотношения (2) показывают, что понятие у.м.о. может сохранять свой смысл и в случае, когда вероятность условия равна нулю — ведь само по себе равенство Ε[φ{ξ,η)/η = χ]=Εφ{ξ,χ) для независимых ξ и η представляется естественным и с предположением Ρ (η = χ) > 0 никак не связано. Пусть 21 есть σ-подалгебра #. Определим теперь понятие у.м.о. случайной величины ξ относительно 21, которое будем обозначать через Ε(ξ/21). Определение дадим сначала для «дискретного» случая, но так, чтобы оно легко обобщалось.
§ 19» Условные математические ожидания 141 «Дискретным» мы называем случай, когда σ-алгебра 21 образована (порождена) не более чем счетной последовательностью непересекающихся событий Αι, ^2,...; UAi = Ω, P{Ai) > 0. Этот факт мы записываем в виде 21 = σ(Αι, Α<ι,...); это означает, что элементами 21 являются всевозможные объединения множеств Αι, Α<ι,... С помощью случайной величины ξ и системы событий (Αι, Α<ι,...) по- строим новую случайную величину ξ = ξ (ω) следующим образом: £=Ук = Щ/Ак) = Щ^ при ые4Ь1,2,... Другими словами, ζ~^ Ρ(Λ) Л*' А; где Ια есть индикатор множества А, ^+* Определение 1. Случайная величина ξ называется у. м. о. ξ относительно о-алгебры 21 и обозначается Е(£/21). Таким образом, в отличие от обычных математических ожиданий у. м. о Е(£/21) есть случайная величина. В нашем случае она постоянна на множествах Ак и равна на этих множествах усреднению ξ по А^. Если ξ и 21 независимы (т.е. Ρ(ξ Ε В;Ак) = Ρ(ξ G B)P(Ak)), то, очевидно, Е(£; Afc) = Если же 21 = #, то 5 тоже «дискретна», ξ постоянна на множествах А^ и, стало быть, ξ = ξ. Отметим следующие два основных свойства у. м. о.: 1) ξ измерима относительно 21; 2) для любого события А £ 21 Е(£Л)=Е(е;Л). Первое свойство очевидно. Второе следует из того, что любое событие А Е 21 представимо в виде Л = (J А^ и, стало быть, к Β(ξ;Λ) = ΣΒ(6^Λ) = Σ»*Ρ^Α) = Σ>(^Λ) = Ε^ ^ Это свойство довольно ясно: усреднение по множеству А величины ξ дает тот же результат, что усреднение уже усредненной по Ajk величины ξ. Лемма 1. Свойства 1), 2) однозначно определяют у. м. о. и эквивалентны определению 1. Доказательство. В одну сторону утверждение леммы уже доказано. Пусть теперь выполнены условия 1), 2). Измеримость ξ относительно 21 означает, что ξ постоянна на множествах Аь- Обозначим значение ξ на А^ через у к- Так как А^ £ 21, то из свойства 2) следует, что Щ&Ак)=укР(Ак) = ЩЬАк)
142 Гл. 2. Теория оценивания неизвестных параметров и, стало быть, при wE4 Теперь мы может дать общее определение у.м. о. Определение 2. Пусть ξ есть случайная величина на вероятностном пространстве (Ω,#, Ρ) и 21 С # есть σ-подалгебра $. Условным математическим, ожиданием ξ относительно 21 называется случайная величина ξ, обозначаемая Ε (ξ/21), которая обладает следующими свойствами: 1) ξ измерима относительно 21; 2) для всякого А Е 21 справедливо Ε(ξ; Α) = Ε(ξ; А). В этом определении случайная величина ξ может быть как скалярной, так и векторной. ^+* Сразу возникают вопросы: существует ли такая величина ξ и единственна ли она? В «дискретном» случае мы видели, что ответ на эти вопросы положителен. В общем случае справедлива ^+* Теорема 1. Если Έ\ξ\ конечно, то функция ξ = Е(£/21) в определении 2 всегда существует и единственна с точностью до значений на множестве вероятности нуль. Доказательство. Предположим сначала, что ξ скалярна, ξ ^ 0. Тогда функция множества Q(A) = f£dP=E(bA), Ae% А будет мерой на (Ω,21), которая абсолютно непрерывна относительно Р, поскольку Ρ {А) = 0 влечет за собой Q{A) = 0. Следовательно, по теореме Радона-Никодима (см. [17, приложение 3]). существует 21-измеримая функ- ция ξ = Е(£/21), единственная с точностью до значений на множестве меры нуль такая, что ' ξάΡ. Q(A) = fl А В общем случае положим ξ = ξ+ — ξ~, ξ+ = max(0,£) ^0, ξ~ = = max(0, -ξ) > 0, ξ = ξ+-ξ-, где ξ* — у.м.о. для ξ*. Этим доказано существование у.м.о., так как ξ будет удовлетворять условиям 1), 2) определения 2. Отсюда же следует и единственность, так как предположение о неединственности ξ будет означать неединственность ξ+ или ξ~. Доказательство для векторных ξ сводится к одномерному случаю, так как свойствами 1), 2) будут обладать коорди- наты ξ, существование и единственность которых нами доказана. <
§19. Условные математические ожидания 143 Существо проведенного доказательства достаточно прозрачно: ведь по условию 2) для всякого А Ε 21 задано Ε(ξ;Α) = / £dP, т.е. заданы зна- А чения интегралов от ξ по всем множествам А Ε 21. Ясно, что это должно определять 21-измеримую функцию ξ однозначно с точностью до значений на множестве меры нуль. Смысл Ε(ξ/21) остается прежним — грубо говоря, это есть усреднение ξ по «неделимым» элементам 21. Если 21 = #, то, очевидно, ξ = ξ удовлетворяет свойствам 1), 2) и, стало быть, Е(е/$) = ξ. Определение 3. Если ξ = 1с есть индикатор множества С G 5, то E(/c/2t) будет называться условной вероятностью Ρ (С/21) события С относительно 21. Функция множеств Ρ (ξ Ε С/21) называется условным распределением ξ относительно 21. Рассмотрим теперь важный специальный случай, когда σ-алгебра 21 порождена некоторой случайной величиной η. Определение 4. Пусть ξ и 77 — случайные величины на (Ω,^,Ρ), 21 = σ(η) есть σ-алгебра, порожденная случайной величиной η. Тогда Ε(ξ/21) называется также условным математическим ожиданием величины ξ относительно η. Иногда ради упрощения записи будем вместо Έ(ξ/σ(η)) писать Έ(ξ/η). Это не приводит к недоразумениям. Так как Ε(ξ/η) по определению есть а(т7)-измеримая случайная величина, это означает (см. [17, §3.4]), что существует измеримая функция д(х), для которой 4tft) = Sfo)· (3) По аналогии с дискретным случаем мы можем истолковывать здесь величину д(х) как результат усреднения ξ по множеству {77 = я}. (Напомним, что в дискретном случае д(х) = Έ(ξ/η = х).) Аналогично определению 3 в случае 21 = σ(η) будем называть функцию множеств Ρ (ξ Ε С/η) условным распределением ξ относительно η (см. также §20). 2. Свойства у. м. о. 1. У. м. о. обладает свойствами обычных математических ожиданий (см. [17, §4.9]) с той лишь разницей, что они выполняются почти наверное (с вероятностью 1): 1а) Е(с£/21) = сЕ(£/21), если с = const, lb) Ε(ξ! + ξ2/21) = Ε^/21) + Ε(ξ2/21), 1с) если ξι ζ ξ2 п. к., то Ε(ξι/21) < Ε(ξ2/21). 2. Справедливо неравенство типа Чебышева: если ξ вещественна, ξ ^ > 0, то для любого χ > 0 Р(?г1/я)<5Ш).
144 Гл. 2. Теория оценивания неизвестных параметров Это соотношение между у.м. о., как и равенства п. 1, выполняется п.н. Такое же соглашение будет справедливо в дальнейшем для всех соотношений между у.м.о. 3. Если σ-алгебры 21 и σ(ξ) независимы, πιο Ε(ξ/21) = Εξ. Отсюда следует, в частности, что если ξ и η независимы, то Ε(ξ/η) = Εξ. Если σ-алгебра 21 тривиальна, очевидно, также получим Ε(ξ/21) = Εξ. 4. Для у. м. о. верны теоремы сходимости, справедливые для обычных математических ожиданий, например теорема о монотонной сходимости: если ξη f ξ, ξη > 0, το Ε(ξη/2ί) t Ε(ξ/21) п. н. 5. Если η скалярна и измерима относительно 21, Ε|ξ| < оо, Ε|ξη| < оо, то Ε(ηξ/Κ) = ηΕ(ξ/Χ). Другими словами, 21-измеримые случайные величины ведут себя относительно операции у.м.о. как постоянные (ср. со свойством 1а)). 6. Для у. м> о. остаются справедливыми все основные неравенства для обычных математических ожиданий, в частности неравенство Коши- Буняковского E(|fcfc|/a) ^ [Ε(ξ?/2ΐ)Ε(ξ22/2ΐ)]1/2 и неравенство Иенсена: если Ε|ξ| < оо, то для любой выпуклой вниз функции д(х) 9(Ε(ξ/Ζ)) < Е((/(0/Я). 7. Формула полной вероятности (свойство 2 определения 2 при А — Ω) Εξ = ΕΕ(ξ/21). 8. Последовательное усреднение (обобщение свойства 7): если 21 С С Qli С 3, то Ε(ξ/21)=Ε(Ε(ξ/211)/21). Доказательство этих свойств можно найти в приложении III. Очевидно, что свойства 1, 3-5, 7, 8 справедливы как для скалярных, так и для векторных случайных величин ξ. Отметим, что если рассматривать у. м. о. ξ = Ε(ξ/η) относительно случайной величины η, то их, пользуясь свойствами 5, 7, иногда удобно определять эквивалентным (по отношению к определению 2) образом так: Определение 2А. Случайная величина ξ является у.м.о. относительно 77, если она измерима относительно σ(77), и для любой измеримой функции т Ε(ξπι(η)) = Ε(ξτη(η)). (4) Действительно, если ξ = Ε(ξ/η), то согласно свойствам 5, 7 Ε(ξτη(η)) = ΕΕ(ξπι{η)/η) = Επι(η)Ε{ξ/η) = Ε(ξτη(η)).
§19. Условные математические ожидания 145 Обратно, если выполнено (4), то, полагая гп(у) = /с, получим Е(£ η 6 С) = Etfmfa)) = Е(£; ту 6 С), что означает выполнение условий определения 2. Вернемся к свойствам у.м. о. в общем случае. Следующее свойство проясняет «геометрическую» сущность у.м.о. 9. Известно, что функция φ(α) = Ε(ξ — α)2 достигает своего минимума при α == Εξ (см., например, [17, §4.5]). Аналогичное свойство справедливо и для у.м.о.: при α(ω) = Ε(ξ/21) достигается минимум Έ(ξ — α(ω))2 среди всех ^измеримых функций α(ω). Действительно, Ε(ξ - α(ω))2 = ΕΕ((ξ — (ω))2/21), но α(ω) ведет себя как постоянная относительно операции Ε(·/21) (см. свойство 5), так что Ε((ί - а(и,))2/Ъ) = Ε((ξ - E(£/2l))2/2l) + Ε((Ε(ξ/21) - а(и))2/Щ, и минимум этого выражения достигается при α(ω) = Ε(ξ/21). Это свойство можно рассматривать как определение у. м. о., эквивалентное определению 2. Согласно нему Ε (ξ/21) можно трактовать как «проекцию» ξ на 21. Свойство 9 допускает обобщение на многомерный случай, когда ξ = = (£ъ · · ->6?) есть случайный вектор в Ms. 9А. Пусть V = \\vij\\ — произвольная неотрицательно определенная матрица размера s x s, a EW, ζ(α) = (ξ-α)ν(ξ-α)τ (в частности, при V = Ε получим ζ(α) — |ξ —α|2). Тогда на функции α(ω) = = Ε(ξ/21) достигается минимум ιηΐηΕζ(α) по классу А всехШ-измеримых авЛ функций. Доказательство этого факта протекает так же, как и в одномерном случае. Положим α = Ε(ξ/21). Тогда Εζ{α) = EE(C(a)/2l), В(С(а)/Я) = Ε((ξ - α)ν(ξ - α)τ/21) = = Ε((ξ - α)ν(ξ - α)τ/21) + Ε((α - α)V(ξ - α)1» + + Ε((ξ - a)V(a - α)Τ/21) + Ε((α - a)V{a - a)T/2t). (5) Так как а — а есть 21-измеримый вектор, то по свойству 5 Е((а - а)У (ξ - а)т/21) = (а - а)УЕ((£ - а)т/21) = О, Ε((ξ - а)У(а - а)т/21) = [Е((£ - а)/21)]У(а - а)т = 0. Поскольку последнее слагаемое в (4) неотрицательно и равно нулю при о = = а, утверждение доказано. <
146 Гл. 2. Теория оценивания неизвестных параметров § 20. Условные распределения Наряду с у.м. о. можно рассматривать условные распределения относительно σ-подалгебр и относительно случайных величин. В этом параграфе остановимся лишь на последних. Пусть ξ и η — две случайные величины на (Ω,#, Ρ) со значениями соответственно в Rs и Шк и 05s — σ-алгебра борелевских множеств из R5. Определение 1. Функция Р(В/у) двух переменных у Ε Rfc, В Ε 535 называется условным распределением ξ при условии η = у, если: 1) при каждом В Ε 55s Ρ(Β/η) есть условная вероятность (условное распределение) Ρ(ξ Ε Β /η) события {ξ Ε В} относительно η, т.е. Р(В/у) есть борелевская функция от у такая, что для любого А Е 93fe Ε(Ρ(Β/η);η Ε Л) = J P(B/y)P(V E dy) - Ρ(ξ Ε 5, r/ Ε Α); Л 2) при каждом у Р(В/у) есть распределение вероятностей по В. Функцию Ρ (В/у) мы будем иногда записывать в более «расшифрованной форме» в виде р(в/у)=Р((ев/п = у). Мы знаем, что для каждого В Ε 535 существует борелевская функция 5в(у) такая, что <7в(?7) = Ρ(ξ Ε #/77). Таким образом, положив Р(В/у) = = 9в{у), мы удовлетворим условию 1) определения 1. Однако условие 2) при этом из свойств у.м.о. никак не следует и выполняться совсем не обязано — ведь условная вероятность Ρ (ξ Ε Β /η) определена при каждом В с точностью до значений на множестве Νβ меры нуль (так что существует много вариантов у. м. о.), и это множество может быть своим для каждого В. Поэтому если объединение N — (J Νβ имеет не нулевую вероятность, то Be*ss может оказаться, что, например, равенства Ρ(ξ Ε Вг U Β2/η) = Ρ(ξ е Βι/η) + Ρ(ξ Ε Β2/η) (аддитивность вероятности) сразу для всех непересекающихся В\, В2 из 555 не выполняются ни для одного ω из iV, т. е. на ω-множестве N положительной вероятности функция дв{у) не будет распределением как функция В. Однако в нашем случае, когда ξ есть случайная величина со значениями в W с σ-алгеброй борелевских множеств *В5, дв{я) = Р(£ € Β/η) всегда можно выбрать таким образом, что дв{у) будет условным распределением (см. [35, 46]). Как и следовало ожидать, условные распределения обладают тем естественным свойством, что у. м. о. выражаются в виде интегралов по условным распределениям.
§ 20. Условные распределения 147 Теорема 1. Для любой измеримой функции д(х), отображающей Ks β IK, такой, что Ε|^(ξ)| < со, справедливо равенство Ε(9(ξ)/η)=Ι9(χ)Ρ(άχ/η). (1) Доказательство. Достаточно рассмотреть случай, когда g(x) ^ 0. Если д(х) = /л(х) есть индикатор множества А, то формула (1), очевидно, верна. Стало быть, она верна для любой простой функции дп(х) (т.е. для функции, принимающей конечное число значений). Остается взять последовательность дп | д и воспользоваться монотонностью обеих частей в (1) и свойством 4 в § 19. < В реальных задачах для подсчета условных распределений часто можно пользоваться следующим простым правилом, которое для наглядности мы запишем в форме Очевидно, что формально оба условия определения 1 будут удовлетворены. Если ξ и 77 имеют плотности распределения, этому равенству будет придан точный смысл. Определение 2. Пусть условное распределение Р(В/у) при каждом у абсолютно непрерывно относительно некоторой меры μ в W >(ξ£Β/η = ν)= J f{x/yMdx). В Тогда плотность f{x/y) называется условной плотностью ξ (относительно меры μ) при условии η = у. Другими словами, измеримая по паре переменных гг, у функция f(x/y) есть условная плотность ξ при условии η = у, если 1) для любых борелевских множеств А С К*, В С Rs f J f(x/yMdx)P(V e dy) = Ρ(ξΕΒ,ηΕ Α); (3) уел хев 2) при каждом у функция f{x/y) есть плотность распределения вероятностей. Из теоремы 1 вытекает, что если существует условная плотность, то ЕШМ = Jg(x)f(x/vMdx). Если предположить дополнительно, что распределение η имеет плотность q(y) относительно некоторой меры λ в Rfc, то (3) можно записать в виде J f f{xlv)q{vMte)\(dy) = Ρ(ξ е в, η е А). (4) уеАхеВ
148 Гл. 2. Теория оценивания неизвестных параметров Рассмотрим теперь прямое произведение пространств Rs и Шк и на нем прямое произведение мер μ χ λ (если С = В χ А, В С Is, А С КА, то μ χ λ (С) = μ(Β)λ(Α)). В этом пространстве соотношение (4) означает, очевидно, что совместное распределение ξ и η в W χ Шк имеет плотность относительно μ χ λ, равную ffav) = /(я/уМу)· Справедливо и обратное утверждение. Теорема 2. ^слг/ совместное распределение ξ и η β Κ5 χ Шк имеет плотность /(#,у) относительно μ χ λ, mo функция f(x/y) = ^^-, где q{y) = j f{x,yMdx\ есть условная плотность ξ при условии η = у, а функция q(y) есть плотность η относительно меры λ. Доказательство. Утверждение теоремы относительно q(y) очевидно, так как / q{y)^{dy) = Έ*(η £ А). Остается заметить, что f{x/y) = А = 1{хтУ)/я{у) удовлетворяет всем условиям в определении 2 условной плотности (равенство (4), эквивалентное (3), выполнено очевидным образом). < Замечание 1. Случайные величины ξ и η в теореме 2 можно поменять местами. Тогда получим, что наряду с f(x/y) существует условная плотность q(y/x) = ^0-, f(x) = J f(x,y)X(dy), случайной величины η при условии ξ — х. Это простое следствие теоремы 2 будет играть существенную роль в последующем изложении. Применительно к задачам статистики оно позволит нам в следующем параграфе получить формулу Байеса, которая будет затем часто использоваться на протяжении всего курса. Пример 1. Пусть Φα,σ2 есть двумерное нормальное распределение величин ξι и ξ2, где α = (аьа2), а* = Е&, а2 = ||ау||, σ# = Е(& -а*)^· -ау), i,j = 1,2. Определитель матрицы вторых моментов равен \σ | = аца22 - σ12 = <гц<Г22(1 - Ρ ), где ρ есть коэффициент корреляции между ξι и £г- Таким образом, если \р\ φ 1, то матрица вторых моментов не вырождена и для нее существует обратная матрица 1 Ρ
§ 20. Условные распределения 149 Стало быть, совместная плотность ξι и £2 (относительно меры Лебега) равна (см. § 12) /(я, у) = 2πΛ/σιισ22(1 - Ρ2) ν *™ / 1 |>-αι)2 2p(s-a1)(y-a2) , (y~Q2)211 X exp < ; тг 7= 1 > . L 2(1-/^)L ση \Μισ22 ^22 J J Одномерные плотности ξι и £г соответственно равны V/πσιι νζπσ22 Поэтому условная плотность ξι при условии £г = У равна Ηχ,ν) ι ЯФ) q(y) y/2nan{l-p2) хехр -r-7—~2T (a;-0!i-pA/?ii(y-a2) 2σιι(1-^) V V σ22 )'l· это есть плотность нормального распределения со средним αχ + р\/&п/&22 х х {у — #2) и дисперсией ац(1 — р2). Отсюда следует, в частности, что у. м. о. ξι относительно ξ2 равно Β(ξι/ξ2)=αι + Ρ*/^(ξ2-α2). V σ22 Прямую χ = αχ 4- P\JonJG<i2 {у — #2) называют линией регрессии ξι на £г- Она дает наилучшие среднеквадратичные приближения величины ξι при данной ξ2 = у. Пример 2. Рассмотрим задачу о вычислении плотности случайной величины ξ = φ{ζ,η), где С и 77 независимы. Из формулы (3) при А = К* вытекает, что плотность f(x) распределения ξ выражается через условную плотность f{x/y) равенством f(x) = Jf(x/y)P(Vedy). (5) Применительно к рассматриваемой задаче под f{x/y) надо понимать плотность случайной величины <^(С,у), поскольку Ρ(ξ Ε Β/η = у) = = РМС,у)ев). Формула (5) бывает очень полезной при вычислении распределений различных статистик. Например, в п. 12.6 мы могли бы формулу (12.7) для для плотности распределения Фишера выписывать сразу, а не выводить ее из вида функции распределения.
150 Гл. 2. Теория оценивания неизвестных параметров § 21. Байесовский и минимаксный подходы к оцениванию параметров Суть байесовского подхода состоит в том, что неизвестный параметр θ рассматривается как случайная величина с некоторой (известной или неизвестной) плотностью распределения q(t), ί Ε θ, относительно меры А, которая, как и мера μ в условии (Αμ), чаще всего будет представлять из себя либо меру Лебега, либо считающую меру. Плотность q(t) называется априорной, т. е. данной до эксперимента. Байесовский подход предполагает, что неизвестный параметр θ выбран случайным образом из распределения с плотностью q{t)> Пусть, далее, ft{x), t Ε Θ, χ Ε Χη, есть функция правдоподобия, введенная нами в §16. Как мы отмечали, ft{x) при каждом t есть плотность распределения в Xй. Поэтому функция f(x,t)=ft(x)q(t) есть плотность некоторого распределения в Хп χ Θ относительно меры μη χ λ, которую можно интерпретировать как плотность совместного распределения X и Θ. При таком подходе в силу теоремы 20.2 функция /г(ж), χ Ε Χη, есть условная плотность X при условии θ = t ft(x) = f(x/t), Έθ9(Χ) = Β(9(Χ)/Θ). В этих рассмотрениях формальная сторона дела требует, чтобы ft{x) была измеримой по t и χ функцией. В дальнейшем везде, где это потребуется, будем предполагать, что это свойство имеет место. В последующем параметр, как случайную величину, везде будем обозначать через 0, в то время как для фиксированных значений параметра часто будем использовать обозначения £, и и др., так что Etg(X) = Ε(9(Χ)/Θ = t). Наряду с f{x/t) мы можем выписать условную плотность q{t/x) величины θ при условии X = х: q{t/x) = М*$*\ /И = /Mx)q(t)\(dt). (1) Эта плотность определяет так называемое апостериорное (т.е. после эксперимента) распределение #, которое мы будем обозначать через Qx. Равенство (1) называется формулой Байесаяля плотности апостериорного распределения. В дальнейшем эта формула будет играть существенную роль. Свойство 9 у.м. о. применительно к байесовскому случаю означает следующее: среди всех функций θ* = φ{Χ) наилучшей оценкой для θ (в смысле минимизации Έ(θ — φ(Χ))2) является функция e*Q = Щв/Х) = Jtq(t/X)X(dt) = JtQx{dt). (2) Определение 1. Оценка 0q, определенная формулами (2), (1), называется байесовской, соответствующей априорному распределению Q с плотностью q(t).
§21. Байесовский и мимимаксный подходы 151 Отметим еще раз, что для байесовской оценки безусловное среднеквадратичное уклонение Ε{Θ*-Θ)2 = ΕΕ{{Θ*-Θ)2/Θ)=ΕΕΘ{Θ*-Θ)2 = (Et{e* -t)2q{t)\{dt) (3) принимает наименьшее возможное значение. Соотношение (3) показывает, что байесовская оценка минимизирует среднее значение (с данной весовой функцией q(t)X(dt)) величины Et(6* — t)2. Другими словами, если θ выбирается случайно, с плотностью q(t): то байесовская оценка является наилучшей в смысле среднеквадратичес- кого подхода. Среднеквадратичное уклонение (3) байесовской оценки можно представить в виде (см. (1)) E{e*Q - θ)2 = JEt{e*Q - t)2q(t)X(dt) = = J/(t - 9*Q)2ft(x)q(t)X(dt№(dx) = ΙσΙα/(χ)μη(άχ) = Ba2Qx, где Oq есть дисперсия апостериорного распределения Qx: σ1χ = /(* - e*Qfq{tlX)\{dt) = |(ί - E(0/X))2Qx(dt). (4) Это был байесовский подход к отысканию наилучших оценок. Другой подход к сравнению оценок, который отмечался нами в § 18, основан на сравнении supE^(0* — £)2, где Г С Θ — заданное подмножество Θ teT (Г либо совпадает с Θ, либо равно той его части, относительно которой удалось установить, что θ Ε Γ). —* Определение 2. Оценка θ называется минимаксной, если для любой другой оценки Θ* supEt(0* - t)2 ^ supEi(0* - t)2. ter ter Другими словами, для минимаксной оценки достигается inf supEt{9* - t)2 = supEttfP - *)2. (5) θ* ter ter Установим некоторые полезные связи между байесовскими и минимаксными оценками. Теорема 1. Обозначим через 0q байесовскую оценку для априорного распределения Q с плотностью q. Если существуют оценка Θ* и распределение Q такие, что при всех t Μθ*ι-*Ϋ< 1ВЛвЪ-и)2я(и)Ч<1и), (6) то оценка Θ* минимаксна.
152 Гл. 2. Теория оценивания неизвестных параметров Доказательство. Пусть Θ* — любая другая оценка. Тогда supEt(0* - t)2 > [ει{Θ* - t)2q(t)\{dt) > > JEt(9*Q - t)2q(t)X(dt) > Et(ei - t)\ < Заметим, что почти для всех /, принадлежащих носителю Nq = = {t : q(t) > 0} распределения Q, в неравенстве (6) с необходимостью должно выполняться равенство, так как в противном случае мы получили бы J Et(0i - t)2q(t)X(dt) < JEt{e*Q - t)2q(t)X(dt), что противоречит определению байесовской оценки. Это замечание позволяет нам сформулировать следующий критерий минимаксной оценки, эквивалентный теореме 1. Теорема 2. Если оценка Θ* 1) является байесовской для некоторого распределения Q, 2) Еь{в* -t)2 = с = const при t e Nq, 3) Et(6* — t)2^c для остальных ί, то θ* является минимаксной оценкой. Если Θ* = 9q = θ удовлетворяет этому критерию, то, очевидно, supE*(0* - tf = /*Е*(Г - t)2q{t)X(dt). (7) Таким образом, минимаксная оценка — это есть байесовская оценка, которая «выравнивает» погрешности Ει(θ — t)2 при различных t. Это значит, что априорное распределение Q, соответствующее этой оценке, заставляет быть одинаково внимательным ко всем возможным значениям 0, а не ориентироваться, как это делают байесовские оценки 0q, соответствующие другим априорным распределениям Q φ Q, на какие-то выделенные (более вероятные) значения Θ. Поскольку в последнем случае мы используем дополнительную информацию о #, то естественно, что при Q φ Q оценки 0q будут обладать меньшими значениями безусловных среднеквадратичных уклонений У Et(0£ - t)2Q(dt) < У Et(^ - t)2Q(dt). В связи с этим распределение Q в теореме 2, соответствующее минимаксной оценке θ , часто называют наихудшим, Так как такое наихудшее распределение Q не всегда существует (это бывает обычно в случаях, когда Θ — неограниченное множество), то можно предложить следующий модифицированный критерий для отыскания минимаксной оценки.
§21. Байесовский и мимимаксный подходы 153 Теорема 3. Если существует оценка Θ* и последовательность рас- пределений Q^) с плотностями q(k' такие, что при всех t Et(0i - tf < limsup (Μθ*α<*> ~ t)2qW(t)X(dt), k-юс J то оценка θ\ минимаксная. Доказательство этой теоремы столь же просто. Для любой оценки Θ* справедливо 8upEt(0· - tf > JВД* - t)2qW(t)\(dt) > JEt(FQW - t)2qW(t)X(dt). Отсюда следует, что supEt(0*-i)2^ Hmsup f E<(0* (k) - t)2q^{t)X(dt) > Et(ej - if. < ί jfe-юо У v Пример 1. Пусть X ^ Φα,ι· Выясним, что из себя представляет байесовская оценка ct*(k) параметра а с априорным нормальным распределением Q(*0 = Ф0)А;. В этом случае мы должны положить X(dt) = dt. Апостериорное распределение Q^' будет иметь плотность q(k'(t/X), пропорциональную (как функция от t) q^(t)ft{X) или, что то же, пропорциональную «ρ{-δ-ϊΣί*-«>2}· Из равенства следует, что п(*) л Чх — φχη£/(1+ηΑ;),Α;/(1+ηΑ;)· Так как байесовская оценка ot*^ параметра а равна математическому ожиданию апостериорного распределения, то отсюда получаем ^ хпк __ χ пк
154 Гл. 2. Теория оценивания неизвестных параметров к Дисперсия апостериорного распределения σ2 {к) = от X не зави- Qх 1 -г τικ сит. Стало быть, в силу (4) среднеквадратичная ошибка байесовской оценки равна к 1 1 + пк η при к —> оо. Поэтому для оценки α* = χ имеем Εί(χ-ί)2 = - = lim /Et(a* w -<)Vfc)(<)*. и, стало быть, по теореме 3 оценка α* = χ минимаксна. «Наихудшим» распределением здесь было бы равномерное распределение на всей прямой («предельное» для Φο,λ), если бы таковое существовало*). В следующем примере множество θ компактно и «наихудшее» распределение существует. Пример 2. Пусть X €? Вр, т. е. xj, j = 1,..., η, принимают значения 1 и 0 соответственно с вероятностями ρ и 1 — ρ, ρΕ θ = [0,1]. Как мы знаем, в этом случае для оценки ρ* = χ справедливо так что критерий теоремы 2 не выполнен. Рассмотрим оценку _ х + 1/2у^ р - тттмг· (8) Для нее погрешность η fp{l-p) + (1 ~ 2р)2 (l + v^)2V n 4n j 4(1+ ^η)2 не зависит от р. Если мы убедимся теперь, что оценка (8) является байесовской, мы установим тем самым ее минимаксность. Рассмотрим априорное распределение Q = Вдг+1,лг+ъ где Вдьа2 есть бэта-распределение с плотностью (см. п. 12.8) Γ(Λι + Λ2) Λι_1η _ -чАа-l Тогда, поскольку MX) = Р41 - *)n(1-*\ g(t) = p^^W -<)N' *) Интересно отметить, что оценка α* = χ перестает обладать отмеченным свойством, если X есть выборка из многомерного нормального распределения размерности, большей двух (xj е Шк, a € Rfc, к ^ 3). Подробнее об этом см. в [49].
§21. Байесовский и мимимаксный подходы 155 то апостериорное распределение будет иметь плотность q(t/X), которая как функция от t будет пропорциональна ft{X)q(t) или, что то же, пропорциональна Это означает, что апостериорное распределение совпадает с B;v+xn+i,iv+n(i-x)+i· Так как среднее значение распределения Вдьд2 равно λχ/(λι 4- Аг) (см. п. 12.8), то байесовская оценка рд, соответствующая Q, будет равна „ _ Ν + ήχ + 1 _ х+ (Ν + 1)/п Pq~ 2Ν + Π + 2 ~ 1 + 2{Ν + 1)/η При N 4- 1 = у/п/2 эта оценка будет совпадать с оценкой р*, определенной в (8), ив силу теоремы 2 будет минимаксной. Распределение Q будет наихудшим. Оно концентрируется с ростом η около «наихудшего» значения параметра ρ = 1/2, при котором дисперсия оценки х, равная р(1 —р)/п = 1/(4п), будет максимальна. Сама оценка χ не является минимаксной, так как р(1-р) . ι ^ ι SpP n 4η 4(1 +V"")2' В то же время ясно, что для всех значений р, лежащих вне узкой окрестности точки ρ = 1/2, оценка χ все же будет лучше, чем р%, — это будет иметь место для всех р, для которых ρ(ΐ-ρ)< 4(1 + 1Д/п)2' В общем случае отыскание точных выражений (явных функций от X) для байесовских и минимаксных оценок не всегда возможно. Поэтому естественно использовать также асимптотический подход. Прежде чем вводить соответствующие определения, напомним, что байесовские и минимаксные оценки 0д и 0 определялись неравенствами Е(0£-0)2-Е(0*-0)2 <0, supE<(0* - t)2 - supEt(0* - t)2 < 0 (9) для любой оценки 0*. Было бы неразумно определять асимптотическую байе- совость и минимаксность оценок, просто добавляя к левым частям знак предельного перехода lim , так как обычно для а.н. оценок Е#(0* — θ)2 ~ п-»оо ~ σ2(θ)/η и левые части в (9) будут сходиться к нулю. Поэтому естественно рассматривать, скажем, отношение слагаемых в (9). Учитывая, что в дальнейшем мы будем иметь дело главным образом с оценками, для которых Е#(0* — 0)2 имеет порядок малости 1/го, можно эквивалентным образом использовать следующее определение.
156 Гл. 2. Теория оценивания неизвестных параметров Определение 3. Оценка 0* называется асимптотически байесовской или асимптотически минимаксной, если для любой другой оценки 0* выполняется соответственно limsup[En(0J - θ)2 - Εη(θ* - θ)2] < О, η—юо limsup[supEtn(0i - t)2 - supEtn(0* - t)2} ^ 0. n-юо ter гег Отыскание асимптотически байесовских и асимптотически минимаксных оценок возможно, как мы увидим, при весьма широких предположениях. В многомерном случае (когда θ Ε Rk есть вектор) свойство 9 у.м.о., как мы видели, сохраняется, и оценка e*Q = щв/х) будет минимизировать υ(θ*) = Ε{θ* - 9)V{9* - θ)τ = ЕЕ„(0* - θ)ν(θ* - θ)τ = = [ε№* - t)V(0* - t)Tq(t)\(dt) для любой неотрицательно определенной матрицы V или, что то же (см. § 18), минимизировать усредненное (с весом q(t)) среднеквадратичное уклонение 0* — θ по любому направлению а € R*. Определение 4. Оценка 0д называется байесовской, если для любой другой оценки 0* и для любой неотрицательно определенной матрицы V Оценка θ\ называется асимптотически байесовской, если lim sup[m>(0f) -ηυ(θ%)] < 0. η—>оо Определение 5. Оценка 0 называется минимаксной, если для любой другой оценки 0* и для любой неотрицательной определенной матрицы V supE*(0* - t)V{T - t)T - supEt(0* - t)V{9* - t)T < 0. ter ter Оценка 0* называется асимптотически минимаксной, если Hmsup[supEtn(01* - £)ν(θ\ - t)T - supEtn(0* - t)V{0* - t)T] < 0. n->oo ter ter В заключение этого параграфа еще раз отметим, что обозначения Е^5, Рв(А), fe(x) в байесовском случае можем рассматривать, если потребуется, с новой точки зрения — как условные относительно 0 математические ожидания, вероятности и плотности Е(5/0), Έ*(Α/Θ), /(χ/θ).
§ 22. Достаточные статистики 157 § 22. Достаточные статистики В предыдущем параграфе мы рассматривали вопрос о построении двух типов оптимальных оценок — байесовских и минимаксных. В этом параграфе введем понятие достаточной статистики, которое позволит нам строить эффективные оценки — другой тип оптимальных оценок, выделенный нами в § 18. Понятие достаточной статистики играет важную роль в математической статистике вообще и в теории оценок в частности. Условимся обозначать статистики, т. е. произвольные измеримые (скалярные и векторные) функции от X символом 5 = S(X). Пусть X €= Р#, Р# G V = {Р#}. Рассмотрим условное относительно случайной величины S распределение Р#(Х Ε B/S), В Ε 93^, порожденное распределением Р# в Хп. Определение 1. Статистика 5 = S{X) называется достаточной для параметра Θ, если существует вариант условного распределения Ί?β(Χ £ B/S), не зависящий от Θ. Очевидно, что это определение эквивалентно следующему (ср. с определением 19.2А и теоремой 20.1): статистика S является достаточной, если для любой статистики Τ = Т(Х) существует вариант у. м. о. Е^(Т/5), не зависящий от Θ. Мы знаем, что Vq{X £ B/S) при каждом В есть у. м. о. и, следовательно, существует функция P[B/s), борелевская по s при каждом В такая, что Pe(XeB/S) = P(B/S). Мы можем считать (см. §20), что P(B/s) как функция от В есть условное при условии 5 = 5 распределение вероятностей. Это распределение можно интерпретировать как распределение X на поверхности S(x) = s. Но если S -— достаточная статистика, то это распределение не зависит от ΘΙ Это означает, что знание того, где находиться выборочная точка X на поверхности S{x) = s, не сообщает нам никакой дополнительной информации о параметре Θ. (Ведь ясно, что никто не станет определять неизвестный параметр в примере 1 введения с помощью подбрасывания монеты по той причине, что распределение числа «гербов» или «решек» при таком подбрасывании от θ никак не зависит.) Это важное обстоятельство означает, в свою очередь, что вся информация о параметре θ содержится в значении статистики 5. Отсюда и происходит ее название — достаточная статистика; грубо говоря, знания S(X) достаточно для построения оценки параметра 0; остальные данные, содержащиеся в выборке X, бесполезны. η Пример 1. Пусть X ^ ГГ\. Покажем, что статистика S = ήχ = У^х» является достаточной для параметра закона Пуассона λ. Нам надо убедиться, η что распределение положения точки X на поверхности yj Х{ = s (s целое) ·=ι
158 Гл. 2. Теория оценивания неизвестных параметров то от А не зависит. Так как Ρ ( Χ = χ, Υ^ хг· = s) = Р(Х = χ) при \^ ^ = s, г=1 η г=1 η О, если 2_] хг Φ 5. г=1 η Поскольку Х{ независимы, У^хг' €= Ппд, то правая часть (1) равна Р(Х = ж/пх = 5) = < J ХГ\Х\ — Х\, . » -?Χη — #п) Р(ггх = 5) η если г=1 η Ε г=1 (1) г=1 -1 η И^1) π е Л — = — г=1 Ж<· ns Π *i! t=l Таким образом, условное при условии S = s распределение X совпадает с полиномиальным распределением В£ (см. § 12) с η равновероятными исходами (т. е. с вектором вероятностей ρ = (1/п,..., 1/п)) и с 5 независимыми испытаниями. Очевидно, это распределение от λ не зависит, так что S = пх является достаточной статистикой для λ. Понятие достаточной статистики было введено Фишером в 1922 г. Следующая теорема Неймана-Фишера носит название факторизационной теоремы, она устанавливает простой критерий существования достаточной статистики. Предположим, что выполнено условие (Αμ) о существовании плотности Л(.) - f М- Теорема 1. Для того чтобы S была достаточной статистикой для Θ, необходимо и достаточно, чтобы функция правдоподобия /#(ж) = TT/fl^i) была представима в виде i=l Mx)=t(S(x),e)h{x) п. в. [μη], (2) где каждая из функций φ ^ 0 и h ^ 0 зависит только от своих аргументов, φ{δ,θ) измерима по s, h(x) измерима по х. Понятно, что представление (2) неоднозначно. Компоненты его определены с точностью до произвольной положительной функции от S(x). В рассмотренном нами выше примере с распределением Пуассона /л(*) = Пе_А^т = е'пААП5ЕПЛ' ™ = f>> i\ Xil tiXil έί
§ 22. Достаточные статистики 159 так что мы можем положить при S = пх V>(S,A)=e"nAA5, h(x) = f[—. Отсюда в силу теоремы 1 будет следовать, что S = пх есть достаточная статистика. Из методических соображений мы приведем два варианта доказательства теоремы 1. Первый — для наиболее простого специального случая, когда наблюдения хг· дискретны. В этом случае доказательство оказывается весьма простым. Второй, несколько более сложный вариант доказательства теоремы Неймана-Фишера, будет относиться к некоторому обобщению теоремы 1, в котором условие (Αμ) не предполагается. Доказательство теоремы 1 в дискретном случае. В дискретном случае μ есть считающая мера на счетном множестве X возможных значений χι, и, стало быть, fe{x) — Ρ#(χι — я), я Ε Χ. Пусть сначала выполнено (2). Тогда для фиксированной точки χ Ε Xй τ>θ(χ = x/s(x) = s[x)) = Ρθ{8{χ) = s{x)) . (3) Так как {Χ — ж, S(X) — S(x)} = {Χ = ж}, то правая часть (3) равна Ре(Х = х) __ Мх) Pe(S(X) = S(x)) Σ Л(У) y:S(y)=S(x) iP{S{x),0)h{x) h{x) Σ *(S(x),e)h(y) Σ НуУ y:S(y)=S(x) y:S(y)=S(x) Таким образом, Vq{X = x/S(X) = S(x)) от в не зависит. Наоборот, если левая часть в (3) от θ не зависит, то, обозначая ее через Л(ж), из (3) находим Рв(Х = х)= Мх) = Έ>Θ(Χ = ж; S(X) = S(x)) = h(x)Pe(S(X) = S(x)), где "Pq(S(X) = S{x)) = ip(S(x),9) зависит только от S(x) и θ. < Лишь немногим сложнее доказывается теорема 1 и в другом важном частном случае — «гладком», когда μ есть мера Лебега в К, а статистика S(X) предполагается гладкой функцией от X. Чтобы доказать теорему 1 в общем случае, сначала несколько изменим ее формулировку. Заметим прежде всего, что для простоты мы можем, не ограничивая общности, считать η = 1, так как выборку X мы можем рассматривать как выборку объема 1 из совокупности с плотностью распределения η /β(χ) = ТТ /^(^i). Тогда теорема 1 будет эквивалентна следующему утверж- i=l дению.
160 Гл. 2. Теория оценивания неизвестных параметров Теорема 1А. Для того чтобы S была достаточной статистикой, необходимо и достаточно, чтобы при каждых 0, Θ' отношение Л'(я) было функцией от S(x), га. е. чтобы существовала измеримая по s функция rQ}or(s) такая, что Ш-ге^Б{х)\ (4) Л'(я) Действительно, если верно (2), то (4) очевидно. Если верно (4), то, фиксируя θ1, получим равенство Л (я) = refi>(S(x))f9'(x), которое влечет за собой (2) при h(x) = /#'(#), ^{6,s) = rofit(s) [θ' фиксировано). < Характеризация достаточности с помощью теоремы 1А обладает двумя пр еиму ще ства ми. 1. В ней отсутствует проблема неоднозначности представления (2), связанного с неопределенным множителем, зависящим от S. (Поэтому в ряде случаев для отыскания достаточной статистики S удобнее пользоваться теоремой 1А, а не теоремой 1.) 2. Она позволяет получать критерии достаточности, не связанные с условием (Αμ). Чтобы убедиться в последнем, заметим, что теорему 1А можно переформулировать следующим образом. Статистика S является достаточной тогда и только тогда, когда при каждых θ, Θ1 отношение М*)'+М*) ΞΚθ"'{Х) = 1 ТгеХ) (5) является функцией от S(x). Рассмотрим теперь усредненное распределение P = iV = 2(p* + ]EV)· Очевидно, что распределение Р# абсолютно непрерывно относительно Ρθ,Θ' и, стало быть, существует плотность /v(*) = ^-(«) (6) (она всегда ограничена, так как fe,e'{x) + ίθ',θ(χ) = 2). Если выполнено условие (Αμ), то ίθ,θ'{χ) = 2Β>θ}θ'{χ)- Таким образом, функция R, присутствующая в (5), допускает определение, никак не связанное с условием (Αμ) (этого нельзя сказать о функции г в
§ 22. Достаточные статистики 161 теореме 1А, так как Р# не всегда абсолютно непрерывно относительно Ρ#>, как, например, в случае, когда θ есть параметр сдвига: Έ*θ{Β) = Р(В — 0), Р0О([0,1]) = 1 при некотором 9q). Теперь мы можем сформулировать характеризационную теорему в виде, не связанном с условием (Αμ). Теорема 1В. Статистика S является достаточной тогда и только тогда, когда при каждых θ, Θ' плотность /θ,θ'{χ) есть функция от S, т. е. существует измеримая по s функция g9fl(s) такая, что /$β'(χ) = Из сделанных выше замечаний ясно, что при выполнении (Αμ) это утверждение эквивалентно теореме 1А и, следовательно, теореме 1. Доказав теорему 1В, тем самым докажем теорему 1. Доказательство теоремы 1В. Необходимость. Пусть статистика S является достаточной. Тогда для любой статистики Τ = Г(Х) Ев(Г/5) = Ey(T/S) ξ H(S(x)) (7) от θ и θ' не зависит. Наряду с у^м. о. Е#, построенным по распределению Р#, можем строить также у.м.о. Ε по усредненному распределению Ρ = Т?е,е'- Покажем, что Е(Т/5) = Е^(Т/5) и, следовательно, также не зависит от 0, Θ'. Действительно, для любой измеримой функции т в силу (7) и свойств у. м. о. B(Tm(5)) = |pB,(Tm(S)) +E,(Tm(S))] = = i[E*(tf (S)m(S)) + Eef(H(S)m(S))} = ЁЯ (S)m(S). Отсюда следует, что (см. определение 19.2А) ЩТ/S) = H(S) (8) от θ и θ1 не зависит (т. е. S является достаточной статистикой и для семейства Ρ = Р(9,0')· Нам надо доказать, что / = /θ,Θ'(χ) является функцией от S(x). Для этого покажем, что Л,ИХ)=Ё(Л,ИХ)/5) п. в. или, что то же, d = Ё[/ - Ё(//5)]2 = Ё/2 - 2Ё/Ё(//5) + Ё(Ё(//5))2 = 0. Но в этом соотношении в силу свойств у. м. о. Ё/Ё(//5) = Ё(Ё(//5)Ё(//5)) = Ё(Ё(//5))2 и, стало быть, d = E/2-E/E(//5),
162 Гл. 2. Теория оценивания неизвестных параметров где в силу равенства (6) Ё/2 = J f ■ fPefi,{dx) = JfPeidx) = E9f, (9) Ё/Ё(//5) = JvUIS)rP0fi.(dx) = JE(f/S)Pe(dx) = E9E(f/S). Но согласно (7), (8) Е(//5) = Ee(f/S). Следовательно, правая часть (9) будет равна E$E0{f/S) = Ε*/, d = 0. Достаточность. Пусть теперь Jqji(x) = gej'{S(x)) является функцией от 5(ж). Покажем, что тогда для произвольной статистики Τ и произвольных б, Θ' E9(T/S) = E9,(T/S), (10) что означает независимость E9(T/S) от 0 и достаточность S. Положим H(S) = E(T/S). Тогда для любой измеримой функции m Евт(5)Я(5) = f m{S{x))H(S(x))Pe(dx) = = [m(S(x))H(S(x))fe,9.(x)P(dx) = ί m(s)H(s)g9,9l(S)P(S(X) G ds) = = Em(S)H(S)g9,9.(S) = Em(S)Tg9i9.(S). Те же рассуждения в обратном направлении позволяют продолжить эти равенства следующим образом: = fm{S{x))T{x)gBtei{S{x))P{dx)= Im{S{x))T(x)Pe{dx) = Eem{S)T. Отсюда следует H(S)=E9(T/S). Поменяем теперь местами θ и Θ1. Функция /^/^(ж) также будет функцией от S(x). Поэтому совершенно аналогично получим H(S) = E9,(T/S), что доказывает (10). Теорема доказана. < Вернемся теперь к теореме 1 и примерам достаточных статистик. Пример 2. Пусть Χ ξ= Φα>σ2. Здесь параметр θ = (α,σ2) двумерный. Имеем
§ 22. Достаточные статистики 163 Полагая S = (Si, S2), Si = пх, S2 = /Jx*» получим представление (2), где t=l *(5,*) = α-exp {-52"^1+а2} , НХ) = (2π)""/2. Здесь мы могли бы, конечно, множитель (2π)~η/2 отнести и к функции ψ, положив h(X) = 1. Таким образом, мы получили, что статистика (Si, S2) является достаточной векторной статистикой для (α, σ2). Из всей информации, содержащейся в выборке, нам достаточно знать χ и 2_] xi - Предлагаем читателю найти достаточные статистики для всех семейств распределений, приведенных в § 12. Остановимся подробнее лишь на одном их этих семейств. Пример 3. Пусть X €= Uo,0. Здесь условие (Αμ) выполнено относительно меры Лебега и -г , если 0 ^ х2^ θ при всех г = 1,..., п, ίθ{Χ) = i п в противном случае. Пусть Х(!) = minxj, X(nj = таххг. Тогда, как мы видели в примере 16.5, функцию f$(X) можно записать в виде f${X) = ψ{χ.(η),θ)Ιι(Χ), где Ηχ) = μ> еслих(1)^0, в противном случае, ч (θ~η / ( а\ )~ при 5 ^ Θ, в противном случае. Это означает, что S(X) = Х(п) есть достаточная статистика для Θ. Аналогичным образом читатель может убедиться, что для выборки X €= €= Ueti+o достаточной статистикой для параметра θ является двумерная статистика S(X) — (x(i),X(n)). Такой же будет достаточная статистика и для двумерного параметра θ = (α, 6), когда выборка извлечена из распределения Ufl)6. Приведем некоторые следствия теоремы 1. Следствие 1. Если S — достаточная статистика для 0, то оценка максимального правдоподобия зависит лишь от S. Точнее, о. м.п. Θ* не зависит от X при фиксированном S(X). Это следствие очевидно, так как о.м.п. есть значение 0, при котором достигается максимум fe{X) = Ψ(8(Χ),θ)}ι(Χ) или, что то же, максимум Следствие 2. Если S — достаточная статистика и функция φ такова, что отображение и = φ(ν) взаимно однозначно и измеримо в обе стороны, то Si = ip{S) также будет достаточной статистикой.
164 Гл. 2. Теория оценивания неизвестных параметров Это следствие также очевидно, поскольку ip(S, Θ) в (2) можно записать в Bmef/>{<p-l{Si),e)=tl>i{Sue). Следствие 3. Пусть нам надо оценить параметр η = φ{θ), где φ осуществляет взаимно однозначное отображение, так что определена функция θ = φ~ι(Ί)' Пусть, далее, S — достаточная статистика для Θ. Тогда S будет также достаточной статистикой для у. Это следствие вытекает из тех же соображений, что и в следствии 2. Действительно, функция правдоподобия для 7будет иметь вид /φ(8(Χ),ψ~ι(^)) χ χ h(X), где первый множитель можно записать в виде t/>i(S(X),7)· Справедлив еще один критерий достаточности статистики 5, который можно рассматривать как некоторую модификацию теоремы 1В. Теорема 2. Статистика S является достаточной для θ тогда и только тогда, когда для любого априорного распределения Q параметра θ апостериорное распределение Qx зависит от X только через S(X) (т. е. остается неизменным на поверхности S(X) = s). Доказательство. Пусть S — достаточная статистика, q(t) — плотность Q относительно какой-нибудь меры λ. Тогда апостериорная плотность q{t/X) относительно этой меры будет по формуле Байеса равна дШХ) = МШ*) = iKS(X)tt)q(t) ί fu{X)q{u)X{du) ί 1/>{S{X), u)q{u)X{du) Докажем теперь обратное утверждение теоремы. Выберем априорное распределение так, чтобы q(t) > 0 всюду на Θ и при всех t ft{x) = q{t/xq(/){x)> пх) = /шшч<ь). Если q{t/X) = g{t,S{X)), то, полагая tp{s,t) = g{t,s)/q(t), h{X) = f(X), получим представление (2). < Следствие 4. Если S — достаточная статистика, то все байесовские оценки и минимаксные оценки, определенные с помощью теоремы 21.2, зависят лишь от S. В дальнейшем получим много других подтверждений того, что достаточная статистика S содержит в себе исчерпывающую информацию о 0. § 23.* Минимальные достаточные статистики Рассмотрим теперь вопрос о выборе достаточных статистик. Ясно, что их может быть очень много. Например, статистика S(X) = X, очевидно, всегда является достаточной. Эта достаточная статистика называется тривиальной достаточной статистикой. Однако мы заинтересованы (и в дальнейшем станет ясно, почему) в более «экономных» статистиках. Оказывается, далеко не всегда можно построить достаточные статистики, которые были бы существенно «экономнее» тривиальной достаточной статистики. К этому вопросу мы вернемся после того, как определим более точно понятия, связанные с
§ 23 Минимальные достаточные статистики 165 «экономностью» достаточных статистик. Для этого введем на множестве всех достаточных статистик (для некоторого параметра Θ) частичный порядок. Определение 1. Будем говорить, что статистика Si подчинена 5г, если Si есть измеримая функция от S2'. Si = ^(S^)· Это соотношение и означает, что Si «экономнее» #2- Определение 2. Если 5χ подчинена S2 и 5г подчинена 5Ί, то статистики Si и 5г называются эквивалентными. Очевидно, S\ эквивалентна 5г тогда и только тогда, когда Si = ^(^г) и φ — взаимно однозначное измеримое в обе стороны отображение. Определение 3. Достаточная статистика Se называется минимальной, если она подчинена любой другой достаточной статистике S. Минимальная достаточная статистика является самой экономной. Если мы построили минимальную достаточную статистику S, то при сохранении свойства достаточности дальнейшее сокращение данных по сравнению с S невозможно. Остальные данные, содержащиеся в выборке, можно рассматривать как порожденные некоторым случайным механизмом, не зависящим от 0. Они не несут в себе никакой информации о Θ. Введенные понятия, как и исходное понятие достаточной статистики, можно в слегка обобщенной форме излагать на языке σ-алгебр, который в ряде случаев оказывается более удобным и наглядным. В самом начале — в определении 22.1 предыдущего параграфа — условное распределение Ρθ(Χ € B/S) можно заменить на условное распределение Pq(X Ε G В/21) относительно σ-подалгебры 21 С 25д> и называть 21 достаточной σ-алгеброй, если существует вариант Рв(Х € В/%), не зависящий от Θ. Факторизационная теорема при таком подходе сохранится, если функцию ifj{S{X),9) заменить на 21-измеримую по X функцию ψ(Χ,θ). Доказательство этой теоремы по существу останется прежним. Достаточную статистику теперь можно определить как статистику S, для которой порожденная ею σ-алгебра σ(5) будет достаточной. Подчиненность достаточных статистик (см. определение 1) на языке σ-алгебр не требует введения дополнительных понятий и совпадает просто с вложением σ-алгебр: Si подчинена S2, если σ(ί>ι) С σ^)· Таким образом, S\ экономнее 5г, если σ-алгебра σ(5ι) беднее (грубее), чем а(5г). Эквивалентность Si и 52 означает, что σ(5ι) = а(5г). Минимальная достаточная σ-алгебра 21о определяется как σ-алгебра, которая вкладывается в любую достаточную σ-алгебру. Минимальная достаточная σ-алгебра всегда существует. Прежде чем сформулировать соответствующее утверждение, заметим, что существует распределение Q на Θ такое, что все Р# абсолютно непрерывны относительно распределения Pq = / PtQ(dt). Действительно, рассмотрим байесовскую постановку задачи, когда θ есть случайная величина с априорным распределением Q. Пусть q(t) > 0 есть плотность распределения относительно подходящей меры λ на Θ.
166 Гл. 2. Теория оценивания неизвестных параметров Допустим для простоты, что для п. в. χ функция ft(x) в каждой точке t Ε Ε Θ непрерывна справа и слева. Тогда все распределения Pt будут абсолютно непрерывны охношхельно Р, = /р„(()А(<й), «, „ак Рв(Л) = 0 влечет за собой Р^ (А) = 0 для всех t. Это означает, что либо /q{X) = / ft{X)Q(dt) > 0 при всех X, либо из равенства }q{X) — 0 следует fe{X) = 0 при всех Θ. В этом случае говорят, что Pq доминирует семейство {Р#}, так что мы могли бы Pq взять в качестве меры μ. Плотность распределения Р# относительно этой меры равна dPQ[x) /«И ( ' )- Ясно (ср. с теоремой 22.2), что если S — достаточная статистика, то г(х,6) зависит от χ лишь через S{x). Теорема 1. σ-алгебра Slo = σ(τ(Χ,θ)\ θ Ε Θ), порожденная случайными величинами τ(Χ,θ) = fg(X)//q(X) при различных 0 Ε θ, является минимальной достаточной σ-алгеброй. Доказательство теоремы весьма просто. Достаточность 51о следует из факторизационной теоремы и того, что fg(X)=r(X,e)fQ(X), (1) где }q{X) не зависит от 0, а г(Х,Θ) измерима относительно Slo. Пусть теперь 31 есть любая достаточная σ-алгебра. Тогда fe{X) = = ф{Х)в)к{Х)^ где функция ψ(Χ,θ) 51-измерима. Рассмотрим σ-алгебру ЗЦ = σ(ψ(Χ,θ), θ Ε Θ) С SI. Из определения г(Х,в) следует, что fi,(X,W(dt)' и, стало быть, Sto С ЗЦ С 31. < С этой теоремой и теоремой 22.2 тесно связано другое полезное замечание. Апостериорная плотность, соответствующая q(t), равна яШХ) = У^=г(ХЛф), и, стало быть, минимальную достаточную σ-алгебру Slo можно рассматривать как порожденную апостериорным распределением: α0 = σ(9(ί/Χ);ί€θ). Отыскание распределений Q и Pq, фигурирующих в теореме 1, обычно труда не составляет. Например, если носитель Νρθ распределения Ρ я от θ не зависит, что имеет место для большинства распределений, перечисленных в § 12, то можно взять Pq = Р#0 при любом #о € Θ.
§ 23. Минимальные достаточные статистики 167 Таким образом, мы располагаем теоремой существования и конструктивным способом построения минимальных достаточных сг-алгебр*). Однако в большинстве случаев нам все же будет удобнее иметь дело со статистиками. Основная задача этого параграфа — отыскание минимальных достаточных статистик. Прежде всего, каким образом можно проверить, что данная достаточная статистика Sq является минимальной? Одна из возможностей состоит в использовании теоремы 1. Если σ(5ο) совпадает с σ-алгеброй, порожденной fe{X)/Jq(X), to Sq есть минимальная достаточная статистика. Пример 1. Мы видели, что статистика S = пх является достаточной для параметра λ распределения Пуассона Пд. Это будет минимальная достаточная статистика, так как a(S) совпадает, очевидно, с σ-алгеброй, порожденной fx(X)/f\l(X) = βη(λι_λ)(λ/λι)5 (мы взяли здесь распределение Q, сосредоточенное в точке λι). Пример 2. Пусть X €= Uo,0. Тогда статистика 5 = X(n) = тахх* является минимальной достаточной статистикой. В самом деле, возьмем в качестве Q какое-нибудь распределение на [0, оо) с плотностью q(t) > 0 при всех t > 0. Тогда 0, θ < 5, 00 ОО /qW = J ft(X)q(t)dt = jrnq(t)dt > О О 5 при всех X. При этом 5 = sup{0: fo{X)/Jq(X) = 0}. Это означает, что 5 измерима относительно минимальной σ-алгебры 21ο, σ(5) С 21о и что, стало быть, 5 — минимальная достаточная статистика. Можно указать другой способ отыскания минимальных достаточных статистик, также связанный с функцией правдоподобия. В самом деле, любая статистика, и в частности достаточная статистика 5, порождает разбиение выборочного пространства на классы эквивалентности — т.е. на подмножества точек χ с одинаковым значением S(х). Если Si подчинена S%, т.е. S\ = <^(52), то> очевидно, разбиение для Si будет более крупным, так как классы эквивалентности для S2 содержатся в классах эквивалентности для S\. Таким образом, минимальной достаточной статистике соответствует самое «крупное» среди разбиений, порожденных достаточными статистиками. Можно рассматривать просто разбиения пространства на классы эквивалентности, не связывая их непосредственно со статистиками. Класс эквивалентности, содержащий точку ж, обозначим через D{x). Каждый класс однозначно определяется какой-нибудь одной своей точкой. Разбиение на классы D будем называть достаточным, если Μχ) = φ(χ,θ)Η(χ), (2) ίθ(Χ) - *) Существование минимальной достаточной σ-алгебры 21о можно установить и иным путем, доказав, что 21о есть пересечение всех пополненных достаточных σ-алгебр.
168 Гл. 2. Теория оценивания неизвестных параметров где φ(χ,θ) = φ(χο,θ) постоянно при χ G D(xq) (т.е. φ{χ,θ) = const внутри класса эквивалентности). Если классы D(x) определяются соотношениями S(x) = = 5, то из теоремы 21.1 сразу вытекает, что статистика S(x) достаточна тогда и только тогда, когда разбиение на классы D достаточно. Рассмотрим теперь разбиение, построенное следующим образом: возьмем точку хо и объявим, что χ принадлежит классу D(xq), если отношение AM"*"·"·' <3) не зависят от Θ. Очевидно, что при таком построении D{x\) = D{x2) = D(xq), если χι Ε D(xo), χ<ι € Ώ(χ§), так что правило (3) порождает разбиение всего пространства на непересекающиеся классы. Это разбиение соответствует разбиению, порожденному минимальной достаточной статистикой S. В самом деле, пусть S — минимальная достаточная статистика. Возьмем произвольную точку xq. Тогда на поверхности S(x) = S(xq) отношение fe(x)/fe(xo) равно h(x)/h(x0) и, стало быть, от θ не зависит. Таким образом, разбиение на кассы D не менее крупное, чем разбиение для 5. С другой стороны, это разбиение достаточное. Действительно, каждой поверхности D мы можем поставить в соответствие одну какую-нибудь ее точку χ в, по которой эта поверхность будет однозначно определяться. Рассмотрим функцию Хо(х), которая определяется соотношением хо(х) = xd-> если χ € D. Тогда в силу (3) при xeD fe{x) = fe(xD)h(x,xD) = fe(xo(x))h(x,x0(x)), (4) что означает выполнение (2). Проведенные рассмотрения были не совсем строгими, так как мы не связывали их с вопросом об измеримости функций, входящих в (4). Сказанное можно резюмировать следующим образом. Пусть дана статистика S(X) такая, что S(x) = S(xo) тогда и только тогда, когда отношение (3) не зависит от Θ. В этом случае S есть минимальная достаточная статистика. В отличие от подходов, связанных с теоремой 1, где рассматривались отношения fe{x)lIq{x) или fe(x)/fe1(x) при разных θ и θχ (называемые часто отношениями правдоподобия), правило, сформулированное выше, использует отношение fe(x)/fe(xo) при одинаковых значениях параметра Θ. В примере 1, например, отношение А (ар = ТТ bXi~XioXiol = Λη(*-*ο) ТТ ££: Д(*о) И Хг\ И Хг\ 1 п не будет зависеть от λ тогда и только тогда, когда χ = х0 = — У^ЯгО, где Хю — ι=1 координаты вектора xq. Этого достаточно, чтобы заключить, что S(x) = χ есть минимальная достаточная статистика. Рассмотрим теперь с помощью предложенного правила пример, когда «экономных» достаточных статистик не существует. Прежде заметим, что вариационный ряд Sy = (х(!),Х(2),.. .,Х(П)), построенный по выборке X, очевидно, всегда является η η достаточной статистикой, так как fe{X) = ТТ/#(хг) = ТТ fe(*(k))· Эта статистика г=1 к=1 «чуть-чуть экономнее» самой выборки X. Отсюда, в частности, следует, что любая минимальная достаточная статистика инвариантна относительно перестановки координат χι в выборке X.
§ 23. Минимальные достаточные статистики 169 Если плотность fe(x) симметрична, т.е. /#(—х) — fe(%) при всех 0, то, очевидно, будет существовать еще немного более «экономная» достаточная статистика, представляющая из себя упорядоченную по возрастанию совокупность (х2,.. .,х^), которую мы обозначим через Sy2. Пример 3. Если Χ ^ Κο,σ, га. е. если х* имеют плотность распределения Коши с параметром θ — σ £θ,σ0*0 π(χ2 + σ2)1 mo статистика Буг является минимальной достаточной статистикой. Действительно, в этом случае /^)=©пгЫ+*2)_1> г=1 так что fa(x) _ ТТ 4) + °2 =пз& и Ισ(Χθ) есть отношение двух полиномов от σ2. Оно не зависит от σ тогда и только тогда, когда коэффициенты при соответствующих степенях σ2 в числителе и знаменателе совпадают. Это, в свою очередь, имеет место тогда и только тогда, когда множества «нулей» {—xfQ} и { —х2} совпадают. Другими словами, для независимости (5) от σ необходимо и достаточно, чтобы точка х2 = (я2,..., х2п) имела координаты, которые отличаются от координат х\ разве лишь перестановкой их мест. Это и означает, что Sy2 есть минимальная достаточная статистика. Совершенно аналогично можно показать, что Sy является минимальной достаточной статистикой для параметра а и, стало быть, для параметра θ = (α,σ) распределения Κα>σ. Другой пример, в котором Sy будет минимальной достаточной статистикой, получим, если рассмотрим семейство Pajlts2 = &Ρθι + (1 - α)Ρθ2, α G [0,1], где {Ρ β} — экспоненциальное семейство (см. § 25; в качестве Р# можно взять нормальное распределение или распределение Пуассона) и где хотя бы один из параметров а, #1, 02 неизвестен. Докажем теперь теорему, указывающую простой «конструктивный» способ отыскания минимальных достаточных статистик. Для простоты изложения рассмотрим случай одномерного параметра Θ. Теоре ма 2. Пусть функция правдоподобия fe{x) при всех χ как функция от θ непрерывна справа (или слева). Тогда если оценка м.п. Θ* единственна и является достаточной статистикой, то Θ* есть минимальная достаточная статистика. Доказательство. Пусть S — произвольная достаточная статистика. Мы докажем теорему, если покажем, что Θ* измерима относительно a(S) и, стало быть, Θ* подчинена S.
170 Гл. 2, Теория оценивания неизвестных параметров В силу факторизационной теоремы fe(x)=il>(S{x),e)h{x) п. в. [μη], (6) где h(x) — измеримая функция по ж, ip(s,t) непрерывна (справа или слева) по t и измерима по s. Так как Р# не изменится, если плотность /я (ж) изменить на множестве /лп-меры 0, мы можем считать, что (6) справедливо при всех ж. В силу (6) точка абсолютного максимума /#(#) является точкой абсолютного максимума и для ?/>(5(ж),0). Поэтому в силу единственности Θ* {Θ* < t} = {sup</>(SpO,0) > sup</>(S(X),0)}. 0<t θ^ί Так как ip{S(X),0) при каждом S(X) непрерывна по θ справа (или слева), то существует счетное всюду плотное множество Эс = {%}^ι С Θ (одно и то же для всех S(X)) такое, что sup</>(S(X),0) = sup ^(S(X),0,)· (7) 9<t »j<t Такое же соотношение будет справедливо для области θ ^ t. Так как tJ)(S(X), 6j) измеримы относительно cr(S), то в силу (7) значения sup^(5f,θ) 0<t и sup ip(S, θ) будут случайными величинами, также измеримыми относите* тельно σ(5). Следовательно, {Θ* < t} Ε cr(S'), и теорема доказана. < Условие достаточности о. м. п. Θ* в условии приведенного утверждения существенно, поскольку оценка м. п. Θ* сама по себе не обязана быть достаточной статистикой. Соответствующий пример легко получить, рассмотрев любое семейство распределений {Р#} со скалярным параметром θ и векторной (размерности, большей единицы) минимальной достаточной статистикой 5. В этом случае оценка м. п. Θ* будет также скалярной, так что σ-алгебра σ(5) будет более богатой, чем σ(θ*), и, стало быть, включение σ(5) С 0-(0*), вытекающее из минимальности S и достаточности 0*, невозможно. Пример 4. Пусть X ^ U^i+0, Θ = R. Тогда, как мы видели в примере 16.4, f (χ) = <Г при θ ^ Χ(1) ^ Χ(η) ^1 + θ> \θ в противном случае, ■β так что fe(X) зависит от X только через Χ(χ) и Х(п\. Это означает, что S = (χ^,χ^)) есть достаточная статистика. Ни одна из величин х^), Х(п) в отдельности не является достаточной статистикой, на что указывают следующие соотношения: η Р(х(1) > щ χ(η) < ν) = Π Р(хг е [щ ν)) = (ν - гх)п г=1 при гх > 0, г> ζ 1 + 0, г; > гх.
§ 24. Достаточные статистики и эффективные оценки 171 Поэтому совместная плотность распределения (х^\,х^п\) будет равна (п(п - 1)(ν - u)n~2 при u^ θ, ν ^ 1 + 0, υ > u, l^U в остальных случаях. Далее, P(x(i) ^ и) = (1 + 0 — u)n при θ < u < 1 + θ, так что плотность x^j равна g(u) = n(l 4- (9 - и)71"1 при б < ti < 1 + 0. Отсюда уже легко получить, что условная плотность g(v/u) величины Х(п) при условии Х(!) = и (а стало быть, и соответствующее условное распределение) будет зависеть от 0. Это означает, что х^) (как и Х(п)) в отдельности не являются достаточными статистиками. Так как в качестве о. м. п. Θ* мы можем взять Θ* = х^) (см. пример 16.4), то мы доказали, что для семейства Ήθ,ι+θ о. м. п. 0* не является достаточной статистикой. Предлагаем читателю с помощью теоремы 1 убедиться, что S=(x^, X(n)) является минимальной достаточной статистикой для ияд+я. Условие о достаточности Θ* в теореме 2 будет автоматически выполнено, если предположить, что существуют скалярная (для одномерного 0) достаточная статистика So, для которой функция φ в равенстве Θ* = ^(SO) будет взаимно однозначной (т.е. Θ* и So будут эквивалентными). § 24. Построение эффективных оценок с помощью достаточных статистик. Полные статистики Определение 1. Оценка 0* называется достаточной, если она является достаточной статистикой. 1. Одномерный случай. Будем предполагать здесь, что 0 — скалярный параметр. Пусть Кь есть класс всех оценок 0* со смещением Ь(0), так что 0* е Кь если α{θ) = Εθθ* = θ + 6(0). Для 0* Ε Kb имеем ΕΘ{Θ* - θ)2 = Εθ{θ* - α(0))2 + (α(0) - θ)2 = Ό0Θ* + 62(0). Индекс θ у символов Е#, D# будем в этом параграфе иногда опускать. Следующее утверждение было получено независимо Блекуэлом, Рао и Колмогоровым. Теорема 1. Пусть S — достаточная статистика, 0* £ К\>. Тогда функция 9*s = E$(6*/S) является оценкой, обладающей свойствами: 1) e*s e кь, 2) θ $ зависит от выборки лишь через S{X), 3) Εθ(θ*8 - θ)2 < Εθ{θ* - θ)2 при всех 0. Последнее неравенство превращается в равенство, если только 0* = 9*s п. е. относительно Р#.
172 Гл. 2. Теория оценивания неизвестных параметров Другими словами, в классе Кь применение к 0* операции Е^(-/5) равномерно улучшает оценку 0*. Доказательство. Тот факт, что 0J является оценкой, означает, что 9*s не зависит от 0 и является измеримой функцией от X. Независимость от 0 вытекает из свойств достаточных статистик, так как распределение X при фиксированном 5 от 0 не зависит (Eq(9*/S) для произвольной статистики 5, вообще говоря, от 0 зависит). В то же время в силу свойств у.м. о. θ*3 есть измеримая функция от 5, а стало быть, и от X. Таким образом, 0J является оценкой, удовлетворяющей свойству 2 теоремы. Равенство Εθθ*3 = EeEe(e*/S) = Εθθ*, доказывающее, что θ3 € Кь, также следует непосредственно из свойств у.м.о. Далее, Εθ{θ* - θ)2 = ΕΘ(Θ*-Θ± θ*5γ = = Εθ(θ3-θ)2 + Εθ{θ*-θ3)2 + 2Εθ(θ3-θ){θ*-θ*3). Используя опять свойства у.м.о., получим εθ{θ3-θ){θ*-θ3)=εθεθ[{θ3-θ){θ*-θ;)/8] = = Εθ[{θ3-θ)Εβ{θ*-θ3/8)]=0, и, следовательно, Έθ(θ* - θ)2 = Εθ{θ*3 - θ)2 + Εβ(θ* - θ*3)2. < Собственно, неравенство З) теоремы 1 можно получить непосредственно из свойства у.м.о. (Ε(ξ/5))2 < E(£2/S), так как тогда (0£ - θ)2 = [Εθ((θ* - 0)/S)]2 ^ Ε9[(θ· - Θγ/Sl ®θ{θ*3-θ)2 <E(0*-0)2. Факт, изложенный в теореме 1, можно интерпретировать следующим образом. Пусть S и Τ — две достаточные статистики, 0* = φ(Τ) и S подчинена Г, тогда Εθ(θ*3 - θ)2 < Efl(0* - 0)2. Другими словами, чем «экономнее» достаточная статистика S (или чем беднее соответствующая σ-алгебра), тем оценки 9*s лучше. Таким образом, для построения оптимальных оценок мы должны искать минимальные достаточные статистики (или минимальные достаточные σ-алгебры). При этом в качестве исходных оценок 0* могут фигурировать и «плохие» оценки, не обладающие, например, даже свойством состоятельности. Поучительным в этом отношении является следующий Пример 1. Пусть X ^ Пд. Оценка λ* = χι, очевидно, является несмещенной Ελ* = Εχι = λ (b(X) = 0), но не состоятельной, так как она от η не зависит. Минимальной достаточной статистикой для λ является статистика S = пх = /™]xi- Из примера 22.1 следует, что условное относительно S
§ 24. Достаточные статистики и эффективные оценки 173 распределение χι есть распределение В[/ в схеме Бернулли с вероятностью успеха 1/п Pfc-*/*-.)-<*(£)'(l-i)~\ Следовательно, AJ = E(x,/5) = !>C!(iHl-ir' = f=x· В одном из последующих примеров покажем, что χ — эффективная оценка. 2, Многомерный случай. Получим аналоги теоремы 1 для многомерного случая, когда θ и Θ* есть векторы из Шк. Как и в одномерном случае, вектор Ь{9) — Е#0* — θ будем называть смещением оценки Θ* и обозначать через Kf, класс всех оценок со смещением Ь. Теорема 1А. Пусть S — достаточная статистика и θ* Ε Κ\>. Тогда оценка θ$ = E#(0*/5) обладает свойствами: 1) θ*5 е Кь; 2) θ*3 зависит лить от S(X)\ 3) среднеквадратичное рассеивание θ$ не превосходит среднеквадратичного рассеивания 0*, или, что то же, для любого вектора оЕМА Εθ{θ*3-θ,α)2ζΕθ(θ*-θ,α)2. (1) Равенство (при всех а) здесь возможно лишь в случае θ* = θ*8 η. е. относительно Pq. Доказательство. Первые два утверждения очевидны. Неравенства (1) следуют из теоремы 1, поскольку все сводится к рассмотрению одномерных оценок (0*,а) и Е^[(б*,а)/5] = (0£,а) параметра (0,а). Если в (1) при всех α справедливо равенство, то при каждом а будем иметь (θ^,α) = {θ*, а) п. в. Это и означает, что 9*s = θ* п. в. < Таким образом, в многомерном случае роль достаточных статистик та же: квадратичная форма 2_Ισ4α*α3ΐ где σ2 = \\συ\\ есть матрица вторых моментов для 9*s — 0, будет тем меньше, чем меньше σ-алгебра cr(S'), порожденная S. 3. Полные статистики и эффективные оценки. Приведем теперь весьма простой критерий неулучшаемости оценок, основанный на понятии полноты статистики S. Размерность статистики S будем обозначать через I. Обычно она больше или равна размерности к параметра 0. Для двух измеримых функций /i(s) и /2(5): Rz —> Шк будем писать /ι(5) = /2(5) п.в. [V], где V — семейство распределений в (К*,93*), если /ι(5) = /2(5) всюду, за исключением множества N такого, что P(iV) = О для всех Ρ 6 Р.
174 Гл. 2. Теория оценивания неизвестных параметров Определение 2. Семейство Q = {G#} распределений в (Мг,*8г), зависящих от fc-мерного параметра θ € Θ С R , называется полным, если равенство η y{s)Ge{ds) = 0 при всех Θ е Θ (2) влечет за собой y(s) =0п.в. [Q]. Уравнение (2) рассматривается в классе функций у\ R1 —> М.к, для которых интеграл (2) существует. Определение 3. Статистика S называется полной, если семейство Q ее распределений G#, индуцированных распределением Р# в (Л^Шд,), является полным. Уравнение (2) для статистик может быть написано в виде Е^у(5) = О при всех θ е Θ С К*. Теорема 2. Статистика S является полной тогда и только тогда, когда при каком-нибудь bo(9) a(S)-измеримая*) оценка Θ* единственна в классе К^ всех a{S)-измеримых оценок из Кь0. Если σ(5)-измеримая оценка единственна в К^о, то σ(5)-измеримые оценки будут обладать свойством единственности и в любом другом классе К^'. Доказательство этого утверждения почти очевидно, так как наличие в Кь0 двух а(5)-измеримых оценок в\ = <£>i(S), 0£ = ^2 (5) означает, что f <Pi{s)Ge(ds) = Ъо{в), г = 1,2, / [ψι{3) — WzMJGflids) = О при всех θ G Θ, так что полнота S влечет за собой <^i(s) = ψ2{^) п>в· [£/]· Наоборот, пусть для всех θ 6 Θ, θ* — φ\ (s) E Къ- Тогда θ\ = φι (s)+y(s) G Кь, единственность а(5)-измеримой оценки означает, что y(s) = 0 п. в. [Q]. < Теорема 3. Если достаточная статистика S является полной и θ* Ε Кь, то оценка 9*s = Efl(0*/S) является единственной эффективной оценкой в Кь* Эта теорема дает нам достаточно простые критерии эффективности оценок. Доказательство. В силу теоремы 2 а(5')-измеримая оценка в классе К^ единственна. Пусть Θ** — любая другая оценка из Кь. Тогда θ§* = Ee(6**/S) € Κξ и, стало быть, θ*<? = θ*§ п. в. [£]. Отсюда и из теоремы 1 следует, что Εθ{θ3 -θ)= Εθ(θ*3* - θ)2 ζ Εθ(θ** - θ)2, и равенство возможно лишь при θ** = θ*8 п. н. < *) То есть измеримая относительно σ-алгебры a(S), порожденной 5, и, стало быть, пред- ставимая в виде w(S). где <р — борелевская функция.
§ 24. Достаточные статистики и эффективные оценки 175 Следствие L Если S — достаточная полная статистика, α Θ* — несмещенная оценка, то θ$ есть эффективная оценка и она единственна. Пример 2. В примере 1 с распределениями Пуассона мы получили, что для λ* = χι A£ = EA(xi/S)=x, где S = пх. Покажем, что S — полная статистика и, стало быть, χ — эффективная оценка. Уравнение (2) для статистики S имеет вид ^у{к)е~пХ^-^ = 0 при всех λ>0 или, что то же, zk v(z) ^ 2J^)t7 = о при всех z ^ о. (з) Это, очевидно, влечет за собой у (к) = 0, так как из сходимости ряда (3), скажем, при ζ = 1 следует, что υ (ζ) аналитична при \ζ\ < 1 и тождественно равна нулю. Стало быть, коэффициенты у(к) ее разложения в ряд равны нулю. Пример 3. Пусть X €= Uo^. Покажем, что статистика S = Х(п) = = maxxi является полной. Достаточность (и минимальность) S была уста- новлена в примере 23.2. Распределение 5 определяется равенством Р(5 < 5) = (s/0)n, 0 < 5 < б, так что S имеет плотность, равную nsn~le~n при s € [0,6]. Уравнение (2) в этом случае имеет вид θ ι nsn~l y(s) ds = 0 при 0<Е(О,оо). о θ есть единственная Из равенства / y(s)sn 1 ds = 0 при всех θ следует, очевидно, что y{s)sn l — о = 0, y(s) = 0 п. в. Мы предлагаем читателю проверить, являются ли полными достаточные статистики, найденные методами § 22, для других параметрических семейств. В частности, установить, что а* = - [ 1 1 χ V nj эффективная оценка параметра а семейства Гад (см. § 12). Замечание 1. Во всех приведенных выше утверждениях и примерах молчаливо предполагалось, что множество возможных значений оценок Θ* принадлежит Θ. Если это не так, то в изложение надо внести некоторые коррективы. Проиллюстрируем сказанное на примере 2, в котором мы показали, что λ* = χ является эффективной оценкой параметра λ для распределения Пуассона Пд. Рассмотрим теперь простейшую модификацию этого
176 Гл. 2. Теория оценивания неизвестных параметров примера. Пусть по-прежнему надо оценить параметр λ распределения Пуассона, но нам даны в качестве наблюдений не значения ъ\ €= Пд, а «зашум- ленные» значения х; = Ъ{ + у», где у г Ш Πχ, у^ не зависят от Zj. Это значит, что мы должны в этом случае оценить λ по выборке X €= Πλ+ι· Как и в примере 2, здесь полной достаточной статистикой является х. Однако при этом мы не можем воспользоваться конструкцией примера 2. Действительно, там в качестве основы для построения эффективной оценки параметра θ = λ + 1 мы использовали несмещенную оценку θ* = χχ. В нашем случае аналогичная оценка могла бы иметь вид λ* = χχ — 1. Но это невозможно, так как λ* с вероятностью е~х~~1 принимает «недопустимое» значение —1, которое естественно заменить на ближайшее допустимое значение, равное нулю, так что «подправленная» оценка имеет вид λ* = max(0,xx — 1). Эта оценка имеет положительное смещение, равное е~А_1 и не годится для построения эффективной оценки. Более естественно подправлять не исходную оценку, а эффективную оценку в примере 2, взяв в качестве оценки А* = max (0, χ — 1). Эта оценка также не является несмещенной, но смещение ее при больших η очень мало*). К тому же ее качество по сравнению с «недопустимой» оценкой χ — 1 может только улучшиться, так как Ελ(λ* - λ)2 = Ελ((χ - 1 - λ)2; χ > 1) + Ελ(λ2; χ < 1)< ^Ελ(χ-1-λ)2 = ^±1. η Смещение оценки λ* равно η к ]ζΡλ(χ- 1 = -Λ/η)- <Ρ(ηχ<η) = = Ρ(-η(χ - λ - 1) > λη) < 6"ηλ(λ + 1)η. Последнее неравенство получается, если воспользоваться неравенством Че- бышева для сумм Sn = —п(х — λ — 1) центрированных случайных величин и тем, что Exe~tn* = en(A+i)(e-*-i) (CMt также [17, §8.8]). Таким образом, смещение λ* экспоненциально убывает при n-^оои пренебрежимо мало по сравнению с «разбросом» оценки, имеющим порядок 1/у/п. *) Несмещенных оценок в этом случае вообще не существует. Пусть для простоты η = 1. Существование несмещенной оценки для λ означало бы существование функции φ ^ 0 такой, что при всех λ > 0. Полагая λ 4- 1 = θ, последнее соотношение запишем в виде Ё^.л.-.) —+Ё«'(ГгЬ5-н)· Из этого равенства двух степенных рядов следует с необходимостью φ{0) = — 1, что противоречит предположению о существовании несмещенной оценки λ* = φ(χι) ^ 0.
§ 24. Достаточные статистики и эффективные оценки 177 Аналогичным образом дело будет обстоять и в других примерах, поскольку замена значений #*, вышедших за пределы допустимой области Θ, на подходящие значения, лежащие на границе этой области, будут приводить лишь к уменьшению разброса исходной «недопустимой» оценки Θ* около истинного значения. Величины смещений при этом будут экспоненциально малы. Отметим теперь, что теорема 3 указывает на существование связей между понятиями полноты и минимальности. На этот счет справедливо следующее утверждение, дающее вместе с теоремами § 23 критерий минимальности достаточных статистик. Теорема 4. Всякая полная достаточная статистика S является минимальной достаточной статистикой. Доказательство. Пусть 21о — минимальная достаточная сг-алгебра (по теореме 23.1 такая существует). Предположим, что Е#5 существует, и рассмотрим функцию φ = S — Eo(S/$io)> Так как 21о С сг(5), то φ будет а(5)-измеримой, так что φ = "0(5). Обозначим через Ge распределение S. Тогда при всех 0, очевидно, Έβφ(8) = 0 или, что то же, ^(s)Ge{ds)=0 при всех θ G θ. Отсюда в силу полноты S следует, что φ(β) = О п. в. [£/], Q = {G^}. Это означает, что S = Еб(5'/21о) п.в. [Q] и, стало быть, S измерима относительно*) Ио, σ(5) - Яо- Если EqS не существует, надо вместо 5 рассмотреть статистику arctgS', которая, очевидно, эквивалентна S относительно свойств достаточности, полноты и минимальности. < Отметим, что обратное утверждение не верно: минимальная достаточная статистика не обязана быть полной. Соответствующие примеры легко получаются в случаях, когда размерность I статистики больше, чем размерность к параметра Θ. Например, в § 23 мы видели, что совместная плотность минимальной достаточной статистики S = (x(i),X(n)) для семейства и#д+0 равна (п(п - l)(v - u)n~2 при и ^ θ, ν < 1 + 0, ν > щ 9θ\η,ν) = < 1^0 в остальных случаях. Если взять функцию у (и, ν) = (p(v — u) и сделать ортогональное преобразование (ν — и)/у/2 = tj (υ + и)/у/2 = я, то интеграл в (2) (по треугольнику и ^ 0, υ ^ 1 + 0, ν > и) будет равен ι / y{u,v)go{u,v) dudv = п(п — 1)1 φ(χ)χη~2(1 — χ) dx. о Очевидно, что интеграл в правой части от 0 не зависит и легко подобрать функцию φ(χ) ^ 0, обращающую его в нуль. *) Под 21о здесь надо понимать σ-алгебру, пополненную множествами Ν, для которых Έ>Θ(Ν) = 0 при всех θ
178 Гл. 2. Теория оценивания неизвестных параметров § 25. Экспоненциальное семейство Пусть θ = (#ι,.. .,#&) — А;-мерный параметр и плотность fe(x) предста- вима в виде Мх) = h(x)exp Ι Х>(0)ВД + ν(θ) Ι , (1) где все функции, входящие в правую часть, конечны и измеримы. Определение 1. Семейства распределений {Р#} с плотностью такого вида будем называть экспоненциальными семействами и обозначать их символом £. Чтобы сделать представление (1) по возможности более однозначным, предположим, что функции αο(θ) = 1, αχ(0),.. .,α^(0) линейно независимы на Θ. Как мы увидим, экспоненциальные семейства занимают особое место среди параметрических семейств распределений, так как для них многие общие конструкции математической статистики можно реализовать в явном виде. Иногда экспоненциальными семействами называют семейства распределений более частного вида*), когда aj{9) = θ у К эскпоненциальным семействам относятся, например, семейства распределений {Φα>σ2}, {Πλ}, {Βρ}, {rQjA} и ряд других. Пример L Рассмотрим распределение Га>/\. Плотность 7α,λ(^) этого распределения можно представить в виде Ία,Λχ) = ρηΛ^"1 ехР (~ах) = Х~Х ехр < Alns - as + In —— \, χ > О, так что здесь можно положить (х-\ х>0, "(1) = {о, *«0, U\(x) = In2:, U2{x)=x, V(a, λ) = In Γ(λ)' αι(α,λ)=λ, α2{α,λ) =-α> < Функция правдоподобия для X ^Р £ Ε равна η f$(X) = ехр {(α(0), S) + nV(6)} Ц /ι(χ,), ί=1 *) По существу это то же самое: мы придем к частному виду, если сделаем взаимно однозначное преобразование η — ί(Θ), η = (7ι»···>7*) над параметром 0, положив jj = = aj(9).
§ 25. Экспоненциальное семейство 179 где а(0) = Ы0),...,М0)), S=(Su...,Sk), П г=1 (α, S) есть скалярное произведение. Отсюда и из теоремы 22.1 следует, что S есть достаточная статистика для Θ. Мы докажем, что S является минимальной достаточной статистикой. Так как функции ау(0), Uj(x), V{6) конечны, экспонента в (1) всегда положительна. Это означает, что в качестве распределения Q в теореме 23.1 (при котором все Р# абсолютно непрерывны относительно Рд = / PjQ(di)) можно взять распределение, сосредоточенное в любой фиксированной точке 0°. Поэтому из теоремы 23.1 вытекает, что σ-алгебра 21о> порожденная функцией ν(Χ,θ) = j№- = ехр{(а(0) - a(0°),S) +n(V(Θ) - ν(θ°))}, является минимальной достаточной σ-алгеброй. Теорема L Статистика S является минимальной достаточной статистикой. Доказательство. Из линейной независимости функций 1, α\(Θ),... ...,ajt(0) на Θ следует линейная независимость α\{θ) — αι(00),.. .,α*(0) — — α&(0°). Это значит, что в Θ найдутся к точек 01,..., вк таких, что значения &ij = аг (θί) - αί{θ°) образуют матрицу А с определителем, отличным от нуля. Это означает, в свою очередь, что уравнения (α(θή - α(θ°), S) = lnr(X,Ρ) - n(V(0>') - ν(θ0)), j = 1,..., к, однозначно разрешимы относительно S и, стало быть, σ(5) С a(r(X,6j)\ j = l,...,fc) C2l0. < В примере 1 мы рассмотрели Г-распределение и установили, что для него справедливо представление (1) при θ — (α, λ) с функциями U\(x) = In χ, U2{x) = χ, αι(α,Α) = Α, α2(«, λ) = —α. Очевидно, что условия теоремы 1 выполнены, и статистика S = iV^lnxj, /_^х») или? чт0 т0 же5 статистика (ТТхг>У^хг) является минимальной достаточной статистикой. Если условия теоремы 1 несколько усилить, то статистика S будет полной достаточной статистикой (в этом случае минимальность S можно было бы получить как следствие полноты).
180 Гл. 2. Теория оценивания неизвестных параметров Теорема 2. Пусть X €= Ρ Ε £. Если функция α и множество Θ таковы, что α(θ) зачеркивает k-мерный параллелепипед, когда θ пробегает Θ, то S — полная достаточная статистика. Условия теоремы относительно параллелепипеда, очевидно, будут выполнены, если множество Θ «телесно», т.е. содержит внутренние точки (а вместе с ними и сферы в Rk достаточно малого радиуса), а функции clj(9) в окрестности какой-нибудь «телесной» точки 0° являются линейно независимыми и гладкими. Тогда преобразование а = α(θ) переводит окрестность точки 0° в телесное множество. Очевидно, что пример 1 с Г-распределением удовлетворяет условиям теоремы 2, так что статистика (ТТхмУ^хг) является полной. Столь же просто читатель может проверить, что для нормального распределения Φα>σ2 статистика (У^хг?У^х?) является также полной достаточной статистикой. Доказательство теоремы 2. В нашем случае функции z/>(s,0) и h(x) в факторизационной теореме Неймана-Фишера равны ф(з, θ) = ехр {(а(в),з) + ηΚ(0)}, η Ηχ) = JJMsj). Рассмотрим на (R*,93*) не зависящую от θ меру и{В) = ί Η{χ)μη{άχ), s-цв) где S"1(B) есть множество всех я, для которых S(x) Ε В. Выделим в виде лемм следующие два вспомогательных утверждения. Лемма 1. Распределение Gq(B) = T?e{S{X) Ε В) статистики S абсолютно непрерывно относительно и и имеет плотность в точке s, равную tp(s,6). Доказательство следует из равенства G$(B)= ί ψ(3(χ),θ)Η(χ)μη(άχ) = ί\l>(s,9)v{ds), s(x)eB seB которое является следствием замены переменных. < Лемма 2. Пусть G\ и G2 — две σ-конечные меры в (Rk,*&k). Тогда если / e'a,ti'Gi(dzz) = / е^а^G2{du) существуют для всех а из некоторого параллелепипеда I в Шк, то G\ = G2.
§ 25. Экспоненциальное семейство 181 Доказательство. Чтобы упростить рассуждения, рассмотрим одномерный случай к = 1 и будем считать, что 7 = {х : \х\ ^ а}. Тогда hj(a) = j eauGj{du), j = 1,2, есть аналитические функции при \а\ < а. Кроме того, при всех b Ε Ш определены функции hj(z) — \ е'а+г 'uGj(du) комплексного переменного ζ = = a + ib. Ясно, что hj{z) будут аналитическими в полосе \а\ < а, —оо < b < < оо. Так как h\(z) = h<i(ζ) на отрезке прямой 6 = 0, \а\ < а, то h\(z) = = h,2{z) при всех ζ из указанной полосы. Стало быть, fe^Giidu) = feibuG2(du). (2) Заметим, что так как /ij(0) = / Gj(dw) < оо, то Gj можно считать вероятностными мерами. Из теоремы о взаимно однозначном соответствии между характеристическими функциями и распределениями (см. [17, § 7.2]) и из (2) следует, что Gi = G2. Если параллелепипед I имеет вид {х : \х — αο| ^ с*}, то следует перейти к мерам G^du) = ea°uGj{du). В многомерном случае А; > 1 доказательство проходит точно так же. < Мы можем перейти теперь непосредственно к доказательству теоремы 2. Нам надо доказать, что если φ — измеримая функция в (Rfe,55fc) и существует /■ <p(s)Ge(ds)=0 при всех Θ Ε Θ, (3) то <p(s) = 0 п. в. [Q], Q = {Ge}eee- Пусть φ = φ+ - φ~, где φ± ^ 0. Тогда из (3) следует / (p*(s)Gs(ds) = / </?~(s)G0(ds) или в силу леммы 1 j φ+{8)ψ{81θ)ν{ά3) = j4>~{a)${s,e)v{ds), Если образовать оконечные меры i/^ds) = ^(sji^ds), получим /"β<*·β>ι/+(ώ)== fe^v-{ds) при всех α из некоторого параллелепипеда в R*. Остается воспользоваться леммой 2. < Следствие 1. £7сли X § Ρ G f, б* G -Кь, w выполнены условия теоремы 2, то оценка 0J = E(0*/S) является эффективной оценкой в Къ-
182 Гл. 2. Теория оценивания неизвестных параметров Предположим теперь, что нам надо оценить параметр η = φ(β), где φ осуществляет взаимно однозначное непрерывное отображение θ в Г, множество Г телесно в Rk. В этом случае определена непрерывная функция θ = φ~ι(η), переводящая Г в Θ, и согласно теореме 2 статистика S(X) = η = 2_] и(хг) будет полной достаточной статистикой и для параметра 7 (см. г-1 также следствие 22.3). Следовательно, для η сохраняется и утверждение следствия 1: если 7* £ Кь1 — оценка 7> т0 7s = ^(7* I S) будет эффективной оценкой в классе Кь1, 61(7) = Е#7* —η = Έφ-\^η* — η. Если φ — линейная функция и Θ* — эффективная оценка, то 7* = φ{@*) будет эффективной оценкой для 7· Пример 2. Задача восстановления изображения. Рассмотрим следующую простейшую задачу восстановления «дискретного» изображения, представляющую существенный интерес в томографии, астрофизике (см., например, [106]) и в других приложениях. Имеется источник излучения, которому на плоской фотопластине (будем считать ее квадратной) соответствует изображение, описываемое функцией (полем) яркости θ(ν) = = 9(u\ ,1x2), u £ [0,1]2. Дискретизируем это изображение, разбивая пластинку ί Г*-! Л \з -1 з \\ на маленькие квадраты Ду = < и: щ Ε , — , и^ 6 , — г и [ [ m mj ι m m J J введя для описания изображения усредненные яркости θ^ = I 6(u)du, i, j = 1,..., га. Значения полей 9{и) и, стало быть, {θ^} неизвестны. Наблюдателю доступно лишь «зашумленное» и «размытое» («рассеянное») изображение источника. Более точно, будем предполагать, что имеем фотографическое изображение суммарного воздействия двух пуассоновских источников частиц. Первый соответствует изучаемому источнику. Для него «в идеале» каждая частица попадает в квадрат Ду с вероятностью θ^/θ (θ = / θ (и) du есть интенсивность источника). Однако из-за присутствия эффекта рассеивания этого не происходит. Реальная интенсивность 7ij попадания частиц в Ду определяется не только «идеальной» интенсивностью 0у, но и интен- сивностями соседних квадратов, так что 7ij есть взвешенное среднее 7ij = EMUJ)> ΣΛ*/) = 1. iJ = l...-,m. (4) к,I i,j Здесь суммирование в первой сумме ведется по 1 ^ к ^ га, 1 ^ / ^ т, так что (4) исключает влияние «квадратов», расположенных вне фотопластины. Во многих случаях рассеивание можно считать инвариантным относительно сдвига, т.е. считать, что г (*+aJ+6) __ , (i,j) в области, не затрагивающей границу.
§25. Экспоненциальное семейство 183 Второй пуассоновский поток частиц представляет собой «шум»: число частиц второго потока, попавших в Δ^ за единицу времени имеет распределение Пуассона с параметром aij. Если поток однороден, то а^ = а не зависят от г, j. (i i) Значения α^·, hKk^ нам известны. В приведенном выше описании мы имеем дело с «расщеплением» и сложением пуассоновских потоков. Если пуассоновский поток частиц с параметром θ I вероятность появления к ча- стиц за единицу времени равна е — I, то под «расщеплением» будем понимать разделение этого потока на г «подпотоков» следующим образом: каждая частица независимо от других с вероятностью ρ*;, к = l,...,r, /Jpjt = 1, направляется в к-ft подпоток. Полученные подпотоки снова будут пуассо- новскими (с интенсивностями Opk) и независимыми. Действительно, вероятность иметь набор fci,...,A;r, \&i = &, частиц соответственно в первом, ..., г-м подпотоке равна 6 A:! *1!...*r!Pl ~'Pr "Пе Л-1 " При сложении независимых пуассоновских потоков мы, очевидно, также будем получать в результате пуассоновский поток с интенсивностью, равной сумме интенсивностей слагаемых. В силу сказанного рассматриваемое фотографическое отображение можно описывать как результат воздействия га2 независимых пуассоновских потоков частиц, соответствующих квадратам Δ^·, г, j = 1,.. .,га. Интенсивности этих потоков равны соответственно λ^· = 7zj +&ij· Стало быть, количества Vij частиц, попавших в Δ^· за время п, независимы и будут иметь распределение Пуассона с параметрами ηλ^, Набор частот ν = {fij} можно рассматривать как достаточную статистику для параметра λ = {λ^·} (построенную по выборке X = {^· },.·., {^,·" }? где ν\· — число частиц, попавших в Δ^· за к-ю единицу времени). Функция правдоподобия в этом случае имеет вид Ш) = Π П*"^ = ГК*^ Π -щ- fc=l ij vij · ij к vij · Очевидно, что мы имеем дело с экспоненциальным семейством и ν является полной достаточной статистикой для λ при этом λ* = u/n будет эффективной оценкой А. Если матрица Η = {Щ\ } имеет обратную, отображение (4), которое можно записать в виде λ = ΘΗ + α,
184 Гл. 2. Теория оценивания неизвестных параметров обратимо: θ = (λ — α)Η~ι и, стало быть, ν будет полной достаточной статистикой и для θ (см. замечания, предшествующие примеру 2). При этом было бы естественно положить θ* = (λ* — a)if_1. Однако здесь возникают ограничения, сьязанные с областью возможных значений θ ^ 0. Эти ограничения были рассмотрены на простом примере в замечании 24.1. В соответствии со сказанным в этом замечании мы должны положить θ*^[{Χ*-α)+Η^]+} где [0]+ для θ = {0ij} означает «вектор» {<й}, #Л = max(0,^j). При этом качество оценки от введения операции []+ только улучшится (см. замечание 24.1). С технической стороны наибольшие трудности во всем этом может представлять вычисление обратной матрицы Я"**1. Если изображение сосредо- s τη — s (#zj = 0 при г φ [s + 1, m — s] или j $ точено в квадрате m m t [s + 1, m - s], s > 0) и hffiffi = Л$ = 0 при \i - k\ > s, \j - l\ > s (ограниченное однородное рассеивание), то построение обратного преобразования можно осуществить с помощью производящих функций (отметим, что при этом будем иметь дело с (т — 2s)2 независимыми параметрами 0$j, i, j = 5 + 1,.. -,77i — 5, и таким же числом независимых 7ij> hj = 1,.. .,m). Действительно, положим hkl α> ' = /ια^, S 771 — S ТП h{y,z)= Σ hajbzazb, 9(y,z)= Σ Wz\ 7(y.*) = ^7i^V· a,b=-s i,j=s+l i,j Тогда уравнение (4) можно записать в виде свертки s Ί%3 = X, 9i-kj-ihk,h k^—s что при переходе к производящим функциям дает га s 7(У>*) = Σ V%Z% Σ ei-k,j-lhk,l = s m = 53 ^yV^y^V-^j.^My.^^z), (5) %i*) =7(y^)^"1(y,^). Разлагая /i_1(y,^) в ряд по положительным и отрицательным степеням у и ζ (в подходящей области изменения у и ζ) h"l{y,z)^^9^ykzl
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 185 и приравнивая коэффициенты при одинаковых степенях в (5), получим обратное линейное преобразование га θυ = Σ lkji9i-kj-u г, j = s + 1,.. .,m - s. kJL-l Если, например, h-Si-s > 0, то h(y,z)y$zs образует полином, отличный от нуля в точке у = ζ — 0, так что при достаточно малых у, ζ 00 h-1(y,z)=yszs[yszsh(y,z)}-1 = £ 9k,lVkzl. k,l=s Если теперь воспользоваться теми же, что и прежде, правилами построения оценок, получим Ясно, что во всех этих рассмотрениях для получения достаточно хороших оценок нужно, чтобы частоты v^l были велики или, что то же, чтобы время наблюдения η было велико по сравнению с размерностью га2 (или (га — 2s)2) неизвестного параметра θ — {0Zj} (считаем, что θ сравнимо с единицей). Точность оценки поля θ = {&ij} можно значительно увеличить, если уменьшить размерность оцениваемого параметра. Это можно сделать, если нам заранее известна возможная форма поля θ^ (или θ(η)). Если, например, 9{j есть «одновершинное» поле вида 9ij = сехр{&!(г-а!)2 + b2{j ~α2)2}, то дело сводится к оценке всего лишь пяти (а не га2) неизвестных параметров с, αϊ, α2, bi, ί>2· §26· Неравенство Рао-Крамера и Д-эффективные оценки 1. Неравенство Рао-Крамера и его следствия. Результаты предыдущих параграфов дали нам ряд критериев эффективности оценок. Однако эти критерии носили в известном смысле качественный характер. В этом параграфе мы продолжим изучение вопроса об эффективных оценках, но с несколько иной точки зрения. Выясним прежде всего, какова минимальная величина среднеквадратической погрешности, которую можно получить. Рассмотрим сначала одномерный случай, когда θ — скалярный параметр. Относительно множества Θ будем предполагать для определенности, что это есть конечный или бесконечный интервал, замкнутый или открытый. Для того чтобы ответить на поставленный вопрос, нам понадобятся условия регулярности на fe(x)- Пусть, как и прежде, η Ζ (χ, θ) = 1η/,(χ), ЦХ, θ) = Σΐ{χύ θ), α{θ) = Εθθ* = θ + b{0). 1 -τ- Σ (Xh~awY9i-kj-i ΠΜ=ι ' η
186 Гл. 2. Теория оценивания неизвестных параметров Предположим, что выполнено условие (R) Функции \/fe{x) для η. β. [μ] значений χ непрерывно дифференцируемы по 6 Ε Θ, интеграл 1{θ)= ί^ψ^μ{άχ)^ΒΘ[ΐ\^θ)γ (1) существует, положителен и непрерывен по 6. (Здесь и в дальнейшем штрих означает дифференцирование по 6.) Относительно интеграла (1) необходимо отметить следующее. Если χ вместе со своей окрестностью не принадлежит носителю Νρθ = {χ : fe(x) > > 0} распределения Р^, то подынтегральная функция (/ρ{χ)) /ίθ(χ) превращается в неопределенность типа 0/0. Условимся считать это отношение равным нулю. Такого же правила будем придерживаться относительно производной 1'{χ,θ) = /${х)//в{х) ПРИ ее интегрировании. Этих оговорок можно не делать, если с самого начала рассматривать интегралы вида Έ$φ(χι,θ) лишь по области Νρθ. Функция 7(6) носит название информации Фишера. Мы уже встречали ее в § 16. Она играет важную роль в математической статистике и будет неоднократно встречаться в дальнейшем. Некоторые свойства функции 7(6) обсуждаются в § 27. Если множество Θ компактно, то непрерывность 7(6) в условиях (R) эквивалентна условию supE,(p'(xi,0)]2; |/'(xi,0)| > Ν) -> 0 вее при N —> со, которое можно назвать равномерной сходимостью интеграла 7(6) (см. приложение VI). Имеет место следующее неравенство для дисперсии оценок 6* со смещением Ь. Теорема 1 (неравенство Рао-Крамера). Еслив* Ε ϋΓ&, выполнено условие (R) и Ея(0*)2 < с < оо, то Όθθ > ηΙ(θ) ■ (2) Если в этом неравенстве достигается равенство на некотором отрезке 6 Ε [61,62] С Θ и Όβθ* > 0 на этом отрезке, то функция правдоподобия fe{X) при 6 Ε [61,62] представима в виде MX) = ехр {Θ*Α(Θ) + В{9)ЩХ), (3) где Л(6), Β(θ) от X не зависят. Обратно, если 6* = const или если справедливо представление (3), то в неравенстве (2) достигается равенство. Условие (3), очевидно, означает принадлежность распределения в Хп с плотностью f$(x) к экспоненциальному семейству S.
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 187 Следствие 1. При выполнении условий теоремы 1 Для любой несмещенной оценки Θ* Εθ(θ*-Θ)2> * Таким образом, в классах К^ наименьшее возможное значение среднеквадратичных уклонений отлично от нуля и определяется правыми частями выписанных неравенств. Замечание 1. По поводу условия Έθ(Θ*)2 < с < оо можно заметить, что при Έθ(Θ*)2 — оо выполняется Όρθ* = оо и неравенство (2) становится тривиальным. Условие D#0* > 0 в силу (2) можно заменить на (1+ί/(0))2 > 0. Замечание 2. Наряду с условием (R) можно указать несколько других условий, обеспечивающих утверждение теоремы 1, которые будут отличаться друг от друга очень мало. Мы остановились на том из них, которое нам будет удобнее в последующих параграфах. Условия несколько иного вида будут приведены в § 32. Нам понадобится одно вспомогательное утверждение. Лемма 1. Пусть выполнено условие (R) и S = S{X) есть любая статистика, для которой Е#52 < с < оо при θ Ε θ. Тогда функция α$(θ) = EeS = J 3(χ)Μχ)μη(άχ) (4) непрерывно дифференцируема по 0, причем α'3(θ) = f 3(χ)Ι'θ(χ)μη(άχ) = E6SL'(X, θ). (5) Это утверждение носит технический характер, а его доказательство существенно отяготило бы рассмотрения. Поэтому доказательство леммы 1 отнесено нами в приложение V. Доказательство теоремы 1. Полагая в (5) S = 1, получим as(0) = 1, EeL' = О, E9a{9)L' = 0. (6) Используя снова (5) при S = Θ* и (6), получаем Евв*Ь' = α! (θ), Е9(в*-а{в))Ь' = а'{в). (7) По неравенству Коши-Буняковского (α'(θ))2ζΕθ(θ*-α(θ))2Εθ(1')2 (8) или, что то же, Όθθ > Ee{Vf ■ (9)
188 Гл. 2. Теория оценивания неизвестных параметров Так как случайные величины lj = i'(xj,0) независимы, одинаково распределены и имеют в силу (6) ненулевое математическое ожидание EqIj — О, то Eeklj = 0 при г φ j, E^L')2 = Εβί Σ1*) = ΣΕ<^ = ηΕ^ι = з hj = ηΙ(θ). Вместе с (9) это доказывает неравенство (2). Докажем второе утверждение теоремы. Для простоты будем считать, что Θ совпадает с [01,0г] и чт0 X совпадает с объединением носителей X = = U Ήν tee Итак, пусть в (2) (или в (8)) достигается знак равенства. Тогда функция &θθ* = —тТТгГ вместе с α'{θ) и 1{θ) непрерывна по θ и ηΐ (Θ) (Εθ(θ* - α(θ))Σ')2 = Εθ(θ* - α(θ))2Εθ(Σ')2. Последнее равенство вместе с (7) при с(в) = \/ тл п дает Εθ(ο(θ)(θ* - α(θ)) - L'f = ηΙ(θ) - 2^~^^Ώθθ*-ηΙ{θ) + ηΙ{θ) = О или, что то же, У(с(0)(0· - α(θ)) - L'(x, θ))2Μχ)μη(άχ) = 0, (10) где функции а(0), с(0) непрерывны. Пусть M(t) — множество точек χ Ε Xn, для которых [ф)(0* - α(ί)) - L'(*, *)]λ/Λ(^) = 0. (11) Из (10) следует, что μη(Μ(ί)) = 0, где Μ(ί) — дополнение к М(£). Обозначим Μ = Ρ| Μ(ί), где Τ — счетное всюду плотное на Θ множество. teT Тогда, очевидно, μη(Μ) = 0. Фиксируем точку χ Ε Μ. Так как ft(x) непрерывна по t и Я* совпадает с объединением носителей, найдется интервал (*ь*2) С Θ, <2 > *ь на котором /г (ж) > 0 и, стало быть (см. (11)), £'(ж, i) = c(i)(0* - α(ί)) для teT f] [ib t2]. (12) Обе части этого равенства непрерывны на [ίι,^] и> следовательно, это равенство справедливо всюду на (ίι,^)· Кроме того, правая часть равномерно ограничена на (ίι, £г)· Но это означает, что L(x, t) также равномерно ограничена, a ft(x) равномерно положительно всюду на (^ь^)· Эт0 противоречит допущению о существовании интервала (ίι,^)? на котором /*(ж) > 0, но mm(f^(x), ft2(x)) = 0. Поэтому ft{x) положительно всюду на Θ = [0ι,#2]? так что (12) справедливо при всех t. Интегрируя (12) в пределах от θ\ до 0,
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 189 получим θ θ L{x,0) = Θ* c{t)dt- c{t)a{t)dt + L(x,ei), что эквивалентно (3) для [μη] п. в. х. Так как изменение /я (я) на множестве дп-меры нуль роли не играет, то (3) доказано. Обратимся к последнему утверждению теоремы. Если Θ* = const, то Ь'(в) — — 1, и обе части неравенства (2) обращаются в нуль. Пусть теперь выполнено (3). Тогда, дифференцируя по θ функцию L(J*f, 0), получим 1'{Χ,Θ) = Θ*Α'(Θ) + Β'{Θ). Из (7) следует, что α(θ)Α(θ) + Β(θ) = 0. Поэтому £,'{Χ,θ)=Α'(θ){θ*-α{θ)) и, стало быть (см. (12)), в (2) достигается равенство. < θ Замечание 3. Так как в представлении (3) Α(θ) = / c(t)dt > 0, то (3) означает, что носитель Νρθ = {χ: h(x) > 0, θ* > —οο} от θ не зависит, и можно считать Νρθ = X. Таким образом, если Νρθ зависит от θ (как, например, в задаче оценки параметра сдвига, когда fe{x) = f(x — θ) и f(x) > 0 лишь для а; Е [0, а], 0 < a ^ оо), то не существует оценок 0*, для которых в (2) достигалось бы равенство. Если доказывать второе утверждение теоремы 2 лишь для случая Νρθ = — X, то доказательство можно несколько упростить, сделав ненужными рассмотрения, связанные с (11), (12) и непрерывностью функций с(0), α(θ). Чтобы получить требуемое представление для L(x,0), достаточно заметить, что при fe{x) > 0, χ Ε Хп, наряду с (10) справедливо ί[φ){θ*-α(ί))-1'{χ,ί)]φ(χ)μη{άχ)=0 для любой ограниченной измеримой функции φ. Надо теперь проинтегрировать это равенство по t в пределах от θι до 0, поменять порядок интегрирования и воспользоваться произвольностью φ. В дальнейшем тривиальный случай 0* = const будем исключать из рассмотрений и предполагать, что Όβθ* > 0 всюду на Θ. Тогда справедливо Следствие 2. При выполнении условий (R) для достижения нижней границы в неравенстве Рао-Крамера необходимо и достаточно, чтобы оценка Θ* была достаточной и функция ^(0*, 0) в факторизационном равенстве имела вид ψ{θ\θ) = ехр{в*А{в) + Β{θ)}> где Α(θ) и Β(θ) — дифференцируемые функции.
190 Гл. 2. Теория оценивания неизвестных параметров Следствие 3. Если выполнены условия (R), θ* Ε Кь, и в неравенстве Рао-Крамера достигается равенство, то Θ* — эффективная в Кь оценка. Это утверждение следует из представления Ев{в*-в)2=Ввв* + Ъ2(в). Заметим, что обратное, вообще говоря, не верно: оценка может быть (1 + *>'(0))2 эффективной в К&, но нижняя граница -ггт:— для дисперсии может не достигаться. Пример 1. Пусть X €? ГаД. Здесь fa(X) = апе~ап*. Условия (R) в области Θ С {а ^ δ > 0} выполнены. Очевидно, S = пх есть полная достаточная статистика. Поэтому оценка а* = х-1 = Еа(х_1/5) является эффективной в классе Кь со смещением Ь(а) = EQx-1 — α. Заметим теперь, что S €= Га)П, так что при η > 1 (см. § 12) Εαχ_1 = ^ η 1 П = nEaS-1 = -а. η — 1 Таким образом, оценка а** = —— = а* ( 1 1 будет при η > 1 пх \ п/ несмещенной. Аналогично при η > 2 находим (см. § 12, а также пример 14.1) EQ(02 = (n-l)2EQS-2 = ^a2, п — I Όαα** = α »-!_■ η-2 α2 η-2' Итак, при η > 2 оценка α** является эффективной. Однако критерий (3) не выполнен, так как fa(X) = α-η6-α(η-1)/α·^ Следовательно, в неравенстве Рао-Крамера нижняя граница не достигается. В этом можно убедиться и непосредственно. В самом деле, здесь /(я, а) = = In а — ах, 1'(х,а) = 1/а — а: и /(α)=Εβ[/'(χι,α)]2=Ββ^-χΛ = ^. Стало быть, при η > 2 1 с? сг _ — < _ JJ α # η/(α) η η — 2 Таким образом, достижение нижней границы в (2) есть более жесткое требование, чем эффективность.
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 191 2· R-эффективные и асимптотически Д-эффективные оценки. Пусть выполнены условия (R). В этом случае достижение нижней границы (точное или асимптотическое) для дисперсии в неравенстве Рао-Крамера может служить важным показателем качества оценок, тесно связанным с понятием эффективности. Определение 1. Оценка Θ* £ i£&, для которой называется R-эффективной (или регулярно эффективной) в классе Кь- jR-эффективная оценка в классе Kq несмещенных оценок называется просто R-эффективной. Оценка Θ* называется асимптотически R-эффективной (а.Д-э.), если Έθ{θ ~θ) - пЩ ' Мы видим, что в отличие от определений § 18, которые носили более качественный характер, определения Τϊ-эффективности основаны на сравнении с известными числовыми значениями, связанными, главным образом, с информацией Фишера, точнее, с количеством (ηΙ(θ))~ι. Для ϋ-эффективности оценки Θ* необходимо и достаточно выполнение (3). Из сказанного выше следует, что R-эффективные оценки являются эффективными, но не наоборот; Д-эффективные оценки просто реже существуют, что является недостатком нижней границы в неравенстве Рао- Крамера, а не оценок. В существующей литературе по математической статистике Л-эффек- тивные оценки называются просто эффективными. Однако нам представляется более естественным сохранить термин «эффективность» для наилучших оценок в более широком понимании (см. определение 18.1). Теорема 2. Если выполнены условия (R) и R-эффективная оценка существует, то она совпадает с оценкой м. п. Доказательство. Мы уже видели, что выполнение (3) влечет за собой равенство (см. (11)) L'{X,0) = (0*-0)c(0). Кроме того, так как Ь(в) — 0, из (12) следует для любых θ Ε Θ. Это означает, что Lf(X,0) < 0 при Θ > θ* и Ι'(Χ,Θ) > 0 при θ < θ*. Следовательно, при θ = Θ* достигается максимум L(X,0). < Приведенный выше пример 1 показывает, что эффективные оценки в отличие от Д-эффективных могут не совпадать с о.м. п. В этом примере
192 Гл. 2. Теория оценивания неизвестных параметров о. м.п. есть (х) , в то время как эффективная оценка равна (х) . η Обе эти оценки являются, очевидно, а. R-э. оценками. Рассмотрим класс Kq оценок 0*, для которых \Ь(в)\^Щ£, |6'(0)|<ε(0,π), Έθ(θ*)2 < с < оо при некоторой функции ε(0, η) — о(1) при η —> оо и каждом θ Ε Θ. Каждый такой класс замечателен тем, что для него нижняя граница в неравенстве Рао-Крамера имеет вид (1 + ο(1))/[ηΙ(θ)]. В § 30 мы увидим, что в ряде случаев при отыскании асимптотически оптимальных оценок можно ограничиться изучением оценок Θ* из таких классов. Теорема 3. Пусть выполнены условия (R). Тогда всякая а. R-э. оценка из Kq является а. э. в Kq оценкой. Доказательство теоремы очевидно: если 0* есть а. R-э. оценка, то Кроме того, как уже отмечалось, по неравенству Рао-Крамера для всех Θ*£Κ0 limmfE<,n(0* - θ)2 > Γ\θ) = lim E<jn(0f - θ)2. < η—юо η-»οο Ясно также, что если а. R-э. оценка существует, любая а. э. оценка в Kq будет а. R-э. оценкой. Позже мы увидим (см. §34), что при некоторых дополнительных предположениях а. R-э. оценки существуют всегда. Ими оказываются о.м.п. 0*. Этот факт тесно связан с теоремой 16.3, в силу которой у/п(в* — Θ) & & &oj-i(0)· Чтобы установить, что Θ* является а.Д-э. оценкой, нужны дополнительные рассмотрения, которые будут проведены в §33. Сказанное означает, что утверждение теоремы 3 справедливо и в обратную сторону: а. э. оценка в Kq является а. R-э. оценкой, т.е. для нее Е#(0* — θ)2 ~ [ηΙ(θ)]~ι. Теорема 4. Пусть выполнены условия (R). Если 0*, 0£ принадлежат Kq и являются а. R-э. оценками, то они асимптотически эквивалентны в следующем смысле: sft (θ{ - θ*2) -+ о. Доказательство этого утверждения проходит точно так же, как в теореме 18.2. Так как Θ* — (θ* + б^)/2 £ ^о, на основании (18.11) и неравенства Рао-Крамера получаем lim sup Εθη(θΙ - θ*2)2 <0. <
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 193 Пример 2. Оценка а* = χ среднего значения α нормальной совокупности Фа5(Т2 при известном σ2 является Д-эф фективной оценкой. В этом легко убедиться, проверив, например, условие (3). Другая возможность состоит в сопоставлении Όαα* = σ2/η с наименьшим возможным значением (nl(a))~l дисперсий несмещенных оценок. В нашем случае Ι(χ,α) = -1ην2πσ —ъ—, l'{x,a) = 2σ2 χ — a σ* w ч -г. г,// м9 Εα(χι - α)2 Ι 1(a) = Εαρ#(χι,α)]2 = ^4 = ^, так что Daa* = (nZ(a))^1 = σ2/η. 1 η Пример 3. Рассмотрим оценку θ* = S2 = — 7 (χ; — α)2 параметра η г—' г=1 θ = σ2 нормальной совокупности с известным а. Нетрудно подсчитать, что D#0* = Έο(θ* - σ2)2 = 2σ4/η. С другой стороны, здесь /(хьв)-~20+ 202 ' /(б) = Ε,[ί'(χι, *)]2 = ^Е,[(Х1 - а)2 - 0]2 = ^ = ^1 · Таким образом, здесь также D#0* = (ηΖ(θ))"1, и оценка Θ* = 52 является jR-эф фективной. тт <-»2 ^ \~""V —\2 ^® Дисперсия несмещенной оценки Ьп = г > (х* — х) равна г, так η — 1 ^—' η — 1 что она не является Д-эф фективной или просто эффективной оценкой σ2. В то же время очевидно, что 52 есть а. Д-э. оценка. Если мы будем в качестве неизвестного параметра оценивать не σ2, а θ = σ, то i?-эф фективной оценки мы не получим. Несмещенной оценкой σ будет оценка V2r/n + l Ч- так как ,^2 где Εσ5ι = -*,Ε,^5>-α)», —^- = — 2j(xt - о)2 имеет распределение Ηη = Γι/2,„/2, поэтому (см. § 12) г. п + 1 aV2 2 , vs Γ (ι
194 Гл. 2. Теория оценивания неизвестных параметров Так как S\ есть минимальная и полная достаточная статистика, то σ* является эффективной оценкой. С помощью формулы Стирлинга нетрудно убедиться, что σ*=5ι(1 + 0(1/η)). Сравним теперь величину Όσσ* с нижней границей (η/(σ))-1. Имеем Όσσ* = Εσ rr5f (13) С другой стороны, здесь ι// ч 1 (х-а)2 Ι(σ) - Ε,Ρ'(χι,*)]2 = ΛΕσ[(χι - ос)2 - σ2]2 = 2 2' так что (η/(σ)) * = σ2/(2η). Но это значение отличается от (13). Их отношение, например, для η = 3 равно 0,936. Таким образом, Λ-эффективных оценок здесь не существует. При η —> оо коэффициент при σ2 в (13) ведет себя асимптотически как i+°(*)· так что σ* есть а. Д-э. оценка. 3. Неравенство Рао-Крамера в многомерном случае. В этом пункте θ = = (0i,...,0fc) есть Aj-мерный вектор, как и оценка Θ* = (0*,...,0£). Как и прежде, положим а(0) = Е<,0* = θ + 6(0), 6(0) = (6ι(0),..., bk(0)) и рассмотрим классы Кь оценок с фиксированным смещением Ь{9). Обобщение условий (R) на многомерный случай будет выглядеть следующим образом. Обозначим l(x,e) = \ogfe(x), Ι'άχ,θ) = щЦх,в), Iij(e) = E9l'l(xue)l'j(xue) и предположим, что выполнено условие (R) Функции y/feW) непрерывно дифференцируемы no 6j для η. в. [μ] значений х. Матрица 1(0) = ||';#)||, 1ц{В) = J 1'ί(χ;θ)1^χ;θ)Μχ)μ(άχ) непрерывна по 0*), ее определитель \1{θ)\ отличен от нуля. *) Для этого достаточно требовать равномерной сходимости интегралов Uj{9) (см. приложение V).
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 195 Так как 1(0) есть матрица вторых моментов Eehlj случайных величин 1{ = ί|·(χι, 0), то она будет положительно определенной матрицей, так как для любого вектора α = (αϊ,..., α&) φ 0 выполняется ]Г aiajEelilj = Ε* (^ αώ) ^ 0, где равенство нулю исключается условием |/(0)| Φ 0. Неравенство между матрицами σ\ ^ σ|, как и раньше, будем понимать как неравенство ασ2α ^ ασ|ατ для любой вектор-строки α = = (αϊ,.. .,α*;) т^ 0. Это эквивалентно, очевидно, тому, что матрица σ\ — σ\ неотрицательно определена. Строгое неравенство будет соответствовать положительной определенности, так что, например, Ι(θ) > 0. Теорема 1А. Если Θ* £ Кь и выполнено условие (R), то для матрицы вторых моментов σ2 = ||σ^·|| = Е#(0* — α(θ))τ(θ* — α(θ)) любой оценки Θ* вектор-строки θ справедливо неравенство σ2>-{Ε + Ό{Θ))Γ\Θ){Ε + D{0))T, (14) η где Ε есть единичная матрица, D(0) = \\Ь^(в)\\, °ij(Q) = ~~^bj—· OVj Пусть \σ2\ > 0 (или \E + D(6)\ > 0) при всех θ. В этом случае знак равенства в (14) достигается тогда и только тогда, когда распределение выборки принадлежит экспоненциальному семейству специального вида, т. е. когда для некоторых скалярных функций Β(θ) и h(X) выполняется MX) = ехр {(*·, А(9)) + В(в)ЩХ), (15) где вектор Α(θ) = (Αι(θ),..., Аь{в)) имеет матрицу производных, равную IIAjll — дАг{в) d9j = η[(Ε + ϋ(θ)Γιγΐ(θ) Для несмещенных оценок Θ*, очевидно, σ2 > (ηΙ(θ)Γ1, и равенство возможно лишь при выполнении (15), где \\Aij\\ = ηΙ(θ). Таким образом, если нам удастся найти несмещенную оценку Θ* с матрицей вторых моментов [ηΙ(θ)]~ι, то она будет эффективной оценкой. Отметим, что Εθ{θ* - θ)τ(θ* - θ) = σ2 + bT{9)b{0). Доказательство теоремы ΙΑ. Положим η Ц = L'jiX, Θ) = Σ l'j(xu θ), L' = L'(X,θ) = {L[,.. .,L'k).
196 Гл. 2. Теория оценивания неизвестных параметров Тогда совершенно аналогично одномерному случаю устанавливаем, что справедливы равенства Egl'j (χι , 0) = О, Е„ОД (Χ, 0) = 1 + bij (θ), в которых bij (θ) непрерывны, или, что то же, равенства EeL' = О, (16) Ee{e*)TL' = E + D{0), (17) в которых матрица D{6) непрерывна. Отсюда получаем Εθ{θ* - a(0))TL' = Ε + Ό(Θ). (18) Докажем теперь следующее неравенство (матричный вариант неравенства Коши-Буняковского). Лемма 2. Пусть ξ и η — матрицы одинакового размера (не обязательно квадратные) со случайными элементами, матрица Εηητ имеет обратную. Тогда ΕξξΤ > ΕξηΤ{ΕηηΤ)-1ΕηξΤ. (19) При этом равенство возможно лишь в случае ξ = ζη> ζ = Έξη^(Έηη^)~ι. Доказательство. Так как для любой матрицы А справедливо неравенство ААТ > О (ААТ неотрицательно определена), то О < Ε(ξ - ζη)(ξ - ζη)Τ = ΕξξΤ - ζΕηξΤ - ΕξηΤζΤ + ζΕηηΤζΤ. Полагая ζ = Έξη (Έηη )~ι, получим требуемое неравенство. Утверждение относительно условий равенства в (19) очевидно. < Вернемся к доказательству теоремы 1А. Положим в (19) ξ = (0* — α(0))Τ, η = (Ζ/)Τ. Тогда ΈθξξΤ = Εθ(θ* - α(θ))Τ(θ* - α(θ)) = σ2. Из (16) и независимости хг· получаем Εθηητ = Ee{L')TL' = nl(0). Наконец, из (18) находим Εθξητ = Εθ{θ* - a(0))TL' = Е + D{9). Неравенство (14) доказано. Равенство в (14) возможно в силу леммы 2, если только для точек (аз,0) таких, что fe(x) > 0, справедливо (0· - α(θ))τ = (Ε + ϋ(θ))(ηΙ(θ))-1{Ώ')τ или, что то же, V = (Θ* - α(θ))η[{Ε + ZW))-1]1"/^). (20)
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 197 Заметим теперь, что из равенства в (14) следует \Ε + ϋ(θ)\2 = η\σ2\.\Ι(θ)\, и отделенность от нуля определителя \σ2\ означает то же самое для \Е + + D(0)\ и означает существование равномерно ограниченной обратной матрицы (Е 4- D(0))~l. Поэтому производная V в (20) будет ограниченной, /#(ж) > 0 всюду на Θ и само равенство (20) будет справедливо всюду на Θ. Если теперь s есть любой путь, соединяющий точки #о и θ в области Θ, то ВД0)= f(L\ds)+L(X,e0)t S где ds означает векторный элемент пути s, ((Lf,ds) = (Z/, sf(l)) dl есть приращение L(X, θ) на этом пути, I — «длина» пройденного пути). Стало быть, в силу (20) ЦХ, θ) = Θ*Α{Θ) + Β{θ) + # (Χ), (21) где Β(θ) и Н(Х) — скалярные функции, Α(θ) = (А\ (0),..., Α^{β)) — вектор, зависящий только от своих аргументов. Это означает справедливость (15). Если выполнено (21), то L' = θ*\\Αιό\\ +Β'(Θ), где в силу равенства EgZ/ = 0 справедливо ВЧв) = -а(в)\\А15\\. Умножая обе части равенства V = (Θ* — α(θ))\\Α^\\ слева на (θ* - α(θ))τ, получим в силу (18), что для выполнения условия (20), означающего равенство в (14), должно выполняться WAuW^nHE+Dm-vw). < В многомерном случае сохраняют свою силу все замечания, сделанные к одномерному неравенству Рао-Крамера, а также определение Д-эффектив- ности, в которые следует внести лишь очевидные изменения, связанные с размерностью Θ. В частности, а. Д-э. оценками будем называть оценки 0*, для которых Е*(0* - θ)τ{θ* -θ)=σ2 + Ът{в)Ь{в) = {ηΙ{θ))~ι + ο(1/η). Аналог теоремы 2 здесь будет выглядеть следующим образом. Теорема 2А. Пусть выполнены условия (R). Если Θ* есть R-эффек- тивная оценка, то это есть оценка максимального правдоподобия. Доказательство. Чтобы доказать, что Д-эффективная оценка является единственной точкой максимума, достаточно убедиться, что L'(X, 0*) = = 0и что при 0 = 0* + w, и φ 0 (gradL(X,0),u) = (L'(X,0), θ-Θ*) <0.
198 Гл. 2. Теория оценивания неизвестных параметров Но в случае существования Я-эффективной оценки выполняется (см. (20)) L'(X,0) = (0*-0)nJ(0), откуда немедленно вытекают оба требуемые соотношения. Второе следует из того, что (L',u) = -unI(0)uT, где ul(0)u есть положительно определенная квадратичная форма. < Пример 4. Рассмотрим двупараметрическое семейство нормальных распределений Φασ2. Оно принадлежит экспоненциальному семейству, так как (здесь θ = (0Ь02), 01 = а, 02 = σ2) . , ч 1 / (я-а)2\ 1 [ х2 ха а2 л Л 1 п Оценка 0* = (0?,05), где 0f = χ, ^ = S^ = —— £(х; - х)2 = п 1 «=ι — г f/Jxf ~~ ηχ2) 5 является эффективной, поскольку она принадлежит Ко и статистика (/Jxi> У^ХП > как мы видели в §25, является полной достаточной статистикой (см. теорему 24.4). Оценка м.п. (х, — /(х» — х) ) отличается от 0* лишь множителем η — 1 при второй координате, что делает ее смещенной. Для выбранной η оценки Θ* специальное экспоненциальное представление (15) функции fe(X) реализовываться не будет, так как = (2.) п/2ехр|_,Г___^__(,Г) ____η1ησ|. Это значит, что нижняя граница в многомерном неравенстве Рао-Крамера достигаться не будет. Наименьший эллипсоид рассеивания, определяемый по теореме 1А матрицей 1(0) (или /_1(#)), будет достигаться лишь асимптотически при η —> —> оо, так что оценка 0*, не являясь Д-эффективной, будет а. /2-э. оценкой. Убедимся в этом непосредственно. Вычислим сначала матрицу 1(0). Имеем ;' t„ m (х~а) // {tr й\ (χ -α)2 !
§ 26- Неравенство Раю-Крамера и R-эффективные оценки 199 (напомним, что 1'2 есть производная по σ2, а не по σ; ср. с примером 3). Поэтому Ιηψ) - Έ,θ -ι -ζ, Ι12(Θ)=Ι21(Θ) = ΕΘ 1 (χι — α)3 χι — α 2σ6 2σ4 1 0, Ы0) = ^Е,[(х1-а)2-а2]2 = ^. Отсюда находим (пЩГ1 = η 0 0 2σΑ η J (22) Вычислим теперь для сравнения матрицу вторых центральных моментов оценки Θ*. Имеем Ее(^-0!)2 = Ее(х-а)2 = ^, Ε,(^-^2)2 = Ε(?(502-σ2)2= 2σ4 n-V Εθ{θ*ι-θ1)(θ*2-θ2)=0. Последние два равенства устанавливаются непосредственным подсчетом Рассмотрим, например, второе из них. Нам достаточно убедиться, что Efl(x-a)5g = 0. (23) Но 5ο = ^[Σ(χ*-")2-(χ--«)2], <*" °rt = ^Ьт) [Σ<* - °>] [Σ<* - «)2] - ет (χ ~ «)3· Поскольку Εβ(χ - a)3 = Εθ{χ{ - a)3 - Εθ{χ{ - α) (χ, - a)2 = 0, то (23) доказано. Таким образом, матрица вторых моментов Θ* — θ равна * о η о ^ п-1. Ясно, что различие между этой матрицей и матрицей (п/(0))-1 может быть существенным лишь при небольших значениях п.
200 Гл. 2. Теория оценивания неизвестных параметров 4. Некоторые выводы. В заключение этого параграфа подведем некоторые итоги исследований, проведенных в последних шести параграфах. Главная их цель состояла в отыскании способов построения оптимальных (в том или ином смысле) оценок и установлении нижних границ для их среднеквадратичных уклонений. В результате можно указать следующие четыре основные направления, по которым можно идти в поисках наилучших оценок. 1. Построение байесовских (если есть априорная информация о Θ) и минимаксных оценок. 2. Отыскание полных (или минимальных) достаточных статистик S. Тогда оценка θ§ = Ε^(θ*/5) будет эффективной в том классе К\>, которому принадлежат Θ*. 3. Использование о. м. п. в тех случаях, когда выполнен критерий (3) теоремы 1 (или критерий (15) теоремы 1А). При этом также получим эффективные (и даже Д-эффективные) оценки в классах с фиксированным смещением. 4. Количественный подход, основанный на сравнении среднеквадратичного уклонения Έβ(θ* — θ)2 оценки 0*, которую хотим использовать, с нижней границей Д, определяемой неравенством Рао-Крамера. Если отношение Eq(0* — θ)2/R будет близко к единице, то оценка Θ* может быть рекомендована к использованию. На этом пути мы получим в дальнейшем весьма общие результаты, связанные с построением асимптотически эффективных, асимптотически байесовских и асимптотически минимаксных оценок. Сделаем также следующее замечание. Во всех отмеченных выше направлениях существенную роль играет форма зависимости распределения выборки Р# от оцениваемого параметра Θ. На практике, однако, нередко возникают задачи оценки не самого 0, а некоторой функции от него φ{θ). При этом нетрудно видеть (см. пример со схемой Бернулли в (18.4), (18.5)), что оценка φ* = φ{θ*) далеко не всегда будет обладать теми же свойствами, которыми обладала оценка Θ* (несмещенность, эффективность и т.д. Сохранятся лишь свойства асимптотической эффективности, если φ — гладкая функция). С этой точки зрения представляется естественным с самого начала рассматривать задачу оценивания функций φ(θ) от исходного параметра Θ. Мы отказались от такого подхода, так как на этом пути многие основные результаты, полученные нами, существенно усложнились бы. С другой стороны, если φ осуществляет взаимно однозначное отображение, то задача об оценке φ(θ) сводится к задаче, рассматриваемой нами путем «перепараметризации», т.е. введения нового параметра η = φ{θ), которому будет соответствовать семейство распределений G7 = Ρ^,-ι^. § 27.* Свойства информации Фишера Мы уже видели и будем убеждаться в дальнейшем, что информация Фишера играет важную роль в математической статистике. В связи с этим выясним некоторые ее полезные свойства. 1. Одномерный случай. Информация Фишера Щ = Ι^^-μ(άχ) = Ев(1'(хи0))2
§27 Свойства информации Фишера 201 появилась в рассмотрениях § 16, 26. Величину Ιχ(θ) = Εθ[Σ'(Χ,θ)}'2 принято рассматривать как меру количества информации, содержащейся в выборке X относительно параметра Θ. В теореме 26.1 мы доказали аддитивность информации: Iх(θ) = ηΙ{θ), т.е. что Iх(Θ) равна сумме информации /Xt(0) = Έθ[1'{χι,Θ)}2 = Ι(θ), содержащихся в независимых наблюдениях χ χ,..., χη. Докажем еще одно свойство информации Фишера. Пусть S = S(X) есть некоторая статистика со значениями в R1 и ge(s) есть плотность ее распределения, индуцированного распределением Ρ в в (A*n,93^) относительно некоторой меры λ в (Кг, 05'). В соответствии с предыдущими обозначениями величину /s(0) = E*[(log5*(S))']2 будем называть информацией, содержащейся в статистике S относительно параметра Θ. Отметим, что значение Is(Θ) не зависит от выбора меры λ. Действительно, пусть λ — какая-нибудь другая мера и ν = λ + λ. Тогда λ и λ абсолютно непрерывны относительно и, а плотность g^(s) распределения S относительно меры ν равна ~ m dX dX где qq — плотность относительно А. Так как — и — от θ не зависят, то dv dv производные от логарифмов всех трех выражений будут совпадать. Теорема 1. Пусть плотности f${x) и ge{s) удовлетворяют условиям (R). Тогда Ι3(θ)ζΙχ(θ). (1) Равенство здесь достигается тогда и только тогда, когда S есть достаточная статистика. Доказательство. Для любого В Ε 93* обозначим через 5-1 (В) Ε 93д> множество χ (Ξ Xй, для которых S(x) Ε В. Тогда по определению у.м. о. / L'(x,9)Pe{dx) = ΕΘ[Σ'(Χ,Θ); Χ Ε S~l(B)] = S'1(B) = Ee[Ee(L'(X,e)/S); S Ε В]. (2) С другой стороны, J Σ'(χ,θ)Έ>θ(άχ) = ^ J Μχ)μη(άχ) = ^ Jge(s)X(ds) = s-^B) s-цв) в = I ^ge(s)X(ds) = E,[(logff6(5))'; S € B]. (3) в
202 Гл. 2. Теория оценивания неизвестных параметров Сравнивая (2) и (3), видим, что п. в. [Pq] E<,(L'(X,9)/S) = (\ogge(S))'. (4) Далее, имеем 0 < E9[L'(X,9) - (\ogge(S))'}2 = Ιχ(θ) + Is(9) - 2EeL'(Χ, 9) (log ge(S))', где в силу (4) EeL'(X,9)(logge(S))' = = Ee[(]ogge(S))'Ee(L'(X,e)/S)] = Ee[(log^(5))']2 = Is(9). Это доказывает неравенство (1). Пусть теперь S — достаточная статистика для Θ. Тогда fe(X)=iP(S,9)h(X). (5) Возьмем в качестве А меру А(В) = Ι Η{χ)μη{άχ). s-нв) Тогда, как показано в лемме 25.1, распределение S будет абсолютно непрерывно относительно λ и будет иметь плотность go(s), равную ge(s) = φ(β, 0). Отсюда в силу (5) получаем Iх (Θ) = ΕΘ[Σ'(Χ,Θ)}2 = E9[(log^(S,9))'}2 = Is(9). Покажем теперь, что из равенств Iх (Θ) = Is(Θ) при всех θ следует, что S — достаточная статистика. Действительно, Iх(Θ) есть дисперсия L'(X, 0), так что Iх(9) = E9[L'(X,9) - Ee(L'(X,9)/S)}2 + Ee[Ee(L'(X,9)/S)}2. (6) Но в силу (4) последнее слагаемое равно Ee[(\ogge(S)y\2 = Is(9). TaKnaKlx(9) = Is(9), то в (6) п. в. [Pq] при всех θ L,(X,e)-Ee{L'(X,e)/S)=0. То есть L'(X,9) измерима относительно σ(5) и, стало быть, существует измеримая функция </?(5. Θ) такая, что L'(X, 9) = tp(S,9), L(X, θ) = Ф(5, θ) + /ц (Χ), Л(Х) = ехр[Ф(5,е) + /ц(Х)]. < Мы уже отмечали, что достаточные статистики являются тем единственным типом статистик, которые сокращают выборочные данные без потери информации о параметре Θ. Теорема 1 придает этому утверждению точный смысл применительно к информации Фишера.
§ 27. Свойства информации Фишера 203 Пример 1. Пусть X ^ Вр. Здесь где χ равно нулю или единице, fp{x) есть плотность относительно считающей меры. Поэтому χ 1 — χ 1(х,р) = χ In p + (1 - х) In (1 - ρ), 1'{χ,ρ) = - - , ρ 1-ρ Таким образом, информация одного наблюдения в схеме Бернулли равна (р(1 — р))-1 и достигает своего наименьшего значения при ρ = 1/2. Информация всей выборки равна п/(р(1 — р)). Обозначим теперь через ν число «успехов» в выборке X (число единичных исходов) и найдем информацию этого наблюдения. Плотности (опять относительно считающей меры) для ν будут равны 9Р{х) = Схпрх{1-р)п-х, х = 0,1,...,п, так что \oggp(x) = χ logp + (η - χ) log (1 - ρ) + log Cx, r{p) = Ep[0oggp{u))f = г-х(х-пр)2 = Σθχ(ΐ -рГ~х (f - γτ|У = Σ^ρχ(ι -Ρ)η" χ=0 ^^ Ρ' χ=0 (ρ(ι-ρ)) 1 т-ч П rDi/ (ρ(1-ρ))2 Ρ(1-Ρ)' Это равенство полностью согласуется с теоремой 1. Мы предлагаем читателю найти в виде упражнений информации наблюдений для выборок из распределений, зависящих от одномерного параметра и приведенных в § 12. 2. Многомерный случай. Пусть теперь θ £ Rfc, к > 1. В этом случае будем иметь дело с информационной матрицей Фишера наблюдения χχ Ι(θ) = ||Jy(0)||, 1ц{9) = Еощ^в^Цхив), где предполагается, конечно, что функция fe{x) дифференцируема. Если положить φ{χ,θ) = (φι(χ,θ),...,φ^χ,θ)) = о( /Γμυ * fdfe{x) dfe{xA =2(х/Ш)=7Ш1^Г'-'"^г)'
204 Гл. 2. Теория оценивания неизвестных параметров то матрицу Ι(θ) можно записать также в виде 1(0) = J φΤ{χ,θ)φ{χ,θ)μ{άχ). Χ Мы уже установили в §26, что, как и в одномерном случае, информация Фишера аддитивна, т.е. информационная матрица Фишера выборки X равна сумме информационных матриц отдельных наблюдений. Если обозначить то Iх {θ) =ηΙ{θ). Теорема 1 также сохраняется полностью. Пусть ge{s) — плотность некоторой статистики 5 = S(X) со значениями в R1 относительно некоторой меры λ. Положим Ι8(θ) = ||jg(0)||, ф) =Ee^.\ogge(S)-^-loggg(S). Это есть информационная матрица наблюдения 5. Теорема 1А. Если плотности fe{x) и ge{s) удовлетворяют условиям (R) §26, то Ι3(θ)ζΙχ(θ), (7) т.е. матрица Iх (Θ) — 1(9) является неотрицательно определенной. Равенство в (7) имеет место тогда и только тогда, когда S — достаточная статистика. Доказательство этой теоремы вполне аналогично доказательству теоремы 1, и для сокращения текста мы его опускаем. Это доказательство можно найти, например, в [48, 49]. Пример 2. В §26 мы уже вычисляли информационную матрицу для нормального распределения. Вычислим теперь информационную матрицу для двупараметрического семейства распределений И^)· Μχ) = -/ где θ = (α, σ), / — заданная дифференцируемая функция, для которой существуют интегралы U = fxi{-^fdx = Ε(0ι1)χί(ί'(χι))2, i = 0,1,2. Здесь l(x) = log/(x), штрих означает обычное дифференцирование, параметры а и σ суть параметры сдвига и масштаба распределения с плотностью /(х). Таким образом, нам известен вид распределения, но лишь с точностью до линейного преобразования аргумента. Параметры а и σ нормального
§27. Свойства информации Фишера 205 распределения Фа5(Т2, очевидно, являются параметрами сдвига и масштаба. Параметр α Г-распределения при фиксированном А является параметром масштаба, как и параметр θ в распределении Uq,0. Имеем /о™ /у 1{χ,θ) = hgfe(x) = -loga + Z Θ1{χ,θ) da \(χ,θ) __ 1 (ж - α) . /д; — сЛ да σ σ2 \ σ ) Отсюда находим 1 Ιη(θ) = -ζΕ$ ■г/х^а\12_ 1 r[f{X σ)\ . V ο )\ σ2 J ^Jx-a\ 12 ;— dx = —tzIq, Ι12(θ) = \ΈΘ1> ( Xl ° σ* 1 + ίυΐ^^χι-α _ 1 г Τ^1 σΑ /22 W σ* ΓΕ0 l + ^LZ^r^1-" = £fc " 1], так как /χ ~~ ol /χ — cx\ dx Γ /' ί J — = -2 / f{x) dx = -2. Таким образом, г/m _ 1 К0 х σ^ ||ii i2 — J- Если / — симметричная функция, то, очевидно, 1\ = 0. Вырождение матрицы Ι(θ) означает, что ее определитель обращается в нуль или, что то же, [Eio.Di'ixOCl+xi/'ixO^^E^a'ixO^o.DCl + Xi/'ix!))2. Это возможно лишь в случае, когда либо l + xV(x) = cl'(x) при каком-нибудь с, либо 1'{х) = 0. Из первого равенства следует, что eCl 1{х) = — In (ж — с) + ci, /(χ) = . χ — с Ясно, что такая функция f{x) не может быть плотностью распределения. Аналогично рассматривается возможность 1'{х) = 0. Стало быть, Ι(θ) положительно определена.
206 Гл. 2. Теория оценивания неизвестных параметров В частности, для нормального семейства [Φα>σ2] при θ = (α, σ) w - ? 1 0 0 2 так как в этом случае 1(х) = —х2/2 — 1η\/2π, V{x) = —я, /о = Е^пх? = 1, h = Ε(ο,ΐ)χι = ^ ^2 = E(0ji)Xi = 3. Тот же самый результат мы могли бы получить с помощью примера 26.4, используя п. 3 этого параграфа, где выяснено поведение информационной матрицы при замене параметра (в примере 26.4 θ = (α, σ2), а не (α, σ)). Предлагаем читателю убедиться теперь, что в соответствии с теоремой 1А статистика f x, \_\ xi) имеет информационную матрицу ЛЧ = £ 1 0 0 2 = ηΙ{θ). 3. Матрица Фишера и замена параметра. Рассмотрим вопрос о том, как ведет себя информационная матрица при замене параметра. Положим θ = = υ (β), β Ε R*, где υ — дифференцируемая вектор-функция, и рассмотрим параметрическое семейство Р*' = Ρυ(β)- Чтобы найти информационную матрицу J (β) для этого семейства, мы должны найти производные к Я-1ЫМР)) = Еж*(*ь«(0)п^. (8) щ Если обозначить V = i=l двг dPj dVitf) δβ< , г, j = 1,..., fc, то мы получим, что вектор производных в (8) Ιβ(χι,υ(β)) представим в виде Ι'θ(χι,υ(β))ν, так что JC9) = E/J(^(x1>t;(/9))V)T(Zi(xi>«G9))V) = FT/(«(/3))K В частности, если θ = /ЗС, С = ||с^||, г, j = 1,..., А:, то V = Ст и m = с/(^)ст. (9) Отметим, что если мы рассмотрим в параметрическом пространстве эллипсоид (Θ - ΘΧ)Ι{Θ){Θ - 0:)Τ < с, (10) то запись (10) этого множества инвариантна относительно линейного обратимого преобразования С над параметром Θ. Именно, если положим θ = /ЗС, то в новых переменных множество (10) будет иметь вид (/3-A)j(/3)(/3-A)T<c где βι = в\С~1. Это немедленно получится, если подставить θ = βΟ в (10) и воспользоваться (9).
§ 28. Оценки параметра сдвига и масштаба 207 § 28·* Оценки параметра сдвига и масштаба. Эффективные эквивариантные оценки Мы видели в § 22-26 и будем убеждаться в дальнейшем, насколько полезным является понятие достаточной статистики вообще и при построении эффективных оценок в частности. Круг идей, связанный с использованием достаточных статистик, можно было бы назвать принципом достаточности. Принцип достаточности мы сочетали при построении эффективных оценок с другим — принципом несмещенности. Он состоит в выделении классов оценок с фиксированным и, в частности, с нулевым смещением. Без фиксации смещения выделение эффективных оценок было бы невозможно. В этом и следующем параграфах (а также в главе 3) мы рассмотрим еще один важный принцип математической статистики — принцип инвариантности. Смысл введения всех названных принципов один и тот же — они позволяют естественным образом сужать класс рассматриваемых оценок так, что в полученных сужениях оказывается возможным отыскание эффективных оценок. 1. Оценки параметра сдвига и масштаба. Задачей об оценке параметра сдвига называется задача оценки параметра α в семействе распределений {Ра}, обладающих свойством Ρα(Α) = Ρ(Λ-α). Здесь Ρ — некоторое фиксированное распределение, А—а = {х : х+а Ε А}, и предполагается, что параметрическое множество Θ имеет ту же природу, что и X. В случае X = Rm можно, конечно, рассматривать сдвиги θ и «меньшей размерности», например скалярные, но тогда надо фиксировать направление (вектор е € X) сдвига и рассматривать Ра{А) = Р(А — ае). Будем рассматривать для определенности лишь первую возможность и считать, что Θ = X = Шт. Заметим, что Ра-распределение х; 4- с (с Ε Шт) совпадает с распределением Ра+с величины χ,, т.е. сдвиг всех наблюдений на с приводит к выборке из распределения PQ+C. Это делает естественным рассматривать лишь те оценки а* = а*(Х) параметра а, которые обладают свойством а*(Х + с)=а*(Х)+с. (1) Здесь и в дальнейшем X + с означает вектор с координатами (χχ + с,... .. .,хп + с). Нарушение этого равенства означало бы, что оценка а* зависит от начала отсчета, т. е. от выбора начала координат в пространстве X = Шт. Аналогичный подход возникает при оценке параметра масштаба, когда оценивается параметр σ в семействе {Ρσ} со свойством Ρσ{Α) = Ρ(Α/σ), σ (Ξ (0, οο). Мы считаем здесь σ скалярным, хотя можно рассматривать и матричный случай. В этом случае Ρσ-распределение значений Х{С совпадает с распределением Рас величин х$, т.е. умножение наблюдений на с приводит к выборке из Р<7С. Стало быть, в этом случае естественно ограничиться рассмотрением оценок, обладающих свойством а*{Хс) =са*{Х), (2) где Хс = (xic,.. .,хпс), поскольку при изменении в с раз масштаба наблюдений во столько же раз меняется и параметр.
208 Гл. 2. Теория оценивания неизвестных параметров Следующие утверждения читатель может легко получить самостоятельно. Если семейство Р# удовлетворяет условию (Αμ), то параметр θ будет параметром сдвига (масштаба) тогда и только тогда, когда Л(*) = /(*-*) (/·(*) = J/(f))· Если X — R = Θ, I § PQ и α есть параметр сдвига, то Υ = ех = = (еХ1,.. .,eXn) €= Q<7, где для распределений Qa параметр σ — еа есть параметр масштаба. Это сразу следует из того, что плотность у ι = eXl равна (см. [17, §3.2]) i/(b»-a)-if2/(l«S)l. у σ [у \ σ/\ Наоборот, если X = (Ο,οο) = Θ, Χ €= Ρσ и σ есть параметр масштаба, то Υ = ΙηΧ = (lnxi,.. .,lnxn) ^ Qa, где a = Ιησ есть параметр сдвига распределений Qa. Таким образом, задачи оценивания параметров сдвига и масштаба могут быть сведены одна к другой. Можно рассматривать задачу и об одновременной оценке неизвестных параметров α и σ в случае, когда Va^(A) = Ρ Ι j . В этих условиях в качестве оценки σ естественно рассматривать функции, обладающие свойством а*(Х + с) = а*рГ), а*(Хс) - са*(Х). (3) Оценки, удовлетворяющие в рассмотренных примерах условиям (1)-(3), называются эквивариантными (общее определение см. в §29). Смысл введения таких оценок состоит в сужении класса всех рассматриваемых оценок, что упрощает задачу поиска оптимальных оценок. Так, в § 18 нами было установлено, что найти равномерно (т. е. при всех Θ) наилучшие оценки в классе всех оценок невозможно. Оказывается, что в классе эквивариантных оценок такие равномерно наилучшие оценки уже существуют и могут быть в ряде случаев найдены в явном виде. На примере оценок параметров сдвига и масштаба мы этот факт и проиллюстрируем. 2. Эффективная оценка параметра сдвига в классе эквивариантных оценок. Будем предполагать здесь, что выполнено условие (Αμ) и, стало быть, /а(я) = /(# — <*) и что μ есть мера Лебега. Обозначим через So статистику So = So{X) = (X2 -Xi,...,Xn -Xl), очевидно, инвариантную относительно сдвига: Sq(X + c) = Sq(X). Через К ε обозначим класс всех эквивариантных оценок а*, т.е. оценок, удовлетворяющих (1), и через |а|2 — квадрат евклидовой нормы a £ Km.
§ 28. Оценки параметра сдвига и масштаба 209 Теорема 1. Пусть а* = а*(Х) — любая эквивариантная оценка с конечным значением Е0а*. Тогда оценка a*0 = a*-E0(a*/S0) (4) от выбора а* не зависит и является единственной эффективной в Ке оценкой, т. е. Εα|αί — а| = min EJa* - а\2 при всех а и Еа|а* — а|2 = 1 ' а*екЕ = Еа|«о — а| , если только Ео(а*/5о) = 0 п. е. Оценка οβ может быть представлена в форме , fufu{X)du = JufjX -u)du а° Jfu(X)du Jf(X-u)du' [0) Оценка aj называется оценкой Питмена. Из (4) нетрудно видеть, что она является эквивариантной и несмещенной. Эквивариантность следует из эквивариантности а* и инвариантности относительно сдвига функции V(Sq) = Eo(a*/5o), зависящей только от Sq. Несмещенность вытекает из равенств Eaa*Q =a + Eaa*{X -a)- EQF(50), (6) где EaV(So) = E0F(5o), Eaa*(X - a) = Е0а*(Х). Последнее соотношение вытекает из того, что X — а €= Ро, если X €= PQ. Поэтому сумма двух последних слагаемых в (6) равна Е0а* - Ео[Ео(а*/5о)] = 0, EaaJ = а. Доказательству теоремы предпошлем следующее вспомогательное утверждение. Лемма 1. Пусть X ^ Ро- Для любой статистики S = S(X) с конечным математическим ожиданием Ео|5| < оо у.м.о. S относительно So равно ■*/ад-»сх)-"ЭДЙ?*·· Доказательство. Все функции под знаками интегралов в (7) есть функции от X — и. Стало быть, после замены х\ — и = ν они будут функциями от (г>, Х2 — χι + г>,..., хп — χ ι + г;). Это означает, что правая часть (7) зависит лишь от SO· В силу свойств у. м. о. нам для доказательства леммы достаточно убедиться, что для любого А Е <t(5q) Ео(51;Л)=Е0(5;Л). (8)
210 Гл. 2. Теория оценивания неизвестных параметров Пусть Ζ = Z(So) — любая ограниченная а(5о)-измеримая статистика, тогда Z{S0)fS(x-u)fu(x)du EoZSi= / ° . . , f(x)dx = J I fu(x) du // f fu(x)du xn θ Z(SQ)S(x-u)f(x~u)f(x) άχ ^ f f(x — v)dv θ xn θ После замены χ — u —> χ во внутреннем интеграле получим (So(я) ПРИ этом перейдет в себя) Г [ Z^o)S(X)f(x)Hx + u) άχάη = Γ z{So)S{x)f{x) dx = EoZS_ J J J f{x + u-v)dv J Θ Χη 0 Xn Это доказывает (8). Изменение порядка интегрирования, которое мы дважды производили, законно в силу абсолютной интегрируемости S и ограниченности Z. < Доказательство теоремы 1. Заметим прежде всего, что для экви- вариантной оценки Εα|α* — α|2 не зависит от а. Действительно, Εα\α*(Χ) - а|2 = EQ\a*(X - a)\2 = Ε0|α*(Χ)|2. Таким образом, для отыскания равномерно оптимальной эквивариантной оценки надо найти оценку а*, минимизирующую Ео|а*|2. Пусть а* — любая эквивариантная оценка а. В силу свойств у.м.о. Е0|а*|2 = Е0|а*-Ео(а75о)|2+Е0|Ео(а75о)|2 >Ео|а*-Е0(а75о)|2. (9) Остается заметить, что в силу леммы 1 оценка aj = a* — Eo(a*/5o) равна (5) и от выбора а* не зависит. Равенство в (9), очевидно, возможно тогда и только тогда, когда Ео(а*/5о) -Оп.в. < Из доказательства теоремы видно, что особую роль в построении оптимальной эквивариантной оценки играет статистика SO = (хг — χι,... . ..,χη — χι), инвариантная относительно преобразования сдвига. Инвариантность статистики есть качество, в известном смысле противоположное достаточности, а конструкция оценки 0q = θ* — Eo(0*/So) на основе произвольной оценки 0* представляет собой подход к улучшению оценки 0*, также в некотором смысле противоположный подходу, при котором для улучшения оценки θ* с помощью достаточной статистики S рассматривалась оценка 0£ = Έο(θ*/S). Противоположность состоит в следующем. Достаточная статистика содержит в себе всю информацию о параметре Θ; инвариантная статистика — никакой. В поисках наилучших оценок мы искали минимальные достаточные статистики; Здесь, как мы увидим, нам нужны максимальные инвариантные статистики (таковой является статистика So). Оценка θ$ есть
§ 28. Оценки параметра сдвига и масштаба 211 П < -\2 2(а-х). «проекция» Θ* на S, в то время как оценка θ$ получается вычитанием из Θ* ее «проекции» на 5Ό· В конечном счете результаты, полученные этими двумя путями, часто совпадают, как это будет видно из следующих двух примеров. Пример 1. Пусть X = R, X е Фад. Тогда Здесь второй множитель как функция α есть функция плотности нормального закона с параметрами (х, 1/п). Так как первый множитель от α не зависит, то он сократится в (5), и оценка Питмена будет равна а* = х. Таким же будет результат в многомерном случае. Пример 2. Пусть X = Μ, Χ €= \3ο,\+θ- Тогда f (χ) = J1 при Х(п)~1 ^ θ ^ Х(1)' \θ в остальных случаях. Поэтому в силу (5) Χ(ΐ) Л* Г udu 1, , ч |_ У ■w-^ti-i'1"'^-"· X(n)-i Мы видим, таким образом, что в классе ЯГ# эквивариантных оценок можно в явном виде строить эффективные оценки, при этом не требуется никаких условий на гладкость /#(£)> и сама эффективность носит точный (не асимптотический) характер. 3. Минимаксность оценки Питмена. Обратим теперь внимание на форму оценки Питмена. Грубо говоря, это есть байесовская оценка для «равномерного на всей оси» априорного распределения. Так как указанного распределения не существует, то мы сформулируем высказанное утверждение более точно. Пусть X = К и Q(^) есть равномерное распределение на [-ЛГ, ЛГ], т. е. распределение с плотностью q [t) ~ \о, |<| > ν. Байесовская оценка, соответствующая Q^N\ будет равна N /*гч Г ufu{X)du aQ<N) JqW{u)fu{X)du " y.. ' J fu(X)du -Ν
212 Гл. 2. Теория оценивания неизвестных параметров Очевидно, что для всех X оценка Питмена aj есть предел aj = = lim a%(N)- Это обстоятельство наводит на мысль, что одновременно бу- дут сходиться и моменты второго порядка: Ea iaQ(N) ~ a)2 -> EQ (aS - a)2 · Оказывается, что в области ]a\ ^ N — y/N это так и есть, причем сходимость будет равномерной по α в указанном интервале значений а. (Доказательство связано с оценкой Ea(aQ —a* (7V))2, носит в основном технический характер, и мы его опускаем.) Но в таком случае мы можем воспользоваться критерием минимаксности оценок в теореме 21.3: если оценка а* такова, что при всех а Еа(а* - а)2 < limsup [Et(a*iN) - t)2Q^{dt) (10) ЛГ-юо J W для некоторой последовательности априорных распределений Q^ (не обязательно равномерных) и соответствующих им байесовских оценок a* (7V), то а* — минимаксная оценка. В нашем случае т = Ea(ag — α) от α не зависит. Поэтому в силу отмеченных выше свойств сходимости вторых моментов limsup [Et(a*Q(N)--t)2QW(dt) > > limsup—- / Et(a*(N) - t)2 dt ^ \t\<N-y/N ^ limsup—-2(N - y/N)(m - ε) = m - ε ДГ-К50 2iV при любом ε > 0. Это означает, что свойство (10) выполнено. Таким образом, оценка Питмена является минимаксной в классе всех оценок параметра сдвига (то, что она минимаксна в классе инвариантных оценок, очевидно, следует из эффективности). Сказанное можно интерпретировать также следующим образом: «наихудшим» априорным распределением (см. §21) для параметра сдвига является «равномерное на всей оси» распределение. Указанием на минимаксность оценки Питмена могла бы служить также отмеченная выше независимость Ea(ag — а) от α (ср. с теоремой 21.2). 4. Об оптимальных оценках параметра масштаба. Как мы уже отмечали, проблема оценки параметра масштаба σ может быть сведена в известном смысле к проблеме оценки параметра сдвига. Пусть для простоты Χ = (Ο,οο) = Θ. Тогда если X g= Ρσ, Ρσ{Α) = Ρ(Α/σ), το Υ = Ια Χ = = (Ιηχι,..., 1ηχη) ёРц , где α = 1ησ, а распределение Р^ имеет плотность
§ 28. Оценки параметра сдвига и масштаба 213 величины у! = 1ηχι в точке у (условие (Αβ) выполнено, —-—- = /(#)), (JLLL равную (см. [17, §3.2]) fW(y) = f(ey)ey. Таким образом, мы можем оценить наилучшим образом параметр α с помощью оценки Питмена а* = а*(У), а затем положить σ*(Χ) = ea*(Y\ Нетрудно видеть, что σ*(Χ) будет эквивариантной, так как a*{cX) = ea*(y+lnc> = eQ*(y)+lnc = ca*{X). Однако здесь важно отметить, что оценка Питмена минимизирует Εα(α* — α)2. Стало быть, полученная оценка σ* будет минимизировать К)2· E^ln-J , (11) а не величину Εσ(σ* — σ)2, с которой мы обычно имели дело. Но в задаче об эквивариантной оценке параметра σ и неразумно было рассматривать среднеквадратичную погрешность, поскольку она, в отличие от (11), зависит от преобразования сжатия, примененного одновременно к σ* и σ. Аналогом инвариантной статистики So здесь будет статистика (хг/хь- ..,χη/χι). Наряду с (11) возможно, конечно, рассмотрение и других погрешностей. Если, например, мы будем минимизировать величину наилучшей эквивариантной оценкой будет fa-^nX/a)d* fa-»-*f{X/a)da [ } (см. [112, с. 191]). Пример 3. Обнаружение источника излучения. Приведем пример реальной физической задачи, которая связана с оценками параметров сдвига и масштаба. Предположим, что в некоторой неизвестной точке ζ трехмерного пространства находится источник 7~излучения. Задача состоит в том, чтобы, используя плоский детектор (пусть он совпадает с одной из координатных плоскостей) и фиксируя на нем следы излучения, т. е. следы взаимодействия 7-квантов, испускаемых точкой ζ, с чувствительной поверхностью детектора, определить координаты точки ζ.
214 Гл. 2. Теория оценивания неизвестных параметров Эта задача намного упростилась бы, если бы мы имели источник излучения заряженных частиц высокой энергии. Тогда можно было бы поставить один за другим два параллельных плоских детектора и фиксировать на них точки прохождения, т.е. взаимодействия с поверхностью экрана, всего лишь двух частиц. Это дало бы нам направления полета этих частиц и вместе с ними координаты точки ζ как точки пересечения этих направлений. Однако для слабого 7-излучения, используемого в рентгеноскопии, это неосуществимо, и возможно введение лишь одного детектора. Направление, в котором распространяются излучаемые 7-ΚΒ<ίΗΤΜ, случайно и имеет равномерное распределение на поверхности сферы (если направление определять точкой на сфере с центром в точке ζ). Чтобы упростить задачу, рассмотрим ее двумерный вариант. Пусть источник находится на плоскости переменных (я, у) в неизвестной точке ζ — = (α, σ), σ > 0. Угол направления излучения, составленный с осью Оу имеет равномерное распределение на [0,2π]. Чувствительный детектор совпадает с осью абсцисс. Результатами наблюдений будут точки χι,Χ2,..., в которых было зафиксировано взаимодействие 7-квантов с детектором (осью абсцисс). Некоторое своеобразие этой задачи состоит в том, что объем η выборки, полученной за фиксированное время t будет случайным: число 7~квантов, испускаемых источником за время £, имеет распределение Пуассона, число 7-квантов, достигших детектора, также ζ = (α, σ) распределено по закону Пуассона, так как ч каждый квант достигает оси абсцисс с ве- β\ роятностью 1/2. Однако в нашем случае η \ и наблюдения χι,Χ2,... независимы. По- \ = этому мы можем рассматривать то число \ η наблюдений, которое получилось, и счи- \ тать его фиксированным (для каждого та- \ кого фиксированного η распределение хг \ ^ будет одним и тем же). α χ Итак, пусть даны наблюдения X = рис 2 — (хь ■ · ·? Хп)· Наша з