Author: Ллойд Э.   Ледерман У.  

Tags: математика   статистика  

ISBN: 5-279-00245-3

Year: 1989

Text
                    СПРАВОЧНИК
ПО ПРИКЛАДНОМ
СТАТИСТИКЕ

<
HANDBOOK OF APPLICABLE MATHEMATICS
Chief Editor: Walter Ledermann
Volume VI: Statistics
PART A
Edited by Emlyn Lloyd University of Lancaster
A Wiley-lntersclence Publication
JOHN WILEY & SONS
Ch ichester-New Yor k-Br isbane-Toronto-S i ng<
СПРАВОЧНИК ПО ПРИКЛАДНОЙ СТАТИСТИКЕ
Под редакцией Э. Ллойда, У. Ледермана
ТОМ 1
Перевод с английского под редакцией Ю.Н. Тюрина
(©
МОСКВА "ФИНАНСЫ И СТАТИСТИКА" 1989
ББК 16.2.9
С74
Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с С74 англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. —М.: Финансы и статистика, 1989.— 510 с.: ил.
ISBN 5-279-00245-3.
В Справочнике освещены основные математико-статистические методы.
Том 1 включает введение в статистику, вопросы, связанные с выборочным распределением, точечным и интервальным оцениванием, общую теорию статистических критериев, дисперсионный анализ, планирование эксперимента.
Для широкой аудитории специалистов, разрабатывающих и использующих статистические методы.
0702000000 —131
010(01)-89
109-89
ББК 16.2.9.
ISBN 5-279-00245-3 (Т. 1, рус.)
ISBN 5-279-00244-5
ISBN 0-471-90274-8 (англ.)
©1984 by John Wiley & Sons Ltd.
© Перевод на русский язык, предисловие, «Финансы и статистика», 1989
ПРЕДИСЛОВИЕ К РУССКОМУ ИЗДАНИЮ
Математизация знания, получившая техническую базу в виде широкого распространения все более совершенных ЭВМ, привела к тому, что математико-статистические методы вошли в жизнь почти каждого специалиста. В связи с этим возникла массовая потребность быстро получать необходимые оценки и расчеты, не углубляясь в вычислительные детали и математические доказательства.
Ведущие издательства мира выпускают в помощь специалистам, имеющим дело с математическим аппаратом, многотомные энциклопедии и различного рода справочники. Каждое такое издание имеет определенные особенности и свой круг читателей. Некоторые издания предназначены в первую очередь для математиков и для использования содержащегося в них материала «внутри математики». Такова, например, вышедшая в нашей стране «Математическая энциклопедия». Другие предназначены для математиков-консультантов, к которым обращаются специалисты других отраслей знания (профессия, лишь недавно ставшая распространенной). Третьи адресованы тем, кто, не считая себя математиком, применяет или хотел бы применять математические методы в своей работе.
В справочной литературе такого рода большое внимание уделяется математической статистике. Количество посвященных ей изданий довольно значительно. Отметим из них лишь 14-томный справочник по статистике «Handbook of Statistics» (Amsterdam: North Holland), шесть томов которого уже вышли в свет, и 9-томную энциклопедию статистических наук «Encyclopedia of Statistical Sciences» (New York: Wiley).
К сожалению, на русском языке аналогичных изданий пока нет. Этот пробел отчасти восполнят готовящаяся издательством «Советская энциклопедия» многотомная энциклопедия по теории вероятностей и математической статистике, а также предлагаемый читателю «Справочник по прикладной статистике» под редакцией Э. Ллойда и У. Ледермана. Он предназначен для широкого круга читателей. Это перевод одного из шести томов, вышедших в серии «Handbook of Applicable Mathematics» издательства Wiley. В состав серии входят также тома, посвященные алгебре (I), теории вероятностей (II), численным методам (III), математическому анализу (IV), геометрии и комбинаторике (V). Справочник по прикладной статистике представляет собой шестой том серии. В русском переводе, как и в оригинале, он выходит в двух томах.
Слово «Applicable» в названии серии употребляется вместо традиционного «Applied», что довольно непривычно. Оно подчеркивает, что речь идет о математике, имеющей приложения за ее пределами. Необычность названия указывает на сугубо практическую направленность излагаемого материала.
В наших программах обучения математике уделяется явно недостаточное внимание статистическому подходу к явлениям природы и общества. Давно назрела необходимость пересмотра этих программ. Владение основами математической статистики нужно каждому экономисту, социологу, инженеру и естествоиспытателю. Функциональные связи, которыми оперируют математики, иногда не проявляются в «чистом виде». Они всегда осложнены случайными погрешностями и обстоятельствами, роль которых нельзя адекватно учесть вне статистического мышления и без соответствующего аппарата. Для студентов же, которые по роду своей профессии будут иметь дело с массовыми явлениями, необходимы не столько математические, сколько математико-статистические знания. Будущие специалисты чаще всего не вспоминают об аналитической геометрии или правилах дифференцирования, но остро чувствуют недостаток статистических знаний. В подобных случаях настоящий Справочник будет служить им надежным руководством.
Среди отечественных работ по математической статистике нет изданий, предназначенных для «пользователя» и по широте охвата проблем сопоставимых со Справочником. Круг затронутых в нем тем включает основные понятия, относящиеся к генеральной совокупности, случайному выбору, распределениям и их параметрам, точечному и интервальному оцениванию, статистическим гипотезам и возможностям их проверки. Отдельно рассматриваются широко применяемые методы оценивания — метод наименьших квадратов, метод наибольшего правдоподобия. В Справочнике обсуждаются также наиболее важные с точки зрения приложений статистические методы и модели: дисперсионный анализ линейных моделей, анализ временных рядов, анализ таблиц сопряженности и т. п. Отдельные главы посвящены важным методическим направлениям (например, последовательному анализу, непараметрическим методам, планированию эксперимента), научным концепциям (байесовскому подходу к статистическому выводу), конкретным приемам (фильтр Калмана и т. п.). В каждой теме авторы выделяют наиболее важное и ограничиваются им.
Справочник содержит большой фактический материал. Он дает возможность познакомиться со многими идеями, методами и правилами математической статистики, обходя утомительные математические доказательства. Работа с ним не требует специальной предварительной подготовки. Достаточно скромных знаний по высшей математике, матричной алгебре и теории вероятностей. Необходим лишь интерес к математической статистике.
Главы Справочника можно читать независимо друг от друга. Неизбежные при принятом в нем способе изложения повторы невелики. Работа с книгой не требует от читателя ежеминутного напряжения, хотя это отнюдь не «легкое чтение».
По характеру изложения материала Справочник под редакцией Э. Ллойда и У. Ледермана близок к широко известным и пользующимся большой популярностью «Справочнику по математике для инженеров и учащихся втузов» И. Н. Бронштейна и К. А. Семендяева (М.: Наука, 1986) и «Справочнику по математике» Г. Корна, Т. Корн (М.: Наука, 1984).
В «Справочник по прикладной статистике» включены только вполне разработанные и устоявшиеся методы. Из-за этого ряд развивающихся направлений математической статистики оказался незатронутым, например устойчивые (робастные) статистические выводы, ранговый статистический анализ, нестандартные модели регрессии, разведочный анализ данных, целенаправленное проектирование и т. д.
Сведения по вопросам, не охваченным Справочником, можно найти в трех книгах М. Дж. Кендалла и А. Стьюарта «Теория распределений» (М.: Наука, 1966), «Статистические выводы и связи» (М.: Наука, 1973), «Многомерный статистический анализ и временные ряды» (М.: Наука, 1976), а также в трехтомной работе С. А. Айвазяна, И. С. Енюкова, Л. Д. Мешалкина, вышедшей в издательстве «Финансы и статистика» (Прикладная статистика: Основы моделирования и первичная обработка данных. 1983; Прикладная статистика: Исследование зависимостей. 1985; Прикладная статистика: Классификация и снижение размерности, 1988).
Дополнительный интерес для читателя представляет то обстоятельство, что настоящий Справочник отражает своеобразие английской школы математической статистики, основы которой заложили Ф. Гальтон, К. Пирсон, Р. Фишер. Этой школе свойственно меньше следовать в русле господствующих идей теории принятия решений, а больше полагаться на здравый смысл и вероятностную интуицию.
Остается сделать несколько технических пояснений.
Материал Справочника условно разделен на шесть категорий: 1) определения; 2) теоремы, предложения, леммы, следствия; 3) уравнения и другие строчные формулы; 4) примеры; 5) рисунки и графики; 6) таблицы. Внутри каждого раздела элементы одной категории нумеруются последовательно. «Адрес» каждой выделенной категории состоит из трех цифр: номера главы, номера раздела и номера элемента (внутри раздела). Например, в разделе 5 гл. 3 мы можем найти строчную формулу (3.5.7), но также и лемму 3.5.7, за которой может последовать теорема 3.5.8. Ссылки заключены в квадратные скобки и содержат сведения о категории. Так, например, могут встретиться указания [см. (3.4.5)], что означает обращение к формуле (3.4.5), и [см. теорему 2.4.6]. Ссылки на другие тома серии «Handbook of Applicable Mathematics» построены по тому же принципу и, кроме того, снабжены номером тома (римская цифра).
7
В конце каждой главы приведена дополнительная литература. Составители Справочника стремились ограничиться немногими книгами и статьями. К этому списку были добавлены некоторые работы на русском языке, в том числе имеющиеся переводы книг, указанных в Справочнике.
Математико-статистические методы используются в самых различных областях. В экономике, например, широко применяется регрессионный анализ; в социологии и медицине проводятся выборочные обследования; все шире внедряются статистический контроль качества продукции, анализ социально-экономических данных с помощью многомерных статистических методов, методы планирования экспериментов в науке и технике.
Специалисты многих отраслей народного хозяйства остро нуждаются в справочных руководствах по прикладной статистике. Поэтому можно надеяться, что настоящий Справочник окажег им существенную практическую помощь.
С. А. Айвазян, Ю. Н. Тюрин
Глава I
ВВЕДЕНИЕ В СТАТИСТИКУ
1.1.	СМЫСЛ ПОНЯТИЯ «СТАТИСТИКА»
В Оксфордском словаре английского языка приведено следующее разъяснение термина «статистика»: собранные и классифицированные числовые данные и сведения. Таким образом, можно говорить о статистике образования, финансовой статистике, статистике промышленности и т. д.
В том же словаре дается и другое разъяснение этого термина: в более старой трактовке статистика — один из разделов науки об управлении государством, сбор, классификация и обсуждение сведений о состоянии общества и государства. В настоящее время — наука, изучающая методы сбора и обраоотки фактов и данных, относящихся к человеческой деятельности и природным явлениям.
Итак, устаревшее определение, если его освободить от связи с государством, окажется не слишком отличающимся от современного толкования. Это «современное» определение удивительно старомодно, поскольку в нем не отражен ключевой аспект — интерпретация данных.
Определение, вполне приемлемое для большинства практических работников, можно сфбрмулировать, перефразировав приведенное в Оксфордском словаре: в настоящее время статистика — наука, изучающая методы сбора и интерпретации числовых данных. Здесь интерпретация данных рассматривается как существенный аспект.
Трудно дать краткое и в то же время исчерпывающее определение статистики — дисциплины с такой широкой и разнообразной областью приложения. Однако в первом приближении можно сказать, что главная цель статистики — получение осмысленных заключений из несет засованных (подверженных разбросу) данных.
* А вот определение из БСЭ. «Математическая статистика — раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. При этом статистическими данными называют сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками». (См.: БСЭ. — 3-е изд. — М.: Советская энциклопедия, 1974. — Т. 15. — С. 1428.) — Примеч. ред.
Действительно, исключая тривиальные ситуации, реальные данные всегда являются несогласованными, что требует применения статистических методов. Рассогласованность (разброс) между индивидуальными наблюдениями может быть, например, обусловлена ошибкой, как при считывании позиции указателя, когда он расположен между двумя делениями шкалы прибора. Изменчивость может быть также следствием флуктуаций во внешней среде, как, например, в случае мерцания звезд из-за флуктуаций в атмосфере, или следствием неравномерности работы электронного оборудования при передаче сообщений по радио или телеграфу. (В последнем случае для характеристики ситуации используется термин «шум».) Можно еще привести пример обследования части генеральной совокупности, индивидам которой присуща врожденная изменчивость измеряемой характеристики (например, рост двадцатилетних студентов мужского пола).
Чаще всего ситуация слишком сложна, чтобы ее можно было изучить на основе полного описания, отражающего все детали. Поэтому обычно применяется некоторая математическая модель явления. Она, по замыслу, должна воспроизводить его существенные черты и исключать те, которые предполагаются несущественными. Такая модель использует законы науки, приложимые к рассматриваемой ситуации, и обычно включает в себя детерминистские и стохастические (случайные) элементы. Последние в свою очередь представлены некоторой вероятностной моделью, необходимой для объяснения математической модели и проверки истинности того, что статистические выводы, строго говоря, применимы.
Пример 1.1.1. Молоко и вес детей. Рассмотрим, влияет ли регулярное потребление молока на физическое развитие школьников. Прежде чем попытаться получить ответ, мы должны решить, какое количество молока (полпинты в день?) должно быть взято, за какой период (год?), какого возраста дети (9^,-10 у лет?) и какой аспект
(или аспекты) их физического развития должен быть измерен (их вес?). Простой метод взвешивания детей до и после периода регулярного потребления молока непригоден, так как при этом невозможно отделить приращение веса, обусловленное потреблением молока, от того, которое произошло независимо от его потребления. Чтобы выявить эти составляющие, необходимо сравнить группу детей, находящихся на молочной диете, с контрольной группой детей с обычным режимом питания (который должен быть определен). Для отнесения детей к группе с молочной диетой и к контрольной группе можно было бы применить какой-либо из методов, предполагающих процедуры рандомизации, что позволило бы рассматривать индивидуальные изменения веса как реализации независимых случайных величин [см. II, определение 4.4.1]. В первом приближении, но с достаточной точностью эти изменения веса могли бы рассматриваться как нормально распределенные [см. II, раздел 11.4] со стандартным отклонением о и с математическим ожиданием для группы детей с обычным режи
10
мом питания и д2 для группы детей с молочной диетой. Здесь ци ц2 на — неизвестные параметры. Подходящие приближения для их значений, называемые «оценками», могли бы быть выведены из данных. Исходный вопрос «Ведет ли увеличенное потребление молока к возрастанию веса?» превращается в следующий: «Является ли различие между оценками gi и д2 значимым, т. е. достаточно ли оно велико, чтобы позволить нам учесть случайные эффекты и заключить, что g2 действительно больше, чем и если это так, то сколь значительно и насколько точно оценено различие?».
Это в принципе простой пример, но он иллюстрирует некоторые главные черты статистического вывода. Прежде всего сбор данных должен быть организован так, чтобы выполнялись требования теории вероятностей: обследование должно быть правильно спланировано, и выборочный метод должен соответствовать поставленной цели. Далее характеристики жизни детей, несущественные для исследования, необходимо исключить из рассмотрения. Тогда модель будет основана на упрощающем предположении, что при правильном планировании вариабельность может быть объяснена в терминах выбранного семейства распределений [см. II, гл. 4 и 11]. Выбор такого семейства (нормального в нашем примере) является результатом компромисса между сложностью реальности и простотой, необходимой для получения правильных количественных заключений с наименьшими вычислительными трудностями. Чтобы гарантировать истинность этого выбора, возможно, понадобятся дальнейшие исследования. В рассмотренном примере модель проста: наблюдениями является вес детей, а в качестве исследуемого эффекта взято различие между конечным и исходным весом. В хорошо разработанном эксперименте наблюдения могли бы быть выражены в виде более сложных функций переменных и/или параметров, предлагаемых или необходимых в данной области науки. Некоторые (или все) из этих переменных могли бы рассматриваться как подверженные случайному разбросу, что требует толковать их как случайные переменные. Могли бы быть подобраны подходящие семейства распределений и оценены соответствующие параметры. Затем, как и в вышеприведенном примере, следовала бы процедура, подтверждающая пригодность модели в целом.
Например, наблюдениями могло бы быть количество осадков, измеряемых в 20 соседних городах за каждый из 100 последовательных четвертьчасовых интервалов. Модель, основанная на радиометеорологии, могла бы связать осадки в данном месте как функцию времени с зарождением, ростом, распадом облачных масс. В качестве переменных тогда можно было бы использовать темп зарождения облачности (возможно, как двумерный пуассоновский процесс [см. II, раздел 20.1.7]) и параметры, описывающие форму облаков и скорость их роста и распада.
Пример 1.1.2. Эксперимент по определению смертельной дозы инсектицида. Другой пример, детально описанный в разделе 6.6, связан с оценкой смертности насекомых в зависимости от дозы применяе
11
мого инсектицида. Действие различных доз инсектицида измеряется числом насекомых, погибших после применения соответствующей дозы. При очень низкой дозировке насекомые не погибают, при очень высокой погибают все. В то же время при промежуточных дозах процент погибших насекомых, который подвержен экспериментальному разбросу и зависит от многих факторов, в среднем возрастает с увеличением дозы. Необходимо: а) подобрать правдоподобную параметрическую модель для описания «кривой роста» доли погибших насекомых в зависимости от дозировки; б) оценить параметры этой кривой и проверить, что результирующая кривая действительно является приемлемой моделью; в) получить значение дозировки, при которой погибает 50% насекомых (эта величина будет служить принятой мерой токсичности), вместе с оценкой ее надежности.
Приведенный пример показывает, что нам необходимы методы для получения хороших приближенных значений параметров («оценок»), характеризующих член выбранного семейства вероятностных распределений, а также методы для описания точности этих оценок. Оценка точности должна подсказать, являются ли различия в оценках параметров настолько значимыми, чтобы можно было говорить о различиях между действительными (неизвестными) значениями параметров. Она необходима также для того, чтобы проверить, дает ли избранное семейство распределений приемлемую модель для наблюдаемых данных. Таковы наиболее важные черты статистического вывода. Они детально описаны в последующих главах настоящего Справочника наряду с некоторыми другими подходами, основанными на них. Введение в статистический вывод содержится в работе [Barnett (1982), гл. 1].
1.2.	ВЫБОРОЧНОЕ РАСПРЕДЕЛЕНИЕ, СТАТИСТИКА, ОЦЕНКА
Как было отмечено в разделе 1.1, при статистическом подходе вопросы, относящиеся к реальному миру, превращаются в какой-то мере эквивалентные им вопросы о свойствах вероятностных распределений в принятой статистической модели. Так, влияние молока на вес детей обсуждалось в терминах значения параметра в (или набора параметров) вероятностного распределения, описывающего прирост веса отдельных детей. В исследование было включено конечное число детей, и они, или, точнее, приросты их веса, образуют выборку. Эта выборка, скажем, объема п позволяет получить п единиц данных, а именно индивидуальные приросты веса xif х2.хп. Мы будем полагать, что
выборка — это тот набор данных, который только и доступен статистику. Следовательно, оценка значения неизвестного параметра О (для простоты полагаем, что параметр только один), которую может получить статистик, должна быть вычислена по определенному правилу из выборочных величин хь х2....хп, скажем,
О* = tn (xltx2.хп).	(1.2.1)
12
Например, есть веские основания взять в качестве оценки 0* выборочное среднее
(*! 4- Х2 4- ... 4- Хп) / П.
Любая подобная комбинация наблюдаемых значений называется статистикой (итак, это расширяет значение слов «статистика» по сравнению с его нетехническим употреблением, когда оно означало сбор данных или фактов). Статистика — это число, вычисленное по выборке. Если оно используется как оценка величины параметра 0, то статистика должна быть в некотором смысле приближенным значением для 0. Вопрос в том, в каком смысле?
Пытаясь ответить на этот вопрос, мы должны вспомнить, что частное значение статистики, которое нам удалось получить по выборке приростов веса детей, могло бы измениться, если бы мы взяли другую группу детей. Действительно, если вывод, который мы надеемся получить, должен быть использован для более расширенной группы детей, чем та, которая включена в нашу выборку, существенно, чтобы эта выборка была извлечена из этой расширенной группы с помощью метода, включающего элементы случайного выбора. На вопрос о том, является ли наша оценка хорошей, можно ответить в терминах, относящихся к широкому классу оценочных правил (1.2.1), которые возникают в выборочных процедурах.
Пример 1.2.1. Контроль качества в промышленности. Пусть имеется партия из 10000 номинально идентичных изделий. Известно, что некоторые из этих изделий дефектны: их критические размеры лежат вне допустимых границ. Требуется оценить долю (скажем, 0) дефектных изделий в партии на основе результатов точного измерения размеров, проведенного на выборке из 20 изделий, взятых из партии.
Рассмотрим сначала процедуру формирования выборки. Предположим, что она организована следующим образом: 20 изделий должны быть выбраны «случайно», т. е. таким образом, чтобы при каждом акте выбора все изделия в партии имели бы одинаковый шанс быть отобранными. (Этого не всегда легко достигнуть, и практические способы различны в зависимости от объема партии и свойств изделий.) Так как в нашем случае партия очень велика по сравнению с объемом выборки, доля дефектных изделий в ней после извлечения выборки не будет существенно отличаться от исходной доли в. В этих условиях статистические свойства нашей выборки практически неотличимы от свойств выборки, полученной с помощью процедуры «случайного выбора с возвращением» [см. II, раздел 3.6.3]. Следовательно, с приемлемой степенью точности вероятность того, что наша выборка содержит г дефектных изделий, г = 0, 1, 2..19 или 20, определяется
по формуле биномиальной вероятности [см. II, раздел 5.2.2]:
С?) 0" (1 — 0)м’г.	(1.2.2)
13
Обратимся теперь к оценке. Критерии для формулирования правил, позволяющих получать «хорошие» оценки, обсуждаются ниже (см. гл. 3); сейчас же мы будем основываться на интуитивном представлении о том, что доля дефектных изделий в выборке кажется разумным приближением к доле дефектных изделий во всей партии. Следовательно, мы принимаем в качестве оценки для 9 число 9*, определенное как
О* = /720,	(1.2.3)
где г — число дефектных изделий в выборке (объема 20). Если наблюдаемое значение г = 8, то
9* = 0,40.
Выражение (1.2.3) есть специальный случай (1.2.1); оно дает некоторое правило для получения оценки из выборочных данных. Теперь согласно (1.2.2) значение г в (1.2.3) представляет собой реализацию [см. II, гл. 4] случайной переменной R, распределенной по биномиальному закону Bin (20,0) [см. II, раздел 5.2.2]. Следовательно, 9* есть реализация некоторой случайной величины, скажем Т, где
Т = R/20,	(1.2.4)
ее возможные значения —
0,1/20,2/20...19/20,1.
Согласно (1.2.2) ее распределение вероятностей определяется формулой
Р(Т = /720) = P(R/20 = /720) =
= P(R = г)=(“ )9Г(1 — 0)2О Г, г = 0,1.20.	(1.2.5)
В этом примере вопрос «Какова доля дефектных изделий в партии?» был заменен вопросом «Каково значение параметра 9 распределения вероятностей (1.2.2)?». Оценка 0*=О,4О рассматривается как реализация случайной величины Т, распределение которой приведено в (1.2.5). Случайную величину, реализацией которой является оценка, будем называть оценивателем (estimator). Соответствующее распределение вероятностей называется выборочным распределением оценки (или оценивателя). (Аналогичный смысл придается выборочному распределению любой статистики независимо от того, может ли она непосредственно использоваться как оценка.)
Приведенные рассуждения наводят на мысль, что вопрос «Является ли 0* хорошей оценкой 0?», можно рассматривать как сокращенную форму другого вопроса: «Высока ли вероятность того, что согласно выборочному распределению 0* его наблюдаемое значение близко к 0?». В примере, который обсуждался выше, мы можем, не-
* В русском языке нет специального названия для этой величины, поэтому здесь мы следуем английскому образцу. — Примеч. ред.
14
Вероятность
посредственно обращаясь к выборочному распределению, получить по крайней мере некоторое субъективное суждение об этом. Пусть значение п = 20 (объем выборки), а значение неизвестного параметра О = 0,25. Соответствующее выборочное распределение приведено в табл. 1.2.1 и графически представлено на рисунке. Можно видеть, что по меньшей мере для выбранного значения 6 вероятностное распределение действительно сконцентрировано в соседстве с 0. Реализации оценивателя скорее всего будут близки к 6, и в этом смысле О* не кажется нелепой оценкой 6.
Для получения дополнительной информации по контролю качества в промышленности см. [Hald (1981); Wetherill (1969) — HJ. Система библиографических ссылок объяснена в разделе 1.3.6.
Таблица 1.2.1. Выборочное распределение доли дефектных изделий в случайной выборке объема 20, когда доля дефектных изделий в генеральной совокупности 6 = 0,25. Распределение вероятностей для 71
Р(Т = г/20; = (2°)(0,25)г(0,75)20'г»
г = 0,1...20
Число	Вероятность	Число	Вероятность
0	0,003	0,35	0,112
0,05	0,021	0,40	0,061
0,10	0,067	0,45	0,027
0,15	0,134	0,50	0,010
0,20	0,190	0,55	0,003
0,25	0,202	0,60	0,000
0,30	0,169	0,65	0,000
		1,00	0,000
1.3.	ТЕМА ЭТОЙ КНИГИ
Хотя термин «статистика» значительно шире, чем «прикладная теория вероятностей», концепции и методы статистики тесно связаны с концепциями и методами теории вероятностей. Возможно, идеальным было бы развитие теории вероятностей и статистики как единой интегрированной дисциплины. В серии «Handbook of Applicable Mathematics», однако, было решено посвятить один том (т. И) теории вероятностей и один том (т. VI) статистике. Это не означает, конечно, что том II целиком должен быть изучен перед попыткой обратиться к настоящему тому! Напротив, методы, изложенные здесь, чаще всего понятны читателю и реже требуются лишь отдельные сведения по основам теории вероятностей. Во всех случаях, когда такие сведения необходимы, даются ссылки на соответствующие разделы тома II. Аналогии-ю обсушл дело с ссылками на другие тома серии «Handbook of Applicable Mathematics».
Очевидно, что и теория вероятностей, и статистика имеют свой круг проблем. Одя&ко среди них есть общие для обеих этих дисциплин. Например, в нашем случае вопрос относительно независимости квадратичных форм нормально распределенных случайных величин, который мог бы прекрасно вписаться в том, посвященный теории вероятностей, в действительности был признан как имеющий большой интерес для статистики и рассмотрел в настоящем Справочнике. То же относится к центральным распределениям (см. раздел 2.8).
Тематика, охваченная Справочником, кратко представлена в разделах 1.3.1—1.3.5, в то время как в разделе 1.3.6 перечислены некоторые проблемы, не рассмотренные здесь.
Прежде чем приступить к краткому описанию содержания, необходимо сказать несколько слов о порядке изложения материала.
Одна из основных целей серии «Handbook of Applicable Mathematics» состоит в том, чтобы предоставить читателю удобный подбор математических процедур и результатов. Казалось бы, расположение материала в алфавитном порядке, как в энциклопедии, наилучшим образом соответствовало бы указанной цели. Однако такой порядок привел бы к большому числу довольно коротких и сильно взаимосвязанных разделов. Принимая в расчет частично упорядоченную структуру математики, издатели считают, что группирование материала в однородные по содержанию главы больше отвечает поставленной цели: это обеспечивает бблыпую непрерывность и осмысленность изложения, как в традиционных учебных курсах, а благодаря развитой системе перекрестных ссылок сохраняет и преимущество энциклопедии. Однако поскольку эта книга не является учебным пособием, расположение материала в ней достаточно произвольно, ссылки даются как на более поздние главы, так и на более ранние. В частности, гл. 2 содержит материал, относящийся к выборочным распределениям, которые связаны с тематикой, рассмотренной позднее. Каждая из других глав
16
представляет какую-либо одну важную тему. В одном или двух случаях было признано удобным разделить материал, относящийся к одной, главной, теме, на две главы.
Теперь рассмотрим кратко содержание Справочника.
1.3.1.	ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ. МЕТОДЫ, СВОБОДНЫЕ ОТ РАСПРЕДЕЛЕНИЯ
Статистик должен получить свои выводы, используя наличную выборку. Каждое наблюдение является реализацией случайной величины. Известно множество значений, которые может принимать случайная величина; некоторые из них имеют ббльшую вероятность появления, чем другие. Значение, которое наблюдалось, представляет собой реализацию. Вероятности возможных реализаций характеризуются распределением вероятностей случайной величины. В исключительных случаях вероятность реализации может быть указана в виде числа, определяемого из распределения вероятностей. Но обычно функции распределения вероятностей бывают заданы с точностью до одного-двух параметров, значения которых не известны. Это приводит к проблеме поиска таких комбинаций выборочных значений, которые бы давали наилучшее приближение для неизвестных параметров. Каждая такая комбинация есть статистика, и, как и любое наблюдаемое значение, статистика представляет собой реализацию некоторой случайной величины. Если х2 и х3 — независимые наблюдения из распределения Ы(д,а) с математическим ожиданием д и стандартным отклонением а (это параметры семейства нормальных распределений), то мы можем рассматривать Xi как реализацию случайной величины Xit х2 — как реализацию случайной величины Х2 и х3 — как реализацию Х3, где Х\, Х2 и Х3 — независимые случайные величины, распределенные согласно N (д, а). Мы можем назвать Xt случайной величиной, индуцированной хх, Х2 — индуцированной х2 и Х3 — индуцированной х3. Статистика х = (xt +х2+х3)/3, так называемое выборочное среднее, есть реализация случайной величины X = (Xi+X2+X3)/3, которая может рассматриваться как индуцированная х. Из свойств нормального распределения [см. II, раздел 11.4.5] следует, что распределение вероятностей для индуцированной случайной величины X есть Ы(д,(т/73). Это — выборочное распределение статистики х, которое с точностью до д и а позволяет судить о вероятностях различных значений реализаций X (конечно, одно из них есть значение статистики х, полученное по нашей выборке). В частности, соответствующая плотность вероятностей достигает максимального значения при д, и поэтому х представляет собой разумную оценку для д. С помощью выборочного распределения можно также получить и вероятность того, что наше значение х расположено от д на расстоянии, большем, чем заданное (в масштабе о).
Итак, выборочное распределение статистики позволяет судить, может ли предложенная статистика служить оценкой интересующего нас параметра.
(Здесь, как и всюду в книге, мы использовали соглашение об обозначениях, согласно которому случайные переменные обозначаются прописными латинскими буквами (например , X), а реализации этой случайной переменной — строчными латинскими буквами (например, X, ИЛИ Xi, ИЛИ А';).)
Выборочное распределение, таким образом, весьма важно. Поэтому в книге выделена глава, где сосредоточена информация о выборочных распределениях статистик, имеющих большое значение для практики.
Однако статистические процедуры, которые сильно зависят от выборочных распределений, могут быть подвергнуты критике, поскольку выборочные распределения статистик зависят от предположений относительно распределений, лежащих в основе самой вероятностной модели. Если эти предположения не выполнены, то конструкция в целом нарушается. На практике наиболее широко используемые процедуры являются устойчивыми (робастными), т. е. сравнительно нечувствительны к тем отклонениям от вероятностной модели, которые не выходят за пределы разумно допустимых.
Ясно, что наиболее устойчивыми среди всех процедур будут такие (если они существуют), которые эффективны без каких-либо предположений о распределении. Такие процедуры в самом деле существуют и называются свободными от распределения (или непараметрическими). Эти методы рассмотрены в гл. 14.
1.3.2.	ОЦЕНКИ, ТЕСТЫ, РЕШЕНИЯ
Обманчиво короткий заголовок этого раздела соответствует тому, что в действительности составляет большую часть данной книги.
Проблема оценивания была схематично описана в разделе 1.3.1. Гл. 3 расширяет это описание и подводит к систематическому подходу, позволяющему находить хорошие оценки. В ней рассмотрены и графические методы представления информации, содержащейся в выборке, а также некоторые формальные критерии, например, оценка параметра должна иметь ту же физическую размерность, что и оцениваемый параметр, оценка должна быть связана с интересующим нас параметром, а нс с другими параметрами, оценка должна иметь возможно меньшую вариабельность (измеренную ее стандартным отклонением).
Оказывается, что в некоторых случаях можно сконцентрировать всю информацию относительно некоторого параметра, содержащуюся в выборке, в одной («достаточной») статистике. Эта концепция также обсуждается в гл. 3, в конце которой есть и короткий раздел, посвященный практическим приемам конструирования оценок, имеющих желательные свойства.
Ясно, что разумная процедура оценивания не должна ограничиваться лишь выбором приближенного численного значения для неизвестного параметра; она должна что-то говорить и о надежности этого приб-18
лижения. Хотя эти два аспекта единой проблемы оценивания тесно связаны, иногда удобно обсуждать их отдельно. Соответственно мы говорим о точечном оценивании и об интервальном оценивании. Гл. 4 в основном посвящена интервальному оцениванию. В ней рассматриваются: а) «доверительные интервалы», связанные с поведением статистик в повторных выборках, теория которых сильно зависит от выборочных распределений; б) правдоподобные интервалы, один из аспектов функции правдоподобия, которая позволяет среди всех возможных значений параметра выделить правдоподобные с учетом имеющихся данных (выборки); в) байесовские интервалы, сконструированные на основе подхода, при котором выборка рассматривается как средство для изменения и уточнения априорной информации, имеющейся в наличии до получения выборки (этот подход подробно обсуждается в гл. 15).
Поскольку в целом статистика как научная дисциплина основана на идее случайной изменчивости, каждая оценка подвержена ошибке; если получены две различные оценки параметра — одна при одном наборе условий, а другая при другом, — непосредственно не ясно, соответствует ли имеющееся между ними различие различию между параметрами. Например, параметром может быть вероятность определенного заболевания при приеме препарата А (одно условие) или препарата В (другое условие). Вопрос об их различии решается с помощью статистического критерия (теста) или критерия значимости; эта процедура описана в гл. 5.
Один из подходов к статистическим критериям (проверке гипотез) связан с именем Р. А. Фишера [см. Box (1978) — D], который рассматривает проверку гипотезы как пробный шаг в проведении научного исследования, позволяющий получить ученому объективный критерий, с помощью которого можно судить об истинности гипотезы. Другой подход связан в основном с именами Дж. Неймана и Э. Пирсона, которые рассматривают процедуру проверки гипотезы как правило, с помощью которого должен быть сделан выбор между одним способом действия и другим либо принято решение об истинности одной гипотезы в противовес другой. В обычной статистической практике реальные процедуры при этих двух подходах не очень различаются. Сравнительно недавно теория принятия решений стала самостоятельной дисциплиной, задачей которой является анализ потерь и выигрышей при принятии неправильных и правильных решений. Достижения этой дисциплины важны и полезны в теории оценивания, проверке статистических гипотез и в других областях. Эти вопросы обсуждаются в гл. 19.
Одна из частных проблем теории проверки статистических гипотез — оценка пригодности вероятностной модели, предложенной для объяснения данных. С достаточным основанием можно предположить, что некоторая последовательность нерегулярно возникающих событий (например, отсчетов счетчика Гейгера) представляет собой пуассоновский процесс (см. II, раздел 20.1). После того как интересующий нас
19
параметр оценен по имеющимся данным, возникает вопрос, насколько предложенная модель соответствует выборке. Являются ли выборочные значения действительно близкими к тем, которые можно ожидать, используя подогнанную модель? Наиболее широко применяемая для решения подобного вопроса процедура позволяет вычислить некоторую статистику, введенную Карлом Пирсоном, и воспользоваться критерием, основанным на ее выборочном распределении. Это пирсо-новский критерий согласия хи-квадрат (х2), описанный в гл. 7.
Существуют различные методы конструирования «точечных» оценок и определения их надежности. Наиболее полезен из них метод максимального правдоподобия, который обсуждается в гл. 6. Там же приведены и примеры его применения. Другой известный метод, который может рассматриваться либо как специальный случай метода максимального правдоподобия, либо как независимая процедура подгонки, — метод наименьших квадратов. Этот метод и более или менее систематизированный набор правил для проверки статистических гипотез (все это называется дисперсионным анализом или сокращенно ANOVA) описаны в гл. 8.
Те методы оценивания и проверки гипотез, о которых говорилось выше, предназначены для данных, представленных «фиксированной» выборкой. Это значит, что сначала была завершена процедура выбора, а затем ее результаты были подвергнуты обработке. В некоторых ситуациях порции данных поступают последовательно. Для подобных выборочных процедур разработаны специальные методы проверки гипотез. В этих методах доказательства в пользу интересующей нас гипотезы или против нее накапливаются одновременно с ростом выборки до тех пор, пока они не станут убедительными. Тогда выборочная процедура прерывается. Такие процедуры проверки гипотез называются последовательными. Они рассматриваются в гл. 13.
Сельское хозяйство, пожалуй, в наиболее сильной степени подвержено влиянию природной изменчивости. По этой причине в ранний период своего развития сельскохозяйственная наука встретилась с большими трудностями при сравнении различных сортов семян и удобрений. Важнейшая роль сельского хозяйства, немалая стоимость и большая продолжительность полевых исследований требуют эффективного планирования действий. Это обусловило развитие планирования сравнительных экспериментов, науки (или искусства), не ограниченной теперь только сельским хозяйством.
В гл. 9 дано введение в эту обширную дисциплину, а гл. 10 посвящена методам анализа данных, получаемых в результате таких экспериментов. Эти методы основаны на линейной модели, в которой предполагается, что отклик системы (например, урожай пшеницы) в зависимости от имеющихся стимулов (например, количества удобрения) представляет собой линейную функцию. Концепция линейности может быть, впрочем, успешно расширена до более сложных моделей, нелинейных, как в большинстве случаев применения дисперсионного анализа. Например, токсичность некоторых лекарственных пре-20
паратов является нулевой, если их доза не превышает пороговой величины; затем токсичность возрастает с увеличением дозы, сначала медленно, затем быстрее, потом снова медленнее. Прирост токсичности сходит на нет при приближении к стопроцентной смертельной дозе (см. пример 1.1.2). Иногда говорят, что кривая отклика, измеряющая при установленной дозе процент погибших в эксперименте животных, имеет S-образную форму. Можно найти преобразование, которое переводит ее в прямую линию. Так несколько неожиданно мы приходим к линейной модели, для которой может быть применен метод наименьших квадратов (усложненный, однако, различием в разбросе откликов).
Такое обобщение линейной модели обсуждается в гл. 11 и 12.
1.3.3.	БАЙЕСОВСКИЙ ВЫВОД
Мы уже упоминали байесовскую статистику, названную так в честь английского математика 18-го столетия Р. Томаса Байеса [см. Pearson and Kendall (1970) — D]. Если говорить просто, при байесовском подходе параметр, который должен быть оценен, рассматривают как случайную величину. В этом случае его свойства следует описывать в терминах распределения вероятностей.
При выборочном контроле в промышленности, обсуждавшемся в примере 1.2.1, доля дефектных изделий в партии оценивалась с помощью значения некоторой статистики, основанной только на выборке из этой партии. Предположим теперь, что данная партия сама представляет собой одну из множества партий, относительно которых опытным путем установлено, что доля дефектных изделий в них (0) независимо изменяется от одной партии к другой известным образом: например, в 3% партий доля дефектных изделий 0 = 0,01, в 5% 0 = 0,025 и т. д. Значение 0 для исследуемой выборки можно рассматривать как реализацию некоторой случайной величины с известным (априорным) распределением вероятностей. Используя теорему Байеса [см. II, раздел 16.10], можно скомбинировать выборочную величину с априорным распределением, чтобы улучшить вероятностные характеристики оценки (ее апостериорное распределение). Это уменьшает неопределенность вывода о значении 0 для данной партии.
При «новейшем байесовском подходе» к статистическому выводу учитывают то обстоятельство, что всегда имеется некоторая априорная информация о неизвестном параметре, возможно, менее точная, чем в случае, описанном выше, но все же достаточная для получения априорного распределения, из которого конструируется апостериорное. Эти проблемы обсуждаются в гл. 15.
1.3.4.	МНОГОМЕРНЫЙ АНАЛИЗ
Только в простейших ситуациях статистик имеет дело с единственной случайной величиной. Обычно каждый объект из выборки может

быть подвергнут нескольким различным измерениям, например, можно измерить рост, обхват талии, вес человека. В этом случае статистика интересует, ведут ли себя компоненты вектора наблюдений независимо друг от друга; если нет, то как можно описать их совместное поведение; являются ли некоторые из компонентов более информативными для разделения на классы и т. д. Классический подход к решению подобных задач обсуждается в гл. 17. В гл. 18 приведен обзор современного состояния этих проблем.
1.3.5.	ВРЕМЕННЫЕ РЯДЫ
Последняя тема, которой мы коснемся в этом описании разделов статистики, охваченных книгой, связана с анализом последовательности наблюдений (каждое из них подвержено случайному разбросу), порождаемых источником, который сам изменяется, развивается или флуктуирует. Такими наблюдениями могут быть, например, ежедневные измерения уровня воды в Темзе на Марлоу, еженедельное количество дождевых осадков в Сан-Франциско, ежечасные замеры концентрации определенного химиката в камере повышенного давления для какого-нибудь химического процесса, ежемесячная статистика дорожно-транспортных происшествий и т. д. Вариации в данных представляют собой смесь в неизвестных пропорциях закономерных колебаний (таких, как, например, чистый синусоидальный сезонный эффект) с флуктуациями, подчиненными некоторому (неизвестному и, возможно, изменяющемуся во времени) рапределению вероятностей. Поведение системы в момент времени t может зависеть от ее поведения в более ранние моменты t—1, t—2, ... Целью изучения такой системы обычно служит предсказание (прогноз) ее поведения.
Теория временных рядов рассматривается в гл. 18. Важный мегод, известный как фильтр Калмана, описан в гл. 20.
1.3.6.	БИБЛИОГРАФИЧЕСКИЕ ССЫЛКИ
Родственные темы в книге связаны системой перекрестных ссылок. Используются также ссылки на другие тома серии «Handbook of Applicable Mathematics». Отсылки за пределы Справочника организованы по-разному: внутри глав и для тома в целом.
Список книг (литература для дальнейшего чтения) для конкретной главы приведен в конце ее. Это позволяет получить дополнительную информацию. В тексте ссылки на эти работы выглядят так: [см. Barnett (1982), гл. 1].
В т. 2 Справочника приведен общий для обоих его томов список литературы. Он разбит на разделы: А — библиография; В — словари, энциклопедии, справочники; С — общие работы, охватывающие широкий круг вопросов; D — исторические и библиографические материалы; Е — руководства по статистическим таблицам; F — таблицы
22
случайных чисел, подчиненных конкретным распределениям; G — таблицы статистических функций; Н — специальные темы, не рассмотренные или кратко изложенные в Справочнике. Ссылки на эти источники в тексте обозначены так: [см. Kendall and Buckland (1971) — В].
1.3.7.	ПРИЛОЖЕНИЕ: СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ
Серьезное статистическое исследование предполагает интенсивное использование таблиц [см. список литературы, раздел GJ. Однако во многих случаях читатель обнаружит, что будет достаточным небольшое собрание таблиц в приложении. Это таблицы биномиального, пуассоновского, нормального распределений, распределения Стьюдента и распределения хи-квадрат, 5000 случайных цифр, 500 чисел, распределенных по стандартному нормальному закону, и диаграммы для определения доверительных интервалов параметров биномиального и пуассоновского законов.
1.3.8.	ТЕМЫ, НЕ РАССМОТРЕННЫЕ В СПРАВОЧНИКЕ
Идеальная книга по статистике должна содержать сбалансированное описание теории и практики с охватом всех аспектов предмета. Она должна быть понятна читателям и иметь умеренный объем. Издатели считают, что этот идеал не был достигнут: в частности, некоторым темам отведено слишком много места, другим слишком мало, а иные не рассмотрены вовсе. Главный акцент в Справочнике сделан на интерпретацию данных. Практическим деталям сбора данных уделено меньше внимания: краткое введение в планирование сравнительных экспериментов содержится в гл. 9. Для получения более подробной информации о планировании, скажем, выборочных обследований, читатель должен обратиться к списку литературы [см. Arkin (1963); Barnett (1974); Cochran (1963); Deming (1950); Hanson, Hurwitz and Madow (1953); Stuart (1976); Yates (1960) — Н].
Другие темы постигла та же судьба либо потому, что они были сочтены слишком специальными, либо из-за близости их к границам рассматриваемой области, либо потому, что они являются предметом будущих публикаций в серии «Handbook of Applicable Mathematics». Сюда относятся основания и общие принципы нечеткого вывода, приложения математического программирования и методов оптимизации в статистике, анализ специальных типов данных, таких, как направленные данные или экстремальные значения, использование и возможности пакетов статистических программ, статистическое моделирование и метод Монте-Карло, выборочный контроль в промышленности и контроль качества. Работы, посвященные этим проблемам, можно найти в разделе Н списка литературы.
23
1.4. СОГЛАШЕНИЯ И ОБОЗНАЧЕНИЯ
Мы завершаем эту главу замечаниями, касающимися обозначений и других соглашений, которые используются в Справочнике. Некоторые из них стандартны, другие же требуют пояснения.
1.4.1.	МАТЕМАТИЧЕСКИЕ СОГЛАШЕНИЯ
Логарифм: если не оговорено другое, log х всегда означает In х, т. е. loge х, натуральный логарифм, логарифм по основанию е.
Символ принадлежности к множеству: € : ^означает, что х — элемент множества (набора класса) Л [см. I, раздел 1.1].
Символ О', мы часто имеем дело со статистиками [см. определение 2.1.1], скажем tn, определенными по выборке объема п, некоторые свойства которой могут быть выражены в виде hn + en, где hn — некоторая функция, а еп — ошибка, которая изчезает с ростом п. Выражение еп = О(1тх), например, означает, что еп имеет тот же порядок, что и л'1, т. е. еп для больших значений п ведет себя, приблизительно как ап' для некоторой константы а. Аналогичный смысл имеет выражение О(п {/2) и т. д. [см. IV, определение 2.3.3].
1.4.2.	СТАТИСТИЧЕСКИЕ И ВЕРОЯТНОСТНЫЕ ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ
1.	Сокращения
ф. р. — (кумулятивная) функция распределения [см. II, разделы 4.3.2, 10.3].
distr ( ) — распределение ( ), как в distr (X) = distr (У), означает, что X и Y имеют общее распределение.
с. с. — степени свободы [см. раздел 2.5.4].
н. о. р. — независимые и одинаково распределенные, как в н. о. р. величины Xi, Х2,..., Хп.
п. р. в. — функция плотности распределения вероятности, называемая также функцией частот. В этой книге мы используем выражение п. р. в. как для дискретных, так и для непрерывных распределений. Те, кто возражает против термина «плотность» для дискретного распределения, может интерпретировать п. р. в. как точечную (point) функцию распределения [см. II, разделы 4.3.1, 10.1].
с. в. — случайная величина, с. п. — случайная переменная [см. II, гл. 4].
~ (тильда) — распределено как. Итак, %~N(^,ct) означает, что распределение X есть нормальное с параметрами ц и ст. Некоторые читатели могут быть настроены против этого обозначения, потому что тильда используется в других разделах математики, например, для обозначения отношения эквивалентности [см. I, раздел 1.3.3], а также асимптотической эквивалентности [см. IV, определение 2.3.2]. Для других же удобство такого обозначения перевешивает возражения.
24
2.	Обозначения стандартных распределений
Bernoulli (0) — распределение Бернулли с параметром (вероятностью) успеха 0, т. е. распределение с.в. R с п.р,в.
P(R = г) = 0Г(7—0)’“г, г = 0,1
[см. И, раздел 5.2.1].
Bin (п,0) — распределение с.в. R, для которой
P(R = г) = (”)0Г(7—0)л'г, г = 0,1.п
[см. II, раздел 5.2.2].
Gamma (а,0) — распределение с.в. X с п.р.в.
[х^Лех^]/^Г{а\ х>0.
Здесь а называют параметром масштаба, а 0 — параметром формы [см. II, раздел 11.3.1].
MVN — многомерное нормальное распределение [см. И, раздел 13.4].
N (д,а) — нормальное распределение с ожидаемым значением д и стандартным отклонением а. (Дисперсия есть а2. Некоторые авторы используют поэтому обозначения Normal (д.о3) или N (g,<?).) [См. И, И.4.]
Poisson (0) — распределение с.в. R, для которой
P(R = г) = ев07г!, г = 0,1,...
[см. II, раздел 5.4].
Uniform (a,b) — распределение с.в. X с п.р.в., задаваемой для каждого х как
f(x) =
г 1/(Ь—а), а^х^Ь; -
0 в противном случае
[см. И, раздел 10.7.1].
3.	Соглашение об использовании прописных букв для обозначения случайных величин
Мы будем придерживаться следующей системы обозначений: прописные латинские буквы обозначают случайные переменные, а соответствующие строчные латинские буквы — их реализации (наблюденные значения). Итак, мы говорим о совокупности (хь х2,..., хп) наблюдений над с.в. X. В то же время иногда допустимы отклонения от этого правила, например использование F как имени соответствующего распределения.
Строгая приверженность к соглашениям — признак педантичности, и профессиональные статистики не всегда беспокоятся по этому поводу. Однако учащимся и тем, кто еще не стал специалистом, мы рекомендуем их придерживаться.
25
4.	Обозначения для моментов и связанных с ними величин
Мы используем символ Е(Х) для обозначения математического ожидания (ожидаемого значения) или с.в. [см. II, гл.8]. Применяются также варианты Е, 8. Наше сокращение для дисперсии X есть var (АЭ; широко используются также символы V(x) и D(X). Для стандартного отклонения X мы используем s. d. (X), для ковариации X и Y — cov(X, У), для коэффициента корреляции между X и Y — согг (X, У), а для асимметрии X — skew (X) [см. II., гл. 9].
5.	Нестандартные обозначения: индуцированные случайные величины, статистические копии
Совокупность взаимно независимых наблюдений х2,...,хп случайной величины X (т.е. выборку) можно рассматривать и как совокупность, составленную из наблюдения xt над некоторой случайной величиной Xit наблюдения х2 над некоторой случайной величиной Х2 и т.д., где Xi, Х2.Хп считаются статистическими копиями X. Это
значит, что они независимы и распределены одинаково, так же как распределена случайная величина X:
distr (Xj) = distr (Д')» j ~ 1,2,...и.
Утверждение «х есть реализация ( = наблюденное значение) X» может быть обращено. Итак, «X есть случайная величина, индуцированная х» означает, что выборочное распределение [см. гл. 2} х есть distr (АЭ« Так, статистика ~х =	/ п (среднее значение выборки),
которая принимает некоторое определенное численное значение для данной выборки, имеет выборочное распределение, которое может быть получено с помощью стандартных процедур из общего распределения Xj, а случайная величина, вероятностное распределение которой совпадает с этим выборочным распределением, является случайной величиной, индуцированной х~. Естественно обозначить ее символом X = i,Xj / п, где Хи X2t...,Xn — статистические копии X.
Говорить о выборочном распределении некоторой статистики, имея в виду вероятностное распределение соответствующей индуцированной случайной величины, столь же педантично по отношению к сказанному выше, сколь и использование различий в обозначениях между случайной величиной X и ее реализацией х\ в обоих случаях целью является ясность изложения.
6.	Два смысла обозначения Р(А\К)'. вероятность А при условии К
Один смысл «Р(А\В)у> есть «условная вероятность предложения (события) А при условии, что предложение В истинно» [см. II, раздел 6.5]. Тогда Р(А\В) = Р(А пВ) / Р(В); обе вероятности Р(А) и Р(В) имеют смысл.
Однако мы часто используем Р(А\Н) в смысле «вероятность предложения А, вычисленная в предположениях Н», обычно сокращая это до «вероятность А при Н», где Н является гипотезой. Например, пусть А — предложение Х>х0, а X — нормально распределенная случайная величина N (д,1), где значение ц неизвестно и Н есть гипотеза, что д = 0.
26
Еще одна неоднозначность возникает при использовании выражений P(N = л|0) или ф(п|р), где N— случайная величина, распределение которой зависит от неизвестного параметра 0, a P(N = и|0) означает вероятность получить значение п в качестве наблюдения. Эта выроят-ность зависит от параметра 0. То же относится и к выражениям E(N]0) и т.д. На практике обычно ясно из контекста, какой смысл подразумевается.
7.	Номенклатура для табличных значений: процентные точки
В статистической практике часто необходимы таблицы функций различных вероятностных распределений. Для некоторых наиболее употребительных распределений доступны таблицы, которые можно назвать прямыми. Например, в приложении 3 приведена обычная таблица функции Ф(ц), стандартного нормального интеграла (стандартной функции нормального распределения), а в приложении 5 — аналогичная таблица для функции распределения Стьюдента. Однако с целью экономии места таблицы даны в обратной форме. Так, для стандартного нормального распределения таблицы обратной формы содержат значения и в зависимости от Ф (вместо Ф(и) в зависимости от и), т.е. дается значение иа, такое, что 1—Ф(иа) = а, как, например, в приложении 4.
Для случайной величины Z значение такое, что
P(Z>za) = а
называют верхней ХЮа-процентной точкой распределенйя Z; величину такую что
P(Zcr3) = называют нижней процентной точкой; при этом
Ь = Zl~0-
Выражение «процентные точки» без уточнения «верхние» или «нижние» обычно означает «верхние процентные точки».
Процентные точки используются, например, в наиболее доступных таблицах распределения Стьюдента (но не в приведенных в Справочнике), а также в таблицах х2- и P-распределений [см. приложения 6,7].
Нижние процентные точки иногда называют квантилями (фракти-лями). Специальный случай — нижний и верхний квартили, которые являются соответственно 25%-ным и 75%-ным квантилями; медиана же есть 50%-ная точка.
1.5.	ЛИТЕРАТУРА ДЛЯ ДАЛЬНЕЙШЕГО ЧТЕНИЯ
Соответствующие справочники и статистические энциклопедии приведены в разделе В списка литературы, учебные пособия — в разделе С, из них особый интерес представляет работа [Barnett (1982)]. Работы по истории вопроса можно найти в разделе D.
27
ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА
Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983. — 471 с.
Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Исследование зависимостей. — М.: Финансы и статистика, 1985. — 487 с.
Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. — М.: Финансы и статистика, 1988. — 607 с.
Бикел П., Доксам К. Математическая статистика. Вып. 1 / Пер. с англ. — М.: Финансы и статистика, 1983. — 278 с.
Бикел П., Доксам К. Математическая статистика. Вып. 2 / Пер. с англ. — М.: Финансы и статистика, 1983. — 254 с.
Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке: Методы обработки данных / Пер. с англ.; Под ред. Э. К. Лецкого. —М.: Мир, 1980. — 510 с.
Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке: Методы планирования эксперимента / Пер. с англ.; Под ред. Э. К. Лецкого, Е. В. Марковой. — М.: Мир, 1981. — 516 с.
Закс Л. Статистическое оценивание / Пер. с нем.; Под ред. Ю. П. Адлера, В. Г. Горского. — М.: Статистика, 1976. — 598 с.
Кендалл М., Стьюарт А. Теория распределений / Пер. с англ.; Под ред. А. Н. Колмогорова. — М.: Наука, 1966. — 587 с.
Кендалл М.,Стьюарт А. Статистические выводы и связи / Пер. с англ.; Под ред. А. Н. Колмогорова. — М.: Наука, 1973. — 899 с.
Кендалл М.,Стьюарт А. Многомерный статистический анализ и временные ряды / Пер. с англ.; Под ред. А. Н. Колмогорова, Ю. В. Прохорова. — М.: Наука, 1976. — 736 с.
Химмельблау Д. Анализ процессов статистическими методами / Пер. с англ.; Под ред. В. Г. Горского. — М.: Мир, 1973. — 957 с.
Глава 2
ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ
2.1. МОМЕНТЫ И ДРУГИЕ СТАТИСТИКИ
2.1.1.	СТАТИСТИКА
Как уже объяснялось в гл. 1, если мы стремимся описать изменчивые и неопределенные черты природы, то разумно это сделать, пользуясь понятиями случайной величины и ее распределений вероятностей (см. II, гл. 4). При этом обычно постулируется, что эти распределения должны принадлежать к определенным семействам, предполагаемым в явном виде или подразумеваемым. Тогда одной из целей статистического исследования будет выделение того члена заданного семейства рассматриваемого распределения, с которым мы имеем дело, исключение (по крайней мере, условное) некоторых возможных членов в семействе или отрицание либо подтверждение принадлежности к постулированному семейству в целом. Эти цели могут быть достигнуты в результате проведения соответствующего анализа доступных данных. Оказывается, что основную роль в анализе играют комбинации величин, получаемых из имеющихся данных, каждая из которых называется статистикой. Эти комбинации, заслуживающие отдельного рассмотрения, зависят от природы распределений вероятностей, включенных в анализ, а также от характера выводов, которые пытаются получить.
Пример 2.1.1. Выборочная проверка. Рассмотрим набор (группу или партию) более или менее схожих предметов, состоящих из отдельных единиц, которые, однако, различаются по определенному признаку, измеряемому или наблюдаемому. Например, это могли бы быть обработанные бруски длиной номинально 50 мм. Действительная же длина их несколько меняется вследствие флуктуаций в процессе производства. Желательно оценить долю брусков, длина которых колеблется в заданном диапазоне, например между 49 и 51 мм. Такие бруски будем называть годными, в то время как остальные будут называться дефектными. По практическим соображениям оказывается неприемлемым проверить все бруски в партии. Вместо этого можно проверить выборку из брусков, определив заранее ее объем, например 100 штук. При этом потенциально доступная информация — размещение меток
29
«годный», «дефектный» на каждом из 100 проверенных брусков. Если бы выборка формировалась случайно (и были бы предприняты обычные предосторожности, чтобы гарантировать ее случайность), т. е. так, чтобы у каждого из различимых (неупорядоченных) подмножеств по 100 брусков были бы одинаковые шансы оказаться выбранным, то полной информации об этих 100 метках на брусках не потребовалось бы. При последующем анализе понадобилось бы только общее число дефектных единиц в выборке (например, четыре).
В этом примере статистикой является просто общее число дефектных единиц в выборке.
Для выборки объема s, извлеченной из партии объема Ь, содержащей d дефектных единиц (где d неизвестно), число дефектных единиц будет случайной величиной (скажем, 7?). Вероятность того, что в данной выборке окажется определенное число (например, г) дефектных единиц, равняется
P^=r;=(?;(fcr/;/fJ;r=O,l,...,min (5, d).	(2.1.1)
Это элемент семейства гипергеометрических распределений [см. И, раздел 5.3]. Неизвестным параметром, с помощью которого идентифицируют члены семейства, является переменная d, относящаяся к партии в целом. Выводы относительно значения d должны основываться на статистике (в нашем примере равной четырем), т. е. на полном числе дефектных единиц в выборке [см. пример 2.1.1].
Пример 2.1.2 (продолжение). Использование упрощенных аппроксимирующих семейств распределений. Если бы в примере 2.1.1 объем партии был гораздо больше, чем объем выборки (например, Ь~ 10000, 5=100), то можно было бы с небольшой погрешностью заменить гипергеометрическое распределение (2.1.1) биномиальным (см. И, раздел 5.2.2):
P(R=r)=fi)pr(\-pf~r, г=0,1 s, p~d/b. (2.1.2) Полное число дефектных единиц в выборке по-прежнему оставалось бы подходящей статистикой.
Пример 2.1.3 (продолжение). Введенное в примере 2.1.1 семейство распределений предопределяется процедурой формирования выборки. Теперь предположим, что вместо того, чтобы пытаться оценить долю — т (49,51), скажем, брусков, длина которых х лежат в заданном интервале [х49Сл'С51), надо для всех пар значений и и v(u<v) оценить долю x(u,v) тех брусков, длина которых х принадлежит интервалу Эта задача эквивалентна следующей: будем считать измеренную длину х определенного бруска реализацией непрерывной случайной величины X [см. II, раздел 10.1] и оценим распределение вероятностей X. Это в свою очередь можно было бы интерпретировать следующим образом: постулируем для X нормальное распределение с математическим ожиданием g и стандартным отклонением о [см. II, раздел 11.4] и оценим значения параметров распределения д .и а. [Естественно подумать, что это несостоятельный постулат, так как в прин-30
ципе можно получить сколь угодно большие наблюдаемые значения |Af|, если величина X нормально распределена. В то же время длина наших брусков не может быть меньше нуля и практически не будет больше, чем например, 60 мм. Однако фактически предположение нормальности может оказаться вполне разумным, если стандартное отклонение будет малым [см. II, разделы 9.2 и 11.4.3], так как тогда становится пренебрежимо малой вероятность очень больших отклонений от среднего.] В этом случае подходящими статистиками были бы ухг и ^хгг [см. раздел 6.4.1] (при условии, что заданы длины хх,х2.хп
j 1
брусков в выборке объема «ил существенно меньше, чем объем партии).
Пример 2.1.4. Нестатическая ситуация. В примерах 2.1.1, 2.1.2 и 2.1.3 мы имели дело с выборками, взятыми из фиксированного распределения. Такие случаи можно назвать статическими. Рассмотрим нестатическую ситуацию. На пружине, закрепленной с одного конца, подвешен определенный груз х;. На результат измерения длины пружины у, влияют ошибки измерения. Процедура повторяется для / = 1»2.Веса хх,х2,..,хк считаются точно известными числами. Пе-
ременные такого типа часто называют неслучайными переменными. Соответствующие длины пружины содержат ошибки. Удобная модель: для каждого i будем рассматривать у, как реализацию нормально распределенной случайной переменной с математическим ожиданием [см. II, раздел 8.1] £'(У/) = а+ (jXj (закон Гука) и дисперсией [см. II, раздел 9.1] ог (одинаковой для всех z). Цель эксперимента состоит в том, чтобы оценить модуль упругости /3. Оказывается, что соответствующими этому случаю статистиками будут и ууху-
[см. пример 4.5.3]. Они представляют собой комбинации наблюдаемых значений yj случайных переменных и связанных с ними неслучайных переменных x-t.
Теперь суммируем результаты анализа рассмотренных примеров в виде следующего определения.
Определение 2.1.1. Статистика. Пусть ух,у2 ук обозначает множество наблюдаемых значений случайных ’ переменных, а Xj^r2...хт — множество (известных) значений связанных с ними не-
случайных переменных. Статистикой называется любая функция этих переменных, например ,h(ylt...yk\ xp...,xw), количественное значение которой может быть рассчитано, как только будут указаны выборочные значения уг и величины связанных с ними переменных xs.
В любой процедуре вывода могут быть использованы только статистики. Например, согласно теории оценивания надо указать, каким членом заданного семейства распределений порождена выборка. При этом требуется дать численное значение (оценку) каждому параметру, который содержится в математических формулах, определяющих семейство
31
[см. гл. 3]. Каждое такое численное значение должно быть статистикой. Практические правила оценивания сводятся к выбору статистик, наиболее подходящих для этой цели.
Статистики, которые строятся в теории оценивания и в теории проверки статистических гипотез, часто оказываются комбинациями простой системы статистик, известных как выборочные моменты и являющихся выборочными аналогами моментов генеральной совокупности.
2.1.2.	МОМЕНТЫ
а)	Моменты генеральной совокупности. Важным множеством постоянных величин, связанных со случайной переменной и ее распределением вероятностей, оказывается множество моментов генеральной совокупности [см. II, раздел 9.11]. Моментом порядка г(г=Ъ2,...) случайной переменной X называют величину
^Е(ХГ).	(2.1.3)
Моментом первого порядка ц! будет просто математическое ожидание X, часто обозначаемое символом д:
д=д[=Е(Л).	(2.1.4)
К моментам относят также и центральные моменты
р=Е(Х—цУ г=1,2,...	(2.1.5)
Центральный момент первого порядка тождественно равен нулю. Центральным моментом второго порядка является дисперсия (мера изменчивости). Момент третьего порядка связан с асимметрией (мерой асимметрии). Коэффициент асимметрии X определен как
skew (X)=дз/дг72	(2.1.6)
Центральный момент четвертого порядка д4 связан с кривизной п.р.в. вблизи ее максимума. Для центральных моментов более высокого порядка нет непосредственной интерпретации.
Возможны очевидные обобщения на случай многомерных распределений. Например, для генеральной совокупности, каждый из членов которой обладает двумя интересующими нас признаками, такими, как рост и вес, обратимся к паре случайных переменных, например (А",У), реализации которых (xit уО,(хг, уг),... представляют пары (рост, вес) членов совокупности. Вероятностное поведение X и Y описывается их совместным распределением вероятностей.
Двумерные моменты (или моменты произведений) этого распределения задаются величинами
I^EfX'Y5), V=l,2.......
а центральные моменты определяются как дгд=£(<х-£/(У-д/}, t=E(X), n=E(Y).	(2Л,7)
32
Наиболее важным среди этих смешанных моментов является ковариация, определяемая как
covfc>9=>41 j (Х—£)(у—ц)).
Ее нормированная версия
Q(X,Y^^/axaY	(2.1.8)
называется коэффициентом корреляции corr(X,Y), величина которого при подходящих обстоятельствах будет мерой связи между X и Y. Здесь = var<A7, = var(Y).
б)	Моменты выборки*. Выборочными аналогами теоретических моментов (моментов генеральной совокупности) являются моменты выборки. Для выборки (хх^сг,...х„) момент порядка г определяется как
т'= L х^/п,	г=1,2,... .	(2.1.9)
r j=i 1
Если выборка задается в виде таблицы частот, а именно, если Xi,x2,...,хк — список возможных различных наблюдаемых значений X, а	— частоты, с которыми они появляются в выборке, то
шг'= £4Л7/Л> где	k
п- Е fr
есть объем выборки.
Аналогично получаем центральные моменты выборки, известные также как моменты выборки относительно среднего, задаваемые в виде
mr= Е (Xj—xf/n,	r=l, 2,...,	(2.1.10)
y=i j
где
x =m\
есть среднее по выборке. Соответствующее выражение для таблицы частот имеет вид
т = I fi(x.—xf/n,	r=l, 2,... .	(2.1.11)
r j=i J J
Соотношение между моментами выборки относительно среднего и относительно начала отсчета. Моменты выборки тг относительно среднего связаны с соответствующими моментами т'г относительно начальной точки следующими соотношениями:
т2=т\—х2, т3 =т$—Зт& +2х3,
(2.1.12)
и т. д.
т4=/и4/—imjX + 6трс2—Зх4.
а
• В советской литературе часто употребляется термин «выборочные моменты» (см. также примечание на с. 39). — Примеч. ред.
33
Моменты выборки тр т'г порядка г являются оценками соответствующих моментов генеральной совокупности цг, ц,, хотя и не обязательно наилучшими.
В пункте в) обсуждается второй момент выборки.
в)	Дисперсия выборки и стандартное отклонение выборки. Момент второго порядка выборки относительно среднего представляет собой один из вариантов дисперсии выборки. Однако более часто последняя определяется как
Л	_
^=птг/(п-1)= Е (Xj—х)2/(п-\)	(2.1.13)
или, эквивалентно, в случае таблицы частот
$*= T.fj(Xj—х)2/(п-1А п- Efj.
Положительное значение квадратного корня из этого выражения 5 называют стандартным отклонением выборки из наблюдаемой переменной.
Идея взять делитель в виде п—1 вместо п подкрепляется одним или несколькими из следующих аргументов:
1)	смещение: s2 — несмещенная оценка дисперсии о2 генеральной совокупности; это означает, что среднее большого числа п выборочных значений приближается к о2, когда п становится сколь угодно большим [см. раздел 3.3.2]. В противоположность этому следует сказать, что s не является несмещенной оценкой а [см. раздел 2.3.5]*;
2)	имеет смысл при л=1: когда п равно единице, s2 не определено. Именно это требуется от выборочной оценки ст2, так как при объеме выборки, равном единице, нет информации относительно изменчивости (разброса). Однако значение тг обращается в нуль. Это не слишком хорошая оценка для ст2;
3)	«не раскачивайте лодку»: в стандартных процедурах оценивания и проверки гипотез и в соответствующих таблицах применяется делитель п—1 [см., например, раздел 2.5.5]; „	_
4)	степени свободы: сумму квадратов Е (xj—х)г можно выразить в виде суммы квадратов п — 1 алгебраическилнезависимых переменных: другими словами, квадратическая форма Е (хг—х/ имеет п — 1 степеней свободы (или ранг порядка п — 1). В результате становится и логически привлекательно, и удобно по алгебраическим мотивам делить на (л—1).
г) Двумерные выборки. В выборке (хх,ух),(хг,уг), ...,(хп,у„), из двумерной генеральной совокупности, где хг обозначает, например, рост, а уг — вес г-го индивида в выборке, выборочная ковариация определяется как
* Несмещенность s2 означает, что Es2 = a (при этом Es^a2). Указанное авторами свойство при л-»00 обычно называют состоятельностью. —Примеч. ред.
34
тхл =	х)(уг—у )/n = {	nxу ) /и,	(2.1.14)
где x ~'Exr/n и у ~Еуг/п. В случае таблицы частот это выражение заменяется на	t
/и1Д = Lfr(xr—x)(yr—y)/n.
По причинам, аналогичным тем, которые перечислены применительно к выборочной дисперсии в пункте 1), более принята оценка ковариации /*1 л генеральной совокупности не в виде /им, а в виде
М = ^(Xi—x)(y,—у)/(п— Ц	(2.1.15)
В общем случае смешанный момент порядка г, s для двумерной выборки записывается в виде
m^txr.ys./n, г,5= 1,2 	(2.1.16)
а соответствующие центральные моменты в виде
тГг5 =^(х{-х)г(У1-у?/п.	(2.1.17)
В особом случае, когда 5=0, г=0, оказывается, что
mr,o = i(Xf—xf/n,	г — 1,2,...;
п _	(2.1.18)
mQJS ^(у~yf/n,	5=1,2,... .
Эти величины являются маргинальными центральными моментами порядка г для значений х и маргинальными центральными моментами порядка 5 для значений у. Для таблицы частот необходимо изменить эти формулы очевидным образом [ср. (2.1.10), (2.1.11)].
Коэффициент корреляции. Нормированная версия
r(x,y) =miti/y/(mi0m0l)	(2.1.19)
выборочной ковариации называется выборочным коэффициентом корреляции (моментным), или (иногда) коэффициентом корреляции К. Пирсона. Она является оценкой коэффициента корреляции $(х,у) (2.1.8) генеральной совокупности. Отметим, что выражение
r(x,y) = Cj , /s(x)s(y), где 52<х> — выборочная дисперсия (2.1.13) значений х, а &(у) — выборочная дисперсия значений у, эквивалентно выражению (2.1.19).
2.2.	ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ: ОПРЕДЕЛЕНИЯ И ПРИМЕРЫ
Выбрав определенную статистику, такую, как среднее выборки (среднее значение наблюдений), и отметив ее значение, мы вынуждены признать, что при повторении процедуры выборки численное значение
35
этой статистики во второй выборке будет, вероятно, отличаться от ее значения в первой выборке. Последовательность таких повторений породила бы последовательность числовых значений статистики; одни значения встречались бы чаще, другие — реже. Таким образом, мы можем представить совокупность значений вместе с распределением вероятностей среди них. Это и есть выборочное распределение статистики.
В примерах 2.1.1 и 2.1.2 рассматривалась статистика г — количество дефектных единиц в выборке. В примере 2.1.2 она трактовалась как реализация (т.е. наблюдение) случайной переменной R [см. II, гл. 4], которая имеет распределение Вт&д) [см. II, раздел 5.2.2]. В этом случае число обследованных брусков s является числом «испытаний», как это понимается для биномиального распределения, а р — неизвестной долей дефектных изделий в партии.
Статистика г является реализацией случайной величины R. Выборочное распределение статистики г оказывается распределением вероятностей (2.1.2) [см. II, раздел 4.3] соответствующей случайной переменной R. В примере 2.1.3 рассматривались статистики и Ех/, при этом хг были реализациями случайной переменной X, распределенной N(/x,a) [см. II, раздел 11.4].
С точки зрения обозначений удобно рассматривать xi как реализацию случайной переменной Jfpx2 — как реализацию случайной переменной Х2,... и, наконец, хп — как реализацию Хп, где случайные переменные XvX2,...,Xn — н.о.р. (т.е. взаимно независимые [см. II, раздел 4.4] и одинаково распределенные переменные). При этом их общее распределение — это распределение исходной случайной переменной X. Взаимная независимость [см. II, определение 4.4.1] наблюдаемых событий Ar=xp Х~х2,..., обеспеченная процедурой выборки, отражается в предположении взаимной независимости случайных переменных Хп а тот факт, что все наблюдения хг взяты из одного и того же распределения, отражается в приписывании всем Хг распределения X. О переменной Хг можно говорить как о статистической копии X [см. определение 2.2.1].
Определение 2.2.1. Статистические копии, индуцированные случайные переменные, случайная выборка. Говорят, что случайные переменные XVX2,... будут статистическими копиями заданной случайной переменной X, если Хг взаимно независимы и одинаково распределены, причем их общее распределение совпадает с распределением X. Множество независимых наблюдений (xY,x2,...,xk) переменной X называется случайной выборкой. По соображениям удобства можно считать xt наблюдением Xlt х2 — наблюдением Х2 и т. д. Эти случайные переменные XitX2,... индуцируются (порождаются) наблюдениями хрх2,... Аналогично статистика y=h(xitx2,...,xk) порождает случайную переменную Y=h(XltX2,...,Xk). (Определение, случайной выборки из конечной совокупности можно найти, например, в [II, раздел 5.3].)
36
В примере 2.1.3, таким образом, статистики i.xr и могут рассматриваться как реализации индуцированных случайных переменных соответственно ЁАГГ и ЁА^, где хрх2,...хл — статистические копии х. Теперь случайная переменная становится суммой п взаимно независимых переменных N(p,a) и поэтому сама оказывается распределенной нормально с математическим ожиданием ц и стандартным отклонением а/4п [см. раздел 2.5.3, а)]. Это распределение NQi,ff/Vn) будет выборочным распределением статистики t,xr. Подобным об-разом выборочным распределением статистики Ех* является распределение индуцированной случайной переменной ЕА^.
В примере 2.1.4 имелось к взаимно независимых случайных переменных Ур У2,..., Yk, распределения которых уже не были одинаковыми. Вместе с наблюдаемыми значениями уг переменной Уг у нас были неслучайные переменные хг, известные точно. Статистика t>xryr рассматривается как реализация случайной переменной ЁхгУг, являющейся взвешенной суммой независимых случайных переменных ........
Выборочным распределением статистики Ёх.у_ будет распределе-1 * ние вероятностей индуцированной случайной переменной ЕхгУг
В этом примере оказывается, что Yr — независимые нормально распределенные случайные переменные с параметрами E(Yr) = а + (5хг и v&r(Yr)- о2, г- 1,2,..., к. Отсуда вытекает [см. раздел 2.5.3] нормальность выборочного распределения переменной Ехгуг с ожиданием аЕхг + 0Ех* и дисперсией а2Ехг2.
В свете этих примеров можно дать формальное определение выборочного распределения.
Определение 2.2.2. Выборочное распределение статистики. Пусть УрУр..«»Ул представляют собой собрание данных, в которых yj для каждого j может рассматриваться как реализация случайной переменной Yj. Пусть xpx2,...,xm — множество неслучайных переменных, значения которых известны (сюда может входить, например, объем выборки). Пусть рассматриваемой статистикой будет
Л ,У2,. •. ,УЛ, Xj ,Х2,... tXffJ •
Выборочным распределением этой статистики называют распределение вероятностей индуцированной случайной переменной
й (^Ур У2, • • •, Ул, хрх2,... ,x^).
В этих выражениях уг могут быть скалярными или векторными величинами [см. I, разделы 5.1, 5.2]. В последнем случае Уг — векторные случайные переменные [см.П, раздел 13.3.1]. Аналогично переменные хс могут быть скалярными или векторными. Статистика Л
37
может быть скалярной функцией векторных аргументов или сама может быть вектором. Тогда и выборочное распределение оказывается многомерным распределением вероятностей [см. II, раздел 13.1]). Далее приводятся дополнительные примеры.
Пример 2.2.1. Выборочное среднее. Предположим, что хрх2,..., хп — случайная выборка [см. определение 2.2.1] из распределения Пуассона с параметром 6 [см. II, раздел 5.4]. Рассмотрим статистику х =(х} + х2 + ...+ хп)/п. Эта статистика, выборочное среднее, порождает случайную переменную
Х=(Хх + ...+Х„)/п, где Хп — взаимно независимые, одинаково распределенные переменные [см. раздел 1.4], подчиняющиеся распределению Пуассона с параметром (0). Распределение суммы Sn п независимых переменных, распределенных как PoissOn (в), будет следовать Poisson (л0) [см. II, раздел 7.2], так что
P(Sn =г)=е~пв(пд)г/г\,	г=0,1,...,
откуда _
Р(Х = v) = P(Sn = nv) = e~n6(n0)v6/(nv)\,	v = 0,1 /п, 2/n,... . _
Эта формула выражает выборочное распределение статистики х.
Пример 2.2.2. Случайная выборка из двумерного распределения. (Выборочное распределение статистики, имеющей векторное значение.) Предположим, что X является двумерной векторной случайной переменной, определяемой выражением Х = (Y,Z), где Y и Z — одномерные переменные, совместное распределение которых является двумерным нормальным распределением с параметрами E(Y) = X, E(Z)=ij., corr(Y,Z) = q, var(Y) = a2, varfZ> = а? [см. II, раздел 13.4.6]. Случайная выборка объема п из этого распределения будет состоять из п упорядоченных пар (yx.zx), (y2,z2),...,(yn,zn), представляющих собой независимые реализации пары (Y,Z). Статистика = (y,z), где У = Y.yx/n и z = £zx/n, позволяет сделать выводы относительно X и g. Чтобы обсудить выборочное распределение статистики x=(y,z) с векторными значениями, введем индуцированные двумерные случайные переменные Xj = (YX,ZX), Х2 = (Y2,Z2),..., Хп = (Yn,Zn), являющиеся статистическими копиями X в том смысле, что Хг взаимно независимы и для любого г Хг распределены так же, как X. Таким образом, пары (Yj,Zj) и (Yk,Zk) будут независимыми всегда, когда jV к, и для любых j Yj и Zj будут иметь такое же двумерное нормальное распределение, как Y и Z. Отсюда следует, что индуцированная случайная переменная X = (Y, ZJ^ имеет двумерное^ нормальное распределение с E(Y) = \, E(Z) = fj.t corr(Y,Z)=Q, var(Y)=a2/n, varfZ) =а?/л. Такое же распределение имеет и переменная х=(х,у).
Искусственные выборки: имитация. Опубликованные собрания независимых реализаций случайных переменных с определенным распределением обеспечивают возможность создания небольших моделируемых случайных выборок. Когда требуются выборки сравнительно 38
большого объема, такая процедура становится недостаточной и предпочтение отдается генерированию реализаций с помощью компьютера (моделирование на ЭВМ).
В разделе F списка литературы приведены работы, включающие таблицы случайных чисел, принадлежащих различным распределениям: числа с равномерным распределением см., например, в [RAND Corporation, (1955)]; числа с нормальным распределением см. в [Wold (1954)]; двумерные нормальные пары см. в [Fieller, Lewis and Pearson (1957)]; числа с экспоненциальным распределением см. в [Clark and Holtz (I960)] или в [Barnett (1965)]. Так как сумма чисел, подчиняющихся экспоненциальному закону, имеет гамма-распределение, моделируемые выборки гамма-переменных (и, следовательно, Х2-переменных) можно получить из «случайных чисел», следующих экспоненциальному закону.
Сведения о генерировании случайных реализаций можно найти в книге [Newman and Odell (1971)] (а также в работах, включенных в раздел F списка литературы или в [Abramowitz and Stegun, ed. (1970), section 26.8—D].
2.3.	ВЫБОРОЧНЫЕ МОМЕНТЫ СТАТИСТИК
Моменты [см. раздел 2.1.2] выборочного распределения [см. определение 2.2.2] статистики называют выборочными моментами этой статистики; аналогично вводятся центральные выборочные моменты. (Следует особо отметить, что выборочные моменты — это не то же самое, что моменты выборки [см. раздел 2.1.2, п. б)]*.
Определение 2.3.1. Выборочные моменты. Выборочным моментом порядка г статистики t является момент порядка г выборочного распределения t(r-\,2,...). Или, равнозначно, r-Й выборочный момент t есть
EfT), г=1,2.....
где Т — случайная переменная, порождаемая статистикой t [см. раздел 1.4.2,п.5)].
Центральный выборочный момент порядка г задается выражением
Е(Т-т)г. г =1,2...
где т~Е(Т).
Выборочный момент первого порядка называется выборочным ожиданием, выборочный момент второго порядка называется выборочной дисперсией и т. д. в соответствии с общепринятым употреблением названий моментов генеральной совокупности. Таким образом, можно говорить о выборочном ожидании среднего значения выборки: оно оказывается ожиданием выборочного распределения Х\
Стандартное отклонение не является моментом, однако оно имеет большое значение как связанная с ним статистическая величина.
* В советской литературе обычно не делают такого различия. Обычно и моменты выборки называют выборочными моментами. — Примеч. ред.
39
Определение 2.3.2. Выборочное стандартное отклонение. Стандартная ошибка. Выборочным стандартным отклонением статистики t называют стандартное отклонение (оно равняется положительному значению квадратного корня из дисперсии) выборочного распределения статистики t.
Соответствующая оценка стандартного выборочного отклонения статистики t называется стандартной ошибкой t [см. раздел 4.1.2].
Например, если в качестве статистики t берется выборочное среднее х выборки объема п из распределения, имеющего дисперсию о2, то выборочная дисперсия х будет равняться а2/п [см. (2.3.1)], и поэтому выборочное стандартное отклонение х будет равно a/yfn.
Стандартное отклонение выборки [см. (2.5.23)] является статистикой, у которой имеется свое выборочное распределение, и, следовательно, выборочная дисперсия и выборочное стандартное отклонение. Это выборочное распределение для нормально распределенной выборки обсуждается в разделе 2.5.4,д).
Именно выборочные моменты образуют объект изучения в настоящем разделе. Особый интерес представляют выборочное ожидание, выборочная дисперсия и выборочная асимметрия; они выражают соответственно математическое ожидание [см. II, раздел 8.1], дисперсию [см. II, раздел 9.2.1] и асимметрию [см. II, раздел 9.10.1] выборочного распределения статистик.
2.3.1.	ПЕРВЫЕ ВЫБОРОЧНЫЕ МОМЕНТЫ СРЕДНЕГО ЗНАЧЕНИЯ ВЫБОРКИ
Пусть xi,x2,...txn — совокупность п независимых наблюдений случайной переменной X. Среднее значение выборки х определяется как (jq 4-Xj + ... + xj/n, его выборочное распределение — это распределение индуцированной случайной переменной X = (Х{+ Х2 + ... + XJ/n, где Хг — статистические копии X [см. определение 2.2.1]. Простые вычисления показывают, что _
Е(Х)=Е(Х),
var<¥) = zi-1var6A7,	(2.3.1)
skewfX) = n“,/2skew (X).
Статистика х вполне может претендовать на то, чтобы служить оценкой [см. раздел 1.3.2] параметра Е(Х). Ее выбдрочное ожидание (т. е. среднее, получаемое при бесконечных повторениях выборочной процедуры) тождественно равно величине искомого параметра (это свойство называется несмещенностью [см. раздел 3.3.2]). Ее выборочная дисперсия уменьшается при увеличении объема выборки; согласно неравенству Чебышева [см. II, раздел 9.5] отсюда следует, что при достаточно большом объеме выборки весьма вероятно, что значения х очень близки к Е(Х).
40
2.3.2.	ПЕРВЫЕ ВЫБОРОЧНЫЕ МОМЕНТЫ ДИСПЕРСИИ ВЫБОРКИ
В обозначениях раздела 2.3.1 дисперсия выборки v иногда определяется как	—х)2/п, а иногда — как	—ху-/п—1 [см. разделы
2.1.2,в), 2.5.4,г)]. Сначала мы воспользуемся первым определением. Выборочный момент первого порядка и центральные выборочные моменты v второго и третьего порядков имеют вид соответственно
E(V), var(V), Е{ V— E(V)}\
где V — случайная переменная, порождаемая v (таким образом, v является реализацией V):	„	_
Х)2/п,
где X и Xit как в разделе 2.3.1. Аналогично выборочная асимметрия дисперсии выборки v равна:
skew(K> = Е {(V—E(V) )’/ {var(K) )3/2.
Вычислить E(V) достаточно просто, однако центральные моменты второго и третьего порядков требуют больше усилий. Результаты вычислений приводятся ниже, они выражены в терминах центральных моментов [см. II, раздел 9.1.1] цг переменной X:
gj = varfA) = Е(Х— fi)2 (где fi-E(X)), р^=Е(Х—ц)\	(=M’/2skew<¥)>,	(2.3.2)
д4 = Е(Х— ц)*	и т.д.
Получаем, что
E(V) = IV
..„/jz. _	_ 2(/Ч~2/4) + М4-3/4 = /1,-/4 +<?/ 1 \
' ' п	т	т п \пг)
£[ у Е(У)]У -	ЗдзД4—6/4 + 2/4	/ 1 \
(2.3.3)
skewf₽7 =
/4—3/12/4—6/4 + 2/4	/ 1 \
6ч—/4Г2л,я	1л5/2Л
(Что значит О, см. раздел 1.3.1.) Отсюда следует, что v'=nv/(n—1>= = —х)г/(п—1) — несмещенная оценка [см. раздел 3.3.2] дисперсии
д2 генеральной совокупности и что выборочная дисперсия v', так же как дисперсия v, равняется л-‘(д4—pfy+Ofn-1), т. е. уменьшается с увеличением и.
Более детальное изложение этих результатов, а также полученных в разделах 2.3.3.—2.3.6 можно найти в книге [Cramer (1946) — С].
2.3.3.	ВЫБОРОЧНАЯ КОВАРИАЦИЯ МЕЖДУ СРЕДНИМ ЗНАЧЕНИЕМ ВЫБОРКИ F И ДИСПЕРСИЕЙ ВЫБОРКИ v
Выборочная ковариация [см. II, раздел 9.6.1] между х и v задается	_
covfX, V) =	(2.3.4)
В частности, X и V будут некоррелированными в случае, когда распределение X симметрично, так как ач=О.
2.3.4.	ВЫБОРОЧНЫЕ МОМЕНТЫ ДЛЯ МОМЕНТОВ ВЫБОРКИ БОЛЕЕ ВЫСОКИХ ПОРЯДКОВ
Для моментов выборки mk='L(xj—хУЧп при больших значениях к подробные вычисления становятся очень сложными. Для Лг= 3 выборочное ожидание задается в виде
Е{ ZfXi—Xf/n ) =(п—1)(п—2)ц3/п.	(2.3.5)
В общем случае для £=2,3,...
Е { Ъ(Х(-Х)к/п} = цк+О(п~')	(2.3.6)
и	„	_
var ( L(X:—X)k/n ) =с(к,п)/п + О(п~>),	(2.3.7)
где	1
с(к,п) =	—2кцк_^ц {—ц2к+ArWj-r
2.3.5.	ВЫБОРОЧНЫЕ МОМЕНТЫ СТАНДАРТНОГО ОТКЛОНЕНИЙ ВЫБОРКИ
V n _ {$(xi—Xjr/n}, получим
Е№) = ^2 + О(п-‘)	(2.3.8)
и	2
var(\fV) = —~2 + О(п~2)-	(2.3.9)
2.3.6.	ВЫБОРОЧНЫЕ МОМЕНТЫ КОЭФФИЦИЕНТА АСИММЕТРИИ ВЫБОРКИ
В соответствии с определением
skew (X)~Е(Х—ц)3/ {var(X) }3/2	(jl=E(X)),
коэффициента асимметрии случайной переменной X, определим коэффициент асимметрии выборки (xitx2.....xj из наблюдений за перемен-
ной X как
(= V' (ш23/ш1)),	(2.3.10)
где
т3 - L(xi—x)3/n, т2 =	—х)2/п.
1 1
Из этого определения следует, что выборочное ожидание g имеет вид skew<X)+O(h-9,	(2.3.11)
а выборочная дисперсия g —
d(n)/n+O(n-3'2),	(2.3.12)
42
где d(n) определяется с помощью соотношения
— 12дгМзМ5—24д1д4 + 9/*зД4 + 35дгДз + 36д25- (2.3.13)
Когда распределение X симметрично, последнее выражение сводится к 4/4/4—24^4 + 36/4.	(2.3.14)
2.4.	РАСПРЕДЕЛЕНИЯ СУММ НЕЗАВИСИМЫХ ОДИНАКОВО РАСПРЕДЕЛЕННЫХ ПЕРЕМЕННЫХ
Статистика встречается часто. Очевидно, что ее выборочным
распределением является распределение суммы 5И = ЁАГГ н.о.р. индуци-
1
рованных случайных переменных Xt.......Хп, которые определяются
как статистические копии случайной переменной X [см. „определение 2.2.1]. В табл. 2.4.1 и 2.4.2 приводятся распределения ЁХГ для различных случайных переменных X.
Таблица 2.4.1. Распределение сумм статистических копий X (X—дискретная). Эти распределения обсуждаются в (II, гл. 5]
Распределение X	Распределение S„
Описание	Описание
f(x)=P(X=x}	fnM=P(Sn=x)
Бернулли	Биномиальное (nj))
Л°)=1-Р ]о<п<1 Д1)=р	(£)р’х(1—рГ,~х.	х=0,1	п
Биномиальное (kj))	Биномиальное (nkj})
(x)px(l-p)k-x, 0<р<1,	
х=0,1	к	х=0,1,...,пк
Пуассона (0)	Пуассона (л0)
е~в9х/х\,	0>О,	х=1,2,...	е-пв(п9)х/х1,	х=0,1,2,...
Геометрическое	Отрицательное биномиальное распределение (Паскаля)
pfX—pf, 0<р<1,	( х)У(1—р)х,
х=0,1,2,...	х=0,1,2,..,
Отрицательное биномиальное	Отрицательное биномиальное
( х)р"(1—р)х,	а>0, 0<р<1,	х=0,1,2,...	CxV^l—РГ,	х=0,1,2,...
Замечание. Для а>0 и х-0,1,...
(~х) = (—аХ—а—!)...(—а—х+ 1)/х! = х сомножителей
=коэффициенту при tx в разложении степенного ряда (1+0-а«
43
Таблица 2.4.2. Распределение сумм статистжеских копий
X (X— негрерывная). Эти распределения обсуждаются в [II, гл. 11]
Распределение X	Распределение Sn
Описание /<х)=п.р.в. X от X Экспоненциальное <г~хё~х>0 Gamma (а,0) х>0 0*Т(а) N(/i,o) {—{х—ц)г/2аг) Равномерное (0,1) [ 1, 0<х<1; J’x>~ 10 в остальных случаях	Описание /и<х>=п.р.в. Эрланга с п стадиями = Gamma (лд) a~nxf'~ie~x,*/(n—1>!, х>0 (если а=1, то 2Sn имеет распределение х2 с 2п степенями свободы) [см. раздел 2.5.4,а] Gamma (па,/9) уЛО-1_—Х/(3 X" е	, х>0 0"“Г<ла) 1Ч(лд,<г/л) (2тл)^,/2а~*ехр {—(г—л/1)2/2ла2) £„/*)> 0<х<1, 7<х<2> А r-\<x<r,	=(„-i)!/nW л—1 <х<п, где	' ♦ 1<х> = (—1У+К")(х— г)"-', г=0,1	л—1
2.5.	ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ ФУНКЦИЙ НОРМАЛЬНЫХ ПЕРЕМЕННЫХ
Бдльшая часть статистической теории основана на поведении выборок из нормальных распределений. В этом разделе суммируются некоторые основные свойства нормальных переменных и связанных с ними статистик. Дополнительную информацию можно получить, обратившись, например, к работам [Hogg and Craig (1965), гл. 4, 13; Kendall and Stuart (1969), т. 1; Mood, Graybill and Boes (1974), гл. V, VI; Wilks (1961), гл. 8]. Указанные книги приведены в разделе С списка литературы.
44
р.5.1. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [см. II, раздел 11.4]
Говорят, что случайная переменная X имеет распределение N(/4,ct) или нормальное распределение с параметрами (дцст): с математическим ожиданием ц и стандартным отклонением ст, если ее функция плотности вероятностей (п.р.в.) в точке х [см. II, раздел 10.1] имеет вид
f(x) = (27гЛ'/2ст 'ехр {— (х—ц)2/2о2).	(2.5.1)
Эта функция показана на рис. 3.5.2.
2.5.2.	РЕЗУЛЬТАТ ЛИНЕЙНОГО ПРЕОБРАЗОВАНИЯ. СТАНДАРТИЗАЦИЯ
Если
У= аХ+Ь,
где X — N(/4,ct), ст(ст#0) и b — постоянные, то Y также распределена нормально, но имеет параметры (стд+b, ст|ст|). Этот результат получается с помощью теоремы 10.7.1 из т. II серии «Handbook of Applicable Mathematics».
Если X — N (д,ст), то ее линейная функция
и=(Х—р.)/о	(2.5.2)
определяет случайную переменную U, распределенную N (0,1). Это так называемая стандартная нормальная переменная. Ее функция плотности в точке и, обозначаемая обычно как ф(и) равна:
</>(ц) = (27г)-1/2ехр{—Гм2}, -«><„<-	(2.5.3)
Для функции ф(ц) имеются подробные таблицы, так же как для стандартного нормального интеграла, т. е. ее функция распределения (ф.р.) Ф(д) задана в виде
Ф(и)=Р(С7^и) = J <t>(z)dz.	(2.5.4)
--CW>
Таблица этой функции приведена в приложении 3.
С помощью результатов из раздела 2.5.1 таблицы Ф(и) могут использоваться для получения значений ф.р. любой нормальной переменной. Если X —	то можно записать
X = oU + р.,
откуда P(X^x)=P(oU+ ц^х)~
= P{U^(x—(так как ст>0)	(2.5.5)
= Ф[(х—J4)/CT|.
Таким образом, вероятность того, что X находится в заданном интервале (Xi,x2), выражается с помощью
Р(х^Х^х2)=Р(Х^хд-Р(Х^хд =	п .
= Ф {(х2-^)/о}-Ф {(л,-^/а}.
2.5.3.	ЛИНЕЙНЫЕ ФУНКЦИИ НОРМАЛЬНЫХ ПЕРЕМЕННЫХ
а)	Линейные функции независимых нормальных переменных. Пусть
Y~ й\Х\ + а2Х2 +... + апХп + Ь,
где Хг — независимые нормальные величины с параметрами (/4г,аг), 1,2,...,/?. Тогда	где
Х=«1^1 + а2у2 +... + апуп + Ь,	")	(2 5 7)
о/2 = a 2 a2t + д2ст2 +... + а гпа2	J
(см. II, раздел 11.4.5).
Как следствие центральной предельной теоремы [см. II, раздел 11.4.2] получаем, что Y будет приближенно даже в случае, когда сами величины Хг не подчиняются нормальному распределению.
Наиболее важное применение результат (2.5.7) находит, когда все X— N(y,o). Тогда
Х=(а}+.Лап)^Ь, 'l	(2 5 8)
а)2 = (а! +... + д„)а .	)
б)	Выборочное распределение среднего значения выборки. В частном случае, для которого справедлив последний результат, укажем распределение арифметического среднего X величин Хг. Если
X — (Х\ +Х2 +... + Хп)п, то распределение X—N(n,a/yfri). Этот важный результат дает нам выборочное распределение среднего значения х выборки из п наблюдений над нормальной случайной переменной X с параметрами (у.,о).
Ввиду важности среднего выборки в теории оценивания повторим замечание, которое следует за выражением (2.5.7) и касается приближения к нормальности. Оно сводится к тому, что распределение X приближенно N(/i,ct/V«) независимо (в широких пределах) от вида действительного распределения X [см. II, раздел 17.3].
в)	Линейная функция коррелированных нормальных переменных. Предположим, что Х\,Х2,...,Хп имеют совместное многомерное нормальное распределение [см. II, раздел 13.4], для которого EPQ = /4r, var(Xr)^(j^ r=l,2,...,/?, и corr(Xr,A^)= Qrs, r,s = 1,2,...,/?. Тогда 46
Y— UjXj +t?2^2 + ••• + ^rr^n +
N(X,w), где
X—ffi/x.! + a2fi2 + ... + an(in + b,
2 vv	(2.5.9)
w ^=^afljQijaiaj =
= Ea-ff* + 2EE<7 6r p,,(j.(T, = a Va.
i * * i j • J U * J
Здесь a -(aifa2,...,an) и V=(prsaras) — матрица ковариаций случайных величин Xl,X2,...,Xr [см. I, гл. 5 и 6].
г)	Несколько линейных функций коррелированных переменных. Предположим, что Х\,Х2,...,Хп имеют совместное многомерное нормальное распределение, как и в разделе 2.5.3, в). Получим следующий основной результат для линейных функций. Пусть
Yr = anX\ + anX2 + ... + arnXn + br, r-l,2,...,n,	(2.5.10)
где матрица коэффициентов А=(дг5) невырожденная [см. I, определение 6.4.2]. Тогда Y},Y2,...,Yn имеют многомерное нормальное распределение с
E(Yf) = annl+ar2ti2 + ...+arnnn + br, г=1,2,...,л,	(2.5.11)
и матрицей ковариаций [см. II, определение 9.6.3], заданной в виде
AVA,	(2.5.12)
где А'— транспонированная [см. I, раздел 6.5] матрица А, а V — матрица ковариаций Хг с элементами
Vr5=erACTP Г,5=1,2,...,77,
При ЭТОМ Qrs = Qsr для всех Г И S' И Qrr -1 для любого г.
Если вместо того, чтобы рассматривать все множество
п линейно независимых линейных функций от Х{,Х2,...,Хп, взять только подмножество Yx,Y2,---Xk (k<n) линейно независимых линейных функций, то это подмножество будет по-прежнему распределено по многомерному (^-мерному) нормальному закону с математическими ожиданиями вида (2.5.11). Его матрица ковариаций будет ведущей подматрицей размерности (kxk) [см. I, раздел 6.13] матрицы AVA из (2.5.12)
д)	Независимые линейные функции коррелированных нормальных переменных. Пусть Х1,Х2,...,Хп подчиняются многомерному нормальному закону как в разделе 2.5.3,в) и пусть их ковариационная матрица V представлена в виде
VSS,
где S — невырожденная матрица [см. I, определение 6.4.2].
Пусть матрица А из раздела 2.5.3,г) теперь имеет вид
A=S-1
47
[см. I, раздел 6.4]. Тогда Yr, определенные с помощью линейного преобразования (2.5.11), в совокупности подчиняются многомерному нормальному закону с матрицей ковариаций
AVA =S (SS)(S ) =1,
где I — единичная матрица [см. I, раздел 6.2]. Отсюда следует, что в этом случае Yr — взаимно независимые стандартные нормальные переменные.
е)	Независимые линейные функции независимых одинаково распределенных нормальных переменных. Результат при независимых Хг можно извлечь из пунктов в), г), д) раздела 2.5.3, взяв в качестве V диагональную матрицу [см. I, раздел 6.7]. Наиболее важен случай, когда Хг — одинаково распределенные независимые нормальные величины с общим математическим ожиданием, скажем д, и дисперсией ст2, так что дисперсионная матрица равна: V=o2l. Тогда, если линейные преобразования У,,У2,...,УЯ определяются в соответствии с (2.5.10), где матрица А — ортогональная, то ковариационная матрица переменных Yr примет вид ААст2 = 1ст2 и, таким образом, Yr остаются взаимно независимыми стандартными нормальными переменными.
Вообще, если строки матрицы А взаимно ортогональны [см. I, раздел 10.2], но не обязательно ортонормальны, т. е. произведение АА — диагональная матрица [см. I, раздел 6.7]
АА=diag(Z?b&2,... ,bn\
то Уг будут подчиняться многомерному нормальному распределению с матрицей ковариаций
CT2diag(Z>i,Z>i,--.,^2)-
Это означает, что Yr — взаимно независимые нормальные переменные с математическими ожиданиями, заданными выражением (2.5.11), и с дисперсиями, заданными в виде
var(Yr) = b2/}2, r=\,2,...,n-
В частности, любые к линейных функций (к^п)
Yj = ajxXl + ... + ajnXn + bj, j=l,2,...,k,	(2.5.13)
независимых, одинаково распределенных переменных XitX2,...,Xn, общее распределение которых N(jx,ct), будут взаимно независимыми нормальными при условии, что
Eairajr=0 для i^j.
Тогда E{Yd, E(Y2) и т.д. указаны в (2.5.11), а дисперсии задаются выражениями
var( У,)=ст2Ест2,
(2.5.14) var(y2) = ст2Ест22 и т. д.
48
Рис. 2.5.1. Функция плотности вероятностей f/z) из формулы (2.5.16) для распределения х1 при различных значениях параметра числа степеней свободы
2.5.4.	КВАДРАТИЧЕСКИЕ ФУНКЦИИ НОРМАЛЬНЫХ ПЕРЕМЕННЫХ
а)	Распределение хи-квадрат. Суммы квадратов независимых стандартных нормальных переменных. Квадратичные формы от нормальных переменных. Одним из наиболее важных классов квадратических функций в выборочной теории является класс функций, которые сводятся к суммам квадратов независимых стандартных нормальных переменных. Пусть U],U2,...,UV — независимые стандартные нормальные переменные [см. II, раздел 11.4.1] и пусть
Kv = u} + u\ + ...+ U2-	(2.5.15)
Эта величина называется случайной величиной х2 [см. II, раздел 11.4.11] с v степенями свободы (с.с.), или сокращенно — переменной Х2(р), или просто x2v. П.р.в. Kv в точке z равна:
4(Z)=Z(^ ^2/2"Т(±^), г>0.	(2.5.16)
Это унимодальное распределение [см. II, раздел 10.1.3], достигающее максимального значения при z-v—1 [см. рис. 2.5.1], имеет следующее математическое ожидание, дисперсию и коэффициент асимметрии:
E(K)=v, var(/Q = 2p, skew(K„) = 2V2/V?.
Замечание. Выбор символа Кг обусловлен желанием обозначать прописными латинскими буквами случайные величины. На практике чаще всего употребляются обозначения х2> или х2(р)’ или X2-Символ х2 обычно используется для обозначения реализации или от
49
делоного значения переменной Kv. Контекст помогает избежать двусмысленности.
Итак, если Z — гамма-переменная с единичным параметром масштаба и параметром формы «, то 2Z — переменная х2 с числом с.с. г=2а или, что равнозначно, Gamma a-переменная является переменной (4*Х2(1?)) с J/ = 2of.
Выделим случай, когда р = 2. П.р.в. для него имеет вид Ш =	z>0.
Таким образом, распределение хг оказывается экспоненциальным распределением с математическим ожиданием, равным 2.
Аддитивное свойство переменных хг- Сумма независимых случайных величин х2 является переменной х2- Одно важное и полезное свойство семейства х2 состоит в том, что оно замкнуто относительно сложения. Как видно из (2.5.15), справедливо следующее правило сложения: если С] и С2 — независимые переменные х2 с т и п степенями свободы (с.с.), то С! + С2 также будет переменной х2 с гп + п степенями свободы.
Это правило можно распространить и на суммы большего числа переменных.
Удобное обозначение: переменная кх2. Часто приходится иметь дело со случайной переменной Z, такой, что Z/k подчиняется распределению Хр- Тогда говорят, что Z является переменной кх2-
Квадратичные формы, имеющие распределение х2- Определение, данное в (2.5.15), можно переформулировать следуюгцим образом. Пусть u/=(t7i,[/2,...,t7|)), тогда [см. I, раздел 9.1] ии = Еи^ имеет распределение х2 с v степенями свободы.	1
Хорошо известно, что квадратичные формы, которые нельзя непосредственно выразить в виде сумм квадратов, можно путем преобразований свести к суммам квадратов преобразованных переменных [см. I, раздел 9.1]. Поэтому естественно задать вопрос, не могут ли такие формы иметь распределение х2- Основной ответ на этот вопрос, у которого много приложений, выражен в следующей теореме.
Теорема 2.5.1. Необходимые и достаточные условия для того, чтобы квадратичная форма от независимых стандартных нормальных переменных имела распределение х2- Пусть u=(t71,[/2,.,.,t7A.), где Ur — независимые, стандартные нормальные переменные. Пусть А=А обозначает симметрическую матрицу [см. I, раздел 6.7] с действительными неслучайными элементами. Неотрицательная квадратичная форма u'Au имеет распределение х2 тогда и только тогда, когда k2=k. В этом случае число степеней свободы равняется рангу (А)=следу (А) [см. I, разделы 5.6 и 6.2].
Пример 2.5.1. Выборочное распределение суммы квадратов выборки. Просто сумма квадратов стандартных нормальных случайных величин редко используется в качестве статистики, но связанная с ней статистика встречается часто и имеет большое значение. Это сумма квадратов отклонений наблюдений х\,х2,...,хп от среднего выборки х.
50
Такая величина
d2= Е(%(—х)2 часто называется суммой квадратов выборки. Когда наблюдения хг образуют выборку из нормальной генеральной совокупности с параметрами (д,ст) случайная величина (Р/о2 подчиняется распределению хи-квадрат с п—1 степенями свободы.
Чтобы увидеть, как это получается, рассмотрим Xi,x2,...,xn как реализации индуцированных случайных переменных XitX2,...,Xn, где Хг — статистические копии X, так что они являются взаимно независимыми N(n,o). Аналогично х рассматривается как реализация индуцированной случайной переменной (с.п.) X = 'ЕХг/п.
Тогда с.п., индуцированная d2 [см. определение 2.2.1], равна:
D2 = £(X:—X)2.
1 1
Далее Uj-iXj—n)/^ — стандартная нормальная случайная величина, /=1,2,...,п, a U ='LUi/n = (X—fi)/o, откуда
D2/<j2=£(U — U)2.
Хотя переменные UitU2,...,Un — взаимно независимы, переменные U\—U, U2—U ,...,Un—U — не являются независимыми, так как все они включают величину = В терминах вектора u =((/i,t72,
...,Un) имеем
D2/o2 — ЕС/—иС72 = ии—«(ul/и)2, 1 г
1 = (1,1,...,iy = и и—л (и 1)(1 и)/л2=u Au, где
А=1—117л.
При возведении в квадрат видно, что А=А2, обращаясь же к диагональным элементам А, а именно ((1—1/п),(1—1/л),...,(1—1/л)), видим, что tr(A) = n—1. Поэтому на основании теоремы 2.5.1 D2/o2 есть х2 с п—1 степенями свободы.
б)	Независимость суммы квадратов и среднего в нормальных выборках. Результаты, обсуждавшиеся в примере 2.5.1, являются частью следующей теоремы.
Теорема 2.5.2. Ортогональное разложение Т,(ХГ—ц)2. Пусть Х}, Х2,...,Хп — независимые N(/t,or) и пусть X =LXr/n. Тогда
Е(Х— id2/о2 = Е(Х—X )2/ст2 + п(Х — цУ/а2
и оба члена в правой части взаимно независимые х2-переменные с п—1 и 1 степенями свободы.
51
Эта теорема — частный случай более общего результата, представленного в теореме 2.5.5 в разделе 2.5.8. Она необходима для понимания Z-статистики Стьюдента [см. раздел 2.5.5] и для дисперсионного анализа [см. гл. 8].
в)	Таблицы распределения х2- Чтобы использовать результат, полученный выше, и другие, ему подобные, нужно иметь таблицу функции распределения (ф.р.), распределения х2 — для любого числа степеней свободы. Таблицы таких ф.р. существуют [см. список литературы], но наиболее доступные из них дают значения только в терминах процентных точек [см. раздел 1.4.2, п.7]. Вариант такой таблицы приведен в приложении 6. В ней содержатся значения величины Х2(а, v), такие, что
Р{Кр^х2М}=а	(2.5.17)
для различных значений а.
В таблицах, приведенных, например, в [Pearson and Hartley (1966)— G] x2(q!,p) указаны для 100qi=0,1; 0,5; 1; 2,5; 5; 10; 25; 50; 75; 90; 95; 97,5; 99; 99,5 и для
r = l(l) 30(10)100.
Та же информация [см. указанную выше работу] содержится в таблице (табл. 7) интеграла вероятностей (т.е. непосредственно функции распределения х2, где приводятся значения
P(KV^X2) Для 1(1)30(2)70 и
X2 = 0,001 (0,001 )0,010(0,01 )0,1 (0,1 )2(0,2) 10(0,5)20(1 )40(2) 134.
Таблицы распределения х2 и неполная гамма-функция. Неполной гамма-функцией [см. Abramowitz and Stegun (1970) — G] называют функцию
G(x, a)-\e~‘ta-xdt/'T{a')> a>Q.
0
Из (2.1.15) следует, что
G(x, a)=P(Kv^k), v = 2a, k=2x.
Таблицы x2 u распределение Пуассона. Если случайная переменная R подчиняется распределению Пуассона [см. приложение 2] с параметром 0, то
P(R^c)=Ee~eei/jl =
е	(2.5.18)
$P(Kv^k), v=2c, k=26.
К этому соотношению можно прийти, беря по частям [см. IV, раздел 4.3] интеграл, выражающий P(Kv^k). Этот интеграл равен:
f 2е-,ez/2dz/2cT(c) = J uc~,e~udu/r(c) =
28	9
=A(c,Q), = скажем,
=	I[—wc-’e-M]o + (c— 1) Tuc~2e~~Udu] =
52
= 0<-ie-0/(c— 1)! + А (с— 1,0) =
= 0с-1е-о/(с—1)! + 0с-2е-е/^с_ 2)! + А (с—2,0)
и т.д., пока не будет получен требуемый результат.
Эго свойство используется в табл. 7 из упомянутой выше работы. Таблица применима как в случае распределения х2, так и в случае распределения Пуассона.
г)	Выборочное распределение дисперсии выборки. В выборке Х],хг>...,хп из N(/i,a) дисперсию можно определить по-разному, а именно как	п
E(xt—x)2/n ( = V0)
или как	„
Е(х-х)2/(п-1)	(=v>).	(2.5.19)
Более употребительно второе определение, которое дает несмещенную [см. II, раздел 3.3.2] оценку ст2.
Рассмотрим более общую статистику
v=£(x —х)2/а(п),	(2.5.20)
где делитель а(п) — произвольная функция п, т.е. объема выборки. Эта величина является реализацией случайной величины
£(Х—Х)2/а(п),
где Хг — независимые N(^,ct). Ее распределение можно получить на основании теоремы 2.5.1, согласно которой a(n)V/a2 есть х2-перемен-ная с п—1 степенями свободы. Таким образом, выборочная п.р.в. для i(x—x)2/a(n) в точке z равна:
{a(n)},n-wlz,n-'iv2exp{—a(n)z/2o1}
------ (2-5-21)
(z>0), « = 2,3,...,
где а(п)-п при определении v0 и а(п) = п—1 при несмещенной оценке v, (2.5.19). Отсюда следует, что
E(V)=(n-Wa(n) = ^71)<г!/Л’
И	, ,
/Т7> ч/ п^/( / »2 (2(п—\)о*/п2,	а(п) = п;
[2oV7«-l),	<7^=я-1.
Итак, выборочная дисперсия несмещенной оценки v, параметра ст2, основанная на выборке объема п, равна:
2CTV(n—1).	(2.5.22)
д)	Выборочное распределение стандартного отклонения выборки. Стандартное отклонение выборки можно определить как
wn = ^(х-ху/а(п)),	(2.5.23)
где а(п) — подходящий делитель. Применение метода максимального правдоподобия [см. раздел 6.4.1] приводит к а(п)-п, в то время как
для получения несмещенной оценки w2n параметра а2 величина а(п) должна равняться (л—1) [см. пример 3.3.5]. В обоих случаях wn оказывается смещенной оценкой а, занижающей значение ст. Далее показано, что для п ^2 выбор а(п) в виде
а(п) = п—у
приводит к оценке ст, которая оказывается почти несмещенной.
Пусть V определяется, как и раньше, и пусть Wn(>0) определяется как
\у — jzi/2.	(2.5.24)
Тогда
Wn^\Z(Xr-Xy/a(n)\.
П.р.в. этой индуцированной случайной величины в точке W равна:
hn(w)=2wgn(w2), w>0,
где gn(z) задается формулой (2.5.21), отсюда [см. II, раздел 4.7]
Vw>=	^2exp(-a^wV2^) (w>0).	(2.5.25)
Таким образом, момент порядка г переменной Wn равняется: г, г ( 2<? }г/2 ni<r+w— Е^~1 а(п) 1	Г[|(и-1))	г~1>2
Смещение. В частности,
Е(^ = спа,
(2.5.26)
где
(2.5.27)
Сп~ а(п) Г{ f f«-l)).
Когда а(п)-п—1, что соответствует дисперсии выборки в виде Е(х-—х)2/(п—1) (несмещенной оценке ст2), стандартное отклонение выборки, определенное как
имеет выборочное ожидание спо, где
(2.5.28)
Г{ \(п-1)| V л-1 •
(2.5.29)
Эта величина всегда меньше единицы. Поэтому оценка (2.5.28) будет смещенной оценкой ст. Величину смещения иллюстрирует табл. 2.5.1. В ней же представлены значения а(п), которые превращают (2.5.23) в несмещенную оценку ст, а именно
а0(п) = 2Г2(±п)/Г2 [ |(п-1)}.	(2.5.30)
54
Таблица 2.5.1. Смещение оценок о
Объем выборки п	Выборочное ожидание "Г" /1	Значения а„(п), такие, что ^1	Г'а,,(п) | — несмещенная опенка о	? /1— 5
5	0,9400	3,534	3,5
10	0,9727	8,515	8,5
25	0,9896	23,502	23,5
50	0,9949	48,502	48,5
100	0,9975	98,501	98,5
200	0,9987	198,501	198,5
Числа во втором столбце (с^) табл. 2.5.1 показывают, что при /7 — 10, например, делитель п—1, использованный в (2.5.24), приводит к оценке о, выборочное ожидание которой равняется 0,9727а. В третьем столбце (ао(п)) показаны значения делителя, необходимые для получения несмещенной оценки о.
Из таблицы можно увидеть, что значение «несмещенного» делителя очень близко к п—3/2 (ср. с последним столбцом). Отсюда следует, что оценка V {Е/х,—F)2//»—3/2)) является превосходным приближением 1	1
к несмещенной оценке о.
Выборочная дисперсия оценки (2.5.23) параметра о. Из выражения (2.5.26) следует, что выборочная дисперсия оценки wn параметра о, определенная в (2.5.23), равна:
<2-5-3|>
где сп определено в (2.5.27). При а(п)-п, п—1 или п—3/2 она приближенно равна о2/2п с ошибкой, имеющей порядок величины п~2. В табл. 2.5.2 приведены ее числовые значения при а(п)-п—1 и п—3/2 для некоторых значений п вместе с приближением о2/2п.
Таблица 2.5.2. Выборочная дисперсия оценки wn=	х~у/а(п)\ в виде,
представленном в (2.5.31)
п	Приближенное значение о'/2п	Точные значения	
		а(п) = п— 1	а(п)~п—~
10	0,05	0,0539	0,0588
25	0,02	0,0207	0,0213
50	0,01	0,0101	0,0103
100	0,005	0,0050	0,0051
200	0,0025	0,0025	0,0025
55
Из таблицы видно, что смещенная оценка имеет несколько меньшую дисперсию, чем несмещенная, но приближение вида о2/2п чаще всего оказывается достаточно точным.
Вероятность того, что оценка укладывается в определенный интервал. Вычисления вероятностей, связанных со случайной переменной wn, определенной в (2.5.24), можно выполнять с помощью таблиц хи-квадрат [см. приложение 6], так как Кп_ {=a(nJW2/a2 распределена как х2 с п—1 с.с. Например, чтобы найти Р(0,98а	1,02а) при л = 25, нужно вычислить (взяв а(п)-п—1=24)
Кп_Л — (п— 1)И^/а2 = 24И^/а2, откуда
Р(0,98 W25/a 1,02) = Р {24(0,98)2 К24 24( 1,02)2} = = Р{ 23,05 ^К24^ 24,96).
(Для приложений такого рода недостаточны таблицы процентных точек, которые приведены в приложении 6. Пользуясь таблицами обычной функции распределения х2 из работы [Pearson and Hartley — G], находим, что вероятность равняется 0,115).
2.5.5.	РАСПРЕДЕЛЕНИЕ СТЫОДЕНТА (/-распределение)
Предположим, что X — нормальная случайная величина с параметрами (д,а) [см. II, раздел 11.4.3], что xx,x2,...,xn —„выборка наблюдений над X, так что среднее значение выборки х =Ёхг/п служит оценкой д и что
s2^E(x—x)2/(n—l)
можно взять в качестве оценки а2 [см. раздел 2.5.4,г)]. Как обычно, переменные Xt,X2,...,Хп вводятся как статистические копии X, хг рассматриваются в качестве реализации Хг для г=1,2,...,л. Тогда х и а2 оказываются реализациями соответственно
X = ЕХг/п, S2=i(X—X)2/(n—\Y
Из раздела 2.5.4,в) следует, что п(Х— g)2/a2 и (п—1)52/а2 — взаимно независимые переменные, имеющие распределение х2 с одной и п—1 степенями свободы соответственно.
Стьюдент (У. Госсетт) ввел случайную величину
s/y/n
которая называется отношением Стьюдента* (биографические сведе-
* А также стьюдентовым отношением, стьюдентовой дробью, стьюдентовым t и т.д. — Примеч. ред.
56
ния приведены в [Pearson and Kendall (1970) — D]. Выборочное распределение этой величины, имеющее большое значение при статистическом подходе, называется распределением Стьюдента с п—1 степенями свободы. Можно видеть, что /, определенная выше, является реализацией случайной величины _______
Г= п1'2(Х — n)/S =	,
5/о такой, что
(X-цУ/(<У/п) _ К, S2/°2	Кп_х/(п-\)
где	_
Кх=п(Х— fi)2/о2
И	п _
кп_х =(п— l)S2/o2= £(Х —Х)2/а2.
Таким образом, К{ и Кп_х взаимно независимые переменные, имеющие распределения х2 с одной и п—1 степенями свободы соответственно, а переменная Стьюдента Т, определенная выше, равняется
Дадим более общее определение отношения Стьюдента и его распределения в следующем виде.
Определение 2.5.1. Отношение Стьюдента. Случайная переменная Tv, которую можно выразить в виде Г, = v'V'XVTf.), где X и Kv — взаимно независимые случайные величины, имеющие распределения X2 с одной и v степенями свободы соответственно, называется отношением Стьюдента с v степенями свободы, а его распределение называется распределением Стьюдента с v степенями свободы.
Поскольку числитель и знаменатель Г2 — взаимно независимые переменные, пропорциональные х2-переменным, оказывается достаточно простым делом вывести распределение Т2 и, следовательно, распределение ГДсм. раздел 2.5.6]. В результате получим, что п.р.в. отношения Стьюдента Tv с v степенями свободы в точке w равна:
+	р=1,2,..„
где
bv = Г { (р+ 1 )/2) /Г(р/2)7(^).
Существует много таблиц распределения Tv (один из вариантов приведен в приложении 5).
П.р.в. симметрична относительно начала. Она качественно напоминает п.р.в. стандартного нормального распределения, но отличается более «массивными» хвостами (т.е. медленнее убывает). Этот эффект сильнее выражен для меньших значений v [см. рис. 4.5.1]. В
* Не совсем точно. Из этого соотношения можно узнать лишь |Т|. Та же неточность содержится и в определении 2.5.1. — Примеч. ред.
57
Рис. 2.5.2. Функция плотности вероятностей F „ для типичных значений • тип
частном случае, когда г=1, она совпадает с распределением Коши [см. II, раздел 11.7], а для значений v, превышающих 40, она очень близка к стандартной нормальной плотности.
Первые моменты Тр равны:
E(Tv)=0,
var(7;)=l + 2/(p—2),	г >2,
skew(TJ,)=0.
2.5.6.	РАСПРЕДЕЛЕНИЕ ОТНОШЕНИЯ ДИСПЕРСИЙ (^распределение)
a)	F как взвешенное отношение х2-переменных. Дисперсионный анализ, наиболее широко применяемый по сравнению с другими статистическими методами, в большой мере зависит от возможности сравнения взаимно независимых сумм квадратов, которые пропорциональны х2-переменным. Основной статистикой в нем является реализация случайной величины
_ Кт/т т'п Кп/п ’ где Кт и Кп — взаимно независимые х2-переменные с т и п с.с. Ее распределение называется F-распределением с т и п степенями свободы. Символ F — дань Р. Фишеру. Сам Фишер, однако, предпочитал статистику z=-ylnF(,.
Из определения 2.5.1 следует, что Г2, квадрат отношения Стью-дента (с п степенями свободы), имеет F-распределение с 1 и п с.с. (Может возникнуть вопрос, почему статистики не пользуются более простой случайной переменной Кт/Кп7 Ответ заключается в том, что коэффициент п/т в определении Fmn играет роль удобного нормирующего коэффициента. Математическое ожидание Fmn близко к единице, точнее говоря, оно равно п/(п—2) для всех значений т и п (п>2)).
Распределение Fmn можно вывести прямым вычислением. Функция плотности вероятности Кт в точке z равна fm(z), определенной в (2.5.15), поэтому п.р.в. Кт/т в точке х есть
hm(x) = rnfm(rnx).
Аналогично, п.р.в. п/Кп в точке у равна:
gn(y) = ny~2fn(n/y).
Наконец, п.р.в. Fmtn=(Km/m)(n/KJ является сверткой [см. II, гл. 7] и £„(•), откуда плотность F п в точке z выражается как
58
a(m,n)z("'~2}/2/{1 + ^zV'"""1
где
z>0,
a(m,n) =
r\(m + n)/2)	m . „,,‘2
Г(т/2)Г(п/2) ( n )
Типичная функция плотности вероятности показана на рис. 2.5.2. Ожидаемое значение и дисперсия даются выражениями
E(F„in) = n/(n-2),	">2,
И
var(Fw п) = 2п2(т + п—2)/т(п—2)2(п—4),	п > 4.
Заметим, что математическое ожидание зависит только от п.
Функция распределения (ф.р.) Fmn табулирована во многих справочных изданиях, но только в виде процентных точек (квантилей). В нашей таблице (см. приложение 7) приведены верхние процентные точки хр(т,п), такие, что
р{рт,п^хр(т’п)\=Р
для р = 0,05; 0,01; 0,001, для т=1(1); 10; 12; 15; 20; 24; 30; 40; 60; 120;
••• и п= 1(1); 30; 40; 60; 120; -
В табл. 7 из [Pearson and Hartley (1966), приложение Т7] можно найти дополнительные значения для р=0,25; 0,10; 0,05; 0,025; 0,01; 0,005; 0,001.
В таблицах, как правило, приводятся значения х , только такие, что хр>1. Для получения значений хр<1 можно пользоваться соотношением
х}_р(п,т)=	‘
Оно позволяет найти значения нижних процентных точек. Например, нижнюю 5%-ную точку для F (20,10) находят как х095(20,Ю) = = 1/х0 05(Ю,20). Поскольку для верхней 5%-ной точки F (10,20) таблица дает значение 2,35, для нижней 5%-ной точки F (20,10) получаем 1/2,35 = 0,426.
Эти результаты следуют из
P=p\Fm,n>Хр(т>”)} =Р{пК^тКп>хр=(т,п)\ =
= тКп/пКт 1 /хр(т,п)) =
= р\рп,т^х/хр(т’П)\ =
= \—P{Fnm^\/xp(m,n)\ = = ^—p{pn,m>xs_p(n,m)}.
б)	Связь между F-распределением и бета-распределением. Говорят, что с.в. Y имеет бета-распределение с параметрами (к,т), если ее плотность в точке у равна:
f(y;k,m)-yk-{(\—у)т~{/В(к,т),	O^j’^l,	(k>Q, m>Q),
где В(к,т) — бета-функция с параметрами к и т,
59
В(к,т)=\ик~\\—и)т~х -о
=X(k)V(m)/V(k+m)
[см. II, раздел 11.6].
Если U и V — независимые х2-переменные с 2к и 2т степенями свободы, а У= U/(U+ V), то У имеет бета-распределение с параметрами (к,т) [см. II, раздел 11.6.3]. Отсюда следует, что
т У _ U/2k к' 1—У V/2m
и поэтому переменная mY/k(\—Y) имеет ^^-распределение.
в)	Аппроксимация для F-распределения, когда одна степень свободы гораздо больше, чем другая. Если Fmn имеет F-распределение с т,п степенями свободы, нетрудно установить, что
Hm P\Fmn>f}=P{femf\,
где, как обычно, х2-переменная имеет распределение х2 с 'т с.с. Практическим следствием из этого является то, что при п>т
P{Fm,n^f}=P(x^rnf).
В качестве иллюстрации в Примере 5.10.1 рассматривается проблема оценивания
^*2,13061	0,66 } .
Она возникает из-за того, что число степеней свободы оказывается гораздо больше, чем в любой из существующих таблиц. Используя приведенную выше аппроксимацию, получим
P{F2 ]30б) <10,66} =Р(х2^ 1,32) = 0,6 (приближенно) (интерполируя с помощью таблицы распределения хг)-
Аналогично если в переменной Fm т^>п, то
P{Fm,nZA=P(x2n^n/f).
2.5.7.	КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ВЫБОРКИ
Пусть (^гУЭЛхгхУг),.--,^^ — выборка из п наблюдений пары случайных переменных (X,Y), которые имеют совместное двумерное нормальное распределение с коэффициентом корреляции е[см. II, раздел 13.4.6]. Коэффициент корреляции выборки г определяется как
г=А/уЦВС), где
Л = Е {(Xj—х )(у —у)} = Хх^—пху,
60
р =0,7
Рис. 2.5.3. Функция плотности выборочного коэффициента корреляции для нормальных распределений с а) р=0; б) р=0,7
В= t(x—x)2= ^х]—пх2,
п	п
С=Ш-7)2=Е^-«г2.
Выборочное распределение коэффициента корреляции выборки имеет п.р.в. в точке г, заданную в виде
уп—3
fn(r,Q) = -^^(i-Q2yn~')/2(i-r2yn-4>/2a(n,r,e),	-1 <Г< 1,
где
a(n,r,o)= Е Г2[(л+$— 1)/2}(2@г/7$!
5 = 0
Выборочное ожидание г имеет вид [см. раздел 1.4]
q + О(п~‘)
(относительно О см. раздел 1.4), а выборочная дисперсия —
(1—е2)2/л + ОГл-3/2).
Функция плотности вероятностей унимодальна [см. II, раздел 10.1.3] (для л>4). На рис. 2.5.3 представлены некоторые типичные случаи.
Преобразование Фишера. Выборочные распределения коэффициента корреляции выборки считаются слишком сложными, чтобы ими пользоваться для практических целей (за исключением случая, когда р=0). Вместо них применяется следующее преобразование, найденное Р. Фишером. Пусть*
z = acrtanh г = у In уу,	£=acrtanh q = yin .
* Приняты также обозначения arth г и th 'г.— Примеч. ред.
61
Тогда выборочное распределение z близко к нормальному с математическим ожиданием £+е/[2(л—1)] и дисперсией \/(п—3) [см. пример 5.2.2].
Когда q=0, это аппроксимирующее выборочное распределение становится нормальным с нулевым математическим ожиданием и дисперсией \/(п—3). Когда е=0, то точное выборочное распределение переменной г сводится к
fn(r; 0} = Ьп(\—г2Уп~^,г,	-1 <r< 1,
где
Ьп = Г{(п-\)/2}/[^Г[(п-2)/2}].
Отсюда получаем, что выборочное распределение величины
(п—2)1/2r/V (1—г2)
является распределением Стьюдента с п—2 с.с. [см. также раздел 2.7.5 и пример 5.2.1]. В дальнейшем Г() обозначает гамма-функцию [см. IV, раздел 10.2].
Дополнительную информацию по этому вопросу можно найти в книге [Fisher (1970), т. VI — С].
2.5.8.	НЕЗАВИСИМОСТЬ КВАДРАТИЧНЫХ ФОРМ. ТЕОРЕМА ФИШЕРА—КОКРЕНА. ТЕОРЕМА КРЕЙГА
При дисперсионном анализе, о котором говорилось в разделе 2.5.6 (а также в гл. 8 и 10), часто необходимо установить, будут ли определенные суммы квадратов взаимно независимыми. Главный критерий дает следующая теорема, известная как теорема Кокрена, или как теорема Фишера—Кокрена.
Теорема 2.5.3 (теорема Фишера—Кокрена). Пусть Ui,U2,...,Un — независимые стандартные нормальные величины. Пусть Qi,Qz,..., Qk — неотрицательные квадратичные формы от переменных Ui,U2,...,Un с рангами пх,п2,...,пк соответственно [см. I, раздел 5.6], такие, что
iu\ = Qx+Qi + ,...,Qk.
Qr будут взаимно независимыми х2-переменными тогда и только тогда, когда
п}+п2 + ... + пк = п.
В этом случае Qr имеет пг степеней свободы, г=\,2,...,к.
Далее приводятся две другие полезные теоремы.
Теорема 2.5.4. В обозначениях теоремы 2.5.3 предположим, что п
где Qi — х2 переменная с т с.с., a Q2 — переменная с неотрицательными значениями. Тогда Q2 имеет распределение х2 с п—т с.с. и независима от Qi.
62
Теорема 2.5.5. В обозначениях теоремы 2.5.3 предположим, что Q>Q\ и Q2 — неотрицательные квадратичные формы от переменных
U2,...,Un, такие, что
Q-Q\ +Q2,
причем Q и Q\ распределены как х2 с п с.с. и т с.с. соответственно.
Тогда Q2 распределена как х2 с п—т с.с. и независима от Q\.
Пример 2.5.2. Ортогональное разложение T,(Ur—д)2. Рассмотрим следующее алгебраическое тождество для независимых стандартных _____________________________________ п
нормальных переменных U2,...,Un (U =EUr/n): п	— п	_
Е U2 = п U2 + L(U-U )2 = 0, + Q2.
Ясно, что квадратичные формы Q} и Q2 неотрицательны. Очевидно, что ранг 0! равен 1, а ранг Q2 — п—1. Отсюда на основании теоремы 2.5.3 следует, что Q} и Q2 — взаимно независимые х2-переменные с 1 и п—1 с.с. соответственно. (Этот результат был установлен в примере 2.5.1.)
Иначе говоря, можно утверждать (причем в более простой форме), что, когда_£7 — нормальная переменная с параметрами (О, л-1/2), переменная Uni/2 будет стандартной нормальной. Откуда получим, что Qx-nU2 — х2-переменная с 1 с.с. Применение результатов теоремы 2.5.4 к указанному выше тождеству приводит к выводу, что 02 = П	__
= E(Ur—U)2 — переменная, имеющая распределение х2 с п—1 с.с.
Соответствующий результат для н.о.р. нормальных случайных величин Xi, Х2,...,Хп с параметрами (^,ст) основан на тождестве п	__ п	_
Е(Х-р)2 = п(Х -р)2 + Ъ(Х -X )2
или, скажем,
0= 01 + 02-
Здесь 0/ст2 — х2-переменная с п с.с., а 01/ст2 — х2-переменная с 1 с.с., откуда, согласно теореме, 02/ст2 — переменная с распределением х2 с п—1 с.с., независимая от 0t. Этот результат важен для проверки значимости среднего выборки с помощью /-критерия Стьюдента [см. раздел 5.8.2].
Пример 2.5.3. Сравнение двух средних. Тождество р+ч	р	<7	па
Е (х,-хУ = |И(у—уУ + Eft,-?21 + У (у-ГУ
требуется для применения критерия Стьюдента при сравнении средних У и z двух независимых выборок [см. раздел 5.8.4], скажем
^2,---1Ур) и (zi, Z2,---,z4), из нормальных генеральных совокупностей с одинаковой дисперсией ст2, но, возможно, с неравными ожидаемыми значениями. В приведенном выше тождестве
63
(yr, r=l,2,...,p,
r lzr_p, r=p+l,p + 2,...,p + q, — p+q _ _
и x = E xr/(p + q) = (py + qz)/(p + q) — общее среднее.
Записав тождество в виде
Q=Q\ + 02»
легко увидеть, что Q/o2, QJo2 и Qe/o2 суть х2-переменные с числом степеней свободы
P + q— 1, (Р— l) + (q— 1) и 1*.
Отсюда следует, что 01 и Q2 не зависят друг от друга.
Приведенные выше теоремы полезны в случаях, когда квадратичная форма расщепляется на две или более квадратичные формы. Когда же этого нет, например, когда просто даются две квадратичные формы и возникает вопрос, являются ли они независимыми, главную роль может играть следующая теорема.
Теорема 2.5.6. Теорема Крейга. Пусть 0; и Q2 — квадратичные формы от независимых нормальных переменных Х}, Х2,...,Хп с параметрами (р,а), причем Q. соответствует матрица k, a Q2 — матрица В. Случайные величины 0! и 02 взаимно независимы тогда и только тогда, когда АВ = 0.
Пример 2.5.4. Независимость х и s2. Пусть хь х2,...,хп — случайная выборка из нормального распределения с параметрами (g,ст). Установленную в примере 2.5.2 выборочную независимость х=Ъхг/п и s2 = t(xr—х)2/(п—1) можно продемонстрировать с помощью теоремы 2.5.6: рассмотрим квадратичные формы 01=(ЕАГГ)2 и 02 = t>(X —Х)2 = п	__ 1	1
= ЕХГ2—пХ2, в которых, как обычно, Хг — случайная переменная, индуцированная xr(r=l,2,...,n), а X — с.в., индуцированная х. Матрица А для 01 имеет вид 1Г/л, а для 02 матрица B I—1Г/л. (I — единичная матрица, Г = (1,Тогда АВ=11 (I—1Г/л> = 1Г—1(11)Г/л = = 11'—1Г (так как 1'1 = л> = 0, откуда следует, что 01 и 02 взаимно независимы. Предположим, что нас интересует, зависимы или нет линейная форма Z=EarA'r = aX и 02 = Е(Аг—X)2. Построим квадратичную форму Z2 = (a X)2 = Xaa Х = Х АХ, для которой матрица А равна аа'. Как и раньше, матрица В для 02 равна I—1Г/л. Тогда АВ= = аа(1—117и>=аа'—а(а/1)17л = аа/—ааГ (где а=аТ/и = Ъаг/п-<а). Элемент (r,s) в этой матрице равен ar(as—а). Он отличен от нуля для всех (r,s) за исключением случая, когда as = ot для всех 5, т.е. когда Z
* Надо добавить: при равенстве математических ожиданий исходных распределений. При неравных математических ожиданиях Q2/+ подчиняется нецентральному распределению х2. — Примеч. ред.
64
пропорционально выборочному среднему X. Таким образом, X не просто независима от S2; X (или линейная форма, пропорциональная X) оказывается единственной линейной формой от Хг, которая не зависит от S2. Например, в выборке объема 3 сумма Х}+Х2+Х3 независима от суммы квадратов выборки Е(ХГ—X)2, однако линейная комбинация Xi—2Х2+Х3 этим свойством не обладает.
2.5.9.	РАЗМАХ И СТЬЮДЕНТИЗИРОВАННЫЙ РАЗМАХ
Размахом гп выборки наблюдений Л'ь х2,...,хп над случайной переменной X называется разность х(п)—x(d между наибольшим наблюдением Xfnj и наименьшим наблюдением х(1> [ср. с разделом 14.3]. Пусть Х(п) и A(d обозначают случайные переменные, порождаемые х(л) и х(1), тогда размах индуцирует случайную переменную
Rn~X{n)~X^'
Если, например, X распределена равномерно в области (0,а), то п.р.в. Rn в точке г равна:
h(r) = n(n—1)г"-2(а—г)/а",	О^г^а,
с ожидаемым значением
E(R) = (n—l)a/(n + l) [см. II, раздел 15.5].
В приложениях математической статистики размах используется для оценки разброса в малых выборках. В случае выборки объема в два наблюдения размах в точности эквивалентен по информационному содержанию стандартному отклонению выборки. Когда п-2,
L(x—х у/(п— 1) =	хд2,
поэтому стандартное отклонение равняется точно г2/^2\ таким образом, г2 можно считать оценкой <г/2. Для выборок объема больше 2, но не превышающего 10 или 12 наблюдений, размах оказывается хотя и не эффективной [см. определение 3.3.5 и пример 3.3.10], но вполне приемлемой оценкой для произведения стандартного отклонения о с известным множителем генеральной совокупности [см., например, Hald (1957), гл. 12 — С]. При увеличении объема выборки относительная эффективность оценки уменьшается, и ею не рекомендуется пользоваться, когда объем выборки превышает 12 [см. Davies (1957) — С]. Для нормальных выборок существуют таблицы выборочного распределения так называемого стандартизованного коэффициента гп/а размаха [см. например, Hald (1952) или Owen (1962) — С].
Стьюдентизированный размах. Для образования стандартизованного коэффициента размаха гп/о из обычного размаха гп выборки надо знать стандартное отклонение а генеральной совокупности. Когда о неизвестно (это бывает чаще всего), предлагается заменить его подходящей оценкой. Если в распределении имеется статистика v, которая не зависит от гп и такая, что v/ст2 распределена по закону х2 с т с.с., то подходящей оценкой а будет величина Vv/щ, а статистика 65
r^) называется стьюдентизированным размахом [ср. с определением 2.5.1]. Стьюдентизированный размах необходим при построении по методу Тьюки совместных доверительных интервалов для нескольких параметров [см. Graybill (1976), табл. Т7].
2.6.	АССИМПТОТИЧЕСКОЕ ВЫБОРОЧНОЕ РАСПРЕДЕЛЕНИЕ х И НЕЛИНЕЙНЫХ ФУНКЦИЙ ОТ х
Наиболее богатые результаты получаются в выборочной теории (как показано на примерах в разделе 2.5), когда в ее основе лежит нормальное распределение. Хотя на практике абсолютная нормальность никогда не встречается, выборочная теория нормального распределения может применяться с некоторой приемлемой степенью приближенности благодаря следующим результатам (и их многомерным обобщениям). Они во многих случаях формулируются в терминах асимптотической нормальности, которая определяется ниже.
Определение 2.6.1. Асимптотическая нормальность при больших значениях п. Говорят, что статистика sn, основанная на выборке объема л, асимптотически нормальна с математическим ожиданием ц и дисперсией vn, если
lim Р( Sn~>l =(2-тг)-|/2 j е(u^/2du = Ф(у),
где S„ — случайная величина, индуцированная sn [см. определение 2.2.1], а Ф — функция стандартного нормального распределения.
Это определение практически можно интерпретировать как утверждение, что при больших п распределение sn с разумной точностью аппроксимируемо с помощью нормального распределения с параметрами (/z,Vvn). Например, отношение Стьюдента с п степенями свободы асимптотически нормально с параметрами (0,1), что можно трактовать как распределенное N (0,1) с хорошей степенью приближения при п >40.
Теорема 2.6.1 (теорема Хинчина). Если (х\, х2,...,хп) — выборка из распределения, которое имеет конечное математическое ожидание ft, то выборочное среднее х сходится по вероятности к ц. [см. определение 3.3.1].
Это означает, что при больших значениях п маловероятно, чтобы х существенно отличалось от ц,.
Теорема 2.6.2 (теорема Линдеберга). Если (х{, х2,...,хп) — выборка из распределения с конечным математическим ожиданием цис конечной дисперсией а1, то выборочное распределение среднего значения выборки х будет ассиметрически нормальным с математическим ожиданием ц и дисперсией а2/п при растущих п.
66
Этот результат является частным случаем центральной предельной теоремы [см. II, раздел 17.3]. Его практическая интерпретация состоит в том, что при больших п выборочное распределение среднего значения выборки х хорошо аппроксимируется (в разумных пределах) нормальным распределением с параметрами (д,а/7л).
Теорема 2.6.3 (теорема Муавра—Лапласа). Если случайная переменная R имеет распределение Вш(л, в) [см. II, раздел 5.2.1], то R — асимптотически нормальна с математическим ожиданием пв и дисперсией п0(1—0) [см. II, раздел 11.4.7].
Среди приведенных здесь и подобных им теорем исключительную практическую важность имеет следующая теорема (она представлена в форме, предложенной в работе [Wilks (1961), гл. 9 — С].
Теорема 2.6.4. Асимптотическое выборочное распределение g(x). Если (Х\, х2,...,хп) — выборка из распределения, которое имеет конечное математическое ожидание ц и конечную дисперсию о2, a g(x) — определенная функция х, то при соблюдении условий, устанавливаемых ниже, выборочное распределение g(x) будет асимптотически нормальным с математическим ожиданием g(jT) и дисперсией [см. определение 2.6.1].
Условия, налагаемые на функцию g, состоят в том, что g'(x) должна существовать в некоторой окрестности х=ц и что ^(/х)#0.
На основании этого результата можно показать, например, что в выборках объема п из различных распределений соответствующие асимптотически нормальные выборочные распределения для выборочного среднего х или для определенной функции g(x) оказываются такими, как это показано в табл. 2.6.1.
Таблица 2.6.1
Распределение с.в. X	g(x")	Асимптотически нормальное выОо-рочное распределение с.в. g(x~j	
		математическое ожидание	дисперсия
Распределение Пуассона с параметром 0[см. II, раздел 5.4]	2Vx	2<в	1/п
Gamma (0) (т.е. гамма-распределение с параметром формы в) [см. II, раздел 11.3.1]	2Ух	2V0	1/п
Bernoulli, (0) [см. II, раздел 5.2.2]	sin—1(2x—1)	sin-‘(20—1)	1/п
Геометрическое распределение с параметром в (т.е. с п.р.в. Р(Х=х)=(1—в)вх,~1 х=1,2,...) [см. II, раздел 5.2.3]	log[x(l + VT— 1/х))	и',2? 5)	1/п
Равномерное распределение (—Ев, Ее) [см.II, раздел 11.1]	vT21og(2r)	V121og0	4/п
67
2.7.	ПРИБЛИЖЕНИЕ ВЫБОРОЧНЫХ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ И ДИСПЕРСИИ НЕЛИНЕЙНЫХ СТАТИСТИК. ПРЕОБРАЗОВАНИЯ, СТАБИЛИЗИРУЮЩИЕ ДИСПЕРСИЮ. НОРМАЛИЗУЮЩИЕ ПРЕОБРАЗОВАНИЯ
2.7.1. АППРОКСИМАЦИЯ
а)	Функции одной случайной переменной. Внутреннее содержание понятия предела в математике состоит в том, что если последовательность {zn}, /7 = 1,2,..., сходится к пределу а при п— ««*. то zn должны стать приближенно равными а для всех достаточно больших значений п. Асимптотические результаты, описанные в разделе 2.6, которые будут справедливы в строгом смысле только в пределе, когда п-*-«•, оказываются приближенно верными для всех достаточно больших конечных значений п. К сожалению, нечасто встречаются случаи, когда легко сказать, насколько большими должны быть п, чтобы они стали «достаточно большими». На практике часто приходится использовать асимптотические результаты (или какие-либо результаты, основанные на них) в качестве приближения, когда п всего лишь умеренно большое или даже совсем не велико. Более того, может возникнуть необходимость в аппроксимациях выборочных распределений (или по крайней мере их математических ожиданий и дисперсий) для нелинейных функций от статистик, отличных от среднего значения выборки. Обычно в таких случаях возлагают надежду на грубые приближения к математическому ожиданию и дисперсии подходящей гладкой функции h(X) случайной переменной X, которые можно получить из нескольких первых членов (или даже из одного первого члена) разложения функции h(-) в ряд Тейлора [см. IV, раздел 3.6] в точке li-E(X). Такие аппроксимации имеют вид

(2.7.1)
var[h(X)] = {h^)]2a2
где /г=Е(Х) и <r2=varf.X>.
Эти аппроксимации часто берутся в простейшем варианте:
E[h(X)} =h(^ s.d[h(X)} = \h^)\o.
(2.7.2)
Так, например, при h(x) = l/X, имеем
Е(1/Х) = 1 /д, s.d(l /X) = а//?
Коэффициент вариации. Когда X — переменная с положительными значениями, ее изменчивость можно выразить в удобном виде с помощью коэффициента вариации (c.v.), определяемого как
68
c.v.(X)=s.d.(X)/E(X)=a/ti
[см. II, раздел 9.2.6].
Для функции h(X)=Xa аппроксимации (2.7.2) наиболее четко выражаются в терминах коэффициента вариации. Имеем
Е(Ха) = ца,
s.d.(Xa) = |а|/г“~1ст, поэтому
c.v.(Xa) = |a|c.v/A7
В частности,
c.v.(l/X; = c.v/X>.
Пример 2.7.1. Стандартное отклонение выборки. Предположим, что Y — нормальная переменная с параметрами (/х,а), и рассмотрим дисперсию выборки v-t(yr—у)2/(п—1) для выборки (уь у2,...^п). В
разделе 2.5.4 г) и д) показано, что порожденная (индуцированная) случайная величина V имеет математическое ожидание ст2 и дисперсию 2а4/(п—1). Для случайной переменной S=tzl/2, порожденной стандартным отклонением 5=v1/2 выборки, выражение (2.7.1) приводит к следующим приближениям для E(S) и varfS) после подстановки в (2.7.1) V вместо X, о1 вместо /л и 2а4/(п—1) вместо а2, если принять Л(/х) равным /х1/2:
E(S) = о+	4-’-’) = 11-1 /4М-1) 1»,
varfS) =	= <?/2(п-Г).
Точные значения (см. раздел 2.5.4] имеют вид
E(S)^o,
(== {(2п—3)/(2п—2)}	для больших п),
^(S) = d<n)o\	d(n) = 1- Д ,
(= 1 /(2л—4)	для больших п).
Аппроксимации (2.7.1) в этом случае оказываются довольно точными, как можно судить по некоторым численным значениям, представленным в табл. 2.7.1.
Таблица 2.7.1. Выборочное ожидание и дисперсия стандартного отклонения выборки из нормальной генеральной совокупности. Точные и приближенные значения
Объем выборки	Математическое ожидание		Дисперсия	
	точное	приближенное	точная	приближенная
5	0,940а	0,938а	0,116а2	0,125 а2
10	0,973а	0,972а	0,054а2	0,056а2
69
Объем выборки	Математическое ожидание		Дисперсия	
	точное	приближенное	точная	приближенная
20	0,987а	0,986а	0,026а2	0,028а2
50	0,995а	0,995а	0,010а2	0,0102а2
Не следует думать, что аппроксимации вида (2.7.1) всегда так •точны, как в этом случае. Менее благоприятные ситуации рассматриваются в [II, раздел 9.9].
б)	Функции двух случайных переменных. Формулы (2.7.1) можно обобщить на случай двух переменных. Пусть h(Xi,X2) — заданная дифференцируемая функция случайных переменных Х{ и Х2, где
Е(Хд = 1м,	Е(Х2) = ц2,
varfAF1) = о],	var(X2)=0^ согг(Х{,Х2)= q.
Тогда
E{h(XuX2)]=h(iw2)	(2.7.2)
и var {h(X\ ,Х2)} — Л2о^ + 2,hih2QO\<j2 +А2О2,	(2.7.3)
где hj = d[h(ni,ii2)]/dnj, j=\,2.
Когда %i и Х2 некоррелированны (и тем более когда они независимы), приближение для дисперсии сводится к
уаг(Л(ХьХ2)] =Л?а| + Л^	(2.7.4)
Пример 2.7.2. Дисперсия произведения и частного. Для произведения Х\Х2 независимых случайных переменных формула (2.7.2) становится точной, в то время как формула (2.7.4) для дисперсии дает приближение
varfXjXa) =
Соответствующей приближенной формулой для коэффициента вариации [см. раздел 2.7.1] будет
{сх.(Х,Х2)}2 = {c.v/%1)}2+ (c.v/%2)}2.
В этом примере легко указать точные формулы:
Е(Х},Х2) = 1гщ2, var (Х{ ,Х2)=Е(ХхХ2У-(у^2у = =E(X2dE(Xl)-^22 = ~ (Рл + /ч)(Р2 + Мг)—М1М2 = = 0102 + g! (72 + /4<Г1,
70
откуда
[c.v.(X,X2)\2 = (c.v.(X,)!2+ (c.v.(X2))2 +
+ |c.v.(X,))2|c.v.(X2))2.
Для частного X\/X2 получаем приближения
Е(Х\ /Х2) = м 1 М2»
var(X,/X2) = (д2/^) {а?/д2 + а2,/^} и
{c.v.(^/%2))2 = [c.v.(X1)]2 + (c.v.(X2) }2.
Таким образом, приближения для коэффициентов вариации ХГХ2 и Х{/Х2 совпадают.
2.7.2.	ПРЕОБРАЗОВАНИЯ, СТАБИЛИЗИРУЮЩИЕ ДИСПЕРСИЮ
а)	Общая формула. Когда данные возникают из подсчета (например, сколько стерильных образцов?), их выборочное распределение обычно биномиальное или пуассоновское. Трудности анализа связаны не только с тем, что наблюдения дискретны, но и с тем, что выборочная дисперсия зависит от неизвестного параметра. Например, если наблюдаемые доли успехов в двух совокупностях равны гх/п\ и г2/п2, то сравнение соответствующих вероятностей успехов 0^ и 02 затрудняет зависимость выборочных дисперсий Г] и г2 от параметров 0} и 02. (Именно они равны Л101(1—0J и л202(1—02) соответственно.) Ситуация упростится, если будет найдено преобразование, превращающее все биномиальные случайные величины в новые переменные, которые имеют постоянную дисперсию; сказанное относится и к пуассоновским переменным. Преобразования, которые в известной степени ведут к такой идеальной ситуации, можно вывести с помощью (2.7.1). Если X имеет ожидаемое значение 0 и дисперсию ст2(0), a Y-h(X) — преобразование X, то
уаг<У> = сР(0){ /г(0)}2.
Подбирая h{0) так, чтобы
a(0)h'(0) = k (=const), можно добиться того, что varfX) станет постоянной (приближенно). Это произойдет, если
при этом дисперсия преобразованной переменной Y=h(X) приближенно равна к1.
б)	Пуассоновские данные. Преобразования с помощью извлечения квадратного корня. Предположим, что X имеет распределение Пуассона с параметром 0, так что а2(0) = 0. Тогда (2.7.4) превращается в
Л(0) = ^0-1/2б70=<0	(£=±).
Это приводит к преобразованию х в
Vx	(2.7.5)
Наблюдаемые величины х(, х2,... преобразуются в Vxi, Vx2,...; преобразованные данные имеют выборочную дисперсию, приближенно равную 1/4.
Точность аппроксимации можно определить путем прямого вычисления var(v'JV) по формулам
var(VX)=0—{£(<¥) )2,
£(<*)= Ё	г=0,1,...).
Представления о точности аппроксимации дает табл. 2.7.2.
Таблица 2.7.2. Эффект стабилизации дисперсии с помощью преобразования квадратного корня пуассоновской случайной величины
е	Дисперсия «преобразованной переменной X	Дисперсия преобразованной переменной \Гх	е	Дисперсия «преобразованной переменной X	Дисперсия преобразованной переменной Гх
0,2	0,2	0,164	2	2	0,390
0,4	0,4	0,272	5	5	0,287
0,6	0,6	0,334	10	10	0,259
0,8	0,8	0,381	20	20	0,255
1	1	0,402			
Хотя на первый взгляд это преобразование не кажется особенно полезным в смысле достижения постоянной дисперсии, равной 0,25, на самом деле оно значительно уменьшает изменчивость дисперсии для значений параметра 0, которые меньше десяти, и поддерживает ее практически постоянной для больших значений.
Энскомб показал, что еще эффективнее преобразование
< 6¥+3/8) .	(2.7.6)
В этом случае, например, при 0 = 2 дисперсия равняется 0,2315, что уже совсем близко к нашей цели — значению 0,25 [см. Wetherill (1981), гл. 8 — С].
в)	Биномиальные данные. Преобразование арксинуса (или угловое преобразование). Если X следует распределению Бернулли с параметрами (0), то наблюдения хь х2,...,хп часто преобразуются в статистику х=г/п (г-хх +х2 + ...+хл), которая является обычной оценкой параметра 0. Выборочное распределение г— Binfn,0) с математическим ожиданием ц=п0 и дисперией а2=пв(1—0). Соответствующие значения для г/п — 0 и 0(1—0)/п. Попытаемся найти преобразование z=h(r/n) с постоянной выборочной дисперсией. С помощью (2.7.1) получим выражение
var/z> = {Л(0)) 20( 1 —0)/п,
72
у которого член в правой части будет постоянным (=£2), если
Это условие удовлетворяется, если принять*, что
/7(0) = 2A771/2sin-‘V0,
т.е. если взять
z=2A'/71/2sin-1Vr7w.
Эквивалентным и более удобным оказывается преобразование г в z/'lkJn, т. е. в
sin-1Vr7w.	(2.7.7)
Эта случайная величина имеет выборочную дисперсию, приближенно равную 1/4л. Модификация
sin-1/^^8,	(2.7.8)
м+1/4
предложенная Энскомбом, лучт’ле. Приближенная выборочная дисперсия для этой модификации равняется 1/(4л + 2) [см. Wetherill (1981), гл. 8 — С].
г)	Стабилизация дисперсии отклика с помощью взвешивания. Если при проведении линейного регрессионного анализа [см. раздел 6.5] выясняется, что рассеяние значений отклика у на графике данных изменяется систематически с изменением переменной х, то дисперсию можно стабилизировать путем простой процедуры взвешивания. Например, если выборочное стандартное отклонение у(х), т.е. отклонение значений у, соответствующих значению х, возрастает пропорционально значению х, то переход от у(х) к взвешенным данным,
z(x)=y(x)/x, будет стабилизировать дисперсию.
2.7.3.	НОРМАЛИЗУЮЩИЕ ПРЕОБРАЗОВАНИЯ
Поскольку нормальные наблюдения сравнительно легко исследовать, йасто бывает полезным преобразовать данные в приближенно нормальные.
а)	Логарифмическое преобразование. Положительные переменные с положительной асимметрией. Данные, которые могут принимать любые положительные значения, часто происходят из распределения с положительной асимметричной п.р.в. [см. II, раздел 9.10.1], напоминающего логарифмически нормальное распределение [см. II, раздел 11.5], гамма-распределение [см. II, раздел 11.3] или распределение х2 [см. II, раздел 11.4]. Если случайная переменная X распределена как логарифмически нормальная переменная, то ее логарифм будет нормальным (по определению). С помощью логарифмического преобразования можно добиться только приближенной нормальности для
* sin *x=arcsin х. — Примеч. ред.
73
Рис. 2.7.1. Графики ф.р. распределения х! и распределения xh на логарифмической вероятностной бумаге
случаев, когда оно применяется к случайным переменным, распределение которых лишь качественно напоминает логарифмически нормальное распределение. На рис. 2.7.1 изображены графики функции распределения (ф.р.) распределения х2 с различными значениями числа степеней свободы, а прямая линия соответствует ф.р. логарифмически нормального распределения (таким образом разграфленная бумага называется логарифмически вероятностной бумагой (ср. с разделом 3.2.2,а)).
б)	Логарифмическое преобразование переменных, значения которых ограничены сверху или снизу. Преобразование Фишера для коэффициента корреляции. Если значения случайной переменной X заведомо лежат в интервале (а,Ь), то значения преобразованной переменной Y- In {(X— а)/(Х— Ь)} могут изменяться от —°° до+~- Тем самым не исключается, что Y может быть приближенно нормальной переменной.
Это преобразование рекомендуется в случае коэффициента корреляции. Коэффициент корреляции г, рассчитанный по выборке п пар (Xj^p из двумерной нормальной совокупности [см. II, раздел 13.4.6], а именно
[ {Н Eyj-CEjJVn} ] 1/2
[см. раздел 2.5.7], имеет значения, лежащие в интервале (—1, +1). Выборочное распределение г сильно скошено, его точная форма зависит от значения q коэффициента корреляции в исходной генеральной
74
совокупности. Преобразованная статистика [см. § 2.5.7] z=llnlt^(=tanh-1r>	(2.7.9)
2	1—г
имеет почти нормальное выборочное распределение с математическим ожиданием
4-inp^ + 2	1—е
е 2(п—1)
и дисперсией
\/(п—3) (приближенно).
Это преобразование заметно упрощает вопрос о точности г как оценки е [см. пример 5.2.2].
в)	Нормализующие преобразования распределения х2- Хотя для распределения х2 [см. раздел 2.5.4, а) и гл. 7] существует много таблиц, иногда удобнее работать с приближенно нормальной функцией от х2. Обычно для х2-переменной с v степенями свободы используются следующие два преобразования:
1)	для v> 100 переменная
^=<(ад — V (2р—1)	(2.7.10)
приближенно распределена по стандартному нормальному закону; это приближение неплохо действует также для 30<р^100. Большую точность дает вариант:
2)	для р>30
Х= {(х2/^)1/3—(1— 2/9р)}/< (2/9р) —	(2.7.11)
приближенно нормальная стандартная переменная.
Например, при р=40 вероятность того, что х2-переменная будет превышать 51,805, равняется 0,100; аппроксимация (2.7.11) дает 1—Ф(х), где х=(1,0900—0,9944)/0,0745= 1,283, откуда 1— Ф(^=0,998, т.е. ошибка составляет 0,2%. Аппроксимация (2.7.10), для которой у=40 считается слишком малым, дает приближенное значение 0,98, т.е. ошибка составляет 2%.
г)	Преобразование с помощью интеграла вероятности. Пробиты. В принципе любая непрерывная случайная переменная поддается точной нормализации с помощью преобразования интеграла вероятности: если ф.р. X в точке х обозначить через F(x), то преобразованная переменная U-F(X) будет иметь равномерное распределение в области (0,1) [см. II, разделы 1.4 и 10.7]. Если обозначить ф.р. стандартной нормальной переменной в точке у через Ф(у) [см. II, раздел 11.4.1], то случайная переменная $(Y) будет равномерно распределена в области (0,1). Таким образом, преобразование X в Y, заданное соотношением
$(Y)=F(X) или
Y=$-'{F(X)},	(2.7.12)
75
Рис. 2.7.2. S-образная кривая
будет преобразовывать X в стандартную нормальную переменную.
Величина у=Ф~1(г) или чаще (чтобы избежать отрицательных значений)
у = 5 + Ф-‘^ называется пробитом z-
В разделах 2.7.4 и 6.6 описывается практическая реализация этой идеи. Подробное обсуждение ее применительно к исследованиям типа «доза — эффект» мож-
но найти в книге [Finney (1971)]. Другое преобразование такого же рода — преобразование типа «логит» можно найти в работе [Ashton (1972)]. В этом случае вероятность р заменяется на z=lnp/(l—р).
2.7.4.	ПРЕОБРАЗОВАНИЯ, ВЫПРЯМЛЯЮЩИЕ ЗАВИСИМОСТЬ
В тех ситуациях, когда согласно принятой гипотезе наблюдения у(х) должны лежать на кривой q(x) (с’учетом случайных ошибок), прежде чем прибегнуть к более сложным методам оценивания, имеет смысл по виду наблюдений выяснить, согласуются ли точки на графике с этой гипотезой. На глаз легче обнаружить отклонения от прямой, чем от кривой, поэтому полезно преобразовать данные так, чтобы кривая q(x) превратилась в прямую линию.
Хорошим примером может служить использование этой идеи при проверке нормальности выборки. Пусть для каждого х у(х) обозначает долю наблюдений, которые меньше х или равны ему, a q(x) — нормальная ф.р. Существует специальная разграфленная бумага, называемая нормальной вероятностной бумагой, которая имеет такую шкалу, что q(x) становится прямой линией [см. раздел 3.2.2, г), а также II, раздел 11.4.8].
Другой пример — анализ данных типа «доза — эффект», когда, например, требуется оценить токсичность реагента. Этот препарат не оказывает воздействия, если он достаточно сильно разведен; он становится умеренно действенным ядом при низких концентрациях; его действие усиливается при увеличении концентрации, и в конце концов он становится способным убивать всю выборку. Общепринятой мерой токсичности является доза, убивающая 50% организмов. Ожидается, что процент смертности у(х) организмов, подвергающихся воздействию яда в увеличивающихся дозах х, лежит на кривой, вид которой показан на рис. 2.7.2. Ее иногда называют 5-образной, сообразной, сигмоидой. Удобной моделью для такой кривой оказывается нормальная функция распределения с параметрами (^,ст). В этом случае проблема оценивания токсичности сводится к проблеме оценки парамет
76
ров fi и о. Прямой подход к этой проблеме включает получение последовательных приближений, которые можно упростить, используя пробит-преобразование, спрямляющее кривую [см. раздел 6.6].
2.7.5.	ПРЕОБРАЗОВАНИЕ ВЫБОРОЧНОГО КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ПРИ Q=0 В СТЫОДЕНТОВУ ВЕЛИЧИНУ
Для полноты изложения приведем преобразование коэффициента корреляции нормальной выборки, о котором уже была речь в разделе 2.5.7. Оно сводится к следующему.
Если г обозначает коэффициент корреляции выборки, вычисленный, как указано в разделе 2.5.7, для выборки из п независимых пар (*j, Ji), (х2, у2),...,(jc„, Уп), где хг — наблюдения над нормально распределенной случайной переменной X, а уг — наблюдения над нормально распределенной случайной переменной Y, причем X и Y независимы, то выборочное распределение статистики
fn—2)1/2r/V (1—г2)
будет распределением Стьюдента с п—2 с.с. [см. пример 5.2.1].
2.7.6.	ПРЕОБРАЗОВАНИЕ РАВНОМЕРНО РАСПРЕДЕЛЕННОЙ ПЕРЕМЕННОЙ В ^-ПЕРЕМЕННУЮ
В соответствии со стандартной теорией преобразований [см. II, раздел 10.7], если с.в. X имеет ф.р. F(x), то ее функция
Y=F(X)
равномерно распределена в области (0,1) [см. II, раздел 11.1].
Это известное преобразование с помощью интеграла вероятностей [ср. с разделом 2.7.3, г)].
Возьмем случай, когда X имеет экспоненциальное распределение с математическим ожиданием 2. Функцией плотности вероятностей для него будет
х^О, а функцией распределения —
F(x) = l— е-х/2, х^О.
Из сказанного выше следует, что
1—е-*/2
является равномерно распределенной переменной в области (0,1).
Разумеется, и
Z=e~x/2(=1—Y)
также имеет равномерное распределение. Верно и обратное: если Z равномерно распределена на (0.,1) и
Х=— 21ogZ, то X — экспоненциально распределенная переменная с ожиданием, равным 2; это означает [см. раздел 2.5.4,а)], что X представляет собой х2-переменную с двумя степенями свободы.
Фишер использовал этот результат для объединения уровней значимости нескольких статистических критериев [см. раздел 5.9].
77
2.8.	НЕЦЕНТРАЛЬНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ
2.8.1.	НЕЦЕНТРАЛЬНОЕ РАСПРЕДЕЛЕНИЕ ХИ-КВАДРАТ
Пусть
где Vr — нормальная переменная (дг,1) и V2,...,Vm взаимно независимы. Распределение Wm называется нецентральным распределением хи-квадрат с т степенями свободы и с параметром нецентральности *
1 т
Если Х=0, то это распределение сводится к обычному (центральному) распределению хи-квадрат [см. раздел 2.5.4, а)]. Альтернативное представление Wm имеет вид т	т
wm = yur+^
где Ur — независимые стандартные нормальные переменные. Частный случай, когда т = \, может быть представлен в виде
где U — стандартное нормальное распределение. Параметр нецент-ральности Х=у^?
К фундаментальным свойствам этого распределения относятся следующие:
1)	Е<И^=т+2Х;
2)	var<H^=2^+4X);
3)	производящая функция моментов Wm равняется:
E(expIFw0) = (1—20)-т/2ехр {2Х0/(1—20)},	0 < 0 < ±;
4)	п.р.в. Wm в точке w есть,,
/|Ч*Х)= Еg(k)h(w;\),
г=0
где gr(X) = е~хХ7г/ = п.р.в. распределения Пуассона с параметром X в точке г [см. II, раздел 5.4], и
hr(w;\) = {/2) /2“<'Т {a(r)},	w > О,
где
a(r)=-L(m + 2r),
такая, что hr — п.р.в. центрального распределения хи-квадрат с т + 2г степенями свободы [см. II, раздел 11.4.11];
* Параметром нецентральности чаще называют Ед2 [см., например, Л. Н. Большее, Н. В. Смирнов. Таблицы математической статистики. — М.: Наука, 1983.—С 18].—Примеч. ред.
78
5)	если Wm, и Wm„ — независимые нецентральное переменные х2 с т'т" степенями свободы и с параметрами нецентральности X' и X" соответственно, то +	— также нецентральная переменная х2
с т = т'+т" степенями свободы и параметром нецентральности X =	.
Наиболее важное применение это распределение находит при рассмотрении функции мощности (или функции чувствительности) критериев дисперсионного анализа [см. раздел 5.3.1]. Дополнительную информацию по этому поводу можно найти в работе [Graybill (1976), гл. 4]. Таблицы нецентрального распределения хи-квадрат приведены в работе [Harter and Owen (1970), т. 1—GJ.
2.8.2.	НЕЦЕНТРАЛЬНОЕ F-РАСПРЕДЕЛЕНИЕ
Нецентральным F-распределением с (т,п) степенями свободы и с параметром нецентральности X является распределение отношения nW/mZ, где W имеет нецентральное распределение х2 с т с.с. и параметром X [см. раздел 2.8.1], в то время как Z, которая не зависит от W, имеет обычное распределение х2 с п с.с.
Это распределение находит применение в тех же случаях, что и нецентральное распределение х2- Дополнительная информация и соответствующие таблицы можно найти в книге [Graybill (1976), гл. 4 и табл. Т 11]. Кроме того, таблицы приведены в [Harter and Owen (1974), т.2—G],
2.8.3.	НЕЦЕНТРАЛЬНОЕ РАСПРЕДЕЛЕНИЕ СТЬЮДЕНТА
Нецентральным распределением Стьюдента с т степенями свободы и параметром X называется распределение отношения
L4-X
VfV/m)
где U — стандартная нормальная переменная, а V — (центральная) Х2-переменная с т степенями свободы, причем U и V взаимно независимы.
Так, например, в выборке (хь х2,...,х^ из N(^,ct) со средним х и дисперсией У =	—х)2/(п—1) выборочное распределение статистики
t'-(x —ц + а)п1 /2/s
оказывается нецентральным распределением Стьюдента с п—1 с.с. и параметром
\-п1/28/а.
Наше заключение можно проверить, заметив, что t,_ (х—ц+8)/(р/>/п) _	l(x— n)/(a/yfn)} +\
S/a	V(Erx;—F)2/a2l/Vrn—1)
79
Эта величина является реализацией {(U+ X)V7}/V(x*), где Х=6л1/2/а и v — n—1, так как выборочное распределение х нормально с парамет-п рами	[см. раздел 2.5.3,6)], распределение переменной Е(х;—
—х)2/о2 — центральное распределение х2 с v=n—1 с.с. [см. пример 2.5.1], а числитель и знаменатель взаимно независимы [см. раздел 2.5.4, в)].
Применение этого распределения в случае чувствительности (или мощности) критериев значимости показано в разделе 5.3.2. Более подробная информация содержится в книге [Owen (1976)]. Соответствующие таблицы можно найти в работе [Resnikoff and Liebermann (1957) — G].
2.9.	ПОЛИНОМИАЛЬНОЕ (МУЛЬТИНОМИАЛЬНОЕ) РАСПРЕДЕЛЕНИЕ В ТЕОРИИ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ
2.9.1.	БИНОМИАЛЬНОЕ, ТРИНОМИАЛЬНОЕ И МУЛЬТИНОМИАЛЬНОЕ (ПОРЯДКА т) РАСПРЕДЕЛЕНИЯ
1)	Биномиальное распределение. Простым испытанием Бернулли считается статистический эксперимент, в котором возможны два исхода Ai и Аг (часто называемые успехом и неудачей). Пусть
Р(Ад=Рх, Р(А2)=р2, где
Р1+Рг = 1-
Важной случайной переменной оказывается полное число Rx появлений А2 в п независимых испытаниях; может возникнуть интерес к полному числу R2 появлений А2. Достаточно обсудить только одну из этих переменных, так как
7?1 +R2 = п.
Распределение Rx—Bin (п;Pi):
P(Ri =Л)=(^)pf'(l-Pi)n-fl,	г,=0,1,...,л	(0СР.С1).
Иногда предпочитают более симметричную запись:
Р<Г1’Г2)=
Г] =0,1,...,л; г2=0,1,...,п; гх+г2=п	(2.9.1)
(O^pi^l, 0^р2^1, Pi+p2 = l).
Отметим, что появление двух символов гх и г2 в (2.9.1) не означает, что мы должны рассматривать это выражение как двумерную функцию. Формула дает нам одномерную вероятность того, что Rx=rx,
80
при этом г2=п—Г\, или одномерную вероятность события /?2 = г2, при ЭТОМ Г1 = п—Г2.
2)	Триномиальное распределение. Очевидно, что при испытаниях, для которых возможны три исхода Ль А2 и Л3 с
P(A^ps, 5= 1,2,3,
И	Р1+Рг+Рз = 1,
совместное распределение R} и R2 полного числа появлений событий Л1 и Л2 при п независимых испытаниях будет обобщением (2.9.1), а именно
Р(гъг2,г2)=
Г1!Г2!Г3!
Г1,г2,г2=0,1,...,п; гх+г2 + г3 = п	(2.9.2)
(0^ps^l, 5= 1,2,3, Pi+p2+p3 = l).
Это дает выражения двумерных вероятностей P(7?i=ri, Р2=г2), при ЭТОМ Г3 — П—Г\—Г2, ИЛИ P(Rx-rx, R3=r3), При ЭТОМ Г2=П—Г\—г3, или, что аналогично, P(R2 = r2, R3 = r3).
3)	Полиномиальное (мультиномиальное) распределение (порядка пг). Теперь предположим, что существует т возможных исходов испытания, назовем их Ль А2,...,Ат, и пусть
P(As)=ps, s=l,2,...,m, причем
р1+р2 + ...+рт = 1.
Пусть Rj обозначает полное число появлений исхода Лу в п независимых испытаниях, j=l,2,...,m. Тогда совместное распределение R\, - ,Rm-i будет иметь вид
P(h, г2,...,гт_х, Гт)= —^—^рг...р^
Г1.Г2....Гт.
rs=0,l,...,n, s=l,2,...,m, rl+r2 + ...+rm = n	(2.9.3)
(0^ps^l, 5=1,2,...,щ, pl+p2 + ...+pm = l).
Это дает
P(Ri=rt, R2 = r2,...,Rm_l=rm_1) при rm = l—h— r2—...—rm_x или
P(Ri~fi> P2 — ^lf>yRm—2~^m—2’
C
Гх—Гг-...-Гт_2-Гт И Т.Д.
Таким образом, (2.9.3) задает вид распределения вероятностей любых т—1 из т случайных переменных Rlf R2,...,Rm, для которых Rx+R2 + ...+Rm = n. Оно называется полиномиальным распределением (порядка т) с индексом п и параметрами вероятности рх, р2,...,рт. Полиномиальное распределение с т = 2 — биномиальное, с т = 3 — триномиальное и т. д.
81
2.9.2.	СВОЙСТВА ПОЛИНОМИАЛЬНОГО РАСПРЕДЕЛЕНИЯ
а)	Первые моменты. Математические ожидания:
E(Rj)=npj, 7=1,2....т.
Дисперсии:
var(/ty=npy(l—Pj), j=l,2 т.
Ковариации:
cov(Rj, Rk)=—npjpk, j,k=\,2,...,m, j*k.
б)	Маргинальные распределения. Все маргинальные распределения также являются полиномиальными: в частности, маргинальное распределение /?у является биномиальным с параметрами <лу, р^, j=i,2,...,m; совместное маргинальное распределение Rj и Rk является триномиальным с параметрами (n;pj,pk), j,k=\,2,...,m(j^k) и т. д.
2.9.3.	ПОЛИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ КАК УСЛОВНОЕ ОТ СОВМЕСТНОГО РАСПРЕДЕЛЕНИЯ НЕЗАВИСИМЫХ ПУАССОНОВСКИХ ПЕРЕМЕННЫХ
В выборочной теории иногда оказывается полезным следующий результат. Предположим, что Xit Х2,...,Хк — независимые пуассоновские переменные с параметрами ц2,...,цк соответственно. Тогда распределение переменных Xt +...+Хк — пуассоновское с параметром 1ц), ц= ца + ... + цк, а условное распределение Xit Х2,...,Хк при фиксированной сумме Xi+X2 + ...+Xk=x имеет вид
P(Xx=Xi,...,Xk=xk | Х\ 4-... +Хк =х) =
_ П<е~^дгг/хг.9 _ х!	>хг
е-рцп/х! Т1(хг!) ц
В тривиальном случае, когда Ехг#х, эта вероятность равняется нулю, но когда Ехг=х, она совпадает с (2.9.3). Это показывает, что условное распределение — полиномиальное порядка к с индексом х и параметрами вероятности Р\, р2,...,рк, где р5 = (^/^), s=\,2,...,k.
2.9.4.	ТАБЛИЦЫ ЧАСТОТ
Совместное выборочное распределение частот является полиномиальным.
Предположим, что выборка из п наблюдений над непрерывной случайной переменной представлена в виде таблицы частот [см. раздел 3.2.2, б)] следующим образом:
Номер ячейки	1	2	...	к
Частота	/,	/2	•••	fk
Границы ячеек не обязательно должны быть равноотстоящими; если 82
наибольшее и наименьшее наблюдения равняются d и d', то ячейками могли бы стать интервалы (aj, aJ+l), j=O,l,...,k— 1, значений х для любого разбиения
d=a0<ai <а2<... <ak=d'.
Наблюдаемое значение х располагается в ячейке с номером j, если aj_l^x<aJ,	у =1,2...к.
Отсюда следует, что совместное выборочное распределение частот — полиномиальное порядка к с индексом п и параметрами
вероятности pit р2,...,рк:
pj=P(aj_i ^X<aj), j= 1,2....к.
(Аналогичные рассуждения с возможными модификациями вполне применимы, когда случайная переменная X дискретная).
2.10.	ЛИТЕРАТУРА ДЛЯ ДАЛЬНЕЙШЕГО ЧТЕНИЯ
В тексте даны ссылки на работы, приведенные в списке литературы в т. 2 Справочника. Дополнительная литература дается ниже.
Ashton W. D. (1972). The Logit Transformation with Special Reference to its Uses in Bioassay, Griffin.
Finney D. J. (1977). Probit Analysis, Third edition, Cambridge University Press.
Graybill F. A. (1976). Theory and Application of the Linear Model, Duxbury Press, Mass.
Owen D. B. (1968). A Survey of Properties and Applications of the Non-central t-dist-ribution, Technometrics 10, 445-478.
ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА
Крамер Г. Математические методы статистики /Пер. с англ.; Под ред. А. Н.
Колмогорова.—2-е изд., стереотипное.—М.: Мир, 1975.—Гл. 27—29.
Хан Г., Шапиро С. Статистические модели в инженерных задачах /Пер. с англ.; Под ред. В. В. Налимова.—М.: Мир, 1969.—396 с.
Хастингс Н., Пикок Дж. Справочник по статистическим распределениям /Пер. с англ.—М.: Статистика, 1980.—96 с.
Глава 3
ОЦЕНИВАНИЕ. ВВОДНОЕ ОБОЗРЕНИЕ
3.1.	ЗАДАЧА ОЦЕНИВАНИЯ
Когда статистики говорят о проблеме оценивания, они обычно имеют в виду ограниченное толкование этого термина: полученные данные предполагаются наблюдениями из одного или нескольких определенных семейств вероятностных распределений, в которых элементы отличаются друг от друга значениями одного или нескольких параметров. Задача оценивания состоит в том, чтобы извлечь из данных наилучшее статистическое приближение для неизвестных значений параметров, отвечающих наблюдениям, а также объективную меру точности этого приближения.
Выбор семейства распределений, соответствующего обсуждаемой задаче, может быть в некоторых случаях обстоятельствами дела указан более или менее однозначно. Однако во многих ситуациях этот выбор далек от единственности. Когда идет речь об оценивании неизвестной доли дефектных изделий в большой партии по случайной выборке из нее определенного объема [см. пример 2.1.1], вполне ясно, что надо подсчитать число дефектных изделий в выборке, а из организации выбора следует, что оно является реализацией гипергеометрического распределения [см. II, раздел 5.3]. При известных условиях это распределение удовлетворительно приближается биномиальным распределением [см. II, раздел 5.2.2]. Если говорят о средней длине изделий в партии, надо работать с семействами распределений длин. Каких именно семейств? В обсуждаемом примере разумно предположить, что флуктуации длин обусловлены многими причинами, поэтому, помня о центральной предельной теореме (см. И, разделы 11.4.2 и 17.3], будем считать это распределение (хотя бы приблизительно) нормальным [см. II, раздел 11.4.3].
В других случаях может не быть ни физических, ни каких-либо причин для того, чтобы предпочесть одно семейство другому; единственной основой для выбора остается сама выборка. Подходящим может оказаться более одного семейства. Этот пример показывает, что теория оценивания для своей завершенности требует метода, который позволил бы решить, может ли подобранное распределение разумно описать имеющуюся выборку. Этот вопрос «согласия» обсуждается в гл. 7.
84
Очевидно, что любая оценка неизвестного параметра должна основываться на выборке. Функция наблюдений (называемая статистикой [см. определение 2.1.1]), которая будет служить оценкой, обычно выбирается с учетом многих требований. Существуют два основных подхода. При первом каждое значение статистики рассматривается как наблюдение над выборочным распределением этой статистики: берут в расчет не только реальное наблюдение, но и все возможные потенциальные наблюдения. При другом подходе свойства оценки обсуждаются исключительно в терминах действительно наблюдаемых величин. Это подход правдоподобия.
Более распространен и развит подход с выборочным распределением. На нем основаны несмещенные оценки с минимальной дисперсией, байесовские правила, теория решений и т. д. Этому подходу посвящена ббльшая часть настоящей книги. Методы правдоподобия описаны не столь детально [см. разделы 3.5.4, 4.13.1, 6.2.1].
Рассмотрим пример статистического вывода. Предположим, что у нас есть десять одинаково надежных, но разноречивых измерений x1,x2,...,x10 веса некоторого образца. Какова же величина, скажем д, его действительного веса? Статистический подход постулирует, что различия между наблюдениями появляются из-за случайных флуктуаций условий эксперимента и наблюдения рассматриваются как реализации [см. II, раздел 4.1] набора случайных переменных XY,X2,..^Xi0. Затем предлагается особое семейство вероятностных распределений, к которому принадлежат эти случайные переменные. С учетом наших знаний об экспериментальной процедуре может оказаться разумным остановиться, например, на нормальном семействе, т. е. счесть Хг независимыми случайными величинами с общим нормальным распределением. Никакой другой информации, кроме этих десяти наблюдений, принимать в расчет не следует. (Альтернативное мнение изложено в гл. 15, посвященной байесовским методам.) Тот конкретный член нормального семейства, который приложим к нашим данным, определяется параметрами (д,а) с неизвестными значениями, которые мы должны оценить. В нашем примере мы отождествляем параметр д с неизвестной «действительной величиной» веса; параметр а — это мера изменчивости в наблюдениях, порожденной измерительной техникой [см. II, раздел 11.4.3]. Следующим шагом будет нахождение комбинаций наблюдений Л(Х1,...,%ю), которую мы будем использовать как статистику [см. раздел 2.1], чье численное значение дает приближенное значение для д и другой статистики, служащей тем же целям для ст. Эти численные значения позволяют получить оценки для д и а.
По причинам, которые будут ясны позже, могут быть использованы такие статистики:
1 ю
М = hi(Xi...Xl0) = jQ Ехг = х	(3.1.1)
85
и (среднее выборки)
ст=Л2(*1,*2 x10)=[s (хг—х)2/9]1/2=$	(3.1.2)
(стандартное отклонение выборки). (Здесь оценка параметра 0 обозначена как 0: мы будем также применять обозначения вроде 0* или ~0.) Оценивание и оценка. Численное значение оценки х, приведенной выше, можно рассматривать как реализацию индуцированной [см. определение 2.2.1] случайной величины
%=(%1+Л2 + ...+Х10)/10,
которая называется оценивателем, соответствующим оценке х *. Подобно этому оцениватель, соответствующий выборочному стандартному отклонению есть
5= [E(Jfr-X)2/9]1/2.
Эта мысль обобщена в следующем определении.
Определение 3.1.1. Оценка и оцениватель; стандартная ошибка. Оценка 0 параметра 0 по выборке х},х2,...,хп — это статистика [см. определение 2.1.1], скажем 0 = А (хьх2,...,хл), численное значение которой может быть использовано как приближение к неизвестной величине 0. Выборочное распределение § — это распределение случайной величины Т = h(XuX2,...,Xn), где Хг — случайные величины, индуцированные хг [см. определение 2.2.1]. Случайная величина Т — это оцениватель, соответствующий оценке 0. Какая-либо подходящая оценка стандартного отклонения Т называется стандартной ошибкой 0 [см. раздел 4.1.2].
В (3.1.1) и (3.1.2) есть два параметра ц и а, оцениваемых статистиками /2 = х и ст = S соответственно. Порождаемые ими случайные величины — это X = (*] +х2 + ...+хп)/п для выборки объема п и
S= [t(Xr — Х)2/(п — 1)]1/2.
X и S взаимно независимы [см. раздел 2.5.4, в)]; X распределена нормально с математическим ожиданием д и дисперсией ст2/п. Распределение S легче всего описать, сказав, что величина 9S2/«г2 распределена по закону хи-квадрат [см. раздел 2.5.4, а)] с 9 степенями свободы.
В каком смысле х хорошая оценка для д?_На этот вопрос можно ответить так: маловероятно, что реализация X сильно отличается от ц; для любого фиксированного положительного Д и для любого фиксированного X вероятность того, .что X лежит в интервале X ± Д, максимальна, если X = ц.
* В оригинале — estimator. Термин «оцениватель» возможен, но в литературе на русском языке он практически не употребляется. В дальнейшем термин «estimator» будем, по возможности, переводить как «оценка». — Примеч. пер
86
Это показывает, что оценка У удовлетворяет некоторым требованиям, предъявленным к хорошим оценкам ц. Мы не хотим этим сказать, что лучшей оценки не может существовать: если, например, и = й(Х1,...,хл) — такая статистика, что индуцированная переменная U с большей вероятностью лежит в_интервале д ±Д, чем X, то мы можем считать, что U лучше, чем X, оценивает д . Если бы неравенство
P(U € д ± Д) >Р(Х € д ± Д)
было справедливым для всех значений д и Д, то U была бы равномерно лучше, чем X, в соответствии с этим критерием.
Наши рассуждения приводят к идее о том, что свойством хорошей оценки должна быть высокая концентрация вероятности около истинного значения параметра. Мы скажем, что оценка Т имеет равномерно наибольшую концентрацию относительно 0, если для любой другой оценки Т
р(е — \1<т<е+х2)^Р(0 — Х!<г<0+х2) (зл.з)
для всех положительных Xi и Х2. К сожалению, оценок с таким свойством, как правило, не существует; приходится руководствоваться более скромными соображениями [см. раздел 3.3].
Возвращаясь к нашему примеру, включающему среднее нормальной выборки с параметрами (д,а) объема п, воспользуемся хорошо известным фактом, что с вероятностью 0,95 реализация х случайной переменной X окажется в интервале д±1.96ог/Тл [см. приложение 3 и 4].
Заменяя неизвестное а/7л ее оценкой i/Vw (стандартной ошибкой д), перефразируем сказанное выше: с высокой вероятностью значение х будет отстоять от д не более чем на 2$7Vn; потому неизвестное д будет лежать на расстоянии, не превышающем 2s/Vn, от значения У.
Это довольно грубое утверждение можно существенно уточнить, например, в терминах доверительных интервалов [см. пример 4.5.2]. Тем не менее оно интуитивно понятно. В статистической практике стандартная ошибка оценки широко применяется как мера точности этой оценки и как основа для более сложных мер.
Существуют разные мнения о том, какова должна быть эта мера. Некоторые статистики считают, что удовлетворительное решение (проблемы) дает байесовский подход [см. гл. 15]. В соответствии с этим подходом выборку не считают единственным источником информации и стремятся использовать также ту информацию, что была до проведения опытов (априорную), например уверенность в том, что значение д не меньше 100 г и не больше 400 г. В других случаях первичная информация может быть более содержательной. Как происходит прирост этой априорной информации? Предлагается мыслить неизвестное д как реализацию некоторой случайной переменной, имеющей какое-то априорное распределение. В свете же имеющихся на
87
блюдений это неизвестное значение надо рассматривать как реализацию другого — апостериорного — распределения, т. е. условного распределения ц при фиксированных значениях наблюдений.
С помощью теоремы Байеса [см. гл. 15] можно найти это вероятностное распределение возможных значений ц. С его помощью, используя значение х, можно строить вероятностные интервалы любого уровня для неизвестного ii (например, 0,95). Такие выводы — это как раз то, что хотелось бы получить. Есть конечно, определенная степень произвола в выборе априорного распределения. Более серьезная же трудность состоит в том, что для многих статистиков концепция априорного распределения в таких условиях неприемлема. Некоторые из них будут возражать не только против априорного распределения, как не имеющего объективного характера; они скажут, что с неизвестной величиной ii, являющейся константой, нельзя обращаться как со случайной переменной. И все же эти доводы не окончательны. В терминах нашего примера: если ст будет, скажем, равной 10 г, а х равным 125 г, то постулированное значение 200 г для ц надо рассматривать как неправдоподобное в том смысле, что неправдоподобно получить как реализацию значение 125 из нормального распределения N(ji,d) с ц = 200 и ст = 10. Даже Р. Фишер, убежденный противник байесовского подхода, принял подобную точку зрения и развил фидуциальный подход, определенным образом приписывающий вероятность возможным значениям ц, не привлекая идеи априорного распределения. Несмотря на редкостные аналитические способности Р. Фишера и его глубочайшую статистическую интуицию, теория фидуциального вывода так и не была представлена научному статистическому сообществу в достаточно убедительной форме. Она так и не стала частью принятого канона [см. Kendall and Stuart (1973), т. 2, гл. 21; Barnett (1982) — С].
Тем, кто не готов встать на точку зрения, согласно которой вероятность может быть приписана интервалам возможных значений величины ц, остается ограничиться стандартной техникой обращения с вероятностными утверждениями относительно х, которые дают возможность для косвенных вероятностных утверждений о ц, а именно:
1)	доверительными интервалами и/или критериями значимости;
2)	теорией статистических решений с предписанными значениями риска для возможных ошибок;
3)	приписывая постулируемым значениям неизвестного ц степени относительной приемлемости, которая пропорциональна их правдоподобию. Эти концепции обсуждаются более детально в гл. 4. Соответствующая литература указана в разделе 3.6.
Точечное оценивание и интервальное оценивание Целью практической процедуры оценивания должен быть не только выбор отдельной статистики, численное значение которой будет обеспечивать требуемое приближение («оценку») искомых параметров, но и построение подходящей меры точности этой оценки. Таким образом, существуют два аспекта одной и той же задачи. Тем не менее часто удобнее обсуждать их порознь; в таком случае выбор статистики называется точечным оцениванием, а определение ее точности — интервальным оцениванием.
88
3.2.	ИНТУИТИВНЫЕ ПРЕДСТАВЛЕНИЯ И ГРАФИЧЕСКИЙ МЕТОД
3.2.1.	ВВЕДЕНИЕ
Интуиция подсказывает нам, что выборка подобна совокупности, из которой она взята. Это — основа теории оценивания. Чтобы использовать эту пока еще не определенную мысль, нужно уточнить методы описания выборок, в каком-то смысле аналогичные методам описания совокупности. Основные такие методы для совокупностей состоят в следующем:
1)	прямое или косвенное описание полного распределения; прямое описание в терминах плотности или функции распределения [см. раздел 1.4.2, пункт 1)], косвенное в терминах одной из стандартных производящих функций [см. II, гл. 12];
2)	описание отдельных свойств полного распределения, таких, как первые моменты [см. II, раздел 9.11], избранные процентные точки [см. раздел 2.5.4, в)] и т. д.
У всех этих объектов существуют выборочные аналоги. Выборочные аналоги производящих функций вероятностного распределения (плотности, моментов и т. д.) не нашли широкого применения и не будут далее обсуждаться в этой книге. Выборочные аналоги моментов распределения рассматривались детально в гл. 2. Темой настоящего раздела остаются выборочные аналоги плотности распределения (п.р.в.) и функции распределения вероятности (ф.р.). Мы продолжим их обсуждение в разделе 3.2.2.
3.2.2.	ЧАСТОТНЫЕ ТАБЛИЦЫ, ГИСТОГРАММЫ И ЭМПИРИЧЕСКАЯ ф.р.
а)	Дискретные данные. Частотная таблица — основной метод представления информации, содержащейся в выборке. Для дискретной одномерной случайной переменной [см. II, гл. 5] R, определенной, скажем, на неотрицательных целых числах, — это просто таблица, указывающая, сколько раз число г встречается в выборке г=0,1,2,...; или (что эквивалентно) указывающая отношение этого числа к объему выборки п. Эти числа называют соответственно частотой fr наблюдения г и относительной частотой fr/n наблюдения г. Накопленная частота сг — число наблюдений х, для которых х<г; эти величины, деленные на объем выборки п, называются относительными накопленными частотами сг/п.
89
Пример 3.2.1. Данные Резерфорда и Гейгера о числе а-частиц, испущенных радиоактивным источником за 7,5 с, содержатся в столбцах 1 и 3 табл. 3.2.1.
Таблица 3.2.1. Частотная таблица по данным Резерфорда и Гейгера
Номер временного промежутка г	Число испущенных частиц	Частота Л	Относительная частота (%) 100/,/и	Накопленная частота сг=Ь/ 0	Накопленная относительная частота (%) 100сг/л
1	2	3	4	5	6
0	0	57	2,19	57	2,19
1	1	203	7,78	260	9,97
2	2	383	14,69	643	24,65
3	3	525	20,13	1168	44,79
4	4	532	20,40	1700	65,18
5	5	408	15,64	2108	80,83
6	6	273	10,46	2381	91,30
7	7	139	5,33	2520	97,01
8	8	45	1,73	2565	98,35
9	9	27	1,04	2592	99,39
10	10	10	0,38	2602	99,77
11	11	4	0,15	2606	99,92
12	12—14	2* (f\l +/1Э +/14 = 2)	0,08*	2608 (=<•14)	100,00
	Общее п	2608	100,00		
Основные сведения, а именно частоты, приведены в столбце 3. Общая сумма по этой колонке равна объему выборки п (=2608). В таблицу, правда, не входят отдельно частоты /и, Лз,/м- Вместо этого приведена «группированная частота» /1г+/1з+./14 = 2, выделенная как 2* в столбце частот 3. Это принятая практика в частотных таблицах — объединять таким образом малые частоты. В этой таблице только одна сгруппированная частота, но вообще их может быть и несколько.
Выборочный аналог п.р.в. Столбец 4 табл. 3.2.1 содержит величины относительных частот, выраженные в процентах от общего п (=2608). (Отмеченное звездочкой число 0,08 — это группированная частота /12+/13+/14» выраженная в процентах от общего целого.) Таблица относительных частот — это выборочный аналог таблицы вероятностей [см. II, раздел 4.3.1] рассматриваемой случайной переменной R.
90
Накопленные частоты в столбце 5 являются частичными суммами столбца частот. Из-за группирования 12—14 пропадают значения ct2 и Си, но См остается. Наконец, в последнем столбце приведены значения сг в процентах от объема выборки. Естественно, последнее число здесь равно 100, поскольку 1ООЧ7о наблюдений удовлетворяют условию х^14. Этот столбец дает выборочный аналог ф.р. (функции вероятностей) [см. II, раздел 4.3.2] изучаемой случайной величины. (Столбец Г нужен только ради нумерации строк.)
В рассмотренном примере мы имеем дело с 13 частотами, скажем Zo, Zj,...,Zi2> где
Zr=fr, /•=0,1.11,
И
Z12 =/12 +/13 +/14-
Выборочное распределение [см. раздел 2.2] этого вектора с 13 компонентами — полиномиальное [см. II, раздел 6.4.2]. Следовательно, математическое ожидание [см. раздел 2.3.1] частоты zr равно итгг, г=0,1,...,12, где л=2608 — объем выборки, а тгг — вероятность того, что наблюдение попадает в ячейку г. Аналогично математическое ожидание относительной частоты zr/n равно ттг. В нашем примере, где R — число частиц, испущенных в случайно выбранный интервал времени продолжительностью в-7,5 с, мы получаем:
7Г0=Р(Я = 0),
7Г1 = P(R = 1),... ,7Г,, = P(R = 11),
7Г,2=Р(12^/?С 14).
В настоящем случае разумно предположить, что R имеет пуассоновское распределение [см. II, раздел 5.4]. Если бы частотная таблица не содержала никаких группированных частот, подходящей оценкой пуассоновского параметра X было бы значение среднего выборки. Объединение /г, /,з и /,4 в принципе усложняет задачу оценивания, но сгруппированные частоты столь малы по отношению к объему выборки (2 и 2608), что интуитивно ясно — влияние группировки частот на величину оценки будет незначительным. Подсчеты с применением метода максимального правдоподобия подробно описываются в примере 6.7.1.
Для наших целей с достаточной степенью точности мы вычисляем оценку, которая должна быть средним значением выборки, так, как будто каждое группированное наблюдение попадает в среднюю клетку, т. е. г=13. Оценка в этом случае равна 3,871.
91
Р(Я=г)=е-ХХг/г!, г=0,1,...,11;
/	^14\
Р(12^/?<14) = е-М 12! + 13! + 14!/’
Х=3,871.
Ниже сопоставляются исходные частоты и их ожидаемые значения в случае выбранного модельного (пуассоновского) распределения. Это показано в табл. 3.2.2, где ожидаемые частоты округлены до ближайшего целого:
г
ТГг= <
причем
Видимое согласие между частотами и их ожидаемыми значениями служит хорошим подтверждением правильности выбора пуассоновского распределения. Такое же согласие обнаружилось бы и между относительными частотами и их ожидаемыми значениями тгг; это подтверждает, что относительные частоты служат естественным аналогом п.р.в. (Объективный критерий близости для наблюдаемого согласия рассмотрен в гл. 7.)
б)	Столбцовые диаграммы и гистограммы для дискретных данных. Рассмотрим частотную таблицу, полученную на основе табл. 3.2.1 вычеркиванием строки, соответствующей ячейке 12. (Эту частотную таблицу мы получили бы, если бы не было зарегистрировано ни одного наблюдения, превышающего 11.) Такую частотную таблицу без группированных частот можно представить графически в виде столбцовой диаграммы, т. е. последовательностью вертикальных отрезков (ординат) длины fr с абсциссами г, г=0,1,...,11. Она представлена на рис. 3.2.1.
Для наглядности столбцы можно расширить до тех пор, пока они не станут касаться друг друга. Теперь частоту fr изображает прямоугольник высоты fr', центр его основания — абсцисса г, левая и правая границы основания — г —А- и г+у ^см‘ Рис- 3.2.2]. Высота столбца численно равна площади прямоугольника: шкала высот превращается в шкалу площадей, так что полная частота события г=6, г=7, г=8 представляется суммой площадей прямоугольников с центрами в г=6, г=7, г=8. Граф дает пример гистограммы для дискретных данных с равномерной группировкой.
92
Рис. 3.2.1. Столбцовая диаграмма для табл. 3.2.3
Теперь предположим, что некоторые отдельные частоты объединены в группы (переход от табл. 3.2.3 к табл. 3.2.4). Здесь объединены ячейки, соответствующие г=0 и г=1, равно как г=6 и г=7, а также г=8, 9, 10 и 11. Дополнительно включены данные для г=12, 13 или 14, которые уже были сгруппированы в исходной частотной табл. 3.2.1. Для этой новой частотной таблицы с неравномерной группировкой графическая интерпретация сохраняет, насколько это возможно, основные черты рис. 3.2.2. Графическое представление объеди
Рис. 3.2.2. Столбцовая диаграмма для табл. 3.2.3, столбцы которой расширены
93
ненных частот 57 и 203, соответствующих г=0 и г=1, должно наглядно изображать слияние отдельных прямоугольников для г=0 и г=1 в объединенный прямоугольник, высота которого равна среднему из отдельных высот. Кроме возможностей визуальной интерпретации, этот метод сохраняет удобную шкалу площадей рис. 3.2.3. Этот пример поясняет, как принятое ранее соглашение о том, как изображать гистограмму группированных дискретных данных, действует в случае неравномерной группировки. Гистограмма частотной табл. 3.2.4 показана на рис. 3.2.3.
Таблица 3.2.2. Сравнение частот с их ожидаемыми значениями
{см. пример 3.2.1]
Число испущенных частиц	Частота Л	Ожидаемая частота (округленно) Л1Г,		Число испущенных частиц	Частота Л	Ожидаемая частота (округленно) пт.
0	57	54		7	139	140
1	203	211		8	45	68
2	383	407		9	27	29
3	525	525		10	10	11
4	532	508		11	4	4
5	408	394		12—14	1	1
6	273	254				
		Общее п		=2608		
Рис. 3.2.3. Гистограмма для табл. 3.2.4
94
Таблица 3.2.3
Число испущенных частиц, г	0	1	2	3	4	5	6	7	8	9	10	11	Общее
Частота, fr	57 203	383	525	532	408	273	139	45	27	10	4	2608
Таблица 3.2.4
Число испущенных частиц	Частоты
0 или 1 2 3 4 5 6 или 7 8, 9, 10 или 11 12, 13 или 14	57 + 203 = 260 383 252 532 408 273 + 139=412 45+27+10+4=86 2
в)	Непрерывные данные. Аналогичным образом, с чуть большей затратой труда, можно представить и непрерывные данные, т. е. наблюдения над непрерывной случайной величиной [см. II, раздел 10.1]. Чтобы образовать частотную таблицу по выборке из наблюдений над X, надо разделить отрезок (а, Ь) значений выборки на £ ячеек, или интервалов (Аг-1, hr), разделенных границами hr, г=\,2,...,к:
a=h0<hi<h2<...<h/c = b.
Первая, вторая ... ячейки есть интервалы (Ло, Л1), (Ль Л2) и т. д. Затем определяются частоты, т. е. количества наблюдений, попавших в различные ячейки:
fr — число наблюдений х, таких, что hr-i<x^hr, г=1,2.......к.
Таблицы иногда строят по другому правилу: частота fr равна количеству наблюдений, для которых hr-i<x<hr плюс половина числа наблюдений, которые (при принятой точности измерений) совпадали с Лг-1 или Лг. Примером может служить табл. 3.2.5.
Накопленные частоты определяются так:
сг= [число наблюдений х, таких, что x^hr]=f +fi +
r= 1,2,...,£.
95
Количество ячеек к и значения их границ hr в какой-то мере произвольны. В таблицах оно может быть результатом компромисса между требованиями экономии и точности. Часто размеры всех (или почти всех) интервалов группировки одинаковы, как в таблице, где рост измерен в дюймах, округленных до ближайшего целого числа. Неравные интервалы группировки тоже, впрочем, иногда оправданы. Например, в таблицах смертности от коклюша, где указан возраст умерших после достижения, скажем, 15 лет, многое зависит от возраста. Поэтому для возраста, превышающего 15 лет, оправданы широкие интервалы, например 5—10 лет. Напротив, высокая и заметно зависящая от возраста смертность малышей требует более узких интервалов: возможно, от 6 месяцев до 1 года.
Таблица 3.2.5. Частотная таблица, показывающая рост мужчин, интервалы группировки равные. Полуцелые частоты возникают, когда измерение попадает на границу интервала; по соглашению это увеличивает частоту интервала на 0,5 (воспроизведено с разрешения Macmillan Publishing Company. Statistical Methods for Research Workers. R. A. Fisher.
Copyright ©1970 University of Adelaida)
Границы интервалов (в дюймах)	Центральная высота (в дюймах)	Частота		Граница интервалов (в дюймах)	Центральная высота (в дюймах)	Частота
(59,60)	59,5	1		(70,71)	70,5	137
(60,61)	60,5	2,5		(71,72)	71,5	93
(61,62)	61,5	1,5		(72,73)	72,5	52,5
(62,63)	62,6	9,5		(73,74)	73,5	39
(63,64)	63,5	31		(74,75)	74,5	17
(64,65)	64,5	56		(75,76)	75,5	6,5
(65,66)	65,5	78,5		(76,77)	76,5	3,5
(66,67)	66,5	127		(77,78)	77,5	1
(67,68)	67,5	178,5		(78,79)	78,5	2
(68,69)	68,5	189		(79,80)	79,5	1
(69,70)	69,5	137				1164
96
Примером частотной таблицы с неодинаковой шириной интервалов может служить табл. 3.2.6, полученная объединением ячеек табл. 3.2.4 (совместное выборочное распределение частот обсуждается в разделе 2.9.4).
Таблица 3.2.6. Таблица группированных частот с изменяющейся шириной интервалов. Данные взяты из табл. 3.2.5 и соответствуют разным способам выбора границ интервалов
Границы интервалов (в дюймах)	Частота
1) (59,64) '	45,5
(64,66)	134,5
(66,70)	631,5
(70,72)	230
(72,80)	122,5
	1164
2) (59,62)	5
(62,65)	96,5
(65,67)	205,5
(67,69)	367,5
(69,72)	367
(72,75)	108,5
(75,80)	14
	1164
97
Рис. 3.2.4. Гистограммы для таблицы частот, полученных группировкой непрерывных данных по интервалам неравной длины. Обе гистограммы построены по различным разбиениям одной и той же выборки (данные табл. 3.2.6)
Соответствующие гистограммы показаны на рис. 3.2.4.
г)	Гистограммы для непрерывных данных. Наиболее информативной графической формой частотной таблицы является специальный график, называемый гистограммой. С ним мы впервые встретились на рис. 3.2.2 и 3.2.3 для дискретных данных. Чаще эта конструкция применяется к непрерывным данным. Гистограмма состоит из прямоугольников с основаниями (Лг-ь hr), высота которых пропорциональна fr/(ht—hr-i)- Их площади, следовательно, пропорциональны частотам fr. Поэтому площадь той части гистограммы, что лежит между абсциссами hj и hm пропорциональна числу наблюдений х, таких, что hj<x^hm. Если выбрать единицу измерения так, чтобы общая площадь гистограммы оказалась равной 1, можно интерпретировать площадь между hj и hm как грубую оценку P{hj<X^hm\ Следовательно, гистограмма является выборочным аналогом графика плотности распределения вероятности (п.р.в.).
Примеры приведены на рис. 3.2.4.
98
д)	Выборочный аналог функции распределения; вероятностная бумага. Подобно тому как в примере 3.2.1 относительные частоты представляют собой естественный выборочный аналог п.р.в., накопленные относительные частоты в том же примере образуют естественный выборочный аналог ф.р. [сокращения приведены в разделе 1.4.2]. Относительная накопленная функция r.c.f. частот определена для hr и равна:
r.c.f. (hr)=Lfj/n, r=l,2,...,k.
Эту функцию называют также эмпирической функцией распределения. Редко привлекаемая в случае дискретных данных, она часто используется для непрерывных выборок как основа для глазомерных критериев и сравнений. С точностью до случайных колебаний эта функция совпадает (там, где она определена) с ф.р. F(x)=P(X^ х) наблюдаемой случайной величины X [см. II, раздел 10.1.1].
Есть полезный графический прием, позволяющий судить о степени этого совпадения. Он основан на следующей идее. Поскольку F(x) — неубывающая функция, можно выбрать такую неоднородную шкалу на оси ординат, что график F(x) как функции х превратится в прямую линию. С помощью обычной равномерно разлинованной бумаги можно построить на оси ординат новую, уже не равномерную шкалу. Каждой точке оси ординат с координатой у из подходящего набора (скажем, 0,01; 0,02; ...; 0,99) приписываем значение F(y) в качестве ее метки*. Затем строим график на этой, по-новому размеченной шкале. Если F(x) такова, что в ее явное выражение х входит в форме (х—Х)/а>, где X, ы — постоянные, то в указанном неравномерном масштабе график F(x) будет прямолинеен при любых X, со. Это очень удобно, поскольку график эмпирической функции распределения на таком планшете состоит из точек, лежащих вблизи прямой линии. Это позволяет (хотя и субъективно) каждому оценить на глаз, насколько хорошо ф.р. выборки приближается к гипотетической ф.р. [см. пример 3.5.1].
Бумага с подобной шкалой может использоваться для нормального (нормальная вероятностная бумага), логнормального (логарифмическая вероятностная бумага) и некоторых других распределений. Примеры работы с вероятностной бумагой приведены в книге [Hald (1952) — С].
* Правильно иначе: надо приписать метку «у» той точке оси ординат, расстояние которой от начала отсчега равно F~'(y). — Примеч. ред.
99
3.3.	НЕКОТОРЫЕ ОБЩИЕ КОНЦЕПЦИИ И КРИТЕРИИ ОЦЕНОК
3.3.1.	ВВЕДЕНИЕ. РАЗМЕРНОСТЬ, ЗАМЕНЯЕМОСТЬ, СОСТОЯТЕЛЬНОСТЬ, КОНЦЕНТРАЦИЯ
Раздел 3.2 начинался рассуждением по поводу основополагающего представления о том, что выборка подобна множеству, из которого она выбрана (генеральной совокупности). В этом разделе мы продолжим обсуждение ряда принципов, подсказанных интуицией, на этот раз тех, с помощью которых формируется отношение к статистикам, претендующим на роль оценок параметров данного распределения вероятностей.
а)	Размерность. Первый из этих принципов может быть назван принципом правильной размерности. Он состоит в том, что когда 6 не является безразмерной величиной, но обладает физической размерностью, такой, как время или длина, оценка 6 должна иметь ту же физическую размерность, что и 6. Предположим, мы утверждаем, что последовательные моменты испускания частиц из радиоактивного источника образуют пуассоновский процесс с интенсивностью 6 [см. II, разделы 5.4, 11.2, 20.1]. Следовательно, последовательные промежутки между событиями распределены экспоненциально [см. II, раздел 11.2] с плотностью распределения 9е-0х в точке х, х> 0. Для заданной выборки Xi, х2,...,х„ таких интервалов статистика /(хь х2,...,хп), призванная оценивать 6, должна иметь ту же физическую размерность, что и в, т. е. (время) . Такой оценкой, например, будет n/Lxr — величина, обратная к среднему выборки. Среднее выборки как возможная оценка 6 в соответствии с этим критерием исключается из рассмотрения.
Когда размерность оценки не вытекает из определения очевидным образом, полезно проверить ее математическое ожидание.
Пример 3.3.0. Отрицательное биномиальное распределение. Если N — число испытаний Бернулли с параметром 0, требуемых для получения фиксированного числа успехов х, то
P(N= п) = ("-})0Х(1 _0)и-х
п=х, х+1, х+2,...,
где х — положительное целое и О<0<1 [см. II, раздел 5.2.4]. Спросим себя: будет ли UN возможной оценкой для 0? Оказывается, что Е(1/ N) имеет нужную размерность. Проще вычислить E[U(N— 1)}, чем E(UN). Находим, что
Е[1/(АГ— 1)} = Е 1	6)n~x=6/(x— 1)(х>2).
п=х п—1 х 1
100
Отсюда видно, что 1/(N—1) имеет правильную размерность и что (х—1)/(N—1) — несмещенная оценка 0 [см. раздел 3.3.2].
б)	Заменяемость. Второй принцип — принцип заменяемости — состоит в следующем. Если оценка t(xif х2, ...» хп) базируется на случайной выборке (хь х2, ...» хп) равноточных наблюдений заданной случайной величины X, то порядок, в котором идут наблюдения, несуществен; оценка должна быть симметрической функцией наблюдений [см. I; раздел 14.16]. Примером могут служить широко известные ста-
— П	J "	— 7
тистики х =Ехг/п и sr = Е(хг—х ) /(и—1).
в)	Состоятельность. Важным принципом является состоятельность. Это попытка формализовать идею о том, что оценка 0 параметра 0 должна быть, в каком-то смысле, ближе к 0, чем, скажем, к 20, 1/0, ехр(0) и т. д., или к какому-нибудь другому параметру ф. Эту идею легче высказать, чем формализовать. Р. Фишер, первый высказавший эту мысль, предложил следующую формализацию. Предположим, что выборочные данные собраны в частотную таблицу. Понятно, что случайно можно получить выборку, которая будет точной копией генеральной совокупности в том смысле, что частоты f, f2, ...» fk в выборке точно пропорциональны соответствующим вероятностям 7Г1, тг2, ..., кк в совокупности. В такой выборке значение оценки должно в точности совпадать с оцениваемым параметром. Следовательно, если оценка & обозначена через t(f, f2, ..., fk), то принцип состоятельности требует, чтобы
/(ля-], птг2, ..., птгк) = 0.	(3.3.1)
к
Здесь л=Е/г обозначает объем выборки.
Пример 3.3.1. Состоятельность оценки параметра геометрического распределения. Рассмотрим случай, когда 0 — параметр геометрически расположенной переменной 5 с распределением вероятностей
P(S=$) = 7Г5 = 0(1—0)Ч 5=1,2.
[см. II, раздел 5.2.3]. Основываясь на выборке, в которой наблюдаемые значения $ встречаются с частотами fs, s=l,2,...,k, получим оценку максимального правдоподобия [см. раздел 3.5.4]:
0=1 /5 = л/Е$/$(л = ЕЛ).
В нашем случае /$=0 для s>k, следовательно,
0 = л/Е5/5.
Требование состоятельности в данной ситуации —
0=1/2р7г5 = 1/£’(5).
101
Поскольку £(S)=l/0, условие выполняется и § — состоятельная оценка 0по Р. Фишеру.
Эта привлекательная концепция, к несчастью, теряет изрядную долю своей простоты, когда мы пытаемся применить ее к непрерывным распределениям. Возможно, поэтому она не стала частью принятого канона. Вместо нее чаще всего используется близкий, но отличающийся критерий, также называемый состоятельностью, что создает некоторую двусмысленность.
Определение 3.3.1. Состоятельность оценки. Сходимость по вероятности. Оценка 0n-tn(Xi, *2,--,*Л), основанная на выборке из п наблюдений (п= 1,2,...) случайной величины X, рассматривается как элемент последовательности Л, 6,-.., в которой явная форма 1п как функции Xi, х2,...,хп точно установлена для каждого значения п. Соответственно мы рассматриваем последовательность случайных переменных ^n = tn(Xi, Х2,...,Х^), л =1,2,..., где Хг — независимые реализации X [см. определение 2.2.1]. § называют состоятельной оценкой 0, если при п сходится по вероятности к 0, т. е. если для всех сколь угодно малых Л>0
Р(0 —1	(3.3.2)
при п-* [см. IV, раздел 1.2]. Удобное и достаточное условие для этой сходимости состоит в тем, что
~ е I
(3-3.3) var(G„) 0 j
при п -*
Согласно этому определению состоятельная оценка имеет высокую вероятность быть почти равной параметру, который она оценивает, при условии, что выборка будет достаточно большой.
Пример 3.3.2. Состоятельность оценки дисперсии. Оценка дисперсии о2 нормального распределения, заданная (2.5.20), где а(п)-п — 1, обычно обозначаемая символом s2, имеет выборочное математическое ожидание а 2 и выборочную дисперсию 2а4/(л — 1), которая сходится к 0. Следовательно, г — состоятельная оценка для о2 (в смысле сходимости по вероятности).
Обсуждаемый принцип состоятельности основан на той мысли, что при достаточно больших объемах выборок выборочное распределение оценки должно иметь унимодальную плотность распределения вероятности [см. II, раздел 10.1.3] с высоким и, по возможности, узким пиком, максимум которого находится около 0 [см. рис. 3.3.1]. Если п возрастает, пик становится выше и уже, его максимум приближается к 0. Недостаток принципа состоятельности, описанного в разделе 3.3.1, заключается в том, что на практике обычно интересуются выборочным распределением оценки, основанной на выборке небольшого объема, и нет гарантий, что оценка, состоятельная в опи-102
Рис. 3.3.1. Выборочная плотность приемлемой оценки е
санном выше смысле, при небольших п будет иметь плотность вероятности, как на рис. 3.3.1. Для подобных выборок принцип состоятельности нуждается в дополнении. Таким дополнением может быть принцип высокой локальной вероятности.
г) Концентрация (высокая локальная вероятность). Оценка в для в должна с высокой вероятностью быть близкой к в. Вероятность больших отличий в от в должна быть малой. Поясним этот принцип.
Пример 3.3.3. Выборочное распределение х и $2 в нормальной выборке. В случае нормального распределения с параметрами (д, ст) [см. II, раздел 11.4.3] рассмотрим статистики
п tl=x = Ехг/п,
/2=52 = Е(хг — х)г/(п — 1)
как оценки для ц и ст2 соответственно. Они имеют следующие выборочные распределения [см. раздел 2.2]. Для Л выборочное распределение Ы(д, а/у/п), т. е. унимодальное, к тому же с модой ц. Мода определяет местоположение максимума, ширина которого (она измеряется выборочным стандартным отклонением) пропорциональна л~1/2. Таким образом, чем больше п, тем уже пик.
В случае t2 выборочное распределение (л—I^/ct2 является распределением хи-квадрат с п—1 степенями свободы [см. раздел 2.5.4, а)]; п.р.в. s2 в точке z задается формулой
(п— 1)(”-	(л-3)/2 ехр[—(я— j )z/2o2]
2<'’-1>/2стл-1г[(л-1)/2]
(3.3.4)
[см. (2.5.21)]. Это унимодальное распределение с модой (1—2/(л—!))</ около желаемого значения ст2. Ширина пика, измеряемая стандартным выборочным отклонением и равная с/>/2/(л—1), уменьшается при возрастании п [см. (2.5.22)].
юз
Обе оценки удовлетворяют интуитивному требованию высокой локальной вероятности. Они и в самом деле принимаются как «лучшие» оценки для ц и ст2.
Требование концентрации оценки для в в окрестности в в смысле, подразумеваемом в начале раздела 3.3.1, г), вытекает из (обычно нереализуемой) концепции максимальной концентрации [см. раздел (3.1)]. Некоторых продвижений в реализации принципа максимальной концентрации можно ожидать при применении критерия минимальности среднего квадрата ошибки, который мы сейчас введем. Говорят, что оценка Т параметра в имеет минимальный средний квадрат ошибки, если для любой другой оценки Г для всех в выполняется соотношение
Е(Т—0)2^Е(Г—0)2.
К сожалению, не всегда существует оценка, имеющая минимальный средний квадрат ошибки. Интуитивно ясно, что одна оценка лучше другой, если она имеет меньший средний квадрат ошибки.
Если мы ограничимся несмещенными оценками (оценка Т параметра 6 называется несмещенной, если Е(Т) = 0 для всех 0), то средний квадрат ошибки превратится в дисперсию. Несмещенные оценки с минимальной дисперсией встречаются часто, и некоторые их свойства обсуждаются в разделе 3.2.2. Связанная с этим концепция эффективности рассматривается в разделе 3.3.3.
Осталось упомянуть еще один важный принцип. Некоторые статистики способны извлекать из данных больше информации, чем другие. Это приводит к принципу достаточности. Достаточной оценкой 0 называется статистика, в определенном смысле собирающая всю информацию с 0, которая содержится в выборке. Подробнее эта идея обсуждается в разделе 3.4.
3.3.2.	НЕСМЕЩЕННЫЕ ОЦЕНКИ И НЕСМЕЩЕННЫЕ ОЦЕНКИ С МИНИМАЛЬНОЙ ДИСПЕРСИЕЙ
Принципы, обсуждавшиеся в разделе 3.3.1, дают нам представление о свойствах, которыми должна обладать хорошая оценка. Однако они не подсказывают способов найти такую оценку. Мы нуждаемся в сжатом описании требуемых свойств в форме конструктивных определений или, иначе, в общем методе, приводящем к оценкам с желательными свойствами. Такие методы изложены в разделе 3.5 и в гл. 6. В настоящем разделе мы ограничимся лишь приближением к «конструктивному определению».
Все требования, о которых говорилось в разделе 3.3.1, могут быть заменены требованием, чтобы «центр» выборочного распределения был близок к 0 и чтобы «разброс» выборочного распределения был как можно меньше. В этой формулировке «центр» не определен: он в принципе может быть модой [см. II, раздел 10.1.3], медианой [см. II, 104
раздел 10.3.3] или ожидаемым значением [см. II, раздел 10.4.1]. По соображениям простоты обычно выбирают ожидаемое значение. И вновь требование близости выборочного математического ожидания к 6 недостаточно определенно. В конце концов потребуем совпадения в и математического ожидания 0. Оценка 0 в таком случае называется несмещенной. Разброс выборочного распределения удобно измерять дисперсией. Итак, мы подошли к несмещенным оценкам с минимальной дисперсией.
Определение 3.3.2. Несмещенная оценка. Пусть 0=1(х\, х2,...,хп) — оценка в, основанная на данных, в которых хг — реализации случайной величины Хг, г=1,2,...,л. Она называется несмещенной оценкой 0, если при всех в
E[t{X\, Х2,...,Хг^] = 0.
Оценка, которая не является несмещенной, называется смещенной. Смещение Ьп(0) определяется соотношением
bn(0)=E[t(X„ Х2,...,Хп)]—0.
Несмещенная оценка с минимальной дисперсией может подчиняться дополнительным требованиям к форме ее функциональной зависимости от хг (таким, как линейность и т. п.).
Из этого следует, что свойство несмещенности не принадлежит к важнейшим в первую очередь из-за неинвариантности при функциональных заменах (кроме линейных). Предположим, что мы интересуемся некоторым технологическим процессом и оцениваем вероятность того, что X не превышает заданной величины х0, т. е. мы хотим оценивать значение F(x0, 0), где F — функция распределения X. Если 0 — несмещенная оценка 0, то F(x0, 0) в общем случае не будет несмещенной для F(x0, 0). Для подобных приложений, следовательно, несмещенность является бесполезной.
С тем же сталкиваемся и в следующей ситуации. Если в п испытаниях Бернулли с вероятностью успеха 0 зафиксировано г успехов, то оценка г/п — несмещенная для 0; однако п/r смещено относительно 1/0.
Наконец, несмещенные оценки — не обязательно более точные, чем п смещенные. Известный пример — несмещенная оценка s2 = S(.xj—х)2/(л—1) дисперсии генеральной совокупности. Средняя квадратичная ошибка смещенной оценки (л—^/(л-М) меньше, чем у s2.
Почему же тогда несмещенность приобрела такое важное значение для статистических правил? Причины — в математических удобствах, в линейности и состоятельности: оператор математического ожидания £"(•) имеет много свойств, облегчающих работу с ним; многие важные статистики являются линейными функциями наблюдений, а несмещенность инвариантна относительно линейных преобразований; независимые несмещенные оценки можно комбинировать и получать более точные несмещенные оценки.
105
Построение несмещенных оценок с минимальной дисперсией НОМД обычно связывают с понятием достаточности. Дополнительные сведения по этому поводу содержатся в разделе 3.4.
Следующие примеры относятся к минимизации дисперсии в определенных классах оценок (линейных, квадратичных и т. д.).
Пример 3.3.4. Линейная несмещенная оценка с минимальной дисперсией (ЛНОМД). Пусть (Xi, х2,...,х^) — случайная выборка наблюдений за переменной X, для которой Е{Х) = 6 и var(X) = ст2. Чтобы найти ЛНОМД для в, составим линейную функцию от наблюдений, скажем
л п
И- 'уИгХг + Ь.
Выборочное математическое ожидание [см. раздел 2.3] равно е£аг+ъ.
Чтобы оно в точности было равно в, т. е. 104-0, необходимо положить
£аг=\, Ь=0.
Последний шаг состоит в выборе аг, минимизирующем выборочную дисперсию ст2 Ед2. Легко видеть, что при условии Еяг=1, Еа* достигает своего минимального значения, когда ау-а2 = ... = ап = \/п. (Минимизация обсуждается в [IV, раздел 15.1.3].) Итак, §=Lxr/n=x является ЛНОМД для в. Общая теория ЛНОМД будет детально исследована при обсуждении метода наименьших квадратов в гл. 8, 10.
Пример 3.3.5. Квадратичная несмещенная оценка с минимальной дисперсией (КНОМД). Дисперсия а2 случайной переменной X имеет размерность X2- В соответствии с принципом правильной размерности [см. раздел 3.3.1, а)] мы требуем, чтобы оценка а2 тоже имела размерность X2. Простейшая такая функция — квадратичная форма [см. I, гл. 9] от значений выборки х2,...,хп, скажем
v=xQx,
где Х' = (Х], х2,...,хп), X — ег,о транспонирование и Q=(qrs) — симметрическая (дхд)-матрица [см. I, раздел 6.2]. Согласно принципу заменяемости [см. раздел 3.3.1, б)] v должна иметь вид
аЕх/ + 0S Exixj.
1
Выборочное математическое ожидание, следовательно, будет равно [см. II, раздел 9.2.1]:
ante2 + б2) + /?л(л—-1)02 = аист2 + [ал + 0л(л—1) ]02.
106
По свойству несмещенности оно должно быть равно ст2, откуда (кроме тех случаев, когда в — заведомый нуль)
ал-1, от + (3п(п—1)-0,
т. е.
а = 1/л, /?= — 1/л(л—1).
Следовательно, а и определяются однозначно принципами заменяемости и несмещенности. В этом частном случае применение принципа заменяемости фактически эквивалентно минимизации выборочной дисперсии [см. теорему 3.3.1]. Из этого следует, что КНОМД есть
~	~	2 ^xixj].
П 1	П-1 i^j
Преобразив это выражение, мы придем к уже известной нам оценке
з2 = Е(х/—х )2/(п— 1).
Пример 3.3.6 (продолжение). В особо простом случае, когда 0=0, принцип заменяемости применяется так же, а условие несмещенности становится проще: ап=1. Мы, следовательно, получаем оценку
Ех|/п + /ЗЕ 'LxjXi, 1 i*j
где 3 пока не определено. Вычисления показывают, что выборочная дисперсия этой статистики равна [-%~+п(п—1)/32]ст4. Это выражение обращается в минимум при /3=0. Таким образом, в данном случае п
КНОМД равна Exj/n; ее выборочная дисперсия — 2ст4/п.
Следующая теорема Халмоша связывает понятие несмещенной оценки с минимальной дисперсией и принцип заменяемости [см. раздел 3.2.1, б)].
Теорема 3.3.1. Симметричные оценки. Пусть х}, х2,...,хп — выборка взаимозаменяемых наблюдений X и g (Xi, х2,...,хп) — несмещенная оценка в параметра распределения X. Если g — несимметрическая п!
функция х, определим симметризацию g как g = Eg{(Xi, х2,...,хп)/п/, где gi(xit x2,...,x„)=g{Pi(xi, х2>...,хп)!, i=\,2,...,nl, для каждого i, х2,---,хг^ есть i-я (вне зависимости от порядка нумерации) из п!
перестановок [см. I, раздел 8.1] множества из п элементов (Xi, х2,...,хп). Мы примем за Р\ тождественную перестановку, т. е. gt =g. Тогда g несмещенная оценка в, а выборочная дисперсия g" меньше, чем у статистики g. Если g симметрическая функция, то g совпадает с g.
Это означает, например, что среди всех линейных несмещенных оценок математического ожидания 0 среднее по выборке будет наилучшей, т. е. будут иметь наименьшую дисперсию. (Общий вид линейной
107
оценки Ёагхг+Ь с произвольными коэффициентами а}, аг,...,ап, Ь. Выборочное математическое ожидание ее равно 0Еаг + 6, и для того, чтобы это выражение было равным 0, чего требует несмещенность, должно быть Ёаг=1 и Ь=0. Следовательно, несмещенная линейная
п	_ п
оценка в есть ^агхг, Едг=1. Ее симметризация имеет вид х -Ехг/п, и согласно теореме Халмоша она имеет меньшую дисперсию, чем любая другая несмещенная линейная оценка Ёагхг+Ь [см. пример 3.3.4].)	1
3.3.3.	ЭФФЕКТИВНОСТЬ. ГРАНИЦА КРАМЕРА—РАО
а) Неравенство Крамера—Рао: случайная выборка из одновременного однопараметрического распределения. Примеры 3.3.4, 3.3.5 и 3.3.6 показывают, как достичь минимальности выборочной дисперсии для оценки специальной функциональной формы. Однако они не дают ответа на вопрос, может ли оценка другой функциональной формы иметь меньшую дисперсию. Ответ можно получить из следующей теоремы, которая при весьма общих условиях указывает нижнюю границу для выборочной дисперсии несмещенной оценки.
Теорема 3.3.2. Нижняя граница для выборочной дисперсии несмещенной оценки. Пусть (хъ х2,...,хп) — выборка независимых наблюдений случайной переменной X, п.р. в. которой в точке х равна f(x, 0), где 0 — неизвестный параметр. Пусть 0n = tn(x}, х2,...,хп) — несмещенная оценка 0. Тогда при некоторых условиях регулярности f выборочная дисперсия vn оценки 0п удовлетворяет неравенству
vn^i/ln(0)=l/nl(0),	(3.3.5)
где
1п(0) = п!(0)
и
I(0)=E{d\ogf(X,0)/d0]2=-E[d2\ogf(X, 0)/д02].	(3.3.6)
Р. Фишер назвал 1п(0) количеством информации в выборке, а 1(0) — количеством информации в отдельном наблюдении. Равенство в (3.3.5) достигается, если и только если
E31og/(xz, 0)/д0=п1(0)(0п—0).	(3.3.7)
Из (3.3.5) следует, что при упомянутых условиях регулярности нижняя граница для выборочной дисперсии несмещенной оценки, основанной на п наблюдениях, пропорциональна 1/п.
108
Наиболее ранняя формулировка этой теоремы была предложена Фишером. Дальнейшее развитие и обобщения связаны с именами Фреше, Дюгю, Крамера, Рао. Не стоит привлекать имя Фишера к каждой статистической концепции или теореме, идущей от него: это неуместно, как и подобное упоминание Гаусса в анализе. На эту теорему обычно ссылаются, как на неравенство Крамера—Рао. (Отметим, что условие (3.3.7) выполнено, в частности, если
aiog/U 0)/Э0=/(0)И(х)—0].
В этом случае
log/U 0)=А (х) (I(e)d6— (07(0)йГ0+D(x)=А (х)В(0)+С(0)+D(x) ,(3.3.8) следовательно,
£ aiog/(xn 0)/Э0=/(0)ЕЛ(хг)—л0/(0)
и условие (3.3.7) превращается в
0л = ЕЛ(хг)/и
по требованию несмещенности оценки 0. О п.р.в. вида (3.3.8) говорят, что она принадлежит экспоненциальному семейству [см. раздел 3.4.2].)
Пример 3.3.7. Достижимость границы Крамера—Рао в случае биномиального распределения. Предположим, что X имеет распределение Бернулли [см. II, раздел 5.2.1] с параметром 0, так что п.р.в. X равна:
Лх, »)= Р.-*’ *°°] =(1-«)'Х=О,1.
< (7, X— 1 >
Тогда
log/(X 0) = (l-A)log(l-0)+Alog0,
dlogftX, 0)/Э0 = — (1 —Х)/(Д — 0)+Х/0=(%—0)/0(1—0)
и
a2log/'(X 0)/Э02 = — (1—Х)/(1 -0)2—Х/02.
Поскольку £’(Х) = 0, получаем
1п(0) = п [ 1 /(1 — 0) +1 /0] = п / 0( 1 — 0).
Нижняя граница, следовательно, равна 0(1—0)/л. Мы видим, что
Saiog/(x/, 0)/Э0= Цх,—0)/0(1— 0)= [Ех//л—0}/[0(1— 0)/«].
109
Это равно 1п(0)[§л—0}, если мы возьмем Bn-’Lxj/n (=г/п, скажем, где г=Ех/, т. е. числу успехов в выборке). Следовательно, граница Крамера—Рао достигается в этом примере на оценке г/п.
Пример 3.3.8. Граница Крамера—Рао для а2 в случае распределения N(0, о). Положим, что X нормально распределена с £(.¥)-О и var(A3 = 0. Тогда п.р.в. равна:
f(x, 0)~д0~1/2ехр(—х2/20), a=(2ir)~l/2, откуда
dlogf(X, 0)/Э0 = — 1 /20+Х2/202,
d2\ogflX, 0)/Э02 = 1 /202—-Х2/63.
Поскольку ДЛ)=0, то Е(Х2)=у&гХ=9, откуда
7„(0) - — п( 1 /202—-1 /02)=л/202.
Нижняя граница для выборочной дисперсии, следовательно, равна 202/л. Она достижима, поскольку
5Elog/(x{, 0)/Э0= Е(х-—#)/2#2 = /л(0)(0п—0], если мы возьмем §п = '£х1/п [см. пример 3.3.6].
Пример 3.3.9. Граница Крамера—Рао для с в распределении N(0, а). Предположим, как и в примере 3.3.8, что X нормально распределена с Е(Х)=О, но на этот раз параметр 0, подлежащий оценке, будет стандартным отклонением, т. е. чгх(Х)-Е{Х2)= О2. В этом случае
Дх, 0)=(2тг) ~ 1/20~4ехр(—х7202), откуда
diog/fx, 0)/Э0 =—1/0+Х2/03 и
cHog/fY, 0)/Э02 = 1/02—ЗЛ2/04, так что
Д(0)=2л/02.
Следовательно, нижняя граница Крамера—Рао равна Э2/2п. Она, однако, недостижима в условиях теоремы, поскольку
0Llog/'(Xb 0)/Э0=(Ex2 — пв2)/в3 =/„(0)[Ех?/2л0—20], что не имеет формы, требуемой (3.3.7).
но
Существуют модификации теоремы 3.3.2, применимые к смещенным оценкам. Например, теорема 3.3.3.
Теорема 3.3.3. Граница Крамера—Рао для смещенных оценок.
Предположим, в обозначениях теоремы 3.3.2, что 0* = 0* (Х|, х2,...,хп) — оценка 0 со смещением Ьп(0) [см. определение 3.3.2], т. е. с выборочным математическим ожиданием 0+Ьп(О)- Тогда выборочная дисперсия 0* не меньше, чем
[1 + dbn(0) /d0]2/In(O).
б) Достижимость границы Крамера—Рао. Эффективность оценки.
Определение 3.3.3. Эффективные оценки. Несмещенная оценка параметра 0 называется эффективной, если ее выборочная дисперсия равняется границе Крамера—Рао.
Эффективная оценка далеко не всегда существует. Более того, как показывают примеры 3.3.8 и 3.3.9, может существовать эффективная оценка параметра а2 и не существовать эффективной оценки о, ее квадратного корня. Это часть платы за удобство работы с математическим ожиданием.
Из (3.3.7) следует, что только в исключительных случаях семейство распределений допускает эффективное оценивание своих параметров. Когда эффективная оценка 0п существует, ее, несомненно, стоит использовать. В терминах критерия дисперсий лучшей оценки не существует (в условиях теоремы, конечно). Можно сказать, что другая несмещенная оценка, не являющаяся эффективной, скажем 0*, использует выборку менее эффективно, поскольку ее точность (измеряемая обратной величиной ее выборочной дисперсии) меньше, чем у эффективной оценки. Эффективность 0* можно определить как отношение va.r(0m)/ var(0Zj). Концепцию эффективности можно применять и тогда, когда эффективной оценки не существует. Вот общепринятое определение.
Определение 3.3.4. Эффективность оценки. Эффективностью несмещенной оценки 0п параметра 0, основанной на выборке объема п, называется
eff(0„)=
Уи(пйп) var(^)
где Тл(тш)-1//л(0) — нижняя граница Крамера—Рао [см. теорему 3.3.2].
Подобное употребление слов «эффективный», «эффективность» несколько сомнительно, поскольку не всегда малая выборочная дисперсия предполагает высокую точность. Даже если мы не будем обращать на это внимание, употребление слова «эффективность» при недостижимости границы Крамера—Рао двусмысленно, поскольку наилучшая оценка может иметь эффективность менее 100%. Поэтому чаще используется понятие относительной эффективности.
Определение 3.3.5. Относительная эффективность. Относительная эффективность двух несмещенных оценок 0*, 6** параметра 0, основанных на общей выборке, определяется как
var(0„**)/var(0„*);
эффективность 0* относительно 0** больше единицы, если var0„ < var0„ *.
Пример 3.3.10. Относительная эффективность среднего отклонения и выборочного стандартного отклонения как оценок о. В случае нормального распределения с параметрами (0, а) граница Крамера— Рао для выборочной дисперсии несмещенной оценки о, основанной на выборке объема п, равна (г*/2п. Эта граница недостижима, как показано в примере 3.3.9.
Среднее отклонение
< = (тг/2)1/2р |лг/| /п
является несмещенной оценкой и имеет выборочную дисперсию (тг—Itf/Zn, так что ее эффективность равна: 1/(тг—2)=0,88.
Стандартная оценка о2 равна:
s£ = £(Xi-х)2/(п-1).
С ее помощью мы находим несмещенную оценку а, заданную [см. (2.5.29)] соотношениями
2	Г(и/2)
Сп п—1 Г[(п—1)/2] '
Ее выборочная дисперсия равна (1—с2) а2 [см. (2.5.31)], а эффективность
О—сл)/2л.
В отличие от оценки среднего отклонения стл* эффективность зависит от объема выборки п.
Некоторые значения относительных эффективностей а* и (взятые из табл. 2.5.2) приведены ниже:
п	5	10	25	50
Эффективность ой Эффективность стл относительно on	0,86 1,02	0,93 0,94	0,97 0,90	0,99 0,88
112
в)	Условия регулярности. Условия регулярности, при которых доказана теорема 3.3.2, как говорят, выделяют регулярный случай оценивания. Они обеспечивают справедливость тождества
а
де —
Г(х,, х2,...,xn)gn(Xi, х2....хп; e)dxi...dxn =
/(Xi, x2,...,xn) — gn(Xi, x2,...,xn; 3)dx{...dxn, ее
где
gn(X\, x2..xn\ &) = Tlf(Xi, в),
поскольку при доказательстве теоремы нужно провести это дифференцирование под знаком интеграла. Трудности возникают, если п.р.в. имеет угол или разрыв [см. IV, раздел 2.3] в точке, которая сама есть функция от в. Например, если
Ах, е)= [
g(x, еу, о^х^е, о, х>е,
мы имеем
< ж ,	е
J t(xtf(x> 3)dx= \t(x)g(x, 3)dx >	О
и
— j i(x\f(x, 3)dx= — f/(x)g(x, 0)dx= де —	ее о
0	oc
= \t(x)—dx+ t(e)g(e, e) * ( t(x) —Ax, eydx о ее	de
[см. IV, раздел 4.7]. Аналогично и для многомерного интеграла наличие Ах, 3) как функции х таких точек разрыва, которые изменяются в зависимости от 3, — самый важный практический пример отступления от условий регулярности, требуемых теоремой.
Пример 3.3.11. Экстремальность равномерного распределения. Пусть X имеет непрерывное равномерное распределение на (0, в), т. е. его п.р.в. равна:
Ах, 3) =
О, х^О;
1/3, О<х^0;
о, х>е.
113
П.р.в. в точке и(0<и^д) наибольшего наблюдения Х(П) в выборке объема п равна пип~л/6п [см. II, пример 15.2.1], его математическое ожидание и0/(и+1). Следовательно, 0„* = (n+l)Xfn;/n — несмещенная оценка в. Однако применить концепцию эффективности к этой оценке невозможно, поскольку обсуждаемое распределение имеет разрыв в точке в и, следовательно, не удовлетворяет условиям теоремы. Фактически выборочная дисперсия в* равна пв2/(п + 2)(п +1)2, т. е. убывает гораздо быстрее при росте п, чем нижняя граница Крамера—Рао в случае регулярной оценки, — как п2, а не как п~1.
г)	Неравенство Крамера—Рао для независимых векторных наблюдений однопараметрического многомерного распределения. Теорема 3.3.2 была высказана для независимой скалярной выборки (Ль х2	.v„) из однопараметрического распределения. Она остается
справедливой и в случае, когда каждое наблюдение хг в ее утверждениях понимается как векторное наблюдение, извлеченное из многомерной совокупности, как, например, из двумерного распределения пары (Y, Z) с п независимыми парами наблюдений (уь Zi), (уг, zd,...,(yn> Zn)-Случайная переменная X, упомянутая в теореме, заменяется парой (Y, Z) с совместной п.р.в. Ди z; 0) в точке (у, г), а наблюдение хг заменяется парой (yr. zr), г=1,2,...,п.
При условиях регулярности неравенство (3.3.5) остается верным при замене (3.3.6) на
In(f))==nE{d\ogf(Y, Z; 0)/Э0]2 = —n^logAK Z; 0)/дв2].	(3.3.9)
Граница достижима, если и только если
piog/Uc, у/; 0)/Э0=7«(0)(0л-0)	(3.3.10)
аналогично (3.3.7). В обоих случаях вп должна быть несмещенной оценкой в.
Пример 3.3.12. Однопараметрическое триномиальное распределение. Пусть пара (Y, Z) подчиняется триномиальному распределению с параметрами (к; в, в) [см. II, раздел 6.4.1]:
Ли z; e)=P(Y^y, z=z)=	—- ey^(\-2e)k-y-z-
yXzlQc—y—zY.
Отсюда
01og/-(K Z; в)/де=	=
0	1—20	(3.3.11)
= [(Y+Z)/2k—0]/[0(l—20)/k]
114
и
02log/(Y, Z; 0)/d02=—(Y+Z)/62—4(k—Y—Z)/(l—20)2.
Поскольку E(Y)=E(Z) = k0, имеем
O2log/(X Z; 0)/d02] = 2£/0+4£/(l—20) = 2fc/0(l—20).
Для выборки из n nap (yb Zi)...(y«, Zn) независимых наблюдений (Y, Z) нижняя граница Крамера—Рао для выборочной дисперсии несмещенной оценки 0 равна:
1п(0)^0(1—20)/2пк.
Эта нижняя граница достигается для оценки л	1
0n = E(yi+Zi)/2kn= — (у +z),
поскольку в силу (3.3.11)
Edlog/Оъ Zi; 0)/д0=[ £(yi + Zi)/2k—п0]/{0(1 — 20)/£] =
= InWl Z(yi+Zi)/2kn-0] =Z„(0)(0„-0).
д)	Неравенство Крамера—Рао для наблюдений, не являющихся независимыми и/или одинаково распределенными. Модифицировав неравенство Крамера—Рао, можно применять его и в случае, когда наблюдения не являются независимыми и/или неодинаково распределенными. Например, когда хг — реализации нормальной случайной величины Хг, для которой Е(Хг)=г0, г=\,2,...,п (упрощенная версия линейной регрессии). Пусть 0п определена, как в теореме 3.3.2. Неравенство Крамера—Рао тогда будет иметь вид
1/Z„(6>),
I где'
/„(0)=Ei01og gntX', X2)...,X„, 0)/00]2 = —£{02log gn(Xit X2.Xn; 0)/d02],
gn(ui, u2.un) — совместная п.р.в. случайной переменной (щ, и2,...,ип)
в точке (%,, Х2,...,Хп).
е)	Обобщение неравенства Крамера—Рао на случай нескольких параметров. Информационная матрица. Пусть X имеет в точке х п.р.в. f(x; 0]...0k), a 0r — неизвестные параметры, и пусть х2,...рсп — выборка из п наблюдений X. (Здесь X и хг могут быть скалярами или векторами. Мы рассмотрим скалярную ситуацию. Добавления, которых требует векторная ситуация, обсуждались в разделе 3.3.3, г).)
115
, г, s = 1,2....к.
Функция правдоподобия [см. раздел 4.13.1] равна:
...Xi,...,x„)= nf(xr;6x.......вк).
Пусть 0* = 0* (Х\,...,хп) — несмещенная оценка 0Г, г=1,2.....к.
Аналогом количества информации 1п (0) в многопараметрическом случае служит информационная матрица 1(0), симметрическая кхк - матрица [см. I, раздел 6.7]; элемент равен:
-Е f 62log ...................*п) ] =
<	derdes	3	(3.3.12)
= -пЕ ( ^2log/(%;01,02...........0.)
I
Аналогом выборочной дисперсии единственной оценки 0* в случае многих параметров служит выборочная матрица ковариаций V оценок 0* ...0А* , т. е. симметрическая (к х /г)-матрица, (г, $)-элемент которой
равен выборочной ковариации 0* и 0* (г, $ = 1,2,...,А:: когда г = s, элемент равен выборочной дисперсии 0*).
В этой ситуации аналогом неравенства Крамера—Рао (3.3.5) будет следующее: матрица
V — [ I (0)]'1 положительно полуопределена; это означает, что для каждого ненулевого (kxl) вектора X выполняется неравенство
Xх V X > X [ I (0) ]-'Х', т. е.
var (Xх 0*) X' [ I (0) j’1 X.	(3.3.13)
(Уточнение: var (Xх 0*) означает выборочную дисперсию Xх 0*.)
Поясним смысл предыдущего неравенства. Выборочная дисперсия любой линейной комбинации оценок не меньше, чем дисперсия той же линейной комбинации случайных величин Z( , для которых матрица V0 = [ I (0)] -1 служит матрицей ковариаций.
var (0р var (Z;) =	,
var (а^+Ье*2 ) > var (a Z,+b Z2) = a2V?} + 2abV?2 + b2V?2
и т. д., где К?- — (i, j )-элемент матрицы V° = [ I (0)]'1.
Пример 3.3.13. Среднее и дисперсия нормального распределения.
Пусть X распределено нормально, Е ( X )- в} и var(X) = 02, т.е. п.р.в. X в точке х равна:
f(x; 0j, 02) = (2тг)-1/2 02~1/2 ехр [ -(х - 0,)2 / 202 ] .
Пусть 0* и 0* — несмещенные оценки 0j и 02, основанные на выборке П	_
Xi, х2..хп объема п. (Так, мы можем взять 0* = Е хг / п=х и
0* = Е (хг — х)2 / (л—1).)
116
Имеем
log f(X;	02) = constant—log02—— 0j2/202,
откуда
d2 log/ / дв2 = —1/02, d2 Iog//d0,d02 = — (A — 0, ) / 022, d2 log/ / d022 = l/2022—(X- 0,)2. /402 . Взяв математические ожидания, найдем информационную матрицу I (0,, е2)-.
-п	0\
\ 0	1/202/
откуда [см. I, равенство (6.4.11)]
V° =[ I (0>, 02):	= (в1/П	° V
\ 0	202 /п /
Интерпретация неравенства (3.3.13) для этого примера следующая. Для любой пары постоянных а, b и для любых несмещенных оценок 0* и 0* параметров 0,, 02 справедливо соотношение
/Л* КЛ* Ч /	Кч/02/Л	0	\	/ а
var (с/0, + Ьв2 )	(а, Ьц	) (
\0	— 2022 /nJ \b
= а2в2/п + 2Ь2 $1 /п.
В этом примере для оценок 0* = х и 0* = Ё(хг—Т)2/(и-1), V0 совпадает с ковариационной матрицей 0* и 02 , т. е. неравенство (3.3.13) превращается в равенство*.
Пример 3.3.14. Двухпараметрическое гамма-распределение. Положим, X имеет двухпараметрическое гамма-распределение [см. II, раздел 11.3.1] с п.р.в. в точке х
ffx; а, /3) = (х«-1е-^)//?«Г (а), х 0.
На основании (3.3.12) и равенства Е (Х) = а(3 найдем информационную матрицу, основанную на п наблюдениях:
I (а, \ 1/0	a/02J
где 4й (се) = <12 log Г (а)/<1а2 [см. Abramowitz and Stegun (1970) — G].
Обращая ее, получаем
*Это не так. В случае выборки из N (g, а2) дисперсия L (х2—х)2/(л—1) равна 2аЛ/(п—1). В обозначениях рассматриваемого примера это дает величину 202/(п—1), что превосходит указанную границу 292/(п). — Примеч. ред.
117
( | („ m >1 = V° = — /	~1/П13 \
1 1	dI -1/П0	^(a)/n ) ’
где	\	/
D=[a Ф'(а)-1: //32.
Например, если а=2 и 0=1, то ¥'(2)=0,045, D=0,29 и 1 / 6,90 —3,45 \
v - п 1—3,45	2,22 I
Следовательно, для несмещенных оценок а*, 0* var «*	6,90/л,
var 0*	2,22/п,
а для произвольных а и b
var (да*+ 60*) > 6,90д2 /п — 7,90д6/л+2,2262/и.
3.4. ДОСТАТОЧНОСТЬ
3.4.1. ОПРЕДЕЛЕНИЕ ДОСТАТОЧНОСТИ
В разделе 3.3.3 обсуждалась концепция эффективности как меры приближения выборочной дисперсии оценки к тому минимальному значению, которое может быть получено теоретически. Концепция достаточности принадлежит к тому классу идей, но представляется более глубокой.
Р. Фишер обнаружил, что в некоторых случаях можно собрать в единственной статистике всю информацию, содержащуюся в выборке относительно оцениваемых параметров (пользуясь словом «информация» в бытовом смысле). Такая статистика была названа достаточной оценкой данного параметра. (Существование достаточной статистики — даже в ограниченном классе распределений — имеет огромное теоретическое значение, как будет объяснено далее. С практической точки зрения это, возможно, менее важно, поскольку не всегда можно сделать выбор между двумя моделями распределения, одна из которых обладает достаточной статистикой, а другая нет.)
Пример 3.4.1. Достаточность наблюдаемой частоты как оценки биномиального параметра. Чтобы проиллюстрировать смысл достаточности, рассмотрим оценивание вероятности р выпадания «шестерки» на несимметричной игральной кости по данным о результате п бросаний этой кости. Интуитивно ясно, что п отдельных результатов в этой задаче неважны (т.е. не нужен учет по номерам успехов и неуспехов), а важно только общее число успехов (или доля успехов в п). Интуиция в данном случае правильна, поскольку, как показано ниже, общее число успехов является достаточной статистикой для оценивания параметра р.
Обозначим через х\,х2,...,хп последовательность результатов бросания кости, где Xj-1, если при j-м бросании был успех (т. е. выпала 118
«шестерка») и ху=0 — в противном случае, у-1, 2,...,л. Рандомизация [см. II, раздел 3.3], достигаемая встряхиванием кости в коробочке перед бросанием, обусловливает независимость [см, II, раздел 3.6.2]; поэтому мы можем рассматривать Xj как реализации индуцированной случайной величины Xj, j-\, 2,...,п, где Xif Х2..Хп — независимы и
одинаково распределены с общим распределением, заданным [см. II, раздел 5.3.1]:
Р(ХГ\) = р, Р(Х~0) = 1-р ;=], 2,..„л,
т.е.	(3.4.1)
P(Xj=y) = рУ(\—ру-У, у~0, 1; у- 1, 2,...,п.
При заданном общем числе успехов (скажем, г0) условное совместное распределение [см II, 13.1.4] Xj имеет вид
P(Xi=yi, Х2=у2.....Хп = уп | Е Xj = r0) (уу=0 или 1, /=1, 2...д) =
(3.4.2)
=P(Xt=yi, Х2-у2,...,Хп = yti, ё йу-г0) / F I ё Л>г0).
Если теперь Е У/-^-. то числитель в (3.4.2) сократится до 1 •'
Р(Х}=У1,	Х2=у2,...,Хп=уп), поскольку подразумевается, что
п
Е Xj-r0, и эта вероятность просто
Р (Л, = ух, Х2 =Хъ • • • ,Х„ -= У„) п
= П Р(Х:=у:) из независимости [см. II, раздел 4.4] I ' J
= П рУ<(\—ру-У; по (3.4.1)
7=1
П
=рго (1—р)"—'о, поскольку Ек=г0-п	1
Если же Еуу # г0, то числитель в (3.4.2) равен нулю, поскольку это вероятность невозможного события.
Знаменатель в (3.4.2) равен: л	п
Р(ЪХ:=г0) = ( п ) р'0 (1—р)л—г°, поскольку Е%, имеет распределение ‘	/“о	1
Bin (п, р) [см. II, раздел 5.2.2].
Итак,
'О 1
0 в противном случае.
Отметим важную особенность этого результата^ условное распределение выборки при данном значении статистики Еху не зависит от р. Если значение этой статистики известно, любые дальнейшие заключения о р, принимающие в расчет это знание, должны основываться на условном распределении значений выборки; поскольку же р в нем
п
Р(Х,=у....Х„ =у„ | Е Xj=rot =
119
не участвует, никакие выводы о р из него извлечь невозможно, т. е. при заданном общем числе успехов нельзя извлечь из данных что-нибудь еще, относящееся к р. В этом смысле статистика Ё хг содержит всю информацию о р, которую можно извлечь из выборки. Вот в каком смысле статистика Ё хг является достаточной для р. (Это, конечно, совсем не значит, что отдельные выборочные значения хх, х2,...,хп бесполезны для других умозаключений. Рассуждения в примере основывались на предположении о том, что Xj независимы и одинаково распределены, что действительно имеет место при бросании костей. Может статься, что в других случаях взаимная независимость Xj окажется под сомнением. Для разъяснения, конечно, понадобится вся выборка (хь х2,...,хп) целиком.)
Те же доводы, что показали достаточность Ехг для р, покажут достаточность для р и таких статистик, как-у- Exf, a Y,xr + b и т. д. Фактически любая функция от Ехг достаточна*. В обсуждаемом случае интуитивно ясно, что приемлемой функцией будет Ехг /п доля успехов, поскольку это несмещенная оценка р. Далее [см. раздел 3.4.3] будет рассмотрен объективный критерий (теорема Рао—Блеквелла) для правильного выбора.
Приведем теперь формальное определение достаточности.
Определение 3.4.1. Достаточность. Пусть (непрерывные или дискретные) случайные величины (Xit Х2........Хп) имеют в точке
(хь х2..хп) п.р.в. fn(xx, х2.хп; в), где в — (скалярный) параметр, и
пусть 0* = 0*(х,,х2.хп) — статистика, основанная на наблюдениях
(хь х2,...,хп). Тогда 9* достаточна для 9, если для любой другой статистики 9 (х,, х2 хл) условное распределение 9 при данном 9* не зависит от 9. В частности, 9* достаточна для 9, если совместное условное распределение Xit Х2,...,Хп при данном 9* не зависит от 9 [см. также раздел 4.13.1.6)].
Пример 3.4.2. Достаточность выборочного среднего как оценки экспоненциального параметра. Пусть (xj,...,xn) — выборка наблюдений экспоненциальной случайной величины X, п.р.в. которой в х равна:
/(х; 9)=9е~вх, X > 0.
_ п
Тогда, х = Е Xj/n достаточна для 9. В терминах независимых одинаково распределенных переменных Х}, Х2,...,Хп, которые являются статистическими копиями X, так что ху представляют собой реализации %,(/'= 1,2,...,и), условное распределение выборки при данном значении х определяется условной п.р.в. в точке (wb и2.ип) случайного
п ______
вектора (Х{, Х2...Хп) при условии ЕXj = nx .
* Имеется в виду взаимно однозначная функция. — Примеч. ред.
120
Если Ему=лх , эта плотность равна
(пЯи ;0)) /«(тТ; 0),	(3.4.3)
п 1	__
где g(z', 6) — п.р.в. Xj в точке z; если же пх , это нуль [см. пример 3.4.1]. Теперь [см. II, раздел 11.3.2]
g(z; 0)= (^)!0nzn-/e-0z
И	п
хщи-, e)=ene~eLuj = = 0пе—пх0 ' 'Euj = rix'.
Таким образом, (3.4.3) сводится (в нетривиальном случае) к 0п<гпхв/{ -L-е^пху^е-пхв ] =(Л-1)!/(иТ)п1,
что не зависит от в. Следовательно, х~ достаточна для в.
Пример (3.4.3) (продолжение). В примере 3.4.2 было показано, что при заданных х1,...,хп с п.р.в. 6егвх среднее выборки Y является достаточной статистикой для 0. Из этого, однако, не вытекает, что Y — в каком-то смысле хорошая оценка для в. Фактически Y совершенно неприемлема как оценка для 0, поскольку она даже не имеет нужной размерности [см. раздел 3.3.1, а)]: Е(Х) = 1/0, так что, х~ имеет размерность вЛ, а не в. Что действительно следует из примера 3.4.2, так это то, что наилучшая возможная оценка 9 должна быть функцией Y. Ответа на вопрос, какая функция, концепция достаточности не дает; он должен быть получен с помощью других критериев (таких, как состоятельность [см.раздел 3.3.1]). В данном случае по соображениям размерности правомерно считать, что 1/х" может оказаться приемлемой оценкой. Действительно, распределение Z=t,Xj задается (3.4.4), откуда ожидаемое значение \/Х -n/Z равно:
J (л/г) g (z; &)dz-n9/(n—Y) о
[см. II, раздел 10.4.1]. Следовательно, (п—1)/пх~ — несмещенная [см. раздел 3.3.2] функция достаточной статистики Т, и с этой точки зрения — наилучшая возможная оценка 0. (Формальная процедура получения несмещенной достаточной статистики приведена в разделе 3.4.3.)
3.4.2. КРИТЕРИЙ ФАКТОРИЗАЦИИ И ЭКСПОНЕНЦИАЛЬНОЕ СЕМЕЙСТВО
В примерах 3.4.1, 3.4.2 и 3.4.3 показано прямое применение определения достаточности. Более прост подход с использованием критерия факторизации, который позволяет немедленно ответить на вопрос о существовании достаточной статистики. Этот критерий состоит в следующем.
-121
Теорема 3.4.1. Критерий факторизации для достаточности. Пусть х2,...,хл; в) — выборочная п.р.в. наблюдений хь х2,...,хп. Статистика в* = 6*(Xi, х2,...,хп) достаточна для в тогда и только тогда, когда fn может быть разложена в произведение вида
fn (*i, х2,...,хп; 6)=g {0*(хь х2,...,хп), 6) h (хь х2,...,хп),	(3.4.4)
где сомножитель /?() не зависит от 6. (В частности, h(-) может быть постоянным.)
Пример 3.4.4. Критерий факторизации и распределение Бернулли. В примере 3.4.1. совместное распределение данных имеет п.р.в.
fn (х„ х2,...,хп-,	/ (1-0)л~^
(с заменой р в (3.4.1) на 0). Это выражение того же вида, что и (3.4.4), с 0* = Exy, g(0*, 0)=09*(1—в)п~в* и Л(Х], х2,...,хл) = 1. Следовательно, ЕХу достаточна для 0.
Для данных примера 3.4.2 совместная п.р.в. в точке (хн х2,...,хл) равна:
fn(xx, х2,... ,хл; 0) = 0Л е -eLxj’
что также имеет форму (3.4.4), если в ней положить 0* = Еху g(0*, 0) = 0ле^’ и А(х1,...,хл)=1.
Пример 3.4.5. Критерий факторизации и нормальное распределение. Для N (0, 1) п.р.в. выборки в точке (хь х2,...,хл) равна:
(2тг)л/2 ехр{—4 Е(х—0)2] =(2тг) ~п/2 ехр{ — 4 Е(х—х )2—4 п(х —
—0)2] =
=g(0*; 0) А(хь...,хл), где
0*=х\ g(0*;0)=(2?r)-л/2ехр{—4 л(0*—0)2j и h(xlf х2,...,хл)=ехр{ — 4 Е(ху—х )2}.
Отсюда следует, что статистика 0*=х" достаточна для в.
Подобным образом для нормального распределения с Е (А)=0 и var (Х) = 0 получаем, что /л(Х1,...,хл; 0) = (2тг0) -л/2ехр(—Ех2 / 0), откуда Ех) — достаточная статистика для дисперсии 0 (а следовательно, и для стандартного отклонения 01/2).
Пример 3.4.6. Критерий факторизации и гамма-распределение. Для однопараметрического гамма-распределения [см. II, раздел 11.3] с параметром формы 0, для которого п.р.в. в точке х равна
х^-1 е~х / Г(0), х>0,
122
получаем	„
х2,...,х„; 0 = ( Пл»-') е-^j / Г”(0.
17	п
Здесь разложение на множители (3.4.1) достигнуто для 0* = ГЦ , достаточной статистики для в.	1
В теореме 3.4.1 не требовалось, чтобы х, были наблюдениями над независимыми и одинаково распределенными переменными. Для однопараметрических распределений, однако, обычно рассматривается ситуация, когда xt образуют случайную выборку из общего однопараметрического распределения, как в примерах 3.4.4, 3.4.5 и 3.4.6. При таких обстоятельствах и слабых ограничениях распределение, обладающее достаточной статистикой, должно принадлежать к экспоненциальному семейству распределений, определяемому следующим образом.
Определение 3.4.2. Экспоненциальное семейство. Однопараметрическое экспоненциальное семейство (или класс экспоненциального типа) одномерных распределений имеет в х следующую п.р.в.:
f(x, 0)=exp { А (х) В(6) + С(х)+D(6)),	(3.4.5)
где А(х), В(в), С(х) и D(0) — произвольные функции указанных аргументов, ограниченные только тем, что f(x) — плотность распределения, т. е. f(x) должна быть неотрицательна и нормализована*. (Этот класс иногда называют классом Дармуа—Питмана—Купманса.)
При применении критерия факторизации из теоремы 3.4.1 к (3.4.5) можно увидеть, что распределение выборки можно записать в форме произведения:
fn(xi, х2,...,хп; 6)= { exp В(6) ZAfxJ+nDtd) } - { exp ЕСЦ) },
откуда статистика 0* = ЕЛ(х,) достаточна для 0.
Если к тому же ЕЛЦ) / п несмещенная оценка 0, то она удовлетворяет неравенству Крамера—Рао (3.3.5) [см. (3.3.8)]. Оценка ЕЛ(Х|) / п в таком случае несмещенная, эффективная и достаточная.
Примером экспоненциального семейства могут служить п.р.в. однопараметрического гамма-распределения с параметром формы 0 [см. пример 3.4.6]:
х*-1 е~х / Г(0)=ехр { (log (х))(0— 1)—х— logF(0) },
что имеет вид (3.4.5) с /4(x) = logx, 5(0) =0—1, С(х) = —х и £)(0) = log Г(0). Достаточная статистика 6* = '£A(xi) есть Е log Xj = log (П х}} или любая функция от нее в соответствии с примером 3.4.6, где установлено, что статистика ГЦ достаточна для 0.
В приведенных выше примерах рассмотрены биномиальное и отрицательное распределения.
Пример 3.4.6 а. Биномиальное распределение как член экспоненциального семейства. Если X — число успехов в фиксированном количестве п испытаний Бернулли с вероятностью успеха 0, то п.р.в. X в точке х равна:
* Т. е. ее интеграл по всей прямой должен быть равен 1. — Примеч. ред.
123
f(x;e, n)=(”} вх(1~е)п~х, x=0,	(3.4.5a)
откуда
log/= log ( £ )+x log +И log (1—0).
Это выражение имеет фо£>му (3.4.5) с log ( ^ ^ = С(х), xlog {0/(1—0)} = =А(х) В(6) и п log (1—0)=Z)(0). Поэтому биномиальное распределение входит в экспоненциальное семейство, и статистика 0* = А(х)=х достаточна для 0 [см. пример 3.4.4].
Пример 3.4.6 б. Отрицательное биномиальное распределение принадлежит экспоненциальному семейству. Если по контрасту с ситуацией из примера 3.4.6а, N — число испытаний Бернулли (0), требующееся для достижения фиксированного числа х успехов, то N имеет отрицательное биномиальное распределение, для которого
Р (N=n)=f(n	в^~х> п=х,х+1, х+2,... (3.4.56)
(ср. с примером 3.3.0). Здесь
log/= log (п~))+ п log-r-Ц +п log (1—0), \Х—1/	1—и
и снова мы видим, сравнивая с (3.4.5), что плотность распределения вероятности принадлежит экспоненциальному семейству и п — достаточная статистика для 0.
Пример 3.4.6 в. Влияние усечения. Положим, что X — пуассоновская переменная с параметром в и что в выборке п наблюдений X значение Х=г встретилось пг раз, г=0,1,...,к и Lnr = n. Вероятность получения такой выборки равна:
Л	. г к
fn(n0, пх,...,пк; 0) = П(е-(? 0Г / г\уг=е~пв 0»™' / П(г!)п'.
Поскольку это произведение имеет вид (3.4.4), где
0* = £глг, g (0*, 0) = е~в№гпг
и	0
Л = 1 / П (г!)%
то (сумма всех к наблюдавшихся значений) достаточна для 0.
Теперь предположим, что нулевые значения Х=0 были ненаблюдаемы, возможно, из-за ошибок эксперимента или неприспособленности оборудования; тогда X имеет усеченное пуассоновское распределение [см.II, раздел 6.7] с отсутствующим нулевым классом [см. II, пример 6.7.2]. Плотность распределения вероятности в точке х в этом случае будет равна:
Р (Х=Х) = 0(0) 0r !, r= 1, 2,..., 0(0) = е~° / (1—е~0).
124
Вероятность выборки равна:
П [ф (6) 6Г / г !}"' = { 0(0)0^ ГПг / П(Н)%
что также имеет вид произведения (3.4.4) с в* = ^гпг (та же статисти-1	к
ка, что и для неусеченного случая), g (6*, 6) = фп(6) 6'г и к	к
А=1 / П (г!)"г. Следовательно, достаточна для 0.
Этот последний пример иллюстрирует общий результат об усечении X (непрерывной или дискретной) с п.р.в. f(x; в)=а/(6) ф(х, 0) и достаточной статистикой для 0. Оказывается, если наблюдаемы лишь значения X, удовлетворяющие условию а^Х^Ь, то у усеченного распределения тоже есть достаточная статистика для 0. Действительно, поскольку ffx, в) принадлежит к экспоненциальному семейству (3.4.5), усеченную п.р.в. можно представить в виде
/trunc(* д)/Х(0), а^х^Ь, где	ь
Х(в) = \fMdx, а и, таким образом,
/Inl№(x,«) =	। А(Х) B(6) + C(X) + D(^ 1 =
Л(Р)
= exp { А (х) В(0) + С(х) + D, (в) ], где
Dx (0)=Z>(0)—log Х(0).
Следовательно, /trunc (х, 0) тоже принадлежит экспоненциальному семейству и имеет достаточную статистику для 0.
3.4.3.	ДОСТАТОЧНОСТЬ И НЕСМЕЩЕННАЯ МИНИМАЛЬНО ДИСПЕРСНАЯ ОЦЕНКА
а)	Теорема Рао—Блеквелла. Различные критерии, фигурировавшие выше, дают возможность найти достаточную статистику 0*, когда она существует. Но, как выяснилось в примере 3.4.3,.остается открытой проблемой выбор подходящей функции от 0*, которая была бы разумной оценкой 0.
Почти тривиальный пример дает биномиальное распределение Bin (п, в). Если X имеет такое распределение, то наблюдаемое значение х переменной X достаточно для 0 [см. пример 3.4.6а]; как оценка эта статистика неприемлема: значение 0 должно заключаться между О и 1, между тем, если л = 20, то х может быть равным, скажем, 19.
125
Очевидное решение состоит в том, чтобы взять в качестве оценки не х, а х/п (несмещенную для в).
Подобные свойства проявляет и отрицательное биномиальное распределение. Если N имеет такое распределение, как в примере 3.4.66, то наблюдаемое значение п переменной N достаточно для 0, но как оценка п неприемлемо по соображениям размерности, как указывает соотношение E(N)=x/0. Преобразование, которому следует подвергнуть х дЛя получения приемлемой, т. е. несмещенной, оценки в, не столь очевидно, как в предыдущем случае. Но небольшое вычисление все-таки приводит к оценке (х-1)/(л-1), которая является несмещенной для в [ср. с примером 3.3.0].
Нельзя, однако, надеяться на то, что всякий раз удастся найти подходящие решения, как было в этой задаче. Следующая теорема предлагает регулярный метод.
Теорема 3.4.2 (теорема Рао—Блеквелла). ^Предположим, что s=s(Xt, x2,...,xj — достаточная, но смещенная оценка в, основанная на выборке (хь x2,...,xj наблюдений случайной величины X, а u(xt,..., хп) — несмещенная, но недостаточная оценка в. Пусть S=s(Xlt Х2,...,Хп) и U^u(Xi, Х2,...,Хп), где Х1г Х2,...,Хп — статистические копии X. Тогда условное математическое ожидание [см. II, раздел 8.9]
(s)=E((7/S=5)
является несмещенной достаточной оценкой 6 и
var { 0*(S) } ^var (U).
В качестве тривиальной иллюстрации действия теоремы рассмотрим выборку (X], х2,...,хп) наблюдений бернуллиевски распределенной переменной X. Статистика 5=Ёхг достаточна для в, но смещенная. Статистика х} несмещенная, но недостаточная. Статистика Рао—Блеквелла равна:
e*(s)=E (х, I Ехг=5) = Е (Ехг ! Ехг=5)= -1 5.
Эта оценка s/n — несмещенная и достаточная. Следующий пример более содержателен.
Пример 3.4.7. Применение теоремы Рао—Бреквелла. Пусть (Х1,...,хл) — случайная выборка наблюдений случайной переменной X с п.р.в. Дх)=02хг~Ч х>0. (Отметим, что Е(Х)=2/0.) Из формы п.р.в. п
выборки П/(х) = 02"(П х ) e~eLxJ следует (с учетом теоремы 3.4.1), что 1 л
5=5 (Xi,...,x„) = Ex/ достаточна для в. Поскольку выборочное математическое ожидание этой статистики равно 2 п/в, она неудовлетворительна по соображениям размерности. С другой стороны, оценка 126
u==u(xi,..>tx„)=l/x\ — несмещенная для так как ее математическое ожидание равно: j (х—1)(02 хе~вх) dx=6. Согласно теореме 3.4.2 оцен-®	—1 л
ка 6* = 0*(s)=E (U J S=s) = Е (X i | ^Xr=s) — несмещенная и достаточная для в. Отметим, что условное распределение U при данном S=5 должно быть свободно от параметра в, по определению, достаточной статистики, и, таким образом, 0* — статистика. Чтобы вычислить ее, мы должны знать условное распределение Xi при п
заданном Ехг=$. Заметим, что Дх) — специальный случай гамма-распределения. Из свойства аддитивности гамма-функций [см. II, раздел 11.3.2] следует, что плотность вероятное t -юго распределения ^Хг в точке 5 равна:
gn(s) = e2n s2”-'1 e-°s / (2л—1)!, $>0.
п
Для того чтобы найти условное распределение Xi при данном LXr=s, п 1
нужно знать совместную п.р.в, скажем, й(х, 5), пары Хх и EAL. Оче-п 1
видно, что это то же самое, что и совместная п.р.в. Xi и ЕХ.в точке т?	2
(х, 5—х). Поскольку же Х} и ^Хг независимы,
А(х, s)-f(x) gn-i(s—х)~^гп x(s~x)2n'3	/ (2л—3)!
п
Условная п.р.в. Xt в точке х при данном' 12Xr=s равна:
fc(x/s)=h(x, s) / gn(s) = (2n—1)(2л—2) x(s—х) 2п~3 / 5 2п~0<х<$.
Окончательно: искомой несмещенной функцией s будет $
0* (s)=E(U | 5)=£’(Х-1 j s)== Jx -1./;.^ | 5) dx= 1	о
= (2л-1).(2л.-.2_) j (s-x) 2л~3 dx= S2n~l о
= (2n—1) / s=(2n—1) / nx,
где x" -s / n — выборочное среднее. Очевидно, что это достаточная статистика, поскольку она является функцией* достаточной статистики 5. Несмещенность можно проверить и прямым вычислением:
со
Е [0*($)}=(2и—1)Е (5-1)=(2л-1) J 5-1 gn(s) ds=0.
__________ о
* Взаимно-однозначной. — Примеч. ред.
127'
б)	Несмещенные оценки с минимальной дисперсией и достаточность. Теорема Рао—Блеквелла позволяет нам для в построить несмещенную достаточную оценку по достаточной оценке S и произвольной несмещенной оценке U:
0* (s)=E(U | S=s)
с дисперсией, не большей, чем var (L7). По соображениям концентрации [см. раздел 3.3.1,а], 0*, очевидно, лучше, чем U. Предположим, что кто-то работает с другой несмещенной оценкой Ux. Получит ли он иную и, возможно, лучшую несмещенную достаточную оценку 0? Ответ на этот вопрос отрицателен. При некоторых не слишком ограничительных условиях оценка Рао—Блеквелла 0* единственна и тем самым является НОМД для 0. Это следует из известного результата Рао: если существует полная достаточная статистика, то любая функция ее — несмещенная оценка ожидаемого значения с минимальной дисперсией. (Достаточная статистика называется полной, если ее любая функция, не равная нулю, с вероятностью 1 имеет ненулевое математическое ожидание.)
Пример 3.4.8. НОМД для биномиального и отрицательного биномиального параметров. Как мы убедились в разделе 3.4.5,а), если х — число успехов в п испытаниях Бернулли с параметром 0, то х/п — несмещенная достаточная оценка 0. Можно показать, что х — полная в смысле предыдущего определения. Из чего следует, что х/п является НОМД для 0. Аналогично если п — число испытаний до достижения фиксированного числа х успехов, то (х—-1) / (п—1) — НОМД для 0.
3.4.4.	ДОСТАТОЧНОСТЬ В СЛУЧАЕ МНОГИХ ПАРАМЕТРОВ
Понятие достаточной статистики, введенное в разделе 3.4.1 для однопараметрического семейства распределений, может быть распространено на случай нескольких параметров. Расширение определения 3.4.1 состоит в следующем.
Определение 3.4.3. Совместная достаточность. Пусть случайные переменные Хи Х2,...,Хп (непрерывные или дискретные) имеют в (Хь х2,...,хп) п.р.в. fn{xx, х2,...,хп\ 01, 02,...,0Д где 0Ь 02,...,0к — параметры. Статистики 0у (xit х2,...,хп), j=\,2,...,m, совместно достаточны для 6j, если для произвольного набора т статистик 0; = 0у (хх,...,хп), j=l,2, т, условное совместное распределение 0Н 02,...,6т при данных 0Г, 0*,...,0W* не зависит от параметров 01, 02,...,0^. Эта совокупность статистик называется минимальной совместно достаточной, если т — минимальное целое число, для которого выполняется сказанное выше.
В частности, 0* совместно достаточны для 61у 62,...,6к, если условное совместное распределение Хх, Х2,...,Хп при данных 0* не зависит от 0Ь 02,...у6к.
128
Как и в однопараметрическом случае, прямое применение теоремы может оказаться трудоемким; обычно вместо этого легче пользоваться эквивалентной многопараметрической версией критерия факторизации из теоремы 3.4.1. Она состоит в следующем.
Теорема 3.4.3. Критерий факторизации. Пусть
х2,...,х^, 01,...,0д.),
как в определении 3.4.3. Совокупность статистик ву, j=l, 2,...,к, совместно достаточна для параметров в 6к, если и только если функция fn может быть разложена на множители следующего вида:
fп’• • ’>%П’ 0 •>••» 0jt)
(3.4.6)
= g(0*, 02*,-.,0л* ; 01, 02,...,0„) к(Хц х2,...,хп).
Пример 3.4.9. Совместная достаточность х" u~s~2 для параметров N(n, а). В случае когда Xj, J=l, 2,...,п, — независимые и одинаково нормально распределенные переменные с Е(Ау) = 01, var (Ау)=02, ф	„ Л ______
обычные оценки для 0! и 02 есть 0i =х , 02 = Е(ху—х )2 / (п—1) (=s2, скажем). Оказывается, эти оценки совместно достаточны для 0j и 02. Чтобы убедиться в этом, представим п.р.в. выборки в следующей форме:
(2тг02)—ехр - 4- (х,—0i)2= Zt/2 J
(2тг02)—л/2 ехр---=1— { Е (х,—х")2+п(х'—0i)2} =
202	J
(2тг02)-л/2 ехр— 4- ( («— 1)52+л(х — 01)2), 202
т. е. в форме (3.4.6) с 0* =х", 02=$2 и Л(хь х2,...,х„)= 1. Следовательно, ~х и s2 совместно достаточны для 0] и 02. Пользуясь терминологией раздела 3.4.1, мы можем сказать, что х" и s2 вместе содержат всю информацию с 01 и 02, содержащуюся в выборке.
Как и в однопараметрическом случае, любая пара алгебраически независимых функций от 0*, 02 также является парой совместно достаточных статистик. В примере 3.4.8 эта пара уже обсуждалась, поскольку 0? и 02, по отдельности, несмещенно оценивают 0! и 02 соответственно.
129
3.5.	ПРАКТИЧЕСКИЕ МЕТОДЫ ПОСТРОЕНИЯ ОЦЕНОК. ВВЕДЕНИЕ
3.5.1.	ГРАФИЧЕСКИЕ МЕТОДЫ
Если случайная величина X имеет двухпараметрическую ф.р. вида P(AXx)=F(x; 0,, 02)=H[(x—0J / 02)1. где 01 и 02 — параметры (01 называется параметром положения, а 02 — параметром масштаба), то можно придумать специально разграфленную бумагу со шкалой, не зависящей от 0{ или 02, на которой график F(x; 0„ 02) — прямая линия [см. раздел 3.2.2,г)]. Если изобразить на этой бумаге эмпирическую ф.р. [см. разделы 3.2.2,г), 14.2] выборки и множество точек окажется близким к прямой линии, то это может служить грубой проверкой предположения о том, что распределение выборки принадлежит семейству с функцией распределения F(x; 0lt 02). Прямая линия, проведенная «на глаз» по нанесенным точкам, позволяет получить приближенные значения для 0! и 02.
Из подобных распределений наиболее часто встречаются нормальное [см. II, раздел 11.4], логарифмически-нормальное [см. II, раздел 11.5] и распределение Вейбулла [см. II, раздел 1.9]. Графический метод такого типа полезен как предшественник более точных аналитических методов.
Пример 3.5.1. Использование нормальной вероятностной бумаги для оценивания ц и а. Следующая частотная таблица содержит данные об измерении роста 1456 женщин.
Рост (9 дюймах) X г	Верхняя граница-интервала группировки Хг+ "Г	Частота / г	Накопленная частота число женщин, рост которых <*.+ 4-)	Накопленная частота в % от целого
52,5	53	0,5	0,5	0,03
53,5	54	0,5	1	0,07
54,5	55	0	1	0,07
55,5	56	1	2	0,14
56,5	57	5	7	0,48
57,5	58	15	22	1,51
58,5	59	15,5	37,5	2,5
59,5	60	52	89,5	6,1
60,5	61	101	190,5	13,08
61,5	62	150	340,5	23,3
62,5	63	199	539,5	37,05
63,5	64	223	762,5	52,37
64,5	65	215	977,5	67,14
65,5	66	169,5	1147	78,78
66,5	67	151,5	1298,5	89,18
во
 Рост (в дюймах) X 1	Верхняя граница интервала группировки •V-r	Частота t г	Накопленная частота (»число женщин, рост которых << + 4-)	Накопленная частота в от целого
67,5	68	81,5	1380	94,78
68,5	69	40,5	1420,5	97,56
69,5	70	19,5	1440	99,90
70,5	71	10	1450	99,59
71,5	72	5	1455	99,93
72,5	73	0	1455	99,93
73,5	74	1	1456	100
воспроизведено с разрешения Macmillan Publishing Gompany. Statistical Methods for
Research Workers, 14 th edition, by Sir Ronald A. Fisher, copyright © 1970, University of
Adelaide (см. русский перевод: P. Ф и ш e p. Статистические методы для исследователей /
(Объект измерения ростом ровно 53 дюйма был занесен как 0,5 в клетку с центром 52,5 и как 0,5 в следующую клетку, так же объясняется наличие и других полуцелых частот.)
Эмпирическая ф.р. (т. е. значения накопленных частот, выраженных в процентах от целого, отложенные на нормальной вероятностной бумаге против соответствующих верхних границ клеток) показана па рис. 3.5.1. Прямая линия по точкам проведена на глаз. Точки лежат в разумной близости от этой линии, что показывает приблизительную нормальность распределения рассматриваемой совокупности (т. е. роста женщин).
Для нормального рас-
м Рос. в дюймах (zi пределения график может
Рис. 3.5.1. График эмпирической функции распределения (ф.р.) на нормальной вероятностной бумаге
быть интерпретирован с помощью стандартной
131
Рис. 3.5.2. Эскиз п.р.в.; отменены 50%-ная точка (А) и 95%-ная точка (В)
нормальной плотности, показанной на рис. 3.5.2. 50%-ная точка (64,6 дюйма) дает оценку ц, 95%-ная точка (69,0 дюйма) — оценку для + 1,645а. Следовательно, наш графический метод подтверждает приближенную нормальность выборки (с параметрами /*=64,6 дюйма, а=(69—64,6) / 1,645=2,76 дюйма).
3.5.2.	НЕСМЕЩЕННЫЕ ОЦЕНКИ С МИНИМАЛЬНОЙ ДИСПЕРСИЕЙ. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
Как объяснялось в разделе 3.3.2, несмещенная (ограниченная) оценка с минимальной дисперсией параметра 0, основанная на выборке (Xi, х2.хп), есть функция h(Xi, х2,...,хп\ alt а2,...,ак), где коэффици-
енты а2,...,ак выбраны так, чтобы выборочное математическое ожидание было равно 0, и при этом условии выборочная дисперсия была бы минимальной. Выбор формы функции А(-) обычно основывается на соображениях размерности. В примере 3.3.4 параметр 0 был математическим ожиданием X, и линейная функция поэтому была приемлема. Пример 3.3.5 иллюстрирует использование функции, линейной по коэффициентам и квадратичной по наблюдениям.
Метод наименьших квадратов чаще всего применяют при линейной зависимости от коэффициентов. В этом случае он четко систематизирован и продуктивен. «Принцип наименьших квадратов» описан в гл. 8. (Это один из старейших и известных методов оценивания, его, например, использовал Лежандр в 1805 г.; широко известно также применение этого метода Гауссом в 1809 г. [см. Pearson and Kendall (1970), гл. 15 —D].) Связь между методом наименьших квадратов и несмещенной оценкой с минимальной дисперсией очевидна из следующего примера. Предположим, что для п точно известных нагрузок Х\, х2,...,хп наблюдались соответствующие прогибы У\, у2,....,уп стального бруса. Предполагается, что «уровни» хг нагрузок формируют часть предсказуемой картины эксперимента: они не являются «наблюдениями» в
132
нашем техническом смысле этого слова, так как не являются реализацией случайных величин. Напротив, прогибы уг представляют собой «наблюдения»: они неизвестны заранее; более того, цель эксперимента в том, чтобы наблюдать и измерять их с максимальной точностью, доступной техническому оснащению опытов. Физический подход предполагает, что в пределах рассматриваемых нагрузок и при отсутствии сшибок измерения искомое отклонение >'(х) — прогиб, вызванный нагрузкой х, выражается формулой
у(х) = Оо + 01Х+е2х2,
при определенном значении коэффициентов 0(, 02. Реально наблюдения удовлетворяют соотношениям
yr=0o + 0i хг + 02 х2г + ег, г=1,2,...,п,
где ег обозначает ошибку наблюдения. Согласно принципу наименьших квадратов оценки 0Г Для 0г, г-0,1,2, должны быть выбраны как значения (неизвестных) вг, которые минимизируют «сумму квадратов»
ег = Е1 (уг-60-~е} х-02 х^)2.	(3.5.1)
С другой стороны, если мы решили использовать несмещенные оценки с минимальными дисперсиями, линейные по уг с произвольными функциями заданных нагрузок хг в качестве коэффициентов, то нам следует искать оценки вида:
§r=ar + L brsys, r=0,l,2.
Коэффициенты ar, brs определяются из условий: а) 0Г должна быть несмещенной оценкой 0Г (г=0,1,2); б) при условии а) выборочная дисперсия каждой из 0Ь 02 должна быть наименьшей.
Оказывается, для этого «линейного» случая (при описанных выше условиях) оценки наименьших квадратов 0Г и несмещенная оценка с минимальной дисперсией 0Г [см. раздел 3.5.2] в точности совпадают (коротко перечислим эти условия: 1) каждая ощибка ег имеет нулевое выборочное математическое ожидание; 2) все ошибки ег имеют одинаковую выборочную дисперсию; 3) ошибки не коррелированы).
Процесс минимизации суммы квадратов Ее2 хорошо организован алгоритмически и дает для оценки простые ясные выражения. В нашем примере легко видеть, что 0о, 0*, 0* являются (единственными) решениями следующей системы линейных уравнений [см. I, раздел 5.8]:
133
0о + 0* ^»xr + 02 Ex^ = E yr,
0o ilxr + 0* Ex; + 0* Ex; = Exr, yr, 0o ExJ + 0* Ex’ + 0* Ex; = Ex^ yr
Формально решение есть вектор в*=(0*> 0*, 0*), заданный линейной формой
(3.5.2)
**=Су,
где у' = СУ1, у2,...,уп} и С = В~‘ к с
Развитие этих идей, а также выборочные свойства 0* содержатся в теореме Гаусса—Маркова и в ее приложениях [см. гл. 8].
3.5.3.	МЕТОД МОМЕНТОВ
Пусть (Xi, х2,...,х„) — выборка наблюдений случайной величины X, п.р.в. которой в точке х равна /(х; 01, 02,...,0^), где 0Г — неизвестные параметры. Пусть
n'r=E(Xr)=hr (0Ь 02,...,0Д г-1,2,...,	(3.5.3)
— моменты X (относительно начала) [см. раздел 2.1.2], Здесь hr (•) — известные функции неизвестных параметров. Соответствующие моменты выборки есть
m'r = Е х*- / «, г=’,2............. (3.5.4)
Метод моментов основывается на интуитивном представлении о том. что моменты выборки приблизительно равны моментам генеральной совокупности. Моментные оценки 0™, г-1,2,...,А, находят приравниванием первых к моментов генеральной совокупности соответствующим моментам выборки и решением полученных уравнений
Аг(0;и, 0”....0f)-<,	Г=1,2...к.
1
Этот метод прост в применении и, хотя ему недостает твердого теоретического обоснования, часто дает приемлемые результаты. Но опенки могут быть и очень низкой эффективности. Обычно этот метод предшествует методу максимального правдоподобия [см. раздел 3.5.4], который часто требует численного решения нелинейных уравнений. По этой причине метод моментов ранее был наиболее популярным, но при современных возможностях вычислений степень его распространенности существенно снизилась. Моментные оценки могут, однако, служить полезными и легко получаемыми первыми приближениями в итеративном процессе решения уравнений правдоподобия [см. пример 6.4.3].
Пример 3.5.2. Оценивание параметров нормального распределения ц и а методом моментов. В случае распределения N (д, а) имеем
ц\ =Е (Х)-ц
и
/2=£(^2)=о2+/*2.
Следовательно, уравнения моментов принимают вид
= п
и
(=х , скажем)
(д2)"'+(а2)/я = ExJ / л	(=х 2, скажем).
Отсюда моментные оценки:
[кт=Х , (<Г2)(,И> = X 2—(У2) = (LXj — х ZXj) / п.
Как будет видно из раздела 6.4.1, моментные оценки в этом примере совпадают с оценками по методу наибольшего правдоподобия.
Пример 3.5.3. Оценивание параметров гамма-распределения с помощью моментов. В случае гамма-распределения с параметром формы а, параметром масштаба (3 и п.р.в.
/(х; а, 3)=ха"1 е~х/& / Г (а),	х>0,
первые два начальных момента равны:
и
ц\ =Е (Х)= j xf(x; ct, 0)dx=a& сж, °
д2=£ (%2)= J х2/(х; a, 0)dx=a(a+1)/32.
О
135
Следовательно, моментные оценки ат, 0т выборки (х(, х2,...,хп) для а и /3 — это корни уравнений
а$=х (=Еху/л),
__ п 2
а(а + 1) /32=х 2 (= LXj / п), а именно
a<J”) = (x)2 / [Т2 — (X)2],
[Т2 — (х)2] /Т.
(3.5.5)
[Оценивание этих параметров обсуждается в примере 6.4.3.]
3.5.4.	МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ
Этот широко используемый и наиболее эффективный метод детально описан в гл. 6. В настоящем же разделе мы лишь кратко обсудим его.
М. Кендалл считает первой публикацией на эту тему статью Даниила Ёернулли, вышедшую в 1777 г. [см. Pearson and Kendall (1970), гл. 11 — Dj.
Начнем с простого примера.
Пример 3.5.4. Оценка максимального правдоподобия параметра экспоненциального распределения. Предположим, что X распределено экспоненциально с неизвестным математическим ожиданием, т. е. п.р.в. X принадлежит к однопараметрическому семейству:
с х>0;
/(*»= „
<	0 в противном случае.
Семейство возникает, когда в пробегает все положительные значения. То особое значение в (скажем, 0°), которое свойственно нашему X, неизвестно. Мы будем называть его истинным значением 0. Желательно оценить 0° по данным (хь х2,...,хп), состоящим из независимых наблюдений X. Имея в виду, что хг фиксированы, строим функцию
l(0) = l(0',xi, x2,...txn) = Uf(xi-, 0) =
= 0пе~^Хг, 0>О,	(3.5.6)
136
как функцию свободной переменной 0, для которой наши данные служат известными и фиксированными коэффициентами. Она называется функцией правдоподобия данных [см. разделы 4.13.1, 6.2.1]. В нашем примере X — непрерывная переменная. Данные хх,хг,...,хп должны рассматриваться как конечные (ограниченные) приближения к бесконечным десятичным дробям, требуемым для точной записи действительных чисел, так что хг означает некоторое число, лежащее в интервале хг ± А, где h — размер измерительной сетки, скажем —1 мм, для хг, измеряемого в миллиметрах. При малых h такого порядка вероятность
Р(Х€хг ±4- h)
может быть заменена с необходимой точностью на
hf(xr\ 0), г=1,2,...,л.
Вероятность получения наблюдаемой выборки для данного значения 0 будет поэтому равной
п
hn Пф(хг\ 0).
Следовательно, для каждого фиксированного значения (скажем, 00 параметра численное значение правдоподобия пропорционально п
Пf(xr', 00, и мы можем, таким образом, принять за значение правдоподобия выражение (которое определяется с точностью до умножения на константу, т. е. функцию данных, не зависящую от 0)
п
n/Ur; 0),
где хг остаются фиксированными, а 0 — неопределенная переменная. Между вероятностью и правдоподобием есть существенная разница: вероятностные утверждения касаются множества возможных исходов при фиксированном значении 0. В утверждениях о правдоподобии, напротив, значения исходов фиксированы и рассматриваются все возможные значения 0. При подходящих условиях суммы вероятностей также являются вероятностями, но суммы правдоподобий не являются правдоподобиями и т. д.
Несмотря на эти различия, есть и общие свойства. Относительно большие правдоподобия соответствуют вероятным значениям 0 более, чем относительно малые, так как большие вероятности соответствуют сильно ожидаемым исходам более, чем малые вероятности.
137
Рис. 3.5.3. Функция правдоподобия Цв) из примера 3.5.4
Из двух значений ва и еь ва называется более правдоподобным, чем еь, в смысле большего правдоподобия нахождения вблизи истинного значения 0°, если I (0а) / (/ (вь) > 1. Значение 0тах, в котором достигается максимальное значение функции правдоподобия, так что I (0тах) / I (0b) > 1 для любого еь(вь * 0тах)» является наиболее в этом смысле правдоподобным значением 0 (для рассматривае
мых данных). При применении метода максимального правдоподобия
это значение 0тах (зависящее, конечно, от данных хь х2,...,хл) берут как оценку 0°. Она называется оценкой максимального правдоподобия (ОМП) для 0°.
На рис. 3.5.3 показан график функции правдоподобия вместе с ОМП. В этом примере величина 0тах может быть получена дифференцированием как подходящий корень уравнения правдоподобия dl{0) / dd=0, или, что то же самое, уравнения
d [log Z(0)} / de=0,
где I (0) задано (3.5.6). Следовательно, в нашем примере уравнение правдоподобия сводится к
п
Ёхг = 0,
откуда
0тЯу==И / ^хг=1 / X ,
где х* — среднее выборки.
Приведенное описание нуждается в дополнениях. Строго говоря, в качестве функции правдоподобия следует взять al (0), где а — произвольная положительная функция наблюдений, а I (0) определено, как в (3.5.6). Это не влияет на процедуру максимизации, поскольку для любого положительного дд/(0)и/(0) достигают своего максимума при одном и том же значении 0.
На практике при использовании метода максимального правдоподобия обычно не говорят явно об истинном значении 0°, которое вы
138
деляет определенное f (х, 0°) из рассматриваемого семейства плотностей заданного вида /(х, 0), в € Й (□ — пространство параметров, в примере 0= {0, 0 > 0})’. Вместо этого: 1) говорят (несколько вольно) о задаче оценивания параметра 0 плотности оаспределения вероятности /(х, 0), имея в виду под 0 истинное значение 0°; 2) одновременно говорят о функции правдоподобия 1(0), имея в виду под 0 переменную, чья область изменений — пространство параметров 42.
Процедура максимизации часто упрощается, если вместо функции правдоподобия использовать ее логарифм log (1(0)) — логарифмическую функцию правдоподобия, поскольку при этом нужно дифференцировать не произведение, а сумму; log I (0) достигает своего максимума при том же значении 0тах, что и / (0). (Нельзя, однако, думать, что максимум может быть найден дифференцированием в каждом случае. Контрпримеры см. в гл. 6.)
Когда (как в примере 3.5.3) уравнение правдоподобия имеет простое и ясное решение, можно исследовать выборочное распределение оценки непосредственно. Однако чаще решение может быть получено лишь в виде итеративной численной процедуры, и потому прямое изучение выборочного распределения невозможно. В соответствии с общей теорией [см. гл. 6] для подобных случаев возможны простые и эффективные аппроксимации.
Этот метод также применим при нескольких параметрах и когда наблюдения не обязательно независимы и одинаково распределены [см. гл. 6].
3.5.5.	НОРМАЛЬНЫЕ ЛИНЕЙНЫЕ МОДЕЛИ, В КОТОРЫХ ОЦЕНКИ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ И НАИМЕНЬШИХ КВАДРАТОВ СОВПАДАЮТ
Обычную задачу оценивания можно пояснить следующим примером. Предположим, что выход химического процесса линейно зависит от температуры, продолжительности остывания и количества присутствующих активаторов при неизбежных, конечно, ошибках эксперимента. Когда уровни контролируемых переменных представляют собой множества значений
tr (температуры), dr (продолжительности), аг (активации),
предполагается, что выход (переменная отклика) уг является реализацией нормально распределенной случайной величины Yr с
Е ( Yr) = 0Q + $1 tr + 02dr + 0jUr
и
var (Y г)-аг.
139
Здесь — неизвестные постоянные, которые отражают зависимость среднего выхода от изменений уровней, о2 — неизвестная, но постоянная дисперсия выхода.
Мы предполагаем, что для каждой комбинации уровней имеется одно наблюдение. (На практике их должно быть несколько; такое ограничение сделано ради упрощения записи.) Для данных .У), У2,... ,Уп функция правдоподобия пропорциональна
о~п ехр (yr—0o—6\tr—e2dr—03ar)2].
Это выражение максимально относительно переменных 6, когда
Е (у — 0О—Oitr—62dr—63ar)2
минимально. Следовательно, оценки максимального правдоподобия линейных параметров 0о, 01, 02, 0з совпадают в этом примере с оценками наименьших квадратов.
3.6.	ЛИТЕРАТУРА ДЛЯ ДАЛЬНЕЙШЕГО ЧТЕНИЯ
Содержание этой главы раскрывает основу статистического исследования. Эта тема отражена в большинстве учебников по математической статистике. Мы особо рекомендуем следующие: [Barnett (1982); Fisher (1959); Kalbfleisch (1979); Kendall and Stewart (1973); Rao (1965); Zacks (1971) — С].
Глава 4
ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ
4.1.	ВВЕДЕНИЕ: ПРОБЛЕМА
4.1.1.	СООБРАЖЕНИЯ, ОСНОВАННЫЕ НА ИНТУИЦИИ
В предыдущих раз дел .ох мы видели, что статистика l(xlt х2,...,хп), которая имеет допустимое выборочное распределение [см. раздел 2.2], может рассматриваться как оценка [см. раздел 3.1] параметра в плотности распределения случайной величины X [см. раздел 3.1].
Можно сказать, что доступная информация о значении параметра 6 содержится в выборочном распределении оценки, но ее трудно извлечь из-за того, что это распределение само зависит от неизвестного значения 6 (иная ситуация в случае байесовского подхода [см. раздел 15.4.2]).
Необходимо разработать метод, который позволил бы выразить вероятностную точность оценки с использованием лишь рассматриваемой статистики и без привлечения другой информации относительно истинного значения параметра. Естественным представляется следующий подход (в предположении, что такой метод существует).
Пример 4.1.1. Среднее выборки как оценка истинного значения. Предположим, что X — случайная величина, распределение которой N(0, 1). Среднее выборки х, определенное из выборки объема л, является реализацией случайной величины X [см. определение 2.1,1], которая распределена по закону N(0,_l/vn). Изменения значения 0 сдвигают плотность распределения X, не меняя ее формы. Из возможных значений 0 (соответствующих функций плотности) рассмотрим три с наблюдаемым значением х. Это показано на рис 4.1.1.
В случае I) наблюдаемое значение х лежит в зоне весьма малых значений плотности и с большой вероятностью значение 01 для величины 0 должно быть отвергнуто. То же относится и к 03 в случае 3). Напротив, в случае 2) наблюдаемое значение х лежит в зоне большой плотности вероятности, и гипотеза о значении 02 параметра 0 вполне совместима с наблюдениями. Очевидно, должны существовать значение 0/ между 0, и 02, а также значение 0W между 02 и 03 такие, что значения 0 между 0/ и 0М представляются правдоподобными, а значения 0 вне этого отрезка — неправдоподобными. Однако насколько правдоподобными? И в каком смысле правдоподобными?
141
Рис. 4.1.1. Наблюдаемые значения среднего выборки и функции распределения для трех возможных значений 02, в, математического ожидания Е(Х)
4.1.2. Нижняя (Oj) и верхняя (0и) границы области правдоподобных значений в при фиксированном значении среднего выборки
При байесовском подходе мы имеем вероятностное распределение величины О и можно принять за меру правдоподобия интервала (О/, вы) апостериорную вероятность того, что значение случайной величины 0 попадает в этот интервал. Этот подход развивается в гл. 15.
Р. Фишер предложил проводить оценивание в терминах «фи-дуциальной вероятности». Однако такой подход осложняется из-за отсутствия единой точки зрения на само понятие фидуциальной вероятности [см., на-' пример, Kendall and Stuart (1973), т. 2, гл. 21—С].
Общепринятое небайесовское решение задачи — формализация следующей идеи: если значение 0 есть х — реализация нормальной случайной величины X с параметрами (0/, 1/V/J), то за наибольшее положительное отклонение, которое еще считается правдоподобным, от величины 0/ принимается величина d такая, что Р (X—Qf^d) имеет малое фиксированное значение, определяемое пс соглашению. Возьмем его, например, равным 0,025;
142
тогда получим [см. приложение 4] J=l,96/V«. Отсюда
1,96/Тл.
Аналогично	п - , <	, г
0u=x+l,96/vn.
Эти рассуждения приводят в конце концов к понятию доверительного интервала, которое рассматривается в разделе 4.2.
4.1.2.	СТАНДАРТНОЕ ОТКЛОНЕНИЕ
В примере 4.1.1 было рассмотрено нормальное (в, 1) распределение. Если бы мы рассмотрели вместо этого нормальное (0, а) распределение [см. II, раздел 11.4.3] с известным а, то мы пришли бы к выражению х±1,96ст/Тй для интервала правдоподобных значений величины 6, так как ст/7й — стандартное отклонение случайной величины х [см. определение 2.3.2]. Если же, напротив, значение ст не известно (а именно так чаще всего и бывает), этот интервал не может быть выражен в таком виде и возникает соблазн заменить неизвестное значение ст какой-нибудь оценкой а* величины ст и считать х±1,96ст*/Тл выражением для интервала правдоподобных значений (с 95Фо-ной вероятностью) величины в.
Аналогично, если вместо х для оценки 0 мы используем некую статистику х2,...,х„) для оценки параметра т, то мы приходим к интервалу t±2>lv(ty в качестве 95%-ного интервала для т, где Vр(0* — соответствующая оценка для стандартного выборочного отклонения /.
Эти идеи могут быть, конечно, сформулированы более строго. Цель настоящей главы — пояснить, как этого достигнуть. Они также проясняют значение величины Vw(?)*, которое называется стандартной ошибкой t [см. определение 2.3.2].
4.1.3.	ИНТЕРВАЛЫ ВЕРОЯТНОСТИ
а)	Интервалы вероятности для непрерывных случайных величин. Полная информация о проведении случайной величины X может быть получена только при известном законе ее распределения [см. II, разделы 4.3, 10.1]. Часто необходим более простой способ выражения изменчивости. Удобным обобщающим понятием является интервал вероятности, определенный следующим образом.
Определение 4.1.1. Пусть X имеет нейрерывное распределение, зависящее от известного параметра 0 (или нескольких таких параметров), и пусть а-а(0), b=b{0), а<Ь — такие числа, что для заданно-гор(0<р<1)	Р^Х^р
или, иначе говоря, ь
]/(х, 0) dx~F(b, 0)—F(a, ff)^p, а
где /(х, 6) и F(x, 0) — плотность и функция распределения величины X соответственно. Тогда интервал (а, Ь) (который зависит от (в) назы-
143
Рис. 4.1.3. Интервал (а, Ь) — 100/>%-ный вероятностный интервал распределения, плотность которого задана графиком. Он является центральным 100р%-ным интервалом, если площади под графиком левее а и правее b равны между собой (и равны у(1—р))
вается интервалом вероятности уровня р или иначе 100р%-ным интервалом вероятности для X. (Отметим, что так как X — непрерывная случайная величина, определение не изменится, если выражение Р(а^Х^Ь) будет заменено на любое из Р(а<Х^Ь), Р(а^Х^Ь), Р(а<Х<Ь).)
Об интервале (а, Ь) можно сказать, что он содержит р-ю часть всего распределения в том смысле, что при большом чис
ле испытаний p-я часть чисел выборки будет попадать в него. Это утверждение иллюстрирует рис. 4.1.3 для унимодального распределения.
Смысл утверждения, подсказанный интуицией, заключается в том, что если р велико (скажем, 0,95 или 0,99), то можно быть «почти уверенным», что любая реализация X попадет в интервал (а, Ь). Здесь а и b — любые числа, такие, что a<b, F(b, в)—F(a, 9)=р (F(x, 6) — функция распределения X).
Если X — дискретная случайная величина, то такие а, Ь, вообще говоря, не могут быть определены точно, поэтому необходима соответствующая модификация определения {см. пример 4.1.3].
Пример 4.1.2. Интервалы вероятности для стандартного нормального распределения. Если X—N(/i, о) (т.е. С/=(АГ— ц)/а — N(0, 1)), то вероятностный интервал для U уровня 0,95 — это любой интервал (а', Ь'), такой, что
Ф(Ь')—Ф(У)=0,95,
где Ф(-) — функция стандартного нормального распределения. Примеры таких интервалов, полученных из таблиц Ф(-) [см. приложение 3, 4], следующие: 1) (—3,00, 1,66), 2) (—2,50, 1,71), 3) (—1,96, 1,96), 4) (—1,75, 2,33).
Соответствующие интервалы для Х(= ц+ oU):
1)	(д—За, д+ 1,66а) 2)	(д—2,5а, д+1,71а) 3)	(д—1,96а, д+1,96а) 4)	(д—1,75а, д + 2,33а)	(длина 4,66а), (длина 4,21а), (длина 3,92а), (длина 4,08а).
Как видно из этих примеров, уровень интервалов вероятности однозначно не определяет их границ. Чтобы достигнуть однозначности, необходимо ввести дополнительные ограничения, а именно: 1) либо 144
интервал должен иметь минимальную длину, 2) либо он должен быть центральным или симметричным в том смысле, что
Р(Х^а)=Р(Х>Ь).	(4.1.1)
Для симметричного унимодального распределения [см. II, раздел 10.1.13] эти условия эквивалентны. В случае унимодального несимметричного распределения можно определить наименьший вероятностный интервал с помощью условия равных ординат, т. е. для данного Р вероятностный интервал (а, Ь) будет кратчайшим, когда f(a, 6)=f(b, в), где/ft 0)=dF(x, 0)/dx — плотность распределения X. Таблицы плотностей распределения часто недоступны (в отличие от таблиц функций распределения), и поэтому приходится работать непосредственно с условием симметричности. В этом случае для вероятностного интервала уровня р значения а и b для примера 4.1.1 можно найти как нижнюю и верхнюю 100(1—ур)<7о-ные точки распределения X.
Пример 4.1.3. Вероятностные интервалы для Т-образного распределения. Экспоненциальное (показательное) распределение с плотностью 0-1ехр (—х/в) при х>0 [см. II, раздел 10.2.3] имеет монотонно убывающую плотность, и следовательно, условие равных ординат здесь не применимо. Ясно, впрочем, что в этом случае для любого р кратчайшим вероятностным интервалом уровня р будет интервал (0, Ь), где b выбирается из условия Р(Х^Ь)=р, что с учетом равенства р=1—ехр(—Ь/0) дает Z?=01og(l/(1—р)). Таким образом, кратчайшим 95%-ным вероятностным интервалом будет (0, 2,9960). Симметричным вероятностным интервалом уровня 0,95 будет интервал (а', Ь'), где для а' и Ь' выполняются соотношения
Р(Х^а ) = 1 — ехр(— а/в)=0,025,
Р(Х > Ь) = ехр(—Ь/0)=0,025,
откуда а' = 0,0780, Ь' = 3,690.
б)	Вероятностные интервалы для дискретных случайных величин. Для непрерывной случайной величины X интервал (а, Ь) будет' интервалом вероятности уровня 100р%, если
Р(а^Х^Ь)=р, или, что равносильно,
Р(а<Х<Ь)~р.
Это действительно одно и то же, так как в непрерывном случае P(X=a)=P(X=b)~G. Однако это, вообще говоря, перестает быть верным при дискретном X. Возьмем, к примеру, в качестве X величину, распределенную по пуассоновскому закону. Пусть а, b — положительные целые числа. Тогда P(X=a)>Q, P(X=b)>Q и, что очевидно, Р(а<Х<Ь)<Р(а^Х^,Ь). Чтобы избежать неопределенности, в дискретном случае мы будем назыв'ать [а, Ь] замкнутым интервалом вероятности и уровня lOOpOfa для X, если
Р(а^Х^Ь)=р.
145
(Иногда для случайных величин, принимающих целые значения, удобнее говорить об открытых интервалах (а—1, Ь+1), для которых Р(а—1<Х<Ь+1)=р.)
Более серьезное осложнение для дискретных величин состоит в том, что хотя для данных а и Ь всегда можно вычислить р=Р(а^Х^Ь), отнюдь не для любого р можно найти соответствующий вероятностный интервал (а, Ь), а тем более центральный вероятностный интервал, для которого Р(а^Х^Ь)-р
Самое большое, что здесь можно сделать — это найти «почти симметричный» вероятностный интервал уровня не меньше 100р%, как можно более близкого к lOQp^fo. Для замкнутого вероятностного ин-
ея — случайная величина, распределенная биномиально (20, 0,4) [см. приложение I].)
г	P(R<r)
1	0,0000
2	0,0005
3	0,0036
4	0,0160.. .Р(Я<4/=0,0160< 0,0250
5	0,0510.../¥Ж5Л=0,0510>0,0250
(слишком большое), отсюда q-4
г	Р(>г)
14	0,0016
13	0,0065
12	0,012...Р(7?>12>=0,0210< 0,0250
11	0,0565...Р/Я> 11^0,0565 > 0,0250
(слишком маленькое), отсюда ги = 12
Pty С R С rj « P(R=4>+P(R « 5)+...+PfR=12)=0,963
г:	0 12 3 |	[	1	4 5 6 7 8 9 10 11 12	1 1	|_		[	1	13 14 15 ... 20 1	1
Вероятность:	0,0160	1	0,0630	1 1 (вероятностный интервал)1	0,0210
Рис. 4.1.4. Приближенный квазицентральный 95%-ный вероятностный интервал биномиального (20,0,4) распределений
146
тервала этого вида с р-0,95 мы находим из таблиц распределения значение /•/ ,такое, что
Р(/?<г,К 0,025, при этом
Р(Я<г,+ 1) >0,025, а значение ги такое, что
P(R>ru) <0,025, при этом .
P(R>ru—\) >0,025*.
Тогда
P(r- <R<ru)=\ —P(R < rj)—P(R > rM) > 0,95.
Необходимо иметь в виду, что иногда таблицы дают значения вероятностей вида P(R~$tr) (так построены, например, таблицы биномиального распределения в приложении 1). Диаграмма типа изображенной на рис. 4.1.4 поможет разобраться в ситуации. Для иллюстрируемого случая (биномиальное распределение с л-20, р=0,4) квази-симметричный интервал уровня не менее 95% на самом деле является интервалом уровня 96,2%.
4.2.	ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ И ДОВЕРИТЕЛЬНЫЕ ПРЕДЕЛЫ
Оценка d=t(xA, x2,...,xrtJ параметра в есть реализация соответствующей случайной величины [см. определение 2.2.1] T~t(X}, Хг..А^А
поведение которой может быть описано в терминах ее распределения, т. е. в терминах выборочного распределения оценки. Это распределение, разумеется, будет зависеть от неизвестного значения 0.
Можно применить к этому распределению концепцию, развитую в разделе 4.1, и получить обобщенное описание поведения § на языке вероятностных интервалов, которые в свою очередь будут зависеть от 0, Даже принимая во внимание, что значение 0 неизвестно, эти сведения не бесполезны. Обычно все же требуется более прямая информация о точности оценки. Один из способов дать такую информацию состоит в придании точной формы (формализации) интуитивному подходу, продемонстрированному в примере 4.1.1, и в построении, если это возможно, интервала, который с заданной вероятностью содержит в. Поскольку понятие вероятности применимо только к случайным величинам и (исключая байесовскую точку зрения) О не является случайной величиной, видно, что это может быть достигнуто только в том случае, если концы интервала сами окажутся случайными величинами. Такие интервалы называются доверительными, а их конечные точки — доверительными пределами. Прежде чем перейти к формальным определениям, приведем простой пример (он может показаться несколько искусственным, так как основан на нормальном
* Авторы имеют в виду целочисленную случайную величину R. — Примеч. ред.
147
распределении, где общий вид распределения известен и единственным неизвестным параметром является математическое ожидание; однако его искусственность оправдана простотой и частой встречаемостью соответствующего выборочного распределения).
Пример. 4.2.1. Доверительные интервалы для математического ожидания нормального распределения при известном значении дисперсии. Пусть Хь хг,...хп — реализация случайной величины X, распределенной нормально с параметрами (в, 1)._Тогда статистика x-^Xj/n есть реализация случайной величины X, также распределенной по нормальному закону с параметрами (0, 1/у/п). Соответствующая стандартизованная случайная величина U~4n(X—0) распределена нормально с параметрами (0, 1). Так же, как в примере 4.1.2, можно построить симметричный вероятностный интервал для U уровня 0,95 (или любого другого); это будет интервал (—1,96, 1,96). Таким образом,
0,95 =Р(—1,961,96)=Р(—1,96$:<п(Х— 0)^1,96)=	_
=Р(0—1,96/V^X ^0+1,96/Тй).	(4-2Л)
Соотношение	_
0— 1,96/Vw^% ^0+1,96А/й	(4.2.2)
равносильно двум соотношениям:
Х>0- 1,96/Vn
И	__ _	'
X ^0+1,96/Vn, выполняющимися одновременно, или соотношениями 0<Х + 1,96/Vw и	__ _	'
0^Х— 1,96/х/й, или соотношению
X— 1,96/\Гп^9^Х + 1,96/V«.	(4.2.3)
Равенство (4.2.1) поэтому может быть записано в «обращенном» виде:	__ _	__
O,95=P(X—l,96/<h^0^X +1,96/VzM,
ему можно придать такой смысл: с вероятностью 0,95 случайный
интервал
(X — 1,96/Тй, X +1,96/7й)
(4.2.4)
«накрывает» (неизвестное) истинное значение 0. (Под случайным интервалом понимается интервал, границы которого — случайные величины.) Взяв х, наблюдаемое выборочное значение, за реализацию X, можно утверждать, что интервал
(х—1,96/Vw, x+l,96/Vn),	(4.2.5)
границы которого (при фиксированном л) — известные числа, представляет собой реализацию случайного интервала (4.2.6) [ср. с примером 4.1.2]. Эта реализация называется доверительным интервалом для 0 с коэффициентом доверия 0,95, или, короче, 95%-ным доверительным интервалом для 0. Повторения выборочной процедуры будут
148
Рис. 4.2.1. Примеры доверительных интервалов для параметра 9 нормального (в, 1) распределения, построенных по выборке из 25 значений
давать новые значения элементам выборки Xi, х2,...,хп и, очевидно, другие реализации случайного интервала (4.2.6). При большом числе повторений этой процедуры в 95% случаев значение 0 будет попадать внутрь доверительного интервала. Иными словами, 95% всех реализаций доверительного интервала будут содержать неизвестную нам точку 0. В этом смысле можно «быть уверенным на 95%», что 0 будет внутри доверительного интервала, построенного по какой-то одной выборке объема л. Ситуация проиллюстрирована на рис. 4.2.1.
Доверительные интервалы для ц, когда X есть N(g, а) (при известном а). Стандартные обозначения для математического ожидания нормального распределения и его стандартного отклонения есть g и а соответственно. Если X распределена по нормальному закону с параметрами (g, а), симметричный 95%-ный доверительный интервал для g имеет вид
(х— 1,9 6 ст/Ул, x+l,96a/V,z).	(4.2.6)
Теперь дадим формальное определение доверительного интервала и (в следующем разделе) формализацию процедуры, использованной в примере 4.2.1 для его построения.
Определение 4.2.1. Доверительный интервал, доверительные пределы. Доверительным интервалом параметра 0 распределения случайной величины X с уровнем доверия 100р%, порожденным выборкой (х}, х2.х^, называется интервал с границами w/x,, Хг,...^^ и w2(xt,
х2,...,х^), которые являются реализациями случайных величин W\ = =	Х2,...,Х„) и W2 = w2(Xx, X2,...,X^, таких, что
PfW^^W^p.
Граничные точки доверительного интервала и и’2 называются доверительными пределами (здесь Хг — статистические копии X [см. определение 2.2.1]).
Так же, как в случае вероятностных интервалов [см. раздел 4.1.1], интерпретация доверительного интервала, основанная на интуиции, будет следующей: если р велико (скажем, 0,95 или 0,99), то доверительный интервал почти наверняка содержит истинное значение 0.
149
4.3.	ПОСТРОЕНИЕ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА С ПОМОЩЬЮ ОПОРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
В примере 4.2. i построение доверительного интервала (4,2.4) было основано на использовании уравнения (4.2.1), которое выражает свойства распределения величины \п(Х —6) (т. е. выборочного распределения величины ^ln(x- B)). Так как распределение VwA"—0) свободно от влияния параметра (а именно, это стандартное нормальное распределение), можно построить 95%-ный интервал вероятности (—1,96, 1,96), как это сделано в (4.2.1).-Поскольку случайная величина V зависит как от случайной величины X, реализацию х которой мы наблюдали, так и от неизвестного параметра 0, неравенства (4.2.2) можно было переписать в обращенной форме (4.2.3), где неизвестный параметр 0 заключен в интервал, границы которого определяются с помощью значения наблюдаемой случайной величины X ±1,96/Vw. Столь важная здесь величина уГп(х—0) — пример опорной случайной величины (pivot), которую мы сейчас и определим.
Определение 4.3.1. Опорная случайная величина. Пусть ль х2,...,лп — наблюдаемые значения случайной величины X, распределение когм-рой зависит от неизвестного параметра 0, и ti -h(x^	--- неко-
торая статистика. Случайная величина q(h, 0) называется опорной случайной величиной, если ее выборочное распределение не зависит от параметра 0.
Если в распоряжении имеется такая опорная переменная, то можно пользоваться следующей процедурой: опорная случайная величина q(h, 0) есть реализация случайной величины Q=q(H, 0), где H=h(X{, Х2,...,Хп). Здесь Xj, как всегда, — статистические копии X [см. определение 2.2.1]. Обозначим (не содержащую параметра) функцию распределения Q как G(q)=P(Q^.q) и построим симметричный 100р%-ный (например, 95%-ный) вероятностный интервал (а, Ь) для Q, т. е. интервал (а, Ъ) такой, что
G(a)^\—G(b)^{\~p)/2	(4.3.1)
(так же, как в (4.1.1)). Тогда мы имеем
=Р или
P{a^q(H, 0)^b\=p	(4.3.2)
[ср. с (4.2.1)]. Затем решим относительно 0 неравенства q(H, 0)>а ? q(H, в)ЦЬ j
[ср. с (4.2.3)]. В результате йолучим соотношения 0^г(а, Н) (=Wi) ? 0>wl(b, Н)(=И\) j
[ср. с (4.2.4)]. Их можно переписать в виде
W^0^W2,
(4.3.3)
(4.3.4)
150
доверительным ин-
основе нашего по-
параметра показа-
причем последнее соотношение выполнено с вероятностью р [ср. с определением 4.2.1]. Таким образом, 100р%-ным тервалом для в будет
где h=h(Xi,x2...х„) — статистика, лежащая в
строения.
Пример 4.3.1. Доверительный интервал для тельного распределения. Пусть X — случайная величина, распределенная по экспоненциальному закону [см. II, раздел 10.2.3] с математическим ожиданием В, так что плотность распределения X в точке х есть 0~1ехр(—х/В), х>0. Из выборки (х}, х2,...,Хп) определяется (достаточная [см. раздел 3.4.1)] статистика h(X\, х2,...,х„)= Она является реализацией случайной величины Н- где % г статистические копии X. Н имеет гамма-распределение [см. II, раздел 11.3], плотность которого задается в виде В~nhn~h/e/(n—1)1, 6>0. Отсюда видно [см. II, раздел 10.7], что величина Q=H/B имеет плотность распределения qn~le~^/n\, q>0. Эта плотность не содержит параметра, и, следовательно, случайная величина q= ЁхДв является опорной для В. Можно построить симметричный 95%-ный вероятностный интервал для Q с помощью таблицы распределения х2 [см. приложение 6], так как 2Q имеет распределение х2 с 2л степенями свободы [см. раздел 2.5.4, а), п. 2].
Например, если п=10, то соответствующее распределение х2 имеет 20 степеней свободы, и согласно приложению 6 симметричный 95%-ный вероятностный интервал для 2Q есть интервал (9,591, 34,170). Соответствующий интервал для Q(=H/B) есть (4,795, 17,085), откуда
Р{ 4,795 ^Н/В^ 17,085} =0,95, или, что эквивалентно,
Р{4,7950^77^ 17,0850} =0,95	(4.3.5)
(ср. с (4.3.2), где л = 4,795, q(H, В)=Н/В, 6=17,085, р=0,95]. Обратив неравенства
Н/В>4,795, Н/В^ 17,085
[ср. с (4.3.3)], получим
В ^77/4,795 =0,208577( = 1Г2В(4.3.4)),
0 >77/17,085 =О,О585Я(= 1^6(4.3.4)), или
0,058577 ^0^ 0,208577,	(4.3.6)
что выполнено с вероятностью 0,95. Таким образом, 95%-ный доверительный интервал для В — этот интервал (0,05856, 0,20856), где 6= Ё,хг—пх— 10х, в нашем случае х обозначает наблюденное выбо-1
рочное значение. Итак, доверительный интервал для неизвестного значения 0 (математического ожидания) есть (0,585х, 2,085х). При х, равном, скажем, 2,1, доверительным интервалом для 0 (с коэффициентом доверия 95%) будет (1,23, 4,38).
151
4.4.	ИСТОЛКОВАНИЕ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА КАК МЕРЫ ТОЧНОСТИ ОЦЕНКИ НЕИЗВЕСТНОГО ПАРАМЕТРА
Надо отметить, что доверительный интервал для параметра распределения, найденный исходя из данной выборки, определяется выбором «рабочей статистики» h(xXi х2,...,х^. Если эта статистика является достаточной (как в примере 4.3.1), то, несомненно, вся информация, содержащаяся в выборке, будет извлечена. Но как выйти из положения, если простой достаточной статистики не существует? На интуитивном уровне очевидно, что необходимо использовать наилучшую из доступных статистик, например эффективную [см. определение 3.3.3] статистику, такую, как оценка наибольшего правдоподобия [см. разделы 3.5.4, 6.2.2]. Это, однако, приводит к некоторой неопределенности, и она возрастает, если по соображениям удобства берут другую подходящую статистику.
В обычной статистической практике выбор рабочей статистики определяется на самом деле соображениями удобства, традициями, доступностью соответствующих таблиц и т. д. Р. Фишер, вероятно, меньше доверял бы выводам, полученным таким путем, чем выводам, основанным на точных вероятностных соотношениях с использованием достаточной статистики. Однако практикующие статистики не склонны к большим беспокойствам по подобным поводам. Существует мнение, что коэффициент доверия данного интервала для параметра в следует рассматривать как число, которое получилось бы при многократном повторении процедуры выборки и вычисления по ней доверительного интервала с использованием данной рабочей статистики.
Для интерпретации доверительного интервала более важными являются такие факторы, как объем выборки и значение коэффициента доверия. В примере 4.2.1, где рассматривались доверительные интервалы для математического ожидания нормального распределения, было установлено, что симметричный 95%-ный доверительный интервал есть интервал (х—1,96/Тл, х + 1,96/Тл), длина которого 3,92/Тл. Для уровня доверия 0,99 соответствующий интервал — (х — 2,58/Ул, х -4-2,58/Vz?), его длина равна 5,16/Ул. Это подтверждает известный факт: за повышение значения уровня доверия приходится расплачиваться увеличением длины доверительного интервала. С другой стороны, точнее оценку можно получить по выборке большего объема. Длина доверительного интервала с фиксированным уровнем доверия будет убывать с увеличением объема выборки. В данном случае длина доверительного интервала пропорциональна л~|/2.
Рассмотренный пример не типичен: не всегда длина доверительного интервала зависит только от объема выборки и коэффициента доверия. Вообще говоря, она зависит также от используемой статистики. Так, в примере 4.3.1 100р%-ный доверительный интервал для математического ожидания в экспоненциального распределения, определенный по выборке объема п и выборочному среднему х в качестве 152
рабочей статистики, был получен с использованием по ходу дела вероятностного интервала
кр(\, п)х ^2пх/0^кр(2, п)х,
где доверительные пределы кр(1, п), кр(2, п) определяются при помощи распределения х2 с 2п степенями свободы из условия
P\x2dn)iкра, п)} = -тв-р)=Р1х2ап»кр(2, »)}.
(Уравнение (4.3.6) выражает этот результат для случая, когда л = 10, р=О,95.) Таким образом, доверительные пределы для в есть 2пх/ кр(2, п), 2пх/кр(\,п), а ожидаемая длина доверительного интервала — 2п0{\/кр(2, п)—\/кр(\,п)}. Значения коэффициента при р=О,95, р=0,99 (/1 = 5, 10, 15, 20) приведены в следующей таблице:
Объем выборки	'Уровень доверия	
	0,95	0,99
5	2,590	4,240
10	1,500	2,390
15	1,150	1,620
20	 0,960	1,330
(Предшествующее обсуждение основано на сложившейся практике. Следует, однако, признать, что хотя практика и заставляет нас совершенствоваться, она сама не всегда совершенна и не всегда вполне оправданна. Измерять степень соответствия оценки 0* параметру 0 длиной доверительного интервала имеет смысл, когда 0 — параметр расположения и, следовательно, плотность распределения выборочной случайной величины имеет вид f(x—0). Замена значения параметра 0] на 0г сдвигает график плотности на расстояние 01 — 02. Если же 0 не является параметром положения, может оказаться разумным использовать иные способы оценки точности. Например, если 0 — параметр масштаба и плотность распределения имеет вид f(x/0), замена значения 0] на 02 эквивалентна умножению аргумента на 0{/02. Это подсказывает, что в качестве меры точности вывода о параметре 0, представленной доверительным интервалом (02, 0<), правильнее использовать отношение 0]/02, а не длину этого доверительного интервала.)
4.5.	ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ПРИ НЕСКОЛЬКИХ ПАРАМЕТРАХ
Из числа вопросов, возникающих при переходе к доверительным интервалам для нескольких параметров, выделим следующие:
1)	можно ли получить индивидуальные (отдельные) доверительные интервалы для каждого из параметров?
153
. 2) можно ли получить доверительные интервалы для различных комбинаций параметров, таких, как их сумма, разность, отношение и т. д.?
3)	можно ли получить (многомерные) доверительные области для нескольких параметров сразу?
Эти и близкие им проблемы излагаются в гл. 8 в аспекте дисперсионного анализа. Вопросы 1) и 2) мы коротко обсудим в этом разделе. Более глубокое рассмотрение, затрагивающее также вопрос 3), содержится в разделе 4.9.
4.5.1.	ИНДИВИДУАЛЬНЫЕ ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
Прежде всего мы приведем примеры индивидуальных доверйтель-ных интервалов для каждого из одномерных параметров, взяв дисперсию о2 и математическое ожидание семейства Г4(д, а) [см. пример 4.5.1], а также каждый из трех параметров, рассматриваемых в теории линейной регрессии [см. пример 4.5.3].
Пример 4.5.1. Доверительные интервалы для дисперсии (или для стандартного отклонения! Ы(д, а) распределения. Пусть (%i, Xi,...^^ — выборка из нормального (д, а) распределения. Тогда при х = Ехг/л статистика s2= Ё(хг—х}2/(п—\), несмещенная оценка а2, есть реализация случайной величины S^= Ё(ХГ—Х)2/(п—1>, где Хг — независимые Г4(д, а) случайные величины, а / - Ы(д, a/Vn). Тогда величина (л—IJSVo2 распределена по закону —1), т. е. по закону х2 с (л—1) степенями свободы [см. раздел 2.5.4, II, раздел 11.4.11].
Для нее мы можем построить симметричный 100/>%-ный вероятностный интервал (а, Ь), где а и Ь определяются так, чтобы
Лх2(л-1)^а)=Лх2(л-1)>*)=|-(1-р).	(4.5.1)
Значения а и b могут быть найдены по таблицам распределения х2 [см. приложение 6]. Тогда с вероятностью р
а^(п— 1)&/о2^Ь,
или, что равносильно,
(л—DSV^a2 < (л—l)SV<z.
Это в свою очередь равносильно
{(л— 1 )S2/b ]1/2 С о < {(л—1 )S2/a}|/2.
ТЬким образом, 100р%-ные доверительные интервалы для а2 следующие:	((n—Y)s2/b, (n—Ytf/a),	(4.5.2)
3	°'	({(л—1)№/г>}12, {(л—1)$2/л)|/2).
В этом примере наличие второго неизвестного параметра д ничуть не изменило нашего вывода [ср. с примером 5.8.6]. Данные, представленные в табл. 4.5.1, связаны с эффективностью двух разных видов снотворного [см. Fisher (1970)—С]. Пациенты принимали каждый из этих препаратов через промежутки времени достаточно большие, чтобы можно было считать его действие независимым.
154
Таблица 4.5.1. Перепечатано с разрешения Macmillan Publishing Company из книги Statistical Methods foi Research Workers, 14th edition, by Sir Ronald A. Fischer, copyright ^1970 University of Adelaide
Пациент	Дополнительные часы сна		Разность у		Пациент	Дополнительные часы сна		Разность у
	препарат А	препарат В				препарат А	препарат В	
1	0,7	1,9	1,2		6	3,4	4,4	1,0
'У Л.	-1,6	0,8	7 4		7	3,7	5,5	1,8
3	—0,2	1,1	1,3		8	0,8	1,6	0,8
4	— 1,2	0,1	1,3		9	0,0	4,6	4,6
5	—0,1	-0,1	0,0		10	2,0	3,4	1,4
Числа в последнем столбце могут рассматриваться как независимые наблюдения (уг) над мерой сравнительной эффективности препаратов, за которую здесь взята разность их действия. Мы предполагаем, что уг — распределены нормально с параметрами (/4, а), и берем в качестве оценки для ст2 статистику
s2-=L(yr—y)2/(n~-l)
с	л=10,7 = Еу/10=1,58,
9s2 = Uy ~У)2 = Ъугт—^у2 = 38,58—24,96 = 13,62.
Итак, оценки для а2 и ст есть s2 = 1,513 и 5=1,230 соответственно. Симметричный 95%-ный вероятностный интервал для х2 с 9 степенями свободы — (2,700, 19,023), следовательно, 95%-ный доверительный интервал для ст2—(13,62/19,023, 13,62/2,700), т. с. (0,716, 5,044). Соответствующий интервал для ст—(0,846, 2,246).
Пример 4.5.2. Доверительный интервал для математического ожидания нормального распределения.
а)	Значение дисперсии известно. Этот случай рассмотрен в примере 4.2.1 для выборки (xt_,,х2,...,хп): 95%-ный доверительный интервал для р. есть x±l,96o/Vn, где х — среднее выборки.
б)	Значение дисперсии неизвестно. Вот метод оценки «на скорую руку» с использованием стандартной ошибки: заменяем неизвестное значение ст в п. а) его оценкой s. В более общем случае предположим,  то 0* — несмещенная оценка параметра 6 и выборочное распределение 0* приближенно нормальное; тогда, грубо говоря, 95%-ный доверительный интервал для 0 есть
0*±2s. е.(0*),
где s. е.(0*) означает стандартную ошибку 0* (т. е. подходящую оценку выборочного стандартного отклонения 0*). Это имеет некоторое отношение к методу наибольшего правдоподобия.
155
в)	Значение дисперсии неизвестно. Вычисление точных доверительных интервалов с помощью распределения Стьюдента. Здесь возникает новое осложнение: мы ищем доверительный интервал для одного параметра (/а), когда значение другого неизвестно. Эта задача была блестяще решена на основе идеи Стьюдента, которая состоит в исключении а с помощью процесса, известного теперь как «стьюденти-зация». Если (xit Хг,...^^ — выборка из N(/a, а) и
х -Lxj/n, s2-lL(x— х)2/(п— 1),
то величина (х—д)А инвариантна относительно изменения значений а: если о заменить на o', то тем не менее
(х~—-g) _ (х~—ц)/а _ (х~—цУ/а
s	s/a s/d
Удобнее использовать величину
'„„>=(*—/ОЛ^Л/й),
которую называют величиной Стьюдента с (л—1) степенями свободы. Она имеет не зависящее от параметра о выборочное распределение [см. раздел 2.5.5] и, следовательно, является опорной для g.
Это распределение симметрично, и если а — значение, которое tnне превосходит с вероятностью ~т(\—р), то 100р%-ный доверительный интервал для ц. есть
(х— as/'fn, х +as/\fn).
Значения а, соответствующие рассматриваемым р, могут быть найдены из таблиц [см. приложение 5, ср. с примером 5.8.2]. Если, например, л = 10, то число степеней свободы 9, и, взяв р=О,95, мы получим для а значение 2,262. Если взять те же исходные данные, что в примере 4.5.1, то мы будем иметь у = 1,58, $2=1,513, л = 10 и $/7л = 0,389. Таким образом, 95%-ный доверительный интервал для ц будет
1,58 ±2,262-0,389 или
1,58±0,88 = (0,70, 2,46).	(4.5.3)
Это показывает, что разница в действии лекарств существует: добавочное время сна после приема препарата В превышает время после приема препарата А в среднем на 1,58 ч (или, более точно, на 1,58 ±0,88 (с 95%-ной точностью)). Численные значения, использованные здесь, показаны на графике распределения Стьюдента на рис. 4.5.1.
Интуитивный подход, продемонстрированный в примере 4.1.1, находит применение и здесь: нужно только заменить плотность нор-156
Рис. 4.5.1. Плотность распределения
Стьюдента с 9 степенями свободы
Рис. 4.5.2. ti — неправдоподобно большое отрицательное значение величины t = (х — n)/s/y[n) (ц — слишком сильно превосходит х). Аналогично t3 соответствует слишком малому значению д, t2 соответствует правдоподобному значению д
мального распределения из примера 4.1.1 на плотность распределения Стьюдента.
На рисунке 4.5.2 изображен график плотности распределения Стьюдента с 9 степенями свободы, при разных значениях, / = (х — — д)/($/7ТО) = (1,58 — д)/0,389, т. е. д = 1,58 — 0,389/. Значение t\ для t (и, следовательно, соответствующее значение д, а именно gi = 5,40 — 0,601) слишком маловероятно, чтобы можно было его принять. То же относится и к /3. Значение /2 лежит в зоне больших значений плотности, так что д2 = 1,58 — 0,389/2 совместимо с исходными данными. Условная граница между «приемлемыми» и «неприемлемыми» значениями (с 95%-ной точностью) определяется точками t, и tu на рис. 4.5.1, где /; — квантиль уровня 0,025 и tu — квантиль уровня 0,975 распределения Стьюдента с 9 степенями свободы. Эти значения следующие: tt = —2,262, tu = 2,262, а доверительный интервал — (д/, дм), где д/ = 1,58 + 0,389/, = 0,70 и ци - 1,58 + 0,389/м = = 2,46.
Пример 4.5.3. Простая линейная регрессия. Если пара случайных величин (%, У) имеет совместное распределение [см. II, раздел 13.1.1], то условное математическое ожидание E(Y\X - х) = g(x) [см. II, раздел 8.9] называется регрессией Y на X. Если g(x) линейна по х, скажем, g(x) = а1 + /З’х, то мы имеем простую линейную регрессию. Если наблюдаемое значение У,- соответствующее заранее заданному значению X = хг, есть уг, г = 1,2,..., п, то удобно переписать формулу для g(x) в виде
g(x) = а + fi(x — х),
157
п
где х = Lxr/n. Если условное распределение Y при фиксированном X = х — N(g(x), о) при любом х, то оценки наибольшего правдоподобия для а и 3 [см. пример 6.4.4] будут следующими:
a =J( = iyr/n),
0 = £yr (xr — X) /Е (xr — x)2,
а соответствующая несмещенная оценка для а2 равна:
s2 = Ej;2— naz — $2Е (xr — x)2.	(4.5.4)
Легко видеть, что величины
tx = (d — а)/$1, где sf = s2 /n, и
t2 •= (3 -- $)/s2, где S2 = ^/£(хг — x)2,
будут иметь распределение Стьюдента [см. раздел 2.5.5] с п — 2 степенями свободы, в то время как величина (п — 2)s2/a2 имеет распределение х2 с п — 2 степенями свободы. Таким образом, 95%-ные доверительные интервалы для а, (3 и а2 будут следующими:
(d — f-S;, d + P$l),
(,? - t°s2, -- /%)
[ср. с примером 4.2.2] и
((л — 2)52/с2, (л — 2)s2/cx)
[ср. с примером 4.4.1], где /° — верхняя 2.5%-ная точка распределения Стьюдента с (п — 2) степенями свободы, а с, и сг — нижняя и верхняя 2,5%-ные точки случайной величины, распределенной по закону у2 с п — 2 степенями свободы [см. также пример 4.5.4 и раздел 5.8.5]. Численный пример и белее подробное обсуждение линейной регрессии содержатся в разделе 6.5.
4,5.2.	ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ ФУНКЦИЙ ДВУХ ПАРАМЕТРОВ, ВКЛЮЧАЮЩИХ ОТНОШЕНИЕ ПАРАМЕТРОВ И ИХ РАЗНОСТЬ (ТЕОРЕМА ФЕЛЛЕРА)
В этом разделе будут рассмотрены наиболее известные и часто встречающиеся на практике доверительные интервалы для функций двух параметров. Такими примерами (для нормальных моделей) буду” следующие:
1)	разность двух математических ожиданий [пример 4.5.4];
158
2)	ордината а + 0хь линейной perpecv m при фиксированном значении х0 независимой переменной х [пример 4.5.5];
3)	разность наклонов двух регрессионных прямых (пример 4.5.6];
4)	отношение двух параметров, оцениваемых линейными функциями наблюдений (теорема Феллера) [пример 4.5.8].
Пример 4.5.4. Доверительные пределы для разности математических ожиданий двух нормальных величин с общей дисперсией. Пусть (xi, Хг...xj — выборка из NQib а) распределения и (у>, у2,
.... _?„) — выборка из N(/42, ст) распределения. Удобные оценки для и Ц2 — средние выборки х и у соответственно. Определяя s* и s2 по обычным формулам
“ Е (хг - х)‘/(п, - 1), s* = Е (у, - у)*/(пг - г;, (4.5.5) мы получим объединенную оценку s2 общего значения дисперсии в виде
(л. + л2 — 2)$2 = (л. — l)sf + (л2 — l)s*.	(4.5.6)
Подходящей оценкой для выборочной дисперсии х будет s2/fli, а si/n1 — для у, так что оценка дисперсии х — у будет (s2/Hi + s2/n2). Таким образом,
t = 1(Х - У) - (ж - д2)] / [5 VQ; +	]
есть реализация случайной величины, распределенной по закону Стьюдента с Hi + п2 — 2 степенями свободы [см. пример 2.5.3]. Следовательно, как и в примере 4.5.2, интервал (а, Ь) есть центральный 95%-ный доверительный интервал для — д2 при
а = х — у — t^s
+
(4.5.7)
b = х- у 4 tosV (~ +	,
где /о — квантиль распределения Стьюдента с л, 4- л2 — 2 степенями свободы уровня 0,975 [ср. с примером 5.8.4]. С помощью данных, приведенных в табл. 4.5.1, мы покажем эту процедуру, рассматривая с иллюстративными целями столбцы, соответствующие препарату А и препарату В так, как будто они получены в эксперименте с разными и независимыми группами пациентов. Будем считать числа, соответствующие препарату А, значениями хг, а соответствующие препарату В — значениями уг. Применяя предыдущие формулы, получаем
х = 0,75, у - 2,33,
159
где «1 = л2 =Ю, и находим s2 из соотношений
18$2 = Е(хг — х)2 + Z(yr —у)2 = (Ех? — 10х2) + (Ej? — 10j>2) = = (34,43 — 5,62) + (90,37 — 54,29) = 64,88,
так что
s2 = 3,60 и 5 = 1,899.
Тогда
U+ £) =°’849-
Значения, соответствующие квантилям уровня 2,5% и 97,5% величины Стьюдента с 18 степенями свободы есть —2,101 и +2,101 [см. приложение 5], откуда 95%-ный доверительный интервал для /л — цг будет следующим:
—1,58 ± (2,101) • (0,849) = —1,58 ± 1,78 = (—3,36, 0,20).
Заметим, что 0 покрывается этим интервалом. Это значит, что данные не противоречат гипотезе, что /л = ц2. (Этот пример рассмотрен исключительно в иллюстративных целях. Предполагается, что хг и уг — наблюдаемые значения независимых случайных величин Хи Y, в то время как в действительности данные, показывающие эффективность различных препаратов, не могут считаться независимыми. Напротив, следует ожидать, что эти величины будут иметь положительную корреляцию и значение дисперсии var (X — У) (= var (X) — 2cov(JV, У) + + var(У) с cov (X, У) > 0) будет в действительности меньше оценки, полученной в предположении независимости величин X и У. Поэтому понятно, что истинный доверительный интервал (4.5.3), а именно 1,58 ± 0,88, короче, чем полученный в предположении независимости интервал 1,58 ± 1,78.)
Пример 4.5.5. Доверительные пределы для регрессии при данном значении х. В примере 4.5.3 регрессия
у = а + 3 (х — х)
оценена в точке х = х0 как
а + в(х0 — х).
Это — реализация нормально распределенной случайной величины с математическим ожиданием
а + 3 (х0 — х)
и дисперсией
160
1	(х0 — х)2
~п + Е(хг —х)2
где значение ст2 оценено через s2, как в (4.5.4). Необходимый нам 95%-ный доверительный интервал для а + 0(хо — х) будет тогда [см. пример 4.5.2]
а + 0(хо — х) ± /97)5 Vv , где
С 1	(Хо-Х)2 ]
V2 = S2 I — + ------— ( —
С п Е(хг —х)2 >
оценка дисперсии а + 0(хо— х) и t97 s — 97,5%-ный квантиль распределения Стьюдента с п — 2 степенями свободы.
Пример 4.5.6. Доверительные пределы для разности наклонов двух регрессионных прямых. Пусть у нас есть две выборки, таких, как в примере 4.5.3: одна из наблюдаемых значений уг и соответствующих значений хг независимой переменной, г = 1, 2, .... п, а другая из наблюдаемых значений у'г и значений независимой переменной х'г, г = 1, 2, ..., п'. Исходя из этого мы оцениваем линейные регрессии
а, + 0i(x — х), а2 + 02 (х' — х), принимая за оценки параметров величины
di = <7i, 01 = bi, а 2 = </2, 02 = bz.
Математическое ожидание Ь\ — bz есть 01 — 02, его дисперсия есть а2 / Е1 + а г / Е 2, где а2 и а2 — теоретические дисперсии случайных наблюдений, Ei = Е(хг— х)2, Ег = Е(х'г — х)2. Оценкой дисперсии bi — bz служит
v = $*/Е 1 + $*/Ег,
где s] соответствует s2 в (4.5.4), s22 определяется аналогично для х'г, у'г. Оценка v имеет п + п' — 2 степеней свободы.
Теперь, как в примере 4.5.2, 95%-ный доверительный интервал для 01 — 02 есть
bx — b2 ± Г97>5<v,
где t915 — 97,5%-ный квантиль распределения Стьюдента с п + п' — — 2 степенями свободы.
Пример 4.5.7. Доверительные пределы для отношения дисперсий двух нормальных величин. Метод, с помощью которого в примере 161
4.5.1 были получены доверительные пределы для дисперсии а2 нормального распределения, допускает обобщение на отношение о\/ о\ дисперсий двух нормальных случайных величин. Используя обозначения из примера 4.5.3, заметим, что
(Л! —	(п2 — l)sz2/ff22—	(4.5.8)
независимые реализации х2 с /и — 1 и пг — 1 степенями свободы. Отсюда видно, что отношение
есть реализация F-распределения [см. раздел 2.5.6] с (т — 1), (т — — 1) степенями свободы, т. е. F V1 с vi = пх — 1, v2 = п2 — 1. Обозначим через а и b 0,025- и 0,975-квантили (т. е. а — 2,5%-ная точка, Ъ — 97,5%-ная точка) [см. И, раздел 10.3.3] этого распределения. (Их можно найти, используя стандартные таблицы [см. пример, приведенный ниже]. Такая таблица представлена в приложении 7.) Теперь мы получим 95%-ный доверительный интервал для из неравенств (<\/(*\\
а \ ° 1 / * \ аг /	(с вероятностью 0,95),
откуда
as22/s]	о2/о]	bs22/s].
Таким образом, доверительный интервал для о2/о] есть
(as2/s],	bs\/s\),	(4.5.9)
или же доверительный интервал для о\/а2 есть
(а1/252/5!,	д1/252/5>),	(4.5.10)
а для —
{s\/bs\,	s\/as\}.	(4.5.11)
Если нужный уровень доверия был бы равен, скажем, 0,99, то а и b нужно было бы искать как 0,005- и 0,995-квантили F-распределения.
Чтобы проиллюстрировать сказанное, возьмем П\ = 20, п2 = 30, и пусть = 1. 95%-ный доверительный интервал для а\/ получим, взяв а и b как квантили уровней 0,025 и 0,975 распределения Fj9 29. В опубликованных таблицах b называется верхней 2,5%-ной точкой. В нашем случае ее значение b = 2,40. Нижняя 2,5%-ная точка а в таблицах явно не содержится, так как ее значение совпадает с величиной, обратной к верхней 2,5%-ной точке распределения F2919
162
(обратите внимание на то, что числа степеней свободы здесь мы поменяли местами; то же самое будет иметь место и для 0,5%-ных точек [см. раздел 2.5.6]). В нашем случае 1/а = 2,23, а = 0,448. Таким образом, искомым доверительным интервалом для о\/а\ будет (0,448, 2,40).
То же можно проделать и для примера 4.5.4. Здесь п} = п2 = 10, = 28,81, 9s22 = 36,08, 1/а = Ь = 4,03, откуда 95%-ный доверительный интервал для а2 / а\ есть (0,311, 5,04), а для (сп / ст2) — (0,558, 2,24). Отметим, что этот интервал содержит единицу, и, следовательно, данные согласуются с гипотезой равных дисперсий.
Пример 4.5.8. Доверительные интервалы для отношений параметров, оцениваемых через линейные функции данных (теорема Феллера). В этой задаче мы имеем дело с отношением X = а/0, где а и (3 — параметры, относящиеся к двум нормальным распределениям с одинаковой дисперсией, из которых имеются выборки. Например, а и 0 могут быть математическими ожиданиями этих распределений, или коэффициентами наклона регрессионных прямых; или же, для регрессии у = «1 + X может быть значением х, при котором регрессия принимает значение у0; тогда х = (у0 — ai)/0i — отношение рассматриваемого здесь вида и т. д. Мы предполагаем, что а и Ь — несмещенные оценки а и (3, являющиеся линейными функциями наблюдений; выборочные оценки их дисперсий и ковариаций пусть Vn, v22 и V12 с f степенями свободы.
Рассмотрим величину ХЬ — а. Она распределена нормально с нулевым математическим ожиданием и дисперсией, имеющей оценку
v = X2v22 — 2Xvn + V])	(4.5.12)
с / степенями свободы. Величина
(ХЬ — a)/y[v	(4.5.13)
имеет распределение Стьюдента с f степенями свободы, откуда с вероятностью 0,95
(ХЬ — а)2 С
где t95 — 95%-ная точка распределения Стьюдента с f степенями свободы.
Корни Xi, Х2 уравнения
(Xb — aY = t}5v	(4.5.14)
являются границами доверительного интервала с коэффициентом доверия 95% для X = а/&. Квадратное уравнение относительно X можно переписать в виде
163
\2(bi — tiVn) — 2\(ab — r2v12) + (a2 — r2vn) = 0, (4.5.15), где t = t95. Это и есть результат Феллера.
Если, как это часто бывает в приложениях, v12 = 0, корни полученного уравнения могут быть выписаны в следующем виде, показывающем отклонение Xi и Х2 от «естественной» оценки а/b для а//3:
Х> _ а Г 1 ± V{(1 -^V22/^)(l _^Vu/a2)] х2  т L	1 — r2v22/&2
В последующем численном примере мы также приведем приблизительные доверительные пределы, полученные из приближенных формул примера 2.7.7, а именно для выборочной дисперсии а/Ь
(d2vH + <z2v22)/d4,
так что
Xi а Г Л/ (vn v22\ х2 s b L1 ± z ’ \ a2 + b2 / J •
(4.5.16)
Если, как, например, в разделе 6.6.6, рассматриваемое отношение есть X = —а/0, где а и /3 оцениваются через а и b соответственно, то нужно исследовать величину \Ь + а, анеХд — а. Математическое ожидание (—а/0)0 + а равно нулю, как и требуется. Величина v из (4.5.12) должна быть заменена на
X2v22 + 2Xvu 4- Vi,
и квадратное уравнение (4.5.15) — на уравнение
X2(d2 — t2v22) + 2X(ab — t2vi2) + (а2 — Z2vlf) = 0.
В качестве численного примера мы используем данные из примера 4.5.4. Для разности — ц2 средней эффективности двух параметров доверительные примеры уже найдены. За нее было принято добавочное время сна. Теперь же вместо разности рассмотрим отношение fii/fi2. Используя (4.5.15), получим
а = Д1 - У\ =0,75, b = Д2 = у2 = 2,33, а/b = 0,322,
Vn = v22 = 52/9 =3,605/9 = 0,401 и
Vj2 = 0.
Тогда
v = 0,401 (X2 + 1).
Значение /9$ равно 2,101. Квадратное уравнение (4.5.4) принимает вид
(2,33 X — 0,75)2 = (2,101)2 (0,401)(Х2 + 1).
164
Его корни
X) = —0,270, Х2 = 1,225.
Для сравнения по приближенной формуле (4.5.16) получаем
X) = —0,28, Х2 = 0,92.
(еще один численный пример приведен в разделе 6.6.6).
4.6. ПОСТРОЕНИЕ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ БЕЗ ИСПОЛЬЗОВАНИЯ ОПОРНОЙ ПЕРЕМЕННОЙ
В разделе 4.3 было показано, как построить доверительный интервал в случае одного неизвестного параметра с помощью опорной переменной. Такую переменную всегда можно найти, если функция распределения наблюдений F(x, 0) непрерывна по х. Заметим, что для случайного наблюдения выборочное распределение случайной величины F(Xj, 0) является равномерным на отрезке (0, 1) [см. II, раздел 10.2.1] по теореме о преобразовании с помощью интеграла вероятностей [см. II, теорема 10.7.2]. Это распределение не зависит от параметров. Отсюда ясно, что любая функция от величин F(xit 0), ..., F(xn, 0) будет опорной переменной. Такой, в частности, будет случайная величина tj.F(xr, 0), функцию распределения которой можно найти исходя из того, что величина q = —Е logF(xr, 0) есть реализация гамма-распределения с плотностью qn~{e'<1 /Г(л). Однако решение неравенств (4.3.3) может быть трудным, поэтому для подобных ситуаций желательно иметь альтернативный метод. Такой метод здесь будет рассмотрен.
Пример 4.6.1. Доверительные пределы для параметра формы гамма-распределения. Пусть случайная величина X имеет гамма-распределение с параметром сдвига X и параметр масштаба 1, т. е. плотность этого распределения есть
х\-1е-х/Г(Х), х > 0 (0 > 0),
так что Е(Х) = X [см. II, раздел 11.3].
Пусть имеется выборка хъ х2..хп. Как уже отмечалось, довери-
тельный интервал (если он может быть найден) будет существенно зависеть от выбора «рабочей» статистики. Опыт показывает, что лучше всего п
взять достаточную статистику. В нашем случае это Пх, — величина, 1	п
с которой трудно работать. Поэтому мы используем статистику у Это несмещенная оценка лХ, реализация случайной величины Y с плотностью распределения [см. II, раздел 11.3.2]
165
g(y, 9) = /-'г-'/Г(»), У > о, (в > О),
где 9 = пХ (так что E(Y) = 0 = лХ), и с функцией распределения
Р(У у) = G(y, 0) = ^~le~^z/r(0). в
При любом значении 0 можно найти центральный 95%-ный вероятностный интервал (у^, у2) для Y, взяв у{ и у2 так, чтобы
GOb 0) = 0,025,	G(y2, 0) = 0,975
[см. раздел 4.1.3]. Например, для 0 = 2,0 и п = 10 получаем
G(j„ 2,0) = Р(У у,) = Р(2У 2у>) = Р[х2(4)	2у.]>
так как 2 У имеет распределение х2 с 4 степенями свободы [см. раздел 2.5.4, а)]. Из таблиц распределения х2 [см. приложение 6] видно, что 2yi = 0,484, откуда yt = 0,242. Аналогично у2 = 5,572. Можно провести вычисления для других значений 0 и получить результаты, как в табл. 4.6.1 (в которой значения yt и у2, соответствующие данному 0, обозначены как yi(0) и у2(0)).
Таблица 4.6.1. Значения У Ав) и j2(<0> такие, что Р[у|(6) Y = 0,95, где У имеет гамма-распределение с параметром 6( = 10Х)
в	у АО)	ЛИ»)	в	>,(«)	УА«)
1	0,0253	3,689	9	4,116	15,713
2	0,242	5,572	10	4,796	17,085
3	0,618	7,224	11	5,491	18,390
4	1,090	8,768	12	6,200	19,682
5	1,624	10,242	13	6,922	20,962
6	2,202	11,668	14	7,654	22,230
7	2,814	13,060	15	8,396	23,490
8	3,454	14,422			
166
4.6.1. Графики функций /,(0), у2(в) из табл. 4.6.1; Yo — типичное значение величины У, при котором точка (0о, Уо) лежит между кривыми. Рисунок демонстрирует равнозначность условий /,(^о) < Уо Уг(во) и в'о в0 о
Таким образом, мы сумели получить те же результаты, что и с использованием опорной статистики в (4.3.5) из примера 4.3.1, и разница состоит лишь в том, что границы доверительных интервалов найдены по таблицам, а не с помощью явных формул. Теперь наша задача решить неравенство
Л(0) < Y ^у2(0)
(которое выполнено с вероятностью 0,95), т. е. получить эквивалентное (и выполненное с той же вероятностью) неравенство вида
Д.(У) 0 С а2(У).
Обе функции ji(0) и у2(0) непрерывные, монотонно возрастающие, как показано на рис. 4.6.1. Предложение Y у2(6) иллюстрируется расположением точки (0о, Уо), где Yo j2(0o), т. е. Уо лежит не выше графика у2(0). Так как график непрерывен и монотонен, функция j2(0) обратима [см. IV, раздел 2.7], т. е. существует единственное значение 00 = yi'iYo), такое, что Уо = у2(0Ь), которое можно найти, проведя горизонтальную прямую через точку (0О, Уо) и отметив абсциссу 0О точки ее пересечения с графиком. Так как функция возрастает, 0b 0О. Получаем, что предложение Уо у2(0о) эквивалентно предложению 0о 0'о, где 0'о(= 0Ь(Уо), скажем) = ^2*(Уо)« Аналогично, глядя на нижнюю кривую У1(0), находим, что предложение Уо ji(0) логически эквивалентно предложению
0о С 0о,
167
где 0'6(= 0'6(YO), скажем) = _ут‘(Уо)- Следовательно, предложение
У1 (0о) Yo Уг(0о)
(выполненное с вероятностью 0,95) эквивалентно предложению 0'о(Ко) < 00	0о(Уо),
которое, конечно, выполнено с той же вероятностью (см. рис. 4.6.1). Это имеет место для всех точек (0, У) в интервале (У1(0), Уг(0)) при любом значении 0. Из этого следует, что если случайная величина Y приняла значение у, то 95%-ным доверительным интервалом для 0 служит (0'оСУо), 0'6(Уо))-
Нижний предел 0'о = 0'о(Уо) определяется из условия
Р{У(0Ь) > Уо] = 0,025,
где Y(0'o) — гамма-распределенная случайная величина, имеющая параметр формы 0'о. Значение 0'о выбрано так, чтобы у0 служило верхней 0,025-критической точкой.
Верхний предел 0'6 = 0б(уо) определяется из условия
Р[ К(0 6) <	= 0,025,
т. е. 0О — такое значение параметра, при котором у0 служит нижней 0,025-критической точкой.
Для заданного у0, например у0 = 6, можно найти значения 0'о и 0о из таблиц или графически, как на более подробном варианте рис. 4.6.1, построенном по точкам табл. 4.6.1 [см. рис. 4.6.2]. Из графика видно, что наблюденное значение у = 6 (отвечающее значению несмещенной оценки X* = 0,6 для X) порождает 95%-ный доверительный интервал (2,3, 11,7) для 0 = 10Х и 95%-ный доверительный интервал (0,23, 1,77) для X. (Область между верхним и нижним графиком называют доверительной полосой.)
Интуитивный подход, который обсуждался перед примером 4.3.1, здесь заключается в рассмотрении нескольких характерных типичных плотностей гамма-распределения, соответствующих разным значениям 0, как показано на рис. 4.6.3. Весьма малое значение 0i величины 0 на графике (1) и большое значение 03 на графике (3) представляются неправдоподобными в том смысле, что в каждом случае наблюдаемое значение статистики yi лежит в области малых значений плотности вероятности; в то же время 02 сочетается со значением у, так как у лежит в зоне больших значений этой плотности. Границы между «правдоподобными» и «неправдоподобными» значениями 0 могут быть приняты, как и ранее, равными 0и и 0[ так, чтобы (как показано на рис. 4.6.4)
P(Y > ус, 0и) = Р(У УС, 0/) = 0,025.
168
ic. 4.6.3. Плотности гамма-распределения, соответствующие различным зна^
Рис. 4.6.4. Плотности гамма-распределения с параметрами 0, и ди
169
Для у = 6 мы находим 0, и 0И, используя тот факт, что 20, — число степеней свободы такого распределения хи-квадрат, квантиль уровня 0,025 которого равна 12, а 20и — число степеней свободы такого распределения хи-квадрат, квантиль уровня 0,975 которого равна 12. Из таблиц распределения х2 [см. приложение 6] получаем, что 20и лежит между 23 и 24, а 20, — между 4 и 5. Интерполяция дает значения 0, = 2,3, 0и = 11,7, что согласуется с результатом, полученным ранее*.
4.7. ПРИБЛИЖЕННЫЕ ВЫЧИСЛЕНИЯ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ ДЛЯ ПАРАМЕТРОВ ДИСКРЕТНЫХ РАСПРЕДЕЛЕНИЙ
Теперь перейдем к примерам, в которых не только отсутствует опорная переменная, но есть и еще одна дополнительная сложность — распределение дискретно. Рекомендации по поводу того, как поступать в подобных условиях, содержатся в [Blyth and Hutchinson (1960); Clopper and Pearson (1934); Crow (1956); Eudey (1949); Pearson (1950); •Stevens (1950)].
Мы ограничимся рассмотрением биномиального и пуассоновского распределений. Есть два различных подхода, связанных с аппроксимацией. В первом случае исходное дискретное распределение приближенно заменяется непрерывным, во втором приближенная доверительная область строится на основе дискретного распределения.
Простейшая (но не всегда самая точная) аппроксимация — нормальная. Она удобна еще и потому, что для нормального распределения доверительные интервалы найти легко. Этот подход обсуждается ниже применительно как к биномиальному, так и к пуассоновскому распределениям [см. примеры 4.7.1, 4.7.2].
Более сложное семейство непрерывных распределений можно построить, считая, что наблюдаемая дискретная случайная величина представляет собой значения некоторой непрерывной случайной величины, записанные с ограниченной точностью. Аппроксимирующая случайная величина z поэтому может быть представлена в виде
Z = R 4- U,
где R — исходная дискретная (целочисленная) случайная величина, U — не зависящая от нее непрерывная величина со значениями на отрезке [—у]- Наделить U определенным распределением (например,
* Вывод основан на том, что распределения х2 входят в семейство гамма-распределений и снабжены доступными таблицами. — Примеч. пер.
170
равномерным) значит указать распределение аппроксимирующего Z (зависящее, конечно, от параметра 0 распределения R). Если, например, R имеет биномиальное распределение с параметрами (л, 6) и U — равномерное распределение на [—у yj, то наблюдаемое значение Z с 5 десятичными знаками можно получить, взяв реализацию г величины R и добавив к г —у число O-Sis2s3s4s5, где 5, — «случайные цифры» [см., например, RAND Corporation (1955) — Метод, основанный на этой идее, был развит в [Tocher (1950)].
Другой вид приближения связан с тем, что мы работаем с исходным дискретным распределением и получаем доверительные интервалы, не связанные с какими-либо аппроксимирующими распределениями, о которых, однако, мы можем сказать лишь то, что их уровень доверия не ниже заданного. Нельзя, например, получить 95%-ный доверительный интервал, можно лишь указать интервал, уровень доверия которого не меньше 95%. Этот подход развит в примерах 4.7.3 и 4.7.4.
Пример 4.7.1. Доверительные интервалы для параметра 0 Bin (л, 0) распределения; нормальное приближение. Хорошее непрерывное приближение биномиального (л, 0) распределения дает нормальное распределение; если R — случайная величина, распределенная Bin (л, 0), а X — величина, распределенная нормально, то имеет место приближенное равенство
P(R х) = Р(Х х),	0 х л,	(4.7.1)
если х — Ы(д, ст),
д = Е(Х) = E(R) = п0 и
ст2 = var(A') = var (R) = л0(1 — 0)
[см. II, раздел 11.4.7], т. е. R распределена приблизительно нормально с параметрами (д, а). Может оказаться более удобным работать с величиной R/ п, которая является естественной оценкой 0; эта величина приближенно N(0, Vfl(l — 0)/п ).
а)	Грубое приближение. Для М(д, а) распределения величины X 95%-ный доверительный интервал для д, основанный на наблюдаемом значении х, есть х ± 1,95ст. При самой грубой (но часто применяемой) процедуре в качестве х берут наблюдаемое значение величины R/n, т. е. р = r/л (р — наблюдаемое отношение числа успехов к общему числу испытаний), а в качестве ст — величину V(p(l — р)/п). Тогда приближенным выражением для 95%-ного доверительного интервала будет
р ± l,96V[p(l — р)/л] .	(4.7.2)
171
Это без существенной потери точности может быть заменено на
р ± 2V[p(l — р)/п] .	(4.7.3)
б)	Более точное приближение. Если X — случайная величина N(/x, а), то с вероятностью 1 — а
—а (X — ц) / а а, где
Ф(а) = 1 — уа
(Ф, как обычно, — функция нормального распределения [см. приложение 3.4]). Итак, с вероятностью 1 — а
X /г + ао и X > /х — оа.
Поскольку R приближенно N(/x, а), причем р. = пд и ст2 = п0(1 — 0), можно утверждать с вероятностью примерно 95%, что
R л0 + <zV«0(l — 0) и
Л > л0 — а\/пе(1 — 0) .
В этом приближении 100(1 — а)%-ный доверительный интервал для 0 будет состоять из значений 0, удовлетворяющих неравенствам
г л0 + aVfl0(l — 0) и
г > и0 — а<и0(1 — 0) ,
т. е. интервал, граничные точки которого 01 и 02, представляет собой корни квадратного уравнения
(Г _ пву = агпе{\ — 0).	(4.7.4)
Выражая это уравнение через р{ = г/п — наблюдаемая доля успехов), получаем
(1 + о2/и2)02 — (2р + о2/и)0 + рг = 0.
Корни этого уравнения есть
р + а2/2п ± oVp(l — р)/п + а2/4п2	.. - _ч
------------ 	(4.7.5)
’	1 + а2/п
Для 95%-ного доверительного интервала (а = 0,05) а = 1,96 = 2, откуда 95%-ные доверительные пределы есть (приближенно)
р + 2/я ± 2V(p(l — р)/п + 1/л2)	.. _
172
Например, если г = 8 и п = 20, то в результате этой процедуры получаем уравнение (4.7.4) в виде
(8 — 2О0)2 = (1,96)2 • 200(1 — 0).
Отсюда доверительный интервал есть (0,216, 0,617). Заменив в вычислениях 1,96 на 2, получим практически тот же ответ. Соответствующий интервал, найденный с помощью грубого приближения (4.7.2), будет (0,181, 0,619).
Пример 4.7.2. Доверительный интервал для параметра распределения Пуассона (нормальное приближение). Мы предполагаем, что величина X имеет распределение Пуассона с параметром 0; имеется выборка ее значений (хь х2, •••, хЛ); среднее выборки равно х. Тогда, если 0 не очень мало, то исходное распределение X приближается нормальным (0, V0) распределением, и выборочное распределение х приблизительно N(0, V0/«). В соответствии с рассуждениями в примере 4.7.1 приближенное выражение 100р%-ного доверительного интервала для 0 можно найти из предложения (выполняющегося с вероятностью 0,95):
х~ — 0
—а < -------- < а,
где а = Ф-1(у + у), так что доверительные пределы 01 и 02 есть корни уравнения
Г — 6>
V(fl/n) =а
ИЛИ
(х — 0)2 = ач/п.	(4.7.7)
Если р = 0,95, то а = 1,96 ~ 2.
В качестве примера рассмотрим данные табл. 3.2.3. В течение 2606 интервалов времени, каждый по 7,5 сек, общее число радиоактивных частиц, испущенных неким источником, было 10070. Среднее число частиц за промежуток времени, таким образом, есть х = 10070/ 2606 = 3,864. Это оценка наибольшего правдоподобия для 0 по этой выборке. Ее точность выражается через 95%-ный доверительный интервал, полученный из квадратного уравнения (4.7.7):
(3,864 — 0)2 = (1,96)20/2606,
соответственно (0Ь 02) = 3,864 ± 0,049.
Эта оценка, как видим, имеет хорошую точность, что объясняется большим объемом использованной выборки.
173
Теперь перейдем к более глубокому изучению проблем, затронутых в примерах 4.7.1 и 4.7.2, принимая во внимание дискретность данных.
Пример 4.7.3. Доверительные интервалы для параметра 6 распределения Bin (л, 0) с учетом его дискретности. Пусть Xq — случайная величина, отвечающая испытанию Бернулли с вероятностью успеха 0, так что ее распределение имеет вид
P(Xq = х) = 0*(1 — х = 0,1; 0 < е < 1.
В выборке объема п (т. е. в серии из п испытаний) общее число успехов г = Ёх,- есть достаточная статистика. Мы возьмем ее в качестве рабочей статистики. Соответствующая (несмещенная) оценка для 0 есть 0 = г/ п. Статистика г является реализацией Bin (и, 0) распределения Re, для которого п. р. в. есть
P(Re = г) = 0 0'(1 — 9)п~г, г = 0,1, ..., п. (4.7.8)
Будем по возможности следовать тому, как мы поступали в примере 4.6.1 при непрерывном распределении.
Статистика г представляет собой реализацию биномиального распределения Re. Сначала необходимо построить, с наибольшей возможной точностью, 100р%-ный (скажем, 95%-ный) вероятностный интервал для Re при каждом значении 0(0 < 0 < 1). Поскольку распределение Re дискретно, симметричные вероятностные интервалы определены неоднозначно [см. раздел 4.1.3, б)]. Вместо них мы будем использовать квази-центральные ' вероятностные интервалы (г;(0), гм(0)) уровня не менее 95%, т. е. такие, что
< R, < г„(0)] » 0,95	(4.7.9)
И
P[R6 rz(0)]	0,025,
где rz(0) — наибольшее значение г, для которого P[Re г] 0,025, или, что эквивалентно, для которого P(Re > г) 0,975. Аналогично
PjP, > r„(«)j	0,025,
где гм(0) — наименьшее значение г, для которого P[Re г] 0,025 или P(Re < г) 0,975 [см. пример 4.1.4].
Теперь мы построим графики rz(0) и гм(0) как функций 0 [см. рис. 4.7.1] и постараемся их истолковать с точки зрения доверительной полосы. Чтобы показать, как можно построить функции rz(0) и гд(0), рассмотрим ситуацию, когда 0 = 0,45. Из таблиц биномиального распределения [см. приложение 1] получим следующие значения:
174
Г	P(*o.4J < г)	
0	0,00253	1,0000
=> 1	0,02325	
2	0,09955	•
•	•	•
•		
		
•	•	•
8	•	0,02740
=> 9		0,00451
10	1,0000	0,00035
Рис. 4.7.1. Графики функций ги(в) и rt(6), таких, что	Re ги(0)]	0,95
Отсюда видно, что
>7(0,45) = 1, гм(0,45) = 9
(стрелки в таблице указывают значения вероятности, максимально близкие к 0,025, но не превышающие 0,025).
Действуя таким образом, нетрудно построить таблицы значений ги(0) и г/0); такая таблица приведена ниже для 0 = 0,10(0,05)0,90:
е			е		
0,10		4	0,55	2	9
0,15		5	0,60	3	10
0,20		6	0,65	3	10
0,25		6	0,70	4	
0,30		7	0,75	5	
0,35	8	0,80	5		
0,40	0	8	0,85	6	
0,45	1	9	0,90	7	
0,50	1	9			
175
Из этой, довольно грубой, таблицы нельзя извлечь точной информации о том, где происходят скачки ги(0) и однако такую информацию можно извлечь из более подробных таблиц биномиального распределения и их интерполяции.
Мы следовали, насколько это было возможно, построению 95%-ных вероятностных интервалов в примере 4.6.1 и соответствующих кривых j 1(0), ^2(0), изображенных на рис. 4.6.1. Таким образом, мы пришли к разрывным ступенчатым функциям, приведенным на рис. 4.7.1. Теперь мы покажем по аналогии с примером 4.6.1, что зона между этими кривыми есть доверительная полоса. К сожалению, эти рассуждения не могут быть просто повторены: при непрерывном распределении в примере 4.6.1 использовалась обратимость функции у 1(0), у2(0), а наши ступенчатые функции не имеют обратных. Это, однако, только малая часть возникающих трудностей. Как видно из рис. 4.7.2, при любом значении 0 утверждение
Г/(0) < г < гм(0)
(4.7.10)
Л’
г( (6}
г । । ।
_1____L
О' (г)
в" (г)
(заметьте, неравенства строгие) равносильно предложению
0'(г) < 0 С 0"(г),	(4.7.11)
где 0(г) (равное, скажем, 0') — абсцисса правого конца горизонтального отрезка («ступеньки») гм(0), чья высота равна г, т. е.
ги(0/) = г.
Аналогично, 0"(г) (равное, скажем, 0") есть абсцисса левого конца ступеньки высоты г, т. е. той, для которой
(6. г)
г/0") = г.
Рис. 4.7.2. Из рисунка видно, что
Г/(0) < г < г„(0) * в'(г) < (в) С в"(г)
ступеньки, так как и то, и другое
ния 0 (6) и 0"(6), соответствующие
Поскольку предложения (4.7.10)
бых значениях г (реализации Re) и
(Необходимо отметить, что каждое из возможных значений г совпадает с высотой какой-нибудь - целые числа 0, 1,2,..., п.) Значе-г=. 6, показаны на рис. 4.7.1.
и (4.7.11) эквивалентны при лю-0(0 < 0 < 1), то
/>{г,(0) < Re < ru(«)] = />[«-(/?,) в «
176
где 0'(Re) и 0"(Re) — случайные величины, соответствующие 0'(г) и 0"(г). Вероятность в левой части не меньше 0,95 по построению, откуда
р[е-(Л,) s; о	> о,95.
Итак, если г является реализацией Re, то интервал
(0 (г), 0 (г))	(4.7.12)
представляет собой квази-центральный доверительный интервал уровня не менее 95% (и ближайшего к 95%).
Существуют таблицы значений 0'(г) и 0"(г) для всех значений г и объемов выборки. Один из вариантов такой таблицы приведен в приложении 10. Таблица составлена для значений r/п, где г — наблюдаемое значение Bin (л, 0). Из нее видно, например, что если г = 8, п = 20, т. е. г/п = 0,40, то доверительный интервал есть (0,19, 0,64). (95%-ный доверительный интервал для тех же данных, вычисленный с помощью нормального приближения [см. пример 4.7.1], равен (0,18, 0,62) при использовании «грубого» метода и (0,22, 0,62) — при лучшем приближении.)
Пример 4.7.4. Доверительные интервалы для параметра распределения Пуассона. Чтобы построить доверительный интервал для параметра распределения Пуассона, можно применить метод, полностью аналогичный использованному в примере 4.7.3.
Если число событий R за данное время (или в данной области, объеме и т. д.) имеет распределение Пуассона с параметром 0 и его наблюденное значение равно с, то доверительные интервалы уровня не менее 100/?% могут быть найдены из таблиц 11 приложения (в этих таблицах р = 1,2а).
4.8.	ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ КВАНТИЛЕЙ, НЕ ЗАВИСЯЩИЕ ОТ ИСХОДНОГО РАСПРЕДЕЛЕНИЯ (РАСПРЕДЕЛЕННЫЕ СВОБОДНО)
В этой главе доверительные интервалы строились исходя из выборочного распределения рабочей статистики. Однако встречаются ситуации, когда доверительные интервалы можно построить, не затрагивая исходного распределения. Например, свободный от распределения доверительный интервал может быть построен для квантилей (иногда говорят — фрактилей, процентилей) данного непрерывного распределения. Квантиль уровня р, или р-квантиль функции распределения F(x, 0) есть такое %р, которое удовлетворяет уравнению
F(£p) = р, 0 < р < 1.
177
Пусть х(1), х(2), ..., х(л) — порядковые статистики [см. II, раздел 15.1] выборки объема п из заданного распределения, так что
Х(1) < х(2) < ... < х(л).
Выборочная плотность распределения х(г) есть
g(y) =	[1 - ГО)]” ~ rf(y)/B(r, n — r + 1),
где В(и, у) — бета-функция [см. IV, раздел 10.2].
Теперь, если Х(г} — случайная величина, реализацией которой является х(г) и
Р{Х„ <$„) = ! g(y)dy,
-OD
то, делая замену и - F(y) и используя равенство и = F(£p) = р (откуда у = £р), получаем
р
j иг~ 1(1 — и)" ~ rdu/B(r, п — г + 1) = 1р(г, п — г + 1), о
так называемую неполную бета-функцию. Этот результат не зависит от функции распределения Г(х), т. е. свободен от распределения. С помощью соответствующего соотношения для совместного распределения порядковых статистик Х(г>) и (г < s) аналогичным образом можно показать, что интервал
(х(г), x(s))	(4.8.1)
(для г < s) является свободным от распределения доверительным интервалом для 1;р с коэффициентом доверия
1р(г, п — г + 1) - Ip(s, n-s+\).	(4.8.2)
Значения 1р(и, у) содержатся в опубликованных таблицах неполной бета-функции [см. Thompson (1941) — G]. Они также могут быть вычислены на основе биномиальных таблиц, так как
IЛа, л — а + 1) = Е (")р«(1 -р)" — s=a xs/
(здесь в правой части — вероятность того, что значение биномиальной величины не меньше а).
Пример 4.8.1. Крайние по величине значения х(1) и х(10) выборки объема 10 являются граничными точками интервала (4.8.1) для медианы (квантиля £1/2) с уровнем доверия (4.8.2), а именно
/1/2(1, 10) - /1/2(10, 1) = 1 - 2/1/2(10, 1) = 1 - 2(4)1» = 0,998.
Аналогично интервал (х(2), х(9)) является доверительным интервалом для медианы, но с уровнем доверия Z1/2(2, 9) — А/г(^» 2) = 0,979.
178
4.9.	ДОВЕРИТЕЛЬНЫЕ ОБЛАСТИ ДЛЯ МНОГОМЕРНОГО ПАРАМЕТРА
4.9.1.	ТОЧНЫЕ ДОВЕРИТЕЛЬНЫЕ ОБЛАСТИ
Как видно из предшествующих разделов этой главы, теория доверительных интервалов для одного параметра развита неплохо. Теперь перейдем к двухпараметрическим семействам распределений. Среди них наиболее важным является нормальное (ц, а) распределение, для которого, как показано в примерах 4.5.1 и 4.5.2, отдельные доверительные интервалы для каждого из параметров строятся без особого труда. Это интервалы (/*,, ци) и (а;, аи) соответственно, где
Д/ = X + tQQ15s/<n, ци = х + tO915s/yfn,
— (п 1)1/2$/Хо,975» °и =	1)1/2,у/Хо,О25*
Здесь (исходя из выборки (хь х2, ..., х„))
х = Lxr/n, s2 = Е(хг — х )2/(л — 1),
tp — р-квантиль распределения Стьюдента с п — 1 степенями свободы, р — 0,025, 0,975 и
Х2р — р-квантиль распределения хи-квадрат с л — 1 степенями свободы, р = 0,025, 0,975.
Тогда с вероятностью 0,95 имеем
Д/	Ри
и с той же вероятностью а1 ° °и-
Отсюда, однако, не следует, что с вероятностью (0,95)2 одновременно
М/ ц ци И о аи
(попадание двумерного параметра в прямоугольник), так как индивидуальные доверительные интервалы построены с помощью величин (х —fi)/s и s/о соответственно, которые являются зависимыми.
Итак, даже для такого простого случая вопрос о построении совместной доверительной области для двух параметров не так прост. Нужно прежде всего уточнить,, что же мы имеем в виду под «совместной доверительной областью», какими свойствами она должна обладать и зачем она нужна на практике.
Следует сказать для начала, что теория таких областей есть, в сущности, переложение теории одномерного доверительного интервала. Для определения двумерной доверительной области нужно обратиться к такой случайной величине У, распределение которой зависит
179
от двух параметров а и 0, оцениваемых через а* и /3*, чтобы с вероятностью 95% для всех а, 13, действовало соотношение
(Л* — а)2 + (В* — /З)2 С 1.
Здесь а*, /3* — реализации случайных величин А*, В*. С помощью реализации Y определяемая 95%-ная доверительная область для (а, /3), а именно
(а* — а)2 + (/3* — /З)2 С 1, —
единичный круг на плоскости (а, (3) с
Рис. 4.9.1. Доверительная область для пары параметров (а, 0).
центром в (а*, 0*).
Вообще, для случайной переменной Y, распределение которой зависит от двух параметров а, (3, приемлемой доверительной областью для а и /3, основанной на оценках а*, /3*, может служить часть плоскости внутри замкнутой кривой С(а*, /3*), такой, что
Р[(а, /3) € С(Л*, В*)] = 0,95.
Такие области существуют, и это будет показано ниже [см. пример 4.9.1]. Мы построим совместные довери-
тельные области для параметров N(^, а) распределения. Прежде чем перейти к построению, скажем несколько слов о практическом применении подобных областей. Главная проблема, возникающая в ситуаци
ях с несколькими параметрами, состоит в оценке достоверности данного значения комбинации параметров, предпочтительно в терминах доверительных интервалов. В случае двух параметров (скажем, а и /3) их простейшая комбинация — сам параметр а (или /3). Мы немедленно приходим к тому разочаровывающему факту, что, вообще говоря, невозможно построить доверительный интервал для а с известным уровнем доверия исходя из 95 %-ной доверительной области для совокупности (а, /3)- Рассмотрим ситуацию, изображенную на рис. 4.9.1, где область, ограниченная кривой С, является 95 %-ной доверительной областью для (а, /3). Очевидный 95%-ный доверительный интервал для а есть (а,, а2) — проекция кривой С на ось а. Действительно, по определению доверительной области, утверждение, что (а, 0) лежит внутри С, выражается одним или несколькими неравенствами относительно А*, В*, а, &, совместная вероятность которых равна 0,95.
180
Этим неравенствам удовлетворяют все точки, лежащие внутри С. Если же (а, /3) лежит внутри С, то а лежит внутри проекции Са. Отсюда логически следует, что
Р[а 6 CJ 0,95
[см. II, теорема 3.4.5]. Итак, хотя (аь а2) является доверительным интервалом, его точный уровень не известен; можно лишь сказать, что он не меньше 95%.
Если нельзя построить точные доверительные интервалы для а и /3 исходя из знания двумерных доверительных областей, то и нельзя надеяться построить точные доверительные интервалы для комбинации параметров вида а + 2/3, а//3 и т. д. Методы, позволяющие получить доверительные интервалы уровня не менее заданного, однако, существуют [см., например, Scheffe (1953), (1970)].
Теперь перейдем к примерам построения двумерных доверительных областей.
Пример 4.9.1. 95%-ная доверительная область для (ц, а). Рассмотрим величины (X — /л)/о, S2/ а2, где, как обычно, X — случайная величина, порожденная статистикой х, и s2 — величина, порожденная s2 (обозначения те же, что и ранее). Тогда величина (X — — n)/(a/yfn) нормальна (0, 1), и (п—l)S2/a имеет распределение хи-квадрат с л — 1 степенями свободы. Более того, 5 и X статистически независимы [см. теорему 2.5.2].
Теперь, если и0 — 0,975-квантиль стандартного нормального распределения, то
Р{—и0	п'/2(Х — р)/а С «о] = 0,95,	(4.9.1)
так что
Р(ц — иоа/у[п с X, ц + иоа/уГп X ] = 0,95.
Рис. 4.9.2. Заштрихованная клинообразная область — неограниченная доверительная область для пары (ц, а)
Отсюда следует с вероятностью 0,95, что клинообразная область на рис. 4.9.2 содержит точку (д, а). Таким образом, эта область является 95 %-ной совместной доверительной областью для (д, а). Но поскольку она не ограничена, из нее нельзя извлечь какой-либо пользы.
Аналогично мы имеем
181
Р[а2 (л — 1)52/ст2	Ь2] = 0,95,	(4.9.2)
где а2 = х0025(л	1), Ь2 = Х*975(и — 1) — квантили уровней 0,025 и
0,975 распределения хи-квадрат с п — 1 степенями свободы, так что Р[(п — l),/2S/6 а (п — \)i/2S/a] = 0,95.
Отсюда следует, что на плоскости (д, а) полоса на рис. 4.9.3 содержит а с вероятностью 0,95. Эта полоса — двумерная доверительная область для а.
Так как X и S статистически независимы, утверждения (4.9.1) и (4.9.2) также независимы, откуда
Р{—и0 С л1/2(Х — д) и0
и а2 (п — l)S2/a2
Рис. 4.9.3. Заштрихованная полоса — неог-	< М] = (0 95)2
раниченная доверительная область для а	’	’
т. е. с вероятностью (0,95)2
Л
д — Uqo/^п X, д + uQo/y[n X
и	( .	(4.9.3)
(л _ l)i/2S/ft а (п — l)i/2S/a. J
Это равносильно предложению, которое тоже выполнено с вероятностью (0,95)2 = 0,9025, что случайная область А(Х, S), определенная (4.9.3), содержит точку (д, а). Если мы заменим X и S их значениями х и s, то результирующая область А(х, $) будет 90,25%-ной доверительной областью для пары (д, ст). Эта область изображена на рис. 4.9.4.
Если мы хотим получить доверительную область уровня, скажем 0,95, то мы должны провести те же вычисления, взяв за м0 квантиль уровня 0,9875 стандартного нормального распределения (т. е. 2,24). При п = \\, а = 2,1 и b - 22,6 — квантили уровней 0,0125 и 0,9275 распределения х2 с 10 степенями свободы. (Чтобы пояснить, откуда взялось число 0,9875, отметим, что мы должны заменить вероятность 0,95 на р = V0,95 = 0,975 в каждом из равенств (4.9.1) и (4.9.2). Чтобы получить такие вероятности, нужно брать квантили нормального 182
Рис. 4.9.4. Заштрихованная фигура — пересечение областей рис. 4.9.2 и 4.9.3. Она является доверительной областью для пары (д, а)
Рис. 4.9.5. Границы интервала (а, Ь) — квантили уровней |(1—р) ид + |(1— р)=
= |(1 + Р)
распределения и распределения хи-квадрат уровней у (1 — р) и у(1 + р), как показано на рис. 4.9.5.)
4.9.2.	ЭЛЛИПТИЧЕСКИЕ ДОВЕРИТЕЛЬНЫЕ ОБЛАСТИ ДЛЯ ВЕКТОРА МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ ДВУМЕРНОГО НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ. ПРИБЛИЖЕННЫЕ ДОВЕРИТЕЛЬНЫЕ ОБЛАСТИ
ДЛЯ ОЦЕНОК НАИБОЛЬШЕГО ПРАВДОПОДОБИЯ
Согласно теории оценка наибольшего правдоподобия 0 параметра О часто оказывается распределенной приближенно нормально (0, а2в), где а2в — выборочная дисперсия. Если действовать не очень аккуратно, можно считать, что распределение величины (0 — 0)/ ад — стандартное нормальное и с вероятностью 0,95 ее значение попадает в интервал ± 1,96. Отсюда
0 ± \,96ав — приблизительный 95%-ный доверительный интервал для 0. В случае двух параметров, скажем,
е = (0>, 02), соответствующее приближенное распределение для оценки наибольшего правдоподобия § = (§it 02) — двумерное нормальное с вектором
183
математического ожидания 6 и ковариационной матрицей V, которую можно оценить по выборке [см. раздел 6.2.5, п. 3]. Желательно получить 95%-ную доверительную область хотя бы в грубом приближении. Можно рассуждать следующим образом: если
/ V1 с \
v = L J •
то выборочная дисперсия 0г равна vH а 02 равна v2. Можно, разумеется, построить отдельные 95%-ные доверительные интервалы
01 ± 1,96v^2, 02 ± l,96v'2	(4.9.4)
для 0] и 02. Этого недостаточно, поскольку (как отмечено в разделе 4.9.1) отсюда не следует, что с вероятностью (0,95)2 точка (0Ь 02) будет лежать в прямоугольнике (4.9.4). «Доверительное» утверждение для совокупности 0] и 02 можно установить следующим образом. Оговорка «приближенно» означает, что 0} и — оценки наибольшего правдоподобия и их распределение не является в точности двумерным нормальным. Если бы это распределение было нормальным в точности, оговорку следовало бы снять. Для любого вектора az = (alt а2) случайный вектор
«1 01 + «202
распределен нормально с ожиданием
«101 + «202
и дисперсией
a'Va = a2Vi + 2«i«2c + a22v2.
Поэтому 95%-ный доверительный интервал для
«10! + а20г
есть
«101 + а2§2 ± l,96V(«^Vi + 2«i«2c + a2v) .	(4.9.5)
При другом подходе, позволяющем построить двумерную доверительную область для б, используется двумерный аналог центрального вероятностного интервала уровня 0,95 для одномерного нормального распределения, т. е. внутренность эллипса С, построенного так, чтобы плотность вероятности на его границе всюду была одинаковой и jj/(Xi, x2)dxidx2 = 0,95, С
raef — плотность двумерного N(0, V) распределения. Тогда с вероятностью 0,95,
S —е е с,
184
так что 95%-ная доверительная область для О есть эллипс С + 6 [результат переноса С на вектор ё).
Эллипс С можно построить следующим образом. Плотность двумерного N(0, V) распределения [см. II, раздел 13.4.6] равна
(2тг)~1/2 | V | _|/2ехр(—-L-x'V-’x).
Кривая С удовлетворяет уравнению
xV"‘x = b,
где b должно быть определено. Напишем V= ЕЕ и V = Е~’Х, так что Y имеет двумерное N(0, I) распределение [см. II, пример 13.4.8]. Под действием этого преобразования эллипс С переходит в круг
У У = b (или у2 + у\ = Ь),
где
у = Е~’х.
Остается найти b из уравнения
— \\e~^+y>2dy.dy2 = 0,95.
^1Г у2 +/. ь
Интеграл можно взять с помощью перехода к полярным координатам [см. IV, пример 6.2.3]. Уравнение при этом сводится к
1 — е~ь/2 = 0,95,
откуда
b = 5,991.
Итак, 95%-ной доверительной областью для (0Ь 02) служит внутренность эллипса
(х — 0)V~‘(x — = 5,991,
где
х' = (0Н f)2).
(То же и для 99%-ного доверительного интервала. В этом случае получаем уравнение 1 — е~ь/2 - 0,99, откуда Ъ = 9,210.) Итак, если
/ V1 с \	/	a2. QO\O2\
V= ( )	= ( 2	)	,
\	с v2 /	\	QOia2 ff2	/
то [см. I, раздел 6.4]
,	1	/	1/о2,	—
у—1 = ______ /	1	\
1 б2 ( —q/o,а2	l/ffj )
185
и уравнение имеет вид
(аг. — $,)* 2в
-----2---- - (х. - 0>)(х2 - 02) +	(4.9.6)
° !	° I ° 2
(хг - ё2у
+ ---— = 5,991 (1 - е2).
а2
Эта область является точной (но не единственной) 95 %-ной доверительной областью для 0, когда параметры (q, aif а2) известны точно. Если они определены приближенно, то и доверительная область, разумеется, будет приближенной.
Для линейной регрессии с независимыми нормально распределенными ошибками существует прямой способ построения точных доверительных областей — эллипсоидов для совокупности параметров (или их подмножества). Метод описан в разделе 8.3.2.
4.10. ПОСТРОЕНИЕ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ НА ОСНОВЕ БОЛЬШИХ ВЫБОРОК С ИСПОЛЬЗОВАНИЕМ ФУНКЦИИ ПРАВДОПОДОБИЯ
Когда выборка достаточно велика, становится возможным упростить приближение.
4.10.1. ФУНКЦИИ ПРАВДОПОДОБИЯ
Пусть X имеет плотность распределения f(x, 0). Исходя из выборки (Х), х2....хп) строят функцию правдоподобия [см. раздел 6.2.1]
И»; х„ *2.....х„) = ftf(xr, в).	(4.10.1)
1	п
Логарифмической функцией правдоподобия будет Elog/(xr, 0), а ее производная по 0 [см. IV, раздел 4.5] есть
dlogZ п д
z(0; хь х2....хп) =	= Е a# log/(xr, 0).	(4.10.2)
Выборочное распределение этой функции — распределение индуцированной случайной величины п д	,
Z = z(0; Х„ Х2, Хп) = Е м k>gf(Xr, в), ' (4.10.^) где Хг — статистические копии X. Случайные величины 31og/(Arr, 0)/д0, г = 1, 2, ..., п также независимы и одинаково распределены и согласно центральной предельной теореме [см. II, раздел 17.3] их сумма Z асимптотически Нормальна. Чтобы как-то использовать этот факт, нам необходимо получить выражения для E(Z) и D(Z). Первое математическое ожидание равно нулю, так как 186
£'(31og/(X„ О)/д0] = J [ > log/(x,0)]/(x, O)dx = J
a f
= Ы	e>)dx
в предположении, что f(x, в) удовлетворяет обычным условиям регулярности [см. IV, раздел 4.7]. Так как j f(x, 0)dx = 1, то 31og/(Arf, О)/дв имеет нулевое математическое ожидание, а потому E(Z) = 0.
Дисперсия величины 31og/*(A"r, 0)/д0 равна
f	^2	р"2> г Э1ое/(х 0)') 2
E[dlog/(Xr, ^)/^J = J I ~^Г~ J -Я*’ ^dx- (4-10-4)
Теперь
/ Slog/ \ 2	1 / df\ 2
' де ' ~ T2" ^~дё'
и далее
a2iog/ _ i / df\2 i a2/ ae2 f2 'её' + T ~de2’
откуда
/aiog/\2 _ i a2	a2iog/
' de ' ~ / ~di2 de2 ’
Интеграл в правой части (4.10.4) записывается в виде
(°° а2/ .	(~ fa2iog/(x; m .
dx - I-----------— J/(x, &)dx.
-CZXZ»
При нужных условиях регулярности [см. раздел 3.3.3, в)] первый из этих интегралов преобразуется к виду (д2/д02) j f(x, 0)d0, откуда видно, что он равен 0, так как j f(x, 0)d0 = 1. Наконец, из (4.10.4)
f(d2\ogf(x, 6)^1
var[dlog/(Xr, 0)/д0] = - J [	J/(x, 0)dx =
= ~E[d2\ogf(Xr, 0)/д02] ,
и из (4.10.3)
г = 1, 2, ..., п, n^z = -iE[d2\ogf(xr, 0)/д02].
187
Положим по определению
varZ =	(4.10.5)
где
7„(0) = —л£[Э21о&/(Х 0)/д02] —	(4.10.6)
«количество информации» в выборке (3.3.6).
Итак, величина Z, определенная соотношением (4.9.2), имеет распределение, близкое к N(0,
4.10.2. ПОСТРОЕНИЕ ПРИБЛИЖЕННЫХ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ С ПОМОЩЬЮ ПРОИЗВОДНОЙ ЛОГАРИФМИЧЕСКОЙ ФУНКЦИИ ПРАВДОПОДОБИЯ
Из результатов раздела 4.10.1 следует, при обозначении и2 = что
Р(—l,96w < Z < l,96w) S 0,95,
(4.10.7) Р(—2,576w	Z 2,576ш) == 0,99
и т. д., откуда легко получить приближенные доверительные интервалы для в с уровнями доверия 0,95, 0,99 и т. д. Это мы покажем в следующем примере.
Пример 4.10.1. Построение доверительного интервала для параметра в биномиального распределения с помощью функций правдоподобия. Рассмотрим случайную величину X, соответствующую испытанию Бернулли с вероятностью успеха 6 [см. II, раздел 5.2.1]; тогда функция вероятности X есть
/(х, 0) = 0*(1 — 0)1-*, х = 0, 1	(0 С 0 С 1).
Для выборки (Xi, х2, ..., хп) функция правдоподобия [см. (4.9.1)] имеет вид
/(0; X], х2, ..., хп) = П0Х/(1 — 0)1-х' = 0Г(1 — 0)п~г, г = Ех(.
Производная (4.10.2) логарифмической функции правдоподобия есть z(0; х,, х2, ..., хп) = -^log[0r(l — 0)п~г] =
= ~ [rlog0 + (п — r)log(l — 0)] =у -	=
Это реализация случайной величины
Z = (Я — л0)/0(1 — 0)
(4.10.8)
188
[ср. с (4.10.3)]. Легко проверить, что E(Z) = 0. Это следует из того, что для величины R, распределенной Вт(л, 0), E(R) = п0.
Теперь необходимо обратиться к 1п(0). Имеем
log/PG 0) = *log0 + (1 — X)log(1 — 0),
откуда	
Поскольку Е(Х) = 0, то
L дв2 ->	0 + 1 — 0 ~ 0(1 — 0)
Откуда, используя (4.10.5), находим, что
var(Z) = 7„(0) = л/0(1 — 0).
Это может быть проверено с помощью (4.9.8): так как величина R распределена Bin (л, 0), то var(7?) = л0(1 — 0),
откуда
var(Z) = п0(1 — 0)/{0(1 — 0)]2 = л/0(1 — 0).
Чтобы получить 95%-ный доверительный интервал для 0, используем (4.10.7); с вероятностью 0,95 (приближенно!)
—l,96Vn	R — п& l,96Vn
V0(1 — 6)	0(1 — 0) " \'0(1 — в) ’
т. е.
(R — п0)2	3,842л0(1 — 0).
Итак, из выборки (хь х2.....хп), для которой Ех; = г (общее число
успехов), 95%-ный доверительный интервал, полученный с помощью процедуры, приведенной выше, есть (0М 0и), где 0Z и 0и равны соответственно меньшему и большему корням квадратного уравнения
(г — п0)2 = 3,842л0(1 — 0).
Например, если г = 6 и п = 20 (и, следовательно, оценкой для 0 будет г/п = 0,30), мы имеем уравнение
(6 — 200)2 = (3,842) (20)0(1 — 0), откуда
0/ = 0,138, 0и = 0,526	(4.10.9)
с той точностью, какую может обеспечить нормальное приближение (то, что биномиальное распределение можно приближенно считать нормальным, есть на самом деле частный случай общей центральной предельной теоремы [см. II, раздел 11.4.7]). «Грубый» вариант вычислений по предшествующей схеме будет таким: распределение вели-189
чины R приближенно нормальное с математическим ожиданием 200 и дисперсией 200(1 — 0). Заменяя 0 в выражении для дисперсии оценкой г/п(= 0,3), получаем значение дисперсии 4.2. Если распределение R считается N(2O0,2,O5), то 95%-ным доверительным интервалом для 0 будет г ± (1,96)(2,05)/(20), т. е. 0,30 ± 0,20, т. е. (0,10, 0,50) [ср. с (4.10.9)]. Эту оценку на базе выборки большого объема можно сравнить с точным выражением (0,12, 0,54) для 100р%-ного доверительного интервала для 0сг = 6ии = 2О, полученным в примере 4.7.1, где, однако, мы имели р 0,95.
4.10.3. ПОСТРОЕНИЕ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ С ПОМОЩЬЮ (ПРИБЛИЖЕННО) НОРМАЛИЗУЮЩЕГО ПРЕОБРАЗОВАНИЯ
Иногда бывает, что статистика, имеющая «неудобное» распределение, может быть преобразована в другую статистику, имеющую распределение, хорошо поддающееся исследованию. Примером может служить выборочный коэффициент корреляции как оценка коэффициента корреляции двумерного нормального распределения [см. раздел 2.7.3, б)].
Пример 4.10.2. Приближенный доверительный интервал для коэффициента корреляции. Пусть q — коэффициент корреляции нормальной пары (X, У). По выборке (хь (х2, у2).....(х„, у„) оценим q
как
г = ^5 (xj — x^j —	7	— * )2£(л — у )2]1/2-
Чтобы выразить доверительный интервал для q через наблюдаемое значение г, воспользуемся тем, что если п велико (например п > 50), то величина
1	/ 1 + г\
-•=тНт^7>
с достаточной точностью может считаться реализацией нормальной величины Z с E(Z) = ylog[(l + @)/(1 — е)] и var(Z) = 1/(л — 3). Благодаря этой аппроксимации можно считать, что с вероятностью 95%
Z — 1,96/<(л — 3) ylog-TZ7 z + 1,96/VTn — 3) .
Разрешая эти неравенства относительно q, найдем соответствующий 95%-ный доверительный интервал для q в виде
[(e-l)Z(e + 1), (b- l)/(ft + 1)],
190
где
1 + Г \ -3,92/V(n - 3)
1 — Г/ к
и
1 + Г A 3,92/V(n — 3) 1 - г/ е
Например, если г = 0,3 и п = 55, то а = 1,07 и b = 3,20; 95%-ный доверительный интервал для q есть (0,03, 0,52) [см. также пример 5.2.2].
4.11.	ДОВЕРИТЕЛЬНАЯ ПОЛОСА ДЛЯ НЕИЗВЕСТНОЙ НЕПРЕРЫВНОЙ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ
4.11.1.	ЭМПИРИЧЕСКАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ
Функция распределения F(x) непрерывной величины X определяется равенством
F(x) = Р(Х х), —< х < <-’•
На базе выборки из п наблюдений величины X очевидный аналог функции распределения F(x) определяется равенством
nFn(x) = [число наблюдений величины х, которые не превосходят х] = fr(X х).	(4.11.1)
Символ fr(^<) означает частоту попадания наблюдений в множество Эта функция называется эмпирической функцией распределения.
Возможен также следующий эквивалентный вариант определения.
Определение 4.11.1. Порядковые статистики выборки. Пусть х(1), х(2), ...» х(п) (где x(ij < х(2) < ... <х(п)) — порядковые статистики [см. II, гл. 15] выборки из п наблюдений непрерывной случайной величины X. Эмпирическая функция распределения X есть
	0, х	< х(П,
	k/n,	xwCx<x(A.+ i), к = 1, 2	л—1,
	" 1, х	> \пУ
(4.11.2)
Пример 4.11.1. Порядковые статистики. Следующий набор четырехзначных десятичных чисел [см. II, раздел 5.1] есть случайная выборка из десяти наблюдений, записанных до четвертого знака непрерывного равномерного распределения [см. II, раздел 10.2.1]:
191
0,4754
0,7591
0,5566
0,5435
0,0392
0,0063
0,0666
0,1330
0,8572
0,6566
Располагая данные в порядке возрастания, мы видим, что порядковые статистики будут такими:
Г	Х(г)	Г	Х(Г)
1	0,0063	6	0,5435
2	0,0392	7	0,5566
3	0,0666	8	0,6566
4	0,1330	9	0,7591
5	0,4754	10	0,8572
Эмпирическая функция распределения F10(x) задана табл. 4.11.1. График ее показан на рис. 4.11.1. Это ступенчатая функция [см. IV, определение 4.9.4], промежутки постоянства которой замкнуты слева и открыты справа [см. I, раздел 2.6.3]. Для сравнения покажем истинную функцию распределения F(x):
0, х < 0,
F(x) = ' х, 0 х 1,
1, х > 1.
192
Рис. 4.11.1. График эмпирической функции распределения Fl0(x) выборки из примера 4.11.1
Таблица 4.11.1
Значения x				Значения x			
	x <	: 0,0083	0	0,5435 s	% x <	; 0,5566	0,6
0,0083 s	J X <	C 0,0392	0,1	0,5566 s	S x <	: 0,6566	0,7
0,0392 s	$ X <	: 0,0666	0,2	0,6566 s	S x <	Z 0,7591	0,8
0,0666 s	S x <	: 0,1330	0,3	0,7591 s	% X <	Z 0,8572	• 0,9
0,1330 s	S x <	C 0,4754	0,4		x ;	> 0,8572	1,0
0,4754 s	S x <	i 0,5435	0,5				
4.11.2.	РАССТОЯНИЕ КОЛМОГОРОВА—СМИРНОВА МЕЖДУ ИСТИННОЙ (ТЕОРЕТИЧЕСКОЙ) И ЭМПИРИЧЕСКОЙ ФУНКЦИЯМИ РАСПРЕДЕЛЕНИЯ
При построении доверительной полосы для неизвестной функции распределения F(x) наиболее полезной мерой близости эмпирической функции распределения и истинной служит статистика Колмогорова—Смирнова dn, определяемая равенством
dn = dn(xar х(2)» •••> х(л)) = sup I Fn(x) — F(x) | ,	(4.11.3)
193
где sup означает точную верхнюю грань [см. I, раздел 2.6.3].
Для данной выборки эта статистика есть модуль наибольшего отклонения Fn(x) от F(x). На рис. 4.11.1 оно достигается при х = 0,1330, при этом Fn(x) = 0,4000 и F(x) = 0,1330, откуда dn = 0,2670.
Статистика dn является реализацией случайной величины
Dn —	^(2)> •••>
где Xj — случайные величины, соответствующие порядковым статистикам. (Здесь существуют определенные трудности, связанные с обозначениями. Согласно сложившейся практике функция распределения F(x) обозначается прописной буквой, например F. Это противоречит соглашению прописными буквами латинского алфавита обозначать случайные величины. Разумеется, двусмысленности можно избежать. С эмпирической функцией распределения картина не столь ясна. Здесь также существует традиция в обозначениях, как, например, в нашем случае Fn(x) в (4.11.2), (4.11.3). Для каждого х Fn(x) (несмотря на то, что буква прописная) есть реализация случайной величины
0, х < Хщ,
F<rv-)(x) = к/п, Х^х<Х(к+х), к = 1, 2,
.., п— 1 ,
(4.11.4)
1, X >
[ср. с (4.11.2)]. Здесь мы вынуждены использовать неуклюжее обозначение F^'Xx), чтобы различать случайную величину и ее реализацию Fn(x). На практике, однако, никто не пользуется символом Fjr,v,)(x); одно и то же обозначение Fn(x) применяется и для статистики (4.11.2), 41 для случайной величины, реализацией которой она является. А это всегда ясно из контекста.)
4.11.3.	ВЫБОРОЧНОЕ РАСПРЕДЕЛЕНИЕ СТАТИСТИКИ КОЛМОГОРОВА—СМИРНОВА. ДОВЕРИТЕЛЬНЫЕ ПРЕДЕЛЫ ДЛЯ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ
Легко видеть, что выборочное распределение dn [см. определение 4.11.1] не зависит от исходной функции распределения F(x). Чтобы убедиться в этом, рассмотрим преобразование X в Y = F(X). Функция распределения У есть G(y), заданная в точке у = F(x) соотношением
G(y) = P(Y^ у) = P[F(X) F(x)] = Р(Х х) = F(x) = у, так как F монотонно возрастает. Отсюда эмпирическая функция распределения У есть Gn(y), заданная равенством
194
nFn(x) = fr(X x) = fr[F(X) F(x)] = fr(Y y) = nGn(y), следовательно,
Fn(x) — F(x) = Gn(y) — y.
Теперь пусть Fn(x) — эмпирическая функция распределения, построенная по п реализациям случайной величины X, функция распределения которой есть F(x). Отсюда следует, что Gn(y) — эмпирическая функция распределения, построенная по п реализациям случайной величины Y = F(x), которая имеет равномерное распределение на (0, 1) [см. II, теорема 10.7.2]. Поэтому выборочное распределение Gn(y)—у определяется свойствами именно равномерного распределения и никоим образом не зависит от F(x). Имеем
P(Dn d) = P[sup | Fn(x) - F(x) | d] = x
= P[sup | Gn(y) — у | d] = скажем, Kn(d). (4.11.5) У
Это распределение табулировано [см., например, Owen (1962); Harter and Owen (1970), т. 1 — G]. Чтобы построить 95%-ные доверительные пределы, необходимо знать для каждого п значение d, такое, что Kn(d) = 0,95. Эти значения доступны [см. табл. 4.11.2] также и для 99%, 98%, 90% и т. д. Для п = 10, например, 95%-ное значение d есть 0,409, так что
P(D10	0,409) = 0,95.
Пример 4.11.2. Доверительная полоса для функции распределения.
Для выборки объема л = 10
0,95 = P(D10	0,409) = P(sup | Fl0(x) — F(x) |	0,409) =
х
= Р[ | F10(x) — F(x) |	0,409 для всех х] =
= P[Fio(x) — 0,409 F(x) F10 ’+ 0,409 для всех х].
Следовательно, неравенства для каждого х
F10(x) — 0,409 F(x) Fl0(x) + 0,409	(4.11.6)
определяют 95%-ную доверительную полосу для функции распределения F(x), которая считается неизвестной. Поскольку также
0	F(x)	1,
можно уточнить границы (4.11.6) до
/л(х)	F(x)	м„(х),	(4.11.7)
195
где
/л(х) = max(0, Fn(x) — 0,409),
(4.11.8) и„(х) = min(l, Fn(x) + 0,409).
Для выборки из 10 наблюдений из примера 4.11.1 эмпирическая функция распределения Fn(x) была приведена в табл. 4.11.1. Доверительная полоса (по формуле (4.11.8)) приведена в табл. 4.11.2.
Таблица 4.11.2. Доверительная полоса (4.11.8)
Значения х	95%-ные доверительные пределы для F(x)	
	i 10 (*)	
х < 0	0	0
0	х < 0,0083	0	0,409
0,0083 л- < 0,0392	0	0,509
0,0392 х < 0,0666	0	0,609
0,0666 sj х < 0,1330	0	0,709
0,1330 sj х < 0,4754	0	0,809
0,4754 «С х < 0,5435	0,091	0,909
0,5435 х < 0,5566	0,191	1
0,5566 х < 0,6566	0,291	1
0,6566 С х < 0,7591	0,391	1
0,7591 < х < 0,8572	0,491	1
0,8572 С х < 1	0,591	1
х > 1	1	1
Мы видим, что доверительная область безнадежно широка. Поэтому невозможно получить достаточно точную оценку функции распределения исходя из выборки малого объема. (Значение 0,409, решающее при п = 10, убывает до 0,294 при п = 20, до 0,242 при п = 30, до 0,210 при п = 40 и далее асимптотически при больших п как 1,36/Vn; все это относится к 95%-ному уровню доверия.)
196
Асимптотически при п -* распределение величины Dn (на практике при п > 40) имеет весьма “простой вид:
P(Dn < z/yfn) = Я(г), где
H(z) = 1 - 2Е (—z > 0. 5=1
(4.11.9)
Несколько значений H(z) (в процентах) приведены в табл. 4.11.3.
Таблица 4.11.3. Процентные точки распределения
Колмогорова—Смирнова (4.11.9)
H(z):	0,99	0,98	0,95	0,90	0,85	0,80
z:	1,63	1,52	1,36	1,22	1,14	1,07
Для выборки объема 100, например, 95%-ная доверительная область определяется неравенствами
шах{0, Fioo(x) — 0,136] < F(x) < min[l, F100(x) + 0,136].
Можно вычислить, что для построения 95%-ной доверительной полосы, ширина которой не превосходит 0,1, необходима выборка такого объема п, что
1,36/Vn = 0,05,
т. е. п приблизительно равно 740.
4.12.	ТОЛЕРАНТНЫЕ ИНТЕРВАЛЫ
Задачей, во многом близкой к нахождению доверительных интервалов, является построение границ, между которыми лежит определенная доля (например, 0,99) генеральной совокупности. Такое утверждение, естественно, может быть сделано лишь с вероятностью р, где р = 0,95 или 0,99 и т. д. Например, исходя из выборки измерений роста мужчин (данные предполагаются нормально распределенными) необходимо указать числа х{ и х2, при которых рост 99% мужчин не меньше х{ и не больше х2 (с вероятностью 0,95). Такие границы называют толерантными пределами [см. Wilks (1961) — С].
197
Чтобы как-то сформулировать сказанное, определим 100р%-ные толерантные пределы для нормальной (д, а) величины с уровнем вероятности /3. Если бы ц и а были известны, мы могли бы найти центральный интервал (at, а2), содержащий р-ю часть вероятности. Границы ai и а2 удовлетворяют уравнению °2
j/(x; ц, o)dx = р,	(4.12.1)
О,
где f(x; fi, а) означает плотность N(/x, а) распределения в точке х.
Можно извлечь ах и а2 из таблиц нормального распределения. Например, если р = 0,95, то
а} = д — 1,96а, а2 = ц + 1,96а.
Если же fi и а неизвестны, лучшее, что можно сделать, основываясь на выборке x]t х2, ..., хп, это заменить д ± 1,96а на х ± Xs„, где, как всегда, х = £xr/n, (п — l)s2 = L(xr — х)2, X — константа, которую необходимо определить. Конечно, нельзя утверждать, что
Ьг
J/(x; д, o)dx = р,	(4.12.2)
ь,
так как Ь{ и Ь2 — статистики. Они являются реализациями случайных величин В{ = X — XS и В2 = X + XS, где X и S — случайные величины, соответствующие х и s. Утверждение (4.12.2) должно рассматриваться как реализация соотношения
X+XS
J /(х; д, a)dx = р.
x—xs
Теория толерантных интервалов предполагает схожие соотношения виДа	х + х5
J /(х; ц, a)dx р.
x—\s
Нельзя гарантировать полную истинность этого соотношения, однако можно требовать, чтобы оно выполнялось с предписанной вероятностью, скажем, /3:
X +XS
p[J /(х; д, a)dx р] = 0.	(4.12.3)
X—XS
Если мы сможем найти X для (4.12.3), то интервал (х — Xs, х + Xs) будет 100р%-ным толерантным интервалом уровня вероятности 0.
Такие значения X действительно могут быть найдены. Существуют таблицы значений X для различных значений 0, р и объемов выборки. 198
4.13.	ИНТЕРВАЛЫ ПРАВДОПОДОБИЯ
4.13.1.	ПРАВДОПОДОБИЕ
а)	Функция правдоподобия и логарифмическая функция правдоподобия. Примеры, определения. Пример функции правдоподобия был приведен в разделе 3.3.4. Там же рассматривалось интуитивное обоснование метода наибольшего правдоподобия как метода оценивания неизвестного параметра [см. также раздел 4.10.1]. Подлинное же обоснование этого метода базируется на том, что выборочное распределение оценок наибольшего правдоподобия имеет желаемые свойства.
Однако есть возможность определить оценки наибольшего правдоподобия и их точность методом, не затрагивающим понятия выборочного распределения. Этот раздел кратко знакомит с этой точкой зрения. Мы будем рассматривать функцию /(0; х{, х2, ..., хп) как функцию в, считая величины (хн х2, ...» хп) фиксированными. Надо принять, что понятие вероятности относится к ситуации, когда наблюдения производятся над случайной величиной и нас интересуют вероятности их попадания в различные множества. При этом параметр в считается фиксированным (даже если он неизвестен). С другой стороны, понятие правдоподобия относится к случаю, когда результаты наблюдений известны и возможные значения 6 рассматриваются в свете этих данных.
Необходимо подчеркнуть, что несмотря на численное совпадение (или пропорциональность) значений правдоподобия и соответствующих плотностей вероятности, правдоподобие не является вероятностью и имеет совершенно другие свойства.
Пора сформулировать более общее определение правдоподобия, чем то, которое дано в (4.10.1).
Определение 4.13.1. Правдоподобие. Пусть (хь х2, ..., хп) — реализации случайных величин Хх, Х2, ..., Хп. Положим
rP(A”i =хь Х2-х2,..., Хп=хп), если X дискретны, g(*i, *2, •••,*„, 0) совмесТная плотность распределения (4.13.1) величин (JV], Х2, ..., Хп) в точке (хь х2, ..., х„),
^если X непрерывны.
Здесь в означает (скалярный) параметр совместного распределения случайных величин Хг, если это распределение зависит только от одного параметра; в случае нескольких параметров 0 — вектор. Функция правдоподобия 0 этих данных определяется как
199
1(0) = 1(0; xn) = ag(x1} x2, ..., xn; 0), 0 € Q, (4.13.2)
где Q — параметрическое пространство, т. e. множество возможных значений 0, а = a(xt, х2, ..., хп) — константа относительно 0, возможно, зависящая от наблюдений. Здесь хг фиксированы, и, следовательно, правдоподобие есть функция 0, а не наблюдений хь х2, ..., х„. Не имеют значения абсолютные величины правдоподобия. Мы будем иметь дело лишь с отношениями значений функции правдоподобия при разных 0. Так, значение l(0i) будет сравниваться с 1(02) с помощью отношения l(0i)/l(02), которое, очевидно, не зависит от множителя а в (4.13.2). На практике (4.13.2) часто заменяют его эквивалентом
l(0)^g(xt, х2, ..., хп; 0).		(4.13.3)
Если хг — независимые, одинаково распределенные величины [см. раздел 1.4.2, п. 1], то выражение для функции правдоподобия принимает более простой вид:
/(0) = /(0; х2....х„)« П/(х,; 0),	(4.13.4)
где f(x, 0) — п.р.в. X в точке х (включая случай дискретной величины X, когда f(x; 0) = Р(Х=х)).
Логарифм функции правдоподобия часто более удобен в работе, и поэтому вводится логарифмическая функция правдоподобия log/(0). Очевидно, что если 1(0) имеет в точке 0 максимум, то и log/(0) имеет максимум в этой точке.
Пример 4.13.1. Правдоподобие в пуассоновском случае. Пусть X' — величина, имеющая распределение Пуассона, с параметром (0) так, что
Р(Х=х) = е~*?7х!, х = 0,1, ... (0 > 0).
При выборке (%1, х2, ..., хп) функция правдоподобия принимает значение
1(0) = 1(0; Xl, х2, ..., х„) ~ ne~Wx.7 = у= 1	•’
= e~ne0n^/nXj! (пх = ёху),
~ e-"Vr, 0 > 0.
. 200
Рис. 4.13.1. Графики функции правдоподобия /(0); 0тах — значение 0, максимизирующее 1(0); 0', 0" — точки, в которых правдоподобие принимает равные значения
График 1(6) изображен на рис. 4.13.1. Отметим, что хотя величина X дискретна, функция правдоподобия 1(0) — непрерывная функция 0. Она имеет единственный максимум. Он достигается в точке 0тах, такой, что
[<//((!)/</«],_, = 0 = [dlog/(«)/<W],_, , max	max
т. е.
(d/d0)(—п0 + их logfl) = О,
так что
0	— х
''max л •
Максимальное значение 1(0) пропорционально епх (х )пх, и правдоподобие любого другого значения 0 можно сравнить с ним, исследуя отношение
W/(0max) = е-п<в~хЧ0/х)пх.
Инвариантность. Предположим, что рассматривается нормальное распределение с нулевым средним и дисперсией а2 или, что то же самое, среднеквадратическим отклонением а. С чем нам следует работать — с правдоподобием а или с правдоподобием а2? Имеет ли значение этот выбор? Одно из привлекательных свойств функций правдоподобия состоит в том, что этот выбор не существен. При данных значениях совокупности наблюдений правдоподобия а и а2 равны. В этом заключается свойство инвариантности.
201
Пример 4.13.2. Правдоподобие функции от 9. Инвариантность. При данных (xi, х2, ..., х„) правдоподобие среднеквадратического отклонения N(0, ст) распределения есть
/,(ст) = (2тг)~"/2ст~" ехр {£ х2/2ст2] ,
в то время как правдоподобие дисперсии v( = ст2) есть
/2(у) = (27г)_"/2(т)~"/2ехр [—[Ex2/2v]] .
Очевидно, что это одно и то же. В этом примере ст2 — взаимно однозначная функция ст (по определению ст > 0, и поэтому ст = + Vct2, а не ст = ± У^2). Наши соображения приемлемы для любой взаимно однозначной функции: если правдоподобие 0 при фиксированных данных есть Ц(9) и ф - h(9), где Л(-) — взаимно однозначная функция, то правдоподобие ф есть
12(Ф) = 1А>г'(Ф)).
б)	Правдоподобие и достаточность. Вся информация о 9, содержащаяся в выборке Xi, х2, ..., хп ( = х, скажем), отражена функцией правдоподобия /(0; х), и все выборки, дающие одно и то же правдоподобие, содержат одну и ту же информацию.
Если для любой пары 9\, 92 возможных значений параметра 9 отношение l(9i; х)/1(92; х) есть функция совокупности статистик 9\(х), 9\(х), ..., 9*(х) и оно не может быть представлено как функция меньшего числа таких статистик, то набор 9\, 9\, ..., 9* есть (минимально) достаточный для 9 [см. раздел 3.4].
Так, например, если X имеет распределение Пуассона, правдоподобие 1(9; х) принимает для выборки (Xi, х2, ..., хп) значение 1(9) = = fV/Пх/ и
КОд =
1(02)	V 02 ’ ’
Следовательно, х — достаточная статистика для 9. Для выборки (Хь х2, ..., хп) из нормального распределения с параметрами (ц, ст) имеем
l(lM, <*1)	Ml \ Г	1 f (	1	1 \	„ 2 f 121	122 \
-------- = ( — ) ехр — — ( —-------= )	---------) ^xi +
l(l22, <b)	L	2 1 v	а2 7	VCTi	СТ27	'
202
откуда следует, что пара статистик Ех(, Ех) является минимальной достаточной статистикой для вектора 0 = (/z, ст).
4.13.2.	ПРАВДОПОДОБНЫЕ ЗНАЧЕНИЯ И ИНТЕРВАЛЫ ПРАВДОПОДОБИЯ
а)	Одинаково правдоподобные значения 0. Два значения 0', 6", для которых
1(6'; хь ..., х„) = 1(0"; Хх, ..., х„),
рассматриваются при данных значениях (хь х2, ..., х„) как одинаково правдоподобные (или одинаково неправдоподобные) приближения к неизвестному истинному значению 0; для дискретных данных равенство правдоподобий эквивалентно равенству
Р(Хх = xi, хп; 0') = Р(Хх = хь ..., хп = хп; 0").
Следовательно, вероятность получения именно тех значений, которые наблюдались, если истинное значение 0 есть 0\, равна вероятности получения этих значений, если истинное значение 0 есть 0'{ [см. 0' и 0" на рис. 4.13.1].
Эту аргументацию, оправдывающую рассмотрение значений 0' и 0" как одинаково правдоподобных, можно распространить с помощью предельного перехода и на случай непрерывных Хг.
б)	Одно из значений 0 более правдоподобно, чем другие. Если
1(6\; Хх, х2, ..., х„) > 1(02; Хх, х2, ..., х„),
то значение 0х рассматривается в свете данных (хь х2, ..., хп) как более правдоподобное, чем 02, приближение к неизвестному значению 0, поскольку вероятность (или плотность вероятности) данных значений наблюдаемых величин будет больше при истинном значении 0, равном 0х, чем при 02. Таким образом [см. рис. 4.13.1], 0х более правдоподобно, чем 02, а 02 более правдоподобно, чем 03. При таком способе рассуждений наиболее правдоподобным будет значение 0тах. Это оценка наибольшего правдоподобия [см. гл. 6].
в)	Недостаточно правдоподобные значения 0. Интервалы правдоподобия. Подход, развитый в предыдущих разделах, наводит на мысль, что значение 0, такое, что отношение 1(0)/1(0 тах) лишь немногим меньше единицы, является не намного менее правдоподобным, чем 0тах, в то время как значение 0, для которого 1(0)/1(0тъх) много меньше единицы, является, соответственно, много менее правдоподобным, чем 0тах. Мы можем, например, по соглашению установить следующий критерий неправдоподобия: любое значение 0, такое, что
W/^max) < 0,Ю,
203
будем считать неправдоподобным с уровнем правдоподобия 10%. Аналогично и для уровня правдоподобия 12,5% и т. д. Интервал (0t, 0и), такой, что
z(0)/z(0max) > 0,10, ot^o^ou,
будет рассматриваться как интервал, внутри которого с уровнем правдоподобия 10% любое значение 0 будет считаться правдоподобным приближением к неизвестному истинному значению 0. Для ббльшей аккуратности введем следующее определение.
Определение 4.13.2. Интервалы правдоподобия (один параметр). Для данных (Xi, х2, ..., х„), совместное выборочное распределение которых зависит от единственного параметра О, обозначим функцию правдоподобия через 1(6). Если существуют такие значения 0Z и ви, что
W/Z(0max) > 0,10 для 0/ =££ 0 =£5 ои, то интервал (0Z, 0Ы) называется 10%-ным интервалом правдоподобия для данной выборки (аналогично для интервалов других процентных уровней).
Если мы работаем с логарифмической функцией правдоподобия, важно заметить, что logZ(0) и 1(0) достигают своих максимальных значений в одной точке 0тах. В терминах логарифмической функции правдоподобия концы 0Z и 0М 0,10-интервала правдоподобия представляют собой корни уравнения
logZ(0) = log/(0max) + log(0,10).
Отметим, что в случае дискретной величины, распределение которой зависит от параметра, пробегающего континуум, как, например, Пуассоновское распределение, вычисление интервалов правдоподобия не вызывает тех трудностей, которые возникают при вычислении доверительных интервалов. Это показано в примере 4.13.3.
Пример 4.13.3. Интервал правдоподобия для параметра распределения Пуассона. В примере 4.13.1 функция правдоподобия выражалась как
1(0) ~ е~пв0п* , где О = х"
Границы 0Z, 0и 10%-ного интервала правдоподобия есть корни уравнения
е_„(й_Г)(0/-)Яг = 0>10
Например, если п = 10 и х = 2,4, придется решать уравнение
е-10(в-2,4)^/2>4)24 = 0>10
204
или, взяв логарифмы,
—100 + 24 + 241og0 — 241og2,4 = logO, 10, т. е.
100 — 241og0 = 5,29.
Корни (полученные приближенно) есть 1,5 и 3,6. Таким образом, для данной выборки наиболее правдоподобным значением 0 будет 2,4. Любые значения 0 в интервале (1,5 и 3,6) рассматриваются по соглашению как правдоподобные, а любые значения вне него — как неправдоподобные (уровня 10%).
Не все функции правдоподобия имеют горизонтальную касательную в точке максимума и не для всех существуют два значения 0Z и 0М, удовлетворяющие условиям определения 4.13.2. Рассмотрим пример.
Пример 4.13.4. Функция правдоподобия для семейства равномерных распределений. Предположим, что X распределена равномерно на интервале (0, 0), так что плотность распределения X есть
№; 0) =
г 1/0,
о
о х 0,
в другом случае.
Для выборки (Xi, х2, ..., хп) функцией правдрподобия будет
/(0) =
[ 1/0", 0
0 х, 0, 0 Хг 0,
в другом случае,
0 хп 0,
т. е.
/(0) =
' 1/0",
0
о ХМ 0, (т. е. 0 > х(и)),
в другом случае.
Здесь есть наибольшее наблюденное значение. График этой функции показан на рис. 4.13.2. В этом примере правдоподобие достигает максимума /тах, когда 0 = х(я), в точке, где кривая не имеет горизонтальной касательной.
В таком случае мы положим 0Z = х(л) и определим 0М (для уровня 10%) из уравнения
(х(л)/0)" = 0,10, т. е.
= 1о1'Хг
205
Рис. 4.13.2. Функция правдоподобия для верхней границы равномерного распределения
Рис. 4.13.3. Логарифмическая функция правдоподобия из примера 4.13.4
Например, если = 1,8 и п = 17, то 6и = 2,06.
Для количественного выражения интервалов правдоподобия не нужна глубоко разработанная теория выборочных расследований, подобная той, которая требуется для доверительных интервалов. В следующем Примере показано, что в некоторых случаях количественное определение доверительных интервалов связано со значительными вычислительными трудностями.
Пример 4.13.5. Пуассоновское распределение без нулевого значения. Пусть X имеет усеченное пуассоновское распределение без нулевого значения, так что его п.р.в. есть
Р(Х = г) = (—er/rl, г = 1, 2, ...
1 - е~в
206
[см. II, раздел 6.7]. Функция правдоподобия пропорциональна
/ ~в \п Л(0) = (—е—-в) 0s, 1 - е
О > о,
(4.13.5)
где 5 — сумма п значений X. (Это достаточная статистика для 6 [см. раздел 3.1].) Несколько минут несложных вычислений на карманном калькуляторе дадут таблицу значений логарифма величины (4.13.5), с помощью которой легко построить график логарифмической функции правдоподобия. Таблица 4.13.1 и рис. 4.13.3 иллюстрируют ситуацию, когда п - 20 и 5 = 40. Видно, что 0тах = 1,60 и что 10%-ный интервал правдоподобия для в есть (0,99, 2,39).
Таблица 4.13.1
в	—log/, (в)	в	—log/, (9)
0,9	11,78	1,8	8,80
1,0	10,83	1,9	9,09
1,1	10,09	2,0	9,37
1,2	9,54	2,1	9,71
1,3	9,14	2,2	10,11
1,4	8,88	2,3	10,57
1,5	8,73	2,4	11,08
1,6	8,69	2,5	11,63
1,7	8,74	2,6	12,24
г)	Интервалы правдоподобия для 0 и g(0). Из свойства инвариантности [см. пример 4.13.2] следует, что если (0/5 0М) есть 100р%-ный интервал правдоподобия для 0 при данных наблюдениях, то 100р%-ным интервалом правдоподобия для величины ф = g(0) при тех же наблюдениях будет (ф/, фи), где ф1 = g(0z) и фи = g(0M). (Здесь g(0) — любая взаимно однозначная функция 0.) Так, если в примере 4.13.2 10%-ный интервал правдоподобия для среднеквадратического отклонения о есть (1,2, 2,2), то соответствующий интервал для дисперсии ст2 есть (1,44, 4,84).
207
4.13.3.	СИТУАЦИЯ С ДВУМЯ ПАРАМЕТРАМИ
Определение правдоподобия [см. определение 4.13.1] может быть обобщено на случай с несколькими параметрами, например с двумя, скажем, и 02. Символ 0 в определении 4.13.1 будем толковать как обозначение вектора (0Ь 02).
Пример 4.13.6. Нормальное распределение с двумя неизвестными параметрами. Пусть X — величина, распределенная по нормальному закону со средним g и дисперсией v. Правдоподобие /(g, v) пары (g, v) при данных Xi, х2, ..., х„ пропорционально
v_"/2exp [—Е (Xj — fi)2/2v] =
= v~"/2exp[ — ^[L(xj — x)2 + n(x — g)2]] =
= V n/1 exp — [a + n(fi — X )2] ,
где
a = E(x7 — x)2 - (w — l)s2 и n
X = EX:/n.
1 J
Рассмотрим случай, когда n = 10, x = 10, a = 20. Тогда логарифмическим правдоподобием будет
log/(pc, V) = — у n logv — у; — (g — X )2 -
, ,	10	5(д — 10)2
= —5 logv------— —---------- .
°	V	V
Рис. 6.2.4 изображает линии уровня этой поверхности. Рис. 6.2.5 показывает ее рельеф.
Аналогом 10%-ного интервала правдоподобия из раздела 4.13.2, в) будет 10%-ная область правдоподобия, отмеченная на рис. 4.13.4 как 0,1/тах. Уровень логарифмического правдоподобия этой области будет, конечно, log/max — loge10. По соглашению, соответствующему 10%-ному уровню, все пары значений (g, v) внутри области будут рассматриваться как правдоподобные, а вне ее — как неправдоподобные. 208
4.14.	БАЙЕСОВСКИЕ ИНТЕРВАЛЫ
С байесовской точки зрения [см. гл. 15] персональная оценка вероятности любого утверждения есть рациональная мера доверия к этому утверждению. Назначение вероятности каждому интервалу из множества Q возможных значений параметра равносильно взгляду на этот параметр как на случайную величину в том смысле, что вероятностные утверждения относительно этого параметра наиболее удобно могут высказываться в терминах его распределения вероятностей. Если назначение таких вероятностей происходит на основе знаний о параметре, имеющихся до проведения эксперимента, это приводит к концепции априорного распределения параметра с п.р.в., скажем, g\(0). Наблюдения (х,, х2, ...,х„), получаемые в ходе эксперимента, приводят затем к функциям правдоподобия £(0; хь х2, хп), определенной в разделе 4.13.1, и уточненные знания исследователя относительно 0 выражаются в терминах апостериорной п.р.в. g2(0 | Xi, х2, ..., хп), которая есть условное распределение [см. II, раздел 6.5] 0 при данных наблюдениях. По теореме Байеса [см. гл. 15] имеем
gi(0 | хь х2, ..., хп) = Agx(0)l{0-, хь х2, ..., хп), 0 € Q,
где А — нормирующая константа.
Так мы получаем для возможных значений 0 вероятностное распределение. В качестве оценки 0 мы можем выбрать либо моду (то значение, которое максимизирует апостериорную плотность распределения), либо математическое ожидание \0g2(0 \ х}, х2, xn)d0, либо значение, минимизирующее подходящую функцию потерь, и т. д. [см. гл. 15]. Неопределенность нашей оценки может быть выражена в терминах интервалов вероятности [см. раздел 4.1.3].
4.15.	ЛИТЕРАТУРА ДЛЯ ДАЛЬНЕЙШЕГО ЧТЕНИЯ
Работы, на которые мы ссылались в разделе 3.6, вновь рекомендуются здесь. Применение функции правдоподобия рассмотрено в работе [Kalbfleisch (1979) — С], а байесовский подход — в работе [Lindley (1965) — С]. Ниже приведена литература, которую мы рекомендуем для усвоения материала этой главы.
209
ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА
В 1 у t h С.	R.	and Hutchinson	D. W.	(1960). Thbles	of	Neyman-shortest
Unbiased Confidence Intervals for the Binomial Parameter, Biometrika 47, 381.
В 1 у t h C.	R.	and Hutchinson	D. W.	(1961). • Thbles	of	Neyman-shortest
Unbiased Confidence Intervals for the Poisson Parameter, Biometrika 48, 191.
С 1 о p per	C.	J. and Pearson E. S.	(1934).	The Use of Confidence or Fiducial
Limits Illustrated	in	the Case of a Binomial, Biometrika 26, 404.
Crow E. L. and Gardner R.S. (1959). Thble of Confidence Limits for the Expectation of a Poisson Variables, Biometrika 46, 441.
E u d e у M. W. (1949). On the Treatment of Discontinuous Random Variables, Technical Report, No. 13, Statistical Laboratory, University of California, Berkeley.
Garwood F. (1936) Fiducial Limits for the Poisson Distribution, Biometrika 28, 437.
Crow E. L. (1956). Table for Determining Confidence Intervals for a Proposition in Binomial Sampling, Biometrika 43, 423.
Pearson E. £. (1950). On Questions Raised by the Combination of Tests Based on Discontinuous Distributions, Biometrika 37, 383.
Sc h e f f ё H. (1953). A Method for Judging all Contrasts in the Analysis of Variance, Biometrika 40, 87.
Scheff^ H. (1970). Multiple Testing Versus Multiple Estimation. Improper Confidence Sets..., Anais, of Math Statistics 41, 1.
Stevens W. L. (1950). Fiducial Limits of the Parameter of a Discontinuous Random Variable, Biometrika 37, 117.
Tocher K. D. (1950). Extension of Neyman-Pearson Theory- of Testing Hypothesis to Discontinuous Variables, Biometrika 37, 130.
Глава 5
СТАТИСТИЧЕСКИЕ КРИТЕРИИ
5.1.	ЧТО ТАКОЕ КРИТЕРИЙ ЗНАЧИМОСТИ?
Критерии значимости (критерии проверки гипотез, иногда — просто тесты) — это, возможно, простейшие, но, конечно, наиболее широко используемые статистические средства. Обширна литература по этой тематике, но сколько-нибудь подробный обзор в подобной книге был бы неуместен. Мы ограничимся введением в основные понятия, несколькими иллюстративными примерами и изложением наиболее употребительных критериев. Другие, столь же общие критерии описываются в последующих главах при изложении соответствующих тем: например, используемые обычно в связи с дисперсионным анализом критерии рассмотрены в гл. 8 и 10. В настоящей главе лишь кратко упоминаются последовательные критерии, свободные от распределения критерии и критерии согласия, так как именно этим темам посвящены последующие главы.
Критерий значимости дает возможность статистику найти разумный ответ на вопрос, подобный следующему. В двух образцах стали, из которых один произведен методом А, а другой — методом В, средние пределы прочности неодинаковы. Указывает ли это обстоятельство на то, что производимая разными методами сталь различается по прочности, или же выявленное различие можно просто объяснить выборочными флуктуациями?
В этом примере поставлен вопрос, превосходит ли по прочности одна партия стали другую. Можно также задавать вопросы типа: «Превосходит ли по эффективности одно противогриппозное средство другое?», «Способствует ли отказ от курения снижению вероятности раковых заболеваний?», «Превосходит ли по воздействию одно удобрение другое при выращивании овощей?» и т. д.
В следующем разделе обсуждаются простые критерии проверки столь общих гипотез.
5.2.	ВВЕДЕНИЕ В КРИТЕРИИ ПРОВЕРКИ ПРОСТОЙ НУЛЕВОЙ ГИПОТЕЗЫ ДЛЯ ДИСКРЕТНЫХ РАСПРЕДЕЛЕНИЙ
В этом разделе вводятся основные понятия, относящиеся к простым критериям для дискретных распределений. Блестящее изложение этой темы содержится в [Kalbfleisch (1979) — С].
Непрерывные распределения обсуждаются в разделах 5.2.5 и 5.8.
211
5.2.1.	ДВУХСТОРОННИЙ БИНОМИАЛЬНЫЙ КРИТЕРИЙ. СОСТАВНЫЕ ЧАСТИ, ПРОЦЕДУРА И ИНТЕРПРЕТАЦИЯ
В следующем примере описан простой критерий, иллюстрирующий общий подход и основные понятия. В частности, вводятся ключевые понятия области значимости и уровня значимости. Рассмотрим исследование, в котором проводится сравнение частоты рождения мальчиков в индейских семьях английского города, в котором значительную долю населения составляют выходцы из Вест-Индии. Средняя частота по Великобритании составляет 52%. Исходные данные представляют собой упорядоченный по датам список всех новорожденных в индейских семьях за исследуемый год.
а)	Вероятностная модель. Выбор подходящей вероятностной модели — это первый шаг при построении критерия. Мы примем простейшую возможную модель, а именно такую, когда рождения считаются взаимно независимыми испытаниями Бернулли [см. II, раздел 5.2.1], каждое из которых с одной и той же вероятностью, скажем р, приводит *к рождению мальчика. Для настоящего критерия эта модель в дальнейшем сомнению не подвергается. (Открытыми остаются такие вопросы, как возможность более частого появления новорожденных мальчиков у одной из возрастных групп матерей по сравнению с прочими, которые и сами могли бы составить содержание отдельного исследования; однако поскольку такая модель непосредственно не связана с критерием, то она и не обсуждается.)
Для формального описания модели пусть хг обозначает пол г-го ребенка, появившегося в последовательности п данных, причем для мальчика хг=1, а для девочки хг=0, так что обозначает общую численность мальчиков в выборке. Тогда при r= 1, 2,...,л значение хг представляет собой реализацию случайной величины Хг, имеющей распределение Бернулли [см. II, раздел 5.2.1]:
р(Л',=лг)=А1-/->)Ьл.
xr=0; 1,
а совместное распределение данных описывается формулой п
Р(Х=х, г=1, 2....п) =
'	'	г= 1
Ex_z, ,п—
=Р Г(\—Р)
б)	Сокращение данных. Статистика критерия. Работать одновременно с п составными частями информации неудобно. Стоит свести их в одну статистику, в связи с чем мы заменим исходную вероятностную модель, приведенную в п. а), сокращенной версией, а именно выборочным распределением этой статистики. Наиболее эффективное сокращение данных осуществляется с помощью достаточной для интересующего нас параметра (р) статистики, поскольку при таком сокращении информация не теряется. В нашей ситуации подходящей достаточной статистикой служит Ь0 = ^хг, т. е. зарегистрированная 212
численность мальчиков. Ее выборочное распределение, т. е. распределение соответствующей случайной величины В, реализацией которой и оказывается Ьо, имеет вид [см. II, раздел 5.2.2]
Р(В=Ь) = фрь(Д-р)п-ь,
(5.2.1) Ь=0, 1,...,и.
в)	Нулевая гипотеза, нулевое распределение. Нужно ответить на вопрос: отличается ли величина р от среднего по Великобритании значения 0,52? Предпочтительнее иная формулировка этого вопроса, при которой он звучит так: согласованы ли данные с предположением, что р=0,52? Чтобы ответить на него, примем рабочую гипотезу, что величина р равна именно 0,52. Это предположение и называется нулевой гипотезой и обозначается так:
Н: р=0,52.	(5.2.2)
Совместное распределение величин Хг, обусловленное этим предположением, получается, если подставить такое значение р в соотношение (5.2.1), что приводит к нулевому распределению Хг или распределению Хг при нулевой гипотезе Н, т. е.
Р(Хг=хп г=1, 2,...,я|Я>(0,52)^(0,48)л~Е\ Ехг=0, 1,...,л.
Нулевое распределёние статистики критерия получится, если взять (5.2.1) при отвечающем нулевой гипотезе значении р=0,52, т. е.
Р(В=Ь\Н) = $ ) (0,52)*(0,48)"-*,
(5.2.3) Ь=д, 1,...,л,
в нашем случае при п = 20.
В основе критерия лежит такая идея: если нулевая гипотеза и данные согласованы с довольно высокой степенью правдоподобия (в определяемом ниже смысле), то мы считаем, что она подтверждается данными; в противном же случае мы считаем, что гипотеза не согласована с данными, т. е. данные значимо отклоняются от гипотезы. То, что понимается под выражением «достаточно (или недостаточно) высокая степень правдоподобия», обсуждается ниже в п. д) и е).
В настоящем примере нулевая гипотеза оказывается простой: при ней значение параметра становится точно известным. (В пример входит только один параметр. При построении более «хитрых» критериев могли бы встретиться несколько параметров [см. раздел 8.3.3]. Тогда нулевая гипотеза называется простой, если она определяет значение всех параметров.)
Приведем пример критерия, для которого нулевая гипотеза сложная. Среди «1 новорожденных у матерей в возрасте 20—25 лет — Ь\ мальчиков, а среди новорожденных у матерей в возрасте 30—35 лет — Ьг мальчиков. Нужно проверить значимость различия частот Ь\/п\ и Ьг/п2. В этом случае нулевая гипотеза предполагает, что вероятность рождения мальчика одинакова для обеих групп. Однако это общее для обеих групп значение вероятности не определяется нулевой гипотезой, так что она не будет «простой». Этот и ему подобные критерии обсуждаются в разделе 5.4.1.
213
г)	Альтернативная гипотеза. Цель критерия в том, чтобы усмотреть, можно ли считать данные согласованными с нулевой гипотезой или же они настолько сильно расходятся с ней, что даже опровергают ее. При этом важно знать, какое расхождение считать умеренным. В настоящем примере против Н можно выдвинуть так называемую альтернативную гипотезу вида
Н'р #0,52.
Таким образом, гипотеза Н отвергается для тех данных, в которых доля мальчиков существенно выше или существенно ниже, чем 0,52. В этом случае критерий называют двусторонним. (Пример одностороннего критерия приведен в разделе 5.2.3.)
д)	Согласованность выборки с гипотезой Н. Исходный вопрос о согласованности л(=20) наблюдений с нулевой гипотезой (5.2.2) теперь можно заменить эквивалентным — о согласованности наблюденного значения д0(=5) с нулевым распределением (5.2.3). Это распределение унимодально, и для него близкая к центру область имеет высокую вероятность, тогда как его. хвосты — это области малой вероятности. Если значение В попало в имеющую высокую вероятность область, когда гипотеза Н на самом деле верна, то можно заключить, что выборка явно не опровергает гипотезу Н: она согласуется с Н. Однако если наблюдается крайнее, практически невероятное при Н значение Ъо, то это следует считать явным расхождением с Н.
Представленное здесь рассуждение — это обычное доказательство от противного в аристотелевой логике. В соответствии с ней, если из А следует В, то из не-В следует не-А для произвольных высказываний А и В. Статистический вариант этого принципа таков: если В — вероятностное следствие А, то не-А будет вероятностным следствием не-В. Возьмем в качестве суждения А высказывание «17 верна», а в качестве суждения В — «наблюденное значение Ь, вероятно, будет близким к моде нулевого распределения». Тогда статистический «закон исключенного третьего», или «принцип рассуждения от противного», утверждает, что гипотеза, вероятно, не верна, если наблюденное значение b удалено от моды нулевого распределения. Неясно только, какое крайнее значение b достаточно для отклонения гипотезы Н. Из вида исходного примера можно понять, что гипотеза Н отклоняется или для очень больших (близких к п) значений Ьо, или для очень малых (близких к нулю): критерий должен быть «двусторонним». Непонятно, однако, какие именно значения считать очень большими или очень малыми.
е)	Области значимости, уровень значимости (вероятность значимости). Критическая область. Есть немало привлекательных подходов к определению значимости данного значения Ьо для отклонения Н. В качестве первой попытки можно было бы считать Ьо значимым в этом смысле, если вероятность Р(В=Ь0\Н) [обозначения см. в разделе 1.4.2] мала. Здесь, однако, возникает сложная ситуация: при достаточно большом объеме выборки вероятность Р(В=Ь\Н) обязательно 214
будет мала, каково бы ни было значение Ь. Следовательно, надо заменить вероятность одной точки Р(В=Ь\Н) эквивалентной мерой, которая стандартизована таким образом, что позволяет избежать осложнений. Добиться этого можно различными способами. Обычный путь состоит в том, что решение основывают на вероятности, которую Н приписывает специальному множеству возможных значений статистики критерия В, причем это множество выбирают так, что когда Н верна, то и его вероятность мала. Искомое множество состоит из всех значений, которые в известном смысле (см. ниже) еще более крайние, чем фактическое Ьо. Это множество называется областью значимости G(b0), а используемая для измерения значимости Ьо при отклонении гипотезы Н величина — это уровень значимости SL (Significance level), или SL(b0), определенный как вероятность принадлежности множеству области значимости, вычисленная в предположении, что справедлива нулевая гипотеза, т. е.
SL(bo) = P{B€G(6o)|//).	(5.2.4)
Так определенный уровень значимости называют еще вероятностью значимости выборок, чтобы отличить от близкого понятия, используемого при подходе Неймана—Пирсона. Этот подход к проверке гипотез связан с теорией принятия решений. Он излагается в разделе 5.12.
Общая концепция, которую мы будем развивать, состоит в том, что выборка согласуется с нулевой гипотезой Н, когда вероятность значимости в определенном смысле велика, и не согласуется, когда эта вероятность мала [см. раздел 5.2.2].
Критическая область. Следует отметить, что специалисты по прикладной статистике часто не определяют область значимости и уровень значимости, отвечающий их данным. Вместо этого они находят условное множество значимости, которое при фактических наблюдениях имеет довольно низкий уровень значимости а (например, а=0,02) и тем самым обеспечивает высокую условную надежность отклонения (1—а) нулевой гипотезы [см. раздел 5.2.1, з]. Это условное множество значимости называется критической областью размера а. Вместо определения фактического уровня значимости своей выборки приверженцы такого подхода проверяют, не попадает ли статистика их критерия в критическую область. Если попадает, то говорят, что выборка на уровне а значима, а нулевая гипотеза отклоняется на уровне а; в противном случае говорят, что выборка на уровне а не значима.
Этот подход будет подробнее изложен в разделе 5.12.
Какие значения будут не менее крайними, чем Ьо? Определение области значимости осмысленно только тогда, когда разъяснена фраза «не менее крайние, чем». Для того чтобы осознать нетривиальность этого, предположим, что Ьо меньше, чем ожидаемое при Н значение. Например, при р=0,52 и п=20 ожидаемое значение равно 10,4, а наблюденное значение Ь=5 меньше его. Возможные значения, столь же или более крайние, чем 5, но меньшие (в том смысле, что они находятся на «нижнем хвосте») — это 5, 4, 3, 2, 1,0. Каково же соответствующее
215
множество на «верхнем хвосте»? Иначе говоря, как можно определить, что наблюдение Ь', которое больше, чем ожидаемое значение 10,4, столь же далеко (как большое наблюдение), сколь и b (но рассматриваемое как малое наблюдение)? Применяются такие методы.
Упорядочение по расстоянию. При таком подходе «большое» значение Ь\>Е(В\Н)) и «малое» b{<E(E\iI)) в равной степени значимы, если они одинаково отстоят от Е(В\Н)\ величины, отстоящие от Е(В\Н) дальше, чем любое из них, конечно, более значимы. Здесь Е(В\Н) обозначает математическое ожидание В при гипотезе Н, т. е. среднее ожидаемое значение распределения (5.2.3). Проблема сравнения обоих хвостов получает решение при следующем определении области значимости, порожденной наблюдением Ьо:
G(b.)= {b:\b—E(B\H)\ >\b0—E(B\H)\},
так что уровень значимости наблюдения Ьо равен
SL(bJ = P{B£G(b0)\H] =Р[[\В-Е(В\Н)\^Ь0-Е(В\Н)\]Н]. (5.2.5)
Участвующие в этом вычислении точки распределения В показаны на рис. 5.2.1.
Таким образом, если среди 20 новорожденных оказалось 5 мальчиков, г при нулевой гипотезе случайная величина В подчиняется биномиальному распределению Bin (20, 0,52) с пэпаметрами (20, 0,52), то Е(В|/7) = 10,4, а уровень значимости данных составляет
SL = P[{|B—10,4|>|5-10,4|}|77] = Р[{|В—10,4|>5,4}|//] = ^Р{В^5\Н]+Р{В>15,8\Н]=Р{В^5\Н}+Р{В>1Ь\Н] (5-2-6)
(см. рис. 5.2.1).
Из таблиц биномиального распределения [см. Приложение (Т1)] находим SL = 0,023.
Упорядочение по вероятности. Предположим вначале, что наблюдение Ьо случайной величины В «мало» в том смысле, что Ьо<Е{В\Н) (в представленном на рис. 5.2.1 примере b0 = 5, а Е (В|/7)=10,4, т. е. &о = 5 «мало»). При связанном с упорядочением по вероятности подходе значение Ьо сопоставляют с имеющим такую же вероятность, но «большим» значением Ь'о, если понимать «большое» в том смысле, что Ь'0>Е(В\Н), а равенство вероятностей рассматривают как условие
Р{В=Ь^\Н)=Р{В=Ь0\Н).
Может, однако, случиться, что при таком возможном значении Ьо точное равенство вероятностей не достигается. В нашем примере при &о = 5, когда при гипотезе Н распределение В оказывается биномиальным с параметрами (20, 0,52), возникает такая ситуация:
*0 (на нижнем хвосте)	*0 (на верхнем хвосте)
Р(В=Ь0\Н)=0,00975	Р(В=15|/7)=О,02171 (>0,00975) Р(В=16|Я)=0,00735 (< 0,00975)
216
О
Наблюденное значение
9 10fl1
20
10,4 = = Е(В|Н)
Расстояние
5,4
5 6
Расстояние 5Л
"Равноотстоящая точка 15,8
Рис. 5.2.1. При гипотезе Н случайная величина В подчиняется биномиальному распределению с параметрами (20, 0,52), так что £’(В|/7) = 10,4. Значение 5 находится ниже Е(В\Н) на расстоянии 10,4—5=5,4. «Равноотстоящая» точка выше Е(В\Н} — это 10,4+5,4=15,8. Ближайшей к ней возможной реализацией, столь же крайней (или критической), как 5, служит 16. Множество точек, не менее крайних (или критических), чем наблюденное значение, — это (0,1,...,5) U (16,17,...,20).
Поэтому 15 — слишком малое, а 16 — слишком большое из возможных значений Ь'о, равновероятных с Ьо (см. рис. 5.2.2). В таком случае требование равенства вероятностей при Н значений Ьо и Ьо заменяется условием, что Ьо — наименьшее целое число, для которого
Р(В = Ь'о\Н) < Р(В= Ьо\Н).	(5.2.7)
В рассматриваемом примере это приводит к значению &о = 16.
Порожденная наблюдением Ьо область значимости — это
G(b0)= {Ь’.Ь^ЬоПЛИ Ь^Ьо],
а уровень значимости наблюдения Ьо равен
SL=P(B^bo\H)+P(B^bo\H).
В нашем примере, когда из 20 новорожденных только 5 мальчиков, уровень значимости составляет
Р(В<5|Н)+Р(Р^16|Я)=0,023.
(Описанная процедура применима, когда наблюдение Ьо «мало». Если же оно «велико», то используется очевидная модификация.)
В этом примере величина SL одна и та же как при подходе, основанном на расстояниях, так и при подходе с применением «наименьших вероятностей». На самом деле оба подхода всегда приводят к одинаковым результатам, если нулевое распределение симметрично, и к почти одинаковым, когда нулевое распределение «почти» симметрично; различие возникает, только когда нулевое распределение имеет заметную асимметрию. В такой ситуации предпочтительнее упорядочение по вероятности.
217
0,02171
0,00975
0,00795
0	1	... 4	5	6
"I	I	I
14	15 16 17 ... 20
Рис. 5.2.2. Часть биномиального распределения вероятностей с параметрами (20, 0,52), для которой Р(В=5)=0,00975
Упорядочение с помощью отношения правдоподобия. Для статистики критерия Ьо, представляющей собой реализацию биномиально распределенной случайной величины В с параметрами (п, р), функция правдоподобия для р [см. раздел 4.13.1] пропорциональна
1(р) = Рй°( 1 —р)п~Ьй.
В нашем случае Ъо = 5, а л=20, так что
1(р)=р\\-рГ,
а гипотеза Н состоит в том, что р=рн=0,52 и
/н=РМ1-Ря)15 = (0.52)5(0,48)>\
Когда р пробегает всю область (0^р^1), а величина Ьо фиксирована, максимум 1(р) достигается, если р принимает «наиболее правдоподобное» значение p=b0/n{=5/2Q=Q,25). Этот максимум равен:
Zmax = (O,25)5(O,75)15.
Отношение
X=zyzmax	(5.2.8)
называется статистикой отношения правдоподобия. Ее значение для нашего примера равно
Х=(0,52/0,25)5(0,48/0,75)15 = 0,048.
При произвольном значении b случайной величины В статистика отношения правдоподобия принимает значение, скажем, Х(Ь), равное
X=№) ^р^-РнУ-"/ ("~=^	) = (np„/i)» ((п-прнУ(п-Ь))
так что, когда л = 20, а ря=0,52, имеем
При основанном на отношении правдоподобия упорядочении значение b будет «более крайним» по сравнению с Ьо, если
\(b)<\(bo),
откуда область значимости — это
G(bo)={b:\(b)^\(bo)},
218
а уровень значимости равен
SLfb^PlBtGfbo)}.
(Это придает точную форму той мысли, что ожидаемое значение X должно быть большим, т. е. близким к единице, когда гипотеза Н верна, и малым, если Н неверна.)
Для удобства вычислений \(Ь) обычно заменяют на d(b)=—2\n\(b), и в этом случае областью значимости служит множество G^=W>W}.
В нашем примере возможные значения b и соответствующие значения d(b) связаны соотношением
d(b)=2Ып/7?/ пр^+2(п—Ь)\п {(п—Ь)/(п—прн)} = = 2dln(Z>/10,4) + 2(20—ft)ln(^=^-).
ь	dfb)	ь	dfb)	b	dfb)
0	29	7	2,з	14	2,7
1	21	8	1,2	15	4,5
2	16	9	0,4	16	6,8
3	12	10	0,03	17	10
4	8,7	11	0,07	18	14
5	6,1	12	0,5	19	18
6	4,0	13	1,4	20	26
Наблюденное значение b0 = 5, a cf(5)=6,l. Меньшцм значениям 4, 3, 2, 1,0, отвечают значения d, не превосходящие 6,1; то же относится и к значениям 16, 17, 18, 19, 20. Таким образом, область значимости
G(5) = {0, 1, 2, 3, 4, 5, 16, 17, 18, 19, 20}= [b:b^5 или b> 16}.
Уровень значимости составляет
8Ь(5)=Р{В^5\Н}+Р{В>ЩН}.
Область значимости совпала с полученной при упорядочении по вероятности, а потому и критерий имеет тот же уровень значимости, т. е. 0,023. Это типичное явление для простых критериев такого вида. На самом деле метод отношения правдоподобия рассчитан на более сложные ситуации, в особенности на содержащие более одного параметра [см. раздел 5.5].
ж)	Интерпретация уровня значимости. Степень доверия. В нашем числовом примере (5 из 20 новорожденных — мальчики) мы нашли, что SL=0,023. Как следует расценить это с точки зрения подтверждения или отклонения согласия данных с нулевой гипотезой
219
(5.2.2), в силу которой доля мальчиков среди всех выбранных новорожденных равна среднему по Великобритании значению 0,52? Если мы скажем, что это во многом — вопрос соглашения, наш ответ, возможно, вызовет разочарование. Однако на интуитивном уровне можно применить следующие рассуждения [см. раздел 5.3]. Если нулевая гипотеза Н верна, то неправдоподобно, что полученное значение статистики критерия заметно отличается от ожидаемого значения. Но, конечно, даже когда гипотеза Н верна, может оказаться, что в каком-то частном случае статистика критерия заметно отличается от своего математического ожидания; при этом уровень значимости будет мал. Однако и вероятность такого события тоже невелика. На самом деле при любом а вероятность получить уровень значимости, не превосходящий а, в точности равна а. Более строго [см. раздел 5.3], когда Н верна, то
P(SL^a) = a.	(5.2.9)
Поэтому только в одном случае из тысячи значение SL окажется не более 0,001, когда верна гипотеза Н. Эта вероятность крайне мала. Разумно поэтому считать уровень значимости 0,001 достаточным доводом против принятия Н. В силу подобных причин на практике принята интерпретация уровней значимости в соответствии с приведенной ниже табл. 5.2.1. Из нее видно, что полученный в нашем числовом примере (5 мальчиков из 20 новорожденных) уровень значимости 2,3% достаточно низок, так что можно, не сомневаясь, отклонить нулевую гипотезу.
Если бы численность мальчиков составила для выборки 7, то основанный на подходе «равных расстояний» уровень значимости j\ оказался бы
Р[( |В-10,4| > |7—10,4|} |Я] = Р{ |В—10,4| >3,4|Я) =
= Р{В^7\Н] + Р{В^13,8\Н} = Р{В^7\Н} +Р[В^14\Н} =0,178.
Столь большое значение SL следует интерпретировать как согласие данных с нулевой гипотезой.
з)	Степень недоверия. Отметим, что чем меньшее значение SL, тем сильнее это свидетельствует, в частности, против Н. Возможно, удобнее было бы принять прямое, а не косвенное измерение силы доводов против Н. Однако удобно это или нет, но уровень значимости слишком глубоко «укоренился», чтобы его можно было отбросить. Более того, с его помощью мы можем измерить то, что называется степенью недоверия к основной гипотезе Н. Она представляет собой дополнительную к уровню значимости величину:
степень недоверия к нулевой гипотезе Н~
= 1 — уровень значимости.	(5.2.10)
Близкий к нулю уровень значимости интерпретируется как близость степени недоверия к 1, т. е. как очень сильный довод против Н. Близкий же к единице уровень значимости показывает, что степень недоверия близка к нулю, т. е. доводы против Н слабы, что фактически указывает на согласие выборки с нулевой гипотезой.
220
5.2.2.	ТРАДИЦИОННАЯ ИНТЕРПРЕТАЦИЯ УРОВНЕЙ ЗНАЧИМОСТИ; ИСПОЛЬЗУЕМЫЕ НА ПРАКТИКЕ УРОВНИ ЗНАЧИМОСТИ;
КРИТИЧЕСКАЯ ОБЛАСТЬ
Традиционная интерпретация уровней значимости представлена в табл. 5.2.1. Это понятие обсуждается далее в разделе 5.3. Можно сказать, что эта схема отражает все оттенки возможного отношения к гипотезе со стороны статистика: от полной убежденности в ее ошибочности до признания того, что ясные доводы против нее вообще отсутствуют.
Т аблица 5.2.1. Традиционная интерпретация уровней значимости (SL)
SL	Интерпретация
>0,10	Данные согласуются с Н.
=0,05	Возможна значимость. Есть некоторые сомнения в истинное-
	ти Н.
=0,02	Значимость. Довольно сильный довод против Н.
=0,01	Высокая значимость. Гипотеза Н почти наверняка не под-
	тверж дается.
Обратные таблицы. Точное вычисление уровня значимости зависит от возможности получить детальную информацию о функции распределения статистики критерия при нулевой гипотезе (здесь «при» означает «вычисляется в предположении, что нулевая гипотеза верна». Такое сокращение применяется часто). Из-за полиграфических ограничений таблицы могут дать меньше сведений, чем нужно статистику. Наиболее распространенным средством сокращения занимаемого таблицами места служит обратная табуляция с помощью процентилей (процентных точек [см. раздел 1.4.2]).
Практический эффект применения обратных таблиц состоит в том, что когда точная интерполяция невозможна, нельзя строго определить и уровень значимости данных, так что вместо этого приходится оперировать с неравенствами типа «уровень значимости лежит между 2,5 и 5%». Это не так плохо, как кажется, поскольку чаще всего простейшая интерполяция позволяет найти приближение (например, SL = 3%), которое оказывается достаточно точным во многих случаях.
Данные, значимые на уровне р. К сожалению, специалисты, применяющие статистические методы, часто вместо того чтобы отметить, что уровень значимости их данных лежит между 2,5 и 5%, сообщают лишь о том, что он менее 5%. Для этого используется выражение «данные значимы на уровне 5%» (аналогично и для других уровней). Подчеркнем, что в такой формулировке оно означает следующее: уровень значимости данных не более, чем 0,05 [см. также раздел 5.10].
Критическая область. Со сказанным выше тесно связан следующий способ описания статистического критерия: указать те значения статистики критерия, при которых уровень значимости в точности равен 100р%, например для р=1; 2,5; 5. Тогда совокупность точек, образующих множество значимости [см. раздел 5.2.1, е)] для такого специального наблюдения называется критической 100рЧъ-ной областью или областью отклонения гипотезы [см. раздел 5.10].
221
5.2.3.	ОДНОСТОРОННИЙ БИНОМИАЛЬНЫЙ КРИТЕРИЙ
В одной деревне в течение 1980—1981 гг. большую долю новорожденных — 25 из 35 — составляли девочки. Это сочли необычным явлением: в прессе давались разнообразные объяснения. Одно из них напоминало, что окрестности богаты кадмием, возможно, в виде микроскопических пылинок из ближайших каменоломен. Воздействие кадмия на организм отца повышает вероятность того, что новорожденный ребенок будет девочкой. Для проверки гипотезы о кадмии нужно было бы применить критерий значимости. Как и в разделе 5.1.2, при разумной вероятностной модели отдельные рождения рассматриваются как взаимно независимые испытания, в каждом из которых вероятность появления девочки неизменна. Соответствующая нулевая гипотеза Н утверждает, что р=0,48 (среднее по стране). Альтернативная гипотеза здесь	гт „ 1п
Нс. р>0,48.
В данном примере вопрос о том, что р меньше 0,48, не представляет интереса.
Принимая, что вероятность рождения девочки равна р, вероятность появления последовательности У\, Уг,...уп новорожденных, где для девочки уг=1, а для мальчика уг=6, в выборке из п новорожденных составляет п
P(Yr=yr, г=1, 2...п)=	ПрУг(1-ру-Уг=р^г(\-р)п-^ =
=р8(1—р)п~8, g=0, 1,...,л.
Здесь Yr — случайная величина, реализацией которой служит уг, а g=Xyr — общее число девочек в выборке. С помощью соответствующей достаточной статистики g произведем сокращение данных. Выборочное распределение статистики [см. II, раздел 5.2.2] имеет вид:
P(G=g) = (g)pS(i-p)n-g, g=0, 1...п.
При нулевой гипотезе распределение G задается формулой P(G=g\H„) = (2 )(0,48«0,52)”-г.
Поскольку мы интересуемся лишь тем, превосходит ли р значение 0,48, и этот вопрос возникает исключительно в связи с выборками, в которых число девочек не меньше ожидаемого значения G при Но (т. е. 0,48л), уровень значимости полученного значения g будет равен
SL=P{G>g\H0}.
Здесь не обязательно заботиться о нижнем хвосте распределения, и мы избегаем осложнений, описанных в разделе 5.2.2, е).
Для значений п и g (л = 35, g=25) уровень значимости равен:
35 /35\
Е 0 )(0,48)г(0,52)35-'=0,004.
Г=25
Эта вероятность очень мала, так что данные нужно считать весьма значимыми. Доводы против Но очень сильны. (Конечно же, нельзя считать, что это подтверждает гипотезу о влиянии кадмия*.)
* Приведенное рассуждение — только иллюстрация технического приема. Его нельзя считать серьезным обсуждением вопроса о влиянии внешних условий на вероятность рождения мальчиков и девочек. Среди большого числа деревень Англии непременно должны найтись такие, в которых в отдельные периоды соотношение полов среди новорожденных значительно отличается от 0,52:0,48. Поэтому первой реакцией на сообщение, которым открывается этот раздел, были предположения о случайных флуктуациях. Простейший способ решить, так ли это, — обратиться к статистике рождений за следующие годы. Если там будут отмечены значимые отклонения, тогда можно будет говорить об их неслучайном характере.—Примеч. ред.
222
5.2.4.	КРИТЕРИИ О РАСПРЕДЕЛЕНИИ ПУАССОНА
Односторонние и двухсторонние критерии для проверки возможных отклонений параметра пуассоновского распределения от его гипотетического значения в принципе не отличаются от биномиальных критериев, описанных в разделах 5.2.2 и 5.2.4.
Рассмотрим эксперимент, в котором надо проверить, значимо ли превышает доля дефектной продукции в партии из п изделий требуемую норму 2%, если выборка объема 100 изделий из этой партии содержит 4 дефектных изделия. При нулевой гипотезе, согласно которой фактическая доля дефектных изделий равна 2®7о, число D дефектных изделий в выборке будет подчиняться гипергеометрическому распределению, в данном случае довольно хорошо аппроксимируемому [см. II, раздел 5.5] распределением Пуассона
P(D-r)=e~x\r/r\, r=0, 1,...
при Х=2. Здесь нужен односторонний критерий, так что уровень значимости данных равен:
SL=P(D^\H0)=P{D>4\D
подчиняется распределению Пуассона с параметром 2} =0,143 (из таблиц распределения Пуассона [см. приложение 2]). Это — большая вероятность. Результат не значим: данные согласуются с гипотезой относительно 2Q7o.
5.2.5.	КРИТЕРИИ ДЛЯ НЕПРЕРЫВНЫХ РАСПРЕДЕЛЕНИЙ
До сих пор мы обсуждали только критерии для параметров дискретных распределений. Аналогичные методы применяются и для непрерывных распределений.
Пример 5.2.1. Значимость коэффициента корреляции. Пусть г обозначает выборочный коэффициент корреляции [см. раздел 2.5.7], полученный по извлеченным из двумерного нормального распределения [см. II, раздел 13.4.6] парам наблюдений (хь ух),...,(хп, коэффициент корреляции q неизвестен; таким образом,
г= {^Xjy—ИХ у } /V(Ех2—лх 2)(Еу?— пу2), где х = Еху/л, у =Еуу/л. Если нужно проверить, указывает ли наблюденное значение г на действительную коррелированность данных, то соответствующая нулевая гипотеза имеет вид:
Н: е=0.
Достаточно большое по абсолютной величине значение г будет стремиться опровергнуть нулевую гипотезу. На вопрос «Насколько большое?» легче ответить с помощью преобразования
При нулевой гипотезе выборочное распределение этой статистики есть распределение Стьюдента с п—2 степенями свободы [см. раздел 2.7.5]. Большие абсолютные значения г отвечают большим абсолютным значениям /, а поскольку выборочное распределение t симметрич-
223
но относительно точки О [см. раздел 2.5.5], то приведенные в разделе 5.2.J, п. е) соображения применительно к непрерывному распределению позволяют определить уровень значимости следующим образом: SL = P(T>\t\)+P(T^— |/|)=
= 2Р(Т> |/|),
где Т подчиняется распределению Стьюдента с п—2 степенями свободы, a t вы-
числяется в соответствии с (5.2.11) по выборочному ко-Рис. 5.2.3. Хвостовые площади, относящие- эффициенту корреляции г.
ся к примеру 5.2.1	Например, Фишер отмеча-
ет, что выборочный коэффициент корреляции между годовым урожаем пшеницы и осенним уровнем дождей за 20 лет составил в Восточной Англии г=—0,629. Соответствующее значение t (вычисленное по формуле (5.2.11) при л = 20) оказалось равным —3,433. Уровень значимости составляет 2Р(Т18 >3,433), где индекс 18 указывает число степеней свободы [см. рис. 5.2.3]. К сожалению, доступные таблицы значений функции распределения Стьюдента представляют собой разновидность обратных таблиц [см. раздел 5.2.2], что не позволяет легко вычислить нужную вероятность. Вместо вероятностей в таблицах приведены значения t,
которые должны соответствовать наперед заданным уровням значимости. Например, таблица Фишера в книге «Statistical Methods for Research Workers» содержит значения t, отвечающие величинам SL=0,01, 0,02, 0,05, 0,1, 0,2(0,1) 0,9*. Для 18 степеней свободы ближайшее табулированное значение — отвечающее SL- 0,01 и составляющее 2,878. Отсюда следует, что /=3,433 отвечает значение SL, которое меньше 0,01. Конечно, это значимо [см. табл. 5.2.1]: доверие к нулевой гипотезе заметно подорвано, а существование корреляции можно считать установленным. В этом примере то, что мы не смогли точно определить уровень значимости (а ограничились неравенством SL<0,01), не привело к большим неприятностям. Однако если бы выборочный коэффициент корреляции г оказался равным 0,468, чему соответствует /=2,25, то таблица показала бы только, что SL лежит между 0,05 (значение, соответствующее /=2,101) и 0,02 (значение, соответствующее /=2,552). Такой результат можно было бы сформулировать так: «значимость на уровне 5%, но не на уровне 2%». Следует всегда иметь в виду, что подобное многословие обусловлено исключительно структурой публикуемых таблиц и, грубо говоря, эквивалентно высказыванию, что SL равен 0,03 или 0,04 (если провести допускаемые таблицами интерполяции).
* 0,2 (0,1) 0,9 — сокращенное обозначение массива чисел, заключенных в диапазоне от 0,2 до 0,9 с шагом 0,1.—Примеч. пер.
224
Еще один момент, на который необходимо обратить внимание пользователям таблиц: в некоторых их вариантах (как, например, упомянутая выше таблица Фишера) предполагается, что проверяется двухсторонняя гипотеза, и дается соответствующее значение SL, т. е. 2Р(Т> |/|), тогда как в других таблицах приводится односторонняя вероятность Р(Т>|/|). Пользователь должен быть уверен, что он правильно понимает, о какой таблице идет речь.
Критерии для нормальных выборок обсуждаются в разделе 5.8. Однако следующий пример достоин особого внимания.
Пример 5.2.2. Значимость различия между выборочными коэффициентами корреляции. Предположим, что по двум выборкам объемом Л] и п2, извлеченным из двумерных нормальных совокупностей [см. II, раздел 13.4.6], получены выборочные коэффициенты корреляции Г] и г2, причем Г1#гг- Указывает ли это на то, что коэффициенты корреляции pi и обеих совокупностей различны? Соответствующая нулевая гипотеза
Н: q2 = q2, и вопрос сводится к тому, достаточно ли велико значение |г]—г?|, чтобы отклонить ее. Мы снова обратимся к преобразованию: известно,
с высокой степенью точности можно считать реализациями нормально распределенных случайных величин с математическими ожиданиями
„	11	1 + б'
Г1 = —log-----,
2	1—Q2
J. 1 1 1 + б2 f2=±10g-------
2	1—q2
и дисперсиями 1/(И]—3) и 1/(л2—3) соответственно [см. раздел 2.7.3, б)]. Следовательно, при Н, т. е. при gn = q2, оказывается, что Zi—z2 будет реализацией нормально распределенной случайной величины с нулевым математическим ожиданием и дисперсией, равной примерно й)2={1/(Л1—3)+1/(л2—3)} [см. II, раздел 9.2]. Поэтому статистику Ui—z2)/o> можно считать наблюдением стандартной нормальной величины U [см. II, раздел 11.4.1]. Большие значения |zi—гг|/<» будут соответствовать неправдоподобным «хвостовым» значениям этого распределения, которые опровергают Но. При заданных Z\ и Z2 Уровень значимости равен:
SL=P(U> \Zi—Z2\/^+P(U< — |zi—Z2|/a?) = 27’(С7> |Zi— z2|/w),
* log — здесь и далее обозначает натуральный логарифм (по основанию е=2,718281828459045...), который часто в других изданиях обозначается как In.—Примеч. пер.
8 Заказ № 1123	225
если использовать соображения симметрии. Например, при г{=0,3, «1 = 10 и г2=0,6, л2 = 15 имеем Zi =0,31, z2=0,69, а o?=(l/7) + (l/12)= -0,226, так что о?=0,475 и |zi—z2|/<a=0,8, откуда
SL=2P((/> 0,8) = 0,42
из таблиц нормального распределения [см. приложение 4]. Эта вероятность большая. Различие между г, и г2 незначима. Поэтому здесь против нулевой гипотезы возражений не возникает.
5.2.6.	ВЫБОР СТАТИСТИКИ КРИТЕРИЯ
Ниже приводится пример, в котором статистика критерия подбирается более явно, чем в примерах 5.2.1 и 5.2.2.
Пример 5.2.3. Проверка гипотезы о параметре экспоненциального распределения. Предположим, что имеется п реализаций х2,...,хп экспоненциально распределенной случайной величины X [см. II, раздел 11.2] с плотностью f(x)=0~ve~x/e(x>0). Нужно проверить нулевую гипотезу Н, в соответствии с которой 0-во, против односторонней альтернативы 0>0О. Функция правдоподобия имеет вид 0-ле~Ч/0, откуда s=Exz оказывается достаточной статистикой для 0 [см. раздел 4.13.1]. Это наводит на мысль, что $ или подходящее преобразование статистики s можно было бы использовать в качестве статистики критерия. Выборочное математическое ожидание s равно «0, так что $ измеряется в тех же единицах, что и 0, a s/n (=х — среднее выборки) будет хорошей оценкой 0: при Н большие значения s/n неправдоподобны, но они более вероятны, когда справедлива альтернатива. Итак, х — подходящая статистика критерия.
Чтобы найти уровень значимости, нужно знать выборочное распределение х. Плотность выборочного распределения определяется формулой [см. раздел 2.4]
g(s)-sn-le-s,9/{6n(n—1)’, s>0.
Таблицы соответствующей функции распределения не всегда доступны, но случайная величина z=2s/6 имеет плотность
Л(г)=(тз)”-'^!/2/(2Г(л)),
т. е. подчиняются распределению хи-квадрат с 2п степенями свободы [см. II, раздел 11.2.2, 11.4.11]. Таблицы соответствующей функции распределения вполне доступны. (Здесь Г<«> = («—1)!) Уровень значимости SL среднего выборки х —s/n равен
SL=P(X^x\H) =
(где X обозначает случайную величину, индуцированную статистикой X )
= P(S>s|H) =
(где 5=пХ)
=р(^2пх/е0), при этом x^=2S70o подчиняется распределению хи-квадрат с 2п степенями свободы.
226
С очевидными изменениями эти принципы применимы, когда альтернатива имеет вид 0<6О. Предположим, например, что суммарная продолжительность работы 18 электрических лампочек (допустим, что продолжительность подчинена экспоненциальному распределению) с номинальным сроком эксплуатации 100 часов составила 1500 часов. Здесь значение параметра в при нулевой гипотезе 0О= 100, а уровень значимости равен:
Лх236^ 3000/100) = Р(х236^ 30).
Стандартные таблицы распределения хи-квадрат [см. приложение (6)] дают
Р(х36^28,7) = 0,80, Р(х23б^31,1)=О,7О,	(5.2.11а)
откуда
0,70<Р(Х236^30)<0,80, так что
0,20 <Р(х236< 30) <0,30.
В частности, уровень значимости превышает 0,20, следовательно, результаты не значимы. Данные не позволяют отвергнуть гипотезу, что средняя продолжительность работы лампочки равна 100 часам.
[В этом примере достаточны и неравенства (5.2.11а). Линейная интерполяция дала бы Р(х36<ЗО) = О,75. Однако если бы требовался более точный результат, то нужно было бы или воспользоваться более детальными таблицами, или применить подходящее преобразование, приводящее к случайной величине с более детально табулированным распределением. Наиболее известное из таких преобразований при р>30 [см. раздел 2.7.3, в)] дает следующее хорошее приближение с помощью стандартной нормально распределенной случайной величины U:
Ptfv>k) = P(U>u), где
и =	(5.2.12)
/2/(9р)	v ’
При f = 40 и Лг = 59,3, например, находим и= 1,956, так что обеспечиваемый приближением (5.2.12) уровень значимости равен 0,026. Точное же значение равно 0,025].
5.3.	КРИТЕРИИ ДЛЯ ПРОВЕРКИ ГИПОТЕЗ
Главное требование к качеству критерия состоит в том, чтобы он по возможности не отвергал истинную гипотезу, но зато с большой вероятностью отвергал бы ложную. До сих пор мы интуитивно верили, что наши критерии именно так и ведут себя. В этом разделе обсуждается объективное обоснование процедуры и уточняется, в каком смысле можно говорить, что один критерий превосходит другой.
227
5.3.1.	ФУНКЦИЯ ЧУВСТВИТЕЛЬНОСТИ
Чтобы не усложнять изложение материала математическими подробностями, сосредоточим внимание на простой ситуации, когда имеется вектор х=(х\, х2,...,хп) независимых наблюдений хг распределенной нормально с параметрами (в, 1) случайной величины, для которой проверяется нулевая гипотеза
Я(О):0-О	(5.3.1)
против односторонней альтернативы 0>О. В этом примере возьмем среднее выборки х0 в качестве статистики критерия, а областью значимости будет служить совокупность G(xb) возможных значений среднего выборки, превышающих наше значение х0:
G(^) = {х: Е хг^пх0],	(5.3.2)
где вектор х представляет выборку. Уровень значимости (скажем, Zo) статистики х0, как и в (5.2.4), равен
Zo = SL(xo)=P{X €G(^)|/7(0)] =Р{Х >Ло|% нормальна
с параметрами (0,1/7л)}.	(5.3.3)
Здесь X обозначает случайную величину, индуцированную выборочным средним; она нормально распределена с параметрами (0, где 0=Е(Х), а при Н(0) и 0=0. В результате получаем
Zo=SL(xo)=1 -Ф(х07й),	(5.3.4)
где Ф, как обычно, обозначает функцию стандартного нормального распределения [см. II, раздел 11.4.1]. Этот уровень значимости полностью определяется статистикой х&Гп, поэтому и сам он оказывается статистикой; мы подчеркнем это обстоятельство, называя его при необходимости статистикой уровня значимости. Сама же статистика представляет собой реализацию случайной величины уровня значимости Z=SL(X), т. е.	_	_г_
Z=SL(%)=1—Ф(Х7й).	(5.3.5)
Нелишне отметить, что хотя уровень значимости Zo статистики х0 по определению равен вероятности, вычисленной в предположении справедливости нулевой гипотезы
Я(0): £(.¥)=О
[см. (5.3.3)], выборочное распределение Zo, т. е. распределение Z, зависит от истинного (неизвестного) значения (скажем, 0) математического ожидания Е(Х). Это распределение (посредством функции распределения) определяется как
P(Z^z|0)=Q(z, 0)
(O^z^l).
Когда 0=0, т. е. верна нулевая гипотеза, имеем
_ Q(z, 0>P(Z^z|0) =
= Р{ 1—Ф(Х <л)	Ф(Х <л) > 1 —z|EW=0 ] =
=P{XJn>u(z)\E(X)=Q} = \—Ф(и(гЛ	[см. (5.3.5)]
(здесь Ф(м(гЛ = l-~z) =
228
(так как XFn при Е(Л)=О распределена по стандартному нормальному закону)
= Z O^z^l-	(5.3.6)
Таким образом, когда верна гипотеза Н(0), уровень значимости имеет равномерное на (0, 1) выборочное распределение, а вероятность получить малое значение z уровня значимости (скажем, меньше 0,01) соответственно мала (для приведенного выше примера — это один шанс из ста). Тем самым шанс отклонить гипотезу //(0), когда она на самом деле верна, очень мал.
Таким образом, критерий описанного типа удовлетворяет первому из сформулированных в начале раздела 5.3 условий. Что же можно сказать о втором условии, т. е. будет ли критерий с высокой вероятностью отклонять ложную гипотезу? Чтобы ответить на этот вопрос, вычислим выборочное распределение уровня значимости для неопределенного значения 0. Вероятность того, что уровень значимости окажется не больше z, когда истинная величина Е(Х) равна 0 — это
Q(z, 0)=P(Z^z\0)=P{l^(X\Fn)^z\0} = =Р{А’Ул>Ф~1(1—z)|0] = (применяем (5.3.5)) (так как функция Ф монотонно возрастает)
= 1—Ф{ф-’(1— Z)—0>Гп},	(5.3.7)
поскольку X у/п—0Fn подчиняется стандартному нормальному распределению.
Чтобы интерпретировать это, полезно рассмотреть значения Q(z, 0) при фиксированной величине Z (скажем, Zo) и всех возможных допустимых значениях 0. (В «одностороннем» примере допустимые значения 0 — только неотрицательные.) Для выбранного фиксированного значения Zo уровня значимости среднего выборки х0 имеем
ZO = SL(X))=P{X нормальна с параметрами (0, 1/7л)} = (где п — объем выборки)
= 1—Ф(^\/л),
а значение Q{Zo, 0), определенное формулой (5.3.7), сводится к
eta, 0)=1-Ф((л5-0)<л),	(5.3.8)
причем в силу (5.3.6)
Q(z0, 0) = 1 — Ф(х^п) = Zo-
Ниже будет показано, что значения функции Q(Zo, 0) измеряют, в какой степени процедура проверки, гипотез позволяет обнаружить отклонения 0 от гипотетического нулевого значения (т. е. различать значения параметра 0). По этой причине Q(z> 0) называется функцией чувствительности критерия. (На самом деле численно она совпадает с функцией мощности в теории Неймана—Пирсона проверки гипотез [см. раздел 5.10], но интерпретируется несколько иначе.)
Предположим, что нормальная выборка объема л = 20 привела к среднему выборки ль = 0,458. Известно, что исходное распределение
229
имело единичную дисперсию. Ожидаемое значение (в) — это неизвестный параметр, равный согласно нулевой гипотезе 0 = 0. Уровень значимости выборки при такой гипотезе составляет
z0 = SL(xo) = Р(Х 0,4581^ нормально распределена с параметрами (0, 1/720))= 1—Ф(0,458-4,472) =
(так как 720 = 4,472)
= 1— Ф(2,048) = 0,02.
Вот некоторые из вычисленных по формуле (5.3.8) типичных значений функции 0(0,02, 0):
0(0,02, 0)= 1—ф {(0,458—0)4,472}
в	0	0,2	0,4	0,6	0,8	1,0
0(0,02, 0)	0,020	0,125	0,398	0,737	0,937	0,992
Возникают следующие вопросы:
1)	Значение 0(0,02, 0) равно уровню значимости 0,02. Это «малая» величина. Ее смысл таков: если бы нулевая гипотеза была верна (т. е. истинное значение было бы 0 = 0), то вероятность получения уровня значимости 0,02 или менее была бы в точности равна 0,02. Эквивалентно это можно выразить, сказав, что вероятность получить сильные доводы против Н(0) (силы 0,98) мала (фактически равна 0,02). При процедуре проверки невероятно получить сильные доводы против верной гипотезы.
2)	0(0,02, 1,0)=0,992. Это вероятность (весьма высокая) получить уровень значимости 0,02, когда нулевая гипотеза далека от истины (0=1,0, тогда как гипотеза 7/(0) утверждает, что 0=0). Уровень значимости 0,02 можно считать сильным доводом против гипотезы 77(0). Таким образом, видно, что критерий почти наверное обеспечивает сильные доводы против 77(0), когда Н(О) далека от истины.
3)	То же относится, хотя и в меньшей степени, к ситуации, возникающей, когда 77(0) неверна, но ближе к истине, чем в п. 2); например, при 0 = 0,6.
4)	Когда 77(0) еще ближе к истине, например, если 0=0,4, процедура приобретает некоторую неопределенность, поскольку только (грубо говоря) в 40% случаев она обеспечивает доводы против 77(0) силы 0,98 и, конечно, в 60% случаев таких доводов не будет.
Понятно, что критерий, который в большом числе случаев обеспечивает сильный довод против «только слегка ложных» гипотез и при котором невозможно получить сильные доводы против заведомо истинной гипотезы, будет чувствительным при различении близких к нулю значений 0. Тем самым функцию Q(Zo, можно назвать функцией чувствительности критерия.
230
Однако не все критерии одинаково чувствительны. Это можно показать с помощью критерия, статистика которого представляет собой среднее (скажем, х0) первого и последнего наблюдений в выборке без учета остальных наблюдений. Ясно, что этот критерий будет обладать теми же свойствами, что и основанный на среднем выборки критерий из предыдущего примера, когда объем выборки п=2. Следовательно, его функция чувствительности в силу (5.3.8) равна
Q'(z0, 0) = 1 —Ф(Хо<2—(9V2).	(5.3.10)
Для того же, что и в (5.3.9), уровня значимости Zo = O,O2 ниже приведены значения функции Q'(Zo, 0)’
в	0	0,2	0,4	0,6	0,8	1,0	2,0	3,0
а(0,02, 0)	0,020	0,039	0,069	0,115	0,180	0,264	0,118	0,014
Этот критерий имеет тот же уровень значимости 0,02, что и критерий, основанный на выборке объема 20, функция чувствительности которого табулирована в (5.3.9). Но значения Q' меньше соответствующих значений Q. Это показывает, что для любых положительных 0, какова бы ни была степень ложности гипотезы, более правдоподобно, что она будет отклонена первым критерием, а не вторым (при котором используется лишь часть данных). Аналогичные результаты справедливы и для других уровней значимости z. (Тот факт, что QU, 0) < Q'(z, 0) при отрицательных 0, не относится к делу, поскольку односторонний критерий допускает лишь положительные конкури-
231
рующие значения параметра 0.) Вид функций чувствительности Q(z, 0) при фиксированной для обоих критериев общей величине уровня значимости z представлен на рис. 5.3.1. Функция чувствительности Q(z, 0) критерия при z-a принимает те же значения (но имеет иную интерпретацию), что и функция мощности W(0) критерия уровня а в теории Неймана—Пирсона [см. раздел 5.10].
5.3.2.	ФУНКЦИЯ ЧУВСТВИТЕЛЬНОСТИ ОДНОСТОРОННЕГО КРИТЕРИЯ ДЛЯ ВЫБОРКИ ИЗ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ С ПАРАМЕТРАМИ (О, о), КОГДА ЗНАЧЕНИЕ а НЕИЗВЕСТНО
При изложении материала в разделе 5.3.1 мы стремились разъяснить принципы, составляющие содержание анализа чувствительности, по возможности без математических подробностей. Это удалось, поскольку речь шла о проверке гипотез относительно величины математического ожидания 0 распределения N(0, 1) — единственного нормального распределения, встретившегося в вычислениях. Теперь кратко наметим вычисления для более реальной ситуации, когда исходное распределение — N(0, о), а величина о неизвестна.
Определим Х}, Х2,...,Хп как независимые случайные величины, каждая из которых нормальна с параметрами (0, ст), и пусть
X=(Xit Х2,...,Хп), Х=£х,/п, a S2=E(Xr—Х)2/(п— 1).
Положим	__
T = Xny2/S.
Мы проверяем гипотезу
Н(0): 0 = 0,
которая ничего не предполагает относительно о.
Пусть X], х2,...,хп — типичная реализация случайных величин Хг, п	п
х=(х}, х2,...,хп), х = Lxr/n, s2=E(xr—х)2/(п—1), a t'=xny2/s. Предположим, что вектор наблюдений и соответствующие статистики для нашей выборки приняли значения х0, и /о=^л1/2/5,о- Тогда аь — оценка 0, a — оценка ст2; при этом t'Q — значение отношения Стьюдента. Если 0=0, то последняя величина представляет собой реализацию распределения Стьюдента с п—1 степенями свободы; ее значение будет с гораздо большей вероятностью находиться около нуля, чем увеличиваться (при условии, что 0=0), так что мы будем считать, что большие значения t' приводят к отклонению нулевой гипотезы.
Таким образом, в качестве области значимости выбирается множество вида
G(t0)= {x:Z ^t0}.
Уровень значимости (SL) вектора выборки х0 равен
Zo = P{T/£G(to)\0 = O]=P{T''^to\T' подчиняется распределению Стьюдента с (п—1) степенями свободы] = 1—^я_1(^о),
где ^„_x(t) обозначает функцию распределения Стьюдента с п—1 сте-232
пенями свободы, вычисленную в точке t. Так что случайная величина
Z уровня значимости равна:
Z=l-
[ср. с (5.3.5)], функция чувствительности — это
Q(z, 0) = P(Z<z\0)=P{*n_x(T'^-z|0) = Р{Т	£)|0).
Здесь T=Xnl/2/S. Когда Е(Х)= 0, случайная величина (X—0)n1/2/S имеет распределение Стьюдента с п—1 степенями свободы, так что Т подчиняется нецентральному распределению Стьюдента с п—1 степенями свободы, а параметр нецентральности Х=Х(0, п) определя-
ется формулой
Х(0) = Х(0, п) = — 0п'/2/а
[см. раздел 2.8.3]. Обозначим функцию этого распределения в точке w
символом
так что
НП_Х{Ч Х(0)),
[ср. с (5.3.7)]. Когда 0 = 0, эта величина превращается в euo, o)=i-^_1(c'i(i-^o)),
поскольку Х(0) = 0, а нецентральное распределение Стьюдента с функ-
цией Нп_х {w, Х(0)} становится обычным «центральным» распределением Стьюдента, имеющим функцию распределения (и/ Таким
образом,
Q(z0, 0) = 1 — (1 —Zo) =Zo,
откуда Q(Zo, 0) представляет собой уровень значимости, как и в ранних примерах [ср. с (5.3.6)].
Например, 5^ = 0,458, so=UOO, л = 20 и t'o = 0,458^20 = 2,048, то уровень значимости равен
Р{Т>2,048|Т подчиняется распределению Стьюдента с 19 степенями свободы } =0,022
(из таблиц). Это малая величина; вероятность получить столь малое значение, если бы Н(0) была верна, составляет 0,022 и, что эквивалентно, сила доводов против //(0) равна 0,978. Поэтому результат не может быть следствием //(0); тем самым получен существенный довод против гипотезы, а значит, ее можно считать отвергнутой.
Вероятность получить довод силы 1—z против 7/(0), когда Е(Х) = 0, равна вероятности получения уровня значимости z или менее; эта вероятность выражается функцией Q(z, 0), численные значения которой можно найти в таблицах нецентрального распределения Стьюдента с п—1 степенями свободы и параметром нецентральности X. Поведение функции показано на рис. 5.3.1.
5.3.3.	ФУНКЦИЯ ЧУВСТВИТЕЛЬНОСТИ ДВУХСТОРОННЕГО КРИТЕРИЯ
В разделе 5.3.1 применительно к выборке (xit х2,...,хп) из совокупности N(0, 1) обсуждался вопрос о значимости среднего выборки х в связи с нулевой гипотезой 0=0, когда альтернативой была односторонняя гипотеза 0>О.
233
Если бы при альтернативе параметр 6 мог бы принимать значения как <0, так и >0, то мы имели бы двухсторонний критерий. Так что теперь мы предполагаем, что альтернатива на самом деле двухсторонняя. В таком случае отвечающая (5.3.3) статистика уровня значимости равна
z0 = SL(^) = 2P{x > |^||
X нормальна с параметрами (0, 1)) =
=2(1- Ф(|ль|Л)|.	(5-3.11)
Функция выборочного распределения Zo при 0=0 — это Q(z, O)=P(Z^z|0 = O), где Z — индуцированная Zo случайная величина, т. е.
Z=2{ 1—Ф(|Х |Vn)}.
Таким образом,
Q(z, 0)=Р[2{1—Ф(|Г|<п)}^|0=О]=Р{Ф(|Г|<п)>1—-|-z|0=O} = = Р{ |Х|7й>Ф-1(1— 4-z)|0=O) =2Р{Х<л^Ф-1(1—) = (считая величину х (для определенности) положительной)
_	=2[1-ф|ф-1(1—h))]=
(так как Х\/п нормальна с параметрами (0, 1))
=z, (O^z^l).	(5.3.12)
Аналогичный результат был получен в разделе 5.3.1 для одностороннего критерия: когда нулевая гипотеза верна, уровень значимости имеет равномерное на (0, 1) выборочное распределение.
Выборочное распределение, когда параметр 0 не обязательно принимает нулевое значение, следующее:
P{Z^z\0}=Q(z, 0)=
= Р[2и-Ф(|Х|<й)}^|0] =
= Р{|Аг|^>Ф-1(1-4-£)|0} =
= Р{Х<л>Ф-1(1—2-z)|0) +P{XV7?^—Ф-41—4-z)|0} =
= 1 —Ф {Ф—1 (1 —yz)—&<п} + + 1— Ф{ф-1(1—4-г) + 0<л),
поскольку при Е(Х) = 0 случайная величина Х\п нормальна с параметрами (6^1, 1). Если теперь, как при односторонней альтернативе, зафиксировать значение z=z0, т. е. взять такое Zo, при котором справедливо соотношение (5.3.11), так что
1—2*го = Ф(|^|<й)
и	1
Ф-1(1—2^о)=
то функция Q(z0, 0) примет вид
Q(z0, 0) = 2—Ф{(|ль|—0)V«}—Ф{(|^1 + 0)^}	(5.3.13)
234
Рис. 5.3.2. Функции чувствительности для двухстороннего критерия
Это соотношение представляет собой аналог (5.3.8) для двухстороннего критерия. График зависимости Q(z, 0) от 0 при фиксированном z приведен на рис. 5.3.2. Он показывает, что вероятность получить сильные доводы против гипотезы Ho:0 = Q, когда Е(Х)=0, возрастает при увеличении |0|. Анализ ситуации, когда дисперсия исходного распределения неизвестна, можно, как и в разделе 5.3.2, провести с помощью нецентрального распределения Стьюдента.
[При заданном уровне z функция чувствительности принимает те же значения, что и обсуждаемая в разделе 5.10 функция мощности, но они интерпретируются по-разному.]
5.4.	КРИТЕРИИ ДЛЯ СЛОЖНЫХ НУЛЕВЫХ ГИПОТЕЗ
В предыдущем разделе обсуждались примеры, относящиеся к таким ситуациям, когда для заданной вероятностной модели нулевая гипотеза полностью определяла «нулевое распределение», или «распределение при нулевой гипотезе». Но обычно встречаются примеры, в которых это неверно. Тогда говорят, что нулевая гипотеза — сложная. Подобные ситуации возникают как для однопараметрических, так и для многопараметрических моделей. Примером первого типа служит сравнение биномиальных частот*, когда при нулевой гипотезе параметры pi и р2 биномиальных распределений равны. Примером нулевой гипотезы в многопараметрической ситуации служит такая: математическое ожидание нормального распределения равно нулю, а стандартное отклонение неизвестно и при гипотезе не уточняется (пример «мешающего параметра»).
* Этот пример фактически относится к двухпараметрической ситуации, поскольку совместное распределение пары наблюдаемых частот зависит от векторного параметра р2).—Примеч. пер.
235
5.4.1.	УСЛОВНЫЕ КРИТЕРИИ: РАВЕНСТВО БИНОМИАЛЬНЫХ ЧАСТОТ; ОТНОШЕНИЕ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЙ ПУАССОНА
Стандартный способ, позволяющий преодолеть связанные со сложной нулевой гипотезой затруднения, состоит в том, чтобы работать с подходящей версией условного нулевого распределения. Лучше всего пояснить это примерами.
Пример 5.4.1. Критерий равенства биномиальных частот. При изучении зависимости вероятности появления ребенка мужского пола от возраста матери было отмечено, что в выборке из т новорожденных у матерей в возрасте от 20 до 25 лет оказалось х0 мальчиков, тогда как в выборке объема л, где возраст матери был заключен между 30 и 35 годами, число мальчиков составило у0 [ср. с разделом 5.2.1, в)]. За основу возьмем вероятностную модель, описываемую распределением Bin (т, pi) [см. II, раздел 5.2.2] для мальчиков, родившихся от более молодых матерей, и независимо [см. II, § 6.6] от них — распределение Bin (п, р2) для остальных, так что плотность совместного выборочного распределения* х0 и у0 в точке (х, у) равна
(х) $)р\ (У-Рх)т~хРУ1 (Д-Р1)п-у.
При нулевой гипотезе Н, т. е. при Р\=Рг (обозначим это общее значение р), эта плотность принимает вид
Ах, у)=(?) (Р)^^(1-рГ+я-^.
Понятно, что х+у будет достаточной статистикой для р [см. пример 3.4.1], так что условное совместное распределение х и у при заданном значении x+y=s не зависит от р. На самом деле условная плотность равна
8(Х> y'S)= PfS-s) ’	=
где случайная величина S индуцирована статистикой s.
Поскольку (при Н) случайная величина S подчинена распределению Bin (т + п,р), имеем
P(S=s) = (ms(l-p)n^n-s,
°ткуда	(П
(*+>’=s)-
Здесь y~s—х, так что на самом деле получается одномерное распределение, которое можно представить в виде
h(x\s)=-~—j^’ х=0, l,...,min (т, s)	(5.4.1)
* Здесь и далее для принимающих целочисленные значения случайных величин плотность понимается относительно «считающей» меры (вообще говоря, не конечной, а лишь ст-конечной), которая приписывает единичные массы точкам 0, 1, 2 —При-меч. пер.
236
Свободное от параметра (гипергеометрическое [см. II, раздел 5.3]) распределение и будет требуемой условной версией нулевого распределения. Полезно отметить, что оно описывает вероятность получить х дефектных изделий в выборке объема 5, извлеченной без возвращения из совокупности, содержащей т дефектных и п недефектных изделий. Таблицы гипергеометрического распределения доступны [см., например, Liebermann and Owen (1961)—G].
Биномиальное приближение. Гипергеометрическое распределение зависит от трех параметров: т, п и $, так что обычно таблицы оказываются громоздкими. Если s мало по сравнению с т и п, то вероятности не будут очень сильно отличаться от получаемых результатов для выборки с возвращением, так что в такой ситуации h(x\s) можно приблизить величиной b(x; s, р) — вероятностью (Bin (s, р)) с параметром р=т/(т + п), т. е.
h(x\s) == b(x; s, р) = (£)р*( 1 —рУ~\
(5.4.2) x=0, 1,р=т/(т + п),
если только
5«min п).	(5.4.3)
Эти вероятности можно легко вычислить с помощью рекуррентных отношений	_
b(x+1; s, р) = ()(~~ )b(x; s, р),
р/	(5.4.4)
х=0, l,...,s—1, либо получить из сравнительно компактных биномиальных таблиц [см. приложение 1].
Примером, когда биномиальное приближение (5.4.2) не применимо к гипергеометрическому распределению (5.4.1), может служить ситуация, при которой ш = 15, п = 20, 5=17. Значения /1(х|17) представлены в табл. 5.4.1.
Значение х()=10 лежит на верхнем хвосте, и вероятность столь же или более критических в этом направлении значений составляет А(1О) + Л(11) + ... + Л(15) = 0,0647. Используя «упорядочение по вероятности», как в разделе 5.2.1, п. е), можно видеть, что вероятность столь же или более критических, но в противоположном направлении (на нижнем хвосте), как х0, значений представляет собой сумму А(4) + Л(3) + ... + А(О), так как /1(4) — наибольшее из нижних значений, не превышающее А(10). Приведенная нижняя «хвостовая» сумма равна 0,0276. Поэтому уровень значимости составляет
SL =0,0647 + 0,276 = 0,0923.
Получена довольно большая вероятность, откуда следует, что результаты не значимы, т. е. данные не опровергают нулевую гипотезу относительно равенства pi -р2.
237
Таблица 5.4.1 Значения Л(х)=Л(х|17)
X	h(x)	X	h(x)	л	h(x)
0	0,0000	6	0,1852	12	0,0016
1	0,0000	7	0,2620	13	0,0001
2	0,0004	8	0,2381	14	0,0000
3	0,0039	9	0,1389	15	0,0000
4	0,0233	10	0,0513		Полная масса
5	0,0834	11	0,0117		=0,9997
(Полная масса отлична от 1,0000 из-за ошибок округления.)
Пример 5.4.2. Критерий для проверки равенства параметров распределений Пуассона. Как и в предыдущем примере, нулевая гипотеза утверждает, что неизвестные параметры двух распределений Пуассона равны, и оказывается сложной, так что для ее проверки можно использовать условное нулевое распределение.
Предположим, что получены наблюдения х'2,...,хт пуассоновской случайной величины X [см. II, раздел 5.4) и у\, у2,...,у'т— другой пуассоновской величины Y. Пусть и 02 — соответствующие неизвестные параметры. Нужно проверить нулевую гипотезу, что 0i=02 (их общее значение обозначим 0). Для принятой вероятностной модели плотность* совместного выборочного распределения данных в точке (л-,, х2,...,хт; yit у2,...,уп) задается формулой
е-^,-^0! Ч02Е У((Пх,! )(Пуу!)).
Нулевая гипотеза
//:0,=02(-0)
проверяется против альтернативы 0154 02. Теперь мы должны выбрать статистику критерия [ср. с разделом 5.2.1, г)]. В данном случае она будет двумерной. Поскольку
51 = EXj И S2 = tyj — достаточные статистики [см. раздел 3.4] для 0! и 02, данные можно сократить и рассмотреть статистики
s'l-YXj и в2=£у/.
В результате совместное распределение данных можно заменить более простым, но эквивалентным выборочным распределением 51 и s2. Поскольку эти величины представляют собой суммы пуассоновских случайных величин, то они также подчиняются распределению Пуассона [см. табл. 2. 4.1] с параметрами тОх и л02 соответственно. Их совместное распределение имеет в точке (s,, s2) плотность
е~тв -"ЦтбдЧпбг)^/^! 52!).
* Плоз'ность по считающей мере на множестве (0, 1, 2...}—Примеч. пер. 238
При нулевой гипотезе (0!=02 = 0) эта плотность (плотность нулевого распределения) принимает вид
f(Si, s2) = e~(-m+n}efns'ns2ds'+sV(Sil s2!).
Теперь перейдем к условному распределению. Заметим, что s=S] +s2 служит достаточной статистикой для 0 при нулевом распределении, откуда свободное от параметра 0 условное распределение Si и S2 при заданном значении Si + S2 можно найти так:
P(S\—S\f S2—s2\S\+S2=s).
Поскольку (при Н) статистика Sj+S2 подчиняется распределению Пуассона с параметром (т + п)6, условное нулевое совместное распреде-
ление Si и S2
На самом s2=s—$i. Его
имеет вид
g(s15 52|s)= у
деле это распределение будет одномерным, так как плотность можно записать в виде
h(Sl\s)=
5i!52! т + п' 'm + n' =
= (s,)/^'( 1 —py~s', P = m/(m + n),
(5.4.5)
S2=S—51.
Это — распределение Bin(s, p) с известным параметром p=m/(m + n). Чтобы проверить значимость 5i = £xz- относительно нулевой гипотезы, нужно убедиться, лежит ли sj в имеющей относительно высокую вероятность области или же 5{ попадает в одну из двух маловероятных областей (т. е. лежит на одном из хвостов). Когда верно первое положение, можно считать, что данные согласованы с нулевой гипотезой 01 = 02; если же оно не выполняется, то гипотеза в той или иной степени отвергается. Процедура в точности совпадает с описанной в разделе 5.2.1.
Предположим, например, что данные х — это количество радиоактивных частиц, испущенных образцом А в т интервалах времени, каждый из которых продолжительностью в 10 секунд. Данные у получены аналогично в п интервалах времени для образца В, причем
/и = 20, Ех;=5^ = 15, л = 30,.Е^-=52 = 35.	(5.4.6)
Условная выборочная плотность si в точке st при нулевой гипотезе равна
A(5i 150) = (с°)/А (1 —р)50-^ ,5! = 0, 1,... ,50,
причем р=т/(т + п)~20/50=0,4. Значение si = 15 лежит на нижнем хвосте этого распределения. Поскольку распределение не очень асимметрично, двухсторонний уровень значимости, вычисленный с помощью упорядочения по вероятности, будет примерно равен определенному с помощью упорядочения по расстоянию [ср. с разделом 5.2.1, е)], откуда
SL = P(Si^l5|s=5O) + P(Si^25|s=5O)
239
(так как значения 15 и 25 находятся на одинаковом расстоянии от ожидаемого значения 0,4-50=20). Применяя таблицы биномиального распределения при л = 50 и р=0,4, находим
SL = 0,19.
Данные не значимы. Нулевая гипотеза не отклоняется.
Пример 5.4.3. Проверка гипотезы об отношении параметров распределений Пуассона. Использованные в примере 5.4.2 принципы применимы и для проверки согласия данных с гипотезой, что параметры двух пуассоновских распределений относятся как к'Л. Если нулевая гипотеза есть	,, Л
Н-.в\ = к02, или, что эквивалентно,
H$i=ke, 02 = 0, где к — заданный множитель, то нулевое распределение (5.4.3) примет вид	S2) = e-<km+^(kmyms^4(sx\ s2!),
т. е. статистика	подчиняется пуассоновскому распределению с
параметром (кт + п)в, а условное совместное распределение (5.4.4) станет таким:
+*,
•У]. -Уз*
и сведется к выражению
h(sx\s) = (J)ps^l—p)s-s^ р=кт/(кт + п).	(5.4.7)
Например, для данных (5.4.6) из примера 5.4.2 при Аг=1,5 имеем р= 30/60=0,5. Уровень значимости равен
SL = P(S> < 15|s=5O) + P(Sl ^35|s=5O).
так как точки 15 и 35 расположены на одинаковом расстоянии от ожидаемого значения 0,5-50=25, так что
SL- 0,003.
Эта вероятность очень мала; данные обладают высокой значимостью, а гипотеза 0Х = 1,56? безусловно отклоняется.
(Выбирать подходящую нулевую гипотезу следует так: в рассмотренном примере данные подсказывают, что 6Х составляет примерно половину от 02- Если бы мы оценивали 0, и д2 методом наибольшего правдоподобия [см. раздел 3.5.4 и пример 6.3.3], то получили бы 0Х ~s'/m = 0,75, 02=s2/n= 1,5, откуда 02 = 20j. .Не так уж сложно, приглядевшись к данным, заметить, что 02 = 20], а на этой основе сформулировать гипотезу, что 6?2 = 26?i, и проверить ее. Понятно, что результат проверки оказался бы «незначимым», т. е. в настоящих условиях оказывается, что данные согласуются с той гипотезой, которая и выдвинута самими данными. Можно было бы сказать, что данные согласуются с той гипотезой, которая согласуется с данными, но нельзя прийти к какому-то более глубокому суждению. Аналогично после тщательной проверки данных можно было бы выдвинуть не согласующуюся с ними гипотезу. Ситуация существенно отличается от той, при которой нулевая гипотеза выдвигается до проверки данных, поскольку в этом случае согласие или несогласие данных с гипотезой приводит к реальным выводам, из которых можно почерпнуть что-либо новое.
240
Из сказанного можно заключить, что при проверке значимости нулевую гипотезу следует формулировать независимо от используемых при ее проверке данных.)
5.4.2.	КРИТЕРИИ НЕЗАВИСИМОСТИ ДЛЯ ТАБЛИЦ СОПРЯЖЕННОСТИ 2x2. ТОЧНЫЙ КРИТЕРИЙ ФИШЕРА
Таблица сопряженности представляет собой двумерный (или с двумя входами) массив частот, как в приведенном ниже примере, где анализируется успеваемость заданного числа (п) студентов а) по экзаменационным результатам в конце семестра и б) по проводимым в течение семестра испытаниям:
			Экзамена