Text
                    it
iT
f


THE ADVANCED THEORY OF STATISTICS MAURICE G. KENDALL, M.A., Sc.D. Formerly Professor of Statistics in the University of London President of the Royal Statistical Society, igfyo-i and ALAN STUART, B.Sc. (econ.) Reader m Statistics in the University of London. IN THREE VOLUMES VOLUME 1 DISTRIBUTION THEORY SECOND EDITION CHARLES GRIFFIN & COMPANY LIMITED LONDON
М. КЕНДАЛЛ, А. СТЫОАРТ ТЕОРИЯ РАСПРЕДЕЛЕНИЙ Перевод с английского В. В. САЗОНОВА, А. Н. ШИРЯЕВА Под редакцией А. Н. КОЛМОГОРОВА ИЗДАТЕЛЬСТВО «НАУКА> ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ МОСКВА 1965
517.8 К 35 УДК 519.240
ОГЛАВЛЕНИЕ ПРЕДИСЛОВИЕ К ПЕРВОМУ ИЗДАНИЮ 9 ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ Ц ВВОДНЫЕ ЗАМЕЧАНИЯ 12 ГЛАВЫ 1. ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 15 2. МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 54 3. МОМЕНТЫ И СЕМИИНВАРИАНТЫ 83 4. ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 136 5. СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ- (I) 171 6. СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ — B) 208 7. ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 250 8. ВЕРОЯТНОСТЬ И СТАТИСТИЧЕСКИЕ ВЫВОДЫ 275 9. СЛУЧАЙНЫЙ ВЫБОР 286 10. СТАНДАРТНЫЕ ОШИБКИ 318 И. ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 341 12. АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - (!) 380 13. АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ — (?) 424 14. ПОРЯДКОВЫЕ СТАТИСТИКИ 446 15. МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И КВАДРА- КВАДРАТИЧНЫЕ формы 477 16. РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 510 Приложение ТАБЛИЦЫ 1. ФУНКЦИЯ ПЛОТНОСТИ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ - . . -549 2. ФУНКЦИЯ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ 549 3. КВАНТИЛИ Х2-РАСПРЕДЕЛЕНИЯ 551 4а. ФУНКЦИЯ Х2-РАСПРЕДЕЛЕНИЯ С ОДНОЙ СТЕПЕНЬЮ СВОБОДЫ для о<х2<1 552
ОГЛАВЛЕНИЕ 46. ФУНКЦИЯ ^-РАСПРЕДЕЛЕНИЯ С ОДНОЙ СТЕПЕНЬЮ СВОБОДЫ. для \<х'< ю 553 5. КВАНТИЛИ (-РАСПРЕДЕЛЕНИЯ 554 6. 5%-НЫЕ ТОЧКИ г-РАСПРЕДЕЛЕНИЯ 556 7. 5%-НЫЕ ТОЧКИ F-РАСПРЕДЕЛЕНИЯ 558 8. 1%-ПЫЕ ТОЧКИ г-РАСПРЕДЕЛЕНИЯ 559 9. 1%-ПЫЕ ТОЧКИ F-РАСПРЕДЕЛЕНИЯ 561 10. СИММЕТРИЧЕСКИЕ ФУНКЦИИ. ФОРМУЛЫ ПРЕДСТАВЛЕНИЙ РАСШИРЕННЫХ СИММЕТРИЧЕСКИХ ФУНКЦИЙ В ТЕРМИНАХ СУММ СТЕПЕНЕЙ И ОБРАТНЫЕ ФОРМУЛЫ 562 И. МНОГОМЕРНЫЕ fe-СТАТИСТИКИ. ТАБЛИЦЫ ПРЕДСТАВЛЕНИИ г-СТАТИСТИК В ТЕРМИНАХ РАСШИРЕННЫХ СИММЕТРИЧЕСКИХ ФУНКЦИЙ И ОБРАТНЫЕ ТАБЛИЦЫ 563 ЦИТИРОВАННАЯ ЛИТЕРАТУРА 565 УКАЗАТЕЛЬ 573
«Давайте присядем на это бревно у дороги, — говорю я, — и забудем бессердечность и скверно- сквернословие этих поэтов. Настоящую красоту нужно искать в великолепных рядах установленных фак- фактов и общепринятых правил. В этом самом брев- бревне, на котором мы сидим, миссис Сэмпсон, — говорю я, — скрыта статистика более прекрасная, чем любая поэма. Кольца показывают, что ему было шестьдесят лет. На глубине двух тысяч футов оно за три тысячи лет превратилось бы в уголь. Самая глубокая в мире угольная шахта находится в Киллингворте, близ Ньюкастла. В ящик длиной четыре фута, шириной три фута и высотой два фута восемь дюймов войдет тон- тонна угля. Если артерия порезана, сожмите ее вы- выше раны. В ноге человека — тридцать костей. Лондонский Тауэр горел в 1841 году». «Продол- «Продолжайте, мистер Пратт», — говорит миссис Сэмп- Сэмпсон. — Эти мысли так оригинальны и приятны. Я думаю, ничего нет прекраснее этой статистики». О. Генри, Справочник Гименея (О. Henry, The Handbook of Hymen)
ПРЕДИСЛОВИЕ К ПЕРВОМУ ИЗДАНИЮ Эта книга в ее первоначальном виде была задумана перед тем, как разразилась вторая мировая война, и большая часть монографии была написана в течение первых лет этого тяже- тяжелого времени. Первый том вышел в свет в 1943 году, второй — в 1946 году. С тех пор статистическая теория так далеко шаг- шагнула вперед и настолько сильно расширилась область примене- применения статистических методов, что это представляется удивитель- удивительным даже при сравнении с общим интенсивным развитием научных исследований. Пять переизданий первоначального ва- варианта первого тома и три — второго тома отличались друг от друга, по существу, лишь исправлением ошибок и добавлением ссылок, Но время сделало необходимой полную ревизию. Сей- Сейчас издается первый том в новой редакции. Увеличение объема материала привело к тому, что теперь планируются еще два тома. Я огорчен разрастанием объема нового варианта, однако этого увеличения невозможно избежать, если намереваться ох- охватить весь задуманный круг вопросов. Пересмотренный вариант книги состоит из трех томов. Пред- Предметом настоящего нового тома 1 является теория распределе- распределений, включающая выборочные распределения. Во втором томе содержится теория оценивания, общая теория статистических выводов и теория статистической связи. Третий том будет по- посвящен теории планирования, анализу выборочных данных и экспериментов, многомерному анализу и временным рядам. В настоящий том вошла значительная часть первоначального тома 1. Кроме этого, сделан ряд существенных дополнений, осо- особенно по следующим темам: стандартные распределения, теория аппроксимации выборочных распределений, порядковые стати- статистики, многомерное нормальное распределение, распределения, связанные с нормальным. Три главы этого тома целиком
10 ПРЕДИСЛОВИЕ К ПЕРВОМУ ИЗДАНИЮ являются новыми, содержание же остальных глав существенно дополнено новым материалом. Весьма значительные дополнения и изменения будут необходимы в новых томах 2 и 3. Однако до их выхода пройдет несколько лет*), и я надеюсь, что в течение этого времени будет полезен первоначальный том 2. В настоящем издании добавлено много новых примеров и упражнений. Теперь том 1 содержит свыше 300 упражнений. Если читатель, проработав их, будет чувствовать потребность в дальнейшей тренировке, он может обратиться к решению задач из моего сборника**), после чего он окажется в состоянии сам ставить себе задачи. Приведенный в конце тома список литературы содержит только те работы, на которые имеются ссылки в тексте книги. Дальнейшая библиография будет приведена в томах 2 и 3. В какой-то мере я чувствовал себя неспособным в одиночку выполнить нелегкий труд переработки старого издания. К сча- счастью, мне удалось привлечь к этой работе моего коллегу м-ра Алэна Стыоарта, который взялся за нее со свойственными ему энергией и способностями. Новое издание следует рассматри- рассматривать как результат нашего совместного труда, и мы в .равной степени несем за него ответственность. За разрешение воспроизвести некоторые из таблиц, поме- помещенных в конце книги, мы весьма признательны д-ру Ф. Н. Дэ- Дэвиду (F. H. David), проф. сэру Рональду Фишеру (sir Ronald Fisher), покойному д-ру Дж. Уишарту (J. Wishart),A-py Ф.Иэйтсу (F. Yates), м-рам Оливеру и Бойду (Oliver and Boyd) и из- издателям журнала Biometrika. Всем им, так же как и авторам используемых нами работ, мы выражаем свою искреннюю бла- благодарность. Мы благодарны также м-ру Дж. Дурбину (J. Dur- bin), прочитавшему с большим тщанием гранки книги и сделав- сделавшему ряд ценных предложений. Мы пользуемся случаем побла- поблагодарить м-ра Е. В. Бёрка (E.V. Burke) из издательства Charles Griffin and Company Limited, взявшему на себя немалый труд, связанный с выходом книги в свет. *) Второй том нового издания вышел в 1961 г. (Прим. перев.) **) Kendall M., Exercises in Theoretical Statistics. With answers and hints on solutions, London, Qriffin, 1954.
ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ 11 Некоторые читатели предыдущих изданий любезно указали нам на ряд опечаток и неточностей изложения, а также на не- несколько мест, требующих пояснения. Мы будем благодарны чи- читателям за подобные замечания и к этому новому изданию. М. К. Лондон, май 1958 ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ Это издание мало отличается от первого. Устранено незна- незначительное число опечаток и ошибок, в ряде мест улучшено из- изложение, добавлено несколько новых упражнений и приведены ссылки на некоторые последние работы. Мы благодарны чита- читателям, замечания которых способствовали этому улучшению книги. М. К., А. С. Лондон, июнь 1962
ВВОДНЫЕ ЗАМЕЧАНИЯ 0.1 В этой книге разделы глав (пункты) нумеруются серий- серийно. Номерам пунктов в серии предшествует номер главы, в ко- которой они находятся, например 14.13 означает тринадцатый пункт главы 14. Подобный способ используется для нумерации таблиц, уравнений и упражнений, например G.15) соответ- соответствует пятнадцатому уравнению главы 7. При ссылках номера пунктов обозначаются жирным шрифтом, номера таблиц, ура- уравнений и т. д. — обычным шрифтом. 0.2 Ссылка на опубликованные работы дается посредством указания фамилии автора и года публикации. В списке лите- литературы в конце книги фамилии авторов расположены по алфа- алфавиту. При ссылках на журнальные статьи номер тома печатается жирным шрифтом, а номер первой страницы статьи — обычным шрифтом, например Ann. Math. Statist. 10, 275 обозначает статью, начинающуюся на 275-й странице 10-го тома журнала The Annals of Mathematical Statistics. Если после упражнения указывается фамилия автора и год, то это означает, что резуль- результат, содержащийся в упражнении, имеется в соответствующей статье, указанной в списке литературы. 0,3 В книге используются обычные математические обозна- обозначения, однако некоторые символы следует объяснить. A) Знак восклицания, написанный после целого числа, обо- обозначает факториал этого числа. Некоторые авторы используют этот знак более общим образом, полагая для нецелых чисел оо у\ — Г (v —U 1 ^ — р~ tx dт о Это, конечно, согласуется с обозначением факториала, однако не будет использовано в этой книге. B) Вместо более старого комбинаторного знака "Сп обо- обозначающего -;.[/„"_,¦)[ » используется знак("). J-n C) 2 обозначает знак суммирования, например, 2 лг,= J-n = х1+лг2-г ¦••~Jf~xn- Символ 2. как правило, сокра-
ВВОДНЫЕ ЗАМЕЧАНИЯ 13 я щается до 2 и во многих случаях до 2 или просто до 2. /-1 J если из контекста ясно, по какому множеству ведется суммиро- суммирование. D) Используются обычные обозначения для Г-функции (см. выше), В-функции и гипергеометической функции: i a(a+l)P(P + l) , ~\ i.2-v(v+l) X a(a + l)(a + 2)P(P + l)(P+2) . ¦ -Г" i.2.3-y(y+1)(Y + 2) л ^~ •" E) Если экспонента не громоздка, экспоненциальная функ- ция записывается в виде степени е, например е2 . Если же экспонента громоздка, то мы пишем, например, ехр|—-^(л:2 — — 2рл:г/ + У )). вместо е z F) Запись выражения в виде О(f(n)) означает, что его по- порядок не выше порядка f(n), т. е. что предел отношения этого выражения к f(n) есть ограниченная постоянная С. Если С=1, то мы скажем, что выражение асимптотически эквивалентно f(n); символически это указывается знаком ~. Если С = 0, то вместо O(f(n)) мы пишем o(f(n)) для обозначения того, что по- порядок выражения меньше порядка f(n). G) Символ ос, стоящий между двумя выражениями, озна- означает, что эти выражения равны с точностью до постоянного множителя. 0.4 В некоторых случаях полезно пользоваться различными обозначениями для количества, относящегося к генеральной со- совокупности, и для оценки этого количества по выборке. Там, где это возможно, первое из них будет обозначаться греческой бук- буквой, а второе — латинской, например: р — коэффициент корре- корреляции в генеральной совокупности и г — выборочный коэффи- коэффициент корреляции. Не всегда, однако, можно сохранить подоб- подобное различие: к примеру, прописная греческая буква Р («ро») совпадает по написанию с прописной латинской буквойР («пэ»). Полной согласованности обозначений можно достигнуть лишь при отказе от многих прижившихся в статистике обычаев, и при этом весьма вероятно, что в результате получится очень гро- громоздкая символика.
14 ВВОДНЫЕ ЗАМЕЧАНИЯ О.б Для удобства читателя при разборе рабочих примеров и иллюстративного материала мы помещаем в конце этого тома несколько таблиц часто употребляемых функций. Эти таблицы ни в коей мере не заменяют опубликованных к настоящему вре- времени обширных таблиц, являющихся необходимым инструмен- инструментом для большинства практических и значительного числа тео- теоретических работ. Частые ссылки будут делаться на следующие таблицы: Biometrika Tables for Statiticians, vol. 1, Cambridge University Press, изданные Е. С. Пирсоном и Х. О. Хартли. Statistical Tables for use in Biological, Agricultyral and Medi- Medical Research, Oliver and Boyd, Edinburgh, созданные сэром Ро- Рональдом Фишером и Ф. Иэйтсом*). В настоящее время имеется много более специальных таб- таблиц. Нуждающемуся в них читателю лучше всего обратиться за советом к специалистам. Имеющиеся в тексте указания границ и шага табулирования приводятся в принятой ныне форме: па- пример, jc=O(O,I) 10AM0B) 100 означает, что функция табу- табулирована для значений х, лежащих между 0 и 10 — с шагом 0,1, между 10 и 50 — с шагом 1, между 50 и 100 — с шагом 2. *) Возможности этих сборников в значительной мере покрываются воз- возможностями изданных на русском языке книг: Л. Н. Большее, Н. В. Смирнов, Таблицы математической статистики, М., Изд-во «Наука», 1965; Д. Б. Оуэн, Сборник статистических таблиц (nepeQ. с англ.), М., Изд-во ВЦ АН СССР, 1966; Я. Я н к о, Математико-етатистические таблицы (перев. с чешского), М„ Госстатнздат, 1961. (Прим. ред.)
ГЛАВА 1 ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 1.1 Фундаментальным понятием в статистической теории яв- является понятие группы или семейства; для него статистики ис- используют специальный термин «генеральная совокупность». Этот термин будет обычно применяться к любому набору рассматри- рассматриваемых объектов, как одушевленных, так и неодушевленных. Например, мы будем рассматривать генеральные совокупности мужчин, растений, ошибок при снятии показаний приборов, вы- высот ртутного столба барометра в различные дни и даже гене- генеральные совокупности идей или планов, таких как всевозмож- всевозможные планы розыгрыша имеющихся на руке карт. Общим во всех этих примерах является понятие совокупности. Статистика изучает свойства генеральных совокупностей. При статистическом рассмотрении генеральной совокупности мужчин мы не интересуемся, имеют ли некоторые из них корич- коричневые глаза или являются ли некоторые из них фальшивомонет- фальшивомонетчиками, а интересуемся скорее тем, сколько индивидуумов имеют коричневые глаза или являются фальшивомонетчиками и связаны ли между собой эти качества. Мы имеем, так сказать, дело со свойствами самой совокупности. Такой подход встре- встречается в физике и в демографии. Например, при рассмотрении свойств газа мы, как правило, интересуемся не столько поведе- поведением отдельных молекул, сколько поведением совокупности молекул, образующих газ. Статистик, подобно природе, имеет главным образом дело с видами, а не с отдельными индиви- индивидуумами. 1.2 Мы можем, таким образом, начать подход к определе- определению нашего предмета, сказав, что статистика есть ветвь науч- научного метода, изучающая свойства генеральных совокупностей. Это однако, слишком общо. Статистика рассматривает только численные свойства. Словарь, например, представляет собой ге- генеральную совокупность слов, и среди свойств этой совокупно- совокупности, представляющих собой разумный объект научного исследо- исследования, можно указать словопроисхождение. Со статистической точки зрения неважно, какие слова имеют латинское, англосак-
16 ГЛАВА 1 сонское или индостанское происхождение. Статистический ас- аспект появится только тогда, когда мы станем исследовать, сколько слов произошло из того или иного источника. 1.3 В качестве второго приближения к нашему определению мы можем теперь сказать, что статистика есть ветвь научного метода, изучающая данные, полученные исчислением или изме- измерением свойств генеральной совокупности. Это опять несколько слишком общо. Таблица логарифмов представляет собой генеральную совокупность чисел, однако вряд ли может быть объектом статистического исследования, по- поскольку каждое число в ней вполне определяется математиче- математическими законами. Статистик же интересуется скорее теми гене- генеральными совокупностями, которые встречаются в Природе и являются объектом многочисленных и разнообразных влияний. Его генеральная совокупность в точности подчиняется простым математическим законам очень редко; именно при отходе от по- подобных законов часто обнаруживаются темы наибольшего ста- статистического интереса. Учитывая сказанное, мы можем теперь сформулировать наше определение следующим образом: Статистика есть ветвь научного метода, изучающая данные, полученные исчислением или измерением свойств генеральных совокупностей природных феноменов. В этом определении «при- «природные феномены» включают все возможные объекты внешнего мира, как связанные, так и не связанные с человеком. 1.4 Во избежание недоразумений при толковании этого опре- определения следует отметить, что «статистика», как название науч- научного метода, является собирательным именем существительным и употребляется в единственном числе. Тем же словом «стати- «статистика» называют те числовые данные, с которыми работает этот метод, и в этом смысле слово «статистика» означает множество данных. В дальнейших разделах этой книги мы встретимся еще с одним значением слова «статистика» — так называют функ- функцию от элементов выборки из некоторой генеральной совокуп- совокупности. В этом смысле «статистика» употребляется как в един- единственном, так и во множественном числе. Частотные распределения 1.5 Рассмотрим генеральную совокупность элементов, ка- каждому из которых соответствует определенное числовое зна- значение некоторой переменной, например, совокупность мужчин, распределенных по росту, или совокупность цветков, классифици- классифицированных в соответствии с числом лепестков в них. Эту пере- переменную мы будем называть вариантой. Если она принимает только некоторое множество изолированных значений, то назо-
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 17 вем ее дискретной, если же она принимает непрерывное множе^- ство значений, то скажем, что она непрерывна. Генеральной совокупности элементов у нас соответствует генеральная сово- совокупность значений варианты, и именно эту последнюю совокуп- совокупность мы должны рассматривать. Если генеральная совокупность состоит только из нескольких элементов, мы можем без труда рассматривать соответствую- соответствующую генеральную совокупность значений варианты. Если же, как это обычно случается, совокупность велика (или бесконеч- бесконечна— в смысле, определяемом ниже), множество значений ва- варианты должно быть некоторым образом редуцировано, чтобы наша мысль могла охватить его. Это осуществляется классифи- классифицированием элементов в соответствии с принадлежностью отве- отвечающих им значений варианты некоторым интервалам, на кото- которые разбивается область значений варианты. Настолько, на- насколько возможно, интервалы должны быть одинаковыми, с тем чтобы количества попаданий в различные интервалы были срав- сравнимы. Эти интервалы называются класс-интервалами (или просто интервалами), а количества элементов, которым соответствуют значения варианты, попадающие в заданные класс-интервалы, Таблица 1.1 Распределение областей Англии и Уэльса в соответствии с чи- числом новорожденных на каждую 1000 жителей в 1953 году (Данные из The Registar-Oeneral's Statistical Review of England and Wales for 1953.) Число новорожден- новорожденных на 1000 жителей 2,5- 3,5— 4,5— 5,5— 6,5— 7,5— 8,5— 9,5— 10,5— 11,5— 12,5— 13,5— 14,5- Замечание: Число областей ] 1 0 0 1 0 3 7 19 39 96 151 231 221 Число новорожден- новорожденных на 1000 жителей 15,5— 16,5— 17,5— 18,5— 19,5— 20,5— 21,5- 22,5— 23,5— 24,5— 25,5— 20,5— 27,5— Общее число областей 2,5 — означает «от 2,5 до 3,5». Число областей 250 178 129 64 39 20 12 7 1 2 3 0 1 1475
18 ГЛАВА 1 Таблица 1.2 Распределение лиц в Соединенном Королевстве, обложенных дополнительным подоходным налогом и течение года, начиная с 6 апреля 1950 г., в соответствии с величиной их годового дохода (из Annual Abstract of Statistics, 1950) Годовой доход (в тыс. фунтов) не менее 2 и менее » » 2 5» » о » » 4 » » с А о „ » » 10 »» » » 12 »» » » 15 »» » » 20 »» » » 25 » » » » 30 » » » » 40 > » » » 50 » » * „ 7^ •*. •* ** *> i О & » » » 100 и больше Общее число лип 2,5 3 4 5 6 8 10 12 15 20 25 30 40 50 75 100 Число лиц 60336 41033 45 532 23 263 13475 13456 6419 3551 2 926 2 007 820 399 376 134 128 45 38 213 938 Оцененная частота на 500-фунтовый интервал 60 336 41033 22 766 11632 6737 3364 1605 888 488 201 82 40 19 6 2 1 7 — называются класс-частотами (или просто частотами). Распре- Распределение класс-частот по класс-интервалам называется частотным распределением (или просто распределением). 1.6 Таблицы 1.1 и 1.2 содержат частотные распределения на- наблюденных генеральных совокупностей, классифицированных по одной варианте. Таблица 1.1 показывает распределение 1475 об- областей Англии и Уэльса на 1953 год, классифицированных по числу новорожденных на 1000 жителей. Распределение в этой таблице представляется простым и компактным способом, кото- который был бы совершенно невозможен, если бы каждая из 1475 областей указывалась в отдельности. Наибольшее число обла- областей попадает в интервал 15,5—16,5 рождаемостей на тысячу; в обе стороны от этого интервала частоты убывают. Таблица 1.2 показывает число лип, обложенных добавочным подоходным налогом в Соединенном Королевстве*) в 1950 году, класся- *) Соединенное Королевство — обычное сокращение для Соединенного Королевства Великобритании и Северной Ирландии. (Прим. перев)
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 19 фицированных в соответствии с величиной дохода. Класс-интер- Класс-интервалы здесь неравные (типичный недостаток официальных дан- данных). В последнем столбце для сравнения указана редукция класс-частот; а именно, в каждом из рассматриваемых класс- интервалов вычислены частоты, соответствующие 500 фунтам. Просматривая этот столбец, видим, что максимальная ча- частота на 500 фунтов находится в начале частотного распреде- распределения. 1.7 Частотное распределение можно изображать графически. Располагая по оси икс значения варианты и по оси игрек — значения частоты в класс-интервалах, мы относим абсциссам, соответствующим центрам класс-интервалов, ординаты, равные частоте, приходящейся на единичный интервал в соответствую- соответствующем класс-интервале. Концы этих ординат последовательно со- соединяются прямыми линиями. Так полученная ломаная назы- называется полигоном частот. На рис. 1.1 изображен полигон частот для данных таблицы 1.1. Возможно иное графическое изображение частотного рас- распределения. Мы можем на каждом класс-интервале, располо- расположенном на оси икс, построить прямоугольник с площадью, пропорциональной ч'астоте в этом интервале. Так построенная фигура называется гистограммой. На рис. 1.2 изображена гистограмма данных таблицы 1.2. Очевидно, гистограмма является более подходящей формой изображения при неравных класс-интервалах. 1.8 Сделаем несколько практически важных замечаний относительно табулирования наблюденных частотных распре- распределений. A) Уже отмечалось, что всякий раз, когда это возможно, класс-интервалы должны быть одинаковыми. Важность этого будет объяснена в последующих главах. Однако и сейчас оче- очевидно, что визуально производить сравнения трудно, если класс- интервалы неодинаковы. Просматривая, например, сверху вниз второй столбец таблицы 1.2, замечаем, что частота в интервале 3—4 больше частоты в непосредственно предшествующем ему интервале. Это происходит, однако, из-за изменения в этом ме- месте широты интервала, и из третьего столбца видно, что частота на единичный интервал (равный 500 фунтов) постоянно убы- убывает. B) Важно точно определять класс-интервалы. Нередко встречаются такие классификации, как «0—10, 10—20, 20—30» и т. д. К какому интервалу отнести элемент со значением ва- варианты, равным 10? Очевидно, классификация неопределенная, если такое значение в действительности может появиться. Мы или должны взять интервалы «больше или равно 0 и меньше 10, о»
20 ГЛАВА 1 больше или равно 10 и меньше 20», или пользоваться каким- либо другим точным соглашением относительно того, куда при- причислять значения варианты, попадающие на границу между двумя соседними интер- интервалами. Например, мож- можно условиться относить по половине их числа к каждому из граничащих интервалов. Существуют различные способы обо- обозначения класс-интерва- класс-интервалов в практически исполь- используемых таблицах, напри- например «10—, 20—, 30—» 2,5 f%5 22,5 означает «больше или Число новорожденных на 7000жителей равно 10 и меньше 20» Рис. 1.1. Полигон частот для данных и т. д. Иногда при рас- таблицы 1.1. смотрении случаев, когда варианта непрерывна, имеется некоторая неопределенность в спецификации точности из- измерений. Например,при измерении длины в целых сантиметрах с округлением в сторону бли- ближайшего целого интервал, указанный как «больше 15 и меньше 18», означает в действительности интервал «больше 15,5 и меньше 17,5». Когда точность измерения известна, можно специфици- специфицировать интервал указанием его средней точки, в рассмот- рассмотренном случае, например, такой точкой будет 16,5. C) Несмотря на важ- важность равенства класс-пн- тервалов, отмеченного в за- замечании A), бывает полез- Рис 12 Гистограмма для данных та- но рассмотреть более мел- блицы 1.2. кие класс-интервалы па тех участках, где частота меняется очень быстро. Таблица 1.3, например, показывает число смертей от менингита в Англии и Уэльсе в 1953 году в соответствии с вариантой «возраст при смерти». Если бы частота в интервале «0 и меньше 5» не была подразделена, а была показана в общем как 208 на интервале, нам было бы неясно, происходит ли наибольшая часть смертей 5 № /5 Годовой доход, тыс. фунтов
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ Таблица 1.3 Смертность от менингита (исключая цереброспинальный и тубер- туберкулезный менингит) в Англии и Уэльсе в 1953 году (из The Register-General's Statistical Review for England and Wales for 1953) 21 Возраст в годах 0— ] 2 3— 4— 5— 10— 15— 20— 25— 30— Число смертей 162) 29 11 6 0 208 10 8 6 4 3 5 Возраст в годах 35— 40- 45- 50- 55— 60- 65— 70— 75- 80— 85 и выше Общее число смертей Число смертей 5 11 17 21 32 23 22 15 11 10 3 414 в первый год жизни. Это в действительности так. Частоты для каждого года из первых пяти лет показывают относительно вы- высокую смертность в первом году. D) Пожалуй, нет особой необходимости добавлять, что ги- гистограмма не является хорошим изображением данных, класси- классифицированных по дискретной варианте. Она показывает класс- частоту, равномерно распределенную по всему интервалу, в то время как в случае дискретной варианты частоты концентри- концентрируются в некоторых определенных точках. Частотные распределения: дискретные варианты 1.9 Теперь полезно будет привести несколько примеров ча- частотных распределений, встречающихся в практике. Таблица 1.4 показывает распределение цифр в числах, взя- взятых из телефонной книги (содержащей четырехзначные номе- номера). Числа выбирались следующим образом: книга открывалась наугад и на открытой странице брались последние две цифры всех числе, за исключением напечатанных жирным шрифтом. Распределение нерегулярно, однако после беглого просмотра таблицы можно предположить, что все цифры встречаются оди- одинаково часто в большой генеральной совокупности, из которой эти 10 000 элементов были выбраны. Мы увидим дальше, что имеющиеся здесь отклонения от средней частоты на цифру 1000
22 ГЛАВА I Таблица 1.4 Распределение цифр в числах из лондонской телефонной книги (М. О. Kendall and Babington Smith, Journ. Roy. Statist. Soc. 101, 147) Цифра О 1 23 45 6789 Общее количество цифр Частота 1026 1107 997 966 1075 933 1107 972 964 853 10000 нельзя полностью отнести за счет выборочных флуктуации. Теперь же достаточно отметить, что эти данные наводят на мысль рассмотреть генеральную совокупность с одинаково ча- частыми элементами. Таблица 1.5 показывает распределение проб листвы апельси- апельсиновых деревьев, пораженных черными щитовками (black — sca- leinsect) *). Нулю соответствует наибольшая частота, частоты для больших значений варианты убывают более или менее ре- регулярно. Таблица 1.5 Распределение 821 пробы (десять листьев и их стебель) с апельсиновых деревьев по числу черных щитовок в пробе (W. M. Upholt and R. Craig, 1940, Jour. Econ. Entom. 33, 113) Число щитовок v Частота .... 0 199 1 124 2 106 3 65 4 42 5 46 6 36 7 30 8 14 >8 159 Общее число проб 821 В таблице 1.6, показывающей распределение женщин-само- женщин-самоубийц в некоторых немецких государствах в течение ряда лет Таблица 1.6 Женские самоубийства в девяти немецких государствах в течение четыр- четырнадцати лет (Von Bortkiewicz, Das Qesetz der kleinen Zahlen, 1898) Число самоубийств в год Частота 0 9 1 19 2 17 3 20 4 15 5 11 6 8 7 2 8 3 9 5 10 и больше 3 Всего 112 *) По-видимому, здесь имеется в виду Parlatoria ziziphi Lucas. (Прим. перев.)
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 23 в соответствии с вариантой «число самоубийц в год», частота достигает максимума на 1—3 самоубийцах в год, а затем мед- медленно убывает. Частотные распределения: непрерывные варианты 1.10 Таблица 1.7 показывает распределение взрослых муж- мужчин в Соединенном Королевстве (включавшем в момент сбора Таблица 1.7 Распределение взрослых мужчин, родившихся в Соединенном Королевстве (включая всю Ирландию) по росту (Из Final Report of the Anthropometric Committee to the British association, 1883, стр. 256.) Поскольку измерения производились, как указывается, в числах, кратных -~- дюйма, класс-интервалами кс 15 ст 15 являются здесь, по-видимому, интервалы 56 -г^-—57 -у^-, ет 15 ко 15 57 т^— 58 -77Г и т. д. 16 16 Рост без обуви (дюймы) 57— 58— 59- 60- 61- 62— 63— 64— 65— 66— 67 ¦ Число мужчин с ростом в ука- указанных границах 2 4 14 41 83 169 394 669 990 1223 1329 Рост без обуви (дюймы) G8— 69— 70— 71- 72- 73- 74— 75— 76— 77— Общее число мужчин Число мужчин с ростом в ука- указанных границах 1230 1063 646 392 202 79 32 16 5 2 8 585 данных всю Ирландию), в соответствии с их ростом в дюй- дюймах*). Соответствующий полигон частот изображен на рис. 1.3. Мы видим, что распределение почти симметрично, максималь- максимальная ордината приходится на 67 дюймов, по обе стороны от сво- своего максимума частота постоянно убывает. *) 1 дюйм=2,5 см. (Прим. перев.)
24 ГЛАВА 1 Такое более или менее равномерное убывание частот до- довольно характерно для рассмотренных распределений, однако 7200 900 600 000 mm **- / 1 1 1 J 1 1 A 4 \ \ \ \ \ \ \ \ ——. 5S 58 S0 62 G4 66 68 70 72 74 76 78 80 Рост, дюймы Рис. 1.3. Полигон частот для данных таблицы 1.7. Отмеченные значения абсцисс соответствуют началам класс-интервалов. Таблица 1.8 Распределение свадеб в Австралии за 1907—1914 годы в соот- соответствии с возрастом жениха (длины класс-интервалов взяты трехлетними) (данные Преториуса (S. J. Pretorius), A930), Biometrika 22, 210) Возраст жениха (центр трехлет- трехлетнего интервала, в годах) 16,5 19,5 22,5 25,5 28,5 31,5 34,5 37,5 40,5 43,5 46,5 49,5 52,5 Число свадеб 294 10995 61001 73054 56501 33478 20569 14 281 9 320 6236 4770 3620 2190 Возраст жениха (центр трехлет- трехлетнего интервала, в годах) 55,5 58,5 61,5 64,5 67,5 70,5 73,5 76,5 79,5 82,5 85,5 88,5 Общее число свадеб Число свадеб 1655 1100 810 649 487 326 211 119 73 27 14 5 301 785
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 25 свойство симметрии наблюдается в них относительно редко. Таб- Таблица 1.1 грубо симметрична, а таблицы 1.8 и 1.9, первая из кото- которых показывает распределение браков в Австралии в соответ- соответствии с возрастом жениха и вторая — распределение молочных стад в соответствии со стоимостью молочных продуктов, иллю- иллюстрируют различные возможные степени асимметрии. Очень асимметричное распределение представлено в таблице 1.3. Таб- Таблицу 1.10, содержащую распределение мужчин в соответствии с весом, интересно сравнить с таблицей 1.7, показывающей их распределение в соответствии с ростом. Вторая симметрична, а первая нет. Таблица 1.9 Распределение молочных стад в выборке из стад Англии и Уэльса в 1948—1949 годы в соответствии со стоимостью молочных продуктов (Из National Investigation into the Economics of Milk Production — Milk Marketing Board, 1950.) Цена в пенсах за галлон •) Меньше 12 12— 14— 16— 18— 20- 22— Число стад 3 19 52 96 121 115 86 Цена в пенсах за галлон 24— 26— 28- 30- 32- 34— 36 и выше Всего Число стад 70 49 31 16 6 8 7 679 *) I галлон = 4,54 л. (Прим. перев.) 1.11 Если асимметрия распределения, как, например, в таб- таблице 1.3, велика, мы можем оказаться не в состоянии опреде- определить, происходит ли вблизи его максимума убывание по обе сто- стороны или максимум находится в самом начале распределения. В случае таблицы 1.3 положение было бы именно таким, если бы мы не имели данных относительно более мелкого группиро- группирования для первых пяти лет жизни. Такая ситуация наблюдается в таблице 1.2, где максимальная частота приходится, по-види- по-видимому, на или очень близко к доходу в 2000 фунтов в год. Асим- Асимметричные распределения иногда называют «косыми» (skew). Распределения такие, как представленное в таблице 1.2, назы- называются «J-образиымн».
26 ГЛАВА 1 Таблица 1.10 Частотное распределение веса взрослых мужчин, родившихся в Соединенном Королевстве (Источник данных тот же, что и в таблице 1.7. Веса измерялись в целых фунтах*), так что действитель- действительными класс-интервалами являются 89,5—99,5, 99,5—109,5 и т. д.) Вес в фунтах 90— 100— ПО— 120— 130— 140— 150— 160— 170— 180— *) I фучт = Частота 2 34 152 390 867 1623 1559 1326 787 476 = 453,6 г. (Прим Вес в фунтах 190— 200— 210— 220— 230— 240— 250— 260— 270— 280— Полная частота перев.) Частота 263 107 85 41 16 11 8 1 1 7 749 1.12 В редких случаях распределение может достигать мак- максимума на обоих концах. Таблица 1.11, показывающая распре- распределение дней в соответствии со степенью облачности, доставляет Таблица 1.11 Частоты оценок интенсивности облачности в Грин- Гринвиче с 1890 по 1904 (исключая 1901) годы для июля (Данные Gertrude E. Pearse A928), Biometrika 20A, 336.) Степень облачности 10 9 8 7 6 5 Частота 676 148 90 65 55 45 Степень облачности 4 3 2 1 0 Полная частота Частота 45 68 74 129 320 1715
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 27 соответствующий пример. Распределения такого типа называют «U-образными». 1.13 Встречаются также распределения, общий вид которых походит на части уже рассмотренных типов распределений. J-об- разное распределение, например, имеет сходство с «хвостом» симметричного распределения таблицы 1.7. Данные о самоубий- самоубийцах таблицы 1.6 можно рассматривать как некоторое урезанное левее максимума (варианта здесь не может принимать отрица- отрицательных значений) симметричное распределение. Подобные со- соображения иногда полезны при подгонке кривых к наблюден- наблюденным данным. Аналитическая кривая может очень хорошо соот- соответствовать этим данным в некоторой области значений вариан- варианты, но и может продолжаться на значения, недостижимые, так сказать, для данных. 1.14 Рассмотренные до сих пор распределения имеют одну общую черту — они имеют только один максимум или, в случае U-образных кривых, только один минимум. Существуют также распределения, имеющие несколько максимумов. Таблицы 1.12 и 1.13 дают соответствующие примеры. Первая из них, показы- показывающая распределение смертности в соответствии с возрастом при смерти, является типичной для подобного рода таблиц. Вблизи начала распределения имеется максимум, после кото- которого частота быстро убывает, затем опять поднимается до ожи- ожидаемого максимума на возраст 70—75 лет и после этого второго максимума убывает к нулю. Естественно спросить, не будет ли Таблица 1.12 Распределение смертности мужчин в Англии и Уэльсе за 1953 год в соответствии с возрастом при смерти (Источник данных тот же, что и в таблице 1.1) Возраст прн смерти 0— 5— 10- 15- 20- 25- 30— 35— 40— Число смертей 12 244 1043 665 1104 1640 1932 2449 3068 5104 Возраст при смерти 45— 50— 55— 60— 65— 70— 75— 85— 85 и выше Общее число смертей Число смертей 9016 14 507 19204 26 802 34 292 39 644 40162 29 061 17 553 259 490
28 ГЛАВА 1 полезным рассмотреть такое распределение как суперпозицию двух или более распределений, в данном случае, например, как суперпозицию J-образного распределения, соответствующего дет- Таблица 1.13 ск°й смертности, и асиммет- „, . ричного распределения с Распределение трипанозом в Glossina \ „„,„„, \. „ пп ус morsitans в соответствии с длиной максимумом на 70—75 го- в микронах дах, обычного для смертно- смертного К. Пирсону (К. Pearson) A914—1915), сти от старости. Biometrika 10, 112. Длина, по-видимому. Подобное расчленение в целых микронах) сложного распределения могло бы быть произведено и для данных таблицы 1.13, показывающей распределе- распределение трипанозом в мухе цеце, Glossina morsitans, в соот- соответствии с их длиной. Здесь можно подозревать, что рас- распределение образовано сло- сложением нескольких рас- распределений (это, между про- прочим, привело к предположе- предположению, что рассматриваемые трипанозомы представляют смесь различных своих ти- типов). Функции плотности и функции распределения 1.15 Рассмотренные выше примеры иллюстрируют тот заме- замечательный факт, что большинство встречающихся на практике частотных распределений обладает значительной степенью регу- регулярности. Вид полигонов частот и гистограмм, приведенных вы- выше, естественно подсказывает, что наши данные суть аппрокси- аппроксимации распределений, задаваемых гладкими кривыми и просты- простыми математическими выражениями. Этот подход к понятию функции плотности требует, однако, некоторой осторожности, особенно в случае непрерывных распределений. Рассмотрим сначала дискретное распределение типа, зада- задаваемого таблицей 1.4. Обозначим варианту буквой |. Тогда мы можем сказать, что | принимает только десять значений 0, 1, . .., 9 и что частота f(x) значения |, равного х, определяется таблицей: /@) = 1026, /A) = 1107, /B) =997 и т. д. Таблица ча- частот, таким образом, определяет функцию плотности. Более того, большая часть частот, содержащихся в таблице, приблизи- приблизительно равна 1000, и мы можем рассматривать наблюденное Длина [микроны) 15 16 17 18 19 20 21 22 23 24 25 Частота 7 31 148 230 326 252 237 184 143 115 130 Длина (микроны) 26 27 28 29 30 31 32 33 34 35 Полная частота Частота ПО 127 133 113 96 54 44 И 7 2 2500
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 29 распределение как аппроксимацию к распределению Д*) = 1000, х = 0, 1, .... 9 A.1) или, более общо, к K*)=ft,x = 0, I, ...,9. A.2) Это является, возможно, простейшим примером дискретной функции плотности, поскольку f(x) здесь постоянна при всех возможных значениях х Варианта в таблице 1.5, тоже дискретна, но может, теоретиче- теоретически говоря, принимать бесконечное множество значений — имен- именно любое положительное число. Практически, конечно, и здесь варианта ограничена, но, так как мы не знаем границ прини- принимаемых значений, мы можем представлять себе ее неограничен- неограниченной. Функция плотности для этой таблицы по-прежнему опре- определяется просто содержащимися в ней частотами, но если мы хотим перейти к «бесконечному» обобщению подобной таблицы, мы должны допустить, что функция плотности определена для всех целых положительных значений х. Это не представляет трудностей: нужно лишь позаботиться, чтобы можно 'было при- со дать некоторый смысл полной частоте, т. е. чтобы ряд 2 /(•*/) сходился. 1.16 Рассмотрим теперь случай непрерывной варианты. При обычных опытных данных распределения всегда дискретны, по- поскольку степень точности измерений ограничена. Например, мы обычно считаем, что рост человека в действительности может быть любым числом в некоторых пределах, скажем от 50 до 80 дюймов, хотя бы 20 л Практически, однако, мы можем измерить рост только с некоторой степенью точности, например с точ- точностью до одной тысячной дюйма. Измерения образуют при этом последовательность чисел, кратных тысячной дюйма, лежащих между 50 000 и 80 000, а такое значение как 62 831,85 (прибли- (приблизительно равное 20 000 л) невозможно. Все физические измере- измерения подчинены этому ограничению. Тем не менее мы говорим о «непрерывных» вариантах, предполагая при этом, что измерения суть аппроксимации к числам, которые могут принимать любое действительное значение. 1.17 Имея это в виду, мы можем рассматривать распределе- распределение частот при группировании как приближение к понятию функции плотности непрерывной варианты. Если бы в одном из рассмотренных выше распределений, скажем в распределении таблицы 1.7, мы стали разбивать интервалы па более мелкие, то, возможно, обнаружилось бы, что до некоторого момента
30 ГЛАВА I получающиеся частоты ведут себя все глаже и глаже. Читатель может убедиться в наличии этого эффекта, группируя данные таблицы 1.7 для интервалов длиной 8, 4 и 2 дюйма. Л1ы не мо- можем, однако, продолжать процесс слишком далеко, поскольку в случае конечной генеральной совокупности дальнейшие подраз- подразбиения интервалов приведут к тому, что рано или поздно в каж- каждом интервале будет лишь по нескольку элементов и поведение частот станет нерегулярным. Можно предположить, однако, что для не слишком малых величин Ах распределение может быть выражено функцией f(x)Ax, равной частоте для интервала дли- длины Ах с центром в точке х, при всех х из области допустимых, значений варианты. Можно предположить далее, что при стрем- стремлении Ах к нулю генеральная совокупность постоянно растет, благодаря чему предотвращается появление малых и нерегуляр- нерегулярных частот. Этим путем мы подходим к понятию функции плот- плотности непрерывной варианты. Мы пишем dF=f(x)dx, A.3) выражая этим, что элемент частоты dF для интервала между х — irdx и x~\--~dx равен }(x)dx для всех х и малых dx. 1.18 Изложенный интуитивный подход к понятию непрерыв- непрерывного частотного распределения представляется наилучшим для статистических целей. Именно он первоначально привел к появ- появлению этого понятия. Однако при формулировке аксиом и посту- постулатов строгой математической теории рассматривается более общая функция F. Пусть F(x) —функция от х, определенная во всех точках не- некоторого интервала и непрерывная всюду, за исключением, мо- может быть, счетного множества точек. Потребуем, чтобы F обра- обращалась в нуль в наименьшей точке интервала (которая может равняться—оо), была равна постоянной N в наибольшей точке (равной, может быть, + оо) и не убывала ни в какой точке. Та- Такая функция называется функцией распределения. Она соответ- соответствует накопленным частотам частотного распределения, а N соответствует полной частоте. Для таблицы 1.4, например, F(x) =0 при х<0, ^(х) = 1026 при 0<х<\, F(x) ==2133( = 1026 + + 1107) при 1^С*<2 и т. д. F(x) здесь имеет десять точек раз- разрыва. Точки разрыва называются точками скачков, а функция F(x) подобного вида называется ступенчатой функцией. Если функция F(x) не имеет скачков, to она всюду непре- непрерывна и монотонно возрастает. Если F(x) обладает производ- производной, то имеет место уравнение dF = F'(x)dx=f{x)dx, A.4)
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 31 соответствующее A.3); f(x) называется функцией плотности. С математической точки зрения изучение распределений сводит- сводится к изучению функций F(x) n f{x). 1.19 Так определенные функции в двух отношениях являются более общими, чем те, которые появляются в статистике: (l)F(x) может возрастать моно- __^__ тошю без разрывов в не- 200 которой части интервала и затем иметь скачок, т. е. частота может быть неко- некоторое время непрерыв- непрерывной, а потом вдруг стать разрывной; в статистике ^ варианта или непрерывна, § или дискретна всюду на ^ интервале ее изменения; (ll)F(x) может не иметь скачков и в то же вре- 4 70 6 8 Годовой доход, mt/c. фунтов мя может не существо- Рис , 4 ф расПреДелен„я для даи- даивать функции плотности, ных таблицы 1.2. поскольку непрерывная функция может быть недифференцируемой. Во всех рассматри- рассматриваемых дальше случаях для непрерывной варианты функция плотности всегда существует. По причинам, которые станут ясными в главе 7, где изла- излагается теория вероятностей, функцию F(x) иногда называют вероятностной функцией. По существу, однако, она ничего общего с вероят- вероятностью не имеет, и мы бу- будем пользоваться только термином «функция рас- распределения». На рис. 1.4 показан гра- график функции распределе- распределения для данных табли- таблицы 1.2; значения х откла- откладываются по оси абсцисс, значения F(x) — по оси 62 67 Роещ, дюймы 72 Рис. 1.5. Функция распределения для дан- ординат. На рис. 1.5 по- ных таблицы 1.7. казана функция распреде- распределения для данных табли- таблицы 1J. В обоих случаях мы несколько «сгладили» функции, со- соединив концы ординат, вместо того чтобы строить ступеньки. Если варианта непрерывна, то такое сглаживание очень часто
32 ГЛАВА I оправдано; оно дает аппроксимацию непрерывного распределе- распределения, которому, как мы полагаем, подчиняются рассматривае- рассматриваемые данные. 1.20 Если f(x) —дискретная функция плотности, a F(x) — полная частота значений, не превосходящих х, то В непрерывном случае % л л = J df=j f(u)du A.5) A.6) (предполагается, что функция F(x) задана на интервале (а, Ь)). Примем теперь два следующих соглашения, которые до некото- некоторой степени упростят эти выражения. Будем предполагать, если не оговорено противное, что в этих математических выражениях частоты выражены в отношении к полной частоте, так что пол- полная частота равна единице и сумма или интеграл по всему ин- интервалу, где определена функция плотности, тоже равны еди- единице, т. е. F{b) = \. Далее, чтобы постоянно не указывать интер- интервал (а, Ь), мы можем предположить, не ограничивая общности, что F(x) и f(x) равны нулю при х меньших а и F(x) = \, f(x)=O при х больших, чем Ь. Приняв эти соглашения, можем написать A.7) OO /--GO CO г -OO ,F(JC,) = />(*) = Xj) — F{c du = F(c S f( X //(«) — OO Ю)-/7 JC,), dti (_oo)=l. A.8) Если необходимо принимать по внимание полную частоту N, то можно вернуться к безотносительным частотам, умножая на N частоты, задаваемые функцией плотности. Мы будем предпола- предполагать всегда, что функция F(x) непрерывна справа. 1.21 Очень часто мы будем сокращать выражение «функция плотности» до ф. п., а «функция распределения» — до ф. р.
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 33 (в главе 4 встретится выражение «характеристическая функ- функция», которое сокращается до х. ф.). Еще одно соглашение поможет нам иногда избежать гро- громоздких обозначений. Строго говоря, мы должны пользоваться различными символами для варианты (скажем |) и для тех зна- значений, которые она может принимать (например х). Так F(x), как функция от х, есть частота значений g.^C*. Часто удобно, однако, использовать один и тот же символ как для варианты 5, так и для переменной х. Мы говорим при этом о варианте х с ф. п. f(x) и ф. p. F(x). Но всякий раз, когда это может приве- привести к недоразумению, мы будем возвращаться к более строгим обозначениям. Сведения об интегрировании 1.22 Мы уже отмечали выше, что функции, появляющиеся и рассматриваемые в статистической практике, менее сложны, чем общие функции распределения, рассматриваемые математиками. С этим фактом связаны постоянные трудности, которые встре- встречаются при построении систематического курса теоретической статистики. Современная математика развила строгие теории большой общности, однако ценой этому является известная их трудность и абстрактность. Для большинства статистических це- целей этот сложный аппарат не требуется и встречающиеся в ста- статистике функции могут быть одинаково исследованы более прос- простыми методами без потери строгости. В настоящей книге мы, как правило, будем предпочитать эти более простые методы. Такой путь не позволит, однако, преодолеть все встречающиеся трудности. Некоторые из результатов, которые нам потребуются, не могут быть получены простыми способами, так называемые элементарные доказательства других слишком длинны и утоми- утомительны, чтобы их предпочесть более тонким методам, элементар- элементарное изложение третьих может затемнить их статистическую сущ- сущность. 1.23 Обратимся к современной теории интегрирования. Для многих целей было бы достаточно рассматривать интеграл Ко- ши, определяемый обычно при начальном изложении. Пусть функция f(x) определена на интервале (а, Ь). Разделим его точ- точками Xi, хг, ..., хп и рассмотрим сумму sn = f (a) (Xl —a) + f (я,) (х2 - *,) + ... + f (х„) (Ь - хп). A.9) Можно показать, что при некоторых условиях (таких как непрерывность f(x) на (а, Ь)) суммы sn стремятся к пределу, когда длины интервалов разбиения стремятся к нулю неза- независимо от того, как выбираются точки деления и каким образом 3 М, Кендалл, А. Стьюарт
34 ГЛАВА 1 происходит стремление к нулю. Этот предел и называется инте- ь гралом Коши: \f(x)dx. а Определение более общего процесса интегрирования принад- принадлежит Риману и Стильтьесу. Пусть ty(x) —непрерывная функ- функция от х. Выберем gi в промежутке от а до х\, |г в промежутке от Х\ до х2 и т. д. Рассмотрим сумму F(xn)}. A.10) Можно показать, что, когда длина интервалов разбиения равно- равномерно стремится к пулю, суммы s'n стремятся к пределу, не зави- зависящему от выбора точек | и точек деления. Предел этот запи- записывают в виде ь j A.11) и называют интегралом Стильтьеса от функции ty(x) по функ- функции F(x). Риман рассматривал частный случай, когда F(x)—x. 1.24 Преимущество интеграла Стильтьеса состоит в том, что он сводится к интегралу Коши, если функция плотности {(х) не- непрерывна, и к обычному суммированию, если f(x) дискретна. Чтобы не выписывать все формулы дважды, один раз для не- непрерывной ф. п. и другой раз для дискретной, мы будем обычно пользоваться интегралом этого типа, заменяя его в нужных слу- случаях и в зависимости о'т обстоятельств обычными интегралом или суммой. Многие результаты из теории обычного интегрирования вер- верны и для интеграла Стильтьеса. Нам часто придется пользовать- пользоваться следующими его свойствами: ь ь P< A.12) dF<M, A.13) a где М — верхняя грань |г|>(х)| в интервале (a, b); ь ь iF, A.14) где g —некоторая точка, принадлежащая интервалу (a, b)t
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 35 Если ряд ^Eifj(x) сходится равномерно на (а,Ь), то Ъ со оо Ъ S%fj(x)dF = Yi jfjWdF. A.15) a j-\ j-l a Обычные правила интегрирования по частям также примени- применимы к интегралу Стильтьеса. 1.25 Более сложный интеграл был определен Лебегом. Его значение совпадает с интегралом Рнмана — Стильтьеса, если по- последний существует, но область его определения шире, чем у ин- интеграла Римана — Стильтьеса. В обычной теории распределе- распределений интеграл Лебега, как правило, не применяется, однако для строгого изложения преобразований Фурье, в котором мы ну- нуждаемся в ряде разделов теории временных рядов, его исполь- использование представляется существенным*). Преобразования вариант 1.26 Предположим, что переменная у функционально связана с переменной х соотношением х = х(у), у = у(х), A.16) причем функция у непрерывна и дифференцируема по х так же, как и х относительно у. Тогда Следовательно, для непрерывного распределения с ф. p. F(x) ххх(у) F(x) = \dF{x) = j f(x)dx= J f(x)^Ldy. — oo —oo —oo Можно написать, таким образом, ^dy. A.18) Это соотношение выражает тот факт, что элемент частоты в ин- интервале между у — -^dy и y-\--^dy равен f{x(y)}dx/dy. Если *) Читатель, чувствующий, что его математические знания нужно углу- углубить или дополнить, может воспользоваться любым курсом высшей матема- математики для втузов. Этого достаточно для занятий статистикой на вводном уровне. Более специальные сведения содержатся в книге Г. Крамера, Матема- Математические методы статистики, ИЛ, 1948, 3*
36 ГЛАВА I \ — варианта, соответствующая х, то это соотношение можно рассматривать как определяющее варианту т), соответствующую у. Уравнение, определяющее функцию плотности, преобразуется, стало быть, как если бы это было уравнение в дифференциалах. Такие преобразования вариант весьма важны в теории непре- непрерывных распределений. С их помощью многие определенные ма- математически распределения могут быть сведены, в точности или приблизительно, к известным формам. Например, в выборочной теории нам придется изучать рас- распределение 1%\ 0<х<°о. A.19) Легко проверяется, что F(oo)=\. Посредством преобразования t = -K*/} это распределение сводится к 1 -v-i dF= е-Ч* dt, 0<*<оо. A.20) Полученное распределение имеет хорошо известную в анализе форму: его функция распределения есть неполная Г-функция ()/(|) A.21) Распределение ^dt, — oo<*<oo A.22) (г/о выбирается так, чтобы F(oo) = l) симметрично, одновершин- одновершинно, существенно не ограничено._Оно напоминает распределение рис. 1.3. Преобразование t = Yv ^gQ переводит его в sec Полученное распределение сосредоточено на отрезке — -к-я, -= л], но по-прежнему симметрично. Положим sin9 = «. Тогда df = yoYv(\ -u*fv~]du, -1<и<1. A.24)
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 37 и, заменив еще и2 на х, г- -I !v-l dF = y0Y\ х 2A — хJ dx, 0<л-<1. A.25) По поводу последнего из этих преобразований нужно отметить следующее. Когда и меняется от —1 до +1, х меняется от +1 до 0 и затем опять до +1. При этом отрезку @, х) для х-рас- пределения соответствует отрезок (—и2, и2 )для «-распределе- «-распределения. В тех случаях, когда применяемые преобразования не вза- взаимно однозначны, следует обращать внимание на явления, по- подобные только что указанному. 1.27 Остановимся специально на следующем преобразовании варианты. Пусть dF=f(x)dxi Положим х у = J f(u)du. —со Тогда ^ l^ . A.26) Мы видим, что при этом преобразовании распределение преоб- преобразуется в распределение, имеющее очень простую «прямоуголь- «прямоугольную форму»: оно сосредоточено на отрезке @, 1) и все значения этого отрезка одинаково часты. Всякое непрерывное распределе- распределение может быть преобразовано к прямоугольной форме. Любое непрерывное распределение может быть преобразовано в любое другое непрерывное распределение: можно взять суперпозицию двух преобразований, первое из которых переводит одно распре- распределение в прямоугольное, а второе представляет собой обратное преобразование, переводящее прямоугольное во второе распре- распределение. Генезис частотных распределений 1.28 До сих пор мы не интересовались происхождением раз- различных наблюденных частотных распределений, рассмотренных выше в целях иллюстрации. Некоторые из них могут рассматри- рассматриваться вне всяких вопросов об их происхождении из большей совокупности. Одним из таких примеров является распределе- распределение смертности, приведенное в таблице 1.12. Если интересовать- интересоваться только распределением смертности мужчин в Англии и Уэль- Уэльсе в 1953 году, то мы имеем перед собой всю рассматриваемую генеральную совокупность,
38 ГЛАВА 1 Однако в большей части случаев совокупность, которую мы в состоянии исследовать, представляет собой лишь часть той большей генеральной совокупности, на которой сосредоточено наше основное внимание. Распределение ростов в таблице 1.7 относится только к части генеральной совокупности мужчин Со- Соединенного Королевства, живших во время обследования, и ос- основной его интерес заключен в той информации, которую оно дает об этой генеральной совокупности. Точно так же распреде- распределение молочных стад в таблице 1.9 интересно главным образом в силу той информации, которая в нем содержится относительно стоимостей молочных продуктов во всей стране. 1.29 В только что упомянутых двух случаях (рост мужчин и стоимость молочных продуктов) мы обладаем информацией о некоторой выборке элементов, извлеченных из реально сущест- существующей генеральной совокупности. Только недостаток времени и соответствующих условий мешает нам исследовать всю гене- генеральную совокупность. Но иногда случается, что имеющиеся данные не относятся к суще- существующей конечной гене- генеральной совокупности. Соот- Соответствующий пример дает таблица 1.14, показываю- показывающая распределение резуль- результатов бросаний игральных костей. Ясно, что в некотором смысле осуществленные бро- бросания не составляют всей ге* неральной совокупности, по- поскольку процесс бросаний мы можем продолжить. В то же время эти дальнейшие бросания не существуют в том смысле, в каком сущест- существуют необследованные муж- мужчины Соединенного Коро- Королевства или необследован- необследованные молочные стада Англии и Уэльса. Их существование в неко- некотором роде гипотетично и «даровано» самим понятием бросания костей. Даже распределения, представляющиеся на первый взгляд отвечающими реальным совокупностям, могут рассматриваться в этом свете. Например, распределение трипанозом в таблице 1.13 получено обследованием определенных мух цеце. Можно считать, что выборка произведена из совокупности всех сущест- Таблица 1.14 Распределение результатов бросаний 12 костей по числу успехов (по числу выпаданий 4, 5 и 6) (Данные Уэлдона (Weldon), цитирован- цитированные Эджвортом (F. Y. Edgeworth, Ency- Encyclopedia Britanica, 11th ed., 22, 39).) Число успехов 0 l 2 3 4 5 6 Частота 0 7 60 198 430 731 948 Число успехов 7 8 9 10 11 12 Полная частота Частота 847 536 257 71 11 0 4 096
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 39 вующих мух цеце, содержащих трипанозомы или нет, реально существующей совокупности, но можно также считать ее выбор- выборкой из гипотетической совокупности, если предположить, что все мухи цеце заражены трипацозомами. Исходная для наблюденного распределения генеральная со- совокупность имеет фундаментальное значение для статистических выводов. Мы еще вернемся к этому вопросу в последующих гла- главах, где рассматривается проблема выбора. Отметили же здесь мы это потому, что нам придется с этим иногда сталкиваться до упомянутых глав. Следует заметить, что различение реальных и воображаемых генеральных совокупностей не является просто предметом онтологической спекуляции (если бы это было так, мы могли бы без ущерба игнорировать его), оно практически важно, когда делаются выводы о генеральной совокупности по извлеченной из нее выборке. Многомерные распределения 1.30 В предыдущих пунктах мы рассматривали элементы ге- генеральной совокупности п соответствии с одной вариантой. По- Построенные там частотные распределения могут быть названы, следовательно, одномерными. Содержание этих параграфов лег- легко может быть обобщено так, чтобы включить в теорию гене- генеральные совокупности, рассматриваемые в соответствии с двумя или более вариантами. При этом будут получаться двумерные, трехмерные и т. д. многомерные частотные распределения. Таб- Таблица 1.15, например, показывает распределение партии бобов в соответствии с их длиной и шириной. Нижняя строка и край- крайний правый столбец содержат частоты одномерных распределе- распределений в соответствии с длиной и шириной бобов в отдельности, а средняя часть таблицы показывает совместное изменение этих качеств. Что касается одномерных вариант, если их рассматривать в отдельности, то они могут быть как дискретными, так и непре- непрерывными, и иногда встречаются случаи, когда одна варианта — одного типа, а другая — другого. 1.31 При обобщении полигона частот и гистограммы для представления двумерного распределения строятся трехмерные фигуры. Представим себе горизонтальную плоскость с парой перпендикулярных осей на ней, разделенную на клетки подобно шахматной доске, причем прямые, образующие клетки, прове- проведены перпендикулярно осям в концах класс-интервалов. В цен- центре каждого двумерного интервала (в клетке) перпендикулярно восставляем отрезок, пропорциональный по длине частоте, отве- отвечающей интервалу. Вершины построенных вертикальных отрезков
Таблица 1.15 Распределение бобов по их длине и ширине (Данные Йохансена (Johannsen), цитированные Преториусом (S. J. Pretorius), A930), Biometrika 22, ПО.) Длина в мм (центральные значения) Q 19^ if 8,875 5 8,625 I 8,375 5 8,125 eg §• ' 7,875 I 7,625 | 7,375 " 7,125 s о. 6,875 к 3 6,625 6,375 Всего 17 л 2 — — — — — — — — 6 16.5 9 о 23 18 4 — — — — — — 55 16 17 101 105 41- 7 1 — — — — 275 15,5 1Q 156 494 375 81 4 — — — — 1 129 15 з 93 574 956 385 65 6 — — — 2 082 14,5 23 227 913 871 236 23 1 — — 2294 14 2 56 362 794 469 91 13 — — 1787 13,5 9 73 330 361 137 18 1 — — 929 13 — — 12 89 175 124 28 9 — — 437 12,5 — — 3 19 55 78 35 8 — 1 199 12 — — — 3 27 37 25 21 2 — 115 11,5 _ — — 4 22 32 12 — — 70 и — — — — — 11 И 13 1 — 36 10,5 — — — — — — 6 7 4 1 18 — — — — — 1 1 1 3 1 7 9,5 _ — — — — — — 1 1 Всего с ЛЯ 400 1483 2 742 2 579 1397 530 170 72 10 4 9 440
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 41 соединяются: вершина отрезка, проведенного из центра некото- некоторой клетки, с вершинами четырех других отрезков, проведенных из центров тех соседних клеток, которые имеют общую сторону с исходной клеткой. Получившаяся фигура называется двумер- двумерным полигоном частот, или стереограммой. Подобным образом на каждой клетке можно построить пря- прямоугольный пераллелепипед, имеющий основанием эту клетку и по объему пропорциональный частоте, отвечающей этой клет- клетке. В результате получается двумерная гистограмма. На рис. 1.6 показана гистограмма для данных таблицы 1.15. Длина. Рис. 1.6. Двумерная гистограмма для данных таблицы 1.15. 1.32 Непрерывное двумерное распределение вариант xt и х2 можно записать в виде dF = f (Xi, х2) dxx dx2. A.27) При выполнении обычных соглашений двумерная функция рас- распределения равна тогда F(xltx2)=j \\(,ux,ii2)duxdu2. A.28) — оо — со В случае дискретного распределения интеграл в A.28) заме- заменяется суммой. Если зафиксировать какое-либо значение одной варианты, скажем x2 = k, то другая варианта будет иметь отвечающее ей одномерное распределение. Так как в соответствии с принятыми соглашениями полная частота должна равняться единице, то
42 ГЛАВА 1 это распределение имеет вид rfM*i) = l{Xl'k)dXi • A.29) J { (хи k) Распределение A.29) называется условным распределением Х\ при условии x2=k. Маргинальные (частные) распределения 1.33 Суммы на краях таких таблиц, как таблица 1.15, задают частотные распределения каждой из вариант в отдельно- отдельности. Частота любого значения варианты х2 получается суммиро- суммированием по всем значениям Xi так, что если F(xitx2) —ф. р. ва- вариант Xi и Х2, то одномерная ф. p. Xi равна F(xuoo), а одномер- одномерная ф. р. х2 есть ^(оо,^). В терминах функции плотности f °° 1V u I J , x2)dx2 ydxv A.30) dF2 (x2) = 1 j f(xlt x2) dxx dx2. A.31) Эти одномерные распределения называют маргинальными (или частными) распределениями. В экономическом контексте термина «маргинальный» в таком понимании лучше избегать, поскольку в экономике ему обычно придают другой смысл; во- вообще же он удобен и в практике его применение едва ли вызы- вызывает какие-либо трудности. Независимость 1.34 Если F(xu x2) = F(xu oo)/=-(oo, x2) = F1(x1)F2(x2), A.32) то Х\ и х2 называются независимыми. В том случае, когда суще- существуют ф. п., имеем xt Хг хх х2 | J f (xu x2) dxx dx2 — j h (JCi) dxx J \2 (x2) dx2, — CO -CO —CO —CO и, следовательно, f(x» x2) = f1(x1)fs(x2). A.33)
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 43 Таким образом, ф. р. и ф. и. распадаются па два множителя, ко- которые суть ф. р. и ф. п. для каждой варианты в отдельности. Легко видеть, что это определение статистической независимо- независимости согласуется как с обычным, так и с математическим понима- пониманием независимости. Условное распределение х2 при любом фик- фиксированном Х\ (например, распределение в строке или в столбце двумерной таблицы частот) одно и то же, т. е. распределение х2 независимо от х^. Две варианты, не являющиеся независимыми, называются зависимыми. Очевидно, варианты в таблице 1.15 зависимы, по- поскольку распределения как в строках, так и в столбцах далеко не одинаковы. Пример 1.1 Рассмотрим распределение i, дг2<оо. A-34) Число г0 здесь выбрано так, чтобы полная частота равнялась единице. Положим f/l = - Хх Имеем <НУь У г) д(х1гхг) A -p2J 1 ] c.d-p2I 0 а2A-р2J J_ а2 A 2 1 A-Р2J ¦*2 (J2, Распределение, следовательно, принимает вид dF = W-2 A — Р2)Т ехр | — -j (у2 + у2) J dy1 dy2 = -P2Je 2^1 1 2 A.35) Исходные варианты, очевидно, зависимы, так как A.34) не мо- может быть разложено в произведение функции, зависящей только
44 ГЛАВА 1 от xi, на функцию, зависящую только от х2. Из формулы A.35) вытекает, что преобразованные варианты независимы. Заметим, что A.35) позволяет легко вычислить 20- Действи- Действительно, так как то, интегрируя правую часть A.35) по у4 и у2 и приравнивая полученное выражение к единице, получаем 1.35 В рассмотренном примере мы использовали якобиан для перехода от одной пары вариант к другой. Это преобразо- преобразование имеет, конечно, общий характер. Если dF=f(xi,x2)dx1dx2 и xi=xl(yl,y2), хг=х2{уиу2), то функция плотности вариант у4 и у2 дается формулой / {*i {уи У2), х2 (yv у2)} J, A.36) где д (хи хг) дух д B/ь 2/г) ду2 причем якобиан / в A.36) должен браться по абсолютной ве- величине. Если / меняет знак в области интегрирования, то мо- могут возникнуть некоторые неясности, требующие специального внимания. Мы будем останавливаться на этом каждый раз, ког- когда это необходимо. 1.36 Переход от двумерного случая к n-мерному не предста- представляет затруднений. Например, если ф. p. F(xu ..., хп) может быть записана в виде =zF(xu оо, ..., oo)F(oo, х2 оо) ... F(co, оо хп), A.37) то соответствующие варианты независимы. Здесь следует сде- сделать замечание: чтобы п вариант были независимы, недостаточ- недостаточно, чтобы каждые две из них были независимы, т. е. уравнение A.37) может не выполняться, в то время как F(хг, х2, оо, ..., оо) = = F(xv 00,00,..., oo).F(oo, х2, оо, ..., оо) A.38)
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 45 и аналогично для остальных х. Когда речь идет о независимо- независимости совокупности вариант, число которых больше двух, важно, следовательно, точно указывать, что имеется в виду. Варианты, удовлетворяющие условию A.37), назовем взаимно независи- независимыми. Если каждые две варианты из совокупности удовлетво- удовлетворяют соотношению типа A.38), то скажем, что эти варианты по- попарно независимы. Производящие функции 1.37 При изучении распределений, заданных математически, особенно дискретных, часто удобно пользоваться представляю- представляющими их производящими функциями. Предположим, что частота варианты х, принимающей значения 0, 1, 2, ..., равна fr для х = г. Производящей функцией варианты х называется функция 2 г-0 A-39) Найдем, для примера, производящую функцию так называемого биномиального распределения, которое мы изучим довольно по- подробно позднее. Для этого распределения частота значения х=г (г = 0, 1, ..., п) равна , A.40) и производящая функция, следовательно, имеет вид j-0 УПРАЖНЕНИЯ 1.1 Построить полигоны частот и гистограммы следующих распределений: Таблица 1.16 Распределение результатов 4026 бросаний 12 костей в соответствии с числом успехов; успехом считается выпадение 6 очков (Данные Уэлдона; источник тот же, что и в таблице 1.14) Число успехов Число бросаний 0 447 1 1145 2 1181 3 796 4 380 5 115 6 24 7 и больше 8 Общее число бросаний 4096
46 ГЛАВА 1 Таблица 1.17 Распределение предложений по их длине в отрывках из очерков Маколея о Бэконе и Чатаме (По Юлу (О. Udny Yule) A939), Bio- metrika, 33, 363.) Длина предло- предложения в словах 1—5 6— 11- 16— 21— 26— 31— 36— 41— 46— 51— 56— 61— Число предло- предложений 46 204 252 200 186 108 61 68 38 24 20 12 8 Длина предло- предложения в словах 66— 71— 76— 81— 86- 91— 96— 101— 106— 111— 116— 121— Общее число пред- предложений Число предло- предложений 2 4 8 2 2 1 2 1 — 1 — 1 1251 Таблица 1.18 Распределение черепов древних егип- египтян в соответствии с длиной левой затылочной кости (в мм) (По By (Т. L. Woo) A930), Biometrika 22, 324.) Длина (централь- (центральные значения) 84,5 86,5 88,5 90,5 92,5 94,5 96,5 98,5 100,5 Часто- Частота 12 12 32 48 79 116 104 126 123 Длина (централь- (центральные значения) 102,5 104,5 106,5 108,5 110,5 112,5 114,5 116,5 118,5 Полная частота Частота 74 68 36 18 7 4 4 1 864 Таблица 1.19 Распределение племенных конематок (скаковых лошадей) по плодовитости; отношение числа произведенных годов алых жеребят к числу покрытий (учи- (учитывались только кобылы, покрытые не меньше восьми раз) (Пирсон, Ли и Мур (Pearson, Lee and Moore) A899), Phil. Trans. A192, 303. Из случаев, отвечающих границе между двумя интервалами, половина отно- относилась к каждому из граничащих интервалов.) Плодовитость 1/30—3/30 3/30—5/30 5/30—7/30 7/30—9/30 9/30—11/30 11/30—13/30 13/30—15/30 15/30—17/30 Число кобыл, плодо- плодовитость которых находится в указанных границах 2,0 7,5 11,5 21,5 55,0 104,5 182,0 271,5 Плодовитость 17/30—19/30 19/30—21/30 21/30—23/30 23/30—25/30 25/30—27/30 27/30-29/30 29/30—1 Общее число ко- кобыл Число кобыл, плодовитость которых находится в указанных границах 315,0 337,0 293,5 204,0 127,0 49,0 19,0 2 000
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 47 Таблица 1.20 Частотное распределение участков площадью 1/500 акра, взятых на пшенич- пшеничном иоле, в соответствии с урожаем зерна в фунтах (Мерсер и Холл (Mercer and Hall) A911), Journ. Agr. Science, 4, 107.) Урожай зерна в фунтах на 1/500 акра (центральное значение интервала) 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2 4,4 4,6 4,8 5,0 5,2 Общее число участков Число участков 4 15 20 47 63 78 88 69 59 35 10 8 4 500 Таблица 1.21 Частотное распределение 166 водителей лондонских автобусов в соответ- соответствии с числом случившихся с ними несчастных происшествий в течение: а) одного года, б) пяти лет (Фармер и Чеимберс (Е. Farmer and E. О. Chambers) A939)) (Jndustrial Health Board Report 84, London, H. M. Stationery Office.) Число несчаст- несчастных проис- происшествий 0 1 2 3 4 5 6 7 Число водителей, с которыми случилось указанное число несчастных происшествий в течение одного года 45 36 40 19 12 8 3 2 в течение пяти лет 1 2 3 14 17 21 17 14 Число несчаст- несчастных проис- происшествий 8 9 10 11 12 13 14 15 или больше Общее число водителей Число водителей, с которыми случилось указанное число несчастных происшествий в течение одного года 1 - 166 в течение пяти лет 14 12 13 9 6 2 6 15 166
48 ГЛАВА 1 Таблица 1.22 Распределение группы сделавших абор- аборты женщин по времени, прошедшем между зачатием и абортом (в неделях) (по Пирсу (Т. V. Реагсе) A930), Bio- metrika 22, 250) Время (недели) 4 5 6 7 8 9 10 11 12 13 14 15 16 Частота 3 7 10 13 14 29 22 21 18 28 16 19 10 Время (недели) 17 18 19 20 21 22 23 24 25 26 27 28 Общее число женщин Частота 13 14 8 4 2 10 4 4 3 4 6 1 283 1.2 Построить графики следующих функций и сравнить их вид с полиг нами частот и гистограммами распределений предыдущего упражнения: 4" у=уае — со < х < со, — оо<х<оо, 2/о л > 0, —ос :*, а, Ь > 1, г/ = 2/оA— х*)а, я<0, —1 1.3 Показать, что следующие распределения: dr, —1 <><; 1, -dt, — co<^<oo, ¦fi/vy zoe v,z - dz, — со < г <; do,
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 49 могут быть преобразованы к виду 4'1 dx, и найти соответствующие преобразования. (Все эти распределения имеют важ- важное значение- в статистике. Распределение, к которому они сводятся, назы- называется распределением I типа или В-распределением.) 1.4. Построить стереограммы или двумерные гистограммы следующих распределений: Таблица 1.23 Распределение обследованных студентов Лондонского университета A955 г.) в соответствии с A) числом прочтенных и B) числом просмотренных газет в течение дня (Букер (Н. S. Booker), неопубликованные данные.) B) Число только просмотренных газет S и а ? 0 S 1 S 2 1 з И 4 § 5 или больше о а* _ Всего у—* 0 77 179 86 17 4 2 365 1 75 136 70 21 2 2 306 2 19 65 45 13 2 — 144 3 10 20 18 3 2 2 55 4 1 15 1 4 — 21 5 или больше 2 2 3 — 7 Всего 184 417 223 58 10 6 898 1.5 Доказать, что для того, чтобы функция l(xv х2^ = г0ехр^Ах^-\-2Нх1х2-\-Вх^, могла быть функцией плотности, необходимы следующие условия: (а) А < 0, (б) 5<0, (в) АВ— Яг>0. Показать также, что если эти условия выполнены и интеграл от f(Xi,x2) по Обеим переменным в пределах от —оо до со равен единице, то za~ — — А Н н —в 1.6 Показать, что двумерное распределение ехР\—ГГ посредством преобразования u=y/(l+x), d=1/A+*) сводится к распреде- распределению dF = kue~u dudv, 0<и<оо, и что, стало быть, k—\.
50 ГЛАВА 1 Таблица 1.24 Распределение 4912 эрширских коров в соответствии A) с возрастом в годах, B) с удойностью за неделю (по Точеру (J. F. Tocher), A928), Biometrika 20B, 106) A) Возраст в годах эвала) s R о я 1П 5 и ? 12 5 13 <u 14 S 15 |S 16 1 17 t 18 J> 19 - 20 •=- 21 s 22 ° 23 S 24 Ь 25 S 26 g 27 «=t 28 я 29 я -эл n "^ 1 34 о ^ Всего 3 ¦3 2 2 9 11 11 15 16 11 10 8 3 5 1 2 3 — — — — — 112 4 о 10 25 76 76 115 149 148 146 117 97 63 42 19 20 10 7 2 — 1129 5 9 i 8 17 29 57 79 119 131 132 112 107 93 63 33 23 15 13 7 2 2 о — 1047 6 i 7 9 18 38 43 74 94 83 113 79 88 49 38 34 22 7 9 1 2 i о 812 7 1 •3 1 5 9 23 34 59 58 73 87 69 70 45 38 27 17 4 5 4 4 636 8 _ 4 2 9 24 23 34 49 51 51 49 32 91 19 20 15 5 2 1 о 419 9 1 4 4 7 11 ?3 32 39 35 25 31 14 17 13 8 2 4 1 3 о 276 10 _ 2 1 6 8 16 15 22 .3,3 30 29 18 17 9 10 4 2 1 223 li i 2 1 1 4 4 9 12 17 11 13 9 10 12 3 3 2 с 1 О 1 122 12 1 1 1 2 5 7 6 6 10 10 7 3 7 2 4 3 75 13 — — 3 1 4 5 5 2 3 4 1 1 1 1 — i 32 14 1 — 1 — 2 — 1 3 3 — 2 2 — — 15 15 _ 1 . 1 I 1 __ 1 2 — 7 1С _ 1 — — 1 2 17 _ — 1 1 — — 1 1 — — 4 18 _ — — _ 1 —. 1 Всего 1 14 33 71 151 236 339 499 552 585 586 496 448 284 214 153 112 58 35 13 15 л с 9 1 1 4912 1.7 Показать, что в двумерном распределении k равно 9/2 и что маргинальное распределение х есть 1.8 Построить график функции плотности распределеиия dF— k sech"xdx, — оо< х<!со,
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 51 и показать, что k = — 1.9. Три варианты независимы и имеют одинаковое распределение 1 --* ЛР ~ г— е 2 clx, — со < х < оо. Переходя к новым вариантам посредством преобразования показать, что игреки тоже взаимно независимы и имеют распределение того же вида. 1.10 Применить к вариантам предыдущего упражнения сферическое пре- преобразование Xi = r cos ©I cos 92, jcs = г cos 9| sin 9S, Показать, что варианты г, 9[ и 9г взаимно независимы и что распределение первой из них есть /т \ — е r2dr, 0<г<со. 1.11 Показать, что маргинальное распределение х для двумерного рас- распределения ¦с 1 ( —I / х2 dF = j-exp — ( 1 i 2A — () 2ла,а2A-р2J l — co^x, у 4^ со, имеет вид 1 / x2 \ dF = -== exp {— —r- I dx, — со < x <; со. а,У2Н V\ 2o\) Сделать набросок совместного распределения х и у и рассмотреть предель- предельный случай при р->1. 1.12 Показать, что для двумерного распределения 2ла,а2 A — ps) 2 п — 1 dxdij п 2 Г 1 ' * ¦)""' ит» ' оо <-«:,«/^ оо,
52 ГЛАВА I маргинальное распределение х имеет вид г(—г) — — - r-dx, —оо<дг< а,/Bя)(п —2) Г (га — 1) . 2 .я_1 A-1 ?\ 2 2(« (К. Пирсон, A923), Biometrika 15, 231.) 1.13 Пуассоновским называется распределение, для которого частота значения х=>г (г=0,1,2,...) равна е~ ^//"(.Показать, что производящая функ- функция этого распределения есть Р@=ехр {Я. (*-!)}. 1.14. Дискретное распределение, для которого частота значения х=г (г=0,1,2,...) равна , m\-kY(k- (k — целое), называется отрицательным биномиальным распределением. По- Показать, что есть производящая функция этого распределения. 1.15 Распределение варианты сосредоточено иа интервале 0<;.v-<oo и имеет вид dt=*\(x)их.. Написать распределение этой варианты в интервале xa^,x4^oz> (*o>O). Показать, что если оно имеет тот же вид, что и исходное распределение, то f(x)=ke-hx. Можно предположить, что функция f(x) диф- дифференцируема. 1.16 Задано га-мерное распределение 2 jj ...dxn, —оо<аг, аг„<оо, i, / где a.ij=a1i. Показать, что показатель экспоненты здесь может быть записан в форме Я-1 \2 я-1 alnajn где Ьи = ац , i,j=\, 2, ...,ra — 1. Пользуясь этим фактом, найти линейное преобразование исходных переменных во взаимно независимые пе- переменные, имеющие каждое распределение dF = —\=-e-ull™du, -оо<и<оо. в у 2л 1.17 Пусть f(x, у)—дифференцируемая функция плотности двумерного распределения. Доказать, что линейное преобразование, переводящее вариан- варианты в независимые, существует тогда и только тогда, когда
ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ 53 где А, Н и В — постоянные. Показать далее, что для распределения из упраж- упражнения 1.11 существует бесконечно много линейных преобразований, перево- переводящих варианты в независимые. 1.18 Три варианты к, у и г неотрицательны, удовлетворяют неравенству дс+г/+г<1 и имеют распределение dF= Показать, что Г (/) Г (я) Г (л) * 1.19. п вариант имеют распределение Н F — k Y * V ^ 1* ^ О I V I 1* 1 I у" \ //у /У v* UJ П,Л j ДП •..^¦и g 1Л] g Л 2 p^ ... I Til *л** 1 .••ь*Лд. я Все они неотрицательны и удовлетворяют неравенству ^ ¦*/^1< Показать, что 1 п где Z. = ^ */• 1.20. Показать, что если функцию g(x) можно разложить в равномерно сходящийся ряд по степеням х, то оо Я J sin2x)dx= § g -оо 0 Сделать набросок распределения .„ k sin2* cos2 x . . dr = : s dx. — со ^1 x ^1 со x A -\- sin x\ и показать, что l/k = я(У2— l). 1.21. Каждая из независимых вариант х\, х2 имеет распределение dF = —==-ехр (— — х21 dx, — со<лг<со. У2я \ ^ / Показать, что варианты независимы и имеют прямоугольное распределение на @,1). (Бокс и Мюллер (Box and Muller), 1958, Ann. Math. Statist. 29, 610.) 1.22 Fi(X[), F2(X2) —одномерные ф. р. Показать, что функция где 0 — постоянная (— 1 <6<! 1), есть двумерная ф. р. (Ср. Гамбел (Е. J. Gumbel), 1960, J. Amer. Statist. Ass. 55, 698.)
ГЛАВА 2 МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 2.1 Из материала главы 1 видно, что частотные распределе- распределения, возникающие в статистической практике, чрезвычайно раз- разнообразны. Некоторые из них сосредоточены на конечных интер- интервалах, другие — на бесконечных. Одни симметричны, другие же, наоборот, имеют заметно асимметричную форму. Некоторые рас- распределения обладают только одним максимумом, другие же — несколькими. Однако среди этого разнообразия форм распре- распределений можно выделить четыре общих типа: (а) симметричные распределения с одним максимумом (например, распределение в таблице 1.7); (б) асимметричные или косые распределения с одним максимумом (например, распределения в таблицах 1.8 и 1.9); (в) крайне асимметричные, или J-образные, распределе- распределения (см., к примеру, таблицу 1.2); (г) U-образные распределе- распределения, примером которых служит распределение в таблице 1.11. Если желать сделать эту классификацию исчерпывающей, надо было бы в пятый класс отнести все те распределения, которые не вошли в четыре первых класса. Распределения с единственным максимумом в дальнейшем будут называться «унимодальными» (одновершинными). 2.2 В статистической практике часто возникает необходи- необходимость сравнения двух распределений. Если одно из них уни- унимодально, а другое, скажем, J-образно или мультимодально (многовершинно), то ясно, что провести хотя бы в общих чер- чертах их сравнение, ограничиваясь рассмотрением небольшого чис- числа их характерных признаков, будет затруднительно. В этом случае, возможно, придется полностью специфицировать каждое из распределений. Но если оба распределения принадлежат к одному и тому же типу (а именно такие случаи чаще всего воз- возникают), то мы можем сделать вполне удовлетворительное сра- сравнение, ограничиваясь сопоставлением их некоторых главных характеристик. Например, если оба распределения унимодаль- унимодальны, то весьма правдоподобно, что вполне достаточно выявить: (а) расположение их некоторых главных значений, таких как, например, максимумы, дающие представление о расположении
МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 55 распределения; (б) степень разброса распределений около этих значений и (в) степень отклонения распределений от симмет- симметричной формы, так называемую асимметрию. Та же проблема возникает, конечно, и тогда, когда распреде- распределения задаются математическими функциями. Если, например, мы имеем два распределения типа dx, —oo<x<oo, каждое из которых симметрично около точки х=т, то полное их сопоставление может быть сделано путем сравнения констант т и а, определяющих распределения указанного типа. Такие константы называются параметрами распределения*). Меры расположения: арифметическое среднее 2.3 Существуют три группы мер, применяемых для описания характера расположения распределений: среднее (арифметиче- (арифметическое, геометрическое и гармоническое), медиана и мода. Мы рассмотрим их по очереди. Арифметическое среднее — одна из наиболее употребитель- употребительных статистических мер. Оно употреблялось еще задолго до по- появления статистики как науки. Если функция плотности равна f(x), то арифметическое среднее №{ = №[ (а) относительно точки х = а определяется формулой**) со со р[(а)= J (х — a) f (х)dx = j(x — a)dF. B.1) — оо —оо Последний интеграл надо понимать как интеграл Стильтьеса, и, следовательно, в дискретном случае он превращается в сумму. Частным случаем этой формулы является арифметическое сред- среднее из конечного числа значений. В соответствии с нашими обычными соглашениями в фор- формуле B.1) частота f(x) предполагается нормированной, т. е. *) В прошлом существовала некоторая разница в понимании параметров распределения. Мы будем употреблять этот термин только для обозначения величин таких, например, как т и о, которые явно входят в формулу функ- функции распределения. Поэтому среднее и дисперсия в нашем смысле, вообще говоря, не являются параметрами, хотя в рассмотренном примере т равно среднему, а а2 — дисперсии распределения. **) Часто в дальнейшем под средним nt (без указания точки, относи- относительно которой оно берется) понимается среднее относительно нуля. (Прим. перев.)
56 ГЛАВА 2 оо Г f(x)dx = \. Если фактические частоты обозначить g(x), — оо оо а полная частота равна N, т. е. g(x)dx = N, то в непре- рывном случае и в дискретном случае J--CO Значение арифметического среднего, таким образом, зависит от значения а, т. е. от точки, относительно которой производятся измерения. Вообще говоря, для распределений, задаваемых фор- формулами, интеграл B.1) может и не сходиться. В таком случае говорят, что арифметическое среднее не существует. 2.4 Вычисление арифметического среднего осуществляется довольно просто для распределений, задаваемых численно (т. е. таких, для которых частотные распределения задаются в форме таблиц, подобных рассмотренным в главе 1). Если генеральная совокупность содержит относительно малое число значений, то мы просто их суммируем и делим на их общее число N. Если же эти значения представлены в форме таблиц, содержащих и частоты значений, то предпочтительнее воспользоваться более формальной процедурой, хотя, в принципе, той же самой. В чем состоит эта процедура, наглядно иллюстрируется в следующем примере. Пример 2.1 Вычислить арифметическое среднее значение роста мужчин, используя данные таблицы 1.7. Прежде чем переходить к подсчетам, заметим, что если b есть некоторое другое значение, отличное от а, то -a). B.2) Другими словами, мы можем найти среднее значение относи- относительно произвольной точки, если только известно среднее отно-
МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 57 сительно какой-нибудь одной точки. Поэтому при вычислении среднего относительно нужной точки можно его вычислять сна- сначала около произвольной точки, которую следует выбрать так, чтобы упростить выкладки, а затем уже простым пересчетом найти нужное среднее. Для облегчения вычислений эту вспомо- вспомогательную точку рекомендуется выбирать где-нибудь вблизи максимума частотного'распределения. Некоторое затруднение возникает в случае группированных данных таких, как в этом примере. Мы не знаем точно индиви- индивидуальных значений варианты внутри любого данного класс-ин- класс-интервала. Поэтому мы условимся считать эти значения совпа- совпадающими с центром соответствующего интервала. Поправки на искажения, возникающие в результате такой процедуры, будут рассмотрены в главе 3. При этом в действительности для ариф- арифметического среднего никаких поправок не потребуется, если только функция плотности на обоих концах распределения имеет касание оси абсцисс достаточно высокого порядка. Таблица 2.1 Вычисление арифметического среднего для распре- распределения, заданного таблицей 1.7 A) Рост в дюймах 57— 58— 59— 60— 61— 62— 63— 64— 65— 66— 67— 68— 69— 70— 71— 72— 73— 74— 75— 76— 77— Суммы B) Частота / 2 4 14 41 83 169 394 669 990 1223 1329 1230 1063 646 392 202 79 32 16 5 2 8585 C) Отклонения 1-х — а —10 —9 —8 —7 —6 —5 —4 —3 —2 —1 0 +1 +2 -3 -4 -5 -6 Г7 +8 +9 +10 — D) Произведение 1/ 20 36 112 287 498 845 1586 2 007 1980 1223 —8 584 1230 2126 1938 1568 1010 474 224 128 45 20 +8 763
58 ГЛАВА 2 В рассматриваемом нами случае мы можем выбрать в каче- качестве произвольного начала отсчета а середину интервала 67 дюй- дюймов, т. е. точку 67 -jg- дюймов, и подсчитаем отклонения 1(=х — а). Второй столбец в таблице 2.1 дает значения частот, третий столбец — значения | и четвертый — значения gf. С уче- учетом знака отклонений мы находим 2 (If) — 8763 — 8584 = 179- Следовательно, среднее значение (в дюймах) относительно точ- точки х=0 равно 67 -jg-+ gggg- = 67,46. Пример 2.2 Для распределений, задаваемых математическими формула- формулами, нахождение среднего сводится к вычислению интеграла B.1), когда он существует. Например, для распределения мы имеем 1 В(р,д + 1)_Г(р)Т(д + \) Г(р + д) _ д Ъ(р,д) Г (р + g + l) Г(р)Цд) р+д' Пример 2.3 Если распределение задается производящей функцией, то среднее может быть вычислено следующим образом. Пусть Д//. B.3) Тогда Например, для биномиального распределения и что и дает среднее относительно нуля.
МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 59 Геометрическое и гармоническое средние 2.5 Эти виды средних употребляются в элементарной стати- статистике, хотя и не играют важной роли в высшей теории. Геометрическое среднее из N значений варианты равно кор- корню jV-й степени из их произведения. В том случае, когда неко- некоторые из этих значений равны нулю или отрицательны, геоме- геометрическое среднее не определяется. Если частоты, соответствую- соответствующие значениям х, равны f(x), то B.5) logG= Для ненормированных частот g(x), в сумме равных N, имеем = U(xeJJ)N, B.6) Гармоническое среднее N значений варианты есть обратная величина арифметического среднего для обратных величин этих значений. В обычных обозначениях со - f — J B.7) или для ненормированных частот оо Н N } х — оо в предположении, конечно, что интеграл существует. Пример 2.4' Найдем геометрическое и гармоническое средние для распре- распределения Имеем
60 ГЛАВА 2 Согласно определению В-функции ^(l~x)"-1x''-ldXr=B(p, q), о откуда, дифференцируя обе части равенства по q (что законно в силу равномерной сходимости интеграла и существования вы- выражения, получаемого после дифференцирования), мы получим j ^ q). о Поэтому Гармоническое среднее дается выражением 1 Однако для того чтобы это выражение было конечным, надо по- потребовать q>\. В этом случае ^/)_ (?) {р+д р + д Н Ъ(р,д) T(p + q — \) Г for) q-\ ' так что Заметим, что арифметическое среднее ¦ ! больше, чем гар- гармоническое. В самом деле, ? _1 Р д — \ _,} р откуда требуемое соотношение ^ > // непосредственно сле- следует из того, что Р ъ Р p + q — l ^ p + q ' 2.6 Вообще можно показать, что для распределений неотри- неотрицательных вариант Н < О < nj. B.9)
МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 61 В самом деле, рассмотрим величину где все х — действительные числа. Покажем, что A(t) —возра- —возрастающая функция от t, т. е. A{ti)>A(t2) при tt>t2. В тривиаль- тривиальном случае, когда все значения х равны, эти неравенства пре- превращаются в равенства. Заметим, что при t—\ функция A(t) есть не что иное, как арифметическое среднее; когда t— — 1, мы имеем гармониче- гармоническое среднее, а при t—*0 получаем геометрическое среднее, по- поскольку llm log А = llm (log 2 x*/N)It = lim B *? log x)JN = 2 logx/N. /-*o Положим 7 " Тогда и, следовательно, Выражение в скобках в формуле B.10), совпадающее с ве- величиной ) - (тг 2 у w 2х'1о^2 х) в силу неравенства Коши — Буняковского неотрицательно. Сле- Следовательно, знак производной dF/dt совпадает со знаком t, и поэтому функция F(t) имеет минимум в точке ^=0. Но при ^=0 F—0, значит, функция F неотрицательна. Поэтому производная d log A/dt также неотрицательна, и в силу того, что А > 0, и dA/dt>0. Отсюда следует, что функция A(t)—неубывающая. На са- самом же деле она является возрастающей, за исключением того случая, когда все значения х равны между собой. Неравенства B.9) вытекают теперь очевидным образом из сказанного выше. Отметим, что при их доказательстве мы ограничились для простоты случаем дискретных вариант. Но нетрудно видеть, что проведенный анализ остается справедливым, если сумму заме- заменить интегралом Стильтьеса, так что соотношения B.9) остают- остаются в силе и для общего случая.
62 ГЛАВА 2 В дальнейшем всюду арифметическое среднее будет назы- называться «среднее». 2.7 Неравенство Коши — Буняковского *) в математической статистике используется довольно часто. Поэтому представляется полезным в связи с этим неравенством сделать некоторые замечания. Неравенство, найденное Коши в 1821 году, устанавливает, что если аи &i («=1, ..-,«) —действитель- —действительные числа, то in \2 >С§-4 за исключением того случая, когда все а и b пропорциональны. В этом по- последнем случае строгое неравенство превращается в равенство. Соответствую- Соответствующий результат для интегралов был получен Буняковским в 1859 и Шварцем в 1885 году. Из неравенства Коши — Букяковского можно получить ряд других полезных неравенств, например неравенство Гельдера A889 г.); если Ot, bi, ..., /j («=1, ..., n) неотрицательны, а, E, ..., X положительны и удо- удовлетворяют условию a+p+ ... +к= 1, то за исключением того случая, когда по крайней мере одно из множеств (а}, (Ь) и т. д. состоит из нулей или когда элементы одного из множеств про- пропорциональны элементам всех других. В этих двух случаях неравенство пре- превращается в равенство. Ясное и исчерпывающее изложение затронутых во- вопросов читатель найдет в книге Г. Г. Харди, Дж. Е. Лнттлвуд и Г. Полна «Неравенства», М., ИЛ, 1948. Медиана 2.8 Медиана есть такое значение варианты, которое разде* ляет все частоты на две равные части, иначе говоря, медиана \ie — значение, удовлетворяющее соотношению ¦ \f(x)dx= h(x)dx = ±. B.11) В этом определении существует некоторая неопределенность для случая дискретных распределений, по ее можно избежать, если принять следующее соглашение. Если генеральная совокупность состоит из BЛА+1) членов, то под медианой понимается (N+\)-e по величине значение ва- варианты. Если же совокупность состоит из 2N членов, то усло- условимся считать медиану равной среднему арифметическому ме- между N-м и (N+\)-m по величине значениями варианты. *) В оригинале это неравенство называется неравенством Коши — Шварца. (Прим. персе.)
МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 63 Для распределений, задаваемых численно по класс-интерва- класс-интервалам, характерна обычная неопределенность вследствие группи- группировки. Эту неопределенность можно преодолеть подобно тому, как это делается в следующем примере. Пример 2.5 Найти значение медианы для распределения ростов, рассмо- рассмотренного в примере 2.1. Половина из 8585 наблюдений составляет 4292,5 Число наблюдений, меньших или равных 66 уг дюймов .... 3589 Разность этих чисел 703,5 Частота в следующем интервале 1329 Следовательно, медиана равна (в дюймах) 15 703,5 66Тб+Т329=67'47' Среднее значение (см. пример 2.1) равно 67,46 дюйма, что практически совпадает с медианой. Графический способ определения медианы будет рассмотрен в этой главе несколько позже B.15). 2.9 С математической точки зрения неопределенности, возникающей в определении медианы, можно избежать следующим образом. Нетрудно уста- установить, что для множества значений X\,...,xn сумма 2||—Xi\p, рассматривае- рассматриваемая как функция от |, имеет единственный минимум для некоторого |р, если только р>\. Если р стремится к единице, то |р стремится к пределу, кото- который, по определению, можно принять за медиану (см. Джексон A921)). Распространение понятия медианы на многомерный случай несколько сложно. Для двумерного распределения под медианой понимается пара чисел, каждое из которых есть медиана маргинального распределения [см. Холдейи A948)]. Мода 2.10 Мода, или модальное значение, есть то значение ва- варианты, при котором функция плотности достигает своего мак- максимального значения. Если функция плотности непрерывна и дифференцируема, то мода удовлетворяет соотношениям П*)=5ГК*) = <>. rW = ^r/W<0. B.12) Если f'(x)=O и f"(x)>0, то в точке х достигается минимум и такая точка иногда называется «антимодой». Для распределений, задаваемых численно, а также для дис-» кретных распределений точное определение моды часто оказы- оказывается затруднительным. По существу, понятие моды связано
64 ГЛАВА 2 только с распределениями, обладающими непрерывной плот- плотностью. Так, если частотное распределение сосредоточено в ко- конечном числе точек и значения частот в этих точках равны, то мода в смысле определения, данного выше, не существует. Но, однако, в тех случаях, когда число точек, в которых сосредото- сосредоточено частотное распределение, достаточно велико, то при груп- группировании обычно будет существовать интервал, в котором частота достигает максимума, и тогда можно считать, что значе- значение моды принадлежит этому интервалу. Вообще же у частот- частотного распределения возможно наличие многих максимумов. В этом случае распределение называется мультимодальным. На- Например, для распределения роста мужчин, заданного табли- таблицей 1.7, мода может рассматриваться как значение, лежащее где-то в интервале 67 дюймов. Чтобы оценить моду более точно, надо данное распределение аппроксимировать непрерывной кри- кривой и взять моду этой кривой. Этот процесс «подгонки» будет подробно рассмотрен в главе 6. 2.11 Для симметричных распределений среднее, медиана и мода (а для случая U-образных распределений антимода) сов- совпадают. Для асимметричных распределений они вообще различ- различны. Для унимодальных распределений, не слишком отличаю- отличающихся от симметричных, между этими тремя величинами суще- существует интересная связь, найденная эмпирически. Она состоит в том, что среднее — мода = 3 (среднее — медиана). B.13) Математическое объяснение этого соотношения дается в упраж- упражнении 6.20. Если термин «среднее значение» заменить термином «мате- «математическое ожидание», то можно подметить полезное мнемони- мнемоническое правило: величины математического ожидания, медианы и моды располагаются в том же (или в обратном) порядке, в каком соответствующие термины расположены в словаре. И точно так же как в словаре, медиана располагается ближе к математическому ожиданию, чем к моде. В элементарной статистической теории медиана и мода при- призваны служить мерами расположения. Они легко интерпрети- интерпретируются в привычных терминах (медиана — точка, являющаяся серединой частотного распределения, мода — наиболее часто встречающееся значение), и к тому же в случае распределений, задаваемых численно, медиана более легко поддается определе- определению, чем среднее значение. То, что арифметическое среднее в высшей теории статистики играет более значительную роль, объясняется его превосходными математическими достоинства- достоинствами и некоторыми выборочными свойствами. Но зато медиана
МИРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 65 имеет другие преимущества; так, например, она менее зависит от формы распределения, чем среднее. 2.12 Упомянем также о другой, малоупотребительной мере расположе- расположения, о центре. Эта величина определяется как значение среднего арифмети- арифметического между крайними точками распределения, если таковые существуют. Поскольку это определение зависит от наличия у распределения крайних точек, то для распределений, простирающихся до бесконечности, оно непри- непригодно. Однако центр, так же как и размах (см. ниже, 2.17), имеет некоторое распространение в выборочной теории и легко поддается вычислению. Центр, определяемый но выборочным значениям, иногда называют «срединой раз- мила»). Квантили 2.13 С целью более точного указания расположения кривой частотного распределения можно обобщить понятие медианы, введя несколько подобных ей характеристик. Можно, например, для этого найти три значения варианты, которые разбивают все распределение на четыре равные части. Средняя из этих вели- величин будет, очевидно, медианой, другие два значения соответ- соответственно называются нижними и верхними квартилями. Анало- Аналогично, можно отыскать 9 значений варианты, подразделяющих все распределение на десять равных частей — децили. Вообще можно найти (п—1) точек, разбивающих распределение на п равных частей. Эти точки называются квантилями. Очевидно, что указание квантилей для достаточно больших п, таких, ска- скажем, как 10, дает очень хорошее представление о форме кривой частотного распределения. Даже только указания значения квартилей и медианы дают вполне хорошие сведения о харак- характере распределения. Статистики указанных типов будут систе- систематически изучаться в главе 14. 2.14 Нахождение квантилей для распределений, заданных численно, осуществляется точно так же, как и определение ме- медианы. Неопределенность, возникающая при отыскании кванти- квантилей, может быть разрешена соглашениями, аналогичными ука- указанным выше. Для распределений, задаваемых математически- математическими формулами, /-й квантиль есть решение х уравнения 'F. B.14) Это решение без труда вычисляется с помощью интерполяции в тех случаях, когда интеграл от dF табулирован. *) В оригинале «mid-range». (Прим. перев.) 5 М. Кемдалл, А. Стыоарт
66 ГЛАВА 2 Пример 2.6 Найти квартили для распределения по росту, рассмотренного в примере 2.1. Четверть полной частоты равна 8585/4 = 2146,25 До интервала 65 —имеется 990 » Разность 1376 ^ членов В интервале 65 — имеется 770,45 » Поэтому нижний квартиль равен лл 15 , 770,25 65 71 дюйма 10 990 Верхний квартиль равен 69,21 » Ранее мы нашли (пример 2.5), что медиана \\,е равна . . 67,47 » щ Уастота. Уос/тта _^ =?4j ~~1 Ш7$ 1 г/4М251 у ( 1 1 А о, 8,585 I; X4 о 5В 58 60 62 54 66 68 70 ^ 72 74 7ff Рост, дюймы Рис. 2.1. Функция распределения для дан- данных таблицы 1.7. (На этом рисунке данные соответствуют таблице; например, накоп- накопленные частоты, отвечающие точке 64 дюйма, представляют собой сумму частот всех интервалов вплоть до 64 — включительно, т. е. до значения 64 TS дюйма.) 16 ; Обозначая нижний и верхний квартили Qi и Q3, мы видим, Qi—Цв = — Ь76 дюйма, Q3 — \ie = 1,74 дюйма, так что медиана лежит почти посредине между квартилями —• указание на симметрию распределения. что
МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 67 2.15 Квартили можно легко определять по графику функции распределения. На рис. 2.1 представлена кривая накопленных частот для данных таблицы 1.7. Чтобы найти, например, медиа- медиану, мы определяем ординату, соответствующую абсциссе -g-N. Положения квартилей и медианы показаны на рис. 2.1, и чита- читателю рекомендуем сравнить значения, найденные по графику на глаз, с теми, которые получены в примере 2.6. Меры рассеяния 2.16 Мы сейчас переходим к рассмотрению величин, харак- характеризующих степень рассеяния распределения. Они состоят из трех групп: (а) Мер, являющихся расстояниями между точками, в кото- которых частотное распределение имеет некоторые характерные осо- особенности. К ним относятся такие меры, как размах, интерде- цильная широта или интерквартильная широта. (б) Мер, образованных из отклонений каждого члена гене- генеральной совокупности от некоторого центрального значения. К их числу относятся среднее отклонение от среднего значения, сред- среднее отклонение от медианы и среднее квадратичное отклонение (в) Мер, составленных из отклонений между всеми членами генеральной совокупности; к числу таких мер относится, напри- например, средняя разность. В высшей теории наибольшую роль играет среднее квадра- квадратичное отклонение, но и все указанные выше меры заслужи- заслуживают некоторого внимания. Размах и интерквантильные разности 2.17 Размах распределения для ограниченной варианты опре- определяется как разность между наибольшим и наименьшим ее зна- значениями. Как описательная мера рассеяния распределения раз- размах употребляется очень редко. Приблизительное знание край- крайних значений интервала изменения варианты, очевидно, мало, что говорит о поведении распределения внутри самого интер- интервала. Для неограниченных же распределений это понятие вооб- вообще неприменимо. Более полезные меры, дающие хотя бы приблизительное представление о рассеянии распределения, можно получить, ис- используя квантили. Среди таких мер наиболее употребительны интерквартильная и интердецильная широты. Интерквартильная широта определяется как расстояние между верхним и нижним квартилями. Тем самым определяемый этими квартилями иптер-
68 ГЛАВА 2 вал содержит половину полной частоты. Интердецильная широ- широта есть расстояние между девятым и первым децилями. Обе эти меры очевидно дают некоторое представление о «размазанно- «размазанности» распределения и легко поддаются вычислению. В силу этих обстоятельств они довольно часто используются в элементарной описательной статистике. Что же касается высшей теории, то они мало употребляются в силу того, что в выборочной теории они трудно поддаются математическому анализу. Средние отклонения (первые абсолютные моменты) 2.18 Степень разброса в генеральной совокупности можрю измерять величинами, образованными отклонениями от среднего значения n'l = ii'l@). Легко видеть, что сумма этих отклонений (с учетом знака) равна нулю. Поэтому естественно ввести ве- величину оо lx — \i[\dF, B.15) где отклонения от среднего берутся по модулю, и считать 6i ме- мерой рассеяния. Эту величину мы будем называть средним откло- отклонением от среднего. Аналогично для медианы можем ввести f\x-pe\dF B.16) и назвать бг средним отклонением от медианы. В дальнейшем под «средним отклонением» всегда будет по- пониматься среднее отклонение от среднего значения. В элемен- элементарной теории обе введенные меры обладают тем достоинством, что они довольно просто вычисляются, но, однако, практически они исключаются из рассмотрения в высшей математической статистике в силу трудности их математической обработки в вы- выборочной теории. Стандартное отклонение 2.19 Мы видели, что среднее относительно произвольной точ- точки а дается формулой и; = и;(л)= j(x-a)dF. По аналогии с терминологией статики эту величину можно назвать первым моментом. Введем теперь второй момент
МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 69 относительно точки а B.17) Второй момент относительно среднего будем обозначать без штриха оо jn[fdF B.18) и называть дисперсией. Положительное значение квадратного корня из дисперсии называется стандартным (или средним ква- квадратичным) отклонением и обычно обозначается буквой 0. Так что имеем а = 1Уй1- B-19) Таким образом, дисперсия есть среднее из квадратов откло- отклонений от среднего значения. Может показаться несколько искус- искусственным способ определения стандартного отклонения посред- посредством операций возведения в квадрат и извлечения квадратного корня из суммарного результата. Но этот способ определения оправдывается теми преимуществами, которыми стандартное отклонение обладает в выборочной теории по сравнению, напри- например, со средним отклонением. Для вычисления дисперсии и стандартного отклонения мож- можно использовать методы, аналогичные употребляемым для под- подсчета среднего значения. В частности, если b есть некоторое про- произвольное значение, то оо оо = J {(x-bf + 2(b-a)(x-b) + -a)\i'l{b) + {b-aY. B.20) Поэтому, если b есть среднее значение, то К = 1*2+ 04 — а? или 1*2 = 1*2 "(К -аJ- B.21) Тем самым дисперсию легко найти, зная второй момент от- относительно произвольной точки, которую следует выбирать из соображений упрощения вычислений.
70 ГЛАВА 2 Пример 2.7 Найти среднее и стандартное отклонения для распределе- распределения роста мужчин, рассмотренного в примере 2.1 (таблица 1.7). Для среднего отклонения в случае группированного распре- распределения сумму отклонений удобно подсчитывать сначала отно- относительно центра того интервала группирования, в котором ле- лежит среднее, а затем уже редуцировать к собственно среднему значению. Так вышло, что в таблице 2.1 среднее попадает в тот же самый интервал F7—), относительно центра которого про- производился подсчет среднего значения. Тем самым некоторые предварительные арифметические действия, необходимые нам для подсчета среднего отклонения, уже содержатся в указанной таблице. Сумма положительных отклонений равна 8763, отри- отрицательных —8584. Без учета знака сумма отклонений относи- относительно центра интервала 67 — равна 17 347, где единицей слу- служит длина интервала группирования. Рассматривая отклонения относительно среднего (а не отно- относительно середины интервала, которому оно принадлежит), мы замечаем, что если число наблюдений, меньших среднего зна- значения, равно Nu а больших среднего равно N2 и d = \a\— а, то к сумме отклонений относительно центра интервала нужно при- прибавить Nid и вычесть N2d. В рассматриваемом случае d = 0,02 (пример 2.1), Л^! = 4918, Л^2 = 3667. Отсюда следует, что при под- подсчете среднего отклонения мы должны учесть значение, равное D918—3667H,02 = 25. Следовательно, . 17 347 + 25 о ЛО „ лч 6^= 2,02 дюйма*). При нахождении стандартного отклонения рекомендуется проводить вычисления по схеме, указанной в таблице 2.2. Столбец D) дает сумму 2l2f> где f—истинная частота. По- Поэтому для второго момента, подсчитываемого относительно точ- точки а, мы получаем ,_ 56 809 _fifil7o ^2 — -8585" — Ь,Ы72. В примере 2.1 было найдено, что tf-« = TSS = 0.0209. Тем самым в силу B.21) |i2 = 6,6172 — @.0209J = 6,6168, а — У(х2 = 2,57 дюйма. *) Эти вычисления могут быть несколько усовершенствованы, см. упраж- упражнение 2.21.
МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ Таблица 2.2 Вычисление стандартного отклонения для распреде- распределения, заданного таблицей 1.7 (некоторые предвари- предварительные вычисления содержатся в таблице 2.1) 71 (I) Рост в дюймах 57— 58— 59— 60— 61— 62-- 63— 64— 65— 60— 67— 68— 69— 70— 71— 72— 73— 74— 75- 76— 77— Всего B) Частота / 2 4 14 41 83 169 394 669 990 1223 1329 1230 1063 646 392 202 79 32 16 5 2 8585 C) Отклонения 1 —10 —9 —8 —7 —6 —5 —4 —3 —2 —1 0 1 2 3 4 5 6 7 8 9 10 — D) Vf 200 324 896 2009 2 988 4 225 6 304 6021 3 960 1223 0 1230 4 252 5 814 6272 5050 2 844 1568 1024 405 200 56 809 Можно заметить, что в рассмотренном примере среднее отклоне- отклонение составляет приблизительно 80% от стандартного отклоне- отклонения. Это соотношение довольно часто выполнено приближенно для одновершинных распределений, близких к симметричным. Происхождение этого факта станет более ясным, когда мы бу- будем изучать так называемое «нормальное» распределение*) (глава 5). *) Чакраварти (М. С. Chakravarty), A948), Calcutta Stat. Ass. Bull. 1, 187, показал, что вообще для генеральной совокупности, состоящей из л>2 элементов, A — п~2) \ п нечетно, 1, п четно, причем равенства достигаются.
72 ГЛАВА 2 Пример 2.8 Найти дисперсию распределения В (р, Q) ' ~^ ~^ ' Относительно нуля имеем 1 К = - ' ' В (Л 9) и К тому же мы уже нашли (пример 2.2), что Поэтому „ =„'_/'„'\2_=___(?±11? <? _ Р9 Пример 2.9 Так же как и среднее значение, дисперсию можно найти дифференцированием производящей функции. Мы имеем (ср. пример 2.3) и, полагая /=1, получим для моментов, подсчитываемых отно- относительно нуля, LSW/HK-tf. B.22) = пр(\ — р). B.23) В случае биномиального распределения откуда Поправки Шеппарда 2.20 Естественно, что группирование значений варианты пу- путем приписывания соответствующих им частот средине интер- интернала группирования дает представление о характере частотного распределения лишь с некоторым приближением. В ряде слу- случаев, однако, оказывается возможным ввести поправки, назы-
МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 73 ваемые «поправками Шеппарда», на те искажения, которые вносятся в результате группирования. Подробно они будут изу- изучаться в следующей главе. Сейчас же мы только укажем (без доказательства) необходимые поправки для второго момента. Если распределение непрерывно и имеет достаточно высокий порядок соприкосновения с осью значений варианты на его кон- концах, т. е. если «хвосты» частотного распределения достаточно быстро убывают, то для корректирования второго момента, гру- грубо подсчитанного на основе сгруппированных данных, надо вы- вычесть из него /г2/12, где h — ширина интервала группирования. Так, в примере 2.7 /г=1 и исправленный второй момент рапен 6,6168—0,0833 = 6,5335. Исправленное значение а равно 1/6,5335 = 2,56 в отличие от неисправленного, равного 2,57. Средняя разность 2.21 Коэффициент средней разности (не путать со средним отклонением!) определяется по формуле оо оо Ai= J j\x~y\dF(x)dF(y) = —оо —оо оо оо = J j\x-y\f(x)f(y)dxdy. B.24) Для дискретного случая Ai можно определить двумя разными формулами: оо оо \xJ — xle\f(Xj)f(xll), )Фк B.25) (средняя разность без учета совпадений Xj и xk), 00 оо Л'=7^ 2 2 \Xj-x*\f(xj)f{Xk) B-26) (с учетом совпадений). Разница между ними состоит только в делителе. Очевидно, что при больших Af она становится не- несущественной. Средняя разность представляет собой среднее значение раз- разностей всех возможных пар значений варианты без учета их знака. В коэффициенте, определенном с учетом совпадений, рас- рассматриваются и отклонения каждого значения от него же, что
74 ГЛАВА 2 конечно ничего не вносит в сумму отклонений, но зато общее число возможных пар будет равно N2. В коэффициенте же без совпадений рассматриваются разности только различных значе- значений, число которых, очевидно, равно N(N—1). Именно из этих соображений и выбраны делители в формулах B.25) и B.26). 2.22 Средняя разность, введенная Джини A912), представ- представляет некоторый теоретический интерес как величина, характери- характеризующая разброс значений варианты друг относительно друга и не зависящая от какого-либо центрального значения. Однако эта величина трудно поддается,вычислению по сравнению со стан- стандартным отклонением. К тому же наличие в формулах, опреде- определяющих среднюю разность, знака модуля вносит известные труд- трудности при использовании ее в выборочной теории. Можно было бы думать, что эти трудности исчезнут, если вместо средней раз- разности ввести коэффициент J \(x- — оо —оо Однако это есть не что иное, как удвоенное значение дисперсии. В самом деле, = J / {x*-2xy + y2}dF(x)dF(y) = jx2dF(x) J dF(y)~ — CO — CO —ОО —ОО оо со со со -2 jxdF(x) jydF(y)+ jdF(x) 2(|х;J = 2ц2. B.27) Это интересное соотношение показывает, что дисперсию мож- можно определить как половину среднего значения квадратов все- всевозможных разностей значений варианты, т. е., иначе говоря, определить, не обращаясь к рассмотрению отклонений от некото- некоторого центрального значения (среднего). Коэффициенты вариации; нормированное распределение 2.23 Введенные выше меры рассеяния распределений были размерными величинами. Поэтому могут возникнуть трудности при их сравнении для разных генеральных совокупностей. Это привело к поиску мер, которые не зависели бы от шкалы зна- значений варианты, т. е. которые были бы просто числами.
МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 75 Подобные меры можно сконструировать различными спо- способами. Например, можно взять среднее отклонение и поделить его на среднее или медиану. Однако наиболее часто в практике употребляются две характеристики. Одна из них — это коэффи- коэффициент вариации Карла Пирсона У = 1(ХL-. B.28) M-i а другая — коэффициент рассеяния Джини 0 = -^-. B.29) 2|*i Оба эти коэффициента страдают тем недостатком, что они в зна- значительной мере зависят от среднего ц(, подсчитываемого, во- вообще говоря, относительно произвольной точки. Поэтому их при- применение ограничивается теми случаями, когда существует неко- некоторое естественное начало отсчета или когда распределения имеют сходные начала отсчета. 2.24 Для наших же целей сравнение различных распределе- распределений удобнее проводить другим путем. Возьмем величину а за новую единицу масштаба и перейдем к варианте х — и.'-, У=^—~' B-30) Ее среднее зиачение равно нулю, дисперсия равна единице. Рас- предельные варианты у можно назвать нормированным распре- распределением. Нормированные распределения обладают тем удоб- удобством, что их легко можно сравнивать с точки зрения их формы, асимметрии и других показателей, за исключением, конечно, средних и дисперсий. Рассеяние 2.25 К определению коэффициента рассеяния Джини можно прийти следующим естественным путем. Пусть, как обычно, и пусть = \f(x)dx. —оо X = Л- f xf(x)dx. Hi " B.31)
76 ГЛАВА 2 Конечно, Ф(л;) существует, если только существует м{- По- Подобно тому как F(x) изменяется от 0 до 1, функция Ф(х) также меняется в пределах от 0 до 1, если только начало отсчета взято левее начала частотного распределения, которое в дальнейшем предполагается равным нулю. Функция Ф(х) может быть на- названа неполным первым моментом. Уравнение B.31) можно рассматривать как соотношение ме- между переменными F и Ф, если х считать параметром. Кривая ф = ф(/=") называется кривой рассея- рассеяния. График такой кривой показан на рис. 2.2. Кривая рассеяния выпукла. В са- самом деле, Ф dO _ xf(x) _ dF — f (x) ~~л dx (x) F Поэтому в силу того, что |J.j взято от- Рис. 2.2. Кривая рассеяния. посителыю нуля, касательная к кри- кривой рассеяния имеет положительный угол с осью F и этот угол возрастает при увеличении F. Другими словами, кривая выпукла. Площадь S, заключенная между кривой рассеяния и линией Ф = /\ называется площадью рассеяния. Мы сейчас покажем, что эта площадь численно равна половине коэффициента рассеяния. Действительно, из рис. 2.2 следует, что 2S= j FdO— и поэтому F(x)xdF(x) — \t.[ CO X = jxdF(x) jdF(y) jdF(x) oo со = J j(x-y)dF(x)dF(y). —oo —oo со X
МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 77 оо оо Но f I" (х— y)dF(x)dF(y) — 0 и, следовательно, — оо —оо |оо х J j(x-y)dF(x)dF(y) + — оо —оо ОО СО -1 ОО СО (y-x)dF(x)dF(y) \=± J ~oo —оо Тем самым площадь рассеяния равна A,/4|i.{, что составляет половину коэффициента рассеяния G, определяемого форму- формулой B.29). 2.26 Были предложены разные способы вычисления средней разности. Приводимый ниже способ, вероятно, самый простой, особенно для распределений с равными интервалами группиро- группирования. Без ограничения общности будем считать, что начало отсчета находится в точке начала распределения. Тогда можно написать 2 21 *;-**! = 2 2'(*,-**), где суммирование 2' производится по всем тем индексам, для которых / !> k. Далее .i — х}.2)+ ... +(xk+i—xk), и поэтому N-l 2' (Xj — xk) = 2 Ch (xh+i — xh), h= I где Ch — число членов вида (xj — xh) в 2', содержащих Xh+i — хн. Поскольку h — число значений /, меньших или равных h (начало отсчета взято в точке начала распределения), и (JV — h)—число значений, больших или равных Л+1, то Ch = h(N — h) и поэтому ЛГ-1 Al = -W Е' ^ ~ x"^= IF E h (N ~ Л> ^"+1 - xh). B.32) Эта формула особенно удобна, когда все интервалы равны. То- Тогда если Fh — функция распределения для Xh, то ЛГ-1 ЛГ-1 ^ /7'>(l-^)- B-33) Л-1 Л-1
78 ГЛАВА 2 В том случае, когда истинные накопленные частоты для ны Gh, ЛГ-1 B.34) Эта форм'ула очень удобна для практических целей. Пример 2.10 Вернемся еще раз к распределению роста мужчин, рассмот- рассмотренному в предшествующих примерах. Сумму ZGh(N—Gh) можно вычислить по схеме, предложенной в таблице 2.3. Таблица 2.3 Вычисление средней (О Рост в дюймах 57— 58- 59— 60— 61— 62— 63— 64— 65— 66— 67— 68— 69- 70— 71— 72— 73— 74— 75— 76— 77— B) Частота 2 4 14 41 83 169 394 669 990 . 1223 1329 1230 1063 646 392 202 79 32 16 5 2 разности для распределения заданного в таблице ч 2 6 20 61 144 313 707 1376 2 366 3 589 4918 6148 7211 7 857 8 249 8 451 8 530 8 562 8 578 8 583 8 585 1.7 (*) 8 583 8 579 8 565 8 524 8 441 8 272 7 878 7 209 6 219 4 996 3 667 2 437 1374 728 336 134 55 23 7 2 — роста мужчин, E) 17 166 51474 171300 519964 1 215 504 2 589136 5 569746 9 919 584 14 714154 17 930 644 18034 306 14 982 676 9 907 914 5 719896 2 771 6С4 1 132434 469 150 196926 60 046 17166 Всего 8 585 105 990850 Используя формулу B.34) для средней разности с учетом повторений, мы получим , 2 • 105 990 850 оо„ , '~ 85851 = 2,88 (дюймов),
МЕРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 79 в то время как среднее отклонение (в дюймах) равно 2,02, а стандартное отклонение равно 2,57 (пример 2.7). Отсюда видно, что существует некоторое различие между этими величинами, но в этом, конечно, нет ничего удивительного, поскольку эти вели- величины различны по самой своей природе. Поэтому пет оснований считать, что их численные значения в частных случаях окажутся примерно одинаковыми. Средние значения; общий случай 2.27 Понятие арифметического среднего варианты х можно легко распространить на функции h(x) от нее. Определим СО М(А)= J h(x)dF{x) B.35) — СО при условии, конечно, что выражение справа существует. Так определенное среднее значение для h(x) играет фундаменталь- фундаментальную роль в теории вероятностей и статистике. Происхождение символа М(-) объясняется тем, что в теории вероятностей такие значения называют «математическими ожиданиями». Весьма за- замечательным и плодотворным является тот факт, что в выбо- выборочной теории часто оказывается значительно легче определить некоторые средние характеристики, чем соответствующее ча- частотное распределение. Если мы имеем функцию h(xu ..., хп) от многих вариант xh .. ., хп, то положим ст ее M(A)=J ... { А(*„ ..., xa)dF(xu .... х„). B.36) — со —со В том частном случае, когда h является функцией только одной переменной (скажем, х\), мы имеем X B.37) где F(xt)—маргинальная функция распределения для Х\. Это значение совпадает со значением B.35). Отсюда видно, что сред- среднее значение варианты (или некоторой функции от нее) будет тем же самым, независимо от того, является распределение этой варианты частью многомерного распределения или же нет. 2.28 Отметим два простых, но важных свойства среднего значения:
80 ГЛАВА 2 (а) Среднее значение суммы равно сумме средних значений. Если hi и ht — две функции, то Это свойство сразу следует из определений. (б) Среднее значение произведения двух функций есть про- произведение их средних значений, если множества значений ва- вариант, от которых зависят эти функции, независимы между со- собой. Для примера, если Xi и х2 независимые варианты, то их сов- совместная функция распределения равна произведению их функций распределений и 00 ОО М(Л1Л2)= Г J hi(Xi) h2(x2)dF(xu x2) = — со ~оо оо оо = [ hixJdFiXu оо) J Fi2(x2)dF(oo, x2)=bA{fil)M(h2). B.39) - ОО "ОО Равенство B.38) остается справедливым, даже если варианты зависимы; равенство же B.39), вообще говоря, для зависимых вариант не верно. УПРАЖНЕНИЯ 2.1 Показать, что среднее отклонение относительно произвольной точки будет наименьшим, когда эта точка совпадает с медианой. 2.2 Показать, что среднее (относительно пуля) дискретного распределе- распределения с частотами (••'¦^ ?•¦••) для значений 0, 1, 2 г,... равно X; дисперсия также равна X. 2.3 Показать, что если отклонения малы по сравнению со средним, то приближенно для геометрических и гармонических средних справедливы формулы и, следовательно. ц,— 2.4 Показать, что среднее отклонение относительно среднего не больше, чем стандартное отклонение _а; установить также что средняя разность не может превысить значении у 2 а.
МПРЫ РАСПОЛОЖЕНИЯ И РАССЕЯНИЯ 81 2.5 Показать, что для равномерного распределения df=tf*, 0 <;.*:<; 1, 'ili@) = -^-, !Х2 = 9'' среднее отклонение =-, Л, —-?• 2.6 Установить, что для распределения dF — ke~xl°dx, 0<л:<оо(отрица- 0<л:<оо(отрицательное показательное распределение), среднее, стандартное отклонение и средняя разность равны а; и что иптерквартпльная широта равна crln3. 2.7 Показать, что для распределения 2.8 Показать, что если интервал длиной в 6а содержит по меньшей мере 18 интервалов группирования, то поправки Шеппарда для стандартного от- отклонения меньше 0,5% от неисправленного значения стандартного откло- отклонения. 2.9 Показать, что для непрерывного распределения, среднее которого су- щес1 вует, А, =2 | F(x){\— F(x)}dx = 4 J 2.10 Если значения некоторой варианты в порядке их возрастания суть Х\ Х.\ И тогда 2.11 Показать, что для отрицательного биномиального распределения (см. упражнение 1.14) среднее и дисперсия соответственно равны т и {jkl} j} 2.12 Показать, что дисперсия распределения k dF = -—j—- dx, — оо ^ д: ^ оо, равна единице. 2.13 Найти среднее значение варианты г2 = х\-\-х2-\-х\, где х\, х2, х3 — варианты из упражнения 1.10, а) непосредственно и б) из распределения для г2. 2.14 Для распределения в упражнении 1.11 показать, что среднее значе- значение х2 равно 01 и для у2 равно crj. Дифференцируя dF =1 по р, показать ЧТО М (Xlj) =pOlff2- 2.15 Пусть варианта принимает неотрицательные значения и имеет сред- мее значение |Х]. Показать, что для каждого положительного t F(t)>\- v[jt. 6 М. Кендалл, А. Стыоарт
82 ГЛАВА 2 2.16 Установить, что если распределение 1 'I* dF — е dx, — со <; х ^С со, /2 " преобразовать по формуле x=a\og(y—Ь)+с, то распределение у будет та- таково, что для него ex среднее — мода среднее — медиана / 1 \ , и что это отношение стремится к 3 при а-э- оа 2.17 Некоторая варианта с невозрастающей функцией плотности f(x), определенной на интервале от 0 до со, имеет среднее [X. Показать, что ц > _, .-. ¦ Проиллюстрировать это на примере распределения dF = —^ (а2 — х2I'2 dx, 0 < х < а. 2.18 По аналогии с предшествующим упражнением найти неравенство для второго момента. Используя полученное неравенство, показать, что для непрерывной дифференцируемой плотности }(х) с единственной модой орди- ордината моды не меньше, чем 1 /(У 3 а), где а есть корень квадратный из второго момента относительно моды. 2.19 Показать, что если для распределения существует среднее, то су- существует и средняя разность Д[. Проиллюстрировать это на примере распре- распределения Парето dF = — dx, 0 < а < х <; со, а>1, ха для которого среднее может существовать, тогда как дисперсия при а <13 не существует. 2.20 Для распределения в упражнении 1.11 показать, что если М (л:2) М (г/2) = М (х2у2), тогда варианты независимы. 2.21 При вычислении среднего отклонения для группированных данных в примере 2.7 интервал, в котором лежит среднее, вносит в сумму отклоне- отклонений величину f'\d\. Показать, что если частота f, отвечающая интервалу груп- группирования (х, x+h), в котором лежит Ц], разбивается на две части ^ и f2 пропорционально длинам (р,1 — х) и yx-^-h — Ц[)и частоты /i и ^соответ- ^соответствуют срединам интервалов (х, ц{) и (\xl, x-\-h\, то сумма отклонений воз- возрастает на /А \—г- иг) • Убедиться в том, что в примере 2.7 эта поправка увеличивает 6i на 0,04.
ГЛАВА 3 МОМЕНТЫ И СЕМИИНВАРИАНТЫ Определение моментов 3.1 В предыдущей главе мы определили первый момент (арифметическое среднее) относительно произвольной точки а интегралом Стильтьеса оо \ C.1) а второй момент относительно этой точки как оо ц? = J (x — afdF. C.2) — оо Обобщая эти понятия, мы можем определить последовательность чисел \хгг, г = 1, 2, ..., положив x-a)TdF. C.3) Величина ц'г называется моментом порядка г относительно точ- точки а. В том случае, когда а совпадет со средним \i'v вычислен- вычисленным относительно нуля, штрих будет опускаться: \{x — \L\)TdF. C.4) — со В частности, ц,=0. Определим еще момент нулевого порядка, положив
84 ГЛАВА 3 Мы будем предполагать, что когда говорится об r-м моменте какого-нибудь определенного распределения, соответствующий интеграл C.3) для этого распределения сходится. Как будет видно из дальнейшего, некоторые из встречающихся в статистике распределений не обладают моментами всех порядков, часть из них имеет только конечное число моментов, есть и такие, кото- которые вообще не имеют моментов, за исключением, конечно, мо- момента нулевого порядка. Очевидно, что если момент r-го порядка существует, то существуют и все моменты более низкого по- порядка. 3.2 Пусть а, Ь — два значения варианты, Ъ — а —с \\ ц'(а), \у'(Ь)—моменты относительно а и Ь соответственно. Имеем по формуле бинома г (x-a)r = {х- b + b-a)T = (x-b + c)r = ?(;)(*-b)r~JcJ\ Следовательно, Это соотношение дает представление r-го момента относительно а через r-й и более низкие моменты относительно Ъ. Его можно записать в следующей удобной для запоминания символической форме: где предполагается, что правая часть должна быть записана по биномиальной формуле и величины {\i (b)}i заменены на м/-(?)- Равенство C.5) особенно важно, когда а или b совпадает со средним значением распределения. В этом случае имеем J-o Г ¦^(^K-ji-KI- C-7) j-o
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 85 В частности, 1*2 = К-(К) | | C.9). Вычисление моментов 3.3 Для распределений, заданных численно таблицей частот,, вычисление моментов третьего и более высоких порядков ведется примерно так же, как вычисление первых двух моментов. Для группированных данных (моменты высоких порядков вряд ли когда-либо требуются для негруппированных данных) наблюде- наблюдения полагаются сосредоточенными в средних точках интервалов; выбирается (удобным образом) какое-либо а и вычисляются мо- моменты относительно этого а; затем, если это нужно, находят по формулам C.6) и C.7) моменты относительно среднего зна- значения. В некоторых случаях эффект группирования может быть- учтен соответствующей поправкой. На практике для численных распределений моменты порядка, большего четырех, используются редко. Они очень чувствительны к выборочным флуктуациям и, вычисленные по небольшому ко- количеству наблюдений, могут нести в себе значительные ошибки. Существуют два обычно используемых метода для нахожде- нахождения моментов относительно произвольного начала. Первый из них есть непосредственное обобщение метода, использованного в главе 2 для первых двух моментов. Второй будет рассмотрен в 3.10 в связи с факториальными моментами. Пример 3.1 Найдем первые четыре момента относительно среднего зна- значения распределения браков в Австралии, приведенного в таб- таблице 1.8. В процессе вычисления в качестве единичного будем считать трехлетний интервал. Сначала найдем моменты относительно. 28,5. Для проверки счета мы пользуемся тождествами вида (X + IL = л4 + 4лг3-|- 6х'2 + 4х -f 1 -
86 ГЛАВА 3 Так, например, наряду со значениями g(x)xr вычисляются зна- значения g(x) (x + l)r, а затем производится проверка с помощью равенств типа Здесь g(x)—действительная (ненормированная) частота. Вы- Вычислительная работа показана в таблице 3.1. Из таблицы находим 2 (xg) = 88 832, 2 155 838, 12 798 362, 306 162. Деля эти числа на полную частоту, равную 301 785, получаем моменты относительно 28,5 \х[ = 0,294 355 253, \if2= 7,143 622 115, \i'3= 42,408 873 867, ^ = 454,980 075 219. Отсюда, воспользовавшись формулами C.9), находим моменты относительно среднего значения М-2= 7,056 977, И3= 36,151 595, \14 = 408,738 210. Эти значения соответствуют единице, равной по величине класс- интервалу, т. е. трем годам. Чтобы вычислить моменты для слу- случая единицы, равной одному году, нужно найденный r-й момент умножить на Зг. Например, ц2 == 7,056977 X 9 = 63,51279. 3.4 Если распределение задано математической формулой, то нахождение моментов сводится к вычислению некоторых сумм или интегралов. Обычно приходится рассматривать вопрос о су- существовании моментов. Следующие примеры иллюстрируют от- относящиеся сюда общие принципы. Пример 3.2 Рассмотрим биномиальное распределение (ср. примеры 2.3 и 2.9). Обозначим q=\—р. Тогда производящая функция
Таблица Вычисление первых четырех моментов распределения браков, приведенного в таблице 1.8 3.1 Средние значения интервалов (в годах) 16,5 19,5 22,5 25,5 28,5 31,5 34,5 37,5 40,5 43,5 46,5 49,5 52,5 55,5 58,5 61,5 64,5 67,5 70,5 73,5 76,5 79,5 82,5 85,5 88,5 Суммы по- ложитель- ложительных членов g 294 10 995 61001 73 054 56 501 33478 20 569 14 281 9 320 6 236 4 770 3 620 2190 1655 1 100 810 649 487 326 211 119 73 27 14 5 301 785 X —4 —3 —2 —1 0 1 2 3 4 5 6 7 8 9 Ю 11 12 13 14 15 16 17 18 19 20 - —1 176 —32 985 —122 002 —73 054 —229 217 33478 41 138 42 8-13 37 280 31 180 28 620 25 340 17 520 14 895 11000 8 910 7 788 6 331 4 564 3 165 1904 1 241 486 266 100 318 049 —882 —21 990 —61001 —83 873 56 501 66 956 61707 57 124 46 600 37 416 33 390 28 960 19710 16550 12100 9 720 8 437 6818 4 890 3 376 2 023 1314 513 280 105 474 490 4 704 98 955 244 004 73 054 — 33 478 82 276 128 529 149120 155 900 171 720 177 380 140 160 134 055 110 000 98 010 93 456 82 303 63 896 47 475 30 464 21 097 8 748 5 054 2000 2 155 838 2 646 43 980 61001 — 56 501 133 912 185121 228 496 233000 224 496 233 730 231 680 177 390 165 5С0 133100 116640 109 681 95452 73350 54 016 34 391 23 652 9 747 5 600 2 205 2635 287 . x'g —18 816 —293 865 —488 008 —73 054 —876 743 33478 164 552 385 587 595 480 779 500 1030 320 1241660 1 121 280 1 206 495 1 100 000 1078 110 1 121 472 1 069 939 894 544 712125 487 424 358 649 157 464 96026 40 000 13675 105 IX - Г)8 g —7 938 —87 960 —61001 —156 899 56 501 267 824 555 363 913 984 1 165 000 1 34G 976 1636 110 1 853 440 1596 510 165&О00 1 464 100 1 399 680 1 425 853 1 336 328 1 100 250 864 256 584 647 425 736 185 193 112000 46 305 19991056 X'g 75 264 890 595 976 016 73054 — 33478 329 104 1 156 761 2 385 920 3 897 500 6 181 920 8 691 620 8 970 240 10 858 455 11000 000 11859 210 13 457 664 13 909 207 12 523616 10 681875 7 798 784 6 097 033 2 834 352 1 824 494 800 000 137 306162 23 814 175 920 61001 — 56 501 535 648 1 666 089 3 655 936 5 825 000 8081856 11452770 14 827 520 14 368 590 16 550000 16 105 100 16 796 160 18 536 089 18 708 592 16 503 750 13 828 096 9 938 999 7 663 248 3 518 667 2 240 000 972 405 202091751
88 ГЛАВА 3 запишется в виде (pt + q)n. Подобно тому как было в приме- примерах 2.3 и 2.9, У-О Моменты здесь вычисляются относительно нуля. Отсюда ^ = Зм-2 — 2(.iJ + я (я — 1) (я — 2) /?3. Мы уже видели, что \а'2 = п(п — \)р2-{-пр, \i\ = np. Подставляя эти выражения в предыдущую формулу, находим Обычно более интересны моменты относительно среднего. Со- Согласно C.9) 1*3 = ^-31^2 + Подставляя в правую часть этого равенства найденные выраже- выражения и преобразуя, получаем 1)= C.10) (q — p). C.11) Подобным же образом находим [х4 = Зя2/?2A— рJ + «/?A— р)A— 6/? + 6/?2)= C.12) = 3n2p2q2-{-tipq(l—6pq). C.13) Очевидно, аналогичным методом можно вычислить моменты сколь угодно высокого порядка. Позднее мы увидим, однако, что существуют более легкие способы нахождения моментов би- биномиального распределения. Пример 3.3 Рассмотрим распределение df— A+x2)ffi dx, — oo<x<oo, /и>1. Это распределение унимодально и симметрично относительно х = 0. Поэтому все существующие моменты нечетного порядка
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 89 относительно нуля равны пулю. Постоянная k определяется из уравнения J V(m) Момент относительно среднего порядка 2г, если он суще- существует, дается интегралом сходящимся тогда и только тогда, когда 2т>2г+\. Таким обра- образом, моменты относительно нуля порядка <2т — 1 существуют, а более высокого порядка — нет. оо Отметим, что при т=\ интеграл I 1 , 2 dx в обычном J 1 —р X — оо смысле не сходится, т. е. предел л' lim \тг*ах л->оо, л'->оо * L \ л не существует, в то время как главное значение существует и равно нулю. Обладает распределение средним значением или нет, являет- является в этом случае вопросом соглашения*). При т>\ среднее су- существует и равно нулю. Пользуясь преобразованием z — ¦. . 2 в формуле для \цг, 1 -\- X находим J (I— z) 1 2 Г (/и) *) Если условиться о существовании среднего значения, то недостатком этого соглашения будет то обстоятельство, что для вариант такого типа среднее значение суммы не обязательно равно сумме средних значений. Ср. Фреше A937).. сто. 45 и упражнение 7.19.
90 ГЛАВА 3 и, подставляя значение k, получим Пример 3.4 Рассмотрим «нормальное» распределение а* dx, —оо<л:<оо. C.14) 1 - —~е о у 2л Оно симметрично относительно нуля, все его моменты суще- существуют, моменты нечетного порядка равны нулю и со L- f xl'e wdx. Интеграл в правой части можно вычислить интегрированием по частям, но мы, однако, предпочтем следующий более прямой метод. Рассмотрим интеграл оо , М (t) = \ etxe~w~ dx = exp f-i- аЧ2) C.15) ay 2л J \ * / — оо Для всех действительных значений ^ Так как ряд в правой части можно интегрировать почленно, то /•-О Иными словами, моменты цг суть коэффициенты при tr\r\ в раз- разложении exp f-^ o2^2J. Следовательно, . C.16)
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 91 Производящие функции моментов и характеристические функции 3.5 Предыдущий пример показывает, что в некоторых случаях по функции распределения или функции плотности можно по- построить функцию МA), для которой моменты распределения служат коэффициентами при разложении ее по степеням /.Всо- /.Всоответствии с этим свойством такие функции называются произ- производящими функциями моментов. Если P(t) — производящая функция, то производящей функцией моментов будет просто Р(е'). Термин «производящая функция моментов» условимся сокращать до п. ф. м. со Для многих распределений интеграл eix dF или сумма — со 2 ?'•*.//(•*/) при действительных значениях t не существует. Так обстоит дело, например, с распределением dF=k(\+x2)~mdx при конечных положительных т. Более полезной вспомогатель- вспомогательной функцией является = J eltxdF, C.17) где i — чисто мнимая величина, иногда записываемая в виде У~-\. Эта функция называется характеристической функцией (сокращенно х. ф.) и имеет большое теоретическое значение. В главе 4 будет показано, что характеристическая функция оп- определяет функцию распределения и в свою очередь, конечно, сама полностью ею определяется. X. ф. являются также важным инструментом выборочной теории. Так как в силу самого определения функции распределения со интеграл Г dF сходится, то со J eltx\dF=\, и, следовательно, интеграл Стильтьеса C.17) сходится абсолют- абсолютно и равномерно по t. Поэтому в C.17) можно интегрировать и дифференцировать под знаком интеграла по t всякий раз, ко- когда получающиеся при этом интегралы существуют и равно- равномерно сходятся. Например, обозначая -^- символом Dt, имеем =У J e"xxrdF,
92 ГЛАВА 3 и, следовательно, полагая t=0, получаем ц; = (-/)'[#ф@],=о. C.18) если только цг существует. Отсюда вытекает, что при разложе- разложении (p(t) по степеням t величины ц/ должны совпадать с коэф- коэффициентами при (i()r/r\. Хаким образом, характеристическая функция является также производящей функцией моментов. Во многих случаях при формальных выкладках можно писать, ска- скажем, 6 вместо it и игнорировать тот факт, что 6 мнимо. Пример 3.5 Рассмотрим опять биномиальное распределение, частоты ко- которого даются элементами разложения (p + q)n. Производящая функция здесь равна (pl + q)n, и, следовательно, производящей функцией моментов будет Отсюда — \)Р" И Т. Д. Пример 3.6 Рассмотрим распределение 0<л:<эо, а > 0, Распределения этого вида образуют III тип в системе Пирсона (см. главу 6). В зависимости от значения у они могут иметь различную форму, но все моменты у них существуют, поскольку оэ интеграл Г xra~axdx, определяющий Г-функцию, сходится при о /•>—1. Для характеристической функции имеем выражение После подстановки z=x(a — it) получаем r(Y)(«-«)V j . C.19)
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 93 со поскольку J e~V""' dz — Y{y). Следовательно, откуда и т. д. В частности, — 7 > И-2 — C-20) Абсолютные моменты 3.6 Величина оэ v;= J \х — a\rdF C.21) — оо называется абсолютным моментом порядка г относительно а. Абсолютные моменты относительно среднего обозначаются теми же буквами, но без штриха. Ясно, что если существует момент порядка г, то существуют абсолютные моменты всех порядков, не превосходящих г. Если г четно, то абсолютный момент совпадает с обычным моментом. Если распределение сосредоточено на полуоси, лежа- лежащей вправо от какой-либо точки, то абсолютные моменты отно- относительно любой точки, находящейся левее начала распределе- распределения, совпадают с соответствующими обычными моментами того же порядка. Абсолютные моменты удовлетворяют ряду интересных нера- неравенств. Пользуясь неубыванием функции АA), введенной в 2.6, и полагая /=1,2, ..., находим, что Имеет место также более общее неравенство, принадлежащее Ляпунову A901): ()( . C.22) Доказательство этого результата содержится в упражнении 3.15. Факториальные моменты 3.7 Произведение х(х — h)(x — Щ ... {л: — (г — 1)А)
94 ГЛАВА 3 удобно записывать в виде x'rl. Это обозначение указывает на аналогию со степенью хг. Беря первые разности (по х) с h в ка- качестве приращения, имеем Д у\г\ __ / у. I Д\1Г1 у\Г\ / V" _t tj\ у (у 1Л I у (г О\ h\ r(r h\ (у (г 11А1—rrl'"~1'A • • - 1Л- \1 ?/ /1>1 Л уЛ ^^ II*) . . . \Л \l If Il-J / Л llf Это соотношение похоже на уравнение в дифференциалах dxr — rxr~ldx. Обратно, равенство X .И 1 соответствует равенству X Далее, r-й факториальный момент относительно произволь- произвольной точки а естественно определить как ../ ^1 /у, /*\^' f I v* N /Q OQ\ r^frl " <4mJ \ / ' / / \ If* lO«iwO/ Здесь написан знак суммирования 2 вместо интеграла Стиль- тьеса, поскольку факториальные моменты почти исключительно используются лишь для дискретных или группированных в ин- интервалы длины h непрерывных распределений. Факториальные моменты не играют особой роли в статистике, но они позволяют записать в очень компактном виде формулы для моментов неко- некоторых дискретных распределений, аналогичных биномиальному. Как обычно, когда нужно сделать различие между факто- риальными моментами относительно произвольной точки и фак- ториальными моментами относительно среднего, в обозначе- обозначениях этих последних штрих опускается. 3.8 Факториальные моменты преобразуются по формуле, по- подобной формуле C.5) для преобразования обычных моментов. В самом деле, имеем *) ' а[г-пЬ[1\ /=о *) Ясно, что выражение (а + 6)'г' является полипомом r-й степени по а. г Следовательно, его можно записать в виде 2 */"'''» гДе ^i — полиномы /-о
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 95 следовательно, у-о ', где с = b — а, C.24) /-о"" Символически это можно записать в виде ц['г)(а)= №(Ь)-\-с)[Л. 3.9 Развертывая факториальные выражения в C.23), полу- получаем C.25) Обратно, C.26) Так как первые моменты совпадают, то эти соотношения ос- останутся верными, если опустить штрихи и отбросить члены, со- содержащие первые моменты. Фришем A926) были получены следующие общие формулы, выражающие факториальные моменты относительно одной точ- точки через обычные моменты относительно другой точки и обратно: К (а) = j-o C-28) где Вгп)(х) — полиномы Бернулли п-го порядка степени г по х (см. 3.25). от Ь и Л, не зависящие от а. Полагая а=0, получаем blr\=kr. Беря первые разности относительно а и полагая а=0, получаем r6(r-()=Asr_1. Дальнейшие последовательные разности дают значения остальных k). В результате полу- получается нужная формула.
95 ГЛАВА 3 Вычисление факториальных моментов 3.10. Факториальные моменты для группированных данных могут быть вычислены посредством последовательного суммиро- суммирования, проиллюстрированного в таблице 3.2. Таблица 3.2 ( Частот .1 B) Первое суммирование I C) Второе суммирование Третье суммирование /з fn-i fn /л-2 "f"/n-l + /я //I fn /Я-2+2/Я_,+3/я fn /8+3/4+... (/i-l) (я- • ¦ • i 2 /4+ЗД+.. • , (я-2)(я-3) •••~г о /л fn-2 + + 3/„_,+6/„ /+3/e fn Суммы по столб- столбцам У Ш/-1) л 1 21] 2 -Ч~~ 21 7G-1H-2), 3! J 1 / В первом столбце выписаны относительные частоты Д, ..., fn в п последовательных интервалах. Элементы второго столбца строятся сложением частот первого столбца, начиная снизу; в л-ю строку пишем /п, в (п—1)-ю пишем сумму fn+fn~i, в (п — 2)-ю пишем сумму fn+fn-i+fn-2 и т. д. до первой стро- строки, содержащей /n+fn-i+ • • ¦ +fi- В третьем столбце процесс повторяется по строкам второго столбца, только обрывается он на второй строке. Именно, в п-й строке пишем /„, в (п— 1)-й пишем сумму {fn+fn-i)+fn = = 2fn+fn-i и т. д. до второй строки, содержащей (п—1)/п + 2)/2// ( / В четвертом столбце продолжается тот же процесс над эле- элементами третьего столбца, только обрывается он на третьей строке, и т. д.
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 97 Рассмотрим теперь сумму элементов второго столбца. Ча- Частота /i в нем встречается один раз, /2 — два раза, ..., fn встре- п чается п раз. Поэтому эта сумма равна 2 (Jfj)— №\ц- В третьем столбце /2 встречается один раз, /з — два ра- раза, ..., /„ встречается -^п(п—1) раз. Следовательно, сумма элементов этого столбца равна Вообще сумма элементов (г-Ы)-го столбца равна ТТ^М" Если вместо относительных частот используются действи- действительные частоты, то суммы следует разделить на полную ча- частоту N. Таким образом, указанный процесс суммирования непосред- непосредственно дает значения факториальных моментов. Пример 3.7 Рассмотрим опять данные таблицы 1.7, показывающие рас- распределения 8585 мужчин в соответствии с их ростом в дюймах. В правых столбцах таблицы 3.3 выписаны последовательные суммы. Наверху каждого из трех последних столбцов помещены в скобках числа, которые получились бы, если суммирование бы- было бы продолжено на один шаг дальше, чем это нужно для вычисления сумм внизу. Эти числа в скобках полезно иметь для проверки, поскольку каждое из них равно сумме, выписанной ниже предыдущего столбца. Из таблицы находим, что A,',,= 11,020 85032033, H('2)= 117,055096097 84, И.[з,= 1194,957 483 983 69, (л[4|= 11 702,727082 11998. Отсюда, пользуясь соотношениями C.26), получаем значения обычных моментов \л[= 11,020 850 32033, 14= 128,075 946 418 2, ц? = 1557,143 622 597 5, (j,^ = 19 702,878 509 027 3 7 М. кенлалл. А. Стьюаот
98 ГЛАВА 3 Таблица 3.3 Вычисление факториальных моментов распределения мужчин по их росту в дюймах (таблица 1.7) Рост 57- 58— 59- 60— 61 — 62— 63— 64— 65— 66— 67— 68— 69— 70— 71— 72— 73- 74- 75- 76— 77- Суммы по столбцам Частота 2 4 14 41 83' 169 394 669 990 1223 1 329 1230 1063 646 392 202 79 32 16 5 2 8 585 Первое суммирование 8 585 8 583 8 579 8 565 8 524 8 441 8 272 7 878 7 209 6219 4 996 3 667 2 437 1374 728 336 134 55 23 7 2 94 614 Второе суммирование (94 614) 86 029 77 446 68 867 60 302 51778 43 337 35065 27 187 19 978 13 759 8 763 5096 2659 1285 557 221 87 32 9 2 502 459 Третье суммирование E02 459) 416 430 338 984 270 117 209 815 158 037 114 700 79 635 52448 32 470 18711 9948 4 852 2 193 908 351 130 43 11 2 1709785 Четвертое суммирование _ — A 709 785) 1 293 355 934 371 684 254 474 439 316 402 201 702 122 067 69619 37 419 18 438 8 490 3 638 1445 537 18S 56 13 2 4186163 и с их помощью находим моменты относительно среднего И2= 6,616 805, Из = — 0,207 840, Й4= 137,689185. В качестве единицы здесь берется один дюйм. Производящие функции факториальных моментов 3.11 Если производящая функция равна У-о
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 99 то, заменяя t на \ + t, имеем I J-0 /=1 I-0 /=0 1-0 Таким образом, P(\+t) является производящей функцией фак- тормальных моментов (п. ф. ф. м.), поскольку в ее разложении факториальный момент порядка i совпадает с коэффициентом при P/i'. Мы предполагали здесь, что возможные значения от- отстоят друг от друга на единицу. Пример 3.8 Рассмотрим опять биномиальное распределение. Производя- тая функция его равна {pt+(\ ¦—р)}". Имеем Следовательно, факториальные моменты относительно нуля суть И|',, = 0, г>п. Отсюда мы можем, если угодно, получить обычные моменты по- посредством C.26). Например, '2 = рЫ(п — \)+рп и т. д. Семиинварианты 3.12 Моменты представляют собой совокупность характери- характеризующих распределение постоянных, полезную для измерения его свойств и, при некоторых условиях, для его определения. С этой точки зрения моменты еще будут рассмотрены в последующих главах. Однако они не являются единственной и тем более наилучшей для этих целей совокупностью постоянных. Иное множество постоянных — так называемых семиинвариантов — обладает свойствами, более полезными с теоретической точки зрения. 7*
100 ГЛАВА 3 Формально семиинварианты та, иг. • • •, хг, ... определяются следующим тождеством по t: C.30) Иногда более удобно писать это тождество, заменив t на it: Г+ = /в"'^ = ф@ C.31) Мы видим, что, тогда как м> является коэффициентом при (it)r/r\ в разложении характеристической функции <f(t), хг пред- представляет собой коэффициент при (it)rlrl в разложении 1о?ф(/), если такое разложение существует. Функция 1с^ф(/) может по- поэтому быть названа производящей функцией семиинвариантов (п. ф. с). 3.13 Если в соотношении C.31) в качестве начала отсчета взять вместо 0 точку с, то ф(/) умножится на e~itc, поскольку | eltx dF переходит в J elt{x-c)dF. К log ф(*) при этом приба- прибавится лишь член —Не. Поэтому коэффициенты разложения 1°ёф@ останутся неизменными, за исключением первого, из ко- которого вычтется с. Таким образом, все семиинварианты, исключая первый, ин- инвариантны относительно изменения начала отсчета. В этом они существенно отличаются от моментов относительно произволь- произвольной точки. Как семиинварианты, так и моменты относительно нуля об- обладают следующим свойством инвариантности: если значения случайной переменной умножаются на постоянную а, то \i'r и хг умножаются на ат. Это непосредственно следует из их опре- определений. Таким образом, при любом линейном.преобразовании вида t = lx±m C.32) семиинварианты хг лишь умножаются на 1Г. Исключение состав- составляет первый семиинвариант, совпадающий со средним значе- значением. В частности, если перейти к нормированному распределе- распределению, то семиинварианты хг лишь умножатся на в~г, где а — стандартное отклонение, равное, как мы вскоре увидим, ^,
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 101 Величины Кг названы семиинвариантами из-за тех инва- инвариантных свойств, которыми они обладают. Впервые семиинва- семиинварианты рассматривались Тиле A903). Соотношения между моментами и семиинвариантами 3.14 Если выполнены условия существования, то из C.30) следует, что Кт+ н^тг-ь = = «р (*)ехр (#)... ехр Перемножая разложение экспонент и собирая члены, содержа- содержащие степень tr, получаем m = l где второе суммирование производится по всем положительным значениям я, для которых , = г. C.34) Важно отметить, что утомительный процесс выписывания точных выражений для частных значений г может быть значи- значительно упрощен. Действительно, дифференцируя C.30) по щ, имеем ТГ и, следовательно, приравнивая коэффициенты при одинаковых степенях t, получаем || (у)-г C-35) В частности, dv-'r li-rK-v C-36)
102 ГЛАВА 3 Отсюда вытекает, что если известно выражение М-' через х;-, то подобные выражения для моментов более низкого порядка мо- могут быть получены дифференцированием *). Вот первые десять из этих выражений для моментов относи- относительно произвольной точки: ц? = х. -f 5х4х, -+-10х3х2 4-10x3x'j 4-1 бх^х, 4-10х2х3 + и*, М-6 — И6 + 6и5И1 + 15и4И2 4 1 5и4и2 4- 1СЦ 4- ^OXgX^j 4" 4- 20и3и?4-15ж] 4- 45x^x24- \Ья#\ + и? 4- 35и4и;| 4- 3и!! 4- 4- 5И2И1 4" 4- 56я 4-42С 4-84С u/ = х 4- 9х ' 4-84> t5»«3 4-3&<SH-2t 1х4х2х^ + 70хХ J 2 1 3 4-420х к1 + 36и7к2 + 3 с6х3 + 126х5х44 4-756х5х2х2 4-126х5х 4- 1260х4х3х^4- 1890: 4-126 4- 12( 4-945 х4х]4-280х3 4- 50*3*2 + 3780иа: ix^x^^eOx^x3 5O*4*3*! 4- 4-280х3х2 2х34-56х3^ Х + 210* 6x7xJ 4- 84 * 4-31 би^и «4^,4 И гбгох-'х,*! ^4-1261 + 378x2x5 21( 4- К?~ х6^ 4- ,4- 260 4- 0*3 4- )х4х^ + 280*^ f105x^ 4-28х :34-2К 378х5х2 - 1260х ¦ + ;4- ! 1 ~Г" >х6х2> : + 4И3И2 «, «, «,3 _1 4 2 1 ~* 840х3х: х2х< + 36х2х[ i-Ь Xj, {i4- 4- 84х3х«4- | V9 ~Г "г *) Коэффициенты в выражениях ц через и те же самые, что и в пред- представлении унитарных симметрических функций AГ) через расширенные симме- симметрические функции, н могут быть найдены по таблицам Дэвид и Кендалла
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 120и7и3 4 71 6и4 4- 840и6и3и1 Лх? 4- 210и6и f + 126к? 4 ^! + 2520и.и3и2 + 2520и5и3и2 4- 103 4- 51 4- 1575x^2 4- 2100и4иЦ- 12 4- 3150и4и2и} 4-210и4и« + 2800^! + бЗООи^ + 4-12 бОСЬф^к» + 21(ХЦх« 4-12 бОО^Х 4- 4-12 600и3и2из _|_ 2520и3и2и^4- 120иаи7 + 945^ 4 4- 4725и*к? 4- 3150>ф<4 _|_ бЗОи|и* 4- 45и2х? 4- *\°- Если моменты брать относительно среднего значения (щ = 0), то Мз = C.37) 21и5и2 4- 35и4и3 + 5*3 4 4х| 4- = и9 4 и3 4- 126к.к4 4- 1260и4и3и2 3 4- 210*6 4- 4- 126к|Н- Х 4- 4- Обратно, C.38) х,* и/ •¦•+тг+ A949) для всех порядков до 12. С помощью этих таблиц можно также по- получить обратные выражения, производя домножение на соответствующие факториалы.
104 ГЛАВА 3 Разлагая логарифм и собирая, как и выше, члены с одина- одинаковой степенью f, имеем C-39) v 7 * = г\ У У DГ • • • {^)т {-1O1{9~Р1 • ' jU АА\рх\) \РтЧ я,!...ят! т-1 где второе суммирование распространяется на все положитель- положительные я и р, подчиненные условиям C.34), и л,+л2+ ... -Ьлт = р. C.40) Вот первые десять формул, выражающих семиинварианты че- через моменты относительно произвольной точки: «1 = V-\, f - 6м,;4, и5 = - 210ц>;5 4- 4 - 35ц;2 4- 1680ц>;4 — 630^24 4- ^;6 — 5040}xf C.41)
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 105 - 9ц,Х - 36ц>2 + 72цХ2 - 84^бМ-з + 504ц»; - - 504цХ3 - 126ix>;+ 1008ц»; + 756DD* - — 4536ц,»;2 Н- 3024DD* + 630D*D + + 2520ц,»2 — 7560м,»;2 — 11 340м>'2У, + — 15 120\i'32\i'2\i[ -f- 20 160ii;Vf — 7 >22Ц-;2 — J 51 200ц»;4 -f- 60 + 22 680м,24К — 151 200nJ3 К' + 272 — 1-81 440(j,^(j,;t -f- 40 320fxf, Ко - 1 ОМ-^М-; - 45ц^ 4- 90(J,>;2 - 120цХ + H- 720m,»; - 720u>f - 210^K + 1680м-»; 4- 4- 1260^м-22 — 7560ц»;14- 5040м>;4— 126^2 + 4- 2520м-»; 4- 5040м»^ - 15 120^м->;2 - — 22 680m^JVI 4- 60 480м,>^;3 — 30 240^ц? 4- 4- 3150м,^2 — 9450м,;2(х;2 4- 4200ц>?* — — 75 600n^nJn; 4- 100 800м-»;3 — 18 900D4' + 4- 226 800м,>^2м.;2 - 378 000ц»{4 4-151 200(x>f - — 16 8OO14V; — 37 800м,^2М-22 + 302 400DVX* — — 252 000DV;4 4- 302 400Dm-$VJ — 4 1 512 000DDV;'+ 1 814400м,»;5 — — 604 800м,зМ-;Т 4- 22 680[45 — 567 ОООц^г;2 4- 4- 2 268 000D'D4 — 3 175 200(i^V;e 4- 4-1 814 400DD* — 362 880ц;10.
106 ГЛАВА 3 Если моменты брать относительно среднего значения, то *2 = М-2' = \i7 — 21 (j,5(j,2 — 35(j,4(j,3 -f- 210н,3м|, 4 52 -f н,3й2 + 560м,* — - 126м| — 18 ЭООц^ — 37 800^ _|_ 22 ^3.43) Существование семиинвариантов 3.15 Формально написанное выражение C.30) можно рас- рассматривать как определяющее семиинварианты через моменты. В этом случае очевидно, что если моменты порядка г и ниже су- существуют, то существует и семиинвариант порядка г. Если же определять семиинварианты как коэффициенты при (it)rJr\, r=\, 2, ... в разложении логарифма х. ф., то вывести существование г-го семиинварианта из существования r-го и низших моментов несколько сложнее. Разлагая аналитическую функцию eitx в выражении для ха- характеристической функции, получим . C-44) l^l- По- Погде остаточный член Rr равен pvr+i U|r+7(r+ !)'• этому т 2 ./=0
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 107 При достаточно малых t существует \ogy{t). Разлагая его, имеем log Ф (/) = 2 я, (itI U! -Ь о (П C.45) j -о где коэффициенты щ — семиинварианты в соответствии с самим их определением. Таким образом, если vr-n существует, то суще- существует яг и все семиинварианты более низкого порядка. Можно было бы получить более сильные результаты, однако и этого достаточно для многих целей*). Вычисление семиинвариантов 3.16 Семиинварианты не вычисляются, подобно моментам, не- непосредственным суммированием или интегрированием. Для их нахождения нужно или вычислить моменты и воспользоваться соотношениями C.43), или использовать характеристическую функцию. Следующие примеры иллюстрируют применяемые ме- методы. Пример 3.9 В примере 3.7 мы нашли следующие значения моментов для распределения, заданного таблицей 1.7: \х[= 11,020 850, 1х2= 6,616 805, A3 = -0,207 840, (j,4= 137,689 185. Для нахождения семиинвариантов воспользуемся соотношения- соотношениями C.43); и2 и у.з совпадают соответственно с }Хг и ц3, а для И4 получаем и4=ц4_Зц2 = 6,342 86. Семиинвариант %i совпадает с моментом \x'lt который в нашем случае вычислен относительно средины интервала 57 — дюймов. Конечно, получились бы те же результаты, если бы мы вос- воспользовались соотношениями C.42) и моментами относительно произвольного начала отсчета. *) В действительности полученное разложение для cp(t) с остаточным членом o(tr) справедливо, если предполагать только, что г-н момент суще- существует, так что из существования |хг следует существование всех семиинва- семиинвариантов до порядка г включительно. (Прим. персе.)
108 ГЛАВА 3 Пример 3.10 Рассмотрим дискретное распределение, для которого часто- „ _ . . . л х XI \ v ты значении 0, 1,...,/,... суть е~к 11, -уу -тр ... I. Ха- Характеристическая функция его равна СО = е-1 Поскольку распределение сосредоточено на неотрицательной по- полуоси, то все абсолютные моменты относительно нуля совпа- совпадают с обычными моментами. Имеем Ш J-0 При любом г*) такой ряд сходится, поэтому семиинварианты всех порядков существуют и могут быть найдены из разложе- разложения logcpG) в ряд по степеням t. Но log ф (/) = Я, (еи — 1) = А. ^ («И/у I и, следовательно, хг=Я для всех г. Таким образом, все семиинварианты этого распреде- распределения равны X. Пример 3.11 В примере 3.4 мы нашли, по существу, характеристическую функцию распределения Она равна и поэтому logq>@ = —! *) Так как отношение (« + 1)-го члена ряда к п-му равно ' )г /ЯУ X Л,\_л( 1 [1~т~ ) ~ \п то ряд сходится при всех конечных X.
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 109 Легко видеть, что для рассматриваемого распределения абсо- абсолютные моменты всех порядков, а следовательно, и семиинва- семиинварианты, существуют и к2 = о2, к, = 0, г>2. Пример 3.12 В примере 3.6 было показано, что характеристическая функ- функция распределения Y dF=YK<cxy~le~axdx> 0<лг<со, a, y>0, равна 1 (-4)' Легко проверить, что семиинварианты всех порядков у этого распределения существуют. При этом иг = коэфф. при -^-|- в разложении — Ylo-g A — —)=Y(r—1)! а~''- Пример 3.13 Рассмотрим опять распределение, изучавшееся в примере 3.3: dF , v2,mdx, Характеристическая функция его в силу нечетности функции sin д:^ равна оо cos xt Г — oo (l+JC*)" Этот интеграл можно вычислить, переходя в комплексную пло- плоскость и интегрируя по контуру, состоящему из оси х, беско- бесконечно большой полуокружности над осью х и бесконечно малой окружности вокруг точки х=и В результате получается, что т — l)(w— 2) ,п1 , |Ч,н-з . , Bти —2)!) 2] B1'1) + ••• + (т-т Г
110 ГЛАВА 3 Если r<2m— 1, то абсолютный момент со \x\rdx (а следовательно, и семиинвариант) порядка г существует. Од- Однако в этом случае log ф@ невозможно разложить в бесконеч- бесконечный ряд по степеням t, как это могло бы показаться, исходя из вида ф@; logrp@ можно разложить лишь в конечный ряд с числом членов, равным числу производных функции (p(t) при f=0. Рассмотрим, для простоты, случай т = 2. Поскольку в этом случае А = 2/я, мы получаем Если t положительно, то log<p(f) равен 2 1 +" а если t отрицательно, то 2 г 3 t Эти два выражения отличаются знаками перед нечетными сте- степенями t. Отсюда следует, что не существует единственного раз- разложения logф(^) в ряд по степеням t в окрестности точки ^ = 0. Имеется два вида таких функций, представляющих log<p(/), в соответствии с тем, положительно t или отрицательно. Однако эти разложения совпадают вплоть до членов, содер- содержащих t2, и первая и вторая производные от log<p@ однознач- однозначно определены при ^ = 0. Поэтому первый н второй семиинва- семиинварианты существуют: «1=0, «2=1- Семиинварианты более высоких порядков не существуют. Факториальные семиинварианты 3.17 По аналогии с соотношением между семиинвариантами и моментами можно определить факториальные семиинварианты Х[Г] как коэффициенты при tr\r\ в разложении логарифма производящей функции факториальпых мо- моментов. Так что, если P(t) —производящая функция, то со (t) = log P (l+t) C.46) будет производящей функцией факториальпых семиинвариантов. Подобно производящей функции факторнальных моментов, функция u>(t) полезна глав- главным образом при изучении некоторых классов дискретных распределений.
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 111 Соотношения между семиинвариантами и факториальиыми семиинвариан- семиинвариантами подобны тем, которые имеются между моментами и факториальиыми моментами. Беря в качестве шага единицу, имеем аналогично C.25) и C.26) у — ' [2] —' Обратно, C.47) C.48) Пример 3.14 Для биномиального распределения имеем и, следовательно, Поправки к группировке 3.18 Если распределение задано численно по сгруппирован- сгруппированным данным, то его моменты несколько отличаются от момен- моментов несгруппированного распределения вследствие того, что при группировке частоты предполагаются сосредоточенными в сред- средних точках интервалов. При некоторых условиях возможна по- поправка, уменьшающая это расхождение. Пусть f(x)—непрерывная функция плотности распределе- распределения, сосредоточенного на интервале (а,Ь). Разобьем этот интер- интервал на п частей длины h каждая. Частота в /-м интервале, центр которого находится в точке Xj = a+ у—о) ' Дается формулой - 1 C.49) -4* Моменты группированного распределения, при обозначении ко- которых здесь и ниже мы пользуемся чертой, равны и;= C.50)
112 ГЛАВА 3 Если у(х) —функция с 2т производными, то согласно формуле Эйлера — Маклорена *) 2'-V)]*-S2lB. C.51) где г/W есть r-я производная от у, В2т{-Л— значение Bт)-го полинома Бернулли в точке -к- и S2m — остаточный член, кото* -к рый можно представить в виде + "л°)> 0 < 0 < 1. C.52) Если первые Bт— 1) производных функции у на концах интер- интервала обращаются в нуль, то, пренебрегая остатком S2m и по- полагая в C.51) l/2ft -1/2Л имеем b 1/2A их = ц/. C.53) а - 1/2Л Следовательно, ft 1/2Й а - 1/2Л /=0 где [xkr\—_целая часть 112г. Тем самым найдено представление моментов м/. через действительные моменты. Практически, од- *) См. А. О. .Тельфонд, Исчисление конечных разностей, М., 1952, гл. IV, или Г. Крамер, Математические методы статистики, М., И1, 1948, гл. 12. шей *ч f / flf №1 /'к П fi П I р (Прим. перев.)
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 113 нако, нас интересуют выражения действительных моментов че- через моменты \i'r. Из C.54) легко находим 12 00 Л4, \l6 — fig — J fi4/l -f" ]6 \l2tl ~ ]344 It Соответствующая общая формула имеет вид C.55) у-о C.56) где Bj — число Бернулли порядка / (Волд, 1934а). 3.19 Мы сделали целый ряд допущений при выводе этих фор- формул: высокий порядок касания в точках а и Ь, конечность интер- интервала (а, Ь), возможность пренебречь остаточным членом. По аб- абсолютному значению величина В2т {-^\/{2тI меньше, чем 4/BяJт, и, следовательно, lS2ml в C.52) меньше, чем величина 4nh2rn/BnJm, умноженная на некоторое значение у<2т~>(х) в ин- интервале (а, Ь). Степень пренебрежимости остаточным членом зави- зависит поэтому от поведения функции Рт-'>(х) в интервале (а, Ь). Практически рассмотренные поправки ведут к уточнению, если имеется касание достаточно высокого порядка. В против- противном случае они могут вести к еще большему расхождению. Для распределений бесконечного размаха частоты убывают вблизи концов, и с некоторой уверенностью мы можем применять по- поправки к тем эмпирическим распределениям (практически, ко- конечно, они могут иметь лишь конечный размах), основная часть которых сосредоточена в середине и частоты на копнах малы. Пример 3.15 Рассмотрим распределение 8 М.. Киидалл, А. Стьюарт
114 ГЛАВА 3 Это случай так называемого распределения I типа. Значения от- отвечающих ему частот для интервалов разбиения с шагом 0,1 мо- могут быть найдены по таблице неполной В-функции. Они равны Центр интервала 0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95 Полная частота Частота 0,000 000 0 0,000 009 2 0,000 646 8 0,009 938 2 0,061 137 4 0,192 199 6 0,332 887 7 0,297 479 9 0,101033 7 0,004 667 5 1,000 0000 В следующей таблице приведены моменты относительно х = 0 группированного распределения без поправок на группировку, с поправкой, а также точные моменты. Момент Н f*4 Групповой *) 0,666 662 8 0,456 965 5 0,320 952 3 0,230 335 1 0,168 512 9 0,125 433 2 Точный 0,666 666 7 0,456 140 4 0,319 298 2 0,228 070 2 0,165 869 2 0,122 599 0 Исправленный 0,666 662 8 0,456132 2 0,319 285 7 0,228 053 2 0,165 848 0 0,122 574 0 *) По-английски групповые моменты (т. е. моменты груп- группированного распределения) называются raw moments — грубые моменты. (Прим. пррев.) Точные значения вычислялись непосредственным интегриро- интегрированием. Следует отметить, что порядок малости погрешностей второго и третьего исправленных моментов выше порядка чле- членов А2/12 и /г2/4, использованных при вычислении поправок. Главная часть погрешности четвертого исправленного момента составляет 2 • 10~5 и является величиной того же порядка, что и слагаемое 7/г4/240, использованное при построении поправки для
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 115 четвертого момента. Точно так же ошибки исправленных пятого и шестого моментов имеют тот же или более высокий порядок малости, чем некоторые из поправочных членов. Пример 3.16 Для иллюстрации того обстоятельства, что поправки Шеп- парда могут вести к еще большему расхождению, если наруше- нарушено условие касания высокого порядка, приведем следующий при- пример, заимствованный из работы Пэрмэна и Пирсона A919). Приводимая ниже таблица содержит частоты нормального рас- распределения dF = -fLre 2 dx на отрезке [1,25; 5,25] при группировке с шагом 0,5. Центр интервала 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 Полная частота Частота 0,065 591 0,027 834 0,009 245 0,002 402 0,000 489 0,000 078 0,000 010 0,000 001 0,105650 После приведения полной частоты к единице получим J-об- разное распределение, имеющее высокий порядок касания на правом конце, а на левом — резко обрывающееся. В следующей таблице представлены моменты относительно среднего без поправок, с поправками Шеппарда, а также истин- истинные моменты этого распределения. Момент М2 Из ^4 Групповой 0,158 524 0,104 226 0,149090 Точный 0,172 222 0,098 612 0,156 405 Исправленный 0,137 691 0,104 226 0,131 097 В случае второго и четвертого момента поправки ведут к еще большему расхождению. Для четвертого момента поправка увеличивает относительную погрешность приближенного значе- значения (округленно) с 5 до 17%. Ясно, что по крайней мере для
1 1 6 ГЛАВА 3 такого грубого группирования, как в приведенном примере, по- поправки Шеппарда могут совершенно себя не оправдывать*). 3.20 Соотношения C.55) выписаны в терминах моментов от- относительно произвольной точки. Этой точкой может быть, в част- частности, среднее значение распределения. Соответственно, чтобы получить поправки относительно среднего, нужно в C.55) от- отбросить штрихи и Ц) положить равным нулю. Осредненные поправки 3.21 К поправкам Шеппарда ведет также другая постановка задачи. Пусть имеется распределение, сосредоточенное на не- неизвестном отрезке, и пусть известны частоты попаданий в задан- заданные интервалы. Можно спросить, какие следует сделать поправ- поправки к групповым моментам, чтобы они стали более близкими к истинным моментам в среднем? Иными словами, каковы сред- средние значения групповых моментов, если множество интервалов группирования располагается случайно? • Пусть Xj, / = 0, ±1, ±2, — некоторое фиксированное множе- множество значений* и пусть х} изменяется от X}— 1/2/г до X}-\- 1/2/г. По определению оо Г 1/2* 1 — V4 I г ,, . ., „I /=-oo [ -1/2* J Обозначая М(м^) среднее значение ц'г по всем xjt меняющимся от Xj— 1/2h до Xj + lJ2h, имеем X,+ U2h ,/2л ~r ! v Г Г /=-coX.-l/2* -1/2* оо 1/2* 1 Г Г ^Т J х J f{* + l)dldx. C.57) -со -1/2* Соотношение C.57) отличается от C.53) лишь тем, что в нем вместо \х.'т стоит М(м>)- Таким образом, поправки Шеппарда применимы к осредненным групповым моментам независимо от характера поведения функции плотности на концах. Это не дает, однако, достаточного основания для свободного применения поправок Шеппарда во всех случаях. Вместо уело- *) В рассмотренном примере поправки Шеппарда ухудшают точность оценок не из-за грубости группирования (оно выполнено вполне корректно), а из-за того, что исследуемое распределение имеет J-образную форму. (Прим, ред.)
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 117 вий высокого порядка касания на концах и ограниченности про- производных, обеспечивающих применимость поправок к любому частному распределению, здесь появляется условие случайного расположения интервалов группировки на том отрезке, где со- сосредоточено распределение. И хотя при выполнении такого усло- условия в каждом конкретном случае поправки могут оказаться ошибочными, однако в среднем по большому количеству слу- случаев они будут правильными. В действительности условие о слу- случайном расположении группировки очень часто оказывается не- неприменимым к J- и U-образным распределениям; например, в случае распределений доходов или смертности по возрастам почти неизбежно приходится начинать группирование в нуле. 3.22 Чтобы получить поправки для моментов относительно среднего, нельзя просто отбросить штрихи. Если обозначить среднее группированного' распределения буквой т, то для среднего значения г-ю момента относитель- относительно среднего получим выражение 1/2Л г Л J -1/2Л где m — функция от х, так что проведенное выше в этой главе преобразова- преобразование стоящего справа интеграла здесь незаконно. Точные выражения для осредненных поправок к моментам относительно среднего до сих пор не по- получены. Однако на основе изучения некоторых частных распределений Кен- далл A938) сделал вывод, что для всех обычных целей можно использовать, соотношения C.55), как если бы среднее было фиксированным. 3.23 Осредиеиные поправки можно также применять в случае дискрет- дискретных распределений, когда производится группирование в большие интервалы. Эти поправки отличны от поправок в непрерывном случае. См. упражне- упражнение 3.13 и Крэйг A936). О поправках п случае, когда условия Шеппарда не выполняются, см. Пэрмэн и Пирсон A919), Сэндон A924), Мартин A934) и Элдертон A938b). Поправки Шеппарда к факториальным моментам 3.24 Волдом A934а) было показано, что поправки Шеппарда к фактори- факториальным моментам даются следующими формулами: h2 -, 5 -' Л3 W **¦ 213 -, +т-л 2 , 93 _, Л Н—4" 9129 44Г C.58).
1 1 8 ГЛАВА 3 Общая формула имеет вид (;)/(|)ч-л. (з-59) /-о где ^/+2Н-п)—значение полинома Бернулли, равное при j > 1 а при / = 0, 1 равное ^2) (|) = 1, В\ (^ = 0. Замечание о числах и полиномах Бернулли 3.25 Числа и (в несколько меньшей степени) полиномы Бер- Бернулли имеют ряд важных приложений в статистике. Число Бер- Бернулли Bj порядка / определяется как коэффициент при РЦ\ в разложении 1^ех — 1), так что \-~- C.60) Непосредственное разложение левой части дает ?0=1; ^ггз — -;. Ву^ — 0 при у=1, 2, ...; зо> ^6— 42"- 691 • 730 ' В дальнейшем нам потребуется следующее соотношение (одно из многих, содержащих числа Бернулли): Оно получается интегрированием от 0 до t обеих частей следую- следующего равенства, равносильного C.60): _1 1,1. у В/' ,' _ 1 t~*~ 2 " М ]\ •
МОМЕНТЫ И СЕМИИНВАРИАНТЫ ПФ Весьма часто используется также так называемый ряд Стир- линга: C.62> Это разложение асимптотично в том смысле, что, каково бы ни было п, для всех положительных действительных х истинное значение logF(x) лежит между суммой из п и п+\ членов. В частности, log Г (*)Ц*-^) log*-*+ i log 2л+ -^- 1260л:5 ~ 1680лг7 ~^~ 1188л:9 C-63) 139 571 1 g 51 840л-3 2 488 320л:4 ' " " j ' ^°-и^/ Полином Бернулли В" (х) порядка п степени / по х опреде- определяется равенством СО ex'tn/(e' — 1У = 2 t'B(? (*)//!. C.65> J-0 Поправки Шеппарда к семиинвариантам 3.26 Как в 3.18, имеем, обозначая it буквой 6, 1/2Й I со 1/2Л /2Л J -оо -1/2А I/2A со , 1 fi, со , /• /• Sh-н-еЛ - = Т J е~в|^ J ee*fW^ = -p— e**t{x)dx. C.66) 1/2Л ^-6Л J -1/2Л ^ Левая часть представляет собой характеристическую функцию группированного распределения, а интеграл справа — истинную х. ф. Беря логарифмы от обеих частей, используя C.61) и при- приравнивая коэффициенты при 6г/г!, получаем замечательно про- простое выражение для поправок Шеппарда к семиинвариантам: Kr = Kr—Brhrlh, r>\. C.67)
120 ГЛАВА 3 Так как числа Бернулли нечетного порядка равны нулю, за ис- исключением Ви и первый семиинвариант совпадает со средним значением, то поправки Шеппарда не меняют семиинвариантов нечетного порядка. Для первых трех семиинвариантов четного порядка имеем _- h* X4 — И4 -Г 120 ' _- л6 Ч — Ч 252 * Многомерные моменты и семиинварианты 3.27 Предыдущие результаты настоящей главы легко могут быть обобщены на многомерный случай. Чтобы не усложнять алгебраических выражений, мы ограничимся рассмотрением двух вариант xt и х2. Читатель не встретит трудностей при обобщении на случай большего числа вариант. Двумерный момент м>5 относительно at no Xi и относительно а2 по х2 определяется как с» оо и' — Г [ (у /j V (х п Vs rfF И P>Q\ — оэ —оэ Если г или s равно пулю, то этот момент сводится к обычному одномерному моменту соответствующего маргинального распре- распределения. Если ни г, ни s не равны нулю, то мы получаем новый тип момента — смешанный момент. Первый смешанный момент ц', играет важную роль в теории корреляции. Первый смешан- смешанный момент }хц относительно средних значений х, и х2 назы- называется ковариацией. Аналогично одномерным моментам, двумерные моменты от- относительно одних точек могут быть выражены через двумерные моменты относительно других точек. Если начало отсчета xt пе- перенести из cii в Ь\, а начало отсчета х2 — из а2 в Ь2, то, полагая Ci = bl —fli, C2 = &2 — 0,2, ПОЛуЧИМ где в правой части под (ц'У {\i')k понимается ^',k(bv b^). Полу- Полученное равенство соответствует символическому соотношению для одномерного случая.
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 121 Методы вычисления смешанных моментов численно заданных распределений будут рассмотрены во втором томе при изложе- изложении теории корреляции. Нахождение смешанных моментов для двумерных распределений, заданных математически, сводится к вычислению двойных сумм или двойных интегралов и не тре- требует никаких новых статистических идей. Пример 3.17 Рассмотрим двумерное распределение -Р2J Вычислим интеграл оо со M{tv t2)= J J exA+X2h —oo —c» Производя подстановку ? = *, —о**,—po,o2f2. = x2 находим {1 t\a\ M (tv t2) = exp {1 (t\a\ + 2tlt2axa$ + ^o22)} X CO CO x г J J exp\~W=^) U~^T+^I fi2 °° °° Это соотношение.позволяет вычислить все моменты, так как мо- мент [irs равен коэффициенту при —¦ -?¦ в разложении М(г11, ^)- В частности, М-зо == М-21 == М-12== Мте === О» ц4Э = За?, fi3l = ЗроЗо2, ц22 = A - 2р2) о2о2 3, м.04 = За4.
122 ГЛАВА 3 3.28 Двумерный аналог соотношения C.30) имеет вил ОПТ *2+ • • • + 7Т7Г W + • • • или, символически, ехр{Е7Г^1 + ^Р} = 27Г^(/1 + ^)Р> C71) где -/Я{-^fetf-h Jl'^u tr%+..]. C.72) Пусть <p(tx, t2) — характеристическая функция: оо оо . tt)= J J e"lXl+XldF. C.73) Как и в одномерном случае, если выполнены соответствующие условия существования, то ЭД. C-74) г, j=0 I r, s=0 J где хоо считается равным нулю. Из этих соотношений можно вывести выражения для сме- смешанных моментов через смешанные семиинварианты и обратно. Соотношения между смешанными, моментами и семиинвариан- семиинвариантами можно также получить из соответствующих одномерных соотношений посредством следующего простого формального процесса. Рассмотрим равенство (одно из C.37)) C.75) Перепишем его формально в виде ц' (Г4) = * (Г4) + 4Х (Г3) Я (Г) + 3 {X (Г2) }2 + 6* (Г2) {к (Г) Р + {И (Г) }*. Считая г переменным и применяя к обеим частям оператор 5-^г, имеем 4n'(r3s) = 4х (гЩ + 12% (гЧ) х (г) + 4и (л2) з< -f Деля на 4 и заменяя г и s соответствующими индексами, отно- относящимися к первой и второй вариантам, получим выражение
МОМЕНТЫ И СЕМИИНВАРИАНТЫ ц'31 через семиинварианты 1 23- К = «31 + 3к21И10 + «30*01 + 3иП*20 + 3кП« Х20ИШИ01 + «10*01' C.76) Этот процесс имеет общий характер и может быть обоснован с помощью соотношения C.71). Он применим также для полу- получения выражений семиинвариантов через моменты и к выводу формул, содержащих моменты относительно среднего. Напри- Например, из равенства ^ = *4-г-3*2 C.77) находим, производя подобные операции, что Из1 = «3i И- Зких20. C-78) Аналогично можно получить*) C.79> 3.29 Иногда бывают полезны следующие формулы: "™* ^Н» М*21 ~~~ ^21* М*31 === ^31 —Г~ *»^пл^<¦ - р 1*41 = «. И-32 = = >*зз + Зх31х02 4 = 1*31 - «51 = М-51 — «42 = ^42 — «33 = 1-133 — ^, 40х02 4- 9к22хп 4 9к21и12 4 0ицх02 4- oXjj. C.80) 4 C.81) *) Кук A951) дала формулы для выражения \\'п через xrs и обратно при всех
124 ГЛАВА 3 3.30 Волд A934b) дал следующие выражения для поправок Шеппарда к двумерным моментам и семиинвариантам (длины интервалов группировки взяты равными hi и h2). Для моментов С3-82) В частности, 'i20==fi20 12" 1' ^П==^11> ^02 = ^02 12" 2' Ki = 1*3! - и*?-'* C.83) Для семиинвариантов — Brti\\r, — Вs fl2/S, г, s>0, r>2, S > 2. C.84) Меры асимметрии 3.31 В главе 2 мы рассмотрели меры расположения и рас* сеяния. С помощью моментов мы можем теперь приступить к рассмотрению мер других качеств генеральной совокупности, в частности асимметричности. Для симметричных распределений среднее значение, медиана и мода совпадают. Поэтому естественно в качестве меры асим- асимметрии распределения взять отклонение среднего от моды или среднего от медианы. К. Пирсоном была предложена следующая мера: (,, среднее — мода Недостатком ее является необходимость находить моду. Од- Однако для широкого класса распределений — так называемых пирсоновских распределений (см. главу 6) — эта мера может быть выражена через первые четыре момента. Положим, 14 C.85) ft — р2 — C.86)
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 125 Можно показать, что для распределений Пирсона Ьк~ 2E^-6E,-9) ' ^-Ь/> Это выражение может быть взято в качестве определения меры асимметрии, применимого ко всякому распределению, у кото- которого существуют все моменты вплоть до четвертого включи- включительно. Само отношение Pi также является мерой асимметрии. Ясно, что если распределение симметрично, то р4 обращается в нуль, поскольку тогда ц3 равно нулю; величина отношения М>3 к М^'2 (равного*) Y$i) показывает степень отклонения от симметрии. Вообще можно определить о Р 2Я + 1 о Ц2Я + Р2л „Я + 1 C.88) Нельзя сказать, чтобы Ргп+i и р2п широко использовались, но время от времени они встречаются в статистической литературе. В некоторых отношениях более удобными, чем величины Pi и р2, являются Y, = -^- = -^-, C.89) ., ^4 О ^4 /п ПА\ V2 — —2 ——2~ * (о.Уи) Если распределение нормировано, то yi и у2 равны соответст- соответственно третьему и четвертому семиинвариантам. Эксцесс 3.32 Для так называемого «нормального» распределения dF = . о ' j.. ^ .. ^ р2 равно 3 и Y2 — нулю. О кривых плотности, для которых Y2 = 0, говорят, что они имеют нормальный эксцесс. Если y{>Q, то го- говорят, что эксцесс кривой положителен, а при уг<0. что он от- отрицателен. *) На самом деле здесь и далее под V$\ автор понимает не арифмети- арифметическое значение квадратного корня, a VT^signns. (Прим. ред.)
126 ГЛАВА 3 Раньше существовало мнение, что кривые с положительным эксцессом имеют более высокую и острую вершину сравнитель- сравнительно с нормальной кривой, а кривые с отрицательным эксцессом— более низкую и плоскую. Это, однако, не обязательно так. Тем не менее введённые понятия полезны, но их лучше рассматри- рассматривать как описывающие знак у2, а не характер кривой. См. упра- упражнения 3.20 и 3.21. Пример 3.18 Для распределения браков в Австралии, рассмотренного в примере 3.1, групповые моменты относительно среднего при группировке в интервалы длиной три года равны 977, [Г3=36,151 595, 7и = 408,738 210. После применения поправок Шеппарда они переходят в (j.2 = 6,973 644, (д3=36,151 595, ц4 = 405,238 888. По этим моментам находим р! = 3,854, Yl= 1,963, f>2== 8,333, Y2== 5,333, что указывает на значительные асимметрию и положительный эксцесс. Пример 3.19 С помощью формул для моментов биномиального распреде- распределения, полученных в примере 3.2, находим у, = Ч ~ Р ., _ \-&рч Vnpq xz npq Отсюда следует, что yi » Ya стремятся к нулю при п —> оо. Это находится в соответствии с тем фактом (мы докажем его позд- позднее), что нормированное биномиальное распределение сходится к нормальному при стремлении п к бесконечности. Моменты как характеристики распределения 3.33 В последующих главах встретится множество примеров, иллюстрирующих пользу моментов и семиинвариантов при выяс- выяснении природы частотного распределения, однако уже сейчас можно сделать об этом ряд общих замечаний.
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 127 Уже отмечалось, что характеристическая функция опреде- определяет все моменты, если они существуют; в главе 4 будет дока- доказано, что характеристическая функция определяет также и функ- функцию распределения.уТе'м не менее моменты, даже если все они существуют, не определяют полностью распределения. Они опре- определяют его однозначно лишь при некоторых дополнительных условиях. К счастью для статистиков, этим условиям удовлетво- удовлетворяют все встречающиеся в статистической практике распреде- распределения*). Практически, следовательно, знание моментов, когда все они существуют, эквивалентно знанию функции распределе- распределения: эквивалентно в том смысле, что теоретически было бы возможно все свойства распределения выразить в терминах моментов. 3.34 Можно ожидать, в частности, что если два распределе- распределения имеют некоторое число одинаковых моментов, то они в какой-то степени схожи. Если, скажем, моменты у двух распреде- распределений совпадают вплоть до порядка «ив пределе, при п, стре- стремящемся к бесконечности, эти распределения становятся одина- одинаковыми, то можно ожидать, что при совпадении конечного чис- числа первых моментов распределения приблизительно одинаковы. Некоторое математическое обоснование этого так называемого принципа моментов может быть получено следующим образом. Известно, что функция, непрерывная на конечном отрезке [а, Ь], может быть представлена на этом отрезке как сумма рав- со номерно сходящегося ряда полиномов от х, скажем 2 Рп{х)> л-О где Рп{х)—полином степени п. Предположим, что мы хотим S аппроксимировать такую функцию многочленом вида ~^апх". я-О Коэффициенты ап могут быть определены по принципу наимень- наименьших квадратов, т. е. из условия, чтобы интеграл a был минимальным. Дифференцируя по а;-, имеем ь 2 J (f ~ а *) К сожалению, это не так. Например, такое важное и часто встречаю- встречающееся в приложениях распределение, как логарифмически нормальное (см. 6.29), не определяется своими моментами однозначно. В утверждении авторов «все» следовало бы заменить на «почти все» (Прим. ред.)
128 ГЛАВА 3 или ь ь J fxJ dx = u/. == J 2 anx"+J dx- C-92) a a Пусть теперь два распределения имеют одинаковые момен- моменты вплоть до порядка s. Тогда они имеют и одинаковые аппрок- аппроксимации в смысле принципа наименьших квадратов, поскольку в силу C.92) коэффициенты ап определяются этими моментами. Более того, если U отличается от ^ja,nxn не больше чем на ei, a f2—не больше чем на ег, то fi отличается от f2 не больше чем на ei + e2. Подобный подход может быть использован и тогда, когда распределения не сосредоточены на конечном отрезке. В этом случае при довольно общих условиях функцию плотности мо- можно представить в виде ряда с членами вида*) е~х2Рп(х). Вы- Выводы получаются такие же. Г Таким образом, распределения, которые имеют конечное чис- число соответственно одинаковых низших моментов, в некотором смысле аппроксимируют друг друга. В дальнейшем встретится много случаев, когда мы не сможем точно определить функцию распределения, но сможем найти моменты, по крайней мере до некоторого порядка. В таком случае мы сможем аппроксимиро- аппроксимировать исследуемое распределение, найдя другое распределение известного вида с теми же первыми моментами. Практически аппроксимация такого рода часто оказывается очень хорошей, даже когда совпадают только первые три или четыре момента. Неравенства чебышевского типа 3.35 Если известны некоторые моменты распределения, то от- относительно функции плотности или функции распределения мо- можно сделать точные утверждения в терминах неравенств. Пусть F — функция распределения и пусть существует второй момент. Для любого действительного t справедливо равенство *) Теорема Веры Миллер-Лебедевой (Vera Myller-Lebedeff, A907), Math. Ann. 64, 388) утверждает, что функция может быть разложена в ряд по про- производным ехр (—х2). Это разложение не следует смешивать с рядом Грама — Шарлье (см. главу 6), где функция разлагается в ряд по производным ехр —
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 129 В первых двух интегралах справа 1—x2/t2^0, следовательно, -оо —t — t Таким образом, частота значений между —t и t не меньше, чем 1 — \i'.Jt2. В частности, если начало совместить со средним зна- значением распределения, то -^ (-')>!-!# C-93) На языке теории вероятностей это неравенство обычно записы- записывают в следующем виде, положив ц2 — о2, t=%a: Р[\х— М(*)|<А.а}>1 — \/12 C.94) или Р{|х — М(х)|>>.с]<1/>А C.95) Это неравенство принадлежит Бьенэме, который опубликовал его в 1853 году, и Чебышеву, независимо открывшему его позд- позднее. Обычно оно называется неравенством Бьенэме — Чебышева. Оно дает нижнюю границу для частоты, отвечающей интервалу длины 2ко, центр которого совпадает со средним значением рас- распределения. Будучи верным с очень большой степенью общно- общности, это неравенство не играет особой роли при оценке частот в частных случаях, но оно неоценимо при установлении предель- предельных закономерностей и довольно полезно, когда частоты оцени- оцениваются лишь грубо. 3.36 В настоящее время существует большое число нера- неравенств чебышевского типа. В дальнейшем некоторые из них нам встретятся. Несколько наиболее употребительных неравенств мы приведем здесь для ссылок. Непосредственным обобщением примененного выше метода легко показать, что если vr — абсолютный момент порядка г, то Р {| х — М (х) |/vj" < 1} > 1 — 1 /АЛ C.96) Это неравенство, принадлежащее К. Пирсону A919), вклю- включает неравенство Бьенэме — Чебышева как частный случай (при г~2). Если варианта не принимает отрицательных значений, то можно также показать (упражнение 2.15), что при всех ^ F(t)>l-\x[lt. C.97) Иногда C.97) называют неравенством Маркова. Если за ва- варианту взять {х— М(х)}2 и положить t=X2a2, то C.97) перейдет в C.94). 9 М. Кендалл, А. Стьюарт
130 ГЛАВА 3 Для распределений общего вида эти неравенства не могут быть улучшены. Весьма замечательно, однако, что, накладывая лишь очень слабые ограничения на форму функции плотности, неравенства можно значительно усилить. Например, если непре- непрерывная функция плотности имеет только одну моду т0 и начало отсчета помещено в моду, то ^т}> 1—4/(9^), C.98) где т — квадратный корень из второго момента относительно т0. Неравенство C.98) (в иной, правда, форме) восходит к Гауссу. 3.37 С кругом вопросов, касающихся этих неравенств, более подробно можно познакомиться по обширному обзору Годвина A955). Предполагая из- известными два средних значения (например, два момента), можно получить более тонкие неравенства. Мэллоуз A956), накладывая дальнейшие ограни- ограничения на функцию плотности, такие как существование только одной точки перегиба по каждую сторону от моды, получил очень хорошие аппроксима- аппроксимации самой функции распределения. Вопросы, связанные с подобными нера- неравенствами, привлекательны с математической точки зрения и сами по себе могли бы составить содержание отдельной монографии. УПРАЖНЕНИЯ 3.1 Показать, что первые моменты дискретного (пуассоновского) рас- распределения, частоты которого в точках 0, 1, ...,/,... суть V ' 1! ~J\ выражаются формулами 3.2 Показать, что для распределения dF=kx~pe~ylx dx, 0<ж<со, у > 0, моменты относительно нуля при г<р—1 выражаются формулами , \гТ(р — г — 1) ГО7-1) и не существуют в противном случае. 3.3 Показать, что для распределение Х2 \ exp {— v arctg (лг/а)} dx, — со<л:<со, моменты относительно нуля равны я Я f -Я/2 н, следовательно, -'-i {о—i)ai4.2-vi*;.i}.
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 131 3.4 Пусть f(x) —непрерывная симметричная относительно х=0, имеющая единственный максимум при х—0 функция плотности, отвечающая варианте( принимающей значения из отрезка [—а, а]. Показать, что 3.5 Показать, что для всякого симметричного распределения семиинвари- семиинварианты нечетного порядка (исключая к\) равны нулю (если они существуют). 3.6 Показать, что семиинварианты распределения dF = e~xl° dx/o, О^лг-^со, а > О, равны хг = а'(г-1)| 3.7 Показать, что функцию eitx можно разложить в бесконечный ряд сходящийся при —оо<-*:<оо (здесь х\.Л=х(х—1)...(л:—г + 1)), и что, сле- следовательно, Вывести отсюда, что для биномиального распределения l(q+p)n] факто- риальиые моменты относительно нуля равны 3.8 Показать, что для распределения, частоты которого в точках ±2г (г — целое) суть 21 + ... • а в точках ±Bг+1) — „2Г+1 Чп I Г е 0!Bг + 1)! ^ 1Ц2/- + 2)! ^ 21Bг + 3)! +...}. семиинварианты нечетного порядка равны нулю, а четкого порядка равны 2а. 3.9 Показать, что г и, следовательно, Щ =(-!)'-' С)' ^1 А * ( 0 0 1 0 ... 0 ... 1 ... 0 0 0 1 Г—\
132 ГЛАВА 3 ЗЛО Показать, что для распределения, получающегося из распределегтя dF=dx, группированием в целом числе интервалов одинаковой длины h, поправки ко второму и четвертому моментам относительно среднего суть V-2 = [*2 + -jj > — — Л2 Л4 [*4 = Ц4 + М-2 -^ + -Щ (ср. Элдертон, 1938b. Отметим, что первая поправка в точности, а вторая приблизительно равна поправке Шеппарда, взятой с обратным знаком.). 3.11 Показать, что если др — оператор, для которого У о, г < р, и «Эр дистрибутивен при действии на произведение, т. е. др(АВ)=В(дрА)+А(дрВ), то др аннулирует все семиинварианты (рассматриваемые как функции от моментов), за исключением хр и др*р = Р1' 3.12 Показать, что если f(x) — нечетная функция с периодом -~-. то о для всех целых г. Вывести отсюда, что моменты распределений dF = x-]ogx{l— Xs\nDn\ogx)}dx, 0<x<oo, 0< одни и те же при всех значениях К. (Стильтьес, 1918.) 3.13 Показать, что если ненулевым частотам дискретного распределения отвечают точки, отстоящие друг от друга на расстоянии h/tn, то при группи- группировании в интервалы длиной ft, no m точек в каждый, осредненные поправки к семиинвариантам даются формулой _- BThT (л 1 \ (Крэйг, 1936.) 3.14 Показать, что для двумерного распределения
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 133 все семиинварианты и™, г, s>2 равны нулю. Показать далее, что если поло- положить ¦к Игл a[as2 то ^-rj = (^ + -s — 1) РЯГ_,, я_, 4- (г — 1) (s — 1) A — р2) Я.г_2,5_2, _ Br)!Bs)! yi BрJ> Ъ L{r Л2г+1- 2.5+1 (r-j)\(s- где / — наименьшее из чисел г, s. В частности, *п = Р. Я.3, = 3р, Я.51 = 15р, Я.7, = 105р, Я.91=945р; Я22 = A+2р2), Я24 = 3A+4р2), Л.2в= 15 Я28 = 105 A + 8р2), Я2, |0 = 945 A + Юр2); 3.15 (Неравенство Ляпунова для абсолютных моментов.) Исходя из не- неравенства Гельдера полагая в нем х = ие, </ = и°, E=1—а, а = (а — *)/(а—с), вывести нера- неравенство 3.16 Проверить формулы для х42 и Изз в C.81). 3.17 Распределение группировано в интервалы длиной h. Показать, что при движении решетки группирования вдоль оси изменения варианты груп- групповые моменты меняются с периодом h. Далее, положив ОО ? 4- ft/2 ОО ОО —, ^ Г \Ч ЧГЧ Иг= У, U I (х) dx = Ло-\- у, A] slny9-|- V By cos jQ, j--co E-ft/2 y-'l y_l где g == (y -f- 9/2я) А, показать, что оо ft/2 4 J -оо -А/2 и что, следовательно, это разложение ведет к поправкам Шеппарда.
134 ГЛАВА 3 Показать также, что x+h/2 \dx С sin I x-h/2 и аналогично для В„. 1 —— X* Показать, наконец, что для распределения -—~= е 2 dx,—oo<-t<oo оо = j J l при г = 1 все Bs обращаются в нуль, a As = (—l)s+ sxpl ""/,'t I и что> стало быть, даже для грубого группирования с h = \ поправка к среднему не превосходит е~2п'/п (приблизительно). (Фишер, 1921а.) 3.18 (Неравенство Гаусса — Вннклера.) Рассматривая 1—\j(x—x)+f(x + +x)]l2f(x), x>0, как функцию распределения и используя неравенство Ляпу- Ляпунова, показать, что абсолютные моменты относительно моды х, отвечающие дифференцируемой функции плотности с единственной модой, удовлетворяют неравенству /(г _(_ 1) V^}!/r < {(П -|- 1) V^}1//2, Г < П. Вывести отсюда, что если среднее совпадает с х, то Рг^1,8. 3.19 Показать, что i / i М-о t*i  ]i[ /2 И' >« М-2 М-з И4 и, следовательно, P2>l + Pi- 3.20 Рассмотреть два распределения с ф. п. 1 --^ = J=r« 2 {\+А(х* — 22лв + 116лг4 — 126дг2-т-3)}, где А — малое положительное число. Показать, что при подходящем выбо- выборе А оба распределения имеют нулевое среднее, единичную дисперсию и только одну точку перегиба (у функций плотности) между 0 и со, Показать также, что при х, близких к нулю, так же как и при больших х, f2>fu хотя эксцесс у fi отрицательный. (Дайсон, 1943.) 3.21 Для следующих четырех унимодальных симметричных функций плот- плотности среднее равно нулю и дисперсия — единице. Проверить, что значения щ и максимумы этих плотностей соответствуют выписанным в таблице:
МОМЕНТЫ И СЕМИИНВАРИАНТЫ 135 tK\f Tf \ 4 " 'и \ x4) e~*2 Значение 2,75 3,125 4,5 2,667 Максимум ПЛОТНОСТИ 0,423 0,387 0,470 0,366 Сравнивая с соответствующими значениями для нормального распреде- распределения: ц4 = 3, максимум плотности =0,399, показать, что как в случае, когда значение плотности в нуле больше значения в нуле нормальной плот- плотности, так и в случае, когда она меньше, возможны и положительный и отрицательный эксцессы. (Канлански, 1945.) 3.22 Определив по аналогии с 3.31. s= (среднее — медиана)/(стандартное отклонение), показать, что для всех распределений—1 <! s <! I. (Хотеллинг и Соломоне, 1932.) 3.23 Используя соотношение C.61), показать, что прямоугольное распре- распределение dF=xdx/h, ~ Л^лг-^-д-Л, имеет х. ф. и семиинварианты хгг_ i = 0, X2r=B2rh?rJBr), л= 1,2,... Аналогично, дискрет- дискретное прямоугольное распределение Р{*=г}=-1, г=1, 2, .... л, имеет х. ф. и семиинварианты щг+, = 0, х2г = В2Г («2г _ 1)/Bг), г = 1, 2, ... 3.24 Показать, что если варианта принимает только неотрицательные це- целые значения, то формула C.29) допускает обращение: г-0 Подставить в эту формулу факториальные моменты, найденные в примере 3.8, и убедиться, что получатся частоты биномиального распределения.
ГЛАВА 4 ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 4.1 В предыдущей главе мы ввели характеристическую функ- функцию со jitxdF D.1) как производящую функцию моментов. Характеристические фун- функции (х. ф.) обладают еще целым рядом полезных и важных свойств, что и объясняет ту центральную роль, которую х. ф. играют в статистической теории. В настоящей главе будет дана сводка различных свойств х.ф. При этом для установления не- некоторых результатов мы будем вынуждены прибегнуть к ряду сведений из высшей математики. Читатель, интересующийся лишь статистическими приложениями, может при чтении этой главы опустить доказательства и ограничиться усвоением только самих результатов. Вообще говоря, излагаемая в этой главе тео- теория может рассматриваться как специальный случай общей тео- теории преобразований Фурье в силу того, что рассматриваемые нами функции не произвольны, а являются или функциями плот- плотности, или функциями распределения. Доказательства ряда фактов в этой главе заимствованы нами из книги: P. Levy, «Calcul des Probabilities», Gauthier — Villars, Paris, 1925*). 4.2 Заметим сначала, что <р(/) всегда существует, поскольку со оо со jeltxdF(x) < f\e"*\dF*= jdF=\. D.2) со —со —оо Так что интеграл в D.1) абсолютно сходится. Далее, функция ф@ равномерно непрерывна по t и / раз дифференцируема под *) Недавно Л у к а ч (Е. L u k а с s, Characteristic Functions, 1960, Griffin) опубликовал изящную монографию, посвященную характеристическим функ- функциям. (Обширный материал о характеристических функциях содержится в книге Ю. В. Линника, «Разложения вероятностных законов», Изд. ЛГУ, 1960. (Прим. перев.)
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 137 знаком интеграла, если только результирующий интеграл суще- существует и равномерно сходится. Для этого в свою очередь до статочно существования момента vj. В самом деле, тогда D.3) Теорема обращения 4.3 Мы сейчас докажем фундаментальную теорему теории х. ф. — так называемую теорему обращения. Согласно этой тео- теореме х. ф. однозначно определяет функцию распределения. Более точно, если q>(f) задается формулой D.1), то —=u~dt, D.4) —со где интеграл понимается в смысле главного значения, т. е.. как с lim тг- Если к тому же F(x) имеет плотность f(x), т. е. dF=f(x)dx, то со где интеграл снова надо понимать в смысле главного значения, если только он не сходится в обычном смысле. Сравнение фор- формулы D.5) с формулой со \x)e^dx D.6) показывает, что между f(x) и q>(t) существует соотношение двой- двойственности. Уравнение D.4), содержащее ^@), можно записать в не- несколько иной форме. А именно,
138 ГЛАВА 4 Прежде чем непосредственно переходить к доказательству теоремы обращения, мы установим, что для всякого действитель- действительного числа | —1, КО, я . t dt = — оо О, ?=.0, D.8) Величина, стоящая в правой части формулы D.8), обычно обо- обозначается sgn? (читается «сигнум ?»). Проще всего формулу D.8) установить, вычисляя комплексный интеграл вдоль контура, состоящего из большой полуокружности, действи- действительной оси и малой полуокружности около начала координат. Ниже мы будем также использовать тот факт, что для пере- переменной и и фиксированного х оо х -оо J sgn(«— x)dF{u) = — ^dF(u) + J dF(u)= 1 — 2F{x). D.9) Для каждого положительного с интеграл с с со -с е оо = J J -—I — с —со С ОО - sin сходится равномерно и поэтому мы можем поменять порядок интегрирования. Тогда получим со С J Внутренний интеграл по с непрерывен и ограничен. Поэтому при с—»оо из D.8) и D.9) следует, что оо lim 1е — я f {sgn« — sgn(« — С +со •*
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 139 Тем самым соотношение D.4) установлено. Формулу D.7) мож- можно вывести аналогичным путем, воспользовавшись тем, что Далее, если f(x) существует, то путем дифференцирования в формуле D.4) под знаком интеграла (что законно в силу его равномерной сходимости) мы придем к формуле D.5). Диффе- Дифференцируя D.7), мы получим также "ф@}Л. D.12) 4.4 Из определения х. ф. следует, что ф(^) и q>(—t) комплек- комплексно сопряжены. Поэтому, если Ш (t) и 3 @ —действительные и мнимые части q>(/), то из D.4) следует, что ^ J аО)..пл* + э<0A-со,*) du DЛЗ) —со и из D.7) оо о Точно так же = ~ | Щ @ cos xt — 3@ sin xt)dt. D.15) — оо 4.5 Рассмотрим теперь величину /с, определенную формулой D.16) Если F(x) имеет производную f{x), то из D.5) вытекает, что lim Ус = 2лИш/!(д:)/2с = 0 и, следовательно, /с стремится к нулю во всех тех точках, где плотность распределения непрерывна. Если плотность распределения разрывна, то рассмотрим ка- какую-нибудь точку разрыва. Пусть в этой точке частота равна fj. Тогда тот вклад, который эта величина вносит в ф(^), равен /jexp (itxj). Соответствующий вклад этой частоты в /с будет
140 ГЛАВА 4 равен с i Если Х}фх, то ясно, что при е->оо это выражение стремится к нулю. Но если Xj — x, то рассматриваемый интеграл равен про- просто значению w Поэтому /с стремится к fj в точке x=Xj. Следовательно, если /с стремится к нулю в какой-то точке, то в ней функция распреде- распределения непрерывна. Если же это выражение стремится к некото- некоторому положительному числу fj, то функция распределения раз- разрывна в этой точке и ее скачок в ней равен fj. Это дает нам критерий, позволяющий судить о том, отвечает данная х. ф. не- непрерывному распределению или же нет. 4.6 В том случае, когда функция распределения сосредоточена в точках X} (/=1, 2, ...), х. ф. согласно D.6) задается формулой = 2 dt = „. ,_ 1 1 Г Ц f 1 exp {it (х -х,)}- 2) fj exp {- It (x- xj)) r W — -g -t- 2^ J о 1 1 vi f s\n Hx ft f s\n Hx — Xj) 1 lyi D.17) Таким образом, в точках x=Xj функция распределения имеет скачки, равные fj. Заметим, однако, что для x=xh к-1 Поэтому значение, приписываемое F(x) в точке скачка, равно частоте, накопленной до этой точки, плюс половина величины скачка в рассматриваемой точке. В силу же нашего обычного
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 141 соглашения F(x) непрерывна справа, и поэтому значение F(xh) к должно быть равно 2 fj- Об этом несоответствии надо помнить, когда разрывные функции распределения получают путем обра- обращения х. ф. Пример 4.1 В примере 3.4 мы установили, что для нормального распре- распределения dF= * е-*2'™, — со<лг<оо, а у 2л х. ф. равна Предположим теперь, что задана эта функция ф(^) и тре- требуется найти распределение, если таковое существует, для ко- которого ф(^) является характеристической функцией. Прежде всего мы замечаем, что если распределение суще- существует, то оно должно быть непрерывным. В самом деле, с J^==i Jexp{—\t4'l~itx}dt -с с и интеграл по модулю меньше, чем ехр I—к t2a2\dt, что в свою очередь меньше интеграла оо ехр(—о со Поэтому всюду /с—>0. Если теперь предположить, что у искомого распределения имеется плотность f(x), то найдем =i Jexp{—i<V-i7jc}rf/ = J exp {-!(<„ + ? Полученный интеграл можно рассматривать как интеграл в ком- комплексной плоскости, взятый вдоль прямой, параллельной дей- действительной оси. Принимая ta + ix/a=u за новую переменную,
142 ГЛАВА 4 найдем, что интеграл равен Y^nla- Поэтому -~х'/а' оо Эта функция всюду положительна и J dF—\. Следовательно, —со f(x) действительно есть плотность распределения, соответствую- соответствующая заданной х. ф. Пример 4.2 Найти плотность распределения, если только она существует, для которой Поскольку здесь Ус-* 0, то мы замечаем, что если только ф@ является х. ф. некоторого распределения, то оно обязательно должно быть непрерывным. Значит, если плотность f(x) суще- существует, то она выражается формулой -оо =*-^\ j e-f-lt*dt+ j e'-lt*dt\ = 00 00 вй J е-'{еих-\-е-их)(И — ^ J e-(costxdt. о о Дважды интегрируя по частям, находим оо .1[_е-'cos**];? — -? J e-1 si о 1 sin txdt = откуда Как и в предыдущем примере, эта функция является плотностью некоторого распределения. Можно показать, что f(x) действи- действительно имеет х. ф., совпадающую с заданной.
XAPAKTEPHCTHMFCKHE ФУНКЦИИ 143 Пример 4.3 Существует ли распределение, обладающее характеристиче- характеристической функцией ф@ = е'(? Мы имеем Если хф\, то интеграл равен с J [cos {A-х)t) -4-/sin {A — x)t)\dt. -с Поскольку sin t — нечетная функция, то последний интеграл ра- равен с Хотя с ростом с это выражение к пределу не сходится, но зато оно ограничено. Поэтому /с—*0. Если же, однако, х=\, то интеграл равен просто 2с и по- поэтому /с=1. Тем самым в точке х=\ распределение имеет скачок, равный по величине единице. Поэтому все распределение сосредоточено в точке х — 1. Впрочем, это можно было бы легко усмотреть и из того факта, что log <p(t)= it, и, следовательно, второй семиинва- семиинвариант, совпадающий с дисперсией, равен нулю. Пример 4.4 Какой вид имеет распределение (если таковое существует), для которого семиинварианты равны kr= (г—1)!? Ряд at)' _ у (it)' S, at)' _ У-о абсолютно сходится для \t\<\ и поэтому является производя- производящей функцией семиинвариантов (п. ф. с.) некоторого распреде- распределения, если таковое существует. Обозначим п. ф. с. г|)(/). Тогда и поэтому ф (г) = t
144 ГЛАВА 4 Пели плотность распределения существует, то она выражает- выражается формулой 1 Г е~ш ~~2n J T=lt Этот интеграл можно вычислить, интегрируя функцию . __ .у вдоль контура, состоящего из действительной оси и полуокруж- полуокружности бесконечного радиуса, лежащей в нижней полуплоскости. Интеграл вдоль действительной оси сводится к интегралу (с об- обратным знаком), который нам требуется отыскать. Рассмотрим теперь полуокружность радиуса R и положим z=R(cos-Q+'i sin0). В результате интегральное выражение станет равным ехр (— ixR cos 9 -J- xR sin 8) 1— iR cos 9 -j-/? sine ' где я^0^2л и, следовательно, sin0 отрицателен. Поэтому если х положительно, то предыдущее выражение по модулю меньше, чем e-xR I sin в| R что стремится к нулю при R-+oo. е~ 1хг Функция < . внутри области интегрирования имеет по- полюс в точке г = —/, а соответствующий вычет равен ie~x. Следо- Следовательно, ^ = e-x, 0<x<oo. Вообще же, если kr=p(r—1)!, р>0, то аналогичным образом можно установить, что вычет функции —- равен —у7~\—• откуда 1 Пример 4.5 Каково распределение, если таковое существует, для кото- которого все нечетные семиинварианты равны нулю, а все четные равны некоторой константе, скажем 2а? Для п. ф. с. имеем ¦M^jiff + iff +...}. Этот ряд сходится и i|)(/) =2acos (/ — 1) . Следовательно, J'1)
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 145 Непосредственно проинтегрировать интеграл оо J e2a(<:os<-i)e-itxdi не удается. Поэтому исследуем вопрос о — оо непрерывности функции распределения. Имеем j e2acoite-lxtat=I_JL Г Jc~ 2c -с -с j=0 Входящий в подынтегральное выражение ряд равномерно схо- сходится и поэтому /¦-О -с 2с ZJ J у! у=о -с t cos xtdt в силу того, что sin xt — нечетная функция. со Рассмотрим теперь интеграл 2-/cos-'/cos.x/fl7. В силу хорошо известного разложения t = -j(e" + e-il)J( (eix' + e-ix Нас в этом выражении интересует только постоянный член, по- поскольку все остальные слагаемые вносят в /с конечный вклад. Коэффициент при е° равен 0, если х нецелое. Если же х являет- является целым числом, он равен Поэтому /с-*0, если х — нецелое число. В случае целых х 10 М. Кеидалл, А. Стьюарт
146 ГЛАВА 4 Следовательно, если х четно, скажем 2г, то в точке х=±2г ча- частота будет равна <2г)! ~е \ Bл)! ^ B/-+1)!1! ^ B/-+ 2)! 21 ^ Если же л:= ± Bг —j- 1), то в этой точке частота равна a2r+1 Можно убедиться, что эти частоты в сумме дают единицу и» следовательно, ими полностью описывается распределение. Условия, при которых некоторая функция будет характеристической 4.7 Каждая неотрицательная интегрируемая по Лебегу функция может являться (с точностью до константы) плотностью некоторого распределения. Точно так же, всякая неубывающая функция, изменяющаяся от 0 до !, мо- может быть функцией распределения. Условия же, при выполнении которых данная функция является характеристической функцией некоторого распреде- распределения, много более ограничительны. Заметим сначала, что необходимое и достаточное условие для того, чтобы функция (р@ была характеристической, состоит в том, чтобы функция со 1 ш (с точностью до аддитивной константы F@)) являлась функцией распределе- распределения. Однако на практике этот критерий не очень полезен, так как трудно про- проверяем. Вспоминая определение х. ф. (f(t) как е dF (х), мы видим, что необходимое условие для того, чтобы <р(/) была х. ф., состоит в следующем: а) ср(О непрерывна по t, б) (р@ определена на каждом конечном /-интервале, в) Ф@)=1, г) <р(/)=Ф(-О. СО д) 1ф@К J k'^ltf/^i^^O). — со 4.8 Крамером A937) была доказана общая георема, согласно которой для того, чтобы ограниченная и непрерывная функция <р(/) была х ф., необ- необходимо и достаточно, чтобы (р@) = 1 и интеграл А А Г Г ф (t — и) exp [ix (t ¦- и)} dt du о о
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 147 <5ыл действительным и неотрицательным для всех действительных х и всех Л>0. Следует также отметить ряд специальных теорем, посвященных тому же вопросу: когда неквтврая функция является х. ф.? Так, например, Марцинке- вич A938) доказал, что expP(t), где P{t)—полином по /, не может быть х. ф., за исключением тех случаев, когда этот полином первой или второй степени. Лукач и Сас A952) нашли условия, при которых рациональная ¦функция является х. ф. Предельные свойства распределений и характеристических функций 4.9 Мы сейчас рассмотрим ряд результатов, касающихся предельных свэйств последовательностей х. ф. и ф. р. Пусть за- задана последовательность ф. p. Fn(x), зависящая от неограничен- неограниченно растущего параметра п. Каждэй функции Fn(x) соответствует х. ф. фп@- Вэпрос, котерым мы интересуемся, состоит в сле- следующем: если Fn(x) сходится к G(x), то сходится ли последо- последовательность фп@ к некоторому пределу ф(/) и будет ли ф(/) х. ф. для G(x)? И обратно, если ф„ стремится к пределу <р, то сходится ли последовательность Fn к некоторому пределу G и является ли G ф. р., для которой ф есть х.ф.? Ниже при доволь- довольно общих условиях мы дадим положительные ответы на постав- поставленные вопросы. 4.10 Прежде всего остановимся на вопросе о том, в каком смысле следует понимать сходимость одной функции распреде- распределения к другой. Если все рассматриваемые функции непрерыв- непрерывны, то последовательность Fn(x) называется сходящейся G(x), если для каждого е>0 существует такое п0, что \Fn — Gj<e для всех п>«о и всех х. Если же у рассматриваемых распределений имеются точки разрывов, то последовательность Fn называется сходящейся к G, если указанная выше сходимость имеет место в каждой точке непрерывности G(x) *). Такое определение схо- сходимости оказывается удобным и вполне достаточным для боль- большинства статистических приложений. 4.11 Приведем некоторые результаты о сходимости ф. р. Пер- Первый из них састоит в том, что если последовательность ф. р. {Fn(x)} сходится к ф. p. G(x) во всех точках непрерывности по- последней, то эта сходимость равномерна на каждом замкнутом интервале непрерывности G(x). Пусть G(x) непрерывна на отрезке [а, Ь]. Разобьем этот отре- отрезок на конечное число частей точками a = gi, |г, •••,ln = b так, чтобы на каждом частичном интервале приращение функции G(x) не превышало е. Выберем п0 настолько большим, чтобы *) Обычно этот вид сходимости называют сходимо'стью в основном или слабой сходимостью. (Прим. перев.) 10*
148 ГЛАВА 4 \Fn(b) —G(?,j)\<e, /=1, ..., h; n>n0. Тогда для каждого п и любого х из отрезка [а, Ь] найдется такое г, что х лежит в (E E) и О (х) - 2е < О (У - е < ^ (?r)< ^ (*)< D.19) и, следовательно, \Fn(x)-G(x)\<2e. Это справедливо для всех точек отрезка [а, Ь], что и доказывает искомую равномерную сходимость. В частности, если G(x) непрерывна всюду, то сходимость (в основном) будет равномерной на всей прямой —оо-^х^оо. 4.12 Вторая теорема (называемая теоремой Монтеля — Хел- ли) состоит в следующем: если последовательность {Fn(x)} со- состоит из монотонных и ограниченных функций (что имеет место для ф. р.), то тогда можно выбрать такую подпоследовательность {Fw (x)}, которая сходится к некоторой монотонно неубывающей функции G(x) (которая может и не быть ф. р.). Рассмотрим некоторую последовательность точек хи хг, ... Известно, что из каждого ограниченного множества чисел можно выбрать сходящуюся последовательность. Поэтому из последова- последовательности {Fn(Xi)} мы можем выбрать сходящуюся подпоследо- подпоследовательность {Fn, (Xi)}. Из \Fnj} в свою очередь можно вы- выбрать подпоследовательность {/>,), которая будет сходиться как в точке х^ так и в х2. Продолжим этот процесс неограниченной в каждой из подпоследовательностей {-^«Л выберем i-ю функцию. Назовем ее G,-. Рассмотрим теперь последовательность Gb G2,... В силу сказанного последовательность {Gn(x)} сходится в каж- каждой из точек хи хг, ... (Мы использовали здесь хорошо из- известный диагональный процесс Вейерштрасса.) Если с самого начала в качестве этих точек брать все рациональные точки, то тогда можно утверждать, что последовательность Gn (x) сходит- сходится в каждой рациональной точке. Поскольку Gn(a)^-Gn(x)<^. •^¦Gn(b) для каждого а^х^,Ь, то мы видим, что если Gn(a) и Gn(b) сходятся, то предельные значения Gn(x) лежат между этими предельными значениями, скажем G(a) и G(b). Тогда функция и(х)= Mm Gn(x) (где х уЖе теперь про- произвольно) определена, является неубывающей и, следовательно, имеет не более чем счетное число точек разрыва. Если в точке х функция и(х) непрерывна, то возьмем у и z такими, чтобы у<х<г и u(z) — и(у) <е. Тогда, если а и b — рациональные точ- точки, удовлетворяющие условию y<a<x<b<z, то и (у) -4>G (a) ¦< <UG{bLiu(z). Однако, поскольку все предельные значения функ-
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 1491 ции Gn(x) лежат между G(a) и G(b), то они заключены и меж- между и(у) и u(z). Следовательно, в силу того, что е может быть сделано сколь угодно малым, мы видим, что Gn(x) стремится к и(х) в каждой точке непрерывности и(х). Наконец, используя диагональный процесс, мы сможем выбрать последовательность, которая будет также сходиться и в точках разрыва функции и(х). Тем самым теорема доказана. 4.13 Вовсе не очевидно, что если значения каждой из функ- функций последовательности {Fn(x)} лежат между 0 и 1, то их пре- предел G(x) будет достигать этих крайних значений. Противореча- Противоречащий пример можно получить следующим образом. Пусть 0, х<—п, D.20> 1, x > п. Предел последовательности Fn(x) равен 1/2 для всех х. Доста- Достаточное (но не необходимое) условие для того, чтобы предел G(x) был функцией распределения, было дано Кендаллом и Рао A950). Состоит оно в следующем. Если Fn(x) имеет второй мо- момент м-2(п)<; Л < со для всех п>п0, то G(x) является функцией распределения. В самом деле, в силу неравенства Бьенэме — Чебышева C.35) п>п0. и, следовательно, для достаточно больших X F»(-X)-\-\-Fa(X)<z, откуда G(-X)+]-G(X)^e, D.21) если только функция G(X) непрерывна в точках ±Х, что можно предположить, не нарушая общности. Поэтому G(—oo)=0, G(oo) = l. Первая предельная теорема 4.14 Докажем следующую теорему. Если последовательность, функций распределения {Fn} стремится к непрерывной ф. p. G, тогда соответствующая последовательность х. ф. {ф„} стремится к ф равномерно в каждом конечном /-интервале, где ф — х. ф. распределения G*). *) Теорема справедлива и без предположения о непрерывности функ- функции G(x). (Прим. перев.)
150 ГЛАВА 4 Итак, нам надо установить, что для заданного е>0 и фикси- фиксированного Г-интервала (—Т, Т) существует п0, не зависящее от значений /, принадлежащих этому интервалу, такое, что eitx(dG-dFn) < е, п > п0. Пусть X и —X — две точки непрерывности функции G(x). При этом X можно считать достаточно большим. Пусть со X J eltx{dQ — J -X J x>\X\ Имеем J eltxd0 x>\X\ J J eitx(dQ — dF'„). D.22) x> I X\ и, следовательно, беря Х достаточно большим, мы можем сде- сделать этот интеграл меньше, чем е/6. Аналогично J elt*dFn x> \X] и поскольку Fn сходится к G (равномерно в интервале то, полагая X большим, можно считать этот интеграл меньше е/3. Таким образом, J х>\ X] Рассмотрим теперь X J ettx (dO — dF•„). -x Это выражение является пределом сумм 2 е"Ч [ {G (|/+1) - О (lj)} - [Fn - Fn D.23) D.24) где lj и 5j+i — граничные точки интервалов разбиения и Xj — произвольная точка из интервала (gj, |j+i). Разность между этой суммой и предельным значением мо- может быть сделана меньше е/4, если только интервал разбиения выбрать достаточно малым. В самом деле, пусть длины интер- интервалов разбиения меньше т). Тогда по теореме о среднем разность между eitxj и eiix {x принадлежит интервалу (lj, ?j+i)) меньше
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 15 f i)\t\. Поэтому разность между D.23) и D.24) по модулю меньше что в свою очередь меньше е/4, когда г)<е/(87"). Сумма же D.24) меньше е/4 для некоторого п>п0, ибо она состоит из конечного числа членов, каждый из которых стре- стремится к нулю. Следовательно, D.23) меньше е/2, откуда |ф@—фп@1<е, п>п0. Обращение первой предельной теоремы 4.15 Обратная теорема играет еще более важную роль. Пусть {фп} — последовательность х. ф., отвечающих последовательности ф. p. {Fn}. Тогда, если (pn(t) сходится с ф(/) для всех действи- действительных значений / и эта сходимость равномерна *) в некотором конечном интервале \t\<Ca, то последовательность {/•"„} сходится к ф. p. G и ф является х. ф. для G. Установим сначала один вспомогательный результат, состоя- состоящий в том, что если G есть ф. р. с х. ф. ф, то для всех действи- действительных значений g и всех /i>0 l-'rfi I CO „.„ D.25> Действительно, положим jr-'-ft Н(х)= \- Г G(u)du. X Эта функция является непрерывной ф. р. и ее х. ф. равна со со J eitx dH = \ J eitx {G(x + h) — G (x)} dx. — CO —CO Интегрируя последний интеграл по частям, убеждаемся, что. он равен оо = —Ш J *) Или, что эквивалентно, если <p(t) непрерывна в точке /-=0 или если. Ф(/) есть х.ф.
152 ГЛАВА 4 Подставляя Н(х) в D.4), найдем откуда, заменяя | на %+h, после несложных преобразований придем к соотношению D.25). Возвращаясь теперь к теореме, которую надо доказать, заме- заметим, что нам достаточно показать, что если фп —*(р равномерно в некотором интервале \t\<a, то {Fn} сходится к некоторой функции распределения G в каждой точке непрерывности по- последней. Если только это будет установлено, то тогда из первой предельной теоремы будет следовать, что ср является х. ф. для G и ф„ сходятся к ф равномерно в каждом конечном ^-интервале. Как показано в 4.12, из заданной последовательности {Fn} мы можем выбрать некоторую подпоследовательность {/v} та- такую, что [Fn') сходится к неубывающей функции G в каждой точке ее непрерывности. Выберем такую подпоследовательность. Ясно, что O^G^l, причем функция G может считаться всюду непрерывной справа. Функция G(x) будет ф. р., если G( + oo)—G(—<х>) = 1. Пока- Покажем, что это условие в действительности выполнено. Полагая в D.25) 1 = 0, получим -г- Fn(u)du г- Fn' (u)du — — (—}— ф, -г- О -Л —сх> Согласно предположению, ф„ сходятся равномерно к ф для \t\<a. Следовательно, этим же свойством обладает и последо- последовательность фп,. При этом легко видеть, что в предшествующей -формуле интеграл справа равномерно сходится. Поэтому при заданном е>0 можно найти такое h0, что для h>h0 I л ох lah 1 Г 1 Г |/-w ч , 1 Г /sin \ 0 -hi 1 . -hi 1 , aft где |т]|<е. Пусть h-^oo. Поскольку G является неубывающей функцией, левая часть стремится к G( + oo)—G(—сю). Правая же часть в силу равномерной сходимости ф„, и, следовательно, в силу непрерывности ф в окрестности точки / = 0 стремится
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 15$ к интегралу 1 Г 1Г J 2 ,. dt' который равен единице. Следовательно, предел последовательности {/v} является ф. р., причем ее х. ф. равна ф. Но поскольку любая подпоследовательность из ф„ сходится к ф, то любая сходящаяся подпоследовательность из {Fn} схо- сходится к G. Следовательно, сама последовательность {Fn\ сходит- сходится к G в каждой ее точке непрерывности. Тем самым теорема доказана. Пример 4.6 В примере 3.5 было, по существу, установлено, что бино- биномиальное распределение имеет х. ф. Частота, отвечающая точке х—\, равна (nAq"-JpJ. Она больше частоты в точке дс=/+1, если или если j>pn — q. Для больших п максимум частоты расположен в окрестности точки j=pn и, значит, он эквивалентен частоте По формуле Стирлинга эта частота в свою очередь эквивалентна выражению (рп)Р" которое при п-* оо стремится к нулю. Поэтому каждая частота в биномиальном распределении- стремится с ростом п к нулю и предельного распределения не существует. Рассмотрим, однако, это распределение в нормированной форме. Полагая у = (х — у.[)/о, мы получим
154 ГЛАВА 4 откуда Ф„ (t) = ехр (— itpl/o) фж (//о). Таким образом, при этом преобразовании х в у q>(t) преобра- преобразуется таким образом, что t заменяется на t/a и умножается на ехр (—it\i[ja\. Для биномиального распределения \л'1 = пр, [i2 = npq, и поэтому х. ф. биномиального распределения в нор- нормированной форме имеет вид откуда @<|0|<1) Тем самым для каждого конечного t ^ф стремится при л->схэ к (—к tA и, следовательно, Итак, биномиальное распределение в нормированной форме стремится к распределению, х. ф. которого равна е~'2/2, т. е. к нормальному распределению 1 -I* dF'= е 2 dx, —оо<!л:<;оо. У 2я Многомерные характеристические функции 4.16 Характеристическая функция двумерного распределения F(xu xz) определяется по формуле . h)= J \elt^+lt^dF{xx,x2), D.26) — оо —оо и вообще х. ф. многомерного распределения F(xx, ..., хп) по определению равна оо оо [ \"ии .... хп). D.27) — оо —оо
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 155 Если хи ..., хп независимы, то Ф(*1 tn)= ] \ — оо —оо = ф1(<1)фц(<2) •••ФЛО. D-28) где фг — х. ф. распределения Fr. И аналогично для логарифма х. ф. (л. х. ф.) ф получим Ч>& 0=2 logq>y(*y). D.29) Тем самым х. ф. совместного распределения независимых ва- вариант равна произведению их х. ф., а л.х.ф. равен сумме л. х. ф. В выборочной теории этот результат играет чрезвычайно важную' роль. 4.17 Обобщая D.4), можно получить формулу F(xu х.2 xn) — F@, О, .... 0) = ОО ОО — оо —оо D.30) Участвующие здесь интегралы следует понимать в смысле Глав- Главе с , т. е. как lim • • • | • ного значения Доказательство формулы D.30) осуществляется так же, как в одномерном случае. Отметим лишь только, что вместо соотно- соотношения D.10), например, в двумерном случае будем иметь сле- следующее: оо оо с с -оо -оо —с —С lim/ оо = lim J X {dF(ult x2) — dF(ul, 0)}=Bnf{F(xu x2) — F@, 0)} D.31) и т. д. Как и в одномерном случае, х. ф. однозначно определяет ф. р., и соответствующие аналоги предельных теорем, рассмот-
156 ГЛАВА 4 ренных выше, остаются в силе. Из однозначности соответствия х. ф. и ф.р., в частности, следует справедливость результата, обратного к результату, сформулированному в 4.16: если х. ф. совместного распределения вариант равны произведению их х. ф., то эти варианты независимы. 4.18 Если мы имеем распределение F(x) и некоторую функ- функцию у=у{х) от варианты х, то х. ф. для у определяется фор- формулой оо j). D.32) Путем ее обращения можно получить распределение у. Напри- Например, если g(y) — плотность распределения уу то O<«. D.33) Аналогичный результат справедлив и для функций g от не- нескольких переменных. Проблема моментов 4.19 Рассмотрим вопрос о том, насколько моменты (в пред- предположении их существования) определяют однозначным образом распределение. Чтобы показать, что два разных распределения могут обладать одними и теми же моментами, приведем такой пример. Рассмотрим интеграл tp-xe-4ldt = Y(p)iqp, р>0, ЗД > 0. о Положим р= (п+1)/к; пусть п — неотрицательное целое число; 0<А,< j; q = a±i?>; p/a = tgAjt; xx = t. После их подстановки в интеграл мы найдем, учитывая действительность <1 -\-i: tg Ал)(я+1)/\ что мнимая часть интеграла равна нулю и что оо Г лг"ехр(— axx)sin(f>xl)dx = 0. D-34) о Следовательно, распределения с плотностями f(x) = kexp(—ax*-){\ -Msin^)}, 0<л:<оо, a>0, 0<А,<-|, |е|<1 D.35)
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 157 обладают для всех е(|е|<1) одинаковыми моментами. Эти рас- распределения сосредоточены только на положительной полуоси. Нетрудна построить примеры распределений, сосредоточенных на всей прямой и имеющих одни и те же моменты. С этой целью положим /7 = Bя + 1)/р, q = a + i$, р/а = tg -j ря, xp = t, р = 2s/(s -f- 1), где s — положительное целое число. Тогда у се- семейства плотностей f(jt) = *exp{— a|jc|p}{l-f ecos(a|jc|p)}, —оо<лг<оо, D.36) все моменты совпадают. 4.20 В полной общности проблема моментов ставится сле- следующим образом: имеются константы с0, си с%,... Требуется указать, при каких условиях они могут являться моментами не- некоторого распределения. Для статистических целей этот вопрос не представляет особого интереса*). Нас будет интересовать вопрос о единственности проблемы моментов: задано некоторое множество констант, являющихся моментами некоторого рас- распределения. Спрашивается, могут ли они служить моментами другого распределения? Прежде чем переходить к решению этой проблемы, заметим, что ее стоит рассматривать только тогда, когда существуют аб- абсолютные моменты всех порядков. В самом деле, нетрудно ви- видеть, что существуют заведомо различные распределения, для которых ограниченное число моментов конечны и совпадают, тогда как все остальные моменты бесконечны. К тому же, как известно, если некоторый момент четного порядка существует, то существуют и все моменты низшего порядка. В частности, если \а'2г существует, то существуют и все абсолютные моменты до порядка 2г. Поэтому мы будем рассматривать только тот слу- случай, когда существуют абсолютные моменты всех порядков. 4.21 Мы начнем с доказательства теоремы о том, что мо- менты однозначно определяют распределение, если ряд 2 v;^//! сходится для некоторого действительного t=?0. Для краткости в этом и следующих пунктах мы будем записывать v без штриха, хотя результат остается верным и для моментов, взятых отно- относительно произвольной точки. Характеристическая функция непрерывна по t, и ее произ- производные в точке ^=0 существуют, если существуют моменты. *) По поводу общих результатов см. работы Стильтьеса A918) и Гам- Гамбургера A920).
158 ГЛАВА 4 Тогда в окрестности точки /=0 2 WWjjA + Rr' D.37> где Rr по модулю меньше, чем г,+'_! . . . Позтвму, если сходится, то V;tJjj[ стремится к нулю и, следовательно, ф(^) пред- ?о ставима в виде ряда 2 (^У^УА если телькв вн сходится. Од- j-o л пако этот ряд мажорируется рядом 2 vjtJIA и, следовательно, абсолютно сходится, если сходится этот последний. Итак, оо <p@=2(tt)Vy//. D.38) и поэтому <р(<) однозначно определена в окрестности t = Q. В ок- окружности же t = t0 и модуль коэффициента при (^ — ^оУ/У не больше, чем vj. Сле- Следовательно, функция ф(/) представляется всюду сходящимся рядом Тейлора и совпадает с суммой этого ряда. Таким обра- образом, ф@ можно аналитически продолжить из окрестности точ- точки t = t0 на любой конечный ^-интервал. Поэтому ф(^) всюду од- однозначно определена. Но ф(/) полностью определяет функцию распределения и, следовательно, последняя определена одно- однозначно. 4.22 Несколько простых, но эффективных результатов можна получить теперь в виде следствий. (а) Моменты однозначно определяют распределение, если limsup(vl/nytt < со. л-»со Это следует из того, что ряды с общим членом vntn/nl схо- сходятся, если Заменяя факториал по формуле Стирлинга, мы видим, что пре- предыдущее неравенство выполнено, если lim sup №)/n < kjt,
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ !59 где, k — некоторая постоянная. Это неравенство выполнено при некотором ненулевом t, если lim sup (vlJ")/n < оо. (б) Достаточным условием для единственности решения про- проблемы моментов является также условие / I \1/2л lim sup ^ <оо, не содержащее абсолютных моментов. Нетрудно видеть, что эго условие и условие (а) эквивалентны, откуда и следует доста- достаточность сформулированного условия. (в) Моменты однозначно определяют распределение, если только известно, что они являются моментами распределений, со- сосредоточенных на конечном интервале (скажем, длины /г). Дей- Действительно, беря моменты относительно левого конца интервала, на котором сосредоточены распределения, получим vr^-hr, и, сле- следовательно, (yH")/n<^.liln, что стремится к нулю. 4.23 Упомянем еще о двух критериях. Первый из них был дан Карлеманом A925): моменты однозначно определяют рас- распределение (сосредоточенное на (—оо, оо)), если В случае распределений, сосредоточенных на @, оо), достаточ- достаточно требовать, чтобы Второй критерий состоит в следующем. Распределение, имею- имеющее плотность f(x), определяется моментами однозначно, если (в случае —оо^дг^оо) ДлгХМИ^'ехрС— а\х\к) для |л:|>л:0; М, р, а, > 0; Я,>1, D.41) или если (в случае О-^лг-^оо) f (х) < Mlxf'1 ехр{—а\ х\х) для |л:| > л:0; М, р, а, > 0; ^>j- D.42) Этот критерий был впервые предложен Стильтьесом. Его легко получить из критерия Карлемана. Интересно отметить, что если для некоторого х0 f(x)>exp{-a\x\l), а>0, х > х0, D.43)
160 ГЛАВА 4 то проблема моментов необходимо неопределенная (как обыч- обычно, ^<'/г для @, сю) и Я,<1 для (—сю, сю)). Это следует из рассмотрения примеров распределений D.35) и D.36). В самом деле, наряду с f(x) теми же моментами обладает и распределе- распределение, плотность которого получена путем добавления к f(x) соот- соответствующих членов из D.35) и D.36) с нулевыми моментами. Пример 4.7 Моменты нормального распределения dF ехр(— лг2/2о2), — оо<л:<со, задаются (см. пример 3.4) формулами Из формулы Стирлинга, примененной к факториалам в следует, что а [е-2пBпJ"УШ 11/2" 2/2 [ "Уш J J BепI'2 ' Тем самым верхний предел последовательности {уЦЪ1%п- равен нулю и распределение однозначно определяется своими мо- моментами. 4.24 Крамер и Волд A936) распространили критерий Кар- лемана на случай многомерных распределений. Рассмотрим моменты маргинальных (одномерных) распределений fi^o • • ¦, ц'ОгО . . ., \i'OOr ... и т. д. Пусть сумма этих величин равна Яг. Кри- Критерии D.39) и D.40) останутся в силе, если \ir заменить на К', например, распределение, сосредоточенное на всей прямой, одно- однозначно определяется по моментам, если s 1 т = оо. D.44) 4.25 Если у распределения существует момент порядка г, то его можно получить из r-й производной характеристической функции при ?=0. Поэтому, если <р(/) можно разложить в бес- бесконечный ряд Тейлора, то он должен быть не чем иным, как ря- рядом 2 {Щ1 WjjA- Если этот ряд не сходится, то ф(^) не может быть представлена рядом Тейлора. В случае существования только г моментов <p(f) можно выразить асимптотически в виде
характеристический функции 161 частной суммы с остаточным членом 2 В том случае, когда ряд 2 (^У^У/' пе сходится, возникает ряд трудностей. Так, известно, что существует бесконечное число функций, обладающих одними и теми же асимптотическими раз- разложениями (с конечным числом членов). Например, асимптоти- асимптотические разложения для функций a(t) и a(t) +kt~l°st совпадают. Поэтому неудивительно, что в случае расходимости ряда ^Ei{ity \i.'jlj\ может существовать более одного распределения с одними и теми же моментами. Но это, конечно, не означает, что в случае расходимости ряда ^i{ity\i'jIj\ необходимо существует более чем одно распределе- распределение. Может случиться, например, что функции, чьи моменты совпадают с моментами данной функции распределения, сами не будут функциями распределения. Например, на некотором уча- участке они могут быть отрицательными. В примере, указанном выше, функция l~l°st Iie может быть характеристической, по- поскольку она не удовлетворяет хорошо известному необходимому условию для характеристических функций, состоящему в том, что ф(/) и ф(—t) должны быть комплексно сопряжены. 4.26 Теперь мы перейдем к так называемой второй предель- предельной теореме, касающейся вопроса о том, как последовательность функций распределения {Fn(x)} сходится к пределу, если соот- соответствующая последовательность моментов {{ij(n), /^1} сходится к {р.;, /^-1}? (Для упрощения записи штрихи у моментов опу- опускаются.) Мы будем следовать доказательству, предположен- предположенному Кендаллом и Рао A950). Прежде чем к нему переходить, установим один вспомога- вспомогательный результат. Если [x2m существует, то для всех действи- действительных t 2m-l y JmfWB/ra)!; D.45) р здесь таково, что |р|<1 и lim р = 1. Для случая т=0 эта формула тривиальна. Пусть т>0; для всех действительных х и t справедливо равенство gixi _. 2^ —-j у p , | p | -^. 1. D.4b) И М. Кендалл, А. Стьюарт
162 ГЛАВА 4 Подставляя это разложение в интеграл, определяющий ф(/), мы получим при п — 2т—1 равенство D.45). Для t и цгт, равных нулю, мы можем взять р = 1; для других значений, рассматри- рассматривая разность выражений D.46), взятых с п и п+\ членами, мы найдем \p'-\\<\xt\l(n + 2). D.47) Поскольку то X 1Р — II Р-2т < е Ч- j\p'~\\x^dF — X для любого е, если X достаточно велико (в противном случае момент \i2tn не был бы конечным). Но в силу D.47) при фикси- фиксированном X, взяв достаточно малое t, интеграл можно сделать сколь угодно малым. Поэтому |р — 1\\Х2т<.2е и р —>• 1 при t—*0. 4.27 Второй результат (являющийся обратным к предыду- предыдущему), который также будет нам необходим, состоит в сле- следующем. Если для некоторого положительного целого т 2т Ф @ = 2 («У У Л + о (/*»), D.48) когда действительное / —> 0, то первые 2т моментов существуют и |хг = А,г, г = 0, I, ... , 2т. Пусть б2 обозначает операцию взятия центральной разности с шагом 2h, т. е. б2 A (t) = A{t + 2h) — 2А (t) + A (t — 2А). Тогда, если остаточный член в D.48) есть t2mB(t), где B(t) —> О (/—*0), то несложное вычисление показывает, что при ^ = 0 2т J-o Поэтому для \B(t)\<e 2т S Bj)\m-j\*"e, D.49) когда |/i|<ri/2m и |/|^т]. Следовательно, если соотношение D.48) верно, то Ulml-^X t*B(t)] =0. " ^4.50)
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 163 (§2 \т -J7-2- (обозначим его D2m) есть не что иное, как оператор взятия Bт)-й производной. Применяя этот опе- оператор к D.48) и учитывая D.50), мы найдем, что при ^ = 0 (-\ri2m. D.51) Но 62eix' = — BsmxhJeixt, поэтому Ит [(^Lf^dF^^,. D.52) Из равномерной сходимости к единице последовательности (sinxhjxhJm мы видим, что для любого конечного интервала (а, Ь) ь и поэтому момент порядка 2т конечен. Следовательно, из D.45) при t —> О следует, что 2m-l Сравнение этого разложения с D.48) показывает, что 1^ = ;,,, г = 0, 1 2т. Из результатов этого раздела следует, что если при ^=0 существует Bт) -я производная х. ф., то Bт) -й момент также существует. Мы уже видели в 3.5, что в случае существования моментов существуют и соответ- соответствующие производные у х. ф. в нуле (результат, обратный результату, уста- установленному выше для четных моментов). Для нечетных моментов существо- существование производной при ^=0 еще не влечет за собой существования соответ- соответствующего момента. Питмэн (Pitman, 1956, Ann. Math. Statist. 27, 1156) показал, что необходимое и достаточное условие существования соответ- соответствующей производной состоит в том A), что существует в смысле главного значения момент |х2 и B), что lim xr{F(—x) + l — F (x)} = 0. дг->со 4.28 Результаты предшествующих двух разделов необходимы для установления (при некоторых условиях) единственности асимптотических разложений х. ф. Мы сейчас докажем некото- некоторые теоремы о последовательностях распределений и моментов. Пусть распределения Fn(x), являющиеся /г-ми членами по- последовательности {Fn}, обладают конечным моментом /-го к*
164 ГЛАВА 4 порядка, скажем iij(n), для всех п>п0. Пусть для каждого / и пусть {Fn(x)} сходится к предельной функции G(x) по всех точках непрерывности последней. (Функция G(x) необходимо ограничена, монотонно возрастает и может считаться непрерывной справа.) Тогда G(x) —функция распределения, об- обладающая моментами всех порядков; {Xj} — последовательность моментов; X; есть /-Й момент G(x). Тот факт, что G(x) — ф. р., следует из 4.13, ибо вторые мо- моменты образуют сходящуюся и, следовательно, ограниченную по- последовательность. Поэтому согласно первой предельной теореме (см. 4.14) последовательность х. ф. {фп@} сходится к х. ф. рас- распределения G(x), скажем к q>{t). Тогда для п>п0 2т-1 Ф«@= S (ityii](n)lJ\ + P(itr»li2m(n)lBm)\, D.54) где последний член в правой части стремится к пределу, по- поскольку все остальные члены имеют пределы. Поэтому 2m-l Ф @ = 2о (itI ty/l + RW2mhJBm)U I R\< 1 • D.55) Это верно для всех т. Используя методы 4.26, легко можно по- показать, что R —> 1 при t —> 0. Отсюда и из результатов 4.27 выте- вытекает справедливость пашей теоремы. Пример 4.8 Заметим, что результат 4.28 может быть верен и в том слу- случае, когда Fn не обладают моментами всех порядков. Например, распределение й?/г о^^<[оо v>l A + F/vJ обладает моментами только до порядка (v — 1) включительно. Но (см. пример 3.3) откуда, применяя формулу Стирлинга к Г-функции, получим, ЧТО f^ D-57)
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 165 т. е. имеет место сходимость к моментам нормированного нор- нормального распределения (пример 3.4). Таким образом, если предельное распределение существует, оно необходимо будет нормальным, все моменты которого существуют. Непосредственно можно проверить также, что последователь- последовательность плотностей рассмотренных выше распределений при v —*¦ оо сходится к плотности нормального закона, т. е. k expl — ¦*- ^2). Вторая предельная теорема 4.29 Пусть {Fn(x)} сходится к G(x) и пусть моменты щ{п) существуют для «>/г0 и для всех /^>0. Пусть, далее, [ij(re) огра- ограничены сверху некоторой константой А}. Тогда все моменты X] распределения G(x) существуют и iij(n)-*Xj при п-*оо. Из первой предельной теоремы вытекает, что последователь- последовательность х.ф. {фп@} сходится к <р@. являющейся х.ф. распреде- распределения G(x). Далее где константа, входящая в О(Р), может быть взята не завися- зависящей от п и t. Поэтому если т — некоторое значение >п0, то I Hi (л) — \h (т) |< Л \t [+6m, „, где бт, п-*0, когда тип независимым образом стремятся к бесконечности. Поскольку это верно для каждого ненулевого t, то lim | И-, (л) — щ (от) | = О, т, л->оо и, следовательно, существует константа Xi такая, что lim |х1(я) = Я,1. D.58) л->оо Тем же самым методом можно установить существование предела и для \Х2.{п). Действительно, из D.54) в силу существо- существования шестого момента Ф„ @ = 1 + И Hi (я) + (КJ Щ (л)/2! +- О (fi). Поэтому откуда, как и раньше, следует существование предела lim ц2 (п.) = к2. D.59) я->оо Продолжая эти рассуждения далее, мы установим существова- существование моментной последовательности {Kj}. Из теоремы 4.28 следует,
166 ГЛАВА 4 что эти моменты в действительности являются моментами рас- распределения G(x). 4.30 Для многих целей оказывается полезным следующее обращение второй предельной теоремы: пусть моменты ц,(п) существуют и пределы lim ц^(п) = К;- являются моментами не- Л->со которого распределения G(x), для которого решение проблемы моментов единственно. Тогда {Fn} сходятся к G(x) во всех точ- точках непрерывности функции G(x). В последовательности ф. р. {/%,} мы всегда можем выделить подпоследовательность, сходящуюся к некоторой функции рас- распределения. Из теоремы 4.28 следует, что функция распределе- распределения с моментами Xj единственна. Поэтому эта ф.р. совпадает cG(x). Предположим теперь, что в некоторой точке непрерывности, скажем в точке х = а, a = litn sup Fn{a) Ф О (а). Тогда можно выбрать подпоследовательность, сходящуюся к а в точке х = а, и подпоследовательность, сходящуюся икай к G(a), поскольку G(x) непрерывна в точке х=а. Этого проти- противоречия можно избежать лишь тогда, когда lim sup Fn(a) =G(a), и аналогично только тогда, когда Hmiinf/7n(a) = G(a), что и доказывает обратную теорему. Пример 4.9 Дискретное распределение с частотами e~xV/jl в точках x=j (/=0,1,...) имеет х. ф. (пример 3.10) и, следовательно, все его семиинварианты равны Я. Очевидно, не существует других распределений с такими же семиинвариан- семиинвариантами, поскольку ряд ^i^j(it)J/j\ сходится и его сумма равна Х(еи— 1). Таким образом, ф.р. и х. ф. определяются однозначно. Пусть X—»• оо. Частота в точке Xj, равная e~%W\j\, стремится к нулю, и поэтому последовательность таких распределений не сходится ни к какому пределу. Это, между прочим, согласуется и с поведением семиинвариантов, которые стремятся к беско- бесконечности.
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 167 Рассмотрим, однако, нормированное распределение. Тогда и, = 0, иг = Я,/и22'"=Я, ^2' Л г>2. Таким образом, при А —>¦ оо хг—>-0 для всех г>2. И следова- следовательно, семиинварианты при I —> оо сходятся к семиинвариан- семиинвариантам нормального распределения —f^exp (— — х2) dx, — у 2л \ 1 I Мы знаем, что это распределение полностью определяется своими моментами (пример 4.7). Мы также знаем, что семиин- семиинварианты определяют однозначно моменты и наоборот. Так что из сходимости семиинвариантов следует и сходимость моментов. Следовательно, здесь применима обратная форма второй пре- предельной теоремы, и мы видим, что это дискретное распределение в нормированной форме действительно сходится к нормальному. 4.31 В связи с той двойственностью, которая существует между х. ф. и ф. р., стоит отметить, что поведение одной из этих функций в окрестности нуля связано с поведением другой на бесконечности. В самом деле, от-я производная (p(t) при t=0 пропорциональна m-му моменту, существование которого зависит от поведения xmf(x) на бесконечности. Обратно, .из D.5) мы видим, что m-я производная f(x) в случае ее существования дается ин- со тегралом (—it)m ф (t) e~ixt dtftn, модуль которого не больше, чем ин- — оо со теграл tm(p (t) dt/2n. Сходимость последнего интеграла зависит от поведе- — ио ния tm <((t) на бесконечности. 4.32 Естественно задать вопрос, существуют ли другие преобразования типа Фурье от функций распределения, обладающие свойствами, присущими х. ф.? Ответ на этот вопрос отрицателен. Лукачем A952) была доказана следующая теорема. Пусть к(х, f) —комплексная функция, определенная для всех действительных х и t, ограниченная и измеримая по t. Определим оо <р @ — \ к (¦*, t) dF (х), — ОО и пусть выполнены следующие два условия: A) ф, (t) stp2 (t) тогда и только тогда, когда F, (х) = F2 (x); оо B) если F(x)= | f, (х — у) dF2 (у), то ф {() = ф, (t) ф2 (t). — со Тогда y.(xj) имеет вид exp{UA(x)}, где А(х) —действительная функция, принимающая значения из всюду плотного множества на числовой прямой. Замечательным здесь является то обстоятельство, что в условиях этой теоре- теоремы не требуется выполнения ни теоремы обращения, ни предельных теорем. Тем самым можно сказать, что преобразование Фурье автоматически обла- обладает этими полезными и желаемыми свойствами.
168 ГЛАВА 4 УПРАЖНЕНИЯ 4.1 Показать, что если плотность распределения f(x) есть симметричная функция, то х. ф. q>(t) —четная функция, т. е. <p(t)=<p(—t), и, следователь- следовательно, действительная. Обратно, если <f(t) есть действительная х. ф. распреде- распределения, обладающего плотностью, то последняя симметрична. 4.2 Показать, что функция (eit \\п -,— I (п—целое положительное) является х. ф. распределения \х\ () /-о 4.3 Показать, что распределение с х. ф. 1/A+^2) имеет плотность е~\х\, оо¦< х<Jсо, а распределение с х. ф.соэ -^ at/(l —^обладает плотностью 1 1 ¦jcosjc, — -^ 4.4 Если для некоторого распределения где а, 6>0, то это распределение дискретно, сосредоточено в точках 0, а, ..., га, ... е частотами, равными е~ьЬг]г\. 4.5 Показать, что функция ехр (—ta\ не может быть характеристической за исключением случая а=2. 4.6 Показать, что существует только одно распределение с моментами и что это распределение задается формулой dF=j^—e-xxv-ldx, 0<.*<co. 4.7 Показать, что распределение имеет х. ф. i = /2 ехр (- 1t \IV2) sin ( \t\tV2 + I я) 4.8 Показать, что распределение ^с_ nb2"-1 sin (л/2п) ¦*• — со<-*:<со. * > 0, и — целое имеет х. ф. л-1 @ = 2 ехр \- Ь | / [ sin ^±i я) X
ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 169 4.9 Показать, что х. ф. распределения dF = —; . — со <С х <С со, ch лх равна Ф @ = sch — t. 4.!0 Показать, что (l+t2k)~l не может быть х. ф. при k>l; A— t2)^ также не может быть х. ф. 4.11 Используя теорему Марцинкевича D.8), показать, что если все се- семиинварианты у.г некоторого распределения обращаются в нуль при всех г~>га~>2, тогда все семиинварианты равны нулю для всех г>2 и, следова- следовательно, рассматриваемое распределение нормально. 4.12 Показать, что распределение n(x) = (l-±) 1- \ - -itf 2я. . -.'-»» стремится к нормальному при п->со, но что высшие моменты стремятся к бесконечности. (Рао и Кендалл, 1950.) 4.13 Теорема Вейерштрасса устанавливает, что каждая функция, непре- непрерывная на отрезке [а, Ь], может быть представлена равномерно сходящимся со рядом из полиномов 2 Рп (¦*)> гл-е ¦Р" (*) ~ полином степени п. Вывести из л-0 нее, что если две непрерывные плотности f\ и f2, обращающиеся в нуль вне конечного отрезка [а, Ь], имеют одни и те же моменты всех порядков, то ь и, следовательно, моменты определяют распределение единственным образом, если оно сосредоточено на конечном интервале и имеет непрерывную плот- плотность. 4.14 Если 9 — неотрицательная функция от л: и а @- JQ<(x)dF(x), — оо то плотность распределения для 9 дается формулой /оо -loo 4.15 Показать, что если характеристическая функция <f(t) обладает про- производными до второго порядка включительно, то =0 1 /*-0 Обобщить этот результат,
170 ГЛАВА 4 4.16 Пусть А,—варианта с х. ф. <р@ и у— другая варианта такая, что при каждом фиксированном значении К ее распределение задается распре- распределением Пуассона из упражнения 3.1. Показать, что х. ф. у равна Ф {<«"-!)/'}• 4.17 Показать, что распределение dF = d*idx> exp 2A2I/2 f -1 12A— exp f 2яA—р2I/2 12A— р2) — CO<JC,, J однозначно определяется своими моментами. 4.18 Если варианта распределена по нормальному закону 1 -J*w dF = —==- е , — со < х < со, ff]^2lT то х ф. ее квадрата выражается формулой 4.19 Если варианты *| и Хг распределены так, как в упражнении 4.17, то совместная х. ф. величин хх н jc2 равна 4.20 Некоторое распределение сосредоточено в целых точках отрезка пП(п — 1), п" и (п—1) и имеет производящую функцию Рассматривая логарифм производящей функции и используя следующее соот- соотношение для чисел Бернулли: ,_ ,_2Bft)! v/ 1 показать, что в нормированной форме это распределение стремится к нор- нормальному. 4.21 Показать, что х. ф. «логистического» распределения .„ dx exp (—x) dx ^ дается формулой и что его дисперсия равна я2/3. 4.22 Пусть х — варианта, принимающая целочисленные значения. Пока- Показать, что в этом случае пределы интегрирования в формуле обращения D.5) можно заменить на —я и я. Использовать этот факт для обращения х. ф. пуассоновской варианты (см. пример 3.10).
ГЛАВА 5 СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - A) 5.1 Существует ряд распределений, которые занимают цен- центральное положение в статистике как с теоретической, так и с практической точки зрения. В этой и следующей главах мы рас- рассмотрим их свойства, оставляя иллюстрацию и обсуждение во- вопросов их статистических применений до последующих разде- разделов книги. Мы кратко укажем, однако, каким образом они воз- возникают, предвосхищая тем самым некоторые из идей, подробно развиваемых в дальнейшем. Это не повредит логической строй- стройности изложения и придаст ему известную конкретность, без которой оно может стать несколько абстрактным. Биномиальное распределение 5.2 Пусть имеется большая генеральная совокупность эле- элементов, каждый из которых наделен либо качеством Р, либо до- дополнительным качеством Q ( = не Р); например, совокупность голубоглазых и неголубоглазых мужчин. Предположим, что эле- элементы генеральной совокупности, обладающие качеством Р, со- составляют р-ю часть, а обладающие качеством Q составляет q-ю часть, так что p + q=l. Если производится случайная выборка объема N, то мы ожидаем, что в среднем в ней будет Np эле- элементов с качеством Р и Nq — с качеством Q. Мы можем, стало быть, символически записать расположение элементов в соответ- соответствии с их качеством как N(p + q). Предположим теперь, что выбираются N пар элементов. Воз- Возможны следующие пары РР, PQ, QP и QQ. Из Np пар, в кото- которых первый элемент обладает качеством Р, в среднем р-я часть будет состоять из пар с Р на втором месте и q-я часть — из пар, у которых на втором месте Q. Аналогичное заключение справед- справедливо для Nq пар, первые элементы которых обладают качеством Q. Следовательно, символически пары могут быть расположены
172 ГЛАВА 5 следующим образом: Np(p + q) + Nq(p + q) = Вообще, если извлекаются N множеств, по п элементов в ка- каждом, то получится следующее расположение: N(p + q)n, т. е. доля случаев, в которых встречается / раз Р и п — / раз Q, рав- равна [Ар^""-1 \\пР1(]п~1—член в разложении (р + <?)", содер- содержащий piqn-i). Мы приходим, таким образом, к рассмотрению биномиального распределения*), задаваемого разложением вы- выражения l={P+q)n- E.1) Это распределение дискретно. Оно отвечает варианте, меняющей- меняющейся от п до 0 и равной числу элементов со свойством Р в множе- множестве из п элементов. Часто более удобно считать, что значения варианты изменяются в возрастающем порядке от 0 до п. В этом случае распределение будет задаваться разложением /=(<?+/>)". E.2). 5.3 В практике встречаются распределения, весьма близкие к биномиальному, особенно при таких искусственных эксперимен- экспериментах, как подбрасывание монеты или кости. Таблица 5.1 содер- содержит данные, принадлежащие Уэлдону, который подбросил 12 ко- костей 26 306 раз и зафиксировал результат каждого бросания. Этот эксперимент эквивалентен извлечению выборок, по 12 эле- элементов в каждой, из большой генеральной совокупности. Выпа- Выпадение пятерки или шестерки па любой кости рассматривалось как наличие качества Р, или, иначе выражаясь, как «успех». Если бы кости были идеальны (что в действительности бы- бывает редко), то доля р успехов была бы равна -g- и соответ- соответствующее биномиальное выражение в форме E.2) имело бы вид /2 , I\i2 D I-g—h -3-I • В рассматриваемом нами эксперименте кости небыли вполне безупречными, поскольку доля выпадений 5 и 6 соста- составила 0,3377. Беря это число в качестве р, мы можем символи- символически записать распределение относительных частот как @,6623 + 0,3377) 12. Умножив это выражение на полную частоту 26 306, по формуле бинома Ньютона найдем теоретические ча- частоты. Они представлены в третьем столбце таблицы 5.1. Из таблицы видно, что соответствие с наблюденными частотами весьма неплохое. *) Иной подход к биномиальному распределению см., например, в книге: Б. В. Гнеденко, Курс теории вероятностей, 1954. (Прим. перев.)
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ-A) 173 Таблица 5.1 Частотное распределение результатов 26 306 бросаний 12 костей; успехом считается выпадение 5 или 6 Число успехов 0 1 2 3 4 5 Наблюденная частота 185 1 149 3 265 5 475 6 114 5194 Теоретическая частота, отвечающая биномиальному распределению с р=0,3377 187 1146 3 215 5 465 6269 5115 Число успехов 6 7 8 9 10 и более Полная частота Наблюденная частота 3 067 1331 403 105 18 26 306 Теоретическая частота, отвечающая биномиальному распределению с р = 0,3377 3 043 1330 424 96 16 26 306 5.4 Мы уже вычисляли моменты и факториальные моменты биномиального распределения в примерах 3.2 и 3.8. Характери- Характеристическая функция этого распределения выражается формулой = (<7 4-/* /-о Логарифмируя и раскладывая экспоненту в ряд, получим сле- следующее выражение для производящей функции семиинвариан- семиинвариантов (Q = it): Разлагая логарифм и объединяя члены с одинаковыми степе- степенями 0, находим = ц3==пр{1 —p){l—2p)=:npq(q — p), E.4) — Qpq) и т. д., откуда 4- npq (I - 6pq), 1 •" л (прд)ш ' "¦ E.5) E.7)
174 ГЛАВА 5 5.5 Дальнейшие формулы требуются редко и, если в них есть необходимость, могут быть получены из интересных рекуррент- рекуррентных соотношений, связывающих моменты биномиального распре- распределения. Характеристическая функция центрированного биномиаль- биномиального распределения с началом отсчета, перенесенным в среднее значение, имеет вид <p(t) = e-nre(q + peP)n, Q = it. E.8) Дифференцируя по 0, имеем 2"О=ТУГ== — пРе~ прЧч+ре*)п + пе- ^(q + pe*)"-1 pi = откуда, после несложного преобразования, получаем /-о Приравнивая коэффициенты при Вг~\ находим следующее выра- выражение для момента r-го порядка относительно среднего через такие же моменты более низкого порядка: г-2 г-2 lir = npq^i(r-l)lij-p12l(r-l)iiJ+l. E.9) Далее, согласно определению /-0 Дифференцируя по р, имеем Первый член правой части равен —пщг-1. Сумма остальных двух, как легко убедиться, равна
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - (!) 175 Следовательно, ( ^) E.10) Например, ni = 0, \i2=npq = np(l—р) и поэтому H3=pq(n — 2пр) = npq(q — р), что совпадает с результатом E.4). Формулы для факториальных моментов относительно нуля принимают особенно простую форму. Нами уже было найдено (пример 3.8), что И(,] = /«[Г|- E.П) 5.6 Если p = q, то биномиальное распределение, очевидно, симметрично. При pфq оно несимметрично. Но в обоих случаях оно унимодально, если только рп не мало. Действительно, пре- превышение частоты значения г+\ над частотой значения г озна- означает, что иначе п\ (п-г-1)\(г+\)\ р (л --/•): г! л! ^ # или т. е. Следовательно, частота возрастает до тех пор, пока не станет (/¦+ l)>p{n+i), а затем она убывает. Несколько типичных би- биномиальных распределений представлены в таблице 5.2. 5.7 Частоты биномиального распределения можно вычислить прямо по формулам (п.) qn~jp'; при малых значениях п вычис- вычисление ведется непосредственно, при больших значениях п удобно воспользоваться таблицей для log и!. Прямое вычисление функ- функции распределения суммированием частот длинно и утомитель- утомительно; для их отыскания проще использовать приводимую ниже формулу и таблицы неполной В-функции. В общей формуле Тей- Тейлора с остаточным членом в интегральной форме j-o J h'*I?'~l F>{a + th)dt E.13)
176 ГЛАВА 5 Таблица 5.2 Частоты биномиального распределения для п = 20 и р = 0,1 @,1) 0,5 (все частоты в таблице увеличены в 10 000 раз) Число успе- успехов 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 р = 0,1 7 = 0,9 1216 2 702 2852 1901 898 319 89 20 4 1 — р = 0,2 7 = 0,8 115 576 1369 2 054 2 182 1746 1091 545 222 74 20 5 1 — п = 0,3 7 = 0,7 8 68 278 716 1304 1789 1916 1643 ' 1 144 654 308 120 39 10 2 . — о = 0,4 « = 0,6 _ 5 31 123 350 746 1244 1659 1797 1 597 1 171 710 355 146 49 13 3 . — р = 0,5 7 = 0,5 _ 2 11 46 148 370 739 1201 1602 1762 1602 1201 739 370 148 46 11 2 положим a = qb h = p, f(a + h) = (q + p)n. Тогда получим г-\ где E.14) Подстановкой t — l—х\р этот интеграл сводится к р Т(г)Т(п— г + 1) = ',<'.-'-И)-
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - A) 177 Согласно хорошо известному свойству В-функцпи сумма первых г членов равна, следовательно, {q + p)n-Rr = \-Ip{r, n-r + \) = Iq(n-r+\, г). E.16) Аналогично, сумма первых г+\ членов есть Iq(n — г, г+1), так что для (г+1)-го члена имеет место формула a-rlt = Iq(n-r- r + 1)-Iq(n-r±\,r). E.17) Пример 5.1 При «=20, /-=11, р = 0,4 по таблицам найдено, что Ru — = /0,4A1, 10) =0,1275212. Значение, получающееся суммированием последних шести чисел соответствующего столбца в таблице 5.2, равно 0,1276. Расхождение в последней цифре происходит из-за округления. Согласно таблицам /?12 = /о,4 A2, 9) =0,0565264. От- Отсюда получаем частоту значения 11 A1 «успехов») /?12—/?ц = = 0,0710, что совпадает с соответствующей частотой, указанной в таблице 5.2. Таблицы биномиального распределения Имеется ряд подробных таблиц биномиального распреде- распределения. (а) Biometrika Tables. Приводятся значения индивидуальных частот биномиального распределения с точностью до пятого десятичного знака*) для р = 0,01, 0,02@,02H,1@,01H,5 и п = 5EK0. (б) Tables of the Binomial Probability Distribution (National Bureau of Standards Applied Mathematics Series 6, Washington, 1950). Даны значения индивидуальных частот и функции рас- распределения с точностью до семи десятичных знаков для р = 0,01@,01H,50 и « = 2AL9. (в) Н. G. Romig. 50—100 Binomial Tables (Wiley, New York, 1953). Эти таблицы дополняют таблицы (б) до значении р = 50E) 100 с точностью до шести знаков. (г) Tables of the Cumulative Binomial Probabilities (U. S. Ar- ту Ordonance Corps Pamphlet ORD P20—1, Washington, 1952). Даны значения функции распределении для р = 0,01 @,01H,50 и п= 1 A) 150 с точностью до семи знаков. (д) Tables of the Cumulative Binomial Probability Distribu- Distribution (Harvard University Press, 1955). Даны значения функции *) Эта таблица помещена также в сборнике Таблицы математической статистики, стр. 104 и 346. (Прим. ред.)
178 ГЛАВА 5 распределения для р = 0,01@,01H,50, р = ^ ^j -j . р = ^ \Щ ~2 и п= 1A) 50 B) 100 A0) 200 B0) 500 E0) 1000. (е) В таблицах Миллера A954) приводятся значения {п\ для 2O<i-rc<100; г = 2AI2, «<500; /-=2A) 11, « = 500A) 1000; г=2AM, «=1000AJ000; /- = 2,3, « = 2000AM000. В примере 4.6 мы видели, что биномиальное распределение при возраста- возрастании п стремится к «нормальному» распределению. Раффом A956) показано, что если пр"'2> 1,07, то ошибка при использовании нормальной функции рас- распределения вместо биномиальной не превосходит 0,05 для всех г. Пуассоновское распределение 5.8 Встречаются иногда случаи, когда доля р «успехов» в ге- генеральной совокупности очень мала. Можно предположить чис- число п достаточно большим так, чтобы величина пр не была малой при малых р. Этот путь приводит нас к рассмотрению предель- предельной формы биномиального распределения при р—*0, когда пр остается конечным и равным, скажем, X. При этих условиях (п\ . „ . п\ Хг Л XV' \г }р ч (n-r)lrl пт \ п) Хт , z> —Л. . г! е г\е Следовательно, частоты рассматриваемых биномиальных рас- распределений в пределе имеют вид E.18) Распределение, для которого E.18) представляет собой по- последовательные частоты в точках 0, 1,2,..., называется пуас- соиовским. Впервые оно было рассмотрено Пуассоном в 1837 году. В терминах характеристических функций имеем (полагая 0 = 17) = Mm jl +-(ee— 1)}" = ехр{Я,(в°— 1)}. E.19)
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - A) 179 Выше, в примере 3.10, уже было доказано, что E.19) есть х. ф. распределения E.18). Соответствующая производящая функция семиинвариантов равна, стало быть, = я. (в» — 1) = я. Следовательно, все семиинварианты пуассоновского распределе- распределения равны X. Отсюда E.20) Если в E.9) и E.10) перейти к пределу при /г—>оо, то получим и й^.-г^^-Н^. E.22) 5.9 Сравнение последовательных членов Хг/г\ и Xr+l/(r+l)\ показывает, что частоты возрастают до тех пор, пока г+КХ, а затем убывают к нулю. При малых X полигоны частот очень асимметричны, и при Л<1 они J-образны; при возрастании X они становятся почти унимодальными и симметричными. Для нахождения суммы первых г частот пуассоновского рас- распределения можно воспользоваться способом, подобным приме- примененному в 5.7. Согласно E.13) r-й остаточный член равен -')• <5-23> Мы применили здесь обозначение из пирсоновских таблиц не- неполной Г-функции. С аргументом, использованным в этих таб- таблицах, работать в данном случае трудно*), и хотя формулу *) Существуют таблицы (В. И. Пагурова, Таблицы неполной гамма- функции, М., Изд-во Вычислит, центра АН СССР, 1963), в которых указаны значения Rr—/(X,r) (с семью десятичными знаками) непосредственно для аргументов Лиг. Эту функцию не следует смешивать с функцией, введенной К. Пирсоном, так как пагуровская /(Я,л) = пирсоновская / (-7=-. Г—Л- (Прим, ред.) 12*
180 ГЛАВА S E.23) можно применять для суммирования частот пуассонов- ского распределения, вычислять e-lXr/r\ легче непосредственно, чем с помощью выражения, аналогичного E.17): / В Blometrika Tables for Statisticians приводятся значения *) членов e-KXr/r\ (с точностью до шести знаков) для ^=0,1 @,1) 15, r=O(l)k, где k — то наибольшее значение г, для которого функ- функция е-хХг/г\ при заданном % с точностью до шести знаков не равна нулю. Суммы членов можно находить по таблицам ^-рас- ^-распределения в Biotnetrika Tables for Statisticians, которые позво- r-l ляют эффективно получать 2 е~ ^1Л с точностью до пяти зна- ков для А. = 0,0005 @,0005) 0,005 @,005) 0,05 @,05) 1,0 @,1) 5,0 @,25) 10,0 @,5) 20 A) 60. Эти таблицы сумм могут быть также использованы как дополнение к таблицам отдельных членов, особенно при О-^Л-d. Молина A942) опубликовал таблицы, в которых даны значения отдельных членов и сумм с точностью до шести-семи знаков для ^=0,001 @,001H,010@,010H,30 @,10I5AI00. 5.10 Рассмотрим теперь одно обобщение биномиального и пуас- соповского распределений. В 5.2 наш подход был основан на из- извлечении множеств по п элементов из одной и той же генераль- генеральной совокупности. Предположим теперь, что каждое множество объема п состоит из элементов, извлеченных из п различных генеральных совокупностей, которым соответствуют доли pit р2,.., ..., рп. В этом случае частоты будут получаться из символиче- символической формулы (А + qi) (Л + ?а) ¦ • • (Рп +- Яп) = Д {Pj + Я})- E-24) Если все р одинаковы, то мы будем иметь, конечно, биномиаль- биномиальное распределение. Характеристическая функция этого распределения выражает- выражается формулой *) Эта таблица помещена в сборнике Таблицы математической статисти- статистики, стр. ПО и 360. Там же (стр. 21 и 202) даны более подробные, чем в Blometrika Tables, пятизначные таблицы х2-распределсния, позволяющие на- находить значения функции пуассоиовского распределения. (Прим. ред.)
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - A) 181 Следовательно, E.25) «2 = ^2 = S I Обозначая буквой ^ арифметическое среднее всех Pj, имеем p wp, E.26) где а^ — дисперсия /?. Сравнение этих результатов с соответствующими результа- результатами для биномиального распределения показывает, что диспер- дисперсия распределения, задаваемого E.24), меньше, чем дисперсия биномиального распределения с тем же средним р, на п раз взя- взятую дисперсию «варианты» р. Подобным образом для пуассоновского распределения в ана- аналогичном случае имеем |i{=I E.27) где X — среднее значение Xj. Дисперсия распределения, задаваемого E.24), приблизитель- приблизительно, стало быть, равна дисперсии пуассоновского распределения, несмотря на различие р в разных генеральных совокупностях, лишь бы дисперсия «варианты» X была мала по сравнению с п; так будет, если все р малы. 5.11 Рассмотрим теперь случай, когда множества, содержа- содержащие по п элементов, извлекаются из k различных генеральных совокупностей, доли «успехов» в которых ри ..., pk. (В преды- предыдущем случае каждое множество объема п состояло из элементов,
182 ГЛАВА 5 извлеченных из п различных генеральных совокупностей. Те- Теперь мы предполагаем, что элементы каждого множества из- извлекаются только из одной генеральной совокупности, но разные множества —из разных генеральных совокупностей.) Частоты в этом случае определяются из символической формулы />/. E-28) Моменты этого распределения представляют собой, очевидно, средние значения моментов составляющих распределений {Рз + Я})п- В частности, из E.4) получаем Обозначая, как и выше, буквой р среднее различных значений р, имеем (п-\)о1. E.29) Дисперсия здесь больше дисперсии биномиального распределе- распределения со средним р на величину, равную п(и — 1)°2Р, где а2 — дисперсия «варианты» р. Переходя к пределу, для пуассоновского распределения имеем И здесь тоже дисперсия распределения отлична от дисперсии пуассоновского распределения со средним L 5.12 Мы рассмотрим подобные вопросы более детально, когда будем заниматься теорией выборочного метода, однако несколько замечаний могут оказаться полезными и теперь. В практике часто бывает так, что данные, полученные по выборкам из гене- генеральных совокупностей, охватывающих расширенную область или продолжительный отрезок времени, не соответствуют прос-
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - A) 183 тому биномиальному типу. Например, предположим, что голу- голубые глаза у индивидуума рассматриваются как успех, и возьмем несколько выборок по п элементов в каждой из разных областей Соединенного Королевства. Весьма вероятно, что доли успехов в этих выборках не отвечают одному и тому же биномиальному распределению. Дисперсия, вычисленная по известному п и сред- среднему наблюденному р, быть может, окажется меньше дисперсии, наблюденной среди различных выборок. В таком случае в силу E.29) следует сделать вывод, что доля успеха р меняется от области к области, и поэтому дисперсия р положительна. При этом мы предполагаем, что колебания выборочных значений р не могут быть объяснены на основе лишь одних выборочных флуктуации. Более подробно эти вопросы будут обсуждаться в последующих главах. 5.13 Тот же эффект обнаруживается в случае распределений, которые на первый взгляд, казалось бы, должны быть пуассо- новскими. Например, самоубийство — редкое событие, и можно было бы ожидать, что в последовательности больших выборок, скажем, среди населения Соединенного Королевства в последо- последовательные годы, частоты самоубийств должны подчиняться пуас- соновскому распределению. Однако это не обязательно так, поскольку различные члены совокупности в различной степени под- подвержены возможности самоубийства и склонность к самоубий- самоубийству может меняться от года к году; например, она больше в годы кризисов. Такое непостоянство степени риска характерно и для несчастных случаев на производстве, при изучении кото- которых без достаточного основания ранее использовали пуассонов- ское распределение. Второй столбец таблицы 5.3 показывает частоту несчастных случаев среди женщин, работавших на Таблица 5.3 Несчастные случаи, происшедшие с 647 женщинами, работавшими иа производстве снарядов, в течение пяти недель (Гринвуд и Юл, 1920) Число несчастных случаев 0 1 2 3 4 5 и больше Полная частота Наблюденная частота 447 132 42 21 3 2 647 Пауссоновское распределение с тем же средним 406 189 45 7 1 0,1 648 Распределение E.33) 442 140 45 14 5 2 648
184 ГЛАВА 5 производстве снарядов. Пуассоновское распределение, представ- представленное в третьем столбце, дает весьма посредственное прибли- приближение. Одна из возможных причин этого состоит в неодинаковой степени подверженности индивидуумов несчастным случаям. \ В качестве рабочей гипотезы будем считать (Грипвуд и Юл, 1920), что генеральная совокупность состоит из элементов, враз- личной степени подверженных несчастным случаям. Это разли- различие характеризуется различными значениями параметра К пуас- соновского распределения; предположим еще, что распределение параметра X дается формулой Г dF— jfj-j e'^l"-1 dl, 0<?.<co, c>0. E.31) Частота осуществления / успехов *) равна при этом со J T(p~)e к е JTdX о и представляет собой коэффициент при V в разложении интег- интеграла Т(р) I который вычисляется подстановкой (с+1—t)%=u и принимает вид Частоты 0, 1, 2, ... успехов равны, следовательно, ' с + 1 ' 2! Легко подсчитать среднее этого распределения y р , р(р+\) U+ \^ Аналогично *) Рассматривая данные таблицы 5.3, было бы более уместно слово «успех» заменить словом «неудача». (Прим. ред.)
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ- (I) 186 так что _ р(С + 1) __ р , р ',г,« ^2 ^ у ' IF' (О-ОО) Если левые части E.34) и E.35) заменить соответственно средним и дисперсией, оцененными по данным таблицы 5.3, то получатся два уравнения, которые однозначно определяют рис, а значит, и распределение E.33). Частоты этого распределения приведены в четвертом столбце таблицы 5.3. Очевидно, что они значительно лучше согласуются с результатами наблюдений, чем частоты пуассоновского распределения. Отрицательное биномиальное распределение 5.14 Распределение, заданное формулой E.33), обладает тем интересным свойством, что оно порождается биномом с отри- отрицательным индексом. В подходе, рассмотренном в 5.2, индекс необходимо положителен. Нередко, однако, встречаются случаи, когда данные соответствуют отрицательному индексу. Мы ука- укажем один весьма простой процесс, приводящий к такому рас- распределению, когда будем рассматривать теорию последователь- последовательного выбора. Другой классический пример, принадлежащий Юлу A910), исторически является первым примером, обратившим внимание статистиков на этот тип распределений. Он не содер- содержит в себе никаких произвольных допущений относительно ха- характера распределения, таких, например, как условие E.31). Пусть имеется генеральная совокупность индивидуумов, под- подверженная последовательным вспышкам болезни, и предполо- предположим, что каждая вспышка поражает (случайным образом) р-ю долю генеральной совокупности. После п вспышек доли индиви- индивидуумов, болевших 0, 1, ... раз, будут выражаться членами раз- разложения бинома (q+p)n. Если после г заболеваний индивидуум погибает, то доля индивидуумов, переживших п вспышек, равна сумме первых г членов этого разложения. Доля индивидуумов, умерших при га-й вспышке, образуется теми индивидуумами, ко- которые болели г—1 раз в течение первых п — 1 вспышек и за- заболели снова во время га-й вспышки. Она равна Таким образом, поскольку смерть не наступает до r-го заболе- заболевания, доли смертельных исходов при r-й, (г+_1)-й, .,, вспыш- вспышках суть
186 Глава s иными словами, они задаются последовательными членами раз- разложения бинома с отрицательным индексом pr(\—q)~r. Было обнаружено, что этому закону подчиняются данные эксперимен- экспериментов по уничтожению бактерий дезинфекцией. 5.15 X. ф. отрицательного биномиального распределения, за- заданного разложением рп{\ —q)~n, имеет вид @, как обычно, обозначает it) n. E.36) Следовательно, производящая функция семиинвариантов выра- выражается формулой ^(t)=nlogp-nlog(l-ge^) = -alog{l —-J(е°—1)}. E.37) Разлагая ф(/) в ряд и приводя подобные члены, находим па па па A 4- а) 1 _nq{l+4q+q*) \ E-38) 4~~ р< ¦ I Эти выражения могут быть получены из равенств E.4) заме- заменой р на qlp и ^ на 1/р. П. ф. ф. м. имеет вид со@ = р» 11 - «? A +1)}~" = A - «7ф)-л. E.39) Отсюда находим факториальные моменты относительно нуля Следует отметить, что для отрицательного биномиального рас- распределения ц..2 > \i\, в то время как для обычного биномиального распределения ц2 < [i'v а для пуассоновского распределения М.2 = ц.[. Предварительный подсчет величины (х2/ц{ часто оказы- оказывается полезным при определении, какому из этих трех типов лучше всего соответствуют имеющиеся данные. Логарифмическое распределение 5.16 Существует одно интересное распределение, являющееся предельным для отрицательного биномиального распределения. Пусть q — вероятность наличия некоторого признака и р — ве- вероятность его отсутствия в отдельном испытании. При некоторых обстоятельствах постоянное отсутствие признака во всех испы- испытаниях может оказаться невозможным событием. Мы приходим тогда к рассмотрению отрицательного биномиального распреде-
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - A) 187 лсния с отсутствующим нулевым классом, т. е. к распределению, частоты которого пропорциональны величинам E.41) Поскольку полная частота равна 1—рп, то получаем следую- следующее распределение: Пусть теперь п стремится к нулю. Применяя к стоящему пе- перед скобками множителю правило Лопиталя, имеем Игп п _Итт1 п 1 um р-л — i — 11Ш ехр (—n logр) — 1 ~~ — log/»' Следовательно, предельное распределение имеет вид Производящая функция его равна Lqt). E.44) Это распределение было введено Р. А. Фишером и др. A943). Путь, который нас к нему привел, представляется несколько ис- искусственным, поскольку отрицательное биномиальное распреде- распределение было определено для целых индексов п, а здесь мы устремляем п к нулю. Основания для этого процесса станут бо- более ясными, когда будет обсуждаться выборочная теория. Дей- Действительно, сумма N независимых наблюдений, подчиняющихся одному и тому же отрицательному биномиальному распределе- распределению с индексом п, сама подчиняется этому же распределению, но с индексом Nn (этот факт мы приводим здесь без доказа- доказательства). Порождающую логарифмическое распределение схе- схему можно рассматривать как переход к пределу, когда N стре- стремится к бесконечности, a Nn — к нулю. Пример распределения логарифмического типа дается в таблице 5.4. Его следует рас- рассматривать как иллюстрацию хорошего согласия опытных и теоретических данных, а не как совокупность данных, получен- полученных посредством только что указанной схемы. 5.17 Заменяя в E.44) t на ее, находим, что характеристиче- характеристическая функция логарифмического распределения выражается формулой
188 ГЛАВА 5 Таблица 5.4 Распределение бабочек в Малайе (теоретические частоты вычислены по логарифмическому распределению). Данные Фишера, Корбе и Уплльямса (Fisher, Corbet, Williams, Jour. An. Ecology, 1943, 12, 42) Номер вида 1 2 3 4 5 6 7 8 9 10 11 12 Теорети- Теоретическая частота 135,05 67,33 44,75 33,46 26,69 22,17 18,95 16,53 14,65 13,14 11,91 10,89 Наблюден- Наблюденная частота 118 74 44 24 29 22 20 19 20 15 12 14 Номер вида 13 14 15 16 17 18 19 20 21 22 23 24 Теорети- Теоретическая частота 10,02 9,28 8,63 8,07 7,57 7,13 6,74 6,38 6,06 5,77 5,50 5,25 Наблюден- Наблюденная частота 6 12 6 9 9 6 10 10 11 5 3 3 где а= I/log A —q). Пользуясь аналогией между этим выраже- выражением и E.37), получаем следующие формулы для моментов (но не симиинвариантов) относительно нуля: ./__«? ../_ «? „/_ «9 A + Ч) П — р ' ^2 — ~ рг • ^з — р~г Отсюда _ ag(\+ag) E.45) E.46) Гипер геометрическое распределение 5.18 Рассмотрим теперь следующее обобщение схемы, изло- изложенной в 5.2. Пусть из генеральной совокупности, состоящей из W элементов, извлекается выборка объема п (N не обяза- обязательно велико). Частота появления выборки, содержащей г эле- элементов с качеством Р и п — г элементов с качеством Q, равна Np(Np-\) ... (Np-r+\)Ng(Ng — \) ... (Ng — n + r+1) (;)¦ N(N— 1) ... (N — л+1) (Nq) \п-т\ N\n\ E-47)
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ — A) 189 Действительно, существуют I различных выборок объема п, причем г элементов с качеством Р могут быть выбраны ( ) различными способами, are— г элементов с качеством Q могут быть выбраны ( _5 ) различными способами (предполагается, конечно, что r^CNp, п — r^,Nq). Выражение E.47) есть не что (Np\( Nq \IIN\ иное, как иная запись отношения I II _ \ \ I. Мы приходим к рассмотрению дискретного распределения с общим членом вида E.48) Аналогия с биномиальным распределением очевидна. При N —> оо распределение E.48) стремится к биномиальному. Производящая функция, соответствующая E.48), J-0 равна tJ j\ ' Иными словами, она представляет собой гипергеометрическую функцию #*<•.* 1.0. где =:— п, $= — Np, y = Nq — n-!r\. E.50) Поэтому распределение E.48) называется гипергеометрическим. Функция F(a, P; у, t) представляется рядом р(а a. v ,v_ i . «Р t ¦ g(g+l)P(p+l) ^ Хорошо известно, что она удовлетворяет дифференциальному уравнению { |г-ар/7 = 0, E-51) в чем, впрочем, легко можно убедиться и непосредственно. Если в E.49) положить t~ee, то получим характеристиче- характеристическую функцию гипергеометрического распределения. Делая эту
190 ГЛАВА 5 замену в E.51), после нескольких преобразований и подста- подстановки вместо а, р, у их значений по формулам E.50), находим % } % = 0. E.52) Так как Ф = 2 V-'j^/jU то, приравнивая к нулю коэффициент при 0° в левой части E.52), получаем , ) апо E'53) Таким образом, среднее значение гипергеометрического распре- распределения не зависит от N и совпадает со средним соответствую- соответствующего биномиального распределения. Чтобы найти моменты относительно среднего, заменим в E.52) ф на е"Реф. Тогда получим E.54) Отсюда, рассматривая коэффициенты при 0, 02, 03, находим _ npq(N — n) ^2 jZ=i —2) _ npq(N-n) (N— 2) (AT — 3) 2) — -«)}]• E.55) Вообще, если Е означает операцию увеличения порядка момента на единицу, например Eiir=iir+u то N\ir+1 - {A + Е)г - ?г} [(х2 - {JV/7 + л (q - р)} Ц! + + {«/?<? GV-«Hio}J. E.56) Как и следовало ожидать, при N-*¦ оо эти значения стремятся к соответствующим значениям для биномиального распреде- распределения. 5.19 Пример гипергеометрического распределения, возникаю- возникающего в практике, приведен в таблице 5.5, показывающей час- частоту появления на руках карт определенной масти при игре в вист. Здесь W = 52 — число карт в колоде, /г=13 и р=1/4. Соот-
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЕ-A) 191 ветствующие частоты вычисляются, следовательно, по фор- формуле 52'131 V j Они приведены в третьем столбце таблицы. Согласие наблюден- наблюденных частот с теоретическими достаточно хорошее. Таблица 5.5 Распределение 3400 «первых pyj<» при игре в вист в соответствии с числом козырей на руке (К. Пирсон. A924а)) Число козырей на руке 0 1 2 3 4 Наблюденная частота 35 290 696 937 851 Частота гипергеомет- гипергеометрического распределе ния 43,5 272,2 700,0 973,5 811,3 Число козырей на руке 5 6 7 8 9 и больше Полная частота Наблюденная частота 444 115 21 11 0 3400 Частота гнпергсомет рического распределе- распределения 424,0 141,3 30,0 4,0 0,2 3400 Либерман и Оуэн (Q. J. Lieberman and D. В. Owen, 1961, Tables of the Hypergeometric Probability Distribution, Stanford U. P.) опубликовали значе- значения ф. р. и частот для N—\ AM0A0I00 и всех п, а также для JV=200 A00J000 и некоторых п. Уайз A954) нашел быстро сходящееся разложение для ф. р. в терминах неполной бета-функции. Сэндифорд (Sandiford, I960, J. Amer. Statist. Ass. 55, 718) показал, что хорошую аппроксимацию дает бино- биномиальное распределение с теми же средним и дисперсией, что и у гипергеоме- гипергеометрического распределения *). Нормальное распределение 5.20 Мы уже отмечали в примерах 4.6 и 4.9, что биномиаль* ное и пуассоновское распределения, выраженные в нормирован- нормированной форме, стремятся к распределению 2 У 2я dx, —oo<x<oo. E.57) *) Еще более точной является аппроксимация, учитывающая не два, а три момента (Большее, 1964, Теория вероят. и ее примен. IX, 687], (Прим. ред.)
192 ГЛАВА 8 Это распределение есть частный случаи более общего распре- распределения E.58) называемого нормальным*). Нормальное распределение являет- является наиболее важным теоретическим распределением в статис- статистике. Выражение E.57) представляет собой нормированное нор- нормальное распределение. Напомним некоторые из его свойств, указанных в рассмотренных выше примерах. Легко можно показать, что х. ф. распределения E.58) выра- выражается формулой Ф @ = exp (it\i[ — i *2о2). E.59) Отсюда E.60) 1 =0- 1 ) Производящая функция семиинвариантов имеет вид так что к2 —а2, пг = 0, г>2. E.61) Имеем также рг=3, \2—0; это объясняет выбор стандарта, при- принятого для нормального эксцесса (см. 3.32). 5.21 Поскольку функция плотности нормированного нормаль- нормального распределения будет встречаться очень часто, мы введем для нее специальное обозначение. Именно, положим ^. E.62) а(х) = г~е. Тогда функция распределения будет выражаться интегралами X X F (х) == J а (у) dy = I +¦ J а (у) dy. E.63) *) Термин «нормальное распределение», введенный К. Пирсоном, сейчас почти общепринят среди английских авторов (как и в советской литерату- литературе. — Перев.). Авторы из других стран называют его по-разному: второй закон Лапласа, лапласовское распределение, гауссовское распределение, рас- распределение Лапласа — Гаусса, распределение Гаусса — Лапласа. В качестве аппроксимации к биномиальному распределению оно рассматривалось Муав- ром еще в 1733 году, однако Муавр не изучал его свойств.
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - (I) 193 Разлагая а(х) в ряд по степеням х и интегрируя почленно, по- получим ll(?L + _?? ...). E.64) 2-3 2!22-5 / v ; Это разложение, однако, не очень полезно для вычисления F{x), так как, за исключением малых х, ряд сходится слишком мед- медленно. 5.22 Для вычисления F(х) при больших х можно использо- использовать разложение F(x) в асимптотический ряд. Заметим, что expj—i**(l + i»»)l T 1 + ц2 1= J exp{-v Возьмем интеграл по и от обеих частей в пределах от —оо до оо и переменим в правой части порядок интегрирования (это возможно в силу равномерной сходимости). Получим Т ехр{-1 •*'(!+«2)} Р ? J 1 + Ц2 L^«= J J exp{-v 2л ^ Следовательно, j p Отношение «хвоста» распределения \—F(x) к а(х) называют отношением Миллса*) и обозначают R(x). Таким образом, E.66) *) Оно было табулировано Миллсом в 1926 году, однако в действитель- действительности рассматривалось другими авторами и до него. 13 М. Кендалл, А. Стьюарт
194 ГЛАВА 5 и поэтому согласно E.65) " ехр (-!*% 1 г ехр (-!*%') *(х)гшТя J 1+»- rfa- E-67) -ОО Заменив ^-л:2и2 на /, получим Я- J / I — Jt2 Разлагая знаменатель и вычисляя по формулам для гамма- функции получающиеся интегралы, находим где ill*. Построенный ряд не сходится, но у=— t 2e-'dt <х~М+Щ-3-5 ...Bj— 1), E.69) т. е. остаточный член Rj(x) при всех / по абсолютной величине меньше последнего не включенного в него члена, так что ряд этот асимптотический. При больших х полученное разложение достаточно эффективно. 5.23 Наиболее полезным инструментом для вычисления F(x), или эквивалентно R(x), являются непрерывные дроби. Вот одно из разложений в непрерывную дробь, предложенное Лапласом в 1805 году. Положим ?ехр{-ДлА»»A-0*}** *@ ¦=**{*A-0} = ^ J ( 21+ц2 !—. E.70) — ОО Тогда T^H—^1-^-!}. E.71)
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - A) 1 95 Следовательно, если z разлагается в ряд по степеням t, то, подставляя это разложение в E.71) и идентифицируя коэф- коэффициенты при одинаковых степенях, получим ^ -Уг-1 = 0- E-72) Отсюда Уг-\ t . r-t-I Ут + i. Последовательное применение этой формулы дает Ух __ х 2 3 п Из E.70) имеем также Комбинируя найденные формулы, получаем R(x) = yQlx = -^j--jj--^:-^: ¦¦• -jqr ••• E.73) Это выражение было использовано Шеппардом A939, посмерт- посмертное издание) при вычислении стандартных таблиц нормального распределения, описанных в 5.25. В конце этого тома мы приво- приводим таблицы, достаточные для иллюстрации теории и примеров, содержащихся в этой книге. 5.24 Шентон A954) предложил разложение в иную непрерывную дробь, сходящуюся значительно быстрее лапласовской. Положив х Я (х) = J а (у) dy/a (х) = ^A~r ~ R (•*). о Шентон получил — Х ^ 2Х2 ЗХ2 .. E.74) Таблицы нормального распределения 5.25 (а) Таблицы Шеппарда содержат, помимо другого материала, зна- значения отношения Миллса с точностью до 12 знаков с шагом 0,01 по х и с точностью до 24 знаков с шагом по х, равным 0,1. Кроме того, в них при- приводятся натуральные логарифмы хвоста распределения с точностью до 16 зна- знаков с шагом 0,1 по х. 13*
196 ГЛАВА 5 (б) В Biometrika Tables имеется основанная на работе Шеппарда таб- таблица, содержащая значения функции плотности и функции распределения нормированного распределения с точностью до семи знаков для *=0@,01) 4,50 и с точностью до 10 знаков для х=4,50@,01N,00. Кроме этого, там имеется вспомогательная таблица до л;=500, а также обратные таблицы, по- позволяющие по значению функции распределения находить квантиль и значе- значение функции плотности. (в) В Tables of Normal Probability Functions *) (National Bureau of Stan- Standards, Applied Mathematics Series 23, Washington, 1953) приводятся значения функции плотности и функции {2F(x)—1}, где F — функция распределения, для х=0@,0001) 1@,001O,800 с точностью до 15 знаков, а также значения функции плотности и функции 2{1—F(x)} с точностью до семи значащих цифр для *=6@,01) 10. Кроме того, там имеются вспомогательные таблицы для больших значений х. (г) В The Kelley Statistical Tables*) (Harvard U. P., 1948) содержится восьмизначная таблица квантилей и функции плотности по значениям 0,0001 @,0001H,9999 функции нормированного распределения. Более точное табули- табулирование производится для 10 меньших и 10 больших значений, доходящих до 0,000 000 001 и 0,999 999 999. 5.26 Вид функции плотности нормированного нормального распределения показан на рис. 5.1. Функция эта симметрична, не обращается в нуль и, монотонно убывая, очень быстро приближается к нулю при возрастании х; в точках х=±1 у нее имеются пере- перегибы. Среднее отклонение для нормированного нормального рас- распределения равно со °° ^\\~*2d Y \"*1 = y^l =0,79788, E.75) а дисперсия равна, конечно, единице, поскольку распределение нормировано. С помощью таблиц легко можно найти, что квар- квартили отстоят от нуля на 0,67448975. 5.27 Данные таблицы 1.7 о распределении мужчин по росту могут служить примером распределения из практики, очень *) Таблицы (в) и (г) изданы в СССР с переводом пояснений на рус- русский язык: «Таблицы вероятностных функций'», т. II (серия «Библиотека ма- тематич. таблиц», вып. 3), М., Изд-во Вычислит, центра АН СССР, 1959; Т. Л. Келли, «Статистические таблицы», М., Изд-во Вычислит, центра АН СССР, 1965. Подробные таблицы для отношения Миллса, плотности, функции и кван- квантилей нормального распределения помещены в книгах: «Таблицы математи- математической статистики» и «.Сборник статистических таблиц-». (Прим. ред.)
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ-A) 197 0,3 '4 близкого к нормальному. Таблица 5.6 содержит наблюденные частоты и частоты нормального распределения, среднее и стан- стандартное отклонение которо- которого те же, что и у наблюден- наблюденного распределения F7,46 и 2,56 дюймов соответст- соответственно). Соответствие, очевидно, довольно хорошее. Следует, однако, отметить, что, в то время как теоретическое рас- распределение неограниченно, наблюденное распределение ограниченно, поскольку рост не может быть отрицатель- отрицательным. В нашем случае отно- относительная частота нормаль- нормального распределения вне интервала 57—77 дюймов столь мала, что указанное обстоятельство несуществен- несущественно, но в общем случае, когда ограниченное распре- распределение аппроксимируется неограниченным, нужно помнить, что соответствие вблизи хвостов может не быть хорошим. 5.28 Поскольку нормальное распределение можно рассмат- рассматривать как предельное для биномиального распределения, то Таблица 5.6 Частоты распределения 8 585 мужчин по росту (таблица 1.7) в сравнении с теоретическими частотами нормального распределения с теми же средним и дисперсией -4-3-2-1 О 1 2 д 4 Рис. 5.1. Плотность нормального рас- распределения у = - е 2 . У 2я Рост (дюймы) 57— 58- 59— 60— 61— 62— 63— 64— 65— 66— 67— Наблюденная частота 2 4 14 41 83 169 394 669 990 1223 1329 Теорети- Теоретическая частота 1 3 11 33 88 200 395 569 976 1227 1326 Рост (ДЮЙМЫ) 68— 69- 70— 71— 72- 73— 74— 75— 76-ч 77— Полная частота Наблюденная частота 1230 1063 646 392 202 79 32 16 5 2 8 585 Теоретн- ческаи частота 1234 989 682 405 207 91 34 11 3 1 G586
198 ГЛАВА 5 естественно поставить вопрос о формах предельных распределе- распределений, если такие существуют, для гипергеометрического распре- распределения. Разность между двумя последовательными частотами гипергеометрического распределения (см. E.48)) есть ЛГ1-1 r\(n-r-\)\ {Л/Р) (Л/д) \ r + l n-r j == l n[ (ND)lr](Na)in-r] ЛгИ г\[п — г]\У г) \ Ч) Отношение этой разности к r-п частоте равно Ну г __ А + Вг yr где А, ..., Е — константы. Когда распределение нормированно, Дуг в пределе есть приращение, отвечающее малому увеличе- увеличению г. Мы приходим, таким образом, к рассмотрению диффе- дифференциального уравнения dl _ A + Bjc . - _g. f ~~ C + Dx + Ex2 ax' @J0> определяющего функцию плотности. Графики плотностей, отвечающих этому уравнению, обра- образуют так называемое семейство кривых К. Пирсона и будут рассмотрены с несколько иной точки зрения в следующей главе. Некоторые обобщения 5.29 Распределения, изученные в этой главе, допускают раз- различные обобщения. Одно из них — нормальное распределение в многомерном случае — настолько важно, что в дальнейшем ему будет посвящена отдельная глава. Настоящую главу мы закон- закончим кратким рассмотрением двух обобщений биномиального распределения. Мультиномиальное распределение 5.30 Предположим, что элементы генеральной совокупности классифицируются не в соответствии с наличием или отсут- отсутствием качества Р, как в 5.2, а разбиваются на k+\ классов в соответствии с наличием качеств Р4, Р2, ..., Ри или отсут- отсутствием их всех — Р0- Так, например, при k = 3 Pi может обозна- обозначать наличие голубых глаз, Р2 — серых, Р3 — коричневых, а Ро— глаза какого-либо другого цвета или вообще отсутствие глаз. Если pt, Pi, ..., /7/ь ро обозначают соответственно относитель- относительные количества (пропорции) элементов каждого класса, то, об-
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - A) 199 общая рассуждения 5.2, легко видеть, что частоты для множе- множества из п элементов задаются разложением мультиномиального выражения ( ¦¦¦ +Pk)n. E.77) Иначе говоря, частота множества, имеющего г0 элементов с ка- качеством Ро. п элементов с качеством Pt и т. д...., равна Характеристическая функция, относящая переменную ti к pi (t=l, ..., k), имеет вид (ро + Д «"' + Рте"' + ... + pkeu")n. E.79) С помощью E.79) можно обычным образом найти моменты и смешанные моменты. Мы ограничимся здесь тем, что выпишем некоторые семиинварианты до четвертого порядка для й = 3. (Остальные семиинварианты тех же порядков получаются из соображений симметрии.) E.80) Здесь для краткости положено, как обычно, qt = l—pt. Двумерное биномиальное распределение 5.31 Элементы генеральной совокупности могут также клас- классифицироваться в соответствии с двумя качествами, например: голубоглазый или неголубоглазый и мужчина или женщина. (Вообще можно было бы рассматривать случай, когда имеется несколько качеств с несколькими категориями в каждом из них, но такая ситуация, ни в чем существенном не отличаясь, при- привела бы лишь к большей громоздкости и сложности.) Пусть наличие или отсутствие одного качества обозначается соответственно Р, Q (Q=l— Р), а другого Р', Q' {Q'=\—P'). Относительные количества элементов различных классов могут «1000 = Я/»о, «2000 = «/WO' «1100 = «зооо = «/Wo (<7о ~ #))> «2100 = — «АА (<7о — Ро)> «шо = «4000 = «/Wo A — 6ро%). «экю == — WoPi A — Ъро<!о)> {(q0 — Ро) {Qi — 2р0), и1Ш = —
200 ГЛАВА 5 быть представлены следующей таблицей: р Q Всего Р' Рп Ро\ Р' Р\о Роо д' Всегс Р Я 1 E.81) С некоторых точек зрения получающееся здесь распределение можно рассматривать как мультиномиальное, задаваемое выра- выражением (Poo+Poi + Pio+Pu)n. E.82) Обычно, однако, нам более интересно распределение числа элементов с качествами Р и Р', нем с обоими качествами Р и Р' и т. д. X. ф. совместного распределения числа элементов с каче- качеством Рис качеством Р' равна Ф @ = (Роо + Див* + Лов* + Рпе?>+в'У, E.83) где, как обычно, 6i = #i, 62=iY2. Положим P(ii)=Pn — РР'. E.84) Разлагая logcp(^), находим семиинварианты двумерного рас- распределения р{и) K2i — npW)(q — p) K3i=npu(l—6pq) I " } Другие семиинварианты, такие как ни, можно найти, пользуясь симметрией. Конечно, семиинварианты вида хго являются семи- семиинвариантами соответствующих одномерных распределений, за- задаваемых биномиальными выражениями {q + p)n и (q'+p')n. 5.32 Простое вычисление показывает, что если величина р(ц), определяемая равенством E.84), равна нулю, то х. ф. принимает вид E-86) Качества при этом независимы. Если перенести начало от* Счета в точку, координаты которой равны средним значениям ва- вариант, то E.83) перейдет в log Ф @ = п log (рад -+- Ал*6' + Лов8* + ри^1+в') — пр^ — пр'% = =4 я я (ряЩ + 2р(П)в1в2 + р'д'Щ + о (я). E.87) А если перейти к нормированным вариантам (дисперсии исход- исходных вариант равны соответственно npq и np'q') и устремить п
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ —A) к бесконечности, то в пределе получим где (РЯРЯГ 201 E.88) E.89) В примере 3.17 было показано, что E.88) есть логарифм х. ф. распределения 4F — jts- ехр | —— (х2. —- 2рх,х, -\- xl)] dx, dx9, 2яA—ргI/2 ^ L 2A —р2) v ' ' 2 v> ' 2 — со-^лг!, лг2-^с>о. E.90) Таким образом, двумерное биномиальное распределение стре- стремится к распределению E.90), которое можно рассматривать как двумерный аналог нормального распределения. Варианты дг! и х2 независимы тогда и только тогда, когда р=0, или, равносильно, когда P(ii)=0 или рц=рр'. Это условие в свою очередь означает, что среди элементов с качеством Р' доля тех элементов, которые обладают качеством Р, та же, что и их доля среди элементов с качеством Q', так как если, такое условие выполнено, то Рю=р — Ри=РЯг. Таблица E.81) прини- принимает при этом вид \Р' Q' [ Всего E.91) Подобного рода ситуации мы обсудим более подробно, когда будем заниматься выборочным изучением качественных призна- признаков. Заметим еще здесь же, что «независимость», как мы опре- определили ее выше, согласуется с обычным смыслом, который вкладывается в это понятие, когда речь идет о независимости качеств. Уишарт A949) дал общую формулу для семиинвариантов многомерного мультиномиального распределения. УПРАЖНЕНИЯ 5.1 Показать, что для биномиального распределения Pqj~ r>l р Q Всего pp' pq' ЯР' ЯЯ' Р' Я' Р Я 1
202 ГЛАВА 5 Пользуясь этим уравнением, доказать равенства (c=pq; g=q — p): v,2 ~ пс, х3 = ncg, х4 = п(с — 6с2), х5 = ng (с — 12с2), щ = п (с — 30с2 + 120с3), щ = ng(c — 60с2 + 360с3), и8 = л (с — 126с2 + 1680с3 — 5040с4). (Ср. Фриш A926), Холдейн A939). Холдейн приводит формулы до xi2 вклю- включительно.) 5.2 Показать, что для неполных моментов биномиального распределения (относительно среднего) (суммирование ведется, начиная с некоторого р, представляющего собой одно из значений варианты) выполняются уравнения E.10), т. е. \ir+i ==pqinr\ir_l -\—т-М- (Романовский, 1925.) 5.3 Полагая Tj = ( . ) р дп~ , показать, что неполные моменты биноми- биномиального распределения даются формулами 2 /-Р \к2 = pqTp {р — (« + 1) Р) + npq\io< Из = рдТр l{p-(n + \)p)* + pqBn--i)]+npq(q-P) ц0, и вообще г-2 г-2 j-0 j-0 (Фриш A926). Эти формулы обобщают соотношения E.9) иа неполные мо- моменты.) 5.4 Показать, что среднее отклонение биномиального распределения равно где (np+t,) —наименьшее целое число, превосходящее пр. (Джонсон, 1957.) 5.5 Из соотношения E.56) вывести рекуррентную формулу для моментов биномиального распределення и аналогичную формулу {A + ?)г-?'-}Лц|) для моментов пуассоновского распределения. (К. Пирсон, 1924а).
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ — (I) 203 5.6 Показать, что если распределение типа E.24) хорошо аппроксими- аппроксимируется биномом (Q+P)v (т. е. совокупностью элементов его разложения), то \Р = пр, \QP — npq — па2р, так что Р = р -f- о2р/р и, следовательно, Р и v положительны. Если, однако, вместо распределения типа E.24) взять распределение типа E.28), то так что Р, а следовательно, и v могут быть отрицательными. («Стыодеит», 1919.) 5.7 (Неймановское распределение типа А). Варианта г принимает зна- значения г = 0, 1 с частотами . *,.*¦> о. Показать, что производящая функция факториалышх семиинвариантов равна "к\{е^1—l) и чтоц( = Л[Я2. \i2 = hlX2 (l +Я2)- Найти также х. ф. н обратить ее, используя упражнение 4.22. (Ю. Нейман (J. Neyman), 1940, Ann. Math. Statist. 10, 35). 5.8 (Распределение Пойа—Эппли). Варианта г принимает значения /¦=0, 1,.,. с частотами Г-1\ l \ Ml j-\O\\ т Показать, что производящая функция факториальных семиинвариантов равна М/A—т—xt), и найти среднее и дисперсию. (Упражнения 5.7 и 5.8 содержат примеры распределений числа индивидуумов в колониях, размер которых тоже имеет некоторое распределение. В обоих случаях индивидуумы распре- распределены по пуассоновскому закону; в 5.7 размер колоний тоже пуассоновский, а в 5.8 он имеет J-образное распределение A—т)тр~ , р=1,2,...). 5.9 Показать, что если частоты двух симметричных биномиальных рас- распределений порядка п суперпозируются так, что r-й член одного распределе- распределения прибавляется к (г+1)-му члену другого, то в результате получаются частоты симметричного биномиального распределения порядка п+1 (с точ- точностью до множителя). Вывести отсюда, что если складываются два нор- нормальных распределения, у которых дисперсии одинаковы, а средине отли- отличаются только на небольшую часть стандартного отклонения, то получаю- получающееся распределение почти нормально. 5.10 Показать, что если
204 ГЛАВА 5 то Следовательно, если нормальное распределение группируется в интервалах с общей частотой JVi и если N2 — сумма квадратов частот, то величина 2N2 0,282095 будет оценкой для а. Проверить, что для данных таблицы 1.7 эта оценка дает значение а, равное 2,553 (ошибка около 1%). (Юл, 1938.) 5.11 (Трехмерное пуассоновское распределение). Показать, что когда poi* pw, ри в E.82) малы, а п/>ц = Яз, лрю=А,2—%3, npo\ = h—Х3 конечны, то рас- распределение стремится к предельному, общий член которого имеет вид \1 (\ Ку (А Х) i\j\k\ 5.12 Используя лапласовскую непрерывную дробь E.73), показать, что 5. !3 Показать, что отношение Миллса #(д;L равно —oo Заменяя интеграл суммой h ^ -у== хг i j2h2 н пользуясь первыми тринадцатью ее членами, проверить, что при h—-r,x=\ будет R = 0,15865524, (Дэс, 1956. Истинное значение R есть 0,15865525.) 5.14 Показать, что если для разложения отношения Миллса в лапла- лапласовскую непрерывную дробь E.73) s-ю подходящую дробь са обозначить Oj/ftj, ТО ao = 0, а, = 1, *о==1, bt=x, с с - Г Г l>S-2bS и, следовательно, при *>0 <... <CS<C3<CU (Шентон, 1954.)
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - (!) 5.15 Показать, что отношение Миллса равно и что ¦f «p(-4<'--<*) о оо I {—l)s ( (t — x)s e 2 dt I , (см. предыдущее при доказать, что 1 упражнение). Пользуясь неравенством \!\dx f fj2dx Г Ц% dx Г f 2 dx >o 1 1 i — е__— *-2 р л_ 2 4 2 Шварца _ где R< = csas+2 + ci+ 2«i — 2cs+las+l, 205 Вывести отсюда неравенство Бирибаума •I {_* + К^+4} <Л(д:)<4/{Здг + / (берется положительное значение корня). (Шептон, 1954.) 5.16 Пусть \(x) = \IR(x) и A, (Jf) = rfv/dx = v (v — x). Показать, что 0 < A, < 1. Полагая [ е~'2" da Г е" 2 проверить, что где — | х | | л: |. Отсюда, очевидно, вытекает, что я (л:) монотонно убывает при положитель- положительных х. (Сэмпфорд, 1953.)
206 ГЛАВА 5 5.17. Рассматривается интеграл Показать, что он меньше интеграла от той же функции, взятого по кругу площади 4а2 с центром в начале координат. Пользуясь этим фактом, вывести неравенство х 1 "I 1 р I и'1 t — \е 2 du<j{l — exp( — 2x2/n)}2, x>0. (Пойа, 1945.) 5.18 Убедиться, что функция 7? (л:) = у = Л ' [в jUdu о удовлетворяет дифференциальному уравнению *—+>¦ и доказать равенство х , т3 _i -f5 _|_ х? _i_ 1 1*О 1-0-0 1 • О•О• I (Пойа, 1945.) 5.19 Показать, что для мультиномиального распределения E.77) _ д где ui = Pilp0 и семиинвариант справа имеет порядок гх по ?! и т. д. (Гулд- берг, 1935). Пользуясь этим, вывести соотношения E.80). 5.20 Проверить справедливость формул E.85) и выражения E.86). 5.21 В некотором эксперименте наблюдаются группы индивидуумов. По- Показать, что если число групп имеет пуассоновское распределение, а число ин- индивидуумов в группе — логарифмическое, то общее число наблюденных ин- индивидуумов имеет отрицательное биномиальное распределение. (Кэнуй (Quenouille M. Н.) A949), Biometrics 5, 162.) 5.22 Пусть г — сумма п независимых вариант Xi, каждая из которых имеет распределение с х. ф. q>i(/), н пусть п — дискретно распределенная варианта с х. ф. фг(<Ь принимающая значения 0, 1, 2, ... Показать, что х. ф., отвечающая варианте г, равна ф2 (— . 1 и что с положительной вероятностью 2=0, даже если Х{ имеют непрерывное распределение. В частности, если п имеет пуассоновское распределение с параметром X, то х. ф. г равна exp{h[wi(t)—1]}. Вывести отсюда результаты упражнений 5.7 и 5.21.
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - (!) 207 5.23 Используя результат упражнения 4.16, показать (ср. 5.13), что если параметр пуассоновского распределения сам имеет распределение III типа E.31), то в результате получится отрицательное биномиальное распределе- распределение E.33). 5.24 Условное распределение х при заданных \i и % нормально со сред- средним ц и дисперсией X. Показать, что если y(t, u)—M{exp(it\i+iu%)} (ф (t, и) — х. ф. совместного распределения Я, и ц), то х. ф. безусловного распре- I 1 \ вместного ра I. 1 ./2\ ф1г, -^it'\. деления х равна 5.25 Если в упражнении 5.24 N* распределены независимо с х. ф., со- соответственно, (fn(t) = (l+t2a2)-1, ф2(<) = A— 2ша2)"т, т — целое положитель- положительное (относительно этих х. ф. см. упражнения 4.3 и 4.18), то распределение х совпадает с распределением суммы т+1 независимых вариант, каждая из которых распределена так же, как \1. 5.26 Показать, что для пуассоновского распределения E.18) ц^ = Я,г, а для гипергеометрнческого распределения E.48) ц'^ = n'' ^J^
ГЛАВА 6 СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ — B) 6.1 В этой главе мы продолжим изучение стандартных рас- распределений статистической теории, начатое в предыдущей главе. Естественно, конечно, желание описать различного рода частот- частотные распределения (значительное число примеров содержится в главе 1) гибкой системой математических формул. Здесь мы рассмотрим три возможных прихода к описанию распределений. Первый из них, ведущий свое начало от Карла Пирсона, осно- основан на отыскании семейства кривых, при помощи которого мож- можно удовлетворительно представить встречающиеся на практике распределения. Второй подход, идущий от Брунса, Грама, Шарлье и Эджворта, основан на представлении данной плотно- плотности распределения в виде ряда от производных нормальной плотности. И, наконец, третий подход, данный Эджвортом и дру- другими авторами, состоит в отыскании такой функции от исходных вариант, распределение которой, по крайней мере приближенно, можно было бы выразить через известное распределение. Распределения Пирсона 6.2 В 5.28 было отмечено, что в предельном случае гипергео- гипергеометрическое распределение совпадает с распределением, плот- плотность которого подчиняется уравнению df (х— а){ ,fi ч ч dx bo+b^ + bzx2 " *¦ ' Это уравнение может быть рассмотрено с несколько иной точки зрения. Если иметь в виду унимодальные распределения, рас- рассмотренные в главе 1, то представляется интересным изучить тот класс плотностей, которые: (а) имеют единственную моду, т. е. df/dx=O в некоторой точке х=а\ (б) имеют гладкое сопри- соприкосновение с осью х на концах интервала, где сосредоточено распределение, т. е. df/dx—O, когда f = 0. Нетрудно видеть, что, вообще говоря, решения уравнения F.1) удовлетворяют этим условиям. На самом деле далее станет ясно, что среди распре-
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 209 делений семейства F.1) существуют и такие распределения, ко- которые имеют J- и U-образную форму. Семейство плотностей, определяемых формулой F.1), извест- известно под названием «семейства распределений Пирсона». Прежде чем переходить к нахождению точных решений, мы рассмотрим некоторые свойства, присущие этому семейству в целом. Имеем (Ь, + М + b2x2) df — (x — a)f dx или хп (Ьо + ЬгХ + b2x2) ? = xn(x-a) f. Интегрируя левую часть по частям и предполагая, что получен- полученные интегралы существуют, мы получаем оо !!00— J оо со = J xn+1fdx — a J x"fdx. F.2) Предположим, что выражение в квадратных скобках обращается в нуль на концах распределения или что Hm xn+2f-+0, если ± распределение имеет бесконечный размах. Тогда, пользуясь обо- обозначениями для моментов из F.2), получим или я*Х.. + {(« + 1)*1-в}|*; + {(» + 2)*2+1}|х;+1 = 0. F.3) Эти уравнения позволяют определить старшие моменты по млад- младшим. В самом деле, все моменты могут быть выражены через коэффициенты а, Ьо, Ьх и Ьг и моменты jj,0(=1) и \х.[. И обратно, эти четыре константы можно выразить через моменты \у,[, ц.'2, \i'3 и (j-^или через три момента, взятых относительно среднего: jj,2. Из, (J.4. Полагая в F.3) последовательно п = 0, 1, 2, 3, мы находим уравнения для а, Ьо, Ьи Ьг: _ а _ 00 — — 3{3,) _ Ox— —ЗР, —6) Т F.4) 14 М. Кендалл, А. Стьюарт
210 ГЛАВА в где ц2 — 18ц|— 12ц|, Л'=10р2—18—12pr F.5) В этих формулах нулевое значение принято в качестве среднего, так что распределения семейства F.1) полностью определяются своими четырьмя первыми моментами. 6.3 Из уравнения F.1) следует, что мода равна х=а. И» F.4) для пирсоновской меры асимметрии *) F.6) — 12Р, — 18 что, впрочем, было отмечено ранее (см. формулу C.87)). Далее, если а=0, то d*f _ d xf l ,, , 2. dx' — dx So + M + M* ~" (»o + M + M2J ( ° 2 >' Поэтому точки перегиба графика плотности распределения опре- определяются соотношением л;2 = 42"- F-8)  Следовательно, у плотности из семейства Пирсона существует не более чем две точки перегиба, и если их действительно две, то они отстоят от моды на одинаковом расстоянии. Но может, конечно, случиться, что одна из точек перегиба находится вне области, где сосредоточено распределение. 6.4 Принимая моду за начало отсчета, уравнение F.1) можно записать в виде dx ^1Og ИЛИ dX F.9) Таким образом, точное выражение для плотности f можно полу- получить путем интегрирования правой части уравнения F.9). Здесь следует различать два основных типа распределений, соответствующих тем случаям, когда знаменатель в F.9) имеет действительные или мнимые корни. Тип I (бета-распределение) 6.5 Пусть В0-\-В1Х + В2Х^=В2(Х + щ){Х — а2), щ, ^ > 0, *) Происхождение обозначения Sk объясняется тем, что по-аиглийскв асимметрия — skewness. (Прим. перев.)
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 211 тогда а, 1 . «г 1 — В2(а,+а2) (Л" + а,) ~г" B2(ai+a2) (*—«s) " Отсюда а, а2 f = k(X-\-щ)в' @>+0') {X — <Х2)В*<а'+а>> , F.10) что можно записать в форме '-*('+?)*('-*)"*• FЛ1> где Размах этого распределения сосредоточен в интервале (—пи а2), поэтому, интегрируя в этих пределах, найдем откуда, положив Ar = (ai+«2)y — ai> получим   Этим равенством определяется константа &. Таким образом, В качестве начала отсчета здесь выбрана мода. Если в ка- качестве начальной точки взять начало распределения, то получим или, полагая ах-\-а2=1, 14*
212 ГЛАВА 6 6.6 Обычно это выражение записывают в следующей форме, которая стала почти стандартной: Соответствующее распределение сосредоточено на интервале (О, 1). Отвечающая F.14) функция распределения является не- неполной бета-функцией, а само распределение часто называется бета-распределением. Если р и q оба превышают единицу, то кривая плотности имеет единственную моду (р—\)/(p + q — 2) и обращается в нуль на концах интервала @, 1). Если либо р, либо q лежит между 0 и 1, то одна из крайних ординат беско- бесконечна и распределение имеет J-образную форму. Условие, что B0+BiX + B2X2 имеет действительные корни про- противоположных знаков, которое было использовано при выводе формулы F.14), эквивалентно тому, что Во и В2 имеют проти- противоположные знаки, что в свою очередь эквивалентно условию В\1(АВ0В2)<0. В терминах р4 и р2 это условие в силу F.4) мож- можно выразить неравенством /О ! П\9 <0. F.15) Величина в левой части обычно обозначается буквой и и служит критерием при различении основных типов распределе- распределения Пирсона. 6.7 Если корни BQ+BiX + B2X2 действительны и одного знака, то аналогичным образом можно показать, что где а-^х-^оо, если а>0, и —оо-^х-^а, если а<0. Это распреде- распределение называется VI типом Пирсона, но поскольку с помощью простого преобразования у=а/х оно сводится к распределе- распределению I типа, то нет надобности изучать его отдельно. Величина и в F.15) для этого случая больше единицы. В форме 4 BР, — Зр, —6) Dрх — это распределение известно как бета-раепределепие второго рода. Здесь 1/& = В(р, q), как и для распределен!! типа I. Распре- Распределения F.14) и F.17) мы будем называть соответственно бета-распределением первого и второго рода с параметрами Р и q.
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 21 Я Тип IV 6.8 Если корни В0+В1Х + В2Х2 мнимые, то (вводя очевидные обозначения) X X откуда Распределения с такой плотностью принадлежат системе Пирсона IV типа. Их плотности обычно записываются в виде = *(l +-J)"mexp{-varctg (¦? Эти распределения сосредоточены на всей прямой и являются унимодальными. Но практически с такими распределениями трудно обращаться, несмотря на существование специальных таблиц. Дело в том, что функцию распределения, являющуюся интегралом от F.18), не удается выразить через элементарные функции. Проще всего для ее отыскания воспользоваться чис- численным интегрированием функции плотности. Отметим, что ве- величина х из F.15) в этом случае лежит между 0 и 1. Тип II! (гамма-распределеиие) 6.9 Пирсон различает еще девять других типов, ряд из кото- которых либо тривиален, либо недостаточно интересен. Мы остано- остановимся на одном из типов, находящих значительное теоретическое применение. Некоторые другие типы можно найти в упражне- упражнениях к этой главе. Если в F.9) В2=0, то распределение имеет — a<*<oo. F.19) Здесь в качестве начала выбрано модальное значение. Если за начало отсчета взять начальную точку распределения и под- подходящим образом выбрать масштаб, то мы придем к той форме
214 ГЛАВА 6 распределения, которая уже встречалась ранее (примеры 3.6, 3.12): f —_^_JC»-1e-r, я,>0, 0<л<оо. F.20) Для этого распределения величина х бесконечна. Кривая рас- распределения (график плотности) унимодальна, за исключением случаев, когда значение к меньше или равно единице. В этом случае распределение J-образно. Это распределение известно под названием распределения III типа, или гамма-распределения (в силу того, что функция этого распределения является непол- неполной Г-функцией). 6.10 Было установлено, что пирсоновские распределения нередко хорошо соответствуют результатам наблюдений. Дру- Другое достоинство этих распределений (и, в частности, распределе- распределений I и III типов), как мы это увидим в дальнейших главах, состоит в том, что ими можно с хорошей точностью приближать теоретические распределения, зная их моменты. Систематическое изложение техники подбора аппроксимирующих распределе- распределений было дано Элдвртоном A938а). Мы ограничимся здесь ука- указанием общих принципов и разберем один пример подгонки, который, по-видимому, является одним из наиболее трудных случаев. I в.И^Все распределения Пирсона определяются своими че- четырьмя первыми моментами ]iv ]i'2, Из> К» за исключением не- некоторых вырожденных распределений, задаваемых меньшим ко- количеством моментов. Пирсоновский метод подгонки состоит в следующем: 1. Определяются первые четыре момента для эмпирического распределения, отвечающего результатам наблюдений. 2. Вычисляются значения Pi, Рг и величина % (см. F.15)), и, следовательно, определяется тип распределений. 3. Эмпирические моменты приравниваются моментам подхо- подходящего распределения, которые выражены в терминах его пара- параметров. 4. Полученные уравнения разрешаются относительно неиз- неизвестных параметров и, следовательно, находится искомое рас- распределение. Следующий пример иллюстрирует этот процесс. В таблице 1.15 дано (в нижней строке) распределение 9440 бобов по их длине. (См. также таблицу 6.1 на стр. 223.) Требуется подогнать одну из кривых Пирсона к этому распре-
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 215- делению. С учетом поправок Шеппарда для моментов получим. Hj A4,5) = —0,190783898 ц., = 3,238424951 ц3 = — 5,306566352 ' \i4 = 50,999624044 Pi = 0,829135838, /fo = —0,910569, р2 = 4,862944362. Для величины и, определенной в F.15), находим 51,262 И 4 Dр2 — Зр,) Bр2 — 3Pi — 6) 84,040 ' Это число лежит между 0 и 1, и, следовательно, подходящее рас- распределение должно принадлежать типу IV. Полагая в уравнении. F.18) Q=x/a и 2т— 2=г, мы найдем \i'a = k J an+1 Отсюда, интегрируя по частям (cosr~"G sin 8 берем в качестве одной из частей), получим что является частным случаем F.3). Следовательно, моменты относительно среднего выражаются формулами: ev — — г3 (i— 1) (г — 2) ' _ За< (гг + у2) {(г + 6) (г2 + у2) - ) откуда ._ 6(ра — р, —1> г— 2р2-3р,-6 '
216 ГЛАВА 6 Воспользовавшись значениями pi, рг и ц2, найдем г = 14,69772, от = 8,34886, v = 18,38043, а = 4,15949. Здесь надо сделать замечание относительно знаков. Определение знаков у г и я не вызывает трудностей; а и v положительны, по- поскольку V"Pi надо считать отрицательным. До сих пор все вычисления выполнялись непосредственно. Для вычисления константы k нам нужны таблицы интеграла от плотности. Такие таблицы были созданы Пирсоном *). Вычис- Вычислив значения k, находим / Х2 ч-8,34886 , / = 0,395121 A +-щШ) ехр(- 18,38043 При некотором терпении можно вычислить и значения ординат плотности распределения и интеграл от плотности в заданных пределах. В таблице 6.1 (третий столбец) приведены эти значе- \ ния для сравнения их с наблюдаемыми частотами. U-—6.12 При подгонке кривых Пирсона методом моментов, ука- указанным выше, нужно иметь в виду следующее. Если наша цель (как, например, в страховом деле) состоит в том, чтобы полу- получить математическое выражение для распределения, которое удовлетворительно бы описывало наблюдения, хорошо бы гра- градуировалось и интерполировалось, то подгонка с помощью мо- моментов обычно удовлетворительна. Но этот метод, однако, за- заслуживает критики, когда наблюденные данные рассматриваются как выборки из некоторой генеральной совокупности, и нам же- желательно найти математическое представление этой совокуп- совокупности. В таких случаях моменты, подсчитанные по наблюдениям, являются только оценками моментов совокупности и, вообще говоря, они не являются наиболее эффективными оценками пара- параметров, характеризующих генеральную совокупность. Мы отло- отложим дальнейшее обсуждение этих вопросов до второго тома Гглявя. 171. \6.13 Другие системы кривых можно получить, воспользовав- воспользовавшись разложением плотности в ряды. В математике и физике хорошо известно, что часто функции можно с пользой предста- представить или в виде степенных рядов (ряды Тейлора), или в виде тригонометрических функций (ряды Фурье). Ни одно из этих представлений нельзя признать очень подходящим для разло- разложения плотностей, и поэтому мы рассмотрим другое множество функций с гораздо более обещающими возможностями. *) Они помешены в первых двух изданиях Tables for Statisticians, Part I, но затем в последующих изданиях были опущены.
с СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ-B) Полиномы Чебышева — Эрмита 217" 6.14 Пусть, как и в 5.21, 1 Рассмотрим последовательные производные а(х) по х. Имеем Da (х) = — ха (х), и т. д. Очевидно, результаты дифференцирования будут пред- представлять собой полиномы по х, умноженные на а(х). Определим полиномы Чебышева — Эрмита Нг{х) тождеством (— Df а (х) = Нг (х) а (х). F. 21) Ясно, что Нг{х) является полиномом степени г с единичным ко- коэффициентом при хг. Условимся также считать Яо=1. Мы имеем причем в силу теоремы Тейлора у-о /-о Следовательно, Нг(х) есть коэффициент при f/r\ в разложе нии ехр их—Y*)' ^аким образом, Первые десять полиномов имеют следующий вид: Я, =х, F.23).
218 ГЛАВА 6 #5 =Х5— Я7 = л;7 — 21л;5 + 105л;3—105*. #8 = л;8 _ 28л;6+21 Ол;4 — 420л;2 -f-105. Нэ = л;9 — 36л:7 + 378л;5 — 1260л;3 + 945л;, Яю = *м> — 45л* + 630л:6 — 3150л;4 + 4725л;2 — 945. F.23) 6.15 Полиномы Чебышева — Эрмита обладают рядом инте- интересных свойств. Дифференцируя тождество по л: и приравнивая соответствующие коэффициенты при tr, по- получаем ?//,(*) = ,//,_,(.*), F.24) и вообще DJHr(x) = rlJ]H,_j(x). F.25) Дифференцируя то же самое тождество по t и приравнивая коэффициенты при ?г~1, получим 2(л;) = 0. F.26) Из F.24) и F.26) находим Щ?± )^ F.27) Известно также (см. Шарлье, 1931), что уравнение (относитель- (относительно х) Нг(х)=0 имеет г действительных корней, каждое из ко- которых не больше по абсолютной величине, чем 1/ ¦„• г (г—1). Таблицы значений первых шести полиномов для *=0@,01L были даны Иоргенсеном A916). 6.16 Полиномы Чебышева — Эрмита обладают важным свой- свойством ортогональности: со (Нт(х)Ня(х)а(х)с1х=Г> тФП> F.28) _Jco l«l. m = n-
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ—B) 219' В самом деле, интегрирование по частям при т*Сп приводит к выражению со = {-\y J HmDnadx = —СО оо Член в квадратных скобках обращается в нуль, и в силу F.24) интеграл становится равным «(-I)"-1 Продолжая этот процесс далее, мы получим нуль, если тфп,, и т\, если т = п. Ряды Грама — Шарлье типа А 6.17 Предположим, что плотность распределения может быть формально разложена в ряд по производным от а (л:) (ниже мы рассмотрим условия, при которых подобное разложение закон- законно). Тогда Умножая f(x) на Нг(х) и интегрируя в пределах от —оо до оо,. мы получим в силу условия ортогональности F.28) x) dx. F.29) Читатель, знакомый с гармоническим анализом, легко усмотрит здесь аналогию между- вычислением постоянных сг и способом вычисления коэффициентов в рядах Фурье. Подставляя в F.29) точное выражение для Нг(х), даваемое F.22), найдем 2ЛГ rW 
220 ГЛАВА 6 В частности, для моментов относительно среднего значения имеем . . 1 ,. ¦- ¦ » 1 720 1 —15), = 10326Г A*8 — 28^б + 210ц4— F.31) Тем самым формальное разложение дает + -я- (^4-6^2 + 3) //4 4- ... }• F-32) Если f(x)—плотность нормированного распределения, то f(x) = a(x){\ +|^3+2Т(^-3)Я4+ .-.}¦ F.33) Это разложение носит название ряда Грама — Шарлье типа А. Эджвортова форма рядов типа А 6.18 Рассмотрим преобразование Фурье функции Нг(х)а(х), Поскольку V2na(t) = e 2<2= | е ТО Jtx - X* dx. и поэтому преобразование Фурье произведения хга(х) есть irY2nfir(t)a(t). Обратно ОО xra(x) = ~ J e-lt*iTYtoiHr(f)a(t)dt. — 00 Меняя х и t местами, найдем оо У2я (— i)T fa (t) = J е- ixtHr (x) a (x) dx,
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 221 и, следовательно, меняя знак у t, находим, что преобразованием произведения Нг{х)а{х) является У In irfa (t). Рассмотрим теперь выражение {ехр (*,?')}<*(*)• F-34) Его характеристическая функция имеет вид J eitx exp (xftDr)a(x) dx = J e"* J fcjr) «(•*)dx = —оо —оо оо оо Аналогично можно получить, что х. ф. выражения exp{_2^D + ^?2-!f-?>3+^+ ...},,(*) F.36) равна n a @ ехр { %=± « + i^=± + •••}• F-37) Вообще, если теперь а(х) заменить ненормированной функцией 1 1 (х-т)* то характеристическая функция выражения }x) F.38) будет равна /2яa (to) e^ exp {%=* it + i^j±(tYJ + +зг^K+1г^L---}- F-39) в чем нетрудно убедиться с помощью аналогичных рассуждений. Предположим, что F.38) представляет собой плотность неко- некоторого распределения. Соответствующая производящая функция семиинвариантов есть логарифм от выражения F.39), она равна (х,-« + «)<* + „,
222 ГЛАВА 6 и поэтому семиинварианты суть hi — а+т, иг — b + а2, из, и*, .. > ..., иг, ... Положив а=т и Ь = а2, мы получим распределение с семиинвариантами иь и2, из, ... Если эти величины на самом деле являются семиинвариантами некоторого распределения, то сумма ряда F.38) должна быть плотностью этого распределе- распределения, лишь бы: A) ряд сходился к некоторой функции плотности и B) это распределение однозначно определялось бы своими моментами. Если выражать плотность распределения в нормированной форме, то тогда hj=0, и2=1 и выражение F.38) равно (*) = /(*), F.40> где функция р(х) заменена на а(х), поскольку т = 0 и о2=К Такой ряд был получен впервые Эджвортом A904) совер- совершенно другим способом, исходя из теории элементарных ошибок. Уравнение F.40) формально идентично с F.33), и читатель, закомый с историей вопроса о представлении плотности в виде рядов, возможно озадачится тем, что Эджворт утверждал, будто бы его ряд отличен от рядов типа А и дает лучшее представле- представление плотности. Объяснение состоит в том, что для практических целей приходится брать только конечное число членов в этих рядах и пренебрегать остальными. Если мы возьмем первые k членов в F.33), то результат будет вообще отличен от того ре- результата, который мы получим, взяв в экспоненте в F.40) пер- первые (k — 1) членов. Дело в том (см. пример 6.3), что с точки зрения теории элементарных ошибок члены в F.33) не стре- стремятся регулярно к нулю, так что, вообще говоря, последующие члены нельзя считать малыми по сравнению с предыдущими. 6.19 Для нормированных распределений соотношения F.31) в терминах семиинвариантов записываются следующим образом: с0 — 1, сг = с2 — 0, ся~- с,— 24 ' 120 ' F.41)
Таблица 6.1 Подгонка некоторых функцнй плотности к распределению длины бобов (таблица 1.15) (по Преториусу (Pretorlus, 1930) и Джонсону (Johnson, 1949a)) Длина бобов (мм) 0) > 17,25 17,0 16,5 16,0 15,5 15,0 14,5 14,0 13,5 13,0 12,5 12,0 11,5 11,0 10,5 10,0 9,5 < 9,25 Всего Наблюденные частоты B) 6 55 275 1129 2082 2294 1787 929 437 199 115 70 36 18 7 1 — 9 440 IV тип Пирсона C) 1,4 28,5 299,3 1181,6 2132 2229,8 1 638,9 968,9 503,6 243,7 113,8 52,5 24,2 11,3 5,4 2,6 1,9 9 440 Тип А Грама —Шарлье (тон члена) D) 163 12,8 25,6 241,7 1 012,7 2155,4 2593,0 1 788,4 713,4 280,7 258,7 206,2 98,7 29,6 5,9 { 0,9 — 9440 Тип А Грама —Шарлье (четыре члена) E) —15,2 13,7 116,6 370,4 926,2 1 833,0 2506,4 2082,6 921,3 199,0 132,1 178,1 117,0 43,5 10,0 ( и 9 440 Тнп А Грама —Шарлье (пять членов) F) 2,0 —35,3 22,3 438,1 1 214,0 1866,9 2112,8 1 916,7 1183,4 371,2 66,9 101,2 107,1 54,0 15,4 | 3,3 — 9440 Логнормальное распределение G) _ ( 10,1 280,5 1255,2 2 163,8 2 179,6 1 598,5 965,0 515,3 254,5 119,5 54,4 24,3 10,7 4,8 2,1 1,7 9440 Тип Sv Джонсона (8) 0,1 2,0 32,2 290,1 1151,5 2130,3 2240,6 1642,5 970,6 508,7 249,3 118,0 552 25,7 12,1 5,8 2,7 2,6 9 440 п ч > ч X Е га > m X X Примечание: Фигурные скобки означают, что указанные частоты представляют собой суммы малых стот, отвечающих строкам, охватываемым скобками. ча- ю СО
224 глава в 6.20 Практически в представлении плотности в виде ряда типа А в расчет приходится принимать только несколько первых членов. Слагаемые в Нт(х) имеют коэффициенты, зависящие от \ir, и надо иметь в виду, что в силу выборочных флуктуации при г>4 они определяются достаточно плохо. Если выборочными эффектами можно пренебрегать, то в рассматриваемых рядах следует брать больше членов. Но обычно нет надобности при- привлекать члены старше Нв. Мы будем поэтому изучать вопрос о том, насколько хорошо плотность распределения можно пред- представить в виде ****+?*) F.42) в надежде на то, что роль отброшенных членов невелика. Попут- Попутно заметим, что в противоположность системе Пирсона может быть легко получена функция распределения для плотностей, представленных в виде рассмотренных рядов. В самом деле, если то х х (*)</* = 2a, I Hr{x)a{x)dx = -^arHT_l(x)a{x). F.43) -co -co Пример 6.2 Рассмотрим подгонку ряда типа А к распределению данных о бобах по их длине из примера 6.1. Мы уже нашли первые четыре момента. Для нормированного распределения имеем Из =—0,910569, ц4 = 4,862944, а также И5 = — 12,574125, м6 = 53,221083. Следовательно, искомое приближение имеет следующий вид: 9440а (х) {1 — 0,151762Я3 + 0,0776227#4 — — 0,0289036Я5 + 0,0142735Я6). Столбцы D), E) и F) в таблице 6.1 показывают частоты, полу- полученные в том случае, когда брались первые 3, 4 и 5 членов этого ряда. При просмотре чисел, полученных с учетом четырех и пяти членов, видно, что они дают худшие приближения, чем ряд с учетом только трех членов. К тому же ряд с пятью членами дает отрицательные частоты на одном из концов и моду, рав-
СТАНДАРТНЫЕ РАСПРГ.ДЕЛЕНИЯ - B) 225 ную 12 мм, что противоречит исходным данным. Таким образом, представление с помощью рядов типа А не вполне удовлетво- удовлетворительно и не лучше того представления, которое дают кривые Пирсона IV типа. Тетрахорические функции 6.21. Численные значения таких функций, как Нт(х)а(х), можно находить: а) непосредственно, путем вычисления значений полинома и умножения па а(х); б) с помощью таблиц Н(х) иа(х); в) из таблиц так называемых эрмитовых вероятностных функций с отрицательным индексом (British Association Mathe- Mathematical Tables, vol. 1, 1946). Эти последние дают значения функ- - —X2 ций Я/г„(х)^з(—D)n~ie 2 с десятью знаками для л от 0 до 7 и х=_—7@,1N,5. Заметим, что здесь опущен множитель 1/У2я. Аналогичная функция была табулирована К. Пирсоном в форме *,(*)= "'-ffi^- F-44) Она известна под названием тетрахорической функции*) по при- причинам, которые станут ясными из второго тома при рассмотре- рассмотрении оценки коэффициента корреляции в таблицах 2X2. 6.22 До сих пор предполагалось, что плотность обладает схо- сходящимся рядом типа А. Мы не будем здесь вдаваться в дискус- дискуссию о том, при каких условиях это в действительности так. Огра- Ограничимся только тем, что предостережем читателя от ошибок, которые здесь можно сделать, и приведем без доказательства некоторые теоремы. A) Крамер A926). Если f(x) есть функция с непрерывной производной такой, что и если f(x) стремится к нулю при \х\ -*оо, тогда f(x) можно представить в виде ряда F.45) j-o" *) Семизначные таблицы тетрахорических функций тг(х) для г=0AJ1 и х=0@,002L опубликованы в сборнике «Таблицы нормального интеграла ве- вероятностей, нормальной плотности и ее нормированных производных» (под ред. Н. В. Смирнова), М, Изд-во АН СССР, 1960. (Прим. ред.) 15 М. Кендалл, А. Стьюарт
226 ГЛАВА 6 где оо Cj= jf(x)Hj(x)dx. — оо Этот ряд сходится абсолютно и равномерно для —o B) Другая теорема Крамера основана па одном результате Гэлбрапа. Если f(x) имеет ограниченную вариацию на каждом конечном интервале и если 00 1 2 $\f(x)\e*xdx существует, тогда ряд F.45) сходится всюду к сумме^-{/(л:-f-0) + -+-f (x— 0)}. Сходимость равномерна на каждом конечном ин- интервале непрерывности f(x). Крамер также показал, что эта последняя теорема не может быть существенно улучшена за счет уточнения поведения f(x) на бесконечности. В самом деле, рассмотрим функцию / (х) = е~'х%. В силу F.26) и F.24) имеем J e-k*7Hr(x)dx= J e->JfxHT_xdx— (r— 1) Если г нечетно, то интеграл обращается в нуль, так как Нг — нечетная функция. Если г четно, скажем 2г, то интеграл равен Соответствующий коэффициент при Н2г в ряде типа А равен (^¦-lOBrrl). В точке х = 0Я2, = (-1)'Bг)!/B7!) и ряд имеет вид » . ^ /я Bг)! Л _J_y iJ К Л 22Л(/-!J \ 2AJ "
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 227 В силу формулы Стирлипга r-к член этого ряда (скажем и:) эк- эквивалентен утр так что uVr 1 __ _L Следовательно, при Я,<1/4 ряд расходится. 6.23 С точки зрения статистики, однако, более важен вопрос не о том, когда бесконечный ряд дает представление для функ- функции плотности, а когда с помощью конечного числа членов мож- можно получить удовлетворительную аппроксимацию. Ясно, что: а) сумма конечного числа членов таких рядов может при- привести к отрицательным значениям частот, в особенности на «хвостах» распределения (как в примере 6.2); (б) ряды Шарлье в форме F.33) могут вести себя нерегу- нерегулярно в том смысле, что сумма k членов может давать худшее приближение, чем сумма (k— 1) членов. Бартон и Деннис (Barton and Dennis) A952, Biom. 39, 425) показали, что если пренебрегать семиинвариантами выше чет- четвертого порядка, то представления плотностей формулами F.33) и, в особенности, F.42) могут оказаться неунимодальными и даже отрицательными, если только коэффициент асимметрии Pi недостаточно близок к нулю. Например, если iPi|X),25, то F.42) определяет заведомо неунимодальную функцию; при |Pi|>0,5 эта функция наверняка принимает отрицательные зна- значения; ряды F.33) приемлемы в более широкой области, но и они дают заведомо неунимодальные функции при |Pi|X),7. Использование конечных рядов приводит к успеху только в случае распределений с умеренной асимметрией. Для таких рас- распределений, как распределение Пирсона, и некоторых других, которые мы рассмотрим позже, подобная аппроксимация может быть довольно хорошей. Во многих статистических задачах зна- значительный интерес представляет поведение распределения на его хвостах. Надо иметь в виду, что аппроксимация хвостов ко- конечными рядами может оказаться крайне неудовлетворительной. Пример 6.3 В качестве иллюстрации нерегулярного поведения членов ряда типа А рассмотрим аппроксимацию гамма-распределения: А,>0. Его характеристическая функция (см. пример 3.6) выражается 15*
228 формулой и поэтому х форме ГЛАВА 6 1 --X(r — 1)!, а для распределения в нормированной (r-1)! х, = ¦ Из способа образования членов в F.41) видно, что коэффи- коэффициент сг есть сумма членов кг, иг_3и3, ... (хд . • • и V где (?i, • • ¦. Ят) образуют такое разбиение числа г, в котором нет q, меньших чем 3. Ясно, что поскольку %q — величина порядка X ~2 , то наибольший порядок относительно X имеет тот член вида х?1 . • • v.q , который содержит наибольшее число элемен- элементов. Например, если г=9, то наибольший порядок имеет член (З3) = (хзизиз), если г=8, то член D2) = (х4х4), и т. д. Эти рассуждения помогают определить порядок членов ряда типа А относительно X. Так, член . . . . порядок отно- относительно Я Со 0 Сз 1 2 ct —1 с5 -4 Сб —1 Су -4 с8 2 1 2" С|0 —2 с., 21 2 С ростом порядка малости относительно X члены убывают, но нерегулярно, и поэтому здесь не приходится говорить о ма- малости последующих членов по сравнению с предыдущими. Асимп- Асимптотические качества таких рядов, очевидно, требуют более по- подробного изучения в каждом отдельном случае. Ряды типа В 6.24 Шарлье предложил также ряд типа В, основанный на производных пуассоновской частоты е~кХх/х1 по %, или, что го же самое, на первых разностях по х. Этот подход имеет некото- некоторую математическую привлекательность и был использован для аппроксимации распределений, похожих на пуассоновское. Од- Однако большого распространения он не получил. Другая форма (тин С), предложенная Шарлье с целью избежать отрицатель- пых частот, также не выдержала испытаний практикой*). *) Можно также получить разложения в терминах производных от гамма- и бета-распределений. Соответствующими полиномами являются полиномы Лагерра и Якоби, см. Г. Сеге, Ортогональные многочлены, М., Физматгиз,
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 229 Нормализация функций плотности 6.25 Некоторые важные теоретические распределения, возни- возникающие в статистике, оказываются зависимыми от некоторой переменной п таким образом, что когда п стремится к бесконеч- бесконечности, эти распределения стремятся к нормальному. Для боль- больших п нормальная аппроксимация часто оказывается вполне удовлетворительной, но для малых или умеренных п она может быть несостоятельной. Тем не менее и в этом случае мы можем постараться использовать нормальное приближение, рассматри- рассматривая преобразованную варианту I = Ьо + Ьхх + Ь2х* + Ь3х* + . . ., F.46) где Ьп имеет порядок п~''2 или меньший. Выбирая подходящим образом Ьп, мы можем добиться, чтобы распределение | было ближе к нормальному, чем распределение х. Более того, зная распределение | (оно предполагается нормальным) и используя формулу F.46), можно найти само распределение х. Рассмотрим, в самом деле, эджвортово разложение F.38) типа А ехр{—2^D + -^-D»—^D»H-...}PW. F-47) Мы сохранили коэффициенты при D и D2, поскольку аппрокси- аппроксимация может оказаться лучшей, если брать у | среднее т и дис- дисперсию о2, отличающиеся от среднего и дисперсии у х. Предположим теперь, что семиинварианты %Т имеют порядок п\-г (этот случай встречается весьма часто). Выберем m и о- таким образом, чтобы выполнялись условия %! — /й = /,а, /,=О(я-1Д), и2 —о2==/2о2, /2 = O(/i-'). Тогда о2 имеет порядок и2, т. е. /г1, и, следовательно, Тем самым F.47) можно представить как ехр { - hoD +1 l2oW* — 1 l3oW* + ш 1962; Дурбин и Ватсон (Durbin and Watson) A951, Biom. 38, 159, в особен- особенности стр. 172). Уоллес (Wallace) A958, Ann. Math. Statist. 29, 635) изучал вопрос о справедливости общих асимптотических разложений (в частности, по отличным от нормальных плотностям) и проблему о нормализации, обсуждае- обсуждаемую в 6.25—6.26. [О разложениях в терминах производных от пнреонов- ских плотностей см. Большее A963), Теория вероят. и ее примен. 8, 129. (Прим. ред.)]
230 ГЛАВА 6 где /j и /3 порядка O(n~v2), ls порядка О(га~32), U и /4 по- порядка О (га-1), /6 порядка О (п.-2) и т. д. Разлагая оператор по степеням D и сохраняя только члены, содержащие / до порядка О(п~2) включительно, мы получим оператор 1 _ hoD + j 12оЮ2~ 1 . 1 , 6П6 , 1 /<2 2г-Л . 1 ,2 -ir-,4 , 1 /2 бг-,6 , 1 -f -720 6 +-2 ^/aD +/aD +/aD + 1 /?/3 4- ^ /I/4a10D10 - ^ hlWD7 + ^ /2/=a8D8 4- ? ¦!¦ (rfa4D4 4- ^ 41212 | i Ш^Я) + ¦! //oD 4--gy/i/3a D j. F.49) Результат действия этого оператора в применении к Р(х) будет тем же самым, как если в выражении F.49) оператор arDr заменить на функцию (—\)тНт [Х~т ) и результат умно- умножить на Р(х). Функция распределения получается путем интегрирования этого выражения; ее значение в точке т + ах равно (члены рас- расположены в соответствии с возрастанием их порядка малости относительно п) х J a (x) dx 4- a (x) [- (/, 4-1 /3//2)- (~ /?A/, + \ Wi + 3- / — CO +±i /4Я3 + — llH5) - A z?//2 +1 /,/2Я2 4- ± 1\Ш, 4- + -j^ hWb 4- 24- Л/4А/4 -I- -J2Q" ^4 4- 72" ^1^6 + ^rjj ~~ \24 1296 "л ») \24 bl"З'г 8 ^"s-rj 1 / / | U f * f2» Lf ¦ 1 г * г г i 1 г" 48"
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 231 + 144 ^3^7 + Т4Т l'il^1 "Ь ТШ ^1 +" ~Ш + 20 ^5^7 -f- J29g- /i/зЯэ + ^728" ^4#э "+~ 31 104 ^3^11) I' F-50) 6.26 Пусть \— нормальная варианта. Определим \ как функ- функцию от х таким образом, что F.51) где функция распределения F(x) задается рядом F.50) типа А. По формуле Тейлора со G (I) = G \х + (I - х)} = G (х) + 2 ^^- JL о(х), откуда, применяя F.21), находим ^=^-Hr_l(x)a(x), F.52) что в свою очередь равно F.50). Следующий шаг состоит в обращении этого ряда с целью получить разложение (х — |) по степеням х. Пусть х — 1 = ао + а,х + а2х2+ ... F.53) (это есть не что иное, как выражение F.46), слегка преобразо- преобразованное в целях удобства). Мы видим, что если х=0, то | = —а0 их — | имеет порядок п~'/г; следовательно, с точностью до вели- величины порядка п.-2 из F.52) и F.23) при х = 0 получаем что совпадает с выражением в квадратных скобках в F.50), когда х = 0. Отсюда , 1 . 7//2 15 - . 52 л + 10 h~ 36 llh ~1Uhh + 648 /з' Коэффициент Й1 в F.50) мы можем найти, отождествляя коэф- коэффициенты при х и т. д. После некоторых алгебраических преоб- преобразований, записывая члены в убывающем порядке по п,
232 ГЛАВА 6 получаем - 3^ /з Dл-3 — 7л) - ~ /,/2 +1 /?/3 - -^ /2/з Eл2 — 3) — | 1 1 llltx - ± /2/4 Gл3-15л)-1 Л/5(х3-3л)+ -t- т^ /6(л5 — Юл3 +15лг) — ^ /?/зЛ Н-- ^- /2/зC6х2 - 49х) — — ~ /1Eх' — 32л3 + 35л-) + JL /}/3/4 A lx3 — 21л) — — з^о /з/5Gл5 — 48л3 + 51л) — -±д /1^A38л3 — 187л) + + -щ /з/4A11 л5-547л3 + 456л)-~_ ? (948л5 - 3628х3 + 2473х). F.54) Это и есть требуемое представление | в терминах х. По крайней мере с точностью до членов порядка п~2 варианта | будет рас- распределена нормально. Часто оказывается удобным выразить х в терминах 1. Это нетрудно сделать, если заметить, что Продолжая этот процесс, получим + g (s) g'3 (I) + 4 g2 (s) g' A) g" (i) + -^3 E) gw (i) + ¦ • • F.55) Следовательно, используя значение g, задаваемое F.54), после некоторых преобразований мы найдем +3)--1-
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ- B) 233 4 Jt '3A21' - 53*2 + n)-±fe-± hh F3 - 31) + 3^: - 24|3 4- 29|) - -^ /3/5 B*5 - 17|3 4 2 U) 4 4-2^8/^4A4|5— ЮЗ*3 4- 107|)- ^ /зB52|5- 1688|3 4 151 Ц). F.56) Описанный в этом пункте подход принадлежит Корнишу и Фи- Фишеру A937). Эти же авторы (I960, Technometrics 2, 209) нашли разложения более высоких порядков и создали таблицы для об- облегчения их использования. Пример 6.4 Рассмотрим снова распределение из примера 6.3: Мы уже нашли, что Еюсле нормировки это распределение стре- стре2 мится к нормальному и что хг — величина порядка X 2 . Положим в F.48) 1\ и /2 равными нулю, т. е. будем считать, что | и х имеют одинаковые средние и одинаковые дисперсии. Тогда /3 = 2JT1/2, lA = 6l~\ 15 = 24к-312, /6= 120Я.-2. В этом случае формула F.50) примет вид Н3+ Теперь в качестве простой иллюстрации найдем значение функ- функции распределения для х при Я, = 9 и х=12. Среднее значение и дисперсия равны 9, так что отклонение, выраженное в едини- единицах стандартного отклонения, есть A2—9)/]/"9 = 1. Из F.23) с дополнительным равенством для Нп находим, что tf? = 0. Я3 = — 2, Я,---2, Н. = 6, //6=16, tf7 = —20, Я, = 28, //10=1216, //„-
234 ГЛАВА 6 Тогда искомое значение функции распределения приближенно равно сумме | a(x)dx + а A) @,0151635). Значение нормальной функции берем из таблиц и находим 0,841345+ @,2419707) @,0151635) =0,8450 (все четыре десятичных знака совпадают с точными). Аппрокси- Аппроксимация, очевидно, достаточно хорошая даже для такого неболь- небольшого значения, как Х = 9. К этому результату можно прийти с помощью F.54). Пола- Полагая х=1, мы найдем ?=1,015386. Значение функции нормаль- нормального распределения в этой точке | равно 0,8450, что совпадает с предыдущим результатом. Предположим теперь, что мы желаем найти то значение х, для которого F(x)=0,99 при Я=15. Нормальное отклонение |, соответствующее такому значению, может быть найдено из таб- таблиц, и оно оказывается равным 2,326348. Согласно F.56) откуда в единицах стандартного отклонения х = 2,69722. Ненормированное значение х равно 15 + х ]/Т5 = 25,45. Этот результат является правильным с точностью до двух знаков. Итак, примеры показывают, что в некоторых случаях, не- несмотря на то, что бесконечные ряды типа А могут и не сходиться, вполне удовлетворительную аппроксимацию уже можно полу- получить с использованием лишь нескольких первых членов. Не при- приводя доказательств, отметим, что, применяя результаты Кра- Крамера A928), можно показать, что в рассмотренном примере асимптотическое разложение действительно существует. Преобразования Джонсона 6.27 Идея преобразования одной варианты к другой, имею- имеющей более простую плотность распределения, может быть раз- развита дальше. Мы замечаем, что ничто вовсе не обязывает нас ограничиться только полиномиальными преобразованиями типа F.46). Более того, подобного рода преобразования в действи- действительности оказываются не наилучшими. Некоторые авторы изу-
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 235 чали более общий тип преобразований. В дальнейшем изложе- изложении мы будем следовать Джонсону A940а). Рассмотрим преобразование типа F.57) где (х, %, у и б — параметры, подлежащие подбору и g — некото- некоторая подходящая функция. Для практических целей желательно, чтобы функция g сама не зависела от параметров и была бы монотонной; в противном случае это доставляло бы заботы отно- относительно пределов изменения | и х. Без потери общности мы можем предположить, что g — монотонно возрастающая функ- функция. Если мы запишем преобразование в форме F.58) то ц и y будут играть роль параметров сдвига, а А, и б — роль масштабных параметров. Последнюю пару мы можем считать положительной. Будем пытаться выбрать эти параметры и функ- функцию g так, чтобы распределение | было или точно, или, по край- крайней мере, приближенно нормальным. 6.28 Без потери общности можно рассматривать только нор- нормированные величины F.59) Если % нормальна с плотностью вероятности а{%), то для рас- распределения у получим уравнение , "*/ т/г»—""'! г»1' ' "О \^ / J I ~о \с / —и ' \U«UvyJ где g''{y) = dg(y)ldy. Будем исследовать три типа систем: 1) система SL или логарифмически нормальная (логнор- мальная): g{y) = \ogy, 2) система SB: g(у) — \og {у 1(\ — у)}, 3) система 5У: g (у) = argsh у = \og {у + ]А/2 + 1 }• Возможны, конечно, и другие системы. Заметим, что много- многообразие ф'орм кривых, получаемых только из этих трех типов, столь же обширно, как и пирсоновская система кривых. Логнормальное распределение 6.29 Пусть | = Y + 61og#. F.61) Когда | изменяется от —оо до +оо, у изменяется от 0 до оо. Плотность распределения варианты у имеет бесконечно высокий
236 ГЛАВА 6 порядок соприкосновения с осью абсцисс как в нуле, так и в <х>; согласно F.60) где Для каждого положительного г , y>0. и llm yrp (у) — Urn ber— ~ ~У 0. 2я ylub< log у Это распределение унимодально, так как производная внутри интервала 0<t/<oo обращается в нуль только в одной точке, определяемой уравнением 6.30 Моменты величины у, взятые относительно 0, выражают- выражаются формулой г Ч ~ V) р1 2srs-expU v ь схр Поэтому, полагая ю= ехрA/262), р = ехр(—yjb), имеем ЦЛ =r©V ((.)»— 1J((,)Ч2), ц4 — ыу (о2 — 1 у (со8 +- 2оN -f Зы4 — 3) F.62) F.63)
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 237 И г р,:=(ш2— 1) (ш2 -f- 2O F.64) р2 _ 3 = (со2 — 1) (ю6 + Зсо« -+- 6«2 + 6). F.65) Асимметрия всегда положительна и распределение имеет экс- эксцесс, превышающий нормальный. Функция плотности возрастает от нуля до точки максимума и затем более медленно убывает при у -* <х>. 6.31 Значения ц2 и цз определяют со и р и, следовательно, б и у- Поэтому, отправляясь от параметров сдвига и масштаба, мы можем подгонять логнормальное распределение по второму & третьему моментам ^-распределения. Логнормальное распре- распределение не обладает общностью семейства F.57), так как оно зависит фактически от трех, а не от четырех параметров. Вы- Выражение можно представить в виде и, значит, слагаемое у — б log X можно рассматривать как еди- единый параметр. Именно по этой причине при подгонке этого рас- распределения используются только ji2 и цз и не используется щ. Простейшая процедура подгонки, предложенная Уикселлом A917), состоит в следующем: Согласно F.64), находим ?==(а>2—1I/г как положительный корень уравнения *3 + 3* — Ур7 = О. F.66) Тогда параметр сдвига \х определяется из F.63) по формуле F.67) Параметр р определяется значениями цг и t, и, следовательно, Y и б определяются значениями со и р. Юэн A933) дал таблицы для вычисления положительного корня уравнения F.66). За более исчерпывающими сведениями по истории, теории и применениям логнормалыюго расг1ределепия мы отсылаем читателя к книге: J. Aitchison and J. А. С. Brown, The Lognormal Distribution, 1957, Cambridge University Press. Пример 6.5 Для сравнения займемся подгонкой логиормальной кривой к распределению бобов по их длине, рассмотренному в преды- предыдущем примере этой главы. Как мы уже видели, распределение бобов по их длине имеет «скос» влево, поэтому будем подгонять
238 ГЛАВА 6 логнормальную кривую с обращенной областью изменения пе- переменной, т. е. таким образом, чтобы отрицательным значениям g отвечали бы наибольшие значения х. Это, конечно, не влияет на арифметический процесс подгонки, за исключением финаль- финального этапа. Из примера 6.1 мы имеем У$х = — 0,910569. Поскольку мы рассматриваем теперь обращенную область изменения перемен- переменной, то |/"р! следует взять с обратным знаком; тогда уравнение F.66) примет вид Р + 3/4-0,910569 = 0. Положительный корень ^=0,294968. Далее мы имеем (см. при- пример 6.1) A2 = 3,238425. Тогда из второго уравнения F.63) сле- следует, что р = 5,8516. Заметим, между прочим, что из F.65) для варианты ? получим значение р2 = 4,510, в то время как для х р2 = 4,863 (см. пример 6.1). Отсюда видно, что наше преобразо- преобразование, грубо говоря, не меняет значения (Зг- Итак, имеем 1/B62) = log, со = у log,( 1+^ = 0,041718, — v/ft = log, p= 1,7667, то дает 6 = 3,462, y = — 6,116. За единицу измерения, равную ширине интервала группи- группировки, здесь принято -j мм, и, следовательно, согласно данным примера 6.1 варианта х имеет среднее значение 14,5 — к- @,19078) = 14,405. Начало отсчета х в силу F.67) равно — \ 14,405 — /(i2// = 17,455. ' Тем самым кривая «начинается» в точке 17,455 мм. Столбец G) таблицы 6.1 па странице 223 дает соответствую- соответствующие значения частот. Результат подгонки не очень хорош. Бу- Будучи более плохим, чем результат аппроксимации с помощью распределения типа IV, он все же лучше, чем соответствующее приближение с помощью ряда Грама — Шарлье. ..fi,32 Кривые системы SB с g (у) = log {у/ A —у)} задают пре- преобразование ^^. F.68) Заметим, однако, что это преобразование можно получить как лопюрмалыюе ? = y + 6 log (х—ц.) с у—1 — [i/x. Мы можем
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 239 также записать I = Y +¦ 6 log [у 1A -у)}=у + 26 argth Bу — 1). F.69) Эта формула дает возможность совершать численные подсчеты с помощью таблиц обратного гиперболического тангенса. Плот- Плотность распределения для у, скажем р(у), задается формулой р (у) = -JL? - ехр( - - (у + б log—2-У), F.70) ИКЛ /2л уA-у) У{ 2ГТ *l-y)l V Без труда можно показать, что эта кривая имеет с осью абсцисс соприкосновение бесконечного порядка на обоих концах интер- интервала изменения у. 6.33 Кривые плотностей вероятностей F.70) могут быть, од- однако, бимодальны. Дифференцируя F.70), мы найдем уравне- уравнение для модальных значений у: Полагая у— у(у' + 1), получим В координатной плоскости {у', и) прямая линия и = у' — уб пе- пересекает кривую «~62logf j _, j в одной или трех точках. В первом случае кривая унимодальна, во втором — бимодальна. Можно показать (мы опускаем доказательство), что необходи- необходимые и достаточные условия для бимодальности состоят в том, что 6<1/У2\ |y| <6"' /Г^~2б" — 26argth V1—262. F.71) 6.34 Моменты распределения обычно очень трудно опреде- определить в приемлемой для приложений форме. Поэтому для целей подгонки распределений чаще оказывается проще использовать некоторые другие величины, такие как, например, квантили, что и сделано в следующем примере. (Джонсон, 1949а.) Рассмотрим данные, приведенные в таблице 1.11 (облачность в Гринвиче). Условимся считать, что оценки состояния облач- облачности, выраженные в баллах 0, 1, 2, ..., возникли в результате группировки по интервалам [—0,5; 0,5), [0,5; 1,5) и т. д. В таком
240 ГЛАВА 6 случае за начало отсчета можно принять ц = —0,5, а в качестве масштабного параметра выбрать Я,= 11. Оставшиеся два пара- параметра у и б подберем так, чтобы получить точное совпадение для двух крайних класс-интервалов. Так, в первом классе у— 1/11 и \oge{yl\—у} = —2,302. Нормальное отклонение, огвечаю- ¦ — 0,186589, равно —0,8965, и, следовательно, щее частоте согласно 1715 F.69) —0,8965 = у —2,3026 6. Аналогично, для другого конца (/=10/11 и отклонение равно 0,2684. Следовательно, 0,2684-=y +2.3026 б. Таблица 6.2 Частотные кривые, соответствующие различным способам подгонки данных таблицы 1.11 Степень облачности 0 1 2 3 4 5 6 7 8 9 10 Всего Наблю- Наблюденные частоты 3*>0 129 74 68 45 45 55 65 90 148 676 1715 ВA) 320,0 100,9 73,9 63,8 59,8 59,9 63,4 72,0 90,0 135,4 676,0 1715,1 в() 320,0 120,9 72,0 57 5 52,1 51,6 54,9 63,9 85,5 160,7 676,0 1714,9 Тип I Пирсона 321,7 121,5 75,1 61,4 56,0 55,2 57,8 65,5 83,2 139,6 678,0 1715,0 Полученные два уравнения дают 7 = 0,3110, 6 = 0,25166. Соответствующий результат подгонки помещен в таблице 6,2 ь столбце 5ВA) Кривая SBB) — результат подгонки тем же се- мым путем в предположении, что группирование относится к ин- интервалам [0, 0,5), [0,5, 1,5) и т д., и что ц = 0. а Л= 10. Пред- Представлен также результат подгонки с помощью кривой Пирсона I типа Все три кривые имеют тот недостаток, что они не дают достаточно малых частот в окрестности центральной точки ин- интервала изменения варианты,
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 241 Семейство кривых Sv определяется уравнением | = Y + SargsH. F.72) Соответствующие плотности выражаются формулой =г expj—i[y + 6log [y + УуТТ~\Щ. F-73) р(у) = уЬ- oo у - со. Графики их функций имеют высокий порядок соприкосновения с осью абсцисс на концах интервала изменения аргумента. Без труда можно показать, что эти кривые унимодальны и их моды лежат между медианой и нулем. Тем самым эти распределения имеют положительную или отрицательную асимметрию в зави- зависимости от того, отрицательна или положительна величина у. Моменты выражаются формулой и, в частности, M-j = — со sh Q, ^ = -1. (йJ _ 1) (со2 ch 2Q + 1), М-з = — j со2 (со2 — 1 J {со2 (и2 + 2) sh 3Q + 3 sh Q), ц4 = 1 (со2 — 1 J {со4 (со8 + 2со6 + Зсо4 — 3) ch 4Q + 6 F.74) +l)}, J где со = ехрA/2б2), Q = y/b. Соответствующий метод подгонки иллюстрируется следую- следующим примером. Пример 6.7 Рассмотрим еще раз распределение бобов по их длине, кото- которое мы уже изучали в предшествующих примерах. Для распре- распределения наблюденных величин, сгруппированных в класс-интер- класс-интервалы длины 0,5 мм: среднее = 14,405 мм, jij = 0,829, . На = @.9036J, р2 = 4,863, 1fi М. Крнтялл А Г.тьюапт
242 гллвл б Мы можем подставить эти значения в уравнения F.74) и разре- разрешить их относительно со и Q. Этот процесс утомителен, и для его осуществления Джонсоном A949а) была построена номограм- номограмма. По этой номограмме 6 = 2,64, у = 2,38. Используя эти значе- значения и соотношения Щ = М [{х - |1)Д} = 1,1029, D (х/к) = @.5948J, находим ц и X: Х= 1,5192, М|= 14,399+ 1,1029 Х= 16,0745. Восьмой столбец в таблице 6.1 на стр. 223 показывает частоты, выровненные с помощью кривой Sv, соответствующей этим зна- значениям констант. Подгонка выглядит столь же хорошей, как и подгонка с помощью кривых Пирсона IV типа. 6.36 Подгонка математических кривых к наблюденным дан- данным имеет некоторый самостоятельный интерес, выходящий за рамки статистических приложений. Чтобы не перегружать дан- данную главу, мы кратко сформулируем ряд других смежных с рас- рассмотренными нами тем, которые обсуждались в статистической теории. Читателям, интересующимся подробностями, предостав- предоставляется возможность самостоятельно разобраться в рекомендуе- рекомендуемой нами литературе. Распределения Бёрра 6.37 Все три рассмотренные в этой главе системы предна- предназначались для подгонки соответствующих кривых к плотности распределения. Мы видели, что в ряде случаев выполнение сум- суммирования или интегрирования с целью нахождения функции распределения оказывается трудным делом. Естественно возни- возникает вопрос, нельзя ли подобрать кривые сразу к функции рас- распределения, а затем, в случае необходимости, получить плот- плотность распределения относительно простой операцией дифферен- дифференцирования. Такой подход был применен Бёрром A942) и Хатке A949). Обобщая уравнение Пирсона F.1), рассмотрим dF = F(\ — F)g{x)dx, F.75) где?(л:) —некоторая подходящим образом выбранная функция, которая должна быть неотрицательной при 0 ^ F -С 1 ив обла- области изменения х. Решение уравнения F.75) получаем сразу, так как
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 243 что дает F(x) — [1 +ехр {—G(x)}]~1, F.76) где G(x)=\g(t)dt. Например, удобной является форма F{x)=\ Ц^, 0<х<оо, F.77) как, впрочем, и многие другие. 6.38 Метод подгонки, предложенный Бёрром, состоит в при- приравнивании кумулятивных моментов (вычисленных по имею- имеющимся данным) оо а Mj (a) = J (.* — а)> {1 — Z7 (*)} dx — J (х - aI F (х) dx F.78) а -оо теоретическим значениям, выраженным в терминах параметров распределения. В действительности эта операция с кумулятив- кумулятивными моментами совпадает с той операцией, которую Пирсон проводил для обыкновенных моментов. Эта операция довольно утомительна, несмотря на то, что Бёрр и Хатке дали вспомога- вспомогательные таблицы. Упрощенный метод подгонки, основанный (как в примере 6.6) на равенстве подогнанных и наблюденных частот в некоторых класс-интервалах, не нашел достаточно ши- широкого применения. Подгонка с помощью вероятностных моментов 6.39 Подгонка частотных распределений по методу моментов имеет некоторые недостатки особенно тогда, когда область зна- значений варианты не ограничена и результаты наблюдений пред- представляют собой лишь выборку из множества возможных наблю- наблюдений. Резко выделяющиеся элементы и «хвосты» частот ока- оказывают сильное влияние на величину моментов. Возможен дру- другой путь подгонки, состоящий в приравнивании теоретических и эмпирических (т. е. вычисленных по выборке) значений так на- называемых вероятностных моментов оо <°,= J {f{x)]'dx. F.79) 16*
244 глава б Этот метод подробно был разобран Сичелом A949) для од- одного из случаев, когда кривые Пирсона дают не очень хороший результат. Все, что говорилось в 6.12 об эффективности подгон- подгонки кривыми Пирсона здесь также остается в силе. С точки зре- зрения, принятой в настоящей главе, соответствующий метод со- состоит в приравнивании эмпирических и теоретических значений величин F.79). Вероятностные моменты требуют, однако, по- поправок на группирование, и метод не получил достаточно широ- широкого распространения. Моригути (Moriguti, 1952, Ann. Math. Statist. 23, 286) пока- показал, что для каждого непрерывного распределения с диспер- дисперсией а2 Подгонка с помощью усеченных распределений 6.40 Мы кратко отметим тот факт, что некоторые наблюдае- наблюдаемые распределения аппроксимируются такими математическими выражениями, которые распространяются на ненаблюдаемые значения варианты. Возможен, конечно, и другой подход, при котором подгонка соответствующей кривой осуществляется толь- только в том интервале, где расположены результаты наблюдений. Однако подгонка с помощью таких «усеченных» распределений очень трудна, к тому же моменты зависят от крайних точек, зна- значения которых мало что говорят о характере истинного распре- распределения. Систематическое рассмотрение этих вопросов начато совсем недавно и посвящено главным образом изучению отдель- отдельных частных случаев. Двумерные распределения 6.41 Удовлетворительного метода для описания семейств дву- двумерных плотностей, подобного тем методам, которые мы рассмо- рассмотрели в одномерном случае, все еще не найдено. Некоторые уси- усилия в этом направлении были сделаны Преториусом A930) и Джонсоном A949). В рассматриваемом случае можно ввести двумерные ряды Грама — Шарлье (см. упражнения 6.16 и 6.17). Если эта задача вызвала бы интерес, то возможно, что лучший путь ее решения состоял бы в том, чтобы искать такое преобра- преобразование переменных, которое бы делало переменные приблизи- приблизительно независимыми, и тогда задача свелась бы к подгонке подходящих кривых к одномерным распределениям.
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ-B) 245 УПРАЖНЕНИЯ 6.1 Показать, что следующие плотности распределений принадлежат си- системе Пирсона, и начертить их графики для некоторых специальных значений параметров: (а) (нормальное распределение) (б) (распределение II типа) V~lfi) ' ~а (в) (распределение VII типа) ¦f- =^Н . — со < Л1 < со. 6.2 Делая в случае необходимости простые преобразования вариант, по- показать, что каждое из следующих распределений принадлежит системе Пир- Пирсона: dP - Не" "V dx, dF- *A -r»)? ("'dr' (Все эти распределения играют важную роль в выборочной теории.) 6.3 Показать, что пирсоновские распределения d log f __ х dx 1 сосредоточены на всей прямой, если В0+В\Х+В2х2 не имеет действительных корней; на полупрямой — если корни действительные и одного знака; на ко- конечном интервале — если корни действительные и противоположных знаков. 6.4 Показать, что плотность распределения типа VI системы Пирсона мо- может быть записана в виде У='Л[]~^Ч ехр|—vargth Сравнить с распределениями IV типа. 6.5 Показать, что для пирсоповских распределений III типа 2pV-3Ei—6=0 и, следовательно, величина х бесконечна. 6.6 Если корни полинома В0+В\Х + В2Хг равны, то показать, что к—\ и что соответствующие этому случаю уравнения кривых Пирсона (V тип) мо- могут быть записаны в следующем виде:
246 ГЛАВА й 6.7 Показать, что для пирсоновского распределения df _ (а + х) dx f ~ bo+bix+btx2 характеристическая функция подчиняется соотношению *2° Ш + A + Щ + М) Ж + (й где G = i7. Вывести отсюда рекуррентные формулы для моментов. Показать также, что логарифм производящей функции удовлетворяет со- соотношению -ж + {жJ}+A +2h+bfi) ж +(fl+*i + 6°е)=°- Пользуясь этим соотношением, получить рекуррентную формулу для семиин- семиинвариантов: 7 )*»*'-*+'" +(r7 )^ ... +[~i J J<r_ix2-f-xr>ti\ = 0. 6.8 (Ряд Шарлье типа В). Определим Y (Я, х) = e-%\x\x\, Vy (Я, * — 1) = у (Я, дг) — y (Я, д: — 1), Gr (%,х) = | ^ Y (Я, jc) }Д (Я, jc); показать, что Ог (X, *)=.{(-1)'V'y (A. *)}/Y (*,*), Если / может быть представлена в виде то . со л 6.9 Показать, что не существует распределений, представимых в виде сходящегося ряда типа А, которые бы не определялись полностью своими моментами. 6.10 Пусть у есть функция от х, которую мы желаем приближенно пред- представить в виде у = ^ CjHj {х) а (х). Показать, что тогда значения Cj надо
СТАНДАРТНЫЕ РАСПРЕДЕЛЕНИЯ - B) 247 выбирать таким образом, чтобы они минимизировали интеграл си J У — 2 cjHj(X)a(x) 'а(х) dx. 6.11 Показать, что если функция плотности нормированного распреде- распределения разложена в ряд типа А, то коэффициенты при втором и третьем чле- членах зависят соответственно от pi и fb и тем самым представляют собой меры асимметрии и эксцесса. 6.12 Пусть f(x) и g(x) —две дифференцируемые функции плотности с се- семиинвариантами соответственно и и к'. Показать, что тогда формально 6.13 Если у имеет распределение TjTr 1 (А) tM 0<w<co, и % — y -f- б log у, то семиинварианты % определяются по формулам Следовательно, i =6'-^ log Г (A), r>\. Pi A) = у + О (A), p2 E) = 3 + -i + О (А). Сравнить эти значения с соответствующими коэффициентами для у: 4 6 А А (Джонсон, 1949а.1 6.14 Если у имеет распределение rf/?=r(t-?r(v)yVA+y)"T' °<*<ОТ' и \ — у + S log у, то для больших v и т — v Сравнить с Т ' Т —V 6.15 Если R распределена по закону Г(п-2) ^ ( dF- (Джонсон, 1949а.) I)
248 глава 6 то тогда для имеем [Iogr(A)r i (Джонсон, 1949а.) 6.16 Если х и у имеют совместное нормальное распределение f (*• У) = ^—, -ZTW ехР I х 2A -р>)( — оо < х, у < со, hD|= d/rfjf, D2 = d/dy, то логарифм характеристической функции выражения представляет собой выражение V 2 v FTsl" Отсюда получить, что двумерная форма ряда Эджворта может быть пред- представлена или в виде (А) или как ехр{ j ¦•" г : о' j (Кендалл, 1949b.) 6.17 Пользуясь выражением (Л) из предыдущего упражнения, показать, что формально =(-1) -рПГи r + s>3 или r^s^l. Получить эту формулу прямым подсчетом для двумерного нормального рас- распределения с r=s=\, т. е. установить, что df d*f dp дх ду ' (Кендалл, 1949b.) 6.18 Доказать, что кривые системы Sn из 6.35 унимодальные, и показать, что они имеют положительную или отрицательную асимметрию, в зависимо- зависимости от отридательности или положительности у.
СТАНДАРТНЫЕ РАСПРСДЕЛЕНИЯ-B) 249 г6.19 Показать, что следующие функции распределения являются допусти- допустимыми решениями уравнения F.76) (параметры во всех случаях положи- положительны): F (х) = A + е~х)~а, — оо<*<со; / 2 \а F (х) = 1-=^-ardg е~х\ , (Бёрр, 1942.) 6.20 Некоторая варианта имеет пулевое среднее, единичную дисперсию и r-е семиинварианты хг порядка п 2 ,г>2. С помощью разложения Эдж- ворта показать, что с точностью до величин порядка пг1 мода равна — тт ^з и медиана равна я- Щ. Отсюда вывести приближенное соотношение (медиана — мода) _ 2 (среднее — мода) ~ 3,' (Холдейн, 1942.)
ГЛАВА 7 ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 7.1 В предыдущих шести главах рассматривалась теория ста- статистических распределений с дескриптивной точки зрения. Мы видели, что распределения, встречающиеся в практике, обла- обладают некоторыми свойствами регулярности, позволяющими пред- представить их в математической форме, что они могут быть охарак- охарактеризованы некоторыми количествами, такими как моменты и семиинварианты, и что можно установить некоторые общие тео- теоремы о функциях распределения и функциях плотности. Теперь мы начинаем изучение иного характера, именно исследование возможности делать значимые и объективные утверждения от- относительно генеральной совокупности или порождающего ее ме- механизма, когда рассмотрению доступна лишь некоторая выбор- выборка возможных наблюдений. В широком смысле это и представ- представляет собой предмет статистических выводов. 7.2 За исключением тривиальных случаев, невозможно де- делать выводы о генеральной совокупности по выборке с той опре- определенностью, которая присуща дедуктивной логике. Наши утверждения или должны быть несколько неопределенно сфор- сформулированы, или им должны сопутствовать различного рода со- сомнения. В обычной речи используются разные слова и фразы для обозначения отношения к утверждениям, в истинности ко- которых мы сомневаемся. Говорят, что нечто более или менее вероятно, более или менее правдоподобно, что имеется некото- некоторая уверенность в справедливости утверждения или что имеют- имеются шансы против него; мы относимся к некоторому утверждению или как к сомнительному, или открытому для сомнений, или же как к требующему подтверждения. Многие из этих выражений приобрели техническое значение в статистике, которое будет указано в соответствующем месте. В сущности, они выражают различные аспекты одного и того же, а именно — неопределен- неопределенности, с которой мы в силу обстоятельств относимся к отдель- отдельным утверждениям. 7.3 В следующей главе будут обсуждаться некоторые из этих идей в аспекте статистических выводов. Однако, прежде чем приступить к этому, мы должны дать краткое изложение ис-
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 251 числения, которое потребуется для того, чтобы сделать подход последовательным и систематическим, а именно исчисления ве- вероятностей. Некоторые авторы понимают под «теорией вероятностей» все, что касается неопределенных выводов. Другие включают в эту теорию только то, что связано с множеством повторяемых со- событий. При первом подходе «вероятность» рассматривают как неопределяемое понятие, подобно прямой линии в геометрии Ев- Евклида, и строят теорию, исходя из некоторых аксиом. При вто- втором подходе обычно пытаются определить вероятность в терми- терминах относительных частот событий и тем самым свести теорию к чисто математическому изучению абстрактных множеств или предельных свойств последовательностей. Наше собственное мнение (Кендалл, 1949а) состоит в том, что ни один из этих подходов сам по себе не достаточен для статистика, каково бы ни было его значение для математика. Представляется, однако, что каждый должен сделать для себя выбор и что тип предпо- предпочитаемой аксиоматики определяется психологическим складом, опытом и сферами интересов человека. В статистике слишком много спорить об основаниях теории вероятностей означает сви- свидетельствовать свою незрелость. 7.4 В этой главе мы не рассматриваем теорию вероятностей в широком смысле. Она является ветвью научной методологии. Мы будем заниматься исчислением вероятностей, которое пред- представляет собой ветвь математики. Английский язык в известной степени ответствен за смешение этих двух различных вещей. В средние века и в эпоху Возрождения существовало различие между понятием probabilities (вероятность), которое относилось к величине степени уверенности, и понятием доктрина шансов, означающим учение о вычислении числа способов, по которым могут произойти некоторые классы событий. В семнадцатом и восемнадцатом веках доктрина шансов ассимилировалась с ве- вероятностью так, что теперь одно и то же слово употребляется для обозначения и того и другого. Полезное различие утерялось. Мы можем принять, что «шансы» включаются в «вероятность», но мы будем различать теорию вероятностей, которая относится к использованию вероятностей, когда делаются утверждения относительно внешнего мира, и исчисление вероятностей, зани- занимающееся математическим выведением следствий из некоторых аксиом и постулатов. К изложению этого последнего мы теперь и переходим. 7.5 Мы сформулируем основные правила исчисления, не де- делая попыток вывести их из более простых предложений. К сча- счастью, каковы бы ни были разногласия относительно оснований, нет, или почти нет, разногласий относительно самих правил.
252 ГЛАВА 7 Во-первых, предполагается, что вероятность можно измерять по непрерывной шкале так, что всякая вероятность представ- представляется действительным числом. Мы будем говорить просто, что вероятность какого-нибудь предложения есть действительное число х. Это допущение влечет среди прочего сравнимость вся- всяких двух вероятностей, поскольку если вероятности измеряются числами л; и у, то можно сказать, что первая из них больше, равна или меньше, чем вторая, в соответствии с одним из трех возможных соотношений х>у, х=у или х<у. 7.6 Вероятность предложения q при данном р обозначается Р (q\p). Правило 1 состоит в следующем: если р влечет q, то P(q\p) = \, G.1) если р влечет не-<7, то P(q\p) = 0. G.2) Это правило определяет крайние точки шкалы вероятностей. Уверенность, что предложение неверно, представляется нулем, уверенность, что оно верно, — единицей. Всякая вероятность заключена между 0 и 1. 7.7 Правило 2. Если вероятности п взаимно исключающих предложений qit ... , qn при данном р суть Рь ..., Рп, то ве- вероятность того, что при данном р хотя бы одно из них верно, равна Pi+P-i+l ... +Рп. Это правило обычно известно как «теорема сложения ве- вероятностей». На языке учебников оно звучит так: вероятнбеть того, что произойдет одно из взаимно исключающих событий, равна сумме вероятностей каждого из этих событий в отдель- отдельности. 7.8 Из правила 2 следует, что если предложения <7ь ..., qn взаимно исключающие и одинаково вероятные при данном р и если Q — подмножество, содержащее m из них, причем одно из q обязательно верно, то вероятность того, что верное предложе- предложение принадлежит подмножеству Q, равна P{Q\p) = mln. G.3) Это свойство является отправной точкой частотной теории ве- вероятностей. Обычно оно формулируется в такой форме: если среди п взаимно исключающих и одинаково вероятных событий, одно из которых обязательно происходит, имеется m событий, наделенных некоторым характеристическим признаком А, то ве- вероятность появления события с признаком А равна mjn. Ис- Использование указанного свойства в качестве определения ве- вероятности некорректно, поскольку такое определение содержит в себе логический круг: в нем используется понятие «одинаково вероятные»,
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 253 7.9 Правило 3. Вероятность двух предложений q и г при дан- данном р равна произведению вероятности q при данном р на ве- вероятность г при данных q и р. Или символически P(qr\p) = P(q\p)P(r\qp). G.4) Так как q и г здесь симметричны, то имеем также P(qr\p) = P(r\p)P(q\rp). G.5) С частотной точки зрения это правило почти очевидно. Если в множестве из п элементов (а) обладают признаком Л, (Ь) — признаком (В) и (ab) —обоими признаками, то правило утвер- утверждает, что (ab) ^ (a) (ab) = (b) (ab) п п (а) п (Ь) ' т. е. сводится к простому арифметическому факту. Применяя последовательно правило 3, получаем более об- общую формулу: Р (<7i<72 • • • 4k IP) = Р (<7i IР) Р ЫЧхР) Р (<7з I ЧтЯ\Р) ¦ ¦ ¦ ¦¦¦ Р(<7*1<7*-1 ••• Я\Р)- G-6) Если, в частности, P{qr\p) = P{q\p)P{r\p), G.7) то в силу G.4) P{r\p) = P{r\qp). G.8) В этом случае говорят, что q не связано с г при данном р. Зна- Знание q не влияет на вероятность г при данном р. 7.10 Приведенные три правила и различные их усовершен- усовершенствования образуют базис исчисления вероятностей. Все даль- дальнейшее представляет собой чистую математику. Мы предпола- предполагаем, что читатель имеет некоторое знакомство с элементами излагаемого предмета, и дадим лишь несколько примеров, для того чтобы подчеркнуть важность указанных правил. Пример 7.1. Важность точного описания множества элементарных ходов Подбрасываются три монеты. Какова вероятность того, что они падают все на герб или все на решетку? Предположим, что вероятность выпадания герба на каждой монете равна '/г и что результаты бросаний монет независимы. Тогда возможны восемь исходов: ГГГ, ГГР, ГРГ, ГРР, РГГ, РГР, РРГ, РРР, и все они равновероятны. В двух из них
254 ГЛАВА 7 все монеты падают одинаково — на герб или на решетку, так что искомая вероятность равна 'Д- Рассмотрим теперь такое рассуждение: имеются две возмож- возможности: либо результаты бросаний всех монет одинаковы, либо они одинаковы только для двух монет. Одна из этих двух воз- возможностей доставляет нужное нам событие, и вероятность его равна поэтому '/г. Рассмотрим еще такое рассуждение: имеются четыре воз- возможности: выпадают три герба, два герба и одна решетка, две решетки и один герб, три решетки. Две из них доставляют нуж- нужное нам событие, и вероятность его равна поэтому х\2. Рассмотрим, наконец, такое рассуждение: из трех монет две должны выпасть одинаково, а третья выпадает так же, как эти две, или иначе. Опять имеются две возможности и искомая ве- вероятность равна '/г- Все три последних рассуждения ошибочны. В них неравно- вероятным событиям приписывается равновероятность и затем применяется правило 2, которое здесь, конечно, незаконно. На- Например, в первом из этих рассуждений правильно говорится, что имеются две возможности, однако они неравповероятиы при на- наших допущениях. Читатель может поинтересоваться и посмо- посмотреть, почему это так, а также проверить, что остальные два рассуждения неверпы по той же самой причине. Пример 7.2 Какова вероятность того, что при игре в бридж игрок имеет на руке после раздачи по меньшей мере два туза? Так постав- поставленный вопрос не вполне точен, и в действительности имеются четыре вероятности, каждая из которых может представлять ин- интерес: (а) Вероятность того, что некоторый определенный игрок (скажем, Юг) имеет не меньше двух тузов, вне зависимости от расклада карт на других руках. (б) Вероятность того, что какой-нибудь один игрок из че- четырех имеет не меньше двух тузов, вне зависимости от раскла- расклада карт на других руках. (в) Вероятность того, что только Юг среди всех игроков имеет не меньше двух тузов. (г) Вероятность того, что в точности один игрок из четырех имеет не меньше двух тузов. Вычислим все эти вероятности по очереди. (а) У Юга может быть 0, 1, 2, 3 или 4 туза. Колоду из 52 карт можно считать состоящей из двух частей — четырех тузов и остальных 48 карт. Вероятность того, что к Югу не приходит
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 255 ни одного туза, равна • 4 \ / 48 52 ^ 13, а вероятность прийти одному тузу — '41 ) Ж) .13, Отсюда находим искомую вероятность 1 / п -L п \ 1 38 • 37 • 11 Ппг7 п 1 (у. А,= 1 — (Po + Pi)— 1 - 49-25-17 — 1)>-йЛ (/Ли> (б) Представляется соблазнительным думать, что вторая из рассматриваемых вероятностей равна четыре раза взятой пер- первой, однако попадания по меньшей мере двух тузов различным игрокам не исключают друг друга. Что это неверно, ясно также из неравенства 4ра>\. В действительности искомая вероятность рь равна вероятности того, что тузы не распределяются каждому игроку по одному: /48W36W24W12\ п -1 -II W2 Л 12 Л 12 Л 12 j . рь— ч- / 52 \ / 39 W 26 W 13 ll3Jll3Jll3Jil3 множитель 4! появляется здесь из-за возможных распределений четырех тузов по игрокам. Производя вычисления, находим 133 Рь—1~ 49-25-17 — и>бУ0- С-П) (в) Чтобы получить третью вероятность, нужно из ра вы- вычесть вероятности того, что Юг и Север, Юг и Восток, Юг и За- Запад имеют каждый по два туза. Эти три события взаимно ис- исключают друг друга, и вероятность каждого из них равна I 48 W 37 W 26 W 13 4 \ In Л п Л13 ) *. 2 ^ri 2 ) /52W39W26W13 13 М13 М13 М13 множитель 2 I появляется здесь из-за возможных различных распределений четырех тузов в две пары. Искомая вероятность равна З 090 G.12)
256 ГЛАВА 7 (г) Четвертая пероятность есть сумма вероятностей четырех взаимно исключающих событий, каждая из которых равна рс. Следовательно, pd=:4/7c = 0,759. G.13) Пример 7.3. Индуктивные методы В первых двух примерах числа интересующих нас неходов подсчитывались непосредственно. В широком классе случаев этот непосредственный подсчет затруднителен. В такой ситуации часто может быть применен индуктивный или полуиндуктивный метод решения. Мы проиллюстрируем один такой метод на до- довольно старой задаче. Имеется п писем, каждому из которых соответствует опреде- определенный конверт. Письма распределены по конвертам случайным образом. Какова вероятность того, что ни одно из писем не вло- вложено в соответствующий ему конверт? Здесь под условием, что письма распределены «случайным образом», следует понимать равновероятность всех возможных распределений писем по конвертам. В силу правила 2 вопрос тогда сводится к следующей чисто алгебраической задаче: ка- какую долго от общего числа случаев составляют те случаи, в ко- которых ни одно письмо не лежит в соответствующем ему кон- конверте? Пусть ип — число всех возможных случаев, в которых все письма распределены по конвертам неправильно. Рассмотрим какое-либо определенное письмо. Если это письмо лежит в кон- конверте для другого письма, а это другое письмо лежит в конвер- конверте для исходного, что может случиться п — 1 различными способами, то число возможных неверных распределений осталь- остальных п — 2 писем равно и„_2. А если выделенное письмо лежит не в своем конверте, что может произойти п — 1 различными пу- путями, и письмо от конверта, в котором лежит выделенное пись- письмо, находится не в конверте от выделенного письма, то осталь- остальные письма могут неверно распределиться un-i способами. Сле- Следовательно, имеет место уравнение «я = (« — 1) («я-1 Ч- «п-2>- Переписывая его в виде и„ — пап_х — — [ип_х — (я — 1) и„_2} и полагая находим
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 257 т. е. Но «1=0 и И2=1, поэтому и, следовательно, Так как общее число различных возможных распределений пи- писем по конвертам есть п\, то искомая вероятность равна т. е. равна сумме первых /г+1 членов разложения е~х (первые два члена сокращаются и в G.14) не выписаны). Вероятность на континууме 7.11 До сих пор мы рассматривали только вероятности собы- событий конечного или дискретного характера. Наряду с этим воз- возникает вопрос, можно ли придать какой-нибудь смысл вероят- вероятностям на континууме? Например, если в круг вписан квадрат и внутри круга случайно выбирается точка, то какова вероят- вероятность этой точке оказаться внутри квадрата? Если отрезок раз- разбивается двумя точками на три отрезка, то какова вероятность того, что эти отрезки могут быть сторонами треугольника? Ка- Какова вероятность того, что л:<л:о, где х — положительное дей- действительное число, меньшее уо? И тому подобное. Все вероятности этого типа должны рассматриваться как пределы. Рассмотрим первый пример — круг с вписанным в него квадратом. Представим себе, что вся фигура разбита пря- прямоугольной сеткой на маленькие клетки площади е. Если предположить, что вероятность точке оказаться в клетке оди- одинакова для всех клеток, то вероятность попадания точки в квад- квадрат равна отношению числа клеток, лежащих в квадрате, к чис- числу клеток, лежащих в круге; клетки, задевающие окружность или квадрат, при этом не учитываются, поскольку их значимость исчезает при е->-0. Искомую вероятность можно сделать сколь угодно близкой к отношению площади квадрата к площади ок- кружности, если е взять достаточно малым. Мы можем сказать, что искомая вероятность есть это отношение, т, е. равна ирра- иррациональному числу 2/я.
258 глава т Та же предельная вероятность получилась бы, если бы было взято иное разбиение, аппроксимирующее площади. Важно от- отметить, однако, что когда речь идет о вероятностях па конти- континууме, необходимо точно указывать предельный процесс, с по- помощью которого они получаются. В противном случае вероят- вероятности на континууме не имеют смысла. Следующий пример иллюстрирует это обстоятельство. Пример 7.4 Рассмотрим отрезок ОА, и пусть В — точка, делящая его пополам. Какова вероятность того, что случайно выбранная из ОА точка принадлежит ОВ? Предположим сначала, что отрезок ОА разделен на п оди- одинаковых отрезков длины ОА/п каждый. Если интерпретировать случайный выбор точки как случайный выбор одного из этих отрезков, то искомая вероятность в пределе при «->оо будет равна, очевидно, '/2, поскольку в отрезок ОВ попадает половина отрезков разбиения. Восставим теперь перпендикуляр ОР к отрезку ОА и возь- возьмем па нем точку Р так, чтобы ОР = ОА. Представим себе ну- чок, образованный и+1 лучами, исходящими из точки Р и пере- пересекающими ОА, включающий лучи, идущие через О и Л; пред- предположим, что лучи эти делят угол ОРА ( = л/4) на равные углы ( = я/4и). Лучи высекают на ОА отрезки, и если равные углы считать равновероятными, то этим отрезкам тоже можно припи- приписать равные вероятности, так как они противолежат равным углам. Если принять это соглашение, то при п ->- оо вероятность точке принадлежать любому отрезку, лежащему в ОА, пропор- пропорциональна, очевидно, соответствующему ему углу в точке Р. На- Например, вероятность того, что точка принадлежит отрезку ОР, будет равна (arctg-g-)/^ я). Мы получили теперь иной ответ в сравнении с тем случаем, когда всем малым отрезкам из ОА приписывалась одинаковая вероятность. В этом нет никакого противоречия: эти два ответа различны, поскольку для их получения использовались различ- различные предельные процессы. Нетрудно видеть, что, двигая точку Р по перпендикуляру к ОА в точке О и рассматривая, как и выше, пучок лучей, вероятность точке находиться в отрезке ОВ можно сделать равной любому числу между '/г и 1. Следова- Следовательно, совершенно ясно, что понятие вероятности на континууме существенно связано с предельным процессом, посредством ко- которого эти вероятности определяются, исходя из конечного раз- разбиения на равновероятные интервалы.
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 259 Понятие случайной величины 7.12 Пусть имеется дискретная конечная генеральная сово- совокупность, элементы которой распределены в соответствии с ва- вариантой х. Если из этой генеральной совокупности случайным образом выбирается элемент, то вероятность того, что соответ- соответствующее ему значение варианты есть х0, равна f(x0) — значе- значению функции плотности в х0, поскольку f(x0) есть доля элемен- элементов, обладающих этим свойством. Далее, вероятность того, что значение варианты, соответствующей выбранному элементу, не превосходит х0, равна F(x0) —значению в х0 функции распреде- распределения варианты х\ это непосредственно следует из правила 2 и определения функции распределения. Указанный факт говорит о существенной связи между ве- вероятностями и распределениями. Значения функции распреде- распределения дают вероятности того, что значение варианты на случай- случайно выбранном элементе генеральной совокупности равно или меньше некоторого фиксированного числа. Мы должны еще, однако, рассмотреть вопрос о том, остается ли это утверждение верным для бесконечных и непрерывных генеральных совокуп- совокупностей. Предположим сначала, что генеральная совокупность беско- бесконечна и дискретна. В этом случае мы не можем случайно вы- выбрать элемент, однако можно представить себе выбор из конеч- конечной генеральной совокупности, приближающейся к рассматри- рассматриваемой бесконечной. В этой конечной генеральной совокупности доля элементов, па которых варианта не превосходит х0, равна F(x0); учитывая должным образом природу предельного про- процесса, можно сказать, что и в случае бесконечной генеральной совокупности варианта не превосходит х0 с вероятностью Аналогично для непрерывного распределения. В главе 1 не- непрерывное распределение рассматривалось как предельное для дискретного распределения, задаваемого формулой AF=f(x)Ax. Если из соответствующей генеральной совокупности случайно выбирается элемент, то вероятность того, что он принадлежит ин- интервалу Ах, равна f(x)Ax, поскольку полная частота равна еди- единице и f(x)Ax есть доля элементов, принадлежащих интер- интервалу Ах. Переходя к пределу, мы можем сказать, что вероят- вероятность полученному значению не превзойти х0 при случайном вы- выборе элемента из непрерывной генеральной совокупности равна 17*
260 ГЛАВА 7 X, \dF — F (х0). Следует, однако, помнить, что характер предель- —оо ного перехода здесь должен быть точно установленным. Всюду ниже под случайным выбором из непрерывной генеральной совокупности с распределением dF=f(x)dx бу- будет пониматься «предельный» случайный выбор при убыва- убывании Ах. 7.13 Выше мы говорили о выборе элементов «случайным» об- образом. В математической теории вероятностей случайность обыч- обычно определяется в терминах самой вероятности. Говорят, что элемент генеральной совокупности выбран случайно, если он выбран случайным методом; случайным же метод называется тогда, когда посредством него любой элемент генеральной сово- совокупности выбирается равновероятно. Понятие случайности чрез- чрезвычайно важно в выборочной теории, и мы рассмотрим его довольно подробно в главе 9. В настоящий момент ограничимся замечанием, что, когда мы говорим о случайном выборе, мы в действительности имеем в виду метод выбора, наделяющий не- некоторые события одинаковыми вероятностями, и, следова- следовательно, позволяющий применять теорию вероятностей a priori. Справедливость этого устанавливается, в конечном счете, эмпи- эмпирически. На практике обнаружено, что существуют выборочные процессы, посредством которых элементы из генеральной сово- совокупности извлекаются таким образом, что составляющие собы- события могут рассматриваться как равновероятные; в выборочной теории часто встречаются выборки, порожденные такими про- процессами. 7.14 Величины, принимающие разные значения с различными вероятностями, привели к отдельному понятию — понятию слу- случайной величины. В обычном анализе оно не появляется. Го- Говоря о «переменной величине», имеют в виду числа, которые могут быть любыми из некоторого интервала; при этом не ставятся вопросы, следует ли одно из них рассматривать более часто, чем другие, и встречаются ли некоторые из них более часто в практике. Случайную величину, напротив, следует рас- рассматривать как определяемую функцией распределения: слу- случайная величина может принимать любое значение из за- заданного интервала, но значения эти выделяются функцией рас- распределения. 7.15 Рассмотрим, что означает сложение случайных величин. •В обычном анализе по заданным двум переменным | и ц можно определить третью переменную
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 261 сложение означает просто, что если % = х и у\~у, то ?, — х+у. Можно ли придать какой-либо разумный смысл ?» когда i и т] —• случайные величины? Если функция совместного распределения величин % и г\ есть Fit 2, то частота одновременного выполнения неравенств g-^x, t]^-y равна Fi:z(x, у). Рассмотрим какое-нибудь значе- значение z. Мы можем определить по FiiZ частоту события x+y^.z. Она равна интегралу dFlt2(x, у), взятому по области, в которой x+y-*Cz. Определяемая этим интегралом функция от z является функ- функцией распределения, поскольку она не убывает, равна нулю при 2=—оо и 1 при 2= + оо. Суммой % случайных величин % и ц назовем случайную величину, задаваемую этой функцией рас- распределения. 7.16 Более общим образом, пусть имеются случайные вели- величины 1и \г, ..., In и пусть хи х2, ..., хп — их значения. С по- помощью уравнения z=z(xu x2, ..., хп) G.15) можно определить случайную величину ?, принимающую значе- значения г: величина ? задается функцией распределения, которая в (произвольной) точке z равна интегралу от dF(xu x2, ..., х„), взятому по множеству значений хи х2, ..., хп, удовлетворяю- удовлетворяющему неравенству z(хих2,... ,хп)<2. В частности, сумму случайных величин можно определить с помощью уравнения z=Xi+x2+ ... +хп. G.16) Мы можем даже написать S = Si + b+...+En. G.17) Запись G.17) оправдывается тем фактом, что для таких выра- выражений верны алгебраические законы коммутативности и ассо- ассоциативности; это нетрудно понять, убедившись, что 7.17 Обозначение G.17) таит в себе известную опасность. Не- Некоторые авторы предпочитают избегать использования слова «сумма» и говорить о свертке случайных величин. Это выраже- выражение, возможно, предпочтительней, однако оно не стало общепри- общепринятым среди английских авторов. Мы не придали пока никакого смысла выражению типа —т). Наиболее естественное определение, которое мы и примем,
262 ГЛАВА 7 состоит в том, что в качестве —ц берется случайная величина, значения которой равны значениям величины ц с обратным зна- знаком. Принятое обозначение имеет свой недостаток: исходя из него, можно подумать, что если случайная величина % есть сумма двух независимых случайных величии §, л\ и из g вычи- вычитается |, то в результате получится т|. Это неверно. В примере 7.5 мы увидим, что |+тI может иметь одинаковое распределе- распределение с 1 + гJ (где у\гфу\1), даже если случайные величины |, т\и г|2 независимы. 7.18 Отметим один весьма простой, но значительный резуль- результат о характеристических функциях независимых случайных величин. Если имеются п таких величин с распределениями со- соответственно dFi, ..., dFn, то элемент частоты их суммы ? = gi + |2+ • • • +in равен интегралу от dFi. ¦ -dFn по элементу объема, заключенному между z и z+dz. Следовательно, харак- характеристическая функция суммы ?, будучи интегралом от еш по области изменения г, равна J ... \eludF, ...dFn = — СО —00 00 СО ОО = J *"*• аРг J *"*« dF2 ... J e"x» dFn = Ф]ф2 ... Фл. G.18) — ОО —ОО —00 Таким образом, х. ф. суммы независимых случайных величии равна произведению х. ф. и производящая функция семиинва- семиинвариантов суммы равна сумме производящих функций семиин- семиинвариантов. В нижеследующем примере 7.5 устанавливается, что две независимые случайные величины | и ri могут иметь характери- характеристические функции, совпадающие в некотором интервале, содер- содержащем нуль. Если х. ф. | обращается в нуль вне этого интер- интервала, то из G.18) следует, что сумма двух независимых слу- случайных величин, имеющих такое же распределение, как |, распределена одинаково с Пример 7.5 Интегрируя обе части равенства ос J sin a* , 1 . n —-dx = ^n, a>0, б
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 263 по а, имеем J показать, дважды и 1H —sin (от— 1N), Теперь легко показать, дважды используя тождества вида что —1/| при |/|<1, О при |/| > 1. Следовательно распределение, имеет х. ф. J с 1 1 — COS X , - - dF = г dx, — со <: х < со, f \ — \t\, |/I<1, поскольку ± I 1-™SX s\ntxdx = 0 jt J X — 00 в силу нечетности функции sin tx. С другой стороны, пользуясь рядом Фурье [1 О<0<я, , — л<9<0, G.20) 1-И. 1<1<1. G.21) Из G.19) и G.21) следует, что q>i(/)<P2@ =<Pi(O<Pi(O Д-™ всех /. Таким образом, сумма первой и второй случайных вели- величин распределена одинаково с суммой двух случайных величин, одинаково распределенных с первой. Поэтому, вообще говоря, неверно, что если i + rii = s + Ti2, to tji = t]2- можно показать, что дискретное распределение f(x) = — , jc=B/ra + l).% /я = 0 ±1, ± 2, имеет периодическую с периодом 2 х. ф., равную
264 ГЛАВА 7 Пример 7.6 Утверждение, обратное к предложению 7.18, неверно. Если 6 и г] независимы, то х. ф. их совместного распределения равна произведению соответствующих им х. ф. функций и обратно, однако из равенства х. ф. их суммы произведению х. ф. каждой из них в отдельности не следует их независимость. Рассмотрим распределение G.22) Очевидно, существует такое, возможно малое, е, для которого заключенный в скобки член в правой части G.22) неотрицателен при всех допустимых х п у. Поэтому G.22) действительно мо- может представлять функцию плотности распределения. Далее, если поменять местами х и у в члене, содержащем е, то он изме- изменит знак; следовательно, интеграл от него по области х^>0, j/>0 равен нулю. Полная частота равна поэтому интегралу от первого члена, т. е. 1 22 Гf-g-J f /Bя) = 1. X. ф. х и у получается интегрированием exp (itiX + itzy) по G.22). Подсчет показывает, что '»)- Т -+A_г7])зA_г72K- G-23) 22 Для нахождения х. ф. х полагаем в G.23) /2 = 0. Получим <Pi (А) = A-2*7,)". Аналогично для х. ф. у, положив ^ = 0, получим Полагая ti = t%, находим, что х. ф. х+у равна A—2it)~\ т. е. совпадает с произведением*) q>i{t) и <рг(О- Соотношение между *) Можно указать и более простой пример. Пусть | подчиняется распре- распределению Коши dF=[it(l+ х2)]-1 (\х\<со). В таком случае х. ф. % есть ехр(—И) и, значит, х. ф. ! + g=2j; есть ехр(—2\t\). С другой стороны, если | и т) не- независимы и подчиняются указанному выше распределению Коши, то х. ф, суммы |+Tj также равна ехр(—2\t\), {Прим. ред.)
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 265 характеристическими функциями оказывается таким же, как и в случае е=0. Это происходит потому, что член в G.23), содер- содержащий е, имеет множители t\, fa и D — fa). 7.19 Несмотря на некоторую опасность терминологического характера, в дальнейшем мы часто не будем делать различия между «случайной величиной» и «значениями случайной вели- величины». Под «величиной» следует понимать обычную (неслучай- (неслучайную) величину, если только из контекста не следует, что имеется в виду случайная величина. В тех случаях, когда возможно не- недоразумение, мы будем указывать, что речь идет о случайной величине. Чтобы избежать различения между случайными вели- величинами и их значениями (соответственно % и х), для обозначе- обозначения случайных величии часто будут использоваться латинские буквы, а сама случайная величина там, где позволяет контекст, будет именоваться вариантой. Выборочные распределения 7.20 Мы уже отмечали, что если из генеральной совокуп- совокупности случайным образом выбирается элемент, то вероятность того, что соответствующее значение варианты не превосходит*, равна значению в точке х функции распределения F(x). Подоб- Подобным образом, если выбирается элемент из многомерной гене- генеральной совокупности, то вероятность того, что соответствую- соответствующее ему значение первой варианты не превосходит хи второй — не превосходит хг, ..., п-и не превосходит хп, равна значению в точке {xi,x2, ..., хп) функции распределения G(xux2, ..., хп). Далее, если варианты независимы и r-я варианта имеет функ- функцию распределения FT(xT), то указанная вероятность равна Fiix^FtiXi) ... FT(xT). Предположим теперь, что имеется выборочный процесс (ниже называемый нами выбором), который, будучи применен к (одномерной) генеральной совокупности, извлекает группу из п элементов. Если этот процесс повторяется, то он порождает мно- многомерное распределение: каждый выбор доставляет п значений Х\, Хг, ..., хп. Природа этого многомерного распределения зави- зависит от выборочного процесса и от генеральной совокупности. Его функция распределения G в точке (хи ..., хп) равна вероят- вероятности того, что соответствующее случайному выбору значение первой величины не превосходит Х\, второй — х^ и т. д. Значе- Значения иксов можно поставить в соответствие п случайным вели- величинам 1ь 1г, • • •, in- Особенно важным типом выборочного процесса для статисти- статистической теории является тот, при котором функция распределе-
266 ГЛАВА 7 иия G(xi, х2, ..., хп) распадается в произведение Fi(x\)Fzfa) ... Fn(xn)¦ Выбор в этом случае называется простым. Распре- Распределения значений хи х2, ..., хп независимы друг от друга, и можно сказать, что выбор всякого элемента не зависит от вы- выбора любого другого. Кроме того, если выбор случаен, то все функции Fr{x) равны одной и той же функции F(x) —функции распределения, соответствующей генеральной совокупности, из которой извлекается выборка. Таким образом, распределение значений, получаемых в выборках объема п применением прос- простого случайного метода, задается выражением dG(xu х2, .... xn) = dF{xx)dF(x2) ... dF{xn) = = f (*i) f (X2) ¦¦¦ f (¦*») dxi dx2 ... dxn, G.24) и вероятность того, что первое значение в такой выборке не превосходит Xi и т. д., равна F(Xi)F(x2) ...F(xn). Заметим еще, что поскольку иксы входят в G.24) симметрично, их порядок несуществен. 7.21 Пусть имеется выборка объема п и хи х2, ..., хп — соот- соответствующие варианты. Как в G.15), можно рассмотреть рас- распределение некоторой функции от них z = z(xu x2, ..., хп), на- например их среднее или дисперсию. Распределение соответствую- соответствующей случайной величины Z, называют выборочным распределе- распределением X, (или z)- Вероятность того, что значение ?, получаемое при случайном выборе, не превосходит г, равна значению функции распределения для z=z(xi, x2, ..., хп) в z. Для простого слу- случайного выбора она получается интегрированием G.24) по мно- множеству тех иксов, для которых z(xu х2, ..., xn)*Cz. Пример 7.7 Пусть осуществляется простой случайный выбор объема два из нормальной генеральной совокупности dF = -4= е-*1/20', — со < х < оо. в у 2я В силу G.24) распределение выбираемых значений, скажем хг и хг, задается формулой dF = W ехР И (*i + xD/2°2} dxi dx2- Найдем интеграл от G.25) по множеству -~ (х^ -\-х2)^. z. Этот интеграл, как функция от z, есть функция распределения сред- среднего выборки. Положим 1 j
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 267 Распределение переходит при этом в dF — -^ ехр {— (и2 + г>2)/а2) da dv, G.26) так что и и v независимы. Проинтегрировав по v, находим рас- распределение для и: dF = -4= е х р (— и2/а2) da. G.27) Таким образом, вероятность того, что у (хх -f-х2) не превосхо- превосходит z, равна г f e~*'«du. G.28) Иначе говоря, « распределено нормально с дисперсией -g о2. 7.22 Оставшаяся часть этой главы посвящается некоторым важным для статистики теоремам о пределах сумм п независи- независимых случайных величин при возрастании п. Установим прежде всего простой, но эффективный результат, принадлежащий Че- бышеву, о частном случае которого говорилось в 3.35. Пусть х — случайная величина и g(x)—неотрицательная функция от х. Тогда для любого й>0 P{g(x)>k}<M{g(x))lk. В самом деле, обозначив буквой R множество, на котором ()>? имеем М {«¦(*)}= / g()> j g()> j P{g() -co R Я G.29) В частности, при g(x) ={x— M{x)}2 G.29) сводится к неравен- неравенству Бьенэме— Чебышева C.95). Закон больших чисел 7.23 Пусть |i, |2, ••• — последовательность независимых одинаково распределенных случайных величин с математиче- математическим ожиданием ц. Обозначим |п среднее первых п из них: п г _ 1 V, 6л~ п 2и^ш п 1-1
268 ГЛАВА 7 При всех п математическое ожидание |и равно \i. Закон боль* ших чисел утверждает, грубо говоря, что при возрастании п ве- величины gn располагаются все ближе и ближе к ц. Более точно, для любого заданного е>0 llm. Р {|fe — |* | > е} =0. G.30) л->со Если предположить существование у |t дисперсии, равной, ска- скажем, а2, то доказать G.30) очень просто. В этом случае диспер- дисперсия fn существует и равна o2jn, так что в силу неравенства Бьенэме — Чебышева Для заданного е стоящая слева вероятность будет, следова- следовательно, сколь угодно малой, если п достаточно велико. 7.24 Теорема остается верной и без условия существования а2. Приве- Приведенное выше доказательство легко перенести на тот случай, когда существует М(|?|а) ПРИ а>1; если известно только существование М(|||), то требуется иное доказательство (см. упражнение 7.20). Имеются также обобщения на случай разнораспределенных слагаемых. Усиленный закон больших чисел 7.25 Закон больших чисел утверждает наличие некоторого предельного свойства у сумм случайных величин. Так называемый «усиленный» закон л больших чисел относится к поведению последовательности 2д зв ^ ?/ 1-1 при всех значениях п\ он утверждает как бы нечто о свойствах 2„ по пути к пределу. В самом деле, он состоит в том, что для любых положительных е и б существует N такое, что, каково бы ни было М > 0, Р{ max lli-Hl>el<*- G-31) J Закон больших чисел утверждает, что |gn—ц|, в конце концов, становится малым, но не утверждает малость каждого значения. Возможно, что при некоторых п значения велики, однако такие случаи не могут встречаться часто. Согласно усиленному закону больших чисел вероятность такого собы- события чрезвычайно мала. В случае одинаково распределенных величин усилен- усиленный закон имеет место при единственном неограничительном условии суще- существования |i; для неодинаково распределенных величин нужны еще другие дополнительные условия. Центральная предельная теорема 7.26 В том случае, когда существуют дисперсии, можно до- доказать намного более точную теорему. Именно, оказывается, что распределения средних §„ становятся почти нормальными с математическим ожиданием ц и дисперсией а2/я. Более точно,
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 269 для всех /i, t2 limp(A<%^-<^)= f a(t)dt, G.32) где a(t)—функция плотности нормального распределения. Теорема эта верна и для разнораспределеиных |; ц в этом слу- случае заменяется на среднее из математических ожиданий сла- слагаемых, a oJYn—на стандартное отклонение |п. Предположим, что все | имеют конечный абсолютный момент /я \ / третьего порядка и что, кроме того, Bузг)/ая->0 при«->оо, л где о^ = 2 М-2г (индекс г при моменте означает, что имеется в виду соответствующий момент случайной величины \г). Для х. ф. фг величины ?г — \а'и имеет место разложение (см. 3.15) Ц. ilil G.33) (здесь и ниже р — число, не превосходящее по модулю 1). Так как согласно 3.6 (ц2г) 1/2^(v3rI/3, то из сделанного относительно моментов предположения вытекает, что для любого t правая часть G.33) при возрастании п стремится к 1 равномерно по ^. Отсюда при достаточно больших п и, следовательно, обозначая ip(/) логарифм х. ф. нормированной суммы Г? I, — Кг) о„, имеем iii ^2 так что распределение этой нормированной суммы стремится к нормированному нормальному распределению. Полученный результат принадлежит Ляпунову A901). 7.27 Центральную предельную теорему можно доказать при условии, не включающем в себя требование существования третьих моментов. Имеет ме- место следующий результат, принадлежащий Лнндебергу и Феллеру: для схо- сходимости распределений нормированных сумм к нормированному нормальному
270 ГЛАВА 7 распределению и max |i2r/aH->0 необходимо и достаточно, чтобы 1 < г < п ' IV Г / '42 limo~2"^J J (,Ar~(xifJ drr = Q' G-34) где а^ = 2 lL2r- Из стремления max |i2f jon к нулю вытекает, что ни одно 1 <Г < Л ' из слагаемых не доминирует над остальными. Сходимости к нормальному распределению может и не быть, если случайные величины не обладают вто- вторыми моментами. Например, в главе 11 мы увидим, что среднее из п вели- величин, каждая из которых имеет распределение Кошп 1 dX ' ' , G.35) тоже имеет распределение Коши. Этот результат легко получить, используя х. ф. (см. пример 4.2). 7.28 Центральная предельная теорема играет важную роль в статистической теории. Мы уже встречались с примерами ее применимости в случаях стремления биномиального и пуассо- новского распределений к нормальному. Много других примеров встретится нам в дальнейшем. Центральную предельную теоре- теорему можно получить также для последовательностей зависимых случайных величин. С общим изложением этих вопросов можно познакомиться по книге Феллера A950). 7.29 Вышеизложенные методы могут быть распространены на многомерные случайные величины. Пусть, например, | и ri имеют совместное распределение. Множество из п элементов, извлеченных случайным образом из этого распределения, пред- представляет собой п пар значений случайных величин: (а:), г/4), {х2,Уч),..., {хп,уп). Можно задаться вопросом, каковы распре- распределения таких выборочных характеристик, как, например, сме- п шапмый момент z— 2 x^i/n. Распределение смешанного мо- мента получается интегрированием r,, y2)...dF(xn, yn) по множеству ^ху^п-^г. Обобщения на случай большего числа переменных очевидны. 7.30 Важно также отметить, что центральная предельная теорема может быть доказана и для многомерных случайных величии. В частности, аналогично теореме из 7.26 распределен ние нормированных сумм иксов и игреков с увеличением я стре- стремится к двумерному нормальному распределению при схожих весьма общих условиях.
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 271 УПРАЖНЕНИЯ 7.1 Пусть Е], Ег, . .., Еп представляют собой п совместимых событий (п событий совместимы, если любое число их от 0 до п может произойти од- одновременно). Пусть Pi — вероятность осуществления ?,• (независимо от осу- осуществления или неосуществления другнх событий), p,j— вероятность совмест- совместного осуществления Et и Ej (независимо от остальных), и т. д. Показать, что вероятность того, что пи одно из событий не произойдет, равна где суммирование ведется по всем возможным различным значениям ин- индексов. 7.2 Имеется п совместимых событий. Доказать, что вероятность осущест- осуществления ровно г из них равна , -r) Pin)' где Р(я означает р с / индексами. 7.3 Показать, что но меньшей мере г событий из п совместимых событий осуществляются с вероятностью где pu) означает то же, что и в предыдущем упражнении. 7.4 Решить задачу о конвертах из примера 7.3 с помощью результата упражнения 7.2. Показать также, что в точности г писем попадают в соот- соответствующие им конверты с вероятностью (~1)""f 7.5 Имеется п совместимых независимых событий Е\, ..., Еп. Вероятность того, что осуществляется только Ei, равна а,-. Показать, что вероятность pi Осуществления Et (вне зависимости от осуществления или неосуществления остальных событий) дается формулой Pi=ail(at+0- где t — корень уравнения аЛ-1 Показать также, что в общем случае имеются два значения pt, удовлетво- удовлетворяющих требуемым условиям. 7.6 Из кучки, состоящей из неизвестного количества N фишек, игрок вы- выбирает случайным образом горсть, содержащую п фишек. Проанализировать следующее рассуждение. Число N одинаково вероятно может быть четным и нечетным. Если оно нечетно, то вероятность я быть нечетным больше '/г.
272 ГЛАВА 7 а если оно четно, то эта вероятность равна '/г- Таким образом, вероятность того, что п нечетно, больше чем !/г. и игроку следует ставить на вынимание нечетного числа. 7.7 С течением времени t происходят некоторые события. Количество со- событий, происходящих в интервале времени (ti, tz), зависит лишь от длины этого интервала; количества событий, происходящих п непересекающиеся промежутки времени, независимы. Показать, что вероятность того, что за время / не произойдет ни одного события, равна е~и, где 0<Я<оо. 7.8 Показать, что если а равномерно распределена в интервале 0<; а <Д а Ь — в интервале 0<;й<9, то с вероятностью !/з уравнение х2—ах+Ь = 0 имеет два действительных корня. 7.9 На плоскости случайным образом выбирается прямая л; cos Q+y sin 9=p так, что элементы dOdp равновероятны. Показать, что если эта прямая пере- пересекает замкнутую выпуклую кривую длины 1\, то вероятность пересечения ею другой замкнутой выпуклой кривой длины h, лежащей внутри области, огра- ограниченной первой кривой, равна l^lh*)- Вывести отсюда, что если прямая пересекает окружность, то всякий фик- фиксированный диаметр этой окружности она пересекает с вероятностью 1/я. 7.10 Пусть выполнены условия предыдущего упражнения. Показать, что если заменить координаты, осуществив сдвиг начала и поворот вокруг него, то dp'd&=dpdO, где штрихи относятся к величинам в новых координатах. Иначе говоря, показать, что «случайность» прямой, выбираемой указанным образом, не зависит от фиксации системы координат. 7.11 На окружности случайно выбираются три точки. Показать, что на одной и той же полуокружности они оказываются с вероятностью 3Д. (Счи- (Считать, что в пределе элементарные отрезки дуги равновероятны.) Объяснить ошибку в следующем рассуждении: пара точек всегда лежит на одной полуокружности, кончающейся в одной из ннх; вероятность того, что третья точка лежит на этой же полуокружности, равна '/2, следовательно, вероятность трем точкам оказаться на одной полуокружности равна !/г- Рассмотреть также следующее рассуждение. Неважно, где выбрана пер- первая точка. Представим себе, что окружность разрезана в этой точке и раз- развернута в горизонтальный отрезок. Вероятность того, что вторая и третья точки попадут в левую половину отрезка, равна -~- X  = 'Т' аналогично для правой половины. Следовательно, три точки оказываются в одной полуокруж- полуокружности с вероятностью !/2. 7.12 Доказать, что если х, у — независимые случайные величины с ха- характеристическими функциями ф1, ср2 соответственно, то х. ф. величины х—у равна ф1(/)ф2(—t). Вывести отсюда, что если х+у и х—у распределены оди- одинаково, то распределение у симметрично относительно нуля **). *) р и 0 считаются здесь изменяющимися в конечных пределах, причем верхняя граница изменения \р\ должна быть достаточно большой. (Прим. перев.) **) Это утверждение неточно: оно неверно без дополнительных предполо- предположений (например, ф1т^0). В самом деле, если взять в качестве х величину с х. ф., равной нулю вне некоторого интервала, содержащего пуль (напри- (например, G.19)), а в качестве у—величину с недействительной х. ф., действитель- действительной в этом интервале, то х+у и х—у распределены одинаково, но распреде- распределение у несимметрично. Приведем здесь принадлежащий И. В. Островскому пример недействительной х. ф., действительной на отрезке — Л<<<;Д А>0. Пусть &У)ф 0 — вещественная, нечетная, дважды непрерывно дифференцируе-
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ 273 7.13 Величины х и у имеют двумерное нормальное распределение вида E.90). Найти х. ф. суммы х+у и показать, что эта сумма распределена нор- нормально с дисперсией 2A +р). Вывести, что |р|<Л. 7.14 Показать, что сумма независимых случайных величин, каждая из которых имеет пуассоновское распределение (параметры могут быть различ- различными), тоже распределена по Пуассону. 7.15 Пусть х — нормированная нормально распределенная случайная ве- величина и у=х2. Показать, что х. ф. совместного распределения х и у равна 1 h j и получить из этой формулы х. ф. распределений х н у в отдельности. Пока- Показать также, что ковариация х и у равна нулю. 7.16 Из генеральной совокупности, которой соответствует неотрицатель- неотрицательная варианта со средним \i, производится случайная выборка объема п. Пусть х\, Х2 хп—наблюденные значения варианты. Показать, что ве- п роятность величине 2 Х1 превзойти некоторое число Я не превышает п|хД. i = i 7.17 Показать, что распределение среднего (скажем, и) двух независи- независимых случайных величин, каждая из которых имеет распределение dF = -| х* dx, — 1<лг<1, есть dF = -| C — 15и + 20м2 — 8«6). мая функция, суммируемая на всей оси —оо<?< оовместе со своими двумя производными н равная нулю при —Д<^<;Л. Положим оо оо I Г л Г iM*) = ir- O(t)e-"xdt=~ 9 (t) sin tx dt. -co 0 Функция ty(x) вещественна, непрерывна и, кроме того, lim ij) (x) x2 — 0. 0О JT> ± Поэтому 8>0 можно взять столь малым, чтобы для всех х,—со<л:<оо, было справедливо неравенство Положим теперь где ft>0 — постоянная, выбранная так, чтобы ср(О) = 1. Очевидно, q>(t)—х. ф. Так как у (t) = nke~u ] + iked (t), то y(t) невещественна, но при —A (Прим. перев.) 18 М. Кенлалл. А. Стью«от
274 глава т 7.18 Найти распределение суммы k независимых случайных величин, каж- каждая из которых имеет распределение dF = e~xdx, 0<л:<оо. Нарисовать графики функций плотности сумм для нескольких k и пронаблю- пронаблюдать приближение их к нормальной кривой. 7.19 Рассмотрим симметричную функцию /(*), равную при х^О — {х+\—хр), хр—1^х*Схр, р=\,2,...; р \4++р pp+ P ,; I xp [О в остальных случаях, где хр= (р+1J. Показать, что при подходящем выборе А эта функция яв- является функцией плотности. Показать также, что математическое ожидание \х\ п не существует, но предел lim xf (x) dx конечен (т. е. математическое ожи- я->оо J — п дание х существует в смысле главного значения). Убедиться в том, что если изменить начало отсчета, то не будет существовать математического ожида- ожидания и в смысле главного значения. Вывести отсюда (беря в качестве одной из случайных величин постоянную), что если математическое ожидание по- понимать в смысле главного значения, то математическое ожидание суммы двух случайных величин не обязательно равно сумме их математических ожи- ожиданий. (Фреше, 1937.) 7.20 Имеется последовательность |j независимых одинаково распределен- распределенных случайных величин с х. ф. ср. Пользуясь разложением Ф(О = 1 + ^ + о@. показать, что lim фя(*) = ц«, л->оо где ф„—п. ф. с. среднего (первых) п случайных величин, и что, следователь- следовательно, эти средние имеют в пределе единичное распределение (см. пример 4.3). Иначе говоря, доказать, что для последовательности |j справедлив закон больших чисел.
ГЛАВА 8 ВЕРОЯТНОСТЬ И СТАТИСТИЧЕСКИЕ ВЫВОДЫ 8.1 Исчисление вероятностей в форме, изложенной в преды- предыдущей главе, дает возможность, отправляясь от вероятностей простых событий, вычислять вероятность более сложных собы- событий. Но на практике приходится обычно сталкиваться с обрат- обратной задачей: по результатам наблюдений мы желаем получить сведения или о той генеральной совокупности, из которой они получены, или о том механизме, который порождает наблю- наблюдаемые значения. Во втором томе мы систематически изучаем различные методы и технику статистических выводов в матема- математической статистике. В настоящей главе мы излагаем только основы теории статистических выводов и приводим ряд ее ре- результатов в той форме, в которой они нам понадобятся позже в этом томе. Теорема Байеса 8.2 Пусть <7i, ..., qn — непересекающиеся события (предло- (предложения) и Н — имеющаяся информация. И пусть р — некоторое другое событие (предложение). Тогда согласно правилу умно- умножения вероятностей (см. правило 3 в главе 7), P(qr, p\H) = P(p\H)P(qr\p, H) = P(qT\H)P{p\qn И), откуда гКЧЛР'") Р(Р\Н) ' ^л> Если мы предположим, что события qt образуют полную систе- систему событий, так что одно из них должно произойти, то из (8.1), суммируя по всем q, получим 18*
276 ГЛАВА 8 Подставляя выражение для Р (р\Н) из (8.2) в (8.1), мы найдем ZP^plH)- (8-3) Это равенство известно под названием теоремы Байеса, уста- устанавливающей, что вероятность события qr при данных р и Н пропорциональна вероятности события qr при заданной инфор- информации Н, умноженной на вероятность события р при условии qr и Н. 8.3 Предположим теперь, что некоторое событие является одним из событий, зависящих от взаимно исключающих друг друга событий <7ь • • •. Яп- Пусть P(qr\H)—вероятность собы- события qr. Каждое из этих событий может привести к некоторому событию р с вероятностями P(p\qr, H). Теорема Байеса дает нам обратные вероятности, т. е. вероятности событий qr при условии, что произошло событие р. Вероятности P(qr\H) назы- называются априорными, вероятности P(qr\p, Н) — апостериорными, вероятность P(p\qr,H) может быть названа правдоподобием. Тогда теорему Байеса можно переформулировать следующим образом: апостериорная вероятность равна априорной, умно- умноженной на правдоподобие. Байесовский постулат 8.4 В приведенной выше форме теорема Байеса является простым логическим следствием теоремы умножения вероятно- вероятностей и не вызывает сомнений. Критика же этой теоремы возни- возникает не в связи с ее выводом, а в связи с ее применением. При практическом применении этой теоремы, когда желают выяс- выяснить, какое же из событий q в действительности имеет место, обычно подразумевают, что таким событием надо считать то, для которого апостериорная вероятность максимальна. Это эквивалентно принятию той гипотезы относительно событий q, для которой максимальна совместная вероятность q и р, как это видно из равенства (8.3). Возникающая здесь трудность вызвана тем, что вычисление апостериорной вероятности свя* зано с необходимостью знания априорной вероятности. Но обычно эти априорные вероятности нам не известны. В этом слу- случае, очевидно, нельзя найти и апостериорную вероятность и, следовательно, решить вопрос о том, какая из гипотез имеет место. Чтобы обойти эту трудность, Байес предлагает считать все априорные вероятности событий, относительно которых нам ничего не известно, одинаковыми. Это допущение, известное под
ВЕРОЯТНОСТЬ И СТАТИСТИЧЕСКИЕ ВЫВОДЫ 277 названием постулата Байеса, принципа равновероятности, яв- является одним из наиболее спорных вопросов в статистической теории*). Прежде чем переходить к обсуждению этого посту- постулата, уместно рассмотреть несколько примеров. Пример 8.1 Урна содержит четыре шара, относительно которых извест- известно, что они или (а) все белые, или (б) два из них белые и два черные. Вынимаем из урны случайным образом один шар и обнаруживаем, что он белый. Спрашивается, какова вероятность того, что все шары белые? Итак, у нас имеются две гипотезы, #i и q2. При гипотезе qi вероятность получить белый шар равна 1, при q->— равна 7г- Из (8.1) 4 Р foi Согласно байесовскому постулату мы предполагаем, что Р(^|//) = Р(?2|//) = 1/2, откуда ?{Ч1\р, Я) = 2/3, Р(q2\p, H) = 1/3. Поэтому если мы можем выбирать только между двумя воз- возможностями (а) и (б), то мы должны выбрать ту, апостериор- апостериорная вероятность которой максимальна, т. е. принять гипотезу (а). Предположим теперь, что шар возвращен в урну и снова производится случайное извлечение шара. Если вновь вынутый шар оказался черным, то гипотеза (а) решительно отвергается. Но если же извлеченный шар белого цвета, то мы можем вы- вычислить новую апостериорную вероятность, приняв в качестве априорной апостериорную вероятность, полученную после пер- первого вынимания. Мы имеем тогда P(qi\H) =2/3, P(q2\H)=if3, где Н включает р, откуда, применяя (8.1), получим апостериорную *) В современных формулировках этого постулата иногда допускается и не равновероятный характер априорного распределения (так, например, поступает Джеффрейс). Мы не будем здесь подробно вдаваться в объясне- объяснения, отложив их до второго тома, поскольку это слишком бы увело нас в сторону.
278 ГЛАВА 8 вероятность для q{ и q2 при новом событии, скажем р', Ясно, что если мы повторим наш процесс заново и вновь полу- получим белый шар, то апостериорная вероятность события (а) ста- станет еще большей. Это, конечно, согласуется с интуитивным представлением о том, что если в процессе извлечения шаров (с возвращением) из урны мы не получаем черных шаров, то весьма правдоподобно, что этих шаров вовсе нет. Пример 8.2 Рассмотрим предыдущий пример с несколько иной точки зре- зрения. Предположим, что в единицу времени извлекается по одному шару (с последующим возвращением) и после п извле- извлечений получили последовательность из п белых шаров. Вероят- Вероятность этого события при гипотезе (а) равна 1, а при гипотезе (б) равна 1/2™. Из формулы (8.1) мы тогда получим (собы- (событие р означает, что все первые п шаров белого цвета) _1_ P{qx\p,H) = -\5 \ -i- + -i- • 1/2« С ростом п вероятность P(qi\p,H) стремится к единице, а ве- вероятность P(q2\p,H)—к нулю. Этот результат остается вер- верным, какова бы ни была начальная априорная вероятность 0</<1 для гипотезы (а). В самом деле, что стремится к единице. Этот факт также согласуется с обще- общепринятыми представлениями: каковы бы ни были начальные вероятности, новые с каждым шагом все меньше и меньше за- зависят от них. Пример 8.3 Из урны, наполненной шарами неизвестного цвета, извле- извлекается случайно шар (с последующим возвращением). Этот процесс продолжается т раз, и каждый раз извлекаются шары черного цвета. Спрашивается, какова вероятность того, что при следующем извлечении шар будет также черным?
ВЕРОЯТНОСТЬ И СТАТИСТИЧЕСКИЕ ВЫВОДЫ 279 Так поставленный вопрос не допускает определенного ответа, поскольку возможно, что в урне находятся шары всевозможных цветов и оттенков, и поэтому нам неизвестно, какие же гипо- гипотезы надо сравнивать. Предположим в связи с этим, что шары могут быть только двух цветов — черные и белые. Рассмотрим гипотезы: A) все шары черные, B) все черные за исключением одного, C) псе черные за исключением двух и т. д. Но даже и сейчас задача все еще остается неопределенной, поскольку необходимо знать общее число шаров. Будем предполагать, что их всего N. Позд- Позднее мы рассмотрим случай Л/->оо. Пусть qR — гипотеза о том, что в урне R шаров черного цвета и /V — R белого. Вероятность при каждом извлечении по- получить черный шар равна R/N и вероятность того, что подряд встретятся т черных шаров, равна (R/N)m. Если все события qR a priori равновероятны, то из (8.1) следует, что s я«о Вероятность получения черного шара при гипотезе qR равна R/N. Поскольку события qR взаимно исключают друг друга, то вероятность получить следующий шар черного цвета равна (8.4) Отсюда можно получить ответ на поставленный вопрос и в пре- предельном случае. При N-*oo правая часть выражения (8.4) стре- стремится к отношению определенных интегралов 1 1 J хт dx = -Jii. (8.5) Этот результат представляет собой частный случай так назы- называемого лапласовского правила следования. Некоторые энту- энтузиасты этого правила иногда применяют его слишком нераз- неразборчиво. Так, они склонны считать, что из этого правила сле- следует справедливость утверждения, что если некоторое событие наблюдалось т раз подряд, то шанс, что оно появится и в (т+1)-й раз, в (т+1) раз больше шанса, что оно не появится. Должно быть ясно, что это заключение незаконно. 8.5 Если встать на частотную точку зрения, то появляются принципиальные трудности, возникающие в связи с байесов-
280 ГЛАВА 8 ским постулатом. Если мы считаем, что вероятность есть мера наших сомнений, то тогда естественно полагать априорные ве- вероятности одинаковыми, когда относительно них нам ничего не- неизвестно, поскольку все соответствующие предложения одина- одинаково сомнительны. Частотная теория, однако, при применении постулата Байеса требует, чтобы события, отвечающие различ- различным q, были равновероятны в генеральной совокупности. Мно- Многим статистикам, хотя и не всем, такое требование к Природе представляется слишком сильным. Постулат Байеса является одним из важнейших моментов в теории вероятностей. Многие приверженцы субъективной школы теории вероятностей прини- принимают его. В то же время немало сторонников частотной школы, которые полностью его отвергают. Все еще имеется так много разногласий по этому вопросу, что никакие точки зрения нельзя пока считать общепринятыми. Одно, однако, ясно: если кто-нибудь отвергает байесовский по- постулат, то он должен заменить его чем-либо другим. Проблема, которую Байес пытался решить, чрезвычайно важна для науч- научных выводов, и едва ли представляется возможным, чтобы какая-либо научная мысль не давала некоторого решения про- проблемы, хотя бы интуитивного и эмпирического. Нам постоянно приходится оценивать степень верности гипотез по имеющимся данным, и борьба за существование, по словам Тиле, вынуждает нас обращаться к оракулам. Максимальное правдоподобие 8.6 Трудности, связанные с обоснованием байевского посту- постулата, привели к поиску новых принципов и методов решения возникающих задач. Некоторые из этих принципов дают суще- существенное продвижение в решении целого ряда частных задач. В частности, это относится к принципу наименьших квадратов и принципу, основанному на критерии х2-квадрат, которые мы рассмотрим позже. Сейчас же мы остановимся на одном общем принципе — принципе максимального правдоподобия. Возвращаясь' к (8.3), мы можем записать теорему Байеса в такой форме: Р(qr |р. И) ос Р(qr \H)L{p\ qT, И), (8.6) где L(p\qr, H) — правдоподобие. Принцип максимального прав- правдоподобия состоит в том, что при выборе одной из гипотез qT следует выбирать ту из них, которая обращает в максимум L. Другими словами, мы принимаем ту гипотезу, которая дает наибольшую вероятность для наблюдаемого события. В то вре-
ВЕРОЯТНОСТЬ И СТАТИСТИЧЕСКИЕ ВЫВОДЫ 281 мя как байесовский подход основан на максимизации совмест- совместного распределения событий qr и р, принцип максимального правдоподобия оперирует с обращением в максимум условной вероятности р при заданном qr. 8.7 Нужно заметить, что принцип максимального правдопо- правдоподобия не эквивалентен выбору гипотезы с наибольшей вероят- вероятностью. Некоторые защитники этого принципа полностью отри- отрицают возможность вложить смысл в такие выражения, как «вероятность гипотез». Позже мы увидим, что практически различие между результатами, полученными с помощью прин- принципа максимального правдоподобия и байесовского постулата, не столь существенно, как это можно было бы ожидать. Однако между этими принципами имеется принципиальное отличие. При рассмотрении принципа максимального правдоподобия надо иметь в виду одну тонкость, нашедшую свое отражение в записи L вместо Р. Обычная вероятностная функция дает вероятность события р при заданных qr и Н, при этом р варьи- варьируется, a qr и Н фиксированы. С точки зрения принципа макси- максимального правдоподобия варьируется qr, тогда как р и Н счи- считаются заданными. Эту функцию от q мы и назвали правдоподобием, чтобы отличать ее от обычной вероятностной функции. 8.8 Предположим (как это часто случается в статистиче- статистической практике), что наши гипотезы касаются значений некото- некоторого численного параметра 0. К примеру, в случае двух альтер- альтернатив такими гипотезами могут быть следующие: ^ = 0<0, <72 = 9>О или ^ = 0=1, ?2 = 0 = 2 и т. д. Если 9 пробегает только счетное число значений, то мы мо- можем поставить вопрос о том, как каждому наблюденному собы- событию р поставить в соответствие некоторое «наилучшее» значе- значение 8. Байесовский метод основан на том, что «наилучшее» значение является наиболее вероятным значением. Из (8.3) мы видим, что таким значением должно быть то, которое максими- максимизирует вероятность P(qr\p,H). Если мы ничего не знаем об априорных вероятностях P{qr\H), то в соответствии с байесов- байесовским принципом мы должны их считать одинаковыми. Тогда, как легко видеть, это эквивалентно отысканию такого qr, для которого L(p\qr,H) максимально. Иначе говоря, в этом случае принцип максимального правдоподобия и байесовский постулат оказываются эквивалентными. 8.9 Это обстоятельство, однако, не выполнено, если пара- параметр 0 может принимать непрерывный ряд значений. В этом
282 ГЛАВА 8 случае выражения вида надо заменить на и тогда вместо (8.6) мы получим <о0+1^о0|^ я)ос (8.7) Если требуется найти «наилучшую» оценку для 0, то мы должны в соответствии с байесовским постулатом взять равномерное распределение для 0 и снова максимизировать L по различным значениям 9. Предположим, что вместо различения гипотез относительно параметра 0 нам надо различать, например, гипотезы о значе- значениях некоторой функции ф = ф(9). Скажем, вместо гипотез относительно значений дисперсии надо различать гипотезы о значениях стандартного отклонения. В этом случае мы должны рассмотреть уравнение (8.7), где вместо 9 подставлено ф. При этом в соответствии с принципом Байеса мы должны считать, что априорное распределение равномерно. И тогда «наилучшая» оценка ф определяется путем максимизации L. Но состоятелен ли такой подход? Если мы предположили, что 9 имеет априори равномерное распределение, то мы не вправе предполагать то же самое и относительно ф, т. е. исполь- использование байесовского постулата представляется противоречи- противоречивым. Принцип максимального правдоподобия свободен от этой неопределенности, поскольку, если L(9) достигает максимума при некотором 9, то ?(ф) обращается в максимум при том зна- значении ф, которое отвечает тому же самому 0. Действительно, и обе части этого уравнения обращаются в нуль одновременно (если ? Ф 0). 8.10 Сделанное замечание является одним из доводов сто- сторонников частотной школы теории вероятностей, отвергающих байесовский принцип и предпочитающих пользоваться принци- принципом максимального правдоподобия. Но с нашей точки зрения
ВЕРОЯТНОСТЬ И СТАТИСТИЧЕСКИЕ ВЫВОДЫ 283 никакого противоречия в байесовском постулате нет, ибо оно вызвано неправильным пониманием существа дела. Будет по- показано, что байесовский постулат и принцип максимального правдоподобия дают тот же самый ответ в непрерывном случае, что и в дискретном, если правильно понимать предельный пере- переход. Мы видели в 7.11, что значение вероятности в непрерывном случае существенно зависит от природы предельного перехода. Если под случайной величиной 0 понимать ту случайную вели- величину, которая получается в результате предельного процесса Д9-»0, то тогда байесовский постулат будет давать другой от- ответ при условии, что 0 рассматривается как случайная вели- величина, получающаяся в результате аналогичного предельного процесса для ф. Несовпадение ответов объясняется точно также, как и несовпадение ответов в примере 7.4. Поэтому кажущаяся несостоятельность байесовского постулата в действительности иллюзорна и возникает в силу неправильного понимания пре- предельного перехода в случае непрерывных совокупностей. Остается, конечно, верным, что во многих практических слу- случаях мы не знаем механизма образования значений 9. Если нам требуется построить теорию различения, которая бы не зависела от нашего незнания априорного распределения для 9, то воз- возражения против применения байесовского принципа остаются в силе и не относятся к принципу максимального правдоподо- правдоподобия. С другой стороны, все еще не существует убедительных доводов, почему мы должны принимать принцип максимального правдоподобия как научный принцип различения гипотез. Во втором томе мы увидим, что существует немало причин, оправ- оправдывающих применение этого принципа. Пример 8.4 Рассмотрим пример 8.2 с позиций принципа максимального правдоподобия. Вероятность получить п белых шаров при гипо- гипотезе (а) равна единице, при гипотезе (б) равна 2~п. Правдопо- Правдоподобие для (а) всегда больше, чем для (б), и, следовательно, мы должны выбирать гипотезу (а). Это верно при любом п. В частности, когда п возрастает, отношение правдоподобия стремится к отношению апостериорных вероятностей. Пример 8.5 Рассмотрим п независимых результатов наблюдений, каж- каждое из которых распределено нормально 2
284 ГЛАВА 8 Сели результаты наблюдений есть Х\,х2, ..., хп, то функция правдоподобия равна () <т«BяJ I 1'х * Рассмотрим всевозможные значения ц, которые могут привести к этим наблюдениям хи ..., хт. Значение ц, максимизирую- максимизирующее L, удовлетворяет уравнению Поскольку функция L положительна, то задача нахождения «наилучшей оценки» для ц эквивалентна отысканию того зна- значения, которое максимизирует logL. Этот переход оказывается часто, как, например, здесь, более удобным. Имеем д log L «-I /•*/ — иЛ -^—SK^H' (8-9) и «наилучшая» оценка \х, для ц, равна, следовательно, - (8л°) Легко видеть, что функция L имеет единственный максимум, поэтому оценка [i—x является единственной. Если мы желаем оценивать одновременно ц, и а, то наряду с (8.9) надо рассмотреть уравнение которое дает о* = ±^(х-№ (8.12) Заметим, что jj, не зависит от а, тогда как а зависит от jj,. Вы- Выберем оценки ц и а, которые одновременно удовлетворяют н (8.9) и (8.11). Тогда мы получим Оценки (8.10) и (8.13) одновременно максимизируют правдо- правдоподобие. УПРАЖНЕНИЯ 8.1 Некоторое событие постоянной вероятности w наблюдается г раз в п независимых испытаниях. Показать, что байесовский постулат и метод максимального правдоподобия дают для ш оценку г/п. (При применении
ВЕРОЯТНОСТЬ И СТАТИСТИЧЕСКИЕ ВЫВОДЫ 285 теоремы Байеса можно предположить, что го равномерно распределена от О до 1.) 8.2 В условиях предыдущего упражнения испытания проводятся до тех пор, пока событие, осуществляющееся с вероятностью со, не встретится г раз. Пусть при этом совершено п наблюдении. Показать, что и теорема Байеса, и метод максимального правдоподобия дают г\п в качестве подходящей оценки для со. 8.3 Показать, что в упражнении 8.1 усредненное по всем выборкам значе- значение г\п равно ш и не равно со в упражнении 8.2. 8.4 В условиях предшествующих упражнений показать, что если прове- проведено п испытаний и некоторое событие встретилось г раз, то вероятность того, что это событие встретится при следующем испытании, равна (г+1)(п+2). (Использовать более общую форму последовательного правила Лапласа.) Как это согласуется с результатом упражнения 8.1? 8.5 Некоторая урна содержит шары различных цветов, но число цветов М неизвестно. В результате извлечения п шаров с возвращением обнаружено т{^.п) различных цветов. Показать, что в качестве оценки для М метод максимального правдоподобия дает т. 8.6 В предшествующем упражнении, используя теорему Байеса, оце- оценить М, если априорная вероятность для М пропорциональна 2м (М12)
ГЛАВА 9 СЛУЧАЙНЫЙ ВЫБОР Проблема выбора 9.1 В предыдущей главе мы несколько раз упоминали про- проблему выбора. Сформулирована она может быть очень просто: дана выборка из некоторой генеральной совокупности; опреде- определить по ней некоторые или все свойства этой генеральной сово- совокупности. Уже отмечалось, что только в исключительных слу- случаях можно делать утверждения о генеральной совокупности с полной определенностью и что, следовательно, необходимо ограничиться утверждениями менее категорического характера, выражаемыми в терминах вероятности. 9.2 Для того чтобы было возможным применять теорию ве- вероятностей к этой проблеме, выбор должен быть случайным. Под случайной выборкой мы понимаем выборку, обладающую вычислимой для нее вероятностью. По поводу этого определе- определения следует сделать два замечания. Во-первых, оно содержит слово «вычислимую», а не «вы- «вычисленную», поскольку в практике часто нет необходимости в том, чтобы вероятности выбора были полностью вычислены для каждой выборки. Спецификация и контроль выборочной процедуры — это все, что требуется для применения теории вероятностей. Во-вторых, в определении не требуется, чтобы каждая воз- возможная выборка имела одну и ту же вероятность выбора. Если же это в самом деле так и последовательные извлечения независимы, то в соответствии с 7.20 выбор называется простым случайным выбором. Для многих теоретических целей достаточно рассматривать простой случайный выбор, однако в третьем томе этой книги мы увидим, что поиск эффективности планирования выбороч* ных исследований ведет к обдуманному отказу от простого слу- случайного выбора. Дело здесь в том, что этот отказ не мешает применению теории вероятностей, если только (различные) ве-
СЛУЧАЙНЫЙ ВЫБОР 287 роятности выбора однозначно определяются процессом выбора и, следовательно, вычислимы. 9.3. На практике мы часто встречаем неслучайные выборки, полученные некоторым целенаправленным способом. В таком случае невозможно делать точные вероятностные утверждения относительно генеральной совокупности и, когда нужно принять решение, приходится основываться па субъективных суждениях неудовлетворительного характера. Именно поэтому случайный выбор первостепенно важен при изучении по выборкам гене- генеральной совокупности. В дальнейшем будут рассматриваться только случайные выборки. Во избежание постоянных повторений, мы будем считать, если не оговорено противное, что все встречающиеся «выборки» и «выборочные распределения» относятся к просто- простому случайному выбору. 9.4 Изучение случайного выбора полезно начать с рассмо- рассмотрения типов генеральных совокупностей, из которых могу г извлекаться выборки. (а) Генеральная совокупность может быть конечной и ре- реально существующей. Например: генеральная совокупность всех людей в Европе в фиксированный момент времени или гене- генеральная совокупность яблок на данном дереве. Процесс выбора, при котором извлекается по одному элементу, если он будет длиться достаточно долго, в конце концов, исчерпает, очевидно, запас элементов. Такой выбор хотя и случаен, не является простым, поскольку последовательные извлечения не незави- независимы. Можно, однако, свести этот процесс к простому, возвращая выбранные элементы. Генеральная совокупность остается тогда одной и той же при каждом выборе. Первый из этих выборов иногда называют «выбором без возвращения», второй — «выбо- «выбором с возвращением». Кроме того, во многих случаях выбор можно считать при- приблизительно простым, даже когда не делается возвращений. Если генеральная совокупность велика по сравнению с объемом выборки, то извлечение относительно небольшого числа элемен- элементов, по существу, не меняет генеральной совокупности, которую, стало быть, можно считать приблизительно одной и той же при последовательных выборах. (б) Выбор с возвращением из конечной генеральной сово- совокупности в действительности может рассматриваться как выбор из бесконечной генеральной совокупности, поскольку он ни- никогда не исчерпывает запаса элементов. Может, однако, встре- встретиться необходимость рассмотрения бесконечной генеральной совокупности в ином смысле, именно предельной генеральной
288 ГЛАВА 9 совокупности. Мы можем, например, пожелать рассмотреть ве- вероятность выборки из множества положительных целых чисел или из множества действительных чисел, лежащих между ну- нулем и единицей. Последний случай появляется при выборе из непрерывного частотного распределения, когда соответствующую генеральную совокупность необходимо следует считать беско- бесконечной. Таким образом, если мы заменяем наблюдаемое распреде- распределение некоторым непрерывным математическим распределе- распределением, то одновременно мы заменяем конечную генеральную совокупность бесконечной. Извлечение случайных выборок из такой генеральной совокупности производится описанным в 7.11 способом — здесь должен использоваться предельный пе- переход. (в) В-третьих, генеральная совокупность может быть чи- чисто гипотетической. Рассмотрим, например, бросания кости. Можно представлять себе повторные бросания как процесс выбора существующих элементов из несуществующей гене- генеральной совокупности. В подобных случаях мы мысленно кон- конструируем для выборки воображаемую генеральную совокуп- совокупность. Появление понятия гипотетической генеральной совокупно- совокупности обусловливается концепцией частоты в теории вероятностей. Оно не нужно (и действительно полностью отвергнуто Джеф- рейсом) в том подходе, который рассматривает вероятность как неопределимую меру сомнения. Но если на вероятность смо- смотреть как на относительную частоту, то, чтобы говорить о вероятности выборки типа той, которая дается бросанием кости или ростом пшеницы на участке земли, мы должны рас- рассматривать выборку на основе некоторой генеральной сово- совокупности. Имеются очевидные логические трудности, когда такая вы- выборка рассматривается как отбор — это отбор без выбора; еще большие трудности имеются относительно предположения слу- случайности этого отбора. В самом деле, мы должны здесь попы- попытаться вообразить, что все остальные элементы генеральной со- совокупности, которые лишь воображаемы, имеют одинаковую вероятность накинуть мантию реальности и что, в некотором смысле, действительное событие избрано, чтобы стать реальным. Это довольно трудная концепция. В то же время следует допу- допустить, что некоторые события, подобные бросаниям кости, про- происходят так, как если бы случайно выбирались элементы из не- некоторой реальной генеральной совокупности; соответственно представляется возможным эмпирическое обоснование понятия гипотетической генеральной совокупности,
СЛУЧАЙНЫЙ ВЫБОР 289 Случайность в практике выбора 9.5 Слово «случайный», в его обычном разговорном смысле, применяется ко всякому методу выбора, не имеющему опреде- определенной цели. Мы говорим о случайном выборе из шляпы бу- бумажных листков с написанными на них именами, о случайном выборе растения на ноле пшеницы, о случайном выборе семей- семейного бюджета из соответствующей генеральной совокупности, подразумевая при этом, что выбор происходит полностью на- наудачу. Практически обнаружено, что выбор, производимый челове- человеком, не является случайным в строгом смысле: он не доставляет одинаково часто те события, которые имеется основание считать равновероятными. Несколько примеров поясняют это обстоя- обстоятельство. Пример 9.1 При проведении одной из работ на Ротэмстэдской экспери- экспериментальной станции делались выборки растений пшеницы, по восемь растений в каждой. Шесть из них выбирались методами, которые можно считать действительно случайными и о которых речь будет идти ниже. Остальные два выбирались наудачу на глаз. Если бы в каждой из выборок все восемь растений распо- расположили бы по величине, те два, которые выбраны на глаз, могли бы иметь любой номер от единицы до восьми; если бы эти два, как и остальные шесть, были выбраны случайно, они занимали бы эти места с примерно одинаковой частотой при большом числе выборок. Таблица 9.1 показывает действительно наблюдавшиеся частоты в двух различных случаях: а) 31 мая до образования колосьев и б) 28 июня, после того как колосья образовались. Таблица 9.1 Распределение случайно выбранных растений по восьми категориям (Иэйтс, 1935) Дата 31 мая 28 июня Наблюдение Высота во время цпетения Высота после образования колосьев Числа, соответствующие определенным категориям 1 9 9 2 7 19 3 11 27 4 8 23 5 11 15 6 18 10 7 21 5 8 31 4 Полная частота 116 112 19 М. Кендалл, Л. Стьюарт
290 ГЛАВА 9 Отклонение действительных результатов от ожидаемых про- просто поразительно. 31 мая, до того как образовались колосья, наблюдатель предпочтительно выбирал более высокие растения, в то время как в июне он был сильно пристрастен к средним растениям, избегая выбирать низкие и высокие. Таким образом, видно, что даже тренированный наблюда- наблюдатель может осуществлять отбор с пристрастием и что это при- пристрастие не обязательно имеет одну и ту же направленность при различных обстоятельствах. Пример 9.2 Таблица 9.2 показывает частоты последних цифр в большем числе измерений, произведенных четырьмя различными наблю- наблюдателями. Сомнительно, что была какая-то действительная причина, обусловливающая более частое появление одних цифр по сраз^ пению с другими, и можно с уверенностью предполагать, что отклонения от приблизительно одинаковой частоты появления цифр указывает на пристрастие наблюдателей. Наблюдатель А оказывал предпочтение цифрам 0, 2, 8 и 9, избегая центра шкалы. Наблюдатель В довольно хорош — от- Таблица 9.2 Пристрастность при регистрации результатов измерений: распределение последних цифр в измерениях, произведенных четырьмя наблюдателями (Юл, 1927) Последняя цифра 0 1 2 3 4 5 6 7 8 9 Полная частота Частота последней цифры в 1000 наблюдений А 158 97 125 73 76 71 90 56 136 129 1001 /.; 122 98 98 90 100 112 98 99 101 81 999 с 251 37 80 72 55 222 71 75 72 65 1000 D 358 49 90 63 37 211 62 70 44 16 1000
СЛУЧАЙНЫЙ ВЫБОР 291 клонеиия его наблюдений от ожидаемых значений малы, но и он оказывал некоторое предпочтение цифре 0. Наблюдатель С плох — он округлял последнюю цифру примерно в одном т каждых двух наблюдений до 0 или 5. Наблюдатель D, очевидно, совсем плох — приблизительно в 57% его измерений последняя цифра округлена до 0 или 5. Во всех наблюдениях производилось считывание шкалы: А делал измерения па чертежах с точностью до десятой милли- миллиметра, В, С и D производили измерения голов живых существ с точностью до одного миллиметра. Отсюда можно заключить, что различные наблюдатели могут обладать различной степенью пристрастности даже при сравнимых обстоятельствах и что даже те из них, которые знают о возможности пристрастия п необходимости большой осторожности (как наблюдатель А), тем не менее не всегда могут избежать его. Пример 9.3 Перед прибором (датчиком), состоящим из круглого диска, разделенного на десять равных секторов, занумерованных циф- цифрами от 0 до 9, поставили наблюдателя. Диск вращался с большой скоростью, и время от времени перед ним вспыхивала электрическая лампочка на столь короткий момент, что диск казался неподвижным. Наблюдатель должен был смотреть на диск и записывать помер того сектора, который в момент вспышки находился против фиксированного указателя. Этот прибор предназначался для получения случайных чи- чисел и действительно их доставлял при работе с другим наблю- наблюдателем. Но наблюдатель, о котором говорилось выше, снимал показания с явным пристрастием. Частоты цифр по 10 000 про- произведенных им наблюдений представлены в таблице 9.3. Таблица 9.3 Распределение цифр, снятых наблюдателем с датчика случайных чисел (Кендалл и Бэбингтон Смит, 1939) Цифра Частота 0 1083 1 865 1 2 053 3 884 1 4 057 5 1007 6 1081 7 997 8 1025 9 918 Полная частота 100H Если бы наблюдатель был беспристрастен, то цифры пояз- лялись бы приблизительно с одинаковой частотой; из таблицы видно, однако, что он имел пристрастие к четным цифрам и предубеждение против нечетных цифр 1, 3 и 9. Причина этого пристрастия неясна, поскольку наблюдатель не должен был 19*
292 ГЛАВА 9 производить оценку (как в предыдущем примере), а должен был просто записать то, что он видел или думал, что видит. Объяснение, по-видимому, состоит в том, что он отдавал силь- сильное предпочтение некоторым цифрам, т. е. в действительности видел не те цифры, или что его мозг контролировал и цензури- ровал зрительные восприятия. Здесь мы имеем дело с одной из чрезвычайно сильных форм психологического пристрастия. Пример 9.4 В Англии и Уэльсе множество специальных служащих каж- каждый год оценивают ожидаемый урожай некоторых культур. Предсказания делаются в различные периоды года, а после уборки урожая производится окончательная оценка. В табли- таблице 9.4 представлены средние оценки урожая картофеля в раз- различные периоды для ряда лет с 1929 по 1936. Таблица 9.4 Отклонения при предсказании урожая: предсказания урожая картофеля в Англии и Уэльсе (тонны на акр *)) (из официальной сельскохозяйственной статистики) Год 1929 1930 1931 1932 1933 1934 1935 1936 i Уро- Урожай 5,7 6,0 5,5 6,4 6,4 6,0 5,6 6,0 сентября Отклонение от оконча- окончательной оценки (в %) -17,4 —7,7 0,0 —3,0 —4,5 —15,5 —9,7 —3,2 Уро- Урожай 6,2 6,1 5,3 6,2 6,2 6,3 5,7 5,9 октября Отклонение от оконча- окончательной оценки (в %) —10,1 -6,2 —3,6 —6,1 —7,5 —11,3 -8,1 —4,8 I ноября Уро- Урожай 6,5 6,1 5,3 6,3 6,4 6,7 6,0 5,8 Отклонение от оконча- окончательной оценки (в %) —5,8 -6,2 -3,6 —4,5 —4,5 —5,6 -3,2 -6,5 Оконча тельная оценка (в %) 6,9 6,5 5,5 6,6 6,7 7,1 6,2 6,2 *) 1 акр э^ 0,4 га. (Прим. перее.) Эта таблица очень хорошо иллюстрирует постоянный песси- пессимизм при предсказании урожая, свойственный всем соответ- соответствующим служащим в Англии (а также и в других странах). В таблице во всех случаях, кроме одного, предсказания ниже окончательной оценки. Эти служащие, по-видимому, неспособны понять на опыте, что они систематически недооценивают уро-
СЛУЧАЙНЫЙ ВЫБОР • 293 жай. Ничто в таблице не указывает на уменьшение разности между предсказанием и окончательной оценкой в течение рас- рассматриваемого периода. Следует также отметить, что приведенные в таблице оценки являются взвешенными средними большого числа независимых наблюдений. Часто встречающееся здесь неверное представле- представление основано на предположении, что, хотя отдельные индиви- индивидуумы могут делать ошибки, их ошибки в совокупности взаимно уничтожаются. Наш пример показывает, что это, во- вообще говоря, неверно. Может появиться систематическое при- пристрастие, свойственное всем производящим оценку индиви- индивидуумам. 9.6 Предыдущие примеры достаточно хорошо показывают общий характер пристрастия наблюдателя. Тренированные на- наблюдатели могут проявлять пристрастие, даже сознавая свой недостаток, различные наблюдатели могут быть по-разному пристрастны при сходных обстоятельствах, один и тот же на- наблюдатель может быть по-разному пристрастен при различных обстоятельствах. Совершенно ясно, что следует искать истин- истинную случайность в чем-то ином, а не в простом отсутствии це- целенаправленности наблюдателя. Могут встретиться люди, у которых психологические процессы столь хорошо сбалансирова- сбалансированы, что они могут преднамеренно извлекать случайные выборки, однако небольшое число статистиков, которые экспериментиро- экспериментировали в этом интересном направлении, обычно рассматривают себя как особо одаренных. 9.7 Как мы видели в главе 7, основная роль случайности в теории вероятностей состоит в обеспечении одинаковых веро- вероятностей для некоторых элементарных событий. Можно ска- сказать, что метод выбора является случайным для генеральной совокупности U, если при применении его к этой генеральной совокупности каждый элемент имеет одинаковую вероятность быть выбранным или, в терминах частоты, если при непрерыв- непрерывном применении этого метода к U все элементы выбираются приблизительно одинаково часто. Но этого недостаточно. Предположим, что имеется генераль- генеральная совокупность, состоящая из двух элементов А я В, из ко- которой производится выбор с возвращением. Метод, по которому А и В выбираются попеременно (в результате чего получается последовательность АВАВ...), извлекает каждый элемент при- приблизительно одинаково часто, однако такого рода метод мы обычно не называем случайным. От случайного метода мы тре- требуем, чтобы в подобной ситуации в результате его применения получалась последовательность, не содержащая никакой систе- систематической упорядоченности. Не только одна-единственная
294 ГЛАВА 9 характеристика, но также и все возможные группы характери- характеристик должны появляться одинаково часто. 9.8 Следует отметить еще одно обстоятельство. При извле- извлечении выборки мы можем интересоваться лишь одной какой- нибудь вариантой, определяемой элементами генеральной со- совокупности, и может оказаться, что метод доставляет удовле- удовлетворительную случайную выборку в смысле этой варианты, но не в смысле других вариант. Пусть, например, мы желаем сде- сделать случайную выборку из населения некоторой определенной области. Если интересоваться такой вариантой, как цвет глаз, то, возможно, окажется достаточным выбрать некоторые дома, скажем каждый десятый, и из выбранных домов взять по од- одному жильцу, считая жильцов элементами выборки. Такой ме- метод выбора не предоставляет каждому жителю одинакового шанса быть выбранным; однако если обратиться ко времени за- заселения домов, можно предполагать, что цвет глаз не влиял на географическое распределение людей, и, таким образом, если рассматривать распределение жителей по домам независимым от цвета глаз жителей, то выборку при исследовании цвета глаз можно считать случайной. Иначе было бы, если бы нас интересовал не цвет глаз, а доход, поскольку естественно ожи- ожидать, что дома, где живут более бедные люди, заселены более плотно, и выборка по одному человеку из каждого отобранного дома недостаточно представляла бы бедность. Такая выборка не была бы, следовательно, случайной по отношению к доходу. Таким образом, метод, который обоснованно может счи- считаться случайным для одной варианты, может не быть случай- случайным для другой варианты. Техника случайного выбора 9.9 Пусть имеется генеральная совокупность и фиксирована некоторая варианта. Как получить случайную выборку, т. е. как найти метод выбора, случайный для этой генеральной совокуп- совокупности и для этой варианты? Ответ содержится частью в теории, частью в практике. (а) Во-первых, следует требовать отсутствия явной связи ме- между методом выбора и рассматриваемыми свойствами элемен- элементов генеральной совокупности. Этот метод и эти свойства дол- должны быть независимы, насколько можно судить по нашим пер- первоначальным знаниям. Например, если производить выборку на пшеничном поле, интересуясь высотой растений, то не следует употреблять метод, на который может влиять их высота. На- Например, нельзя осуществлять отбор, бросая обруч низко над пшеницей и затем выбирая растения, оказавшиеся внутри об-
СЛУЧАЙНЫЙ ВЫБОР 295 руча после его падения (обруч может зацепиться за более вы- высокие растения). При составлении выборки жителей некоторого города посредством выбора фамилий из телефонной книги, не- несомненно, будет иметься тенденция к выбору людей более состоятельных, и, следовательно, если в качестве варианты рас- рассматривать богатство или какую-либо связанную с ним харак- характеристику, такую как число детей, политические взгляды, уро- уровень образования и т. д., то выборка тоже не будет случайной. Если бы мы интересовались такими характеристиками, как рост, цвет волос, группа крови, то выборка, возможно, была бы слу- случайной, хотя во многих подобных случаях нетрудно представить причины, по которым варианта могла бы быть связана с уров- уровнем жизни. Если рассматривать вопрос с точки зрения субъективной теории вероятностей, то отсутствие знаний о соотношении ме- между методом выбора и интересующей характеристикой может быть достаточным, чтобы обеспечить случайность, поскольку вероятности элементарных предложений являются тогда одина- одинаковыми: вероятности определяются априорным субъективным отношением*). Если же принять частотную точку зрения, то по- подобное отсутствие знаний станет недостаточным, так как могут иметься неизвестные для наблюдателя соотношения, в силу ко- которых элементарные предложения могут не быть приблизи- приблизительно одинаково частыми. Тогда предполагается, что если осу- осуществлены максимальные возможные усилия для нахождения существования каких-либо соотношений и если таковые при этом не обнаруживаются, то их вообще пет и, следовательно, метод можно считать случайным с большей или меньшей уве- уверенностью. При этом подходе допущение случайности, в конеч- конечном счете, является частью общей неопределенности заключений о генеральной совокупности по выборке. (б) Во-вторых, для оправдания использования какого-ни- какого-нибудь метода случайного выбора в новых обстоятельствах можно основываться на прошлом опыте его применения. Очевидно, это является экстраполяцией, и хотя большинство людей считает ее разумной, в этом нужно отдавать себе отчет. Субъективная теория вероятностей может включить эту экстраполяцию в свою сферу, поскольку определяемые этим методом вероятности можно оце- оценить по первоначальному знанию; частотная же теория должна принимать экстраполяцию как дополнительное допущение. *) По крайней мере, такова наша интерпретация этой ситуации. Спе- Специалисты по субъективной теории не обсуждали в печати проблему практи- практического выбора сколько-нибудь подробно, и не исключено, что мы даем не вполне верное истолкование их взглядов, которое они, возможно, пе примут.
296 ГЛАВА 9 9.10 Один из наиболее надежных методов получения слу- случайных выборок состоит в конструировании модели генеральной совокупности и производстве выбора из этой модели. Можно, например, записать характеристики каждого элемента на кар-* точку и производить выбор извлечением карточек из всего их набора, отвечающего всей генеральной совокупности. Этот ме- метод применяется при лотереях, а сам процесс известен как ло- лотерея, или выбор билетов. Он довольно эффективен, однако страдает на практике от двух недостатков: необходимости со- ставлять генеральную совокупность карточек и опасности при- пристрастия при их выборе. Чтобы быть разумно удовлетворенным случайностью перемешивания, необходимо много усилий и тру-» да, и та же цель может быть достигнута значительно более про- простым использованием случайных чисел, к рассмотрению которых мы теперь переходим. Случайные числа 9.11 Наиболее легкий путь конструирования компактной ге- генеральной совокупности состоит в сопоставлении каждому эле- элементу целого положительного числа (проще всего это дости- достигается нумерацией элементов числами 1, 2 и т. д.). Полученное множество целых чисел представляет собой компактную гене- генеральную совокупность, и задача получения случайной выборки сводится к нахождению последовательности случайных чисел. Преимущества этого метода очевидны: не нужно конструиро- конструировать никакую физическую модель генеральной совокупности; ну- нумерация элементов может быть произведена любым удобным образом; одна и та же последовательность случайных чисел мо- может применяться к любой перечислимой генеральной совокуп- совокупности, так что любая последовательность случайных чисел имеет широкую область применения. Одно обстоятельство следует здесь пояснить. Если нумера- нумерация элементов генеральной совокупности производится незави- независимо от некоторых их характеристик, то любое множество чисел годится для получения выборки, случайной по отношению к этим характеристикам. Случайность в таком случае лежит, так сказать, в распределении целых чисел по элементам генераль- генеральной совокупности, а не в решении, какие числа взять для вы- выборки. Практически, однако, подобного рода процедура значе- значения не имеет, поскольку она заменяет лишь одну трудность дру- другой — «случайной» нумерацией элементов генеральной совокуп- совокупности. Обычно элементы генеральной совокупности нумеруют любым удобным образом, связанным с характеристиками эле-
СЛУЧАЙНЫЙ ВЫБОР 297 ментов или нет, а затем выбирают случайное множество из мно- множества всех чисел, соответствующих элементам генеральной со- совокупности. 9.12 Один из наиболее очевидных способов получения слу- случайной выборки из пронумерованной генеральной совокупности состоит в использовании случайных чисел, взятых из какого- нибудь постороннего источника. Пусть, например, мы хотим про- произвести выборку из множества видимых на небе звезд. Будем игнорировать некоторые осложнения, возникающие из-за суще- существования двойных звезд и неясных объектов. Так как положе- положение звезды на небесной сфере определяется широтой и долго- долготой, то нам нужна тогда последовательность случайных пар широты и долготы. На первый взгляд кажется разумным взять обычный атлас и выбрать числа, соответствующие расположен- расположенным в алфавитном порядке названиям мест в указателе, по- поскольку вряд ли можно ожидать какую-либо связь между рас- распределением звезд на небе и распределением мест па земной поверхности. Небольшое размышление показывает, однако, что этот метод нехорош. На Земле существуют большие простран- пространства суши и моря, на которых пет названных мест, — полюсы, пустыни, океаны; следовательно, в выборке может не оказаться чисел, соответствующих этим районам, и на небесной сфере бу- будут исключающиеся области. 9.13 Можно было бы использовать иной метод: взять книгу, содержащую много цифр, например телефонный справочник или статистические или математические таблицы, открыть наудачу и выбрать те цифры, которые сразу бросаются в глаза или ко- которые находятся сверху страницы, и т. п. Этот способ лучше предыдущего, по и он открыт некоторым возражениям. (а) Телефонные справочники. Таблица 1.4 на стр. 22 пока- показывает распределение 10 000 цифр, взятых из лондонского те- телефонного справочника. Цифры выбирались со страниц, на ко- которых справочник открывался случайно; числа, состоящие меньше чем из четырех цифр, и числа, напечатанные жирным шрифтом, не использовались; из всех остальных четырехзнач- четырехзначных чисел, напечатанных на странице, брались две последние цифры. Если бы числа были случайны, то следовало бы ожи- ожидать, что каждая цифра должна была бы встречаться около 1000 раз среди всех 10 000 цифр. В действительности же име- имеются довольно значительные отклонения от ожидаемого числа, и в одной из последующих глав мы увидим, что эти отклонения нельзя полностью отнести за счет выборочных флуктуации. За- Заметно меньше 1000 имеется пятерок и девяток; это объясняется различными причинами: тенденцией избегать этих цифр из-за
298 ГЛАВА 9 сходного звучания*), резервирования чисел, оканчивающихся на 99, для испытательных целей телефонными служащими, и т. д. Очевидно, что с помощью подобных телефонных справочников нельзя построить таблицы случайных чисел. (б) Математические таблицы. Очевидно, следует быть осто- осторожным при использовании математических таблиц для по- построения случайных последовательностей. Возьмем, к примеру, таблицы логарифмов. Ясно, что имеется связь между последова- последовательными логарифмами, объясняемая тем фактом, что если ин- интервал невелик, то разности между табличными значениями приблизительно постоянны. Более того, справедлива любопыт- любопытная теорема о цифрах в некоторых классах таблиц, дающая ос- основание для теоретических сомнений относительно достоинств этого метода. Рассмотрим логарифмы по основанию 10 от на- натуральных чисел 1, 2 и т. д. Построим последовательность цифр, взяв &-ую цифру каждого логарифма. Оказывается, что относи- относительная частота любой цифры в этой последовательности не стремится к пределу**) при возрастании длины последователь- последовательности, каково бы нп было k. Что именно происходит, по-види- по-видимому, неизвестно, однако представляется правдоподобным, что некоторые систематические эффекты начинают проявлять себя, и это, очевидно, ставит под сомнение случайность последова- последовательности. в) Статистические таблицы. Если имеется некоторое множе- множество статистических данных таких, как численность населения городов и сельских районов, и если эти числа достаточно ве- велики— скажем, четырех или более зпачпые, — то есть основа- основания предполагать, что последние их цифры будут случайными. И здесь, однако, использование таких таблиц требует осторож- осторожности: они могли быть составлены наблюдателем, пристрастным к некоторым цифрам; возможно, также имело место некоторое округление. 9.14 Необходимость каждому занимающемуся статистикой строить самому случайные последовательности была устранена публикацией различных таблиц случайных чисел. Имеется це- целый ряд их. (а) Таблицы Типпетта, содержащие 41 600 цифр, взятых из отчетов по переписи населения и сгруппированных в 10 400 че- четырехзначных чисел {Tracts for Computers, No. 15). (б) Таблицы Кендалла и Бэбингтона Смита, содержащие 100 000 цифр, сгруппированных по две и по четыре (Tracts for *) По-английски 5 — five «фанв», 9 — nine «наип». (Прим. перев.) **) Ср. И. Франел (J. Franel), Vierteljahrschrift der Naturforschenden Ge- sellschaft in Zurich A917) 62, 286.
случайный выеюр 299 Computers, No. 24). Эти числа были получены с помощью спе- специально построенного прибора, кратко описанного в при- примере 9.3. (в) Таблицы Фишера и Иэйтса содержат 15 000 цифр, сгруппированных по две {Statistical Tables for Biological, Agri- Agricultural and Medical Research). Они были получены с помощью 15—19-значпых таблиц логарифмов А. Томпсона и после того, как обнаружилось, что в них слишком много шестерок, улуч- улучшены. (г) Рэпд Корпорейшен опубликовал миллион случайных цифр (A Million Random Digits A955)), расположенных груп- группами по пять. Они были получены с помощью специального рулеточного колеса; интересно отметить, что даже после не- нескольких проверок на наличие систематичности эти числа не яв- являлись вполне случайными и их следовало еще улучшить. Вышеупомянутые таблицы состоят из рандомизированных цифр. Волд (Tracts for Computers, No. 25) составил таблицу 25 000 нормальных отклонений, используя для этого таблицы Кендалла и Бэбингтона Смита и таблицы нормального инте- интеграла. Филлер и другие (Tracts for Computers, No. 26) опубли- опубликовали 27 000 пар нормальных отклонений, коррелированных в заданных пределах. Книга, выпущенная Рэнд Корпорейшен, также содержит 100 000 нормальных отклонений*). 9.15 Прежде чем подробно рассматривать эти таблицы, бу- будет, пожалуй, полезно привести несколько примеров их исполь- использования. Вот первые 100 цифр из таблиц Кендалла и Бэбинг- Бэбингтона Смита. Таблица 9.5 Случайные числа (Tracts/or Computers, No. 24) 2 315 0 554 1487 3 897 9731 7 548 5 550 1603 6 749 2617 5 901 4 310 5 032 5194 1899 8 372 5 374 4 043 0 517 7 553 5 993 3 508 6 223 5 853 0 870 7 624 9 061 5 005 7 880 9 425 9 708 1837 1003 5 901 1258 8 695 4410 2211 9 432 4 154 2 303 9 622 5 438 4 287 8 821 6 744 1343 0 834 1695 0 513 Пример 9.5 Произвести выборку объема 10 из генеральной совокупности 8585 мужчин, приведенной в таблице 1.7. *) Кэнуй (Quenouille, 1959, Biometrika 46, 178) приводит 1000 случайных отклонений для каждого из девяти распределений: нормального, лопюрмаль- иого, экспоненциального, двойного экспоненциального, прямоугольного и трех разложений Эджворта, [В сборнике Таблицы математической статистики дани 12 500 случайных цифр и 2500 нормальных отклонений с тремя десятичными знаками. (Прим. ред.)]
300 ГЛАВА 9 Первое, что нужно сделать, — пронумеровать элементы ге- генеральной совокупности. Здесь, как и во многих подобных слу- случаях, одна нумерация уже произведена частотным распределе- распределением, Припишем мужчинам, принадлежащим группе 57— дюй- дюймов, номера 1 и 2, мужчинам, принадлежащим группе 58—, номера от 3 до 6 и т. д., те, которые оказались в группе 77—, будут иметь номера 8584 и 8585. Возьмем теперь 10 четырехзначных чисел из таблиц; напри- например, читая таблицу 9.5 по строке, имеем 2315, 7548, 5901, 8372, 5993, 7624, [9708], [8695], 2303, 6744, 0554, 5550. Два числа, заключенных в квадратные скобки, больше 8585, и мы их поэтому не учитываем. Выберем теперь индивидуумы, соответствующие остальным десяти числам. Они оказываются принадлежащими интервалам 65—, 70—, 68—, 72—, 68—, 70—, 65—. 69—, 63—, 68— дюймов соответственно. Среднее этих значений, если их считать равными серединам интервалов, которым они принадлежат, будет 68,24, в то время как среднее значение по всей генеральной совокупности рав- равно 67,46. Пример 9.6 Произвести выборку объема 12 из генеральной совокупности, о которой идет речь в нижеприводимой таблице с двумя вхо- входами, показывающей соотношение между инокуляцией и забо- заболеванием холерой. Инокулированные . . . Не инокулироваиные . Всего . . . Не заболевшие 276 @001—3312) 473 C349—9024) 749 Заболевшие 3 C313—3348) 66 (9025—9816) 69 Всего 279 539 818 Всего в генеральной совокупности 818 элементов. Мы могли бы, конечно, взять трехзначные цифры из таблиц, например из таблицы 9.5: 231, 575, 485 и т. д. Однако это не очень удобно, поскольку цифры не сгруппиро- сгруппированы тройками. Удобнее взять, как и выше, четырехзначные
случайный выбор 301 числа и каждому элементу генеральной совокупности сопоста- сопоставить 12 чисел: например, первому поставить в соответствие числа от 0001 до 0012, второму — от 0013 до 0024, и т. д. Получающиеся при этом числа в приведенной выше таблице указаны в скобках. Числа, большие чем 9816, во внимание не принимаются. Два опущенных в предыдущем примере числа можно теперь использовать, и все 12 выписанных там чисел приводят к сле- следующим результатам: Инокулированные . . . Не инокулированные Всего . . . Не заболевшие 3 8 11 Заболевшие 0 1 1 Всего 3 9 12 Здесь, например, элемент, соответствующий числу 2315, при- принадлежит группе не заболевших инокулированных и т. д. В этом примере так случилось, что ни один элемент из са- самой малой группы, состоящей из инокулированных и заболев* ших, не оказался выбранным. Предположим, что у нас получи- получилась бы последовательность, содержащая числа 3314, 3323, 3333, 3341. Все они соответствуют элементам, принадлежащим самой малой группе, которая содержит только три элемента. Если бы мы столкнулись с такой ситуацией, мы должны были бы решить,, нужно ли производить выбор с возвращением или без него. В случае выбора без возвращения следовало бы предположить, что первые три числа из последовательности 3313—3348 исчер- исчерпали бы соответствующую группу элементов генеральной сово- совокупности, и не принимать во внимание любые числа, соответ- соответствующие этой группе, встречающиеся впоследствии. ртметим, что использование случайных чисел предполагает обычно выбор с возращением. Если же мы хотим производить выбор без возвращения, то нам не следует использовать одно и то же число дважды. Это предполагает регистрирование тех чисел, которые уже использовались, — скучную и утомительную процедуру, исключая случаи, когда выборка или генеральная совокупность мала.
302 ГЛАВА 9 Пример 9.7 Построить последовательность случайных перестановок всех цифр от 1 до 5. Поскольку цифры 0, 6, 7, 8 и 9 в данной задаче нас не инте- интересуют, мы не будем принимать их во внимание в таблице слу- случайных чисел. Читаем таблицу и отмечаем цифры в том порядке, в каком они записаны, например, в таблице 9.5 имеем 2315 7548 и т. д. Цифру 7 игнорируем так же, как и вторую пятерку, по- поскольку одна пятерка уже появилась. Получаем перестановку 23154. Дальше продолжаем аналогично. Поскольку следующие цифры суть 8 59018372 5993 7624..., то второй перестановкой будет 51324 и т. д.*). Пример 9.8 Произвести случайную выборку объема 10 из нормальной генеральной совокупности Этот случай особенно интересен, поскольку здесь нам нужно сделать выборку из бесконечной генеральной совокупности. Как мы уже видели, такой процесс может рассматриваться только в предельном смысле. Предположим, что числовая прямая, которую здесь можно идентифицировать с генеральной совокупностью, разбита на ин- интервалы длины 0,1. Из таблицы значений нормального интегра- интеграла (см., например, Приложение, таблица 2), находим значения F(x), приведенные на стр. 303. Чтобы выбрать значение случайной переменной х, распреде- распределенной в соответствии с F(x), теперь можно использовать че- четырехзначные случайные числа: например, числу 5461 соответ- соответствует + 0,1—, а числу 3500 соответствует —0,4—. Если бы мы взяли таблицу, в которой числа приводятся с точностью до п-го знака после запятой, то нам потребовались бы n-значные случайные числа. Конечно, можно получить более точную аппроксимацию, беря меньшие интервалы. Такие вопро- вопросы следует решать с точки зрения степени нужной аппроксимации. *) Таблицы 400 случайных перестановок чисел от 1 до 20 приведены в книге Кендалла Rank Correlation Methods, изд. 3-е (Griffin, 1962). Переста- Перестановки меньшего, чем 20, количества чисел могут быть получены отбрасыва- отбрасыванием ненужных чисел. С помощью очевидных приемов из них можно получить также 800 перестановок всех чисел от 1 до 10, 1600 перестановок всех чисел от 1 до 5 и т. д. Кокрэн и Кокс в книге Experimental Designs (Wiley, 1950) приводят по 1000 перестановок 9 и 16 целых чисел.
СЛУЧАЙНЫЙ ВЫВОР 303 X —оо —37 —3,6 —3,5 —0,4 -0,3 —0,2 —0,1 0,00000 0,00011 0,00016 0,00023 0,3085 0,3821 0,4207 0,4602 0,0 ОД 0,2 0,3 3,5 3,6 3,7 оо /¦, к 0,5000 0,5398 0,5793 0,6179 0,99977 0,99984 0,99989 1,00000 ,10 9.16 Чтобы случайные числа могли использоваться, они дол- должны удовлетворять некоторым условиям. Любое множество чисел является случайным в том смысле, что оно могло появить- появиться в результате случайного выбора, однако не всякое такое множество подходит в качестве таблицы случайных чисел. Из вышеприведенных примеров ясно, что желательно иметь таб- таблицу, обладающую большой гибкостью. Она должна давать слу- случайные результаты в возможно большем числе случаев вне за- зависимости от того, используется она частично или целиком. Однако невозможно построить таблицу случайных чисел, ко- которая полностью удовлетворяла бы этому требованию. Предпо- Предположим, беря крайний случай, что построена таблица из 1010 цифр. Вероятность любой цифре оказаться нулем равна -г^, и поэтому вероятность того, что любое заданное множество из миллиона цифр состоит из нулей, естьЮ"0*. Таких групп, следо- следовательно, было бы довольно много в совокупности Ю10'0 групп, по миллиону цифр в каждой. В противном случае все множество не было бы удовлетворительным для некоторых выборочных экспериментов. Ясно, однако, что множество из миллиона нулей не подходит для получения выборок в эксперименте, требующем меньше, чем миллион цифр. Таким образом, следует ожидать, что в таблице случайных чисел будут появляться куски, не подходящие для использова- использования сами по себе. Редкое должно иметь возможность появляться
304 ГЛАВА 9 в соответствующей малой пропорции. Кендалл и Бэбингтон Смит пытались принимать во внимание это обстоятельство, указывая части их таблицы E тысяч из 100 тысяч), которые лучше не ис- использовать в выборочных экспериментах, требующих меньше 1000 цифр. 9.17 Если таблица случайных чисел используется для извле- извлечения элементов из генеральной совокупности объема 10, то мы ожидаем появления элементов в приблизительно одинаковых пропорциях. Иными словами, мы рассчитываем, что такая таб- таблица содержит десять цифр 0—9 в приблизительно одиноковых пропорциях. Точно так же мы рассчитываем на появление в при- приблизительно одинаковых пропорциях ста пар 00—99 и т. д. Можно придумать различные тесты этого типа, основываясь на сравнении действительных частот с частотами, которые должны быть согласно законам теории вероятностей. Ни одна таблица не может удовлетворять им всем, однако если она удовлетворяет тестам: (а) обеспечивающим случайность чисел для тех общих типов выборочных исследований, для которых она предназна- чается, и (б) способным обнаружить любой вид пристрастия, которому числа подвержены в силу способа их построения, — то она может иметь общее применение. 9.18 Развитие быстродействующих вычислительных машин сделало возможным ввести в некоторые из них «рандомизирую- щее устройство», которое производит случайные выборки. Ис- Использование таких механизмов требует исследования; предста- представляется трудным произвести множества чисел, удовлетворяющие обычным тестам на случайность. Еще один из применявшихся методов состоит в возведении чисел в очень высокие степени и в выборе цифр из середин так полученных очень больших чисел. Созданные этим путем «псев- «псевдослучайные числа» также могут не выдерживать тестов на слу- случайность. С другой стороны, при некоторых обстоятельствах они могут быть полезны в выборочных экспериментах по одной из следующих двух различных причин: они могут быть «приблизи- «приблизительно» случайными; если их взять в достаточном количестве, то ими можно пронумеровать все возможные выборки, хотя и в не- нерегулярном порядке. Широкое использование этого метода не- небезопасно без значительного опыта. Выбор из непрерывной генеральной совокупности 9.19 Использование случайных чисел является наилучшим известным в настоящее время методом для получения случай- случайных выборок из перечислимой генеральной совокупности. Как видно из примера 9.8, этот метод может быть также использован
СЛУЧАЙНЫЙ ВЫ1ЮР 305 для получения случайных выборок из непрерывной генеральной совокупности с распределением известной математической фор- формы. Однако иногда встречаются случаи, когда случайные числа использовать нельзя. Например, если мы хотим взять выборку молока или муки, то мы практически не можем перенумеровать каждую частицу и выбрать ее из генеральной совокупности для изучения. В таких случаях мы обычно вынуждены использовать более интуитивные методы. Например, чтобы взять случайную выборку из маслобойки, можно тщательно взболтать ее содер- содержимое и затем зачерпнуть пробу наудачу. В некоторых случаях, когда генеральная совокупность не очень велика, можно дей- действовать по единой схеме: разбить генеральную совокупность на несколько групп и выбирать эти группы с помощью обычной техники, используя случайные числа. Многие науки имеют свои собственные, специфические задачи, связанные с выбором, и нет возможности обсуждать здесь их все. На этом заканчиваем рас- рассмотрение техники случайного выбора и в дальнейшем предпо- предполагаем, если не оговорено противное, что обсуждаемый мате- материал получен с помощью некоторого случайного процесса. К сравнению эффективности различных методов выбора мы вер- вернемся в третьем томе. Выборочное изучение качественных признаков 9.20 В качестве введения в общие проблемы выбора мы рас- рассмотрим выбор с целью изучения качественных признаков, кото- который содержит в себе многие принципиальные трудности и в то же время не затемняется математической техникой. Предположим, что имеется случайная выборка из генераль- генеральной совокупности, все элементы которой обладают либо каче- качеством А, либо противоположным ему качеством — не-Л. Пусть объем выборки равен п и доля элементов, обладающих каче- качеством А, равна р, т. е. имеется рп таких элементов; доля и коли- количество элементов, обладающих качеством не-А, равны тогда со- соответственно q и qn(p + q—\). Мы будем предполагать, что генеральная совокупность велика, или что выбор производится с возвращением. Тогда вероятность выбрать элемент с каче- качеством А в каждом отдельном случае не зависит от других вы- выборов и, следовательно, постоянна, скажем равна со. Нам нужно рассмотреть три типа задач: (а) Пусть имеется основание полагать долю элементов, обла- обладающих качеством А, известной и равной со. Подтверждает на- наблюденная доля р эту гипотезу или отклонение от со столь велико, что вызывает сомнение в ее правильности? Пусть, на- например, скрещивая растения, обладающие двумя различными 20 М. Кендалл, А. Стыоарт
306 ГЛАВА 9 качественными признаками, скажем высокий и низкий горох, мы хотим проверить простой закон Менделя о наследовании доми- доминантных и рецессивных признаков. Если скрестить между собой два чистых вида высокого и низкого гороха, а затем скрестить между собой растения этого первого поколения, то согласно про- простому закону Менделя во втором поколении относительные ча- частоты «низких» и «высоких» будут 3/4 и 1/4 при доминировании признака «низкий» и 1/4 и 3/4 при доминировании признака «высокий». Предположим, что мы производим такой экспери- эксперимент и для 400 растений частоты оказываются равными 70 и 330. Могло ли это отклонение от теоретических значений 100 и 300 возникнуть случайно или оно достаточно велико, чтобы вызвать сомнение в справедливости простого закона Менделя? (б) В задаче предыдущего типа имеется определенное осно* вание для проверки значения со, данного a priori. Но мы можем ничего не знать об со, и в этом случае основной задачей будет оценка со по выборке. (в) Оценив о, мы хотим узнать степень надежности этой оценки. Насколько сильно оценка может отклоняться от истин- истинного значения со? 9.21 Рассмотрим первый тип задачи, когда ы задано a priori. Если производятся повторные выборки объема п из рассматри- рассматриваемой генеральной совокупности, то распределение числа эле- элементов с качеством А в выборке будет задаваться членами раз- разложения биномиального выражения (% + а)п, где х=1—<в. (Это есть не что иное, как биномиальное распределение, рассмотрен- рассмотренное в 5.2; мы используем здесь греческие буквы вместо р и q для выделения того факта, что они суть параметры генеральной совокупности). Вероятность Р иметь в выборке пр или меньше элементов с качеством А равна сумме первых пр+1 членов это- этого распределения. Гипотеза проверяется следующим образом: Р сравнивается с заранее заданной (обычно малой) вероят- вероятностью ошибки а, которую мы готовы допустить при отвержении гипотезы; если Р больше а, то гипотеза не отвергается, если а больше Р, то гипотеза отвергается. Внешне эта процедура представляется разумной: гипотеза отвергается, если наблюденное значение статистики оказывается в наиболее «неправдоподобной» области в смысле выборочного распределения. Удовлетворительный анализ логики этого теста, однако, будет сделан лишь в результате более детального об- обсуждения, содержащегося во втором томе. Следует отметить, что определенное выше Р относится толь- только к одному из «хвостов» выборочного распределения. В прак- практике для тестов более часто используются Р, учитывающие оба хвоста распределения. Иначе говоря, часто гипотеза отвергается,
СЛУЧАЙНЫЙ ВЫБОР 307 •если в результате теста получается значение либо меньшее, либо большее по сравнению с ожидаемым числом элементов со свой- свойством А в выборке, в то время как в других случаях нам бы- бывают интересны отклонения только в одну сторону. Детальное обсуждение рациональности этих тестов опять-таки придется отложить до второго тома. Отметим лишь, что в рассмотренном выше примере с законом Менделя следует использовать интуи- интуитивно ясный подход, считая только наличие малого количества «высоких» растений противоречащим гипотезе доминантности признака «высокий». Пример 9.9 При некотором проведении опытов с подбрасыванием монеты в 20 бросаниях 15 раз выпал «герб». Противоречит ли это гипо- гипотезе о симметричности монеты? Здесь нам нужно проверить гипотезу ы=-^. Несимметрич- Несимметричность монеты может вызывать преимущественное выпадение как герба, так и решетки, и поэтому мы вычислим Р, учитывая оба конца выборочного распределения. Вероятность того, что при 20 бросаниях выпадет 15 или более гербов, есть сумма первых шести членов разложения (о"-"г; ; согласно таблице 5.2 она равна 0,0207. В силу симметрии это же число дает вероятность выпадения 15 или более решеток. Следовательно, Р = 0,0414. Если бы допускался риск ложного отвержения гипотезы, мень- меньший чем 0,0414, то гипотеза не была бы отвергнута. В противном случае гипотеза отвергалась бы. Обычно допускают риск, рав- равный 0,05; в этом случае нашу гипотезу следовало бы отвергнуть. 9.22 В только что приведенном примере мы намеренно взяли небольшое значение п так, чтобы элементы разложения бино- биномиального выражения могли быть непосредственно вычислены. В практике п часто довольно велико—100 или более — и вы- вычисление и суммирование отдельных членов было бы громозд- громоздким и утомительным. Если требуется полная точность, то можно использовать метод суммирования, предложенный в 5.7, основы- основывающийся на применении неполной В-фуикции, или воспользо- воспользоваться указанными там таблицами. Однако для обычных целей вполне достаточно использовать аппроксимацию биномиального распределения нормальным. В примере 4.6 мы видели, что при п->оо биномиальное распределение стремится к нормальному, имеющему, в наших теперешних обозначениях, среднее «со и дисперсию «сох- Следовательно, нужные вероятности можно вы- вычислять с помощью нормального интеграла. На самом деле для 9П*
308 ГЛАВА 9 многих целей вообще нет необходимости проводить действительные вычисления. Согласно таблицам нормального интеграла (при- (приложение, таблица 2) вероятность того, что абсолютное откло- отклонение не менее стандартного отклонения, равна 0,3173; точно так же удвоенному стандартному отклонению соответствует вероятность 0,0455, утроенному 0,0027, учетверенному *) 0,00006. Следовательно, если в качестве области отклонения гипотезы принять дополнение к интервалу па> ± 2 Yn<i>X> то вероятность ложного отклонения будет равна 0,0455. Аналогично опреде- определяются вероятности для других интервалов с концами, крат- кратными Уп.к>%- Нет никакой разницы, сравниваем ли мы действительные или относительные частоты, поскольку при делении варианты на константу среднее и стандартное отклонение меняются оди- одинаково. Пример 9.10 В одном из экспериментов с игральными костями Уэлдон подбросил кости 49 152 раза. В 25 145 случаях выпадали 4, 5 или 6. Согласуется ли это с гипотезой о симметричности костей? Если кости симметричны, то вероятность выпадения 4, 5 или 6 равна !/2- Следовательно, «со = 24 576 и наблюденное пр отли- отличается от па на 569. Далее, стандартное отклонение равно =^/'49 152 -J --g- = 110,9. Наблюденное отклонение здесь в пять раз превосходит стан- стандартное. Соответственно у нас имеется очень сильное подозре- подозрение в несимметричности костей. Стандартная ошибка 9.23 В биномиальном случае величина Vnwf. является стан- стандартной ошибкой статистики пр. Стандартная ошибка — важное статистическое понятие. В общем случае стандартная ошибка определяется как стандартное отклонение статистики. Оно осо- особенно важно в том, относительно широком, классе случаев, ког- когда исходное распределение может считаться нормальным либо точно, либо с соответствующей степенью приближения. 9.24 Обратимся теперь к случаю (б), в котором значение со a priori не задано. Если относительная частота элементов со *) Приводимые здесь значения вероятностей более точны, чем те, кото- который можно получить из таблицы 2 приложения. (Прим. перев.)
СЛУЧАЙНЫЙ ВЫБОР 309" свойством А в выборке равна р, то какую величину взять в ка- качестве оценки для со? Наиболее очевидное решение — взять само р; это же решение диктуется более тонкими соображениями, описанными в главе 8. Прежде всего рассмотрим метод максимального правдопо- правдоподобия. Вероятность получить пр элементов со свойством Л и nq — со свойством не-Л равна K*"*. (9-1) Эта величина, рассматриваемая как функция от со, есть функ- функция правдоподобия. Нам нужно, следовательно, максимизиро- максимизировать по ю функцию L = kanp(\~ со)"*. _ . dL д ,. т, 1 dL Так как L неотрицательна, то -^ и -^-(IogL) = j- -^- имеют одни и те же нули и, стало быть, достаточно максимизировать logL. Имеем и 1 — со Отсюда непосредственно получаем значение оценки со: © = />. (9.2) Метод Байеса дает тот же результат, если предположить не- непрерывную равномерную распределенность со между 0 и 1. В са- самом деле, имеем Р(а\р)осР(а\Н)Р{р\аН), (9.3) occo"V? da. (9.4) Максимум и здесь достигается при со = /?. Имеется иной аспект задачи отыскания оценки. Предполо- Предположим, что из генеральной совокупности, в которой элементы со свойством А составляют со-ю часть, а со свойством не-Л состав- составляют Х"Ю, взято большое число выборок объема п. Нашей оцен- оценкой для со в каждом случае является р, причем р меняется от выборки к выборке. Среднее значение этой оценки равно р-0 Подобного рода оценки, средние значения которых совпадают с оцениваемыми параметрами, называют несмещенными. Несме- Несмещенные оценки в известном смысле можно считать надежными..
Э-10 ГЛАВА 9 9.25 Все подходы в этом случае, следовательно, ведут к од- ному и тому же заключению (счастливое обстоятельство, кото- которое, как будет видно в дальнейшем, не всегда имеет место). Рас- Рассмотрим теперь следующую нашу задачу (в): какова надеж- надежность оценки? Иными словами, насколько сильно оценка может отличаться от истинного значения? Мы знаем, что вероятность выборочному значению отли- отличаться от а) на t У(«х)/л уменьшается при возрастании t. Сле- Следовательно, с заданной степенью надежности можно сказать, что абсолютной величине разности между р и со невероятно оказать- оказаться больше некоторой заданной величины. Но чтобы указать эту заданную величину, нужно знать м, а о> мы как раз и ищем. Так поставленную задачу можно решить только приближен- приближенно. При больших п стандартная ошибка величины р имеет по- рядок ft 2. Положим — k г Т~ 1 г? Имеем, пренебрегая величинами порядка п~1, Следовательно, при больших п стандартная ошибка величины р равна приблизительно у ~- Мы получили весьма важный результат — при больших выборках из генеральных совокупно- совокупностей рассматриваемого типа стандартную ошибку можно вычис- вычислять, используя вместо (неизвестных) значений оцениваемых па- параметров их оценки. Во втором томе будет рассмотрен иной подход, свободный от необходимости подобного рода аппроксимации. Пример 9.11 Произведена выборка объема 600, и в пей оказалось 240 эле- элементов, обладающих качеством А. Имеем: р = 0,40, пр = 240, Ynpq—\2. Можно считать, следовательно, маловероятным от- отклонение «со от 240 больше чем на 24 и очень маловероятным
СЛУЧАЙНЫЙ ВЫБОР 311 отклонение, большее 36. С определенной степенью уверенности можно утверждать, стало быть, что величина па лежит в ин- интервале 240±24, и с большой степенью уверенности можно ут- утверждать ее принадлежность интервалу 240±36. 9.26 Обратимся теперь к общему рассмотрению проблем вы- выбора, проиллюстрированных выше на примерах. Отметим прежде всего ту роль, которую играет здесь распределение выборочной характеристики. По наблюдениям мы строим некоторую стати- статистику /. Распределение этой статистики обычно (но ве всегда) зависит от некоторых параметров исходного распределения. По вероятности наблюденного значения / с помощью одного из ме- методов— байесовского, максимума правдоподобия и т. д. — мо- можно делать некоторые заключения об этих параметрах; иными словами, мы получаем информацию об исходном распределении. Распределения выборочных статистик, таким образом, очень важны для всей теории. Несколько последующих глав целиком будут посвящены методам нахождения выборочных распреде- распределений, отвечающих заданным генеральным совокупностям. Проверка гипотезы относительно генеральной совокупности, выражаемой в терминах некоторых заданных a priori парамет- параметров, довольно проста. При фиксированных значениях парамет- параметров по соответствующему выборочному распределению мы мо- можем определить вероятность наблюденного значения статистики и затем использовать эту вероятность для оценки приемлемости гипотезы. Но и здесь, однако, могут возникать осложнения, поскольку в общем случае несколько статистик можно по- построить по одной и той же выборке, и не все они необходимо ведут к одинаковому заключению относительно гипотезы; на- например, выборка может иметь среднее, дающее основание со- сомневаться в гипотезе, и дисперсию, которая такого основания не дает. Более полно эта трудность будет обсуждаться во вто* ром томе. 9.27 В том случае, когда параметры генеральной совокуп* ности не заданы a priori, мы имеем двойную задачу — оцепить параметры по выборке и установить вероятные границы для по- полученных оценок. Мы уже касались некоторых принципов оты- отыскания оценок. Этот вопрос будет рассмотрен более система- систематически в соответствующем месте. Когда оценка получена (она сама является статистикой), ищется ее распределение, с по- помощью которого можно указать вероятные границы истинного значения параметра. В специальный класс выделяются случаи, когда можно найти статистику, распределение которой зависит только от одного параметра генеральной совокупности (как в случае генеральной совокупности, каждый из элементов кото- которой обладает одним из двух противоположных качеств).
312 ГЛАВА 9 9.28 Если выборка велика, то при рассмотрении этих послед- последних типов задач можно пользоваться некоторой важной аппрок- аппроксимацией. В главе 7 мы видели, что при весьма широких усло- условиях распределения сумм п независимых произвольно распре- распределенных случайных величин приближаются к нормальному с ростом п. Но многие из обычно используемых статистик (на- (например, все моменты) можно представить в виде суммы слу- случайных величин. Для относительно большого числа других статистик также можно показать, что они распределены приблизительно нор- нормально при больших выборках. Таким образом, при изучении рассматриваемого круга во- вопросов используются следующие аппроксимации: (а) статистика, вычисленная по выборке, берется в качестве оценки соответствующего параметра генеральной совокупности; например, дисперсию выборки можно взять в качестве оценки дисперсии генеральной совокупности; (б) среднее и дисперсия распределения статистик вычис- вычисляются с использованием вместо неизвестных значений пара- параметров самих значений статистик, определенных в соответствии с (а); (в) распределение статистики предполагается нормальным и нужные вероятности находятся с помощью нормального инте- интеграла с использованием выборочных среднего и дисперсии (по- (последняя равна квадрату стандартной ошибки). 9.29 Ответить на вопрос, как велико должно быть я, чтобы можно было пользоваться этими аппроксимациями, вовсе не всегда просто. Для некоторых распределений, в частности для распределения среднего, вполне удовлетворительная аппрокси- аппроксимация получается при небольших значениях п, скажем «>30. В случае других распределений хорошая аппроксимация полу- получается лишь при значительно больших п; например, для распре- распределения коэффициента корреляции при выборках из нормальной генеральной совокупности даже столь большие значения п, как 500, недостаточно еще хороши. Скорость приближения распре- распределения статистики к нормальному в действительности зависит как от вида исходного распределения, так и от рассматриваемой статистики. Пример 9.12 Возвращаясь к биномиальному распределению, посмотрим, какие появляются отличия в случае выбора без возвращения. Если из генеральной совокупности размера N, содержащей Not элементов с качеством А, извлекается случайная выборка
СЛУЧАЙНЫЙ ВЫБОР 313- без возвращения объема п, то распределение доли р элементов в выборке, обладающих качеством А, является гипергеометри- гипергеометрическим распределением E.18), общий член которого в наших те- теперешних обозначениях имеет вид \пр Среднее значение р для этого распределения согласно E.53) равно со, так что доля элементов в выборке с качеством А по- прежнему остается несмещенной оценкой доли таких элементов в генеральной совокупности. В рассматриваемом случае р не является уже ни байесовской оценкой, ни оценкой максималь- максимального правдоподобия (см. упражнение 9.10), однако обе эти оценки (имеющие здесь довольно сложный вид) отличаются от р только на величину порядка N'1. Дисперсия р, равная согласно E.55) Di—i^F?- 0.7) отличается от дисперсии р, соответствующей обычному бино- биномиальному случаю (выбор с возвращением), множителем (N — n)/(N—1), который меньше единицы при п>\. Диспер- Дисперсия р при выборе без возвращения меньше, следовательно, дис- дисперсии р при выборе с возвращением; это и интуитивно ясно, поскольку экстремальных возможностей больше при выборе с возвращением. Пример 9.13. Последовательный выбор Иногда встречаются случаи, особенно при выборочном изу- изучении качественных признаков, когда объем выборки не фикси- фиксируется заранее. Точнее, вместо извлечения выборки размера п и наблюдения числа г{ = пр) «успехов», иначе — появлений каче- качества, выбор продолжается до тех пор, пока не появится зара- заранее заданное число успехов г. В этом случае г фиксировано и п является случайной величиной. Легко найти распределение п. Вероятность того, что среди первых п — 1 извлечений имеется г — 1 успехов, равна { j шг~1хп~г- Вероятность того, что следующее извлечение доставляет успех, равна о. Следовательно, распределение п имеет вид (поскольку выбор не может прекратиться, пока не извлечено по меньшей мере г элементов) V, s = r. r 4-1 on (9.8)
314 ГЛАВА 9 Последовательные его члены, равные совпадают с последовательными членами отрицательного бино- биномиального распределения [со/0—х)]г- Это — иная форма ре- результата, полученного в 5.14. Согласно E.38) среднее и дис- дисперсия этого распределения равны соответственно г%/со и r%/to2. Метод максимального правдоподобия в качестве оценки со дает здесь, как и в случае обычного биномиального распреде- распределения, значение р. Однако теперь эта оценка не является не- несмещенной. В самом деле, покажем, что (г— 1)/(«— 1) естьне- смещенная оценка для со. Имеем Отсюда следует смещенность оценки r/п, поскольку, будучи всегда больше (за исключением лишь случая г=п), чем (г— 1)/(« — 1), она не может иметь одинаковое с (г—1)/(«—1) среднее. Любопытно, что тем не менее п/г является несмещенной оценкой I/to, так как М (п) =г/«. На первый взгляд это представляется довольно парадоксаль- парадоксальным. Ведь п/г есть несмещенная оценка для 1/со, но г/п — сме- смещенная оценка для со. Причина этого, конечно, в довольно произвольном определении смещенности как отклонения от среднего значения. Не следует удивляться тому, что одновре- одновременно М(х)=а и ЬЛ(\/х) не равно 1/а. Для положитель- положительных случайных величин это, как правило, так (см. упражне- упражнение 9.13). Метод выбора, которым мы пользовались, производя наблю- наблюдения до тех пор, пока не появится определенное число «успе- «успехов», иногда называется «обратным выбором» (против этого тер- термина имеется ряд возражений). Он представляет собой частный случай изучающегося во втором томе метода, известного под названием последовательный выбор (для изучения качествен- качественных признаков). Характерной чертой этого более общего метода является то, что в каждый момент вопрос о продолжении испы- испытаний решается на основе данных, полученных до этого мо- момента.
СЛУЧАЙНЫЙ ВЫБОР 315 УПРАЖНЕНИЯ 9.1 Из 10 000 детей, родившихся в некоторой стране, 5100 оказались маль- мальчиками. Рассматривая это как случайную выборку рождений в этой стране, показать, что она вызывает значительные сомнения в равенстве частот рожде- рождения детей обоих полов. Выяснить, насколько сильно изменился бы вывод, если бы выборка со- состояла из 1000 рождений, 510 из которых дали мальчиков. 9.2 В выборке объема п.\ из генеральной совокупности Л1 доля элементов, обладающих качеством А, оказалась равной рь В другой, не зависящей от первой, выборке объема пг из генеральной совокупности я2 соответствующая доля равна рг. Чтобы проверить, одинаковы ли доли элементов с качеством А в обоих генеральных совокупностях, предлагается рассматривать разность- Pi—Рг- Показать, что в предположении равенства исходных долей указанная разность имеет среднее нуль, а в качестве оценки для ее дисперсии можно взять (Л, + Я2)}, где ?i = l — Pi, ?2= I — Pi- 9.3. Пусть нужно оценить <о по простой случайной выборке, в которой доля успехов р. Если f — априорная вероятность со, то апостериорная вероят- вероятность (о согласно теореме Байеса пропорциональна величине A—«>)"«. Показать, что величина эта достигает максимума, когда LjL + я ?Г"\=о ¦L-jL + я ?Г\=о- / 0@ ' @A —«) Вывести отсюда, что вообще, какова бы ни была априорная вероятность и, решение этого уравнения стремится к а—р при возрастании п. 9.4 Используя неравенство Бьенэме — Чебышева, показать, что при выбо- выборе для изучения качественных признаков из большой генеральной совокуп- совокупности вероятность того, что наблюденная доля р в выборке объема п отли чается от доли со в генеральной совокупности более чем на k, не превосходи* 1/Dп/г2). (Это — точный результат. При его выводе не делается допущений о пре- предельной нормальности рассматриваемого биномиального распределения и не используются оценки в вычислении стандартных ошибок. Однако указываемые здесь границы обычно слитком широки.) 9.5 В большой генеральной совокупности доля ш элементов, обладающих качеством Л, мала. Показать, что метод максимального правдоподобия в ка- качестве оценки для ы по выборке объема п даст долю элементов с качест- качеством Л в этой выборке. Установить, что оценка эта несмещенная и что для дисперсии числа наблюденных элементов с качеством А, скажем щ, оценкой может служить п.\. 9.6 В k различных генеральных совокупностях доли элементов, обладаю- обладающих различными качественными признаками, равны и,, «2, ..., <ой. С вероят- вероятностью -г случайно выбирается одна из генеральных совокупностей и из нее делается случайная выборка с возвращением объема п, содержащая р-ю долю элементов, обладающих качественным признаком. Показать, что при по- повторении этого процесса (включая повторный выбор генеральной совокупности^
316 ГЛАВА 9 среднее значение р будет равно в>=2й>(/*> а дисперсия равна (-1 <в A — ю)/п -f (л — 1) ^ (*>/ — <oJ/nk. Получить соответствующие формулы, когда вероятность выбора i-й гене- к ралыюй совокупности равна а,-, У а,- = 1. г = 1 9.7 В условиях предыдущего упражнения производится выборка объе- объема kn, полученная посредством извлечения п элементов из каждой генераль- генеральной совокупности. Показать, что доля р элементов, обладающих качествен- качественным признаком, среди взятых вместе kn выбранных элементов имеет сред- среднее «о и дисперсию ю A — ®)/(nk) — 2 (*>( — e>J/(nk2). 9.8 Из генеральной совокупности, в которой ш — доля элементов, обла- обладающих некоторым качественным признаком, производится выборка с возвра- возвращением объема п. Из нее производится подвыборка с возвращением объе- объема щ. Пусть р и pi—доли элементов с качественным признаком в выборке и подвыборке соответственно. Показать, что разность р—pi имеет среднее нуль н дисперсию /, .«-1 юA —ю) . V ' ЛЛ[ 9.9 Показать, что если в предыдущем упражнении выбор с возвращением заменить на выбор без возвращения и объем генеральной совокупности поло- положить равный JV, то р—pi будет иметь среднее нуль и дисперсию ., . N п — п, юA — ю) -j- = -. N — 1 ппу 9.10 Показать, что с точностью до величин порядка JV оценка макси- максимального правдоподобия доли а прн выборе без возвращения имеет вид и что с точностью до величин того же порядка дисперсия этой оценки равна N — п юхA—<*>) N — 3 п 9.11 Вывести соотношение (9.7), используя случайные величины, равные единице, когда интересующий нас элемент обладает качеством А, и нулю в противном случае. 9.12 Показать, что в условиях примера 9.13 М(г/. n) = rs>rx~r I tT-l{\—t)
СЛУЧАЙНЫЙ ВЫБОР 317 9.13 Пусть х — случайная величина, определенная в интервале Показать, что если существуют М (х) и М (l/х), то причем равенство здесь достигается лишь в том случае, когда распределе- распределение х целиком сосредоточено в некоторой точке. Вывести отсюда, что если / — несмещенная оценка для 0, то \[t не может быть несмещенной оценкой для 1/0. 9.14 Доказать, что в случае обычного биномиального распределения М (njr) не существует. Показать, что и что, следовательно, (я+1)/(л+1) является асимптотически по п несмещен- несмещенной оценкой для 1/со.
ГЛАВА 10 СТАНДАРТНЫЕ ОШИБКИ 10.1 В конце предыдущей главы мы обсудили некоторые во- вопросы, связанные с оценками статистических параметров, полу- получаемыми по выборкам большого объема, и рассмотрели степень надежности этих оценок с точки зрения теории стандартных ошибок. Там было отмечено, что оценку нужного параметра ге- генеральной совокупности можно получить по выборке большого объема, найдя соответствующее значение параметра для этой выборки, рассматриваемой как генеральная подсовокупность. Там же было установлено, что для выборок объема п стандарт- стандартная ошибка служит вполне удовлетворительной мерой точности при условии, что: (а) имеет место асимптотическая нормаль- нормальность выборочного распределения статистик и (б) п достаточно велико в том смысле, как это было там определено. Было также отмечено, что достаточно точные оценки для самих стандартных ошибок можно получить, заменяя значения истинных парамет- параметров их эмпирическими значениями. Поскольку в большинстве случаев статистики имеют асим- асимптотически нормальное распределение, оценка степени их точ- точности сводится к нахождению стандартных ошибок. В этой гла- главе мы остановимся па основных методах нахождения стандарт- стандартных ошибок и фактически их найдем для различных статистик, рассмотренных нами в предыдущих главах. Чтобы избежать трудностей, возникающих при обращении с квадратными кор- корнями, удобнее пользоваться выборочными дисперсиями и кова- риациями. Так, для статистики / дисперсию ее выборочного рас- распределения обозначим D/. Ковариацию статистик t и и, т. е. сме- смешанный момент их совместного выборочного распределения, мы обозначим cov(/, и). 10.2 По определению г-й момент статистики t, т. е. г-н мо- момент ее выборочного распределения, есть среднее значение ве- величины tr, взятое по всевозможным выборкам. Оно будет запи- записываться М(^) (см. 2.27). Если совместное распределение вели- величин *,, х2,.. •, х», на основе которых вычислена статистика t, есть dF(xu ..., хп), то г-н момент от / является интегралом от
СТАНДАРТНЫЕ ОШИБКИ 319 FdF, взятым по всевозможным значениям иксов. Если, в частно- частности, рассматривается простой случайный выбор и теоретическое распределение есть dF, то оо \fdF(xx)...dF(xn). A0.1) В этой главе мы будем главным образом интересоваться пер- первыми и вторыми выборочными моментами t, т. е. средними и дисперсиями выборочных распределений. Напомним, что сред- среднее значение суммы есть сумма средних значений, и если вели- величины независимы, то среднее значение произведения есть произ- произведение средних значений B.28). Эти два результата в дальней- дальнейшем будут постоянно использоваться. Стандартные ошибки моментов 10.3 В следующих пунктах мы будем придерживаться обыч- обычного соглашения: величины, относящиеся к генеральной сово- совокупности, обозначаются греческими буквами, а относящиеся к статистикам, — латинскими. В соответствии с этим г-н момент теоретического распределения обозначается ц'г, выборочный мо- момент — статистика относительно начала отсчета — m = — ' n а выборочный момент — статистика относительно среднего — 10.4 Рассмотрим среднее значение статистики т'г Имеем Выборочная дисперсия статистики т'г по определению равна М (т'г — |^J, откуда, в предположении существования нужного числа моментов, следует, что
320 ГЛАВА 10 где второе суммирование распространено по всем п(п — 1) пе- перестановкам индексов, в которых }фк. Поскольку иксы незави- независимы, среднее значение произведения равно произведению сред- средних значений, откуда Заметим, что этот результат является точным. Тем же самым путем, если у лас есть два момента, т! и m't, мы получим фор- формулу для выборочной ковариацип cov (m'q, tn') = М {{m'q - ц'д) (т'г - ty) = В случае q — r это сводится к A0.5), как и должно быть в силу того, что ковариация самой случайной переменной есть ее дис- дисперсия. 10.5 Формулы для центральных моментов не столь уже про- просты, поскольку среднее само подвержено выборочным флуктуа- циям. Из A0.5), полагая г=\, мы получим = (n?-|if)/*=H2//*. A0.7) Отсюда видно, что флуктуации в т\ имеют порядок п~'!к Мы можем поэтому с этой точностью считать, что эмпирическое среднее совпадает с истинным, и пренебрегать в т\ членами порядка выше первого. С точностью до членов порядка п~^ М(тг) = М B {х — т[)г!п) = М {2 хг — гт[ 2 *г-'}//* = - М {A — г/л) 2 хг - (гIn) 2 XjX'^ln, j ф k. Выражение справа содержит моменты M-i^_i> которые равны нулю, если положить \i{ = 0. Следовательно, с точностью до чле- членов порядка п'2 М(тг) = цг. A0.8) Еще раз отметим, что, в то время как результат A0.4) является точным, формула A0.8) верна только с точностью до членов
СТАНДАРТНЫЕ ОШИБКИ 321 порядка n~sb. Аналогично можно получить 0тг = М «) - ц? = М { 2 х' - г - i- м {? **+s -^+5- 2 хУг-+ +¦? 2 4^ч-г - ? 2 ^+1^1} - •* где ]'фкф1. Средние значения других членов, возникающих при возведении тг в квадрат, обращаются в нуль, поскольку они со- содержат M-j. Среднее значение суммы ^х^х^*- имеет порядок п(п— 1), и поэтому общий ее вклад в дисперсию имеет поря- порядок п~2 и ею можно пренебречь. С учетом сказанного мы полу- получим с точностью до порядка га~' и аналогично cov {mr, mq) = 1 (цг+д — y,r\q ^ — г(гЛ_1М-,+1 — q\ir+i\ig-i). A0.10) Пример 10.1 Для распределения мужчин по их росту (таблица 1.7) мы нашли (см. примеры 2.1 и 2.7), что /п{ = 67,46, Уini = 2,57. Предположим теперь, что мы рассматриваем это распределение как возникшее в результате простого случайного выбора из ге- генеральной совокупности взрослых мужчин, проживающих в Со- Соединенном Королевстве в тот период, когда производился сбор этих данных. Что можно сказать относительно среднего значе- значения всей генеральной совокупности? Стандартная ошибка среднего зависит от величины jj,2, точ- точное значение которой нам неизвестно. Но в соответствии с об- общими принципами в случае большого объема наблюденных дан- данных вместо |12 можно использовать его эмпирическое значение т2. Тогда найдем, что стандартная ошибка среднего т\ равна 2,57/^8585 ~ 0,028- Поэтому можно сказать, что среднее значе- значение генеральной совокупности лежит, вероятно, в интервале 67,46±2 @,028) и. очень вероятно, в интервале 67,46 + 3@,028). Ошибка п определении среднего значения будет, почти навер- наверное, меньше десятой доли дюйма. 21 М. Кеняалл, А. Стьюарт
322 ГЛАВА 10 Пример 10.2 Из уравнения A0.9) с г=А следует, что DmA = I (м,8 — м,2 — 8м-5м-3 В главе 12 мы получим этот результат с помощью более точ- точных методов. В частности, оттуда будет следовать, что эта фор- формула действительно с точностью до членов порядка пг1 являет- является верной. Пример 10.3 Показать, что в случае симметричной генеральной совокуп- совокупности аервый смешанный момент между эмпирическими момен* тами т' и тг (г—четное число) с точностью до членов порядка и равен нулю. Так же как в 10.5, мы имеем по определению Если г четно, то (j,r+i и \ir-i будут моментами нечетного по- порядка, которые для симметричных распределений обращаются в нуль. Отсюда cov(m[, /rar) = 0. На языке теории корреляции это означает, что выборочное среднее и выборочный центральный момент (относительно вы- выборочного среднего) с точностью до членов порядка гг1 некор- релированы. Стандартные ошибки функций от случайных величин 10.6 Если |i, I2, • • •, Eft — случайные величины, принимающие значения хи х2, .. . , xk, то определим функцию g^, ..., |ft) как случайную величину, принимающую значение ?(лгь ..., Хи) при Предположим, что случайные величины |* имеют средние < и дисперсии порядка гг1, а случайная величина g имеет конеч- конечное среднее и дисперсию. Если функция g(xu ..., xh) диффе- дифференцируема в точках ^ = 0,-, то, обозначая символом d/dQ
СТАНДАРТНЫЕ ОШИБКИ 323 значение dgldxt при лг» = 0^, мы получим где Д*, = *4—0„ (АхJ = 2(АхгJ и Ag = g(^) Для случая выборок большого объема среднее значение (Ал:J имеет порядок оA) и, с точностью до величин первого по- порядка малости, M(Ag)=0, поскольку М(Ал:г) =0. Следовательно, среднее значение случайной величины g(E,i,..., |ft) равно g(Qi ..., Qu) ¦ Точно так же, с точностью до величин первого порядка малости, в предположении, что производные не равны нулю, имеем B^J i {f^} A0.12) где индексы i и / могут быть и равными (в последнем случае cov (Xi,Xj)=Dxi). Полученная формула имеет чрезвычайно важное значение. Она дает нам возможность представлять дисперсию функции от случайных величин через их дисперсии и ковариации. Аналогичным путем устанавливается, что для двух функций от случайных величин, скажем g и h, cov(g, A)= 2] {щ-Щ i, j~i 10.7 Отметим три интересных частных случая формулы A0.12). (а) Пусть g — функция от одной переменной. Тогда -JDx. A0.14) В частности, если #(.*:) —линейная функция cx + e,roDg = c2Dx, что, конечно, очевидно и так. Заметим, что в этом случае ре- результат оказывается не приближенным, а точным. (б) Пусть g является линейной функцией от случайных ве- величин g{ ,Jед A0.15) Тогда в силу A0.12) Dg = Hia'iDx.-\- 2ia,ajCov{XtXj), A0.16) 21*
324 ГЛАВА 10 что также является точным результатом. В частности, когда ик- иксы независимы, дисперсия g равна взвешенной сумме отдельных дисперсий. (в) Пусть функция g является отношением xjx2. Чтобы из- избежать возможных здесь трудностей (см. следующую главу), мы предположим, что дг2>0, если распределение х2 дискретно, и х2>0, если оно непрерывно. Тогда из A0.12) следует, что Djc, Q\ [ M ) M 2Gj c< ¦ (Xi) ' 3V(-«i. ei Dx2 M2 (л: 2 cov (л M (a-,) 1 1- X2) И (x2) Второй множитель в A0.17) есть сумма квадратов коэффициен- коэффициентов вариации за вычетом удвоенной величины, модуль которой по аналогии можно было бы назвать квадратом коэффициента ковариации. Пример 10.4 Чтобы найти выборочную дисперсию четвертого семиинва- семиинварианта, будем для семиинварианта выборки вместо k пользо- пользоваться обозначением х (причины этого станут ясными в гла- главе 12). Итак, требуется найти дисперсию величины Из A0.12) cx1 = mi, х2 = т2 и g = x{ — Зл| мы получим D*4 = Dm4 + 36м| Dm2 — 12ц2 соv (m4> m2). Пользуясь формулами A0.9) и A0.10), найдем В случае нормальных совокупностей справедливы соотношения ц4 = 3м| = 3с4, ц6— 15а6, ц8=Ю5а8, откуда Пример 10.5 Найти выборочную дисперсию коэффициента вариации Кар- Карла Пирсона Используя формулу A0.17) и обозначая V коэффициент вариа- вариации генеральной совокупности (как и \i[, он предполагается
СТАНДАРТНЫЕ ОШИБКИ 325 отличным от нуля), мы получим 2?( D(VmT) D/rt ; 2cov(V'«2. т'Лл Согласно A0.7) Ощ — У-ъ/П-М точно так же из A0.14) и A0.9) Наконец, в примере 10.3 мы видели, что, с точностью до членов 1 cov(m2, m[) = \x,zjn. порядка п~1, и согласно A0.13) cov(j/m^, Подставляя эти значения в A0.18), находим ^, т\) = ^~ cov (m2, т'1) = q4Л откуда для нормального случая (м-3 = 0, ц4==3[х|) получаем 10.8 Сделаем несколько замечаний об употреблении стан- стандартных ошибок. (а) Использование стандартных ошибок, строго говоря, за- законно только в том случае, когда распределение статистик стре- стремится к нормальному. В других случаях в силу неравенства Бьенэме — Чебышева их можно использовать для оценки схо- сходимости по вероятности. Для получения более точных утвержде- утверждений обычно все же приходится рассматривать нормальный ин- интеграл. (б) К вопросу об асимптотической нормальности надо подхо- подходить с известной осторожностью, поскольку она не всегда имеет место. В самом деле, распределение многих статистик (таких как, например, эмпирические моменты, которые зависят от сум- суммы случайных величин) в силу центральной предельной теоремы стремится к нормальному. Однако распределение ряда других статистик (примерами которых служат статистики, зависящие от крайних членов) не является асимптотически нормальным. (в) Вспомним в связи с этим, что распределение одних статистик стремится к нормальному быстрее, чем других, и
326 ГЛАВА 10 в одном случае заданное число наблюдений п может оказаться достаточно большим, для других же случаев — нет. Обычно (но не всегда) можно считать, что значения п > 500 являются «большими». Значения п ^ 100 также оказываются для многих целей достаточно «большими». С этой точки зрения к значе- значениям, меньшим 100, надо относиться очень осторожно. Значе- Значения, меньшие 30, очень редко можно считать «большими». Рас- Распределения некоторых статистик, построенные по выборочным моментам, сходятся к нормальному очень медленно. В этом от- отношении примером могут служить статистики Y&1 или ^ь яв- являющиеся выборочными значениями соответственно Y$i и Pi- В этом случае методу стандартных ошибок следует предпочесть более точные методы, излагаемые в главе 12. (г) Выборочное распределение дисперсии зависит от тех ста- статистик, с помощью которых эта дисперсия получена. Так, в нор- нормальном случае стандартное отклонение в выборке можно под- считывать, например, как взятое у ~о я Раз значение среднего отклонения вместо обычно используемого корпя квадратного из среднего квадратичного относительно среднего. Но при этом формула Ds = (M-4—м|)/D/ф2)> которую можно получить из A0.9), будет неприменима. (д) Из формул A0.5) и A0.9) видно, что выборочная дис- дисперсия моментов порядка г зависит от моментов генеральной совокупности до порядка 2г включительно и становится очень большой для моментов высоких порядков даже тогда, когда я велико. Это объясняет, почему такие моменты имеют ограничен- ограниченное практическое применение. (е) Нужно не забывать о том, что многие полученные нами выше формулы являются приближенными. Поэтому если, напри- например, коэффициент вариации выборки V=Q, то согласно форму- формулам примера 10.5 DV=0; если забыть, что наши формулы при- приближенные, это будет означать, что коэффициент вариации ге- генеральной совокупности также равен нулю. Но на самом деле это, конечно, не так, хотя это и весьма правдоподобно, когда п велико. (ж) Интересно выборочные флуктуации, отражаемые вели- величиной выборочной дисперсии, сравнить с поправками Шеппарда для моментов. Пусть, на время, 5^ — выборочная дисперсия без учета поправок, s\— с их учетом. Тогда
СТАНДАРТНЫЕ ОШИБКИ 327 где h — ширина интервала группирования. Во многих практиче- практических случаях, если d — число интервалов, то dh примерно равно 6sb и поэтому 4 3 s2 3 Обозначая буквой s корень квадратный из дисперсии выборки т2, мы получим D ( что для нормального распределения равно о2/Bп). Поэтому если п равно, скажем, 1000, то стандартная ошиб- ошибка в s примерно равна 0,0224а, что составляет 2,24% о. Поправ- Поправки Шеппарда в случае с?=20 дают только 0,375% $ь т. е. равны примерно одной шестой стандартной ошибки о. Поправки жела- желательно делать и в том случае, когда я меньше 1000, чтобы из- избежать систематических ошибок. Предостережем, однако, чита- читателя от мысли о том, что поправки обеспечивают более высокую степень надежности в оценке истинных значений параметров. Заметим, что аналогичные рассуждения a fortiori применимы и к моментам высших порядков. Стандартные ошибки смешанных моментов 10.9 Распространение вышеприведенных формул на случай смешанных моментов не представляет особого труда, за исклю- исключением разве что несколько более сложных алгебраических пре- преобразований. Читателю предоставляется самостоятельно прове- проверить следующие формулы: cov ,. т'щ „) = 1 (р'г+а1 s+v - v.'r. X.,). (Ю.22) К з) = \ К. 2s - и siir_u s — 2s,ur> ,+l(iri,_,), A0.23) cov (m,, s, mUt v) = — (м-г+и, s+v — Mr, Л, — '¦M-r-i, #a+i, v — sy.Ti ,_,iv r+1). A0.24) He опасаясь путаницы, далее вместо рг, s мы будем писать цгз.
328 ГЛАВА 10 Пример 10.6 Коэффициент корреляции в выборке определяется формулой г = гпц1{т.2йГПй2)ъ. Теоретический коэффициент корреляции равен Р = [Ли/ (М-гоМ-огI/2- Из A0.7) имеем rw-^fD^n i D ("гго/по2)'/2 о cov [ hi W h(ftM откуда, подсчитывая D(m2um02)th и соу{ти,(т2от02)'/2} по форму- формулам A0.12) и A0.13), найдем Dm" _i_ 1 / р>иго , Pm02 , 2 cov (/иго, «ог)\ /СОУ(/Пц,/П02) СОУ(/Иц, /Иго)\ ) \ ИпЦрг ИпИго /Г В силу формул A0.23) и A0.24) окончательно получим 1 / 1*40 | И04 | 2Ц22 \ / |Х31 |^ . о ~1 2 ~1 I I 4 VM ^ ^ / \hH Для двумерного нормального распределения, воспользовавшись данными из примера 3.17, находим Не рекомендуется, однако, применять стандартную ошибку для проверки гипотетического непулевого значения р, так как выборочное распределение г очень медленно сходится к нор- нормальному. К этому вопросу мы еще вернемся в 16.23—16.33. Стандартные ошибки квантилей 10.10 Среди различных характеристик, служащих мерами расположения и рассеяния, рассмотренных в главе 2, была одна группа величин, названных квантилями. Эти величины не яв- являются алгебраическими функциями от результатов наблюде- наблюдений, и их выборочная дисперсия не может быть получена с по- помощью изложенных выше методов. Рассмотрим их теперь. Предположим, что распределение генеральной совокупности представимо в виде dF=fdx. Вероятность того, что в выборке объема п имеется (/—1) наблюдений меньше х\, одно значе- значение лежит в интервале xt ± -к dxu а оставшиеся (я — /) значе- значений больше xi, пропорциональна ^fixjdx, {1 -/Ч*,)}""'^"'О-ЛГ'аГЛ. (Ю.25)
СТАНДАРТНЫЕ ОШИБКИ 329 где Fi — F(xi). Это выражение представляет собой плотность рас- распределения /-го выборочного квантиля. Положим l=nq, п — l = n{\—q)=np. Распределение A0.25) имеет модальное значение, которое можно вычислить путем диф- дифференцирования соответствующей плотности по Х\. Предвари-1 тельно логарифмируя, а потом дифференцируя, получим (/_l)^__(tt_/)_Ji_ + ^==0. A0.26) Этому уравнению удовлетворяет модальное значение х. Для больших п отношение f'Jf i мало по сравнению с другими чле- членами в A0.26), когда / и (п — /) велики. Пренебрегая этим сла- слагаемым, с точностью до величин порядка п~1 получим q p _п F \—F ~~ или F(x)=q, что согласуется с нашими общими представлениями. С точностью до величин порядка гг1 квантили выборки совпа- совпадают с теоретическими квантилями. Изучим теперь распределение A0.25) в окрестности модаль- модального значения. Положим Тогда с точностью до констант вместо A0.25) получим r4p — t)np- Логарифмируя и разлагая логарифм в ряд, получим (с точ- точностью до констант) nq log(l +i- Для случая больших выборок ? мало по сравнению с q. Прене- Пренебрегая членами высокого порядка малости, убеждаемся, что распределение | выражается формулой или с учетом нормирующего множителя dF= лГ—\- ехр f-^Ц af|. A0.27) Отсюда следует, что | асимптотически нормальна с дисперсией ^\ = (Ю.28)
330 ГЛАВА 10 Для получения дисперсии /-го выборочного квантиля xt заме-1 тим, что dl=dFi=fidxi, откуда D*, = -^-. A0.29) На практике эта формула часто применяется к сгруппиро- сгруппированным частотным распределениям. В этом случае надо по- помнить, что в формуле A0.29) ордината исходного распределения /i является частотой, приходящейся на единичный интервал, со-1 ответствующии среднему значению хи поскольку она служит на- наилучшей оценкой этой ординаты. Пример 10.7 Если Xi — медиана, то p — q = -2 и D.*, = l/4n/J, где /4 — ордината медианы. Например, если исходное распределение нормально с дисперсией о2, то /4 = 0,39894/0 (см. таблицу 1 в приложении). Следовательно, стандартная ошибка выборочной медианы равна =1,2533-^=-. У~п 2-0,39894 ' Vn Стандартная ошибка среднего выборки объема п из нормаль- нормальной совокупности равна o/j/n, т. е. меньше, чем стандартная ошибка выборочной медианы. 10.11 Для нахождения ковариации двух квантилей обобщим уравнение A0.25). Если мы имеем случайную выборку объема и, то вероятность того, что (/•— 1) ее значений будут меньше Xt, одно лежит в интервале х} + -^dxb (п — / — т) лежат между xi и х2, одно попадает в интервал х2 ± -~ dx2, и (т—1) значе* ний окажутся больше х2, пропорциональна dF ос F\~\F2— Fi)a~l~m{\ — F2)m~l dFxdF2, A0.30) где Fi = F{Xi), F2 = F(x2). Положим /=<?i«, m = p2n. Уравнения, аналогичные A0.26) и предназначенные для нахождения мо- модальных значений, имеют вид Я\ (?г— ffi) п. ?г — Ч\ р2 п р ~р р -— vA ~~р р I р — vS откуда для предельных модальных значений получаем )==qu | A0.31)
СТАНДАРТНЫЕ ОШИБКИ 331 (Условия относительной малости fr{x)/f(x) обычно выполняют- выполняются.) Положим Тогда совместное распределение ?i и |2 можно записать как Так же как и в предыдущем пункте, беря логарифмы, разлагая их в ряды и пренебрегая членами порядка ?3 и выше, получим Laf|2. A0.32) Тем самым совместное распределение ?4 и ?2 стремится к дву« мерному нормальному распределению. Сравнивая A0.32) со стандартной формой двумерного нормального распределения (пример 3.17), мы видим, что 1 _ Щг 1 A— Отсюда легко можно найти DL = A0.33) Заметим, что несимметричность формулы для ковариации от- отражает тот факт, что число р2 необходимо относится к верх- верхнему квантилю. Соответствующее выражение для ковариации ху и х2 имеет вид A0.34) Уравнения A0.33) и A0.34) могут быть использованы для на- нахождения дисперсии интерквантильной широты и других ана- аналогичных статистик.
332 ГЛАВА 10 Пример 10.8 Дисперсия разности 6 двух квантилей х4 и х2 в силу A0.16) задается формулой п [ /1 '2 /1/2 j Возьмем в качестве квантилей квартили р<2. = Ц\— — < Р\—Я2 = = -?. Тогда для дисперсии (с. и. ш.) мы получим формулу = -?. Тогда для дисперсии семиинтерквартилыюй широты где /i и /2 — частоты в единичных интервалах, отвечающих этим двум квартилям, причем /г соответствует большему квартилю. Например, для нормального распределения fi—f2 и поэтому D(cHm) Из таблиц нормального распределения можно найти, что значение большего квартиля равно 0,6745 и значение плотности в этой точке равно Д = 0,3178/а. Таким образом, стандартная ошибка выборочной семиинтерквартилыюй широты равна = 0,7867- Уп D. 0,3178) ' Уп ' 10.12 Остановимся еще раз на важности вопроса о способах получения оценок неизвестных параметров, поскольку от этих способов зависят величины стандартных ошибок (ср. 10.8 (г)). Например, стандартное отклонение нормального распределения по результатам наблюдений можно оценить многими способа- способами: с помощью второго момента; рассматривая среднее откло- отклонение, умноженное на Ynj2\ беря семиинтерквартильную широ- широту, деленную на 0,6745, и т. д. Каждый из этих методов будет давать свою стандартную ошибку. Для первого из них согласно 10.8 она равна а/^/2л, для третьего 1,6495б/^/2я, как это не- нетрудно получить из примера 10.8. Естественно поэтому поста- поставить вопрос о том, каковы те оценки, которые в случае их су- существования обладают минимальной выборочной дисперсией. Здесь мы не будем останавливаться на этом вопросе, а подчерк- подчеркнем лишь важность того обстоятельства, что при использовании различных оценок неизвестных параметров надо не забывать о том, каким способом они получены.
СТАНДАРТНЫЕ ОШИБКИ 333 Стандартная ошибка среднего отклонения 10.13 Предположим, что имеется некоторая выборка из гене- генеральной совокупности со средним \л и дисперсией а2. Пусть da — среднее отклонение выборки, измеряемое отно- относительно фиксированной точки а, т. е. Тогда M(da) = M\xi — а| = 6а, A0.35) где 6а — теоретическое значение среднего отклонения. Посколь- Поскольку результаты наблюдений предполагаются независимыми, то {0 + (a.-\xf-bl}. A0.36) Если а равно истинному среднему значению, т. е. а = ц, то D^ = ^(a2-6ft). * A0.37) Рассмотрим теперь среднее отклонение da относительно значе- значения а, которое само подвержено выборочным флуктуациям и об- обладает тем свойством, что М(а) = а, Da = О (га). Тогда, так же как и в 10.5, можно установить, что приближенно M(da) = ba, Dda = Dda. В частности, если а~х, то для среднего отклонения от среднего выборки Dd = ^(o2-bl). A0.38) Для случая нормального распределения в E.75) мы видели, что и, следовательно, 4)А- В нормальном случае выражение для Od известно точно: Хель- мерт A876) и Фишер A920) независимо установили, что ln-)-/ft(ft-l) —ft-arcsin{l/(ft-l))]. A0.40)
334 ГЛАВА 10 При больших п это выражение близко к A0.39). Годвин A945) нашел то.чное выражение ф. р. статистики d. Эта ф. р. табули- табулирована Хартли A945) для п=2A) 10. Стандартная ошибка средней разности 10.14 Пусть g — выборочное значение средней разности Джи- Джини (без повторений), теоретическое значение которой (согласно 2.21) обозначено Д. Тогда I, j-i M(g) = MUr-^| = A. A0.42) Аналогично i — xj\\xu — xi\}> где в суммировании 2 содержится 2п(п—1) членов, в 2' — 4д(д — 1)(я — 2) и в S" — «(я—1)(« — 2)(я —3) чле- членов. После некоторых преобразований получим n-.2){n-3)M(\xl-Xj\\xk-xt\)}. Первое математическое ожидание равно 2а2, третье — А2. Обозначим У второе математическое ожидание. Тогда и, следовательно, L -2)^-2Bд-3)А2). A0.43) Что касается величины ?, то ее можно представить различны- различными способами. Если f(x) —плотность распределения, то ОО 00 ОО ^\ \ j\\x-y\\x-z\f(x)f(y)f{z)dxdydz. A0.44) — ОО —ОО —00
СТАНДАРТНЫЕ ОШИБКИ 335 Пусть х Z(x) = jtf(t)dt —со — неполный момент, тогда со у = 4 J \(xF - Zf + (ц - х) (л:/7 - Z)} f (х) Ас. A0.45) — оо (Переход от A0.44) к A0.45) предоставляется читателю в ка- качестве упражнения.) Указанный вывод был дан Ломницки A952). Более сложный вывод впервые был указан Нэйром A936), который нашел формулы для дисперсии в следующих трех случаях: (а) Нормальное распределение: любое среднее, дисперсия а2. ~а2@,8068J/л. A0.46) (б) Экспоненциальное распределение: dF — exp(—х/а) X d(l) @<<) (в) Равномерное распределение: dF = dxjk ( S^ A0.48) Некоторые наиболее употребительные стандартные ошибки 10.15 По-видимому, полезно дать сводку наиболее часто встречающихся стандартных ошибок. Часть результатов в при- приводимой ниже таблице получена в этой главе, другие же можно непосредственно получить, используя развитые здесь методы. Некоторые из этих результатов относятся к статистикам, кото- которые встретятся нам позже. Для удобства записи в таблице, как правило, приводятся дисперсии, а не стандартные ошибки. Некоторые коэффициенты являются квадратами, так что переход к квадратным корням легко осуществим.
336 ГЛАВА 10 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. Статистики Среднее, т\ Дисперсия выборки, яг2 Стандартное откло- отклонение выборки, s Третий момент, т3 Четвертый момент, «4 Ьг Коэффициент вариа- вариации, V Пирсоновская мода Среднее отклонение Среднее разностей (Джини) Медиана Дисперсия, умноженная на л ц2 (= о2) |Л4 — !<| (ц4-^)/DЦ2) Н~ Из — 6u4u2 + 9^ V-& — A — 8Hs!*3 + 1CW3 В1DВ,_24р2 + 36 + +9р,В2_12р3 + 35Р,) Рб-4Р2Р4 + 4Р?-б2 + +1бр2р, — 8рз + 16В, См. пример 10.5 См. Ясукава A926) — формулы и таблицы См. 10.13 См. 10.14 1/DУо)- где у0 — орди- ордината плотности, отве- отвечающая медиане Примечания Результат верен для любого распределения с конечным вторым мо- моментом ц2 Для нормального рас- распределения = 2о4 Для нормального распре- распределения = а2/2 Для нормального рас- распределения = бо6 Для нормального рас- распределения = 96as Для нормального распре- распределения дисперсия рап- на а/п; В| — коэффи- коэффициент, определенный в уравнении C.88). От- Отметим несостоятель- несостоятельность этой формулы для симметричных рас- распределений с Р] = 0 (ср. 10.8 и 12.18) Для нормального рас- распределения дисперсия равна 24/rt. См. также 12.18 и упражнение 12.12 Для нормального распре- распределение^ V2 /2 Распределение для уме- умеренных значений п асимметрично Для нормального рас- пределения=о2 A—- j Для нормального рас- распределения = о2 @,8068J По поводу нормальных распределений и малых выборок см. ХойоA931) и К. Пирсон A931). Для случая нормаль- нормального распределения и больших выборок -= = A.-.:.ЖJ.тг
СТАНДАРТНЫЕ ОШИГЖИ 337 Продолжение Статистики Примечание 13. Квартил.1 14. Децили 15. Семиинтерквартиль- ная широта 16. Коэффициент корре- корреляции, г (смешанный момент) 3/A6у2), где у—орди- у—ордината плотности, отве- отвечающая квартилю См. 10.10 -1/8у,у2)а2, где у( и у2 — ординаты плотности в точках квартилей См. пример 10,6 Для нормального распре- распределения = A,3626Jа2. См. также Хойо A931) Для нормального распре- распределения (децили 4,6)= A.2680J о2 (децили 3,7)=A,3180Jа2 (децили 2,8)=A,4288J а2 .децили 1,9)=A,7094Jа2 Для нормального распре- распределения =¦ (О,7867J о2 Для двумерного нормаль- нормального распределения ^= = A—р2J Надежность оценки для коэффи- коэффициента корреляции мо- может быть гарантиро- гарантирована только для слу- случая очень больших п. См. главу 16 УПРАЖНЕНИЯ 10.1 Для распределения ростов в таблице 1.7 было найдено /«2=6,16, т3 = —0,207, «4=137,689. Предполагая, что данные этой таблицы отвечают выборке из генеральной совокупности, имеющем приближенно нормальное распределение, показать, что гпз незначительно отличается от нуля( что, конечно, так и должно быть, если распределение в действительности нормально) и что стандартная ошибка в определении тЛ составляет примерно 4% от его значения. 10.2 Пусть для некоторого многомерного распределения вероятности ка- каких-то k событий равны o)i, «2 ыл. Предположим, что в результате i наблюдений получены частоты /(, .... fk появления этих событий. Показать, что для каждой функции Т от них асимптотически Oft ) on 22 М. Кенддлл, А. Сгьюзрт
338 ГЛАВА 10 где производные взяты в точках /; = лсо;. (Fisher, Statistical Methods for Research Workers.) 10.3 Известно, что для выборки объема 100 шансы того, что некоторая статистика отличается от соответствующего теоретического значения больше чем на две единицы, равны 1 к 99. Найти, как велика должна была бы быть выборка, чтобы уменьшить эти шансы до 1 к 199. Найти шансы того, что для выборки объема 100 статистика будет отличаться от соответствующего значения генеральной совокупности более чем на одну единицу. 10.4 Пусть некоторый признак Л для данной генеральной совокупности имеет вероятность со и пусть имеется k выборок разного объема. Показать, что стандартная ошибка средней частоты появления признака Л равна -^——, где Н — гармоническое среднее из объемов выборок. Я/7 10.5 Пусть область значений некоторой варианты разбита на ряд подоб- подобластей. И пусть /р — частота попадания в р-ю область за п испытаний, где п велико. Показать, что Dfp = f,(l—^-). cov(fp, f?) = -iy?- Найти выражение для выборочной дисперсии r-го момента относительно про- произвольной точки. 10.6 Показать, что для случая выборок большого объема из генеральной совокупности с симметричным распределением каждый момент выборки не- нечетного порядка ие коррелирован (имеет нулевую ковариацию) с каждым мо- моментом выборки четного порядка. 10.7 Пользуясь обозначениями этой главы, показать, что с точностью до пг1 cov(mr, т'д) = (Ц,+г —iy»r —nija-iH,-!),"». 10.8 Показать, что для симметричного распределения ковариация двух моментов выборки четного порядка в случае выборок большого объема не может быть отрицательной. 10.9 В случае выборок большого объема дисперсия статистики т2 равна (t*4 — \х2)/п- Возьмем в качестве оценки этой дисперсии статистику (/я4— т^)\п- Показать, что дисперсия (т4— т^)/п для случая нормального распределения равна 56а8/я2; сравнить этот результат со значением Dm2=2o4/n. 10.10 Доказать формулу для Dbu данную в 10.15. 10.11 Проверить соотношение A0.46). 10.12 Показать, что для первых четырех семиинвариантов, полученных из моментов, с точностью до членов порядка гг1 Dx, = —х2, 0*2 =^(«4$ = J (Х8 е*;, + 48х5к3 + 34xij + 72x4x|j + 144х§х2 (Замечание. Вопреки обычному соглашению, в левых частях этих формул используются греческие буквы для обозначения отвечающих выбор-
СТАНДАРТНЫЕ ОШИБКИ 339 кам величин k\ если придерживаться обычных обозначений, то это могло бы привести к несогласованности с обозначениями й-статистик главы 12.) 10.13 Показать, что среднее значение дисперсии выборки равно (п — 1\2 ц4 — $ 2(л—1) 2 Dm.? = ~ \4- С помощью этого установить, что формулы настоящей главы, применяемые к дисперсии, имеют точность порядка п~К 10.14 Доказать, что стандартная ошибка первого дециля в случае нор- нормальной совокупности равна 1,7094о/|Лп. 10.15 Показать, что в случае нечетного п выборочная дисперсия медианы для равномерного распределения на [0, 1] в точности равна 1/{4(/г+2)}. 10.16 Пусть две случайные переменные независимы, распределение каж- каждой из них симметрично и (r+s) —четное число. Показать, что тогда в обо- обозначениях этой главы п cov (тп s, оти, „) = |лг+и, 0|л0, s+v — |лг0|лц0и.о,уи.0г,. 10.17 Пусть т — некоторая числовая характеристика теоретического рас- распределения и t — ее оценка. Предположим, что с точностью до trl D.t=f(x). Показать, что если t и@= J {f (t)}-112dt, то для случая выборок большого объема Da=l. Проверить это для коэффи: циента корреляции, для которого при больших п Dr=(l— р2J/л. 10.18 В случае выборок большого объема и нормального распределения в качестве оценки четвертого момента ц4 можно взять: (а) т4 и б) Зт^. Показать, что дисперсия оценки (а) равна 4/3 дисперсии оценки (б). 10.19 Показать, что для выборок объема п из равномерного распределе- распределения dF=kdx, 0< л:< 1/й, дисперсия среднего отклонения равна примерно 1/D8й2) ) 10.20 Пусть Xi хп — результаты наблюдений над одной случайной величиной и уи ¦. •, Ут — над другой, имеющей ту же самую дисперсию цг, что и первая. Пусть среднее значение из т+п наблюдений равно г. Показать, что стандартная ошибка разности между г и к равна n(m-\-n) 10.21 Две группы состоят из М и iV предметов каждая, причем D пред- предметов у них совпадают. Независимым и случайным образом из каждой груп- группы берется (без возвращения) соответственно тип предметов (т!>•«!>• 2) Обнаружено, что d предметов у них общие. Показать, что несмещенная оцен- оценка для D дается формулой R MN D = а тп 22*
глава ю Показать, что при d-*n D превышает N и что, следовательно, оценка при- принимает «невозможные» значения. (Ср. Гудмэн (L. A. Goodman) A952), Ann. Math. Statist. 23, 632), см. также Деминг и Глэссер (W. E. Deming, Q. J. Glas- ser) A959), J. Amer. Statist. Ass. 54, 403.) 10.22 В упражнении 10.21 показать, что несмещенная оценка для D(D) равна fM1 N 1 Л( тп М-1 N-\ и что, следовательно, V может принимать отрицательные значения. Тем са- самым V является «невозможной» оценкой для DE) в том случае, когда ш, п, М и N малы. 10.23 Пусть х и у имеют совместное распределение такое, что М (х) = |Л]0 Ф 0 и М (у) = Ид] ф 0. Показать, что D (л-, у) = ц(ом,э2 + М-гоМ-01 + 2м-1оМ-пМ-о1 + 2м-тМ-12 + 2m-2iM-oi + H22 — rfi (это точный результат) и что, следовательно, в случае независимых х и у D (л-у) = М.10Й02 + M-20-U01 + ^20^02- (А) Установить, что с точностью до членов порядка п~1 этот результат можно получить из A0.12) (отличие будет состоять только в последнем члене фор- формулы (А)), если считать, что ц2о и Цог имеют порядок п'К При условии, что «го, «02 являются несмещенными оценками для цго и Ног, показать, что несмещенная оценка для (А) равна y2m20 — mmma?. (Гудмэн (L. A. Goodman) A960), J. Amer. Statist. Ass. 55, 708.)
ГЛАВА 11 ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 11.1 Роль выборочного распределения в статистических вы- выводах была уже отмечена в главе 7. Настоящая глава посвя- посвящается обзору основных методов нахождения этих распределе- распределений при заданной генеральной совокупности, из которой про- производится выборка. Как обычно, выбор будет предполагаться простым и случайным, так что если dF(x)—элемент исходного распределения, то элементом совместного распределения п зна- значений Х\ хп будет dF(xi) dF(x2) ... dF(xn), и если г-ста- тистика Z = Z(Xt Х„), A1.1) то функция распределения z выражается формулой F(z0) = J ... J dF (*,) ...dF (*„). A1.2) где интегрирование распространяется на область тех значений иксов, для которых z(xu... , xnL^.z0. Формула A1.2) является формальным решением нашей за- задачи: она сводит ее к чисто математической задаче вычисления некоторых многомерных интегралов или сумм. Рассматриваемые ниже различного рода методы предназначены для облегчения процесса интегрирования. Их можно расклассифицировать на четыре группы: (а) непосредственное вычисление интеграла A1.2) с по- помощью обычных аналитических средств, таких как, например, подходящая замена переменных; (б) использование для вычисления A1.2) геометрической терминологии с целью избежать громоздких аналитических формул; (в) использование характеристических функций; (г\ применение других аналитических методов, включая ма- математическую индукцию.
342 ГЛАВА 11 11.2 В качестве иллюстрации прямого аналитического под- подхода найдем распределение суммы квадратов п независимых случайных величин, каждая из которых распределена нормально с нулевым средним и единичной дисперсией. Элемент совмест- совместного распределения п таких случайных величин имеет вид xx ...dxn. A1.3) BяJ" Нам нужно найти выборочное распределение статистики или, иными словами, вычислить многомерный интеграл хг ... dxn A1.4) по области иксов, связанных условием х\-\- ... -\-x2n<.z. Перейдем к переменным z, 6i, 62, ..., 0n-i по формулам xx . cos бд.! x2 = z2 cos б! cos 62 ... cos 9n_2sin6n_1, = z2 cos 9, cos62 ... cos Qn.j Якобиан этого преобразования h ..., xn) равен 1 \-> Z 2Z X X cos 0] cos 92 — cosOiSin02 ... — COS 01 COS 02 ... A1.5) os9n_! cos 0i cos 02 ... cos9n_2 sin0n_j ... sin9! — sin0iCOS02 ... COS0,,_i —Sin0iCOS02 ... COS0n_2 Sin0,,_i ... COS0 ,,_i —cosOiSin02 ... cosGn_2 sin0/,_i ... О ,,,! 4-COSQi COS 02 ... COS©,,.! >•• 0
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 343 Вынося общие множители столбцов, находим, что детерминант здесь равен cos"-^! cos"-262 ... cos6n_! sin 8, sinO2 ... sin6n_!X 1 1 -tgO, -tg6, X —^02 —tgG2 1 -tgo, .. -tgo2 Ctg6n_2 .. 0 . 1 • ctgO, 0 . 0 . 0 — tgG«_2 — tgOn_2 — tgOB_, ctgOn_, Вычитая теперь каждый столбец из предыдущего, получаем окончательное выражение для детерминанта cosn~28i, cosn~3G2... ...COS6n_2. Вычисляемый нами интеграл примет, следовательно, вид г 2 тг z2 BяJ ... cos 0n_2dzdQ\ ... dQn_i. A1.6) Преимущество новых переменных состоит в том, что пределы интегрирования стали значительно проще: z меняется от 0 до z, 6n-t — от 0 до 2я, а остальные 0 — от—-~п до -к л. Интеграл A1.6) разбивается на произведение интегралов, причем инте- интегралы по 6 оказываются равными постоянным. Следовательно, функция распределения z равна i = # e —it * it п-\ Z2 dz. A1.7) Значение константы k можно получить интегрированием от О до оо. Вычисляя ее, находим, что искомое распределение имеет вид 1 22 "г 14-1 _IZ Ln-\ е 2 z2 dz, 0<2<co, A1.8) и, следовательно, принадлежит к III типу Пирсона. 11.3 Существенным в замене переменных является переход к иной, более простой, области интегрирования, определяемой пределами изменения новых переменных. Обычно статистика, выборочное распределение которой ищется, берется в качестве
344 ГЛАВА tl одной из новых переменных, а остальные п—1 из них выбира- выбираются каким-либо удобным для рассматриваемой задачи об- образом. Интеграл A1.2) принимает при этом вид F(-Z)=\ •¦• где J — ,, V п" .— соответствующий якобиан, f(Xj) — функция плотности исходного распределения, а х,- рассматри- рассматриваются как функции от z и 6. Далее производится интегриро- интегрирование по 8, причем обычно переменные 8 можно выбрать так, чтобы пределы этого интегрирования не зависели от г. Тем са- самым A1.2) заменяется более легко вычислимым интегралом. Как обычно в подобных случаях, здесь имеется неопределен- неопределенность знака /; знак следует выбирать так, чтобы преобразо- преобразованный интеграл был положительным. Законность применяемого преобразования зависит от известных условий, обеспечивающих возможность замены переменных в многомерных интегралах. Например, достаточно, чтобы новые переменные были непре- непрерывны по х вместе со своими первыми производными и чтобы якобиан / не менял знака в области интегрирования. Несколько дальнейших примеров сделают эти общие рассуждения более ясными. Пример 11.1 Найти распределение среднего значения выборки х1у... , хп объема п из генеральной совокупности с распределением dx Элемент совместного распределения хь... , хп имеет вид A1.10) я« ii A+4)' а рассматриваемая статистика z определяется соотношением A1.11) J-1 Нам нужно проинтегрировать (НЛО) по множеству тех иксов, для которых ^x-^nz. Перейдем к новым переменным
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 345- п Ui—Xi, u2 — x2, ..., м„_1 — хп_ъ un — —2^Xj — z. Якобиан равен здесь, очевидно, постоянной п. Новые переменные щ,..., un-i могут меняться от —оо до +оо, а ип — от —оо до г. Имеем, следовательно, Z F{z)= j dun J ... —оо Е этой формуле (п—1)-кратный интеграл по ult... , ип-г пред- представляет собой плотность распределения z. Его можно вычис- вычислить последовательно. Имеем 2ах а2 + г1 — 1 2а2 — Чах аг — г2-\-\ "Г "•" ""t" 2а2 — Чах аг — г2-\-\ ] г2 -f (а — jcJ ""t" г2 + (а — *J J * Проинтегрируем обе части этого равенства по .г от —оо до +оо. Справа получим l)-alog что сводится к Производя в A1.12) интегрирование по и„-\ и пользуясь най- найденной формулой при x=un-i, г=\, а — пип—«1—...—«п_2, на- находим, что (п—1)-кратный интеграл, задающий плотность z, равен п —2 Далее, интегрируя последовательно по ы„_2, «п-з, • • •, в конце концов, получим следующее выражение для плотности z: )' (ИЛ4)'
346 ГЛАВА 11 Таким образом, элемент распределения z равен иГ ——jt— г-, OO<^2-%OO, A1.15) т. е. г имеет то же распределение, что и отдельное наблюдение. Здесь мы имеем интересный пример невыполнения централь- центральной предельной теоремы: распределение среднего значения вы- выборки из п наблюдений не стремится к нормальному распреде- распределению при возрастании п. Отметим, что исходное распределение не имеет моментов. Пример J1.2 Найти распределение линейной функции от п независимых нормально распределенных случайных величин хь..., хп; пред- предполагается, что величина х{ имеет среднее нуль и дисперсию а2.. Пусть линейная функция равна z = alxl+ ... -\-а„хп. A1.16) Переходя к переменным Uj = Xj!oj, получим ~ ^^ « „ „ /111 г7\ z = 2л djOjiij. A1.1/) Величины Uj имеют среднее нуль и единичную дисперсию. Наша задача, следовательно, сводится к нахождению распределения линейной функции от п независимых нормально распределенных случайных величин с нулевым средним и единичной дисперсией. Рассмотрим преобразование вида л 7) У, Г II ¦ (\ 1 1Я1 с ортогональными коэффициентами ' '- — I' A1Л9) > J — ^> Имеем, очевидно, i-i Якобиан преобразования A1.18) равен dv . |
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 347 Если матрицу HcjjII умножить на транспонированную матрицу Ikjill, то в силу A1.19) получится матрица, у которой на глав- главной диагонали стоят единицы, а остальные элементы — нули. Детерминант такой матрицы равен единице. Следовательно, /2=1 и /=1. Элемент совместного распределения величии и со- согласно предположению имеет вид (я \ —jSb/ )Y\.dar (n-20> По сказанному выше величины v распределены в точности так же: ~~ A1.21) Из A1.21) вытекает, что случайная величина V\ независима от остальных величин v и что распределение ее имеет вид т. е. Vi нормально распределена со средним нуль и единичной дисперсией. По симметрии то же самое верно для любой вели- величины Vj. Величина Vi с точностью до постоянной — любая нену- ненулевая линейная функция от Uj, поскольку для всякой последо- последовательности Си,..., С1„, удовлетворяющей условию с2и-\- ...-+- -f-?in=l> можно подобрать числа ctj, C^-2, 1-^/-<л, так, чтобы получилась ортогональная матрица. Для нахождения распре- распределения величины z, заданной соотношением A1.17), поло- положим с1}. = а.а./(а\а\+ ... -\-а\а^2 . Тогда z = (a21a\-\- ... + я)^ vi • Следовательно, z имеет нормальное распределение с нулевым средним и дисперсией Dz = 2>2.a2. (Ц.23> Пример 11.3. Преобразование Хельмерта Преобразования типа, использованного в предыдущем при- примере, особенно полезны при выборках из нормальной генераль- генеральной совокупности, поскольку якобиан такого преобразования постоянен и функция плотности в этом случае сохраняет свою
'348 ГЛАВА 11 "¦2 = ( "з = С*1 + х2 + х3 — Я/1-1=С*1+-к2-1- ••• 4- ИЛ == (-«1 «-1 — (л — 1)хпIУп(я — 1), форму. Среди этих преобразований имеется одно, представляю- представляющее особый интерес. Положим A1.24) Легко проверить, что якобиан этого преобразования равен еди- единице, сумма квадратов коэффициентов любого отдельного урав- уравнения также равна единице и сумма произведений коэффициен- коэффициентов при одинаковых переменных для любых двух различных уравнений равна нулю. Следовательно, если величины х не- независимы и нормально распределены с нулевым средним и единичной дисперсией, то то же самое верно и для величин и. Далее, = 2 и2.. 2 1-1 Следовательно, сумма квадратов отклонений п нормированных нормальных случайных величин от выборочного среднего рас- распределена так же, как сумма квадратов п—1 нормированных нормальных случайных величин. Из A1.8) вытекает, что рас- распределение величины ¦w = 2 (х — хJ имеет вид ~TW("~3) A1.25) Более того, величина до независима от х. Отсюда следует, что среднее и дисперсия выборки из нормальной генеральной сово- совокупности независимы. Этот интересный и важный результат является характеристи- характеристическим для нормального распределения: если среднее и диспер- дисперсия случайной выборки из некоторой генеральной совокупности независимы, то эта генеральная совокупность нормальна (см. упражнение 11.19).
ТОЧНЫЙ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 349 Порядковые статистики 11.4 Не всегда можно найти такое преобразование, чтобы интересующая нас статистика стала одной из новых перемен- переменных и область интегрирования по остальным п—1 новым пере- переменным не зависела бы от z. Особенно интересен случай так называемых «порядковых статистик», теория которых будет подробно изучаться в главе 14 и во втором томе. Пусть имеется выборка объема п. Перенумеруем выборочные значения в по- порядке возрастания их величины: уи у2, ..., уп. В частности, наи- наименьшим значением будет тогда уи Полученное после перену- перенумерации r-е значение ут называется r-й порядковой статистикой. В этом смысле медиана и квантили являются порядковыми ста- статистиками (медиана, например, равна -g-(ft-f 1)-му наблюде- наблюдению, или среднему значению -к п-то и 2-(га + 2)-го наблюде- наблюдений). Порядковыми статистиками являются также наименьшее (г=1) и наибольшее (г = п) значения в выборке. Элемент совместного распределения компонент лгь лг2,..., хп выборки объема п из генеральной совокупности, в которой рас- распределение задается ф. p. F(x), равен dO = dF(*,)dF(x2) ... dF(xn). A1.26) Если к иксам применить преобразование то распределение полученных игреков будет иметь вид*) ... dyn @<&<1 для всех Г). A1.27) Порядок расположения игреков и иксов один и тот же, посколь- поскольку у — неубывающая функция от х. Если игреки перенумеро- перенумеровать так, чтобы i/i был наименьшим, у2 — наименьшим из ос- остальных и т. д., то область их изменения будет задаваться не- неравенствами 0<<< <<1. A1-28) Интеграл от A1.27) по этой области сводится к ¦•dy"- (И-29) 1 г Vi ( У> / Уг о III \\ dyA *) Здесь предполагается, конечно, что ф. p. F(x) непрерывна. (Прим. пере в.)
350 ГЛАВА II Последовательно интегрируя, находим, что интеграл A1.29) ра- равен 1/п!. Следовательно, элемент совместного распределения упорядоченных игреков имеет вид Jldyi. A1.30) Найдем распределение уг. Чтобы несколько упростить вы- вычисления, произведем еще одно преобразование: Модуль якобиана этого преобразования равен единице, элемент совместного распределения величин z равен п dL = n\\\dzlt A1.32) 1 = 1 и само их распределение сосредоточено в области 0<2,<22< ... <г,<1 — zr+1< ... <1— г„<1, или, в иной записи, 0<г,<г2< ... <zr, 0<г„ <?„_!< ... <гг+1<1— zr. Чтобы найти распределение zr, проинтегрируем по всем ос- остальным г, разбив их на две группы: dM Г 3 2 = dzrn \\ • • • dzx dzn, ... о о г г И л-1 " " * dZr~l J J * - • J dZ" dZ"-1 " - " dZr + l = о и 0<2r<l. A1.33) Таким образом, zr имеет бета-распределение первого рода. Для нахождения распределения r-й порядковой статистики хг до^ статочио теперь вспомнить, что F(xr)=zr. Элемент этого рас- распределения равен l )rl{l-F(Xr))"-rf(xr)dxr A1.34)
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 351 Это выражение можно было бы получить более прямым спо- способом (ср. A0.25)), однако мы предпочли изложенное выше рассуждение с целью иллюстрации применяемых методов. Пример 11.4 Если п нечетно, скажем п = 2т+\, то (т+1)-й элемент (пе- (переупорядоченной) выборки является медианой. Элемент распре- распределения zm+i согласно A1.33) равен Легко убедиться, что дисперсия zm+i равна 1/{4Bт + 3)} = = 1/{4(я + 2)}. Так как медиана хтН связана с zm+l соотношением хт+1 Отсюда и из A0.14) следует, что для больших выборок Dxm,, = Dzm+l [f (xa+l)}-2 = \Ц4пР (хт+{)}, что согласуется с A0.29). Геометрический метод 11.5 Значительной части громоздких рассуждений обычно можно избежать, используя геометрическую интерпретацию об- области интегрирования. Значения хи ..., хп любой выборки мож- можно представлять себе как координаты точки /г-мерного евкли- евклидова пространства. Произведение dF(Xi) ...dF(xn) можно тогда рассматривать как элемент массы в точке хи ..., хп, а полную частоту значений статистики z между Zi и z2 — как интеграл от элемента массы (т. е. как массу) по области, лежащей между двумя геометрическими местами точек z(xu ..., xn)—zi и z(Xu ..., х„)=г2, которые обычно являются гиперповерхно- гиперповерхностями в евклидовом «-мерном пространстве, т. е. представляют собой (п—1)-мерные пространства. Значение функции распре- распределения величины г в точке zt будет полной массой, сосредото- сосредоточенной между гиперповерхностями, соответствующими г=— оо и 2=2i; значение элемента распределения будет представлять собой элемент массы, заключенной между гиперповерхностями z — g- dz и z -f- ^ dz.
352 ГЛАВА II Пример 11.5 Рассмотрим еще раз задачу примера 11.2. В n-мерном «-про- «-пространстве плотность задана формулой Bя)а Статистика г{ = 1агх{) определяет гиперплоскость г = 2я/т,н/. A1.35) Требуется найти полную массу между этой гиперплоскостью и гиперплоскостью, соответствующей г=—оо, т. е. массу, находя- находящуюся по одну («нижнюю») сторону от гиперплоскости A1.35). Величина 2и2 представляет собой квадрат расстояния от точ- точки «1, ..., ы„ до начала координат и, следовательно, не меняется при поворотах координатных осей. Повернем оси так, чтобы одна из них стала перпендикулярной гиперплоскости A1.35), пересе- пересекая ее в точке Q. Пусть Р= («i, ..., н„) — точка, соответствую- соответствующая выборке, и О — начало координат. Тогда и плотность в точке Р принимает вид BлJ При перемещениях по гиперплоскости A1.35) OQ2 остается не- неизменным, так что интеграл от expf—tQ^2) есть постоянная, не зависящая от OQ. Следовательно, функция плотности в точ- точке z имеет вид где k — постоянная. Квадрат расстояния OQ от О до гиперплоскости равен откуда /(г)«*ехр|—1 I 2
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 353 т. е. z распределена нормально с дисперсией S ауа> и нулевым средним. Поучительно сравнить этот пример с примером 11.2. И там и здесь речь идет об одном и том же, только на разных языках. Пример 11.6 Рассмотрим опять задачу из 11.2. Изящество геометрического подхода отчетливо выступает при сравнении данного там реше- решения и приводимого ниже. Как в предыдущем примере, функция плотности здесь равна ?ехр(—^ОР2}' Нам нужно найти распределение статистики z=OP2. Заметим, что плотность постоянна на поверхности z=const, т. е. на поверхности n-мерного шара. Элемент распре- распределения z равен, следовательно, интегралу от этой постоянной плотности по области между поверхностями, отвечающими z и z+dz, т. е. пропорционален произведению exp (—--^ОР2] на элемент приращения объема n-мерного шара. Поскольку объем л-мерного шара пропорционален rt-й степени его радиуса ОР, то dF = k exp (—-i OP2) -^OP"dzcc e~J V ("~2)dz. Вычисляя константу, получаем 22 Г (т-) что согласуется с A1.8). Предположим теперь, что величины хи ..., хп по-прежнему нормальны с нулевым средним и единичной дисперсией, но под- подчинены р однородным линейным условиям вида . • • • +flnJCn = O. Это значит, что величины х должны лежать на р гиперплоскос- гиперплоскостях в rt-мерном пространстве. Первая из гиперплоскостей высе- высекает в гиперсфере постоянной плотности гиперсферу на единицу меньшей размерности; на этой гиперсфере плотность, конечно, тоже постоянна; в высеченной гиперсфере вторая гиперплос- гиперплоскость в свою очередь высекает гиперсферу размерности еще на единицу меньшей и т. д.; сечение последней гиперсферы гипер- гиперплоскостью приведет к гиперсфере размерности на р меньше ис- исходной. Следовательно, распределение z здесь имеет такую же 23 М. Кеадалл, А. Стьюарт
354 ГЛАВА II форму, как и выше, только с п, замененным на п — р: dF=—t - e-7 V (""") dz. A1.36) 22 Tt±ln-t Пример 11.7. Выборочное распределение среднего и дисперсии выборок из нормальной генеральной совокупности Среднее выборки обозначим х. Дисперсия выборки s2 равна Для выборок из нормальной генеральной совокупности с нуле- нулевым средним и единичной дисперсией плотность в точке хи ... ..., хп пропорциональна A1.37) Найдем выборочные распределения величин s и х. Выражение A1.37) показывает, что функция плотности может быть просто выражена в терминах s и х, и нам нужно теперь найти некото- некоторое преобразование элемента объема dxi ... dxn. Задача нахож- нахождения распределений х и s уже рассматривалась в примере 11.3 с аналитической точки зрения. Теперь нас интересует гео- геометрический подход. Рассмотрим в га-мерном пространстве (О — начало коорди- координат) вектор OQ с направляющими косинусами ~т^> —т= , •••> -^^. Пусть РМ обозначает перпендикуляр, опущенный из у п точки Р, отвечающей выборке, на OQ. Длина ОМ равна х> i Хг i _i xn TiiAiT а длина OP равна V^ x2. Следовательно, РМ имеет длину Элемент объема в точке Р можно рассматривать как произ- произведение элементарного приращения ОМ, равного dxYn- и эле- элементарного объема в гиперплоскости, проходящей через М и пер- перпендикулярной ОМ. В этой гиперплоскости поверхностями оди- одинаковой плотности, аналогично тому как это было в предыдущем примере, являются гиперсферы радиуса sYn с центром в точ- точке М. Следовательно, элемент объема равен произведению
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 355 k dx sn~2cis и некоторых других элементов, нас не интересую- интересующих, поскольку они не зависят от х и s. Для элемента распре- распределения dF величин х и s можем, стало быть, написать rf^ocexpj — ^(ns2~\-nx2)^s"-2dxds, A1.38) откуда вытекает, что dF разлагается в произведение двух мно- множителей dF, ocexpf— jnx2)dx, A1.39) и dF2 ос ехр (— ~ ns2) sn~2 ds. A1.40) Таким образом, мы получаем новое доказательство уже извест- известного нам факта, а именно: для выборок из нормальной гене- генеральной совокупности выборочные значения среднего и диспер- дисперсии независимы. Из A1.40) следует, что для распределения s2 dF ос ехр ( — -^ ns2) sn~3 ds2. Вычисляя здесь константу, находим 4(я-о п2 22*" "Ti-Hrln-: ехр (— j ns2) (s2J (" 3) d (s2), A1.41) 0<s2<oo, что согласуется с A1.25). Интересно сравнить распределение s2 с распределением из предыдущего примера. В предыдущем примере было найдено распределение суммы квадратов отклонений от некоторой фикси- фиксированной точки. В рассматриваемом примере нами найдено рас- распределение суммы квадратов отклонений от выборочного сред- среднего, деленной на п. Сравнение формул A1.41) и A1.36) пока- показывает, что с точностью до констант распределение дисперсии совпадает с распределением суммы квадратов при наличии од- одного линейного условия — факт, уже отмечавшийся нами в при- примере 11.3. Пример 11.8. Распределение «Стьюдента» В обозначениях предыдущего примера имеем ~хУИ __ ОМ где ф — угол РОМ. 23*
356 ГЛАВА II Определим статистику г, положив z=x/s. Очевидно, z не ме- меняется на конусе, образованном вращением ОР вокруг единич- единичного вектора при постоянном угле q>. Распределение z будет, стало быть, найдено, если определить массу, заключенную ме- между конусами, определяемыми углами ф и q>+dq>. Рассмотрим пересечение этих конусов с гиперсферой радиу- радиуса ОР. Они высекают на гиперсфере кольцо, площадь которого пропорциональна OPdq>PMn-2 = OP"-1 Sin"-2q>tfq>. Функция плотности на гиперсфере постоянна и пропорциональна ехр (—к ОР2). Следовательно, масса, заключенная между ко- конусами, пропорциональна оо 1 Ъ1 sin"'2ydydiOP) ос siun-\dq>, 0<Ф<л. 6 Отсюда для распределения z( = ctgq>) получаем ,„ kdz dF ос i— и, вычисляя константу. ldz „ . A1.42) Поскольку г есть отношение двух функций одинаковой раз- размерности, то его распределение одно и то же для выборок из нормальной генеральной совокупности независимо от шкалы, иными словами, независимо от дисперсии исходного распреде- распределения. Обычно рассматривают не статистику г, а отличающуюся от нее множителем статистику Для распределения t из A1.42) получаем - г !ГУdJr~= (П.43) /л_1 в{1(п-1|} " г ! ГУ J~ {1(п-1).|} / Р У где v=«— 1.
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 357 Это знаменитое распределение известно как распределение «Стьюдента», названное так в честь открывшего его ученого, писавшего свои работы под этим псевдонимом A908). Оно будет подробно обсуждаться в главе 16. Пример 11.9. Распределение среднего выборки из равномерно распределенной совокупности (Холл (P. Hall), 1927, Biometrika 19, 240) Рассмотрим выборку объема п из совокупности с равномерным законом распределения dF^dx, 0<лг<1. Соответствующая функция плотности в n-мерном пространстве будет равна постоянной внутри гиперкуба 0<лг;<1, у=1, ..., и, A1.45) и нулю в остальной части пространства. Единичный вектор направлен но диагонали этого куба. Если Р — соответствующая выборке точка (*i, ..., хп) и РМ — перпендикуляр на диагональ, то, как было показано в примере 11.7, ОМ=хуп. Таким образом, чтобы найти распределение х, нужно найти эле- элемент массы между гиперплоскостями х и x+dx. Последнее эквивалентно нахождению площади области, вырезаемой в гиперплоскости х различными сторонами гиперкуба. Здесь имеется некоторая сложность, обусловленная тем, что при изменении х эта область меняет свою форму в соответствии с числом ребер гиперкуба, пересекаемых гиперплоскостью. Рассмотрим «квадранты» = 0 ..... , , / = 1, 2, .... n, A1.46) углы которых совпадают с углами гиперкуба. Каждый угол имеет какое- нибудь число 0, 1, 2, ... или п координат, равных единице, а остальные его координаты равны нулю. Разобьем совокупность всех квадрантов на (я+1) множеств в соответствии с количеством 0, 1, ... или п. координат, равных единице, т. е. в соответствии со значениями 0, 1, ... или п суммы п г = 22 гг Квадрант, принадлежащий ^-му множеству, обозначим Q*. Имеется I . I раз- различных квадрантов Qi. Пусть 5 — любая точка из Qo, т. е. любая точка с не- неотрицательными координатами, и пусть s из ее координат !> 1. Тогда 5 при- принадлежит I „ I (= 1) квадрантам Qo, 1,1 квадрантам Qi, I „ I квадран- квадрантам Q2 и т. Д. Если s>0, то = A— IM = 0. (П-47) 1-0 Следовательно, если всякий раз, когда точка принадлежит Qf, придать ей плотность (—1)', а затем просуммировать по всем Q, то в результате
358 ГЛАВА II получится 1 или 0 в соответствии с тем, принадлежит точка гиперкубу или нет *). Пусть часть гиперплоскости 2 = %х, A1.48) лежащая в Qo. имеет площадь Vn(z). Тогда часть ее, лежащая в любом квадранте A1.46), будет иметь площадь Vn(z— г) причем, очевидно, Vn (z—г)=0 при r~^>z, а площадь части ее, лежащей в гиперкубе, будет равна () A1-49) г-0 где k=[z\ — наибольшее целое число, ire превосходящее z. Найдем теперь Vn(z). Пусть Vn-\(z)—площадь проекции части гипер- гиперплоскости A1.48), лежащей в Qo и спроектированной параллельно одной из осей. Имеем Величина Vn(z) является объемом n-мерпой области, ограниченной коорди- координатными гиперплоскостями и гиперплоскостью A1.48), т. е. является объемом области, основание которой имеет площадь Vn(z). Длина перпендикуляра, опущенного из точки О на это основание, равна —7=. Поэтому У п п у п Ц следовательно, Пользуясь тем, что V2{z)=zV^,h применяя последовательно эту формулу, находим Подставляя значения Vn в A1.49), получим следующее выражение для пло- площади общей части гиперкуба и гиперплоскости, соответствующей значениям z, лежащим между k и fe+1: Так как *) Это верно с точностью до точек, лежащих на поверхности гиперкуба, которые, однако, можно не принимать во внимание. (Прим. перев.)
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 359 — z то плотность распределения среднего х =¦ — имеет вид Весьма любопытно, что график этой плотности состоит из п. дуг парабол степени п—1 относительно jc, соединяющихся в (п—1) точках— {k = 1, 2, ..., .... п-1). Очевидно, найденное распределение симметрично относительно х= ¦=-. Для значений и=2, 3, 4 формула A1.52) дает следующие функции плот- плотности: 1, 4A— х), -2"<х<1. 128 | -. л /- 1 1 ПО О -±f-(l-x)\ ~<х<1. При «=2 получается «треугольное» распределение. В силу центральной предельной теоремы распределения будут приближаться к нормальному при возрастании п. Метод характеристических функций 11.6 В 7.18 уже отмечалось, что характеристическая функция суммы п независимых случайных величин есть произведение их характеристических функций. Это простое свойство позволяет найти выборочные распределения широкого класса статистик, выражаемых в виде сумм, в частности, средних значений. Если имеется выборка объема п из генеральной совокупно- совокупности с характеристической функцией ф(/), то характеристической
360 ГЛАВА 11 функцией суммы выборочных значений будет <р". Для функции распределения F(z) и функции плотности f(z) этой суммы имеем согласно D.4) и D.33) оо F(г) - F @) = -— J 1 ~ ;"'" Ф" dt A1.53) ~itZ(f"dL О1-54) оо Следующие примеры иллюстрируют мощность этих простых результатов. Пример 11.10. Распределение среднего выборки в случае биномиального распределения Характеристическая функция биномиального распределения, задаваемого символическим выражением (q+p)n, равна X. ф. выборочного распределения суммы п значений имеет вид а х. ф. распределения среднего выборки (суммы, деленной на п) есть i Но последнее выражение является х. ф. биномиального распре- распределения, задаваемого символическим выражением (q+p)rn, A1.55) но только с шагом Цп вместо единицы; это распределение, сле- следовательно, и является распределением среднего. Пример 11.11. Распределение среднего выборки в случае пуассоновского распределения Характеристическая функция пуассоновского распределения с общим членом е~^Я,г/г! равна ехр {к(еи— 1}. X. ф. среднего имеет вид exp{nX(eitln— 1)}. Следовательно, распределение среднего является пуассоновским распределением с общим членом e-^-^-f- A1.56) и с шагом \\п вместо единицы.
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 361 Пример 11.12. Распределение среднего выборки из нормальной генеральной совокупности Согласно примеру 3.4 характеристическая функция нормаль- нормального распределения i / \ 2 равна expf—-g- t2e2 + it\u. X. ф. распределения среднего п значений имеет вид ехр{л(—2-^ + -f)[ = exp{—2-^ + ^[. A1.57) Выражение A1.57) есть х. ф. нормального распределения со средним ц и дисперсией о2/п, которое и является искомым рас- распределением. Пример 11.13. Распределение среднего выборки из генеральной совокупности с распределением III типа Характеристическая функция распределения III типа равна (пример 3.6) A-i X. ф. распределения среднего п значений имеет вид 1 Это последнее выражение является х. ф. распределения Пример 11.14. Распределение среднего выборки для случая равномерного распределения Характеристическая функция равномерного распределения dF=dx (О^Сх-^l) равна J it
362 ГЛАВА П X. ф. среднего п значений имеет вид I—-щ-—) , так что функ- функция плотности распределения этого среднего равна Поскольку подынтегральная функция всюду аналитична, вме- вместо интегрирования по действительной прямой можно интегри- интегрировать по контуру Г, состоящему из полупрямой —оо</^—с, маленькой полуокружности радиуса с с центром в начале коор- координат и полупрямой c^-t<oo. Имеем «*>-¦?¦/•-"•№¦)'*= Далее, J z" dZ\ ~2ni" tf-ni ПРИ ё<°- В этом можно убедиться, интегрируя по контуру, образованному контуром Г и полуокружностью бесконечного радиуса, лежащей соответственно в верхней или нижней полуплоскости, при g>0 или g^CO. Пользуясь найденным значением интеграла, из A1.60) по- получаем eitjm-itx («/я)" :-iy(; -dt = (я —1I <пх \пх\ ... / I I * I I •II "v "" ' Эта формула лишь обозначениями отличается от A1.52). 11.7 Можно найти также общие выражения для распреде- распределений геометрических средних и моментов относительно фикси- фиксированных точек.
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 363 В самом деле, если y = \ogx, то характеристическая функ- функция у имеет вид со оо a(t) = J eitx°?xdF= J х" dF. — оо -оо Обозначим nz сумму п независимых значений игреков. Для функции распределения nz имеем представление оо -F@) = ±- J 1~е~1Ш a*dt. A1.61) По распределению nz определяется распределение среднего зна- значения z. Зная распределение z, с помощью формулы 2=log и можно найти распределение среднего геометрического и. Функция плотности распределения nz, если она существует, равна оо = ~ J e~Unzandt. Подобным образом можно найти распределение моментов выборки. Характеристическая функция степени хг, где х имеет распределение F, выражается формулой оо р@= J exp(itxr)dF, —оо и для распределения r-го момента z имеем оо F {nz) -F@) = ± j l -eit~l'nZ p" dt. A1.62) — оо Пример 11.15. Распределение геометрического среднего выборки в случае равномерного распределения Если выбор производится из генеральной совокупности с рас- распределением dF то характеристическая функция величины log л: имеет вггд С и dx _ alt J a ~ 1 + it '
364 ГЛАВА II и плотность распределения суммы u=H.\ogx равна, следова- следовательно, СО ,"(»i»e«-«) Вычисляя этот последний интеграл (его нетрудно вычислить, переходя к другому контуру интегрирования), находим Отсюда, подставляя z=euln, получаем следующее выражение для плотности геометрического среднего: п~1 Пример 11.16. Распределение момента второго порядка относительно среднего генеральной совокупности для выборок из нормальной генеральной совокупности Для распределения dF' = —¦==¦ ехр [ x2ja2)dx характеристическая функция величины х2 равна оо —)= [ ехрШх2)ехр[— -x2/a2)dx = ш. aV2n J ^v \ 2 / A— 2o4t)m — со Обозначим т2 среднее п независимых значений х2. X. ф. распре- распределения величины т2 имеет вид ! j-, A1.64) и, следовательно, функция плотности этого распределения равна 1 Г ехр (— itm2) ,, ^ J 1 п "°° A— 2o4t/nJ Последний интеграл можно вычислить, переходя к другому кон- контуру интегрирования. Но его можно и прямо выписать, исполь- используя то обстоятельство, что A1.64) является характеристической
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 365 функцией распределения, ехр(—ntn2[2o2)m2 dtn^. A1.65) J"" Полезно сравнить это распределение с распределением A1.8). Последнее получается из него заменой z=nm2lo2. Метод индукции 11.8 Распределение суммы двух независимых случайных ве- величин можно вычислить непосредственно следующим образом. Элемент их совместного распределения равен dF (хг, х2) — dFx (Xi) dF2 (x2) = f, (хг) f2 (x2) dxl dx2. Для преобразованных величин г—хх-\-х2, у — х2 (якобиан здесь равен 1) имеем dO(z, y) = h(z-y)f2(y)dzdy. A1.66) Интегрируя по у, находим, что для распределения z ( со | dH (г) == ] J h (z - у) f2 (у) dy dz, I -со j так что функция плотности распределения z есть со А(г)= J h(z-y)f2(y)dy. (П.67) -оо Функция распределения z получается интегрированием h(г) от —сю до г. Она равна оо Н (г) = J F, (z ~ у) /2 (у) dy. A1.68) Отметим, что если х^-0, то интегрировать по у следует от — ос до z, а если также и лг2^-0, то интегрирование ведется от 0 до г. Формулу A1.67) можно использовать для последовательного нахождения распределений сумм любого числа случайных вели- величин, распределение каждой из которых известно. Если все сла- слагаемые распределены одинаково, то общая формула для функ- функции распределения суммы может быть подсказана формулами для распределения суммы двух или трех слагаемых. В правиль- правильности общей формулы можно затем убедиться с помощью ин- индукции. Следующие примеры иллюстрируют этот метод.
366 ГЛАВА И Пример 11.17 Рассмотрим еще раз распределение из примера 11.1 Согласно A1.67) функция плотности для суммы двух независи- независимых случайных величин, каждая из которых имеет такое распре- распределение, равна Г_1 ( ! J я* \\ + (z-xf Это подсказывает общую формулу Если она правильна, то для распределения суммы (га+1) вели- величин будем иметь Следовательно, поскольку формула верна для га=1, 2, она верна для всех га. Пример 11.18 В примере 11.6 мы обнаружили, что распределение суммы квадратов га независимых нормально распределенных случайных величин имеет вид rf/7 = _ i е 22z2n dz, A169) Представим себе, что на основе изучения формы распределения для малых га мы предположили, что формула A1.69) верпа для всех га. Чтобы убедиться в справедливости сделанного предполо- предположения, допустим, что эта формула верна для га. Пусть х — нор- нормально распределенная случайная величина со средним нуль и единичной дисперсией, не зависящая от га других (независимых) так же распределенных случайных величин, сумму квадратов
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 367 которых обозначим z. Для распределения величины v = x2 имеем dF = ~r^ е 2 v 2dv, 0<г»<оо. Поскольку обе величины г и и неотрицательны, то согласно A1.67) плотность распределения величины u = z+v равна " 1 Г 1 -я-(«-»). -^ г 2 (и— « Л(|) е z |(«-уГ2^ A т. е. имеет тот же вид, что и в A1.69), если там п заменить на п + 1. Тем самым формула A1.69) верна для всех п. Распределение отношения случайных величин 11.9 В некоторых ситуациях нужно знать выборочное рас- распределение отношения двух независимых случайных величин Xi и х%. Их совместное распределение выражается формулой dF(xu Xz) = dF1{xi)dFi(x2) = fl(xi)f2(x2)dxldx3. A1.70) Перейдем к новым величинам u=xl[x2, v=x2. Якобиан этого преобразования равен J = v. A1-71) Как указывалось в 11.3, замена переменных должна удовлетво- удовлетворять некоторым условиям. По существу, нужно, чтобы внутри области интегрирования якобиан не обращался в нуль; нулевые значения якобиана на границе допускаются. Из A1.71) выте- вытекает, следовательно, что, за исключением границы, должно быть x2 = v^0. A1.72)
368 ГЛАВА И Таким образом, в первую очередь мы должны ограничиться рас- рассмотрением тех отношений случайных величин, у которых зна- знаменатель может принимать значения либо только от 0 до оо, либо только от —оо до 0. В первом случае согласно A1.70) и A1.71), dG(u, v) = fl(uv)f2(i>)vdudv. A1.73) Следовательно, распределение и имеет вид dH(u) = \J f1(av)f2(v)vdv\da. . A1.74) и функция распределения и равна оо Н(и)= I Fl(uv)fa(v)dv. A1.75) —оо Пример 11.19 Рассмотрим опять распределение отношения x/s, о котором шла речь в примере 11.8. Здесь х и s — соответственно среднее и дисперсия выборки объема п из нормальной совокупности. Как мы уже видели (A1.39) и A1.40); в этих формулах сг2=1), для распределений х и s соответственно dFx ос ехр (— nx2j2a2) dx, dF2 ос ехр (— ns2/2a2) s"~2 ds. Из A1.74) следует, что плотность распределения z(=xfs) с точ- точностью до константы равна ехр (— nz2s2l2a2) ехр (— ns2l2a2) sn~2s ds ос со J О Вычисляя константу, получаем результат, совпадающий с A1.42). 11.10 Если величина х2, введенная в 11.19, неотрицательна и имеет конечное среднее, то распределение отношения и можно также найти с помощью характеристических функций. При не- неотрицательном v уравнение A1.75) переходит в H(u)=f
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 369 Далее, обозначая <pi(/), фг@ соответственно х. ф. величин xit x2 и используя D.4), получаем (П-76) Дифференцируя по а, находим, что ф. п. величины и при усло- условии, что она существует, равна оо = 4п J ф1 ^> ф2 (- <«) ^' A1 -77) если только интеграл сходится. Этот результат принадлежит Крамеру A937). Даниэлсом A954) было отмечено, что конеч- конечность среднего величины хг достаточна для абсолютной сходи- сходимости интеграла в правой части формулы A1.77) при всех и. Гири (Geary, 1944, /. Roy. Statist. Soc. 107, 56) обобщил A1.77) на случай зависимых лгь х2 с х. ф. совместного распределения ¦ ф(^ь t2), предполагая неотрицательность величины х2 и конеч- конечность ее среднего. Им получена формула <»¦*» Набросок доказательства A1.78) приводится ниже в упражне- упражнении 11.24, из которого видна важность условия конечности М(л;2) Пример 11.20. Распределение дисперсионного отношения Фишера Пусть имеются две независимые выборки объема и4 и п2 из нормальных генеральных совокупностей с дисперсиями o'j и а\ соответственно. Определяя дисперсию выборки как ^{х — хJ[п, 24 М. Кендалл, А. Стьюарт
370 ГЛАВА II обозначим дисперсии рассматриваемых выборок s2 и s|. Эле- Элементы распределений этих величин согласно A1.40) выражаются формулами dFx ос expl \ 2ffj / dF2 ос ехр (— И^-) s'-* ds\. Из A1.74) для функции плотности отношения t2 = s\ls\ полу- чаем ос J exp(— ос и ос Lj_ _( 0</2<оо. A1.79) Это — функция плотности бета-распределения второго рода (ср. F.17)). Иногда вместо t2 рассматривают величину . A1.80) 2 п2 («! — 1) s2\o\ 2 Используя A1.79), легко найти функцию плотности распределе- распределения z. Имеем f(z) ос — j , —оо<2<оо, A1.81) и, полагая vi = «i — 1, V2 = n2—1 и вычисляя константу, полу- получаем Р. А. Фишер предложил z вместо Р по той причине, что интер- интерполировать таблицы для z легче, чем для t. На распределении статистики г основывается большое количество статистических
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 371 тестов; позже (в главе 16) мы изучим его свойства подроб- подробнее*). Найдем распределение t2 с помощью теоремы Крамера о х. ф. отношения. X. ф. величин sf и s% равны соответственно (ср. при- примеры 11.3 и 11.13) Отсюда, применяя формулу A1.77), для ф. п. отношения v== 2',2 получаем /4 4/4 со Ш J \ П\ -4-С2+1) du Интегрируя теперь по контуру, состоящему из мнимой оси и ле- лежащей слева от нее бесконечной полуокружности, находим '—2 й- где a = -^(tti—3), и, следовательно, -о №-3) \ t2 Полученное выражение подстановкой v= 2/ 2 приводится к виду A1.79). Следует отметить, что это доказательство приме- применимо только в случае нечетных пь поскольку а должно быть целым. 11.11 В 11.9 мы указывали на трудность при отыскании рас- распределения отношения, возникающую, когда область значений знаменателя содержит внутри себя нуль. Один из способов обойти *) На самом деле предложение Фишера большого распространения не получило. К настоящему времени созданы подробные таблицы распределе- распределения t2, интерполяция и экстраполяция которых осуществляются достаточно просто; см., например, «Таблицы математической статистики». (Прим. ред.) 24*
372 ГЛАВА 11 эту трудность состоит в разбиении области значений знамена- знаменателя на две части: одну — состоящую из отрицательных чисел, другую — из неотрицательных. Мы будем считать, что функция распределения знаменателя непрерывна в нуле, поскольку в про- противном случае отношение, с положительной вероятностью, беско- бесконечно. Из A1.70) находим (отдельно для каждой из двух ча- частей области значений знаменателя), что ,П1 ч ( h{ttv)f2{v)\v\dttdv, v<0, du(u, v) — { , . . r . . , , ^ n A1.83) v ' [f1{uv)f2{v)vdudv, <u>0, v откуда, аналогично A1.74), получаем Io | \h{ttv)f2{v)vdv~ J fl(uv)f2(v)vdv\du. A1.84) 0 -oo j Как и выше, из этого выражения легко получить формулу для функции распределения. Практически обычно интересуются лишь теми отношениями, знаменатели которых неотрицательны. В этом случае, как в при- примерах 11.19 и 11.20, применим метод из 11.9. Но даже когда знаменатель может принимать значения любого знака, задачу иногда можно упростить, рассматривая квадрат интересующего отношения и применяя- к нему метод из 11.9. Пример 11.21 Рассмотрим отношение двух независимых нормально рас- распределенных случайных величин с нулевым средним и единич- единичной дисперсией. Для элемента распределения этого отношения из A1.84) получаем следующее выражение: о \ е 2 vdv— \ е 2 е 2 vdv\, которое в силу симметрии нормального распределения сво- сводится к exp| — ^v2 Интеграл справа, как легко видеть, равен 1/A + и2) (ср. со сред- средним отклонением нормального распределения E.75)). Следова- Следовательно, рассматриваемое отношение имеет распределение Коши ) *=„(!+„,). -оо<«<оо. A1.85)
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 373 В данном случае эффективен предложенный в 11.11 переход к рассмотрению квадрата отношения, поскольку он ведет к отно- отношению квадратов двух нормированных нормально распределен- распределенных случайных величин, каждый из которых имеет распределе- распределение III типа A1.8) с п — \. Распределение квадрата отношения совпадает, стало быть, с фишеровским распределением вели- величины Р из примера 11.20. Легко убедиться в том, что A1.79) сводится к полученному нами выше результату, если положить rti=rt2 = 2*), 0, = a2=l. 11.12 До сих пор мы имели дело главным образом с распре- распределением одной статистики, построенной по элементам простой случайной выборки. Однако рассмотренные методы без особого труда обобщаются на случай задачи нахождения совместного распределения нескольких статистик. Например, если имеется несколько статистик zu z2, ..., zp и dF(xt, ..., хп) задает со- совместное распределение выборочных значений Х\, ..., хп, то х. ф. совместного распределения величин г имеет вид оо сю Ф(/„ ..., tp) = j ... J exp (ibzi + ...-+- itpZp) dF(xu .... jeB), — oo — oo A1.86) а функция плотности (если она существует) выражается фор- формулой оо со 7^tp- J ••• J exp(—rti*!— ... oo -oo —oo X<P(<i. •••. tP)dtt ... dtp. A1.87) Примеры использования этих результатов встретятся в даль- дальнейшем. Метод перевала 11.13 Хотя на протяжении этой главы мы занимались выво- выводом точных результатов о выборочных распределениях, нам удоб- удобно здесь отметить один развитый Даниэлсом A954) аппроксима- аппроксимативный метод, совершенно отличный от тех методов, которые будут обсуждаться в главе 12. Существенные черты его состоят в следующем. Функция плотности среднего представляется как обращение п-и степени характеристической функции. Полученный *) Не 1, поскольку в данном случае берутся квадраты отклонений не относительно среднего выборки, а относительно среднего генеральной сово- совокупности, и поэтому получается лишняя степень свободы. См. по этому по- поводу пример 11.7.
374 ГЛАВА II интеграл вычисляется приближенно, для чего выбирается путь интегрирования, проходящий через седловую точку подынте- подынтегральной функции так, чтобы подынтегральная функция была пренебрежимо мала вне малой окрестности этой точки. Это дей- действительно можно сделать, и достигаемая аппроксимация, по крайней мере в простых случаях, очень хороша. В результате получаются разложения функции плотности эджвортовского типа F.18), которые, однако, лучше, чем само разложение Эдж- ворта. УПРАЖНЕНИЯ 11.1 Найти распределение среднего выборки, образованной п независи- независимыми наблюдениями из генеральной совокупности с распределением dF=e-xdx, 0<л:<со, (а) посредством индукции, (б) с помощью характеристических функций. 11.2 Пользуясь методом характеристических функций, иайти выражение для выборочного распределения среднего выборки из генеральной совокуп- совокупности с распределением % 11.3 Показать, что распределение геометрического среднего g выборки объема п из генеральной совокупности с распределением III типа dF = —=—— dx, 0 < x < со, имеет вид dF = 21 1 (Каллбэк, 1934.) 11.4 Пусть Xi xn представляют собой п независимых нормально рас- распределенных случайных величин с нулевым средним и единичной дисперсией. I/ " \ " Показать, что распределения статистик xt /| 2 х11 и 2 "*"У независимы. Установить также независимость величин (х;—-*:J/2 ^'—х^2 и 2 (•*/—^2' где х — арифметическое среднее иксов. 11.5 Используя результаты предыдущего упражнения, показать, что если тг, т3 и ш4 — моменты порядков 2, 3 и 4 относительно среднего выборки, т., \* Мт$ mf /m4\ Mm* М —^1 = тг,) \Atnf 11.6 Пусть х\ хп представляют собой п независимых случайных величии, каждая из которых равномерно распределена между 0 и 1,
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 375 Показать, что если то { Q < е'1' } = Jz-^'dzlW (n - 1)!}. 11.7 Показать, что совместное распределение двух порядковых статистик хг и х, (r<s) имеет вид dF(xT, xs) = "] рГ-l ,р р \S-T-l /1 р -.П-S jp jp = (г-1)!<а-/—1)!<я-а)Г« (^^) С1^) ^1^2- где fi и ^2 — зиачеиия функции распределения генеральной совокупности в точках хт и xs соответственно. 1!.8 Интегрируя формулу предыдущего упражнеиия по ха, найти распре- распределение хт- 11.9 Показать, что распределение геометрического среднего п независи- независимых величин, имеющих распределения с плотностями соответственно xP-le-x xp+l/n-lg-x xP'.-(n-l)/n-lg-x Г (/>) ' Г(р + 1/л) ' ••- Т{р + (п-\)/п} ' совпадает с распределением среднего арифметического п независимых слу- случайных величин, распределение каждой из которых совпадает с распределе- распределением первой из предыдущих величии. (Каллбэк, 1934.) 11.10 Пусть S — сумма п независимых случайных величин, распределен- распределенных с функцией плотности, равной сумме некоторого числа первых членов ряда типа А: Показать, что сумма 5 имеет функцию плотности /E) = аE){1 + ф-Я3(| где Z — oVn и v3!v4! ... Vfc! (N— v3— ... —v#)! 3 '"' суммирование в последней формуле распространяется на те v, для которых (Бэйкер, 1930.) 11.11 Показать, что отношение двух независимых нормально распреде- распределенных случайных величии имеет функцию плотности, равную 1 mrf + mrfv ___[ 1 {mi-m2vf\
376 ГЛАВА II где Ш], (Ti и rrii. 02 — среднее и дисперсия соответственно первой и второй ве- величин. Предполагается, что т2 столь нелико по сравнению с а2, что область значений второй величины можно считать расположенной вправо от нуля. Вывести отсюда, что величина ! щ- распределена нормально с ('l + l2) ( нулевым средним и единичной дисперсией. (Гири, 1930.) 11.12 Показать, что отношение двух независимых случайных величин с распределениями соответственно dp о=е-Ъ(х-тЛ(х — dp <х е~ъ (х~тг) (Х _ имеет функцию плотности /(») = dx, 0< т 0 < < х < со, где |=m,—m2v. (Распределение этого отношения включает в себя фишеров- ское распределение дисперсионного отношения как частный случай.) 11.13 Пусть X] и х^—независимые случайные величины и xt распределена нормально со средним т, и дисперсией a2, a x2 имеет распределение стан- стандартного отклонения в нормальной выборке, но с измененным началом от- отсчета, т. е. dF cce"v(s~'"!) E — тп2)р~1 ds, 0<m2<s<oo. Показать, что функция плотности отношения v=X]lx2 выражается формулой f (v) = -У== а У~2п Г (р) гпг со 2 . /I-1 где |=mi — m2v.
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 377 (Распределение Стьюдента является частным случаем распределения этого отношения.) 11.14 Показать, что распределение среднего выборки объема п из гене- генеральной совокупности с распределением II типа dFccxP-^l—x)p~1dx, p>0, 0<х<1, имеет плотность !(х)=±пя2 {Г (/>)}" J | ? ± (± /) J" cos (nxt) dt/t ^ 2 , где (Гг(г) — функция Бесселя порядка г по г. (Ирвин, 1927.) 11.15 Показать, что функция плотиости разности г двух независимых слу- случайных величин, каждая из которых имеет распределение III типа <!! = ¦¦ Г( равна dx, p>0, 0<л<со. где Кг(^)—функция Бесселя второго порядка от мнимого аргумента. (К. Пирсон и др., 1932.) 11.16 Показать, что разность двух значений, каждое из которых выбрано случайно и независимо из пуассоновской генеральной совокупности, распре- распределение которой имеет общий член вида e~kkr/r\, подчиняется дискретному распределению с общим членом вида е~21^ТаBК), где d может принимать все целые значения от —оо до оо и ТаBХ) —модифицированная функция Бесселя первого рода порядка d от аргумента 2К (ср. с примером 4.5). (Ирвин, 1937.) 11.17 Используя результат упражнения 11.15, найти распределение сред- среднего п независимых величин, каждая из которых имеет распределение dF = -g- e xidx, —oo<x<co. 11.18 Найти характеристическую функцию совместного распределения среднего и дисперсии выборки объема п из нормальной генеральной совокуп- совокупности и показать, что эта х. ф. распадается в произведения х. ф. среднего и х. ф. дисперсии, так что среднее и дисперсия независимы. 11.19 Пусть ф('ьУ—х. ф. совместного распределения среднего и дис- дисперсии выборки объема п из генеральной совокупности, распределение которой
378 ГЛАВА 11 имеет плотность f(x) и х. ф. <x(t). Показать, что 1 Г I I —оо еи'х!п xe'hx'n f (x) dx Показать далее, что если среднее и дисперсия независимы, то -а-1Р + [чг) =<j2ct2> где от2— дисперсия распределения генеральной совокупности, и что, следова- следовательно, в этом случае генеральная совокупность необходимо нормальна. [Лукач A942). Гири A936) уста- установил этот результат для распределе- распределений с конечными семиинвариаитами всех порядков.] \ 1.20 Из генеральной совокупности с равномерным распределением dF—dxIQ, 0<jc<9, независимо извлекаются две выборки объемов тип соответственно. Пусть хт и хп — наибольшие элементы этих выборок. Пока- Показать, что для распределения хт и что, следовательно, для распределении отношения хт/хп тп um-xdu т-\-п ' dG (и) = тп du , . . 1 < и <! оо. [ т + п ип+1 (Мэрти, 11.21 Из генеральной совокупности с равномерным распределением dF—dx, 0<*<Л, независимо извлекаются k случайных выборок объема п каждая. Наибольший элемент r-й выборки обозначим хг и положим v=X]X2 ... Xk. Пользуясь индукцией или каким-либо другим методом, пока- показать, что для распределения v dO(v)={nk/(k—l)l) vn~x {log (I/w)}* dv. (Райдер, 1955.) 11.22 Обобщая результат примера 11.21, показать, что если величины х и у имеют двумерное нормальное распределение с коэффициентом корреля- корреляции р, то статистика
ТОЧНЫЕ ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ 379 имеет функцию плотности S B) = ,i _9п 4- г2) ' — °° < г < с». (Филлер (Fieller), 1932, Biometrika 24, 428.) 11.23 Показать, что если в примере 11.21 вместо нормально распределен- распределенных величин рассматривать две независимые случайные величины, имеющие распределение, о котором шла речь в упражнении 2.12, то их отношение по- прежнему будет иметь распределение Когаи A1.85). (Стек (Steck), 1958, Ann. Math., Statist. 29, 604.) 11.24 Совместное распределение случайных величии *i,*2 (> 2)=Ц) имеет ф. п. f(*i,*2) и х. ф. q>(fi, tt). Обобщая A1.74), показать, что оо ф. п. величины и=х^х2 равна h (и) = { (uv, v) v dv. Показать далее, что о х. ф. распределения с плотностью g (хи x2) = ^-f (*„ х2) равна ' щ dt2 и что х. ф. величины w=X\ — uxi есть [ф(<1, <а)]/ — и/,- Убедиться в том, что ф. п. величины w при о> = 0 принимает значение h(u)l\x,, и, используя формулу обращения, доказать A1.78). (Даниэле, 1954.) 11.25 Пусть х — нормированная нормально распределенная случайная ве- величина. Показать, что х. ф. распределения величины у~\/х2 равна Ф„@ = ехр { - (- 2«I/2} и что, следовательно, х. ф. распределения среднего у в выборке объема п из генеральной совокупности с распределением у есть ф-@ = Ф„(лО = <?„„<<). Таким образом, распределение среднего из п наблюдений совпадает с распре- распределением одного наблюдения, умноженного па п, и распределение у стано- становится все более рассеянным при возрастании п.
ГЛАВА 12 АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ — A) 12.1 В предыдущей главе мы рассмотрели различные методы получения выборочных распределений в точной форме в предпо- предположении, что распределение генеральной совокупности извест- известно полностью. Однако эти методы становятся неприменимыми, если распределение генеральной совокупности не известно точно. Формальное же их применение наталкивается в практике на большие трудности. Например, приходится иметь дело с нетабу- лированными интегралами. В таких случаях мы сталкиваемся с проблемой отыскания подходящего приближения для выбороч- выборочного распределения, например, путем нахождения некоторых моментов выборки не очень высокого порядка и построения с их помощью, скажем, одной из кривых системы Пирсона. Процедуры подобного рода в действительности уже рассмат- рассматривались в главе 10. Там мы видели, что приближенное выраже- выражение для частотного распределения можно получить, отправляясь от первых двух выборочных моментов, которые могут быть выражены через низшие моменты распределения генеральной со- совокупности. В случае, когда выборочное распределение асимптоти- асимптотически нормально, эта процедура на самом деле решает постав- поставленную проблему, поскольку первые два момента целиком опре- определяют нормальное распределение. Методы настоящей главы являются развитием этой идеи. Мы обсудим точные методы, по- позволяющие находить моменты выборочных распределений по мо- моментам генеральной совокупности. Наши результаты важны не только тем, что они имеют большой самостоятельный интерес, но и тем, что они при больших п дают точный метод оценки степени аппроксимации выражений, рассмотренных в главе 10. В частности, мы будем в состоянии решить ряд вопросов, лишь слегка затронутых в главе 10, например вопрос о скорости, с ко- которой распределение некоторых функций от моментов выборки (как, скажем, V^i) стремится к нормальному. t2.2 Статистики, с распределениями которых нам обычно при- приходится иметь дело, можно разбить на три группы. Наибольшую
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ—(I) 381 группу составляют статистики, представляющие собой симмет- симметрические функции от результатов наблюдений, т. е. такие функ- функции от результатов наблюдений xit Хг, ..., хп, которые не изме- изменяются прн перестановках иксов. Часто эти статистики оказы- оказываются, кроме того, алгебраическими. В этот класс статистик входят арифметическое среднее, моменты, такие величины как fri и &2, получающиеся из моментов, и смешанные моменты — в многомерном случае. Вторую группу составляют порядковые статистики: медиана, квантили, широты, крайние значения и т. д. В третью группу отнесем такие статистики, как, например, мода, не вошедшие в первые две группы. Методы, развиваемые нами в этой и следующей главах, при- применимы только к первой из названных групп статистик. Отметим три различных типа моментов, на изучении которых мы будем останавливаться: (а) моменты истинного или теоретического рас- распределения (например, \ii, A2), (б) моменты выборки (например, п п \ т'г = — 2j хгр тг = -^ 2д (xj ¦-¦ mi)r I> (в) моменты выборочных г распределений, т. е. моменты распределений статистик (напри- (например, M/7zr, Dm'r). Соответственно мы будем рассматривать теоретические или истинные семиинварианты, семиинварианты выборки и семиин- семиинварианты выборочных распределений. * 12.3 В главе 10 мы получили следующие точные формулы: A2Л) и отмечали, что получение моментов выборочных распределений относительно среднего не столь уже просто. Позднее мы пред- предпочтем другой вывод этих формул, а сейчас только посмотрим, что получится, если подход главы 10 мы попытаемся применить к настоящему случаю. Предположим, к примеру, что нас инте- интересует выборочное распределение дисперсии. Вышеприведенные уравнения дают нам первые два момента ее выборочного рас- распределения относительно произвольной точки. Для первого мо- момента получим = М A2.2)
382 ГЛАВА 12 Поскольку Xi и Xj независимы, то Мл:,*; равно (м-;J. Уравне- Уравнение A2.2) тогда дает ^^-(^-]if)^-^-lx2. A2.3) Приближенное же выражение для Мт2, полученное в главе 10, имеет вид M/ra2 = fi2. A2.4) 12.4 Довольно ясно, как использовать этот метод с целью получения моментов любого порядка для других статистик, ко- которые могут быть выражены как симметрические функции (ра- (рациональные или целые) от результатов наблюдений. Например, для нахождения четвертого момента дисперсии выборки нам пришлось бы сначала разложить { 2 х2/п— B-*7«J}4 в сумму произведений вида 2"*?-*\/ ''¦ "**' затем произвести усредне- усреднение, что даст п(п — 1) ... (п — t + \) \х.'а\х,'& • • • My где t — число различных индексов i, /,..., k в сумме. Таким образом, мы по- получим требуемый момент в терминах исходных моментов, т. е. моментов теоретического распределения. 12.5 Как видим, этот метод достаточно прост. Однако он сопровождается утомительными алгебраическими преобразова- преобразованиями и приводит к громоздким выражениям, за исключением разве лишь очень простых случаев. В целях упрощения даль- дальнейших выкладок мы используем некоторые понятия, связанные с симметрическими функциями. Предположим, что мы имеем множество хи ..., х„. При за- записи выражений типа '^ix2iXjX3lxk мы будем всегда предпола- предполагать, что все участвующие индексы различны и что суммирова- суммирование производится по всем иксам с различными индексами. По- Поэтому в данном примере суммируется всего п(п—1) (п—2) (я—3) членов. Нужно заметить, что в некоторых выражениях, таких как, например, 2 х{Хр каждая пара встречается дважды (к при- примеру, Х[Хг и x2xi), тогда как в ^xf Xj x\ x2 и х\ xt встречаются только по одному разу. Назовем расширенной симметрическую функцию, определен- определенную соотношением где л,- — число степеней р{. Например,
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИИ - A) 383 Более часто используется не расширенная симметрическая функция, а мономиальная, определяемая формулой 2 si/I 1 2 ' ' ' si * \l-«-.*J^ Особенно важны два ее частных случая: унитарная функция о, = (\г} = ^ х-х xlrl A2 71 и сумма степеней *г = @ = 2*1 = И- A2.8) Имеются функции, выражающие введенные функции одну через другую. Наиболее часто применяются таблицы, дающие суммы степеней через расширенные функции и наоборот (Дэвид и Кендалл, 1949). Из A2.5) мы сразу же получаем следующий важный результат: S S где р== 2 лг и />—2 PiKt — вес симметрической функции. 1-1 ?=1 Для /)<6 в конце книги в приложении (таблица 10) приводятся таблицы, аналогичные таблицам Дэвид и Кендалла. Пример 12.1 Дисперсию выборки в терминах сумм степеней можно запи- записать как т =г B) AJ . 2 п пг Непосредственно или с помощью таблицы 10 устанавливаем, что (9) = Г91- С\\2 = Следовательно, откуда, беря математическое ожидание и учитывая A2.9), на- находим Mm2 = -^=-U^ — ~n(n — l),iB = ?zi!,x2. A2.11) Мы видим, что введенные нами функции существенно сокра- сокращают выкладки. Статистика т2 не зависит от выбора начала
384 ГЛАВА 12 отсчета и, следовательно, ее выборочные моменты не зависят от \i[. Без ограничения общности поэтому можно \\\ считать рав- равным нулю, а это в свою очередь позволяет считать равной нулю каждую расширенную симметрическую функцию, содержащую единицу. Поэтому из A2.10) сразу получаем п — 1 Н Аналогично можно найти т}=ж__тж+^. A2Л2) Согласно таблицам Пренебрегая теми расширенными симметрическими функциями, которые содержат единицы, и пользуясь предыдущими выраже- выражениями, получим I откуда ^^(в-1)A^Г2в+3)|- A2-13) Используя A2.11), найде-м также - ("-^(«-3) ^ A2Л4) что для больших п равно примерно Этот результат согласуется с тем, который мы получили в A0.9) для г=2. Если в A2.14) положить и4 = Ц4 — 3jj|> v-2:=^ to можно записать \2
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИИ — (!) 385 Af-статистики 12.6 Алгебраическая сложность этого метода и большой объем вычислительной работы, требуемый при его использо- использовании, особенно до того, как были созданы упомянутые выше таблицы симметрических функций, привели к поискам более простых методов. В 1928 году сэр Рональд Фишер революцио- революционизировал этот предмет в следующих двух направлениях: пред- предложил новые симметрические функции, так называемые k-ста- тистики, характеризующие распределение, и показал, как их выборочные семиинварианты могут быть получены комбинатор- комбинаторными методами. Рассмотрим семейство статистик kit k2,..., kp,..., являю- являющихся симметрическими функциями от результатов наблюде- наблюдений, обладающих тем свойством, что среднее значение стати- статистики kp является р-м семиинвариантом: M*, = v A2.16) Предостережем читателя от возможных недоразумений. Вели- Величины цр и Шр по своему характеру имеют одно и то же проис- происхождение, а именно они являются соответственно теоретиче- теоретическими моментами и моментами выборки, и Мпгр не равно \ip, точно так же kp и хР различны по своему характеру, но зато Mk pv 12.7 Заметим прежде всего, что kv однозначно определя- определяются формулой A2.16). В самом деле, если имеются две функ- функции kp и k'p, удовлетворяющие A2.16), то их разность kp — k'p будет иметь нулевое среднее значение. Но эта разность сама является симметрической функцией и может быть поэтому вы- выражена как сумма членов 2-*P> S*/-**" и т. д., и, следова- следовательно, ее среднее значение представляет собой сумму, состоя- состоящую из произведений моментов. Обращение этой суммы в нуль будет означать, что между моментами существуют некоторые соотношения, что возможно лишь для отдельных частных сово- совокупностей. Следовательно, kp = k'. Во-вторых, отметим, что статистики kv подобно центральным моментам не зависят от начала отсчета, за исключением ku яв- являющейся средним значением. Действительно, по формуле Тей- Тейлора , x2-\-h, ..., дгя-f-A) = = kp{xl, x2, ...,xn)-\--^-Dkp(xu x2, .... ^xlt x2, ...,хп)+ .... A2.17) 25 М. Кендалл. А. Стьюарт
386 ГЛАВА 12 где dx i 2 i — ~*~ дх2 "Т" дх„ ' Беря среднее значение и вспоминая, что kp{p>\) сами не за- зависят от начала отсчета, мы получим В силу произвольности h из A2.18) следует, что М (Dkp) и остальные слагаемые обращаются в нуль, откуда согласно сде- сделанному выше замечанию Dkp = 0, D2kp=0 и т. д. Следовательно, kp(xi + h, x2 + h, xn + h)~kp(xu х2 хп). Исключение составляет лишь статистика kit среднее значение которой и, = ц(, т. е. 12.8 Сейчас мы найдем точные выражения для fe-статистик в терминах результатов наблюдений х\,..., хп. По определению kp относительно этих наблюдений имеет степень р (точно так же как к? относительно моментов имеет порядок р, т. е. в любом члене ир сумма порядков моментов равна р). Поэтому fep-ста- тистика согласно A2.16) должна иметь следующий вид: tfi ... р"Л A2.20) где внутреннее суммирование производится по всевозможным несовпадающим индексам h Ц+...+я^. каждый из ко- которых может принимать любое из п значений 1, 2,..., п. Внеш- Внешнее суммирование производится по всевозможным разбиениям числа р: A2.21) Каждое такое разбиение числа р будем обозначать (/>?' • • • P"s)- А{Р*1 ¦ ¦ ¦ Pss) — число, зависящее от этого раз- разбиения. Определим далее число р, положив A2.22) Всюду мы предполагаем, конечно, что ti^-p. Беря среднее зна- значение от обеих частей равенства A2.20) и учитывая независи-
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИИ - A) 387 мость иксов, мы получим ^^)) A2.23) где В есть число способов, которыми р индексов можно извлечь из совокупности, состоящей из п индексов, включая и переста- перестановки, т. е. В равно п(п—1) ... (л — р+1) =л|р|. Из уравнения C.39) имеем f 02-24) где суммирования производятся по всевозможным разбиениям, отвечающим A2.21) и A2.22). Отождествляя соответствующие члены в A2.23) и A2.24), мы найдем значения коэффициентов Л (/>*' ... p*s), после подстановки которых в A2.20) получим окончательно где второе суммирование производится по всем несовпадающим индексам /i,..., ip. Приведем иную, более простую, запись этого выражения, ко- которая чрезвычайно облегчает исследование выборочных свойств ^-статистик. Отвлекаясь от множителей, зависящих от р и п, типичное слагаемое в A2.25) можно представить как Каждому разбиению чисел р и р (по формулам A2.21) и A2.22)) отвечает несколько членов указанного вида. Следова- Следовательно, мы можем записать где второе суммирование производится по всевозможным индек- индексам yi. • • •. Yp> которые изменяются независимо один от другого. Поэтому в этой сумме наверняка содержится (с точностью до константы) и выделенное выше типичное слагаемое. В действи- действительности формулы A2.25) и A2.26) в точности совпадают. В самом деле, пусть из п индексов ¦yi, ..., уР мы выбираем pt индексов равными гь р\ индексов равными (г, ..., р\ индексов равными Ц, /?2 индексов равными ц+i и т. д. Тогда нетрудно 25*
388 ГЛАВА B попять, что в 2 (Х\1 • • • х\ ) будет существовать ровно A2.27) слагаемых вида xptlxp.2 ... xPs, что и доказывает совпадение формул A2.25) и A2.26). Представление А-статистик в терминах симметрических произведений и сумм 12.9 Воспользовавшись выражением семиинвариантов через моменты, мы можем представить й-статистики в терминах рас- расширенных симметрических функций. Например, откуда, сравнивая A2.24) и A2.25), получаем , _ [3] 3 [21] . 2 [1»] '"а п п(п — \) '" п(п — 1)(я — 2) ' Заменяя расширенные симметрические функции по формулам [3] = C), [21] = - найдем , 1 Полагая sr — r, можно записать ks = 1 X п(п — 1)(я— 2) Х/И2е Ямс с I ОоЗЧ 12.10 Первые восемь ^-статистик в терминах степенных сумм sr выражаются следующим образом: — 4 («2 A5 = JL {(/ -r- 20 (/г2 -Ь 2/г) 30 {n2 — /г) — 60«s2s3 A2.28)
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИИ - A) k6 = -L. {(«5 4-16ft4 4-11 «3 — 4ft2) ss — 6 (ft4 4-16ft3 4. 4-1 lft2 — 4ft) sssi — 15ft (ft — IJ (ft + 4) s4s2 — _ 10 (/г* — 2ft3 4 5ft2 — 4ft) s2 4- 30 (ft3 + 9ft2 + 2ft) s4s2 4- 4-120 (ft3 — ft) s3s2s, 4- 30 (ft3 — 3ft2 4- 2«) s3 — —120 (ft2 + 3ft) s3s3—270 («2-ft) s2s2 + 360«s2s4- 120s6}, k, = -™- f(ft6 + 42ft5 +119ft4 — 42ft3) s7 — 7 (ft5 4- 42/г4 4- ' я1'1 4-119ft3 — 42/г2) Vi -21 («5 + 12ft4 — 31ft3 4 18«2) s5s2- —35 (/i54-5ft3-6ft2) s4s3442 (ft"+27/г3444/г2-12ft) s5s2 4 4- 210 (/г4 4 6ft3 — 13ft2 4- 6«) s4s2s, 4 4-140 (ft4 4- 5ft2 — 6ft) s2sl 4- 210 (ft4 — 3ft3 + 2ft2) s3s2 — —210 (ft3 +13ft2 4- 6ft) s4s3 — 1260 (ft3 4 ft2 — 2ft) s3s2s2 — — 630 (ft3 — 3ft2 + 2ft) slst 4- 840 (ft2 4- 4ft) s^ + 4- 2520 (ft2 — n) s22s\ — 2520fts2sj + 720s\} , ks = -^- {(ft7499ft64757ft54-141/г4-398/г3 + 120ft2) s8- _ 8 (ns 4- 99ft5 4- 757ft4 4-141 ft3 — 398ft2 4 120ft) s^ — — 28 (ft6 -b 37ft5 — 39ft4 — 157ft3 + 278ft2 — 120ft) s6s2 — — 56 (ft6 4-9«5 — 23ft4 4-11 lft3 — 218ft2 4-120ft) s5s3— — 35 (ft6 + ft5 + 33ft4— 121/г3-Ь 206/г2— 120ft)s2 + 4- 56 (ft5 4- 68ft4 4 359/t3 — 8ft2 — 60ft) s6s2 4- 336 (n5 4 4- 23ft4 — 31 ft3 — 23ft2 4 30ft) s5s2s14- 560 (ft5 4- 5ft4 4- 4- 5ft3 4 5ft2 — 6ft) s&S! 4 420 (ft5 4- 2ft4 — 25«3 4 4- 46ft2 — 24ft) s4s2 4- 560 (ft5 — 4ft4 4-11 ft3 — 20ft2 + 4-12ft) s2s2 — 336 (ft4 4 38ft3 4 99ft2 — 18ft) s.s3 — — 2520 (ft4 4-1 Oft3 — 17ft2 4 6ft) s^2 — 1680 (ft4 4 2/г3 + 4- 7ft2 — 1 Oft) s2s2 — 5040 (ft4 — 2ft3 — ft2 4- 2ft) s3s2s, — — 630 (ft4 — 6«34 1 lft2— 6ft) s*4-1680 («34 17/г24- 4 12ft) sAsj 4-13 440 (ft3 4- 2ft2 — 3/г) s3s2s* 4 4 10 080 (ft3 — 3ft2 4- 2ft) 4s2 — 6720 (ft2 4 5ft) s^ — — 25 200 (ft2 — ft) s|s4 4 20 160fts2s6 — 5040sf} . 389
390 ГЛАВА 12 В частности, (л —1)(л —2) A2.29) что дает выражение ^-статистик в терминах выборочных мо- моментов. Значения k9 и &ю были даны Зя Уд-дином A954). 12.11 В силу хорошо известной теоремы каждая рациональ- рациональная целая симметрическая функция от Xi, ... , хп может быть однозначно представлена как некоторая рациональная целая функция от сумм вида sr. Поэтому такие функции могут быть выражены через fe-статистики, поскольку в силу уравнений, ана- аналогичных A2.28), суммы sr можно выразить в терминах ^-ста- ^-статистик. Тем самым изучение выборочных характеристик таких симметрических функций сводится к рассмотрению свойств ^-статистик. Читатель, который последующие алгебраические преобразо- преобразования готов принять на веру, может при чтении оставшейся ча- части этой и следующей главы опустить доказательства, усвоив лишь основные результаты. Мы сейчас переходим к изложению комбинаторных методов, позволяющих выразить семиинвариан- семиинварианты ^-статистик в терминах семиинвариантов исходного распреде- распределения. Будет показано, что эти результаты получаются суще- существенно проще, чем эквивалентные им результаты, найденные в терминах моментов. Семиинварианты ^-статистик 12.12 Задача нахождения моментов или семиинвариантов ^-статистик сводится к отысканию средних значений для различ- различных степеней и произведений этих статистик. Каждому разбие- разбиению (а^2 • • • а<Х/) числа а соответствуют момент аа/)=м№ ... kaA A2.30) \ 1 S J
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИИ - A) 391 и семиинвариант у. (а ¦.. #"¦*). связанный с моментами тожде- тождеством (см. C.28)) tb К примеру, четвертый семиинвариант статистики k2 будет выражаться через четвертый момент k2 и моменты низших по- порядков. В соответствии с A2.30) эти величины будут записы- записываться как хB4) и ц'B4)- Точно так же семиинвариант хC2) соответствует моменту ц'C2) = М&з&г- Вообще же для каждого данного а формулы будут различны в зависимости от разбиения этого числа. ' Заметим, что произведение & • • • kaas однородно относи- относительно иксов, суммарная степень которых равна а. Следова- Следовательно, среднее значение ц'(а™1 ... а°*) = М?°' •••&"* одно- однородно относительно теоретических моментов р/, суммарный по- порядок которых равен также а. Но поскольку у. сами являются однородными функциями от ц, то и (а ... а/*) является одно- однородной функцией от к. Отсюда следует первое правило для се- семиинвариантов fe-статистик. Правило 1.x (а . -. аа/) представляет собой сумму сла- слагаемых, каждое из которых с точностью до константы является произведением х ... к*" исходных семиинвариантов таких, 1 S что { Например, в случае иB4) а=8 и поэтому иB4) состоит из суммы членов (с некоторыми коэффициентами) вида и8, Иб>?2, и5и3> %\, >с4х|, >с|>с2 и у.\. Точно так же и C2) будет содержать только члены с кь, ¦из'х-г- Заметим, что в согласии со следующим правилом в этих произведениях нигде не участвует семиинва- семиинвариант Xi. Правило 2. В представлении к (а ... a"s) не содержит- содержится членов у.1. Исключение составляет лишь иA) —у.\. Это правило выводится точно так же, как это делается для частного случая в примере 12.1. Статистики k не зависят от вы- выбора начала отсчета, и, следовательно, их выборочное распреде- распределение не зависит от ъ.\. Исключение составляет лишь одна ста- статистика kit для которой по определению иA) ='щ.
392 ГЛАВА 12 12.13 Мы сейчас сформулируем и проиллюстрируем правила, по которым х (я ... а"*) может быть выражен через семиин- семиинварианты исходного распределения. Доказательство справед- справедливости этих правил довольно трудно и будет отложено до сле- следующей главы. Ъ Для нахождения членов кЪ 1 трим таблицу с двумя входами в х(а°' ... аМ рассмо- A2.32) а2 а где имеется Pi строк, отвечающих bt и ocj столбцов, отвечаю- отвечающих a,j. Рассмотрим различные способы, которыми эта таблица мо- может быть заполнена такими числами, что их суммы по строкам и столбцам равны соответственно числам Ь и а, стоящим спра^ ва и снизу в таблице напротив этих строк и столбцов. Напри- Например, если мы интересуемся коэффициентом, с которым -k&Q вхо- входит в хD22), то мы должны рассмотреть следующие таблицы: A2.33) Тогда правило, по которому отыскивается коэффициент у х*' • ¦ • x*m> состоит в следующем. 1 т Правило 3. Каждая таблица, числа которой образуют два или более непересекающихся блоков, должна не приниматься во внимание. Так, в предыдущем примере одна из возможных таб- таблиц 2 1 1 4 2 1 1 4 2 • 2 6 2 2 10 2 1 1 4 3 1 4 1 1 2 6 2 2 10 3 1 • 4 3 1 4 . 1 1 2 6 2 2 10 4 4 2 2 4 2 2 6 2 2 10
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - A) 393 должна быть отброшена, поскольку блок 2x2 в левом верхнем углу не имеет с блоком 1X1, стоящим в правом нижнем углу, общих строк и столбцов. Правило 4. Коэффициент при произведении кЪ ... %1т, 1 т участвующем в представлении х (а ... а), складывается из коэффициентов, зависящих от способа заполнения таблиц типа A2.32) (таблицы, о которых шла речь в правиле 3, при под- подсчете коэффициента во внимание не принимаются). С каждой такой таблицей связан свой численный коэффициент, который, будучи умноженным на некоторую функцию, зависящую от п, и дает тот вклад, который эта таблица вносит в искомый коэффи- коэффициент. Правило 5. Связанный с каждой таблицей численный ко- коэффициент, о котором говорилось выше, получается следующим образом. Пусть в рассматриваемой таблице в i-u столбце нахо- находятся элементы С(Д ..., С^, С*/'+ ... + С^ = а(/\ где сх- сходно из чисел fli, fli, ..., а2, ..., as. Тогда искомый численный коэффициент равен П т. е. равен числу различных способов (поделенному на Pi!...pm!), которыми можно заполнить таблицу с суммарной строкой (flt, fli, ..., fl2, . .., as). Правило 6. Функция от п, называемая шаблонной функ- функцией, определяется только расположением нулей в таблице и не зависит от чисел, заполняющих таблицу, и чисел, составляющих суммарные строки (аь аи .. .) и столбцы (bi,b\, ...). Эта функ- функция получается в результате рассмотрения разбиений строк на разные группы: (I) Если такое разбиение состоит из одной группы, то с ним связывается число п, если из двух, то п(п— 1), ..., с q груп- группами связывается число п(п — 1) ... (п— q+ 1). (II) Если имеется какое-то разбиение, то мы подсчитываем число групп, в пересечении с которыми фиксированный столбец имеет ненулевые входы. Если таких групп р, то с ними связы- связывается множитель (-l)P-'(p-l)! я(я —1) ... (я —р + 1) • Эти подсчеты проводятся для всех столбцов и соответствующие множители перемножаются.
394 ГЛАВА 12 (III) Для каждого разбиения коэффициенты, получаемые в (I) и (II), перемножаются. (IV) Суммируются все произведения из (III) по различным разбиениям. Суммарное их выражение называется шаблонной функцией. Правило 7. Для каждой таблицы, содержащей строку, состоящую лишь из одного ненулевого элемента, шаблонная функция равна нулю. Поэтому такие таблицы при подсчете ко- коэффициентов можно не принимать в расчет. Правило 8. Каждая таблица, содержащая столбец, в ко- котором только один элемент отличен от нуля, имеет шаблонную функцию, в п раз меньшую, чем шаблонная функция для таб- таблицы, получающейся из первоначальной путем вычеркивания этого столбца. Правило 9. Каждая таблица, ненулевые входы которой образуют две подтаблицы, связанные только посредством об- общего столбца, имеет нулевую шаблонную функцию и поэтому может не приниматься в расчет. Пример 12.2 В качестве иллюстрации этих правил (которые вовсе не так трудны, как это может показаться) найдем коэффициент при XgXj в нD22). Если читатель выпишет около тридцати таблиц вида A2.32) с суммарной строкой D, 4, 2) и суммарным столб- столбцом F, 2, 2), то он сможет обнаружить, что учитывать надо только таблицы A2.33) и те, которые из них получаются с по- помощью перестановки строк и столбцов с сохранением суммар- суммарной строки D, 4, 2) и суммарного столбца F, 2, 2). Вот эти таблицы: 2 2 2 1 1 . 1 1 . 4 4 2 (а) 6 2 2 10 2 1 1 4 3 1 • 4 1 1 2 6 2 2 10 3 2 1 1 1 . . 1 1 10 4 4 2 (с) 2 1 1 3 1 1 1 • 6 2 2 10 4 4 2 10 321 6 33. 6 33. . 1 1 1 1 . 4 4 2 (е) 1 . 1 . 1 1 10 4 4 2 @ . 1 1 1 . 1 ю 4 4 2 (g) A2.34) Ю
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - (I) 395 В действительности не было надобности выписывать такие таблицы, как (с), (d) и (е), которые получаются из (Ь) пере- перестановкой столбцов и строк. Мы их выписали только для ясно- ясности. При рассмотрении таблиц (Ь) и (f) надо иметь в виду сле- следующую тонкость. В таблице (Ь) сумма по двум столбцам рав- равна четырем, а по двум строкам равна двум, и в результате их перестановок получатся четыре различные таблицы. Из таблицы же (f), хотя все ее столбцы и строки различны, в результате перестановок получаются всего лишь две различные таблицы. Каждая из приведенных таблиц будет давать свой коэффи- коэффициент. Рассмотрим сначала таблицу (а). Числовой коэффициент здесь согласно правилу 5 равен 4! \ / 4! \ J_ _ М2ПШ / 2! ~ Согласно правилу 8 шаблонная функция равна l/п от ана- аналогичной функции, отвечающей таблице X X X X X X Здесь мы имеем следующие пять разбиений: XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX Первое разбиение, состоящее из одной группы, является просто исходной таблицей. Каждое из следующих трех разбиений со- состоит из двух групп, получаемых, если первую, вторую и третью строки брать в качестве отдельных групп. Последнее разбиение состоит из трех групп, каждая из которых состоит из одной строки. Тогда согласно правилу 6 соответствующие этим разбиениям слагаемые, составляющие шаблонную функцию, равны д 2)
396 ГЛАВА 12 Сумма их равна -. тгт-—хг > откуда следует, что вклад, да- \п— 1; (п-— Z) ваемый в искомый коэффициент таблицей A2.34) (а), равен 72 (я—1)(Л_2) ' Таблицы (Ь) — (е) дают один и тот же вклад и могут по- поэтому рассматриваться вместе. Для каждой из них численный множитель равен 4! w 41 W 2! \ JL 2! 11 11 )\г\\\)\\\\\) ' 2! и поскольку этих таблиц четыре, получим, что суммарный чис- численный множитель равен 192. Согласно правилу 6 шаблонная функция зависит от конфи- гурации XXX X X • X • X где знак X означает ненулевой вход, а . — нулевой. Здесь суще- существуют пять разбиений: одно из одной группы, три из двух групп и одно из трех групп. Вклад, даваемый первым разбиением, равен .1111 я л я п? поскольку в этом разбиении каждый столбец имеет ненулевой вход. Вклад от трех разбиений, получаемых при рассмотрении первой, второй и третьей строк в качестве отдельных групп, ра- равен г —1 1 1 -| 2п —3 п\п Ч [яз(я_ iK "т" пЦп—1J "+" л3 (и— 1JJ~~ п2(я —1J • Вклад от разбиения, состоящего из трех групп, равен П(П 1ДЯ 2) 2!—1 —1 я_1)(я_2) ' п(п— 1) ' п(п— 1) \ —пНп— IJ' Шаблонная функция есть сумма всех этих трех вкладов и, сле- следовательно, равна •/я_1ч2-- Так же можно найти, что вклады от таблиц A2.34) (f) и (g) 32 в сумме дают , _.„. Итак, складывая вместе все полученные выражения, мы най- найдем, что коэффициент при х6х| в хD22) равен 72 192 , 32 __ 8 C7л —65) (П_!)(п_2) "Г" (л —IJ "^ (л —IJ ~ (я — 1J(п — 2) '
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ — A) 397 что совпадает с результатом, даваемым ниже, в формуле A2.66). 12.14 Правило 10. Выражение для и (а ...), где среди величин ах1 содержатся выражения вида 1 , можно получить, зная представление и (а°' •••), где величина 1 ' опущена. До- Достаточно для формулировки этого правила рассмотреть случай а,-=1. В этом случае для получения х (е-. ... a^la&V • • • #) из к (а?« ... а^а^у ... в».) надо представление для последней величины умножить на — и заменить всякий из членов в этом представлении на суммы чле- членов, получающихся из исходного увеличением только одного ин- индекса на единицу. Например, можно показать, что откуда согласно сформулированному правилу 12.15 Читателя нельзя упрекнуть за возможные сомнения в том, что развиваемая сложная комбинаторная процедура про- проще, чем прямой алгебраический подход, рассмотренный ранее в этой главе. Чтобы рассеять эти сомнения, мы рекомендуем чи- читателю попробовать применить оба метода к каким-либо более сложным примерам. Легко, на самом деле, совершить ошибку при вычислениях, как пользуясь алгебраическими, так и комби- комбинаторными методами. Именно поэтому все обычно используе- используемые формулы были получены как тем, так и другим методом. Однако комбинаторные методы развиваются не только с целью сокращения алгебраических выкладок. В дальнейшем мы уста- установим, что многие важные результаты можно сравнительно лег- легко получить, пользуясь комбинаторными методами, в то время как алгебраические методы приводят к цели только после слож- сложной и кропотливой работы. Пример 12.3 Для сравнения найдем дисперсию статистики т2 комбина- комбинаторными методами (эта дисперсия в примере 12.1 была найдена алгебраическим путем).
398 ГЛАВА 12 Из A2.29) имеем Следовательно, ^\ ^—J и B2), где хB2) состоит из суммы двух членов х4 и и^ с коэффициентами. Единственной таблицей, дающей коэффициент при Х4, является 2 2 14 2 2 4 Численный коэффициент здесь равен единице, а шаблонная функция равна — . Таблицы, служащие для подсчета коэффи- коэффициента при х|. имеют вид 2 2 2 2 Если на некотором месте в этой таблице будет стоять 2, то на- наверняка одна строка будет иметь нулевой элемент и, следова- следовательно, такую таблицу не надо принимать в расчет. Поэтому единственной таблицей, дающей ненулевой вклад, будет 1 1 2 1 1 2 2 2 4 B' \2 1 ¦уттт) "or = 2. Шаблонная функ- функция также легко может быть найдена, она равна——г. Следо- Следовательно, К4 я 2*2 (см. также далее A2.35)). Поэтому (п-1J п3 (З-пНп-1) что согласуется с A2.14).
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ — A) 399 Пример 12.4 Чтобы найти третий момент статистики k2, мы должны рас- рассмотреть хB3). С точностью до множителей хB3) равен сумме слагаемых х6, х4и2, %\ и к\. Коэффициент при первом из них равен ]/п2. Для подсчета коэффициента при втором рассмотрим таблицу 1 1 2 1 1 2 2 • 2 4 2 6 Все остальные таблицы не надо принимать во внимание, за ис- исключением двух таблиц, получающихся из выписанной подста- подстановкой третьего столбца на место первого и второго. Подсчет показывает, что для них суммарный численный коэффициент равен Шаблонная функция равна — от шаблонной функции таб- таблицы т. е. X X X X равна ¦/г/д_ ^ • Итак, коэффициент при щк2 равен /{(-1)}. Для подсчета коэффициента при к\ надо рассмотреть лишь таблицу 1 1 1 1 1 1 2 2 2 (9! \3 1 1111) -2j- = 4 и шаблонной функ- функцией (n — 2)/n(n— IJ. Для нахождения коэффициента при к\ мы должны рассмо- рассмотреть таблицу 1 1 2 1 » 1 2 1 1 2 2 2 2 6
400 ГЛАВА 12 Подсчет показывает, что численный коэффициент равен 8, а шаб- шаблонная функция (п__ ц,, . Итак, „2 ¦ 4(и —2) „ 8 "Г Л(„_1J ИЗТ _ 1J Нетрудно видеть, что кB3) равен третьему моменту ц.B3), под- подсчитанному относительно среднего значения выборочного рас- распределения. Тем самым мы видим, что если исходное распреде- 8*?, ление нормально, то третий момент сводится к , _ ^2 , т. е. имеет порядок гг2, что показывает скорость стремления выбо- выборочного распределения к симметричной форме. Пример 12.5 Полезность представления различных формул в терминах се- семиинвариантов исходного распределения и сила комбинаторных методов как нельзя лучше видны на примере нормального рас- распределения. Единственным отличным от нуля семиинвариантом является Х2 (считаем >tt = 0). В качестве иллюстрации установим, что в нормальном слу- случае х(р<7)=0, за исключением только случая p = q. Единствен- Единственным членом, участвующим в представлении в %(pq), является х2 , и поэтому очевидно, что если p + q нечетно,тоn(pq) =0. В случае четных p + q рассмотрим таблицу 2 2 РЧ Р + Я Если в ней имеется строка, содержащая 2, то такая табли- таблица в расчет не принимается. Поэтому учитываться может толь- только таблица, целиком состоящая из единиц, что возможно толь- только в случае равенства р и q. Это и доказывает требуемый ре- результат.
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИИ - A) 401 Пример 12.6 Если у, (а ... а1/) содержит г частей, то каждый член в нем будет порядка rr<r-l\ Например, каждый член в хC222) имеет порядок п~3. Согласно правилу 7 каждая таблица с ненулевой шаблон- шаблонной функцией имеет по крайней мере два ненулевых входа в ка- каждой строке. По правилу 8 мы можем ограничиться рассмотре- рассмотрением таблиц, имеющих по крайней мере два ненулевых входа в каждом столбце. Можно показать, что шаблонная функция ка- каждой такой таблицы, состоящей из г столбцов, имеет порядок л-С-1) Каждая таблица имеет разбиение, состоящее из одной группы; согласно правилу 6 соответствующий вклад равен л (— I =/г-с-1). Надо теперь только показать, что таблицы, обладающие более чем одним разбиением, дают вклад мень- меньшего порядка. Рассмотрим какое-нибудь разбиение, состоящее из двух групп (разбиений); назовем его 52. Если соответствую- соответствующая шаблонная функция не равна нулю, то согласно правилу 9 по меньшей мере два столбца должны иметь ненулевой вход в каждом разбиении, и согласно правилу 6 вклад S2 по порядку — I 1 — 1 или меньше, т. е. о(га~(г~')). Каждое раз- разбиение, состоящее из трех групп, 53 можно рассматривать как подразбиение So, и согласно правилу 3 отсюда будет следовать, 1 1 \3 /1 \г~3 что вклад от 53 порядка #3( —I ( —) » т. е. o(rr<r-V). Анало- Аналогичным способом Доказывается, что и разбиения, состоящие из большего числа групп, дают вклад порядка о(га~(г~'>). Этим за- заканчивается доказательство. Пример 12.7 Используя свойства семиинвариантов выборочных распреде- распределений, можно доказать характеристическое свойство нормаль- нормального распределения, установленное аналитически и геометриче- геометрически в примерах 11.3 и 11.7, состоящее в том, что среднее и дис- дисперсия выборки независимы. Вспомним определение совместной х. ф. двух случайных ве- величин. Они независимы в том и только том случае, когда их со- совместная х. ф. распадается (как в 4.16) в произведение двух од- одномерных х. ф. Рассматривая эти три х. ф. как производящие функции для моментов и беря логарифмы, в силу C.74) полу- получим т Zu rs rl si ~ Zi r0 r\ ^Zj Os si ' r, s=l . r=l s=l 26 M. Кендалл, А. Стьюарт
402 ГЛАВА 12 откуда следует, что jcrs = O, если гяфО. В предположении, что се- семиинварианты всех порядков существуют, это условие является необходимым и достаточным для независимости. Рассмотрим, наконец, совместное распределение выборочных среднего и дисперсии, т. е. &i и k2. В силу того, что все исходные семиинварианты порядка выше второго обращаются в нуль, мы получим согласно правилу 10 = 0, г, яфО. Следовательно, &4 и k2 независимы. Справедлив и обратный результат, установленный Гири A936): если ki и k2 независимы, то исходное распределение нор- нормально. В самом деле, согласно правилу 10 xBV) = ±xr+i, r>0. Если ki и k2 независимы, то эти семиинварианты равны нулю для всех /">0, что и означает нормальность исходного распре- распределения. Следует отметить, что здесь весьма замечательны два об- обстоятельства: A) нам не понадобилось использовать более общее требо- требование иB81г) =0 при s>l; B) нормальность исходного распределения следует из неза- независимости ki и k2 при одном каком-либо значении п. Позднее рядом авторов (см., например, Лукач A942)) была доказана теорема Гири при менее стеснительных условиях, чем существование всех семиинвариантов. 12.16 Следующие формулы дают семиинварианты статистик до десятого порядка и некоторых статистик 12-го порядка. Эти формулы справедливы для всех я, не меньших чем порядок рас- рассматриваемых ^-статистик. ^-статистики второго порядка „B*) = ^+^, A2.35) y.s , 24 , 32 (n —2) = -^ + , 1 *6*2 + , ^ 8Dя»-9в + 6) 2 144 2 96 (в-2) 2 48 4 n2(n—lK 4-1~ n(n — 1) И4Х2-Г- Л(„_1)з хзх2-г- (и —1K И2- A2-37)
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - AJ 403 ю ¦ 40х8х2 80 (л -2) 40 Eл2-12л+ 9) , F" + n»(/i —1) + л»(л-1у *7*И «M«-D3 6 4 + 16 (И - 2) Fл2 - 12л + 7) а . 480 , , ~1 л3(л —IL ~~п5^ л2(п—IJ VS^ , 1920 (и —2) 22| 384 Н—и(и-1)« х^ + ^^ /пкч 1 , 60 , 160 (и —2) * B6) = W ^+^Г^пу ^^ + Щ^ 240 Bи2 — 5w + 4) | 96 (п— 2) Gп2 — Ып + 9) Л л«(л —ТР XsX4""^ л*(л —IL , 4A13п4— 520/^3 + ^50 — SOOn+265) 2 + п4(« —IM 3<6~i~ + -„3(И —IJ X8X2 H Л3(„_1K Х 2400E/г2-12п + 9IГ,Г1Г , 160(л —2) C1л —53) .. „2 , "i и3 (и— IL Хб3<4>С2~1 пЦп — I)* 6 3~т- , 960 (гс — 2)Fгс2— 12w + 7) 2 "I л3(л —1)в Х5Х2 -Ь , 1920 (л — 2) (9л2 — 23л +16) , 480 A1л3 — 41л2 + 59я — 31) 3 -1 л3 (л —l)s *5>С4Хз ~| пЧ«— IM *4 , 9600 """ Л2 (Л — 1) *6Х 9600 з i 38 400 (л —2) 2 9600 D л2-9л+6) о а 28800 Bл2-7л+ 6) (Л — 1) *6Х2 -Ь л2(Л—1)" ¦ 9600 D л2-9л+6) о а 28800 Bл2-7л+ 6) ....... "Г " „2 (л — 1M U4X3"I л2 (Л —IP И4И3И2 38 400 (п-2) 2 з 3840 „(Л_1M fe-статистики третьего порядка О3) = i- -о 27 Dл —7) 26*
404 ГЛАВА 12 162 Eл — 12) (л —l)*(n —2) 108л Eл —12) 36 Gл2 — 30л+ 34) (п-1J(л-2J Хз *C*) = ^ 27 A7л2 —49л+ 35) и2 (и —I)' и2 (и — IK 324 A9w2 — 108 (82w3 — 108 Gл2 — 20л + 16) л2(п—IK 27C7^-70) ....,, л(л_1)»(л_2) Х8Х2-1- 162 F5и2 —245и + 234) П(л.—1)»(п —2) w — 640) 2 n(ji— 1K(и — 2J 108 E9w2— п(п — \K(п — 2) хзИ2 + 324 G5w3 — 473w2 -f Ю16п — 756) п (п — 1 K (п — 2J И5и4из -Г — 1503w3 + 4962wa — 7380w + 4200) 3 —1K(и —2K 2K 108G1w2 — 648 G9w2 — 343w + 378) "^ (л — 1K(и — 2J X6x2-r (Л 486 F3л2 -290л + 352) 2 "i (л-IK (л — 2J Л -+" , 972 (99л3 — 688л2 + 1612л — 1280) "+" (л—1K(л —2K И4 162 (87л3 — 594л2 + 1420л— 1176) 4 ~т (л— 1K(л — 2K хз + , 972л B3л2-103л+П8) .. ..4 , ~*~ (л-1K(л —2K Х.^2-Г 648л A03л2-510л + 640) 23 648л2 Eл-12) ¦+" (л—1K(л —2K Хзх2-Г (л_1K(л_2)з fe-статистики четвертого порядка /.„v 1 , 16 ,48 34 , , и D2) = — и8 + 7—г х6х2 + 7Г—Г х5х3 + -^^ззу и2 4- -1- (л_ 72л 144 л I -Г 24л (л+ 1) (Л_3)
-Г АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ 1 , 48 16A3/г—17) 12D1п — 65) A) 405- _ 1J 12 C7га-70) га(га—IJ X 288 A9га — 41) 48A6и —29) „(„—1J 72A1/1-19) W2 + 144 E6и2 —257га+ 302) (га -IJ (га -2J 1152 B2га2 —106w +133) (га —IJ (га — 2J 288 A9га3 — 98и2 - 48 B03га —523) , (га-IJ (га-2) ***¦№ + 2 , 1440 Dга —И) *з + (и —1J (и —2) , 8 G09га2 —3430га+ 4456) Ws-i- („_1J(„_2J ; [ (п—1J(га —2J(и —3) ' 1728 B4га3 — 140/г2 + 200га + 4) (га—1J(га —2J(га —3) 432 F1га3 — 371га2 + 552га + 12) (га-1J(га-2J(«-3) 864 A03га3 — 629/г2 + 948га + 24) (и—1J(га —2J(и —3) Х4 288 D1га4 — 384га3 + 1209га2 — 1282га (га— 1J(и — 2J(/г — ЗJ 288га E3га2 — 179га — 52) , 36) («— IJ (и — 2J (п — 3) Х4Х2 -Г 1728га B9га3 — 196га2 + 317я + 62) (га—1J(га —2J(га —ЗJ 1728га (га+1) (га*-5га+ 2) (га —1J(га —2J(и—ЗJ 2- 2 3 fe-статистики пятого порядка 25 200 125 100 7^ГТи7из4- 200га 1200га + (га —1)(л —2) "^^ 1500w 2 , (га— 1)(и — 2) хЛ~т 1800га (/г+1) (п— 1)(и — 2) (и — 3) (ra-l)(ra-2) *< 850 2 (ra_l)(ra —2) " 600 (га_1)(га-2)(и —З) , 2 120га2 (га-f 5) („_1)(„_2)(„_3)(га —4) A2.45>
406 ГЛАВА 12 fe-статистики шестого порядка х (б2) = 1 х12 + тг=Т C6х1Ох2+ 180х9х3+ 465x8x4 + 1 +¦ 4- 36ООх7х3х2 4- 7200х6х4х2 4- 4500х|х2 4-21 600х5х4Хз 4- 4950x3) + 600x^4- 4- 15 ЗООхЦх* 4- 54 000х4х^х2 + (,-l)(,-2Ht-3)(,-4)E400^ + 21 600x^1L- i /г (и 4- 1) (я2 Н- ^5/г — 4) -1- (л —1)(л —2)(л-3)(л —4)(п —5) Формулы для смешанных семиинвариантов: =Т»ез. A2-48) —х7 4-^^X5X2 4--^гу^из. A2.49) J ^ ^t«5x3 + 1^t«J, A2.50) 49 70 Г4г^з + -^Т^4. A2.51) /опч 1 , 16 , 56 , 112 , 70 «(82) = - х10 4- 7Г=Т Х8«2 + 7Г=Т Х7^з + ^^iT ^4+7—Г И D3) ==Г>?7-Ь Т=Т Х5Х2 + -^=Т Х4Х3 + („_ 1)(п — 2) ИИ A2.52) A2.53) иE3) =i-x8 +-^ггA5х6х2 4-45x3X3 + 30x4)+ Я A2.54) + (п-1)(п-2) х F3) = -J- х9 + -^Ц- A8х7х2 + 63х6х3 + 105х4к4) + + (Я_1)И(И_2) (9(Цх2 + 360х4х3х2 + 90x3), A2.55)
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИИ - A) 407 + („_!)"„_2) A26V<i + 630х5х3х2 + 420х2х24-630х4х2), A2.56) х E4) = 1 х9 4- -^у B0х7х2 4- 70х6х3 4- 120и5х4) + + (в-1)Я(я-2) A20х5х14-600х4х3х24- 180x3L- ВВА}) A2-57) х F4) = 1 xI0+—^ B4квхз + 9Ч*з " 6х24- Ю80х5х3х2 4-720х2,х2 + 1260х4х2) + 1080x2x1), A2.58) hC22) = -^x74-¦п(п_1) x5x2-t- w(w_1J; х4х3^-^—^х^з, A2.59) ХХ+ изИ2» A2.60) + („_ 1J Х4Х2+ (и_ 1) /со9\ 1 , 24 . 20 (Зи — 4) E22) = -х9+ w(w_1} х7к24- „;„_!/ , 20Eгс — 7) 120 „„, , 480 ) /со9\ 1 I 28 , 12 Gл —9) хF22) = _ Що4- w(n_1} x8x24- „(„_)/ х7хз4- 4D1в —56) .... , 20E«-7) ^, , 168 2 A2.62) 1вF« —11) 2 . 18 (9w — 20) „ Зби 4 ' (П — lJ (П — 2) *4*2 ~Г (n — 1J (л — 2) K3X2 + („_1J(Л_2) X2> A2.63)
408 ГЛАВА 12 1 . 26 , 24C/г — х+ИХ+ 10A1/1-17) 36Eл-9) 2 И (И — 1J Х5«4 "I" (л _ 1J (л _ 2) Х5*2 - 12F1/, —128) 36 Eл-12) 3 (л — 1J(л — 2)Х4>Сз>с2-1- (л_1J(л_2) хз <12-64> ,,„„, 1 , 31 , 101л—131 хE32)--^ х10 + w(w_1} x8x2 + n(n_iJ 5 C7л -55) 5B3/2-35) 2 ~т~ л (л — IJ ^и о~1 „(„_1J у-о-Г , 30 (9л —16) , , 30 D5л —92) + (л— 1J(л — 2) V^-T" (л_1J(л_2) 60 A5л -31) о 30 D5л-103) ^(л — 1J(л — 2) ^Т (л_1J(л_2) (n-l)g (д_2) ^4+(w_1J(w_2) и3^. 1 , 32 8 A3л —37) ^х10 + -7-_-xx^ ^^^^ х7х3 4 D9я — 73) , 4 B9я — 46) 2 , 8 C7л —65) 2 Л (Л— 1J И0И-1Н Л(Я— 1J *5-!- (л_1J(л_2) ?2 1536 , 144G/2 — 15) Г (л _ 1J К5И3И2 + (Л_1J(л_2) XlX2 + 72B1 л —50) 2 , 96 (Юл2— 27л — 1) 3 +" (л— lJ (П — 2) Х4Хз+ (Л_1J(Л_2)(Л —3) Х4^2 144 A7л2-53л-2) , 192л (л+ 1) (л — 1J(« — 2)(л — 3) хзх2-»- (л_1J(л_2)(л — 3) 1 . 33 , 6 A9л —25) , "Г" 3 F5л-107) 6A9/1-34) 2 л(л —IJ хб^4-)- л(я_1J Ло-Г 18 A9л —33) 2 , 72 B3л —52) (Л—lJ (Л —2) %tiX2-t- (л_ 1J („ _ 2) 54 A9л-48) - 54 C3л2- 148л + 172) 2 (л — 1J(/г — 2) -1ИИ („__iJ („ —2J х4хз 72/2 A7л-40) 108/2 B7л-70) V+VT
« C23) = АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ — A) 409 1 . 30 . 2 C1л—53) 12 (9л*-23л+16) 240 2 Л2(Л— IK 5 4 ^ Л (Л — 1)* Х5Х2 -Т- 3) . 24Eл —12) , . 480 » ,,„м. ),Ч*з**+ и(и-1)» ^Нг-^ттр-^» A2-68> ,..,. 1 36 . 4B3и —37) >с D23) = _ X + ХХ + 4D7w2 — 120w + 81) , ~* «2(«-1K Хб3<4 н 360 2 , 288 Eгс — 7) л („—1J V2-T „(„—1K И5Х 144 Gл — 10) 2 | 24 D9л — 95) „ („ _ 1K И4И2 Ч „(„—1K 960 з i 2160 2 2 („ — 1K И4Х2~г ^ /о?о9\ 1 К C222) = - („—1K ^г* 37 . 6A7и —27) 3F1л2 —166л+117) 2 E9л2 —154л+113) 2 Л2 (Л— IK И6И4 + „2(„_1)8 *5 6 F7л — 131) 2 , 24 G1л2 —246л+ 202) л(л—1J(л —2) Х6Х2~1~ л(п —1K(л —2) 36 B9л2— ЮЗп + 93) 2 , л(л —1K(л—2) Х4Х2~т- 36C8лг — 155л+ 160) 2 72 A4л —23) л(л —1K(л —2) К4хз~г (п_ !K(„_2) у 144 A9л —44) 2 2 , 288« s -Г („_ 1K („_2) Х3Х2-Г („_ 1K („_2) V 12.17 Приведем дополнительно формулы для случая нор- нормального распределения. Общие формулы: (л — I/ * {%(рч), A2.72) (¦jM-l)l(n-l/ и специальные формулы 12-й степени и выше (для степеней, меньших десятой, соответствующие формулы можно получить
410 ГЛАВА 12 из A2.34) -A2.70), полагая и, = 0. г > 2): 7776я»Eя-12) 108 864л» Eя-12) 8 (п —1)«(я —2)« 2- 9 K 2' П 1)«(п 2K 142) 18 = -^гух2>сC6)( A2.78) = т-^тГхМ36), A2.79) 1920п(п+1) -l)«(n —2)(л —3) Х2' 322560П(П+1) я 4-1025/г2— 474«^-180}х8, A2.86) ^ A2.87) «D422) = 1„^^х(П A2.88) иD5) = ——t—x^° (приближенно). A2.89) Нужно заметить, что в формулах A2.73)—A2.89) даны вы- выражения только для четных степеней. Для нечетных степеней соответствующие выражения обращаются в нуль, поскольку в нормальном случае Иг = 0. г>2. Действительно, из A2.72) еле-
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИИ - A) 411 дует, что y.(pq2r) = 0, если pq нечетно или если q=\ и р>2. Ме- Методы доказательства формул содержатся в упражнениях 12.9 и 12.10- Сюй и Лоли A939) дали точные формулы для иDГ)) ихD6). 12.18 Чтобы показать, как приведенные выше формулы мож- можно использовать для аппроксимации выборочных распределений, рассмотрим распределение статистики Y&\ Для случая нормаль- нормальной совокупности. Мы имеем ¦\Гп~. тз п — 2 fe3 mf * Vn(n-l) kf kf Для нормального распределения дисперсия статистики k3, кC2) согласно A2.40) равна | (л —1)(л —2)' Рассмотрим поэтому статистику 2= A2.90) <л-1) i/— A2.91) /б(л-2) у " которая с точностью до величин порядка пг1 имеет единичную дисперсию. Очевидно, эту статистику можно записать в эквива- эквивалентной форме: X-V № lyV^—^-) • A2>92) Поскольку распределение симметрично относительно нуля, сред- среднее значение х равно нулю. Тогда, разлагая A2.92) в ряд, по- получим , (л —1)(л —2) 1 f .2 3 ,2,и \ I 6 ,, ч, 6Л Х2 [ Х2 Щ -.3 , 15 .2/, Ч4 21 .2,, .S >С) +* (fe «)Й(* ) + ^()+\ A2.93) *2 J Дисперсию можно получить, беря среднее значение от обеих частей. Поскольку х2 есть среднее значение k2, то A2.94)
412 ГЛАВА 12 Выразим теперь величины (j, в терминах произведений к, ис- используя для этого соотношения A2.31) и отождествляя коэффи- коэффициенты. В случае нормального распределения иC2г)=0, и мы будем интересоваться только аппроксимацией с точностью до порядка я~4, так что семиинварианты у, пятого и более высоких порядков во внимание можно не принимать. Тогда найдем -D(« —2) 4f Гх (З2) — ~- x C22) + Jr {* C222) + 4- -т- {6х (З222) * B2) + 4* C22)* B3) + * (З2) и B4) + 5< X2 B2)} _ ±L {15xC22)x2B2L- 10xC2)xB3)xB2)} + . A2.95) Используя соответствующие значения из A2.35) — A2.89), после ряда чисто алгебраических преобразований получим _1 6 , 28 120 , _ —1— „_! -г- („_ 1J (л—1K -+-••• — 1 6 , 22 70 /i9Qfi\ Аналогичным путем можно показать, что . . о 1056 , 24 132 ,1П п_. ^W = 3 ^—^~^ ••• A2.97) Момент (лз(х)=0 в силу симметричности распределения. На самом деле в рассмотренном случае известны точные pej зультаты (см. упражнение 12.9), которые можно использовать для проверки проделанных выше алгебраических преобра- преобразований. Как следует из A2.96) и A2.97), при и-*оо второй момент для х стремится к 1, а четвертый — к 3, что соответствует сходи- сходимости к нормальному распределению. Но эта сходимость не очень быстрая. Когда «=100, дисперсия равна примерно 0,942. Поэтому допущение, что х имеет единичную дисперсию, будет давать ошибку около 6%. Существует два способа, улучшаю- улучшающих аппроксимацию распределения для х. Первый состоит в том, что от х мы переходим к новой переменной |, выбранной так, чтобы | была нормально распределена с точностью до ве- величин порядка п~2. Второй способ состоит в подгонке кривой
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ — (I) 413 Пирсона к распределению статистики х с использованием мо- моментов, задаваемых формулами A2.96) и A2.97). Подходящая кривая относится к VII типу: mdx. A2.98) Первый способ был использован Фишером A928), который по- получил следующее преобразование: ^ A2.99) Второй способ был использован Э. С. Пирсоном A930), кото- который для распределения A2.98) табулировал критические зна- значения, соответствующие уровням значимости 1 и 5%, т. е. вы- вычислил для различных п те значения переменной х, для которых в интервале (среднее значение ±х) содержится 99 и 95% всей частоты. 12.19 С помощью указанных методов могут быть найдены ап- аппроксимации выборочных распределений любых статистик, яв- являющихся симметрическими функциями. Читателю, интересующемуся этими вопросами, можно поре- порекомендовать статьи Ф. Н. Дэвид A949а, Ь), где он может озна- ознакомиться с моментами выборочных распределений таких стати- статистик, как коэффициент вариации, логарифм отношения диспер- дисперсией (z-статистика Фишера), отношение дисперсий. Трудности, связанные с разложением знаменателя в статистиках, являю- являющихся отношениями двух статистик, можно преодолевать, ис- используя следующие соображения. Рассмотрим статистику t, представленную в виде а/Ь, где знаменатель всегда положителен. Тогда = P{a<M0} = P{a — Wo<O}. A2.100) Теперь мы можем рассматривать статистику а — bt0, которая уже не страдает недостатками, присущими отношению. Для примера, предположим, что рассматриваемая нами статистика t является ^-статистикой Стьюдента: s где (j, — истинное среднее, a s2 = 2 (•* — xJjn. Распределение этой статистики симметрично и поэтому A2.101)
414 ГЛАВА 12 Рассмотрим теперь статистику и = (п— l)(x — \if — Us2. A2.102) ел При заданных м- и ^о мы можем для и найти столько моментов или семиинвариантов, сколько этого захотим. В частном случае нормального распределения мы знаем, что х и s независимы. Поэтому семиинварианты статистики и легко найти прямым вычислением. Для характеристической функции случайной величины и, полагая 0 = i/, получим с помощью A1.39) и A1.40) | J X dx ехр { — j ns2 J s"-2 ds = _1(Л_1) откуда ^.=^A-^о), A2.104) ^%^(. A2.105) Когда п—»¦ оо, ф стремится к пределу A—20) 1/2ехр(—0*о), первый сомножитель которого совпадает с х. ф. распределения III типа, т. е. с х. ф. ^-распределения с одной степенью сво- свободы. Рассмотрим теперь вероятность того, что и^О. Для п = 20, to=2 семиинварианты ki = — 2,85, х2 = 3,42. Если подсчитать для нормального распределения со средним Ki = — 2,85 и дисперсией и2=3,42 вероятность того, что м-^0, то получим, что она равна 0,941. Для истинного же распределения эта вероятность равна 0,940. Хотя мы сейчас рассматривали наш метод только в приме- применении к нормальному распределению, уместно отметить, что он полезен при проверке эффектов отклонения распределений от нормального с помощью некоторых статистик. Укажем в этой связи на статью Дэвид и Джонсона A951), где подробно изу- изучается статистика, являющаяся отношением дисперсий. Выбор из конечных совокупностей 12.20 Если результаты наблюдений получены в результате выбора без возвращения из конечной совокупности, то нахожде- нахождение средних значений сильно усложняется по той причине, что последовательные извлечения не являются независимыми. Па-
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - A) 415 раллельно с 12.3 рассмотрим некоторые средние значения выбо- выборочных распределений в случае конечной совокупности. Уравне- Уравнения A2.2) остаются справедливыми: ± ± A2.106) Если использовать М для обозначения истинных моментов ко- конечной генеральной совокупности объема N, то по определению будем иметь Мх2 = М'ъ Mxtx,= t S i xlX)l[N (N - 1)} = (i Ф1) Подставляя эти моменты в A2.106), получим ^17^М2. A2.107) С помощью того же самого подхода мы можем найти все мо- моменты статистик, являющихся симметрическими функциями. Но вычисления с каждым шагом будут все более усложняться и трудно поддаваться контролю. Более простой путь состоит в сле- следующем. 12.21 Заметим сначала, что среднее значение каждой расши- расширенной симметрической функции от наблюденных значений очень просто связано с соответствующей функцией от истинных значе- значений. Снабжая эти две функции индексами п и N соответственно, мы получим М К1 • • • ^]>IP1 = Wl ¦ ¦ ¦ Р>]„1*т> A2Л08) где p—2ini- Отсюда следует, что если Кр есть у?-я &-стати- стика исходного распределения, то MNkp = Kp, A2.109) где Mjv означает усреднение по множеству из N значений, обра- образующих исходную совокупность. Это привлекательное свойство fc-статистик очень удобно в работе. К примеру, рассмотрим ?2 = яяг2/(п— 1). Тогда Мпт2 „ откуда сразу же вытекает A2.107).
416 ГЛАВА 12 Представим теперь, что совокупность из N элементов полу- получена как выборка из бесконечной совокупности, семиинварианты которой равны %р. Если символ математического ожидания М относится к этой бесконечной совокупности, то Если мы имеем дело с некоторой симметрической функцией f, среднее значение которой может быть выражено в терминах х линейным образом: !> a jHj, A2.110) то справедливо и аналогичное соотношение M*(f) = 2a/0. A2.111) В самом деле, если это не так, то MN{f) может быть выражено как некоторая другая функция от К, усреднение М которой бу- будет таким же, как усреднение от 2«Ау> и из этого тогда бы следовала связь между различными К. Это обстоятельство из- известно как принцип Ирвина — Кендалла, по имени авторов, ко- которые его ввели в 1944 году. Пример 12.8. Моменты среднего значения в случае конечных совокупностей ' Среднее значение выборки mt равно й4. Поэтому MN(kl) = Ki. A2.112) Из хорошо известного результата относительно дисперсии выбо- выборочного среднего значения следует, что (d? м(к?)=¦? + *? Следовательно, М (Л, — /CiJ = M?i — М/С? = *? [~ — -jf) - Поэтому 2 D^) A2.113) что и дает дисперсию среднего значения. Если бы мы пожелали представить это выражение в терминах исходных моментов, то получили бы MN(kl-KlJ = ~?^M2. A2.114)
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИИ - A) 417 Для третьего момента имеем М (Л, — /С, +Ki . A2.115) Третье слагаемое справа равно нулю, поскольку среднее значе- значение ki — Ki для конечных совокупностей обращается в нуль. Далее, Следовательно, из A2.115) получаем М (кг - /СО3 - ха (-1 - ^-) - ЗМ (/Ci - х,) (*i - /С,J Положим тогда М (Л, - /dK - а2х3 - ЗМ (/С, — «i) M* (*, - К^2 = — а2щ — ЗМ (К\ — щ) щК2 — = и2и3 — За! М (/Ci — X!) (К2 — и2) = За,х3 / За, JT~ = \а — = «2*3 Таким образом, (^K. A2.117) Подставляя сюда значения а2, ах и получим М^(«! -Af,K= ^-^^-^ Af3. A2.118) Подобным же образом можно найти, что М^(Л, - /СО4 = /С4 {<х3 — 4a2/iV + Gar/N2 — } ^), A2.119) что эквивалентно соотношению { ^ +бя») \- A2.120) 27 М. Кендалл, А. Стыоарт
418 ГЛАВА 12 Пример 12.9 Мы имеем М (kr - хг) (А, - х,) = М (*, - /Сг) (*, - /С,) + М (Кг - «,) (/С, - х.) и, следовательно, М (kr — Krfih —Kl) = — х,+1 -?нн, = «ixr+1, откуда Mw(*,-/Cr)(A,-/C1) = aI/Cr+1. A2.121) Поэтому если конечная совокупность симметрична, то каждая ^-статистика четного порядка не коррелирована с ku так как в противном случае /Cr+i = 0. 12.22 Продолжение наших исследований наталкивается на некоторые трудности, связанные с обозначениями. Мы уже ис- использовали такие символы, как %, k и К. В следующей главе мы будем заниматься многомерным случаем и нам придется рассматривать аналогичные величины, но уже снабженные не- несколькими индексами, например хг, kra, Krs- Сейчас нам требует- требуется ввести обозначение для статистик, чьи средние значения рав- равны произведению семиинвариантов х, например xrKs. Вопреки обозначениям Тьюки A950), Уишарта A952), Кендалла A952), мы будем обозначать эти величины буквами / с индексами. Они определяются из соотношений Mlrs...u =xrxs ... х„. A2.122) Для случая конечных совокупностей будем пользоваться обозна- обозначениями Lrs...u, так что Млг/«...«=?га...и. A2.123) Использование этих функций основано на том факте, что мы мо- можем их раз и навсегда выразить через некоторые расширенные симметрические функции, представить нелинейные функции от них как некоторые линейные и затем к ним применить рассу- рассуждения 12.21. Необходимые таблицы до 12-го порядка были да- даны Абдель Ати A954). Уишарт A952) указал (вплоть до чле- членов восьмого порядка) представление этих многомерных &-ста- тистик через произведение простых fe-статистик. Так, из таблиц Уишарта следует, что к& = у, = 13[п + /21 = Аз/я +¦ /2i. A2.124) откуда M(AA) /f A2.125) 1. A2.126)
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - A) 419 Подобным образом получаем kt= кф3 -H/3i/ft2 + 3/22/ft2+6/21i//i -Ишь A2.127) откуда следует, что М (**) = х4/й3 4- 4x3Xj/n2 + Зк2.//*2 + 6и2н?/я + к«. A2.128) Аналогичное представление имеет место и для Mw(&i). Пример 12.10 Одно из наиболее важных практических применений этих ре- результатов состоит в том, что с их помощью мы можем получать несмещенные оценки произведений семиинвариантов. В приме- примерах 12.1 и 12.3 мы нашли, что fi + ^r}. «ил», Часто случается так, что сами значения х4 и и2, входящие в A2.129), нам неизвестны и приходится вместо них пользоваться их оценками. Спрашивается, какие оценки для х4 и х2 надо взять, чтобы полученная оценка для Dm2 была бы несмещен- несмещенной? Как легко видеть, такой несмещенной оценкой является величина По таблицам Уишарта '22-¦^гт!*2 — — )• откуда, подставляя /22 в A2.130), получим следующую несме- несмещенную оценку: Пример 12.11 Найти несмещенную оценку для ^(МчJ. Эта величина рав- равна хзл\ и ее оценкой является /Зц. Пользуясь таблицей 11 при- приложения, мы можем эту оценку выразить в терминах расширен- расширенных симметрических функций: С помощью таблицы 10 приложения можно выразить расширен- расширенные симметрические функции в терминах степенных сумм (г). 27*
420 В результате получим /зн=-|г124E)-30D)A п. ГЛАВА ) — 20 (з; ¦) тЧи ) 12 1B ) 4 20C) (IJ 3 Г R14\ „1*1 + 5C)B)-3C)AJ-3BJAL-B)AK}4- П13| Если положить (r) = sr, то /Зп сведется к выражению 1 4- (л2 f 2л 4-16) s3s? 4- (9л — 16) s^Sj — Cft 4- 8) s2s Некоторые американские авторы называют /-статистики «многокатыми» *). Мы не будем придерживаться этого назва- названия, поскольку считаем, что должен существовать предел линг- лингвистическим увлечениям. УПРАЖНЕНИЯ 12.1 Используя непосредственно A2.25), выразить k3 и kt через расши- расширенные симметрические функции и, исходя из этого, доказать A2.29), 12.2 Предполагая, что найти коэффициенты а путем усреднения обеих частей и тем самым полу- получить выражение для k3, содержащееся в A2.28). 12.3 Используя подход примера 12.1, получить выражение хB3) в терми- терминах семиинвариантов исходного распределения. 12.4 Показать, что шаблонные функции для таблиц XXX X X X X X • X ..XX XX- XX-. 1 1 равны -; ття- н —-. r-j- соответственно. v (n — \у п(п— IJ (Фишер, 1928.) 12.5 Показать, что шаблонная функция таблицы ххх... X X X ... —1)Р-1 1 I / . {1 i с р столбцами равна п" 'I (л— I)''"* J (Фишер, 1928.) 12.6 Доказать формулы A2.37) и A2.43). *) Нам представляется, что такой перевод слова «polykays» отвечает существу дела. (Прим. перев.)
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ — (I) 421 12.7 Предположим, что некоторый шаблон содержит столбец с тремя вхо- входами (X). Рассмотрим шаблоны, получающиеся из исходного зачеркиванием этого столбца и A) объединением трех строк, которым принадлежат три входа отброшенного столбца; B) попарным объединением этих трех строк; C) оставлением этих строк без изменения. Пусть этим шаблонам отвечают шаблонные функции А; В,, В2, В3 н С соответственно. Показать, что шаблон- шаблонная функция исходного шаблона равна А (В + В + 5)+ С л(л_1)(л_2) Вывести отсюда, что шаблон XXX XXX XXX X X . имеет шаблонную функцию, равную п3— 8лг-[-17л-[-2 (л—IJ (я —2J (л — 3) ' (Фишер и Уишарт, 1931.) 12.8 Используя комбинаторный метод, доказать, что с точностью до чле- членов порядка п~1 Dm4 = ([х3 / 12.9 Доказать, чго в случае нормальных выборок k2 не зависит от 1 Т р bpfi'i (CP- упражнение 11.4). Используя это, показать, что 6п(п-1) А) 108л2(л-1)г(п2 + 27л- /- (п_2K(„+1)(л + 3)(л + 5)(л 1*4 и проверить A2.96) и A2.97). 12.10 Пусть статистика у определена соотношением (л— 1)(л — 2) (л— 3) kt -V- 24л(п-{-1) k\ ' Показать с помощью методов 12.18, что моменты у в случае нормального ис- исходного распределения имеют вид 1*1—0 , 12 , 88 532 65 , 4811 136 605 -— + т-2 jgjp-. „ . 468 32196 , 1 118 388 'л п2 ' п3 (Э. С. Пирсон, 1930.)
422 ГЛАВА 12 12.11 Показать, что в случае конечных генеральных совокупностей м /* ™ (N-n)(Nn-n-N — l) v , 2(N-n) „2 млг(й2 —лг) ~ /z(n —1)JV(//+1) *4i~ (и —l)(iV+l) Л2> что эквивалентно выражению \2_ (я 2j - »(N 2 „ n— ()( )() X {(n^V — ./V — и — 1) (N — 1) Л!4 — (nN2 — ЗЛ^2 + 6JV - 3N — 3) уИ^}. 12.12 Аналогично установить, что (ЛГ-я) {(я-!)(#-!) —6} „ 6{N-n) „ n(n-l)N(N-{-5) As + (и— 1)(// + 5) з 12.13 Показать, что для случая симметрических конечных генеральных совокупностей k^r не коррелирована с ^-статистиками нечетного порядка. 12.14 Показать, что если М(г) —производящая функция моментов длялг, то производящая функция моментов Af(?) для у=[(х) может быть пред- представлена в виде Установить, что производящая функция моментов й-статистик я. л равна ...}exp{xlSl 4-^-4- • • • }] Q. где л г так же зависит от операторов-г—> как и kr от результатов наблюде- наблюдений х, a sr = 2 С*')- Установить, что где (р,р2...) —некоторое разбиение числа р. (Фишер, 1928.) 12.15 Показать, что х2 хп))=-лр + ~к" и что где Ьр так же зависит от операторов -г—. как sp от наблюдений лг. (Кендалл, 1940а.)
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - A) 423 12.16 Показать, что производящая функция моментов 6-статистик задает- задается формулой Вывести отсюда результат предыдущего упражнения. (Кендалл, 1942.) 12.17 Используя упражнение 12.16, показать, что в представлении kp в терминах симметрических сумм s сумма коэффициентов равна 1/л. 12.18 Показать, что для (njL несмещенная оценка равна j - 6s2sl + 34 + 8s3s, - 6s4}. 12.19 Показать, что симметрические функции lrs--- могут быть представ- представлены в виде П {я, I я21 ...} и {(pi !)Л, {pi,).!, _} иB р) где (pf'P2! • • •) есть разбиение г, 2 Р/л/ = г> 2"|=Р' аналогичные разбиения отвечают s и т. д.; П и S означают произведения и суммы по всем г, s, ...; 2 означает суммирование по всем разбиениям. Вывести отсюда, что _ [I6] , 3 [21"] 3[22!2] , [23] (ср. с таблицей 11 приложения). 12.20 С помощью методов примера 12.7 показать, что если k{ н ftp не коррелировапы для всех р>\, то исходное распределение нормально. Если же ki не зависит от какой-либо kp(p>\), то распределение также нормально. Указание — использовать упражнение 4.5.
ГЛАВА 13 АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ— B) 13.1 Эта глава посвящена главным образом следующим двум темам. Первая — обобщение развитых в предыдущей главе ме- методов для одномерного случая на двумерные и многомерные ста- статистики. Вторая — изучение структуры ^-статистик и семиинва- семиинвариантов; при этом особое внимание будет уделено доказатель- доказательству комбинаторных правил для вывода выборочных свойств этих статистик. Двумерные ^-статистики 13.2 Для всякой пары чисел рр' имеется ^-статистика kpp>, среднее значение которой равно двумерному семиинварианту у-рр1 ¦ Она имеет вид / Р\ Рг Р, \xy* В частности, аналогично A2.28), == ~Ш~ (rtSn — sio%)> S2i 2«s10Sjj ns20sm -\- 2s10s01), %31 = -щ {n2(n 4 1)% — ft (ft -f- 1Mзо% — 3ft (ft — - 3ft (ft + 1) s21s10 -f 6ftsns20 4- 6fts20s10s01 - 6sols2o}j 2(л + 1) n—\ 2(n— SlS -— %S _L ^ с с2 — с2 с2 A3.2)
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - B) 425 Для средних значений произведений таких статистик k можно принять, например, следующие обозначения: 1 ,0 1 М (^20^11^02) = 2 1 0 1 соответствующие обозначения принимаются и для семиинва- семиинвариантов х. Как и в одномерном случае, последние могут быть выражены в терминах семиинвариантов исходного двумерного распределения; коэффициенты в этих выражениях будут теперь зависеть от разбиений пар чисел. Сформулированные в преды- предыдущей главе правила по-прежнему применимы (в частности, шаблонные функции, отвечающие определенным таблицам, те же самые), однако числовые коэффициенты, которые ставятся в соответствие заполненным таблицам, меняются, поскольку те- теперь мы должны рассматривать число способов размещения двух разных классов элементов, так как здесь мы имеем раз- разбиения пары чисел. Чтобы сделать это более ясным, приведем пример. Предположим, что нужно найти коэффициент при и3зхп в /2 2 1\ х 9 1 I. Так как общий порядок равен здесь 10 и порядки произведения суть б, 2, 2, то нужно рассматривать таблицы типа 6 2 2 4 4 2 10 Такие таблицы уже рассматривались в главе 12. Там были най- найдены соответствующие шаблонные функции. Чтобы вычислить коэффициенты, суммарный столбец нужно рассматривать как состоящий из двойных элементов: C,3), A,1) и A,1), и анало- аналогично для суммарной строки: B,2), B,2), A,1). Например, таб- таблицу 2 1 1 4 2 1 1 4 2 • 2 6 2 2 10
426 ГЛАВА 13 можно представить как A,1) @,1) A.0) B,2) 0.1) A.0) (ОД) B,2) A A Л) , Л) C,3) A,1) A,1) E,5) A3.3) или как B,0) @,1) @,1) B,2) @,2) A,0) A,0) B,2) A A ,1) . ,1) C,3) A,1) A,1) E,5) A3.4) Каждая из таблиц A3.3), A3.4) дает свой вклад в числовой ко- коэффициент. Оказывается, что, кроме этих таблиц, а также таб- таблиц, получающихся из них перестановкой первых двух столб- столбцов, других подходящих таблиц пет. Суммарный вклад таблицы A3.3) и таблицы, получающейся из нее перестановкой, равен 2LU_2LU 2! )( 2! ^1-1-16 1N ! ) \ 111! ) \1Ш) [ТПТ) 2! — 10- Аналогично таблица A3.4) и таблица, получающаяся из нее перестановкой, дают суммарный вклад 2! J\l!l! )\ 111! Д2! J 2! Общий вклад равен, следовательно, 20. Соответствующая шаб- шаблонная функция есть , _j. (п_2) • Таким же образом можно убедиться, что отвечающие раз- разбиениям 2 1 1 4 3 1 • 4 1 1 2 б 2 2 10 3 1 • 4 3 1 4 1 1 2 б 2 2 10 коэффициенты суть 48 и 8. Следовательно, искомый коэффи- коэффициент при Иззи?1 равен ( 20 . 48 п — 1)(л — 2) I" (п—\J ' 8 4 A9л —33) _ 2) I" (п—\J ' (л — IJ — (л— 1J(я — 2) '
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - B) 427 Пример 13.1 Найти точное выражение для ковариации оценок дисперсий двух коррелированных случайных величин, т. е. для /2 0\ х(о 2)' Ясно, что искомое выражение есть линейная комбинация трех членов х22. ^02%» и xir Для первого члена имеем разбиение B,0) @,2) | B,2) B,0) @,2) B,2) которому отвечают шаблонная функция — и числовой коэффи- коэффициент, равный единице. Коэффициент при втором члене есть нуль, поскольку для единственной соответствующей ему таблицы B,0) @,2) B,0) @,2) B,0) @,2) B,2) шаблонная функция равна нулю. Таблице для третьего члена A,0) @,1) A.0) @,1) B,0) @,2) 0.1) A,1) B,2) отвечают шаблонная функция , и числовой коэффициент 2. Следовательно, B 0' У" 1.0 2 Отметим аналогию между этим выражением и выражением для дисперсии &2о (ср. A2.35)) /2 2\ _ J<42 ^20 х lo 0j ~~ ~ + ТЛ^Т' В частности, если генеральная совокупность нормальна, то все и порядка выше второго обращаются в нуль, так что коэф- 2 фициент корреляции к2о и ?02 равен ==р2, где р—коэф- фициент корреляции исходного двумерного нормального рас- распределения. 13.3 Формулы для двумерного случая можно вывести из фор. мул для одномерного случая с помощью предложенного Кендал*
428 глава 13 лом A940с) формального процесса. Этим методом Кук A951) получила двумерные формулы до четвертого порядка по каждой из переменных. За формулами и деталями следует обращаться к ее статье; в одной из более поздних статей ею также дан ряд приложений этих формул. Здесь мы выпишем некоторые из наи- наиболее простых результатов: ( ) ^X + ХХ 03.5) 03-6) 7Г КЙ + 7Г=Т *20*02 + 7Г=Т *" /3 3\ j_ . 9 , 9 2 | Qn ., K\0 о] ~ 7Г K60 "+" n _ 1 %4OX2O + „ _ 1 K30 ¦+" („ _ 1) (Л —2) X2OXI1 (эта формула, по существу, относится к одномерному случаю), /3 2\ 1 ,6 ,3 О \ — п 1 т л-1 1-20 л" „_ („_!)(„_ 2) 1 . 3 .6 /3 1\ 1 к[0 2)==7i42 + -^ГухзоХ12+-Я^П" Х^1 " (л —1)(Л —2) Х20Х?г О3-10) /3 0\ 1 . 9 9 6n ( И \0 3J — ~R Хаз "Г -^ГТ ияип "Г -^ГТ «ia»«2i -т- (л-1)(л_2) y"ii' A3.11) /2 2\ 1 , 4 4 , 1 I — ~ И42 ~Г п j х22х20 ~Г л 1 И31ИП ~Г я f f п — \ Х21 "Ь + 2 i ^ (Л—1)(Л —2) /2 1\ 1 , 5 ,2 1 + (л —1)(л —2) %пх2оио2+ (Л_1)(л_2) и?г A3.13) Эти формулы по своему характеру, очевидно, очень схожи. Ниже мы увидим, как их можно записать в сжатой форме.
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - B) 429 Пример 13.2 Рассмотренные методы можно обобщить на случай конечных двумерных генеральных совокупностей. Получающиеся при этом формулы нужны не столь часто, чтобы их стоило здесь выписы- выписывать, однако будет полезно проиллюстрировать способ их нахо- нахождения. Вычислим дисперсию величины &ц для выборки объема п из генеральной совокупности объема N. Как в 12.21, имеем М (ku - Kuf = М {ku)~- М {Ки). В силу A3.7) = ^r «я ¦+¦ A3.14) ¦и?,, A3.15) ¦ип- A3.16) Подставляя A3.15) и A3.16) в A3.14), получаем L что сводится к равенству 22 Теперь нужно исключить стоящие в A3.17) справа нелинейные члены. Согласно A3.16) М(^п)-Ж*22 = т^хЛ+^Т*?г A3-18) Пользуясь формулой A3.6) в терминах К, аналогично находим Из A3.17), A3.18) и A3.19) следует, что 1 1 1 Dkn 1_ (я —1) (л — 1) САЛ— N М 77" "/-2 N -I 1 N-1 2 = 0, A3.20)
430 ГЛАВА 13 откуда A3.21) При выводе этого выражения мы, в соответствии с принципом Ирвина — Кендалла (см. 12.21), заменили математические ожи- ожидания, относящиеся к бесконечной генеральной совокупности, на математические ожидания, относящиеся к конечной генераль- генеральной совокупности объема N; при этом члены вида M(/C?i) были заменены соответствующими постоянными значениями, в дан- данном случае Ки- Полученное выражение полезно сравнить с ре- результатом упражнения 12.11. Доказательство комбинаторных правил 13.4 Мы переходим теперь к доказательству комбинаторных правил, сформулированных и проиллюстрированных выше. Пра- Правила 1 и 2 уже были доказаны. Предварительно определим оператор др, положив СР, г>Р, j \ A3.22) dp\i'r=0, r<p, \ др(АВ) = (дрА)В + А(дрВ). A3.23) Свойство A3.23) означает дистрибутивность д при действии на произведение. В силу этого свойства др (КГ = т ДО-' др' = ^ WT др'г. Следовательно, если функция /—многочлен от моментов ц, или если / разлагается в ряд по таким многочленам, то ^=^ + ^К+--- 03.24) Рассмотрим теперь выражение, определяющее семиинвариан- семиинварианты в терминах моментов:
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - B) 431 Применяя к обеим его частям оператор др, получим ехр(и,* +- ... Н-Ир-^-4- ¦¦¦){dpxit+ ••• +dPKPji f •••) = и, следовательно, Так как последнее соотношение тождественно относительно ^, то Например, ^^ - 12^ц{ 4- 24ц;3 + 24ц^ц; - 24ц|3 = О, д2к4 = 12ц2 — 24ц;2 — 12ц2 + 24nf = О, <?3и4 = 24ц; — 24ц; = О, д4и4 —4!. 13.5 В соответствии с уже доказанным нами правилом 1 се- семиинварианты х (а ... а"*) и, следовательно, моменты (х (а .. . a"s) можно выразить в терминах семиинвариантов исходного распределения ц(а?.а?...)=2{Л(«^ ...)}, A3.26) где коэффициенты А пока неизвестны и наша задача их найти. В целях экономии штрихи при моментах ц на протяжении всего доказательства опускаются. Применим к обеим частям A3.26) оператор (df'djjj2 ...). Все стоящие справа члены, за исключением (%*'xl>j • • •)• перейдут при этом в нуль, и мы получим f f -a§» •••)• A3.27) Рассмотрим теперь аналогичный оператору др оператор 0Р, ко- который, действуя на степень хг (с любым индексом), понижает показатель степени на р и производит умножение на г (г ~ 1) ... ... (г — р+1); предполагается также, что 0Р дистрибутивен*). *) 0р можно считать эквивалентным оператору _2f\ dx'J
432 ГЛАВА 13 Рассматривая \\.(а^а%* ..А как среднее значение произведения (^й^й2 ' ' ")' виДим, что результат применения операторов д к среднему значению, выраженному в терминах моментов ц, тот же самый, что и при взятии среднего значения от результата применения соответствующих операторов Э к произведению, вы- выраженному в терминах иксов. Но в результате применения опе- операторов Э получается константа, совпадающая, конечно, со сво- своим средним значением. Следовательно, А — , VV (№*%...). A3.28) F,!)Pl F20fe ...Pi!P2t... ^ a> e» > V ' Наши комбинаторные правила касаются вычислений, связанных с этими операторами. 13.6 Рассмотрим заполненную таблицу типа A2.32). Неболь- Небольшое размышление показывает, что для каждого члена в A3.28), не переходящего в нуль при применении оператора, имеется та- такая таблица. Верно и обратное. Стоящие в таблице числа об- образуют степени иксов, входящих в произведение функций k\ если их сложить по строкам, то получатся порядки операторов, при сложении по столбцам получатся порядки соответствующих функций k. Заполненная таблица является, так сказать, схемой части операции A3.28); целиком операция представляется как сумма всех возможных заполненных таблиц. Операция A3.28) дает коэффициенты в представлении \\,(аЧ1а%> ...), по нас интересуют коэффициенты в представле- представлении и («?'#22 ¦ • ¦)' ^ЛЯ их "ахожДсния используется правило 3, которое мы теперь докажем. Согласно этому правилу коэффи- коэффициент при (и^и^ ...) в %{a"ia^ ...) задается всеми заполнен- заполненными таблицами, за исключением тех, которые распадаются на отдельные блоки, образованные различными строками и столб- столбцами. Из уравнения A2.31), выражающего соотношение между многомерными моментами и семиинвариантами, следует, что %{а^а^ .. .) есть сумма \i(afa%2 . ¦ А и членов, образованных произведением двух, трех и т. д. многомерных моментов (с неко- некоторыми коэффициентами). Рассмотрим член вида ц [а а ...) X Xliya^a*2 ¦••), где а(-г-а" = а1 и т. д. Коэффициент при нем в разложении правой части A2.31) равен 1 2! $; taal 2 1111 ciila"! (Xjlalj'l ' ' "
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - B) 433 и, следовательно, коэффициент, с которым этот член входит в формулу для % (afcty ...), есть а[1а^2 .. ¦) соответствует таблица типа /it \ A2.32) с суммарной строкой [o^cl? ...J и суммарным столб- столбцом, скажем \pilb22---)> и аналогичная таблица соответствует аах1а^2 ...) . Если $[ -)-pJ' = Pj и т. д., то эти таблицы в выра- выражениях через семиинварианты и будут соответствовать тем чле- членам, которые по умножении дадут член с (и$'и|? ¦ • •)• Таким образом, произведение этих двух членов можно рассматривать как таблицу типа A2.32) с суммарной строкой (af'a • • •) и суммарным столбцом (bfbfy ¦. А, распадающуюся на два отдель- отдельных блока. Поскольку имеется а4 столбцов с суммами а4 и т. д., /аД /а2\ то всего в выражении для \i (afa^ ¦ ¦ •) будет L'JL') ••• про- произведений такого рода. Это число отличается от числа A3.29) знаком и имеет ту же абсолютную величину. Следовательно, ес- если в таблице для \i отбрасывать двойные блоки, то тем самым будут учитываться произведения пар моментов, которые нужно вычесть из ц для получения х. Некоторые из этих отдельных блоков сами распадаются на два блока, и, вычитая их все из ц(а^а^ ..А, мы вычитаем слишком много. Например, если имеются три отдельных блока L, М и N, то, рассматривая L и (M + N) как два блока, мы вы- вычли бы L, М, N. То же самое было бы вычтено, если рассматри- рассматривать М, (L + N) и N, (L+M) как два блока. Таким образом, мы вычли бы излишне 2L, 2М, 2N. Эти блоки нужно вернуть в таб- таблицу для ц. Такое добавление, произведенное по всем тройным блокам, учитывает члены в разложении A2.31), получающиеся в результате произведения трех моментов. Возвращая эти блоки, мы возвращаем слишком много в тех случаях, когда имеются четыре отдельных блока. Их следует опять отбросить, они соответствуют отрицательным членам в разложении A2.31), содержащим произведения четырех момен- моментов. Рассуждая дальше таким же образом, убеждаемся в спра- справедливости правила 3*). *) Для обоснования этого правила Капланом A952) были приведены также статистические соображения. 28 М. Кендалл, А. Стьюарт
434 ГЛАВА 13 13.7 Докажем теперь правила 4, 5 и 6, которые являются ос- основными для всего процесса. Рассмотрим опять таблицу типа A2.32). Для определенности пусть это будет A3.30) Таблица A3.30) представляет некоторое число членов операции, каждый из которых состоит в действии 86 на х2.х3.х (первая строка), а 02 на х.х (вторая строка) и т. д. Если считать индек- индексы иксов в каждой строке одинаковыми, то каждому индексу будет соответствовать некоторый член, поскольку kv содержит члены с любым распределением степеней (дающих в сумме р) и индексов. Например, будут члены вида 2 1 1 4 3 1 4 1 1 2 6 2 2 10 X2 х1 Х2 хъ х\ Х2 ¦ X, • хз х\ Х1 Х2 Х\ Х1 • Х1 • х2 г2 хх Х1 Х1 г3 хх • Х1 • X. Вообще для каждой заполненной таблицы имеются члены, в ко- которых (I) все иксы имеют один и тот же индекс (всего их л, один для каждого индекса), (II) все иксы, за иключением одной строки, имеют один и тот же индекс (всего их л (л— 1)), (III) все иксы, за исключением двух строк, имеют один и тот же индекс, и в этих двух строках у иксов тоже одинаковый ин- индекс (всего их л(л— 1)) и т. д. Эти случаи соответствуют раз- различным разбиениям на группы в правиле 6. В случае (I) член, отвечающий любому столбцу, появляется из члена с хр в kp, и с точностью до числового множителя он в силу A2.25) равен л. Следовательно, любой столбец, имеющий ненулевые элементы, дает множитель п~\ и функция от л, появ- появляющаяся в случае (I), есть произведение л на л в степени, равной числу столбцов с ненулевыми элементами. Подобно этому в случаях (II) и (III) функция от л для ка- каждого разбиения и каждого столбца есть произведение л (л— 1) —1 на л или на ^(п—в ' в зависимости от того> имеет ли стол- столбец в одной или в обеих группах разбиения ненулевые элемен- элементы, и т. д.
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - B) 435 Тем самым объясняется, откуда взялась шаблонная функ- функция, описанная в правиле 6. Однако чтобы доказать это пра- правило полностью (и попутно также правила 4 и 5), нужно по- показать, что появляющиеся от каждого разбиения на группы числовые коэффициенты одни и те же. После того как это сде- сделано, правило 6 доказано, так как вклады по п от разбиений можно сложить вместе (в результате чего получается шаблон- шаблонная функция), и затем результат умножить на числовой коэф- коэффициент. Действие оператора 9i можно рассматривать как выбрасы- выбрасывание всеми возможными способами х из выражения, на кото- л рое 0i действует, с заменой его на единицу. Аналогично -4- мо- можно рассматривать как выбрасывание р иксов с одним и тем же индексом и замену их на единицу. При этом очевидно, что результат действия произведения операторов fjy]— на про- произведение функций k той же степени есть число способов, кото- которыми множества иксов могут быть выброшены из произведения функций k, причем каждое множество должно содержать &4 ик- иксов с первым индексом, Ь2—со вторым (второй индекс может совпадать с первым) и т. д. Рассмотрим теперь операцию A3.28), предполагая, что функ- функции k выражены в упрощенной форме A2.26). Напомним, что операторы G дистрибутивны. Выделим из операции с суммой чле- членов, включающей все возможные способы, которыми отдельные иксы могут быть выброшены из произведения функций k, те чле- члены, которые отвечают суммарному столбцу и суммарной строке рассматриваемой таблицы. Рассмотрим множества, соответ- соответствующие определенной таблице, например A3.30). Общий вклад доставляется способами выбрасывания отдельных иксов так, что (I) из элементов первой функции k\ выбираются четыре в разбиении B, 1, 1), (II) из второй функции й4 выбираются четыре в разбиении C,1), (III) из функции ki выбираются два в разбиении A, 1), (IV) все это объединяется по всем возможным способам, при которых элементы в одной и той же строке имеют одинаковый индекс. По рассмотрении возможностей становится ясно, что общее число способов осуществить эту процедуру равно числу спосо- способов размещения элементов суммарной строки в соответствии с правилом 5. И это верно независимо от того, имеют ли множе- множества, образующие строки, одинаковый индекс или нет. 28*
436 ГЛАВА 13 Отсюда немедленно вытекают правила 5 и 6 и, следователь- следовательно, правило 4. 13.8 Оставшиеся правила выводятся из рассмотренных выше. Правило 7 следует из правила 2. В самом деле, шаблонная функция не зависит от чисел, заполняющих таблицу, и шаблон со строкой, содержащей один элемент, может, следователь- следовательно, быть основой для таблицы, в которой этот элемент равен единице. Отличие соответствующей шаблонной функции от нуля привело бы к появлению хь что согласно правилу 2 невоз- невозможно. Правило 8 следует из правила 6. Если столбец имеет един- единственный ненулевой элемент, то при всех разбиениях на группы имеется в точности одна группа, в которой представлен этот ненулевой элемент, так что следствием наличия этого столбца является умножение всех вкладов на п~К Правило 10 следует из правила 8. Добавление в аргумент и единицы эквивалентно добавлению лишнего столбца, состоя- состоящего из одной единицы и нулей. Добавление такого столбца ведет к умножению всех шаблонных функций на п~\ число- числовые коэффициенты оставляет неизменными и увеличивает ин- индекс каждого х соответственно строке, в которой находится единица. 13.9 Осталось доказать только правило 9. Отметим, что лю- любая шаблонная функция может быть линейно выражена в тер- терминах функций от шаблонов, получающихся в результате отбра- отбрасывания одного из столбцов. Например, рассмотрим правый столбец в шаблоне • XXX X • X X XX-. 03.31) хх-. и тот вклад, который он дает в шаблонную функцию. Пятна- Пятнадцать различных разбиений, возможных в случае четырех строк, можно разделить на два класса: в первый класс входят те раз- разбиения, при которых два ряда четвертого столбца принадлежат одной и той же группе, во второй — разбиения, относящие эти ряды к разным группам. При разбиениях первого класса вклад от первых трех столбцов совпадает с вкладом, даваемым всеми разбиениями шаблона XXX X X • A3.32) X X •
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - B) 437 получающегося из первых трех столбцов объединением двух верхних строк. Вклад первых трех столбцов • X X X ¦ X X X ¦ <13-33) X X • при разбиениях второго класса состоит из всех вкладов, неопре- неопределяемых разбиениями первого класса. Если А — вклад от пер- первых трех столбцов при разбиениях первого класса и В — вклад при всех разбиениях, то общий вклад равен т. е. является линейной функцией от величин А и В. В общем случае доказательство следует той же схеме. . Если шаблон можно разделить на две группы, связанные только одним столбцом, то его можно редуцировать шаг за ша- шагом, отбрасывая другие столбцы. В результате получится один столбец с шаблонной функцией, равной пулю. В самом деле, суммарная строка а соответствует функции /га, среднее значение которой представляет эта одностолбцовая таблица. Но так как согласно определению среднее значение ka есть ха, то не может появиться составных членов, которые имелись бы при двух или большем числе рядов. 13.10 Вышеизложенные рассуждения непосредственно обоб- обобщаются на двумерный случай. В дополнительном изучении ну- нуждается только правило нахождения числовых коэффициентов, на которые умножаются шаблонные функции. Это изучение ис- использует оператор и структуру двумерных й-статистик и приводит к выводу, что схема, набросанная в 13.2, остается применимой. Без доказательства отметим также, что подобные методы применимы и к многомерным статистикам большей размерности. Для трехмерных статистик, например, нужно рассматривать трехчастные разбиения. Практически для этих более общих слу- случаев требуются лишь простейшие результаты, и их обычно мож- можно получить, используя одномерные и двумерные результаты и применяя рассуждения типа тех, которые развиваются в после- последующих пунктах.
438 ГЛАВА 13 Сводка результатов 13.11 Резюмируем результаты этой и предшествующей глав. Мы видели, что с помощью простых алгебраических методов можно найти сколь угодно много моментов и семиинвариантов любой статистики, симметрично зависящей от наблюдений. Бы- Было также отмечено, что работа значительно упрощается, если использовать ^-статистики и семиинварианты. Естественно спросить, за счет чего происходит это упроще- упрощение? Каковы те структурные свойства fe-статистик и семиинва- семиинвариантов, которые дают им эти преимущества, и не представляют ли они собой предела для возможных упрощений? Ответ на по- последний вопрос будет положительным, и поучительно посмо- посмотреть, почему это должно быть так. 13.12 Определение одномерных семиинвариантов в терминах моментов тождеством по t, не выявляет существа структуры отношений между семиинва- семиинвариантами и моментами. Рассмотрим поэтому отношение между многомерными семиинвариантами и моментами, определенное формально тождеством A2.31). Предположим для определен- определенности, что имеется четыре случайных величины, и найдем вы- выражение для их смешанного момента ц'пп через семиинва- семиинварианты. Подсчитывая коэффициенты при tu tz, U, h, получим Кш =xmi + (кшокооо1 ~т~ Kuoixooio + Kiunxoioo + иош%юоо) ~Ь -Ь ^oioi^iooo^ooio + И0011И1000И0100) + Kiooo^oiooKooioKoooi ¦ A3.36) В конечном счете для любых четырех случайных величин xit xj, Xk, Xi можно написать V-'un = »*//« + (х/уЛ +КиРк + ¦¦¦ и т- Д-> Эти формулы выявляют действительную простоту отношений ме- между моментами и семиинвариантами. В выражении ц через к каждая возможность в правой части встречается в точности один раз. Обращая соотношение (чтобы получить к в терминах ц), имеем, аналогично A3.36), %ш\ == Кш ~~ (КиоКюот "г" Kioi^ooio ~Ь (xJollM'oioo+ KniKooo) (^ПОоКоП ~Ь ^1010^0101 + ^OllO^lOOl) "^ o^ooio^oooi ~Ь • • •) — ^M-Iooo^oioo^ooio^oooi¦ 03.37)
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - B) 439 Формула такого типа отличается от A3.36) только множителями (р—1)!(—1)р~' перед членами, состоящими из р частей. 13.13 В частности, эти формулы верны, когда две или более из четырех случайных величин совпадают. Если, например, со- совпадают первая и вторая величины, то такие выражения, как хшь записываются в виде х2ц и становятся трехмерными; если, кроме того, вторая и четвертая величины одинаковы, то этот семиинвариант переходит в хгг и становится двумерным. В край- крайнем случае, когда все величины идентичны, он переходит в Х4- Таким образом, посредством объединения индексов из A3.36) и A3.37) можно получить все соотношения четвертого порядка для любого числа случайных величин. При этом некоторые пер- первоначально различные члены переходят в одинаковые и могут быть объединены. Например, из A3.36) находим ^¦22 ~ Х22 ~т" 2х21х01 -)- 2х12х10 -f- x^XQg + 2хп -+¦ -+ Voi + хи24) + 4ixio%oi + 4)xoi- A3-38) Еще раз объединяя индексы, получаем известную формулу для одномерного случая К = и4 + 4*Л + Зх22 +- 6и.Х + и*. A3.39) Теперь становится ясным происхождение числовых коэффициен- коэффициентов в A3.39). Формальные методы получения многомерных фор- формул из одномерных (см., например, 3.28) являются просто со- сокращенными способами обращения процесса объединения ин- индексов, что возможно в силу симметрии относительно индексов членов в A3.36). 13.14 Таким образом, полезность формальных определений типа A2.31) и A3.35), включающих в себя экспоненциальную функцию, проистекает из алгебраического свойства этой функ- функции, проиллюстрированного в A3.36), а не из аналитических ее свойств, таких как совпадение со своей производной или прос- простота связи с логарифмической функцией (для которой она яв- является обратной). Числовые коэффициенты в соотношениях ме- между семиинвариантами и моментами появляются в результате свертывания соотношений, структурно значительно более прос- простых, чем они кажутся. Аналогичные рассуждения применимы к й-статистикам. Если отвлечься от множителей (—1)р~'(р—1)!/я'р^ то эти статистики, как было отмечено в 12.8, являются просто суммами произведений переменных х, причем каждое произве- произведение встречается один и только один раз. 13.15 Теперь мы можем записать формулы в свернутом виде. Например, A3.36) перейдет в 4 3 6 Viiki = *ijki + ~ *;*;*/ т 2к(/% f 2и;Ху-хА/ т и,и;хйх{1 A3.40)
440 ГЛАВА 13 где суммирования ведутся по всем способам группирования ин- индексов, и число этих способов указывается над знаком суммы. (Обозначения здесь несколько изменены против обычных: \i{, например, в этих обозначениях есть среднее значение г-й случай- пой величины, а не среднее значение 1-й степени некоторой ве- величины х.) Подобным образом, обозначая символом st-j.. л сумму произ- произведений XiXj.. .xi по всей выборке, получим следующие выра- выражения для fe-статистик: k-t = Si/n, j ku = (nsu — slsj)lnl2], | A3.41) — n 2 s,sJk + 2stSjSJ/ п[Ц j и т. д. Считая, например, г-ю и /-ю случайные величины идентич- идентичными, из второй формулы A3.41) получим (в более привычных обозначениях) (n — \)\, A3.42) в то время как для двумерной статистики &ц имеем ku=(nsn-s1QsQ1)/{n(n-1)}. A3.43) Для нахождения k2i нужно в третьей формуле A3.41) объеди- объединить индексы i и /, что в результате дает hi = {я2«21 — 2ftSi0Sii — /«20S01 + 2sioSoi}/n'3' в соответствии с A3.2). 13.16 Эта система обозначений была введена Капланом A952) и названа им тензорными обозначениями. Она позволяет записать многомерные формулы в виде, занимающем лишь не- немного более места, чем его требуют одномерные формулы. На- Например, в четырехмерном случае для ковариации двух пар имеем % (аЬ, if) - М {(kab - яаЬ) (ki} - кц)) = Это выражение содержит в себе семь типов формул. Если все случайные величины совпадают (a, b, i, j относятся к одной и той же величине), то A3.44) сводится к ^x4-f-^-r4 A3.45)
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ — B) 441 Если а совпадает с / и Ь совпадает с /, то получим DA,, = «(! })=^«2+^^02+7=1*1.- О3-46) Если а совпадает с b, a i совпадает с /, то получим 1^л_1__х^ A347) A3.48) При совпадающих a, b, i и отличающемся / При совпадающих a, b и отличающихся от них и друг от дру- друга i, / /2 °\ 1 2 он - ^ J-л л_, При совпадающих а, г и отличающихся от них и друг от дру- друга b, j ~ \o \)~n m n~l ж № no01" Наконец, если все a, b, i, j различны, то будем иметь /1 0\ #10 1 1 1 COV («цоо> ^00п)==и|о 1 I ~= ~п ИШ1 ~У~7, Г (^ЮШ^ОЮ! Н~ ^lOOl^Ollo)- \ 1 п п—\ \0 1/ A3.51) 13.17 Следующие формулы резюмируют дальнейшие много- многомерные результаты: х (ab, ijk) = %abl}kln 4- 2 »«в/х6д/(я — 1), A3.52) /8 6 \ / 12 %{ab, ij, pq) = y-abijpgln2 -\~ 2 ^аы^)91{п (п ~ Щ + 4 8 + 2*aiPbiq (п - 2)Чп (п — !J) -г- 2 ив/х6^л/(я - IJ, A3.54) /9 9 \ / _ I I I vi _i_ V I// n I ~ xabcjkln г V^-i Kai%bcjk ~г" Zj %abi%cjkl! (n — U 4" -f^ ^V V И П Ilin IWn 9\1 ПЧI:^ci^ I ^^ (ll b] ck l\\ /V /J* 1 lu.Oul
442 глава 13 12 %{abc, ijkl) = Kabcljklin 4- 2и \S Kabi^m + 2 КафЪсы)'{П — 1) + 1 v v v. nlHn~1\(n 0\\ /14 ТО 24 B{2(«-1J] -f- + 2 >W*b^ («2 - Зл + 3)/{й* (д - 1/»} + 24 + 3 2 *abpu*llJ{*>* (* - 1)} + + IS *a(*bp]quo -f 2 *aPpa*bJiv)l 1П (П ~ 1У\ + 96 48 a/(«-lK. A3.57) , ijkl) = V.abcdlm\n -f 2 *aPtedJul(n — 1) + 48 72 2 л, n/ //И 1 "» i ^^ л, л, V YlWlft 1W/7 0\\ ubi cdjkll\ f * ^м ul bj cdkl l\\ J\ ^^ )\ 16 18 , VI 144 I V ^ x ..^ /|/Л \)(П — 2I -f- 24 + 2 *ai*bJ*ck*din (« + 1)/{(» - 1) (я - 2) (я - 3)}. A3.58) Эти формулы включают в себя 41 формулу, полученную Кук A951), а также и ряд других формул, однако, как заметил Кап- лан, при выводе из них формул для частных случаев необходима осторожность. Пример 13.3 Для дисперсии статистики kn в случае бесконечной генераль- генеральной совокупности имеем (см. пример 13.2)
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - B) 443 Если генеральная совокупность нормальна и компоненты имеют единичные дисперсии, то эта формула переходит в ^ A3.59) Найдем третий и четвертый семиинварианты величины &ц. Третий семиинвариант получается из A3.54), если индексы в каждой из троек а, /, pub, /, q считать совпадающими. Имеем * (l I l) = "? *33 + я(Я —1) {б5*22«И + 3*20*13 + ЗУ-з1>102} + В нормальном случае остается только один член, и мы полу- получаем *з (*и) = 1й4т)Г Bр3 + 6р). A3.61) Аналогично, полагая в A3.57) индексы в каждой из четверок a, i, p, и и b, j, g, v совпадающими, для нормального случая находим ^ A3.62) (все члены в A3.62) происходят из последнего члена в A3.57): только он дает ненулевые члены). Из формул A3.59) и A3.62) получается следующее выражение для эксцесса распределе- распределения Ац* fc-3 = ^(<+7nw)- A3-63) УПРАЖНЕНИЯ 13.1 Показать, что коэффициент корреляции между fe3o и k03 для выборок любого объема п. из двумерной нормальной генеральной совокупности ра- равен р3, где р — коэффициент корреляции компонент исходного распределения. 13.2 Показать, что в условиях упражнения 13.1 коэффициент корреляции между кгй и kar равен рг для всех г. 13.3 Случайные величины х\, х2, хэ, х* имеют единичные дисперсии, со- совместное распределение этих величин нормально и коэффициент корреляции между xt и Xj равен р,-,-. Показать, что коэффициент корреляции между (X, — M*i) (*2 — Мх2) И (*3 — Мх3) (Xi МЛГ4) дается формулой
444 глава 13 13.4 Вывести формулу 1 1\ 1 , б ) '+ п(п-\у (Кук, 1951.) 13.5 Используя методы этой главы, доказать, что в случае больших вы- выборок из двумерной нормальной совокупности дисперсию выборочного ко- коэффициента корреляции можно вычислять по формуле Dr-A—р»)*/л 13.6 Случайная величина д: имеет семиинварианты всех порядков, и для всех г хг = О(агг+1). Показать, что преобразованная случайная величина У=}(х) имеет семиинварианты всех порядков, тоже удовлетворяющих этому условию. (Это не мешает семиинвариантам иметь меньший порядок, напри- например, о(/гм|).) (Джеймс (James), 1955, Biomelrika 42, 529.) 13.7 Показать, что для двумерной нормальной генеральной совокупности ковариация статистик feju и kvm равна нулю при t+u=fcv + w. (Уишарт, 1929.) 13.8 Показать, что для двумерного нормального распределения -I (A 2p*i*2 ¦ 4 [ + 2ла1а2A—р2I'2 \2A— p2)\a2 ara2 o\f < дисперсия fe(u равна где Д'О* есть /-я разность k-й степени нуля*) и F — гипергеометрическая функция. (Уишарт, 1929.) 13.9 В обозначениях 13.15 показать, что 4 3 (« + 1) Sljkt — П (П -f 1) 2 SlSjkl — П (Я — 1) 2 StjSki + I 1 Я2 ¦f 2л 2 SiSjSki — 6sisjsksi \1 л141. Вывести отсюда формулы A3.2) для &3i и kn. (Каплан, 1952.) 13.10 Используя результат 13.9, показать, что в случае нормальной гене- генеральной совокупности добавление новой части 2 к к {а ' ... ass) ведет к умножению всех шаблонных функций на 1/(п—1); проверить, что при этом *) Под этим здесь понимается, как обычно, &'хк\х=0. (Прим. перев.)
АППРОКСИМАЦИЯ ВЫБОРОЧНЫХ РАСПРЕДЕЛЕНИЙ - B) 445 числовой коэффициент умножается па удвоенное число строк таблицы, ко- которой он соответствует. Вывести отсюда, что результат добавления новой части 2 равносилен применению оператора n — 1 dv.2 (Фишер и Уишарт, 1931.) 13.11 Использовать предыдущее упражнение для доказательства формул A2.71) и A2.72). 13.12 Обобщая результат упражнения 13.10, показать, что в случае много- многомерной нормальной генеральной совокупности результат добавления ковариа- ции kpq(p, q относятся к р-й и q-и случайным величинам) равносилен при- применению оператора ' '->V>V)- rs где Ир, — ковариация р-й и q-й величин. (Фишер и Уишарт, 1931.) 13.13 Показать, что для выборок из нормальной генеральной совокуп- совокупности [ — г I
ГЛАВА 14 ПОРЯДКОВЫЕ СТАТИСТИКИ 14.1 В главах 10 и 11 был кратко изложен ряд свойств выбо- выборочной медианы, квантилей, а также более общих порядковых статистик от результатов наблюдений. Напомним, что r-я поряд- порядковая статистика выборки объема п есть r-е наименьшее выбо- выборочное значение, которое будем обозначать %). В отличие от статистик, являющихся симметрическими функциями от наблю- наблюдений, к порядковым статистикам неприменимы методы глав 12 и 13. Эти статистики обладают тем отличительным свойством, что если xi, ..., хп — результаты наблюдений, a х^, ..., лг(П) — те же результаты, но расположенные в порядке возрастания их величин, то Х(\), ..., х(„) уже не будут независимыми (даже если первоначальные наблюдения были независимыми). Это замеча- замечание и объясняет специальный характер выборочных распреде- распределений порядковых статистик. 14.2 Несмотря на отсутствие симметрии и независимости, можно получить некоторые исключительно простые результаты. Мы видели в 10.10, что в выборке объема п из генеральной со- совокупности с функцией распределения F(x), обладающей непре- непрерывной плотностью f(x), распределение Gr случайной вели- величины Х(г) выражается формулой ' В (л, л — г-\-1) \- - -/ Аналогичным образом можно получить и совместное распреде- распределение Х(г) и X(S), r<s: dGr. *= W B(r,sr)-r)B(s, n-s + 1) ~ ~ • A4.2) Обобщение на случай нескольких порядковых статистик не вы- вызывает трудностей. Так, например, для *(?1, х^), %), xw, r<s<.
ПОРЯДКОВЫЕ СТАТИСТИКИ 447 </<«, мы имеем (обозначая Fr вместо Z7(¦*(»•>) и т. д.) ~~ B(r,s—r)B(s,t — s)B(t,u—t)B(u,n — u + \) A4.3) 14.3 Распределения типа A4.1) были изучены для различных семейств исходных распределений F(x). Когда истинное распре- распределение является равномерным на отрезке [0, 1], то F(x)—x и распределение для х(г) особенно просто: оно сводится к бета-рас- бета-распределению. К относительно простым результатам приводят и распределения, являющиеся экспоненциальными: dF = = exp(—xlo)d{x/o). В других случаях (в частности, для нор- нормального распределения) нахождение точного результата сво- сводится, вообще говоря, к квадратурам некоторых интегралов. Медиана и квартили в нормальном случае 14.4 Предположим, что рассматривается выборка нечетного объема п = 2г+1. В этом случае выборочной медианой является (г+1)-я порядковая статистика. Пусть Тогда, учитывая A4.1) и полагая А=АХ, распределение медианы можно выразить формулой dO = n\Ar(l — A)rdA/{r\f. A4.5) В силу симметрии среднее значение выборочной медианы равно нулю и, следовательно, . A4.6) Разлагая A — А)' по формуле бинома, получим -ос /-О
448 глава и Каждое слагаемое можно проинтегрировать по частям, беря хе г в качестве одной из частей, поэтому 2л c. A4.8) Первый член справа обращается в нуль. Интегрируя далее по частям третий член, мы получим для интеграла в левой части A4.8) выражение со • со — со —оо A4.9) В A4.9) первый интеграл равен 1/(г+/Ч 1). Подставляя это значение в A4.7), найдем, что /=0 о A4.10) Первая сумма в правой части A4.10) равна единице, поскольку ;-0 = JV(l-*)r<« = B(r+l. r-|-l) = -^i. A4.11) Поэтому из A4.10) и A4.11) следует, что ^me = \ + 1^wy,{~\)'{rj){r^j){r+j^\)Tr+]_2, A4.12) где со (—§**)</*. 04.13)
ПОРЯДКОВЫЕ СТАТИСТИКИ 449 14.5 Подобным образом мы могли бы получить любое коли- количество моментов порядковых статистик. Результаты будут зави- зависеть от интегралов типа A4.14) частным случаем которых является A4.13). Эти интегралы из- известны как интегралы Хойо, по имени автора, который впервые A931) детально их изучил и табулировал для некоторых р и q. Путем простого обобщения рассмотренного метода можно полу- получить смешанные моменты двух порядковых статистик и, следо- следовательно, найти моменты таких величин, как интерквартильная широта (величина, равная разности между верхним и нижним квартилями) и средина размаха (полусумма наибольшего и наи- наименьшего значений). Этот подход чрезвычайно трудоемкий, и для обычных целей вполне достаточны приближенные методы, рас- рассматриваемые ниже. Можно, однако, в качестве иллюстрации привести некоторые точные результаты Хойо. 14.6 Для нормального распределения стандартная ошибка выборочного среднего равна a/Yn. Стандартная ошибка выбо- выборочной медианы cncsjYn всегда больше, чем o/Yn, так как Сп^-\ (равенство достигается только в тривиальном случае п — 2). Определяя выборочную медиану при четном п = 2г формулой те = -^ (х{г) -\-хи+Х)), мы имеем следующие значения для с„: п 2 4 6 8 1,000 1,092 1,135 1,160 л 10 12 20 оо сп 1,177 1,189 1,2Н 1,253 Аналогично средина размаха -^ (х{1) -j-x{n)) имеет стандарт- стандартную ошибку dnalYn> где dn стремится к бесконечности с рос- ростом п, как это станет ясно из дальнейшего (пример 14.4). С уве- увеличением объема выборки эффективность средины размаха (как оценки среднего значения нормальной совокупности) стремится 29 М. Кендалл, А. Стьюарт
450 ГЛАВА 14 к нулю. Приведем значения dn при некоторых малых п: п 2 4 6 1,000 1,092 1,190 л 10 20 оо dn 1,362 1,691 оо 14.7 Интерквартильная широта, деленная на удвоенную вели- величину 0,67449 (расстояние между квартилями нормального рас- распределения с единичной дисперсией), иногда употребляется как оценка истинного стандартного отклонения. Интересно сравнить стандартную ошибку этой величины (обозначим эту стандартную ошибку ena/Y2n) со стандартной ошибкой выборочного стан- стандартного отклонения, равной о/|/2«. Ниже указаны значе- значения еп для некоторых п: п 2 4 6 8 еп 1,000 1,047 1,421 1,313 п 10 12 оо еп 1,497 1,419 1.64S Нерегулярность в поведении этих значений до некоторой сте- степени объясняется произвольностью в определении квартилей в случае, когда общее число наблюдений п не представимо в виде 4г+ 1. 14.8 Хойо A931, 1933) и К. Пирсон A931) получили в этом направлении ряд других результатов. С более поздними работами вычислительного харак- характера можно ознакомиться по статьям Хэстингса и др. A947) и Годвина A949). Несколько позже в настоящей главе будут даны ссылки на работы, посвященные крайним значениям. Пирсоновское разложение 14.9 В главе 6 мы рассматривали разложение функции рас- распределения F(x) или ее плотности в ряд по степеням х. Сейчас мы рассмотрим данное К. Пирсоном обратное представление х по значениям F. Пусть Хг — истинное значение такое, что F(Xr) = -^. A4.15)
ПОРЯДКОВЫЕ СТАТИСТИКИ Разложим х1г) в ряд Тейлора в окрестности точки Хг: „ , 1 JC, — . где - F (Xr) = Fr~r/(n+ 1), yi _dXj_ _ dx r~~ dF ~ dP 451 A4.16) A4.17) dF2 С помощью A4.16) можно выразить степени х в виде ряда по степеням величины Л, а с помощью A4.1) легко затем полу- получить усреднение степеней h. Тогда в предположении, что наши ряды сходятся подходящим образом (или, точнее, дают хоро- хорошую аппроксимацию в некотором асимптотическом смысле), мы можем получить аппроксимацию для столь большого числа мо- моментов порядковых статистик, сколько мы пожелаем. Пример 14.1 Снова рассмотрим распределение медианы, т. е. распределе- распределение (г+1)-го выборочного значения выборки нечетного объема п = 2г+1 из нормальной совокупности. Поскольку (r + l)/(fl + l) = Y и ^+1=0- то у' dx r~~dF И аналогично X'" = Bnf/2. Поэтому из A4.16) и A4.4) при hr+l = A — 1/2 получим Подставляя разложение для хте в A4.6), найдем 29*
452 ГЛАВА 14 что сводится к выражению Для обычных целей точность этой формулы вполне достаточна. При п=11 согласно A4.18) Dme = 0,137, что совпадает в трех знаках с известным истинным значением 0,137227. Пример 14.2 При равномерном распределении dF = dx, 0<*<l, для медианы выборки нечетного объема мы получим x'=*i, х"=х'"=...=а. Дисперсия медианы поэтому совпадает со средним значением I 1 \2 1л: д I Для распределения что приводит к следующему точному результату: W °4Л9) 14.10 Дэвид и Джонсон A954) исследовали этот круг вопросов более детально и привели разложения для семиинвариантов и смешанных семиинва- семиинвариантов (до четвертого порядка включительно) порядковых статистик с точ- точностью до третьей степени от 1/(гс+2). Они выбрали разложение по степе- степеням (п+2), а не п~х по той причине, что в элементарных случаях (ср. с A4.18) и A4.19)) появляется именно (л+2), а не п. Неясно, насколько эти разложения обладают требуемыми асимптотическими свойствами, но во всяком случае они себя хорошо оправдывают на практике. Знание средних значений порядковых статистик х1Г) в выборке объема п из нормальной совокупности часто бывает нужным при изучении свойств по- порядковых статистик, и поэтому такие средние значения были достаточно пол- полно табулированы. См., например, Biometrika Tables ]or Statisticians, Part 1, где даны для нормальной совокупности средние значения всех порядковых статистик при « = 2AJ6BM0 (по меньшей мере с двумя десятичными . знаками). Хартер (Harter, 1961, Biom. 48, 151) привел эти значения для п=2A) 100B5J50E0L00 с пятью десятичными знаками*). Тейкроу A956) дал таблицу средних значений, а Сархан и Гринберг A956)—таблицу ди- дисперсий и ковариацнй порядковых статистик в нормальном случае*) с де- десятью знаками для « = 2AJ0. 14.11 При рассмотрении асимптотических распределений по- порядковых статистик мы можем получить два типа предельных *) С некоторыми сокращениями эти таблицы воспроизведены в книге Сборник статистических таблиц. (Прим. ред.)
ПОРЯДКОВЫЕ СТАТИСТИКИ 453 переходов. Первый тип получается, если считать г и п стремя- стремящимися к бесконечности таким образом, чтобы отношение г/п оставалось постоянным. Тем самым этот тип приводит к рас- распределению квантилей выборки. Второй тип мы получим, если г остается фиксированным при п —¦ оо. В этом случае мы прихо- приходим к результатам, по своему характеру совершенно иным, чем для квантилей. Это направление исследований часто называют теорией крайних (экстремальных) значений. Объясняется это название тем, что здесь наиболее интересны те случаи, когда г близко к 1 или п. 14.12 Мы уже получили в 10.10 и 10.11 ряд предельных ре- результатов для квантилей и видели, что выборочное распреде- распределение квантиля л'(,) асимптотически нормально. Его среднее зна- значение равно X,-, причем F(xr) =г[п, а дисперсия выражается от- отношением Л<7,/«„> A4-20) где pr = rjn, qr=\—рг и />, „ — ордината плотности распределе- распределения в точке Хг. Аналогично распределение двух квантилей х(г) и ЛГ(„) асимптотически нормально с дисперсиями A4.20) и кова- риацией Pr<?A*fr.nfs.n)- (Н.21) Этот результат обобщается и на случай более чем двух кванти- квантилей; при этом дисперсии и ковариации выражаются формулами типа A4.20) и A4.21), а предельное многомерное распределе- распределение будет нормальным. Асимптотические распределения крайних значений 14.13 Остановимся теперь па асимптотической теории край- крайних значений, с которой до сих пор нам не приходилось сталки- сталкиваться*). Из A4.1), сделав преобразованиеy = nF(x) (dF = dy/n), мы получим распределение для у: я-г + 1). A4-22) Тем самым отношение у/п имеет бета-распределение первого рода. Когда п стремится к бесконечности, то при каждом фик- фиксированном г Urn dHr(y) = yr-ie-ydy/r(r), A4.23) *) Весьма полное изложение этого вопроса можно найти в книге Гамбела (Е. J. Gumbel) Statistics of Extremes, Columbia U. P., 1958. [Имеется русский перевод с другой транслитерацией фамилии аптора: Э. Гумбель A965), Сга- тистика экстремальных значений, М., Изд-во «Мир». (Прим. ред.)]
454 ГЛАВА 14 что является элементом гамма-распределенпя с параметром г. В случае г=1 из A4.23) мы получаем, что трансформированное наименьшее значение имеет экспоненциальное распределение. Если теперь мы преобразуем A4.1),положиву = п(\ —F(x)), то получим результат, аналогичный A4.23), где вместо г—1 надо положить п — г. В случае г=п также получается экспо- экспоненциальное распределение. Эти результаты относились к переменной у. Теперь мы иссле- исследуем распределение п интересующей нас величины лг(Г). Если F(х) известно точно, то преобразование, приведшее к резуль- результату A4.23), можно обратить и, таким образом, получить пре- предельное распределение для ,t(r). 14.14 Для крайних значений (г=1 или п) распределение можно получить прямым путем, используя идеи Фишера и Тип- петта A928). Рассмотрим наибольшее значение и предположим, что п —km. Наибольшее значение xw тогда можно рассматри- рассматривать как наибольшее из k наибольших значений в выборках объема т. Если х(П) имеет предельное распределение, то оно должно с точностью до сдвига и величины масштаба совпадать с распределением для наибольшего значения выборки объема т при т —* оо и фиксированном k. Поэтому если G(x) есть функ- функция предельного распределения, то она должна удовлетворять функциональному уравнению G"(x)=G(ahx + bh). A4.24) Этим условием характеризуются возможные формы предельного распределения. Для решения уравнения A4.24) мы восполь- воспользуемся методом, предложенным Дженкинсоном A955). Положим q(x)=-]og{-]ogG(x)}. A4.25) Тогда, дважды логарифмируя A4.24), получим log k = q(x) -q(ahx + bh). A4.26) Разложим q{x) и q(akx + bh) в ряд Тейлора в окрестности точ- точки Хоп, для которой <7(*о„) = О. A4.27) Вместо A4.26) тогда получим ' г! A4.28) Соотношение A4.28) является тождеством относительно х, по- поэтому Л 1 / |»\ /Л А ПЛ\ I ПС Ь ' /7 I /У Y -Л— П, \ IIA/Mt "ё /с —^ — u V^fe 0л t я/ ^it^.a*^/^
ПОРЯДКОВЫЕ СТАТИСТИКИ 455 г>1. A4.30) Из A4.30) следует, что д(г) У - {q'(xan)Y ~Crt I14-1' где сг не зависят от k. Поскольку ah и bh — постоянные, завися- зависящие от k, которое произвольно, A4.31) можно переписать в виде qV{x) = cr{q'{x)Y. A4.32) Дифференцируя формулу A4.32) по х и используя ее затем при л=2, получим q(r+i){Х) = ГСг [q' {x)}r-1 q" (х) = rcrc2 [q' (x)}r+1. A4.33) Сравнение A4.32) и A4.33) показывает, что cr+l = rcr-c2 = r\cr2, л>1. A4.34) Подставляя теперь A4.34) в A4.32), получим q(n(x) = (r~l)\cr2-'{q'(x)}r, г>1. A4.35) Если эту формулу использовать при разложении q(x) в ряд Тейлора, то, учитывая A4.27), мы найдем = - ~tlog [l -с^' {x°n) {x—X°"V • Формулы A4.25) и A4.36) поэтому приводят к следующему результату: O [-{l-c2q'(x0n)(x-xQn)}1/ci A4.37) 14.15 Из 14.13 следует, что функция распределения G(x) может быть записана в виде ~п{\~ F(x)}\, A4.38) так что в силу A4.25) q(x) = — log [ft {I— F(x)}\. A4.39) В точке хоп согласно A4.27) и A4.39) Я Ы = - log [я {1 -F(xOa))] = 0. Поэтому f4l—F(xOn)} = l. A4.40)
456 ГЛАВА 14 Левая часть в A4.40) представляет собой среднее число значе- значений в выборке объема п, превышающих хОп, так что хОп есть то значение*) случайной величины, для которого среднее число на- наблюдений, превосходящих хОп, равно 1. Из A4.39) и A4.40) следует, что q'(x) = F'(x)/{l-F(x)}, A4.41) q'(xOn) = nF'(xOn). A4.42) Поэтому согласно A4.35) и A4.41) §; {^^p\ A4.43) Если lim c2 = 0, A4.44) Х-?оэ то из A4.37), с учетом A4.42) и A4.44), получаем lim G(*) = exp.[—exp{—л/7'(*„„)(* — xOn)}}. A4.45). Это предельное распределение было впервые предложено Фи- Фишером и Тнппеттом A928). Необходимость условия A4.44) для вывода распределения A4.45) была впервые установлена Мизе- сом A936). Для экспоненциального распределения dF (х) = е~х dx, 0 < х < ос, выражение в фигурных скобках в A4.43) тождественно по х равно нулю. Следовательно, для этого распределения условие A4.44) выполнено, а поэтому и справедливо соотношение A4.45). Распределения, для которых выполнено A4.44), были названы распределениями экспоненциального типа. 14.16 Если распределение F(x) не экспоненциального типа, то A4.45) заменяется некоторой другой предельной формой. Из A4.43) следует, что c2 = \+F"(x){i-F(x)}/{F'(x)}*. A4.46) Если lim xF'(x)l{l— F(x)}=k>0, A4.47) то A4.46) и A4.47) дают при х -> оо с2— 1 + xF"{x)l[kF'{x)\. A4.48) Воспользовавшись правилом Лопиталя, из A4.47) получаем \+xF"(x)lF'(x)~ — k. A4.49) *) Гамбел A954) называет х^п «наибольшим ожидаемым значением», хотя, как он сам отмечает, это может вызвать недоразумения, поскольку хОл не есть математическое ожидание наибольшей порядковой статистики.
ПОРЯДКОВЫЕ СТАТИСТИКИ 457 Поэтому из A4.48) и A4.49) следует, что Iimc2 = -1/A. A4.50) С учетом A4.42), A4.47) и A4.50) из A4.37) получаем lim O(x) = exp[—{l+ti(l—F(x0n))(x — x0ll)lx0n}-kl rt->co что в силу A4.40) приводит к распределению A4.51) являющемуся вторым типом распределений, возникающих в тео- теории крайних значений. Распределение A4.51) было получено Фреше A927), Фишером и Типпеттом A928). Условие A4.47) вытекает из соотношения lim xk[\— F(x)}=A>0, A4.52) х->оэ что легко установить, если применить к A4.52) правило Лопи- таля. Распределения, удовлетворяющие A4.52) и, следовательно, условию A4.47), не имеют моментов порядка выше k и поэтому были названы распределениями типа Коши. 14.17 Рассмотрим, наконец, распределение F(x), сосредото- сосредоточенное на (—оо, хи], где лг„<оо и, следовательно, F(xu) = \. Ес- Если к тому же /*V«) = 0, Г{к)(ха)Ф0 (г=1, 2 k —1), A4.53) то можно разложить экспоненту A4.38) в ряд Тейлора в окрест- окрестности точки хп, причем первым ненулевым членом будет член, содержащий Ль'(хы). Если F<-M)(x) ограничена в окрестности точки хи, то в силу малости (х — хи) можно пренебречь оста- остаточным членом и мы получаем выражение lim O(x)=:exp[-{(~nF(k)(xll)lk^/k(x-xu)Yl A4.54) я->оо которое является третьей предельной формой распределений крайних значений, найденной Фишером и Типпеттом A928). 14.18 В 14.14—14.17 мы обсуждали возможные предельные распределения для х(П). Если мы поменяем знаки у перемен- переменных, то —лг(() станет х(п) и G(x) перейдет в 1 — G(x). Поэтому функция распределения И(х) для наименьшего значения полу- получается очень просто: H(x)=l—G(—x), A4.55) и результаты, установленные для х(П), применимы к xw с учетом этого изменения.
458 ГЛАВА 14 Пример 14.3 В случае нормального распределения dF{x) = e 2 dx/Y2л, используя E.68) в A4.43) для больших значений х, получаем BlognI/2. так что с2 —>¦ 0 при х —> оо. Следовательно, условие A4.44) вы- выполняется, и тем самым A4.45) является в этом случае предель- предельной формой распределения. Чтобы его явно найти, мы восполь* зуемся тем фактом, что в точке хоп выполнено условие A4.40). Это нам дает 1 = п {1 _ F (xOn)} ~ nF' (xOn)!xOn, откуда flF'(X0n)- XQn- Поэтому показатель экспоненты в A4.45) равен — хОп{х — хОп). Кроме того, log п + log F' (хОа) — log хОп — 0, т. е. log я — j log Bя) — j х\п — log xQn ~ 0, что дает x0n Итак, в нормальном случае распределение A4.45) имеет вид expf-exp{-B1ogft)v2(x-B1og«I/2)}]. Асимптотическое распределение //;-го значения 14.19 Возвратимся к распределению A4.1). Теперь мы от изучения предельных распределений крайних значений перей- перейдем к общей задаче о предельных распределениях для поряд- порядковых статистик. При этом мы ограничимся только случаем наиболее важных распределений экспоненциального типа. Итак, пусть Х(П-т+1) является m-h наибольшей порядковой ста- статистикой. Если в A4.1) мы положим г=п — т+\ и продифференци- продифференцируем логарифм плотности, то, аналогично 10.10, в точке, являю- являющейся модой распределения x^-m+i), получим соотношение (п — т) F'jF — (/л — 1) F'l( 1 — F) + F'\F' = 0. A4.56)
ПОРЯДКОВЫЕ СТАТИСТИКИ 459 Из A4.41) и A4.43) следует, что если A4.44) выполнено, то q"(х) = F"l(l -F) + (F'f!(\ - Ff ->0, так что поскольку A —F) —» 0, то F" также стремится к нулю. Применяя правило Лопиталя к последнему члену в левой части A4.56), получим lim {F"IF')=\\m{F'j[— (I — F)}}. A4.57) Поэтому A4.56) превращается в соотношение (n — m)F'IF — mF'l(\—F)~0, A4.58) следовательно, в точке х, являющейся модой распределения F{x)~\ — mln. A4.59) Сравнение A4.59) с A4.40) показывает, что в экспоненциальном случае, когда т— 1, т. е. мода распределения х(П) совпадает с тем значением, выше которого может оказаться в среднем лишь одно наблюдение из п. Разложим F(a') в ряд Тейлора в окрестности точки х: ... A4.60) Поскольку в силу A4.57) и A4.59) F" (РJ/A_ р)=— n(F')*lm, A4.61) то, с учетом A4.59) и A4.61), вместо A4.60) мы получим F(x) = (\— mln)-\~(x — x)F'{x) — n{F'(x)J(x — xf\2m+ ... = М+...] A4.62) или, приближенно, F{x)~ 1 — {tnln) exp {— (x — x)F'(х)<(т,'п)}. A4.63) Формулу A4.1) можно переписать в следующем виде: . A4.64)
460 ГЛАВА 14 Если воспользоваться обозначением (—ут) для экспоненты в A4.63) и подставить это значение в A4.64), то найдем A \/п-1 / . 1 \ т-\ I т\т-\ я-1 т Поэтому из A4.64) при больших п получаем dQn_m+1 (х) ос ехр [— тут — me'»"] dym, откуда, после подсчета нормировочного множителя, следует, что dQn_m+i (.*):=¦- ^_1; ехр[—тут — tne~ym\dym. A4.65) В частности, при т=\ получаем элемент распределения A4.66) соответствующий функции распределения A4.45). 14.20 Необычное предельное распределение A4.65), найден- найденное Гамбелом A934), очень далеко от нормального в случае умеренных или малых значении т. Его первый момент (для удобства индекс у у опускается) выражается формулой оо К— (д—"*i)i J exPf— тУ — me — со Полагая e~y = t/mt получим т-1 , A4.67) r-l где у — константа Эйлера. Для r-го центрального момента имеет место формула A4.68)
ПОРЯДКОВЫЕ СТАТИСТИКИ 461 Эти формулы были получены и подробно исследованы Гамбе- лом, из работ которого заимствована следующая таблица: m 1 3 5 10 Среднее 0,577 0,176 0,103 0,051 УК 1,139 0,621 0,468 0,324 Рг-З 2,400 0,763 0,437 0,212 Эти данные, соответствующие порядковым статистикам Х(П-т+1) при малых т, ясно показывают, что предельное распре- распределение сильно отличается от нормального. Аналогично устрое- устроено и распределение для x(n_m+u при т, близких к п, причем его нечетные моменты, включая и само среднее, имеют те же са- самые значения, но противоположного знака, что и соответствую- соответствующие моменты при малых т\ четные же моменты остаются теми же самыми. Дальнейшее изучение асимптотических распределений по- порядковых статистик было проведено Дропкерсом (J. J. Dron- kers, 1958, Biom. 45, 447), который вывел предельные формы для всех трех типов исходных распределений*). Им же были даны аппроксимации допредельных распределений. В экспоненциаль- экспоненциальном случае было установлено, что сходимость к предельной фор- форме A4.65) является очень медленной (даже в случае исходного нормального распределения). Скорость сходимости может быть улучшена с помощью приема, использованного в 14.29 для ре- решения одной аналогичной задачи. Точные распределения порядковых статистик в нормальном случае 14.21 Многие авторы интересовались точным распределением порядковых статистик для того случая, когда результаты на- наблюдений нормально распределены. Наиболее полные резуль- результаты в этом направлении получил Рубин A954), который уста- установил общие рекуррентные соотношения для моментов стати- статистик ЛГ(Г) (в случае выборок объема п) через аналогичные моменты для выборок меньшего объема. Им были табулированы первые десять моментов для наибольшей порядковой статистики *) Подробную и обстоятельную классификацию исходных типов и пре- предельных форм дал Н. В. Смирнов A949), Труды Матем. ин-та АН СССР 25, 1—60. (Прим. ред.)
462 ГЛАВА 14 при «=1AM0. Пользуясь этими вычислениями, он нашел пер- первые четыре центральных момента, а также коэффициенты асим- асимметрии и эксцесса с точностью по меньшей мере до семи зна- значащих цифр. Для наибольшей порядковой статистики Типпетт A925) еще раньше вычислил ее распределение для ряди значений п (вплоть до 1000). Приводимые значения взяты и i его таблиц: п 2 5 10 100 500 1000 Среднее 0,564 1,163 1,539 2,508 3,037 3,241 Стандартное отклонение 0,826 0,669 0,587 0,429 0,370 0,351 ft 0,019 0,092 0,168 0,429 0,570 0,618 3,062 3,202 3,331 3,765 4,003 4,088 В этой таблице значения pi и Рг иллюстрируют то обстоятель- обстоятельство, что с ростом п распределение крайних значений все более отклоняется от нормального. 14.22 Хартли и Дэвид A954) нашли верхнюю границу для среднего значения наибольшей порядковой статистики с по- помощью следующего приема. Согласно неравенству Коши — Бу- няковского 1/2 где F— любая функция распределения и а—(п — 1)/Bп— 1)'/а. Если гзсе интегралы конечны, то это неравенство превращается (без потери общности можно считать среднее значение равным нулю, а дисперсию — единице) в следующее: Интеграл слева есть не что иное, как среднее значение наиболь- наибольшей порядковой статистики. Поэтому, используя значение а, по- получим М (x(n))< («-1)/B/г-1I/2 = а. A4.69) Если исходное распределение симметрично, то F(x) = \-—F(—х). В этих условиях имеет место более сильный результат , A4.70)
ПОРЯДКОВЫЕ СТАТИСТИКИ 463 принадлежащий Моригути A951). Им же были даны в симме- симметричном случае аналогичные, но, правда, более сложные форму- формулы для верхних и нижних границ дисперсии и коэффициентов вариации статистик Х(„). Очевидная нулевая нижняя граница для М (*(„)) не может вообще быть улучшена. Можно также до- доказать, что верхняя граница достигается в случае распределения («-1)>. A4.71) Для наименьшей порядковой статистики аналогичный результат справедлив с заменой М (x(n>) на |М(лгA))|. Хартли и Дэвид A954) получили следующий общий результат для порядковых статистик: \ВBт\2п2т\\) -li/2 Равенство здесь достигается только тогда, когда или /п=1, или я=1, т. е. в том специальном случае, который был рассмотрен выше. Совместное распределение двух порядковых статистик 14.23 Если в A4.2) мы сделаем преобразование = nF(x(r)), = n{\—F(x(s))}, то получим 1II Пусть run — s фиксированы и малы и пусть п стремится к бес- бесконечности. Полагая временно t=n — s+1, мы получим в пре- пределе Поэтому г-й наименьший член п t-n наибольший член асимпто- асимптотически независимы, что можно было, конечно, предвидеть. Ка- Каждое из этих значений имеет Г-распределепне. В частном слу- случае t—r имеем Г (г) • Г(п-г+1)- A4J°> Сархап и Гринберг A956) табулировали ковариацин всех по- порядковых статистик в нормальном случае для я = 2AJ0 с де- десятью десятичными знаками.
464 ГЛАВА 14 Размахи и средины размахов 14.24 О размахе выборки уже кратко речь шла в 2.17. Сей- Сейчас мы обобщим это определение, введя понятие /п-размаха как разности Rm = xln.m+1)—xlm), A4.76) т. е. Rm—расстояние между m-ми наибольшим и наименьшим значениями. Само понятие размаха мы получаем, если т—\. Обобщая понятие средины размаха, введем так называемую т-ю средину размаха («+«))• A4.77) Введенная ранее средина размаха, очевидно, совпадает с Mi. Из A4.75) видно, что асимптотические распределения разма- хов и средин размахов совпадают с распределением разностей и сумм преобразованных независимых величин. Можно, однако, вывести точные распределения непосредственно из A4.2), поло- положив r = m = n — s+1 и воспользовавшись формулами A4.76) и A4.77). На этом пути для совместного распределения Rm и Мт получим йИт ос {f(M-\ r) }m~l{F(M +i R)-F(M —I r) p2'" X x 11 _ у [M+\ R) }m~l j(M-\R)f(M-\-±R) dRdM, A4.78) где индекс т в правой части опущен для удобства записи. Распределение каждой из величин Rm и Мт получается ин- интегрированием распределения A4.78). При этом нужно побеспо- побеспокоиться о пределах интегрирования, поскольку они зависят в ка- каждом случае от интервала, па котором сосредоточено исходное распределение F. Конечно, можно было бы получить эти распре- распределения и прямо из формулы A4.2). Точное распределение размаха 14.25 Положим в A4.78) т=\ и проинтегрируем по М. Тем самым мы получим распределение размаха = dRn(n—\) J A4.79) Интегрирование в элементарных функциях здесь удается осуще- осуществить лишь в некоторых частных случаях. В большинстве слу-
ПОРЯДКОВЫЕ СТАТИСТИКИ 465 чаев приходится прибегать к численному интегрированию. Из A4.79) для среднего значения размаха получим г г = п(п— 1) dFn — оо —оо оо Х(п) Интегрируя по частям под знаком второго интеграла, нахо- находим М(/?) = - — оо \>Ч I + f -dT-^n-Firdx^l A4-81) -оо I В силу того, что для верхнего предела интегрирования (Fn — Fi)n = 0, порядок интегрирования и дифференцирования в последнем члене в A4.81) можно поменять местами. Это дает М(/?)= Г к,-хA))^^] dx{n)- f A-^f аГхA) = « L ыл(я) J^; =._oo •! -оо A) -со оо со = f \dirhxM-x«))F"\-F"} dx{n)- \ (\-F,)ndx{l) = — CO (U —OO Ж(п)"°° со оо = [(^»,-^i))^CAIH«- f^^(->- f (l-F^dx^^ CO = J {1— Fn — A— F)")dx. A4.82) Типпетт, которому принадлежит эта формула, установил также формулу и для дисперсии: оо {п) = 2 f f {\-Fan-(\-Fl)a^(Fa-F1)a} — оо —оо ЯП М. Кендалл. А. С ыоаот
466 ГЛАВА 14 В случае нормального исходного распределения Тнппеттом A925) и Э. Пирсоном (A926), A932)) было проведено подроб- подробное исследование. Типпетт нашел первые четыре момента рас- распределения размаха, табулировал средние значения для п ^С 1000 и дал номограмму для определения стандартных оши- ошибок. Его таблицы средних значений (с пятью десятичными зна- знаками) воспроизведены в Biometrika Tables for Statisticians, vol 1. Нижеследующие значения показывают общее поведение рас- распределения размаха, когда исходное распределение нормально. 2 10 100 500 1000 Стандартное отклонение 0,853 0,797 0,605 0,524 0,497 F. (приближ.) 0,99 0,16 0,21 0,39 0,31 ?2 (прнблмж.) 3,87 3^0 3,39 3,50 3,54 Из таблицы видно, что с ростом п распределение размаха все более и более отличается от нормального. Пирсон и Хартли A942) в нормальном случае табулировали с четырьмя десятичными знаками функцию распределения Rja для выборок объема от 2 до 20. Эти результаты также воспро- воспроизведены *) в Biometrika Tables for Statisticians, vol 1. Хартер (M. L. Marter, 1960, Ann. Math. Statist. 31, 1122) дал с шестью десятичными знаками для « = 2AJ0BL0A0) 100 значения R/a, для которых функция распределения равна 0,0001, 0,0005, 0,001, 0,005, 0,01, 0,025, 0,05, 0,1@,1H,9, 0,95, 0,975, 0,99, 0,995, 0,999, 0,9995, 0,9999. Он также дал значения первых четырех мо- моментов по меньшей мере с восемью значащими цифрами для л = 2AI00. Коксом A954) был рассмотрен эффект отклонения распреде- распределения размаха от нормального распределения в случае выборок малого объема. При этом им было отмечено, что эксцесс в боль- большей степени, чем асимметрия, оказывает влияние па поведение распределения. 14.26 Из A4.70) следует, что в случае симметричных распре- распределении (с нулевым средним и единичной дисперсией) для сред- среднего значения размаха справедливы неравенства *) Эти таблицы помещены также в сборнике Таблицы математической статистики. (Прим. ред.)
ПОРЯДКОВЫЕ СТАТИСТИКИ- 467 установленные Плэкеттом A947), который доказал справедли- справедливость этого результата и для несимметричных распределений. Хартли и Дэвид (!954) также пришли к этому результату и на- нашли верхние и нижние границы M(R) для распределений, сосре- сосредоточенных на конечных интервалах. В приводимой ниже таб- таблице (заимствованной из работы Плэкетта A947)) даются значения для верхней границы, ее асимптотические и точные значения в случае нормальных и равномерных исходных рас- распределений. n 2 3 4 8 12 Верхняя граница для М(Л) 1,155 1,732 2,084 2,921 3,539 / 1 \ I '2 \ ' ~~) 1,581 1,871 2,121 2,915 3,536 Точные значения нормальное распределение 1,128 1,693 2,059 2,847 3,258 равномерное распределение 1,155 1,732 2,078 2,694 2,931 Асимптотическое распределение размаха 14.27 Перейдем к изучению предельного при п —»¦ оо распре- распределения для R. Полагая в A4.2) г — п — 5+1 = 1, для совмест- совместного распределения наименьшего и наибольшего наблюдений получаем формулу A4.83) якобиан которого равен tt[{2n2flf2}- Совместное распределение для и и v выражается формулой Введем новые величины с помощью преобразования a = 2n[Fl{\-Fn))h'\ | dF(u, v) — Если п -* оо, то litn dF(u, v) — — uGxp(—uchv)dudv. A4.84) A4.85) В A4.84) область изменения переменных ограничена соотноше- соотношениями и>0, ch v^nju, 30*
468 КЛАВА 14 поэтому в A4.85) ch v и v могут изменяться до бесконечности. Следовательно, из A4.85) вытекает, что предельное распределе- распределение для и выражается формулой оо dF(u) = udu f exp (— и ch v) dv = 0 oo I = udu J exp(—и/)(/2—1)" dt. A4.86) Переменную и можно переписать в виде и = 2п {f(m -I R)[\ -F (M +1 RJ\f ¦ A4.87) Если теперь предположить, что средина размаха выборки М сходится по вероятности к некоторой известной величине ^, то и будет вести себя подобно ^)[l-^(fx+i^)]p. A4.88) Если [1 = 0 и генеральная совокупность симметрична, то вместо A4.88) получим {( )} A4.89) Отсюда следует, что в этом случае и будет стремиться просто к F(—~2 Щ (с точностью до постоянного множителя). 14.28 При выводе этих результатов, принадлежащих Элфвин- гу A947), было использовано предположение о том, что средина размаха М сходится к некоторой известной постоянной ц, по ве- вероятности. Но даже тогда, когда исходное распределение симме- симметрично и принадлежит экспоненциальному типу, это условие мо- может не выполняться. Чтобы это показать, мы положим в A4.68) т=\ и г=2. Тогда можно найти, что дисперсия распределения A4.66) равна я2/6. Согласно A4.45) переменной здесь является величина y = nF'(xOn)(x-xQn), A4.90) где х = Х(Пу Таким образом, здесь Dy = я2/6 и, следовательно, в случае больших выборок xOn)Y}. A4.91)
ПОРЯДКОВЫЕ СТАТИСТИКИ 469' Поскольку Х(П) и %> асимптотически независимы, средина раз- размаха, являющегося их полусуммой, имеет дисперсию D{M) = tfl[\2\nF'{x0n)?}. A4.92)- Пример 14.4 В случае нормального распределения (пример 14.3) nF'{x0n)~B\ogn)ll\ так что в силу A4.92) Поэтому если исходное распределение нормально, то М сходит- сходится к своему среднему значению (которое в силу симметрии является средним значением исходного нормального распре- распределения). Пример 14.5 Двустороннее экспоненциальное распределение dF = -x-exp(—\x\)dx, —оо<л<;оо, имеет конечные моменты всех порядков. Его функция распре- распределения выражается формулой Легко проверить, что здесь условие A4.44) удовлетворяется. Со- Согласно A4.40) и A4.93) x0ll = \og[-b п), и поэтому nF' (хОп) = ^п ехр (— log у я) = 1. Тем самым в этом случае согласно A4.92) и, следовательно, М не сходится по вероятности к нулю, являю- являющемуся здесь средним значением статистики М и исходной гене- генеральной совокупности. Редуцированные размах и средина размаха 14.29 Имея в виду замечание, сделанное в предшествующем пункте, мы рассмотрим теперь проблему, поставленную в 14.27, и попытаемся дать более общее решение задачи об асимптоти- асимптотическом распределении размахай средины размаха или некоторых
470 ГЛАВА 14 простых функций от них. При этом мы сосредоточим наше вни- внимание на симметричных распределениях экспоненциального типа. Если мы приравняем правые части формул A4.38) и A4.45), то получим 1 — F(х(п)) = \ ехр {— nF' (хОп) (х(п) — хОп)} и аналогично, используя формулу A4.55), F (Л ) J Х0п) (•*(!) + Х0п)} ¦ Поэтому вместо A4.83) можно написать и = 2 ехр { — у nF' (хОп) (х(п) — хA) — 2х0п) 1, } 1 A4-94) Определим теперь редуцированный размах R* и редуцирован- редуцированную средину размаха М* формулами: = nF'(xOa)(R-2xOn). Тогда вместо A4.94) получим и = 2ехр(—-i-tf*), A4.96) v = M*. A4.97) Используя формулу A4.96) и распределение м, выражающееся формулой A4.86), мы получим распределение для R* J ехр{ —2 ехр (—y о = 2 ехр (-/?*)/Со {2 ехр (— ^R*)}dR*. A4.98) где /(о — функция Бесселя нулевого порядка от мнимого аргу- аргумента. Гамбел A949), ранее получивший формулу A4.98) дру- другим методом, дал таблицы плотности и функции распределения /?* и табулировал процентные точки, т. е. квантили, соответ- соответствующие вероятностям, выраженным в процентах. Этот резуль- результат был получен также Коксом A948). Для получения новой аппроксимации им был использован метод перевала. Кроме то- того, Кокс провел сравнение результатов, даваемых новой аппро-
ПОРЯДКОВЫЕ СТАТИСТИКИ 47 f ксимацией, с A4.98) и результатом Элфвипга A4.86). Как и сле- следовало ожидать, в нормальном случае приближение A4.86) и приближение, найденное с помощью метода перевала, оказа- оказались лучше, чем A4.98). Но, как мы увидим в следующем аб- абзаце, даже A4.98) дает хорошую аппроксимацию для малых п. Согласно A4.95) R является линейной функцией от R*. Так же как в 14.28, асимптотически A4.99) Из A4.99), используя A4.95), мы получим, что асимптотически A4.100) Основываясь на этом результате и используя точные значения для ЬЛ(Я) и D(^) (табулированные Типпеттом A925) и Э. Пир- Пирсоном A926)) для малых п, Гамбел A947) оценил хОп и F'(xOn) и исследовал точность аппроксимации распределения R, полу- полученной из A4.98), путем сравнения ее результатов с точными значениями, вычисленными по таблице Пирсона и Хартли A942). Он нашел, что функция распределения R хорошо ап- аппроксимируется распределением A4.98) уже при я = 6. Поэтому, по крайней мере в нормальном случае, формула A4.98) удовле- удовлетворительно решает задачу о распределении размаха. 14.30 Рассмотрим теперь редуцированную средину размаха М*. В силу A4.97) мы видим, что ее асимптотическое распре- распределение, полученное интегрированием по и распределения A4.85), выражается формулой оо dG(Щ = 1 dM* J иехр(— achM*)du. A4.101) о Полагая z = uchM*, получим dG (M*) = дГЛ*7B с h2 М*). A4.102) С помощью формул A4.95) и A4.102) можно получить непо- непосредственно и распределение средины размаха М. Это распре- распределение симметрично, имеет нулевое среднее. Поэтому для сим- симметричных распределений экспоненциального типа М является несмещенной оценкой своего среднего значения (среднего значе- значения совокупности), равного нулю. Но пример 14.5 показывает, что четные моменты М сильно зависят от формы исходного рас- распределения.
472 ГЛАВА 14 Таблицы для распределений крайних значений 14.31 Сборник Probability Tables for the Analysis of Extreme — Value Data (National Bureau of Standards, Applied Mathematics, Series 22, Washington, 1953) позволяет находить: A) функцию и плотность распределений крайних значений в случае исходных распределений экспоненциального типа (см. формулы A4.45) и A4.66)) с семью десятичными знаками в ин- интервале от —3,0 до 17,0, включая —2,40@,05H@,1L,0, а так- также квантили крайних значений*) с пятью десятичными зна- знаками, соответствующие вероятностям 0@,0001H,005@,001) 0,988@,0001H,9994@,00001I. Кроме того, с пятью десятич- десятичными знаками здесь же даны значения плотности, соответствую- соответствующие значениям ф. р. 0@,0001H,010@,001H,999; B) процентные точки распределения т-х порядковых стати- статистик (см. A4.65)) для т — 1 A) 15EM0 и двенадцать процент- пых точек размаха для вероятностей, лежащих между 0,005 и 0,995; C) функцию н плотность распределения редуцированного размаха (см. A4.98)) (в случае исходных распределений экспо- экспоненциального типа) для значений R*= 1,0@,05) 11,0@,5J0,0 с семью десятичными знаками, а также квантили редуцирован- редуцированного размаха (с тремя и четырьмя десятичными знаками) для некоторых избранных значений вероятностей. 14.32 Когда в последующих главах (второй том) мы будем рассматривать теорию оценок и теорию различения гипотез, нам придется обратиться к изучению некоторых других выборочных свойств порядковых статистик. УПРАЖНЕНИЯ L.) Показать, что для распределения Коши дисперсия выборочной медианы в случае выборок нечетного объема п при- приближенно равна 1 ^ 1я»(п + 2) + -^ (Дэвид и Джонсон, 1954.) 14.2 Для «логистического» распределения с ф. р. *) Таблица квантилей воспроизведена в книге: II. В. Смирнов, И. В. Ду- нин-Барковский A959), Краткий курс математической статистики для техни- технических приложений, М., Физматгиз, 1959. См. также Сборник статистических .таблиц. (Прим. ред.)
ПОРЯДКОВЫЕ СТАТИСТИКИ 473 установить прямым методом, что предельная ф. р. статистики г=х^П) — log n выражается формулой О(г) = ехр(— e~z). Показать, что в рассматриваемом случае этот результат эквивалентен A4.45). 14.3 Пользуясь обозначениями из 14.9, показать, что в выборках нечет- нечетного объема п, с точностью до (п + 2)'2, для выборочной медианы выполнены соотношения: М (те) = Хг+,+ 8{п + 2) К+1 + 128 (яХ" DО».)-^y+ Yi Y2 («,) = -—- 1-^7—+ (у, 42 п + 2 ( Xr+1 (X) (Дэвид и Джонсон, 1954.)- 14.4 Используя х. ф. упражнений 4.21 и 14.21, установить результат A4.10) для предельного распределения редуцированной средины размаха. 14.5 Пусть Gr, п — функция распределения r-й порядковой статистики в. выборке объема п (см. A4.1)). Показать, что и что, следовательно, х. ф. и моменты Х(Г) удовлетворяют аналогичному ре- рекуррентному соотношению. Аналогично если Gr,«, п — функция распределе- распределения A4.2}, то (n-\-\)dGr, s, „ = г dGr+u s+i, n + i + (s — r) dGr, s+un + i + + (n — s + \)dGr,s,n+1. 14.6 Переписав A4.20) в виде Vp = p A — p)f(nf2p), fp > 0, показать, что- p_ 2 * Вывести отсюда, что Vp имеет экстремум при р=0,5 тогда и только тогда, когда в этой точке fp также имеет экстремум; кроме того, показать, что fo,s — минимальное значение, если Vo.s—максимальное значение; что если /о,5—максимальное значение, то Vo.s — минимальное значение при | ^o.sl > 4/o,i и максимальное значение в обратном случае; что если точка 0,5 является для /р точкой перегиба, то Ио,5—максимальное значение. Показать также, что если fp имеет экстремум в точке ро^0,5, то Vp не имеет точек экстре- экстремума ни в точке ро, ни в точке 0,5. Сэн (Sen, 1961, J. Roy. Statist. Soc. B23, 453.).
474 ГЛАВА 14 14.7 Для непрерывного симметричного распределения, плотность кото- которого имеет абсолютный максимум в точке g, являющейся медианой, пока- показать, что дисперсия медианы выборки нечетного объема удовлетворяет не- неравенству D/ne> [4 {/(?)\ и установить, что равенство достигается на равномерном распределении. От- Отсюда вывести, что асимптотическое значение дисперсии в действительности представляет собой нижнюю границу для дисперсии в случае выборок ма- малого объема. (Чу, 1955.) 14.8 Показать, что в выборке объема п из совокупности с распределе- распределением dF = e-xdx, 0<л-<оо, дисперсия наименьшего выборочного значения равна 1/п2. 14.9 Доказать, что предельные выражения, задаваемые уравнениями ^14.45), A4.51) и A4.54), удовлетворяют функциональному соотношению A4.24). 14.10 Рассмотрим выборку объема п из нормальной совокупности с еди- единичной дисперсией и выберем то выборочное значение, которое ближе всего к истинному среднему. Показать, что дисперсия этого значения выражается формулой X J ехр (--| jfi} J ехр (- I A dt | dx. O) (Кендалл, 1954.) 14.11 В условиях предыдущего упражнения показать, что 20 , 240 <это точное равенство) и приближенно vn = i (Кендалл, 1954.) 14.12 Показать, что элемент совместного распределения размаха и сре- средины размаха выборки из совокупности с равномерным в интервале 1 — -~-, -к) распределением, выражается формулой dF(R, M) = п (л — 1) Rn~2 dR dM, 0</?<l —2|M|<1. 14.13 Пользуясь результатом предыдущего упражнения, показать, что элемент маргинального распределения М выражается формулой i,
ПОРЯДКОВЫЕ СТАТИСТИКИ 475 и что М имеет моменты В частности, ц2 = {2 (п-\- 14.14 Показать, что в выборке объема п!>2 из нормальной совокупности разности порядковых статистик и выборочного среднего не зависят от выбо- выборочного, среднего. Отсюда вывести, что Иг (¦*(/)) г > 2, *2 (¦*(/))—л '¦ = 2. (Мак Кен, 1935.) 14.15 Показать, что среднее значение размаха выборки объема п выра- выражается равенством M(R) Отсюда вывести, что М (R) существует тогда и только тогда, когда среднее значение генеральной совокупности конечно. В этом случае М (R) также равно ' J {\—Fn—(\—F)n}dx. (Кокс, 1954.) 14.16 Используя результат упражнения 14.12, показать, что маргиналь- маргинальное распределение R выражается формулой и имеет моменты В частности, 14.17 Пользуясь результатом упражнения 14.12, показать, что отноше- отношение MjR подчиняется распределению моменты которого выражаются равенствами (Карлтон, 1946.> 14.18 Полагая в упражнении 14.13 t=nM, показать, что lim dF (t) == exp (— 2 11 \) dt.
476 ГЛАВА 14 Отсюда вывести, что разность между двумя так редуцированными срединами размахов, z=t\ — t2, подчиняется распределению dG (z) = |д + | г | j exp (— 21 г \) dz, моменты которого выражаются равенствами A = 1.2,... (Карлтон, 1946.) 14.19 Показать, что функция распределения размаха выражается фор- формулой со = n J (Гамбел, 1947.) 14.20 Показать, что случайная величина и с функцией распределения A4.86) имеет среднее -к- л и дисперсию |4 — Т я2Г (Элфвинг, 1947.) « 14.21 Показать, что распределение A4.66) имеет своей х. ф. ГA — it). Следовательно, Xi=y (постоянная Эйлера, = 0,577...); и2 = ^ « = я2/6 = 1,645; х3 = 2 2 л~3 = 2,404; у.4 = 6 2 « = л4/15 = 6,494. Вывести отсюда, что Pi =1,299, ^2=5,4.
ГЛАВА 15 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ И КВАДРАТИЧНЫЕ ФОРМЫ 15.1 Об одномерном нормальном распределении много говорилось в предыдущих главах. Если отвлечься от па- параметров сдвига и масштаба ц и а, то показатель экспоненты в его функции плотности будет равен просто — "о"*2- Нашей те- теперешней задачей является обобщение одномерного нормаль- нормального распределения на двумерный и вообще многомерный слу- случай. Естественно искать это обобщение в виде функции плот- плотности, являющейся экспонентои квадратичной формы от р пере- переменных, т. е. в виде CO. Здесь, как и в одномерном случае, ц3- и crj — параметры сдвига и масштаба, которые с помощью нормирующего преобразования можно сделать равными соответственно 0 и I. В этой главе, как всегда при рассмотрении многомерного случая, нам будет удобно использовать векторные и матричные обозначения; благодаря этому достигается экономность записи и большая ясность. Жирные прописные буквы будут обозначать матрицы, жирные строчные буквы — векторы-столбцы; штрихом обозначается операция транспонирования, так что жирные строч- строчные буквы со штрихом представляют векторы-строки. При этих
478 ГЛАВА 15 соглашениях A5.1) принимает вид ^occxpj— ±(х-цУА(х~ц)\ J\_dxJt A5.2) i где А—симметрическая (рХр) -матрица. Характеристическая функция и моменты 15.2 Соотношение A5.2) действительно определяет функцию плотности, если квадратичная форма (л:—\\)'А{х—ц) неотри- неотрицательно определена. В самом деле, в этом случае (и только в этом случае) можно найти действительное линейное преобразо- преобразование, переводящее показатель экспоненты в сумму квадратов со знаком минус, и интеграл от dF будет сходиться. Более того, существует ортогональное преобразование х = Ву, A5.3) преобразующее показатель экспоненты во взятую со знаком ми- минус сумму квадратов с коэффициентами, являющимися корнями характеристического уравнения матрицы А. Ограничиваясь не- невырожденным случаем, когда ранг А равен *) р, и принимая за начало отсчета вектор ц, мы воспользуемся этим преобразова- преобразованием для нахождения характеристической функции распределе- распределения A5.2). Попутно будет вычислена константа, на которую нужно ум- умножить правую часть A5.2), чтобы интеграл от dF был равен единице. Характеристическая функция в наших новых обозначениях выражается формулой (ср. D.27)) со со <р(*)ос J... j exp(it'x — jx'Ax)J[dXj, A5.4) — ОО — СО / или, после подстановки A5.3), )J[yj; A5.5) J / в силу ортогональности В якобиан равен единице. В A5.5) мы приняли обозначение С = В'АВ. A5.6) *) Если А имеет ранг г<р, то распределение вырождается и оказы- оказывается сосредоточенным на подпространстве размерности г<р, т. е. одна или несколько переменных излишни.
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 479 Так как С—диагональная матрица, то правая часть A5.5) рас- распадается в произведение р однократных интегралов вида со /,= j exp{iuJyi — jcjJy'^jdyJ, — со где Uj — линейные функции от переменных tj. Значение Ij легко определяется по формуле характеристической функции одномер- одномерного нормального распределения (пример 3.11). Это значение равно Применяя формулу A5.7) для всех сомножителей в A5.5), по- получаем Ф @ ex B.# /Ц сХТ exp L-^YiT^j. A5'8) Детерминант диагональной матрицы С есть а детерминант обратной к ней матрицы С равен \ A5.9) Подставляя A5.9) в A5.8) и переписывая показатель экспонен- экспоненты в матричной форме, имеем [j) A5.10) Так как в силу A5.6) BC-1Bf = B{B'AB)-1Bf = BB~iA-1(Br)~1Bf = A-1 A5.11) и матрица В ортогональна, то \А-1\ = \ВС-1В'\ = \В\\С-'\\В'\ = \С-1\. A5.12) Используя A5.11) и A5.12), мы можем переписать теперь A5.10) в виде A1) A5.13)
480 ГЛАВА 15 Полагая в A5.13) ?=0, находим, что константа в плотности многомерного нормального распределения равна Bл) * Таким образом, уточняя A5.2), можем написать -— — 1 dF = Bл) 2"\А\2 ехр| — j{x — р)'А(х — ц)}ПЛсу. A5.14) Соответствующая характеристическая функция имеет вид Ф @ = ехр (— -^ГА" V) ехр (гГц). A5.15) Второй множитель в правой части A5.15) появляется в том слу- случае, когда мера сдвига ц не равна нулю. В этом легко убедиться, заметив, что именно на этот множитель умножается A5.5), если во втором слагаемом показателя экспоненты в A5.4) и в A5.3) х заменить на х—ц. 15.3 Из формулы для характеристической функции нормаль- нормального распределения A5.15) легко найти его моменты и, еще про- проще, семиинварианты. Производящая функция семиинвариантов имеет вид l. A5.16) Так как правая часть A5.16) не содержит членов степени выше второй, то, как и в одномерном случае, все семиинварианты по- порядка выше второго равны нулю. Среднее значение /-й случай- случайной величины равно так что вектор сдвига ц есть вектор средних значений случай- случайных величин. Дисперсия /-й величины равна т. е. совпадает с элементом, стоящим в у-й строке и у-м столб- столбце матрицы А'К Ковариация /-й и k-н величин равна Формулы A5.17) и A5.18) показывают, таким образом, что ма- матрица центральных вторых моментов случайных величин, со- совместное распределение которых имеет х. ф. A5.15), есть А~1. Эту матрицу будем называть матрицей рассеяния, или диспер-
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 481 сионной матрицей. Теперь мы можем принять более удобное обо- обозначение, заменив А'1 на К, и в результате получим оконча- окончательное выражение для р-мерного нормального распределения в терминах его первых и вторых моментов: с. A5.19) Соответствующая характеристическая функция принимает вид Ф@ = ехр (— 1 t'Vt} ехр (# ». A5.20) Пример 15.1 Двумерное нормальное распределение Мы уже встречались с двумерным вариантом формул A5.19) и A5.20) в примере 3.17 и в ряде других мест. В двумерном случае матрица вторых моментов имеет вид V = где р — коэффициент корреляции, равный \kulo\Q2- Следова- Следовательно, 1 -р V~l-[ -P а,а2 A-р2) а| A — р2) так что если средние значения равны нулю, то A5.19) можно записать в виде dx, dx2 f 1 I x\ 2px,xn xl dF = :—-—nr,expJ ; 5 ' ' ' 1 а A5.20) —в виде Линейные функции от нормально распределенных случайных величин 15.4 В примере 11.12 мы видели, что линейная функция от не- независимых нормально распределенных случайных величин сама распределена нормально. Теперь мы в состоянии получить много более общий результат, а именно, совместное распределение вся- всякого множества линейных функций от совокупности случайных 31 М. Кенда.чл, А. Стьюарт
482 ГЛАВА 15 величин с нормальным совместным распределением нормально. Характеристическая функция невырожденного /7-мерного нор- нормального распределения выражается формулой A5.20), кото- которую при ц = 0 можно записать в виде (j) A5.21) Пусть t' = s'A, A5.22) где s' есть ^-компонентный вектор, f — вектор с р компонен- компонентами и А— некоторая (qXp) -матрица. Подставляя A5.22) в A5.21), получаем М { ехр(й'Аж)} =ехр(— -s'AVA's^. A5.23) Соотношение A5.23) показывает, что распределение множества q линейных функций от р случайных величин с нормальным со- совместным распределением, определяемых соотношением.^—Лл;, имеет характеристическую функцию многомерного нормального распределения с матрицей рассеяния AVA'. Если AVA' — невырожденная матрица, то многомерная формула обращения D.17) дает многомерную плотность A5.19) для у с AVA) вместо V. Если матрица AVA' вырождена, то обращение невозможно, так как тогда матрица (AVA')~l не определена. Тем не менее и в этом случае A5.23) есть характеристическая функция (вы- (вырожденного) многомерного нормального распределения. В част- частности, так будет при q>p. С этой точки зрения ясно, что всякое вьфожденное многомерное нормальное распределение можно рассматривать как результат некоторого линейного преобразо- преобразования невырожденного нормального распределения. В практике вырожденные распределения не вызывают никаких трудностей, поскольку вырожденное распределение всегда можно свести к невырожденному, элиминируя излишние переменные. Важным следствием результатов этого пункта является тот факт, что любое частное (маргинальное) распределение нор- нормального распределения нормально. Чтобы в этом убедиться, достаточно в качестве А взять рХр-матрицу, у которой все эле- элементы равны нулю, за исключением q, q^p—1, элементов на главной диагонали, равных единице. Матрицей вторых моментов частного распределения является соответствующая часть ма- матрицы вторых моментов исходного распределения. Однако об- обратная к ней матрица, определяющая коэффициенты показателя экспоненты в функции плотности, не будет, конечно, соответ- соответствующей частью аналогичной матрицы для исходного распре-< деления.
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 483 Многомерный нормальный интеграл 15.5 Помимо параметров сдвига и масштаба, функция плот- плотности A5.19) содержит еще -^pip—1) параметров — ковариа- ции р величин. Ясно, что табулирование соответствующей функ- функции распределения при р>2 — дело чрезвычайно сложное. В Tables of the Bivariate Normal Distribution and Related Func- Functions (National Bureau of Standards, Applied Mathematics Series, 50, Washington, 1959) приводятся таблицы функции двумерного нормального распределения (с шестью или семью десятичными знаками) для ±р = 0@,05H,95@,01) 1 и значений основных пере- переменных 0@,1L. Зелен и Северо (Zelen and Severo, 1960, Ann. Math. Statist. 31, 619) построили номограмму для нахождения значений двумерного нормального интеграла с ошибкой, не пре- превосходящей одного процента. Кендалл A941) нашел выражение функции нормального рас- распределения в терминах бесконечного ряда, однако сходимость его слишком медленна, чтобы выражение это можно было ши- широко использовать. В общем случае Плэкеттом A954) была пред- ложена формула редукции, позволяющая удовлетворительно та- табулировать нормальное распределение в трех- и четырехмерных случаях с помощью табулированных интегралов. Оуэн (D. В. Owen A957), The Bivariate Normal Probability Integral, Sandia Corporation, Washington, D. С, а также A956) Ann. Math. Statist. 27, 1075) создал таблицы для вычисления дву- двумерного нормального интеграла по областям, ограничен- ограниченным прямыми линиями, а также по некоторым другим об- областям. Стек (G. P. Steck A958), Ann. Math. Statist. 29, 780) предло- предложил таблицы для вычисления трехмерного интеграла*). 15.6 В статистике часто возникает специальная задача вы- вычисления многомерного нормального интеграла по области, в ко- которой все р компонент положительны. Хотя эта задача значи- значительно проще общей, решение ее при р>'3 по-прежнему сталки- сталкивается со значительными аналитическими трудностями, для пре- преодоления которых в отдельных случаях было предложено много специальных приемов. *) Таблицы Оуэна предназначены для вычисления двумерного нормаль- нормального интеграла по многоугольнику. Вместе с таблицами Стека они воспро- воспроизведены в книге Сборник статистических таблиц. Более подробно функция Оуэна табулирована в книге: Н. В. Смирнов, Л. Н. Большее A962), Таблицы для вычисления функции двумерного нормального распределения, М, Изд-но АН СССР. (Прим. ред.) 31*
484 ГЛАВА 15 Сначала мы рассмотрим двух- и трехмерные случаи — толь- только в этих случаях известны аналитические решения рассматри- рассматриваемой задачи. Пусть число измерений равно двум. Интеграл от функции плотности по положительному квадранту, если ее представить в виде обратного преобразования Фурье соответствующей ей характеристической функции, имеет вид со A5.24) векторы и матрица здесь — двумерные*). Изменив в A5.24) по- порядок интегрирования и произведя затем интегрирование по Xi и х2, получим со со 4яР2= J j exp^m)-^. A5.25) — оо —оо Коэффициент при (—t\ti) в показателе экспоненты, входящей в подынтегральное выражение, равен ковариации случайных ве- величин, т. е. равен poior2 (см. пример 15.1). Дифференцируя A5.25) по р, находим оо оо I JD)^, A5.26) — оо —оо Подынтегральное выражение правой части соотношения A5.26) с точностью до постоянного множителя представляет собой функцию плотности двумерного нормального распределения. Ин- Интеграл в A5.26) равен поэтому единице, деленной на этот по- постоянный множитель. Следовательно (см. пример 15.1), -1 . A5.27) |VI* 2ji|VT Интегрируя уравнение A5.27), получаем •) Здесь предполагается, что средние компонент равны нулю. (Прим. перев.)
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 485 Положив р = 0, убеждаемся, что с = -j. Таким образом*), ? I. A5.28) Соотношение A5.28) называют обычно теоремой Шеппарда A898) о медианной дихотомии. В силу симметрии то же значе- значение имеет интеграл по отрицательному квадранту. Интеграл по каждому из остальных двух квадрантов равен, очевидно, (-g- —Рг)- National Bureau of Standards A959) табулировало величину Рг для р = 0@,01I (см. ссылку в 15.5). 15.7 Используя полученный результат, легко найти значение интересующего нас интеграла в трехмерном случае. Как из- известно (упражнение 7.1), вероятность появления по меньшей мере одного из совокупности р событий равна 2P.-SP2 + 2P3- ••• +(-!)'-'Р„- A5-29) Здесь первая из сумм есть сумма вероятностей отдельных собы- событий, вторая — сумма вероятностей одновременного осуществле- осуществления (всевозможных) пар событий и т. д., последний член Рр есть вероятность одновременного осуществления всех р событий. Пусть каждое из этих р событий осуществляется тогда и только тогда, когда положительна соответствующая случайная величина, причем все эти р величин имеют совместное нор- нормальное распределение. Событие, состоящее в том, что по меньшей мере одна из величин положительна, является дополнительным к событию, состоящему в том, что ни одна из величин не положительна. В силу симметрии вероят- вероятность этого последнего события совпадает с искомой вероят- вероятностью неотрицательности всех величин. Отсюда и из A5.29) вытекает, следовательно, что i-po,=2p?-22+2p3- ... +(-1)'-»р» A5.зо) (как и выше, мы здесь приписываем к вероятностям индекс 0 сверху). Если р четно, то последний член справа отрицателен, и вероятность Рр из A5.30) определить невозможно; если р *) Данный здесь вывод соотношения A5.28) нестрогий: в нем исполь- используются расходящиеся интегралы. Строгий вывод этого соотношения можно найти в книге: Г. Крамер, Математические методы статистики, стр. 320— 321. (Прим. перев.)
486 ГЛАВА 15 нечетно, то A5.30) приводится к виду -.(- A5.3D Соотношение A5.31) позволяет находить при нечетных р ве- вероятность Р° по соответствующим вероятностям низших порядков. В частности, при /7 = 3 имеет место следующее простое обобщение формулы Шеппарда: = i{1-3-t+S(t + arcsin р/Bл))}= P12 +arcsin р13 +arcsin P23). A5.32) 15.8 При р>3 таких простых результатов не получается. В общем случае наилучший из найденных к настоящему вре- времени результатов принадлежит Кендаллу A941) и состоит в раз- разложении р" в степенной ряд по ковариациям. Без ограничения общности можно предположить дисперсии всех маргинальных одномерных распределений равными единице. Тогда обратное преобразование Фурье характеристической функции (ср. A5.24)) можно разложить в степенной ряд по коэффициентам корреля- корреляции p,j. Именно *), ,0 p;= ( со со \ I —CO —CO J оо со ( со со X йхх ... йх„= | .. . J j -±ф- J . .. J ехр 0 0 ( 0 - • -d-V A5-33> где суммирование ведется по всем возможным множествам ве- величин р(; и всем целым неотрицательным значениям tiij\ rii. = = 2 («/; 4~ fiji), п.. ~ 2ftr Меняя в A5.33) порядок суммиро- *) Приводимое ниже рассуждение, подобно рассуждению в 15.6, не- нестрогое. (Прим. перев.)
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 487 вания и интегрирования, получаем где Ясно, что Grij, = 1/2 при /ij. = 0. Когда п;-. — целое положительное, интегрируя в A5.35) по X], как мы ужеделалив A5.24), находим 1 Г ' tni- _-1 Применение формул для моментов одномерного нормалыюго рас- распределения E.60) приводит теперь к следующим соотношениям: 10 при п.]. четном, у^тт1 ПРИ «/¦ «ечетном, лу. Таким образом, окончательно -2 при лу.=0, Gnj = { 0 при пр=2т (т=\, 2, . . .), A5.36) Из этих формул следует, что в разложении A5.34) те члены, которым отвечает хотя бы одно четное я,-., равны нулю. Формально соотношения A5.34) и A5.36) дают решение за- задачи. Однако хотя ряд A5.34) всегда сходится, сходимость его медленна, если p,-j не малы. Более того, не все члены этого ряда положительны. В четырехмерном случае (см., например, Морэи (Могап, 1948), Biometrika 35, 203) первые члены в A5.34) имеют ВИД „ 1 i (, ] ijki а коэффициент при Р12Р13Р14 отрицателен и равен —1/DлJ. 15.9 В частном случае, когда все коэффициенты корреляции равны между собой, задача допускает совсем простое решение. Пусть лг0, Xi, .. ., хр есть р+\ независимых нормально рлс- пределенных случайных величин с нулевыми средними и еди- единичными дисперсиями. Рассмотрим величины yl = xl — bx0, i=\, .. п. b > 0.
488 ГЛАВА 15 Совместное распределение их нормально, каждая из них имеет среднее нуль, дисперсию l+b2, и ковариация любых двух из них равна Ь2. Коэффициент корреляции для всякой пары иг- игреков равен, следовательно, р = б2/A+62). A5.37) Когда b изменяется от 0 до бесконечности, р изменяется от 0 до 1. Поэтому, выбирая соответствующим образом Ь, в качестве рас- распределения игреков можно получить любое р-мерное нормаль- нормальное распределение, для которого коэффициенты корреляции оди- одинаковы и положительны. Значение соответствующей вероятно- вероятности Рр легко находится из самой конструкции игреков; она равна вероятности того, что р независимых величин с нормиро- нормированным нормальным распределением превосходят Ьх, проинте- проинтегрированной по нормированному нормальному распределению: оо 1 i ( со j | ЛР Р°р= |Bл)~те~Л J BnfYe'lt2dt\ dx. A5.38) -со ( Ьх J Стоящий здесь справа интеграл является интегралом типа Хойо A4.5), и с небольшой ошибкой его можно просто вычислить, за- заменяя интегрирование суммированием. Очевидно, вышеприве- вышеприведенные рассуждения, по существу, не изменятся, если некоторые из ух определять равенством yi==zXi ~\~Ьх0; при этом некоторые пары г/; будут иметь отрицательный коэф- коэффициент корреляции, равный —р. В этом случае A5.38) должно быть, конечно, соответствующим образом изменено. Рубин A954) табулировал величину Рр в случае одинако- одинаковых коэффициентов корреляции для р=1//, р=1, 2, ..., 51 —/, где / = 2, 3, .... 12. Пример 15.2 Чтобы проиллюстрировать аппроксимацию интеграла A5.38) суммами, проведем вычисления при р = 2 и 6=1. Здесь p = -j- Заменяя интеграл суммой значений подынтегральной функции в точках х=±3, ±2, ±1, 0 и используя таблицы 1 и 2 приложе- приложения, получаем результаты, указанные на стр. 489. Таким образом, приближенное значение интеграла при этой аппроксимации с точностью до четвертого знака равно 0,3331. Точное его значение есть '/з- Можно было бы достигнуть боль- большей точности, беря сумму значений подынтегральной функции в большем числе точек. Например, если добавить к рассмотрен-
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 489 X —3 +3 —2 +2 —1 +1 0 ? -1 -!я (I)r= J Bя) 2с 2 dt X 0,99865 0,00135 0,97725 0,02275 0,84134 0,15866 0,50000 ¦2» = {(!)}' 0,99730 0,00000 0,95502 0,00052 0,70785 0,02517 0,25000 C) = сумме чисел B) [ 0,99730 j 0,95554 1 0,73302 1 о 0,25000 -4- --х' D) = B.-Т) 2 е 2 0,00443 0,05399 0,24197 0,39894 C) X D) 0.С0М2 0,05159 0,17737 0.С9Э73 0,33311 ной сумме еще пару членов, соответствующих х=±4, то она уве- увеличится на 0,00013, и в результате получится 0,33324. Добавле- Добавление новых членов, соответствующих значениям х=±о, не уве- увеличивает точности, если ограничиться пятью знаками, однако ее можно сколь угодно сильно повысить, беря суммы, отвечающие более мелким интервалам разбиения области интегрирования (например, беря интервалы длиной 0,5 вместо 1). Морэном A956) была найдена граница для относительной ошибки при аппроксимации интеграла A5.38) суммами. В на- наших обозначениях она равна где h—-длина интервалов разбиения области интегрирова- интегрирования. В рассмотренном примере значение этой границы есть При h=\ граница значительно превышает ошибку, имевшую ме- место выше при аппроксимации суммой с девятью членами и рав- равную примерно 0,0003. С убыванием h граница резко уменьшает- уменьшается и, по-видимому, становится близкой к истинной ошибке. Квадратичные формы от нормально распределенных случайных величин 15.10 Пусть вектор х имеет нормальное распределение dF ос ехр (— -i x'Ax) JJ dxj и матрица А не обязательно невырождена. Рассмотрим распре- распределение самой квадратичной формы х'Ах. Для соответствующей
490 ГЛАВА 15 характеристической функции имеем формулу оо со <p@ocj... J expj — ±х'Ах(\ — 2в)} JJ rfjcy, A5.39) где 0 = //. Сделаем, как в 15.2, преобразование переменных A5.3), переводящее квадратичную форму х'Ах к диагонально- диагональному виду. При этом A5.39) перейдет в формулу У]. A5.40) Число ненулевых компонент у вектора .у в точности равно числу ненулевых корней г характеристического уравнения матрицы А. Если в A5.40) проинтегрировать по р — г переменным, соответ- соответствующим пулевым корням характеристического уравнения, то стоящая под знаком интеграла функция не изменится. Произве- Произведем это интегрирование и в оставшемся r-мерпом интеграле про- произведем замену Zj = yjCjj(l—20J. В результате получим оо со Ф@осA— 2Q)'jr J ... Г expf— \г'г\ J\_dz}. A5.41) — оо —оо j Так как интеграл в A5.41) не зависит от 9, то ф@ = A —20)~2"Г, A5.42) поскольку согласно определению характеристической функции ф@) = 1. Из формулы обращения, примера 3.6 и равенства A5.42) вытекает, что распределение квадратичной формы, стоя- стоящей в показателе экспоненты функции плотности многомерного нормального распределения, есть %2-распределение с г степеня- степенями свободы, задаваемое формулой A1.36) с п — р — r (см. так- также главу 16), где г — ранг (квадратичной формы) распределе- распределения. Полученный результат является обобщением результата из 11.2, где, по существу, рассматривался случай, когда матрица А диагональна и невырождена. Пример 15.3 Критерий согласия и распределение %2 Пусть имеется выборка объема п из генеральной совокупно- совокупности с мультиномиальным распределением (см. 5.30) задавае- задаваемым вероятностями pi (/= 1, ...,&). Из многомерной централь- центральной предельной теоремы следует, что распределение соответ-
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 491 ствующих k группам чисел хг будет стремиться при возрастании п к многомерному нормальному распределению со средними и матрицей рассеяния (см. E.80)) V=n Pl(\—Pl) —PlP-2 — — PiPl Pi0-—P2) —P2P3 — P\Pk — P'iPk В силу имеющегося линейного соотношения 2 Xj=ti это нор- мальное распределение является вырожденным и имеет ранг k— 1, так что |V|=0 и матрица V необратима. Но одну из пе- переменных Xt (скажем хк) можно отбросить как излишнюю. Оставшиеся k —• 1 переменных х% распределены нормально со средними npi и матрицей рассеяния V*, получающейся из V удалением последнего столбца и последней строки. Простым пе- перемножением легко убедиться в том, что 1 n 1 , Pi + 1 Pk 1 Pk 1 ~p~k 1 Pk Pi Pk 1 Pk 1 Pk'" 1 ¦ . . 1 Pk 1 1 Pk 1 + ! Квадратичная форма в экспоненте функции плотности этого рас- распределения равна, следовательно, —1 : I k-l
492 глава is Согласно 15.10 эта квадратичная форма имеет ^-распределение с k—1 степенями свободы. Полученный результат, принадле- принадлежащий Карлу Пирсону A900), служит основой критерия согла- согласия х2, который будет обсуждаться во втором томе. 15.11 Предположим теперь, что компоненты р-мерного век- вектора X независимы и имеют нормированное нормальное распре- распределение. Рассмотрим распределение квадратичной формы об- общего вида Q = х'Ах. Ортогональным преобразованием A5.3), переводящим хв век- вектору с независимыми и нормирование» нормально распределен- распределенными компонентами, Q можно преобразовать к виду Q='Sialy], гКр, A5.43) (=1 где а% — ненулевые корпи характеристического уравнения ма- матрицы А. Так как величина a,-t/| пропорциональна случайной ве- величине, имеющей ^-распределение с одной степенью свободы, то соответствующая ей производящая функция семиинвариантов равна (ср. 15.10 и главу 16) x[i.(t) = -L.\Og(\-<2afi), A5.44) где Q = it. Производящая функция семиинвариантов формы Q в силу аддитивного свойства этой функции A5.43) и A5.44) есть 20,0). A5.45) t-i С помощью формулы A5.45) легко найти общую формулу для семиинвариантов распределения формы Q: ks = 2s'1(s— I)! I>f. A5.46) г Выражение ^j aj, равное сумме элементов главной диагонали s-й степени матрицы А, будем записывать в виде tr As. При этом A5.46) переходит в Ks = 2s'l(s-\)\irAs. A5.47) Из A5.46) ясно, что распределение формы Q зависит только от значений ненулевых корней характеристического уравнения ма- матрицы А.
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 493 Из сравнения A5.46) с семиинвариантами ^-распределения (они приведены в главе 16; их легко можно вычислить, исходя из A5.42)) видно, что Q имеет ^-распределение с г степенями свободы тогда и только тогда, когда все а;=1. (При этом А — идемпотентпая матрица, т. е. Л = As для всех s.) 15.12 Характеристическая функция формы Q, соответствую- соответствующая производящей функции семиинвариантов A5.45), выра- выражается формулой = М {ехр@л:'Лд:)} = Ц ... J ехр{ — ^х'\1 — 2BA]x}dxl ... dxn. A5.48) Правая часть A5.48) с точностью до множителя \V\ 2 пред- представляет собой интеграл типа интеграла от плотности нормаль- нормального распределения с V~1 = I—28 Л. Следовательно, значение правой части A5.48) есть \V |2, так что 1. A5.49) Аналогично выводится формула характеристической функции совместного распределения двух квадратичных форм Qi=x'Ax, Q2 = x'Bx. Вычисляя математическое ожидание величины exp(9iQi + 82Q2), получаем ф(^, t2) = \I — 2е,Л-2е2^| 2. A5.50) Соответствующая производящая функция семиинвариантов равна ф(/„ <2)=S2*"Itr(e1i4 + 0al?)Vs. A5.51) В 4.16 мы видели, что для независимости случайных величии не- необходимо и достаточно, чтобы характеристическая функция их совместного распределения совпадала с произведением характе- характеристических функций каждой из этих величин в отдельности. Сравнивая A5.49) и A5.50), убеждаемся, что формы Qi и Q2 независимы тогда п только тогда, когда \I — 2QlA\\I — 2Q2B\ = \l — 2d1A — 202B\ A5.52)
494 ГЛАВА 15 или, эквивалентно, | А,/ — 20, А11 X[—2Q2B | = Я." | Я,/ — 26, Л — 292Я |. A5.53) Этот результат принадлежит Кокрэну A934). 15.13 Другой способ нахождения условий независимости двух квадратичных форм Ql и Q2 основывается на признаке незави- независимости двух случайных величин, состоящем в равенстве нулю их смешанных семиинвариантов (пример 12.7). Независи- Независимость Qi и Q2 равносильна равенству пулю коэффициентов при 0i8o в производящей функции семиинвариантов A5.51) при k, />-l, а это в свою очередь равносильно равенствам*) \х(АкВ1АтВ" . ..) = 0 (все k, I, m, п, ...>1). A5.54) Докажем теперь теорему Крэйга A943): квадратичные формы Qt и Q> независимы тогда и только тогда, когда 0. A5.55) Достаточность условия A5.55) для выполнения A5.54) оче- очевидна. Для доказательства его необходимости положим в A5.54) k = l=2, tn = n= ... = 0. Поскольку матрицы А и В сим- симметричны, имеем 0 = tr (А2В2) = tr (ВА2В) = tr {(АВ)' (АВ)}. A5.56) Элементы главной диагонали матрицы (АВ)'(АВ) представ- представляют собой сумму квадратов элементов соответствующего столб- столбца матрицы АВ, и все они, конечно, действительны. Таким обра- образом, из A5.56) вытекает, что все элементы матрицы АВ равны нулю, т. е. что выполняется A5.55). Замечательно, что уже одно соотношение A5.56) влечет A5.55): никакие другие соотношения типа A5.54) в доказательстве не использовались. Приведенное доказательство принадлежит Лэнкастеру A954). *). Следующее далее доказательство теоремы Крэйга основывается на этой равносильности, которую едва ли можно признать очевидной. Докажем здесь теорему Крэйга иным способом. Если формы Q{ и Q2 неза- независимы, то в A5.51) коэффициенты npnefS^^, />1) равны нулю, и, в част- частности, равен нулю коэффициент при Qfi2,: 4 B tr (y!252)-f- tr (ABJ} =0. Так как it(A2B2) = {x{(AB)'(AB)} (см. A5.56)), то, обозначив С = АВ, получим О = 2 tr (А2В2) + tr {АВJ = 2 tr СС + tr С2 = Л / I, J i,j 1,1 Следовательно, АВ = С=0. Доказательство достаточности A5.55) для неза- независимости Qi и Q2 не вызывает затруднений. (Прим. перев.)
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 495 15.14 Далее, так как матрицы А и В симметричны, их мож- можно записать в виде А = ТГ, B = UU', откуда АВ = TT'UU'. Следовательно, 1г (АВ) = tr (TT'UU') = tr (U'TT'U) = tr {T'U)' T'U). Но след матрицы (TU)' TU равен сумме квадратов всех эле- элементов матрицы TU, которые, вообще говоря, комплексны. Если же матрицы А и В неотрицательны, то матрица T'U веще- вещественна и из равенства tr(ЛЯ) = гг [ГU)' T'U} = 0 A5.57) вытекает, что ги=о АВ= TT'UU' = 0. Таким образом, для неотрицательных А и В соотношение A5.57) влечет A5.55) и, следовательно, независимость Qi и Q2- Этот результат был найден Матерном A949). В частности, А и В неотрицательны, если Qi и Q2 имеют распределение %2. В этом случае эквивалентность A5.57) и A5.55) можно установить непосредственно, заметив, что в силу идемпотентности А и В АВ = А2В2, так что A5.57) влечет A5.56), откуда вытекает A5.55) и неза- независимость Qi и Q2. Пример 15.4 Независимость среднего значения и дисперсии выборки из нормальной генеральной совокупности. В примерах 11.3 и 11.7 мы видели, что для выборки объе- объема п из одномерной генеральной совокупности с нормальным распределением (имеющим, без ограничения общности, среднее нуль и дисперсию единица) среднее х распределено нормально со средним значением, равным нулю, и дисперсией, равной \/п, п а сумма квадратов 2 (xi — ХУ имеет распределение %2 с (п — 1) степенями свободы. Ясно, что величина пх2 имеет ^-рас- ^-распределение с одной степенью свободы. Матрицы, соответствую- п щие квадратичным формам пх2 и 2 (¦*/ — хJ> имеют вид А = ±и. в = /->! и
496 ГЛАВА 15 где U—матрица, все элементы которой равны единице. В силу идемпотентности А = ix(A — Л2) = 0. Отсюда и из 15.14 следует, что формы пх2 и 2 (xi—хJ Рас" пределены независимо. Этот результат был уже получен нами в несколько иной форме в примере 11.3. 15.15 Из условия Крэйга A5.55) можно вывести необходи- необходимое и достаточное условие независимости квадратичной формы Q = x'Ax и линейной формы L = b'x. Формы Q и L независимы тогда и только тогда, когда независимы формы Q nL2 — x'bb'x. Согласно A5.55) для независимости форм Q и L2 необходимо и достаточно, чтобы имело место равенство Abb'^0. A5.58) Из A5.58) следует, что Abb'b = 0, A5.59) откуда, отбрасывая ненулевое скалярное произведение brb, по- получаем АЬ = 0. A5.60) Таким образом, A5.60) необходимо для выполнения A5.58). До- Достаточность A5.60) для A5.58) очевидна. Пример 15.5 Применим найденное в 15.15 условие для получения резуль- результата примера 15.4. В данном случае нас интересуют квадратич- квадратичная форма и линейная форма х п где 1 — вектор с единичными компонентами. Произведение соот- соответствующих матриц равно так что A5.60) здесь выполнено, и формы 2 (•*/—хJ и * независимы.
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 497 Разложение суммы квадратов независимых нормально распределенных случайных величин 15.16 Теперь мы докажем замечательный результат Кокрэна A934), усиленный впоследствии Джеймсом A952). Пусть, как и выше, х— вектор, образованный р независимыми случайными величинами с нормированным нормальным распределением. Предположим, что сумма квадратовх'х разложена на сумму k квадратичных форм Qi^x'AjX ранга г* k ^х'А(х = х'1х. A5.61) Тогда любое из следующих трех условий влечет два остальных: (а) сумма рангов форм Q, равна р\ (б) каждая из форм Qt имеет ^-распределение; (в) формы Qi попарно независимы. Используя метод, принадлежащий Ланкастеру A954), мы по- покажем, что каждое из условий (а) и (в) влечет (б) и что (б) влечет (а) и (в). 15.17 Возьмем какую-нибудь форму Qi, например Q4. Произ- Производя диагонализирующее А\ ортогональное преобразование A5.3), получим y'Iy, A5.62) поскольку сумма квадратов инвариантна относительно ортого- ортогонального преобразования. Так как матрицы В'АХВ и / диаго- нальны, то диагональпа и матрица В'(I—А\)В. Более того, так как (р — Г\) элементов главной диагонали матрицы В'А\В суть нули, то соответствующие элементы матрицы В'(I—Аг)В равны единице, и поскольку в силу (а) эта последняя матрица имеет ранг р — Г\, остальные элементы ее главной диагонали суть нули и соответствующие им элементы матрицы В'А\В рав- равны единице. Следовательно, матрица А\ идемпотентна, и из 15.11 следует, что Q( имеет ^-распределение. Для других Q{ этот факт устанавливается аналогично. Таким образом, (а) вле- влечет (б). 15.18 Пусть выполняется условие (б). Согласно A5.61), / = 2Л- A5.63) i Так как матрицы At ндемпотентны, то после возведения A5.63) в квадрат получим /=S4-r-S AtAj, i 1ф) 32 М. Кендалл, А. Стьюарт
498 ГЛАВА 15 или 2ЛгЛ; = 0, A5.64) и, следовательно, ^,tT{A,Aj) = O. A5.65) В силу идемпотентности А, и инвариантности характеристиче- характеристических чисел и следов относительно ортогональных преобразова- преобразований, имеем 1г(ЛгЛ;)>0 AФА A5.66) Из A5.65) и A5.66) вытекает, что tr(AtAj) = O, A5.67) откуда согласно 15.14 Л,Л; = 0 (для всех /=?/), и, следователь- следовательно, Qt не зависит от Q,. Таким образом, из (б) вытекает (в). 15.19 Если выполняется (б), то г,- характеристических корней матрицы Л,- равны единице, а остальные — нулю. Беря след ле- левой и правой частей A5.63), получаем так что из (б) следует (а). Если выполняется (в), то, возводя A5.63) в степени, получим 2-4? = / (для всех s), A5.68) откуда tr2^ = /> (для всех s). A5.69) Но A5.69) может иметь место лишь в том случае, когда каж- каждый непулевой характеристический корень любой матрицы Л(- равен единице, т. е. когда все Q,- имеют ^-распределение. Следо- Следовательно, (в) влечет (б). Мы доказали, что из (а) вытекает (б) и обратно и что из (б) вытекает (в) и обратно. Таким образом, выполнение каж- каждого из этих условий достаточно для выполнения двух осталь- остальных. См. также упражнение 15.16. Из того, что сумма двух случайных величин, имеющих рас- распределение х2, тоже имеет распределение %2, причем число степеней свободы распределения суммы равно сумме чисел сте- степеней свободы распределений слагаемых, не следует, вообще говоря, независимость этих случайных величин. Пример 7.6 содержит соответствующий противоречащий пример, построен-
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 499 ный Джеймсом A952). Таким образом, ограничение, состоящее в том, что рассматривались только квадратичные формы от неза- независимых случайных величин с нормированным нормальным рас- распределением, существенно. Пример 15.6 Вернемся еще раз к среднему и дисперсии выборки из нор- нормальной генеральной совокупности, обсуждавшимся в примере 15.4. Разложение суммы квадратов i(<) + i удовлетворяет условиям (а), (б) и (в) теоремы Кокрэна. Вы- Выполнимость условия (б) была установлена в примерах 11.3 и 11.7, и, следовательно, (а) и (в) тоже выполняются. Легко так- также убедиться в том, что ранги квадратичных форм этого раз- разложения равны п — 1 и 1 (в соответствии с числами степеней свободы их х2-Распределений), так что (а) выполняется, и по- поэтому обе эти квадратичные формы имеют х2-распределение и независимы. 15.20 Всюду, начиная с 15.11, мы предполагали, что х— век- вектор с независимыми нормированными нормально распределен- распределенными компонентами, однако изложенные результаты, по суще- существу, не изменятся, если предположить, что х имеет многомер- многомерное невырожденное нормальное распределение со средним 0 и матрицей рассеяния V. В самом деле, так как матрица V поло- положительно определенная, то ее можно представить в виде V= TV, A5.70) где Т—действительная матрица, и преобразование х—Ту со- согласно A5.70) переводит показатель экспоненты, соответствую- соответствующей плотности распределения х, из x'Vx в Тем самым общий случай сводится к изученному случаю незави- независимых компонент. В результате применения преобразования Т квадратичные формы х'Ах и х'Вх переходят соответственно в V'T'ATy пу'Т'ВТу, и условие Крэйга A5.55) принимает вид 0=T'ATT'BT=T'AVBT или AVB = 0. A5.71) Это обобщение результата Крэйга принадлежит Эйткину A950). Подобным образом, условие Лэнкастера A5.56) 32*
500 ГЛАВА 15 переходит в Q = ir{{T'ATf(T'BTJ)=ix{{AVf{BVf}, A5.72) а условие Матёрпа A5.57) для неотрицательно определенных форм — в O = tr{(T'AT)(T'BT)}=U(AVBV). A5.73) 15.21 Теорема Кокрэна (см. 15.16) имеет место в более об- общей ситуации, когда в A5.61) справа стоит любая квадратич- квадратичная форма с распределением %2. В самом деле, как мы знаем, такую форму можно преобразовать ортогональным преобразо- преобразованием к сумме квадратов, и при этом ранги матриц, получаю- получающихся после преобразования стоящих в A5.61) слева вырожден- вырожденных матриц, будут теми же самыми. Условия (а), (б) и (в) из 15.16 для преобразованных форм эквивалентны тем же усло- условиям для непреобразованных форм, так что формулировка тео- теоремы для более общего случая остается той же. Если величины х, не независимы, то теорема Кокрэна по- прежнему имеет место с очевидными модификациями (упражне- (упражнение 15.17). Характеризации нормального распределения 15.22 В примере 12.7 мы видели, что независимость среднего и дисперсии выборки из одномерной нормальной генеральной совокупности характеризует нормальное распределение: никакое другое распределение с конечными семиинвариантами всех по- порядков не обладает этим свойством. Аналогичный факт имеет место и в многомерном случае: независимость вектора среднего значения и матрицы рассеяния выборки характеризует много- многомерное нормальное распределение среди всех многомерных рас- распределений с конечными матрицами рассеяния. Лукачем A942) было замечено, что для справедливости этого результата суще- существование семиинвариантов высших порядков не обязательно. Ниже мы приводим доказательство Лукача для одномерного случая и вкратце указываем, как оно переносится на много- многомерный. 15.23 Предположим, что распределение генеральной совокуп- совокупности имеет конечные среднее ц и дисперсию а2, и пусть <р(^) — характеристическая функция (х. ф.) этого распределения. Х.ф. совместного распределения среднего х и дисперсии s2 выборки объема п равна f j/v A5.74) Необходимым и достаточным условием независимости х и s2 является возможность представить функцию A5.74) в виде
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ произведения х. ф. х и х. ф. s2: Дифференцируя A5.75) по 4, получаем Заметим, что Согласно A5.74) dlDio . f Го / . -~ = i ... s2exp(* а для s2 имеем представление '¦- ' \ln— nVx2 — VV Подставляя A5.80) в A5.79), находим 501 A5.75) A5.76) A5.77) A5.78) A5.79) . A5.80) = ^J ••• J ((л — 1)S^?-S ^^-хДехр^, J] xtln\dFa = = i^=iI {J x2 exp (/^х/д) ^ [cp (t-)]" - - [ J x exp (ВД/г) и?/7,]' [Ф (^-)]" } = вР. A5.81) Заменяя -^- на t и подставляя A5.81), A5.77) и A5.78) в A5.76), получаем -<P(W)+ {ф'@}2=(Ф@}2о2. A5.82) Соотношение A5.82) можно переписать в виде -a2. A5.83)
502 ГЛАВА 15 Интегрируя A5.83), находим ф'@/ф@ = -^+с A5.84) В силу начальных условий Ф@) = 1, ф'@) = *> должно быть с = i\i. Подставляя это значение с в A5.84), получаем 4" log ф (*) = *> — оЧ. A5.85) После интегрирования A5.85) имеем log Ф @ = j|i/-jo»<!, поскольку появляющаяся при интегрировании константа равна нулю, так как log(p@)=0. Таким образом, окончательно У A5.86) т. е. ф — х. ф. нормального распределения. Мы доказали тем самым, что независимость среднего и дис- дисперсии выборки свойственна только нормальному распределе- распределению среди всех распределений с конечной дисперсией*). 15.24 Результат предыдущего пункта непосредственно обоб- обобщается на многомерный случай. Если вектор выборочного сред- среднего значения и ковариация S/, m 1-й и /я-й компонент элементов выборки независимы, то, рассуждая так же, как при выводе A5.82), будем иметь где ср — х. ф. исходного распределения, и индексы указывают на номера тех переменных, по которым производится дифференци- дифференцирование. Так как A5.87) справедливо для всех /, т=1, 2, ..., р, то мы имеем систему дифференциальных уравнений с частными производными; ее матричная форма, аналогичная A5.83), имеет вид -м-~лГ~ 1°ёФ ) — — v- A5.88) *) Кавата и Сакамото (Kawata, Sakamoto, 1949, Jour. Math. Soc. Japan 1, 111) показали, что даже требование конечности дисперсии можно ослабить.
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 503 Дважды интегрируя A5.88) и используя начальные условия, по- получаем т. е. ф — х.ф. многомерного нормального распределения. 15.25 Известны и другие интересные и важные характериза- ции нормального распределения. Например, в главе 11 при обсуждении геометрического метода отыскания выборочных рас- распределений мы видели, что плотность распределения независи- независимых наблюдений из генеральной совокупности с нормирован- нормированным одномерным нормальным распределением постоянна на сфере 2x2 = conSt> поскольку она зависит только от 2 х* Возникает вопрос, нет ли других распределений, обладающих этим свойством. Следующее рассуждение, принадлежащее Барт- летту A934), показывает, что других таких распределений пет. Пусть плотность распределения выборки L выражается фор- формулой 8)- A5-89> Тогда все точки сферы с уравнением 2*? = const < являются точками условного экстремума функции L, а следова- следовательно, и log L. Поэтому l) + **i = ° (для всех /), A5.90) где К/2 — множитель Лагранжа. Интегрируя, получаем 2 log/(*/) = — \Kx\-\-ki, т. е. A5.91) Таким образом, A5.89) характеризует нормальное распреде- распределение. 15.26 Это рассуждение непосредственно обобщается на мно- многомерный случай. Вместо одного вектора длины B х2) в р-мерном случае нужно рассматривать р векторов. Если плот- плотность зависит только от квадратов длин этих векторов (от сумм квадратов) и углов между ними, то распределение должно быть
504 ГЛАВА 15 нормальным. В самом деле, пусть xt есть (рХ 1)-вектор *), являющийся (-м наблюдением случайного р-мерного вектора, и X' есть (рХ/г)-матрица, образованная этими наблюдениями. Суммы квадратов и произведений являются элементами мат- риць? Х'Х. Согласно предположению имеем l = Uf(xi)ocg(X'X). A5.92) i Аналогично одномерному случаю, дифференцируя логарифм и вводя (рХр)-матрицу Л, очевидным образом связанную с мно- множителями Лагранжа, получим di = 0 (Для всех /). Следовательно, так что A5.92) характеризует многомерное нормальное распре- распределение. 15.27 Мы приведем еще одну характеризацию нормального распределения, которая проясняет, почему нормальное распреде- распределение занимает исключительно важное место в статистике. В при- примерах 11.2 и 11.3 мы видели, что ^независимые случайные вели- величины с одинаковым нормированным нормальным распределением ортогональным преобразованием переводятся в независимые величины с тем же распределением. В этом пункте мы дока- докажем, что если X—вектор, имеющий (не обязательно одинаково распределенные) независимые нормированные компоненты с ко- конечными семиинвариантами, и если нетривиальное**) преобра- преобразование х^= Су A5.93) приводит к вектору у с независимыми нормированными компо- компонентами, то каждая из компонент х,- (а следовательно, и г/,) нормальна и преобразование С ортогонально. Этот результат впервые был получен Лэнкастером A954). Ортогональность С получается сразу, поскольку в силу нор- мированности и независимости компонент Sc)y=l 05-94) *) Эти новые векторы, конечно, отличны по характеру от только что рассматривавшихся (п X 1)-вскторов (наблюдений) одномерных случайных величин. **) Имеется в виду, что преобразование С не является перестановкой. (Прим. перев.)
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 505 2<^,. = 0 AФк), A5.95) а A5.94) вместе с A5.95) и есть условие ортогональности. Сле- Следовательно, С' = С~1 и у = С'х. A5.96) Так как величины г/* независимы, то согласно A5.93) и^ = 2с,?А* (Для всех s), A5.97) k где Ksi есть s-й семиинвариант величины х{ и A,sS, есть s-n семи- семиинвариант величины yh. Обратно, согласно A5.96) )s\j (для всех s). A5.98) Комбинируя A5.97) и A5.98), получаем «5,- = 2 >tiy 2 с«с% (для всех s). A5.99) 2 tiy При s=l, 2 соотношение A5.99) сводится соответственно к ин = 0, Х2г = 1, как это и должно быть для нормированных слу- случайных величин. Далее, 2 Ъс1кс]к <Щ\с1к\\с,к\. A5.Ю0) В силу A5.94) из A5.100) при s^-З вытекает, что 2 S с»й€-й <1. A5.101) Из A5.99) следует, очевидно, неравенство A5.102) В правой части A5.102) стоит взвешенная сумма модулей ixSj|, причем согласно A5.101) сумма весов меньше единицы. Если при фиксированном s взять то значение /, при котором \nSi\ мак- максимален, то из A5.102) будет следовать, mo\nsi\=0, так что все Xsi — О. Это верно при всех s>3, т. е. Ks; = 0 (при всех s>3), и поэтому все хг нормальны. Из нормальности хг вытекает и нормальность yt. Лукач (Lukacs, 1956, Proc. Third Berkeley Sytnpos, 2, 195) опубликовал общий обзор методов и результатов, касающихся характеризаций нормального распределения. Лэнкастер (Lan- (Lancaster, 1960, /. Austral. Math. Soc. 1, 368) дал обзор характери-
¦506 ГЛАВА 15 заций нормального распределения свойствами независимости; им показано, в частности, что эти свойства обеспечивают суще- существование всех моментов, так что предполагать их наличие из- излишне *). УПРАЖНЕНИЯ 15.1 Показать, что условное распределение, получающееся из многомер- многомерного нормального распределения при фиксировании некоторых координат, тоже является многомерным нормальным распределением и что вектор сред- среднего значения условного распределения является функцией от фиксированных координат, а матрица, обратная к матрице его вторых моментов, совпадает с отвечающей ей частью соответствующей матрицы исходного распределения. 15.2 Трехмерное (не обязательно нормальное) распределение имеет ко- коэффициенты корреляции р12, Р|з, Р2з- Показать, что 1 -|- 2р12р,зР2з -^" Pi2 "~г" + Р13 + РЮ- 15.3 Показать, что все коэффициенты корреляции р-мерного распределе- распределения могут быть равны одному и тому же числу р тогда н только тогда, когда р>— \/(р— 1). 15.4 Показать, что плотность многомерного нормального распределения удовлетворяет системе уравнений df = д2! dpij dxi dxj ' где ри — коэффициент корреляции величин хг и xj. 15.5 Рассмотреть двумерное нормальное распределение с независимыми компонентами и показать, что 1 i Г Bя)" ехр (— i- tA dt < {1 — exp (— 2х2/л (Ошибка от замены неравенства знаком равенства всегда меньше 0,75%). (Уилльямс, 1946.) 15.6 Рассматривая площадь подходящего сферического треугольника, вы- вывести формулу A5.32) для вероятности того, что все координаты в случае трехмерного нормального распределения с нулевым вектором средних и еди- единичными дисперсиями положительны. 15.7 Производятся выстрелы по круговой цели радиуса единица, поста- поставленной вертикально. Горизонтальные и вертикальные отклонения попаданий от центра цели имеют двумерное нормальное распределение, их средние равны нулю, дисперсии равны v и коэффициент корреляции равен р. Пока- Показать, что вероятность поражения цели равна I Ир г>2\2 Г Г ' ( г, П (JU f Г, ( и М J [1—ехр{— 2г,A__р2> [J- м{р2 —A-иJ}2 *) О характеризации см. также: Ю. В. Лииник A960), Разложения вероятностных законов, Л.. Изд-во ЛГУ; А. А. Зингер, Ю. В. Л и и и и к A964), Теория вероят. и ее примен. IX. 692; Ю. В. Прохоров A965), Теория вероят. и ее примен. X, 479. (Прим. ред.)
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 507 15.8 Случайные величины хну имеют невырожденное двумерное нор- нормальное распределение. Показать, что величины х2+2аху+у2 и х*+2Ьху+у2 могут быть независимыми только тогда, когда а и 6 равны по абсолютной величине единице и имеют противоположные знаки. 15.9 Рассматривается р-мерное нормальное распределение, у которого все коэффициенты корреляции равны 1/2. Используя вспомогательную последо- последовательность (р+1) независимых нормированных нормально распределенных величин, показать, что относительно рассматриваемого распределения все компоненты превосходят одновременно их математическое ожидание с ве- вероятностью 1/(р+1). (Фостер и Стьюарт, 1954.) 15.10 Если в предыдущем упражнении вместо равенства всех коэффи- коэффициентов корреляции 1/2 потребовать, чтобы матрица рассеяния имела вид. 1 " . . . 0 0 0 . . . о 1 1 2 0 0 2 1 1 ~2 0 0 1 2 1 1 2 0 0 1 2 1 о 1 то вероятность, о которой там шла речь, будет равна 1/(р+1)!. 15.11 Показать, что в случае многомерного нормального распределения- с матрицей К, равной матрице V предыдущего упражнения, все компоненты не превосходят их математических ожиданий с вероятностью 1/(р+1). (Энис и Ллойд, 1953.) 15.12 Рассматривая разности yt=Xi — 6,-лс0, где х< — независимые норми- нормированные нормально распределенные случайные величины с плотностью /, показать, что при многомерном нормальном распределении с коэффициентами корреляции рц=п1сцAф i) все компоненты положительны с вероятностью, равной \dt i b.x f (x) dx, где 6,.=ai/(l-a?J. 15.13 Если x имеет многомерное нормальное распределение со средним № и матрицей рассеяния V, то квадратичная и линейная формы х'Ах и Ь'х не- независимы тогда и только тогда, когда AVb—0. (Эйткин, 1950.)
508 ГЛАВА 15 15.14 Если в предыдущем упражнении предположить, что матрица V иевырождена и имеет ранг р, то квадратичная форма х' Ах имеет распреде; ление х2 с s степенями свободы тогда и только тогда, когда матрица (К — А) имеет ранг р — s. 15.15 Если квадратичные формы х'Ах и х'Вх имеют распределение х2 с т п я(>/я) степенями свободы соответственно, то для того, чтобы одна из них была частью другой, необходимо и достаточно, чтобы их коэффициент корреляции был равен (/) (Лэнкастер, 1954.) 15.16 Модифицируя рассуждения 15.18, показать, что если квадратичная форма Qi имеет распределение х2 с ri степенями свободы, а квадратичная форма (х'/х—Qt) неотрицательно определена, то они независимы и (дс IX—Qi) имеет х2"РаспРеДелсние с (Р — г0 степенями свободы. (Хогг н Крэйг (Hogg, Craig), 1958, Ann. Math. Stat. 29, 608.) 15.17 Пусть вектор х имеет многомерное нормальное распределение со ft средним 0 и матрицей рассеяния V и пусть 2 х'А{Х = х'Ах, нри- ( = ! чем матрица AV пдемпотентна. Показать, что любое из условий (а), (б), (в) из 15.16 н здесь мечет два остальных. В данном случае (б) равносильно также идемпотентности всех матриц A(V', а (в)—выполнению соотношения AiVAj = 0 для всех 1ф\. 15.18 Случайные величины имеют двумерное нормальное распределение с нулевыми средними, единичными дисперсиями и коэффициентом корреля- корреляции р. Показать, что условное распределение х и у при условии ах+Ьу=0 есть одномерное нормальное распределение со средним нуль и дисперсией 15.19 Случайные величины х\, х2, ..., хп имеют многомерное нормальное распределение. Ковариацию величии Xt и Xj обозначим с,-;. Показать, что ковариация Xi и X; при условии lfXl + l2x2+ ... +/nxn = const равна С; г k m 15.20 Пусть случайные величины х и у имеют двумерное нормальное рас- распределение с нулевыми средними. Образуем новые случайные величины Х\ и уъ положив xi=x, y\—y, когда х \\ у обе положительны или обе отрица- отрицательны, и Jti=—х, у\=у, когда хну имеют разный знак. Показать, что каждая из величин a'i, yt распределена нормально, но их совместное распре- распределение отлично от нормального. Обобщая этот результат, показать, что среди п случайных величин любые р<п могут иметь совместное нормальное распределение, в то время как совместное распределение всех п величин от- отлично от нормального. 15.21 В примере 15.3 было установлено, что сумма Zj "^ ^~ имеет распределение х2 с (k — 1) степенями свободы. Получить этот резуль- результат, используя упражнение 15.19. (Рассмотреть условное распределение k
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 509 независимых распределенных по Пуассону случайных величин при условии к ?i -1 /-1 15.22 Случайные величины Xi, ..., Xk независимы и имеют каждая (не обязательно одинаковое) гамма-распределение. Пользуясь характеристиче- характеристическими функциями, показать, что любая безразмерная функция от этих ве- k личин h(Xj, ..., Xk) не зависит от S=^ix-l, В частности, это верно для i-i (Питмэн (Pitman), A937), Proc. Camb, Phil. Soc. 33, 212. Лаха (Laha), A954), Ann. Math. Statist. 25, 784, доказал обрат- обратное утверждение: если независимые одина- одинаково распределенные случайные величины Хг имеют конечную дисперсию, то из неза- независимости R и S следует, что Х{ имеют гамма-распределение.)
ГЛАВА 16 РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 16.1 В предшествующих главах мы не раз встречались с рас- распределениями, связанными с нормальным. Важность этих рас- распределений для статистической теории обусловлена тем, что они описывают выборочные распределения различных статистик сг результатов наблюдений, взятых из нормальной совокупности. То специальное положение, которое в силу Центральной пре- предельной теоремы в той или иной ее форме занимает нормальное распределение, объясняет и важную роль распределений, свя- связанных с нормальными. Всякий раз, когда некоторая статистика (при соответствующих условиях регулярности) имеет асимпто- асимптотически нормальное выборочное распределение, существуют ста- статистики, асимптотическое распределение которых совпадает с некоторым распределением, связанным с нормальными. Мы уже встречались с этим обстоятельством в примере 15.3, когда речь шла о критерии согласия х2- В этой главе рассматриваются три важных распределения, связанных с одномерным нормальным распределением. Это ^-распределение, /-распределение Стьюдента и ^-распределение Фишера. Каждое из них детально изучается с подробным опи- описанием специфических их свойств. В конце главы обсуждаются распределения, возникающие в связи с двумерным нормальным распределением. Распределение /2 16.2 Мы уже видели (пример 11.6), что сумма г квадратов п независимых нормированных нормальных случайных величин имеет распределение ехр(— \z\z^H'Xdz, 0<2<oo. A6.1) ] ч И
РАСПРЕДЕЛЕНИЯ. СВЯЗАННЫЕ С НОРМАЛЬНЫМ; 511 Если при этом мы предположим, что эти случайные величины подчинены р линейным соотношениям (/?<«), то распределение величины z будет даваться той же самой формулой A6.1), где вместо п надо подставить п — р. Далее, мы также видели (при- (пример 11.7), что если сумма квадратов берется относительно сред- среднего выборки, а не истинного среднего, то это накладывает одно линейное условие, т. е. распределение z в этом случае таково, что вместо п в A6.1) надо подставить п— 1. Распределение A6.1) называется ^-распределением с п сте- степенями свободы. Если мы положим z=%2 и ra = v, то получим %~'йD-Х2). v>0, 0<x2<oo, 2' A6.2) откуда сразу видно, что -к-х2 имеет Г-распределенпе с парамет- параметром — V. Распределение A6.2) является распределением Пир- Пирсона III типа. До сих пор мы рассматривали распределения типа A6.2) с целым положительным v, теперь же мы можем вос- воспользоваться тем фактом, что формула A6.2) задает распре- распределение и при любых положительных v, поскольку интеграл от плотности в A6.2) сходится. Дифференцируя A6.2), мы найдем, что для v>2, %2-распре- деление имеет моду в точке v — 2. Для v = 2 плотность распре- распределения J-образна с максимумом в нуле. При 0<v<2 плотность также J-образна с бесконечной ординатой в нуле. Свойства /^распределения 16.3 Характеристическую функцию х2 можно сразу получить из A6.1) (см. пример 3.6): Ц A6.3) откуда находим семиинварианты >tr = v2r-1C— 1)! 16.4) и центральные моменты ц2 = 2v, Н*з = 8v, - I2v2, = 40v Cv2 ¦+- 52v + 96). A6.5)
512 ГЛАВА 16 Поскольку семиинварианты хг линейны относительно v, то цг (который может содержать \к2 только в степени, не превышаю- превышающей -к- по v должен иметь степень hr , т. е. -j, если г четно, и -к {г — I), если г нечетно. Когда v стремится к бесконечности, ^-распределение стре- стремится к нормальному, поскольку после нормировки имеем lit Это стремление, однако, очень медленное и существуют лучшие аппроксимации, с которыми мы скоро познакомимся. 16.4 Функция распределения A6.2) есть неполная Г-функция. Мы имеем или в обозначениях таблиц Пирсона 1 . 1 Существует много различных таблиц распределений %2. Ука- Укажем на те из них, которые наиболее употребительны и просты в работе *): (а) Пирсон и Хартли A950) дали таблицы функции распре- распределения х2 Для v= 1AJ0BO0 и х2 = 0,001 @,001H,01 @,01) 0,1@,1J,0@,2I0@,5J0AL0BO0. Эти таблицы полностью воспроизведены в Biometrika Tables. (б) Томпсон A941) создала (обратные) таблицы процентных точек распределения (т. е. таблицы таких величин %2> которые соответствуют значениям функции распределения, равным 1—Р) для Р = 0,995, 0,990, 0,975, 0,950, 0,900, 0,750, 0,500, 0, 250, 0,100, 0,050, 0,025, 0,010, 0,005 и v= 1 AK0A0) 100. Эти таблицы при- *) Этим требованиям удовлетворяют также таблицы зс2"РаспРаделення в книгах: Таблицы математической статистики и Сборник статистических таблиц. (Прим. ред.)
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 513 ведены в Biometrika Tables с дополнительными значениями для Р = 0,001. (в) Фишер и Иэйтс A953) дали обратные таблицы для Р = 0,99, 0,98, 0,95 0,90@,10H,10, 0,05, 0,02, 0,01, 0,001 и v = = 1AK0. Часть этих таблиц приведена в приложении (таб- (таблица 3). (г) Таблицы, созданные Юл ом, приведены в приложении (таблица 4а). В них даются значения Р для v = l, х2==0@,01) 1@,1I0. 16.5 Наиболее употребительны следующие две аппроксима- аппроксимации распределения %2, каждая из которых состоит в подборе подходящей функции от х2 такой, чтобы ее распределение было ближе к нормальному, чем само х2-распределение. (а) Фишеровская аппроксимация основана на том, что слу- случайная величина V^X2 распределена приближенно нормаль- нормально со средним ]/v—1 и единичной дисперсией. (б) Аппроксимация Уилсона и Хилферти A931) основана на том, что (х2А')'/з распределена приближенно нормально со средним 1 — 2/(9v) и дисперсией 2/(9v). Вторая из этих аппроксимаций более точна, но зато требует больше вычислительной работы. 16.6 Сравнение скорости приближения распределений ста- статистик х2 и У^2х2 к нормальному можно провести следующим образом. Для х2 из A6.5) имеем Y. = /РГ= (8/vI/2, I | Для моментов х получаем К= lv_21 J«"V'lr~1rfx= ~п~\—• A6-7) Тем самым Используя формулу Стирлинга logr(jc t- 1) — 12х ~ 3601з- "f О \-jp] , 33 М. Кенлалл. А. Стьюаот
514 ГЛАВА 16 после соответствующих преобразований мы найдем, что откуда Аналогично ^ = (v + 2)v, откуда для центральных моментов получаем формулы: 2 8v ^ U/ 4/ 3 3 , Следовательно, моменты V^x2 имеют вид Сравнение A6.8) с A6.6) показывает, что распределение стремится к нормальному со значительно большей скоростью, чем для %2. Кроме того, выражение для \х.[ случайной вели- величины х равно 1/ v — -я с точностью до величин порядка v~3/2. Следовательно, 1^2х2 распределена относительно среднего \/^2v — 1 (с точностью до величин порядка v~s/0 с дисперсией, ко- которая с точностью до v равна единице. 16.7 Для получения аппроксимации Уилсона — Хилферти рас- рассмотрим распределение х2 относительно его среднего значения v. (у2 \^ -М , где h — пока неопределенная константа. Запишем ? = х2 — v. Тогда
РАСПРЕДЕЛЕНИЯ. СВЯЗАННЫЕ С НОРМАЛЬНЫМ О И Беря математическое ожидание и используя результаты A6.5), после ряда преобразований получим Г ( 6v3 -I-WIV ). A6.10) Если в A6.9) мы положим rh вместо h и найдем среднее значе- значение для уг, то получим 4 00-1 +Г*(Г*-1Ч+- (шли Выберем h так, чтобы третий член в A6.10) обращался в нуль. Для этого надо взять h=-^. Тогда из A6.10) и A6.11) на- находим ^ (У) = откуда 2 (У) = 1 - -^ + W ^ А (У) = 1. 104 , . _4Ч A6.12) 16 A6.13) Сравнение коэффициентов асимметрии в A6.13), A6.6) и A6.8) показывает, что распределение (x2/v)'/s стремится к сим- симметричному более быстро, чем х2 и \^2х2. С точностью до чле- членов порядка v~2 дисперсия согласно A6.12) равча 2/9v и среднее равно 1—-д^. Этот результат можно переформулировать, ска- сказав, что случайная величина \1'3 9 1 /О„ч1/2 33*
516 ГЛАВА !в распределена приближенно нормально с нулевым средним и еди- единичной дисперсией. 16.8 Следующая таблица, заимствованная у Гарвуда A936), дает представление об этих двух аппроксимациях на конкретных числовых примерах. В каждом случае вычислялись значения •g-X2> соответствующие значениям Р— J с?/7 = 0,01, 0,05, 0,95 и 0,99, В таблице приняты следующие обозначения: тт — точ- точное значение -^ Хг при заданных Р и v; mF — аппроксима- аппроксимация Фишера; mw—аппроксимация Уилсопа и Хилферти. Таблица 16.1 Сравнение аппроксимаций интеграла х2 (Гарвул A936)) Р = 0,99 Р = 0,95 Р = 0,05 Р = 0,01 V 40 60 80 100 40 60 80 100 42 62 82 102 42 62 82 102 11,082 18,742 26,770 35,032 13,255 21,594 30,196 38,965 29,062 40,691 52,069 63,287 33,103 45,401 57,347 69,067 mf. 10,764 18,414 26,436 34,094 13,116 21,455 30,056 38,825 28,919 40,598 51,926 63,144 32,700 45,003 56,953 68,676 mj-— mp 0,318 0,328 0,334 0,338 0,139 0,139 0,140 0,140 0,143 0,143 0,143 0,143 0,403 0,398 0,394 0,391 11,070 18,732 26,761 35,025 13,254 21,594 30,196 38,965 29,060 40,689 52,068 63,286 33,113 45,409 57,355 69,074 /я j— m^ 0,012 0,010 0,009 0,007 0,001 0,000 0,000 0,000 0,002 0,002 0,001 0,001 —0,010 —0,008 —0,008 —0,007 Очевидно, что аппроксимация m№ очень хороша, тогда как только несколько хуже.
РАСПРЕДЕЛЕНИЯ. СВЯЗАННЫЕ С НОРМАЛЬНЫМ 517 Слуцкий A950) табулировал*) распределение %2 с пятью десятичными знаками, используя нормальную аппроксимацию для {l/^x2 —V^2v }, где Y%h изменяется от 0 до 0,25, т. е. для значений 32<л><оо. 16.9 Третий метод аппроксимации может быть получен на основании методов 6.25 и 6.26 и пример 6.4 был, по существу, по- посвящен аппроксимации распределения х2- Взяв в уравнении F.48) / _ / _ n / _ ь _ п / 8 /_ь_12 /_ ^V" / _ 480 П — '2—¦ u> '3 — *з — у — , l4 — «4 — , t5 — -щ- , <g —- g~ > с помощью F.54) или F.56) убеждаемся, что рассмотренное преобразование случайной величины х2 имеет распределение, близкое к нормальному. Стьюдентовское /-распределение 16.10 В примере 11.8 мы видели, что в нормальном случае отношение разности между средним выборки и истинным сред- средним к оценке ее стандартной ошибки яется распределен торого выражается формулой где S2= n_t— подчиняется распределению, элемент ко- ко(V+1>} v>0, -oo<*<oo. A6.15) Как и раньше, мы используем v для обозначения числа степе- степеней свободы, в данном случае равного п — 1. Происхождение этого термина нуждается в некотором объяснении. Мы видели (пример 11.7), что дисперсия нормальной вы- выборки распределена подобно сумме (п — 1) квадратов незави- независимых случайных величин. И вообще, если имеется k линейных соотношений, связывающих исходные случайные величины, то сумма их квадратов распределена как сумма (п — к) квадратов *) Принцип построения таблиц зС2-РаспРеДеления, предложенный Е. Е. Слуцким, послужил основой при создании соответствующего раздела в сборнике Таблицы математической статистики. Этот принцип позволил та- табулировать зс2"РасгФсДеле"|1е во всей его естественной области определения. (Прим. ред.) 34 М. Кендалл, А. Стьюарт
518 ГЛАВА 16 независимых нормированных нормальных величин. Каждое ли- линейное соотношение, связывающее величины хи ..., хп, снижает размерность области значений вектора (хи ..., хп) на единицу. Естественно поэтому говорить, что случайная величина типа х2 имеет v степеней свободы, если ее распределение совпадает с распределением суммы v квадратов независимых нормирован- нормированных случайных величин. Статистика t зависит от параметра v весьма простым и удоб- удобным для табулирования образом. Кроме того, v является числом степеней свободы статистики s2, входящей в знаменатель t. По- Поэтому, распространяя предыдущую терминологию, v можно на- назвать числом степеней свободы статистики t. Распределение A6.15) является распределением Пирсона VII типа. Оно, оче- очевидно, симметрично относительно начала, унимодально и прости- простирается до бесконечности в обе стороны. Обычно его называют ^-распределением Стьюдента. (Стьюдепт — псевдоним англий- английского статистика У. С. Госсета, первооткрывателя этого распре- распределения.) Из того факта, что выборочная стандартная ошибка при уве- увеличении объема выборки сходится по вероятности к истинной ошибке, ясно, что распределение A6.15) должно стремиться с ростом v к нормированному нормальному распределению, так как среднее нормальной выборки распределено нормально (при- (пример 11.12). Ср. с примером 4.8. Свойства /-распределения Стьюдента 16.11 Характеристическая функция этого распределения изу- изучалась в примере 3.13, где в соответствии с новыми обозначе- обозначениями надо положить щ = -^(\-\-1). Моменты цг этого рас- распределения существуют только для r<v, причем нечетные мо- моменты равны нулю, а четные моменты выражаются формулой (пример 3.3) Функция распределения статистики t может быть получена по таблицам бета-функции, если в A6.15) сделать преобразование
РАСПРЕДЕЛЕНИЯ. СВЯЗАННЫЕ С НОРМАЛЬНЫМ 519 Имеем откуда 2/7-1=.- 2 ^ ! d< i Следовательно, /^l-i/^J, i). A6.17) Значения аргумента |, для которого / принимает значения 0,50, 0,25, 0,10, 0,05, 0,025, 0,01, 0,005 и v=l AK0,40,60,120,оо, даны с пятью значащими цифрами (Томпсон и др. A941)) и могут, следовательно, использоваться для отыскания значений t, отве- отвечающих этим уровням вероятностей. Эти таблицы*) воспроиз- воспроизведены в Biometrika Tables. 16.12 Однако за исключением специальных случаев исполь- использование В-функции вовсе не обязательно, поскольку имеются как асимптотическое разложение функции распределения самой ста- статистики t, так и таблицы, основанные на этом разложении. Мы имеем и, следовательно, *) Эти таблицы полностью воспроизведены в сборнике Таблицы матема- математической статистики с добавлением двух новых уровней /=0,001 и 0,0025. (Прим. ред.)
520 ГЛАВА 16 Далее, из разложения logr(l+x) находим V [ — ~~ 17 + "94^3" "9fW5" • • • A6.19) rij. ..» r v , 4v ~ 24v3 20v5 • " log Когда v —»¦ со, распределение t сходится к распределению норми- нормированной нормальной случайной величины, что, впрочем, мы уже видели раньше. Записывая y=7irexp(—И1 A6-20) мы можем воспользоваться A6.18), A6.19) и A6.20) для разло- разложения логарифма плотности A6.15) по убывающим степеням v: Беря экспоненту от A6.21) и интегрируя от t до оо, найдем — 375г'12+2225г[10—214И8 —939/6 —+ A6.22) Выражение A6.22) дано Фишером. Впрочем, оно было исполь- использовано самим Стьюдентом для вычисления функции распреде- распределения статистики t. Для значений v^-20 первые четыре члена в A6.22) дают значения F с максимальной ошибкой 0,000005. 16.13 Существует ряд таблиц ^-распределения. Наиболее рас- распространены следующие из них: (а) Уже упоминавшиеся таблицы Стьюдента — Фишера для функции распределения. В них даются значения ф. р. для / = 0@,1N и v=l(lJ0. (б) Таблицы функции распределения, содержащиеся в Bio- metrika Tables, дают значения ф. р. для ^ = 0@,1)8 и v= 1 AJ4; 30; 40; 60; 120; со. (в) Фишер и Иэйтс A953) создали (обратные) таблицы для квантилей распределения, т. е. для значений t, соответствующих таким значениям функции распределения, которые удовлетво- удовлетворяют соотношениям 2A — F) =0,9@,1H,1; 0,05; 0,02; 0,01; 0,001 для v= 1AK0; 40; 60; 120; оо. Эти таблицы приведены в прило- приложении (таблица 5).
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 621 (г) Уже упоминавшиеся выше в 16.11 обратные таблицы Томпсон. (д) Болдуин A946) дал обратные таблицы для 2A—F) = =0,05; 0,01 и v= 1AK0B) 100. (е) Федериги (Federighi, 1959, J. Atner. Statist. Ass. 54, 683) дал обратные таблицы для 20 значений 1 —F в интервале ме- между 0,25 и 0,0000001 при v=l AK0EN0A0) 100; 200; 500; 1000; 2000; 10 000; оо. (ж) Смирнов A960, Таблицы функций распределения и плотностей распределения Стьюдента (под ред. Н. В. Смир- Смирнова), М., Изд-во АН СССР) табулировал ф. р. и ф. п. с шестью десятичными знаками для / = 0@,01K@,02L,5@,05N,5 и v = = 1AI2, а также для / = 0@,01J,5@,02K,5@,05N,5 и v = = 13AJ5. Кроме того, там же даны таблицы ф. р. для t = = 0@,01J,5@,02K,5@,05M и v = 25(lK5. Имеются вспомога- вспомогательные таблицы для больших значений / и v. Обратные таб- таблицы *) содержат квантили распределения Стьюдента, соответ- соответствующие вероятностям 2A—Р)=0,4; 0,25; 0,10; 0,05; 0,01; 0,005; 0,0025; 0,001; 0,0005 и количествам степеней свободы v=l AK0A0) 100, 120, 150E0M00 и т. д. 16.14 Заканчивая изложение материала, посвященного /-рас- /-распределению, отметим, что во многих приложениях интерес пред- представляет не само /-распределение, а распределение для /2. Ко- Конечно, переход от t к /2 в A6.15) не представляет трудностей. Оказывается, однако, что распределение для /2 есть просто спе- специальный случай более общих распределений, связанных с нор- нормальным, так называемых F- или z-распределепий Фишера, иг- играющих, как и распределения %2 и /, важную роль в статисти- статистической теории. К их исследованию мы сейчас и переходим. F- и «-распределения Фишера 16.15 При обсуждении распределения отношений мы видели (пример 11.20), что в случае независимых нормальных выборок с одинаковыми дисперсиями, взятых из двух генеральных сово- совокупностей, выборочное распределение для отношения A6.23) *) В таблице квантилей имеются ошибки. Исправленная таблица кван- квантилей /-распределения опубликована в сборнике Таблицы математической ста- статистика, с помощью которого можно находить значения ф. р. с пятью деся- десятичными знаками и квантили с четырьмя десятичными знаками при всех степенях свободы. (Прим. ред.)
522 глава 16 выражается формулой - V, -^ v2 -5- (vi-2) v,2 v,2 F2 dF dG = J 1 j , v,, v2>0, 0</7<oo, (+) A6.24) где vi = «i — 1, V2 = «2 — 1, как и раньше, — числа «степеней сво- свободы». Сравнивая A6.24) с A6.15), мы замечаем, что если положить vi = 1 и V2=v, то A6.24) становится идентичным с элементом распределения t2, получаемым немедленно из A6.15). Как можно видеть в примере 11.20, при выводе распределения A6.24) был использован лишь тот факт, что 2(-*и— xifl2i(x2j — хгJ яв- i I ляется отношением двух независимых величин %2 с vi и v2 сте- степенями свободы для числителя и знаменателя соответственно. Отсюда следует, что формула A6.24) справедлива для любого отношения такого типа. Например, возвращаясь к A6.23), пред- предположим, что нормальные совокупности имеют различные дис- 2 2 2 Персии, скажем а\ и 02. Тогда сразу получим, что —F, где F ai задается формулой A6.23), имеет распределение A6.24), ибо для каждой выборки величина 2(*w— xpf/o2p, p = \, 2, i подчиняется %2-РаспРеДелению> поскольку стандартное отклоне- отклонение является масштабным множителем. 16.16 При рассмотрении примера 11.20 мы ввели величину A6.25) распределение которой немедленно получается из A6.24): f'f ^Щ(.6.26) ff. ^Щ B\2Vi> JV4 (vi ехРBг) + V2}-g- (vi + v2) Vj, v2 > 0, —oo-<2-<oo. Именно в такой форме Р. А. Фишером и было получено первона- первоначально распределение для отношения дисперсий. В современной
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 523 практике предпочитают использовать более простую статис- статистику F, хотя распределение статистики г было табулировано раньше и первоначальные исследования относились к z-стати- стике, а не к F. Свойства F- и ^-распределений 16.17 Функция распределения статистики F сосредоточена на полупрямой @, оо), и при vi<2 плотность этого распределения имеет J-образную форму. Для случая vi>2 — это одновершин- одновершинное асимметричное распределение с модальным значением J A6.27) Непосредственно из A6.24) легко вывести, что среднее и диспер- дисперсия F выражаются формулами (v8-2)«(va-4)}. v2>4. [ Vb'M) Условия, налагаемые на V2, обеспечивают существование этих моментов. Сравнение A6.27) и A6.28) показывает, что для vb V2>2 ^-распределение всегда имеет модальное значение, меньшее .F=l, и среднее значение, большее F=l. Отсюда следует, что при этих условиях распределение имеет «положительную» асим- асимметрию, в других же случаях это очевидно. 16.18 Характеристическая функция статистики z пропорцио- пропорциональна Г° где Q = it, и поэтому 2 Поэтому, беря логарифмы и используя разложение Стирлинга logr(l+x) = 4log2.T+(x + |)logx из A6 29) найдем для больших vi и V2, что
524 глава 16 Для больших vi и \'2 статистика г распределена приблизительно нормально с моментами ?) И*Ч) ом.) 16.19 Значение функции распределения для F (или z) можно получить из таблиц неполной В-функции, используя формулу A6.24) и преобразование Мы можем тогда поступить точно так же, как и в 16.11 с соот- соотношением A6.17) (нужно, конечно, помнить, что в A6.17) в ле- левой части обозначение F относится к значениям функции рас- распределения, а не к самим значениям случайной величины). Од- Однако существуют специальные таблицы функций распределения для F, что в обычных применениях делает указанную процедуру вовсе не обязательной. В силу того, что имеется два количества «степеней свободы», таблицы для F имеют три входа. Поэтому удобнее использовать менее громоздкие обратные таблицы квантилей распределения. Такие таблицы создали: (а) Фишер и Иэйтс A953); в таблицах содержатся значе- значения F (иг), отвечающие значениям A—Р) функции распре- распределения для Р = 0,20; 0,10; 0,05; 0,01; 0,001; vt= 1AN; 8; 12; 24; оо и v2= 1AK0; 40; 60; 120; оо. (б) Меррингтон и Томпсон A943); эти таблицы*) также по- помещены в Biometrika Tables. В них приведены значения аргу- аргумента F, отвечающие таким значениям A—Р) функции рас- распределения, для которых Р=0,50; 0,25; 0,10; 0,05; 0,025; 0,01; 0,005; 0,001; vi = l(lI0; 12; 15; 20; 24; 30; 40; 60; 120; оо и v2= 1AK0; 40; 60; 120; оо. 16.20 Как это легко видно из определения F как отношения, мы можем поменять числитель и знаменатель местами и полу- получить распределение той же самой формы, но с заменой vi на V2 и v2 на vi. Это можно доказать, сделав преобразование F~lfy в A6.24). В терминах функции распределения GVl, v2(^) для статистики F это означает, что D) A6.32) *}, Эти таблицы полностью воспроизведены в сборнике Таблицы матема- математической статистики с исправлением ошибок и с добавлением еще одного уровня Р=0,0005. (Прим. ред.)
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 525 В силу взаимно однозначного соответствия между F н г и того, что log-p- = — log/7, A6.32) эквивалентно соотношению //Vl,V2(z) = l-tfV2,Vl(—г). A6.33) Соотношения A6.32) и A6.33) делают необязательным табули- табулирование этих распределений для всех значений г. В самом деле, если мы интересуемся значением функции распределения для F<1 (т. е. для отрицательных значений z), то мы можем обра- обратить отношение (т. е. поменять знак у г) и использовать указан- указанные соотношения для получения тех значений функции распре- распределения, которыми мы интересуемся. 16.21 Существуют различные аппроксимации для случаев, когда vi и V2 недостаточно велики для того, чтобы использова- использование нормального приближения было оправдано. (а) Аппроксимация Корниша и Фишера A937). Их метод — тот же, что и в 6.25, и связан с разложением в ряды Грама — Шарлье. Последовательным дифференцированием log ГA +х) мы можем найти производные ф(/) и получить семиинварианты для г. Полагая гг = — , г2 = —. найдем A6.34) откуда, полагая а = г1 + г2 и б = ri — г2, находим значения /, опре- определенные в 6.25 (т = 0, дисперсия=т>- о): т.д. После ряда преобразований найдем значение г, соответствую- соответствующее вероятности а (которая в свою очередь соответствует
526 ГЛАВА 16 нормальному отклонению |): (б) Аппроксимация Фишера и ее обобщение, данное Кокрэ- ном A940). Обозначая и vi и vj буквой п, из A6.35) с точ- точностью до величин порядка гг1!' получим Положим h — 2/o. Тогда Но Следовательно, если мы обозначим ^\ A6.37) то разность между правыми частями A6.37) и A6.36) при уело- t3 I Q вии, что А,== 7" . будет равна 144 Эта разность мала в силу большого знаменателя и множи- множителя 62=( ) . который мал, если vi и V2 не очень раз- различны между собой. Поэтому приближенно можно считать, что статистика г распределена как величина, определяемая соотно- соотношением A6.37). Значения X для различных значений ф. р. A—Р) таковы: 100% 40% 30% 20% 10% 5% 1% 0,1% Я 0,51 0,55 0,62 0,7.7 0,95 1,40 2,09
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 527 Для типичных значений Р правая часть A6.37) равна соответ- соответственно 20%: 5%: ¦ 1%: 0,1%: ^ л —л 3,0902 — 0,78436, — 1,2356, г —1,9256. A6.38) A6.39) A6.40) A6.41) Точность аппроксимации при vi = 24, v2 = 60 ясна из следующего сравнения: ЮОР % 20 1 0,1 Значения z из A6.37) 0,1337 0,3748 0,4966 Точные значения 0,1338 0,3746 0,4955 (в) Аппроксимация Полсона A942). Аппроксимация Уилсона и Хилферти для %2 (см. 16.7) показывает, что отношение 1—1 2 распределено примерно нормально со средним 1 — ^Г и дис- 2 si Персией -д—. Отношение —j- само есть отношение двух незави- v S2 симых величин, распределенных как x2/v, соответственно с V| и V2 степенями свободы. Далее, в силу теоремы Гири (упражне- 1.11) отношение —^ имеет нормированное нор- мальное распределение, где р2 — отношение s\/s22. Поэтому слу- случайную величину Л М V 9v V 9vJU2J Г 9v 9v, можно рассматривать как имеющую (приближенно) нормиро- нормированное нормальное распределение. Эта аппроксимация является
528 ГЛАВА 16 исключительно хорошей*). Следующая таблица дает точные и приближенные значения р2 при vi = 6, V2=12. 100P % 20 5 1 0,1 из A6.42) 1,72 3,00 4,85 8,58 Точные значения 1,72 3,00 4,82 8,38 16.22. Мы закончили изучение трех фундаментальных выбо- выборочных распределений, возникающих в связи с рассмотрением одномерного нормального распределения. Но прежде чем пере- переходить к двумерному нормальному распределению, приведем сводку основных свойств этих распределений, их соотношений между собой и с исходным нормальным распределением. A) Сумма квадратов п нормированных нормальных случай- случайных величин в случае, когда за начало отсчета берется истинное (или выборочное) среднее, имеет ^-распределение с п (или п — 1) степенями свободы. B) ^-распределение аппроксимируется нормальным (с рос- ростом числа степеней свободы). C) Отношение квадрата нормальной случайной величины с нулевым ередним к независимой от нее оценке ее дисперсии (предполагается, что эта оценка распределена как %2/v) имеет ^-распределение Стьюдента, а квадратный корень этого отно- отношения подчиняется /-распределению Стьюдента. D) Стьюдеитовское /-распределение стремится к нормиро- нормированному нормальному (с ростом числа степеней свободы). E) Отношение двух независимых случайных величин, каж- каждая из которых распределена как %2/v, имеет /''-распределение Фишера, а половина его логарифма имеет z-распределение. Рас- Распределение t2 является специальным случаем /•'-распределения, *) Не менее точная и, пожалуй, более простая аппроксимация указана в сборнике Таблицы математической статистики для случая vi „2 V* 2У v,+2v2-2-y-- 6(v,+2v2 — 2) где у есть 100Р%-ная точка хг-РаспРеДеления с v, степенями свободы. По этой формуле в данном примере получаются соответственно значения р2»1,72; 3,00; 4,82; 8,32. (Прим. ред.)
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 529 когда случайная величина в числителе имеет только одну сте- степень свободы, см. выше C) и A). F) Когда число степеней свободы и числителя и знамена- знаменателя увеличивается, F-распределение стремится к нормальному. G) Если только число степеней свободы знаменателя, V2, стремится к бесконечности, то распределение v\F стремится к ^-распределению с vi степенями свободы. Наличие указанных связен между распределениями часто позволяет использовать какие-то одни таблицы для многих раз- различных целей. Двумерное нормальное распределение 16.23 Мы видели (пример 15.1), что элемент нормального распределения двух случайных величин х и у может быть запи- записан в виде **** exp I 2 A - р2) ^ of аЛ ^ а2 ) ) к ' dP = 2яа,а2 A - р2I/2 где о2, о2 — дисперсии, ^ц — их ковариация и р = так называемый коэффициент корреляции между х и у. В A6.43) мы считали средние значения у случайных величин равными пулю. Это предположение упрощает многие выкладки без по- потери общности получаемых результатов. Переписывая показатель экспоненты в A6.43) как A6.45) мы видим из A6.44), что условное распределение х при заданном значении у является нормальным со средним и дисперсией A6.46) С помощью A6.45) аналогичный результат можно получить и для у при заданном х, если в A6.46) поменять местами х, у и индексы 1 и 2. Из A6.46) следует, что условное среднее значение каждой случайной величинь! при заданном значении другой есть линей- линейная функция от этого значения и что условная дисперсия по- постоянна и не зависит от этого значения. Этот факт выражают
530 ГЛАВА 16 словами: «Регрессия х на у (и г/ на х) линейна и гомоскеда- стична». В последующих главах (второй том) мы будем изучать тео- теорию корреляции и регрессии в деталях. В оставшихся пунктах этой главы мы остановимся на выводах распределений некото- некоторых статистик, определяемых по выборке из двумерной нормаль- нормальной совокупности. 16.24 Совместное распределение п независимых выборочных значений (хи У\), ..., (хп, Уп) из двумерной нормальной сово- совокупности со средними Hi и цг задается формулой A6.47) Показатель экспоненты в A6.47) может быть целиком выражен через пять параметров распределения Аг,, ц2, о2г о%, р\ и выбо- выборочные статистики x = — г = 1 2 {х — х) (г/ — A6.48) 1 Например, опуская множитель —2A— 2> п^и пеРвом члене в экспоненте A6.47), получим (Г) }2—^ {5Ж^-^}- A6-49) При этом смешанные произведения исчезают, поскольку S(^ — аг) = О. Другие два слагаемых в экспоненте могут быть преобразованы аналогичным образом. В целом получим выра- выражение
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 531 Сейчас мы найдем совместное распределение всех пяти ста- статистик, определенных формулами A6.48). Чтобы это сделать, мы должны подходящим образом преобразовать A6.47). С по- помощью A6.50) мы можем выразить коэффициент при диффе- дифференциалах в A6.47) через пять статистик и пять параметров. Рассмотрим теперь дифференциал в A6.47). Обобщая геометрический подход из главы 11, мы рассмотрим выборочное пространство п переменных для х и другое такое же пространство для у, пристроенное к первому. Выборочные точки изменяются в каждом из этих пространств, но не независимым образом. В самом деле, если Р представляет точку (хи ..., хп) в ^-пространстве, a Q — точку (уи ..., уп) в {/-пространстве и если О, и О2 есть точки (х, ..., х), (у, ..., у), тогда 2 (х -х) (у -~у) 2 <* - *) (У - »> г — ¦ (У- и поэтому г есть косинус угла 8 между РО\ и QO2; так что если Риг фиксированы, то Q меняется в таком конусе в про- пространстве у, который получен вращением O2Q так, чтобы его угол с QiP оставался постоянным. Как было показано в при- примере 11.7, дифференциальный элемент в х-пространстве пропор- пропорционален s" ds\d$. Для заданных г, у и s2 точка Q принадлежит (п — 2)-мерной поверхности, лежащей на гиперсфере размер- размерности (п — 1) с радиусом s2Vn и с центром в точке у. Но в силу того, что угол 8 фиксирован, точка Q в действительности принадлежит (п — 3)-мерной поверхности. Эта (п — 3)-мерная поверхность имеет радиус s2 Yn sin 8 и «толщину» s2 Yn d§ — s-> V~n dr „ ,, = 21/2-. Поэтому ее «объем» пропорционален т. е. пропорционален 5Г2A_г2)Т(П-4\ Тем самым для элемента объема можно записать формулу dv ее s?-2ds1 dxs%-2 (I — г2у ("~4) ds2 dydr cc ее 5»-2s«-2 dsl ds2 A - ry (") dr dxd~y. A6.51) Из A6.47), A6.50) и A6.51) следует, что элемент совмест- совместного распределения пяти случайных величин пропорционален
532 ГЛАВА 16 выражению , (y-ji2J 2A-Pa) [I el °ia2 4 A+411V A6-52) Этот фундаментальный результат был установлен Р. А. Фише- ром A915). 16.25 Отметим одно очень важное свойство A6.52). Это рас- распределение может быть факторизовано на две части: одну, со- содержащую только х и у, и другую, содержащую su s2 и г: а,а, 1и2 A6.53) и 2A—р2) la? Ola2 (^ j J X s?-2s»-2 A — г2)т (") ds, ds2 dr. A6.54) Тем самым для нормального случая средние значения выборки не зависят от дисперсий и ковариации выборки. Это свойство является характеристическим для многомерного нормального распределения, см. 15.24. Из A6.53) также видно, что сами средние значения нормаль- - °\ - 4 но распределены с М(ж) = |Л1, М(г/)=Ц2, Dx = —, D*/ = — (все эти результаты нам уже известны) и cov(x, у)*=2™., A6.55) it так что коэффициент корреляции между х и у равен р, т. е. он остается таким.же, как и у исходного распределения. Более об- общий результат приведен в упражнении 13.2. 16.26 Используем A6.54) для получения распределения коэф- коэффициента корреляции выборки интегрированием по s4 и s2 в пре- пределах от 0 до оо. Вычислим прежде всего нормирующий множи- множитель у распределения A6.54) из условия нормировки j dF = \.
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ Сделаем преобразование 533 .-4 ? 2A-р2)' 2A— s\ п 2A—р2) ,2\ * A6.56) Его якобиан равен 2s, n д (а, Ь, с) 2A-р2) О rs2 п ол 2A —f О 2A—Р2) О 2s, n о\ 2A—р2) 2асп Из A6.56) имеем также Тогда интеграл от A6.54) можно представить в следующем виде: J exp,_a х = °2га»_1 J exp[— a + 2pb — с]Х X (ас — by (") rfa rf6 rfc, A6.57) где пределы изменения а я с есть 0 и °о и —У ас <16< У^с- Этот интеграл можно вычислить с помощью Г-функции\
534 ГЛАВА 16 Полагая b2 l = a , найдем@<!Коо, —с Jехр (-1)ехр B9Ь-с-Ц)? = г{1(«-2)} J exp[-±{(b- о, 0<с<оо) dbdc = . A6.58) Из A6.57) и A6.58) находим совместное распределение slt s2nr- <*- ^r~. X ?-1^-1 A '(л —2) „2 X s^-2s2"-2 A — 16.27 Положим теперь Sl ds2dr. A6.59) г —г. Тогда якобиан преобразования равен О b s2, r) s2 0 0 1 Экспонента в A6.59) превратится в и после простых преобразований получим „л-1 ЯA_р2J v" "/Г(„_2)
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 535 Интегрируя по ? в пределах от 0 до оо, найдем Jl-pV Г(»-1) 0-г*)> пТ(п — 2) (chp—рл)"-1 Н V ' A6.60) является четной функцией от р, поэтому интеграл по р от —оо до оо равен удвоенному интегралу в пределах от 0 до оо. Положим —pr=cos9, тогда, поскольку chp-)-cos9 sin О TO 1 . .. яГ(и —2) ' rf(—cos9)"-2 \sinO l * а"'2 Г агссоз^л) | rf(rp)"-2 I /1—pV / v ' A r) яГ(и — 2) V ; Эти результаты были получены Фишером A915). 16.28 В частном случае р = 0 A6.61) сводится, что, впрочем, можно увидеть непосредственно из A6.52), к элементу распре- распределения l-rO^"1^. A6.62) Предположение о том, что именно таким должно быть распре- распределение для случая р = 0, было высказано Стьюдентом в 1908 го- году. Значения соответствующей функции распределения можно получить, используя таблицы неполной В-функции. Кроме того, полагая t = {(n~ 2)r2/(l— г2)}1/2, A6.63) можно A6.62) свести к ^-распределению Стьюдента A6.15) с v = n — 2 степенями свободы. 16.29 Общее распределение A6.61) было изучено довольно подробно. Мы укажем здесь только основные его свойства. Оста- Остановимся сначала на форме кривой плотности этого распределе- распределения. При п — 2 распределение A6.61) не определено в силу на- наличия множителя Г(я — 2). Это и понятно, поскольку для я = 2 выборочный коэффициент корреляции г может быть или +1 или —1, Этот случай, когда мы имеем дело с разрывным
636 ГЛАВА 16 распределением, можно рассматривать как предельный случай U-образпого распределения. При п = '6 мы видим, что функция плотности э ^и { sin2 0 sin3 9 J J. имеет U-образную форму. Для /г = 4 Если р = 0, то это распределение является равномерным с плот- плотностью у = -х- В других случаях кривая плотности J-образна. Для я>4 кривая плотности унимодальна и ее асимметрия растет при возрастании |р|, как это следует из того факта, что г, будучи косинусом угла, удовлетворяет условию г2^1. Для лю- любого р при п -> оо распределение г стремится к нормальному, хотя и очень медленно. Некоторые интересные фотографии кри- кривых этих распределений даны в Co-operai'we Study A917). 16.30 Плотность распределения A6.61) можно, как это было отмечено Хотеллингом A953), представить в виде гипергеомет- гипергеометрического ряда. Рассмотрим интеграл со / = Г rfP A6.64) Полагая ch p= A — prz)/(\ — z), преобразуем A6.64) к виду 1 Разложим теперь выражение в фигурных скобках под знаком интеграла в равномерно сходящийся ряд и проинтегрируем по- почленно. Тогда получим / i-, ^-, п-\, 1A+рг)), A6.65) где приняты обычные гипергеометрические обозначения.
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 537 Итак, A6.60), A6.64) и A6.65) дают для A6.61) представ- представление dF= -75- , «— —I X A — Pr) F [-к1 -9 1 я — -9 - ¦9-"(l~rP/') • (Id.00) Ряд A6.66) быстро сходится даже для небольших п. Для боль- больших же значений п часто достаточно ограничиться только пер- первым членом. Ошибка от использования для аппроксимации лишь k членов ряда значительно меньше, чем 2/A —рг) раз взятый k-н член. 16.31 Почленное интегрирование равномерно сходящегося ряда A6.66) дает нам выражение для функции распределения г. При этом удобно 1 + рг представить в виде 2— A —рг) и вос- воспользоваться в A6.66) биномиальным разложением по степеням A—рг). Для г>р Хотеллинг A953) получил следующий ре- результат: + ...}. ~ 32 Bя — где 1 1 1 А = 0, 1, 2, .... и асимптотическую формулу (л>р) 1^0^Х A~г\ 11+О (л)}. 06.68) Функции плотности и распределения коэффициента корреляции не зы- ражаются в элементарных функциях. Однако ф. п. и ф. р. были табулиро- табулированы Дэвид A938) для значений я=3AJ5, 50, 100, 200 и 400; р = 0,0@,1H,9 и для г= — 1,00@,05]+ 1,00 (местами —с более мелким шагом). 16.32 Моменты этого распределения также выражаются в терминах гипергеометрических функций. Возвратимся к A6.59) .-о.... л
538 ГЛАВА 16 и положим 1 n ' 2 n ' После несложных преобразований вместо A6.59) получим ежрD4+рг яГ(я-2) Ч 2 а? 2 a2tl а,а2 Положим их = —-• Щ- — и разложим функцию ехр (рг^2-). Uj Ct2 \ Ctjtt2/ входящую в A6.69). Получим J- (»-И ^rfe,^. A6.70) /-о Интегрируя в A6.70) по «2 от 0 до оо, найдем элемент распре- распределения «1 И Г dF= A я"гA-2) Р ( 5] i^i г (-^4^J^ ("+/) d* dr- Умножая правую часть в A6.71) на г и интегрируя от —1 до 1, получаем \2 яг (я—: И, наконец, интегрируя по щ, находим „2.7 + 1 2 j ЙГ(и-2) ЛBу+1I \ 2 ^"V 2 ' 2 У-о 2. A6.72)
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 53$ Выражая В-функции в терминах Г-функций и учитывая, что найдем P(l-P2)' 1! ^ 4- -Р2J Птг(в—: и поскольку ^(a, p, TO 1 1 п 2! 111 2 a, у—P. Y, ),^). A6.73) Аналогичным путем (ср. Хотеллинг, 1953) можно установить, что A6.74) Поэтому асимметрия возрастает с ростом |р| и убывает только как гг'12. Фишеровское преобразование коэффициента корреляции г 16.33 Фишером A921) было найдено замечательное преобра- преобразование выборочного коэффициента корреляции г, распределение которого приближается к нормальному намного быстрее, чем распределение самого г, и дисперсия преобразованной величины 36*
540 ГЛАВА 18 почти не зависит от р. Полагая r = thz, z = -^\o p = th?, ?=4lo A6.75) мы можем разложить плотность случайной величины г по сте- степеням x=z — ? и обратным степеням п. Фишер получил следую- следующее разложение: p + 9p< n— IJ ""¦" 128 (я— 1): . 28—15р2 ,., , 8 + 4р2-5р< 64 (я—1) "^ 128 1440 Вычисляя момент относительно х=0, находим *) " 2р2+3Р4 i 1 7Г=Тр г- ¦••[. 4(и-1) '" 8(. 4 —рД ,22 — 6р2 — Зр< 2(я — 1) "г" 6(я —IJ 14-Зр2 , 184-48р2-21р^ , \ "I 4(я-1J •" ••" )' я — A6.77) и, следовательно, „ — („_1J ""Г" ••• A6.78) Поэтому дисперсия случайной величины z — ? почти не зави- зависит от р, a Yi убывает как л~3/2. Тем самым мы можем считать распределение z—? приближенно нормальным со средним и дисперсией, указанными в A6.77). В качестве грубой *) Уравнения A6.77) в том виде, в котором они содержались в статье Фишера, имели некоторые ошибки, исправленные Гейеном A950). Однако на основной результат A6.80) они влияния не оказывают.
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 641 аппроксимации можно взять DB — ?) — Т=Т+2(п —1)*' При малых р Когда п умеренно, мы можем брать еще более грубую аппрокси- аппроксимацию, предполагая z — ? нормально распределенной с нулевым средним и дисперсией _„¦ Некоторое сравнение различных аппроксимаций дано во введении к таблицам Дэвид A938). Оказывается, что для я>50 формулы A6.79) и A6.80) адек- адекватны. Аппроксимация, задаваемая формулами A6.77), удовле- удовлетворительна уже при я=11. Хотеллинг A953) изучал возможность улучшения 2-преобра- зования. Он нашел, что случайная величина г* = 2— Cz+/)/Dл) A6.81) имеет моменты A6.82) и что ее распределение более близко к нормальному, чем рас- распределение z. Изучались также и другие улучшения. 16.34 Мы заканчиваем обсуждение вопросов, связанных с распределением r-статистики в нормальном случае. Но прежде чем расстаться с двумерным нормальным распределением, мы рассмотрим одну статистику, тесно связанную с г. По аналогии с коэффициентом корреляции р генеральной совокупности выбо- выборочный коэффициент корреляции г определялся как отношение выборочной ковариации к произведению выборочных стандарт- стандартных отклонений. Рассмотрим теперь статистики (см. A6.48)) A6.83) аналогами которых в генеральной совокупности являются отно- отношения Р1 = 1лп/а2 и P;i = ^n/ffi соответственно. Статистики Ьх и Ь2 называются выборочными коэффициентами регрессии хаау
542 глава 16 и у на х соответственно. Их аналоги Pi и р2 в генеральной со- совокупности называются коэффициентами регрессии. Обращаясь к A6.48), мы видим, что Далее мы рассматриваем распределение статистики Ь2. Резуль- Результаты для Ъ\ получатся соответствующей перестановкой индексов. Распределение коэффициентов регрессии в нормальном случае 16.35 Обращаясь к уравнению A6.59) и полагая Ь2 = —^-, мы получим для элемента совместного распределения sb s2 и b2 формулу dF ос ехр — 2A —p2 l X A — ^-Y dSi ds2 db2. A6.84) Интегрирование A6.84) no s2 дает элемент распределения Sinb2: . 00*6) Дальнейшее интегрирование A6.85) по Si приводит к элементу распределения 6г: или, с учетом нормировки, A6.86) Распределение A6.86) является пирсоновским распределением VII типа, симметричным относительно точки р2 = -^-> т.е.
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 543 относительно коэффициента регрессии генеральной совокупности. Это распределение стремится к нормальному довольно быстро, и поэтому при малых значениях п использование стандартных ошибок для регрессии более оправдано, чем для коэффициента корреляции. Для малых выборок, однако, распределение A6.86) используется редко, поскольку оно зависит от неизвестных ве- величин <Ть <Т2 и р, т. е. от истинных дисперсий и коэффициента корреляции. 16.36 Можно найти статистики, отличные от bL и Ь2, которые могут использоваться при построении критериев для регрессии. Рассмотрим 0 /.2 j22\'« \ 2 1/ и обратимся теперь к распределению величин а, Ь, с, заданных формулами A6.56), а именно (см. A6.57)): - rf/rocexp[—a-f-2p6 — с](#с — b2J dadbdc. A6.88) Так как согласно A6.87) то, заменяя в A6.88) с на и, по этой формуле после простых преобразований найдем ехр — а A 4- -^-5- \\dadu [ U" A6.89) Интегрирование второго множителя в A6.89) по b дает выра- выражение, пропорциональное <16-90> и, следовательно, для элемента распределения а и и из AS.89) и A6.90) получим формулу dFoc— exp(~a + p2a)rfa d± . A6.91) а hn~v d+«2J Отсюда следует, что а и и независимы и что элемент распреде- распределения и имеет вид dFoc ~ . A6.92)
644 ГЛАВА 1в Это распределение не содержит каких бы то ни было парамет- параметров исходного распределения. Случайная величина подчиняется распределению Стьюдента A6.15) с v = n —2 сте- степенями свободы. 16.37 В последующих главах (второй том) будут обсуждать- обсуждаться приложения распределений г и Ь, выведенных формально в предшествующих пунктах, и будут даны также обобщения на- наших результатов на случай многомерных нормальных распреде- распределений. УПРАЖНЕНИЯ 16.1 Показать, что моменты распределения дисперсионного отношения A6.24) выражаются формулой iv = hr если 2г<\>2, и не существуют, когда 2r!>V2. 16.2 Пусть U], ..., ип независимы и распределены как %2. Показать, вос- п пользовавшись упражнением 11.15, что 2 а/и/.где а{= ±1, распределена или (-1 (а) как x2i или (б) как величина, распределение которой выражается через функцию Бесселя, или как разность величин в (а) и (б). 16.3 Показать, что для х2"РаспРеделения с v степенями свободы цен- центральные моменты удовлетворяют соотношению и, таким образом, проверить формулу A6.5). 16.4 л независимых случайных величин хи ..., хп равномерно распре- распределены на отрезке [0, 1]. Показать, что величина —2\og{X]X2... хп) распре- распределена как х2 с 2л степенями свободы. 16.5 Пусть Xi(i=\ л)—случайные величины с нулевыми средними, и пусть е,-(/=1 л)—нормально распределенные случайные величины с нулевым средним и дисперсией а2. Обозначим и предположим, что в качестве оценок для Ро и р, взяты величины ba и Ъ\ соответственно такие, что '' *i = 2 (Pi ~
РАСПРЕДЕЛЕНИЯ. СВЯЗАННЫЕ С НОРМАЛЬНЫМ 546 Если y'i = yi — (bi)-\-biXl), то Отсюда вывести, что сумма 2 04) распределена как а2х2 с (п — 2) сте- степенями свободы и не зависит от Ьг 2 -^/> которая, в свою очередь, распре- распределена как а2х2 с одной степенью свободы. Если х и у — независимые нормально распределенные величины, то по- показать, что отношение ( распределено как стьюдентовское Р- с (п — 2) степенями свободы. 16.6 Две независимые машины непрерывно производят проволоку. Пусть Xi и Яг — средние значения количества дефектов на единицу длины для пер- первой и второй машин соответственно. Показать, что если U — интервал (по времени) между (/—1)-м и г'-м дефектами во время непрерывной инспекции обеих машин, то он распределен по закону (\\ + Хг)&хр{—(^1 + Л2)^}. и, таким п образом, если Т = 2 tlt то 2{Х{-\-Х2) Г имеет х2-РаспРеДеление с 2л степе- (-1 нями свободы. 16.7 Показать, что функция распределения A6.2) при нечетных v пред- ставима в виде а для четных v — в виде - (v- 2) Отсюда установить, что в последнем случае функция распределения х2 мо- может быть использована для вычисления функции пуассоиовского распреде- распределения. 16.8 Методами 16.7 показать, что величина Г/13х2-уУ/.з ¦ 5 С 7 \ Ц 12v J +T87l1+487J- приближенно нормальна с нулевым средним и единичной дисперсией. (Холдейн, 1937.) 16.9 Непосредственно из A6.15) показать, что ^-распределение Стьюдента стремится к нормальному при v->co.
546 ГЛАВА 16 16.10 Полагая q=(\+t'lv)'1, показать, что функция распределения F(t) стьюдентовской /-статистики при четном v представляется в форме , s) где в правой части выражение в фигурных скобках является частичной сум- суммой биномиального разложения A —q)~'^- (Фишер, 1935.) 16.11 Проверить для F-распределения справедливость формул A6.27) и A6.28). 16.12 Доказать, что х. ф. г-распределения имеет вид A6.29). Изучая члены низших порядков в A6.30), доказать, что с ростом числа степеней свободы распределение стремится к нормальному. 16.13 Используя методы главы 10, показать, что для выборок большого объема из двумерной нормальной совокупности дисперсия выборочного ко- коэффициента регрессии приближенно выражается формулой m2oJ °1 П 16.14 Дифференцируя A6.64) по (рг), установить, что и что /г {1 - (ргJ}/„+,-B/г - 1)/„-(/г-1)/„_,=(). Отсюда вывести, что плотность распределения f статистики г удовлетворяет рекуррентной формуле (п - 1) {1 - (pr)*} fn+l = Bл - 1) рг A -рУ A -г»)Т /„ + (Co-operative Study, 1917; Хотеллинг, 1953.) 16.15 Доказать, что плотность распределения статистики г удовлетворяет уравнению dfn , (n-3)r>fn _ndfn . w4n дг """ 1—г2 р dp "¦" 1—р2 * (Хотеллинг, 1953.) 16.16 Из A6.60) вывести, что элемент совместного распределения ста- статистик v= -~- ~ и г выражается формулой a A— Интегрируя по г от —1 до +1, с помощью замены drdv.
РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ 547 показать, что элемент распределения v имеет вид 1 ! ,_ 2 A — р2)^ vn f 4p2t;2 I?" (Бозе, 1935; Финни, 1938.) 16.17 Пусть л; и у — независимые случайные величины с непрерывными распределениями. Показать, что для выборки объема п из генеральной сово- совокупности с двумерным распределением, отвечающим этим случайным вели- величинам, выборочный коэффициент корреляции г имеет нулевое среднее и дис- дисперсию («— I)-1. (Питмэн, 1937.1 16.18 Пусть t — статистика, которая при увеличении объема выборки сходится по вероятности к некоторому параметру генеральной совокупности 0, и дисперсия статистики t есть некоторая функция от 0, скажем f@)/ra+o(/r!). Показать, что с точностью до величии порядка ггх случайная величина '=/{/(9)}- имеет дисперсию nrl + o(nrl). Отсюда следует, что z = argthr имеет дисперсию л + о(л), так как для больших выборок Dr=(l— p2)Vn. 16.19 Замечая, что согласно A6.77) показать, что статистика dr имеет дисперсию (Хотеллинг, 1953, Кендалл, 1953.) 16.20 Пусть Xi хп — случайная_ выборка из нормальной генеральной совокупности. Образуем разности_Xi — x и выберем случайным образ_ом одну из этих разностей, скажем хи — х. Найти распределение для (дг» — x)/s, где S=2(^ — xYI(n—!)• и показать, что, если х-,, Xh выбраны случайно, то отношение (Xj — xh)/s распределено так же, как и где t является /-статистикой Стьюдента. (Дэвид и др., 1954.)
848 глава ie 16.21 Показать, что в случае р=0 точное распределение для г-статистики Фишера (см. A6.75)) совпадает с г-распределением дисперсионного отно- отношения A6.26) при Vi=V2=n — 2. Используя х. ф. A6.29) и соотношение г"(р) | ZAELV^X JL \ Г ( ПрУ \ т(р)'( - б справедливое при целых р, показать, что для четных я^>4 дисперсия г в точности равна а - Я2 ! И2--3---2 г-1 При л=6 отсюда следует, что |Х2=О,32, в то время как согласно приближен- приближенной формуле A6.80) ц2=0,33. 16.22 В случае р = 0 установить, используя A6.59), что распределение rSi/oi нормально со средним нуль и дисперсией l/n(i=l,2).
ПРИЛОЖЕНИЕ Таблица 1 Функция плотности нормального распределения 1 "г" у = —р= е с первыми и вторыми разностями К2 X 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 у 0 39894 0,39695 0,39104 0,38139 0,36827 0,35207 0,33322 0,31225 0,28969 0,26609 0,24197 0,21785 0,19419 0,17137 0,14973 0,12952 0,11092 0,09405 0,07895 0,06562 0,05399 0,04398 0,03547 0,02833 0,02239 А'(-) 199 591 965 1312 1620 1885 2097 2256 2360 2412 2412 2366 2282 2164 2021 1860 1687 1510 1333 1163 1001 851 714 594 486 —392 -374 —347 -308 —265 —212 — 159 -104 —52 -0 +46 +84 +118 +143 +161 -173 -177 (-177 г-170 +162 -150 -137 -120 +108 +91 X 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4 4,5 4,6 4,7 4,8 У 0,01753 0,01358 0,01042 0,00792 0,00595 0,00443 0,00327 0,00238 0,00172 0,00123 0,00087 0,00061 0,00042 0,00029 0,00020 0,00013 0,00009 0,00006 0,00004 0,00002 0,00002 0,00001 0,00001 0,00000 А'(-) 395 316 250 197 152 116 89 66 49 36 26 19 13 9 7 4 3 2 2 +79 +66 +53 +45 +36 -27 -23 -17 -13 -10 +7 --6 ¦-4 ¦-2 +3 — — — Таблица 2 Функция нормального распределения 1 С """г" В таблице даны значения F (х) =—=¦ е dx, т. е. значения площади У 2л J — оо 1 под кривой у = -—=^? , лежащей левее точки х; например, для х= 1,86 (= 1,5 + 0,36) F( 1,86) = 0,9686 X 0,00 0,01 0,0+ 5000 5040 0,5+ 6915 6950 1,0+ 8413 8438 1,5+ 9332 9345 2,0+ 9772 9778 2,5+ 9^379 92396 3,0+ 92865 92869 3,5+ 9377 9378
в н о 1 = ч го 3 3 ЪСЛ<^СпСлСЛСпСлСлСПСлСлСПСлСлСПСлСЛСПСлСЛСЛСлСЛСП ^ ._.-.* ._._. > СЛ СЛ СЛ >?•¦>?•¦ СО СО •* СО^ь. ООЮ О5 < со со со со со со мкд С0иа сосроооооооооооооооооооооооооооооооооооооооооооооооооооооо lOOlCObOOi-^JOlO^Cn-^OOCOCOOOOOCOCOOOOiCnCO»—* СО Ю '—ч—' О СО СО ОО -ч) --J Oi СП »^^СОЮ н^ О СО СО ОО "-J Oi lOOCOCOaiCOCoOlOO"— ^ Oi CO »—' CO СП OS ОО СО >—'ЮСО^ СО CD CO CO CO СЛ СЛ СП СЛ Сл Сл СО СО СО CD СО СО СО СО СО »?ь»?ь»?ь»?ь>йьС0С0С0С0 ^ CD CO'CD CO'CO cp-c_ __. __ __. __ _эоооооооо.ойооооб5.оооооооооооооооооооооооо56оооооооо-- , . , > Cp-CO'CD ОЗ*СО<Х>Ы Ы 'Ы C^ Ol'OlOyCn Cn^f^COQOCOlOlO •—»-*OOtOCOOOOO ООООО 'СЛ СП ^ О г ю Щ о m в» К 3| <e <e «й «e ^ «s «s *s "s 'S «s ъ "s ^ "s ^ <e OOOOOOOOOOOOOOOOOOOOOOOOvlSS-J 05СлСл*->*^СоСо(р^;^рОсрдооо->1 CO CO CO CO CO CO CO CO CO CO CO CO CO CO CO CO CO CD CO CO CO CO CO CO CO CD CO CO CO CO CO -3^-5^^^^^ГО(ЙотО50?а>ГОСЛСЛСЛСЛСЛСЛО1СЛО1СЛ*^*^*^*^*^*« ^g^g^g^aicoco _ - -- -ОЭОЗСЛ^СОЮЮ1—^OCOOO-^JQM 010>M^SOK3^0HDO^t0C0C0i^^l эозсгсаэоэслслслслс.- 4t4MN30toceso)ih( )CotOb*(OOOOl030Nh >MOIOSQ*.( . oa to~) >-*o: < cococococococococococococococococDcocococococococococo d^^cлd^o^cлcлcлCлcлcл^^^^cocoCocjSюю^3^^^oo cococococococpcocococococococococococo CO CO CO CO CD CO CO CO CO CO CD CO COCO CO CO CO CO CO CO CO CO CO CO CO CO CO CO CO CO CO CDCOCOCOCOCOCOCO CO CO CO CO CO CO CO CO CO (о Co со со MWWMMWMM W W CiaCoCocococoCococo 5a ь* со ы oa Oa Co Ы Со Со Ы Ы f.< CiaciaCoWtoKlWtotOK) ta ta x T
ТАБЛИЦЫ 551 я Я" S с; * ж- о 1 5 II1 I* о »Ы Л О. „'33 я es я >> Я Ч О Н .ОВД я ч Hi я о. S ч m S а а я п о п н и S в со С0О>00©СОСО©О>С со Г4"» SD г—* ю Г4» Г4» 'гз ^TJ из тг аи UN ^* Ю СО t**» СО Ю ^f ^^ С ^*СО-—'COO^OOCNCOOiCOCOOCOCOOiC^ Ю 00 ^* Tt^C ю" ь-Г of —Г со" ю" со" оо" of ~* о$ ^ ю" со" оо" of о" c^f со ю" со Is»" оо" ©" —^ оГ ¦ ^,^^Sr-<Xi(>)O)oicN(>)CN<>)C0C0C0C0C0C0C0-*-*-*- (N ¦*" со" i~-T Ы в* <м" та" ¦* ю" ь-Г оо" of —<" of та ¦*" ю" ь." оо" о» о" с~Т го ¦* in со" t~-" ч<н1<м(МО4О4(М<мо4(Мтатататататата о X л ч в о. о S ев OlODtDi-iOClio —< TO UO t^ О О <М Т " " f " —< —<а>юаоаэаосо(мсоа> 'Oi»hinM«g)S* <М О) СО СО СО СО СО СО д о S 5lOlO1**'T*'4*''tri«t(T*'1^T*'C0C0C0C0C0C0C0C0 3_со со со_со_со со. со. со со со со_со со.сосо.со.со_со_ • о$ со"г1<"ю"со"ь-Гоо"о) о^Ы cjo^io со J~?oo of©" X s В1 s о о" о О о '-Г '-< оГ of Г0 со ¦* ^ Ю 1О СО I-. Ь- СО Of ОТ О -^ •— С4! со ¦* Tf Щ СО о и
552 ПРИЛОЖЕНИЕ Таблица 4а Функция ^-распределения с одной степенью свободы для 0<х2<^ 1 с шагом 0,01 X' 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,20 0,21 0,22 0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,30 0,31 0,32 0,33 0,34 0,35 0,36 0,37 0,38 0,39 0,40 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49 0,50 p 1,00000 0,92034 0,88754 0,86249 0,84148 0,82306 0,80650 0,79134 0,77730 0,76418 0,75183 0,74014 0,72903 0,71843 0,70828 0,69854 0,68916 0,68011 0,67137 0,66292 0,65472 0,64677 0,63904 0,63152 0,62421 0,61708 0,61012 0,60333 0,59670 0,59022 0,58388 0,57768 0,57161 0,56566 0,55983 0,55411 0,54851 0,54300 0,53760 0,53230 0,52709 0,52197 0,51694 0,51199 0,50712 0,50233 0,49762 0,49299 0,48842 0,48393 0,47950 A 1 X1 7966 3280 2505 2101 1842 1656 1516 1404 1312 1235 1169 1111 1060 1015 974 938 905 874 845 820 795 773 752 731 713 696 679 663 648 634 620 607 595 583 572 560 551 540 530 521 512 503 495 487 479 471 463 457 449 443 436 0,50 0,51 0,52 (У,53 0,54 0,55 0 56 0,57 0,58 0,59 0,60 0,61 0,62 0,63 0,64 0,65 0,66 0,67 0,68 0,69 0,70 0,71 0,72 0,73 0,74 0,75 0,76 0,77 0,78 0,79 0,80 0,81 0,82 0,83 0,84 0,85 0,86 0,87 0,88 0,89 0,90 0,91 0,92 0,93 0,94 0,95 0,96 0,97 0,98 0,99 1,00 P 0,47950 0,47514 0,47084 0,46661 0,46243 0,45832 0,45426 0,45026 0,44631 0,44242 0,43858 0,43479 0,43105 0,42736 0,42371 0,42011 0,41656 0,41305 0,40959 0,40616 0,40278 0,39944 0,39614 0,39288 0,38966 0,38648 0,38333 0,38022 0,37714 0,37410 0,37109 0,36812 0,36518 0,36227 0,35940 0,35655 0,35374 0,35095 0,34820 0,34548 0,34278 0,34011 0,33747 0,33486 0,33228 0,32972 0,32719 0,32468 0,32220 0,31974 0,31731 д 436 430 423 418 411 406 400 395 389 384 379 374 369 365 360 355 351 346 343 338 334 330 326 322 318 315 311 308 304 301 297 294 291 287 285 281 278 276 272 270 267 264 261 258 256 253 251 248 246 243 241
ТАБЛИЦЫ 553 Таблица 46 Функция ^-распределения X' 1,0 1.1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2;о 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 4Д 4,2 4,3 4,4 4,5 4,6 4,7 4,8 4,9 5,0 5,1 5,2 5,3 5,4 5,5 р 0,31731 0,29427 0,27332 0,25421 0,23672 0,22067 0,20590 0,19229 0,17971 0,16808 0,15730 0,14730 0,13801 0,12937 0,12134 0,11385 0,10686 0,10035 0 09426 0 08858 0 08326 0,07829 0,07364 0,06928 0 06520 0,06137 0,05778 0,05441 0,05125 0,04829 0,04550 0,04288 0 04042 0,03811 0,03594 0,03389 0,03197 0,03016 0,02846 0,02686 0,02535 0,02393 0,02259 0,02133 0,02014 0,01902 для 1 < х2 < Ч д 2304 2095 1911 1749 1605 1477 1361 1258 1163 1078 1000 929 864 803 . 749 699 651 609 568 532 497 465 436 408 383 359 337 316 295 279 262 246 231 217 205 192 181 170 160 151 142 134 126 119 112 106 с одной 1 с maro.v X2 5,5 5,6 5,7 5,8 5,9 6,0 6,1 6,2 6,3 6,4 6,5 6,6 6,7 6,8 6,9 7,0 7,1 7,2 7,3 7,4 7,5 7,6 7,7 7,8 7,9 8,0 8,1 8,2 8,3 8,4 8,5 8,6 8,7 8,8 8,9 9,0 9,1 9,2 9,3 9,4 9,5 9,6 9,7 9,8 9,9 10,0 степенью свободы [ 0,1. Р 0,01902 0,01796 0,01697 0 01603 001514 0 01431 0 01352 001278 001207 001141 0 01079 0*01020 0 00964 0 00912 0 00862 0 00815 0 00771 0 00729 0 00690 0 00652 0,00617 0 00584 0,00552 0 00522 0 00494 0 00468 0,00443 0 00419 0 00393 0 00375 0,00355 0 00336 0,00318 0,00301 0 00285 0,00270 0,00256 0,00242 0,00229 0 00217 0,00205 0,00195 0,00184 0,00174 0,00165 0 00157 А 106 99 94 89 83 79 74 71 66 62 59 56 52 50 47 44 42 39 38 35 33 32 30 28 26 25 24 23 21 20 19 18 17 16 15 14 14 13 12 12 10 11 10 9 8 8
Таблица 5 g; Квантили {-распределения (Заимствованы из таблиц сэра Рональда Фишера и Ф. Иэйтса: Statistical Tables for Biological, Medical and Agricultural Research, Oliver and Boyd Ltd., Edinburgh.) P-2(l-F) V=l 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0,9 0,158 0,142 0,137 0,134 0,132 0,131 0,130 0,130 0,129 0,129 0,129 0,128 0,128 0,128 0,128 0,8 0,325 0,289 0,277 0,271 0,267 0,265 0,263 0,262 0,261 0,260 0,260 0,259 0,259 0,258 0,258 0,7 0,510 0,445 0,424 0,414 0,408 0,404 0,402 0,399 0,398 0,397 0,396 0,395 0,394 0,393 0,393 0.6 0,727 0,617 0,584 0,569 0,559 0,553 0,549 0,546 0,543 0,542 0,540 0,539 0,538 0,537 0,536 0,5 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0.4 1,376 1,061 0,978 0,941 0,920 0,906 0,893 0,889 0,883 0,879 0,876 0,873 0,870 0,858 0,836 0,3 1,963 1,386 1,250 1,190 1,156 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,076 1,074 0,2 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 0,1 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,795 1,782 1,771 1,761 1,753 0,05 12,706 4,303 3.182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2.160 2,145 2,131 0,02 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,893 2,821 2,764 2,718 2,681 2,650 2,624 2,602 0,01 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 0,001 636,619 31,599 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073
ТАБЛИЦЫ о о СТ о> оо оо Tj? СО СО" СО СО Oi О> CN Ь- ^ О СО 00 Ь-^ Ь-^ СО СО СО СО СО ^Э ^ft t^» iC tJ* ^ to со со со со" СО со" со" со" —| О со —| Ю CD S O1 1Л Tf П N со" СО со" со" г-| 00 00 г-* щ О1 СТ ^ СО *f Ol СО СО СО СО сч" of of of of —О> Ь- S—i О 00 00_ _ _ of of of of of О ^н CO CD О t-~ t~- CO Ю Ю t-~ t~- N._ t— t~- of of of of cn" SO t^ CO CO -1 t-~ t~- CO. CO_ Ю of of of of CO CO O O Ol n in in lo ю <n" oi of of of CO lO n in f 00 00 —i О of of of of of О) 1П О) 00 Ol П К IN К s к to ш ю of of of of of со О оо со О) О) Ю О) ¦* СО СО СО of of oi" of 0 О •-' CO CO 01 — О О) оо ,-i ~ —' О ©_ <N" of of of <N О •* О) •* О 00 Ьч СО СО СО ^5 ^Э ^Э ^Э СЭ of of of of of о 3 о о о of of of of of —¦ Q О О Ol О 00 CO о о о о of оТ - -" (О О * О1 Ю ¦* ¦* СО О) О) ^~ t— t-~ t-— t-— -J S •* н JO Ol ~н »-" t-« О t— t— t~— t— t— ,706 in со ,703 •* co_ ,701 CO CO ,699 CO ,697 о CO 00 8 CO —' <J> 00 CO Ol Ol ¦-* r-< *-* CO CO CO CO CO So O) О) f— О ¦* со ¦¦?> со со о о о о —i О О) 00 §§8S CO S (О Ю Ю SIC Ю LO Ю о © о о о to -н со §S8 1Л СО СО СО оо оо ©" о* CN т-н © СО СО ^О оо оо оо ©" ©" ©" OJ 00 СО S tO Ю Ю Ю Ю 1С 00 00 00 СО 00 о" ©" ©" ©" ©" СО Ю Ю ^ т}< lO iO lO lO lO 00 00 00 00 00 o" o* o" o" o" и op U3 (N Ю -^ "^ "^ 00 00 00 00 o" o" o" o" О 00 со to о" о" CO 00 t 00 ОО ОО о со со о" о" о' о" о" о о" о" •* ¦* СО СО СО 00 00 00 00 00 со со со со со о" о" о" о" о" т-« О 1^ -^ СО S S S со со со со о" о" о" о* СО СО о" о" со о" о" о" S (N OJ (N т-н в—I со со со со со ю ю ю ю ю о' © ©" ©" ©" 1—II—I © © © со со со со со 1С Ю Ю Ю Ю о' ©" ©" ©" ©* ^Э Oi Oi Ol Ol Ol 00 00 00 00 со c0 со со c0 o" o" o" o* o" CO CO CO CO CO in ю ю in ю Ol Ol Ol Ol Ol o" o" o" o" o* Ol Ol Ol ol Ol o" o" o" o" o" O) Ol O) O) in to in in o" o" o" o" IN И CT О} СО СО о" о" И - - Ol О Ol СО СО СО о" о" о" О) СЛ СЛ СЛ О) со со со со со о" о" о" о" о* СО S (О Ю 00 00 00 ОО со со со со о" о" о" о" М S s t- S Й 8 оЗ Й 8 о" о" о" о" о" СО СО Is N S <N О) Ol Ol Ol о" о" о" о о" h~ со со со со 88888 о" о" о* о" о" <М О1 О1 О1 О1 о" о" о" о" о' ¦* со to in o" o" * * со in to in Ol Ol Ol " " in Ol o" o* CO CO CO CO Ol O) Ol <M о о о о в N И Ol ¦—с О) со •* in oi О) о) О) О) О1 О1 О) О1 СО о о ¦* со
(точки в > S* то СП 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 которых ф. I 2,5421 1,4592 1,1577 1,0212 0,9441 0,8948 0,8606 0,8355 0,8163 0,8012 0,7889 0,7788 0,7703 0,7630 0,7568 р. = 0,95). 5% -ные точки ^-распределения (Заимствованы из таблицы VI книги сэра Рональда for Research Workers, Oliver and Boyd Ltd., Edinburgh.) 2 2,6479 1,4722 1,1284 0,9690 0,8777 0,8188 0,7777 0,7475 0.7242 0,7058 0,6909 0,6786 0,6682 0,6594 0,6518 3 2,6870 1,4765 1,1137 0.9429 0,8441 0,7798 0,7347 0,7014 0,6757 0,6553 0,6387 0,6250 0,6134 0,6036 0,5950 Значения 4 2,7071 1,4787 1,1051 0,9272 0.8236 0,7558 0,7080 0,6725 0,6450 0,6232 0,6055 0,5907 0,5783 0,5677 0,5585 5 2,7194 1,4800 1,0994 0,9168 0,8097 0,7394 0,6896 0,6525 0,6238 0,6009 0,5822 0,5666 0,5535 0,5423 0,5326 Vi' 6 2,7276 1,4808 1,0953 0,9093 0,7997 0,7274 0,6761 0,6378 0,6080 0,5843 0,5648 0,5487 0,5350 0,5233 0,5131 8 2,7380 1,4819 1,0899 0,8993 0,7862 0,7112 0,6576 0,6175 0,5862 0;?Й1 0,5406 0,5234 0,5089 0,4964 0,4855 Фишера i 12 2,7484 1,4830 1,0842 0,8885 0,7714 0,6931 0,6369 0,5945 0,5613 0,5346 0,5126 0,4941 0,4785 0,4649 0.4532 Таб Statistical 24 2,7588 1.4840 1,0781 0,8767 0,7550 0,6729 0,6134 0,5682 0,5324 0,5035 0,4795 0,4592 0,4419 0,4269 0,4138 л нца 6 g Methods СО 2,7693 1,4851 1,0716 0,8639 0,7368 | t-i Q 0,6499 | 0,5862 га 0,5371 0,4979 0,4657 0,4387 0,4156 0,3957 0,3782 0,3628
ТАБЛИЦЫ 657 s о 4022 о 4428 о о 476 о СМ <-> ю о 241 о 5505 о 5876 о со ° ю о со со со 8 о 3919 о 4337 о со 467 о •* о СО со о о 5811 о 6393 о со со о т—1 го СО о см о 4255 о СМ 460 о оп о 660 ю о (С со о 5753 о 6341 о •я* см о 00 со о 3743 о 4182 о \п 453 о 8 on о 040 ю о ю со 1С о 5701 о 6295 о со 8 О ОТ 8 о 3668 о 4116 о 447 о 776 •* о 986 ¦^ о СО 52 о 5654 о 6254 о см 8 О а от о 3599 о 4055 о о 442 о см о 938 о от 1—1 см 1С о 5612 о 6216 о см о* О) СМ от 00 см о СО о 4001 о e-i 437 о о со •* о 894 о 00 1С о 5574 о 6182 о см о см ем оп о 3478 о 3950 о m О СО со со о 854 о о S3 о 5540 о 6151 о от 8 о СО см от о 3425 о 3904 о со 428 о ю •* о 4817 о со 51 о S 1С ю о 6123 о со О •* СМ 1С ем О 3376 о 3862 о •* 424 о см СО о 783 о S о 5478 о 6097 о ю ем о* 1С 1С CN О 3330 о 3823 о •* о от 1С •* о 752 •* о' « S о 5451 о 6073 о см о 8 от СО ем О 3287 о 3786 о со 417 о от •* о 723 •* о о 5427 о 6051 о 00 о с~ ем СО ем О 3248 о 3752 о со 414 о ,—i •* о 696 •* о см о 5403 о 6030 о ?: о 8 СО со см о 3211 о 3720 о (^ ,—i о •* о 671 •* о СО о 5382 о 6011 о 1С о я ем О 3176 о 3691 о о 409 о а о оо ¦? о о 5362 о 5994 о •* о 8 о" 2654 о 3255 о I о •* о" СО о" см о 5073 о 5738 о от СО о S о 2085 о 2804 о от о" 8 СО о" 974 СО о* О) 5 о" 4787 о 5486 о 729 со о 8 ВИНЭЬВН? 47 М
558 ПРИЛОЖЕНИЕ Таблица 7 5%-ные точки /^распределения (точки, в которых ф. р. = 0,95) (Заимствованы из таблиц сэра Рональда Фишера и Ф. Иэйтса: Statistical Tables for Biological, Medical and Agricultural Research, Oliver and Boyd Ltd., Edinburgh.) V2 \v 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 CO l 161,40 18,51 10,13 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4,84 4,75 4,67 4,60 4,54 4,49 4,45 4,41 4,38 4,35 4,32 4,30 4,28 4,26 4,24 4,22 4,21 4,20 4,18 4,17 4,08 4,00 3,92 3,84 2 199,50 19,00 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 3,98 3,88 3,80 3,74 3,68 3,63 3,59 3,55 3,52 3,49 3,47 3,44 3,42 3,40 3,38 3,37 3,35 3,34 3,33 3,32 3,23 3,15 3,07 2,99 3 215,70 19,16 9,28 6,59 5,41 4 76 4,35 4,07 3,86 3,71 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,07 3,05 3,03 3,01 2,99 2,98 2,96 2,95 2,93 2,92 2,84 2,76 2,68 2,60 4 224,60 19,25 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,36 3,26 3,18 3,11 3,06 3,01 2,96 2,93 2,90 2,87 2,84 2,82 2,80 2,78 2,76 2,74 2,73 2,71 ¦2,70 2,69 2,61 2,52 2,45 2,37 5 230,20 19,30 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,20 3,11 3,02 2,96 2,90 2,85 2,81 2,77 2,74 2,71 2,68 2,66 2,64 2,62 2,60 2,59 2,57 2,56 2,54 2,53 2,45 2,37 2,29 2,21 6 234,00 19,33 8,94 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,09 3,00 2,92 2,85 2,79 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,53 2,51 2,49 2,47 2,46 2,44 2,43 2,42 2,34 2,25 2,17 2,09 s 238,90 19,37 8,84 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,95 2,85 2,77 2,70 2,64 2,59 2,55 2,51 2,48 2,45 2,42 2,40 2,38 2,36 2,34 2,32 2,30 2,29 2,28 2,27 ¦2,18 2,10 2,02 1,94 12 243,90 19,41 8,74 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,79 2,69 2,60 2,53 2,48 2,42 2,38 2,34 2,31 2,28 2,25 2,23 2,20 2,18 2,16 2,15 2,13 2,12 2,10 2,09 2,00 1,92 1,83 1,75 24 249,00 19,45 8,64 5,77 4,53 3,84 3,41 3,12 2,90 2,74 2,61 2,50 2,42 2,35 2,29 2,24 2,19 2,15 2,11 2,08 2,05 2,03 2,00 1,98 1,96 1,95 1,93 1,91 1,90 1,89 1,79 1,70 1,61 1,52 CO 254,30 19,50 8,53 5,63 4,36 3,67 3,23 2,93 2,71 2,54 2,40 2,30 2,21 2,13 2,07 2,01 1,96 1,92 1,88 1,84 1,81 1,78 1,76 1,73 1,71 1,69 1,67 1,65 1,64 1,62 1,51 1,39 1,25 1,00 Примечание. Нижняя 5%-ная точка представляет собой обратную величину того табличного значения, которое получится если v( и v2 поменять местами, т. е. в качестве Vi всегда следует выбирать количество степеней свободы, соответствующее наибольшей выборочной дисперсии.
Таблица 8 w 1%-ные точки z-распределения (точки, в которых ф. р. = 0,99) • (Заимствованы из таблицы VI книги сэра Рональда Фишера Statistical Methods for Research Workers, Oliver and Boyd Ltd., Edinburgh.) К s s и  a 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 l 4,1535 2,2950 1,7649 1,5270 1,3943 1,3103 1,2526 1,2106 1,1786 1,1535 1,1333 1,1166 1,1027 1,0909 1,0807 2 4,2585 2,2976 1,7140 1,4452 1,2929 1,1955 1,1281 1,0787 1,0411 1.0114 0.9874 0,9677 0,9511 0,9370 0,9249 3 4,2974 2,2984 1,6915 1,4075 1,2449 1,1401 1,0672 1.0135 0,9724 0,9399 0,9136 0,8919 0,8737 0,8581 0,8448 4 4,3175 2,2988 1,6786 1,3856 1,2164 1,1068 1,0300 0,9734 0.9299 0,8954 0,8674 0,8443 0,8248 0,8082 0,7939 Значения л 5 4,3297 2,2991 1,6703 1,3711 1,1974 1,0843 1,0048 0,9459 0,9006 0,8646 0,8354 0,8111 0,7907 0,7732 0,7582 h s 4,3379 2,2992 1,6645 1,3609 1,1838 1,0680 0,9864 0,9259 0,8791 0,8419 0,8116 0,7864 0,7652 0,7471 0,7314 8 4,3482 2,2994 1,6569 1,3473 1,1656 1,0460 0,9614 0,8983 0,8494 0,8104 0,7785 0,7520 0,7295 0,7103 0,6937 12 4,3585 2,2997 1,6489 1,3327 1.1457 1,0218 0,9335 0,8673 0,8157 0,7744 0,7405 0,7122 0,6882 0,6675 0,6496 24 4.3689 2,2999 1,6404 1,3170 1,1239 0,9948 0,9020 0,8319 0,7769 0,7324 0,6958 0,6649 0,6386 0,6159 0,5961 CO 4,3794 2,3001 1,6314 1,3000 1,0997 0,9643 0,8658 0,7904 0,7305 0,6816 0,6408 0,6061 0,5761 0,5500 0,5269
560 ПРИЛОЖЕНИЕ к s tr я) CO 8 CO i о 786 in о ОТ s о 791 to о 1—1 О о ° o" 1—1 So * en о en 1.07 to 1—1 m 487 о о in о to о s to to о о о гл о 8 o en 00 о 1—1 о 1—1 гч 471 о 491 in о in to о 549 to о о СО о сч о & о 00 о g oo о 1,05 % о 1П о ю о 447 to о я to о о (^ о 1—1 о !й о 00 о оп 00 о _ 1,05 1—1 442 о 8 in о" to in о* 8 со о to о оо о* о" in о — 00 о" ю 1,04 я i о 150 in о со in о' 272 to о о to to о rrl to о 372 о о ° сч 00 о* S °- со о (О in о СО in о 196 to о гч to to о to s 309 о о ГО 78 о 00 о со щ. оо 406 о 969 о 1П 5 о 127 to о ю to о 1П to о 251 о со. t^ о о СО 00 о сч °- я о 890 о IS й о S со о to to о О) о СI 197 t^ о" с~ in о" to сч to 00 о in сч 387 о to оо о - in о 900 to о" сч to о" to о' 148 о CN t: о ш ю 00 о °- винэьенс 00 о 748 о я о 952 ю о СМ со о СО СО о 103 о о СО о 00 00 о 8 °- СО см о !5 о 685 о со а о 902 ю о со СО о Щ ю СО СО о 062 о СО о СО 00 о О) 1,01 & •* 362 о со о СО а о S 1С о 8 СО о •* to to о 023 о 75 о оо 00 о •* to 1,01 00 см о 355 о 570 О со <м in О СО ОО 1П о я см СО о СО в о 987 to о см СО 75 о 00 о О) СО 1,01 СП см 348 сг 519 ^j о см см 1П о" 773 ю о" to to о ю to о 954 to о" « о СО см 00 о to о о СО сч 235 о 746 со о о 189 in о 00 to ю о 00 о 472 to о" to с~ о" ш о 00 о 00 0,97 S о 913 см о Я о" S СО •* о" сч 1П о" я 55 о 8 in о о" $ to о сч to 0,94 8
ТАБЛИЦЫ 561 Таблица 9 1%-ные точки /'-распределения (точки, в которых ф. р. = 0,99) (Заимствованы из книги сэра Рональда Фишера и Ф. Иэйтса: Statistical Tables for Biological, Medical and Agricultural Research, Oliver and Boyd Ltd., Edinburgh.) \. v, Vj \^ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 oo l 4052 98,49 34,12 21,20 16,26 13,74 12,25 11,26 10,56 10,04 9,65 9,33 9,07 8,86 8,68 8,53 8,40 8 28 8,18 8 10 8,02 7,94 7,88 7,82 7,77 7,72 7,68 7,64 7,60 7,56 7,31 7,08 6,85 6,64 2 4999 99,00 30,81 18,00 13,27 10,92 9,55 8,65 8,02 7,56 7,20 6,93 6,70 6,51 6,36 6,23 6,11 6,01 5,93 5,85 5,78 5,72 5,66 5,61 5,57 5,53 5,49 5,45 5,42 5,39 5,18 4,98 4,79 4,60 3 5403 99,17 29,46 16,69 12,06 9,78 8,45 7,59 6,99 6,55 6,22 5,95 5,74 5,56 5,42 5,29 5,18 5,09 5,01 4,94 4,87 4,82 4,76 4,72 4,68 4,64 4,60 4,57 4,54 4,51 4,31 4,13 3,95 3,78 4 5625 99,25 28,71 15,98 11,39 9,15 7,85 7,01 6,42 5,99 5,67 5,41 5,20 5,03 4,89 4,77 4,67 4,58 4,50 4,43 4,37 4,31 4,26 4,22 4,18 4,14 4,11 4,07 4,04 4,02 3,83 3,65 3,48 3,32 5 5764 99,30 28,24 15,52 10,97 8,75 7,46 6,63 6,06 5,64 5,32 5,06 4,86 4,69 4,56 4,44 4,34 4,25 4,17 4,10 4,04 3,99 3,94 3,90 3,86 3,82 3,78 3,75 3,73 3,70 3,51 3,34 3,17 3,02 6 5859 99,33 27,91 15,21 10,67 8,47 7,19 6,37 5,80 5,39 5,07 4,82 4,62 4,46 4,32 4,20 4,10 4,01 3,94 3,87 3,81 3,76 3,71 3,67 3,63 3,59 3,56 3,53 3,50 3,47 3,29 3,12 2,96 2,80 8 5981 99,36 27,49 14,80 10,27 8,10 6,84 6,03 5,47 5,06 4,74 4,50 4,30 4,14 4,00 3,89 3,79 3,71 3,63 3,56 3,51 3,45 3,41 3,36 3,32 3,29 3,26 3,23 3,20 3,17 2,99 2,82 2,66 2,51 12 6106 99,42 27,05 14,37 9,89 7,72 6,47 5,67 5,11 4,71 4,40 4,16 3,96 3,80 3,67 3,55 3,45 3,37 3,30 3,23 3,17 3,12 3,07 3,03 2,99 2,96 2,93 2,90 2,87 2,84 2,66 2,50 2,34 2,18 24 6234 99,46 26,60 13,93 9,47 7,31 6,07 5,28 4,73 4,33 4,02 3,78 3,59 3,43 3,29 3,18 3,08 3,00 2,92 2,86 2,80 2,75 2,70 2,66 2,62 2,58 2,55 2,52 2,49 2,47 2,29 2,12 1,95 1,79 OO 6366 99,50 26,12 13,46 9,02 6,88 5,65 4,86 4,31 3,91 3,60 3,36 3,16 3,00 2,87 2,75 2,65 2,57 2,49 2,42 2,36 2,31 2,26 2,21 2,17 2,13 2,10 2,06 2,03 2,01 1,80 1,60 1,38 1,00 Примечание. Нижняя 1%-ная точка представляет собой обратную величину того табличного значения, которое получится, если v, и v2 по- поменять местами, т. е. в качестве Vi всегда следует выбирать количество степеней свободы, соответствующее наибольшей выборочной дисперсии.
562 ПРИЛОЖЕНИЕ Таблица 10 Симметрические функции. Формулы представлений расширенных сим- симметрических функций в терминах сумм степеней н обратные формулы (Заимствованы из таблиц Дэвид и Кендалла- A949).) Вес 1 A) - [1] Вес 2 Вес 3 Вес 4 Вес 5 Вес 6 B) AJ |2| | [1=] 1 1 —1 1 C) B) A) AK [31 1 1 1 [21] — 1 1 3 [1«[ 2 —3 1 D) C) A) BJ (!L [41 1 1 1 1 1 [31] — 1 1 2 4 [2=| —1 1 1 3 [21=] 2 —2 —1 1 6 [И -6 8 3 —6 1 E) D) (I) C) B) C)AJ BJ A) B)(IK AM [51 1 I 1 1 1 1 1 [41] —1 1 2 1 3 5 [321 — 1 1 1 2 4 10 [31=1 2 2 1 3 10 [2=1 [ 2 j —2 1 3 15 [21'1 —6 6 5 —3 —3 1 10 [i»[ 24 -30 —20 20 15 —10 1 F) E) A) D) B) D) (IJ (ЗJ C) B) A) C) (IK BK BJ AJ B) (IL [61 1 1 1 1 1 1 1 1 1 1 1 [51] — 1 1 2 i 3 2 4 6 [42] —1 1 1 i 3 3 3 7 15 141=1 2 2 —1 1 3 i 6 15 [3=] j 1 1 1 2 4 10 [321] 2 —1 —1 . —1 1 3 4 16 60 [31 •] —6 6 3 —3 2 —3 1 # 4 20 [2'[ 2 —3 t ш 1 1 3 15 [2=1=1 —6 4 5 —1 2 —4 —i 1 6 45 |21<) 24 —24 —18 12 —8 20 —4 3 —6 1 15 [i'l —120 144 90 -90 40 —120 40 —15 45 -15 1 Примечай ие. — Для представления функций [ ] в терминах ( ) ис- используются только числа, стоящие в соответствующем столбце таблицы над главной диагональю (включительно). Например, [412]=2F) — 2 E) A) — —D) B) -)-D) (IJ. Аналогично, для представления ( ) в терминах функций [ ] следует использовать только числа, стоящие в соответствующей строке слева от главной диагонали (включительно). Например, D) (IJ = [6] + + 2 [51]+ [42]+ [412].
ТАБЛИЦЫ 563 Таблица 11 Многомерные ft-статнстнки. Таблнцы представленнй /-статистик в тер- терминах расширенных симметрических функций н обратные таблицы (Заимствованы из статьи Уишарта A952).) 1-й порядок 2-й порядок I, [Ч/я 3-й порядок [iV И/я л, 1 h —1 1 [131/п'3' [21]/„121 И/я 1 1 1 Л| —1 1 3 /, 2 —3 1 4-й порядок [141/п141 [212]/n'3I [22]/«121 [31]/п'21 [4]/п 'пи 1 1 1 1 1 Ли -1 1 2 3 6 /,, 1 —2 1 3 'si 2 —3 . 1 4 1, —6 12 —3 —4 1 5-й порядок [15]/п'51 [213]/п'41 [221]/п'3' [312]/л'31 [32] /п'2' [41]/п'21 И/я 1 1 1 1 1 1 1 —1 1 2 3 4 6 10 In, 1 —2 1 3 3 15 Ли 2 —3 1 1 4 10 —2 5 —3 —1 1 10 —6 12 —3 —4 # 1 5 1, 24 -60 30 20 —10 -5 1
564 6-й порядок ПРИЛОЖЕНИЕ Продолжение [I6]/*'6" [214]/п'51 [2212]/п141 [313]//г14> [23]/л'31 [321]/п|3> [412]/п131 [32]/n'2l [42]/n'2l [51]/«'2l [6]/n 'пни 1 1 1 1 1 1 1 1 1 1 1 '2,1.1 ] 1 2 3 3 4 6 6 7 10 15 W 1 2 1 3 3 3 9 9 15 45 2 —3 1 . 1 4 2 4 10 20 lm —1 3 —3 1 3 15 'oi —2 5 —3 —1 1 6 4 10 60 '«., —6 12 -3 —4 1 1 5 15 '»> 4 -12 9 4 —6 1 10 I* 6 — 18 15 4 —3 4 j 1 15 '*> 24 -60 30 20 —10 -5 1 6 '„ -120 360 —270 — 120 30 120 30 —10 -15 —6 1 Примечание. Для представления функций / в терминах расширен- расширенных симметрических функций используются лишь числа, стоящие в соответ- соответствующем столбце таблицы над главной диагональю (включительно); на- например, /222 = - [l6]/n'6' + 3 [214]/п|51 - 3 [2212]/п'41 + [23]/п'31. Для представления расширенных симметрических функций в терминах функций / используются лишь числа, стоящие в соответствующей строке таблицы под главной диагональю (включительно); например, [2212]/л'4' = = 'iпш 4-2/21111 4- '2211 •
ЦИТИРОВАННАЯ ЛИТЕРАТУРА Абдель Ати (Abdel Aty S. H.) A954), Tables of generalised ^-statistics, Biom. 41, 253. Бартлетт (Bartlett M. S.) A934), The vector representation of a sample, Proc. Camb. Phil. Soc. 30, 327. Бёрр (Burr I. W.) A942), Cumulative frequency functions, Ann. Math. Sta- Statist. 13, 215. Бозе (Bose S. S.) A935), On the distribution of the ratio of variances of two samples drawn from a given normal bivariate correlated population, Sankhya 2, 65. Болдуин (Baldwin E. M.) A946), Percentage points of the t distribution, Biom. 33, 362. Бэйкер (Baker G. A.) A930), Distribution of the means of samples of n drawn at random from a population represented by the Gram-Charlier Series, Ann. Math. Statist. 1, 199. Волд (Wold H.) A934a), Sulle correzione di Sheppard, Giorn. 1st. Ital. Att. 4, 304. Волд (Wold H.) A934b), Sheppard's correction formulae in several variables, Skand. Akt. 17, 248. Гамбел (Gumbel E. J.) A934), Les valeurs extremes des distributions stati- stiques, Ann. Inst. H. Poincare, 5, 115. Гамбел (Gumbel E. J.) A947), The distribution of the range, Ann. Math. Statist. 18, 384. Гамбел (Gumbel E. J.) A949), Probability tables for the range, Biom. 36, 142. Гамбел (Gumbel E. J.) A954), Statistical Theory of Extreme Values and some Practical Applications. (National Bureau of Standards, A. M. S. 33.) Гамбургер (Hamburger H.) A920, 1921), Ober eine Erweiterung des Stiel- tjesschen Momentproblems, Math. Ann. 81, 235; 82, 120 and 168. Гарвуд (Garwood F.) A936), Fiducial limits for the Poisson distribution, Biom. 28, 437. Гейеп (Gayen A. K.) A950), The variance ratio in random samples of any size drawn from non-normal universes, Biom. 37, 236. Гири (Geary R. C.) A930), The frequency distribution of the quotient of two normal variables, J. Roy. Statist. Soc. 93, 442. Гири (Geary R. C.) A936), The distribution of «Student's» ratio for non-nor- non-normal samples, Supp. J. Roy. Statist. Soc. 3, 178. Годвин (Godwin H. J.) A945), On the distribution of the estimate of mean deviation obtained from samples from a normal population, Biom. 33, 254. Годвин (Godwin H. J.) A949), Some low moments of order statistics, Ann. Math. Statist. 20, 279. Годвин (Godwin H. J.) A955). Generalisations of Tchebycheff's inequality, J. Amer. Statist. Ass. 50, 923,
566 ЦИТИРОВАННАЯ ЛИТЕРАТУРА Годвин и Хартли (Godwin H. J. and Hartley H. О.) A945), Probability integral and percentage points of the mean deviation in normal samp- samples, Biom. 33, 257. Гринвуд и Юл (Greenwood M. and Yule G. U.) A920), An inquiry into the nature of frequency-distributions of multiple happenings, etc., J. Roy. Statist. Soc. 83, 255. Гулдберг (Guldberg S.) A935), Recurrence formulae for the semi-invari- semi-invariants of some discontinuous frequency distributions of n variables, Skand. Akt. 18, 270. Дайсои (Dyson F. J.) A943), A note on kurtosis, J. Roy. Statist. Soc. 106, 360. Даниэле (Daniels H. E.) A954), Saddlepoint approximations in statistics, Ann. Math. Statist. 25, 631. Джеймс (James G. S.) A952), Notes on a theorem of Cochran, Proc. Camb. Phil. Soc. 48, 443. Джексон (Jacson D.) A921), Note on the median of a set of numbers, Bull. Amer. Math. Soc. 27, 160. Дженкинсон (Jenkinson A. F.) A955), The frequency-distribution of the annual maximum (or minimum) values of meteorological elements, Quart. Jour. Roy. Met. Soc. 81, 158. Джини (Gini C.) A912), Variability e Mutabilita, contributo allo studio delle distribuzkmi e relazioni statistiche, Studi Economico-Giuridici della R. Universita di Cagliari. Джонсон (Johnson N. L.) A949a), Systems of frequency curves generated by methods of translation, Biom. 36, 149. Джонсон (Johnson N. L.) A949b), Bivariate distributions based on simple translation systems, Biorn. 36, 297. Джонсон (Johnson N. L.) A957). A note on the mean deviation of the binomial distribution, Biom. 44, 532. Дэвид, Хартли и Пирсон (David H. A., Hartley H. О. and Pear- Pearson Е. S.) A954), Distribution of the ratio, in a single normal sample, of range to standard deviation, Biorn. 41, 482. Дэвид Ф. (David F. N.) A938), Tables of the Correlation Coefficient, Cam- Cambridge University Press. Дэвид Ф. (David F. N.) A949a), Note on the application of Fisher's &-statls- tics, Biom. 36, 383. Дэвид Ф. (David F. N.) A949b), Moments of the z and F distribution, Biom. 36, 394. Дэвид Ф. и Джоисон (David F. N and Johnson N. L.) A951), The effect of non-normality on the power function of the f-test, Biom. 38, 43. Дэвид Ф. и Джонсон (David F. N. and Johnson N. L.) A954), Statistical treatment of censored data. Part I, Fundamental Formulae, Biom. 41,225. Дэвид Ф. и Кендалл (David F. N. and Kendall M. G.) A949, 1951, 1953, 1955), Tables of symmetric functions, Biom. 36, 431; 38, 435; 40, 427; 42, 223. Дэс (Das S. C.) A956), The numerical evaluation of a class of integral. II, Proc. Camb. Phil. Soc. 52, 442. Зя Уд-дин (Zia Ud-Din M.) A954), Expression of the ^-statistics, k9 and k\o, in terms of power sums and sample moments, Ann. Math. Statist. 25, 800. Ирвин (Irwin J O) A927), On the frequency-distribution of the means of samples from a population having any law of frequency with finite mo- moments etc, Biom. 19, 225 and 21, 431. Ирвин (Irwin J. O) A937), The frequency-distribution of the difference bet- between two independent variates following the same Poisson distribution, J Roy Statist Soc. 100, 415.
ЦИТИРОВАННАЯ ЛИТЕРАТУРА 567 Ирвин и Кендал л (Irwin J. О. and Kendall M. Q.) A944), Sampling moments of moments for a finite population, Ann. Eug. Lond. 12, 138. Иэйтс (Yates F.) A935), Some examples of biassed sampling, Ann. Eug. Lond. 6, 202. йоргенсен (Jorgensen N. R.) A916), Undersogelser over Frequensflader og Korrelation Busck, Copenhagen. Каллбэк (Kullback S.) A934), An application of characteristic functions to the distribution problem of statistics, Ann. Math. Statist. 5, 264. Каплан (Kaplan E. L.) A952), Tensor notation and the sampling cumulants of ^-statistics, Biom. 39, 319. Каплански (Kaplansky I.) A945), A common error concerning kurtosis, J. Amer. Statist. Ass 40, 259. Карлемаи (Carleman T.) A925), Les functions quasi-analytiques, Gaut- hier — Villars, Paris. Карлтон (Carlton G. A.) A946), Estimating the parameters of a rectangujar distribution, Ann. Math. Statist. 17, 355. КендаллД. и Pao (Kendall D. G. and Rao K. S.) A950), On the gene- generalized second limit theorem in the theory of probabilities, Biom. 37, 224. Кендалл (Kendall M. G.) A938), The conditions under which Sheppard's corrections are valid, J. Roy. Statist. Soc. 101, 592. Кендалл (Kendall M. G.) A940a, b, c), Some properties of ^-statistics, Ann. Eug. Lond. 10, 106; Proof of Fischer's rules for ascertaining the sampling semiinvariants of й-statistics, Ibid. 10, 215; The derivation of multiva- riate sampling formulae from univariate formulae by symbolic operation, Ibid. 10, 392. Кендалл (Kendall M. G.) A941), Relations connected with the tetrachoric series and its generalisation, Biom. 32, 196. Кендалл (Kendall M. G.) A942), On semiinvariant statistics, Ann. Eug. Lond. 11, 300. Кендалл (Kendall M. G.) A949a), Reconciliation of probability, Biom. 36, 101. Кендалл (Kendall M. G.) A949b), Rank and product-moment correlation, Biom. 36, 177. Кендалл (Kendall M. G.) A952), Moment-statistics in samples from a finite population, Biom. 39, 14. Кендалл (Kendall M. G.) A953), Discussion of Hotelling A953), J. Roy. Statist. Soc. B, 15, 225. Кендалл (Kendall M. G.) A954), Two problems in sets of measurements, Biom. 41, 560. Кендалл и Смит (Kendall M. G. and Smith В. В.) A938—1939), Random- Randomness and random sampling numbers, J. Roy. Statist. Soc. 101, 147 and Supp. J. Roy. Statist. Soc. 6, 51. Кокрэн (Cochran W. Q.) A934), The distribution of quadratic forms in a normal system, with applications to the analysis of covariance, Proc. Camb. Phil. Soc. 30, 178. Кокрэн (Cochran W. G.) A940), Note on an approximative formula for significance levels of z, Ann. Math. Statist. 11, 93. Кокс (Cox D. R.) A948), Asymptotic distribution of the range, Biom. 35,310. Кокс (Cox D. R.) A954), Mean and coefficient of variation of range in small samples from non-normal populations, Biom. 41, 469; correction, 42, 277. Кооператив Стади (Co-operative Study) A917), On the distribution of the correlation coefficient in small samples, Biom. 11, 328. Корниш и Фишер (Cornish E. A. and Fisher R. A.) A937), Moments and cumulants in the specification of distributions, Rev. Inst. Int. Statist. 5, 307.
568 ЦИТИРОВАННАЯ ЛИТЕРАТУРА Крамер (Cramer H.) A926), On some classes series used in mathematical statistics, Skandinaviske Matematikercongres, Copenhagen. Крамер (Cramer H.) A928), On the composition of elementary errors, Skand. Akt. 11, 13 and 141. Крамер (Cramer H.) A937), Random Variables and Probability Destribu- tions, Cambridge University Press. (Есть русский перевод: Г. Крамер, Случайные величины и распределения вероятностей, М., ИЛ, 1947.) Крамер и Волд (Cramer H. and Wold H.) A936), Some theorems on distribution functions, J. Lond. Math. Soc. 11, 290. Крэйг (Craig A. T.) A943), Note on the independence of certain quadratic forms, Ann. Math. Statist. 14, 195. Крэйг (Craig С. С.) A936), Sheppard's corrections for a discrete variable, Ann. Math. Statist. 7, 55. Кук (Cook M. B.) A951), Bivariate ^-statistics and cumulants of their joint sampling distribution, Biom. 38, 179. Л о м и и ц к и (Lomnicki Z. А.) A952), The standard error of Gini's mean dif- difference, Ann. Math. Statist. 23, 635. Лукач (Lukacs E.) A942), A characterisation of the normal distribution, Ann. Math. Statist. 13, 91. Лукач (Lukacs E.) A952), An essential property of the Fourier transforms of distribution functions, Proc. Amer. Math. Soc. 3, 508. Лукач и С ас (Lukacs E. and Szasz О.) A952), On analytic characteristic functions, Pacific Jour. Maths. 2, 615. Лэнкастер (Lancaster H. О.) П954), Traces and cumulants of quadratic forms in normal variables, J. Roy. Statist. Soc. B, 16, 247. Ляпунов (Liapounoff A.) A901), Nouvelle forme du theoreme sur la limite de probabilite, Mem. Acad. Sci. St. Pet. (8), 12, No. 5. Мак Кей (McKay A. T.) A935), Sampling distribution of the difference bet- between the extreme observation and the mean, Biom. 27, 466. Мартин (Martin E. S.) A934), On the correction for the moment coefficients of frequency-distributions when the start of the frequency is one of the characteristics to be determined, Biom. 26, 12. Марципкевич (Marcinkiewicz J.) A938), Sur une propriete de Ja loi de Gauss, Math. Zeitschr. 44, 612. MaiepH (Matern B.) A949), Independence of non-negative quadratic forms in normally correlated variables, Ann. Math. Statist. 20, 119. Меррипгтон иТомпсон (Merrington M. and Thompson С. М.) A943), Tables of the percentage points of the inverted beta (F) distribution, Biom. 33, 73. Мизес (Von Mises R.) A936), La distribution de la plus grande de n valeurs, Revue de l'Union Interbalkanique 1, 1. Миллер (Miller J. С. Р.) A954), Tables of binomial coefficients, Roy. Soc. Math. Tables, vol. 3. Молина (Molina E. C.) A942), Tables of Poisson's Exponential Limit, Van Nostrand Co., Inc., New York. Моригути (Moriguti S.) A951), Extremal properties of extreme value di- distributions, Ann. Math. Statist. 22, 523. Морэн (Могап P. A. P.) A956), The numerical evaluation of a class of integrals, Proc. Camb. Phil. Soc. 52, 230. Мэллоуз (Mallows С L.) A956), Generalisations of Tchebycheff's Inequali- Inequalities, J. Roy. Statist. Soc. B, 18, 139. Мэрти (Murty V. N.) A955), Distribution of the quotient of maximum values in samples from a rectangular distribution, J. Amer. Statist. Ass. 50, 1136. Нэйр (Nair U. S.) A936), The standard error of Gini's mean difference, Biom. 28, 428.
ЦИТИРОВАННАЯ ЛИТЕРАТУРА 569 Пирсон (Pearson E. S.) A926), A further note on the distribution of range in samples taken from a normal population, Biom. 18, 173. Пирсон (Pearson E. S.) A930), A further development of tests for normality, Biom. 22, 239. Пирсон (Pearson E. S.) A932), The percentage limits for the distribution of range in samples from a normal population, Biom. 24, 404. Пирсон и Хартли (Pearson E. S. and Hartley H. O.) A942), The proba- probability integral of the range in samples of n observations from a normal population, Biom. 32, 301. Пирсон и Хартли (Pearson E. S. and Hartley H. O.) A950), Tables of the x2 integral and of the cumulative Poisson distribution, Biom. 37,313. Пирсон К. (Pearson К.) A900), On a criterion that a given system of devi- deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen in random sampling, Phil. Mag. E), 50, 157. Пирсом К. (Pearson К.) A919), On generalised Tchebycheff theorems in the mathematical theory of statistics, Biom. 12, 284. Пирсон К. (Pearson К.) A924а), On the moments of the hypergeometrical series, Biom. 16, 157. Пирсон К. (Pearson К.) A924b), On a certain double hypergeometrical se- series and its representation by continuous frequency surfaces, Biom. 16, 172. Пирсон К. (Pearson К.) A931), Appendix to a paper by Professor Tokishige Hojo. On the standard error of the median to a third approximation, etc., Biom. 23, 361. Пирсон К., Стуффер и Дэвнд (Pearson К., Stouffer S. A. and Da- David F. N.) A932), Further applications in statistics of the Tm(x) Bessel function, Biom. 24, 293. Питмэн (Pitman E. J. G.) A937), Significance tests which may be applied to samples from any population. II. The correlation coefficient test, Supp. J. Roy. Statist. Soc. 4, 225. Плэкетт (Plackett R. L.) A947), Limits of the ratio of mean range to stan- standard deviation, Biom. 34, 120. Плэкетт (Plackett R. L.) A954), A reduction formula for normal multi- variate integrals, Biom. 41, 351. Пой a (Polya G.) A945), Remarks on characteristic functions, Proceedings of the First Berkeley Symposium on Mathematical Statistics and Probabi- Probability, University of California Press. По л со и (Paulson E.) A942), An approximate normalisation of the analysis of variance distribution, Ann. Math. Statist. 13, 233. Пэр мэн и Пирсон К. (Pairman E. and Pearson К.) A919), On the corrections for moment coefficients of limitedrange frequency-distributions when there are finite or infinite ordinates and any slopes at the termi- terminals of the range, Biom. 12, 231. Рай дер (Rider P. R.) A955), The distribution of the product of maximum values in samples from a rectangular distribution, J. Amer. Statist. Ass. 50, 1142. Рафф (Raff M. S.) A956), On approximating the point binomial, J. Amer. Statist. Ass. 51, 293. Романовский (Romanovsky V.) A925), On the moments of the hypergeo- hypergeometrical series, Biom. 17, 57. Рубин (Ruben H.) A954), On the moments of order statistics in samples from normal populations, Biom. 41, 200. Сархан и Гринберг (Sarhan A. E. and Greenberg B. G.) A956), Esti- Estimation of location and scale parameters by order statistics from singly and doubly censored samples, Ann. Math. Statist. 27, 427.
570 ЦИТИРОВАННАЯ ЛИТЕРАТУРА Сичел (Sichel H. S.) A949), The method of frequency moments and its application to Type VII distributions, Biom. 36, 404. Слуцкий E. E. A950), Таблицы для вычисления неполной Г-функции и функции вероятностей х2. М., Изд-во АН СССР. Стильтьес (Stieltjes J.) A918), Recherches sur les fractions continues, CEuvres, Groningen. Стьюдент («Student») A908), On the probable error of a mean, Biom. 6, 1. Стьюдент («Student») A919), An explanation of deviations from Poisson's law in practice, Biom. 12, 211. Сэмпфорд (Sampford M.) A953), Some inequalities on Mill's ratio and • related functions, Ann. Math. Statist. 24, 130. Сэидон (Sandon F.) A924), Note on the simplification of the calcu- calculation of abrupthess coefficients to correct crude moments, Biom. 16, 193. Сюй и Л оли (Hsu С. Т. and Lawley D. N.) A939), The derivation of the fifth and sixth moments of 62 in samples from a normal population, Biom. 31, 238. Тейкроу (Teichroew D.) A956), Tables of expected values of order statistics and products of order statistics, Ann. Math. Statist. 27, 410. Тиле (Thtele T. N.) A903), Theory of Observations. Воспроизведено в Ann. Math. Statist. 2, 165 с английского издания 1903 г. Типпетт (Tippett L. Н. С.) A925), On the extreme individuals and the range of samples taken from a normal population, Biom. 17, 364. Томпсон (Thompson С. М.) A941), Tables of percentage points of the x2-d'- strlbution, Biom. 32, 187. Томпсон, Пирсон, Комри и Хартли (Thompson С. М., Pear- Pearson Е. S., Comrie L. J. and Hartley H. О.) A941), Tables of percentage points of the incomplete beta-function, Biom. 32, 151. Тьюки (Tukey J. W.) A950), Some sampling simplified, J. Amer. Statist. Ass. 45, 501. Уайз (Wise M. E.) A954), A quickly convergent expansion for cumulative hypergeometric probabilities, direct and inverse, Biom. 41, 317. Уикселл (Wicksell S. D.) A917), On logarithmic correlation with an appli- application to the distribution of ages at first marriage, Medd. Lunds Astr. Obs., No. 84. Уилльямс (Williams J. D.) A946), An approximation to the probability in- integral, Ann. Math. Statist. 17, 363. Уилсон и Хилферти (Wilson E. В. and Hilferty M. M.) A931), The distribution of chi-square, Proc. Nat. Acad. Sci. 17, 694. Уишарт (Wishart J.) A929), The correlation between productmoments of any order in samples from a normal population, Proc. Roy. Soc. Edin. 49, 1. Уишарт (Wishart J.) A949), Cumulants of multivariate multinomial distri- distributions, Biom. 36, 47. Уишарт (Wishart J.) A952), Moment coefficients of the ft-statistics in samples from a finite population, Biom. 39, 1. Феллер (Feller W.) A950), An Introduction to Probability Theory and its Applications. John Wiley and Sons, New York. Chapman and Hall, Lon- London. (Есть русский перевод: В. Феллер, Введение в теорию вероят- вероятностей и ее приложения, М., 1952.) Финн и (Finney D. J.) A938), The distribution of the ratio of estimates of the two variances in a sample from a normal bivariate population, Biom. 30, 190. Фишер (Fisher R. A.) A915), Frequency-distribution of the values of the cor- correlation coefficient in samples from an indefinitely large population, Biom. 10, 507.
ЦИТИРОВАННАЯ ЛИТЕРАТУРА 571 Фишер (Fisher R. А.) A920), A mathematical examination of the methods of determining the accuracy of an observation by the mean error and by the mean square error, Month. Not. R. Astr. Soc. 80, 758. Фишер (Fischer R. A.) A921a), On the mathematical foundations of theoreti- theoretical statistics, Phil. Trans. Roy. Soc. A, 222, 309. Фишер (Fisher R. A.) A921b), On the probable error of a coefficient of cor- correlation deduced from a small sample, Metron 1, No 4, 1. Фишер (Fischer R. A.) A928), Moments and product-moments of sampling distribution, Proc. Lond. Math. Soc. B), 30, 199. Фишер (Fisher R. A.) A935), The mathematical distributions used in the common tests of singnificance, Econometrica, 3, 353. Фишер и Иэйтс (Fisher R. A. and Yates F.) A953), Statistical Tables for use in Biological, Agricultural and Medical Research, 4th edition, Oli- Oliver and Boyd, Edinburgh. Фишер, Корбе и Уилльямс (Fisher R. A., Corbet A. S. and Willi- Williams С. В.) A943), The relation between the number of species and the number of individuals, J. Animal Ecology 12, 42. Фишер и Типпетт (Fisher R. A. and Tippett L. H. C.) A928), Limiting forms of the frequency-distribution of the largest or smallest member of a sample, Proc. Camb. Phil. Soc. 24, 180. Фишер и Уишарт (Fisher R. A. and Wishart J.) A931), The derivation of the pattern formulae of two-way partitions from those of simpler patterns, Proc. Lond. Math. Soc. 33, 195. Фостер и Стьюарт (Foster F. G. and Stuart A.) A954), Distribution- free tests in time-series based on the breaking of records, J. Roy. Sta- Statist. Soc. B, 16, 1. Фреше (Frechet M.) A927), Sur la loi de probabilite de l'ecart maximum, Annales de la Soc. Polonaise de Math. 6, 92. Фреше (Frechet M.) A937), Recherches theoriques modernes, Gauthier — Vll- lars, Paris. Фриш (Frisch R.^ A926), Sur les semi-invariants et moments employes dans l'etude des distributions statistiques, Oslo, Skrifter af det Norske Viden- skaps Academie, II, Hist.-Filos. Klasse, No. 3. Хартли и Дэвид (Hartley H. О. and David H. A.) A954), Universal bounds for mean range and extreme observation, Ann. Math. Statist. 25, 85. Хатке (Hatke M. A.)* A949), A certain cumulative probability function, Ann. Math. Statist. 20, 461. Хельмерт (Heimert F. R.) A876), Die Genauigkeit der Formel von Peters zur Berechnung des Wahrscheinlichen Beobachtungsfehlers direkter Beo- bachtungen gleicher Genauigkeit, Astronomische Nachrichten 88, No. 2096. Хойо (Hojo T.) A931, 1933), Distribution of the median, quartiles and inter- interquartile distance in samples from a normal population, Biom. 23, 315; A further note on the relation between the median and the quartiles in small samples from a normal population, Biom. 25, 79. Холдейн (Haldane J. B. S.) A937), The approximate normalisation of a class of frequency-distribution, Biom. 29, 392. Холдейн (Holdane J. B. S.) A939), Cumulants and moments of the binomial distribution, Biom. 31, 392. Холдейн (Haldane, J. B. S.) A942), Mode and median of a nearly normal distribution with given cumulants, Biom. 32, 294. Холдейн (Haldane J. B. S.) A948), Note on the median of a multivariate distribution, Biom. 35, 414. Хотеллииг (Hotelling H.) (J953), New light on the correlation coefficient and its transforms. J. Roy. Statist. Soc. B, 15, 193.
572 ЦИТИРОВАННАЯ ЛИТЕРАТУРА Хотеллинг и Соломоне (Hotelling H. and Solomons L. M.) A932), The limits of a measure of skewness, Ann. Math. Statist. 3, 141. Хэстингс, Мостеллер, Тьюки и Уинсор (Hastings С, Mosteller F., Tukey J. W. and Winsor C. P.) A947), Low moments for small samples, Ann. Math. Statist. 18, 413. Чу (Chu J. T.) A955), The «inefficiency» of the sample median for many familiar symmetric distributions, Biom. 42, 520. Шар л ье (Charlier C. V. L.) A931), Applications [de la theorie des probabi- lites] a l'astronomie, Gauthier — Villars, Paris. Шентон (Shenton L. R.) A954), Inequalities for the normal integral, inclu- including a new continued fraction, Biom. 41, 177. Шеппард (Sheppard W. F.) A898), On the application of the theory of error to cases of normal distributions and normal correlations, Phil. Trans. A, 192, 101 and Proc. Roy. Soc. 62, 170. Шеппард (Sheppard W. F.) A939, посмертное издание), The Probability Integral, British Ass. Math. Tables, vol. 7, Cambridge University Press. Эджворт (Edgeworth F. Y.) A904), The Law of Error, Trans. Camb. Phil. Soc. 20, 36 and 113 (с дополнением в оттисках). Эйткин (Aitken А. С.) A950), Statistical independence of quadratic forms in normal variates, Biom. 37, 93. Элдертои (Elderton Sir W. P.) A938a), Frequency Curves and Correlation, 3rd ed., Cambridge University Press. Элдертои (Elderton Sir W. P.) A938b), Correzioni dei momenti quando la Curva ё simmetrica, Giorn. 1st. Hal. Att. 16, 145. Элфвинг (Elfving G.) A947), Asymptotical distribution of range in samples from a normal population, Biom. 34, 111. Энис и Ллойд (Anis A. A. and Lloyd E. H.) A953), Range of partial sums of normal variates, Biom. 40, 35. Юл (Yule G. U.) A910), On the distribution of deaths with age when the causes of death act cumulatively, J. Roy. Statist. Soc. 73, 26. Юл (Yule G. U.) A927), On reading a scale, J. Roy. Statist. Soc. 90, 570. Юл (Yule G. U.) A938), On some properties of normal distributions, univariate and bivariate, based on sums of squares of frequencies, Biom. 30, 1. Юэн (Yuan P. T.) A933), On the logarithmic frequency distribution, Ann. Math. Statist. 4, 30. Я сука в a (Yasukawa К.) A926), On the probable error of the mode of fre- frequency-distributions, Biom. 18, 263.
УКАЗАТЕЛЬ Абдель Ати (Abdel Aty S. Н.), таблицы многомерных fe-статистнк 418 Аборт, распределение женщин по времени между зачатием и абортом (таблица 1.22) 48 Абсолютные моменты (absolute moments) 93, неравенство Ляпунова для а. м. 93 и (упражнение 3.15) 133 Австралийские свадьбы, распределение а. с. (таблица 1.8) 24, моменты распре- распределения а. с. (пример 3.1) 85, асим- асимметрия и эксцесс распределения а. с. (пример 3.18) 126 Антнмода (antimode) 64 Апостериорная (posterior) вероятность 276 Аппроксимация выборочных распределе- распределений (approximation to sampling distri- distributions) 380 Аппроксимация с применением метода пе- перевала (approximation by the method of the steepest descent) 373 Априорная (prior) вероятность 276 Арифметическое среднее (arithmetic mean), см. среднее арифметическое Асимметрические распределения (asym- (asymmetrical distributions) 23—25. см. также Асимметрия Асимметрия (skewness) 25; меры а. 124— 125 и (упражнение 3.22) 135; стандарт- стандартные ошибки й| 325—336; выборочные моменты bi 411—412 и (упражнение 12.9) 421 Афолт (Upholl W. М.), данные (таблица 1.5) 22 Байеса теорема (Bayes'theorem) 275; по- постулат 276—282; максимальное правдо- правдоподобие 280—282 н (упражнения 8.1—2) 284—285; при выборочном изучении ка- качественных признаков (упражнение 9.3) 315 Бартлетт (Bartlett M. S.), характеризация нормального распределения 503 Бернулли числа и полиномы (Bernoulli numbers and polynomials) 118—119 н (упражнение 4.20) 170 Бёрр (Burr I. W.), подгонка ф. р. 242—243 и (упражнение 6.19) 248—249 Бета-распределение (Beta distribution) первого рода, арифметическое среднее (пример 2.2) 58; геометрическое и гар- гармоническое средние (пример 2.4) 59—60- дисперсия (пример 2.8) 72; первого н второго рода 210—212; полиномы Якоби при разложении в ряды 228; преобра- преобразование Джонсона (упражнения 6.14—15) 247—248; см. также Распределения типа I и VI Билетов выбор или лотерея (ticket samnl ing) 296 38 М. Кеидалл, А. Стьюарт Биномиальное распределение (binomial distribution), производящая функция 45; моменты (пример 2.3) 58 и (пример 2.9) 72; (пример 3.2) 86—88; производящая функция моментов (характеристическая функция) (пример 3.5) 92; факториаль- ные моменты (пример 3.8) 99 и (упраж- (упражнение 3.7) 131; факториальные семи- семиинварианты (пример 3.14) 111; асиммет- асимметрия и эксцесс (пример 3.19) 126; асим- асимптотическая нормальность (пример 4.6) 153—154; общие сведения 171—178; х. ф.. моменты и семиинварианты 173—175 н (упражнение 5.1) 201—202; функция рас- распределения 175—178; таблицы 177—178; ошибки при нормальной аппроксимации 178; смешанные биномиальные совокуп- совокупности 180—182 н (упражнение 5.6) 203; двумерное 199—201; неполные моменты (упражнения 5.2—3) 202; среднее откло- отклонение (упражнение E.4) 202; в выбо- выборочном изучении качественных при- признаков 305—307; (упражнение 9.14) 317; с отрицательным индексом, см. Отри- Отрицательное биномиальное распределение; распределение среднего (пример 11.10) 360 Бобы, распределение (таблица 1.15) 40; ги- гистограмма (рис. 1.6) 41; подгонка рас- распределения типа Пирсона (пример 6.1) 214—216; подгонка с помэщыо рядов Грам-Шарлье (пример 6.2) 224— 225; подгонка с помощью логнормаль- ного распределения (пример 6.5) 237— 238 Бозе (Bose S. S), распределение дис- дисперсионного отношения коррелирован- коррелированных величин (упражнение 16.16) 546— 547 Болдуин (Baldwin E. М.), таблица про- процентных точек г-распределения 521 Большие выборки (large samples), аппро- аппроксимации в случае б. в., см. Стандарт- Стандартные ошибки Больших чисел закон (Law of large Num- Numbers) 267—268 и (упражнение 7.20) 274; усиленный 268 Борткевич (BortMewlcz L.), данные о са- самоубийствах (таблица 1.6) 22 Браун (Brown F. А. С), см. Эйтчисон Бридж, вероятности при игре в б. (при- (пример 7.2) 254-256 Бросание костей (dice-throw), данные Уэл- дона (таблица 1.14) 38; (таблица 1.16) 45; (таблица 5.1) 173: (пример 9.10) 808 Букер (Booker H. S ). данные (таблица 1.21) 47 Бьеиэме — Чебышева неравенство (Bie- nayme— Tchebycheff Inequality) 128—129, 149, 267; в случае выборочного изучения
574 УКАЗАТЕЛЬ качественных признаков (упражнение 9.4) 315; в связи со стандартными ошибками 325 Бэбиигтои Смит (Babington Smith В.), данные о телефонных номерах (табли- (таблица 1.4) 22; данные о работе с датчиком случайных чисел (пример 9.6) 291—292; таблицы случайных чисел 298, 304 Бэйкер (Baker G. Л.), распр^делоние сум- суммы случайных переменных, плотность распределения каждой из которых sa- дается в виде ряда типа А (упражне- (упражнение 11.10) 375 Варианта (variate) 16, преобразования ва- вариант 35—37, 43—44 Барнацня (variation), коэффициент в. 74— 75; стандартная ошибка в. (пример 10.5) 324-325, 326, 336 Ватсои (Watson G. S.) полиномы Якоби в разложении бета-распределення, 229 Вероятность (probability) 250—285; исчис- исчисление в. 250—274; основные правила 252—253; важность точного описания множества элементарных исходов (при- (примеры 7.1—2) 253—256 и (упражнения 7.6, 7.11) 271—272; в непрерывном слу- случае 257—258; геометрическая в. (пример 7.4) 258 и (упражнения 7.9—11) 272; в. и статистические распределения 259— 260; априорная и апостериорная в. 276; см. также Байеса теорема. Правдопо- Правдоподобие Бес, распределение мужчин по в. (табли- (таблица 1.10) 26 Вист, распределение карт при игре в в. (таблица 5.5) 191 Возвращение (replacement), выбор с и без в. 287; (пример 9.12) а 12—313; (упраж- (упражнения 9.8—9) 316 Болд (Woid H.), поправки Шеппарда 113, 117—118, 121; критерий Карлемана для проблемы моментов в случае много- многомерных распределений 160; таблица случайных нормальных отклонений 299 Вторая предельная теорема (Second Limit theorem), 165—167 Бу (Woo T. L.), данные о черепах (таб- (таблица 1.18) 46 Выбор (sampling) с и без возвращения 287; из гипотетической совокупности 288; билетов или лотерея 296; из непре- непрерывных совокупностей 304—305; см. также Случайный выбор Выборочное распределение (sampling di- distribution) 265—266; роль в выборочной теории 311; точные в. р. 341—379; ана- аналитический способ нахождения 341—351; геометрический способ нахождения 351—359; получение с помощью х. ф. 359—365; отыскание в. с. сумм с по- помощью метода индукции 365—367; отно- отношений 367—373; многомерное 373; ап- аппроксимация в. р. 380—445; см. также на названия распределений Выборочные моменты (sampling moments), см. fc-статистикн Вырожденное распределение (unit distri- distribution), х. ф. (пример 4.3) 143 Гамбел (Gumbel E. J.), двумерные ф. р. (Упражнение 1.22) 53; теория экстре- экстремальных (крайних) значений 453 (сно- (сноска), 456 (сноска), 460—461; редуциро- редуцированный размах и редуцированная. сре- средина размаха 469—471; таблицы распре- распределений крайних значений 470—471; функция распределения размаха (упраж- (упражнение 14.19) 476 Гамбургер (Hamburger H.), проблема мо- моментов 157 (сноска) Гамма-распределение (Gamma distribu- distribution), семиинварианты и обращение х. ф. (пример 4.4) 143—144; однозначное определение по моментам (упражнение 4.6) 168; как распределение квадрата нормальной случайной величины (упраж- (упражнение 4.18) 170; разложение Грам- Шарлье типа А (пример 6.3) 227—228; связь с полиномами Лагерра при раз- разложении в ряд 228; приближение к нормальному (пример 6.4) 233—234; ло- логарифмическое преобразование (Джои- сона) (упражнение 6.13) 247; характе- ризация (упражнение 15.22) 509; см. также распределение типа III Гарвуд (Garwood F.), аппроксимация %* распределения (таблица 16.1) 516 Гармоническое среднее (harmonic mean), см. Среднее гармоническое Гаусс (Gauss С.) и нормальное распреде- распределение, 192 (сноска) Гаусса — Винклера неравенство (Gauss — Winckier inequality) (упражнение 3.18) 134 Гейеи (Gayen A. K-), z-преобразова- ние коэффициента корреляции 540 (сноска) Гельдера неравенство (Holder's Inequality) 62 и (упражнение 3.15) 133 Генеральная совокупность (population) как основное понятие статистической теории 15; существующая г. с. 38—39; гипоте- гипотетическая г. с. 39; типы г. с, 287— 288 Геометрические аероятности (geometric probabilities) (пример 7.4) 258 и (упраж- (упражнения 7.9—11) 272 Геометрическое среднее (geometric mean), см. Среднее геометрическое Гипергеометрическое распределение (hy- pergeometrlc distribution) 188—191; х. ф. и моменты 189—190; предельные формы 197—198; факторнальиые моменты (уп- (упражнение 5.26) 207; при выборе для изучения качественных признаков (при- (пример 9.12) 312—313 Гипотезы 280—283 Гипотетическая совокупность (hypothetical population) 39; выбор из нее 288 Гнри (Geary R. С), распределение отно- отношения 369 (упражнение 11.11) 375—376; независимость среднего и дисперсии выборки из нормальной генеральной со- совокупности (упражнение 11.19) 377—378 и (пример 12.7) 401—402 Гистограммы (histogram) 19; двумерные 39-41 Главное значение (principal value) в свя- связи с математическим ожиданием 89 (сноска) и (упражнение 7.19) 274 Годвин (Godwin Н. J.). неравенства че- бышевского типа 130; распределение среднего отклонения 334; моменты по- порядковых статистик 4S0 Гомоскедастнчиость (homoscedastic) 530 ГОССет (Gosset W. S.), см. Стьюдент
УКАЗАТЕЛЬ 575 Грам-Шарлье ряды (Gram-Charlier series) типа А 219—228; соответствующие ф. р. 224; подгонка к данным о бобах (при- (пример 6.2) 224—225; условия сходимости 225—227 и (упражнение 6.9) 246; дву- двумерные 244 н (упражнение 6.16) 248; (упражнения 6.10—11) 246—247; распре- распределение сумм (упражнение 11.10) 375; см. также Эджворта ряды типов В и С 228 и (упражнение 6.8) 246 Графическое представление частотных распределений (graphical representation of frequency-distributions), см. Полигон частот, Гистограмма Гринберг (Greenberg Б.), таблица диспер- дисперсий порядковых статистик в нормаль- нормальном случае 452 Гринвуд (Greenwood M.), данные о не- несчастных случаях на производстве (таблица 5.3) 183 Гулдберг (Guldberg S.), семиинварианты многомерных распределений (упражне- (упражнение 5.19) 206 Гэлбран (Galbrun H.) сходимость рядов Грам-Шарлье 226 Дайсон (Dyson F. J.), эксцесс (упражне- (упражнение 3.20) 134 Даннэлс (Daniels H. E.), распределение отношений 369, (упражнение 11.24) 379, метод перевала 373—374 Датчик случайных чисел (randomizing ma- machine) (пример 9.3) 291—292 Двойное экспоненциальное (Лапласа) рас- распределение (double exponential (Lapla- (Laplace) distribution), обращение х. ф. (упражнение 4.3) 168; дисперсия сред- средней широты (пример 14.5) 469 Двумерное (bivarlate) биномиальное рас- распределение Двумерное (binomial distribution) 199—201; нормальное распределение (normal di- distribution) (пример 1.1) (пример 3.17) 121; моменты (пример 3.19) 126; одно- однозначность определения по моментам (упражнение 4.17) 170; совместная х. ф. квадратов величин (упражнение 4.19) 170; как предел двумерного биномиаль- биномиального распределения 200—201; двумерные ряды Грам-Шарлье и дифференциаль- дифференциальное уравнение (упражнения 6.16—17) 248; х. ф. суммы случайных величин (упражнение 7.13) 273; распределение отношения случайных величии (упраж- (упражнение 11.22) 378—379; моменты ковариа- ции выборки (пример 13.3) 442—443; дисперсии и ковариации Л-статистнк (упражнения 13.1—2 и 13.7—8) 443, 444; (пример 15.1) 481; теорема Шеппарда с медианой дихотомии 485; (упражнения 15.7—8) 506—507; условная ковариацня при линейных связях (упражнение 15.18) 508; недостаточность знания од- одномерных нормальных распределений (упражнение 15—20) 508; выбор из д. н. р. 529—544; распределение коэф- коэффициента корреляции выборки 529—543; распределение коэффициентов регрессии выборки 542—544; пуассоновское рас- распределение (упражнение 5.11) Двумерные (bivariate) распределения (di- (distributions) 39—44; (упражнение 1.22) 53; подгонка 244 *-статистики (^-statistics) 424—430 Двумерные моменты и семиинварианты (moments and cumulants) 120—124; стан- стандартные ошибки их 327—328 Дербни (Durbln J.), полиномы Якоби в разложении бета-распределения 229 Децилн (deciles) 65; интердецильиая широта 67; стандартные ошибки д. 337; см. также Порядковые стати- статистики Джеймс (James G. S.), преобразование случайной переменной (упражнение 13.6) 444; разложение суммы квадратов 497 Дженкинсон (Jenkinson A. F.). асимпто- асимптотическое распределение экстремальных значений 454 Джеффрейс (Sir Harold Jeffreys) н посту- постулат Байеса 277 (сноска) Джини (Ginl С), коэффициент средней разности 74, 333—335; коэффициент рас- рассеяния 75 Джонсои (Johnson N. L.), среднее откло- отклонение биномиального распределения (упражнение 5.4) 202; система преобра- преобразований вариант 234—235, 239, 242; подгонка двумерных распределений 244; моменты дисперсионного отноше- отношения 414; моменты порядковых статн- стик 452 и (упражнения 14.1 и 14.3) 472-473 Джонсона преобразования (Johnson trans- transformations) 234—243; использование при подгонке распределения к данным о бобах (примеры 6.5, 6.7) 237—238, 241— 242; к данным об облачности (пример 6.6) 239—240; применение к гамма- распределеиню (упражнение 6.13) 247 Джэксон (Jackson D) о медиане 63 Дискретные распределения (discontinuous distributions) 21—23, 28—29, 32; обра- обращение соответствующих нм х. ф. 140— Дисперсионного отношения распределение (variance-ratio distribution) (пример 11.20) 369—371; общие сведения 521 — 529; отношение между F- н г-распреде- лениями 522—523; вид ^-распределения 523; х. ф. г-распределения 523; прибли- приближение г-распределения к нормальному 524; ф. p. F- н г-распределений и таб- таблицы 524; распределения величин i/F и 1/г 524—525; аппроксимации г-рас- г-распределения 525—528: отношение к нор- нормальному, х2- н ^-распределению 528— 529; моменты ^-распределения (упраж- (упражнение 16.1) 544; распределение в случае коррелированных нормальных случай- случайных величин (упражнение 16.16) 546— 547 Дисперсию уравнивающее преобразование (variance-stabilizing transformations) (упражнение 10.17) 339 и (упражнения 16.18-19) 547 Дисперсия (variance) 68; как половина средней квадратичной разности 74; стандартная ошибка 320, 336; точные среднее и дисперсия выборочного рас- распределения д. (упражнение 10.13) 339, 381 (пример 12.1) 383 и (пример 12.3), 397; точное распределение в случае вы- выборок из нормальной генеральной со- совокупности (пример 11.7) 354; выбороч- выборочная дисперсия д. выборки из конечной генеральной совокупности (упражнение 38*
376 УКАЗАТЕЛЬ 12.11) 422; см. также стандартное от- отклонение Доход, распределение лиц по доходам 18, 20, 31 Дэвид (David H. А.), верхние границы для средних значений порядковых ста- статистик 462, 463; границы для среднего значения размаха 467; распределение отношения случайного отклонения от среднего выборки к стандартному от- отклонению выборки (упражнение 16.20) 547 Дэвнд Ф. (David F. N.). таблицы сим- симметрических функций 102 (сноска), 383, распределение разности случайных пе- переменных с распределениями 111 типа (упражнение 11.15) 377; моменты сим- симметрических функций 413; моменты дисперсионного отношения 414; моменты порядковых статистик 452 и (упражне- (упражнения 14.1. 14.3) 472, 473; таблицы коэф- коэффициентов корреляции 537, 541 Дэс (Das S.), отношение Миллса (упраж- (упражнение 5.13) 204 Закон больших чисел (Laws of Large Numbers) 267, 268 и (упражнение 7.20) 274 Замена переменных (change of variables) 44, 342—344 Зелен (Zelen M.), двумерный нормальный интеграл 483 Ирвин (Jtyj'in J. О), распределение сред- среднего в случае выборок из совокупности с распределением 11 типа (упражне- (упражнение 11.И) 377; разность двух пуассо- нонских переменных (упражнение 11.16) 377; выбор из конечных совокупностей 416 Интервал (interval), см. Класс-интервал Интердецильная широта (interdecile ran- range) 68 Интерквартнльная широта (interquartile range) 67; стандартная ошибка семнин- терквартильиой широты (пример 10.8) 332; стандартная ошибка и. ш. в нор- нормальном случае 450 Иэйтс (Yates F.), данные о высоте расте- растений (пример 9.1) 289; таблицы случай- случайных чисел 299; таблица процентных то- точек %2-распределення 513; таблица про- процентных точек ^-распределения 520; таб- таблицы процентных точек F- и г-распре- деленнй 524 Иоргенсон (Jorgensen N. R.), таблицы по- полиномов Чебышева — Эрмита 218 Иохансон (Johansen W.), данные о бобах, цитированные Преториусом (таблица 1.15) 40 Кавата (Kawata Т.), характернзацня нор- нормального распределения Ь02 Каллбэк (Kullback S.), распределения геометрических средних (упражнения 11.3, 11.9) 374, 375 Каплан (Kaplan E. Z.). тензорные форму- формулы для ft-статистик 440 н (упражнение 13.9) 444 Каплански (Kaplansky J.), эксцесс (упраж- (упражнение 3.21) 135 Карлеман (Carleman Т.), критерий един- единственности для проблемы моментов 159 Карлтои (Carlton G. А.), выбор нз пря- прямоугольного (равномерного) распреде- распределения (упражнения 14.17—18) 475—476 Картофель, систематическая ошябка (при- (пристрастие) в предсказании урожая (при- (пример 9.4) 292 Качественные признаки (attributes), аыбо- рочное изучение качественных призна- признаков 305—315; (упражнения 9.1—9.12 и 9.14) 315—317; (упражнение 10.4) 338 Квадратичные формы от нормальных слу- случайных переменных (quadrqtic forms in normal variates) 489—500 и (упражнения 15.14—15) 508; их независимость 493— 496; независимость от линейных форм 496 и (упражнение 15.13) 507; разложе- разложение сумм квадратов 497—500 Квантили (quantiles) 65; графический спо- способ определения 67; асимптотическая нормальность и стандартные ошибки 328—332, 337; ковариацни, к. 331; см. также Экстремальные значения, По- Порядковые статистики Квартили (quartiies) 65; ннтерквартильная широта как мера рассеяния 67; стан- стандартные ошибки 337 Кендалл (Kendall D. G.) и Pao (Rao К. S.), последовательности ф. р. 149; вторая предельная теорема 161—167; стремление старших моментов к беско- бесконечности, когда последовательность ф. р. сходится к нормальной (пример 4.12) 169 Кендалл М. (Kendall M. G.), цифры нз телефонной книги (таблица 1.4) 22; таблицы симметрических функций 102— 103 (сноска) и 383; поправки Шеппарда 117; двумерные ряды Грам-Шарлье (упражнения 6.16—17) 248; о теориях вероятностей 251; данные о случайно- случайности (таблица 9.3) 291; таблица случай- пых чисел 298—299; случайные переста- перестановки 302 (сноска); выбор нз конечных совокупностей 416; многомерные &-ста- тнетикн 418; п. ф. м. fe-статнстнк (упражнения 12.15—16) 422—423; фор- формальный метод получения многомерных fe-статистик из одномерных 428; диспер- дисперсия ближайшего наблюденного значе- значения к истинному среднему в нормаль- нормальном случае (упражнения 14.10—11) 474; многомерный нормальный интеграл 483, 486; преобразования коэффициента корреляции (упражнение 16.19) 547 Класс-ннтервал (class-interval) 17; замеча- замечания о к.-и. 19—21 Класс-частота (class-frequency) 18 Ковариация (covariance) 120; моменты к. (пример 13.3) 442—443; матрица к., см. Рассеяния матрица Кокрэн (Cochran W. G.), случайные пере- перестановки 302 (сноска); независимость квадратичных форм 494; теорема о разложении суммы квадратов 497—500 и (упражнение 15.17) 508; аппроксима- аппроксимация ^-распределения 526 Кокрэна теорема (Cochran's theorem) 497—500 Кокс Г. (Сох G. R.), случайные переста- перестановки 302 (сноска)
УКАЗАТЕЛЬ 577 Кокс Д. (Сох D. R.), распределение раз- размаха 466 и (упражнение 14.15) 475; ре- редуцированный размах 470 Колонии, распределение числа индивиду- индивидуумов в к. (упражнения 5.7—8) 203 и (упражнения 5.21—2) 206 Конверты и письма, задача об их соот- соответствии (пример 7.3) 256—257 и (упраж- (упражнение 7.4) 271 Конечные совокупности (finite populations) 287; ft-статнстнки при выборе из к. с. 414—418; двумерный случай 429— 430 Кооператив Стадн (Co-operative Study), о распределении коэффициента кор- корреляции 536 и (упражнение 16.15) 546 Корбе (Corbet A. S.), логарифмическое распределение (таблица 5.4) 188 Корннш (Cornish Е. А.), нормализация распределений. 233; аппроксимация г- распределения 525 Корреляции коэффициент (correlation coef- "ficient), стандартная ошибка (пример 10.6) 328, 337; преобразование, выравни- выравнивающее дисперсию (упражнение 10.17) 339; выоорочиое распределение при вы- выборке из двумерной нормальной гене- генеральной совокупности 529—539; таблицы к. к. 537; г-преобразованне Фншера 539—541, (упражнение 16.21) 548; рекур- рекуррентное соотношение для ф. "п. (упраж- (упражнение 16.14) 546; дифференциальное уравнение для ф. п. (упражнение 16.15) 546; среднее и дисперсия к. к. для вы- выборки из генеральной совокупности с распределением, имеющим непрерывные независимые компоненты (упражнение 16.17) 547 Коши — Буняковского неравенство (Саи- chy — Schwarz inequality) 62 Кошн распределение (Cauchy distribution), бесконечность моментов (пример 3.3) 89; х. ф. (пример 3.13) 109; обращение х. ф. (пример 4.2) 142; совпадение с распределением среднего выборки (при- (пример 11.1) 344—346 н (пример 11.17) 366; как распределение отношения квадра- квадратов нормальных случайных величии (пример 11.21) 372; как распределение отношения не нормально распределен- распределенных случайных величин (упражнение 11.23) 379 Коши типа распределения в теории экс- экстремальных значений (Cauchy-type di- stibutions in extreme-value theory) 457 Крамер (Cramer H.). условия для того, чтобы функция была X. ф. 146—147; критерий Карлемана для проблемы мо- моментов в многомерном случае 160; схо- сходимость рядов Грам-Шарлье 225—227, 234; распределение отношения 369 (goodness of-fit distribution) пример 15.3) 490—492 и (упражнение 15.21) 508— 509 Крэйг A. (Craig А. Т.), квадратичные формы 491, 499. (упражнение 15.16) 508 Крэйг С. (Crsig С. С), поправки к мо- моментам дискретных распределений 117 и (упражнение 3.13) 132 Критерий согласия х2 н Х2-Распределение Крэйг P. (Craig R.). данные (таблица 1.5) 22 Кук (Cook M. В.), моменты и семиинва- семиинварианты многомерных распределений 123 (сноска); выборочные семиинварианты многомерных ft-статистик 428, 442 и упражнение 13.4) 444 Кэнуй (Quenouille M. Н.), отрицательное биномиальное распределение как ком- комбинация пуассоновского и логарифми- логарифмического распределений (упражнение 5.21) 206; случайные отклонения 299 Лагерра полиномы и разложения гамма- распределеиия (Laguerre polynomials and Gamma distribution espansions) 228 Лаплас (Marquis de Laplace P. S.) и нор- нормальное распределение 192 (сноска); непрерывная дробь для нормального распределения 194—195 н (упражнение 5,12) 204; лапласовское правило следо- следования (пример 8.3) 278—279 н (упраж- (упражнение 8.4) 285 Лапласа распределение (Laplace distribu- distribution), см. Двойное экспоненциальное распределение Лаха (Laha R. О.), характеризация гам- гамма-распределения (упражнение 15.22) 509 Леви (Levy P.) о х. ф. 136 Лн (Lee А.), данные (таблица 1.19) 46 Либерман (Lieberman G. J.), таблицы гинергеометрического распределения 191 Линдеберг (Lindeberg J. W.), центральная предельная теорема 269 Линейные функции (linear functions), стандартные ошибки л. ф. от случай- случайных переменных 323—324; распределение л. ф. от независимых нормальных слу- случайных переменных (пример 11.2) 346— 347, (пример 11.5) 352—353; независи- независимость л. ф. от квадратичных форм Ллойд (Lloyd E. Н.), матрица рассеяния многомерного нормального распределе- распределения (упражнение 15.11) 509 Логарифмическое распределение (loga- rithmie distribution) 186—188; х. ф. и моменты 187—188; отрицательное бино- биномиальное распределение как комбина- комбинация логарифмического и пуассоновско- пуассоновского распределений (упражнение 5.21) 206 Логистическое распределение (logistic di- distribution), X. ф. (упражнение 4.21) 170; ф. р. экстремального значения при вы- выборке из генеральной совокупности с л. р. (упражнение 14.2) 472—473 Логнормальное распределение (lognormal distribution) 235—238 Лоли (Lawley D. N.), выборочные семиин- семиинварианты ft-статистик в нормальном случае 411 Ломннцки (Lomnicki Z. А.), стандартная ошибка средней разности Джнни 334—335 Лукач (Lukacs Е.) х. ф. 136 (сноска). 147, 167; независимость среднего н дис- дисперсии выборки как характеристическое свойство нормального распределения (упражнение 11.19) 377—378, (пример 12.7) 401—402 и 500—503; характеризации 505
578 УКАЗАТЕЛЬ Лэнкастер (Lancaster H. О.), независи- независимость квадратичных форм от нормаль- нормальных случайных переменных 494, 499; разложение сумм квадратов 497; харак- тернзации нормального распределения 504—506; условие для того, чтобы одна квадратичная форма была частью дру- другой (упражнение 15.15) 508 Ляпунов А., неравенство для моментов 93 и (упражнение 3.15) 133 Мак Кей (McKay А. Т.), распределение порядковых статистик в нормальном случае (упражнение 14.14) 475 Максимальное правдоподобие (maximum likelihood), см. Правдоподобие Маргинальное (частное) распределение (marginal distribution) 42 Марков А., неравенство 129, (упражнение 7.16) 273 Мартин (Martin E. S.), поправки к груп- группировке 117 Марцинкевич (Marcinkiewicz J.), условия для того, чтобы экспонента от полино- полинома была х. ф. 147 и (упражнение 4.11) 169 Математические таблицы, распределение цифр из м. т. 298 Матери (Matern В.), независимость не- неотрицательных квадратичных форм 495 Медиана (median) 162; вычисление (при- (пример 2.5) 81; неоднозначность определе- определения 62—63; двумерного распределения 63; связь со средним и модой 64—65 и (упражнение 6.20) 249; как значение, минимизирующее среднее отклонение (упражнение 2.1) 80; стандартная ошиб- ошибка (пример 10.7) 330, 336, (пример 11.4) 351; распределение в нормальном слу- случае 447—450; распределение в случае распределения Коши (упражнение 14.1) 472; границы для дисперсии (упражне- (упражнение 14.7) 474 Медианная дихотомия (median dichotomy) 485 Менделя закон (Mendelian law) в выборе при изучении качественных признаков 306-307 Меррингтон (Merrlngton M.), таблица про- процентных точек распределения диспер- дисперсионного отношения 524 Мерсер (Mercer W.). данные (таблица ¦ 1.20) 47 Мизес (R. von Mlses), асимптотические распределения экстремальных значений 456 Миллса отношение (Mills'ratio) 193; (упражнения 5.13—16) 204—205 Многомерное нормальное распределение (multivarlate normal (multinormal) di- distribution), правила для ft-статистнк (упражнение 13.12) 445; общие сведе- сведения 477—509; вырожденные (сингуляр- (сингулярные) 478 и (пример 15.3) 490—492; х. ф. и моменты 478—481; линейные функции нормальных переменных 481—482; нор- нормальность маргинальных распределений 482; интеграл 483—489 н (упражнения 16.6, 15.12) 506, 507; квадратические формы 489—500 н (упражнение 15.13) 507; характернзацни 500—506; нормаль- нормальность условных распределений (упраж- (упражнение 15.1) 506; условия на дисперсион- дисперсионную матрицу (упражнение 15.9—11) 507; условная ковариация при наличии линейных связей (упражнение 15.19) 508; недостаточность нормальности мар- маргинальных распределений для сов- совместной нормальности (упражнение 15.20) 508 Многомерные (multivariate) распределения 39—45; моменты н семиинварианты 120— 124, х. ф. 154—156; выборочные распре- распределения 373; ft-статнстики 424—430, 438— 443 Мода (mode) 63—64; связь со средним и медианой 64—65 н (упражнение 6.20) Моменты (moments) 68—69, 83—84; по- поправки к группировке 72—73, 111—119; вычисление относительно одной точки через значения относительно другой точки 84—85; вычисление 85—90; выра- выражение через факториальные моменты 95; связь с семиинвариантами 101—106; многомерные м. 120—121; как характе- характеристики распределения 126—128; неодно- неоднозначность определения ф. р. по момен- моментам, см. Проблема моментов; прн под- подгонке распределений Пирсона 214—216; стандартные ошибки 318—328 н (упраж- (упражнение 10.5) 338; ковариацни (упражне- (упражнения 10.7, 10.16) 338, 339; распределения 362—365, см. Абсолютные моменты, Факториальные моменты. Неравенства для м. Моменты вероятностей (frequency-mo- (frequency-moments) нормального распределения (упражнение 5.10) 203--204; в подгонке распределений 243—244 Моиомиальные симметрические функции (monomial symmetric functions) 243— 244 Моригути (Morlgutl S.), границы для мо- моментов вероятностей 244; границы для средних значений порядковых статистик 463 Морэн (Могап Р. А. Р.), многомерный нормальный интеграл 487, 489 Муавр (Demoivre А.), первооткрыватель нормального распределения 192 (сно- (сноска) Мультимодальность (multimodal) 64 Мультиномиальное распределение (multi- (multinomial distribution) 198—199; семиинва- семиинварианты многомерного м. р. 201; семиин- семиинварианты (упражнение 5.19) 206; диспер- дисперсия функции от частот (упражнение 10.2) 337—338 Мур (Moore G), данные (таблица 1.19) 46 Мэллоуз (Mallows С. L.), неравенства че- бышевского типа 130 Мэртн (Murty V. N.), распределение от- отношений наибольших значений в случае прямоугольных распределений (упраж- (упражнение 11.20) 378 Мюллер-Лебедева (Myller-Lebedeff V.), разложение в ряды по производным 128 (сноска) Наибольшее ожидаемое значение (expected largest value) 456 (сноска) Независимость (Independence) 42—43; в случае двумерного биномиального рас- распределения 200—201
УКАЗАТЕЛЬ 579 Нейман (Neyman J.). неймановское рас- распределение типа Л, получаемое как комбинация двух пуассоновских распре- распределений (упражнение 5.7) 203 Неполные моменты (incomplete moments) 76; н. м. биномиального распределения (упражнения 5.2—3) 202—203 Непрерывные распределения (continuons distributions) 23, 29—31; н. р. как ре- результат обращения х. ф. 139—140; вы- выбор из генеральной совокупности с и. р. 304—305 Неравенства для моментов (inequalities for moments), Ляпунова 93 и (упраж- (упражнение 3.15) 133; Гаусса — Бииклера (упражнение 3.18) 134; (упражнение 3.19) 134 Несмещенные оценки (unbiassed estimates) 309, 314; (упражнения 9.13—14) 317 Несчастные происшествия, распределение водителей лондонских автобусов в соот- соответствии с числом несчастных случаев (таблица 1.21) 47; пуассоновское и от- отрицательное биномиальное распределе- распределение несчастных случаев (таблица 5.3) 183 Новорожденные, распределение областей по числу н. (таблица 1.1) 17; полигон частот (рис. 1.1) 20 Нормализация функций плотности (norma- (normalization of frequency functions) 229— 234; и. ф. п. гамма-распределения (упражнение 6.4) 245 Нормальное распределение (normal distri- distribution), моменты н п. ф. м. (пример 3.4) 90; семиинварианты (пример 3.11) 108—109; обращение х. ф. (пример 4.1) 141—142; как предел биномиального рас- распределения (пример 4.6) 153—154; одно- однозначность определения по моментам (пример 4.7) 160; как предел распреде- распределения Стьюдеита (пример 4.8) 164— 165; как предел пуассоновского распре- распределения (пример 4.9) 166—167; х. ф. квадрата нормальной случайной величи- величины (упражнение 4.18) 170; ф. р. 192—- 193 и (упражнения 5.12—18) 204—206; таблицы 195—196, среднее отклонение 196; подгонка к данным о ростах (таб- (таблица 5.6) 196; моменты вероятностей (упражнение 5.10) 203—204; со случай- случайными параметрами (упражнения 5.24— 25) 207; как распределение Пирсона (упражнение 6.1) 245; в центральной предельной теореме 268—270; х. ф. сов- совместного распределения нормальной случайной величины и ее квадрата (упражнение 7.15) 273; случайные нор- нормальные отклонения 299; в теории боль- больших выборок 307—312; стандартная ошибка медианы (пример 10.7) 330— 331; стандартная ошибка семнинтер- квартильной широты (пример 10.8) 332; методы оценки стандартного отклоне- отклонения исходного распределения 332; мо- моменты среднего отклонения 333—334; мо- моменты средней разности 334—335; дис- дисперсия оценки выборочной дисперсии (упражнение 10.9) 338; распределение суммы квадратов 342—343; (пример 11.6) 353—354, (пример 11.16) 364—365 и (пример 11.18) 366—367; нормаль- нормальность распределения линейной функ- функции от независимых нормальных случайных величин (пример 11.2) 346— 347 и (пример 11.5) 352—353; распре- распределение среднего выборки (пример 11.7) 354—355, (пример 11.12) 361; иезавнснмость среднего и дисперсии выборки как характеристическое свой- свойство (пример 11.7) 354—355, (пример 12.7) 401—402, (примеры 15.4—6) 495— 496. 499 и 500—503; распределение отно- отношения нормальных случайных величин (пример 11.21) 372—373, (упражнение 11.11) 375—376 и (упражнение 11.22) 378—379; математические ожидания от- отношений моментов (упражнение 11.5) 374; некоррелированность ft-статистик (пример 12.5) 400; выборочные семиин- семиинварианты ft-статнстик 409—411; незави- независимость среднего выборки и любой дру- другой fc-статистнки как характеристиче- характеристическое свойство, некоррелированность среднего выборки и любой другой fc-статистикн как характеристическое свойство (упражнение 12.20) 423; ком- комбинаторные правила для ft-статистнк (упражнения 13.10—11) 444—445; момен- моменты медианы и других порядковых ста- статистик 447—450, (пример 14.1) 451—452 и (упражнение 14.14) 475; таблицы мо- моментов порядковых статистик 452; рас- распределение экстремального значения (пример 14.3) 548; распределение раз- размаха и его таблицы 452; дисперсия сре- средины размаха (пример 14.4) 469; дис- дисперсия ближайшего к истинному сред- среднему наблюденного значения (упраж- (упражнения 14.10—11) 474; квадратичные формы от нормальных случайных ве- величии 489—500; характеризации нор- нормального распределения 500—506; нера- неравенство для интеграла от нормальной плотности (упражнение 15.5) 506; рас- распределения, связанные с нормальным 510—548; отношение между нормальным н связанными с инм распределениями 528—529; распределение отношения слу- случайного отклонения от среднего выбор- выборки к стандартному отклонению выборки (упражнение 16.20) 547; см. также Дву- Двумерное нормальное распределение, Мно- Многомерное нормальное распределение Нормированное распределение (standard measure) 74—75; преобразование семи- семиинвариантов при переходе к и. р. 100— 101; преобразование х. ф. при переходе к н. р. (пример 4.6) 153—165, (пример 4.9) 166-167 Нэйр (Nair Lf. S.), моменты средней раз- разности 335 Облачность, данные об интенсивности о. (таблица 1.11) 26; подгонка с помощью преобразования Джонсона и распреде- распределений Пирсона I типа (пример 6.6) 239—240 Обратные вероятности (inverse probabili- probability), см. Байеса теорема Обратный выбор для изучения качествен- качественных признаков (Inverse sampling for attributes) (пример 9.13) 313—314 Ожидание, среднее значение (expectation, expected value), 79—80 Ортогональные полиномы Чебышева — Эрмита 217—219; Лаггера н Якоби 228— 229
S80 УКАЗАТЕЛЬ Ортогональные преобразования 346—347; Хельмерта о. п. (пример 11.3) 347—348; характеристическое свойство нормально- нормального распределения 504—505 Отношение, стандартная ошибка о. 324; распределение 367—373 и (упражнения 11.11—13, 11.22) 375—377; 378—389; мо- моменты 413—414 Отрицательное биномиальное распределе- распределение (negative binomial distribution) 185—186; как пауссоновское распределе- распределение со случайным параметром, имею- имеющим распределение типа Ш 184; х, ф. и семиинварианты 186; как комбинация пуассоиовского н логарифмического распределений (упражнение 5.21) 206; в последовательном выборе для изуче- изучения качественных признаков (пример 9.13) 313—314; (упражнение 9.12) 316 Отрицательное экспоненциальное распре- распределение (negative exponential distribu- distribution), см. Экспоненциальное распреде- распределение Оуэн (Owen D. Б.), таблицы гнпергеомет- рического распределения 191; многомер- многомерный нормальный интеграл 483 Оценивание (estimation), при изучении ка- качественных признаков 305—314; в слу- случае больших выборок 312 Ошибки (errors), см. Стандартные ошиб- ошибки Параметры (parameters) 55 Парето кривая (Pareto curve) н средняя разность (упражнение 2.19) 82 Первая предельная теорема (First limit theorem) 149—151; обращение 151— 153 Перевала метод, использование при по- построении аппроксимации 373—374, 471 Перестановки случайные (random permu- permutations) (пример 9.7) 302 Пирс (Pearse G. Е.), данные (таблица 1.11) 26 Пирс (Реагсе Т. V.), данные (таблица 1.22) 48 Пирсон Е. (Pearson E. S.), выборочное распределение V6, 411—413; выборочное распределение 62 (упражнение 12.10) 421; распределение размаха 466 н 471; таблицы распределения размаха 466 и 471; таблицы х! 512; распределение от- отношения случайного отклонения от среднего к стандартному отклонению выборки (упражнение 16.20) 547 Пирсон К. (Pearson К.), данные о три- нанозомах (таблица 1.13) 28, данные о плодовитости конематок (таблица 1.19) 46; коэффициент вариации 75; поправ- поправки к группировке 117; мера асимметрии 124, 210; неравенство чебышевского ти- типа 129; данные о распределении1 карт в висте (таблица 5.5) 191; моменты би- биномиального распределения (упражне- (упражнение 5.5) 202; табулирование тетрахори- ческих функций 225; распределение раз- разности случайных переменных III типа (упражнение 11.15) 377; моменты поряд- порядковых статистик в нормальном случае 450; разложение варианты в терминах ее ф. р. 450—451; критерий согласия Y* и х-Распределение 492 Пирсоновскне распределения (Pearson di- distributions) как предел гипергеометри- гипергеометрических 198; общие сведения 208—216; рекуррентные соотношения между мо- моментами 209; асимметрия 210; критерий для различения типа 212; подгонка 214—216; рекуррентные соотношения для х. ф. и семиинвариантов (упражнение 6.7) 246; см. также Типы I—VII Письма н конверты, см. Конверты и пись- письма Пнтмэн (Pitman E. J. G.), производные х. ф. и моменты 163; характеристиче- характеристическое свойство гамма-распределения (упражнение 15.22) 509; моменты коэф- коэффициента корреляции выборки в случае независимых наблюдений (упражнение 6.17) 547 Плодовитость, распределение конематок в соответствии с п. (таблица 1.19) 46 Плэкетт (Plackett R. L.), границы для среднего значения размаха 467; много- многомерный нормальный интеграл 483 Подвыборки среднее значение (subsample mean), стандартная ошибка в разности между средними выборки и подвыбор- подвыборки (упражнение 10.20) 339 Подоходный налог, распределение лиц в соответствии с п. н. 18,. ]9, 31 Пойа (P61ya Q.), Пойа — Эйпли распреде- распределение (упражнение 5.8) 203; неравенство для нормального интеграла (упражне- (упражнение 5.17) 206; нормальная ф. р. (упраж- (упражнение 5.18) 206 Полигон частот (frequency polygon) 19; двумерный случай 39—41 Полсон (Paulson E.), нормализация рас- распределения дисперсионного отношении 527-528 Поправки к группировке (corrections for grouping) 57, 72—73, 111—120, 124 и (упражнения 3.10, 3.13) 132; см. также Шеппарда поправки Порядковые статистики (order-statistics) 349, 446—476; распределение 319—351; совместное распределение (упражнение 11.7) 50, 446, 463, 446—476; моменты в нормальном случае 447—450; таблицы в нормальном случае 452; асимптотиче- асимптотические распределения 452—461 и (упраж- (упражнение 14.21) 476; верхние границы для ожидаемых значений 462—463; размах н средина размаха 464—471; таблицы рас- распределений крайних значений 479; рек- курентные соотношения между момен- моментами и распределениями 461 н (упраж- (упражнение 14.5) 473; дисперсия (упражнение 14.6) 473 Последовательный выбор при изучении качественных признаков (sequential sampling for attributes) (пример 9.13) 313—314 Правдоподобие (likellnood) 276; принцип максимального правдоподобия 280—284; и теорема Байеса 280—283 н (упражне- (упражнение 8.1—2) 284—285; принцип м. п. в случае выбора для изучения качествен- качественных признаков (упражнения 9.5. 9.Г0) 315, 316 Правило следования Лапласа (succession rule of Laplace) (пример 8.3) 278—279 и (упражнение 8.4) 285 Предельные теоремы (limit theorems), см. Первая предельная теорема. Вторая предельная теорема. Центральная пре- предельная теорема. Больших чисел sa- кон
УКАЗАТЕЛЬ 681 Предложения, распределение по их длине (таблица 1.17) 46 Предсказание урожая, пристрастие (систе- (систематическая ошибка) при п. у., (пример 9.4) 292-293 Преобразования 35—37, 43—45, 342—344; п., уравнивающие дисперсию (упражнение 10.17) 339; ортогональные 346—348; оста- оставляющие порядки величин семиинвари- семиинвариантов без изменения (упражнение 13.6) 444; коэффициент корреляции, См. кор- корреляции коэффициент Преторнус (Pretorius S. Т.) данные об австралийских свадьбах (таблица 1.8) 24; данные о бобах (таблица 1.15) 40 и (таблица 6.1); двумерные распределе- распределения 223 Пристрастие (bias) (систематическая ошибка) 289—294; при выборе растений (пример 9.1) 289—290; при считывании со шкал (пример 9.2) 290—291; при счи- считывании результатов случайного экспе- эксперимента (пример 9.3) 291—292; в пред- предсказании урожая (пример 9.4) 292— 293 Проблема моментов (problem of moments) (упражнение 3.12) 132; общие сведе- сведения 156—161 и 166—167; (упражнения 4.13, 4.17) 169, 170; п. м. н сходи- сходимость рядов типа А (упражнение 6.9) 246 Производящая функция моментов (то- ment-generaiing functions) (п. ф. м.) 91—93 Производящая функция частот (frequency- generating function). 45; нахождение среднего (пример 2.3) 58 и дисперсии (пример 2.9) 72 Простой случайный выбор (simple random sampling) 286—287 Прямоугольное распределение (uniform distribution), см. Равномерное распре- распределение Псевдослучайные числа (pseudo-random numbers) 304 Пшеницы растения, распределение по вы- высоте (таблицы 9.1) 289 Пуассоновское распределение (Poisson distribution), производящая функция частот (упражнение 1.13) 52; х. ф. и семиинварианты (пример 3.10) 108 н 178—179; моменты (упражнение 3.1) 130; ¦ разность двух пуассоновских вариант (упражнение 3.8) 131, (пример 4.5) 144— 146 и (упражнение 11.16) 377; сходи- сходимость к нормальному распределению (пример 4.9) 166—167; однозначность определения по моментам (упражнение 4.4) 168; со случайным параметром (упражнение 4.16) 170, 183—188 и (упражнение 5.23) 207; общие сведения 178—185; ф. р. и таблицы 179—180; смесь распределений 180—185; распре- распределение Неймана типа А со случайны- случайными параметрами как результат комбина- комбинации двух пуассоновских распределений (упражнение 5.7) 203; разбиение сово- совокупности на группы и распределение Пойа — Эйплн (упражнение 5.8) 203, трехмерное (упражнение 5.11) 204; в со- сочетании с логарифмическим распре- распределением (п. р.) приводит к отрица- отрицательному биномиальному распределе- распределению (упражнение 5.21) 206; х. ф. сум- суммы случайного числа (с п. р.) случай- случайных величин (упражнение 6.22) 206; факторнальные моменты (упражнение 5.26) 207; сумма независимых пуассо- иовских величин есть пуассоновская ве- величина (упражнение 7.14) 273; при изу- изучении качественных признаков (упраж- (упражнение 9.5) 315; распределение среднего выборки (пример 11.11) 360; условное в связи с критерием согласия %' (упражнение 15.21) 508—509; распределе- распределение временных интервалов (упражнение 16.6) 545 П. ф. м., производящая функция моментов (moment-generating function) 91—93 П. ф. с, производящая функция семиин- семиинвариантов (cumulant-generating func- function) 100 П. ф. ф. м., производящая функция фак- ториальных моментов (factorial mo- moment-generating function) 98—99; обра- обращение (упражнение 3.24) 135 Пэрмэи (Pairman E.), поправки к группи- группировке 117 Равномерное распределение (rectangular, distribution), дискретное (х. ф. и семиинварианты (упражнение 3.23) 135, преобразования к р. р. 37, (упражнение 1.21) 53; дисперсия, сред- среднее отклонение н средняя раэность (упражнение 2.5) 81; х. ф. и семиинва- семиинварианты (упражнение 3.23) 135; моменты средней разности 335; дисперсия медиа- медианы (упражнение 10.15) 339 и (пример 14.2) 452; дисперсия среднего отклоне- отклонения (упражнение 10.19) 339; точное рас- распределение среднего выборки (пример 11.9) 357—359, (пример 11.14) 361—362; распределение среднего геометрическо- геометрического (пример 11.15) 363—364; распределе- распределение произведения равномерно распреде- распределенных случайных величин (упражне- (упражнение 11.6) 374—375 н (упражнение 16.4) 544; распределение отношения наиболь- наибольших значений (упражнение 11.20) 378; распределение произведения наиболь- наибольших значений (упражнение 11.21) 378; распределения порядковых статистик — бета-распределение 447; совместное рас- распределение размаха и средины размаха (упражнение 14.12) 474; распределение средины размаха (упражнение 14.13) 474—475; распределение размаха (упраж- (упражнение 14.16) 475; распределение отноше- отношения средины размаха к размаху (упражнение 14.17) 475; распределение разности двух средни размаха (упраж- (упражнение 14.18) 475—476 Разложение суммы квадратов (decomposi- (decomposition of sums of squares) 497—500 и (упражнение 15.16—17) 508 Размах (range) 67—68; точное распреде- распределение 464—466 и (упражнение 14.19) 476; границы для математического ожида- ожидания 466—467; асимптотическое распреде- распределение 467—469 и (упражнение 14.20) 476; редуцированный размах 469—471; суще- существование математического ожидания (упражнение 14.15) 475 Райдер (Rider P. R.), распределение про- ¦ неведения наибольших значений в вы- выборках нз равномерных распределений (упражнение 11.21) 378
582 УКАЗАТЕЛЬ Pao (Rao К- S.), см. Кендалл Д. Расположение (localion), меры р. 54— 67 Распределение, зависящее от случайных параметров (contagious distribution), см. Типа А распределение Рассеяние (dispersion), меры р. 67—79 Рассеяния коэффициент (concentration coefficient) 75—77; кривая рассеяния 76 Рассеяния матрица (dispersion matrix 480—481; (упражнения 15.1—3, 15.9—11) 506, 507 Расширенные симметрические функции (augmented symmetric functions) 382 Рафф (Raff M. S.), ошибка при аппро- аппроксимации биномиального распределения нормальным 178 Регрессия (regression), линейность в слу- случае двумерного нормального распреде- распределения 529—530; коэффициенты 541—542; распределение коэффициентов в случае выборки из генеральной совокупности с двумерным нормальным распределе- распределением 542—544; в линейной регрессион- регрессионной модели (упражнение 16.5) 544—545; стандартные ошибки коэффициентов р. (упражнение 16.13) 546 Редуцированные размах н средина раз- размаха (reduced range and midrange) 469—471 Романовский В., о моментах биномиаль- биномиального распределения (упражнение 5.2) 202 Рост, распределение мужчин по ростам (таблица 1.7) 23; полигон частот (рис. 1.3) 24; среднее (пример 2.1) 56—58; медиана (пример 2.5) 63; квартили (пример 2.6) 66; кривая распределения (рис. 2.1) 66; среднее отклонение и стандартное отклонение (пример 2.7) 70—71; средняя разность (пример 2.10) 78—79; факториальные и обычные мо- моменты (пример 3.7) 97—98; семиинва- семиинварианты (пример 3.9) 107; подгонка с помощью нормального распределения (таблица 5.6) 197; стандартная ошибка среднего (пример 10.1) 321; стандартные ошибки старших моментов (упражнение 10.1) 337 Рубии (Ruben H.), моменты наибольших порядковых статистик для выборок нз нормальной генеральной совокупности 461; многомерный нормальный интеграл 488 Сакамото (Sakamoto H.), характеристиче- характеристическое свойство нормального распределе- распределения 502 Самоубийства, данные о с. (таблица 1.6) 22; с. и пуассоновское распределение 183 Сархан (Sarhan A. E.), таблица диспер- дисперсий порядковых статистик в нормаль- нормальном случае 452 Сас (Szdsz О.), условия для х. ф. 147 Свертка (convolution) случайных величин, см. Сумма с. в. Семиинвариантов производящая функция (п. ф. с.) (cumuiant-generating func- function) илн. логарифм характеристической функции 100 Семиинварианты (cumuiants), определение 99—100; производящая функция с. 100; свойства инвариантности 100; связь с моментами 101—106; существование 106—107; вычисление 107—110; много- многомерные 121—124; поправки к группиров- группировке 119—120, 124 и (упражнение 3.13) 132; обращение в нуль начиная со вто- второго (пример 4.3) 143, после второго (упражнение 4.11) 169; стандартные ошибки (пример 10.4) 324 и (упражне- (упражнение 10.12) 338—339; структурные свойства 438—440; см. также ft-стати- стикн Семнинтерквартильная широта (с. и. ш.) (semi-interquartile range), см. Интер- квартнльиая широта Сёге (Szego), см. Ортогональные много- многочлены 228 Сигнум-фуикция (sgn х) 138 Симметрические функции (symmetric func- functions), таблицы 102—103 (сноска), 383; общие сведения 380—390, (упражнение 12.19) 423 Симметричные распределения (symmetri- (symmetrical distributions), 23—25; действитель- действительность х. ф. (упражнение 4.1) 168; ну- нулевая корреляция между средним и четными центральными моментами в случае выборок большого объема (при- (пример 10.3) 322; нулевая корреляция ме- между каждым моментом нечетного по- порядка и моментом четного порядка в случае выборок большого объема (упражнение 10.6) 338; неотрицательная корреляция между четными моментами выборки (упражнение 10.8) 338; нуле- нулевая корреляция между fe-статистнкамн нечетного и четного порядка (при- (пример 12.9) 418 и (упражнение 12.13) 422; верхние границы для средних значений порядковых статистик 462—163; распре- распределение редуцированного размаха и редуцированной средины размаха для распределений экспоненциального типа 469—471; граница для дисперсии медиа- медианы (упражнение 14.7) 474 Сичел (Slchel H. S.), моменты вероятно- вероятностей 244 Скачок ф. p. (saltus in d. f.) 31, 140 Слуцкий E. E., таблицы х2-распределения 517 Случайность (randomness) 2dlJ—!?91 Случайные величины (random variables) 259-265; суммы с. в. 260-261, 267-270; 365; разности с. в. 261—264; преобразо- преобразование с. в. 342—344 Случайные нормальные отклонения (ran- (random normal deviates) 299 Случайные перестановки (random permu- permutations), (пример 9.7) 302 Случайные числа (random sampling num- numbers) 296—305; таблицы 298—299 Совместимые события (compatible events), вероятности осуществления (упражне- (упражнения 7.1-5) 271 Совокупность (population), см. Генераль- Генеральная совокупность Соломоне (Solomons L. М.), мера асим- асимметрии (упражнение 3.22) 135 Средина размаха (midrange) 65; распре- распределение в нормальном случае 449—460; сходимость к истинному значению 467— 468; дисперсия в нормальном случае (пример 14.4) 469; в случае двойного эк--
УКАЗАТЕЛЬ 683 спонеициального распределения (пример 14.5) 469; редуцированная средина размаха 469—471, (упражнение 14.4) 473 Среднее арифметическое (mean arithme- arithmetic), определение 55—56; вычисление 56—58; с. а. больше, чем геометриче- геометрическое и гармоническое средние 59—61; связь с медианой и модой 63—65 и (упражнение 6.20) 249; квк первый мо- момент 83; стандартная ошибка с. а. 320, 336; распределение среднего выборки, когда истинное распределение являет- является распределением Кошн (пример 11.1) 344—346; распределение в случае нор- нормальных совокупностей (пример 11.7) 354—355; независимость от дисперсии выборки в нормальном случае (пример 11.12) 361; распределение в случае рав- равномерного исходного распределения (примеры 11.9, 11.14) 357—359, 361—362; распределение в случае биномиального распределения (пример 11.10) 360; в случае пуассоновского распределения (пример 11.11) 360; в случае распреде- распределений III типа (пример 11.13) 361; мо- моменты в случае выборок из конечных совокупностей (пример 12.8) 416—417; некоррелированность с каждой А-ста- тнстнкой четного порядка (пример 12.9) 418; см. также Центральная предель- предельная теорема Среднее гармоническое (mean harmonic) 59—60; с. г. меньше, чем арифмети- арифметическое и геометрическое среднее 60—61 Среднее геометрическое (mean geometric) 59—60; соотношение с арифметическим и гармоническим средними 60—61; рас- распределение 362—363; в случае равно- равномерного исходного распределения (при- (пример 11.15) 363—364; в случае распреде- распределений III типа (упражнения 11.3, 11.9) 374, 375 Среднее отклонение (mean deviation) 68; вычисление (пример 2.7) 70—71, (упра- (упражнение 2.21) 82; (относительно средне- среднего значения) не превышает стандарт- стандартное отклонение 71 (сноска); обращение в минимум относительно медианы (упражнение 2.1) 80; стандартные ошибки 333—334, 336 Средние значения (mean values) 79— 80 Средняя разность (mean difference) 73— 74 и (упражнения 2.4, 2 9, 2.19) 80, 81, 82; вычисление 77—79 и (упраж- (упражнение 2.10) 81; стандартная ошибка 334— 336 Стандартное отклонение (standard devia- deviation) 68—69; вычисление (пример 2.7) 70—71; связь со средним отклонением и средней разностью 71 (сноска) и (упражнение 2.4) 80; с. о. и поправки Шеппарда (упражнение 2.8) 81; стан- стандартная ошибка с. о. выборки 336; см. также Дисперсия Стандартные ошибки (standard errors) 308—313 н 318—340; таблицы 336—337; сравнение с поправками Шеппарда 326—327 Статистика (statistics), определение 15— 16; как множество данных 16 Статистические гипотезы 281—283 Статистические таблицы, распределение цифр в с. т. 298 Степени свободы (degrees of freedom) 373 (сноска), 511, 517, 522 Стереограмма (stereogram) 41 Стильтьес (Srieltjes J.), проблема момен- моментов (упражнение 3.12) 132: 157 (сноска), 159 Стнльтьеса интеграл (Stleltjes Integral) 34—35 Стирлинга ряды (Stirling's series), опре- определение 119 Стуффер (Stouffer S. А.), распределение разности величин, имеющих распреде- распределение III типа (упражнение 11.15) 377 Стьюарт (Stuart А.), матрица рассеяния (упражиение-15.9) 507 Стьюдент («Student», W. S. Gossett), сме- смешанное биномиальное распределение (упражнение 5.6) 203; 518; таблица ^-распределения 520—521; распределение коэффициента корреляции 535 Стьюдента распределение (Student's di- distribution), х. ф. (пример 3.13) 109— ПО; асимптотическая нормальность (пример 4.8) 164—165; вывод (пример 4.8) 164—165; вывод (пример 11.8) 355— 357 и (пример 11.19) 368; общие сведе- сведения 517—521; сходимость к нормальному распределению, х. ф., моменты 518; ф. р. 518—521 и (упражнение 16.10) 546; таблицы 520—521; связь с нормаль- нормальным х2 и F-распределениями 528— 529 Сумма вариант (sum of variates), распре- распределение с. в. 261—264. 267—270, 365— 367 Суммы квадратов (sums of squares), раз- разложение с. к. 497—500 и (упражнение 15.9) 507 Суммы степеней (power-sums) как сим- симметрические функции 383 Считывание шкал (scale-reading), систе- систематические ошибки (пристрастие) в с. ш. (пример 9.2) 290—291 Сэмпфорд (Sampford M. R.), отношение Миллса (упражнение 5.16) 205 Сэндифорд (Sandiford P. J.), аппрокси- аппроксимация гнпергеометрического распреде- распределения биномиальным 191 Сэидон (Sandon F.). поправки к группи- группировке 117 Сюй (Hsu С. Т.), выборочные семиинва- семиинварианты ft-статистик в нормальном слу- случае 41! Табулирование частотных распределений (tabulation of frequency-distributions) 17-21 Тейкроу (Teichroew D.), таблица средних значений порядковых статистик в нор- нормальном случае 452 Телефонная книга, распределение цифр в т. к. (таблица 1.4) 22, 297— 298 Теорема обращения х. ф. (Inversion theo- theorem on с. Г. s.) 137—146 (упражне- (упражнение 4.22) 170 Тетрахорические фушшин (letrachorle functions) 225 Тнле (Thiele Т. N.). семиинварианты 101, 280 Типа А распределение Неймана (type A contagious distribution) (упражнение 5.7) 203
584 УКАЗАТЕЛЬ Типа А, В, С ряды (types А, В, С seri- series), см. Грама-Шарлье ряды Типа f (Пирсона) распределение (Туре I (Pearson) distribution), поправки к группировке 113—115; общие сведе- сведения 210—213; подгонка к данным об облачности (пример 6.6) 239—240; см. также Бета-распределение первого рода Типа II (Пирсона) распределение (type II (Pearson) distribution) (упражнение 6.1) 245; распределение среднего (упражне- (упражнение 11.14) 374 Типа Ш (Пирсона) распределение (ty- (type HI (Pearson) distribution), x. ф. и моменты (пример 3.6) 92—93; семи- семиинварианты (пример 3.12) 109; отрица- отрицательное биномиальное распределение как пуассоиовское распределение со случайным параметром, имеющим рас- распределение типа III 183—185 и (упраж- (упражнение 5.23) 207; общие сведения 213—214; бесконечность у.-критерия (упражне- (упражнение 6.5) 245; распределение среднего (пример 11.13) 247—248; распределения средних геометрических (упражнения 11.3, 11.9) 374, 375; распределение раз- разности двух величин, имеющих рас- распределение типа III (упражнение 11.15) 377; см. также Гамма-распреде- ленне Типа IV (Пирсона) распределение (type IV (Pearson distribution), момен- моменты (упражнение 3.3) 130; общие све- сведения 213; подгонка к данным о бо- бобах (пример 6.1) 214—216; таблицы 216 Типа V (Пирсона) распределение (type V (Pearson) distribution), моменты и се- семиинварианты (упражнение 3.2) 130; равенство единице и-критерия (упра- (упражнение 6.6) 245 Типа VI (Пирсона) распределение (ty- (type VI (Pearson) distribution) 212 и (упражнение 6.4) 245; см. также Бета- распределенне второго рода Типа VII (Пирсона) распределение (ty- (type VII (Pearson) distribution), момен- моменты (пример 3.3) 130; х. ф. (пример 3.13) 132; (упражнение 6.1) 245, см. также Стьюдента распределение Типпетт (Tlppett L. Н. С), таблицы слу- случайных чисел 298; асимптотическое распределение экстремальных значений 254—257; точное распределение наиболь- наибольшего значения выборки из нормальной генеральной совокупности 462; распре- распределение размахов выборок из нор- нормальной генеральной совокупности 464—471 Томпсон (Thompson С), таблица про- процентных точек для распределения х1 512; таблица процентных точек для i-распределення 521; таблица процент- процентных точек для /•'-распределения 524 Точер (Tocher J. F.), данные (таблица 1.24) 50 Трехмерное пуассоновское распределение (threevariate Polsson distribution) (упражнение 5.11) 209 Трипанозомы, данные о т. (таблица 1.13) 28 Тьюки (Tukey J. W.), многомерные к-ств- тистнкн 418 Уайз (Wise M.), гипергеометрическая ф. р. 191 Уикселл (Wicksell S. D.), логнормальное распределение 237 Уилльямс (Williams С. В.), логарифми- логарифмическое распределение (таблица 5.4) 188 Унлльямс (Williams J. L.), неравенство для нормального интеграла (упражне- (упражнение 15.5) 506 Уилсон (Wilson E. В.), аппроксимация Х2-распределения 513—517 Уишарт (Wishart J.), семиинварианты многомерных мультиномиальных рас- распределений 201; таблицы многомерных 4-статнстнк 418; шаблонная функция (упражнение 12.7) 421; дисперсии и ко- вариации двумерных fc-статнстик (упражнение 13.7—8) 444; комбинатор- комбинаторные правила для отыскания ft-статн- стнк (упражнение 13.10—12) 444— 445 Унимодальные распределения (unimodal distributions) 54 Унитарные симметрические функции (uni- (unitary symmetric functions) 383 Урезанные распределения (truncated di> strlbutions) 27, 244 Урожаи зерна, данные (таблица 1.20) 47 Усиленный закон больших чисел (strong law of large numbers) 268 Условные распределения (conditional di- distributions) 41—42 Уэлдон (Weldon W. F. R.), данные о ре- результатах бросания костей (таблица 1.14) 38; (таблица 1.16) 45; (таблица 5.1) 173; (пример 9.10) 308 Факторнальные моменты (factorial mo- moments) 93—99; в терминах обычных мо- моментов 95; вычисление 96—98; поправ- поправки Шеппарда 117—118 Факторнальные семиинварианты (factorial cumulants), 110—111 Фармер (Farmer E.) данные (таблица 1.21) 47 Федеригн (Federighi E. Т.), таблицы ^-распределения 521 Феллер (Feller W.) <Введение в теорию вероятностей и ее приложения» 270 Филлер (Fieller E. С), таблицы случай- случайных коррелированных нормальных от- отклонений 299; распределение отношения коррелированных нормальных величин (упражнение 11.22) 378—379 Финнн (Finney D. J.), распределение от- отношения дисперсий для коррелирован- коррелированных нормальных величин (упражнение 16.16) 546—547 Фншер (Sir Ronald A. Fisher), поправки Шеппарда (упражнение 3,17) 133—134; логарифмическое распределение 187; нормирование распределений 233; таб- таблицы случайных чисел 299; дисперсия среднего отклонения 333; дисперсия функций от частот мультиномиального распределения (упражнение 10.2) 337— 338; дисперсионного отношения F- и ж-распределення, см. Днсперснониое от- ношбние; ^-статистики 385; выборочное распределение Vbt 413; шаблонная
УКАЗАТЕЛЬ 585 функция (упражнения 12.4—5, 12.7) 420—421; производящая функция для моментов &-статистнк (упражнение 12.14) 422; комбинаторные правила для 4-статистик в нормальном случае (упражнения 13.10—12) 444—445; асим- асимптотические распределения крайних значений 453—457; таблицы процентных точек распределения х2 513, 551; аппро- аппроксимация Х2-Распределения 513—517; таблицы ^-распределения 520; таблицы процентных точек F- и z-распределе- ний 524; аппроксимация z-распределе- ния 526—527; распределение коэффици- коэффициента корреляции 532; z-нреобразоваине коэффициента корреляции 539—541; ф. р. ^-распределения (упражнение 16.10) 516 Фостер (Fosler F. G.), матрица рассеяния (упражнение 15.9) 507 Ф. п., см. Функция плотности (плотность распределения) Ф. р., см. Функция распределения Франел (Franel J.), распределение цифр в математических таблицах 298 (снос- (сноска) Фреше (Frechet M.). о соглашении по по- поводу средних значений 89 (сноска) и (упражнение 7.19) 274; асиптотическое распределение крайних значений 457 Фрнш (Frisch R.), факториальные момен- моменты 95; семиинварианты и моменты би- биномиального распределения (упражне- (упражнения 5.1, 5.3) 201, 202 Функции от случайных величин ([unctions of random variables), их х. ф. 156; стандартные ошибки 322—325; ковариа- цни 323 Функция плотности (ф. п.) (frequency function (f. f.)) или плотность 28—33; определение посредством х. ф. 137—141; нормализация ф. п. 229—231 Функция распределения (ф. p.) (distribu- (distribution function (d. f.)). 28—33; графики ф. р. для определения квантилей 67; определение по х. ф. 137—141; предель- предельные свойства 147—153; ф. р. и момен- моменты 156—160; двойственность с х. ф. 167; ф. р. и вероятность 259—260 Фурье преобразование (Fourier transforms и х. ф.) 136, 167 Хардн, Литтлвуд и Полна A lardy G. Н., Litllewood and Polya) «Неравенства», ИЛ, Москва, 1918 Хартли (Hartley H. О.), распределение среднего отклонения 334; верхние гра- границы для средних значений порядко- порядковых статистик 462—463; таблицы рас- распределений размаха в нормальном слу- случае 466, 471; границы для средних зна- значений размаха 467; таблицы Х2-Распре- делення 512; распределение отношения случайного отклонения от среднего вы- выборки к стандартному отклонению вы- выборки (упражнение 16.20) 547 Хатке (Hatke M. А.), подгонка ф. р. 242—243 Хелмерт (Helmert W.), дисперсия средне- среднего отклонения 334; ортогональное пре- преобразование (пример 11.3) 347—348 Хи-квадрат (chl-square), см. х2 Хилферти (Hilferty M. M.), аппроксима- аппроксимация Х2-распределения 513—517 Хогг (Hogg R. V.). разложение квад- квадратичных форм (упражнение 15.16) 508 Хойо (Hoio Т.), моменты порядковых статистик 449—450 Холдейн (Haidane J. В. S.), семиинвари- семиинварианты биномиального распределения (упражнение 3.1) 130; связь между средним, медианой и модой в разло- разложении Эджворта (упражнение 6.20) 249; аппроксимация х2"РаспРеДелення (упражнение 16.8) 545 Холл A. (Hal! A. D.), данные относитель- относительно пшеничных полей (таблица 1.20) 47 Холл П. (Hall P.), распределение сред- среднего в выборках из равномерного рас- распределения (пример 11.9) 357—359 Хотеллннг (Hotelling H.), мера асимме- асимметрии (упражнение 3.22) 135; распреде- распределение коэффициента корреляции 536— 537; преобразования коэффициента кор- корреляции 541 н (упражнение 16.19) 547; соотношения для функции плотности коэффициента корреляции (упражнения 16.14—15) 546 X. ф., см. Характеристическая функция Хэстннгс (Hastings С), моменты поряд- порядковых статистик 450 Характернзации (characterizations) нор- нормального распределения 500—506 и (упражнение 15.16) 508; гамма-распре- гамма-распределения (упражнение 15.22) 509 Характеристическая функция (characteri- (characteristic function) (x. ф.) как п. ф. м. 91—92; сведения 136—170; связь с ф. р. 136—146 и 167; условия для того, что- чтобы функция была х. ф. 146—147 и (упражнения 4.5, 4.10—11) 168, 169; пре- предельные свойства 147—153; многомер- многомерные х. ф. 154—156; х. ф. функции от варианты 156; разложение 161—162; про- производные х. ф. и существование мо- моментов 91—92 н 160—163; отношения ме- между производными (упражнение 4.15) 169; х. ф. суммы 262 и (пример 7.6) 264—265; использование при отыскании точных выборочных распределений 359- 365; в методе перевала 373—374 Цель, вероятность поражения (упражне- (упражнение 15.7) 509 Центр распределения (centre of a distri- distribution) 65, см. также Срединное зна- значение Центральная предельная теорема (central limit theorem) 268—270, 312, 325—326; не- неприменимость к распределению Кошн (упражнение 11.1) 374; для равномер- равномерного распределения (пример 11.9) 359 Це-це мухи, данные о них (таблица i.13) 28 Цифры, распределение в телефонной кни- книге (таблица 1.4) 22 Чякраварти (Cliakravarti M. С), среднее отклонение и стандартное отклонение 71 (сноска)
586 УКАЗАТЕЛЬ Частот полигон (frequency polygon), см. Полигон частот Частота (frequency) (класс-частота), 17— 18 Частотные распределения (frequency di- distributions) 15—53; дискретные 21—23; непрерывные 23—28; симметричные 23— 25; асимметричные 25; J-ооразные 25; U-образные 26—27; генезис ч. р. 37— 39; многомерные 39—45; условные 41— 42; маргинальные (частные) 42 Чебышев П. Л., см. Бьенэме Чебышева—Эрмита полиномы 217—219 Чебышевского типа неравенства, 128— 130 Чеймберс (Chambers E. G.), данные (таб- (таблица 1.21) 47 Чу (Chu J. Т.), граница для дисперсии медианы (упражнение 14.7) 474 Шаблонная функция (pattern function) в определении выборочных семиинвари- семиинвариантов А-статистнк 392—401 и (упраж- (упражнения 12.4—5, 12.7) 420, 421 Шарлье (Charller С. V. L.), полиномы Чебышева—Эрмита, 218, см. также Грам-Шарлье ряды Шварца неравенство (Schwarz inequality) 62 (сноска) Шентон (Shenton L. R.), непрерывные дроби в связи с нормальным распреде- распределением 195 и (упражнения 5.14—15) 204—205 Шеппард (Sheppard W. F.) таблицы нор- нормального распределения 195—196; теоре- теорема о медианной дихотомии для дву- двумерных нормальных распределений 485 Шеппарда поправки к группировке (Shep- pard's corrections for grouping) 72—73; для стандартного отклонения (упражне- (упражнение 2.8) 81; общие сведения 111—120, 124; (упражнение 3.17) 133; ш. п. к стандартному отклонению и их срав- сравнение с выборочными флуктуациями 325-327 Эджворт (Edgeworth F. Y.), данные Уэл- дона (таблица 1.14) 38; форма рядов Грам-Шарлье 222. Эджворта ряды (Edgeworth series) 220— 222; связь между средними, медианой и модой (упражнение 6.20) 249; метод перевала в сравнении с разложением Эджворта 374 Эйткин (Altken А. С), независимость квадратичных форм в случае коррели- коррелированных нормальных случайных вели- величин 499 и (упражнение 15.13) 507 Эйтчисон, Браун (Aitchison J., Brown J. А. С.), логнормальиое рас- распределение 237 Эйлера—Маклореиа формула суммирова- суммирования (Euler — Maclaurln sumformula) 112 Экспоненциального типа распределения в теории экстремальных значений (expo- (exponential-type distributions in extremeva- lue theory) 456, 469—471 Экспоненциальное распределение (expo- (exponential distribution), среднее, стандарт- стандартное отклонение, средняя разность и интерквартильная широта (упражне- (упражнение 2.6) 81; семиинварианты (упраж- (упражнение 3.6) 131; моменты средней раз- разности 335; распределение порядковых статистик 447; дисперсия наименьшего значения (упражнение 14.8) 474; вре- временные интервалы (упражнение 16.6) 545; см. также Гамма-распределение, Двойное экспоненциальное распределе- распределение Экстремальные (крайние) значения (ex- (extreme values) 453; асимптотические рас- распределения э. з. 453—461; таблицы 472 Эксцесс (kurtosls excess) 125—126; (упра- (упражнения 3.20—1) 134—135; стандартная ошибка Ь2 336; моменты Ь2 (упражне- (упражнение 12.10) 421 Элдертон (Sir William P. Elderton), no-, правки к группировке для моментов' 117 и (упражнение 3.10) 132; подгонка распределений Пирсона 214 Элфвинг (Elfving G.), асимптотическое распределение размаха 468—471 и (упражнение 14.20) 476 Эннс (Anls А. А.), матрица рассеяния многомерного нормального распределе- распределения (упражнение 15.11) 507 Эрмнта полиномы (Hermlte polynomials), см. Чебышева—Эрмита полиномы Юл (Yule G. V.), данные о длине пред- предложений (таблица 1.17) 46; данные о несчастных случаях на производстве (таблица 5.3) 183; отрицательные бино- биномиальные распределения 184—185; мо- моменты вероятностей нормального рас- распределения (упражнение 5.10) 203—204; пристрастие (систематические ошибки) при считывании со шкал (пример 9.2) 290—291; таблица Х2-Распределения с одной степенью свободы 513 Юэи (Yuan P. Т.), логнормальное рас- распределение 237 Якобн полиномы в разложении по про- производным плотности бета-распределе- бета-распределения 228 Якобиан (детерминант), преобразования 44, 342—344 Ьь Ь2, Pi, Эг, см. Асимметрия, Эксцесс Vi. Vj. см. Асимметрия, Эксцесс ^-распределение, см. Дисперсионного от- отношения распределение J-образные распределения 23—27 у. — величина, служащая критерием при различении типа распределений Пир- Пирсона 212; бесконечность к для ill типа (упражнение fi.5) 245; равенство У. еди- единице для V типа (упражнение 6.6) 245
УКАЗАТЕЛЬ 587 fe-статнстики, 385—445; определение 385; как семиинварианты 385; в терминах симметрических произведений и сумм 388—390; правила для нахождения вы- выборочных семиинвариантов 390—401; правила для выборочных семиинвари- семиинвариантов в случае нормального исходного распределения (пример 12.5) 400; фор- формулы для выборочных семиинвариан- семиинвариантов 402—411; формулы для выборочных семиинвариантов в нормальном случае 409—A1; в выборках из конечной сово- совокупности 414—419; многомерные А-ста- тистикн для оценивания нелинейных функций от семиинвариантов 418—420 и (упражнения 12.18—19) 423; п. ф. м. ft-статнстик (упражнения 12.14—16) 422— 423; двумерный случай 424—430; дока- доказательство правил для нахождения вы- выборочных семиинвариантов 430—437; структурные свойства 438—440; тензор- тензорная запись формул 440—443 ^-распределение, см. Стьюдента распреде- распределение U-образные распределения 26—27 Х!-распределение 510—517; форма 511; х. ф. и моменты, сходимость к нормальному, ф. р. 511—512 и (упражнение 16.7) 545; таблицы 512—513; аппроксимации Х2-распределення 513—517 и (упражне- (упражнение 16.8) 545; связь с нормальным, t- н ^-распределениями 528—529; рекур- рекуррентные соотношения для центральных моментов (упражнение 16.3) 544; см. также Гамма-распределенне и Типа 111 распределение 2-распределение, см. Дисперсионного от- отношения распределение т-е значения, см. Экстремальные значе- значения, Порядковые статистики г-преобразование, см. Корреляции коэф- коэффициент
М. Кендалл, А. Стьюарт Теория распределений М., 1966 г., 588 стр. с илл. Редактор Л. Н. Большее Техн. редактор К. Ф. Брудно Корректор С. Н. Емельянова. Сдано в набор 29/V11I 1966 г. Подписано к пе- печати 8/Х11 1966 г. Бумага 60x90'/,,,. Физ. печ. л. 36,75. Условп. печ. л. 36,75. Уч.-изд. л. 37,47. Тираж 8 000 экз. Цепа книги 2 р. 79 к. Заказ Sv 332. Издательство «Паука» Главная редакция физико-математической литературы. Москва, В-71, Ленннский проспект, 15. Ленинградская типография № 2 имени Евгении Соколовой Главполнграфпрома Комитета по печати при Совете Министров СССР. Измайловский проспект, 29.