/
Text
AN INTRODUCTION TO PROBABILITY THEORY AND ITS APPLICATIONS WILLIAM FELLER (1906—1970) Eugene Higgins Professor of Mathematics Princeton University VOLUME II Second edition John Wiley & Sons, Inc. New Yoric-London-Sydney-Toronto 1971
В. ФЕЛЛЕР ВВЕДЕНИЕ В ТЕОРИЮ ВЕРОЯТНОСТЕЙ И ЕЕ ПРИЛОЖЕНИЯ В 2-х томах Том 2 Перевод со второго английского издания Ю. В. Прохорова МОСКВА «МИР» 1984
ББК 22.171 Ф 30 УДК 519.24 Феллер В. Ф30 Введение в теорию вероятностей и ее приложения. В 2-х томах. Т. 2. Пер. с англ.—М.: Мир, 1984.—738 с, ил. Второй том всемирно известного двухтомного курса теории вероятностей, написанного выдающимся американским математиком. Классическое учебное руководство, оказавшее значительное влияние на развитие современной теории вероятностей н подготовку специалистов. Перевод заново выполнен со второго переработанного автором издания. Предыдущ.ее>зданне выходило в русском переводе (М.: Мир. 1967). Для математиков—от студентов до специалистов по теории вероятностей, для физиков и инженеров, применяющих вероятностные методы. . 1702060000—113 аа .. . ББК 22.171 * 041(00-84 32-М' "• ! S17.8 Редакция литературы по математическим наукам © Перевод на русский язык, «Мир», 1984
ИЗ ПРЕДИСЛОВИЯ К РУССКОМУ ИЗДАНИЮ 1967 г. Второй том книги известного американского математика В. Фегс- лера „Введение в теорию вероятностей и ее приложения" вышел в США в 1966 г. Несмотря на большой промежуток времени между выходом первого и второго томов, оба тома имеют общий замысел и составляют единое целое. Книга дает строгое изложение теории вероятностей как самостоятельного раздела математики и в то же время знакомит читателя с опытными основаниями теории и различными применениями. Последнее достигается включением большого числа примеров и задач. Книга очень богата содержанием. Многочисленные отступления от основного текста содержат сведения, интересные и специалистам. Большая работа, проведенная автором при подготовке второго тома, позволила существенно упростить изложение целых разделов (например, вывод асимптотических формул в теории случайных блужданий и задачах о разорении и многое другое). Изложение тщательно продумано. Оно часто дополняется замечаниями, отражающими отношение автора к приводимым фактам (см.. например, замечание в гл. VI, 7, о том, что рассмотрение в теории очередей потоков вызовов с независимыми промежутками между вызовами и с законом распределения длины этих промежутков, отличным от вырожденного или показательного, создает лишь иллюзию общности; трудно, говорит автор, найти примеры таких процессов, кроме разве движения автобуса по кольцевому маршруту без расписания). Напомню, что в первом томе автор удачно продемонстрировал тот факт, что сравнительно простые модели позволяют, хотя бы в первом приближении, правильно описать широкий круг практических задач (такими моделями п первом томе являются, например, размещения частиц по ячейкам, урновые схемы и случайные блуждания). Во многих случаях, где интуиция не подсказывает правильного порядка соответствующих вероятностей, автор приводил численные результаты. Подчеркивался ряд свойств случайности, идущих вразрез с интуитивными представлениями (закон арксинуса, пропорциональность времени до п-го возвращения величине п2 и т. п.). Эти тенденции сохраняются и во втором томе (см., в частности, неоднократное обсуждение парадокса инспекции и сходных тем). После того как разобран дискретный случай, элементарная теории непрерывных распределений требует лишь нескольких слов дополнительного объяснения. Поэтому до всякой общей теории, в первых трех главах, автор излагает задачи, связанные с тремя важнейшими распределениями —равномерным, показательным и нормальным. При этом автор затрагивает и ряд глубоких вопросов (случайные разбиения и теоремы о покрытиях, отклонение эмпи-
6 Из предисловия к русскому изданию 1967 г. рического распределения от теоретического, характеризация нормального распределения независимостью статистик, структура некоторых стационарных нормальных последовательностей и т. п.). Необходимые сведения из теории меры сообщаются в четвертой главе. Автор подчеркивает вспомогательный характер этих сведений (что отличает книгу Феллера от ряда других современных руководств, где до трети объема уходит на теорию меры и интеграла). Важную роль играет гл. VI, являющаяся, как замечает автор» собранием введений во все последующие главы. В настоящем томе, по-видимому, впервые излагается так обстоятельно теория преобразований Лапласа в применении к вероятностным проблемам (гл. VII, XIII, XIV). Много места отведено вопросам теории восстановления и случайным блужданиям (гл. VI, XI, XII, XIV и XVIII). Предельные теоремы для сумм независимых величин излагаются дважды: сначала как иллюстрация операторных методов (гл. IX), а затем в общей форме в гл. XVII. Можно надеяться, что выход в свет русского издания второго тома книги Феллера окажет заметное воздействие на многие стороны развития теории вероятностей, в частности сильно повлияет на характер преподавания теории вероятностей, позволив, наконец, привести его в соответствие с современными требованиями. Профессор Феллер, узнав о подготовке перевода второго тома, любезно прислал список ряда необходимых исправлений, которые были внесены в текст. Я весьма благодарен ему за эту любезность. В работе над переводом существенную помощь мне оказали А. В. Прохоров и В. В. Сазонов. Они внимательно прочли рукопись перевода и сделали ряд ценных замечаний, которыми я воспользовался. Они также указали на ряд неточностей в оригинале. Пользуюсь случаем выразить им свою глубокую благодарность. 9 мая 1967 г. Ю. Прохоров
ОТ ПЕРЕВОДЧИКА План второго английского издания данного тома (с которого выполнен перевод) в целом повторяет план его первого издания, и в то же время автором внесено в текст большое число изменений. Подробно о них сказано в предисловии автора. При подготовке перевода второго тома неоценимую помощь оказал мне А. Прохоров, а в работе над отдельными частями текста мне помогали А. Архангельский, А. Бряндинская, В. Матвеев, А. Ушакова, В. Ушаков, Н. Ушаков. Всем им я выражаю свою глубокую благодарность. 20 апреля 1983 г. /О. Прохоров
О. Нейгебауэру J) О et praesidium et duke decus mriim2} ПРЕДИСЛОВИЕ К ПЕРВОМУ ИЗДАНИЮ В то время когда писался первый том згой книги (между 1941 и 1948 гг.), интерес к теории вероятностей еще не был столь широким. Преподавание велось очень ограниченно, и такие вопросы, как цепи Маркова, которые теперь интенсивно используются в самых различных дисциплинах, рассматривались лишь как весьма специальные главы чистой математики. Поэтому первый том можно уподобить годному на все случаи жизни путеводителю для человека, отправляющегося в чужую страну. Чтобы отразить сущность теории вероятностей, в первом томе нужно было подчеркнуть как математическое содержание этой науки, так и удивительное разнообразие потенциальных применений. Некоторые предсказывали, что неизбежно возникающие из этой задачи колебания степени трудности изложения ограничат полезность книги. На самом деле первым томом книги широко пользуются и сейчас, когда новизна этой книги пропала, а ее материал (включая способ изложения) можно почерпнуть из более новых книг, написанных для специальных целей. Книга, как нам кажется, все еще завоевывает новых друзей. Тот факт, что неспециалисты не застряли в местах, оказавшихся трудными для студентов-математиков, показывает невозможность объективного измерения уровня трудности; этот уровень зависит от типа информации, которую ищет читатель, и от тех деталей, которые он готов пропустить. Так, путешественник часто стоит перед выбором: взбираться ли ему на гору самому или использовать подъемник. Ввиду сказанного второй том написан в том же самом стиле, что и первый. Он включает более трудные разделы математики, но значительная часть текста может восприниматься с различной степенью трудности. Поясним это на примере способа изложения теории меры. Гл. IV содержит неформальное введение в основные идеи теории меры, а также дает основные понятия теории вероятностей. В этой же главе перечисляются некоторые факты теории меры, применяемые в последующих главах для того, чтобы сформулировать аналитические теоремы в их простейшей форме и избежать праздной дискуссии об условиях регулярности. Основное назначение теории меры в этой связи состоит в том, чтобы оправ- 1) Отто Нейгебауэр (р. 1899 г., с 1939 г.—в США) — австрийский математик, историк математики и астрономии. На русском языке опубликованы его книги «Лекции по истории античных математических наук. Том. I. Дигре- ческая математика».—М. — Л.: ОНТИ, 1937 и «Точные науки древности».— М., 1968. 2) О отрада моя, честь и прибежище! — К Меценату («Славный внук. Меценат»), перевод А. Семенова-Тяи-Шанского.—В кн.: Квинт Гораций Флакк. Оды,Э«оды,Сатиры, Послания,—М,: Художественная литература, 1970..
Предисловие к- первому изданию 9 дать формальные операции и переходы к пределу, чего никогда не потребовал бы нематематик. Поэтому читатели, заинтересованные в первую очередь в практических результатах, никогда не почувствуют какой-либо необходимости в теории меры. Чтобы облегчить доступ к отдельным темам, изложение во всех главах сделано столь замкнутым, сколь это было возможно. Иногда частные случаи разбираются отдельно от общей теории. Некоторые темы (такие, как устойчивые законы или теория восстановления) обсуждаются в нескольких местах с различных позиций. Во избежание повторений определения и иллюстративные примеры собраны в гл. VI, которую можно описать как собрание введений к последующим главам. Остов книги образуют гл. V, VIII и XV. Читатель сам решит, сколько подготовительных глав нужно ему прочитать и какие экскурсы произвести. Специалисты найдут в этом томе новые результаты и доказательства, но более важной представляется попытка сделать единой общую методологию. В самом деле, некоторые части теории вероятностей страдают от того, что они недостаточно внутренне согласованы, а также от того, что группировка материала и способ изложения в большой степени определяются случайностями исторического развития. В образующейся путанице тесно связанные между собой проблемы выступают разобщенными, а простые вещи затемняются усложненными методами. Значительные упрощения были достигнуты за счет систематического применения и развития наилучших доступных сейчас методов. Это относится, в частности, к такой беспорядочной области, как предельные теоремы (гл. XVI, XVII). В других местах упрощения были достигнуты за счет трактовки задач в их естественном контексте. Например, элементарное исследование специального случайного блуждания привело к обобщению асимптотической оценки, которая ранее была выведена тяжелыми, трудоемкими методами в математической теории страхования (и независимо, при более ограничительных условиях, и теории очередей). Я пытался достичь математической строгости, не впадая в педантизм. Например, утверждение, что 1/(1 +Ъг) является характеристической функцией для j-r1*1, представляется мне желательным и законным сокращением для логически корректного варианта: функция, которая в точке £ принимает значение 1/(1 + 1*), является характеристической функцией для функции, которая в точке х принимает значение -уе~|х1. Боюсь, что краткие исторические замечания и ссылки не отдают должного многим авторам, внесшим свой вклад в теорию вероятностей. Однако всюду, где было возможно, я старался сделать это. Первоначальные работы во многих случаях перек-
10 Предисловие к первому изданию рыты более новыми исследованиями, и, как правило, полные ссылки даются только на статьи, к которым читатель может обратиться для получения дальнейшей информации. Например, нет ссылок на мои собственные работы по предельным теоремам, в то же время какая-либо статья, описывающая результаты наблюдений или идеи, лежащие в основе примера, цитируется, даже если она совсем не содержит математики'). В этих обстоятельствах авторский указатель не дает никаких сведений о важности тех или иных исследований для теории вероятностей. Другая трудность состояла в справедливой оценке работ, которым мы обязаны новыми направлениями исследовании, новыми подходами, новыми методами. Некоторые теоремы, рассматривавшиеся в свое время как поразительно оригинальные и глубокие, теперь получили простые доказательства и выступают в окружении более тонких результатов. Трудно воспринимать такие теоремы в их исторической перспективе и нелегко понять, что здесь, как и в других случаях, первый шаг значит очень многое. Я благодарен Исследовательскому бюро армии США за поддержку моей работы по теории вероятностей в Принстонском университете, где мне помогали Дж. Голдмэн, Л. Питт, М. Сил- верстейн. Они устранили значительное число неточностей и неясных мест. Все главы переписывались много раз, и первоначальные варианты предшествующих глав распространялись среди моих друзей. Таким образом, благодаря замечаниям Дж. Эллиота, Р. С. Пинхема и Л. Дж. Сэвиджа возник ряд улучшении. Я особенно благодарен Дж. Л. Дубу и Дж. Волфовицу за советы и критику. График случайного блуждания Коши подготовлен Г. Тро- тером. За печатанием наблюдала г-жа X. Мак-Дугл, и внешний вид книги многим обязан ей. Вильям Феллер Октябрь 1965 г. х) Зта система была принята и в первом томе, однако она была неправильно пойнта некоторыми последующими авторами; они теперь приписывают методы, использованные в книге, работавшим до этого ученым, которые не. миглн знать их.
ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ Характер и структура книги остались без изменений, но весь текст подвергся основательному пересмотру. Многие разделы были переписаны полностью (в частности, гл. XVII) и были добавлены некоторые новые параграфы. В ряде мест изложение упрощено благодаря усовершенствованным (а иногда и новым) рассуждениям. В текст был также включен новый материал. При подготовке первого издания меня преследовал страх, что объем получится чрезмерно большим. Из-за этого, к сожалению, я провел несколько бесплодных месяцев, сокращая первоначальный текст и выделяя отдельные места в мелкий шрифт. Этот ущерб теперь возмещен, и много усилий было потрачено на то, чтобы облегчить чтение книги. Встречающиеся время от времени повторения упрощают независимое чтение отдельных глав и позволяют связзть некоторые части этой книги с материалом первого тома. Расположение материала описано в предисловии к первому изданию, воспроизведенному здесь (см. второй абзац и далее). Я благодарен многим читателям за указание ошибок и упущений. Особо я благодарю Хаджала (D. A. Hejhal) из Чикаго за весьма полный и впечатляющий список опечаток и за замечания, касающиеся многих мест книги. Январь 1970 г., Принстон Вильям Феллер К моменту кончины автора работа над рукописью уже была завершена, но корректуры получены не были. Я благодарю издателей, выделивших сотрудника для тщательного сличения корректуры с рукописью и за составление указателя. Проверку математического содержания книги произвели сообща Голдмэн (J.~ Goldman), Грюнбаум (A. Grunbaum), Маккин (Н. МсКеап), Питт (L. Pitt) и Питтенджер (A. Pittenger). Каждый математик понимает, какой невероятный объем работы стоит за этим. Я выражаю свою глубокую признательность этим ученым и обращаю к ним слова искренней благодарности за их бескорыстный труд. Май 1970 г. Клара Н. Феллер
ОБОЗНАЧЕНИЯ Интервалы обозначаются чертой сверху: i—i а, Ъ—открытый, a, b—замкнутый интервал; полу- —i i— открытые интервалы обозначаются а, Ь и а, Ь. Эти обозначения применяются также и в многомерном случае. Соответствующие соглашения о векторных обозначениях и упорядочении см. в гл. V, 1 (а также в гл. IV, 2). Символ (а, Ь) резервирован для пар и для точек. Я1, £Аг, 3ir обозначают соответственно прямую, плоскость и r-мерное евклидово пространство. 1 означает ссылку на первый том; римские цифры указывают номер главы. Так, 1; гл. XI, (3.6) указывает на отношение к § 3 гл. XI первого тома. ► указывает конец доказательства или серии примеров, и и 9? обозначают соответственно нормальную плотность и нормальное распределение с нулевым математическим ожиданием и единичной дисперсией. О, о и ~ Пусть и и v зависят от параметра х, который стремится, скажем, к а. Предполагая, что v положительно, мы пишем и = С (v) и = о (и) и~ v и если — v ограничено ->0 — 1 f(x)U{dx} об этом сокращении см. гл. V,3. Относительно борелевских множеств и бэровских функций см. введение к гл. V.
ГЛАВА I ПОКАЗАТЕЛЬНЫЕ И РАВНОМЕРНЫЕ ПЛОТНОСТИ § 1. ВВЕДЕНИЕ В первом томе мы неоднократно имели дело с вероятностями, определяемыми суммами многих малых слагаемых, и пользовались приближениями вида ь P{a<X<6}»S/(x)dx. (1.1) а Основным примером служит нормальное приближение к биномиальному распределению1). Приближение этого типа обыкновенно устанавливается в форме предельной теоремы, включающей ряд все более и более «тонких» дискретных вероятностных моделей. Во многих случаях этот переход к пределу приводит, вообще говоря, к новому выборочному пространству, и последнее может быть интуитивно проще, чем первоначальная дискретная модель. Примеры, а) Показательные времена ожидания. Для того чтобы описать времена ожидания дискретной моделью, мы должны сделать время дискретным и условиться, что изменения могут осуществляться только в моменты времени б, 26, ... . Простейшее время ожидания Т есть время ожидания первого успеха в последовательности испытаний Бернулли с вероятностью успеха р&. Тогда Р{Т>пб} = (1—рсу' и среднее время ожидания равно Е (Т) = Sip*. Эту модель можно усовершенствовать, если предположить б убывающим так, что математическое ожидание &/рй = а остается фиксированным. Любому фиксированному интервалу времени t соответствует п« t/8 испытаний, и, следовательно, при малом б мы имеем Р{Т >*}«(l--|)""«*-"*, (1-2) что доказывается переходом к логарифмам. Эта модель описывает время ожидания как геометрически распределенную дискретную случайную величину, а (1.2) утверждает, что «в пределе» получается показательное распределение. Интуиция подсказывает, что *) Другие примеры из первого тома: распределение арксинуса, гл. 111,4; распределение числа возвращений в начальное состояние и времен первого прохождения, гл. 111,7; предельные теоремы для случайных блужданий, Гл. XIV; равномерное распределение, задача 20 в гл. XI,7.
14 Гл. I. Показательные и равномерные плотности более естественно начать с выборочного пространства, точками которого служат действительные числа, и ввести показательное распределение непосредственно. б) Случайный выбор. «Выбор точки наудачу» в интервале1) 0,1 является воображаемым экспериментом с очевидным интуитивным смыслом. Этот эксперимент может быть описан дискретными приближениями, но проще взять в качестве выборочного пространства Еесь интервал и приписать каждому подынтервалу в качестве вероятности его длину. Воображаемый эксперимент, заключающийся в том, что производятся два независимых выбора точки в 0,1, дает пару вещественных чисел, и поэтому естественным выборочным пространством служит единичный квадрат. В этом выборочном пространстве «вероятность» почти инстинктивно приравнивается «площади». Этого вполне достаточно для некоторых элементарных целей, но рано или поздно возникает вопрос о том, что же в действительности означает слово «площадь». ► Как показывают эти примеры, непрерывное выборочное пространство может быть проще для восприятия, чем дискретная модель, но определение вероятностей в нем зависит от такого аппарата, как интегрирование и теория меры. В счетных выборочных пространствах можно было приписать вероятности всем, вообще события?.!, в то время кяк в пространствах произвольной природы ?та простая процедура ведет к логическим противоречиям, и наша кнпгцпя должна приспосабливаться к крайностям формальной логики. Мы вскоре увидим, что наивный подход может привести к затруднениям даже в сравнительно простых задачах. Ради справедливости стоит сказать, что в то же время многие значительные вероятностные задачи не требуют четкого определения понятия вероятности. Иногда они имеют аналитический характер, а вероятностное содержание служит лишь опорой для нашей интуиции. Более существен тот факт, что при изучении сложных случайных процессов (и соответственно усложненных выборочных пространств) могут возникнуть важные и понятные задачи, не связанные с теми тонкими средствами, которые используются при анализе процесса в целом. Типичное рассуждение может иметь следующий вид: если процесс вообще допускает математическое описание, то случайная величина Z должна иметь такие-то и такие-то свойства, а ее распределение должно в силу этого удовлетворять такому-то уравнению. Хотя вероятностные соображения могут сильно влиять на ход исследования этого уравнения, последнее в принципе не зависит от аксиом теории вероятностей. Специалисты различных прикладных областей настолько привыкли иметь дело с подобными 1) Для обозначения интервалов используется черта. Символ (а, Ь) сохраняется для координатной записи точек на плоскости, см. обозначения в начале книги.
§ 2. Плотности. Свертки 15 проблемами, что они отрицают необходимость теории меры: они не знакомы с задачами другого типа и с ситуациями, где нечеткие рассуждения приводили к неверным результатам1). Эти замечания постепенно разъясняются на протяжении этой главы, которая предназначена служить неформальным введением в теорию. В ней описываются некоторые аналитические свойства двух важных распределении, которые будут постоянно использоваться в этой книге. Специальные темы затрагиваются отчасти по причине важных применений, отчасти для демонстрации новых задач, требующих привлечения новых методов. Нет необходимости изучать их систематически или в том порядке, как они представлены. Всюду в этой главе вероятности понимаются как элементарные интегралы со всеми вытекающими отсюда ограничениями. Использование вероятностного «жаргона» и таких терминов, как случайные величины и математические ожидания, может быть оправдано с двух точек зрения. Можно рассматривать их как техническое вспомогательное средство для нашей интуиции, имеющее в основе формальную аналогию с изложенным в первом томе. С другой стороны, все сказанное в этой главе может быть формально безупречно обосновано предельным переходом от дискретной модели, описанной в примере 2, а). Последняя процедура, хотя и ке является ни необходимой, ни желательной, может быть хорошим упражнением для начинающих. § 2. ПЛОТНОСТИ. СВЕРТКИ Плотностью вероятности на прямой (или в ЗА1) называется функция /, такая, что /(л-)^0, [f(x)dx=l. (2.1) Для начала мы рассмотрим только кусочно-непрерывные плотности (общий случай см. в гл. V,3). Каждой плотности / мы J) Роли строгости и интуиции чгсто понимаются неправильно. Как уже отмечалось в первом томе, природная интуиция и естественный способ мышления дают .мало, но они становятся сильнее по мере развития математической теории. Сегодняшняя интуиция и применения опираются на сложные теории вчерашнего дня. Кроме того, строгая теория не роскошь, а способ экономии мышления. В самом деле, наблюдения показыиагат, что о применениях многие авторы полагаются на длинные вычисления, а не на простые рассуждения, которые им кажутся рискованными [ближайшая иллюстрация — пример 5,а)].
16 Гл. I. Показательные и равномерные плотности поставим в соответствие функцию распределения1) F, определенную равенством х F{x)=\f(y)dy. (2.2) Это есть монотонная непрерывная функция, возрастающая от О до 1. Мы скажем, что f и F сосредоточены на интервале а ^ ^х^Ь, если f равна нулю вне этого интервала. Плотность f будет рассматриваться как функция, задающая вероятности на интервалах прямой; интервалу а, Ь = {а<.х<.Ь\ соответствует вероятность ь F(b)-F(a) = lf(x)dx. (2.3) Иногда эта вероятность будет обозначаться Р {а, Ь\. При таком распределении отдельной точке соответствует вероятность О, i—i а замкнутому интервалу a, b—та же вероятность, что и а, Ь. В простейшей ситуации действительная прямая служит ^выборочным пространством*, т. е. результат воображаемого эксперимента представляется числом. (Точно так же, как и в первом томе, это лишь первый шаг в построении выборочных пространств, представляющих последовательности экспериментов.) Случайные величины являются функциями, определенными на выборочном пространстве. Для простоты мы договоримся на некоторое время считать функцию U случайной величиной, если для каждого t событие {U^^} состоит из конечного множества интервалов. Тогда функция G(0 = P{U<*} (2.4) может быть определена как интеграл от f по объединению этих интервалов. Функция G, заданная равенством (2.4), называется функцией распределения величины 11. Если G является интегралом от некоторой функции g, то g н:1?ывается плотностью распределения G или (что равнозначно) плотностью величины U. Основная случайная величина—это, конечно, координатная величина2) X сама по себе, а все другие случайные величины ') .Мы напоминаем, что под «функцией распределения» понимается непрерывная справа неубывающая функция с пределами 0 и 1 на —со и +оо. В первом томе мы преимущественно имели дело со ступенчатыми функциями. Теперь сосредоточим нише внимание на функциях распределения, задаваемых интегралам!!. Колее подробно мы будем изучать функции распределения в гл. V. ; Всюду, где sto возможно, мы будем обозначать случайные величины (т. е. функции на выборочном пространстве) заглавными полужирными буквами, оставляя малые буквы для обозначения чисел или масштабных параметров. Это справедливо, в частности, для координатной величины X, а именно функции, определенной равенством X {х)=х.
§ 2. Плотности. Свертки 17 являются функциями X. Функция распределения X тождесгпенна функции F, посредством которой задаются вероятности. Необходимо сказать, что любая случайная ьелпчнна Y=g(X) может рассматриваться как координатная величина на новой прямой. Как сказано выше, употребление этих терминов может быть оправдано аналогией с рассмотренным в первом томе. Следующий пример показывает, что наша модель может быть получена из дискретных моделей предельным переходом. Примеры, а) Группировка данных. Пусть F — заданная функция распределения. Выберем фиксированное й > 0 и рассмотрим дискретную случайную величину Х„, которая в интервале (/.- — 1)б<х^нб принимает постоянное значение «б. Здесь и = 0, ± I. ±2, .... В первом томе мы использовали совокупность чг^-ел, кратных б, как выборочное пространство и описывали распределение вероятностен X., равенством P{X., = n8} = F(nfi) — F((n—1)6). (2.5) Теперь Х„ — случайная величина в расширенном выборочном пространстве, и ее функция распределения—это функция, которая в интервале лб^Сх < (п+1) 6 равна F (пЬ). В непрерывной модели Xs служит приближением к X, получаемым отождествлением наших интервалов с их концами (процедура, известная статистикам как группировка данных). В духе первого тома мы будем рассматривать X* как основную случайную величину, и б — как свободный параметр. Полагая б—► (), мы получим предельные теоремы, устанавливающие, например, что F служит предельным распределением для X,. б) При д:>0 событие ^Х2^х} равносильно событию {—Кх^ ^Х^И*}; случайная величина Х= имеет распределение, сосредоточенное на 0, оо с функцией распределг:шя F {Vх)— F {—Ух). После дифференцирования видно, что плотность g величины X3 равна g{x) = -lT[f{Vx) + f(—Vrx)Wx при х > 0 и g(x) = 0 при .v < 0. Аналогично функция распределения Х:< равна F{'{/x) и имеет плотность -д-/Ц-' *)/i/**■ ► Математическое ожидание X определяется формулой Е(Х)= J xf(x)dx (2.6) - OD при условии, что интеграл сходится абсолютно. Математические ожидания аппроксимирующих дискретных величин Xj из примера а) совпадают с римановыми суммами этого интеграла, и поэтому Е (Х5)—► Е(Х). Если и есть ограниченная непрерывная функция, то те же самые рассуждения применимы к случайной величине
18 Гл. I. Показательные и равномерные плотности ы(Х), и соотношение Е (и (ХЙ)) —► Е (и (X)) влечет за собой -t- ос Е(и(Х))= \u(x)f(x)dx. (2.7) — CD Здесь следует отметить, что в этой формуле явно не используется распределение и (X). Таким образом, для вычисления математического ожидания функций от X достаточно знать распределение случайной величины X. Второй момент X определяется равенством + я: Е(Х2)= J x-f{x)dx (2.8) — со при условии, что интеграл сходится. Обозначим ц = Е(Х). Тогда дисперсия X определяется как Var (X) = Е ((Х-ц)») = Е (Х')-ц*. (2.9) Замечание. Если Еелпчина X положительна (т. е. если плотность / сосредоточена на 0, оо) и если интеграл в выражении (2.6) расходится, то удобно говорить, что X имеет бесконечное математическое ожидание, и писать Е(Х) = оо. Точно так же говорят, что X имеет бесконечную дисперсию, когда интеграл в (2.8) расходится. Для величин, принимающих положительные и отрицательные значения, математическое ожидание остается неопределенным, когда интеграл (2.6) расходится. Типичный пример доставляет плотность л_1(1 +х2)-1. ^ Понятие плотности переносится на размерности более высоких порядков, но общее обсуждение мы отложим до гл. III. Пока же мы будем рассматривать только аналог произведения вероятностей, введенного определением 2 в 1, гл. V, 4, для описания комбинаций независимых экспериментов. Другими словами, в этой главе мы будем иметь дело только с плотностями, представляемыми произведениями вида f(x)g(y), f(x)g(y)h(z) и т. д., где /, g, ...—плотности на прямой. Задание плотности вида f(x)g(y) на плоскости ZA2 означает отождествление «вероятностей» с интегралами P{A\ = Hl{x)g[y)dxdy. (2.10) А Когда мы говорим о «двух независимых случайных величинах X и Y с плотностями f и g», то это есть сокращение высказывания о том, что вероятности на (X, У)-плоскостн определяются в соответствии с формулой (2.10). Отсюда следует правило умножения для интервалов, например PjX>a, Y>b} = P{X>afx xP{Y>b}. Аналогия с дискретным случаем настолько очевидна, что дальнейшие разъяснения не требуются.
§ 2. Плотности. Свертки 19 Можно ввести много новых случайных величин, рассматривая функции X и Y, но наиболее важную роль играет сумма S = = X + Y. Событие i4 = {S^s} изображается полуплоскостью точек (х, у), таких, что x-\-y^.s. Обозначим функцию распределения Y через G, так что g(y) = G' (у). Чтобы найти функцию распределения X-f-Y, мы интегрируем в (2.10) по области у^ €^s—х. В результате получаем + я P{X + Y<s} = j G(s—x)f(x)dx. (2.11) — X Ввиду симметрии можно поменять F и G ролями без влияния на результат. После дифференцирования видно, что плотность X -f- Y равна любому из двух интегралов + X + X S f(s-y)B(y)dy= J Hy)g(*-y)dy. (2.12) - X — X Операция, определенная формулой (2.12), является частным случаем свертки, которая будет введена в гл. V, 4. До этого времени мы будем использовать термин «свертка» только для плотностей: свертка двух плотностей fug есть функция, определенная в (2,12). Свертка будет обозначаться f tt g. Повсюду в первом томе, мы имели дело со свертками дискретных распределений. Соответствующие правила справедливы и здесь. В силу (2.12) мы имеем f tt g = g * f. Если задана третья плотность h, мы можем составить свертку (f*g)*li. Это есть плотность суммы X + Y + Z трех независимых величин с плотностями f, g, h. Тот факт, что суммирование коммутативно и ассоциативно, влечет те же свойства для сверток, и поэтому результат f * g *h не зависит от порядка операций. Положительные случайные величины играют важнейшую роль, и потому полезно отметить, что если плотности f и g сосредоточены на 0, оо, то свертка f#g равна f*g(s) = lF(s-y)g(y)dy=lf(x)g(s-x)rtx. (2.13) ► о и Пример, в) Пусть fug сосредоточены на 0, оо и определены здесь равенствами f{x) = ae-°x :i g(x) = $e-v. Тогда f*g(s) = ap'"p'~f;"'!', x>0. (2.14) ► (Продолжение в задаче 12.) Замечание о понятии случайной величины. Использование прямой линии или евклидовых пространств ЗЛп как выборочных пространств иногда затемняет различие между случайными вели-
20 Гл. I. Показательные и равномерные плотности чинами и «обычными» функциями одной или большего числа переменных. В первом томе случайная величина X могла принимать лишь счетное множество значений, и в этом случае было ясно, говорили ли мы о функции, например квадрате или экспоненте, определенной на прямой, или о случайной величине Xs или ех, определенной на выборочном пространстве. Даже по внешнему виду эти функции совершенно различны, поскольку «обычная» показательная функция принимает все положительные значения, тогда как ех имеет счетную область значений. Для того чтобы увидеть изменение в этой ситуации, рассмотрим теперь «две независимые случайные величины X и Y с одинаковой плотностью /». Другими словами, выборочным пространством служит плоскость и вероятности определяются как интегралы от f(x)f(y). Теперь любая функция двух переменных может быть определена на выборочном пространстве, и тогда она становится случайной величиной, однако следует иметь в виду, что функция двух переменных может быть также определена независимо от нашего выборочного пространства. Например, некоторые статистические задачи требуют введения случайной величины /(X)/(Y) [см. пример 12, г) гл. VI]. С другой стороны, вводя наше выборочное пространство 5Л2, мы очевидным образом упоминали «обычную» функцию /, определенную независимо от выборочного пространства. Эта «обычная» функция задает множество случайных величин, например /(X), /(Y), /(X + Y) и т. д. Таким образом, одна и та же функция / может служить или случайной величиной, или «обычной» функцией. Как правило (и в каждом отдельном случае), будет ясно, имеем ли мы дело со случайной величиной или нет. Тем не менее в общей теории возникают ситуации, при которых функции (такие, как условные вероятности и условные математические ожидания) могут рассматриваться как «свободные» функции пли как случайные величины, и это отчасти приводит к путанице, если свобода выбора не понимается должным образом. Замечание о терминологии и обозначениях. Чтобы избежать громоздких формулировок, условимся называть Е (X) математическим ожиданием величины X, или плотности /, или распределения F. Подобные вольности будут введены и для других терминов. Например, «свертка» фактически означает операцию, но этот термин применяют и к результату операции, и функция f -Х- g называется «сверткой». В старой литературе термины «распределение» и «функция частот» применялись к тому, что мы теперь называем плотностями; наши функции рас- предетения описывались как «кумулятивные», а сокращение c.d.f. ') употребительно до сих пор. *) Cumulative distribution function —кумулятивная функция распределении.— Прим, перев,
§ 3. Показательная плотность 21 § 3. ПОКАЗАТЕЛЬНАЯ ПЛОТНОСТЬ Для произвольного, но фиксированного а>0 положим /(х) = ае-<", F(x) = \—e~ax при х>0 (3.1) и F (x) = f (х) = 0 при х < 0. Тогда / — показательная плотность, F—ее функция распределения. Простые вычисления показывают, что математическое ожидание равно а-1, дисперсия—а~г. В примере 1,а) показательное распределение было выведено как предел геометрических распределений. Метод примера 2, а) приводит к тому же результату. Напомним, что в случайных процессах геометрическое распределение часто имеют времена ожидания или продолжительность жизни и что это обусловлено «отсутствием последействия», описанным в 1, гл. XIII, 9: каков бы ни был настоящий иоэраст, оставшееся время жизни не зависит от прошлого и имеет то же самое распределение, что и само время жизни. Теперь будет показано, что это свойство переносится на показательное распределение и только на показательное распределение. Пусть Т—произпольная положительная величина, которую мы будем интерпретировать как время жизни или как время ожидания. Удобно заменить функцию распределения Т «хвостом распределения» U(t) = P{l>t\. (3.2) С наглядной точки зрения U {t) есть «вероятность того, что время жизни (от момента рождения) превзойдет t». При данном возрасте s событие, состоящее в том, что оставшееся время жизни превосходит /, записывается как {T>s-f-*}, и условная вероятность этого события (при данном возрасте s) равна отношению ^(s + O/^M8)- Это есть распределение оставшегося времени жизни. Оно совпадает с распределением общего времени жизни тогда и только тогда, когда U(s + t) = U(s)U(t), s, />0. (3.3) В 1; гл. XVII, 6 было показано, что положительное решение этого уравнения должно иметь вид U {t) = e~а1, и, следовательно, отсутствие последействия, выделенное выше, имеет место тогда и только тогда, когда распределение времени жизни показательно. Мы будем называть это свойство отсутствия последействия (lack of memory) марковским свойством показательного распределения. Аналитически марковское свойство сводится к утверждению, что только для показательного распределения F хвосты U= = 1—F удовлетворяют равенству (3.3). Этим объясняется постоянное присутствие показательного распределения в марковских процессах. (Усиленный вариант марковского свойства будет описан
22 Гл. I. Показательные и равномерные плотности в § 6.) Наше описание относится к временным процессам, но наши рассуждения имеют общий характер, и марковское свойство остается осмысленным, когда время заменяется каким-нибудь другим параметром. Примеры, а) Прочность на разрыв. Чтобы получить непрерывный аналог общеизвестной конечной цепи, прочность которой равна прочности ее самого слабого звена, обозначим U (t) вероятность того, что нить длины t (данного материала) может выдержать некоторый фиксированный груз. Нить длины s-{-t не разрывается, если два отрезка по отдельности выдерживают данный груз. В предположении, что взаимодействие отсутствует, эти два события должны рассматриваться как независимые и U должно удовлетворять (3.3). Здесь длина нити выполняет роль временного параметра, а длина, при которой нить порвется, является показательно распределенной случайной величиной. б) Случайные ансамбли точек в пространстве существенны во многих отношениях, поэтому важно иметь подходящее определение этого понятия. Интуиция подсказывает, что первым свойством, характеризующим «чистую случайность», должно быть отсутствие взаимодействия между различными областями: если области At и Ла не перекрываются, то наблюдения за положением в области Ai не позволяют сделать вывод о положении в области Ла. Конкретно, вероятность р того, что области Л, и Аг одновременно не содержат точек ансамбля, должна быть равна произведению вероятностей р1 и рг того, что каждая область At и Л, соответственно пуста. Правдоподобно, что это правило произведения справедливо не для всех разбиений на области, но в том случае, когда вероятность р зависит лишь от объема области Л, а не от ее формы. Предполагая, что последнее выполнено, обозначим через U (t) вероятность того, что область, имеющая объем t, является пустой. Тогда вероятности U (/) удовлетворяют равенству (3.3) и поэтому U (t) = e~at; постоянная а зависит от плотности точек ансамбля, или, что то же самое, от единицы измерения. В следующем разделе будет показано, что знание U позволяет вычислять вероятности рп (t) того, что область объема t содержит ровно п точек ансамбля; эти вероятности определяются распределением Пуассона: рп (t) = e~al (at)"/n\. В этом случае мы говорим о пуассоновских ансамблях точек, и этот термин является более определенным, нежели термин случайный ансамбль, который может иметь и другие значения. в) Ансамбли кругов и шаров. Случайные ансамбли частиц ставят перед нами более сложную задачу. Предположим для простоты, что частицы имеют круговую или сферическую форму фиксированного радиуса р. Тогда положение частиц полностью определяется их центрами и заманчиво считать, что эти центры образуют пуассоновский ансамбль. При строгом подходе, однако, это неверно, поскольку взаимные расстояния между центрами необходимо
§ 3. Показательная плотность 23 превосходят 2р. Кажется тем не менее правдоподобным, что при малом радиусе р пренебрежение размерами рассматриваемых фигур Незначительно сказывается на практике и поэтому модель пуассоновского ансамбля центров можно считать приемлемой в качестве разумного приближения. В соответствующей математической модели мы постулируем, что центры образуют пуассоновский ансамбль, и допускаем в связи с этим возможность того, что круги или шары пересекаются. Эта идеализация не должна иметь практических последствий, если радиусы р малы, так как вероятность пересечений незначительно мала. Астрономы обращаются со звездными системами как с пуас- соновскими ансамблями, и достигаемое при этом приближение к действительности оказывается превосходным. Следующие два примера демонстрируют использование этой модели на практике. г) Ближайшие соседи. Рассмотрим пуассоновский ансамбль шаров (звезд) с плотностью а. Вероятность того, что область объема t не содержит центров, равна е~а!. Высказывание о том, что расстояние до ближайшего к началу координат соседа больше г, сводится к высказыванию, что внутренность шара радиуса г не содержит ни одного центра из ансамбля. Объем такого шара равен -yJir1, и поэтому для пуассоновского ансамбля звезд вероятность того, что ближайший сосед находится на расстоянии, большем г, равна е 3 . Тот факт, что полученное выражение не зависит от радиусов р звезд, указывает на приближенный характер модели и ее ограниченность. На плоскости шары заменяются кругами, а распределение расстояний между ближайшими соседями задается функцией 1—e~anrl. д) Продолжение: задача свободного пробега. Для упрощения описания мы начнем с двумерной модели. Представим себе случайный ансамбль кругов (круговых дисков) как поперечные сечения деревьев (круговых цилиндров) в достаточно редком лесу. Я стою в начале координат, которое не содержится ни в одном из дисков, и смотрю в положительном направлении оси х. Длина самого длинного интервала 0, /, не пересекающего ни одного диска, характеризует свободный пробег, или видимость, в х-нап- равлении. Эту случайную величину обозначим L. Обозначим через А область, образованную множеством точек, расстояния которых от точех интервала 0, t на оси х не превосходят р. Граница области А гостоит из двух сегментов 0 ^ <!х^/ на прямых j=±p и двух полуокружностей радиуса р с центрами в точках 0 и t на оси х. Таким образом, площадь А равна 2p/-fnps. Событие {L>/} происходит тогда и только тогда, когда внутри области А нет ни одного центра диска, но уже известно заранее, что круг радиуса р с. центром в начале координат не содержит центров диска. Оставшаяся область имеет
24 Гл. I. Показательные и равномерные плотности площадь 2pt, и можно сделать вывод, что распределение случайной величины L {видимости в х-направлении) является показательным: P{L> t\=e-2aP'. Проведенные нами рассуждения остаются верными и в пространстве it3, а соответствующая этому случаю область образуется вращением А около оси х. Прямоугольник 0<х</, |#|< <р заменяется цилиндром объема лр'Л Мы получаем, что для пуассоновского ансамбля шаровых звезд величина L свободного пробега в любом направлении имеет показательное распределение: P{L > /} = е~паР''. Средняя величина свободного пробега равна E(L)=l/(nep«). ». Следующая теорема будет использоваться неоднократно. Теорема. Если \х Х„—взаимно независимые случайные величины с показательным распределением (3.1), то сумма Х1+... . . . -f X„ имеет плотность gn и функцию распределения G„, задаваемые формулами gnW = a^r9«-". *>°. (3-4) GB(x) = l-e-«(l+5f+ --+^=9). *>0. (3.5) Доказательство. При п=\ утверждение сводится к определению (3.1). Плотность gn+1 определяется сверткой a.+i (0 = 5 *«('-*)&(*)<**. О-в) о и в предположении справедливости (3.4) это сводится к *« + .(0=(^*-'Jx-*dx = a№e-««. (3.7) и Таким образом, (3.4) выполняется по индукции для всех п. Справедливость равенстпа (3.5) доказывается дифференцированием. ^ Плотности gn входят в семейство гамма-плотностей, которое будет введено в гл. 11,2. Они представляют собой непрерывный аналог отрицательного биномиального распределения, определенного в 1, гл. VI, 8, как распределение суммы п случайных величин с одинаковым геометрическим распределением. (См. задачу 6.) § 4. ПАРАДОКСЫ. СВЯЗАННЫЕ С ВРЕМЕНЕМ ОЖИДАНИЯ. ПУАССОНОВСКИЙ ПРОЦЕСС Обозначим X,, Хг, ... взаимно независимые случайные величины с одинаковым показательным распределением (3.1). Пусть
§ 4. Парадоксы, связанные с временем ожидания 25 s0=o, S^X.+ .-.+X,,, л=1, 2 (4.1) Мы вводим семейство новых случайных величин N (t) следующим образом: N (t) есть число индексов k^l, таких, что Sk^.t. Событие {N(f) = n} происходит тогда и только тогда, когда S„<!f, a Sn+1 > t. Так как S„ имеет распределение G„, то вероятность этого события равна Gn (t) — Gn+1 (t) или P{N(0 = n}=e-'i5^.. (4.2) Иначе говоря, случайная величина N (I) имеет пуассоновское распределение с математическим ожиданием at. Эта аргументация выглядит как новый вывод пуассоновского распределения, но на самом деле это только перефразировка первоначального вывода из 1, гл. VI, 6, в терминах случайных величин. Для наглядного описания рассмотрим случайно наступающие события (такие, как вспышки космических лучей или телефонные вызовы), которые мы называем «поступлениями». Допустим, что последействие отсутствует, т. е. прошлое не дает возможности сделать заключение в отношении будущего. Как мы видели, это условие требует, чтобы время ожидания Хх первого поступления было распределено показательно. Но при каждом поступлении процесс начинается снова как вероятностная копия всего процесса: времена ожидания Хк между последовательными поступлениями должны быть независимыми и должны иметь одно и тоже распределение. Сумма Sn изображает момент л-го поступления, а N (t)— число поступлений в интервале О, Л В такой форме доводы отличаются от первоначального вывода пуассоновского распределения лишь использованием лучших специальных терминов. (По терминологии случайных процессов последовательность {Sn} есть процесс восстановления с показательными временами Хк между поступлениями; общее понятие процесса восстановления см. в гл. VI, 6.) Даже эта простая ситуация приводит к кажущимся противоречиям, которые иллюстрируют необходимость более сложного подхода. Мы начнем с несколько наивной формулировки. Пример. Парадокс времени ожидания. Автобусы прибывают в согласии с пуассоновским процессом, причем среднее время между последовательными автобусами равно а-1. Я прихожу в момент /. Каково математическое ожидание E(W,) времени WM в течение которого я жду следующий автобус? (Понятно, что момент t моего прибытия не зависит от автобусов—скажем, я прихожу ровно в полдень.) Очевидно, имеются два противоречивых ответа. а) Отсутствие последействия, свойственное пуассоновскому процессу, влечет за собой независимость времени ожидания авто-
26 Гл. I. Показательные и равномерные плотности буса от момента моего прибытия. В этом случае E(Wf) = E(WB) = or». б) момент моего прибытия «выбран наудачу» в интервале между двумя последовательными автобусами, и по соображениям симметрии мое среднее время ожидания должно быть равно половине среднего промежутка времени между двумя последовательными автобусагли, т. е. E(W,)=|a-1. Оба рассуждения кажутся приемлемыми, и оба использовались на практике. Что же делать с противоречиями? Легчайший выход у формалиста, который отказывается рассматривать задачу, если она не сформулирована строго. Но задачи не решаются их игнорированием. Теперь мы покажем, что оба рассуждения по существу, если не формально, корректны. Ошибка лежит в непредвиденном пункте, и мы приступаем теперь к ее объяснению1). ^ Мы рассмотрим последовательность времен между прибытиями Х1 = з1, Х2 = з2— 5,-, .... По предположению Хк имеют одинаковое показательное распределение с математическим ожиданием а-1. Выбирая «любое» отдельное Xfc, мы получаем случайную величину, и интуитивно ожидается, что ее математическое ожидание будет равно а-1 при условии, что выбор сделан без знания последовательности X,, Ха, .... Однако это неверно. В нашем примере мы взяли тот элемент Xfc, для которого S)k_i<^^Sfc, где t фиксированно. Этот выбор сделан бет учета действительного процесса, но оказывается, что так выбранное Хк имеет двойное математическое ожидание 2а-1. С учетом этого факта противоречие исчезает, так как в пункте б) нашего примера постулируется, что среднее время ожидания равно я""1. Это разрешение парадокса вызвало шок у опытных работников, однако оно становится интуитивно ясным, когда должным образом подбирается способ рассуждения. Грубо говоря, длинный интервал имеет больше шансов накрыть точку t, нежели короткий. Это приблизительное утверждение подтверждается следующим предложением. Предложение. Пусть X,-, X, ... взаимно независимы и одинаково показательно распределены с математическим ожиданием я~*. *) Вариант парадокса см. в примере VI, 7, а) Этот парадокс известен в обшей теории восстановления, где он вызвал серьезные затруднения и противоречия, прежде чем был правильно понят (см. по этому поводу XI, 4).
§ 4. Парадоксы, связанные с временем ожидания 27 -«-{: Пусть t > 0 фиксированно, но произвольно. Элемент Хк, удовлетворяющий условию Sk_1 <t ^ZSk, имеет плотность (1+а/)е-" для x>t. ( ' Здесь главног в том, что плотность (4.3) не является общей плотностью для Хк. Явный вид этой плотности представляет второстепенный интерес. [Аналог произвольного распределения времени ожидания содержится в XI, (4.16).] Доказательство. Пусть k—такой (зависящий от случая) индекс, что St_j<<^St, и пусть L| равно Sk — Sk_lm Мы должны доказать, что Lt имеет плотность (4.3). Допустим сначала, что х < t. Событие {Lf^x} происходит, если и только если S„ = y к t—#< <Xn+i^x при некоторой комбинации п, у. Отсюда следует неравенство t—x^.y<t. Суммируя по всем возможным п и у, получаем - » P{L,<x}=2 J gn(y)-[e-all-y)-e-ax]dy- (4-4) я-1,_х Но gj (#)+ga (y)-\- ■ • ■ =« тождественно, и поэтому P{L,<x} = l — e~ax—ахе~ах. (4.5) Дифференцируя, мы получим (4.3) для х < t. Для х > t применимо это же доказательство с той разницей, что у меняется от 0 до х, и мы должны прибавить к правой части равенства (4.4) вероятность е~а1—е-1" того, что 0 < / < S2 < x. Этим доказательство завершается. ^ Скачок функции (4.3) при x = t обусловлен специальной ролью начала как исходной точки процесса. Очевидно, lim v, (x) = а1хе-ах, (4.6) Г-»00 откуда видно, что со временем роль начала исчезает и для «старого» процесса распределение L, почти не зависит от t. Удобнее выразить это, сказав, что правая часть (4.6) задает стационарную» плотность L,. В обозначениях, принятых в доказательстве, время ожидания W,, рассмотренное в примере, есть случайная величина Vft = Sk—t. Из доказательства теоремы следует также, что P{W,<x} = e-°"—е-" «*+»)+ + Х ^Вп(У)[е~аи~и)—e-ai*+t-ri]dy=l— e~ax. (4.7) я=1 О Таким образом, W, имеет то же самое показательное распределение, что и Хк, в согласии с доводами пункта а). (См. задачу 7.)
28 Гл. I. Показательные и равномерные плотности Наконец, несколько слов о пуассоновском процессе. Пуассонов- скне величины N {t) были введены как функции, определенные на выборочном пространстве бесконечной последовательности случайных величин Xtl X2 Эта процедура удовлетворительна для многих целей, но более естественно другое выборочное пространство. Мысленный эксперимент «регистрации числа поступивших вызовов вплоть до момента /» дает при каждом положительном t целое число, и результатом поэтому является ступенчатая функция с единичным;! скачками. Эти ступенчатые функции служат точками выборочного пространства; выборочное пространство является функциональным пространством—пространством всех возможных «траекторий». В этом пространстве N (t) определяется как значение ординаты в момент t, a Sn—как координата и-го скачка и т. д. Теперь могут быть рассмотрены события, которые невыразимы в терминах первоначальных случайных величин. Типичный пример, имеющий практический интерес (см. задачу о разорении в гл. VI, 5), доставляет событие, заключающееся в том, что N (t) > a -f-Ы при некотором t. Отдельная траектория (точно так же, как отдельная бесконечная последовательность из ± 1 в биномиальных испытаниях) представляет собой естественный и неизбежный объект вероятностного исследования. Стоит только привыкнуть к новой терминологии, как пространство всех траекторий становится наиболее наглядным выборочным пространством. К сожалению, введение вероятностей в пространстве выборочных траекторий—дело далеко не простое. Для сравнения заметим, что переход от дискретных выборочных пространств к прямой, плоскости и т. д. и даже к бесконечным последовательностям случайных величин ни мысленно, ни технически не труден. В связи с функциональными пространствам;! возникают проблемы нового типа, и мы предупреждаем читателя, что не будем иметь с ними дела в этом томе. Мы удовлетворимся частным рассмотрением выборочных пространств последовательностей (счетного множества координатных величин). Упоминание о случайных процессах вообще и о пуассоновском процессе в частности мы будем делать свободно, но только для того, чтобы подготовить интуитивную основу или привлечь интерес к нашим проблемам. Пуассоновские ансамбли точек Как показано в 1; гл. VI, 6, пуассоновский закон управляет не только «точками, распределенными случайно на оси времени», но также ансамблями точек (такими, как дефекты в изделиях или изюминки в булках), распределенных случайно на плоскости или в пространстве при условии, что t интерпретируется как площадь или объем. Основное предположение состоит в том, что вероятность нахождении k точек в заданной области зависит только от
§ 5. Устойчивость неудач 29 площади или объема области, но не от ее формы и что явления в неперекрывающихся областях независимы. При этом же самом предположении в примере 3, б) было показано, что вероятность отсутствия точек в области объема t равна e~at. Это соответствует показательному распределению времени ожидания первого события, и мы теперь видим, что распределение Пуассона для числа событий является простым следствием этого. Те же доводы применимы к случайным ансамблям точек в пространстве, и мы приходим к возможности нового доказательства того, что число точек ансамбля, содержащихся в данной области, есть случайная величина, распределенная по закону Пуассона. Путем несложных формальных выкладок можно прийти к интересным результатам, касающимся таких случайных ансамблей точек, но замечания относительно пуассоновского процесса одинаково применимы и к пуассоновским ансамблям; полное вероятностное описание сложно и лежит вне рамок настоящего тома. § 5. УСТОЙЧИВОСТЬ НЕУДАЧ Общеизвестно, что тот, кто встает в очередь, случается, вынужден ждать неопределенно долгое время. Подобные неудачи преследуют нас во многих положениях. Как может способствовать объяснению этого теория вероятностей? Для ответа на этот вопрос мы рассмотрим три примера, типичные для множества ситуаций. Они иллюстрируют неожиданные общие свойства случайных флуктуации. Примеры, а) Рекордные значения. Обозначим Х0 мое время ожидания (или размер финансовых потерь) некоторого случайного события. Предположим, что мои друзья подвергли себя опыту того же типа. Обозначим их результаты Xlt Xz, ... . Чтобы отразить «беспристрастность», предположим, что Х0, X,. ..— взаимно независимые случайные величины с одним и тем же распределением. Природа последнего в действительности не имеет значения, но, так как показательное распределение служит моделью случайности, мы предположим, что Ху показательно распределены в соответствии с (3.1). Для простоты описания мы предполагаем последовательность {Ху} неограниченной. Чтобы оценить размер моей неудачи, я спрашиваю, как много времени должно пройти, прежде чем один из моих друзей испытает большую неудачу (мы пренебрегаем событием Xft = X„, вероятность которого равна нулю)? Более формально, мы вводим время ожидания N как значение первого индекса п, такого, что Х„ > Ха. Событие {N > п—1} происходит, если и только если максимальный член строки Х0, X,, ..., Хп_, является начальным; по соображениям симметрии вероятность этого события равна /г-1. Событие {N=n}—это то же, что {N>rc — 1} — {N > п\, и, следо-
30 Гл. I. Показательные и равномерные плотности вательно, при п = \, 2, ... P{N = «}=1 j-v= . ' . (5.1) 1 ' и я + I я (л + I) * ' Этот результат полностью подтверждает, что мне действительно ужасно не везет: случайная величина N имеет бесконечное математическое ожидание\ Было бы достаточно плохо, если нужно было бы провести в среднем 1000 испытаний, чтобы побить «рекорд» моих неудач, но действительное время ожидания имеет бесконечное математическое ожидание. Отметим, что наше рассуждение не зависит от условия, что Xfc показательно распределены. В действительности всякий раз, когда величины X, независимы и имеют одну и ту же непрерывную функцию распределения F, первое «рекордное» значение имеет распределение (5.1). Тот факт, что это распределение не зависит от F, используется статистиками для проверки независимости. (См. также задачи 8—11.) Замечательный и общий характер результата (5.1) в сочетании с простотой доказательства способен внушить подозрение. На самом деле доказательство безупречно (за исключением неформальных рассуждений), но те, кто предпочитает потраться на надежные вычисления, могут легко проверить правильность (5.1), используя непосредственное определение рассматриваемой вероятности как (п-\- 1)-кратного интеграла от аа+1е~а и°+ ■■ ■+*"1 по области, определенной неравенствами 0 < ха < хп и 0 < Xj < х0 при 1 = 1 л —1- Дадим другой вывод формулы (5.1), представляющий собой поучительное упражнение с условными вероятностями; он менее прост, но приводит к дополнительным результатам (задача И). При условии, что Х0 = х, вероятность большого значении и О^лее поздних испытаниях равна p = e~at, и мы имеем дело с временем ожидания первого «успеха» в испытаниях Бернулли с вероятностью успеха р. Условная вероятность, что N=n при условии Х0 = х, равна поэтому р (1—р)"-1. Чтобы получить P{N=n}, мы должны умножить это на плотность txe-t" и проинтегрировать по х. Подстановка 1—е~ =/ сводит подынтегральную функцию «функции /л-1(1—«), интеграл от которой равен п~х — (п+1) , что соответствует (5.1). б) Отношения. Если X и Y — две независимые случайные величины с одинаковым показательным распределением, то отношение Y/X является новой случайной величиной. Ее функция распределения получается интегрированием выражения а%е~а1х+у> по области 0 < у < tx, 0<x<oo. Интегрирование по «/приводит к результату к р {т < 4 " I "*"" 0 -e"e")dx =ттг ■ (5-2> Соотьеюь>ю1цая плотность равна (1+0-2- Заслуживает внима^
§ 6. Времена ожидания и порядковые статистики 31 ния то, что величина Y/X имеет бесконечное математическое ожидание. Мы находим здесь новое подтверждение устойчивости неудач. Конечно, Петр имеет основание для недовольства, если ему пришлось ждать в три раза больше, чем ждал Павел. Однако распределение (5.2) приписывает этому событию вероятность 74- Отсюда следует, что в среднем в одном из двух случаев или Павел, или Петр имеют основания для недовольства. Наблюденная частота практически возрастает, так как очень короткие времена ожидания, естественно, проходят незамеченными. в) Параллельные очереди. Я приезжаю в своем автомобиле на а?томо5ильную инспекционную станцию (или ко въезду в туннель, или на автомобильный паром и т. д.). Имеются иа выбор две очереди, но раз уж я встал в одну очередь, я должен стоять в ней. Мистер Смит, который приехал вслед за мной, занимает место в друга"! очереди, которое я мог бы выбрать, и я теперь слежу за тем, продвигается ли он быстрее или медленнее меня. Большее время мы стоим неподвижно, но время от времени то одна, то другая очередь передвигается на один автомобиль вперед. Чтобы увеличить влияние чистого случая, мы предпоюжим две очереди стохастически независимыми; интервалы времени между последовательными продвижениями также являются независимыми величинами с одинаковым показательным распределением. При данных обстоятельствах последовательные продвижения представляют собой испытания Бернулли, где «успех*—это то, что продвинулся вперед я, «неудача»—что продвинулся мистер Смит. Так как вероятности успеха равны 1/2. мы в сущности имеем дело с симметричным случайным блужданием, и любопытные свойства флуктуации при случайных блужданиях находят неожиданную интерпретацию. (Для простоты описания мы отвлечемся от того, что имеется только ограниченное число автомобилей.) Смогу ли я когда-нибудь обогнать мистера Смита? В переводе на язык случайных блужданий этот вопрос звучит так: будет ли когда-нибудь иметь место первое прохождение через +1? Как известно, это событие имеет вероятность, равную единице. Однако среднее время ожидания для него бесконечно. Такое ожидание дает достаточные возможности для оплакивания моих неудач, причем раздражение мое только возрастает от того, что мистер Смит приводит те же самые доводы. ^ § В. ВРЕМЕНА ОЖИДАНИЯ И ПОРЯДКОВЫЕ СТАТИСТИКИ Пусть дана упорядоченная строка (xit ..., х„) из п действительных чисел. Переставляя их в порядке возрастания величины, получим новую строку Will ■*(»>• ■ ■ " I XUl))^ ГДв *(1) ^*(J) ^ ■ ■ ■ ^ Х11ПШ
32 Гл. I. Показательные и равномерные плотности Эта операция, примененная ко всем точкам пространства oil", дает нам п вполне определенных функций, которые будут обозначаться Х(1), ..., Х(п). Если в еЯ" определены вероятности, то эти функции становятся случайными величинами. Мы говорим, что (Х1П, ..., Х(в,) получается перестановкой из X,, ..., Хв в соответствии с возрастанием величины. Величина Х(А) называется k-н порядковой статистикой1) данной выборки Х: Хв, в частности, Х(1) и Х(п)—это выборочные экстремумы; если n = 2v-f-l нечетно, то X,v+ll есть выборочная медиана. Мы применим эти понятия к частному случаю независимых случайных величин X, Хп с одинаковым показательным распределением с плотностью ае~ах. Пример, а) Параллельные очереди. Будем интерпретировать Xj, ..., Хв как длительности п времен обслуживания, начинающегося с момента 0 в почтовом отделении с п окошками. Порядковые статистики изображают последовательные моменты окончания обслуживании, или, как говорится, моменты последовательных разгрузок («выходной процесс»). В частности, Х(1, представляет собой время ожидания первой разгрузки. Теперь если предположение об отсутствии последействия осмысленно, то время ожидания Х(1, должно обладать марковским свойством, т. е. X,,, должно быть распределено показательно. Фактически событие {ХП)>/[ есть одновременная реализация п событий |Х„>/[, каждое из которых имеет вероятность е-0"; ввиду предположения о независимости вероятности перемножаются, и мы имеем Р{Хш>/}=в--»'. (6.1) Сделаем теперь следующий шаг и рассмотрим положение в момент Х(1). Предположение об отсутствии памяти, по-видимому, подразумевает, что восстанавливается первоначальное положение с той разницей, что теперь в операциях участвует /; — 1 окошек; продолжение процесса не должно зависеть от Х(1) и должно быть копией всего процесса. В частности, время ожидания следующей разгрузки, а именно Х(2) — Хт, должно иметь распределение P{X(21-Xll)>f} = e-"-1>a'. (6.2) аналогичное (6.1). Это рассуждение приводит к следующей общей теореме, касающейся порядковых статистик для независимых величин с одинаковым показательным распределением: J) Стриги говоря, термин сиыбпрочная статистика» является синонимом термина «функция от выборочных величин», т. е. термина «случайная величина». Он используется для лингвистический) ьыделения разницы в ролях, играемых в данном контексте первоначальными величинами (выборкой) и некоторым» полученными из них величинами. Например, лвыборочнее среднее» (Xj-f .. ■ -\- Х„)/к называется статистикой. Порядковые статистики часто встречаются в статистической литературе. Мы придерживаемся стандартной терминологии, за исключением того, что экстремумы обычно называются экстремальными «значениями»,
§ 6. Времена ожидания и порядковые статистики 33 Предложение1). Случайные величины X,,,, Х(|)—Х(1), ... ..., Х(п)—Х(п_п являются независимыми, и плотность X(Jk+])—Х(к) равна (я—k)ae-{n~k)al. Прежде чем проверить это утверждение формально, рассмотрим его следствия. Если л = 2, то разность Х(!) — Х,„ означает достаточное время ожидания* после истечения более короткого из двух времен. Теорема утверждает, что это «остаточное время ожидания» имеет то же самое показательное распределение, что и первоначальное время ожидания, и не зависит от Х(11. Это есть расширение марковского свойства, сформулированного для фиксированных моментов t, на зависящее от случая время остановки Х(1). Это свойство называется строго марковским свойством. (Так как мы имеем дело лишь с конечным множеством величин, мы в состоянии вывести строго марковское свойство из обычного, но в более сложных случайных процессах различие существенно.) Доказательство теоремы служит примером формальных действий с интегралами. Для упрощения типографского набора формул рассмотрим л = 3. Так же как и в других подобных ситуациях, мы используем соображения симметрии. С вероятностью 1 никакие две из величин Ху не равны. Пренебрегая событием вероятности нуль, делаем вывод, что шесть возможных упорядоченных расположений X,, X,, X, представляют собой шесть взаимно исключающих равновероятных событий. Поэтому для того, чтобы найти распределение порядковых статистик, достаточно рассмотреть случай Хх < X, < X,. Таким образом, •l^d) > «ц *(л — Х(1) > г,, Х,„—Х(а)>гя} = = 6Р {X, > tit Х.-Х, > tt, X,-Xa > t3\. (6.3) (Аналитически, пространство сЯ3 разбивается на шесть частей, конгруэнтных области, определенной неравенствами х, < х, < х3. Каждая из них вносит одну и ту же величину в соответствующий интеграл. Границы, где две или более координат равны, имеют вероятность нуль и не играют роли.) Чтобы получить правую часть в (6.3), мы должны проинтегрировать аяе~а Ui+*i+x,j по области, определенной неравенствами ^1 ^ *li ^2 ^1 -^ *2» ^а~"~^2 -^ Я" Интегрирование по х, приводит к оо во бе- "'■ 5 «е~ "'dxj J ae-lax'dxt = = 3e-в'■~"x'• [ae-3ax*dxi= e-n/.-iof.-ioi^ (G.4) i, ■) Эту теорему неоднократно открывали в связи с задачами статистического оценивания, но обычные ее доказательства сводились к вычислениям вместо обращения к марковскому свойству, Cmi также аадачу 13, 2 Jft 249
34 Гл. I. Показательные и равномерные плотности Таким образом, совместное распределение трех величин Х(1), Х(а)— — Х(1), Х(3,—Х,„ есть произведение трех показательных распределений, и это доказывает наше утверждение. Отсюда, в частности, следует, чтоЕ(Х[к+1, — X((k)) = l/(/i—k)a. Суммируя по £ = 0, 1, ..., v—1, мы получаем Отметим, что это математическое ожидание было вычислено без знания распределения X(V). Итак, мы имеем еще один пример преимущества представления случайной величины как суммы других величин. (См. 1, гл. IX, 3.) б) Использование строго марковского свойства. В качестве образного примера рассмотрим следующую ситуацию: в момент 0 три лица А, В и С прибывают в почтовое отделение и находят два окна свободными. Три времени обслуживания представляют собой независимые случайные величины X, Y, Z с одинаковым показательным распределением. Обслуживание А к В начинается сразу же, а обслуживание С начинается в момент Х(1,, когда или А, или В уходит. Мы покажем, что марковское свойство приводит к простым ответам на различные вопросы. (i) Какова вероятность, что С не последним уйдет из почтового отделения? Ответ: 7а, так как момент Х(1) первого ухода устанавливает симметрию между С и другим обслуживаемым лицом. (П) Каково распределение времени Т, проведенного лицом С в почтовом отделении? Ясно, что величина T = Xm + Z есть сумма двух независимых величин, которые распределены показательно с параметрами 2а и а. Свертка любых двух показательных распределений найдена в (2.14), и мы получаем, что Т имеет плотность ы(/) = 2а(е-°"—е~га1) и что Е(Т)=^|-. (iii) Каково распределение момента последнего ухода? Обозначим моменты последовательных уходов Хт, Х12,, Х,„. Разность Х|„—X(i) представляет cofioft сумму двух величин Х„, — Х(а) и Х(2)—Х(1). Мы видели в предыдущем примере, что эти величины независимы и имеют показательные распределения с параметрами 2а и а. Отсюда следует, что Х(Я, — Х(1) имеет ту же плотность и, что и величина Т. Теперь Х(1-, не зависит от Х„,—Х(1) и имеет плотность 2ae->ot'. Формула свертки, использованная в (И), показывает, что Х,„ имеет плотность 4a[e-ot(—e~*al—ate -»а(] и что E(X(J)) = 2/a. Преимущества этого метода становятся очевидными при сравнении с непосредственным вычислением, но последнее применим! и для других распределений времени обслуживания (задача 19). в) Распределение порядковых статистик. В качестве заключительного упражнения мы выведем распределение X(ft). Событие {Х(Д)^1} означает, что по крайней мера b из п величин Ху на
S 7. Равномерное распределение 35 превосходят t. Это равносильно наступлению по крайней мере к «успехов» в п независимых испытаниях, и поэтому Р<Х.*. < <} - Д ( J ) (1-«-«)> *-<-« °'. (6.6) После дифференцирования видно, что плотность Х(А) равна п{1-\)(1— е-«'у-1 е-*-»*<■ ое-ai. (6.7) Этот результат может быть получен непосредственно следующими нестрогими рассуждениями. Мы разыскиваем (вплоть до членов пренебрежимо малых в пределе при h—»0) вероятность события, заключающегося в том, что одна из величин Х/ лежит между t и t~\-h, a k—1 величин из оставшихся п—1 величин не превосходят t, в то время как другие п—k величин строго больше t + h. Перемножая число наборов и соответствующие вероятности, приходим к (6.7). Начинающим рекомендуется формализовать это рассуждение, а также вывести формулу (6.7) из дискретной модели. (Продолжение в задачах 13, 17). ^ | 7. РАВНОМЕРНОЕ РАСПРЕДЕЛЕНИЕ Случайная величина X распределена равномерно в интервале а, Ь, если ее плотность постоянна—равна (Ь—а)~1 при а < х < Ь и равна 0 вне этого интервала. В этом случае величина (X—а) (Ь—а)-1 распределена равномерно в 0,1, и мы будем обычно использовать этот интервал как стандартный. Из-за внешнего вида графиков плотности равномерные распределения называются «прямоугольными». При равномерном распределении интервал 0, 1 становится выборочным пространством, в котором вероятности интервалов тождественны их длинам. Выборочное пространство, соответствующее двум независимым величинам X и Y, которые равномерно распределены на 0,1, представляет собой единичный квадрат в «И*, а вероятности в нем определяются как площади. Те же идеи применимы к трем и большему числу величин. Про равномерно распределенную случайную величину часто говорят: «точка X выбрана наудачу». Результат мысленного эксперимента «п независимых случайных выборов точки в 0,1» требует для своего вероятностного описания п-мерного гиперкуба, но эксперимент сам по себе дает п точек Хи .. ., Хя в том же самом интервале. С вероятностью единица никакие две из этих точек не совпадают, и, следовательно, они разбивают интервал 0, 1 на п-fl подынтервалов. Переставляя п точек \и ..., Хн в их естественном порядке слева направо, мы получаем п новых 2»
36 Гл. t. Показательные и равномерные плотности случайных величин, которые обозначим Х(1) XU). Это и есть порядковые статистики, определенные в предыдущем параграфе. Подынтервалы разбиения теперь имеют вид О, Х(1), Х(1), Х(г) и т. д. Понятие точки, выбранной наудачу на окружности, говорит само за себя. Чтобы отчетливо представить себе исход п независимых выборов точки на окружности, мы вообразим окружность, ориентированную против часовой стрелки, так что интервалы имеют левый и правый концы и могут быть изображены в форме а, Ь. Две точки Xt и Хг, выбранные независимо и наудачу, делят окружность на два интервала X,, Х2 и Хг, X,. (Мы снова пренебрегаем событием X, = Х2, имеющим вероятность нуль.) Примеры, а) Опытные интерпретации. Колесо рулетки обычно приводится как средство осуществления «случайного выбора» на окружности. Ошибка округления при вычислениях с шестью десятичными знаками обычно рассматривается как случайная величина, распределенная равномерно в интервале длиной I0_fi. (Для ошибок, совершенных при отбрасывании двух последних десятичных знаков, дискретная модель со 100 возможными значениями более уместна, хотя менее практична.) Время ожидания пассажира, прибывшего на автобусную станцию без учета расписания, может рассматриваться как случайная величина, равномерно распределенная в интервале между последовательными отъездами автобусов. Большой теоретический интерес представляют применения к случайным разбиениям, обсуждаемым в § 8. Во многих задачах математической статистики (таких, как непара?иетрические критерии) равномерное распределение входит косвенным образом: при условии, что произвольная случайная величина X имеет непрерывную функцию распределения F, случайная величина F (X) распределена равномерно на 0, 1 (см. § 12). б) Индуцированное разбиение. Мы докажем следующее утверждение: п независимо и случайно выбранных на 0, 1 точек Хп ..., Х„ разбивают 0, 1 на п -f 1 интервалов, длины которых имеют одно и то же распределение P{L>t} = (l—tr, 0<t<\. (7.1) Это неожиданно, так как интуитивно можно было бы ожидать, что по крайней мере два концевых интервала должны иметь другое распределение. То, что все интервалы будут иметь одинаковое распределение, становится ясным при рассмотрении эквивалентной ситуации на (ориентированной) окружности единичной длины1). Здесь п -f-1 точек Xf, . ., Х„+1, выбранных независимо ') При численной проверке следует иметь в виду, что вероятность события {Xlft+1, — Х(Ц) > I) равна интегралу от постоянной 1 по объединению л1 конгруэнтных областей, определенных или цепью неравенств *,<...< *ц< < xk~i~l < **+i < ■■■ < *т или аналогичными цепями, полученными пере-
§ 7. Равномерное распределение 37 и наудачу, разбивают окружность на л + 1 интервалов, и по соображениям симметрии эти интервалы должны иметь одинаковое распределение. Представим теперь, что окружность разрезана в точке \n+i для того, чтобы получить интервал, в котором X, Х„ выбраны независимо и наудачу. Длины всех л +1 интервалов индуцированного разбиения имеют одно и то же распределение. Рассматривая самый левый интервал О, Х(1), можно видеть, что это распределение задается формулой (7.1). Длина этого интервала превосходит t тогда и только тогда, когда все п точек Xtl ..., Х„ лежат в t, 1. Вероятность этого равна (1—t)n- Хорошим упражнением является проверка утверждения в частном случае л = 2 путем рассмотрения трех событий в единичном квадрате, изображающем выборочное пространство. (Продолжение см. в задачах 22—26.) в) Парадокс (связанный с парадоксом времени ожидания из § 4). Пусть две точки Xt и Х2 выбраны независимо и наудачу на окружности единичной длины. Тогда длины двух интервалов X,, X, и Х„ X, распределены равномерно, а длина к интервала, содержащего произвольную точку Р, имеет другое распределение (с плотностью 2х). В частности, средняя длина каждого из двух интервалов равна 1/1, а средняя длина интервала, содержащего Р, равна '/»■ Точка Р берется фиксированной, но произвольной. Поэтому можно ожидать, что интервал, покрывающий Р, выбран (заимствуя фразу у философов теории вероятности) «без предварительного знания его свойств». Наивная интуиция не подготовлена, конечно, воспринять большое различие между покрытием и непокрытием произвольной точки, но после должного размышления это различие становится «интуитивно очевидным». На самом деле, однако, даже довольно опытные авторы попадали в ловушку. Для доказательства представим себе, что окружность разъединена в точке Р. Нам остаются две точки, выбранные независимо и наудачу в 0, 1. Используя те же обозначения, что и раньше, мы находим, что событие \К < t} происходит тогда и только тогда, когда Х(я,—X,,-, > 1 —/. По формуле (7.1) вероятность этого равна Р. Величина Я. имеет поэтому плотность 2t, как утверждалось. (Начинающим рекомендуется провести непосредственную вычислительную проверку.) г) Распределение порядковых статистик. Если Х4 Х„ независимы и распределены равномерно в интервале 0, 1, то число величин, удовлетворяющих неравенству 0 < Х^^С t < 1, имеет биномиальное распределение с вероятностью «успеха», равной t. Теперь событие {X(Jk)^ff происходит, если и только если по крайней становкой индексон. Другой способ вычисления, приводящий к более сильному результату, содержится в примере III, 3, в),
38 Гл. I. Показательные и равномерный плотности мере k из величин Xf не превосходят t, и, следовательно, imxi»<*hS(5)'/<1-o,,"/- <7-2) Это дает нам функцию распределения А-й порядковой статистики. После дифференцирования находим, что плотность Xlt, равна Это можно увидеть непосредственно из следующего: вероятность того, что одна из величин Ху лежит между t и < + Л и что k—1 из оставшихся величин меньше t, в то время как л—k величин больше t + h, равна " (ftZj) <*_1(1 — t—h)n-*h. Деля последнее выражение на л и устремляя л к 0, получим (7.3). д) Предельные теоремы. Чтобы понять характер распределения Хц-„ когда л велико, лучше ввести Е (Х,1,) = (л+I)-1 как новую единицу измерения. Тогда при л—► еж мы получим для хвоста функции распределения Р{лХ(1)><> = (1-^у-е-'. (7.4) Словами это соотношение обычно описывают так: в пределе X(i) показательно распределена с математическим ожиданием п~*. Аналогично цЛм>ч-(1_1)Ч(;)4(1-4)"—-+«^. <"> и в правой части мы узнаем хвост гамма-распределения G, из формулы (3.5). Подобным способом легко проверить, что при каждом фиксированном k при л —► оо распределение лХ(А] стремится к гамма- распределению Gk (см. задачу 33). Теперь Gk есть распределение суммы k независимых показательно распределенных величин, тогда как Х(к) есть сумма первых k интервалов, рассмотренных в примере б). Мы можем поэтому сказать, что длины последовательных интервалов нашего разбиения ведут себя в пределе так, как если бы они были взаимно независимыми показательно распределенными величинами. Ввиду очевидной связи (7.2) с биномиальным распределением для получения приближений к распределению XIJt„ когда и л, и k велики, может быть использована центральная предельная тепрема. (См. задачу 34.) е) Отношения. Пусть X выбрано наудачу в 0, 1. Обозначим через U длину более короткого иа интервалов О, X и X, 1 и через
§ 8. Случайные разбиения 39 V= 1 — U длину более длинного. Случайная величина U равномерно распределена между 0 и Vj, так как событие {U < t < l/2[ происходит тогда и только тогда, когда или X < t, или 1—X < t, и потому имеет вероятность 2t. По соображениям симметрии величина V распределена равномерно между 1/2 и 1, и отсюда E(U) = V4i E(V) = 3/t. Что мы можем сказать об отношении V/U? Оно необходимо превосходит 1 и лежит между 1 и t тогда и только тогда, когда или . , f-^ Х^-в-, или у ^Х^ ... . При f>l отсюда следует, что Р{ТГ<'} = 7ТГ- (7"6) и плотность этого распределения равна 2(t-\-l)~*. Мы видим, что отношение V/U имеет бесконечное математическое ожидание. Этот пример показывает, сколь малая информация содержится в наблюдении E(V)/E(U) = 3. ► § 8. СЛУЧАЙНЫЕ РАЗБИЕНИЯ Задача этого параграфа завершает предыдущий ряд примеров и выделена из них отчасти ввиду ее важности в физике, отчасти ввиду того, что она дает прототип обычных марковских цепей. Формально мы будем иметь дело с произведениями вида Z„ = = Х1Ха...Хп, где Xj Х„—взаимно независимые величины, равномерно распределенные в интервале 0, 1. Примеры для применений. В некоторых процессах со столкновениями физическая частица расщепляется на две и ее масса т делится между ними. Различным процессам могут соответствовать различные законы разбиения, но чаще всего предполагается, что полученная каждой дочерней частицей часть исходной массы распределена равномерно в 0, 1. Если одна из двух частиц выбрана наудачу и подвергается новому столкновению, то (в предположении отсутствия взаимодействия, т. е. независимости столкновений) массы двух частиц второго поколения задаются произведениями rn\1\i и т. д. (см. задачу 21). С небольшими терминологическими изменениями эта модель применима также к разбиениям зерен минералов или галех и т. п. Вместо масс можно рассматривать потери энергии при столкновениях, и описание несколько упрощается, если заниматься изменениями энергии одной и той же частицы при последовательных столкновениях. В качестве последнего примера рассмотрим изменения в интенсивности света, проходящего через вещество. Пример 10, а) показывает, что когда световой луч проходит через сферу радиуса R «в случайном направлении», расстояние, пробегаемое лучом в сфере, распределено равномерно между 0 и 2R. При наличии равномерного поглощения такое прохождение будет уменьшать
40 Гл. 1. Показательные и равномерные плотности интенсивность случайного луча на величину, которая распределена равномерно в интервале 0, а (где а < 1 зависит от степени поглощения). Масштабный параметр не влияет серьезно на нашу модель, и видно, что п независимых прохождений будут уменьшать интенсивность света на величину вида Z„. ► Для того чтобы найти распределение Z„, мы можем действовать двумя способами. (i) Редукция к показательным распределениям. Так как суммы обычно предпочтительнее произведений, мы перейдем к логарифмам, полагая Ук = —IogXt. Величины Yft взаимно независимы, и при 1>0 Р^>*} = Р{Х»<е-«} = е-«. (8.1) Функция распределения Gn суммы Sn = Yj + ... + Y„ n независимых показательно распределенных величин была получена в формуле (3.5), и тогда функция распределения величины Zn = e_s» задается выражением 1—G„(log/-1), где 0</<1. Плотность этого распределения равна t~1gn(\ogt~1) или ьм=т?=т[1о*т)п~1- °<'<1- (8-2) Наша задача решается в явном виде. Этот метод показывает преимущества вывода с помощью соответствующего преобразования, однако успех зависит от случайного совпадения нашей задачи и задачи, предварительно решенной. (ii) Рекуррентная процедура имеет то преимущество, что она применима к родственным задачам. Пусть £„(/) = P{Z„^f} и 0</<1. По определению Fi(t) = t. Допустим, что гп-1 известно, и рассмотрим Zn = Zn_jXn как произведение двух независимых величин. При условии Х„ = х событие {Z„^/} происходит тогда и только тогда, когда Zn_j <[*/*, и имеет вероятность Fn_i (t/x). Суммируя по всем возможным х, мы получаем при 0^Г/^1 Fn(t) = $Fn_1(±)dx = $Fn_i(±)dx + t. (8.3) о / Эта формула в принципе позволяет нам вычислить последовательно F,, Fa, .... На практике удобнее иметь дело с соответствующими плотностями fn. По предположению fa существует. Предположим по индукции существование Д,_х. Вспоминая, что /n_i(s) = 0 при 5> 1, мы получаем после дифференцирования (8.3) М0 = $А.-х(т)т- °<*<1, (8-4) и элементарные вычисления показывают, что /„ действительно задается формулой (8.2).
§ 9. Свертки и теоремы о покрытии Ц § 9. СВЕРТКИ И ТЕОРЕМЫ О ПОКРЫТИИ Результаты этого параграфа в какой-то мере занятны и сами по себе, и в связи с некоторыми очевидными приложениями. Кроме того, они несколько неожиданно возникают в совсем, казалось бы, несвязанных разделах, таких, как, например, критерии значимости в гармоническом анализе [пример 3, е) гл. III], пуассоновские процессы [гл. XIV, 2, а)] и случайные сдвиги [пример 10, д)]. Поэтому не удивительно, что все формулы, так же как и их варианты, выводились несколько раз различными способами. Способ, используемый в последующем, выделяется простотой и применимостью к близким задачам. Пусть а>0 фиксировано, и пусть Xlt Х2, ...—взаимни независимые случайные величины, равномерно распределенные на 0, а. Пусть S„ = X1+• • •+Х„. Наша первая задача заключается в нахождении распределения U„ суммы S„ и ее плотности un = U„. По определению иг (х) = а~х при 0 < х < а и их (х) = 0 в других точках (прямоугольная плотность). Для п > 1 плотности ип определяются формулой свертки (2.13), которая в данном случае имеет вид а u^i(x) = ^^un(x—y)dy = ^[Un(x) — Un(x—a)]. (9.1) о Легко видеть, что I ха~\ 0<х<а, "»(дс)==\ {2а-х)а-\ й<х<2а, (9'2) и, конечно, и2(х)=0 для всех других х. График ы2 представляет собой равнобедренный треугольник с основанием 0, 1а, и поэтому ы2 называется треугольной плотностью. Аналогично, и3 сосредоточена на 0, За и определяется тремя квадратными полиномами соответственно в интервалах 0, а, а, 2а и 2а, За. Чтобы найти общую формулу, мы введем следующее Обозначение. Мы записываем положительную часть действительного числа х в виде х+ =Щ±1. (9.3) В последующем мы используем символ х% для (х+)п, т. е. для функции, которая равна 0 при х^Ои равна хп при х^О. Заметим, что (х—а)+ есть нуль при х < а и линейная функция, когда х > а. С помощью этого обозначения равномерное распределение можно записать в форме U1(x) = (x+— (х—а)+)а~\ (9.4) Теорема ls Пусть Sn—сумма п независимых случайных величин,
42 Гл. I. Показательные и равномерные платности распределенных равномерно на О, а. Пусть U„(x) = P \S„^.x), и пусть un~U'„—плотность этого распределения. Тогда при п=\, 2, ... и для всех х^О v = 0 ' 11+1 «■+,w=^E(-i)v(B+4<*-ve>"- (9.6) (Эти формулы остаются верными для х<0 и л = 0 при условии, что х°ь равно 0, если х<0, и 1, если х>0.) Заметим, что если точка х расположена между (k — \)а и ka, то только k членов в формулах отличны от 0. Для удобства практических вычислений можно, игнорируя пределы суммирования в (9.5), (9.6), считать, что v меняется от — оо до оо. Это возможно в силу того, что по соглашению биномиальные коэффициенты в (9.5) равны 0 при v<0 и v > л (см. 1; II, 8). Доказательство. При л = 1 справедливость (9.5) очевидна, так как (9.5) сводится к (9.4). Докажем оба утверждения теоремы вместе методом индукции. Допустим, что формула (9.5) верна при некотором n^sl. Подставляя (9.5) в (9.1), получаем ия+1 в виде разности двух известных сумм. Заменяя индекс суммирования v во второй сумме на v—1, получаем что совпадает с правой частью (9.6). Интегрирование доказывает справедливость (9.5) для п -\-1, и этим завершается доказательство. ► (Другое доказательство, использующее переход к пределу в дискретной модели, содержится в 1; гл. XI, 7, задача 20.) Если а — 2Ь, то случайные величины \к—Ь равномерно распределены на симметричном (относительно нуля) интервале — b, b и поэтому сумма п таких величин имеет то же распределение, что и величина S„—nb. Последнее распределение задается функцией Ua(x-\-nb). Поэтому наша теорема может быть сформулирована в следующей эквивалентной форме. Теорема 1а. Плотность суммы п независимых случайных величин, равномерно распределенных на — b, b, задается равенством п u„(^ + "b) = (2u)n(Ll)lv^(-1)V(")(;C + ("~2v)b)r- (9,7) Мы переходим теперь к теореме, которая допускает две эквивалентные формулировки, одинаково полезные для многих частных задач, возникающих в приложениях. Отыскиваемая в этих теоремах вероятность по счастливому совпадению очень просто выражается
§ 9. Свертки и теоремы о покрытии 43 в терминах плотности ип. Мы докажем это аналитическим способом, который имеет широкую применимость. Доказательство, основанное на геометрических соображениях, см. в задаче 23. Теорема 2. На окружности длины t заданы п ^ 2 дуг длины а, центры которых выбраны независимо и наудачу. Вероятность ц>п (t) того, что эти п дуг покрывают всю окружность, равна 4>m(t) = a"(n-\)\un(t)j^i, (9.8) или, что то же самое, ф-<о-£(-1г(:) (1-чг\ 0.9) v=0 ' ' Прежде чем доказывать это, придадим теореме форму, в которой она будет использована позже. Выберем один из п центров в качестве начала и развернем окружность в интервал длины t. Оставшиеся п—1 центров случайно распределяются в интервале 0, t, и тогда теорема 2 выражает то же самое, что и Теорема 3. Пусть интервал О, t разбит на п подынтервалов посредством независимого и случайного выбора п — 1 точек деления Xf X„_f. Вероятность Ф„(0 того, что ни один из этих интервалов не превосходит а, равна (9.9). Отметим, что 4>n{t), рассматриваемая при фиксированном t как функция а, представляет собой функцию распределения максимам. ной из длин п интервалов, на которые разбит интервал 0, t. В связи g этим см. задачи 22—27. Доказательство. Достаточно доказать теорему 3. Мы докажем рекуррентную формулу а Фя(0 = (п-1)^Фл-1(^-*)(Ц:£)',"'т- (9-10) о Ее справедливость прямо следует из определения ф„ как (л — 1)- кратного интеграла, но предпочтительнее толковать (9.10) вероятностно следующим образом. Наименьшее значение среди Xt Х„_{ должно быть меньше чем а, причем существует л — 1 возможностей выбрать это значение. При условии, что X, ='х, вероятность того, что точка Xj самая левая, равна —— ; тогда Х2 Х„_, распределены равномерно в интервале х, t и условная вероятность того, что они удовлетворяет условиям теоремы, равна q>„_j (t — х). Суммируя все возможности, мы получаем (9.10)1). х) Читатели, которых беспокоит вопрос вычисления условных вероятностей па плотностям, могут заменить условие Х/ = х условием х—h < Xj < *, которое имеет положительную вероятность, а затем перейти к пределу при Ь—*0.
44 Гл. 1. Показательные и равномерные плотности Если предположить, что ф„ из (9.8) удовлетворяет равенству (9.10), то для ип, входящих в (9.8), равенство (9.10) сведется к а un(t) = a-^u„_1(t~x)dx, (9.11) а что есть в точности рекуррентная формула (9.1), которая служит для определения ип. Поэтому достаточно доказать теорему для случая п = 2. Но и так ясно, что ф, (t) = 1 при 0 < t < а и фа (t) = — (2а— t)/t при а < t < 2а в полном согласии с (9.8). ► § 10. СЛУЧАЙНЫЕ НАПРАВЛЕНИЯ Выбор случайного направления на плоскости 54г—это то же самое, что выбор наудачу точки на окружности. Если желательно задать направление углом, который оно составляет с правой частью *-оси, то на окружности следует ввести координату Э, 0^Э<2л. Для случайных направлений в пространстве 5i3 в качестве выборочного пространства служит единичная сфера; каждая область имеет вероятность, равную ее площади, деленной на 4л. Выбор случайного направления в 54а эквивалентен выбору наудачу точки на этой единичной сфере. Так как это включает пару случайных величин (долготу и широту), то следовало бы отложить обсуждение трехмерного случая до гл. III, но в данном контексте он появляется более естественно. Предложения, (i) Обозначим через L длину проекции единичного вектора со случайным направлением в Я3 на фиксированную прямую, скажем х-ось. Тогда величина L распределена равномерно на ЬТТ и E(L) = Va. (ii) Пусть U—длина проекции того же вектора на фиксированную плоскость, скажем (х, у)-плоскость. Тогда U имеет плотность //1/1—/а при 0<f<l, и E(U) = n/4. Важно то, что две проекции имеют различные распределения. Тот факт, что первое распределение равномерно, не есть свойство случайности, а есть свойство, присущее пространству трех измерений. Аналогом теоремы (i) в Si1 служит Предложение, (iii) Пусть L — длина проекции случайного единичного вектора в 5t2 на х-ось. Тогда L имеет плотность 2/(л/1— *■) и E(L) = 2/n. Доказательства, (iii) Если 0 —угол между нашим случайным направлением и (/-осью, то L = |sin8| и, следовательно, при 0 < х < 1 в силу симметрии Р {L < х\ = Р {0 < 8 < arcsin х) = £ arcsin x. (10.1) Предложение (iii) теперь доказывается дифференцированием, (i), (ii) Вспомним элементарную теорему о том, чю площадь
§ 10. Случайные направления 45 сферического пояса между двумя параллельными плоскостями пропорциональна высоте пояса. При 0<?<1 событие |L<I/f представляется поясом |xj|^/ высоты 2/, тогда как событие {1)<!/| соответствует поясам |х, \^\fl— t2 общей высоты 2— 2^1—I*. Этим обе функции распределения определяются с точностью до числовых множителей. Их значения просто находятся из условия, что обе функции распределения равны 1 при / = 1. ► Примеры, а) Прохождение через сферу. Пусть 2—сфера радиуса г и N — точка на ней. Линия, проведенная через N в случайном направлении, пересекает 2 в точке Р. Тогда длина сегмента NP является случайной величиной, равномерно распределенной между 0 и 2г. Чтобы увидеть это, рассмотрим ось NS сферы и треугольник NPS, который имеет прямой угол в точке Р и угол 9 в точке N. Длина NP равна тогда 2rcos0. Но cos 8 является в то же время проекцией единичного вектора прямой NP на диаметр NS, и поэтому величина cos 8 равномерно распределена на 6ГГ В физике эта модель употребляется для описания прохождения света через «случайно распределенные сферы». Возникающее при этом поглощение света использовалось в качестве одного из примеров процессов случайных разбиений в предыдущем параграфе (см. задачу 28). б) Круговые объекты под микроскопом. Через микроскоп наблюдается проекция клетки на (х,, ха)-плоскость, а не ее действительная форма. В некоторых биологических экспериментах клетки имеют линзообразную форму и могут рассматриваться как круговые диски. Один лишь горизонтальный диаметр проектируется в свою натуральную величину, а весь диск проектируется в эллипс, малая ось которого является проекцией наиболее круто наклоненного радиуса. Обычно предполагается, что ориентация диска случайна; sto означает, что направление его нормали выбрано наудачу. В этом случае проекция единичной нормали на х3-ось распределена равномерно в 0, 1. Но угол между этой нормалью и х3-осью равен углу между наиболее круто наклоненным радиусом и (хх, ^-плоскостью. Следовательно, отношение малой и большой осей распределено равномерно в 0, 1. Иногда обработка экспериментов основывалась на ошибочном мнении, что угол между наиболее круто наклоненным радиусом и (х,, х,)-плоскостью должен быть распределен равномерно. в) Почему две скрипки звучат вдвое громче, чем одна? (Вопрос серьезен, так как громкость пропорциональна квадрату амплитуды колебаний.) Поступающие волны могут быть изображены случайными единичными векторами, и эффект наложения згпка двух скрипок соответствует сложению двух независимых случайных
46 Гл. I. Показательные и равномерные плотности векторов. По теореме косинусов квадрат длины результирующего вектора равен 2 + 2 cos 0. Здесь 0 — угол между двумя случайными векторами, и, следовательно, cos0 распределен равномерно в —1,1 и имеет нулевое математическое ожидание. Математическое ожидание квадрата длины суммарного вектора поэтому действительно равно 2. На плоскости cos0 уже не является равномерно распределенной случайной величиной, но по соображениям симметрии по-прежнему имеет нулевое математическое ожидание. Таким образом, наш результат справедлив при любом числе измерений. См. также пример V, 4, д). ► Под случайным вектором в Я3 понимается вектор, проведенный в случайном направлении, длина которого L является случайной величиной, не зависящей от его направления. Вероятностные свойства случайного вектора полностью определяются свойствами его проекции на х-ось, и, используя последнюю, можно избежать анализа в трех измерениях. Для этого важно знать связь между функцией распределения V истинной длины L и распределением F длины Lx проекции на х-ось. Имеем LX = XL, где X—длина проекции единичного вектора с данным направлением. Соответственно величина X равномерно распределена на 0, 1 и не зависит от L. При условии \ = х событие {Lx^^ происходит тогда и только тогда, когда L^t/x, и поэтому1) F(t) = $v(±.}dx, t>0. (10.2) о Соответствующие плотности мы получаем дифференцированием и t Повторное дифференцирование приводит к v(l) = -tf'(t), t>0. (10.4) Мы нашли таким образом аналитическую связь между плотностью v длины случайного вектора в Я3 и плотностью f длины его проекции на фиксированное направление. Соотношение (10.3) используется для отыскания f, когда v известно, а соотношение (10.4)—в противоположном случае. (Асимметрия между двумя формулами обусловлена тем фактом, что направление не является независимым от длины про;кции.) Примеры, г) Распределение Максвелла для скоростей. Рассмотрим случайные векторы в пространстве, проекции которых на *) Это рассуждение повторяет доказательство формулы (8,3),
§ 10. Случайные направления 47 х-ось имеют нормальную плотность с нулевым математическим ожиданием и единичной дисперсией. Длина проекции равна ее абсолютному значению, и поэтому / (0 = 2п(0=|/"£ «""="", <>0. (10.5) Тогда из (10.4) выводим ц(/) = j/1 *■("", f>0. (l0-6) Это есть плотность Максвелла для скоростей в статистической механике. Обычный вывод объединяет предыдущее рассуждение с доказательством того, что плотность / должна иметь вид (10.5). (Другой вывод см. в гл. 111,4.) д) Случайные сдвиги в 5L3 (Рэлей). Рассмотрим п единичных векторов, направления которых выбираются независимо друг от друга и наудачу. Мы разыскиваем распределение длины L„ их суммы. Вместо непосредственного изучения этой суммы мы рассмотрим ее проекцию на х-ось. Эта проекция, очевидно, равна сумме п независимых случайных величин, распределенных равномерно на —1, 1. Плотность этой суммы дается формулой (9.7) при Ь=\. Длина этой проекции равна ее абсолютному значению, и, используя (10.4), мы получаем плотность длины Lnl): ».W= 2"-Чп-2)^ (-1)v(v)(x-2v)V, *>0- (Ю.7) Эта задача возникает в физике и химии (векторы изображают, например, плоские волны или молекулярные связи). Сведение к одному измерению, по-видимому, делает эту известную задачу тривиальной. Тот же метод применим к случайным векторам произвольной длины, и таким образом (10.4) позволяет нам свести задачи случайного блуждания в Я3 к более простым задачам в Я1. Даже если трудно получить точное решение, ценную информацию дает центральная предельная теорема [см. пример 4,6) гл. VIII]. ► Случайные векторы в Я3 определяются тем же способом. Аналогом (10.2) служит соотношение, связывающее распределение V истинной длины и распределение F длины проекции: л/2 fW-J|v (;£,)*. (Ю.8) ') Обычно ссылаются на статью С. Чаидрасекара, который вычислил oj, »«, ив и преобразование Фурье для и„. Tax хак он использовал полярные хоординаты, его Wn (ж) нужно умножить на 4пхг, чтобы получить нашу плотность v„. Статья Чаидрасекара перепечатана в книге Уэхса (1954).
48 Гл. I. Показательные и равномерные плотности Однако обратное соотношение (10.4) не имеет простого аналога, и, чтобы выразить V через F, мы должны опираться на относительно глубокую теорию интегрального уравнения Абеля 1). Мы констатируем здесь без доказательства, что если F имеет непрерывную плотность /, то ^w-T'^ijSt- {10-9) и (См. задачи 29, 30.) е) Двойные орбиты. При наблюдении спектрально-двойных орбит астрономы могут измерить только проекции векторов на плоскость, перпендикулярную к линии зрения. Эллипс в пространстве проектируется в эллипс в этой плоскости. Большая ось исходного эллипса лежит в плоскости, определяемой лучом зрения и проекцией этой оси, и поэтому разумно предположить, что угол между большой осью и ее проекцией равномерно распределен. Распределение проекции определяется (в принципе) измерениями. Распределение исходной большой оси дается тогда решением (10.9) интегрального уравнения Абеля. ► § 11. ИСПОЛЬЗОВАНИЕ МЕРЫ ЛЕБЕГА Если множество А в 0, 1 представляет собой объединение конечного множества непересекающихся интервалов /L, /, ... с длинами A.J, "к , то равномерное распределение приписывает ему вероятность Р{А\ = 11 + \1+... . (11.1) Следующие примеры покажут, что некоторые простые, но важные задачи приводят к объединениям бесконечного числа непересекающихся интервалов. Определение (11.1) по-прежнему применимо и отождествляет Р {А} с лебеговой мерой А. Это согласуется с нашей программой отождествления вероятностей с интегралом от плотности f(x) = l, зэ исключением того, что мы используем интеграл Лебега, а не интеграл Римана (который может не существовать). Из теории Лебега нам требуется только тот факт, что если А представляет собой объединение (возможно, пересекающихся) интервалов /,, /, то мера Р \А\ существует и не превосходит суммы Xj +Я.,+ ... их длин. Для непересекающихся интервалов выполняется равенство (11.1). Использование меры Лебега соответствует свободной интуиции и упрощает дело, так как обосновы- ') Преобразование в интегральное уравнение Абеля достигается посредством замены переменных Fll')=F(77)1 VlM=v(ih)и *sln!0=* Тогда (10,8) принимает вид " J Yy{t-v)
§ 11. Использование меры Лебега 49 ваются все формальные переходы к пределу. Множество N называется нулевым множеством, если оно содержится в множествах произвольно малой меры, т. е. если для каждого е существует множество A^dN, такое, что Р{Л}<е. В этом случае Р{#} = 0. В дальнейшем X обозначает случайную величину, распределенную равномерно в 0, 1. Примеры, а) Какова вероятность того, что величина X рациональна-? Последовательность у,.у, у, у, -j-, у, ... содержит все рациональные числа интервала 0, 1 (расположенные в порядке возрастания знаменателей). Выберем е < -у и обозначим через Jk интервал длины е*+1 с центром в ft-й точке последовательности. Сумма длин интервалов Jk равна е*-|-е3+.. .< е, и их объединение покрывает рациональные числа. Поэтому по нашему определению множество всех рациональных чисел имеет вероятность нуль, и, следовательно, X иррационально с вероятностью единица. Здесь уместно спросить: зачем такие множества рассматриваются в теории вероятностей? Один из ответов состоит в том, что их исключением ничего нельзя достичь и что использование теории Лебега действительно упрощает дело, не требуя новых методов. Второй ответ может быть более убедителен для начинающих и для нематематиков; нижеследующие варианты приводят к задачам, несомненно, вероятностной природы. б) С какой вероятностью цифра 7 встречается в десятичном разложении величины X? В десятичном разложении каждой точки х из открытого интервала между 0,7 и 0,8 цифра 7 появляется на первом месте. Для каждого п существуют 9"-1 интервалов длины 10"", содержащих только такие числа, что цифра 7 появляется на n-м месте, но не раньше (при п = 2 их концами служат 0,07 и 0,08, затем 0,17 и 0,18 и т. д.). Эти интервалы не пересекаются, и их общая длина равна ^ (1 4-nj+(-njV + ---) = l- Таким образом, наше событие имеет вероятность 1. Заметим, что некоторые числа имеют два представления, например, 0,7 = 0,6999... . Чтобы сделать обсуждаемый нами вопрос определенным, мы должны точно установить, должна или может цифра 7 появиться в представлении, но наше рассуждение не зависит от этого различия. Причина в том, что только рациональные числа могут иметь два представления, а множество всех рациональных чисел имеет вероятность нуль. в) Бросание монеты и случайный выбор. Посмотрим теперь, как «случайный выбор точки X между 0 и 1» может быть описан в терминах дискретных случайных неличин. Обозначим через Хк (х) k-u десятичный знак х (чтобы избежать двусмысленностей, мы будем использовать, когда это возможно, обрывающиеся разложе-
БО Гл. 1. Показательные и равномерные плотности ния). Случайная величина \k принимает значения 0, 1, каждое с вероятностью -^, и вел Кроме того, мы имеем тождество 1 v каждое с вероятностью ^, и величины \к взаимно независимы. Эта формула сводит случайный выбор точки X к последовательным выборам ее десятичных знаков. В последующих рассуждениях мы перейдем от десятичного разложения к двоичному, т. е. мы заменим основание 10 на основание 2. Вместо (11.2) мы теперь имеем х=Х £Х,. (11.3) где \к — взаимно независимые случайные величины, принимающие значения 0 и 1 с вероятностью 1/i. Эти величины определены на интервале 0, 1, для которого вероятность отождествляется с мерой Лебега (длиной). Эта постановка задачи напоминает игру с бросанием монеты из первого тома, в которой выборочное пространство состоит из бесконечных последовательностей гербов и решеток или нулей и единиц. В этом выборочном пространстве можно теперь заново интерпретировать (11.3). В этом пространстве \к суть координатные величины, а X есть случайная величина, ими определяемая; ее функция распределения, конечно, равномерна. Заметим, что второе выборочное пространство содержит две различные выборочные точки 0111111... и 1000000..., хотя соответствующие двоичные разложения изображают одну и ту же точку 1/а- Однако понятие нулевой вероятности дает нам возможность отождествить два выборочных пространства. Другими словами, при пренебрежении событием нулевой вероятности случайный выбор точки X между 0 и 1 может быть осуществлен последовательностью бросаний монеты и, наоборот, результат бесконечных бросаний монеты может быть изображен точкой х из интервала 0, 1. Каждая случайная величина, связанная с игрой в монету, может быть представлена функцией на 0, 1 и т. д. Этот удобный и наглядный прием использовался в теории вероятностей издавна, но он связан с пренебрежением событиями, имеющими нулевую вероятность. г) Распределения канторовского типа. Если мы будем рассматривать в (11.3) сумму слагаемых с четными номерами, или, что то же самое, рассматривать случайную величину Y = 3£^XV, (П.4)
§ 12. Эмпирические распределения 51 то мы придем к распределению с неожиданными свойствами. (Множитель 3 введен для упрощения рассуждений. Сумма слагаемых с нечетными номерами распределена так же, как -g- Y.) Функция распределения F (x) = P{Y ^jc} служит примером так называемых сингулярных распределений. При подсчете мы рассматриваем Y как выигрыш игрока, который получает величину 3-4-*, когда ft-е бросание симметричной монеты дает в результате решетку. Полный выигрыш лежит между 0 и 3 (4-1-f 4~*-f .. .) = 1. Если первое испытание приводит к 1, то выигрыш ^a/ii тогда как в противоположном случае Y ^3(4~!-f4~3-f .. .)=4~1. Таким образом, неравенство 74 <Y < < 3/4 не может быть осуществлено ни при каких обстоятельствах, и поэтому F (х) = Vi в этом интервале длины l/t. Отсюда следует, что F не может иметь скачка, превышающего V,. Отметим теперь, что с точностью до множителя l/t испытания с номерами 2,3, .. представляют собой точную копию всей последовательности, и поэтому график F (х) в интервале О, х/< отличается от всего графика только преобразованием подобия F(x) = ±F(4x), 0<x<V.. (И.5) Отсюда следует, что F(x) = 1/t всюду в интервале длины */, о центром в точке 1/t. По соображениям симметрии F(x) = 3/t всюду в интервале длины Ve с центром в '/а. Мы нашли сейчас три интервала общей длины 1/г + 7я = 3/«1 на каждом из которых F принимает постоянное значение, а именно l/t, 7s или */*- Следовательно, F не может иметь скачка, превышающего 74- Остаются четыре интервала длиной 1/it каждый, и в каждом из них график Fотличается от всего графика только преобразованием подобия. Каждый из четырех интервалов поэтому содержит подынтервал половины его длины, на котором F принимает постоянное значение (а именно 1/t, */ei VBi т/§ соответственно). Продолжая в том же духе, мы найдем за п шагов 1 +2 + 2г + ... +2"-1 интервалов общей длины 2-1 +2~2 +2~3+. . .+2-" = 1—2-", в каждом из которых F принимает постоянное значение. Таким образом, F представляет сабой непрерывную функцию, возрастающую от F (0) = 0 до /Г(1) = 1 так, что сумма длин интервалов постоянно равна 1. Грубо говоря, все возрастание F происходит на множестве меры 0. Мы имеем здесь непрерывную функцию распределения F без плотности /. ► | 12. ЭМПИРИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ «Эмпирическая функция распределения» Fn для п точек Of, ... ...,ап на прямой есть ступенчатая функция со скачками 1/п В точках ait ..., ап. Другими словами, nFn(x) равно числу точек
52 Гл. I. Показательные и равномерные плотности ан в —оо, х, и Fn—функция распределения. Если даны п случайных величин Х, Х„, то их значения в некоторой точке выборочного пространства образуют строку из п чисел и ее эмпирическая функция распределения называется эмпирическим распределением выборки. При каждом х значение F„ (x) эмпирического распределения выборки определяет новую случайную величину, а эмпирическое распределение (Х^ ..., Х„)—это целое семейство случайных величин, зависящих от параметра х (формально мы имеем дело со случайным процессом, где х—временной параметр). Мы не будем пытаться развить здесь теорию эмпирических распределений, но это понятие можно использовать для иллюстрации возникновении сложных случайных величин в простых приложениях. Сверх того мы в новом свете увидим равномерное распределение. Пусть Xj Х„ обозначают взаимно независимые случайные величины с одинаковым непрерывным распределением F. Вероятность того, что любые две величины принимают одно и то же значение, равна нулю, и поэтому мы можем ограничить наше внимание выборками из п различных значений. При фиксированном х число величин Хк, таких, что \к^х, имеет биномиальное распределение с вероятностью «успеха» p — F(x), и поэтому случайная величина F„ (x) имеет биномиальное распределение с возможными значениями 0, 1/л, . ., 1. Следовательно, при большом п и фиксированном х значение F„ (x) с большой вероятностью будет довольно близким к F(x), и центральная предельная теорема информирует нас о возможных отклонениях. Более интересен (зависящий от случая) график F„ в целом и то, насколько он близок к F. Мерой этой близости может быть максимум расхождения, т. е. D„= sup \Fn(x)-F(x)\. (12.1) - Ж< X <0D Эта новая случайная величина представляет большой интерео для статистиков в силу следующего свойства. Распределение вероятностей случайной величины D„ не зависит от F (конечно, при условии, что F непрерывна). Для доказательства этого свойства достаточно проверить, что распределение Dn остается неизменным, когда F заменяется равномерным распределением. Мы сначала покажем, что величины Yt = f (Xt) распределены равномерно в 0, 1. Для этой цели мы ограничим t интервалом 0, 1, и в этом интервале мы определим и как функцию, обратную F. Событие {F(XJb)^/} равносильно тогда событию {ХА^Г«(/)}, которое имеет вероятность F(v(t)) = t. Таким образом, Р{УА <[/} = (, как и утверждалось. Величины Yj, ..., Y„ взаимно независимы, и мы обозначим их эмпирическое распределение через G„. Только что приведенные рассуждения показывают также, что при фиксированном ( случайная величина G„ (/) тождественна с F„ (w (t)). Так как t*=F (у (()),
§ 12. Эмпирические распределения 53 то отсюда следует, что в каждой точке выборочного пространства Шп sup|Gn(0-n = sup|Fn(U(0)-/?(u(0)l = Dn. Этим доказательство завершается. Тот факт, что распределение D„ не зависит от исходного распределения F, дает статистикам возможность построить критерии и процедуры оценивания, применимые в ситуации, когда исходное распределение неизвестно. В этой связи другие величины, связанные с D„, находят даже большее практическое использование. Пусть Хх Хп, Xf X*—2/i взаимно независимых случайных величин с одинаковым непрерывным распределением F. Обозначим эмпирические распределения (Хх XJ и (Xf, ... ..., X*) через F„ и F* соответственно. Положим D„.n = sup|Fn(*)-F*Wl- (12.2) Это есть максимальное расхождение между двумя эмпирическими распределениями. Оно обладает тем же свойством, что и D„, a именно не зависит от распределения F. По этой причине D„„ используется при построении статистического критерия проверки «гипотезы о том, что Хх Х„ и Xf, .... X* являются случайными выборками из одной и той же совокупности». Распределение Dnn было найдено с помощью громоздких вычислений и исследований, но в 1951 г. Гнеденко и Королюк показали, что вся проблема сводится к задаче случайного блуждания с хорошо известным решением. Их доказательство отличается изяществом, и мы приведем его для иллюстрации возможностей простых комбинаторных методов. Теорема. Вероятность P]Dn,„ </7л} равна вероятности того, что в симметричном случайном блуждании траектория длины 2л, начинающаяся и заканчивающаяся в нуле, не достигнет точек ±г. Доказательство. Достаточно рассмотреть целые г. Расположим 2л величин Хх X* в порядке возрастания величины и положим efc = l или Ек = — 1 в зависимости от того, какая величина занимает k-e место, Х^ или X*. Окончательная запись содержит л «+1» и л «—1», и все ( ) расположений равновероятны. Поэтому возникающие при этом строки (е^ .... е2п) находятся во взаимно однозначном соответствии с траекториями длины 2л, начинающимися и заканчивающимися в начале. Если теперь ex4- ... ... +Еу = Л, то первые / мест заняты (j-\-k)/2 неотмеченными и О—*)/2 отмеченными величинами, и поэтому существует чка х, такая, что F„ {х) = (;' + *)/2л и F* (*) = (;—/fy/2/j. Но тогда
54 Гл. I. Показательные и равномерные плотности |F„(x) — F*(x)| = |ft|/n и, следовательно, 0ПшП^\к\/п. То же рассуждение, проведенное в обратном порядке, завершает доказательство. Точное выражение для рассматриваемой вероятности содержится в I, гл. XIV, (9.1), В самом деле, выражение есть вероятность того, что частица, выходящая из начала отсчета, вернется в момент 2л в начало, не касаясь ±г. Последнее условие можно реализовать, если установить в точках ±г поглощающие экраны, и поэтому шг-п есть вероятность возвращения в начало координат в момент 2л, когда точки ±г являются поглощающими экранами. [В 1; гл. XIV, (9.1) рассматривается интервал 0, а, а не —г, г. Наша вероятность шг п тождественна иг>1п(г),] В 1; гл. XIV было показано, что предельный переход приводит от случайных блужданий к диффузионным процессам, и, таким образом, легко видеть, что распределение ^ nDnn стремится к пределу. Фактически этот предел был найден Смирновым еще в 1939 г., а аналогичный предел для ]/~л D„ — Колмогоровым в 1933 г. Эти вычисления очень сложны и не объясняют связи с диффузионными процессами в противоположность подходу Гнеденко—Коро- люка. С другой стороны, они стимулировали плодотворную работу по сходимости стохастических процессов (Биллингсли, Донскер, Прохоров, Скороход и другие). Можно упомянуть, что теоремы Смирнова в равной степени применимы л к расхождениям Dm „ между эмпирическими распределениями выборок, имеющих различные объемы т и п. Подход, связанный со случайным блужданием, применим к этой проблеме, но он во многом теряет свою изящность и простоту (Гнеденко, Рвачева). Статистиками было исследовано множество вариантов Dm „ (см. задачу 36), $ 13. ЗАДАЧИ Во всех задачах предполагается, что заданные величины взаимно независимы. 1. Пусть X и V имеют плотности ое-0", сосредоточенные на 0, оо, Найдите плотности величин (i) W (ii) 3 + 2X (iii) X-V (iv) | X— Y| (v) Наименьшем из неличин (.vi) Наибольшей из величии X и У3 X и Ya 2. Решите ту же задачу, если плотности X и Y равны 1/2 в интервале —1, 1 и 0 пне его, 3. Найдите плотности для X + V и X—V, если X имеет плотность ae~'tx (.* > 0), а плотность Y равна Л-1 при 0 < х < Л. 4. Найдите вероятность того, что К'2 — 2оЛ + й имеет комплексные корни, если коэффициенты (г и Ь являются одинаково распределенными случайными величинами, плотность которых (i) равномерна, т, е. равна Л-1 при 0 < л < Л; vii) показательна, т, е, равна ае~их при х > 0. X 4- Y х | у 5. Найдите функции распределения величин —-^— и —^— , если величины X, Y и Z имеют одинаковое показательное распределение, 6. Выведите формулу свертки (3.6) для показательного распределения
§ 13. Задачи 55 прямым переходом к пределу из формулы свертки для «отрицательного биномиального» распределения из 1; гл. VI, (8.1). 7. Для пуассоновсхого процесса § 4 обозначим через Z время между моментом t и последним предшествующим прибытием или 0 («возраст» текущего времени между прибытиями). Найдите распределение Z и покажите, что оно стремится к показательному распределению при /—»оо. 8. В примере 5, а) покажите, что вероятность появления первого рекордного значения на л-м месте и при этом не превосходящего х равна 1 м e-ax\n + i л(л+1) (l ■ > ■ Докажите, что распределение вероятностен первого рекордного значения есть 1 — (1+а*)е-в*. [Вообще, если величины X/ положительны и подчинены произвольному непрерывному распределению F, то первая вероятность равна [п (л + 1)]-1Х Х/Гп + 1(х), а распределение первого рекорда равно F — (1—fjlogfl—/г)-1.] 9. Нисходящие серии. Случайная величина N определена как единственный индекс, такой, что Xt> Х2 >.. .^ Хм— i < Xn . Если Xj имеют одинаковое распределение с непрерывной функцией распределения, то докажите, что P(N = n) = (n—1)/л! и E(N) = e. Указание. Используйте метод примера 6, я), относящийся к рекордным значениям. 10. Образование колонн на транспорте1). Автомобили отправляются друг за другом из начала координат и двигаются с различными, но постоянными скоростями по бесхонечной дороге, на которой запрещены остановки. Если автомобиль догоняет другой, медленнее едущий автомобиль, то ему самому приходится тащиться с той же скоростью. Таким образом будет сформирована колонна. Предельный размер колонны будет зависеть от скоростей автомобилей, но не от времен между последовательными отправлениями из начальной точки. Рассмотрим скорости автомобилей как независимые случайные величины с одинаковым непрерывным распределением. Выберем наудачу любой автомобиль, например первый из отправляющихся после данного момента. Используя комбинаторные методы примера 5, а), покажите, что а) вероятность того, что данный автомобиль не будет тащиться за каким- либо другим автомобилем, стремится к 2/2; б) вероятность того, что данный автомобиль ведет за собой колонну общим размером л (т.е. ровно л — 1 автомобилей тащатся за ним), стремится к 1/(я+1) (и + Ч; в) вероятность того, что данный автомобиль является последним в колонне размера л (т.е. тащится за л—1 автомобилями), стремится к тому же пределу, что и предыдущая вероятность. 11. Обобщение1) примера 5,а) о рекордном значении. Вместо того чтобы рассматривать одно предварительное наблюдение Х0, мы начинаем с выборки (X, Х,„) с порядковыми статистиками (Х(1), ..,, Хш)). (Общее для всех величин распределение F не играет роли, коль скоро оно непрерывно.) а) Пусть N — первый индекс л, такой, что Xm+n> Х(и). Покажите, что Р {N > л} = т/(т + п). [В примере 5,а) мы имели т=1.] б) Пусть N — первый индекс л, такой, что Хт + Н^ Х()В_, + 1); покажите, что (Ш) P{N >n}= Ч'\ . /т + л\ !) Newell G. !■., Opns Res. 7 (1959), 589 — 598. •) Willks S. S., J. Austr. Math. Soc, 1 (1959), 106—112.
56 Гл. I. Показательные и равномерные плотности При г^2 мы имеем Е (N) = < оо и P{N<m*}— 1-(1+х)г. т—со. в) Пусть N —первый индекс, такой, что Хя + П находится вне интервала между Хи, и Х(я). Тогда P{N>n}=_-^=i) и E(N)<.. 1 ' (т-\-п){т-\-п — 1) 12. (Свертки показательных распределений.) Пусть Xi при / = 0 п — А, х Имеет плотность Х;е / для х > 0. Здесь Xj Ф X*, если только / не равно k. [оложим Ф*.л = [(Ьо-Ч>*) ■■■ (X*-i—X*) (X*+i —Я.*) ... (Хл-Х*)]-1. Покажите, что Х0-(-... + Хп имеет плотность Рп (0 =XD ... Х„_, [^о. „е-^х+ ... +if„, „е-*"*]- (*) Указание. Используйте индукцию, симметрию и (2.14). Вычислений можно избежать. 13. Продолжение. Если Yy имеет плотность je~J*, то плотность суммы Vi + ... + Y„ равна Л 4=1 Ч ' Используя утверждение примера 6,6), выведите, что fn-\ есть плотность размаха X[n)— Х(1) выборки XL Хл, где все Xj имеют одинаковую плотность е~х. 14. Процессы чистого размножения. В процессе чистого размножения из 1; гл. XVII, 3 система проходит через последовательность состояний £0—► —► E-i—► ..., причем время пребывания в состоянии Ek имеет плотность — \ X Х*е * . Таким образом, S„ = \0-\- ... +Х„ есть момент перехода Еп—► £„+!- Обозначьте через Р„ (0 вероятность Е„ в момент I. Покажите, что Р„ (t) = = P{S„ > /} — P{S„_! > t] и, следовательно, Р„ (0 определяется формулой (*) задачи 12. Дифференциальные уравнения процесса: Pa(t)=—Х0Р0(/), Рп (t)=-KPn V)+K-iPn-i 10. п > I, можно вывести (а) из (1) и (б) из свойств сумм S„. Указание. По соображениям симметрии достаточно рассмотреть коэффициент при е °'. 15. В примере 6,а), где рассматриваются параллельные очереди, мы скажем, что система находится в состоянии k, если k окошек свободны. Покажите, что здесь применима модель процесса чистого размножения (задача 14) с Хд=(л — к) а. Докажите, что ^w=(;)о-«-')■ at \к.-in-к) at Выведите отсюда распределение X(t). 16. Рассмотрите две независимые очереди из m и л > т лиц соответственно, предполагая, что времена обслуживания имеют одно и то же показательное распределение. Покажите, что вероятность более длинной очереди окончиться первой равна вероятности получить л гербов раньше, чем т решеток, при бросаниях симметричной монеты. Найдите ту же вероятность,
§ 13. Задачи 57 рассматривая отношение X/Y двух величин с гамма-распределениями Gm щ С„, заданными формулой (3.5). 17. Пример статистического оценивания. Предполагается, что продолжительности существования электрических ламп имеют похаэательное распределение с неизвестным математическим ожиданием а-1. Чтобы оценить а, берется выборка из л ламп и наблюдаются продолжительности существования "(1) < Х(«> < ■ ■ ■ < ",,, первых г портящихся ламп. «Наилучшая несмещенная оценка» а-1 дается линейной комбинацией и = Я,1Х(,) +...+Я,,Х(,,, такой, что Е [U) =а-1 н Var (U) имеет наименьшее возможное значение. Покажите, что U = (Xtfl+ ■ ■ -Х^О-^ + Х,,, (п-г) 1, и тогда Var(U) =— а-а. Указание. Проделайте вычисления в терминах независимых величин х<*>— х<*-1> (см- пример 6, б)). 18. Пусть величины XL Х„ распределены равномерно на 0, 1. Покажите, что размах Х(п)—Х(1) имеет плотность л (л—1)хп-г(1—х) и математическое ожидание (л—1)/(л+1). Какова вероятность, что все л точек лежат внутри некоторого интервала длины О 19. Ответьте на вопросы примера 6, б), когда три времени ожидания равномерно распределены в интервале 0, 1. (Задача включает «скучные» вычисления, однако это может оказаться полезным упражнением по части технических приемов.) 20. На окружности независимо и наудачу выбраны четыре точки. Найдите вероятность того, что хорды ХгХ2 и Х3Х4 пересекаются а) без вычислений, используя лишь соображения симметрии; б) из определения через интеграл. 21. В процессе случайного разбиения из $ 8 обозначьте через Хп, Х1Я, Xai, Х!а массы четырех осколков второго поколения, индекс 1 относится X наименьшей, а 2—к наибольшей части. Найдите плотности и математические ожидания этих величин. Замечание. Следующие несколько задач содержат новые теоремы, касающиеся случайных разбиений интервала на части (см. пример 7, б)). Предполагается, что случайные величины X] Х„ независимы и равномерно распределены на 0, t. Эти случайные величины индуцируют разбиение интервала 0, t на л+1 подынтервалов. Длины этих интервалов, взятые в надлежащем порядке, мы обозначим Lt Ln+I. В терминах порядковых статистик Li=x<i)i 1-2 = X(j)—Х(1) Ln + i = '—*<п)- 22. Обозначим через p„[t) вероятность того, что длины всех л-f-l подынтервалов разбиения больше чем л (иными словами, рп (г) = P{min Lk > л}, что представляет собой хвост функции распределения самого короткого из интервалов). Докажите рекуррентное соотношение t-л />-.(')=£ ^x"^pn_l(x)dx. (♦) и Выведите отсюда, что p„(t) = t~n (t—(л-(-1) А) + . 23. Используя рекуррентное соотношение, аналогичное (*)■ докажите без вычислений, что для произвольных xt^0 хп + 1^0 P{Li > *i Ln+1 > xa+x} = t-n (г—xi— ...— *n + i) + . (•*>
58 Гл. I. Показательные и равномерные плотности (Этот изящный результат был получен Б. де Финетти х) из геометрических соображений. Он включает множество интересных частных случаев. Если xj = h при всех /, то мы получаем предыдущую задачу. Пример 7, б) соответствует частному случаю, когда ровно одна из величин х/ отлична от нуля. Теорема о покрытиях (теорема 3 § 9) следует из (**) и формулы 1; IV, (1.5) для появления по крайней мере одного из (л+1) событий.) 24. Пусть q„{t) — вероятность того, что все взаимные расстояния между Хд превышают Л. (Отличие от задачи 22 в том, что здесь не накладываются ограничения на концевые интервалы Lj и Ln + 1.) Найдите соотношение, аналогичное (*), и выведите оттуда q„(t). 25. Продолжение. Не используя решение предыдущих задач, найдите, что pn{t)^{t-2h)"t-"qn(t-2h). 26. Сформулируйте аналог задачи 24 для окружности и покажите, что задача 23 дает ее решение. 27. Равнобедренный треугольник образован единичным вектором а х-направлении и единичным вектором в случайном направлении. Найдите распределение длины третьей стороны (i) в 513 и (п) в 513. 28. Единичный круг (шар) с центром в 0 имеет на положительной х-оси северный полюс. Из полюса выходит луч, и его угол с х-осью распределен равномерно на —1/2л, 1/2л. Найдите распределение длины хорды внутри круга (шара). Замечание. В 51* луч имеет случайное направление, и мы имеем дело с аналогом примера 10, а). В 513 же задача другая. 29. Отношение средних длин случайного вектора и его проекции на х-ось равно 2 в 513 и л/2 в 51я. Указание. Используйте (10.2) и (10.8). 30. Длина случайного вектора распределена равномерно на 0, 1. Найдите плотность длины его проекции на х-ось а) в 513 и б) в Э1г. Указание. Используйте (10.4) и (10.9). 31. Найдите функцию распределения угла между л-осью и случайно выбранным направлением в 51*- 32. Найдите в 51* аналог соотношения (10.2) между распределением длины случайного вектора и распределением длины его проекции на х-ось. Проверьте результат задачи 31, ограничившись единичным вектором. 33. Предельная теорема для порядковых статистик, а) Пусть Xj Х„ распределены рааномерно в 0, 1. Докажите, что при фиксированном U и Я ►• 00 р|х(|И<*| —G*_, (х), х>0, где G/, есть гамма-распределение (3.5) [см. пример 7, д)]. б) Если Хд имеют произвольную непрерывную функцию распределения F, то тот же предел существует и для Р {Х1к)<; Ф (х/л)}, где Ф есть функция, обратная к F (Смирнов). 34. Предельная теорема для выборочной медианы. Порядковая статистика Х(п) выборки (X, X2n_i) называется выборочной медианой. Если Ху независимы и равномерно распределены на 0, 1, то покажите, что *{*ш>-\<1/Г*и\ — 91(0. где 9? обозначает функцию распределения стандартного нормального распределения. 35. Продолжение. Пусть случайные величины X/ имеют одинаковое распределение F с непрерывной плотностью f. Пусть т—медиана распределе- l) Giornale 1st. Ital. degli Attuari, 27 (1964), 151—173.
§ 13. Задачи 59 ния F, т. е. F (m) = I/2. Покажите, что X Р{Х(я,<х} = (2Я-1)^~12) ^f-iWll-Fmn-ilMdy, — л откуда в силу предыдущей задачи Р ix(n,-m < *—г=\ —- И (О- 36. Докажите следующий вариант теоремы Гнеденко—Королюха в § 12: где г=1, 2, ..., я. [В отличие от первоначальной формулировки знаки абсолютных величин слева опущены, и поэтому в соответствующем случайном блуждании появляется только один поглощающий барьер в точке г.] 37. Образование показательно распределенных случайных величин ив равномерно распределенных величин 1). Пусть Хь Х:, ...—независимые величины с равномерным распределением в 0, 1. Определим случайную величину N как такой индекс, что XjSs X2S=... 3: Xn-x < Xn (cm. задачу 9). Докажите, что P{Xl<*. N = „} = J^_£, откуда P{Xi<x, N четно}=1— е-*. Определим Y следующим образом: «испытанием» служит последовательность Xj Xn ; мы говорим о «неудаче», если N нечетно. Мы повторяем независимые испытания до появления первого «успеха». Пусть Y равно числу неудач плюс первая величина в успешном испытании. Докажите, что P{Y <х}=1-е~*. l) Von Neumann J., National Bureau of Standarts, Apfi. Math. Seriies, 12 (1951), 36-38,
ГЛАВА II СПЕЦИАЛЬНЫЕ ПЛОТНОСТИ. РАНДОМИЗАЦИЯ Основная задача этой главы состоит в том, чтобы перечислить для облегчения ссылок те плотности, которые чаще всего будут появляться в дальнейшем. Рандомизация, описанная во второй части, полезна для многих целей. В качестве иллюстрации дается вывод формул для некоторых распределений, связанных с функциями Бесс.еля и встречающихся в различных переменных. Мы увидим, что этот простой вероятностный прием заменяет сложные вычисления и трудоемкий анализ. § 1. ОБОЗНАЧЕНИЯ И ОПРЕДЕЛЕНИЯ Мы говорим, что плотность f и соответствующее ей распределение F сосредоточены (или сконцентрированы) на интервале 1 = а, Ь1), если f(x) = 0 для всех х, не принадлежащих /. Тогда F(x) = 0 для х<а и F (х) = 1 для х>Ь. Говорят, что два распределения F и G, а также их плотности f и g принадлежат одному и тому же типу, если они связаны соотношениями G(x) = F(ax + b), g(x) = af(ax + b), (1.1) где а> 0. Мы будем часто называть Ь центрирующим параметром и а —масштабным параметром. Эти термины становятся хорошо понятными после следующего разъяснения: если F служит функцией распределения случайной величины X, то G есть функция распределения величины Y=^^. (1.2) Во многих ситуациях в действительности важен только тип распределения. Математическое ожидание т и дисперсия а1, соответствующие х) В соответствии с обычной терминологией наименьший замкнутый интервал 1 с таким свойством следовало бы называть носителем f. Новый термин введен в связи с тем, что мы будем употреблять его в более общем смысле: так, распределение может быть сосредоточено на множестве всех целых или всех рациональных чисел.
§ I. Обозначения и определения 61 плотности f (или F), определяются равенствами ia -*- сю + оа т = \xf{x)dx, as= [ (х—т)2 f{x)dx = $ x2f(x)dx—m\ (1.3) если только интегралы сходятся абсолютно. Из формулы (1.2) следует, что плотности g в этом случае соответствует математическое ожидание (т—Ь)/а и дисперсия а2/а2. Отсюда ясно, что для каждого типа существует самое большее одна плотность с нулевым математическим ожиданием и единичной дисперсией. Вспомним [см. гл. I, (2.12)], что свертка f = fl#fl двух плотностей ff и f2 есть плотность вероятности, определяемая формулой + 00 nx)=lfAx-y)f,{y)dy. (1.4) Если ft и f2 сосредоточены на 0, сю, эта формула сводится к х f(x) = lf1(x-y)ft(y)dy, x>0. (1.5) о Функция f представляет собой плотность суммы двух независимых случайных величин с плотностями f1 и ft. Заметим, что для ei(x) = fi(x + bi) свертка g = g^g2 дается равенством g(x) = = f[x-\-bl-\-b2), как это видно из (1.2). Мы заканчиваем этот параграф введ нием обозначений для плотности и функции распределения нормального распределения: Давно знакомая нам нормальная плотность с математическим ожиданием т и дисперсией а2 определяется как 7«(т=)- ">»■ В центральной предельной теореме неявно содержится существенный факт, что семейство нормальных плотностей замкнуто относительно операции свертки; другими словами, свертка двух нормальных плотностей с математическими ожиданиями т„ т1 и дисперсиями cjJ, a* есть нормальная плотность с математическим ожиданием ml-\-mt и дисперсией а\-\-а\. Ввиду ранее сказанного достаточно доказать это для mf = m, = 0. Утверждается, что
62 Гл. //. Специальные плотности. Рандомизация Справедливость этого утверждения становится очевидной, если произвести замену переменных г = у х ——, где х фиксиро- вано. (См. задачу 1.) f 2. ГАММА-РАСПРЕДЕЛЕНИЯ Гамма-функция Г определяется как а Г(0=$х'-де-*4х, 1>0. (2.1) и [См. 1; гл. II, (12.22).] Гамма-функция интерполирует факториалы в том смысле, что Г(л + 1) = л! для л = 0, 1 Интегрирование по частям показывает, что Г(/) = (/ — 1)Г(/— 1) при всех t > 0 (задача 2). Гамма-плотности, сосредоточенные на 0, оо, определяются формулой Л..у(х)=г^) »* *»-»«-«, *>0. (2.2) Здесь а> 0—тривиальный масштабный параметр, но v > 0—существенный параметр. В частном случае fail мы имеем дело с показательной плотностью, а плотности fai„ (л=1, 2, ...) совпадают с плотностями gn из гл. I, (3.4). Простые вычисления показывают, что математическое ожидание fa, v равно \/а, а дисперсия равна v/a". Семейство гамма-плотностей замкнуто относительно операции свертки /..H«/a.v = /..,i+v. J1>0,V>0. (2.3) Это важное свойство обобщает теорему из гл. I, 3 и будет постоянно использоваться; доказательство чрезвычайно просто. Согласно (1.5), левая часть равна о После подстановки y = xt это выражение будет отличаться от fa. д+v только численным множителем, а он равен единице, так как fa, ц+v и (2.4) являются плотностями вероятности. Последний интеграл при *=1—это так называемая бета- функция В(ц, v), и как побочный результат доказательства мы получаем, что В(|1, v) = j(l-^-«/v-,d4, = rM^M (2.В) о
§ 3. Распределения, связанные с гамма-распределением 63 для всех ц > 0, v > О. [С целыми \i и v эта формула используется в 1; гл. VI, (10.8) и (10.9). См. также задачу 3 этой главы.] Что касается графика /,, v, то он, очевидно, монотонен, если v^ 1, и неограничен вблизи нуля, когда v < 1. При v > 1 график /i, v колоколообразен, fliV достигает при * = v—1 максимума, равного (v — l)v-1e-JV-,)/r(v), что близко к [2л (v — 1 )]~1/2 [формула Стирлинга, 1; гл. II, 12, задача 12]. Из центральной предельной теоремы следует, что 1£v».vGr + *1£L)--*nW' v—oo. (2.6) § 3*. РАСПРЕДЕЛЕНИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ, СВЯЗАННЫЕ С ГАММА-РАСПРЕДЕЛЕНИЕМ Гамма-плотности играют значительную, хотя не всегда явную роль в математической статистике. Прежде всего они фигурируют как «тип III»- в классической (теперь до некоторой степени устаревшей) системе плотностей, введенной К. Пирсоном (1894 г.). Более часто они встречаются благодаря тому, что для случайной величины X с нормальной плотностью и квадрат X" имеет плотность x-1'tn(x1/2)=fi/i,1/l(x). Ввиду свойства свертки (2.3) отсюда следует, что Если X,, ..., Хп — взаимно независимые нормально распределенные величины с математическим ожиданием 0 и дисперсией а1, то величина XJ+ ... + X,2, имеет плотность fi/ia\ пц- Для статистиков величина х* = Х?+...+Х^ совпадает с «выборочной дисперсией для нормальной совокупности», и ее распределение постоянно используется. В этой связи f1/ti 1/tn по традиции (восходящей к К. Пирсону) называется хи-квадрат плотностью с п степенями свободы. В статистической механике величина XJ-f X|-f X§ появляется как квадрат скорости частиц. Сама скорость поэтому имеет плотность v(x) = 2xfl/2, 3/>(хя). Это не что иное, как плотность Максвелла, найденная другим способом в гл. F, (10.6). (См. также пример в гл. 111,4.) В теории очередей гамма-распределение иногда называют распределением Эрланга. Некоторые случайные величины (или «статистики»), важные для статистиков, имеют форму T = X/Y, где X и Y—независимые случайные величины, Y>0. Обозначим их функции распределения через F и G, а их плотности через fag соответственно. Так как величина Y предполагается положительной, то g cocpe- *) Этот параграф затрагивает специальные вопросы и не используется в дальнейшей.
64 Гл. //. Специальные плотности. Рандомизация доточено на 0, оо, и поэтому В) P{T<t\ = P{X^tV} = [F(ty)g(y)dy. (3.1) о Дифференцируя, находим, что отношение Т = Х/Y обладает плотностью u>(t) = \f(ty)yg(y)dy. (3.2) Примеры, а) Если X ы Y имеют плотности /]/,, т/, и /i/i, „/,, то X/Y имеет плотность Г (4- («+")) <Т'"~1 ю(0= ^ " i . *>0- (3.3) г(-Нг(тп)<1+/) Действительно, интеграл (3.2) равен 1 <а —i /1 \ /1 \ \у е *у> (3-4> 2T<-«.r(jm)r(|n) J а подстановкой -д-(1 + 0tf^s 0H сводится к (3.3). В дисперсионном анализе рассматривают частный случай X = XJ+ . .. + X», и Y = YJ + .. . + YS, где X, Хт1 Yj Y„—взаимно независимые нормально распределенные величины с плотностью п. Случайная величина F = ^- называется /71 I статистикой Снедекора, а ее плотность — w(— x\ —плотностью Снедекора или F-плотностью. Величина Z = -j- log F есть Z-стати- стика Фишера, а ее плотность в свою очередь—Z-плотность Фишера. Обе статистики являются, конечно, вариантами записи одной и той же величины. б) 1-платность Стьюдента. Пусть X, Yj Y„ независимы и одинаково распределены с нормальной плотностью п. Случайная величина Т= - x^"=_ (3.5) Ky;+...+y« называется в математической статистике 1-статистикой Стьюдента. Покажем, что распределение случайной величины Т задается
§ 4. Некоторые распространенные плотности 65 плотностью и»(0= Ц . где Сп = -±= V2 '. (3.6) (1+<2/*)а \Я J В самом деле, числитель в (3.5) имеет нормальную плотность с нулевым математическим ожиданием и дисперсией л, тогда как плотность знаменателя равна 2*^/,, „/,(**). Таким образом, используя формулу (3.2), получаем плотность вида ГЫ-чттпУ ' y"dy- (37) о Подстановка s=y (1 + Р/п)у* сводит интеграл (3.7) к гамма-функции, и мы получаем (3.6). § 4. НЕКОТОРЫЕ РАСПРОСТРАНЕННЫЕ ПЛОТНОСТИ а) Двусторонняя показательная плотность определяется выражением—ое-1*1*1, где а—масштабный параметр. Ей соответствует нулевое математическое ожидание и дисперсия 2а~а. Эта плотность представляет собой свертку показательной плотности ае~ах (х > 0) со своим зеркальным отображением ае?" (х < 0). Иными словами, двусторонняя показательная плотность является плотностью величины Xj—Х„ где Xj и X, независимы и обладают одной и той же показательной плотностью ае~а* (*> 0). Во французской литературе это распределение обычно называют «вторым законом распределения Лапласа» (первым считается нормальное распределение). б) Равномерная {или прямоугольная) плотность ра и треугольная плотность та, сосредоточенные на —а, а, определяются соответственно выражениями Р.М-Е. ^w=i(1-iJI). м<а- «■>> Легко видеть, что рд*ра = т2а, или словами! сумма двух равномерно распределенных на — а, а величин имеет треугольную плотность распределения на —'2а, 2а. [Повторныесверткир„* ... *рв были описаны в гл. I, (9.7JJ в) Бета-плотности на 0, 1 определяются как ^.^^тт^-*^*4'1' 0<х<1- <42) где \i>0 и v>0—свободные параметры. То, что (4.2) действительно определяет плотность вероятности, следует из (2.5). Из той 3 № 249
fiG Гл. 11. Специальные пютности. Рандомизация же самой формулы видно, что pV v имеет математическоз ожнда- ние v/(j.i-t-v) и дисперсию |xv/[(fi + v)2([i-t- v+1)]. Еслиц<1, v<l, то график Рц> v является U-оЗразным, уходящим в бесконечность при х, стремящемся к 0 или 1. При ц> 1, v> 1 график колоколообразен. При fi = v = l получаем как частный случай равномерную плотность. Простой вариант б1;та-плотности определяется формулой (TX7)iPli.v^TT7J= Г(|1)Г(У) (t + 0^v ■ 0<*<°°. (4.3) Если случайная величина X имеет плотность (4.2), то величина Y = X_l — 1 имеет плотность (4.3). В системе распределений Пирсона плотности (4.2) и (4.3) именуются плотностями типа I и VI соответственно. Плотность Снедекора (3.3) есть не что иное, как чястный случай плотности (4.3). Плотности (4.3) иногда называются плотностг.ми Парето (в честь экономиста Парето). Считалось (несколько наивно с современней статистической точки зрения), что распределения дс;хода должны иметь хво:т с плотностью ~ Ах-'1- при х—к», a (4.3j удовлетворяет этому требованию. г) Так называемая «арксинус-плотность» л V х{1— х) есть фактически то же самое, что и бета-плотность |51/2i 1/2, однако эта плотность заслуживает специального упоминания вследствие ег частого появления в теории флуктуации. (Мы ввели ие в 1, гл. III, 4, в связи с неожиданным поведением «времени пребывания».) Вводящее в заблуждение название, к сожалению, общеупотребительно; фактически функция распределения равна 2л-1 arc sin |/"х. (Бета-плотности с |i-f-v=I иногда называются «обобщенными арксинус-плотностями».) д) Плотность Коши с центром в начале координат определяется как У'(х) = ^~" 7*TT=' ~~ °о<х<оо, (4-5) где / > 0—масштабный параметр. Соответствующая функция распределения равна 4 + n_1arctg (x//). График yt напоминает график нормальной плотности, но приближается к оси х столь медленно, что математическое ожидание не существует. Важность плотностей Конш обусловлена формулой свертки Y.*Y« = V,+ .- (4-6) Этим утверждается, что семейство плотностей Коши (4.5) замкнуто относительно свертки. Формула (4.6) дможег быть доказана
§ 4. Некоторые распространенные плотности 67 элементарным (но скучным) способом с помощью обычного разложения подынтегральной функции на элементарные дроби. Более простое доказательство опирается на анализ Фурье. Формула свертки (4.6) имеет весьма интересное следствие, а именно: для независимых случайных величин \1, . . ., Хп, имеющих одинаковую плотность распределения (4.5), среднее значение (Xt + ... + Х„)/'п распределено с той же самой плотностью, что и X/. Пример. Рассмотрим лабораторный опыт, заключающийся в том, что вертикальное зеркало проецирует горизонтальный световой луч на стену. Зеркало может свободно вращаться относительно вертикальной оси, проходящей через А. Мы предполагаем, что направление отраженного луча выбирается «случайно», т. е. утл ср между этим лучом и перпендикуляром АО к стене распределен равномерно между —x-n и у л. Световой луч пересекает стену в точке, которая лежит от точки 0 на расстоянии X = Mg ф [t равно расстоянию АО центра зеркала А от стены). Теперь очевидно, что случайная величина X имеет плотность (4.5)1). Если эксперимент повторен п раз, то среднее (Xt + . . . + Х„)/я имеет ту же самую плотность распределения и, таким образом, средние не накапливаются вокруг нуля, как можно было бы предположить по аналогии с законом больших чисел. ► Плотность распределения Коши обладает люйопытным свойством: есл:1 X имеет плотность Yd то 2Х имеет плотность Y2* = Yl'lcYd Таким образом, величина 2Х = Х-)-Х является суммой двух зависимых величин, однако ее плотность видается формулой свертки. Более того, если V и V — две независимые цели- чины с одинаковой плотностью yt и X = all-j-iV, Y = cU-{-dV, то величина X + Y имеет плотность Yia + b + r + d)f> что представляет собой свертку плотностей Y(a + b)l величины X и Yic + rfn величины Y; однако X и Y не являются независимыми, (Схожий пример см. в задаче 1 в гл. III, 9.) [Плотность Коши соответствует частному случаю п=\ семейства (3.5) Т-плотностей Стыодента. Иными словами, если X и Y — независимые случайные величины с нормальной плотностью и, то геллчина Х/| Y | имеет цветность распределения Коши (4.5) е / = 1, Некоторые другие родственные плотности см, в задачах 5, 6.] Свойство свертки гамма-плотностей, выраженное формулой (2.3), выглядит точным подобием свойства (4.6), однако существует важное различие, состоящее в том, что для гамма-плотностей параметр v является существенным, в то время как формула (4.6) содержит *) Простая переформулировкз этого эксперимента приводит к физической интерпретации формулы свертки (4.6). Нгше рассуждение псказывает, что если единичный источник света находится в начале отсчета, то Yt представляет распределение интенсивности света вдоль линии y = i на (х, ^-плоскости. Тогда (4.6) выражает принцип Гюйгенса, согласно которому интенсивность света вдоль направления y = s-\-t такая же, как если бы источник был распределен вдоль линии y = t с плотностью Yd (Я обязан этим замечанием Дж. В, Уолшу.) ?•
64 Га. П. Специальные плотности. Рандомизация только масштабный параметр. Тип распределений Коши является устойчивым типом. Эта устойчивость относительно операции свертки свойственна плотностям Коши и нормальным плотностям; различие заключается в том, что масштабные параметры определяются согласно правилам t = t1-\-t1 и а2--= а^-\-а] соответственно. Имеются другие устойчивые плотности с подобными свойствами, и после систематизации терминологии мы будем называть нормальные плотности и плотности Коши «симметричными, устойчивыми с показателями 2 и 1» (см. гл. VI, 1). е) Одностороннее устойчивое распределение с поктателем Va- Если Ш—нормальное распределение, заданное формулой (1.6), то равенство f„(*)=2[l-3l(^=)]. *>0, (4.7) определяет функцию распределения с плотностью f Ах) = -?=■—1=-е~а'/х, х>0. (4.8) Очевидно, что математическое ожидание не существует. Это распределение было найдено в 1; гл. III, (7,7), и снова в 1; гл. X, 1, как предел распределения времен возвращения. Отсюда легко вывести правило свертки fa*h = fy. где v = « + P- (4-9) (Возможна проверка элементарным, но несколько громоздким спо" собом интегрирования. Доказательство, основанное на анализе Фурье, проще.) Если Xj Х„ — независимые случайные величины с распределением (4.7), то из равенства (4.9) следует, что величина (X! + ... -f-XJ п~г имеет то же самое распределение, и поэтому средние (Хх+ ... -f-XJn-1, вероятно, должны быть порядка п\ вместо того чтобы сходиться, они безгранично возрастают (см. задачи 7 и 8). ж) Распределения вида е~*~а (х > 0, а > 0) гс^мишются в связи с порядковыми стнтистмкамм (см. задачу 8). Вместе с ралюиидиистыо 1—е~х они появляются (несколько таинственно) под именем распределений Вейдуяа в статистической теории надежности. а) Логистическая функция распределения F«= i+.'-4V и>°- (4'10> может служить предостережением. Существует невероятно большая литература, где делаются попытки доказать трансцендентный «закон логистического рчзвитии». Предполагалось возможным представить практически все процессы развития (измеренные в соответствующих единицах) функцией типа (4.10) с t, изображающим время. Весьма длинные таблицы с хи-квадрат критериями подтверждали это положение для человеческих популяций, бактериальных колонии, развития железных дорог и т, д, Было обнаружено, что как высота,
§ Ч. Рандомизация ч снеси 60 так и вес растений и животных подчиняются логическому закону, хотя из теоретических соображений ясно, что эти дне величины не могут подчиниться одному и тому же распределению. Лабораторные эксперименты на бактериях показали, что даже систематические нарушения не могут привести к другим результатам. Теория популяций была основана на логистических экстраполяциях (даже если они оказывались очевидным образом ненадежными). Единственное затруднение «логистической! теории заключается в том, что не только логистическое распределение, но также нормальное, Коши и другие распределения могут быть подогнаны под тот же самый материал в тем же или лучшим согласием*-), В этой конкуренции логистическое распределение не играет никакой выдающейся роли: самые противоречивые теоретические модели могут быть подтверждены на том же материале наблюдений. Теории этого рода недолговечны, так как они не открывают новые пути, а новые подтверждения одних и тех же старых вещей очень скоро становятся надоедливыми. Однако наивное рассуждение само по себе не было заменено здравым смыслом, и поэтому может быть полезно иметь очевидное доказательство того, как могут вводить в заблуждение взятые сами по себе критерии согласия. § 5. РАНДОМИЗАЦИЯ И СМЕСИ Пусть F—функция распределения, зависящая от параметра 9, и и—некоторая плотность вероятности. Тогда №(*)= J F{x, Q)u(B)dB (5.1) — 00 есть монотонная функция х, возрастающая от 0 до 1, и, следовательно, функция распределения. Если F имеет непрерывную плотность /, то и W имеет плотность w, равную + я w(x)= J f(x, B)u(Q)dQ. (5.2) — ею Вместо интегрирования относительно плотности и мы можем суммировать по отношению к дискретному распределению вероятностей: если 0и 6г, ... выбраны произвольно и если рк^0, £рк=1, то равенство И*) = 2/(*. QJPk (5-3) к определяет новую плотность вероятности. Процесс может быть описан вероятностно как рандомизация; параметр 6 рассматривается как случайная величина, и новое распределение вероятностен определяется в (х, 6)-плоскости, которая служит выборочным пространством. Плотности вида (5.3) называются смесями, и это выражение здесь используется вообще для распределений и плотностей вида (5.1) и (5.2). ') Feller W., On the logistic law of growth and its empirical verifications in biology, Acta Biotheoretica, 5 (1940), 51—66.
7^ Гл. П. Специальные плотности. Рандшшзацип Мы не предполагаем на этом этапе развивать общую теорию. Наша цель скорее в том, чтобы проиллюстрировать на нескольких примерах возможности этого метода и его вероятностное содержание. Примеры служат также подготовительным материалом к понятию условных вероятностен. Следующий параграф содержит примеры дискретных распределении, полученных посредством рандомизации непрерывного параметра. Наконец, § 7 иллюстрирует построение непрерывных процессов на основе случайных блужда- шш; попутно мы получим распределения, встречающиеся во многих приложениях и требующие при другом подходе громоздких вычислений. Примеры, а) Отношения. Если X—случайная величина с плотностью /, то при фиксированном у > 0 величина Х'у имеет плотность /(ху)у. Рассматривая параметр у как случайную величину с плотностью g, мы получаем новую плотность ю(*) = S f{xy)yg{y)dy. (5.4) Зто то же самое, что и формула (3.2), которая была основой для обсуждений в § 3. На вероятностном языке рандомизация знаменателя у в Х/у означает рассмотрение случайной величины X/Y, и мы можем просто повторить вывод формулы (3.2) для плотности величины X/Y. В этом частном случае терминология есть дело вкуса. б) Суммы случайного числа слагаемых. Пусть Х^ Х2, ...— взаимно независимые случайные величины с одинаковой плотностью/. Сумма S„ = Xj + . . . +ХП имеет плотность /"*, а именно «-кратную свертку / с собой (см. гл. I, 2). Число слагаемых п является параметром, который мы теперь рандомиянруем с помощью распределения вероятностей Р{N =п\ = рп. Плотность результирующей суммы S,\ со случайным числом слагаемых N равна » = 2/>„/"*. (5.5) i Возьмем, например, в качестве \рп) геометрическое распределение pn=qpn~i, а в качестве /—показательную плотность. Тогда f'l*=gn дается формулой (2.2) и DO /i=i l '" в) Применение к теории очередей. Рассмотрим один обслуживающий прибор с показательным распределением времени обслуживания (плотность /(/) = цв-*1') и предположим, что поступающая нагрузка—зто нагрузка пуассоновского типа, т. е. что интервалы
f 5. Риндимизация " гсл-»/ 71 времени между вызовами независимы и имеют плотность распределения Хе~Л', К < [1. Данная модель описана в 1; гл. XVII, 7, б). Поступающие вызовы становятся в (возможно, пустую) «очередь» и обслуживаются в порядке поступления без перерывов. Рассмотрим вызов, к моменту поступления которого в системе обслуживания уже имеется очередь из п^О других вызовов. Полное время, которое этот вызов проводит в системе обслуживания, равно сумме времен обслуживания п вызовов, стоящих в очереди, и времени обслуживания самого этого вызова. Полное время есть случайная величина с плотностью /1п + 1|-К. Мы видели в 1; XVII, (7.10), что в стационарном состоянии вероятность наличия в очереди ровно п вызовов равна qp", где p = k/\i. Если лмеет место стационарное состояние, то полное время, которое вызов проведет в системе обслуживания, есть случайная величина с плотностью распределения OS OD X wY,i'!J)*(/) = ?Lie->" 2 fai/)7n! = (|i—Я)е-(*-А". Поэтому £(Г) = 1/(ц—X). (См. также задачу 10.) г) Очереди на автобус. Предполагается, что автобус появляется каждый час (в час, в два часа... и т. д.), но может запаздывать. Мы рассмотрим последовательные запаздывания \к как независимые случайные величины с одним и тем же распределением F и плотностью f. Для простоты мы предполагаем, чтоО^Х^^К Обозначим через Тх время ожидания для человека, прибывшего в момент х < 1 после полудня. Вероятность, что автобус, назначенный на полдень, уже ушел, равна F (х). Ясно видно, что P{Tx<f} = __\ F(t + x) — F(x) при 0<t<l—x, ~~\ l—F(x) + F(x)F(t + x—l) при \—X<t<2—x, ( } и, конечно, Р{ТХ^^} = 1 для всех больших t. Соответствующая плотность равна f(t + x) при 0<*<1— х, F(x)f(( + x—l) при \—X<t<2—х. К > Здесь момент х прибытия является свободным параметром, и его естественно рандомпзировать. Например, для человека, прибивающего «наугад», момент прибытия представляет собой случайную величину, распределенную равномерно на 0, 1. Среднее время ожидания равно в данном случае 1/г-\-а2, где а3 есть дисперсия времени запаздывания. Другими словами, среднее время оокидания является наименьшим тогда, когда автобусы идут точно по расписанию, и возрастает вместе с дисперсией запаздывания. (См. задачи 11,12.) ►
72 Гл. //. Специальные плотности. Рандомизация § 6. ДИСКРЕТНЫЕ РАСПРЕДЕЛЕНИЯ Этот параграф посвящен беглому обзору некоторых результатов применения рандомизации к биномиальному и пуассоновскому распределениям. Число S„ успехов в испытаниях Бернулли подчиняется распределению, зависящему от вероятности успеха р. Рассматривая р как случайную величину с плотностью и, мы приходим к новому распределению 1 Р\Sa = k) = (J)j/j*(1 -p)--*u{p)dp, k = 0 n. (6.1) о Пример, а) Если u(/?)=l, то интегрированием по частям можно показать, что распределение, заданное формулой (6.1), не зависит от А и сводится к дискретному равномерному распределению вероятностей P{Sn = A} = (н +I)-1. Более разъясняющей является аргументация Байеса. Рассмотрим я+1 независимых величин Х„, ..., Х„, распределенных равномерно между 0 и 1. Интеграл в выражении (6.1) (при ы = 1) равен вероятности того, что ровно k величин из X, Хп будет меньше Х0, или, другими словами, что при перечислении точек Х0 Х„ в порядке возрастания величина Х„ появляется на (A-f-l)-M месте. Но ввиду симметрии все положения равновероятны, и поэтому интеграл равен (я+ l)-i. ► На языке азартных игр (6.1) соответствует ситуации, когда несимметричная монета выбирается посредством случайного механизма, после чего с этой монетой (неизвестной структуры) производятся испытания. Игроку испытания не кажутся независимыми; действительно, если наблюдается длинная последовательность гербов, то правдоподобно, что для нашей монеты р близко к 1, и поэтому безопасно делать ставку на дальнейшее появление гербов. Два формальных примера иллюстрируют оценивание и предсказание в задачах такого рода. Примеры, б) Дано, что п испытаний закончились k успехами (гипотеза Н). Какова вероятность того, что р < а? По определению условных вероятностей а $/»* (1-/о»-* u (/»)<*/» о Этот способ оценивания использовался Байесом [при ы(р) = 1]. В рамках нашей модели (т. е. если мы действительно занимаемся смешанной популяцией монет с известной плотностью и) не воз-
f в. Дискретные распределения 73 никнет возражений против этого способа. Опасность в том, что этот способ постоянно использовался без оснований применительно к суждениям о «вероятностях причин», когда о рандомизации не было и речи; эта точка зрения широко обсуждалась в примере 2,д) в 1; гл. V, в связи с вычислением пресловутой вероятности того, что завтра солнце взойдет. в) Вариант предыдущей задачи можно сформулировать следующим образом. Дано, что п испытаний закончились k успехами; какова вероятность того, что следующие т. испытаний закончатся / успехами? То же самое рассуждение приводит к ответу (7) \pJi~*(l— P)m*n-J-ku{p)dp ^p*{l-p)—*U(p)dp о (См. задачу 13.) ► Обращаясь к пуассоновскому распределению, мы будем интерпретировать его как распределение числа «прибытий» за интервал времени длительностью t. Математическое ожидание числа прибытий равно at. Мы проиллюстрируем две существенно различные процедуры рандомизации. Примеры, г) Рандомизированное время. Если длительность интервала времени является случайной величиной с плотностью и, то вероятность рм ровно k прибытий равна P> = $e-«>l-?fu(t)dt. (6.4) о Например, если интервал времени распределен показательно, то вероятность k = 0, 1, ... новых прибытий равна о что представляет собой геометрическое распределение. д) Расслоение. Допустим, что имеется несколько независимых источников для случайных прибытий, каждый источник имеет пуассоновский выход, но параметры различны. Например, аварии в какой-либо установке в продолжение фиксированного промежутка времени / могут быть представлены пуассоновскими величинами, но параметр будет меняться от установки к установке. Аналогично телефонные вызовы от отдельных абонентов могут быть пуассоновскими с математическим ожиданием числа вызовов, меняющимся от абонента к абоненту. В таких процессах параметр а появ-
74 Гл. II. Специальные плотности. РандоМизация ляется как случайная неличина с плотностью и, а вероятность ровно п вызовов за время t равна ее Я„(0 = J е-'-^ н (оО«/я. (6.6) и В частном случае гамма-плотности u = /pv+1 мы получим что является предельной формой распределении Пойа, данного в 1; гл. V, 8, задача 24, и 1; гл. XVII, (10.2) (если Р = £Г1, V = Q"1—1). ► Замечание о ложном заражении. Курьезная и поучительная история приписывается распределению (6.7) и его двойственном природе. Урновая модель Пойа и процесс Пойа, которые присодят к (G.7), являются моделями истинного заражения, где каждый случай эффективно увеличивает вероятность будущих случаев. Эта модель пользовалась большой популярностью. Для множества явлений эмпирически проверялось согласие с (6,7). При этим хороший результат воспринимался как признак истинного заражения. По случайному совпадению то же самсе распределение (6.7) было получено еще ранее (1920) М. Гринвудом и Дж. Юлом с тем замыслом, что хорошее согласие с ним опровергает наличие заражения. Их вывод приблизительно соответствует нашей модели расслоения, для которой начальным является предположение о том, что з основе леж;*т пуассоновский процесс, т. е. что полностью отсутствует последействие. Тлким образом, мы имеем курьезный факт, что хорошее согласие наблюдений с еднпм и тем же распределением может быть истолковано двумя различными способами, диаметрально противоположными как по своей природе, так и по своим практическим последствиям. Это послужит предостережением против слишком поспешной интерпретации статистических данных. Объяснение этому лежит в явлении ложного заражения, описанного в 1; гл. V, 2, г) и выше в связи с (6.1). В данной ситуации, получив за интервал времени длины s m прибытии, можно оценить вероятность п прибытий за следующий интервал времени t по формуле, аналогичной (6.3). Результат будет зависеть от т, и эта зависимость обусловлена способом выбора, а не природой данных; информация, относящаяся к прошлому, дает нам возможность делать лучшие предсказания относительно будущего поведения нашей выборки, но это не следует смешивать с будущим всей популяции. § 7. БЕССЕЛЕВЫ ФУНКЦИИ И СЛУЧАЙНЫЕ БЛУЖДАНИЯ Удивительно много явных решений задач теории диффузии, теории очередей и других приложений содержат бесселевы функции. Обычно далеко не очевидно, что решения представляют собой распределения вероятностей, а аналитическая теория, которая требуется для получения их преобразований Лапласа и других характеристик, довольно сложна. К счастью, рассматриваемые распределения (и многие другие) могут быть получены простой процедурой рандомизации. На этом пути многие соотно-
§ 7. Бесселсчы функции, и случайные блуждания 75 шения теряют свой случайный характер, и можно избежать весьма трудного анализа. Пол бесселсвой функцией порядка р>—1 мы будем понимать функцию /р: /рГО=£а!Г№|р+1)(тГ*Р' (7Л) определенную для всех вещественных я1). Мы приступаем к описанию трех процедур, ведущих к трем различным типам распределений, содержащих бесселевы функции. а) Рандомизированные гамма-плотности Пусть мы имеем при фиксированном р>—1 гамма-плотность /i.p-»*+i, заданную формулой (2.2). Рассматривая параметр k как целочисленную случайную величину, подчиненную пуассоновскому распределению, мы получаем в соответствии с (5.3) новую плотность Сравнив выражения (7.1) и (7.2), мы можем записать wp{x)=t-*- )/(-f)P/p(2K^), *>0. (7.3) Если р>—1, то wp является плотностью вероятности, сосредоточенной на 0, оо (при р = — 1 правая часть не интегрируема по х). Заметим, что t не масштабный параметр, так что эти плотности принадлежат различным типам. Между прочим, из этого построения и формулы свертки (2.3) для гамма-плотностей следует, что tt'„*/i.v = "W (7>4) б) Рандомизированные случайные блуждания При анализе случайных блужданий обычно считают, что последовательные переходы совершаются в моменты времени 1, 2 Должно быть, однако, ясно, что это соглашение просто придает гармоничность описанию и что модель полностью независима от *) Согласно обычному словоупотреблению, /р — это «модифицированная» бесселева функция или бесселева функции «с мнимым аргументом». «Обыкновенная» бесселева функция, всегда обозначаемая J0 , определяется добавлением множителя (—П* в правую часть (7.1). Наше использование названия бесселевой функции должно рассматриваться как сокращение, а не как нововведение,
76 Гл. II. Специальные плотности. Рандомизация времени. Настоящие случайные процессы с непрерывным временем получаются из обычных случайных блужданий в предположении, что интервалы времени между последовательными скачками являются независимыми случайными величинами с одной и той жр. плотностью е~х. Другими словами, моменты скачков регулируются пуассоновским процессом, а скачки сами по себе являются случайными величинами, принимающими значения -\-\ и —1 с вероятностями р и q, независимо друг от друга и от пуассоновского процесса. Каждому распределению, связанному со случайным блужданием, соответствует некоторое распределение для процесса с непрерывным временем, которое формально получается рандомизацией числа скачков. Чтобы увидеть процедуру в деталях, рассмотрим состояние процесса в заданный момент t. В исходном случайном блуждании я-й шаг приводит к состоянию г ^ 0 тогда и только тогда, когда среди первых п скачков -y(n-f г) положительны и у(л—г) отрицательны. Это возможно, если только п — г— 2\ четно. В этом случае вероятность состояния г точно после л-го скачка равна Для нашего пуассоновского процесса вероятность того, что вплоть до момента / произойдет ровно п = 2\-\-г скачков, равна е~Ч"/п\, и поэтому для нашего процесса с непрерывным временем вероятность состояния г^О в момент / равна <-|D <^(;t!yv= /(|у»-/,(2^о. (7.6, и мы приходим к двум заключениям. (i) Если мы определим /_г = /г при г = \, 2, 3 тогда при фиксированных t > 0, р, q выражение aAt)=Y{^)re-4r{2Vp~qt), г = 0. ±1. ±2. ... (7.7) представляет распределение вероятностей (т. е. аг^0, 2аг~')- (ii) В нашем случайном блуждании с непрерывным временем ar(t) равно вероятности состояния г в момент t. Две известные формулу для fec-селевых функций являются непосредственными следствиями этого результата. Вп-перных, если изменить обозначении, полагая 2 У pq t = x и /?/</ = "2, то тождество 2jar [t) = \ превращается в е! =2>'/,W. (7-8) — GO
§ 7. Бесселеш функции и случайные блуждания 77 Это так называемая производящая функция для бесселеаых функций (формула Шлемильха, которая иногда 1лужит в качестве определении для 1Г). Во-вторых, из природы нашего процесса ясно, что вероятности аг(1) должны удовлетворять уравнению Колмогорова — Чепмена "г (< + т)= £ о*(0я,-*М. (7-9) которое отражает тот факт, что в момент t частица должна быть в некотором состоянии k и что переход из k в г эквивалентен переходу из 0 в г — k. Мы возвратимся к этому соотношению в гл. XVII, 3. [Его легко проверить непосредственно, используя представление (7.6) и аналогичную формулу для вероятностей п случайном блуждании.] Уравнение Колмогорова — Чепмена (7.9) эквивалентно формуле BD /,('+*)= 2 /*м/,-*м, (7-ю) которая известна как тождество К. Неймана. в) Первые прохождения Для простоты сосредоточим наше внимание на симметричных случайных блужданиях p = q = 1/l. Согласно 1, гл. III, (7.5), вероятность того, что первое прохождение через точку г > 0 произойдет во время скачка с номером 2п—г, равна /2п—г\ К=Д п J2"'"" П>Г- (7-П> Случайное блуждание возвратно. Поэтому первое прохождение происходит с вероятностью единица, т. е, при фиксированном г величины (7.11) дают в сумме единицу. В нашем процессе момент fe-ro скачка имеет гамма-плотность /liA, заданную формулой (2.2). Отсюда следует, что момент первого прохождения через г > 0 распределен с плотностью -•-■Ei^SnU^)-^2--"-'-'-^. <712> Таким образом, (i) при фиксированном г —1,2, ... выражение М') = е-'-Н(0 (7-13) определяет плотность вероятности, сосредоточенную на 0, оо. (ii) Момент первого прохождения через г > 0 имеет плотность vr. (См. задачу 15.) Этот результат позволяет сделать другие интересные заключения. Первое прохождение через r + рв момент t предполагает предварительное первое прохождение через г в некоторый момент
78 Гл. //■ Специальные плотности. Рандомизация s < t. Вследствие независимости скачков в интервалах времени О, s и s, t и свойства отсутствия последействия у показательного Бремени ожидания мы должны иметь £7*wp = i»,fp. (7.14) [Проперка этого соотношения по формуле (7.12) будет легкой, если использовать соответствующее свойство свертки для вероятностен (7.11).] Фактически утверждение (i) и соотношение (7.14) справедливы для всех положительных значений параметров г п о1). § S. РАСПРЕДЕЛЕНИЯ НА ОКРУЖНОСТИ I Полуоткрытый интервал 0, 1 «ложно рассматривать как изображение окружности единичной длины, но предпочтительнее обернуть всю прямую вокруг окружности. Окружность тогда приобретает ориентацию, а длина дуги изменяется от —оо до ос, но х, х+1, х±2, ... интерпретируются как одна и та же точка. Сложение происходит по модулю 1 (так же как сложение углов по модулю 2л). Плотность распределения вероятностей на окружности есть периодическая функция ф^О такал, что - 1 5«p(x)rf*=I. (8.1) и Пример, а) Задача Бюффона об игле (1777). Традиционная формулировка такова. Плоскость разбивается на параллельные полосы единичной ширины. Произвольным образом бросается на плоскость игла единичной длины. Какова вероятность, что игла ляжет на плоскости так, что заденет две полосы? Чтобы поставить задачу формально, рассмотрим сначала центр иглы. Его положение определяется двумя координатами, но у мы пренебрегаем, а х приводим по модулю 1. Таким образом, «центр иглы» превращается в случайную величину X, равномерно распределенную на окружности. Направление иглы может быть описано углом (измеренным по часовой стрелке) между иглой и л-осью. Поворот на угол л возвращает мглу в то же самое положение, и поэтому угол определяется с точностью до умножения на л. Обозначим рассматриваемый угол через Z.t. В задаче Бюффона подразумевается, что X п Z— независимые равномерно распределенные на окружности единичной длины величины2). Если мы выбираем значения X между 0 п 1, а значения Z J) Feller W., Infinitely divisible distributions and Bcsrel functions associated with random walks. J. Soc. Inriust. Appl. Math. (1966), 864—875. z) Выборочное пространство пары (X, Z) есть тор,
§ 8. Распределении чп гхрцтхнасти 70 между —V2 и V2i т0 1[гла пересекает границу тогда и только тогда, когда ycosZn;>X или yCosZji>l—X. При данном значении z, —у < г < -%■, вероятность того, что X<ycoszn, равна вероятности того, что 1 — Х<уС05гл, а именно равна у cos гл. Поэтому искомая вероятность равна 1/2 f cuszJi-dz = -|. (8.2) ► -i/a Случайная величина X на прямой может быть преобразована по модулю 1 в величину °Х на окружности. Случайными величинами такого рода являются ошибки округления при численных подсчетах. Если X имеет плотность /, то плотность величины °Х равна ') ф(*) = 5!/(* + л)- (8.3) — 00 Любая плотность на прямой, таким образом, индуцирует плотность вероятно:™ на окружности. [В гл. XIX, 5, мы увидим, что та же самая функция tp допускает совершенно иное представление в виде рядов Фурье. Частный случаи нормальных плотностей см. в примере 5, д) гл. XIX.] Примеры, б) Задача Пуанкаре о рулетке. Рассмотрим число поворотов колеса рулетки как случайную величину X с плотностью /, сосредоточенной на положительной полуоси. Наблюденный результат, а именно точка иХ, против которой колесо останавливается, является величиной X, приведенной по модулю 1. Ее плотность дается формулой (8.3). Естественно ожидать, что «при обычных обстоятельствах» плотность °Х должна быть приблизительно равномерной. В 1912 г. А. Пуанкаре придал этой расплывчатой мысли форму предельной теоремы. Мы не будем повторять здесь его анализ, так как подобный результат легко следует из (8.3). Подразумевается, конечно, что данная плотность, по существу, «расплывается» на длинный интервал, так что ее максимум т мал. Предположим для простоты, что / возрастает вплоть до точки а, где она достигает своего максимума m = f(a), и что / убывает при х > а. Тогда J) Читателям, которых беспокоит вопрос сходимости, следует рассматривать тальки плотности /, сосредоточенные на конечном интервале. Если / KoiioTciiiiii при достаточно больших х и —х, но, очевидно, имеет место равномерная сходимость. Если не накладывать на / никаких ограничении, то ряд может расходиться в некоторых точках, то <р всегда представляет собой плотность, так как частные суммы в (8.3) образуют монотонную последовательность функций, интегралы которых стремятся к 1 (см, гл, IV, 2),
80 Гл. 11. Специальны? плотности. Рандпмияпцнч для плотности ф случайной величины °Х верно равенство + 00 фМ-1«2/(* + л)- S /(s)ds. (8.4) " -и При фиксированном х обозначим через хк единственную точку вида х + п, такую, что a + k^xk<.a + k + l. Тогда формула (8.4) ыижет быть переписана в виде Ф(х)-1= 2 J [/(**)-/(*)]<*». (8.5) При fc< —1 подынтегральная функция ^0, и поэтому Ф(х)-1</(а)+2[/(**)-/(*»+1)]<2/(а)в2/п. 4=0 Аналогичные аргументы доказывают, что ф(х)— \~^ — т. Таким образом, |ф(х) — 1 | < 2т, и, следовательно, ф дейстзительно приближенно постоянна. Условия монотонности были наложены на плотность только ради простоты изложения и могут быть ослаблены многими способами. [Хорошие достаточные условия могут быть получены применением формулы суммирования Пуассона, гл. XIX, (5.2).] в) Распределение первых значащих цифр. Известный ученый, прикладной математик, имел громадный успех в заключаемых им три на то, что число, выбранное наугад в Farmer's Almanac или Census Report или в подобном компендиуме, будет иметь первую значащую цифру меньше 5. Наивно предполагается, что все девять цифр равновероятны; в этом случае вероятность того, что цифра не превосходит 4, будет равна 4/9. Практически1) она близка к 0,7. Рассмотрим дискретное распределение вероятностей, приписывающее цифре k вероятность pk = Log(k + 1) — Log А (где Log обозначает логарифм по основанию 10 и k = \ 9). Эти вероятности равны приближенно /I, =0.3010 /»„ = 0,1761 /з3 = 0.1249 рА = 0,0969 р5 = 0,0792 Р| = 0,0669 рт = 0,0580 р„ = 0,0512 /в, = 0,0458 Распределение \рк\ заметно отличается от равномерною распределения с весами -^- = 0,111... . 1) Эмпирические данныг см. в статье: Benford F., The law of anomalous numbers, Proc. Amer. Philos. Soc, 78 (1938), 551 — 572.
§ 9. Задачи fll Мы теперь покажем (следуя Р. С. Пинкхэму), что распределение {pk\ правдоподобно как эмпирическое распределение первой значащей цифры числа, выбранного наугад из большой совокупности физических или наблюденных данных. Действительно, такое число может быть рассмотрено как случайная величина Y > 0 с некоторым неизвестным распределением. Первая значащая цифра Y равна k тогда и только тогда, когда \0nk ^ Y < 10" (k + 1) при некотором п. Для случайной величины X = Log Y это означает, что n + Logfc<X<n-*-Log(fe + l). (8.6) Если размах Y очень велик, то распределение случайной величины °Х, которая есть X, приведенная по модулю, является приближенно равномерным. Тогда вероятность неравенства (8.6) близка к Log(fc + I) — Logk = pk. p. Формула свертки (1.5) и умозаключения, приводящие к ней, остаются справедливыми в случае, когда сложение производится по модулю 1. Таким образом, свертка двух плотностей на окружности длины 1 есть плотность, определяемая формулой. 1 »M = S/x(*-J0M0^- (8-7) о Если Xf и Ха —независимые величины с плотностями /,- и /fl то \х ■+- X, имеет плотность а/. Так как эти плотности — периодические функции, свертка равномерной плотности с любой другой плотностью является равномерной. (См. задачу 16.) § 9. ЗАДАЧИ 1. Покажите, что нормальное приближение для биномиального распределения, выведенное в I, гл. VI , позволяет обосновать формулу свертки (1.7) для нормальных плотностей. 2. Используя подстановку х= —у2, докажите, что 3. Формула удвоения Лежандра. Из формулы (2.5) при \\ = \ вывести, что r(2v)~^L=2iv-ir(v)r(v+y) . Указание. Исполыуйте подстановку 4 {у—yl)=s в интервале 0 < у < l/j. 4. Пусть g (*)=-— е~1 -*1. Найдите свертки gs(eg Hg *g*^, а также g4* , 5. Пусть X и Y — одинаково распределенные независимые случайные величины с плотностью Коши YiMi определенной по (4.5). Докажите, что про- •/., п • 1п I дг I изаедение XY имев! плотность 2л_!—^—J-,
й? Гл. //. Специальна плотности. Рандомизация Указание. Для вычисления не требуется ничего, кроме соотношения ь — 1 1 1_ (1— s) (ft + s)- l+s~ u-ps " В. Пусть 2 1 Докажите тогда, что 4 * /#/(*)=■ 2 ЛХ d — Jk' л- в* — е двумя способам;:: а) рассматривгп величины In | X | и In | Y | в обстановке предыдущей задачи; б) непосредственно при помощи подстановки e-y = t и разложения на элементарные дроби. (См. задачу 8 в гл. XV, 9.) 7. Если X имеет нормальную плотность и, то очевидно, что Х-а имеет устойчивую плотность (4.S). Используя *то, покажите, что если X и Y — независимые ноч.малыю распределенные величины с нулевым математическим ожиданием н дисперсиями о," и о2, то величина Z = X Y/j/'X'-f- Y2 нормально распределена с диспераи'й о*, такой, что 1/аа = 1 /ai-j- 1/оа (Л. Шепп). 8. Пусть величины \и ..., Хя независимы и Х(и) — наибольшая среди них. Покажите, что если Ху имеют а) плотность Коши (4.5j, то Р{и-1Х(|11<х}—.-/'«*>, х>0; С) устойчивую плотность (4.8), то 0. Пусть величины X и Y независимы с плотностями / и д, сосредоточенными на 0,оо Р.елп Е (X) < оо, то отношение X/Y имеет конечное мате- нигнчсског ожидание тогда и только тогда, когда 1 1 й (У) dU < <»■ G 10. В примере 5, в) найдите плотность распределения времени ожидания следующей разгрузки: а) если в момент 0 система обслуживания свободна; б) в условиях стационарного состояния. П. В условиях примера 5, г) покажите, что 1-х Е (ТJ = F (а) (11+1-а) -Ь J tf{l + О dt, о где [L есть математическое ожидание F. Используя это, проверьте утверждение относительно Е (Т), когда а; распределено равномерно. 12. В примере 5, г) найдите распределение времени ожидания, когда /(0 = 1 Для 0 < / < 1. 13. В примере 6, в) предположим, что и. есть бега-плотпость, определенная в (4.2). Выразите условную вероятность (6.3) через биномиальные коэффициенты. 14. Пусть X и Y независимы и подчинены распределению Пуассона с од-
$ 9. Задачи «3 ним и тем же параметром: Р{Х=л}=е-'*п/л!. Покажите, что P{X-Y = r} = e-"/,,|(2/), г = 0. ±1, ±2 [См. задачу 9 гл. V, П.] 15. Результаты § 7, в) остаются справедливыми для несимметричных случайных блуждании при условии, что вероятность первого прохождения через т > 0 равна единице, т.е. при условии p^q. Покажите, что единственное изменение в (7 II) состоит тогда в том, что 2~гп+г заменяется на p"q"~r, a вывод таков: при pZ&q и г == 1, 2, ... определяет плотность вероятности, сосредоточенную на 0, оо. 16. Пусть X и Y — независимые случайные гел;:ч:1ны, а °Х и °Y те же величины, приведенные по модулю 1. Покажите, что величина X-J-Y приводится по модулю I к °X-j-°Y. Непосредственным вычислением проверьте соответствующую формулу для сверток.
ГЛАВА III МНОГОМЕРНЫЕ ПЛОТНОСТИ. НОРМАЛЬНЫЕ ПЛОТНОСТИ И ПРОЦЕССЫ По понятным причинам многомерные распределения встречаются реже, чем одномерные распределения, и материал этой главы почти не будет играть роли в последующих главах. С другой стороны, глава содержит важный материал, например известную характеризацию нормального распределения и методы, применяемые в теории случайных процессов. Истинная природа этих методов становится более понятной, если отделить их от усложненных задач, с которыми они иногда связываются. § 1. ПЛОТНОСТИ В ходе дальнейшего изложения будет очевидно, что число измерений несущественно, и лишь ради типографских удобств мы будем иметь дело с декартовой плоскостью Э12. Мы связываем с плоскостью фиксированную систему координат с координатными величинами X,, Х2 (Более удобное однобуквенное обозначение будет введено в § 5). Неотрицательная интегрируемая функция /, заданная в 54' и такая, что ее интеграл равен единице, называется плотностью вероятности или просто плотностью. (Все плотности, встречающиеся в этой главе, кусочно-непрерывны, и поэтому их интегрируемость не требует разъяснений.) Плотность / приписывает области Q Еероятность p(Q)=55/(x1, x2)dXldx2 (l.i) а при условии, конечно, что область fi достаточно регулярна для того, >тобы интеграл существовал. Все такие вероятности однозначно определяются через вероятности, соответствующие прямоугольникам, параллельным осям, т. е. ft, ft. Р {а, <*,<&„ a,<X,<ftI} = 5S/(x1-1 x2)dXldx2 (1.2) о, а, при всех комбинациях о,- < Ь,-. Полагая а1 = а2 = —оо, мы получим функцию распределения F, а именно F(xlt x!) = P{X1<xi, Хя<х2}. (1.3)
§ 1. Плотности 85 Очевидно, что F (b1, х2) —/7(а1, хг) представляет собой вероятность, соответствующую полубесконечной полосе шириной Ь1—а0 и так как прямоугольник в (1.2) выражается разностью двух таких полос, то вероятность (1.2) равна так называемой смешанной разности F(blt bt) — F(alt b2)-F(blt аг) + Р(аи а,). Отсюда следует, что по функции распределения F однозначно определяются все вероятности (1.1). Несмотря на формальную аналогию с прямой линией, понятие функции распределения на плоскости гораздо менее полезно, поэтому лучше сосредоточиться на задании вероятностей (1.1) в терминах плотности. Это задание отличается от совместного распределения вероятностей двух дискретных случайных величин (I, гл. IX, 1) в двух отношениях. Во-первых, суммирование заменено интегрированием, и, во-вторых, вероятности теперь приписываются лишь «достаточно регулярным областям», тогда как в дискретных выборочных пространствах всем множествам соответствовали вероятности. Так как в настоящей главе рассматриваются простые примеры, в которых это различие едва уловимо, понятия и термины дискретной теории переносятся на новый случай в понятной форме. Так же как и в предыдущих главах, мы используем поэтому вероятностный язык без всякой попытки привлечения общей теории (которая будет изложена в гл. V). t Из (1.3) очевидно, что1) P\Xi^x1\ = F(xl, оо). (1.4) Таким образом, F, (.к) ■■ F (х, оо) определяет функцию распределения величины Xlt а ее плотность f1 равна + 00 txi*)=\f%y)dy. (1.5) — 00 Если желательно подчеркнуть связь между X, и парой (Xit X2), мы говорим об F, как о маргинальном (частном) распределении") и об /, как о маргинальной (частной) плотности. Математическое ожидание ^ и дисперсия а\ величины X,-, если они существуют, даются следующими формулами: + я +■ ц1 = Е(Х1)= J J xj(xi,xt)dxldxt (1.6) 1) Здесь и в дальнейшем U (оо) = lim U (*) при х—► оо, и использование символа U (оо) подразумевает существование предела. ') Другой принятый термин: проекция на ось.
86 Га. 111. Многомерны* плотности. Нормальные плотности и процессы И + ИИ + ЕВ a? = Var(X1)- J 5 (*.-M.)7(*i. *.)«М*.- (1.7) - В -и По симметрии эти определения применимы также и к X,. Наконец, коаариация X, и X, равна Cov(X„ X,)= J J (*i —Hx)(*i —H«)/(*i. xJdXidx,. (1.8) - НО — ЕГ Нормированные величины X,oyJ безразмерны, и их ковариация, я именно p = Cov(X1, XJaf'a.^1, есть коэффициент корреляции Х1 и X, (см! 1, гл. IX, 8). Случайная величина L — это функция координатных величин X, и X,; здесь мы снова рассматриваем только такие функции, что вероятности PjU^/f могут быть выражены интегралами вида (1.1). Таким образом, каждая случайная величина будет иметь единственную функцию распределения, каждая пара будет иметь совместное распределение и т. д. Во многих ситуациях выгодно переменить координатные величины, т. е. приписать величинам Ylt Y, роль, ранее предназначенную для X,, X,. В простейшем случае величины Yy определяются линейным преобразованием X^a^Y.-r-^Y, Х, = 0а1У,+а=аУа (1.9) с детерминантом Д = о11я1, — а12а.п>0. Обычно преобразование вида (1.9) можно описать пли как отображение одной плоскости на другую, или как изменение координат в той же самой плоскости. Производя замену переменных (1.9) в интеграле (1.1), мы получаем где область Q# содержит все точки (ylt уг), образ которых (лг,, лг,) принадлежит Q. Так как события (X,, Хг,)ей и (V|, Y,)G^x- идентичны, ясно, что совместная платность (YjY,) равна 8(Уч 0|) = /(в11.у,+вх1011 Оц^ + вн^-Д. (1.11) Bi:e это в равной степени справедливо и при большем числе измерений. Подобные аргументы применимы к более общим преобразованиям с той лишь разницей, что детерминант А заменяется якобианом. Мы будем использовать явно только переход к полярным координатам X1 = Rcos0, X, = Rsine, (1.12)
§ I. Плотности 87 где пара случайных величин (R, Э) ограничена условиями R ^ О, •^л<0^л. Плотность пары (R, в) равна g(r, G)=/(rcos0, r sin 0) г. (1.13) В пространстве трех измерений используются географические долгота ф и широта Qf—л<ф^л и ——л^0^4-я)- Тогда координатные величины выражаются в полярной системе следующим образом: X1 = RcosOcos0, X2 = RsinOcos0, X3 = Rsin8. (1.14) Их совместная плотность записывается как В (г, ф, 0) — f(r соэф cos 0, г sin ф cos 0, г sin 0) г3 cos G. (1.15) При преобразовании (1.14) «плоскости» 0= ^ п и 0= у л соответствуют полуосям оси А'3, но эта вырожденность не играет роли, так как эти полуоси имеют нулевую вероятность. Аналогичное замечание можно сделать и в отношении начала координат для полярной системы на плоскости. Примеры, а) Независимые случайные величины. В предыдущих главах мы рассматривали независимые случайные величины Xj и \г с плотностями fi и /,. Это равносильно определению двумерной плотности равенством f(xlt x1) = fl (xj fs (хг), где /,■ —маргинальные плотности. б) «Случайный выбор». Пусть Г —ограниченная область; предположим для простоты, что Г — выпуклая область. Обозначим площадь Г через у. Пусть теперь функция / равна у-1 внутри Г и 0 вне Г. Тогда / является плотностью, и вероятность, соответствующая любой области fie Г, равна отношению площадей й и Г. По очевидной аналогии с одномерным случаем мы будем говорить, что пара (Xt, X,) распределена разномерно в Г. Маргинальная плотность Xj в точке с абсциссой xf равна ширине области Г в этой точке в очевидном смысле этого слова. (См. задачу 1.) в) Равномерное распределение на сфере. Единичная сфера Z в пространстве трех измерений может быть описана при помощи географических долготы ф и широты 0 равенствами Х1 = СОЭфСО5 0, Хг = 51ПфСО5 0, Х3 = S1H 0. (1.16) Каждой паре (ф, 0), такой, что — л < ф <! л, — -j- л < 0 < -i- л, соответствует здесь ровно одна точка на сфере, и каждую точку IE, исключая полюса, можно получить таким путем. Исключительность полюсов не должна нас беспокоить, так как им соответствует нулевая вероятность. Область R на сфере определяется своим образом на (ф, 0)-плоскости, и, следовательно, площадь Q равна интегралу от cos0dфrfG по этому образу [см. (1.15)]. Для
88 Гл. 11Т. Многомерные плотности. Нормальные плотности и процессы описания мысленного эксперимента, заключающегося в «случайном выборе точки на 2», мы должны положить 4лР (П) = площадь Q. Это эквивалентно определению в (ср, 9)-плоскости плотности в(ф. Щ -L-cose при —п<ф<п, |Q|<4-n. (1 17) О при других ф и 6. При таком определении координатные величины независимы и дол- 1 гота распределена равномерно на —л, л. Идея перехода от сферы 2 к (ф, 6)-плоскости хорошо знакома нам по географическим картам и полезна для теории вероятностей. Заметим, однако, что координатные величины в значительной степени произвольны и их математические ожидания и дисперсии ничего не значат для первоначального мысленного эксперимента. г) Двумерная нормальная плотность. Многомерные нормальные плотности будут введены более систематично в § 6. Оправдание преждевременному появлению двумерного случая в том, что тем самым обеспечивается более легкий подход к нему в дальнейшем. По очевидной аналогии с нормальной плотностью п из II, (1.6), можно записать плотность вида се"»'*!'*!1, где q(xit х,) = = aixj + 2bx1xa-f-a,^. Нетрудно видеть, что функция е~ч будет интегрируемой тогда и только тогда, когда atat—6а > 0 и а,, а, > 0. Для целей теории вероятностей предпочтительнее выразить коэффициенты а,- и Ь в терминах дисперсий и определить двумерную нормальную плотность, центрированную в начале координат как 2jiOi(ja у 1—р2 !г-2Р- 2(1-рг)^о! ^о, ■ „J (1.18) где а, > 0, а2 > 0 и —1<р<1. Интегрирование по х, легко выполняется с помощью подстановки t— —-—р— (дополнение до полного квадрата). Видно, что ф действительно представляет плотность в Яг. Кроме того, становится очевидным то, что маргинальные распределения Xj и Ха снова нормальны *) и что li (Х/) = 0, Var(X,)=aj, Cov (Xf, X2) = pa1a2. Иными словами, р есть коэффициент корреляции X,- и Х4. Заменяя xi на xl—ci 1) Вопреки широко распространенному мнению существуют не являющиеся нормальными двумерные плотности с нормальными маргинальными плотностями (два типа описаны в задачах 2, 3, еще два — в задачах 5 и 7 из гл. V, 12). Для того чтобы иметь дело с нормальными плотностями, статистики иногда вводят новые координатные величины Yi=gi (XJ, Y2 = ga(XI), которые распределены нормально. При этом, увы, совместное распределение (Ylt YJ не является нормальным.
§ t. Плотности 89 в (1.18), мы приходим к нормальной плотности, центрированной в точке (cit са). Важно то, что линейное преобразование (1.9) переводит нормальное распределение в другое нормальное распределение. Это очевидно из определения и формулы (1.11). [Продолжение см. в примере 2, а).] д) Симметричное распределение Коши в Яг. Положим Чтобы удостовериться, что это есть плотность, заметим'), что ■ 1 1 J «(*» У)*У=;Ь-тЬ 1+х$ у1+х* + ущ п 1 +xi T-d-20) Отсюда следует, что и является плотностью и что маргинальная плотность Xi не что иное, как плотность Коши уг из гл. II, (4.5). Очевидно, что величина X, не имеет математического ожидания. При переходе к полярным координатам [как в (1.12)] видим, что плотность R не зависит от 9, и поэтому величины R и в стохастически независимы. Следуя терминологии гл. I, 10, мы можем тогда сказать, что имеющая симметричное распределение Коши пара (X,, Х2) изображает вектор со случайно выбранным направлением длины R, плотность которой равна г j/^l +гг)~*, откуда PJR ^ г) == 1 —У(\ +г!)~1. [Продолжение в примере 2, в).] е) Симметричное распределение Коши в ЭР. Положим р(*п *г. *.) = -^г- . , »' * , i.,. (1.21) Легко видеть2), что маргинальная плотность {Хи Хв) является симметричной плотностью Коши и из (1.19). Маргинальная плотность Ху есть поэтому плотность Коши yt. (Продолжение в задаче 5.) ^ Хотя это и не используется явно в последующем, но мы должны отметить, что свертки можно определить так же, как и в одномерном случае. Рассмотрим две пары (Xlt X2) и (Y„ Y,) с совместными плотностями / и g соответственно. Утверждение о том, что две пары независимы, означает, что мы берем четырехмерное пространство с четырьмя координатными величинами Xj, X], Yt, Ya в качестве выборочного пространства и определяем в нем плотность произведением f(xlt xa,)g(</i, y2)- Так же как *) Подстановка y=V l+*i tgt облегчает вычисление. 2) Используя подстановку
90 Гл. III. Многомерные плотности. Нормальные плотности и процессы в 541, тогда легко видеть, что совместная плотность v суммы (Xi + Yj, X2-f Y2) задается формулой свертки ~ 00 + (Я »0*i. гг)= S 5 fi'i — xt, Zi—xjgfa, х^йх,йхг, (1-22) — 3D — X которая является очевидным аналогом формулы гл. 1,(2.12). (См. задачи 15—17.) § 2. УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ Предположим, что пара (X,-, Х2) имеет непрерывную плотность / и что маргинальная плотность f1 величины X, строго положительна. Рассмотрим условную вероятность события Хг^т] при условии, что ^<X1s^|-f^, а именно J dx J / [х, у) dy Р{Х,<л16<Х1<Б + Л} = -^-Г^ ■ (2.1) J /i W dx Деля числитель и знаменатель на h, устанавливаем, что при/i—► —»-0 правая часть стремится к ^(■п) = 7Пв I nt у^у- (22> — OS При фиксированном £ это функция распределения по t] с плотностью ui[i\) = J±5f& л). (2-3) Мы называем и*, условной плотностью величины X, при условии, что Xt —^. Условное математическое ожидание Х2 n/зи условии, что Xj = £, определяется как E(XS|XI = £) = ^ J tfg, tfrfj, (2.4) — OD в предположении, что интеграл сходится абсолютно. Если рассматривать £ как переменную величину, то правая часть есть функция от £. В частности, отождествляя £ с координатной величиной Xit получим случайную величину, называемую р.грсссиеи Х2 на Xf и обозначаемую E(X2[Xj). Присутствие Х2 не должно затемнять тот факт, что эта случайная величина является функцией одной переменной Xi [ее значения даются формулой (2.4)]. До сих пор мы предполагали, что ft (£) > 0 для всех £. Выра-
§ 2. Условные распределения 91 женне (2.4) не имеет смысла при /,(Е) = 0, но множество таких точек имеет вероятность нуль, и мы условимся интерпретировать (2.4) как нуль во всех точках, где /j обращается в нуль. Тогда Е(ХЯ|Х1) определено всякий раз, когда плотность непрерывна. (В гл. V.9 —11, условные вероятности будут введены для произвольных распределений.) Излишне говорить, что регрессия Е (Xj | Хг) величины Х± на Ха определяется подобным же образом. Кроме того, условная дисперсия Var (X, | X,) определяется по очевидной аналогии с (2.4). Эти определения переносятся на случаи большего числа измерений, за тем исключением, что плотность в Ж' порождает три двумерные и три одномерные условные плотности. (См. задачу 6.) Примеры, а) Нормальная плотность. Для плотности (1.18), очевидно, имеем ,, I г (»--ао' 1 К 2л (l-pz)oj L 2{l-p-)o, J (2.5) что представляет собой нормальную плотность с математическим ожиданием р—£ и дисперсией (1—p'Jtfj. Таким образом, E(Xl|X1) = pgxil Var(X,|XI) = (l-p«)aJ. (2.6) Одним из приятных свойств нормального распределения является то, что регрессия — линейные функции. Возможно, самым ранним применением этих соотношений мы обязаны Гйльтону, и одним из его примеров можно проиллюстрировать их эмпирическое значение. Предположим, что Х^ и X, характеризуют рост (измеренный по отклонению от среднего в дюймах) соответственно отцов и сыновей в некоторой популяции. Рост случайно выбранного сына есть тогда нормальная случайная величина с математическим ожиданием 0 и с дисперсией о]. Однако в подпопуляции сыновей, отцы которых имеют фиксированный рост I, рост сыновей представляется нормальной величиной с математическим ожиданием р —g и дисперсией аЦ1—р2) < а]. Таким образом, регрессия Х2 на Xj показывает, как много статистической информации относительно Х2 содержится в наблюдении над Х:. б) Пусть случайные величины X, и Х2 независимы и равномерно распределены на 0, 1. Обозначим через Х(1) и Х|2) соответственно наименьшую и наибольшую среди этих величин. Пара (Х(1), Х(г)) имеет плотность, которая тождественно равна 2 внутри треугольной области 0 <! л:, <! х2 ^С 1 и раина 0 во всех других точках плоскости. Интегрируя по переменной хг, выводим, что маргинальная плотность Х(1) есть 2(1—xj. Плотность условного
92 Гл. 111. Многомгрные плотности. Нормальные плотности и процессы распределения Х,„ при условии, что Х(1-, = х1-, равна, следовательно, постоянной 1/(1—х,) внутри интервала х1ч 1 и равна нулю вне этого интервала. Иными словами, при условии, что Х(1-, принимает значение *,, случайная величина Х(2) равномерно распределена на xlt 1. в) Распределение Коши в Я2. Для двумерной плотности (1.19) маргинальная плотность Xt задается формулой (1.20), и поэтому условная плотность X, при данном Xf равна и1{у) = ~- - 1 + £Д (2.7) Заметим, что U| отличается от плотности ив (у) только масштабным множителем j/l -f-£", и поэтому все плотности uj принадлежат одному и тому же типу. Условных математических ожиданий в этом примере не существует. (См. задачу 6.) ^ В терминах условных плотностей (2.3) функция распределения величины X, принимает вид У +0D Р{Ха<0}= J J «s(T])-ME)dE*l. (2-8) — 00 —0D Иными словами, распределение Х2 получается посредством рандомизации параметра Ё в условных плотностях uj, и поэтому каждое1) распределение может быть представлено в виде смеси. Несмотря на эту теоретическую универсальность, имеется большое различие в положении «ударения». В некоторых ситуациях, таких, как в примере а), начальным является двумерное распределение для (Х,, Х2), а затем выводятся условные распределения, тогда как при истинной рандомизации условные вероятности их являются исходным понятием и плотность f[x, у) фактически определяется как их(у)ft(x). (Эта процедура определения вероятностен в терминах условных вероятностей объяснялась элементарным путем в 1; гл. V, 2.) § 3. ВОЗВРАЩЕНИЕ К ПОКАЗАТЕЛЬНОМУ И РАВНОМЕРНОМУ РАСПРЕДЕЛЕНИЯМ Задача этого параграфа в том, чтобы дать примеры-иллюстрации к предыдущим параграфам и в то же время дополнить теорию первой главы. Примеры, а) Характеристическое свойство показательного распределения. Пусть Хх и X,—две независимые случайные величины с плотностями /t и /,. Обозначим плотность их суммы S =: *) Мы рассматривали до сих пор непрерывные плотности. Общий случай будет разобран в гл. V, 9, Понятие рандомизации обсуждалось в гл. 11,5,
§ 3. Показательное и равномерное распределение 93 = Х] + Ха через g. Пары (Xj, S) и (Xif X,) связаны лирейным преобразованием Х^Х,, X3 = S—Xt с детерминантом i, и совместная плотность пары (X,, S) по формуле (1.11) равна! (я) X x/2(s—х). Интегрируя по всем х, мы получаем маргинальную плотность g суммы S. Условная плотность us величины Хг при условии, что S = s, удовлетворяет соотношению «*,(*) = fl{x)f\{*-x) . (3.1) JW g(S) V ' Для частного случая показательных плотностей f1(x) = fi(x) = ~ ае~ах (х > 0) мы получаем us(x) = s~l при 0<*<s. Иными словами, при условии, что X1-\-XI==s, случайная величина Xt распределена равномерно на интервале 0, s. Образно говоря, знание того, что S = s, не дает нам никакой информации о возможном положении случайной точки Xj внутри интервала 0, s. Этот результат согласуется с представлением о полной случайности, свойственной показательному распределению. (Более сильный вариант содержится в примере г). См. также задачу 12.) б) Случайные разбиения интервала. Пусть Х1 Х„ — п точек выбранных независимо и наудачу в (одномерном) интервале 0, 1. Как и прежде, мы обозначим через Х(1), Х(21, ..., Х|л| случаные точки X,, ..., Хп, расположенные в возрастающем порядке. Эти точки делят интервал 0, 1 на п + 1 подынтервалов, которые мы обозначим /,-, /а, ..., /п+1, пронумеровав их слева направо, так что Х(/, является правым концом интервала /у. В первую очередь мы вычислим совместную плотность (Х(1), ... ■ ■ ■■ К<п>)- Выборочное пространство, соответствующее (Xj X„), представляет «-мерный гиперкуб Г; 0<*ft<l, а вероятности равны («-мерному) объему. Естественное выборочное пространство, где где Х{к)—координатные величины, есть подмножество QcT, состоящее из всех точек, таких, что 0 <х1 ^.. .^х„ < 1. Объем Q равен 1/и1 Очевидно, что гиперкуб Г содержит п! конгруэнтных «копий» множества Й, и в каждой из них упорядоченная строка (Хи), ..., Х(„, совпадает с фиксированной перестановкой величин X, Х„. (Внутри Г, в частности, X(i) = XA.) Вероятность того, что Х, = Хк для некоторой пары j=£k, равна нулю, а только это событие вызывает перекрытия между различными «копиями». Отсюда следует, что для любого подмножества AcQ вероятность того, что (ХП), .... Х(н)) принадлежит А, равна вероятности того, что (Xj Х„) принадлежит одной из «1 «копий» А, а эта вероятность в свою очередь равна умноженному на п\ объему А. Таким образом, вероятность Р{(Х(1), ... ..., Х1п))£Л} равна отношению объемов А и й, а это означает, что строка (Хш, ..., Х1п)) распределена равномерно на мно-
94 Гл. III. Многомерные плотности. Нормальны* тотностп ч пгоигггы жестве П. Совместная плотность величин этой строки раЕна н1 внутри fi и нулю вне Q. Из совместной плотности (Х(1), .. , Хы), предполагая хк фиксированным и интегрируя по всем оставшимся переменным, можно вычислить плотность X(ft). Легко видеть, что этот результат согласуется с формулой для плотности, вычисленной другими методами в гл. I, (7.3). Этот пример был рассмотрен детально в качестве упражнения в обращении с многомерными плотностями. к) Распределение длин. В обстановке предыдущего примера обозначим длину А-го интервала //; через Ид. Тогда Ui = X(n, U* = X(t>-Xl4_n A = 2, 3 п. (3.2) Это не что иное, как линейное преобразование типа (1.9) с детерминантом 1. Множество Q точек 0 < xt ^. . . ^ хп < 1 отображается в множество Q* таких точек, что iij ^ 0, иг + . .. -j-i/H < < 1, и, следовательно, строка (Их UJ распределена равномерно в этой области. Этот результат сильнее ранее установленного факта, что величины \Jk одинаково распределены [пример 7,6) из гл. I и задача 13 из гл. IJ. г) Еще раз о случайности показательного распределения. Пусть Xj Хя+( независимы и одинаково распределены с плотностью ае~ах при х > 0. Положим S/ = Xl+ .. . +\f-. Тогда строка (Slt S2, ..., SH+1) получается из (X,, ..., Хя+]) линейным преобразованием типа (1.9) с детерминантом 1. Обозначим через П «октант», состоящий из точек xf > 0 (/ = 1 п-\-1). Плотность (Хх, ... ..., Хя+1) сосредоточена на Q и равна если х,у>0. Величины SX, ..., Sn+i отображают Q на область Q#, определяемую неравенствами 0 < st^ s2^.. .^sn+, < ao, и [см. (1.П)] внутри fi* плотность (Sj S„.fl) равна а"+1е_И1п+'. Маргинальная плотность Sn+1 есть не что иное, как гамма-плотность an+1s"e~a'/n\, и, следовательно, условная плотность строки (Sl S„) при условии, что S„+, = s, равна п\ s~n при 0< <s,<...<sB<s (и нулю в других случаях). Иными словами, при условии, что S,1+,=s, величины (S, S„) равномерно распределены в области их возможных значений. Сравнивая это с примером б), мы можем сказать, что при условии S,1+1=s величины (Sx, ..., S„) изображают п точек, выбранных независимой наудачу в интервале 0, s и занумерованных б их естественном порядке слева направо. д) Другое распределение, связанное с показательным. Имея в виду последующее неожиданное применение, мы дадим еще один пример преобразования. Пусть снова Х^ ..., X — независимые величины, имеющие одинаковое показательное распределение и Sn=^X1-f- . .. 4-Х,,. Определим величины Lt U„
§ 3. Показательное и равномерное распределения 95 следующим образом: Щ = ^ при А = 1 я—1. U„ = Sn, (3.3) или, что равносильно, Х*=и*ия при А = 1 «—1, „ Якобиан преобразования (3.4) равен U',1,-'. Совместная плотность (Xt X„) сосредоточена в области Q, определяемой неравенствами хк > 0, и внутри ее эта плотность равна a"e-0"*' +—+Jr"'. Отсюда следует, что совместная плотность (Lt, ..., UH) равна a"u;j_1e~a"" в области й*, определенной неравенствами и равна нулю вне Q*. Интегрирование относительно ип показывает, что совместная плотность (U,-, ..., U„_,) равна (п—1)! в Я# и нулю в других случаях. Сравнивая с примером в), мы видим, что (Up ..., Un_!) имеет такое же распределение, как если бы величина Uft была длиной k-го интервала при случайном разбиении интервала 0, 1 набором п—1 точек. е) Критерий значимости в анализе периодограмм и теорема о покрытии. Практически любая непрерывная функция времени t может быть приближена тригонометрическим полиномом. Если эта функция представляет собой выборочную функцию случайного процесса, то коэффициенты становятся случайными величинами и аппроксимирующий полином может быть записан з виде п л 2 (Xvcoscdv t -f Yvsincovf) = 5] Rvcos(g)v?—ф„), (3.5) v=l v=l где R? = XJ-f YJ и tg(pv = Yv/Xv. Обратно, разумные предположения относительно случайных величин Xv, Yv приводят к случайному процессу с выборочной функцией, задаваемой (3.5). В свое время было модным вводить модели такого рода и открывать «скрытую периодичность» для солнечных пятен, цен на пшеницу, поэтического творчества и т. д. Подобные скрытые периодичности отыскивали с такой же легкостью, как ведьм в средневековье. Но даже сильная вера должна быть подкреплена статистическим критерием. Грубо говоря, метод заключается в следующем. Тригонометрический полином вида (3.5) с как-то выГфаннымн частотами м,, . .., со,, сравнивается с некоторыми результатами наблюдении. Допустим, что при этом обнаруживается особенно большая амплитуда Rv. Желательно доказать, что это не может быть случайным и, следовательно, что cov — истинный период. Для проверки этого предположения выясним, правдоподобно ли совместить большое наблюденное значение Rv с гипотезой, что все п
9G Гл. III. Многомерные плотности. Нормальные плшности и процессы компонент играют одинаковую роль. В соответствии с этим предполагается, что коэффициенты Xj Yn взаимно независимы и имеют одинаковое нормальное распределение с нулевым математическим ожиданием и дисперсией а2. В этом случае (см. II, 3) величины Щ взаимно независимы и имеют одно и то же показательное распределение с математическим ожиданием 2оа. Если наблюденное значение R? «значимо» отклонилось от ожидаемого, то мы приходим к заключению, что гипотеза об одинаковой роли компонент была несостоятельна и R3 отражает «скрытую периодичность». Ошибочность этих соображений была раскрыта Р. А. Фишером (1929). Он отметил, что максимальный из результатов п независимых наблюдений не подчиняется тому же самому распределению вероятностей, которое имеет каждый из них в отдельности. Ошибка в такой статистической трактовке худшего случая, как будто он выбирался случайно, до сих пор распространена в медицинской статистике, но причиной обсуждения этого вопроса здесь является неожиданная и занятная звязь критерия значимости Фишера с теоремами о покрытии. Так как важны только отношения компонент, то мы нормируем коэффициенты, полагая V/= К*/' 4-R° ' '-1' "■'"• (3'6) Поскольку R/ имеют одно и то же показательное распределение, мы можем использовать предыдущий пример с Xy — R*. Тогда V^Uf V„_1-U11.,1 но V.-il —U,—...-U..,. Соответственно строка (Vj VJ распределена так, как если 6btVf были длинами п интервалов, на которые разбивается интерпал О, 1 при случайном расположении в нем п—1 точек. Вероятность того, что все \j будут меньше а, задается формулой гл. I, (9.9) теоремы о покрытии. Этот результат иллюстрирует факт неожиданных отношений между на первый взгляд не связанными задачами1). ► § 4*). ХАРАКТЕРИЗАЦИЯ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ Рассмотрим невырожденное линейное преобразование координатных величин Y.-ajxXx + aiiXg, Yk-auXt + fluX, (4.1) 1) Фишер получил распределение максимальной из величин \/ в 1929 г, без знания теоремы о покрытии, а в 1940 г. объяснил связь с теоремой о покрытии после того как Стивене доказал последнюю. [См. Fisher, Contributions to Mathematical Statistics, John Wiley, N. Y (1950), статьи 16 и 37.] Другой вывод, использующий анализ Фурье, см.: Grenander П., Rosenblatt M., (1957), •) Этот параграф затрашвает специальную тему и lit используется в Даль, нейшем.
§ 4. Характеризация нормального распределения 97 и допустим (не ограничивая общности), что детерминант Д = 1. Если Xt и Х2 — независимые нормально распределенные величины с дисперсиями а\ и а], то распределение пары (Уlt Y2) нормально с ковариацией aua3la* + a13ai3a] [см. пример 1, г)]. В этом случае существуют нетривиальные наборы коэффициентов а/к, такие, что Y; и Y, независимы. Следующая теорема показывает, что это свойство одномерного нормального распределения не разделяется никаким другим распределением. Мы докажем это только для распределений с непрерывными плотностями, в случае которых наше утверждение сводится к лемме относительно функционального уравнения (4.3). Более общий случай сводится (с использованием характеристических функций) к тому же самому уравнению. Поэтому наше доказательство фактически устанавливает теорему в ее наибольшей общности (см. гл. XV,8). Элементарное рассмотрение плотностей лучше раскрывает основную суть теоремы. Преобразование (4.1) имеет смысл лишь в том случае, когда коэффициенты а-к не обращаются в нуль. В самом деле, положим, например, ап = 0. Без ограничения общности мы можем выбрать масштабные параметры так, чтобы а12=1. Тогда Yt = X2 и, заглядывая вперед, из (4.4) получаем, что в этом случае Y, должно иметь ту же плотности распределения, что и X,. Иными словами, такое преобразование равнозначно простому переименованию случайных величин и потому не представляет никакого интереса. Теорема. Допустим, что Хх и Х2 независимы и что величины У1 и Y2 также не зависят одна от другой. Если ни один из коэффициентов а/к не равен нулю, то все четыре величины являются нормальными. Наиболее интересный частный случай (4.1) доставляется вращениями, т. е. преобразованиями вида Y1 = X1cosco + Xasincu, Y2 = — Xj sincii-f X2cos(o, где ш не кратно -j-"- Применяя теорему к подобным вращениям, мы получаем Следствие. Если Xt и Х2 — независимые случайные величины и существует вращение (4.2), такое, что Y, и Y„ также независимы, то Xj и Х2 имеют нормальные распределения с одинаковой дисперсией. В этом случае Yt и Y8 независимы при каждом со. Пример. Распределение Максвелла для скоростей. При изучении распределений скоростей молекул в Я3 Максвелл предполагал, что в любой декартовой системе координат три компоненты скорости являются независимыми случайными величинами с нулевым математическим ожиданием. Примененное к вращениям, оставляющим одну ось фиксированной, наше следствие непосредст- 4 № В4Я
9.S Гл. III. Многомерные плотности. Нормальные плотности и процессы венно показывает, что три компоненты нормально распределены с одинаковой дисперсией. Как мы видели в гл. 11,3, это влечет распределение Максвелла для скоростей. ^ Эта теорема имеет дтинную историю, восходящую к исследованиям Максвелла. Чисто вероятностное изучение было предпринято Л1. Кацем (1940) и С. Бернштенном (1941), который доказал наше следствие в предположении конечности дисперсий. Многие авторы вносили улучшения и исследовали варианты, иногда при помощи более сильных методов. Кульминации это разите достигло в результате, доказанном В. П. Скптозичем1). Перейдем к доказательству для случая непрерывных плотностей. Обозначим плотности Х^ через и-, а плотности Yy через fjt Положим для краткости y1 = anx, + alixi, yI = aI1x1 + fl„xl. (4.3) По условию теоремы имеем Atoi)Myi) = "i(*i)"i(*i)- (4-4) Покажем, что из соотношения (4.4) следует, что fj (У) = ± еФ>(и), и, (х) = ± euJ w, (4.5) где ф,(у) и Шу (х)— полиномы не выше второй степени. Единственными распределениями с плотностью такого вида являются нормальные распределения. Поэтому для распределений с непрерывными плотностями теорема содержится в следующей лемме. Лемма. Предположим, что четыре непрерывные функции fjt и «/I / = Ii 2, связаны функциональным уравнением (4.4) и что ни один из коэффициентов ajk не равен нулю. Тогда эти функции имеют вид (4.5), где показателями являются полиномы, степень которых не выше 2. (Предполагается, конечно, что ни одна из функций не равна тождественно нулю.) Доказательство. Вначале отметим, что ни одна из наших функций не имеет нулей. Действительно, в противном случае должна существовать на (xlt х2)-плоскости область Q, внутри которой обе части равенства (4.4) не имеют нулей и на границе которой они обращаются в нуль. Приравнивая обе части равенства (4.4) нулю, выводим, с одной стороны, что граница состоит из отрезков прямых, параллельных осям, с другой стороны, из отрезков, параллельных прямым уj = const. Это противоречие показывает, что такая граница не существует. Мы можем таким образом считать наши функции строго поло- ») Изп. АН СССР, т. IS (105-i), стр. 183—220. Теорема. Пусть X,-, ... ..., Х„ взаимно независимы, У] = ^Гп,Х,- и Y2 = 5]6,X,-, где ни один коэффициент не равен нулю. Если Yj и Y2 независимы, то величины X,- распределены нормально,
§ 5. Матричные обозначения. Ковариационная матрица ОТ жительными. Переходя к логарифмам, перепишем (4.4) в виде Фх (0i) + фа (02) =-«0i W +ша (хг). (4.6) Определим при любых фиксированных /i, и h2 смешанный разностный оператор Д равенством Au(Xi, x2) = w(xI+/i„ А-,+Ла) — wfo+A,-, x2— Л,) — —«(*!—Лх, x. + ZiJ + t/Jx,—/ii, x2—Л,). (4.7) Так как каждая функция Шу зависит только от одной переменной Ху, то отсюда следует, что Дшу = 0. Имеем Лфх Ы = Фх (01 + *i)—Фх (0i +1*)—Фх (01—'i) + Фх (01—'х). (4-8) где для краткости введены 'i = aix'lx + axi'i,. ti = alxhl—al^v (4.9) Таким образом, имеем Дф^Дфг —0. где фу зависит только от переменной yt. При фиксированном ;/, очевидно, что Дфх (^,) есть постоянная, зависящая только от hx и h2. Выберем теперь Л\ и Л, так, что /j = / и /г = 0, где / произвольно, но фиксированно. Тогда соотношение Дер, = const примет вид Фх(». + 0 + Фх^-0-2Фх(4У,) = Л(0- (4-Ю) Вблизи точки уи где функция ф, принимает минимальное значение, левая часть (4.10) не меньше нуля. Следовательно, такгя точка ул существует только в том случае, если \(?)^0 при всех t из некоторой окрестности нуля. Но в таком случае фх не может иметь максимальное значение. Далее, непрерывная функция, обращающаяся в нуль в трех точках, принимает как максимальное, так и минимальное значение. Мы выводим, что если непрерывное решение соотношения (4.10) равно нулю в трех различных точках, то оно равно нулю тождественно. Каждый квадратный полином q (у,) = а.у\ + Рух + Y удовлетворяет уравнению вида (4.10) (с другой правой частью), и, следовательно, то же справедливо для разности ф, (yj—ц(.у^- Но q можно выбрать так, что эта разность будет равна нулю в трех точках и тогда фх {ух) совпадает с q. Те же рассуждения применимы к фг, и этим доказывается утверждение относительно f± и /,. Так как случайные величины Ху и Yy играют одинаковую роль, то те же аргументы применимы к плотностям Uj. ^ § 5. МАТРИЧНЫЕ ОБОЗНАЧЕНИЯ. КОВАРИАЦИОННАЯ МАТРИЦА Обозначения, использованные в § 1, громоздки и становятся еще более громоздкими в случае большего числа измерений. Изящества и экономии можно достичь при использовании матричной системы обозначений. 4*
100 Гл. III. Многомерные плотности. Нормальные плотности и процессы Чтобы облегчить ссылки, мы кратко изложим немногие факты из теории матриц и матричных обозначений, нужные в дальнейшем. Основное пранило такопо: сначала строки, затем столбцы. Таким образом, (а>;Р)-.чатрица А имеет а строк и Р столбцов; ее элементы обозначаются иуц, при этом первый индекс указыниет строку. Если В есть ({3;<у)-матрица с элементами йуд, то произведение АВ представляет собой (осХ'У)"матР,,ЦУ с элементами oyi&u+ + Bjif>iit~\- ■ ■ • rOjab^tf Если число столбцов матрицы А не совпадает с числом строк матрицы В, то произведение не определено. Выполняется ассоциативный закон (АВ)С=А(ВС), хотя, вообще говоря, АВфВА. Транспонированная матрица АТ есть (Вхос)-матрица с элементами аГ* = оь/. Очевидно, что {АВ)Т = ВТАТ. ' ' (1 Ха)-матрица с единственной строкой называете» вектор-строкой, а матрица с единственным столбцом — вектор-столбцом1'. Вектор-строка г = = (^i га) легко изображается при печати, а вектор-столбец лучше определять результатом его транспонирования сТ = (с1 са). Заметим, что ст есть [аха.)-мотрица (типа «таблицы умножения»), в то время кок гс есть (\у.\)-матрица, или скаляр. В случае а = 2 сг = [ , rc=(riC! + r2c2). \С|Г1 Сггг/ Нулевой вектор имеет нулевые компоненты. Матрицы с одинаковым числом строк и столбцов называются квадратными матрицами. Для каждой квадратной матрицы А определяется ее детерминонт (определитель), который будет обозначаться через | А |. Для наших целей достаточно знать, что детерминанты обладают свойством мультипликативности: если А и В — две квадратные матрицы нС = ЛД,то | С | = | А |-| В |. Матрица А и транспонированная матрица АТ имеют один и тот же детерминант. Под единичной матрицей подразумевается квадратная матрица с единицами по главной диагонали и с нулями на всех остальных местах. Если / — единичная матрица с г строками и г столбцами и Л—любая (гх.г)-матрнца, то очевидно, что /А = А/ = А. Матрицей, обратной для А, называется матрица А-1, такая, что АА~1 = А~ХА = /. [Только квадратные матрицы могут иметь обратные. Обратная матрица единственна: так, если В—любая обратная матрица для А, то АВ = / и по ассоциативному закону А-1 = {А~1А)В = В.] Квадратная матрица, не имеющая обратной, называется вырожденной. Из мультипликативного свойства детерминантов следует, что матрица, имеющая нулевой детерминант, вырождена. Справедливо также и обратное: если | А \ ф 0, то матрица А невырождена. Иными словами, матрица А является вырожденной тогда и только тогда, когда существует ненулевая вектор-строка х, та- хая, что хА = 0. Квадратная матрица А симметрична, если 0/^ = 0*/, т. е. если АТ=А. Квадратичная форма, соответствующая симметричной {гхг)-матрице А, определяется как г хАхТ= J] ajhxj*k. I. *=i где *!,..., хт являются переменными. Матрица называется положительно определенной, если хАхТ > 0 для всех ненулевых векторов jc. Из последнего критерия следует, что положительно определенная матрица нсвырождена. Вращения в 54™. Для полноты мы кратко коснемся одного геометрического приложения матричного анализа, хотя это и не будет использовано в дальнейшем. 11 На самом деле это — злоупотребление языком. В конкретном случае х± может означать количество фунтов, а х2—число коров; тогда (дгь х2) не является «сектором» в строгом смысле.
§ 5. Матричные обозначения. Ковариационная матрица 101 Скалярным (внутренним) произведением двух векторов-строк * = (*i, ■■■, ха) и у=[уи .,., уа) называется величина а xyT = yxT = Yl *jyj- / = i Длина L вектора х определяется из равенства L2 = xxT. Для Еекторов х и у единичной длины угол б между ними определяется величиной cosfi = .v.yr. Любая (аха)-матрица А индуцирует преобразование, переводящее х в £ = х<4; для транспонированной матрицы х преобразуется в ^Т=АТхТ. Матрица А называется ортогональной, если индуцированное ею преобразование сохраняет длины и углы, иначе говоря, если любые два вектора-строки имеют то же самое скалярное произведение, что и их образы при преобразовании. Таким образом, матрица А ортогональна тогда и только тогда, когда для любой пары векторов-строк х, у хААТуТ = хуТ. Отсюда следует, что ААТ есть единичная матрица / (в этом можно убедиться, выбирая в качестве х \\ у векторы с а—1 компонентами, равными нулю). Таким образом, мы пришли к заключению, что А ортогональна тогда и только тогда, когда ААТ = 1. Поскольку А и А1' имеют один и тот же детерминант, то этот детерминант равен -fl или —1. Ортогональная матрица с детерминантом 1 называется матрицей вращения, а индуцируемое ею преобразование — вращением. Отныне мы будем обозначать точку п-мерного пространства Яг одной буквой, интерпретируя ее как вектор-строку. Таким образом, х = (х1 хг) и f[x)=f(x1 хг) и т. д. Неравенства должны интерпретироваться покоординатно: х < у тогда и только тогда, когда хк<ук для А=1 г; аналогично и для других неравенств. На плоскости 0Лг соотношение х < у может быть прочитано как «х лежит юго-западнее £/». Новая особенность этого обозначения в том, что две точки не обязаны состоять в одном из двух соотношений: либо х^.у, либо у < х, т. е в многомерном случае знак < определяет только частичное упорядочение. Мы вводим обозначение X = (Xj, ..., Хг) для вектора-строки из координатных величин и будем использовать это обозначение для случайных величин вообще (в основном для нормально распределенных величин). Если величины Х:, ..., \г имеют математические ожидания Е(Ху), то мы обозначим через Е(Х) вектор-строку с компонентами Е(ХУ). Вектор X — Е(Х) имеет нулевое математическое ожидание. Вообще, если М—матрица, элементы которой M/fc являются случайными величинами, мы обозначаем через Е(М) матрицу элементов Е(М/А) в предположении, что она существует. Определение. Если Е(Х) = 0, то ковариационная матрица Var(X) для X есть симметричная (гхг)-матрица с элементами Е(Х;-ХА) (при условии, что все они существуют). Иными словами, Var (X) = Е (ХГХ). (5.1) В случае произвольного X мы определим VагХ как Var (X—Е(Х)).
1Г-2 Гл. III. Многомерные п.ютнести. Нормо.иные плотности и процессы Использование векторов-строк неизбежно влечет за собой запись линейного преобразования £АГ в W в виде У = ХЛ, (5.2) т. е. г г/* = Х aJkxJt k = \, ..., т, (5.3) /=i где А— (г X /и)-матрнца. Очевидно, что Е(У) = Е(Х)Л всякий раз, когда Е (X) существует. Для того, чтобы найти дисперсии, мы положим, не ограничивая общности, что Е(Х) = 0. Тогда E(Y) = 0 и Е (YrY) = Е (АТ\Т\А) = АТЕ (ХГХ) А. (5.4) Мы получаем, таким образом, важный результат: Var(Y) = 4rVar(X) A. (5.5) Особый интерес представляет частный случай т = 1, когда Y=a1X1 + ...+fl,X, (5.6) есть обыкновенная случайная величина. Здесь Var(Y) — (скалярная) квадратичная форма: Var(Y) = 2 Е(Хрк)а,ак. (5.7) Линейная форма (5.6) равна нулю с вероятностью единица, если Var(Y) = 0, и в этом случае любая область за пределами гиперплоскости 5]°*** = 0 имеет вероятность нуль. Распределение вероятностен сосредоточено тогда на (г—1)-мерном многообразии и вырождено, если его рассматривать в г измерениях. Мы доказали, что ковариационная матрица любого невырожденного распределения вероятностей положительно определена. Обратно, каждая такая матрица может служить ковариационной матрицей нормальной плотности (см. теорему 4 следующего параграфа). § 6. НОРМАЛЬНЫЕ ПЛОТНОСТИ И РАСПРЕДЕЛЕНИЯ Всюду в этом параграфе Q обозначает симметричную (гхг)- латрицу, a q (х)— соответствующую ей квадратичную форму г <?W= 2 q/kXjXk = xQxT, (6.1) ;'. * = i где x = (Xf,..., хг) есть вектор-строка. Плотности в Яг, определенные как показательные функции с квадратичной формой в показателе, являются естественным обобщением нормальной плотности на прямой, и мы начнем поэтому с того, что введем следующее
§ 6. Нормальные плотности и распределения 103 Определение. Плотность ср в пространстве г измерений называется нормальной 1) (с центром в начале координат), если она представляется в виде Ф(х) = у-1-е"Т'(*\ (6-2) где у—некоторая постоянная. Нормальная плотность с центром в точке а = (а1% а2 аг) определяется как ср (х—а). Частный случай двух измерений обсуждался в примерах 1,г) и 2, а). Возьмем в качестве выборочного пространство 54г с вероятностным распределением (6.2) и обозначим через X = (Xi \г) вектор-строку, образованную координатными случайными величинами. Соответствующую ковариационную матрицу обозначим через М: M = Var(X) = E(XrX). (6.3) Наша задача состоит в исследовании матриц Q и М, а также связи между ними. Вначале заметим, что диагональные элементы Q не могут быть нулями. В самом деле, если бы мы имели qrr = 0, то при фиксированных значениях х1,..., xr_i плотность (6.2) имела бы вид y-ie~axr+ и интеграл от плотности по хг расходился бы. Введем теперь подстановку у = хА, определенную равенствами 0l = *i Уг-1 = хг-и Уг = Ч1г*1+---+ЧггХг- (6-4) Проверка показывает, что q (х) — yVqrr есть квадратичная форма от величин xlt . . ., xr_it но не от хг. Таким образом, q(x) = J-y? + q(y), (6.5) Чтт где q (у) — квадратичная форма от yt Уг-\- Отсюда следует, что вектор Y = \А имеет нормальную плотность, которая является произведением двух нормальных плотностей для случайных величин \г и (Yf 4r~i) соответственно. Первый полученный результат содержится в простой, но важной теореме. Теорема 1. Все маргинальные плотности нормальной плотности снова нормальны. Более неожиданный результат содержит Теорема 2. Существует матрица С с положительным детерминантом, такая, что Z = XC есть вектор-строка, чьи компоненты Zy суть взаимно независимые нормально распределенные случайные величины. Матрица С не единственна; в действительности теорема может 11 шВыроподенные» нормальные распределения будут введены в конце этого Пераграфа,
104 Гл. III. Многомерные плотности. Нормальные плотности и процессы быть усилена до утверждения, что в качестве С можно выбрать матрицу вращения (см. задачу 19). Доказательство. Используем индукцию. При г = 2 утверждение теоремы выводится непосредственно из представления (6.5). Если теорема справедлива в г—1 измерениях, то случайные величины Yp ..., Y,_i являются линейными комбинациями независимых нормальных величин Z,, ..-, Zr_lt тогда как случайная величина Y, сама распределена нормально и независимо от остальных величин. Поскольку \--\A~1, отсюда следует также, что величины Х^ являются линейными комбинациями Zj Zr_j и Yr. Детерминант матрицы А равен qrr и, как следует из (6.5), положителен. Детерминант преобразования X —• Z равен произведению детерминанта А и детерминанта преобразования Y —►Z и, следовательно, положителен. Теорема 3. Матрицы Q и М взаимно обратны и 72 = (2я)'-|М|, (6.6) где |M| = |Q|-1 есть детерминант М. Доказательство. В обозначениях предыдущей теоремы положим D = E(ZrZ) = CrMC. (6.7) Диагональные элементы этой матрицы равны E(Za) = a', а остальные элементы равны нулю. Плотность Z равна произведению нормальных плотностей п (хо^1) ст/"1 и, следовательно, порождается матрицей D~l с диагональными элементами оу2. Далее, плотность величины Z получается из плотности (6.2) величины X путем подстановки х = гС~1 и умножения на детерминант |С-1|. Таким образом zD~1zT = xQxT (6.8) и (2n)'|D| = v'-|C|*. (6.9) Из (6.8) видно, что Q = CD~1CT, (6.10) и отсюда с учетом (6.7) следует, что Q = M-1. Из (6.7) вытекает также, что |D[ = [M|-[C|' и, следовательно, (6.9) равносильно (6.6)^ ^ Из теоремы следует, в частности, что разложение для матрицы М соответствует аналогичному разложению для Q, и поэтому имеет место Следствие. Если (Хи Ха) имеет нормальное распределение, то Xj u X, независимы в том и только в том случае, когда Cov(Xi, Х,) = 0, т. е. когда Xj и X, некоррелированы. Вообще, если (Хи ..., X,) имеет нормальную плотность, то
§ 6. Нормальные плотности и распределения 105 (Xj Хл) и (Х„+1 Хг) независимы тогда и только тогда, когда Cov(X,-, ХА) = 0 при j^n, fe > п. Предостережение. Для справедливости следствия существенно то, что совместная плотность пары (X,, X.J нормальна. Следствие неприменимо, если известно только то, что маргинальные плотности Хг и Хг являются нормальными. В последнем случае плотность (\1, Хг) не обязана быть нормальной и в действительности даже не обязана существовать. Этот факт часто понимается неправильно (см. задачи 2, 3). Теорема 4. Матрица М представляет собой ковариационную матрицу нормальной плотности тогда и только тогда, когда она положительно определена. Поскольку плотность порождается матрицей Q = M~l, можно сформулировать эквивалентное утверждение: матрица 0_порождает нормальную плотность (6.2) тогда и только тогда, когда она положительно определена. Доказательство. Мы видели в конце § 5, что всякая ковариационная матрица нормальной плотности положительно определена. Обратное тривиально в случае г=1. К большим т мы перейдем по индукции. Предположим, что матрица Q положительно определенная. При х1 = 0 хГ_! = 0 мы получаем q(x) = qrrx"r и, следовательно, qTT > 0. При этом предположении, как мы видели, q можно привести к виду (6.5). Выбирая хт так, что уг = 0, мы видим, что положительная определенность Q влечет q (х) > 0 при всех наборах хх x,-i- Поэтому по предположению индукции q соответствует нормальной плотности в пространстве г—1 измерений. Из (6.5) теперь очевидным образом следует, что q соответствует нормальной плотности в пространстве г измерений, и этим завершается доказательство. ^ Мы закончим эту общую теорию интерпретацией (6.5) в терминах условных плотностей, которая приводит к общим формулировкам теории регрессии, разобранной для двумерного случая в примере 2, а). Положим для краткости ah = — Q)„lqTT, так, что Уг = Ягг (х.—а.х,— . .. — а,.^,.,). (6.11) Для вероятностной интерпретации коэффициентов ак мы вспомним, что Y, по построению не зависит от Хх, .. ., Хг_1. Иными словами, ак—такие числа, что T = Xr-fl1X1-...-fl,_iX,_i (6.12) не зависит от (X,-, ..., Хг-1), и это свойство однозначно характеризует коэффициенты ак. Чтобы найти условную плотность X,. для данных Хх = х^, .; * Ll.vi \-i^xr-v мы должны разделить плотность (Хи ..., Хг) на
106 Гл. III. Многомерные плотности. Нормальные плотности и процессы маргинальную плотность (Xlt . ., X,_j). Ввиду (6.5) мы получим показательную функцию с показателем —^уУ<1Гг- Отсюда следует, что условная плотность X, при данных Xt = *,, ..., X,_t = xr_1 есть нормальная плотность с математическим ожиданием а^-(-... . . . -\-ar_lxr_l и дисперсией \lqrr. Соответственно Е(Х,|Х, Х,_1) = о1Х1+...+а,_1Х,_1. (6.13) Таким образом, мы доказали следующее обобщение двумерной задачи регрессии, выражение которой было дано в (2.6). Теорема 5. Если (X,-, ..., X,) имеет нормальную плотность, то условная плотность \г при данных (Xj, ..., X,_J снова нормальна. Кроме того, условное математическое ожидание (6.13) есть единственная линейная функция от Xj ' \r^lt делающая величину Т не зависящей от (Xt ^r-i)- Условная дисперсия равна \r-dv(T) = q7r- Пример. Выборочное среднее значение и дисперсия. В статистике случайные величины г Х = 1(Х1+...+Х,)У = 1Х(Х*-Х)' (6.14) называются выборочным средним значением и выборочной дисперсией для Х = (ХХ, ..., Хг). Весьма любопытен jot факт, что если величины X,-, ..., Хг независимы и нормальны с E(Xt)=0, E(Xjj) = a*, /7zo случайные величины X и аг являются независимыми1). Доказательство демонстрирует применимость предыдущих результатов. Мы положим Y4 = X4— X при k = \, ..., г—1, но Y, = X. Преобразование X в Y^Y^ ..., Y,) линейно и невырождено. Поэтому Y имеет нормальную плотность. Далее E(YfcYr) = 0 при fe=l, ..., г —1, и поэтому Y, не зависит от <Y< Y,_x). Однако ro"= = Yf+...+Y2r_1 + (Y1+...+Y,_1)' (6.15) зависит только от Yt, ..., Y,._f, и, таким образом, ог действительно не зависит от Y, = X. ► Нормальные распределения общего вида Из предыдущего следует, что если X = (Xi, .... Хг) имеет нормальную плотность, то каждая ненулевая линейная комбинация Yi = ai\l -f-... -\-ar\r также имеет нормальную плотность. *) То, что этот факт характеризует нормальное распределение в $}, было показано Гири и Лукачсм,
§ 7. Стационарные нормальные процессы 107 То же самое верно для каждой пары (Y,, Y2) при условии, что не выполняется линейное соотношение типа c,Y1+c2Y, = 0. В этом исключительном случае распределение вероятностей пары (Y,, YJ сосредоточено на прямой с уравнением с1у1-\-сгуг = 0, и, следовательно, оно вырожденно, если его рассматривать как двумерное распределение. Для многих целей желательно сохранить термин нормального распределения также и для вырожденных распределений, сосредоточенных на многообразиях низшей размерности, скажем на какой-либо прямой. Простейшее общее определение выглядит следующим образом: распределение Y = = (Y, Yp) является нормальным, если существует вектор Х = (Х,, ..., \г) с нормальной r-мерной плотностью, такой, что Y =а-{-ХЛ, где А — (постоянная), (г хр)-матрица и a = (alt.. ., ар). Если р > г, то распределение Y вырождено в р измерениях. При р^ г это распределение невырождено тогда и только тогда, когда р форм, определяющих Yft, линейно независимы. § 7*). СТАЦИОНАРНЫЕ НОРМАЛЬНЫЕ ПРОЦЕССЫ Цель этого параграфа состоит отчасти в том, чтобы дать примеры нормальных распределений, и отчасти в том, чтобы уста- ноанть некоторые соотношения, имеющие важное применение в теории дискретных случайных процессов и временных рядов. Они носят аналитический характер и легко отделимы от более глубокого стохастического анализа. Фактически мы будем иметь дело только с конечномерными нормальными плотностями, или, что равносильно, с их козариационными матрицами. Ссылки на случайные величины существенны для вероятностной интуиции и как подготовка к применениям, но на данном этапе мы касаемся только их совместных распределений; случайные величины сами используются единственно как удооный способ описания всех маргинальных плотностей посредством указания соответствующих совокупностей (ХП1, ..., Х„ ). Кроме того, ссылка на бесконечную последовательность {\к\ влечет за собой лишь то, что число элементов в (Xlf ..., Хп) может быть взято сколько угодно большим. Мы будем фактически рассматривать бесконечную в обе стороны последовательность {..., Х_2, X_j, ...}. Под этим мы просто подразумеваем, что для каждой конечной совокупности (X,,,, ..., \Пг) задана нормальная плотность с очевидными условиями согласованности. Последовательность называется стацио- парной, если эти распределения инвариантны относительно сдвигов во времени, т. е. если все строки вида (X„1+v X„,+v) с фиксированными (nit ..., пТ) имеют одно и то же распределе* *) Не используется в последующем. В частности, § 8 может быть прочитан независимо (см, тахже гл, Х1Х,Я).
108 Га. III. Многомерные плотности. Нормальные плотности и процессы ние, не зависящее от v. При г — \ отсюда следует, что математические ожидания и дисперсии постоянны и, следовательно, можно предположить, не ограничивая общности, что Е(Хл) = 0. Совместные распределения полностью определяются через кова- риации pjk = Е (XyXJ, а свойство стационарности требует, чтобы pjk зависели только от разности \k—j\. Поэтому мы положим pj j+n = rn. Таким образом, г„ = Е(Х,Х,+л) = Е(Х,_„, X,), (7.1) откуда гП = г_П. Мы будем иметь дело только с последовательностями чисел г„, которые могут служить ковариациями случайного процесса. Всюду в этом параграфе \Zn] изображает бесконечную в обе стороны последовательность взаимно независимых нормально распределенных случайных величин, нормированных так, что E(ZJ = 0, E(ZJ!) = l. (7.2) Будут описаны три метода построения стационарных последовательностей в терминах данной последовательности \Zn\. Эти методы постоянно используются в анализе временных рядов и могут служить упражнением в стандартных рассуждениях. Пример, а) Обобщенные процессы скользящего среднего. При произвольных постоянных Ь0, Ь,, ..., bN положим \n=bazn+b1zn_1+... +ь„гл_„. (7.3) В частном случае равных коэффициентов bk=\/(N -\-\) случайная величина Х„ является средним арифметическим того типа, которое применяется в анализе временных рядов для «сглаживания данных» (т. е. для устранения локальных иррегулярностей). В общем случае (7.3) представляет собой линейный оператор, переводящий стационарную последовательность \Zn\ в новую стационарную последовательность {Х„[. Такие операции модно называть «фильтрами». Последовательность {Х„} имеет ковариации rt = r.t = E(X,Xa+t) = S*,i,t* (*>0), (7.4) V где сумма справа содержит ряды, имеющие лишь конечное число членов. Так как 2 |/.\.bv+*| ^b\- + bl-л., то выражение (7.4) имеет смысл также и для бесконечных последовательностей, для которых 2^J. <оо. Легко видеть, что предел последовательности ковариационных матриц есть снова ковариационная матрица. Полагая N—"oo, мы заключаем, что для любой последовательности ba, b1P Ьг такой, что ^Ь'„<.оо, числа rk, определенные в (7.4), могут служить ковариациями стационарного процесса {Х(1}.
§ 7. Стационарные нормальные процессы 109 Формально мы получаем для нового процесса Х„ = f bk Z„_fc. (7.5) Можно без затруднений показать, что любой стационарный процесс с коварнациями (7.4) представим в такой форме, но выражение (7.5) включает бесконечно много членов, и мы не можем сделать это в настоящий момент (ел. гл. XIX,8). б) Процесс авторегрессии. С тех пор как родился анализ временных рядов, предлагались многие теоретические модели для объяснения эмпирических явлений, например, таких, как поведение экономических временных рядов, солнечных пятен и наблюденные (или воображаемые) периодичности. Наиболее распространенная модель предполагает, что величины Х„ исследуемого процесса связаны с нашей послеловательностью Z„ независимых нормальных величин (7.2) посредством уравнения авторегрессии вида a0Xn + a1Xn_1+...+aA,Xn_A,= Zn. (7.6) Эта модель основывается на эмпирическом предположении, что значение величины Х„ в момент я (цена, содержание или интенсивность) зависит от ее прошлого развития и наложенного на него «случайного возмущения» Z„, которое не связано с прошлым. Как часто бывает, предположение о линейной зависимости упрощает (или делает возможным) теоретический анализ. Более общие модели получаются, если положить N—юо или выбрать в качестве Z„ величины другого стационарного процесса. Если аа Ф 0, то можно произвольным образом выбрать (Х0 X^_j) и затем последовательно вычислить Хд,, \N+U... и X_i, Х_5 В этом смысле (7.6) определяет некоторый процесс, но нас интересует, существует ли стационарное решение. Для ответа на этот вопрос мы перепишем (7.6) в форме, не включающей элементов, непосредственно предшествующих Хл. Рассмотрим (7.6), заменяя п последовательно на п — 1, п—2, ... m--t п—v. Умножим эти равенства на blt Ьг, ..., Ьч соответственно и прибавим к (7.6). Величины Х„_: X„_v не появятся в новом уравнении в том и только в том случае, если bj таковы, что а0Ь1 + а1Ь0 = 0 аД + аА-1 + ---+0^0 = 0, (7.7) где Ьа = 1. В конце концов приходим к выражению вида а0Х„ = ЬйЪп + ЪуЪп^ +...+ bvZn_v + Y„. v, (7.8) где Y„iV представляет собой линейную комбинацию X„_v_1( ... ..., X„_;v-v (с коэффициентами, которые нас не интересуют). В (7.8) мы представим величину Х„ как сумму случайных возму-
110 Гл. 111. Многомерные плотности. Нормальны? плотности и процессы щеннй в моменты п, и — 1, ..., и—v и величины Yni v, изображающей влияние «прошлого» до момента п—v. При v—>оо это время становится «бесконечно далеким прошлым», и в большинстве ситуаций оно не будет иметь влияния. При переходе к пределу мы (по крайней мере временно) предположим именно этот случай, т. е. мы разыскиваем процесс, удовлетворяющий предельному соотношению вида яЛ, = X b*Z„_4. (7.9) (Грубо говоря, мы предполагаем, что остаточные величины Yni v стремятся к нулю. Другие возможные пределы изучены в следующем примере.) Процессы вида (7.9) рассматривались в примере а), и мы видели, что всякий раз, когда 2^<°°. существует стационарное решение (если ряд расходится, то даже выражение для ковариа- иш теряет смысл). Для решения уравнений (7.7) относительно bk мы используем формальные производящие функции A(s) = ^aks\ B(s) = 2bks*. (7.10) Уравнения (7.7) выполняются тогда и только тогда, когда A{s) B{s) = alib0. Так как А—полипом, то В—рациональная функция. Поэтому мы можем использовать теорию разложения на простые дроби, развитую в 1, гл. XI,4. Если полином A (s) имеет различные корни s5 %, мы получаем и, следовательно, В(5) = ^+.-.+^ (7.11) bn^Atf»-i+... + A„sun-\ (7.12) Очевидно, что ^Ь* <оо тогда и только тогда, когда все корни удовлетворяют неравенству js-|>l. Легко проверить, что это остается справедливым также в случае кратных корней. Мы таким образом сейчас показали, что стационарное решение авторегрессионной модели (7.6) существует всегда, когда все корни полинома А(з) лежат вне единичного круга. Ковариацни нашего процесса задаются формулой (7.4), и «бесконечно далекое прошлое» не играет в процессе никакой роли. Полученное решение {Х„} уравнения авторегрессии (7.6) единственно. В самом деле, разность двух решений должна удовлетворять однородному уравнению (7.13), и теперь мы покажем, что условие | Sj | > 1 исключает появление имеющего вероятностный смысл решения этого уравнения. в) Вырожденные процессы. Обратимся к стационарным последовательностям {YJ, удовлетворяющим стохастическому раз-
§ 7. Стационарные нормальные процессы 111 постному уравнению aBYll + fl1Y„-,+ ..-+e.vY11_iv = 0. (7.13) Эти процессы интересны СЕоей противоположностью процессам авторегрессии, определяемым уравнением (7.6). Типичными являются примеры Y„ = a.(Z, cosHu + Z^sin/iu), (7.14) Yn=a1Z1 + (-l)',a2Z_1, (7.15) где коэффициенты и величина ш постоянны, a Zr и Z_j являются независимыми нормальными случайными величинами, нормированными условиями (7.2). Эти процессы удовлетворяют уравнению (7.13), первый с а„ = а2=1 и а^ =—2cosm, второй с а„ = = —а2=1 и а1 = 0. Эти процессы вырождены в том смысле, что весь процесс полностью определяется двумя наблюдениями, скажем YA_j и YA. Эти два наблюдения можно взять как угодно далеко в прошлом, и в этом смысле процесс полностью определяется своим «бесконечно далеким прошлым». Аналогичные рассуждения применимы к любому процессу, удовлетворяющему разностному уравнению вида (7.13), и, следовательно, эти процессы составляют противоположность примеру б), где «бесконечно далекое прошлое» совсем не имеет влияния. ► Эти примеры объясняют тот широкий интерес, который проявляется по отношению к стохастическому разностному уравнению (7.13). Прежде чем перейти к соответствующей теории, заметим, что любой процесс {Y„}, удовлетворяющий (7.13), удовлетворяет также различным разностным уравнениям более высокого порядка, например авУп + (я,—e„) Y„_1+ ... + (вдр—вдт-Л Y„_,v—a„Tt„_„_i. Для того чтобы придать задаче смысл, мы должны предположить, что (7.13) представляет собой разностное уравнение наинизшего порядка, которому удовлетворяет {Y„}. Это равносильно тому, что строка (Yj YJ имеет невырожденное нормальное распределение в N измерениях. Отсюда следует, чтоа„=^=0 и аыфО. Теперь можно показать, что теория стационарных решений разностного уравнения (7.13) тесно связана с «характеристическим уравнением» я^Л' + я1^-1+.-.+яЛ, = 0. (7.16) Каждому квадратному множителю полинома, стоящего слева, здесь соответствует стохастическое разностное уравнение второго порядка и вследствие этого процесс вида (7.14) или (7.15). В соответствии с разложением на множители характеристического полинома мы представим, таким образом, общее решение уравнения (7.13) как сумму компонент вида (7.14) и (7.1 б}'.
112 Гл. III. Многомерный плотности. Нормальные плотности и процессы Как и раньше, мы предполагаем E(YJ = 0. Вся теория строится на следующей лемме. Лемма 1. Стационарная последовательность с Е (Y„Y„+A) = гА удовлетворяет стохастическому разностному уравнению (7.13) в том и только том случае, когда а</„ + а1г„_,+ ...+а„г„-Л' = 0. (7.17) Доказательство. Умножив (7.13) на Y0 и взяв математические ожидания, придем к (7.17). Возводя в квадрат левую часть равенства (7.13) и вновь вычисляя математические ожидания, получаем в результате ^1а)-(У1акгк_/), и поэтому из (7.17) следует, что левая часть в (7.13) имеет нулевую дисперсию. Это доказывает лемму. ^ Мы приступаем к выводу канонической формы для гп. Эти величины, конечно, действительны, но так как в формулу входят корни характеристического уравнения (7.16), мы должны прибегнуть к временному использованию комплексных чисел. Лемма 2. Если {Y,,} удовлетворяет уравнению (7.13), но не удовлетворяет никакому разностному уравнению низшего порядка, то характеристическое уравнение (7.16) обладает N различными корнями £lt ..., lN, no модулю равными единице. В этом случае гя = с1Й+...+сдг&, (7.18) где Cj > 0 при / = 1 Л'. Доказательство. Предположим вначале, что характеристическое уравнение (7.16) имеет N различных корней £,, ..., lN. Найдем решение уравнения (7.17) уетодом частных решений, который применялся для подобных целей в первом томе. Проверка устанавливает, что (7.18) изображает формальное решение (7.17), зависящее ог N свободных параметров сх, ..., cN. Теперь тп полностью определяются N значениями г,, ..., rN. Поэтому для того, чтобы показать, что каждое решение (7.17) имеет вид (7.18), достаточно показать, что cf могут быть выбраны так, что соотношения (7.18) приводят к предписанным значениям г, тN. Это означает, что с, должны удовлетворять N линейным уравнениям с матрицей А, элементами которой служат a/k = c,k (;. к---[, ..., /V). Детерминант А не разен нулю1), и, следовательно, !^лол-ое решение существует. 1) Этот детсрм1:и.::1т o-jmihq мизыээется в честь Влндермондт. Чтобы попаять, ''то детер:.::и[.,1а не jkiik-ii нулю, заменим g некоторой ч: |''г.дмой переменипГ: х. Ппсвсркз показывает, что детерминант н.меет при i■ 1 ч'--т вид хР(х), где Р tVTb полипом степени Л' — 1. Дг.;ее Р(а')=0 при ^'""-3. ■■■! ;П| потому что при эт'!х значениях х два столбца детерминанта 1-г--'!Овятся одчнг-кпямми. Поэтому дптерминг.нт не обращается в нуль ни при 1...пом другом a::j4i-iiiiii .v, и а ';:<стнистм np;i A"=£i.
§ 7. Стационарные нормальные процессы 113 Таким образом, мы установили, что (в случае различных корней) г„ действительно имеет вид (7.18). Теперь мы покажем, что фактически в (7.18) присутствуют только корни, равные по модулю единице. Мы знаем ,что а#фО и поэтому 0 не может быть корнем характеристического уравнения. Далее отметим, что коварнация гп ограничены общим значением /■„ дисперсии Y„. Однако если \t не равны по модулю единице, го | £/1"—► £» при п—►оо или при п—»—оо. Отсюда следует, что при любом / либо |£-| = 1, либо же ^ = 0. Предположим теперь, что £х и £а представляют собой пару сопряженных корней и что с1ф0. Тогда £, равен по модулю единице и, следовательно, |2 = ^Г1. В силу симметрии гп = г_п, поэтому сг = с1. С другой стороны, £" + £" действительно, и поэтому значение с1 должно быть действительным. Таким образом комплексные корни присутствуют в (7.18) в сопряженных парах с действительными коэффициентами, и если некоторый коэффициент С/ равгн нулю, то гп будет удовлетворять разностному уравнению порядка меньшего, чем N. Таким образом, все корни равны по модулю единице, все ct действительны и С/фО. Для того чтобы убедиться в том, что cf положительны, рассмотрим ковариационную матрицу R для случайных величин (Y, YA,). Элементами матрицы R являются г/_к, и легко вывести из (7.18), что R = ACAT, (7.19) Где С—диагональная матрица с элементами Cj, матрица А введена выше, а матрица А сопряжена с А (т. е. получается из А заменой \f на £,rl). Далее, R является действительной и положительно определенной матрицей и поэтому для любой комплексной УУ-мерной ненулевой вектор-строки x = u-{-iv имеет место соотношение xRxr = uRuT + vRvT>0. (7.20) Полагая у = хА, получаем вместо (7.20) _ N уСуТ='!£с/\у/\'>0. (7.21) /= 1 Поскольку детерминант А не равен нулю, последнее неравенство выполняется для произвольного у и, таким образом, с, > 0, как и утверждалось. Для завершения доказательства нам осталось показать, что характеристическое уравнение не имеет кратных корней. Предположим, что £, = ёл а другие корни различны. Мы снова получим представление в форме (7.18) с той разницей, что член сх£" заменится членом с,л£". Ограниченность гп снова с необходимостью приводит к томуг что сх = 0. Следователь^ в случае одного
1M Гл. III. Многомерные плотности. Нормальные плотности и процессы дпойпого корня мы получим представление вида (7.18) с числом отличных от нуля членов, меньшим N, а, как мы уже видели, это невозможно. Те же аргументы применимы и в более общей ситуации и показывают, что кратные корни невозможны. Сформулируем теперь окончательный результат для случая, когда N—нечетное целое число. Изменения, необходимые для перехода к четному N, должны быть очевидны. Теорема. Предположим, что стационарная последовательность {Y,,} удовлетворяет разностному уравнению (7.13) с Ar = 2v + 1, но не удовлетворяет никакому разностному уравнению низшего порядка. Тогда характеристическое уравнении (7.16) обладает v парими комплексных корней ^ = cosco^ ± ' siruo- (где to, вещественны) и одним вещественным корнем (i),, = ;M. Последовательность {У„} имеет вид V Y„ = X0Zaco.V + X К [Ъ. cos ли,- + Z. sin ишЛ, (7.22) /= 1 где Т.,—взаимно независимые нормальные величины с нулевыми математическими ожиданиями и единичными дисперсиями, а К,— постоянные. Для этой последовательности V r„ = K^i+X Ц cos то,. (7.23) /=1 Обратно, выберем произвольные действительны? ?.v =f= 0 и ш0 = ±1. Пусть tot, ..., cov — различные действительные числа, такие, что О ■.; со ■< л. Тогда (7.22) определяет стационарный процесс с ко- вариациями (7.23), удовлетворяющий разностному уравнению порядка 2v-fl (но не удовлетворяющий никакому разностному уравнению низшего порядка). Доказательство. Пусть >., и м- и нормальные случайные величины Z. удовлетворяют условиям теоремы. Определим величины Y„ формулой (7.22). Простые вычисления показывают, что кова- рпацни гп величин {Y,,} задаются равенством (7.23). Существует алгебраическое уравнение с действительными коэффициентами вида (7.16) с корнями, описанными в теореме. Тогда конариации rf удовлетворяют разностному уравнению (7.17) и в силу леммы 1 отсюда следует, что Y„ удовлетворяет стохастическому разностному уравнению (7.13). По построению это есть разностное уравнение наи- ннзшего порядка, которому удовлетворяет Y„. Обратно, пусть {Y,,} обозначает решение данного разностного уравнения (7.13). Коварнацни гп величин {YJ определяют числа 'i.j и ы-, присутствующие в (7.22). Рассмотрим эти уравнения при i.^O, 1, ..., 2v как линейное преобразование прс:;зсольной строки in нормальных величин (Z_v Zv) в (Уи, ..., YJ. Это преоб-
§ 8. Марковские нормальные плотности 115 разование невырождено, и поэтому ковариационные матрицы для (Z_v Zv) и (Y0 YA.) определяют одна другую единственным образом. Мы только что показали, что если ковариационная матрица величин Z,- сводима к единичной матрице, то величины Yk имеют своими ковариациями г„. Поэтому обратное также справедливо, и тогда существуют нормальные величины Z{, удовлетворяющие условиям теоремы и такие, что (7.22) выполняется при н = 0 N. Однако обе части каждого из этих уравнений представляют собой решения стохастического разностного уравнения (7.13), и поскольку они совпадают при п = 0, ..., N, то они с необходимостью тождественны. § 8. МАРКОВСКИЕ НОРМАЛЬНЫЕ ПЛОТНОСТИ Мы перейдем к обсуждению одного класса нормальных плотностей, встречающихся в марковских процессах. Не ограничивая общности, мы рассмотрим только плотности, центрированные в начале координат. Тогда E(Xs) = 0, и мы используем обычные сокращения E(XJ) = oJ, E(X/Xfc)=a>a»p>». (8.1) Величины pJk суть коэффициенты корреляции, и р*А=1. Определение. Нормальная r-мерная плотность (Xf, .Г., Хг) является марковской, если при k^Lr условная плотность Xfc при данных Xlt ...,Xll_i тождественна с условной плотностью \к при данной Хк_(. Грубо говоря, если мы знаем Х4-1 («настоящее»), то дополнительное знание «прошлого» Xlt ..., Xk_2 не привносит никакой полезной информации относительно «будущего», т. е. относительно любой из величин Х^ с ]~^k. Как обычно в подобных случаях, мы применяем термин «марковский» и к последовательности (Х1Р ..., X,.), и к ее плотности. Теорема 1. Для тоге чтобы последовательность (Xj \г) была марковской, каждое из следующих двух условий является необходимым и достаточным: (i) для k^.r EtXJXi Xk_1) = E(Xk|Xk_1); (8.2) (ii) для j ^. v < k ^.r P/* = P/vPvik- (8.3) Для выполнения (8.3) достаточно, чтобы P/k = P/.ft-iPk-i.*. l<k. (8.4) Доказательство. Совпадение плотностей влечет равенство математических ожиданий, и поэтому необходимость (8.2) тривиальна.
116 Гл. 111. Многомерные плотности. Нормальные плотности и процессы С другой стороны, если (8.2) справедливо, то теорема 5 из § 6 показывает, что условная плотность \к при данных X, ХА-1- зависит только от Xft_j, но не от предшествующих величин. Условная плотность \к при данном ХА_: получается интегрированием относительно величин \lt ..., Xt_2, и, следовательно, две условные плотности совпадают. Таким образом, (8.2) необходимо и достаточно. Обращаясь снова к теореме 5 из § 6, заключаем, что величина Т = Х,-Е(Х,|Х,_1) (8.5) совпадает с величиной Т = Х4—^р^-.Л.,, (8.6) поскольку это есть единственная случайная величина вида \к—cXA_i, не коррелированная с Х4-1. В силу той же теоремы равенство (8.2) выполняется тогда и только тогда, когда величина Т не коррелирована также с Xf, ..., ХА_2, т. е. тогда и только тогда, когда выполняется (8.4). Таким образом, (8.4) необходимо и достаточно. Поскольку (8.4) есть частный случай (8.3), то последнее условие является достаточным. Оно также и необходимо, так как повторное применение (8.4) показывает, что при j < v < k < г ^- = ^^± = J^zL=...=^ = p/v. (8.7) Pvk Pv.k-j Р\,к-г P\v Поэтому из (8.4) следует (8.3). ► Следствие. Если последовательность (X, X,) марковская, то каждая подпоследовательность (Ха,, .... Xav) с а1<а2<... ...<av^/" является марковской. Это очевидно, так как (8.3) автоматически распространяется на все подпоследовательности. ► Примеры, а) Независимые приращения. Говорят, что последовательность (конечная или бесконечная) \\k\ нормальных случайных величин с Е(ХА) = 0 образует процесс с независимыми приращениями, если при j<k приращение \к — Ху не зависит от (Х^ .. ., Ху). Отсюда следует, в частности, что Е (Ху (\к — Ху)) = 0 или Р/* = ?А- /<*■ (8-8) Сравнивая это с (8.3), видим, что нормальный процесс с независимыми приращениями автоматически оказывается марковским. Его структура чрезвычайно проста: \к есть сумма k взаимно независимых нормальных величин Хц X, Xj, ..,, Хд — ХА_Г.
§ 8. Марковские нормальные плотности 117 б) Модели авторегрессии. Рассмотрим нормальную марковскую последовательность \и X с Е(Хц) = 0. Существует единственная постоянная ак, такая, что Хк—а*ХЛ_1 не зависит от Хц_! и, следовательно, от X,, ..., Хк_^. Положим ^ = Var(Xk—ацХц_х) и, следовательно, Xft = fltX,_1 + ^Zt А = 2,3 ieyj Легко видеть, что определенные таким образом величины Zk независимы и E(Z,) = 0, E(ZJ) = l. (8.10) Верно ii обратное. Если Zft нормальны и удовлетворяют (8.10), то (8.9) определяет последовательность {X,,}, и сама по себе структура соотношении (8.9) показывает, что последовательность \XJ марковгкая. В качестве упражнения мы проверим это утверждение вычислением. Умножим (8.9) на X, и возьмем математические ожидания. Так как Zk не зависит от Xt, ..., Xfc_,, мы получаем при /< к fl =_E*_J^_. (811) Теперь (8.4) есть простое следствие (8.11), а мы знаем, что выполнение (8.4) влечет за собой марковский характер Хк. Таким образом, (X!, .... Хг) является марковской тогда и только тогда, когда выполняются соотношения вида (8.9), где 7./—независимые нормальные величины, удовлетворяющие (8.10). [Это есть частный случай примера 7, б).] ► До сих пор мы рассматривали только конечные последовательности (Хг Хл), но число г не играет никакой роли, и мы можем также говорить о бесконечных последовательностях {X„j-. Это не затрагивает пространств бесконечных последовательностей или какую-либо новую теорию, это просто указание на то, что распределение для (Xj, ..., ХГ) определяется при всех г. Аналогично мы говорим о марковском семействе \X(t)), когда любая конечная совокупность Х1 = Х(/,), ..., ХГ = Х(/Г) является марковской. Ее описание зависит от функций Е (X* (0) = о'(0, Е(X (s) X (0) =--a(s)a(t) p (s, t). (8.12) В силу критерия (8.3) очевидно, что семейство является марковским тогда и только тогда, когда при s < t < т p(s, t)p(t, T) = p(s, т). (8.13)
118 Гл. III. Многомерные плотности. Нормальные плотности и процессы Терминология не должна затемнять то, что фактически мы будем иметь дело только с семействами конечномерных нормальных распределений с. ковариациямн, которые удовлетворяют (8.13). Как обстоятельно объяснялось в начале § 7, последовательность {Х„[ называют стационарной, если для каждого фиксированного набора а,, .... а„ распределение (Xa,+V, ..., XKn+v) не зависит от v. Конечный отрезок такой последовательности может быть продолжен в обе стороны, и, следовательно, естественно рассматривать только бесконечные в обе стороны последовательности {..., Х_2, Х_!, Х„, X,-...}. Эти понятия тривиальным образам переносятся на семейства |X(f)}- Для стационарной последовательности {Хп} дисперсия о* не зависит от п и в марковском случае (8.3) влечет равенство Р/* — Pi*-'1- Таким образом, для стационарной марковской последовательности E(X,.Xfe) = o=pi *-'!, (8.14) где а2 и р—постоянные, ]р|<1. Обратно, последовательность с нормальными распределениями, удовлетворяющая (8.14), является марковской и стационарной. В случае стационарного семейства {X(f)f корреляция p(s, t) зависит только от разности \t—s\ и (8.13) приобретает вид р(0р(т) = р(< + т) для t, т>0. Очевидно, из равенства р(т) = 0 должно следовать p{t) = 0 при всех t > т и также р ( — т J =0. Поэтому р не может иметь нулей, за исключением случая p(t) = Q при всех t > 0. Следовательно, p(t) = e~kt (здесь используется результат из 1, гл. XVII, 6). Соответственно для стационарного марковского семейства E(X(s)X(s + 0) = o1e-u, t>0, (8.15) за исключением случая, когда X(s) и X (t) не коррелнрованы при всех s=£ t. Пример, в) Стационарные последовательности могут быть построены по схеме последнего примера. Вследствие (8.11) мы должны иметь XJk = PX4_1 + o/l-p»Zik. (8.16) При каждом k можно выразить \к как линейную комбинацию Zfc, Zfc_!, . . ., Z*_v и X*_v_t. Формальный переход к пределу приводит к представлению Х4 = о/Т=р-« 2 ,>%_,, (8.17) т. е. к представлению {Xfc} через бесконечную в обе стороны последовательность независимых нормальных величин lj, нор мир о-
§ 8. Марковские нормальные плотности 11 у ванных условием (8.10). Так как [р|<1, то правдоподобно, что ряд сходится, однако формула по существу связана с пространством бесконечных последовательностей. [См. замечания, касающиеся формулы (7.5), частным случаем которой является (8.17).] ► Полезно, быть может, обсудить связь теоремы 1 с непосредственным описанием марковских последовательностей в терминах плотностей. Обозначим через g; плотность X,- и через gik (х, у) — значение в точке у условной плотности \к при условии Х~х. (В теории случайных процессов gik называется переходной плотностью от X: к \к.) Для нормальных марковских последовательностей g; представляет собой нормальную плотность с нулевым математическим ожиданием и дисперсией от*. Что касается условных вероятностей, то в примере 2, а) было показано, что gik (х, у)= -тЦ, п (*=£т£\, (8.18) где и обозначает стандартную нормальную плотность. Мы не будем, однако, использовать этот результат и проведем анализ свойств gik независимым способом. Как обычно, мы интерпретируем индексы как временные параметры. Совместная плотность (X,, Ху) задается как £,(*) gij{x, у). Совместная плотность (X/, Ху, \к) равна произведению предыдущей плотности на условную плотность \к при данных Ху и X,-, но ввиду марковского характера индекс i может быть опущен, если i < j < к, и плотность (X,-, Ху-, \к) становится равном gi(x)giJ(x, y)gJk(y, г). (8.19) В марковском случае плотность каждой строки (ХИ1, ..., Ха„) задается лроизведением вида (8.19), однако плотности gik не могут быть выбраны произвольно. В самом деле, интегрирование (8.19) относитгльно у дает маргинальную плотность для (X,-, \к). Поэтому мы получаем условие согласованности + ю *«(*. *)= J gi/(x, y)gjk(y. *)dy (8-20) — 00 при всех I < / < к. Это есть частный случай уравнения Колмогорова— Чепмена для марковских процессов1). Говоря очень приблизительно, это уравнение означает, что переход из х в момент i в г в момент к происходит через все промежуточные состояния у, причем переход от у к г не зависит от прошлого. Очевидно, что при любой системе переходных вероятностей gik, удовлетворяющих уравнению Колмогорова—Чепмена, схема умножения (8.19) J) Другие частные случаи встречались в 1, гл. XV, (13.3), и гл. XVII, (9.1). Заметим, что формула (8.19) представляет собой аналог определении (1.1) в 1, гл. XV, вероятностей для марковских цепей, за исключением того, что здесь суммирование заменено интегрированием и что были рассмотрены только стационарные переходные вероятности.
120 Гл. III. Многомерные плотности. Нормальные плотности и процессы приводит к согласованной системе плотностей для (X,, X, X,.), и эта последовательность является марковской. Таким образом, мы пришли к следующему аналитическому дополнению теоремы 1. Теорема 2. Платности семейства \gjk\ тогда и только тогда могут служить переходными плотностями в нормальном марковском процессе, когда они удовлетворяют уравнению Колмогорова — Чепмена и когда gik (x, у) при каждом фиксированном х является нормальной платностью относительно у. Обе теоремы содержат необходимые и достаточные условия, и поэтому они в некотором смысле эквивалентны. Тем не менее они имеют различную природу. Вторая из них на самом деле не ограничивается нормальными процессами; примененная к семействам {Х(/)|, она приводит к дифференциальным и интегральным уравнениям для переходных вероятностей и на этом пути способствует введению новых классов марковских процессов. С другой стороны, из теоремы 2 трудно угадать, что gih необходимо имеет вид (8.18)—результат, содержащийся в более специальной теореме 1. Для последующих ссылок и сравнений мы приводим здесь два наиболее важных марковских семейства {X(t)\. Примеры, г) Броуновское движение или процесс Винера — Ба- шелье. Процесс определяется тем условием, что Х(0) = 0 и что при f>s величина X(f)— X(s) не зависит от X(s) и имеет дисперсию, зависящую только от t—s. Иными словами, процесс имеет независимые приращения [пример а)] и стационарные переходные вероятности [но он не стационарный, поскольку Х(0) = 0]. Очевидно, что E(X»(0) = aaf и Е (X (s) X (t)) = a3s при s<t. При т>< переходные плотности, характеризующие переход из (/, х) в (т, у), нормальны с математическим ожиданием х и дисперсией ога(т—0- Они зависят только от (у—х)/(т—t), и уравнения Колмогорова—Чепмена сводятся к свертке. д) Процесс Орнстейна — Уленбека. Под этим понимается наиболее общий нормальный стационарный марковский процесс с нулевыми математическими ожиданиями. Его ковариацни определяются формулой (8.15). Иными словами, при i>f переходные плотности, характеризующие переход из (f, x) в (т, у), нормальны с математическим ожиданием e~^ll~l)x и дисперсией а'(1—е-1'-'"1-1'). При т—»ао математическое ожидание стремится к нулю, а дисперсия к а*. Этот процесс был рассмотрен Орнстейном и Улеи- беком с совершенно другой точки зрения. Его связь с диффузией будет обсуждена в гл. Х,4. ► | В. ЗАДАЧИ 1. Рассмотрим О — область на плоскости (площадью V4), ограниченную четырехугольником с вершинами (0,0), (1, 1), (0, У2), (Уа, 1) и треугольником с вершинами (ft, 0), (1, 0), (1, Уг). (Единичный квадрат представляется
§ 9. Задачи 121 объединением И и области, симметричной Q относительно биссектрисы.) Пусть пара (X, Y) распределена равномерно на П. Докажите, что частные распределения являются равномерными и что X-|-Y имеет такую же плотность, как если бы X и Y были независимыми1). Указание. Рисунок делает вычисления излишними. 2. Плотности с маргинальными нормальными плотностями. Пусть и — нечетная непрерывная функции на прямой, равная нулю вне интервала —1, 1. Если | и | < (иле)-1/', то выражение П(*)П (</) + « (*)"(!/) изображает двумерную плотность, которая не является нормальной, но маргинальные плотности которой нормальны (Э. Нел сон). 3. Второй пример. Пусть if, и ф,—две двумерные нормальные плотности с единичными дисперсиями, но с различными коэффициентами корреляции. Смесь -=- ((Pi-tV-.!1 не является нормальной плотностью, но две ее маргинальные плотности совпадают с п. Замечание. В последующем все случайные величины рассматриваются в Э1Х. Векторные величины обозначаются парами (XlF X2) и т. д. 4. Пусть Xj Х„ — независимые случайные величины с одинаковой плотностью / и функцией распределения F. Если X и Y являются соответственно наименьшей и наибольшей из них, то совместная плотность пары (X, Y) равна п (я-1) f M f (У) [F (y)-F (*)]"-», у > х. 5. Покажите, что симметричное распределение Коши в Э13 [определенное в (1.21)] соответствует случайному вектору, длина которого распределена с плотностью v (г) = 4л-1 г2 (1 +'■*)"* При т > 0. Указание. Используйте полярные координаты и либо (1.15), либо же общее соотношение (10.4) гл. I для проекций. в. Для распределения Коши (1.21) условная плотность Хэ при данных Хь X, равна "Б,. I. («,=!_ У^ + ll+lf)3 Ь + Ы+Ы + г*)2 ' а двумерная условная плотность Х8, Х3 при условии, что Х1 = £, равна 7. Пусть 0< а < 1 и И*. </) = [('+<"0 (1 +ау) —а] е-*-У-"У при х> 0, у > 0 и f (дг, у) =0 в других случаях. а) Докажите, что { есть плотность пары (X, Y). Найдите маргинальные плотности и функцию распределения. б) Найдите условную плотность их (у) и Е (Y | X), Var (Y | X). 8. Пусть f—плотность, сосредоточенная на 0, оо. Положим и (х, у) = = f (* + !/)/(*+.'/) при х > 0, у > 0 и и {х, у) =0 в других случаях. Докажите, что и есть плотность в 542, и найдите ее ковариационную матрицу. 9. Пусть Хь ХЕ, Ха взаимно независимы и равномерно распределены на 0, 1. Пусть Xm, XlS)1 Х(3) —соответствующие порядковые статистики. Найдите плотность пары /Хд) Х[21\ \ "(2) ' Х(3)У J) Иными словами, распределение суммы может быть задано свертхой, даже если величины зависимы. Этот интуитивно понятный пример предложен Г. Роббинсом, Другой парадокс такого же типа см, в гл, II, 4,д),
122 Гл. lit. Многомерные ЛлдтйОдтй. Нормальные плотности и процессы и покажите, что эти два отношения независимы. Обобщите на п измерений. 10. Пусть Х1, X,, Х3 независимы и одинаково показательно распределены. Найдите плотность (\2 — Х*, Х3 — Xj). 11. Частица единичной массы расщепляется на два осколка с массами X и 1 — X. Плотность / случайной величины X сосредоточена на 0, 1, и по соображениям симметрии / (х) =[ (1 —х). Обозначим наименьший осколок через Xj, а наибольший осколок через Х2. Предположим, что эти два осколка независимо друг от друга расщепляются таким же образом и дают в результате четыре осколка с массами Хи, Х12, Х2,, Х22. Найдите (а) плотность Хи, (б) совместную плотность Хц и Х22. Используйте (б) для проверки (а). 12. Пусть Х(, Х2, ... независимы и имеют одну и ту же нормальную плотность И. Обозначим S& = Xi+ ... + Хц. При т < п найдите совместную плотность (SMI S„) и условную плотность для Sm при условии, 4toS„=/. 13. В предыдущей задаче найдите условную плотность \\-\-., .-\-\f„ при данном значении Х?-|-...+Х„. 14. Пусть (X, Y) имеет двумерную нормальную плотность, центрированную в начале координат, с Е (Х-) =Е (Y3) = 1 и E(XY)=p. При переходе к полярным координатам (X, Y) превращается в (R.O), где R3 = Xz-f-Y2. Докажите, что Ф имеет плотность, равную *ГГ=? 0<Ф<2л. 2л (1—2psinepco8Cf) ' и распределена раиномерно тогда и только тогда, когда р = 0. Выведите, что P{XY > 0} = y+n-1arcslnp и P{XY < 0} = л~1 arccos p. 15. Пусть f — равномерная плотность в треугольнике с вершинами (0, 0), (0| !)■ OiO) и 8—равномерная плотность в симметричном треугольнике в третьем квадранте. Найдите / s)c / и fif.g. Предостережение. Требуется утомительное раздельное рассмотрение отдельных интервалов. 16. Пусть / — равномерное распределение в единичном круге. Найдите /sfe/■ в полярных координатах. 17. Пусть и и v — плотности в Э12 вида "(*, y)=f(V^+F). v(x.y)=g(V*+y~1)- Найдите м afc v в полярных координатах. 18. Пусть X = (Xj \г) имеет r-мерную нормальную плотность. Существует такой единичный вектор а=(а^ аг), что Var (OiXi-f ... +ar\r) 5s Var (e^-f ... +cr\r) для всех единичных векторов с={Сх, ..., сг). Если а=(1, 0, ,,., 0) — такой вектор, то Xf не зависит от остальных величин X/. 19. Докажите теорему. Теорема. Пусть дана нормальная плотность в ffi . Тогда оси координат могут быть повернуты таким образом, что новые координатные величины будут взаимно независимыми нормальными величинами. Иными словами, в теореме 2 из § 6 в качестве матрицы С может быть взята матрица вращения. Указание. Пусть Y = XC и матрица С выбрана так, что У, = в1Х1+..,+вгХГ1 где a=(flf ar) есть вектор из задачи 18. Остальное несложно. 20. Найдите общий нормальный стационарный процесс, удовлетворяющий
§ 9. Задачи 123 соотношениям: Е) "п+2+Хп = С; б) Х„+2-Х„=0; в) "п+3 — Хп + »-гХ,1+1 Х„ — 0. 21. Сервостохастический процесс (Г. Д. Миллс). Сервомеханизм подвергается случайным толчкам, но в любое время могут быть введены поправки. Таким образом, ошибка Y„ в момент п имеет (в подходящих единицах) вид Y,1 + 1 = = Y,l + C„+X,1.Ml гдг С„ —поправка, а Х„— независимые нормально распределенные величины с Е(Х„)=0, Е(Х*) = 1. Величины С„ в принципе являются произвольными функциями прошлых наблюдений, т. е. Y^ и Хд при й<п. Желательно выбрать их так, чтобы минимизировать дисперсию Var(Y„), которая представляет собой меру того, сколь хорошо работает механизм, и дисперсию Var(C„), которая указывает, сколь тяжелы условия его работы. а) Рассмотрите ковариационную функцию {Y,,} и покажите, что Var(Y„) :э= 1. С) В предположении, что Var (CJ—* a2, Var (Y„)—► оа (тенденция к стационарности), покажите, что о > -у (а + а-1). в) Рассмотрите, в частности, линейную схему С„ = а—р (Y„—Ь), 0<р^1. Найдите ковариационную функцию и представление вг'да (7.8) для Yn. 22. Продолжение. Если существует запаздывание ао времени в поступлении информации или корректировке, то модель остается, по существу, той же самой, за исключением того, что С„ следует заменить на Cnfjy. Обсудите эту ситуацию.
МАРА IV ВЕРОЯТНОСТНЫЕ МЕРЫ И ПРОСТРАНСТВА Как уже говорилось во введении, технический аппарат теории меры используется в этой книге лишь в небольшой степени, и для понимания большей ее части настоящая глава не нужна1). Тем не менее желательно дать краткий обзор важнейших понятий, образующих теоретический фундамент книги, а также привести основные теоремы для удобства ссылок. Лежащие в основе идеи и факты нетрудны, однако доказательства в теории меры включают в себя нагромождение технических деталей. Для начинающего и неспециалиста подступ затрудняется многогранностью теории мзры, а также разнообразием ее применений. Существуют превосходно написанные вводные курсы, однако материал в них в силу необходимости дается в слишком общей форме, и, кроме того, в них излагаются различные аспекты теории меры, не являющиеся существенными для настоящей книги. Даваемый ниже обзор содержит главным образом лишь то, что нужно для дальнейшего; многие доказательства и технические детали опускаются2). (Следует отметить, что простота теории обманчива: значительно более трудные задачи теории меры возникают в связи со случайными процессами, зависящими от непрерывного временного параметра. Изложение условных математических ожиданий откладывается до гл. V, 10, 11; теорема Радона—Никодима содержится в гл. V.3.) Формулы, относящиеся к евклидовым пространствам 5ir, не зависят от числа измерений, и х в них нужно понимать как сокращенную запись для (xit .. ., хг). г) Это относится к читателям, знакомым с основами теории меры, а также к тем читателям, которые интересуются главным образом результатами и фактами. Для удобства последних определение интеграла повторяется в гл. V, I. За пределами этого материала они могут полагаться на свою интуицию, поскольку, по существу, теория меры дает обоснование проешм формальным действиям. =) Бэровскнс функции и интегрирование по Лебегу — Стпльтьесу превосходно изложены в книге Макшсйна и Ботгса, Е. J. Mc Shane and Т. A Botts Real analysis, D. Van Nostrand, Princeton, 1959. Результаты общей теории меры широко используются в изложении Халмоша, см.: Халмош П. Р., Теория меры, H.'I, М., 1953, и Бурбгжи, см.: N. Bourbaki, Elements de mathe- matiques jl.ivre VI, chapitres 3—5], Herman, Paris, 1952, 195G. Изложение общей теории меры с целью применения в теории вероятностей содержится в книгах Дуба, Крикеберга, Лоэва, Неве, Анникяна и Тортра. См. также Пар- тасаратн К, Введение в теорию вероятностей и теорию меры,—!Л,\ Мир, 1983,
§ 1. Бэровские функции 125 § 1. БЭРОВСКИЕ ФУНКЦИИ Нам нужно указать класс множеств, для которых определены вероятности, а также класс функций, являющихся случайными величинами. Эти две задачи связаны между собой, и, более того, их изложение объединяется применением современных обозначений. Введем сначала эти обозначения и напомним определение сходимости в терминах монотонных пределов. Индикатором.1) множества А называется функция, равная единице во всех точках А и равная нулю во всех точках множества А', дополнительного к А. Индикатор А обозначается 1^, так что 1 ^ (аг) = I при х£А и \А(х)=0 в противном случае. Каждому множеству отвечает его индикатор, и каждая функция, принимающая лишь значения 0 и 1, является индикатором некоторого множества. Если /—произвольная функция, то произведение \Af есть функция, равная / на А и нулю в остальных точках. Рассмотрим теперь пересечение С = А[\В двух множеств. Его индикатор 1с равен нулю, когда либо 1^, либо \в обращается в нуль, так что \с = \п1(\А, 1П), т. е. значение 1с равно наименьшему из значений 1^, 1а. Этот параллелизм отражается в обозначении fflg, которое используется вместо inf (/, g) для функции, равной в каждой точке х наименьшему из значений f (х) и g(x). Аналогично / U g=sup(/, g) обозначает наибольшее из двух значенийа). Операторы Пии применимы к любому множеству функций. Обычно пользуются сокращенными обозначениями An...n/„= ПЛ.. Ли...и/.= и fk. (l.i) По определению в каждой точке х эти функции равны соответственно минимуму и максимуму среди п значений f1 (х) f„(x). Если fh есть индикатор множества Ak, то функции (1.1) являются индикаторами соответственно пересечения А1 П ... П Ап и объединения А1 и ... U А„. Рассмотрим теперь бесконечную последовательность {/„}. Функции, определяемые формулой (1.1), монотонны по я, так что пре- OD 00 дслы П/* и Ufi, вполне определены, хотя, возможно, и беско- нечны. Для фиксированного / функция оэ »>=П/* (1.2) *=/ z) Этот термин был введен Лоэвом. Более старый термин «характеристическая функция» неудачен в теории вероятностей, поскольку его принято относить к другому объекту. !) Многие авторы предпочитают символы Л и V для функций, оставляя символы Пии для множеств. В нашем изложении двойные обозначения не дают никаких преимуществ.
126 Гл. IV. Вероятностные меры и пространства есть предел монотонной последовательности функции fj П . . . П/, + п; сама последовательность \ш-\ тоже монотонна, именно wn = u.\U . . . ... U Щ,- В наших обозначениях wn —■+ U mft. По определению w„(x) А = 1 есть нижняя грань (инфимум) числовой последовательности fH (х), f„ + i(x) Следовательно, предел последовательности wn совпадает с нижним пределом liminf/,,, так что ЕЯ СО liminf/„= U П fk. (1.3) i=i *=/ При таком подходе нижний предел lim inf получается двумя последовательными переходами к пределу в монотонных последовательностях. Аналогичное справедливо и для верхнего предела limsup/„, равенство (1.3) сохранится, если в левой его части liminf заменить на lim sup, а в правой части значки Пии поменять местами. Все сказанное переносится на множества. Так, например, по определению Л = НтЛ„ тогда и только тогда, когда \л = \\х\\\ал- Это означает, что последовательность множеств \Ап\ сходится к множеству А тогда и только тогда, когда каждая точка А принадлежит всем Л„, за исключением не более чем конечного числа, и каждая точка дополнения А' принадлежит не более чем конечному числу множеств А'п. Пример, а) Множество \Ап б.ч.}1). В качестве важного с вероятностной точки зрения примера предельных операций над множествами рассмотрим событие Л, состоящее в «реализации бесконечного числа событии из данной последовательности событий Л,, Аг, ...». [Частные случаи были рассмотрены в 1; гл. VIII, 3 (леммы Бореля—Кантеллп), и в Г, гл. XIII (рекуррентные события).] На более 4°Рмальном языке это означает, что точка А' принадлежит множеству Л тогда и только тогда, когда она принадлежит бесконечному числу множеств последовательности {Ак\. Поскольку индикаторы могут принимать лишь два значения 0 и 1, то данное определение равносильно следующему: l^^limsup 1^„- В обычных обозначениях это записывается как Л = 1пп5ир Л„, однако обозначение {Ллб.ч.} (читается Ап «бесконечно часто») более приятно н наглядно. Оно было введено Чжуном и теперь общепринято в вероятностной литературе. ► *) В подлиннике «<4„ i. о» (infinitely often).— Прим. перге. 1) В принципе мы интересуемся лишь конечнозначными функциями, однако иногда удобно допустить также в качестве возможных значений ±оо. Например, простая теорема, утверждающая сходимость вейкой монотонной последовательности, неверна дли конечнозначных функций, а без нее многие формулировки становятся тяжеловесными. По этой причине мы следуем обычному соглашению, по которому асе функции принимают значении из расширенной
§ I. Бзровскис функции 127 Наша следующая задача—ограничить класс функций1) на W, с которыми мы предполагаем иметь дело. Понятие произвольной функции слишком общо, чтобы быть полезным для наших целей. Более подходящим является модернизированный вариант эйлеро- вого определения функции. Если считать, что непрерывные функции заданы, то единственный эффективный способ конструирования новых функций состоит в предельных переходах. Оказывается, все наши потребности будут удовлетворены, если мы будем знать, как обращаться с функциями, являющимися пределами последовательностей {/„[ непрерывных функций или пределами последовательностей, в которых каждая /„ является таким пределом и т. д. Иными словами, нам интер?сен класс 23 функций, облгдающий следующими свойствами: 1) каждая непрерывная функция принадлежит 23 и 2) если функции Д, /2, ... принадлежат 23 и предел / (х) = lim /„ (х) существует при всех х, то / тоже принадлежит 23. Такой клчсс называется замкнутым относительно поточечных пределов. Ясно, что такие классы существуют, например класс всех функций. Пересечение всех таких классов является замкнутым семейством и образует, очевидно, наименьший такой класс. Разумно ограничить наши рассмотрения этим наименьшим классом. Наименьший, замкнутый класс функций, содержащий все непрерывные функции , называетсяклассом Бэра и будет обозначаться®. Функции из 23 называются бэровскими функциями 2). Понятие бэровской функции будет использоваться не только по отношению к функциям, заданным на всем пространстве, но и по отношению к функциям, определенным лишь на некотором подмножестве (например, \fx и logx в случае прострзнства Я1). Из данного определения ясно, что сумма и произведение двух бэровских функций тоже являются бэровскими функциями. Более того, если w—непрерывная функция от г переменных и /,,..., /,— бэровские функции, то функция ш (/,,...,/г) тоже бэровская. Заменяя w на w„ и переходя к пределу, можно показать, что вообще всякая бэровская функция от бэровских функций есть бэровская функция. Фиксация значений одной или нескольких переменных приводит опять к бэровской функции и т. д. Короче говоря, никакая из обычных операций над бэровскими функциями не выходит за пределы класса S3, и, следовательно, класс 23 представляет собой естественный объект для изучения. Оказывается, что никакого упрощения не достигается,! если ограничиться меньшими классами. вещественной прямой, т. е. их значения суть числа или ±оо. На практике значения ± ею не будут играть роли. Чтобы сумма и произведение двух функций были определены, вводят следующие соглашения: 00 + 00 = 00, оз —оо=0, ао-оо = оо, О.оо=0 и т. д. г) Это определение основано лишь из понятии непрерывности и не зависит от других свойств евклидовых пространств. Его, следовательно, можно перенести на лю5ое топологическое пространство.
128 Гл. IV. Вероятностные меры и пространства § 2. ФУНКЦИИ ИНТЕРВАЛОВ И ИНТЕГРАЛЫ В ft' Интервалом мы будем называть множество точек, удовлетворяющих двойному неравенству одного из следующих четырех типов (попутно вводятся очевидные обозначения): а, Ь: а < х < Ь а, Ь: а<х^.Ь, i 1 i— а, b: a^.x^.b a, b: а^х<й. В одномерном случае выписанные неравенства исчерпывают все возможные интервалы, включая вырожденный интервал нулевой длины. В двумерном случае эти неравенства понимаются в покоординатном смысле, и интервалы представляют собой (возможно< вырожденные) прямоугольники со сторонами, параллельными осям координат. При числе измерений, большем или равном дзум,. возможны и другие типы интервалов, однако мы их исключаем из рассмотрения. Допускается предельный случай, когда одна или более координат а или b равны ±оо. В частности, все пространство есть интервал —оо, оо. Функция точек / сопоставляет значения / (х) отдельным точкам. Функция множеств F сопоставляет значения отдельным множествам или г.бластям пространства. Объем в 3i\ площадь в 5i* или длина в 511 являются типичными примерами функций множеств. Помимо этих есть много других функций множеств, и среди них вероятности представляют собой наиболее интересный для нас частный случай. А\ы будем интересоваться лишь функциями множеств, обладающими следующим свойством: если множество А разбито на две части А1 и /42, то F[А] = F{Л,} + F\Аг\. Такие функции называются аддитивными1). Как мы видели, вероятности F\l\ часто определены для всех интервалов r-мерного пространства 51'., и их желательно доопределить на более общих множествах. Та же самая задача возникает в элементарном анализе, где площадь первоначально определена только для прямоугольников, и желательно определить ее для общей области А. Простейший подход состоит в том, что сначала определяется интеграл от функции двух переменных и затем «площадь А» приравнивается к интегралу от индикатора 1Л (т. е. к функции, равной 1 на А и обращающейся п нуль вне А). Аналогично мы определим интеграл Е(ы)= J u(x)F{dx\ (2.1) ') 1зог несколько примеров влдптннных (j)yni;nm"i из практики: мясса и количество тепла в области, цена земли, площадь под пшеницей и числе жителей a географичгском районе, ежегодная добыча угля, расстояние, которое пролетел пассажир, или 'тело израсьодопянных килгтатт-часиь в течение некоторого периода, число телефонных рызокоа и т, д.
§ 2. Функции интервалов и интегралы в Лг 129 от функции точек и по отношению к функции интервалов F. Вероятность А определяется затем как Е(1^). При построении интеграла (2.1) неважно, как интерпретируется функция F, и мы, по существу, дадим общее понятие интеграла Лебега—Стильтьеса. Приступим теперь к аккуратному выполнению намеченной программы. Пусть F—функция, сопоставляющая каждому интервалу / конечное значение F \1\. Такая функция называется (конечно) аддитивной, если для каждого разбиения интервала / на конечное число непересекающихся интервалов Iit ...,/„ FW^FilJ+.-.+FilJ. (2.2) Примеры, а) Распределения в id1. В первом томе мы рассматривали дискретные вероятностные распределения, сопоставляющие вероятности рх, рг, ... точкам ait a Здесь F {/} есть сумма масс рп во всех точках ап, содержащихся в /, и Е (и) = б) Если G—какая-либо непрерывная монотонная функция, возрастающая от 0 на —оо до 1 на оо, то можно положить F{aTb\ = G(b) — G(a). в) Случайные векторы в 3i!. Вектор единичной длины выходит из начала координат в случайном направлении. Вероятность того, что его конечная точка лежит в двумерном интервале /, пропорциональна длине дуги, по которой / пересекается с единичной окружностью. Определяемое здесь непрерывное распределение вероятностей не имеет плотно..ти. Оно сингулярно в том смысле, что вся вероятность сосредоточена на окружности. Можно думать, что такие распределения искусственны и что в рассматриваемом случае скорее окружность, а не плоскость должна быть естественным выборочным пространством. Это возражение неосновательно, поскольку сумма двух таких независимых случайных векторов может принять любое значение между 0 и 2, и имеет положительную плотность в круге радиуса 2 (см. V, пример 4, д)). Следовательно, в некоторых задачах, связанных с единичными случайными векторами, плоскость является естественным выборочным пространством. Во всяком случае, нашей целью было только показать на простом примере, что может происходить в более сложных ситуациях. г) В заключение приведем пример, иллюстрирующий одно обстоятельство, которое будет исключено в дальнейшем. В пространстве Я1 положим F{I\ = Q для любого интервала I = a, b с b < оо и F{I} = 1, когда / = я, оо. Так определенная функция интервалов, будучи аддитивной, является патологической в том смысле, что она не удовлетворяет естественному требованию непрерывности, согласно которому F [а, Ь\ должно стремиться к F{а, оо} при Ь—►оо. р> * j\n ь'.Ь
130 Гл. IV. Вероятностные меры и пространства Последний пример показывает, что желательно усилить требование (2.2) конечной аддитивности. Л\ы скажем, что функция интервалов F счетно- или а-аддипшвна, если для каждого разбиения интервала I на счетное число интервалов 1и /„, ... /■'{/}=2^{/*1- " (2-3) «Счетное число» обозначает либо конечное число, либо бесконечное счетное число. Термины «вполне аддитивная» и «счетно-аддитивная» означают одно и то же. Условие (2.3) явно нарушено в последнем примере. В дальнейшем мы будем рассматривать только счетно-аддитивные функции множеств. Это ограничение, с одной стороны, позволяет успешно развить теорию, а с другой—может быть оправдано a priori на эвристической и прагматической основе. В самом деле, если i4„ = /1L) ■ ■ ■ U /,, есть объединение первых п интервалов, то Ап—► /. Можно считать, что «при достаточно большом л Ап практически неотличимо от /». Если значения функции F могут быть найдены из экспериментов, то F \Ап\ должно быть «практически неотличимо» от F{I), т. е. F \Ап\ должно стремиться kF\I}1). Счетная аддитивность (2.3) и есть точное выражение этого требования. Поскольку нас интересуют в первую очередь вероятности, мы ограничимся рассмотрением лишь неотрицательных функций интервалов F, нормированных условием F{—оо, оо} = 1. Требование нормированное™ не накладывает никаких серьезных ограничений, когда F\—оо, оо}<оо, однако исключает такие функции интервалов, как длина в .'Я1 или площадь в ZA1. Чтобы использовать излагаемую ниже теорию в подобных случаях, достаточно разбить прямую или плоскость на единичные интервалы и рассматривать их по отдельности. Этот прием так очевиден и настолько хорошо известен, что не требует никаких дальнейших пояснений. Функция на tAr называется ступенчатой функцией, если она принимает лишь конечное число значений, причем каждое значение на некотором интервале. Пусть ступенчатая функция и принимает значения alt ..., аП на интервалах Ilt ..., /„ (т. е. с вероятностями F]^}, ..., F{In\) соответственно. По аналогии с определением математического ожидания дискретных случайных величин положим E(u) = a1F{I1\+...+anF{Ia\. (2.4) [Конечно, разбиение пространства на интервалы, на которых функция и постоянна, не единственно, однако, как и в дискретном случае, легко видеть, что определение (2.4) не зависит от разбиения.] Математическое ожидание Е (и) обладает следующими свойствами: ') См. Колмогоров Л.Н. Основные понятии теории вероятностей, изд, 2, М,, 1975, стр. 27,—Прим, перса,
$ 7. Функции инт*р*алоа и интегралы в Э1Г '31 а) Аддитивностью относительно линейных комбинаций: Е («,«, + B.HJ = а,Е («,) + *гЕ (и,). (2.5) б) Положительностью: если и>0, то Е(н)^0. (2.6) в) Нормированностью: для функции, равной во всех точках 1, Е(1) = 1. (2.7) Последние два свойства эквивалентны теореме, о среднем значении', если а^и^Р, то а^Е(ы)^р\ тзк что функция Е (и) представляет собой один из видов среднего значения1). Теперь задача состоит в том, чтобы продолжить определение Е(ы) на более широкий класс функций с сохранением свойств (а) — (в). В классическом интегрировании по Риману используется тот факт, что для каждой непрерывной функции м на О, I существует последовательность ступенчатых функций и„, для которой ип—»и равномерно на 0, 1. По определению полагают Е(ц)= = IimE(un). Оказывается, что требование равномерной сходимости необязательно, и то же самое определение Е (и) можно использовать, когда сходимость и„—>ы лишь поточечная. Таким способом Е (и) можно продолжить на все ограниченные бзровские функции, и это продолжение единственно. При распропранении Е(ы) на неограниченные функции неизбежно появляются расходящиеся интегралы, однако, по крайней мере для положительных бэровских функций, можно определить Е (и) либо как число, либо как символ оо (указывающий расходимость). Никаких неприятностей в связи с этим не возникает, поскольку в лебеговской теории интегрирования рассматривается лишь абсолютная интегрируемость. Грубо говоря, исходя из определения (2.4) математического ожидания для простых функций, можно доопределить Е (и) для произвольных бэровских функций, используя очевидные приближения и переходы к пределу. Так определенное число Е (и) есть инте- J) Когда функция F эрдаст вероятности, среднее Е (и) можно интерпретировать как ожидаемый кышрыш игрока, возможные выигрыши которого суть aj, a Чтобы интуитивно осознать смысл среднего в других ситуациях, рассмотрим три примера, в которых и (дг) является соответственно температурой во время л-, числом телефонных разговоров во время х, расстоянием материальной точки от начала координат, a F представляет собой соответственно длительность временного интервала, цену временного интервала (цену разговора) и механическую массу. В каждом случае интегрирование производится лишь по конечному интервалу и Е (//) есть соответственно средняя температура, накопленный доход и статический момент. Чти примеры показывают, что определенное нами интегрирование по отношению к произвольной функции множеств проще и нагляднее, чем интегрирование по Риману, и котором независимая переменная играет несколько ролей и интерпретация как «площадь под кривой» ничуть не помогает начинающему. Следует иметь в виду, что понятие среднего (математического ожидания) встречается не только в теории вероятностен. 5*
132 Гл. IV. Вероятностные меры и пространства грал Лебега—Стильтьеса от функции и по отношению к F. (Когда функция F фиксирована, более предпочтителен термин «математическое ожидание? — никаких двусмысленностей при этом не возникает.) Ниже приводится без доказательства1) основной факт лебеговской теории; его природа и значение будут проанализированы в следующих параграфах. [Конструктивное определение Е (и) дается в § 4.] Основная теорема. Пусть F—счетно-аддитивна я функция интервалов в Э1Г и F\—оо, оо} = 1. Существует единственный интеграл Лебега—Стильтьеса Е(и) на классе бэровских функций, обладающий следующими свойствами: Если н2? 01 то Е (и) равно либо неотрицательном у числу, либооо. В аучае произвольного и Е (н) существует тогда и только тогда, когдалибоЕ (ц+), либо Е(н~) конечно; при этом Е(и) —- Е(и+) — Е(и~). Функция и называется интегрируемой, если Е (и) конечно. Далее (i) если и—ступенчатая функция, то Е (н) дается формулой(2А); (и) условия (2.5)—(2.7) выполняются для всех интегрируемых функций; (iii) (принцип монотонной сходимости) если и^^.иг^... .—>и и иа интегрируемы, то Е(и„)—*Е(и). Сделав замену переменных w„ = uH+I—ип, можно переформулировать принцип монотонной сходимости в терминах рядов: Если vn интегрируемы и v„ ^ 0, то SE(0 = E(S»«). (2.8) причем обе стороны равенства конечны или бесконечны одновременно. Отсюда, вчастности, следует, что если а^и^О и Е(и)=оо, то также Е (у) = оо. Что будет, если в (iii) условие монотонности отбросить? Ответ на этот вопрос содержится в следующей важной лемме, имеющей широкую область применений. Лемма Фату. Если ип ^ 0 и ип интегрируемы, то Е (lim inf un) < lim inf Е(н„)- (2.9) В частности, если ип—>и, то lim inf Е («J ^ Е (н). Доказательство. Положим &„ = "„ П»,1+] П .. ■ . Тогда у„<»„ и, следовательно, Е (и„) < Е (»„). Но (как мы видели в § 1) vn монотонно стремится к lim inf «„, так что E(vn) стремится к левой части в (2.9) и лемма доказана. [Отметим, что обе стороны неравенства (2.9) могут быть равны оо.] ► 1) Метод доказательства напечен л 5 5 Клк пешчпп ;/* и и~ иГюэначагат положительную и отрицательную части и, т. е. и* =u\J0 и —и~=иГ)0. Очевидно! и=и+— и~.
§ 2. Функции интервалов и интегралы в 51' 133 Приводимый ниже пример д) показывает, что условие положительности не может быть отброшено, однако его можно заменить на формально более слабое условие, состоящее в том, что существует интегрируемая функция U, для которой un~^V (достаточно заменить ип на и„—И). Заменяя и„ на —и„, устанавливаем следующий результат: если un<.U и Е(£/)<оо, то HmsupE (un)<E(limsupun). (2.10) Для сходящихся последовательностей левая часть неравенства (2.9) совпадает с правой частью неравенства (2.10), и мы получаем следующий важный Принцип мажорированной сходимости. Пусть и„ интегрируемы и ип—-и поточечно. Если существует интегрируемая функция U', такая, что | ип | ^ U при всех п, то и интегрируема и Е \ип) — ■* Е (и). Эта теорема относится к единственному месту в лебеговской теории интегрирования, где наивные формальные действия могут привести к неверному результату. Необходимость условия |м„|г^£/ иллюстрируется нижеследующим примером. i 1 Пример, д) Рассмотрим 0, 1 в качестве исходного интервала и определим математическое ожидание с помощью одномерного интеграла (по отношению к длине). Положим ип (х) — (/> -\-1) (» -\- 2) х Ххп(1—х). Эти функции стремятся к нулю в каждой точке, но 1 = Е (н„)—у\. Заменяя ип на —и,„ видим, что нерявеиство Фату (2.9) может не выполняться для неположительных функций. ► Отметим без доказательства одно правило обычного интегрального исчисления, применимое и в более общей ситуации. Теорема Фубини о повторных интегралах. Если и^О — бэров- екая функция и Е, G—вероятностные распределения, то с очевидной интерпретацией в случае расходящихся интегралов имеет место равенство CD 00 X ОС J F{dx\ J n(x, y)G{dy\= J G[dy\ J и (.*, y)F{dx\. — CP — CO —CO — CO (2.11) Здесь хну можно понимать как точки в Я'" и Si", и теорема содержит в себе утверждение, что оба внутренних интеграла суть бэровские функции. (Эта теорема применима к произведению произвольных пространств, и более общий ее вариант приводится в §6.) »> Теорема об аппроксимации в среднем. Для всякой интегрируемой функции и и любого е > 0 можно найти ступенчатую функцию v, такую, что Е(|ы—а|)<е.
134 Гл. IV. Вероятностные меры и пространства Вместо ступенчатых функций можно использовать аппроксимацию посредством непрерывных функций или посредством функций, бесконечное число раз дифференцируемых и равных нулю вне некоторого конечного интервала. [Сравните с теоремой об аппроксимации из примера VIII, 3, а).] Замечание об обозначениях. Обозначение Е (и) подчеркивает зависимость от и и хорошо применимо в тех случаях, когда функция интервалов F фиксирована. Если F меняется или нужно подчеркнуть зависимость от F, то предпочтительнее интегральное обозначение (2.1). То же самое относится к интегралам по подмножеству Л, поскольку интеграл от и по подмножеству А есть (по определению) интеграл от произведения \Аи по всему пространству \u{,t)F\dx) = l{\Au) А (при этом предполагается, конечно, что индикатор 1^ есть бэров- ская функция). Обе части выписанного равенства означают в точности одно и то же, причем выражение, стоящее в левой части, подчеркивает зависимость от F. Когда А = а, Ь есть интервал, ь иногда предпочитают обозначение \ , однако чтобы сделать его а точным, необходимо указать, включаются ли в интервал его конечные точки. Это можно сделать, используя запись а+ или а—. ^ В соответствии с намеченной в начале этого параграфа программой вероятность множества А полагается теперь, по определению, равной Е(\л) для всех множеств, для которых 1^ есть бэровская функция. Для множеств, не обладающих чтим свойством, вероятности не определяются. Теперь мы обсудим следствия из данного определения в более общей ситуации произвольного выборочного пространства. § 3. о-АЛГЕБРЫ. ИЗМЕРИМОСТЬ В дискретном случае можно было определить вероятности для всех подмножеств выборочного пространства й, однако в общем случае это или невозможно, или нежелательно. В предыдущих главах мы рассматривали специальный случай евклидовых пространств ?АГ и начинали с того, что приписывали вероятности всем интервалам. В § 2 было показано, что такое определение вероятностей может быть естественным образом распространено на более широкий класс множеств Si. Основные свойства этого класса таковы:
§ 3. а-алгебры. Ивмеримость 13Д (i) Если множество А принадлежит 81, то SI принадлежит также его дополнение /Г = 2 — А. (ii) Для произвольной счетной системы \Ап\ множеств из Я объединение и Лп и пересечение п Ап множеств Ап также принадлежит 5М. Короче говоря, класс 9[ замкнут относительно образования счетных объединений и пересечений, а также дополнений. Как было показано в § 1, отсюда также следует, что верхний и нижний пределы любой последовательности \Ап\ множеств из St снова принадлежат §{. Иными словами, ни одна из известных операций, производимых над множествами из 91. не приведет нас к множествам, лежащим за пределами Ш, и поэтому не возникает необходимости рассматривать какие-либо другие множества. Эта ситуация типична настолько, что вообще вероятности будут приписываться только классу множеств со свойствами (i) и (ii). Введем поэтому следующее определение, которое применимо к произвольным вероятностным пространствам. Определение 1. а-алгеброй1) называется семейство 21 подмножеств данного множества @, обладающее свойствами (i) и (ii). Для любого заданного семейства % подмножеств © наименьшая а-алгебра, содержащая все множества из $, называется а-алгеброй, порожденной jj. В частности, множества, порожденные интервалами из А', называются борелевскими множествами в Яг. В том, что наименьшая а-алгебра, содержащая 3\ существует, можно убедиться с помощью рассуждений, используемых при определении бэровских функций в § 1. Заметим, что любая а-алгебра содержит пространство ©, поскольку © представимо в виде объединения любого множества А и его дополнения. Примеры. Наибольшая а-алгебра содержит все подмножества ©. Эта алгебра была нам очень полезна в дискретных пространствах, однако в общем случае она слишком обширна, чтобы ее можно было использовать. Другим крайним случаем является тривиальная алгебра, состоящая только из всего пространства и из пустого множества. В качестве нетривиального примера рассмотрим множества на действительной прямой, обладающие тем свойством, что если х£А, то все точки х±1, х±2, ... тоже принадлежат А (периодические множества). Очевидно, семейство таких множеств образует а-алгебру. ► 1) Алгебра множеств определяется аналогичным образом, но с заменой слова «счетный» в (ii) на слово «конечный», o-алгебру иногда называют «бо- релевской алгеброй!, но это ведет к противоречию с последней частью данного определения. (Интервалы в этом определении можно заменить на открытые множестпс, и тогда это определение применимо к произвольным топологический пространствам.)
136 Гл. IV. Вероятностные миры и пространства Паш опыт подсказывает нам, что главный объект теории вероятностей—это случайные величины, т. е. некоторые функции, определенные пи ныборочном пространстве. Мы хотим связать с каждой случайной величиной ее функцию распределения, и для этого нам нужно, чтобы событие {Х^/} имело бы определенную вероятность. Это рассуждение приводит нас к следующему определению. Определение 2. Пусть Ш.—произвольная а-алгебра подмножеств ©. Действительная функция и, определенная на ©я называется §(-измеримой1), если для любого действительного t множество всех точек х, для которых u[x)^t, принадлежит 3L Множество точек х, для которых ы(х)</, представляет собой объединение счетной совокупности множеств с тем свойством, что н(х)^^—п'1, и поэтому оно принадлежит 31. Так как 91 замкнуто относительно взятия дополнения, то отсюда следует* что в определении 2 знак ^ может быть заменен на <, > или ^. Из определения следует, что 91-измеримые функции образуют замкнутое семейство в том смысле, который указан в § 1. Следующая простая лемма часто оказывается полезной. Лемма 1. Функция и ^.-измерима тогда и только тогда, когда она является равномерным пределом последовательности простых функций, т. е. таких функций, которые принимают только счетное число значений, причем каждое на множестве из 3L Доказательство. По определению любая простая функция 91 измерима. Вследствие замкнутости класса 21-измеримых функций любой предел последовательности простых функций снова является Щ-измеримой функцией. Обратно, пусть и — Й-измеримая функция. При фиксированном е > 0 определим множество Ап как множество всех точек х, для которых (п—1)б < ы (х)^яе. Здесь целое п меняется от —оо до оо. Множества Ап взаимно исключают друг друга, а их объединение составляет все пространство ©. На множестве Ап определены аЕ(х) = (п—1)е и аЕ(х) = ПЕ. Этим путем мы получим две функции аЕ и аЕ) определенные на © и такие, что аЕ^и^.аЕ, аЕ—аЕ = в (3.1) во всех точках х. Очевидно, что и есть равномерный предел ае и аЕ при в—1-0. Лемма 2. В iAr класс бэровских функций тождествен классу функций, измеримых относительно а-алгебры Щ борелевских множеств. М Ипю.иазошшие этого термпил, по существу, преждевременно, поскольку mi'ji.i еще не «недели.
§ 3. а-алгвбры. Измеримость 137 Доказательство, (а) Очевидно, что любая непрерывная функция измерима по Борелю. Далее, эти функции образуют замкнутый класс, тогда как бэровские функции образуют наименьший класс, содержащий все непрерывные функции. Таким образом4 всякая бэровская функция измерима по Борелю. (б) Предыдущая лемма показывает, что для обратного утверждения достаточно показать, что любая простая измеримая по Борелю функция является бэровской функцией. Это равносильно утверждению, что для всякого борелевского множества А индикатор \А является бэровской функцией. Таким образом, борелев- ские множества могут быть определены следующим образом: множество А является борелевским тогда и только тогда, когда era индикатор \А принадлежит наименьшему замкнутому классу, содержащему все индикаторы интервалов. Поскольку бэровские функции образуют замкнутый класс, содержащий все индикаторы интервалов1), то отсюда вытекает, что 1^ есть бэровская функция для любого борелевского множества А. |> Применим этот результат в частном случае евклидова пространства Яг. В § 2 мы начинали с вполне аддитивных функций интервалов и определяли Р\А\ = Е (1А) для каждого множества Л, индикатор \А которого есть бэровская функция. Из предыдущего видно, что при такой процедуре вероятность Р {А\ определена тогда и только тогда, когда А есть борелевское множество. Аппроксимация борелевских множеств интервалами. Ввиду последнего замечания вероятности в Э\.г > как правило, определяются на а-алгебре борелевских множеств. Поэтому важно то, что любой борелевское множество А может быть аппроксимировано множеством В, состоящим из конечной совокупности интервалов. Точнее, для любого б > 0 существует множество С, такое, что Р {С} < в и вне С множества А и В совпадают (г. е. точка из дополнения С либо принадлежит А и В одновременно, либо не принадлежит ни тому, ни другому множеству. В качестве С можно взять объединение А — АВ и В—АВ). Доказательство. В силу георемы об аппроксимации в среднем из § 2 существует ступенчатая функция 1'ЗгО, для которой Е (| 1/—о|) < е/2. Возьмем в качестве Д множество таких точен х. в которых v {x) > 1/2. Поскольку v—ступенчатая функция, то В состоит из конечного числа интервалов. Легко проверить, что Е I \А (*)-1Я М I <2Е | 1Д М-в М |< в при всех х. Но | \А — 1д| есть индикатор множества С, состоящего из всех точек, котрые принадлежат либо /, либо в, ко не обоим этим множествам одновременно. Из последнего неравенства следует, что Р {С} < в, и на этом докизлте.чьгтво завершается. М Чтобы убедиться в этом для открытого интервал.! /, определим с как непрерывную функцию, равную нулю вне / и такую, что 0 < и (х) <i 1 при v£/. Тогда у~й—» 1/.
138 Гл. IV. Вероятностна меры и пространства % 4. ВЕРОЯТНОСТНЫЕ ПРОСТРАНСТВА. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ Мы теперь в состоянии описать общую конструкцию, используемую в теории вероятностей. Каково бы ни было выборочное пространство S, вероятности будут приписываться только множествам соответствующей ст-алгебры 31. Поэтому начнем со следующего определения. Определение 1. Вероятностной, мерой Р на а-алгебре 81 подмножеств © называется функция, наделяющая каждое множество А £ 91 числом Р {А\ ^ 0, таким, что Р {&} = 1, и для любого счетного семейства взаимно непересекающихся множеств Ап из 81 выполняется равенство P{u/U = 2P{>u. (4-1) Это свойство называется вполне аддитивностью, и вероятностная мера может быть описана как вполне аддитивная неотрицательная функция множества на 81, подвергнутая нормировке1) Р|©}=«1. В отдельных случаях можно выбрать подходящую ст-алгебру и построить на ней вероятностную меру. Эти процедуры меняются от случая к случаю, и невозможно отыскать общий метод. Иногда можно приспособить подход, используемый в § 2, для построения вероятностной меры на борелевских множествах пространства "АГ. Типичный пример дает последовательность независимых случайных величин (§ 6). Исходным пунктом любой вероятностной задачи служит выборочное пространство, в котором выбрана сг-алгебра с соответствующей вероятностной мерой. Это приводит к следующему определению. Определение 2. Вероятностным пространством называется тройка (8, 81, Р), состоящая из выборочного пространства ©, а-алгебры 81 подмножеств 2 и вероятностной меры Р на У1. Конечно, не любое вообразимое вероятностное пространство представляет собой интересный объект, однако данное определение включает в себя все, что требуется для формального развития теории, следуя схеме первого тома, и было бы бесплодным обсуждать заранее типы вероятностных пространств, которые могут встретиться на практике. Случайные величины суть функции, определенные на выбороч- 1) Условие Р{©}=1 вводится лишь для нормировки, и никаких существенных изменений не произойдет, если его заменить на Р {©} < со. В этом случае мы получаем пространство с конечной мерой. В теории вероятностей п связи с различными обстоятельствами возникают ситуации, когд-: Р {•£} < 1. В этом случае Р называют несобственной вероятностной мерой. Даже условие Р {©} < оо может быть ослаблено: можно потребовать лишь, чтобы £ было объединением счетного числа подмножеств @„, для которых Р {Е„} < м. (Типичными примерами являются длина и площадь.» Такие Mejbi называют о-ко- нечными.
§ 4. Вероятностные пространства. Случайные величины 139 ном пространстве, но в теории вероятностей используются только те функции, для которых можно определить функцию распределения. Определение 2 в ^ 3 было введено и как раз применительно к этой ситуации и приводит к определению 3. Определение 3. Случайной величиной X называется действительная функция, которая измерима относительно исходной а-алгебры §L Функция F, определенная равенством F(t) = P{X^t}, называется функцией распределения случайной величины X. Исключение из рассмотрения функций, не являющихся случайными величинами, возможно в силу того, что, как мы сейчас увидим, все обычные операции, такие, как вычисление сумм или других функций, переходы к пределу и т. д., могут быть произведены внутри класса случайных величин без выхода за его границы. Прежде чем выразить это более точно, заметим, что случайная величина X отображает выборочное пространство @ в действительную прямую Я1 таким образом, что множество из S, для кото- 1 рого ы<Х^й, отображается в интервал и, Ь с соответствующей вероятностью F (b) — F(a). Следовательно, каждый интервал / из Я1 получает вероятность F\l\. Вместо интервала / можно взять произвольное борелевское множество Г в Я1 и рассмотреть множество А таких точек из ©, для которых значение X принадлежит Г. Символически <4 = {Х£Г}. Ясно, что система всех таких множеств образует а-алгебру Slj, которая может совпадать с 81, но обычно меньше. Будем называть 31, а-алгеброй, порожденной случайной величиной X. Ее можно описать как наименьшую а-алгебру в ©, относительно которой X измерима. Случайная величина X отображает всякое множество из 9ij в борелевское множество Г на прямой .'Л1, и, следовательно, соотношение F {Г\ = Р {А} определяет единственную вероятностную меру на а-алгебре борелевскнх множеств Я1. Для интервала 1 = а, Ь имеем F(I) = F(b) — F(а), и потому F совпадает с единственной вероятностной мерой в Я1, которая связана с функцией распределения F так, как описано в § 2. Эти рассуждения показывают, что, пока мы имеем дело с какой- либо отдельной случайной величиной X, мы можем забыть о первоначальном выборочном пространстве и делать вид, что вероятностное пространство есть прямая 54' с а-алгеброй борелевских множеств на нем и с мерой, индуцированной посредством функции распределения F. Мы видим, что в Я1 класс бэровских функций совпадает с функциями, измеримыми по Борелю. Выбор Я1 в качестве выборочного пространства означает, что класс случайных величин совпадает с классом функций, измеримых по Борелю. По отношению к исходному выборочному пространству это означает, что семейство бэровских функций от случаи ной величины X совпадает а семейством всех функций, которые измеримы относительно
140 Гл. IV. Вероятностные меры и пространства а-алгебры ^1,, порожденной X. Поскольку -Л,с:?^,то отсгадл следует, что любая ГЬровская функция X снова является случайной величиной. Эти доводы переносятся без изменения на конечные совокупности случайных величин. Таким образом, вектор (Л11 ..., Хг) отображает 2 в ?АГ так, что открытому интервалу в ZAT соответствует множество в 2, для которого имеют место г соотношений вида ak < Xft < Ьк. Это множество 91-нзмеримо, так как оно является пересечением г таких множеств. Как и в случае одиночной случайной величины, можно определить а-алгебру 311т порожденную Xj, ..., X,, как наименьшую а-алгебру множеств из S, относительно которой г случайных величин измеримы. Получаем основную теорему. Теорема. Любая бэровская функция от конечного числа случайных величин тоже есть случайная величина. Случайная величина U является бэровской функцией переменных Х2 X,, если она измерима относительно а-алгебры, порожденной Xj, ..., \Т. Примеры, а) На прямой 511 с X как координатной случайной величиной функция Xz порождает а-алгебру борелевских множеств, которые являются симметричными относительно начала координат (в том смысле, что если х£А, то и —х£А). б) Рассмотрим 5i:J с координатными случайными величинами Х2, XZI Хп и а-алгеброп борелевских множеств. Пара (\lt X2) порождает семейство всех цилиндрических множеств с образующими, параллельными третьей оси, и основаниями, которыми служат борелевскпе множества на (Xlt Х^-плоскости. ► Математические ожидания В § 2 мы начинали с функции интервалов в fhr и использовали ее для построения вероятностного пространства. Там мы считали, что удобно сначала определить математические ожидания (интегралы) и затем определить пероятиости бореленского множества А как математические ожидание Е(1,,) его индикатора. Если начинать с вероятностного пространства, то процедура должна быть обратной: вероятности заданы и нужно определить математические ожидания случайных величин в терминах данных вероятностей. К счастью, эта процедура крайне проста. Как и в предыдущем параграфе, мы будем говорить, что случайная величина U является простой, если она принимает только счетное число значений alt а, каждое на множестве А-, принадлежащем основной а-алгебре 51. К таким случайным величинам применима дискретная теория первого тома, и мы определим
§ 4. Пгроятшюпнмг прчстрапстйа. Случайные величины 141 математическое ожидание U равенством E(Uj = 2efcP{^ (4.2) при условии, что ряд сходится абсолютно, в противном случае мы скажем, что U не к\:еет математического ожидания. Для любой случайной величины II и произвольного числа с > О мы определили в (.1.1) две простые случайные величины аЕ и аЕ, такие, что а^ = ан-\-Е и o^^L^a . При любом разумном определении Е (U) E(aJ<c-.(lJ)^F.(a.), (4.3) всякий раз когда величины о. и at. имеют математические ожидания. Так как яти функции отличаются не более чем на к, то либо зто же справедливо для их математических ожиданий, либо эти математические ожидания не существуют. В последнем случае мы говорим, что U не имеет математического ожидания, тогда как в первом случае E(U) определяется однозначно из (4.3) переходом к пределу при е—»-0. Короче, поскольку любая случайная величина U представляется равномерным пределом последовательности простых случайных величин а„, то математическое ожидание U может быть определено как предел Е (а„). Например, в терминах аЕ имеем E(U)= lira 2лвР{(п—1)е<и<лв} (4.4) при условии, что ряд сходится абсолютно (при некотором, а потому и при всех е>0). Далее, вероятности, входящие в (4.4), совпадают с вероятностями, которые приписываются интервалам (п—1)е, яе с помощью функции распределения F случайной величины U. Отсюда следует, что при таком изменении обозначений наше определение Е (U) сводится к определению, данному в § 2: + я E(U)= J tF{dt\. (4.5) — я Таким образом, Е (U) можно корректно определить либо непосредственно в исходном вероятностном пространстве, либо в терминах функции распределения. (То же замечание было сделано в 1; гл. IX, для дискретных случайных величин.) По этой причине излишне говорить, что в произвольных вероятностных пространствах математические пжплзини обладают основными свойствами математических ожиданий и Лг, введенных и § '2.
142 Гл. IV. Пгроятмхтные ме.ры и пространства § ii. iLOCLMA О ПРОДОЛЖЕНИИ При построении вероятностных пространств вероятности обычно определены a priori на не очень богачом классе множеств, и требуется подходящим образом расширить их область определения. Например, при рассмотрении в первом томе бесконечных последовательностей испытании и рекуррентных событий были заданы вероятности всех событии, зависящих от конечного числа испытаний, и эту область определения вероятностей требовалось расширить так, чтобы включить такие события, как разорение, возвращение и полное вырождение. Аналогично при построении в § 2 мер в 31' сначала наделялись вероятностями F \1\ интервалы, а затем область определения продолжалась до класса всех борелевских множеств. Такое продолжение возможно благодаря теореме, имеющей значительно более широкую область применения и на которой основываются многие конструкции вероятностных пространств. Схема рассуждения состоит в следующем. Аддитивность F позволяет однозначно Определить F\A\ = 2F\lk\ (5-1) для любого множества А, являющегося объединением конечного числа непересекающихся интервалов 1к. Эти множества образуют алгебру ?1ц (т. е. объединения и пересечения конечного числа множеств из 31„, а также дополнения множеств из 81,, тоже принадлежат й0). Начиная с этого пункта, природа пространства Яг не играет никакой роли и можно рассматривать произвольную алгебру Ш.а множеств в произвольном пространстве ©. Всегда существует наименьшая алгебра й множеств, содержащая 81и и замкнутая относительно счетных объединений и пересечений. Иными словами, существует наименьшая а-алгебра 31, содержащая 310 (см. определение 1 из § 3). При построении мер в Яг а-алгебра ?( совпадала с а-алгеброй всех борелевских множеств. Расширение области определения вероятностей 21„ до 91 основываетая на следующей общей теореме. Теорема о продолжении. Пусть ЗД„—произвольная алгебра множеств в некотором пространстве ©. Пусть F—определенная на й0 функция множеств, такая, что F\A\^0 при всех /4g\JlD, F \Щ = 1, и, кроме того, соотношение (5.1) выполняется для любого разбиения А на счетное число непересекающихся множеств /А£*Д„. Тогда существует единственное продолжение F до счетно-аддитивной функции множеств (т. е. до вероятностной меры) на наименьшей а-алгебре Щ, содержащей $LU. В следующем параграфе будет приведен типичный пример применения этой теоремы. Теперь мы обратимся к более общему и гибкому варианту теоремы о продолжении, ближе примыкающему к рассмотрениям 5 2 и 3. Мы исходили из математического ожидании (2.4) для ступенчатых функций (т. е. функций, принимающих
$ Г>. Тгпргма о продолжении 143 лишь конечное число значений, причем каждое из значений—на некотором интервале). Область определения этого математического ожидания была затем продолжена с довольно бедного класса ступенчатых функций на более широкий класс, включающий все ограниченные бэровекпе функции. Указанное продолжение непосредственно приводит к интегралу Лебега — Стильтьеса, и мера множества А получается как математическое ожидание его индикатора 1^. Наметим соответствующую абстрактную схему. Рассмотрим вместо алгебры множеств ?'(„ класс функций 2Э0, замкнутый относительно линейных комбинаций и операций Л и U ■ Иными словами, предполагается, что если функции ut и иг принадлежат Э3„, то функция а^+а,^, и,П">. "i U и* (5.2) тоже принадлежат Э30 J). Отсюда, в частности, следует, что всякая функция и из 330 может быть записана как разность двух неотрицательных функций, именно и = и+ — и~, где и+=и[)0 и и~ = = (—и) П 0. Под линейным функционалом Е на 930 понимается сопоставление значений Е (и) всем функциям из Э3„ с выполнением условия Е (а,н, + out,) = a,E (и,) + а2Е (н,). (5.3) Функционал Е называется положительным, если Е(м)^0 при tt^O. Нормой Е называется верхняя грань значений Е (| и |) по всем функциям ft £ !\, удовлетворяющим условию |м|^1. Если функция, равная всюду 1, принадлежит 330, то норма Е равна Е(1). Наконец, скажем, что Е счетно-аддитивен на 230, если /СО \ 0О e(2"«) = 2e(u*) (5-4) всякий раз, когда J] "* принадлежит 230!). Условие счетной аддитивности эквивалентно следующему: если \va\ — последовательность функций из 930, сходящаяся монотонно к нулю, то:|) Е(1/я) —0. (5.5) Для каждого заданного класса функций И„ существует наименьший класс 23, содержащий 230 и замкнутый относительно переходов к пределу в смысле поточечной сходимости. [Класс 33 автоматически J) Наши предположения равносильны требованию, чтобы класс 5Ро был линейной структурой. J) Здесь следует добавить требование к^5г0, иначе последующее утверждение неверно.— Прим. перев. 3) Для докаэательствп эквивалентности (5.4) и (5.5) достаточно рассмотреть случай н^О, uft5=0. Тогдл (5.4) следует из (5.5), если положить 1'я = ня+1-|-Ия+з+. ■., и (5.5) вытекает из (5.4), если положить iik --вц — uj,+ (при ЭТОМ ^,«A = Uj[).
144 Гл. IV. Верпшностные меры и пространства замкнут относительно операций (5.2).] Дадим теперь другую формулировку теоремы о продолжении1). Каждый положительный счетно-аддитивный линейный функционал нормы 1 на 330 может быть единственным образом продолжен до положительного счетно- аддитивного линейного функционала нормы 1 на веек ограниченных (и многих неограниченных) функциях из 23. В качестве примера применения этой теоремы докажем следующий важный результат. Теорема Ф. Рисса о представлении2). Пусть Е—положительный линейный функционал нормы 1 на классе всех непрерывных функций на ЗГ, обращающихся в нуль на бесконечности3). Существует мера Р на а-алгебре борелевских множеств, для которой Р \Э1Г\ = 1 и такая, что Е (и) совпадает с интегралом от и по Р. Иными словами, определенные нами интегралы дают представление наиболее общих положительных линейных функционалов. Доказательство. В основе доказательства лежит тот факт, что если последовательность \va\ обращающихся в нуль на бесконечности непрерывных функций монотонно сходится к нулю, то сходимость эта автоматически равномерна. Пусть vn ^ 0, и обозначим ||y„J=maxu„(x). Тогда E(y„X|u„[|, и поэтому для Е выполнено условие счетной аддитивности (5.5). В силу теоремы о продолжении Е можно продолжить на все ограниченные бэровские функции. Положив Р{Л}=Е(1/), получаем меру наст-алгебре борелевских множеств. Как мы видели, по заданной мере Р \А\ интеграл Лебега—Стильтьеса однозначно определяется с помощью двойного 2) Основная идея доказательства (восходящая к Лебегу) проста и остроумна. Нетрудно видеть, что если две последовательности {/<„} и \и'п\ функций из 59о сходятся монотонно к одному и тому же пределу и, то последовательности Е (и„) п Е (ип) тоже сходятся к одному и тому :кс пределу. Для таких монотонных пределен и можно, следовательно, определить Е (и) =lim E («„). Рассмотрим теперь класс 5Bj функций н, для которых при любом в > 0 существуют две функции и и м, либо принадлежащие SB0, либо являющиеся монотонными пределами последовательностей из Во и такие, что и < и < и, Е (к)— Е (и) < е. Класс SBi замкнут относительно переходов к пределам, и для функций из SBf значение Е (к) определяется очевидным образом, поскольку должно быть Е (и) < Е (и) < Е (и). Замечательной особенностью этого рассуждения является следующее обстоятельство: обычно клисс !У| больше клясс- "Ц и простое доказательство оказывается возможным благодаря тому, что доказывается больше, чем требуется. (Относительно сравнении классов !У ;> i$] см. § 7.) 2) Эта теорема справедлива для произвольных локально компактных пространств. См. другое дсж;м 1тель:тпп п V, 1. л) и обращается в пуль m бесконечности, если для любого е > 0 существует ш.-.р (компактпие множество), вин которого ] и (л) | < в.
.? 6. Произведении пространств 145 неравенства (4.3). Следовательно, интеграл Лебега—Стнльтьеса по Р от обращающейся в нуль на бесконечности непрерывной функции и совпадает со значением на и заданного функционала Е(и). ► § 6. ПРОИЗВЕДЕНИЯ ПРОСТРАНСТВ. ПОСЛЕДОВАТЕЛЬНОСТИ НЕЗАВИСИМЫХ СЛУЧАЙНЫХ ВЕЛИЧИН Понятие прямого произведения пространств (1; гл. V, 4) является весьма важным в теории вероятностей и используется всякий раз, когда речь идет о повторных испытаниях. Представление точки плоскости 'Л3 посредством двух координат означает, что 51' рассматривается как прямое произведение двух своих осей. Обозначим две координатные переменные через X и Y. Рассматриваемые как функции на плоскости они представляют собой бэровскне функции, и если на ст-алгебре борелевских множеств в 51я определена вероятностная мера Р, то существуют две функции распределения Р {X ^ к) hP|Y<^}. Эти две функции распределения индуцируют вероятностные меры на обеих осях, называемые частными (маргинальными) распределениями (или проекциями). Здесь у нас в качестве первичного понятия появляется плоскость, однако часто более естественной является противоположная ситуация. Например, когда говорят о двух независимых случайных величинах с заданными распределениями, два частных распределения являются первичным понятием и вероятности на плоскости получаются из них с помощью «правила умножения». Общий случай ничуть не сложнее случая плоскости. Рассмотрим теперь два произвольных вероятностных пространства. Иными словами, нам заданы два выборочных пространства gpii) и 2>w, две ст-алгебры 2Р1 и SI'2' подмножеств S(l) и Sla) соот- нетственно и определенные на 3I11' и 3Ita> вероятностные меры Ptl1 и Pl2). Прямое произведение (3ll\ @lzl) есть множество всех упорядоченных пар (х(1\ х131), где х1П—точка пространства S1'1. Рассмотрим в этом произведении множества, являющиеся «прямоугольниками», т. е. прямые произведения (Л111, Л(2)) множеств Al»gJ[<i)i Множества такого вида мы наделяем вероятностями согласно правилу умножения: Р{Л(1\ АШ\ = РШ {АШ\РШ {Ат\. (6.1) Далее множества, представляющие собой конечные объединения непересекающихся прямоугольников, образуют алгебру ?{„, на которой с помощью (6.1) единственным образом определяется счетно- аддитивная функция. Таким образом по теореме о продолжении на наимень'ией а-алгебре, содержащей все прямоугольники, существует единственная вероятностная мера Р, такая, что вероятности прямоугольников задаются правилом умножения (6.1). Эта наименьшая, содержащая все прямоугольники а-алгебра обозначается
146 Гл. IV. йгроптног.тныг меры и прпстранспш 3Ill,xSl(z\ я определенная мера на ней называется произведением мер. Конечно, на произведении пространств мпжно определить и другие вероятности, например, в терминах условных вероятностей. Рассматриваемая ст-алгебра множеств 31 всегда будет не меньше ЭХ'^хЭД1", и в то же время за пределы ?{11|х?1131 приходится выходить весьма редко. Ниже в рассуждении о случайных величинах предполагается, что 31 = 31(ПXЭ11я1. Понятие случайной величины (измеримой функции) связано с соответствующей ст-алгеброй, и при рассмотрении произведений пространств мы должны различать случайные величины на произведении и на пространствах 21П и £12). К счастью, отношение между этими тремя классами случайных величин весьма простое. Пусть и и v—случайные величины на S'11 и 21г\ и рассмотрим на произведении пространств функцию w, которая в точке (хш, х1!)) принимает значение w(x{1\ x(») = и(x^1))o(xи,). (6.2) Покажем, что класс случайных величин на произведении пространств (S(1\ 2"1) совпадает с минимальным классом конечнозначных функций, замкнутым относительно поточечных переходов к пределу и содержащим все линейные комбинации функций айда (6.2). Ясно, во-первых, что каждый множитель в правой чисти (6.2) является случайной величиной и в том случае, когда он рассматривается как функция на произведении пространств. Следовательно, w есть случайная величина, и поэтому класс случайных величин на (2111, £12)) не меньше минимального класса, о котором говорилось выше. С другой стороны, случайные величины образуют наименьший класс, замкнутый относительно переходов к пределу и содержащий все линейные комбинации индикаторов прямоугольников. Эти индикаторы имеют вид (6.2), и, следовательно, класс случайных величин не больше минимального класса, о котором говорилось выше. Частный случай произведения двух пространств W и 54': с вероятностными мерами F и G неявно встречался н связи с теоремой Фубини (2.11) о повторных интегралах. Теперь мы можем утверждать справедливость более общей теоремы, относящейся не только к 5ЛГ. Теорема Фубини для произведений мер. Интеграл от любой неотрицательной бэровской функции и по произведению мер равен повторным интегралам из формулы (2.11). (При этом имеется н виду, что интегралы могут расходиться. Теорема оченидна для простых функций, а в общем случае получается с помощью повторной аппроксимации.) Обобщение на случай произведения трех и большего числа пространств вполне очевидно и не требует специплытмх пояснений. Обратимся теперь к проблеме бесконечных последовательностей
§ 6. Произведения пространств 147 случайных величин, с кишрой мы уже встречались в первом томе в связи с бесконечными последовательностями испытаний Бер- нулли, случайными блужданиями, рекуррентными событиями и т. д., а также в гл. Ill u связи с нормальными случайными процессами. Проблемы не возникает, когда имеется бесконечное множество случайных величин, определенных на заданном вероятностном пространстве. Например, действительная прямая с нормальным распределением есть вероятностное пространство и {sin их} есть бесконечная последовательность определенных на нем случайных величин. Нас интересует только та ситуация, когда вероятности должны быть определены в терминах заданных случайных величин. Более точно проблема состоит в следующем. Пусть 51°° — пространство, точками которого являются бесконечные последовательности действительных чисел (хи ха, ...) (т. е. Я" есть счетное прямое произведение действительных прямых). Обозначим п-ю координатную величину через Хп (Хп есть функция на Я", принимающая в точке * = (*,, *„ ...) значение хп). Предположим, что нам заданы вероятностные распределения для X,, (Xlt X,), (Xt, X2, X3), ... и требуется определить соответствующие вероятности в Я* Конечно, заданные вероятности должны быть взаимно согласованы в том смысле, что распределения (Х(, ..., Хп) являются частными распределениями для (*i Хи+1) и т. д. Формализуем теперь интуитивное понятие ссобытия, определяемого исходом конечного множества испытаний». Скажем, что множество А в Я" зависит лишь от первых г координат, если существует борелевскоемножество АгвЯг, такое, что х=(хи х„ ...) принадлежит А тогда и только тогда, когда (xt xr) принадлежит АТ. В теории вероятностей часто встречается ситуация, когда вероятности таких множеств заданы, и задача состоит в расширении этой области определения. Приведем без доказательства принадлежащую А. Н. Колмогорову фундаментальную теорему (доказанную им в несколько большей общности), впервые появившуюся в его ставшем теперь классическим аксиоматическом обосновании теории вероятностей (1933). Эта работа предвосхитила и стимулировала развитие современной теории меры. Теорема 1. Согласованную систему вероятностных распределений величин X;, (Х{, Х2), (Х1( Х„ Ха), ... можно единственным способом продолжить до вероятностной меры на наименьшей а-алгебре Ш. множеств в Я", содержащей все множества, зависящие лишь от конечного числа координат'). Весьма важным является то обстоятельство, что все вероятности определяются последовательными переходами к пределам, исходя из конечномерных множеатв. Каждое множество А из 21 L) Эта теорема справедлива и в более общем случае произведения локально компактных пространств. Например, она справедлива, когда переминные Х„ являются векторными переменными (т, е, значения из — точки в Лг),
148 Гл. IV. Ийроятмостныр меры и пространства можно аппроксимировать конечномерными множествами в следующем смысле. Для любого е > 0 существует п и зависящее лишь от первых и координат множество Ап, такое, что P{A-AnAJ<e, Р{Ап-АпАп\<г. (6.3) Иными словами, множество тех точек, которые принадлежат либо А, либо А„, но не принадлежат обоим множествам А и Ап, имеют вероятность, меньшую 2е. Отсюда следует, что можно так выбрать множества Ап, чтобы Р{Ап\^Р{А}. (6.4) Теорема 1 позволяет говорить о бесконечной последовательности взаимно независимых случайных величин с произвольными заданными распределениями. Такие последовательности уже встречались в первом томе, однако нам приходилось определять интересующие пас вероятности с помощью специальных переходов к пределу, в то время как теорема 1 является общим результатом, охватывающим все случаи. Это обстоятельство хорошо иллюстрируется следующими двумя важными теоремами, первая из которых принадлежит А. Колмогорову (1933), а вторая — Э. Хьюиту и Л. Дж. Сэвиджу (1955). Обе они являются типичными вероятностными предложениями и играют центральную роль во многих рассуждениях. Теорема 2. (Закон нуля или единицы для остаточных событий.) Предположим, что случайные величины \к взаимно независимы и что при каждом п событие А не зависит1) от Хи ..., X„z). Тогда или Р{Л[ = 0, или Р{А) = \. Доказательство. Вообще говоря, случайные величины Xft могут быть определены на произвольном вероятностном пространстве, однако они отображают это пространство в произведение прямых 51", в котором они играют роль координатных переменных. Следовательно, не уменьшая общности, можно ограничиться рассмотрением ситуации, описанной в настоящем параграфе. В обозначениях, использованных в (6.3), множества А и Ап независимы, и поэтому из первого неравенства в (6.3) вытекает, что Р \А\—Р \А\ Р \Ап\ < е. Следовательно, Р \А\ = Рг{А\. ► Пример, а) Ряд £Х„ сходится с вероятностью единица или нуль. Точно так же множество точек, в которых lim sup Х„ = оо, имеет вероятность либо единица, либо нуль. ► Теорема 3. (Закон нуля или единицы для симметричных собы- *) Более точно, А не зависит от любого событии, определяемого в терминах Xi Х„. Иными сливами, индикатор А есть случайная ветчина, независима»! от Х1р ..., Х„. -) Предполагаете)!, комечни, чти А онредслиси:)! шкледшш'ьльиистыа Xi, Х2 — Прим. 1ЩЫ.
§ 7. Пилеаые множества. Пополнение 149 тип.) Предположим, что случайные г.еличины Xfc взаимно независимы и одинаково распределены. Если множество А инвариантно относительно конечных перестановок координат1), то либо? {Л}=0, либо Р|Л} = 1. Доказательство. Как и в доказательстве теоремы 2, мы рассматриваем Хл как координатные величины и под множествами Л„ понимаем то же, что и в (6.3). Пусть Вп—множество, полученное из Л„ обращением порядка первых 2л координат, в то время как остальные координаты остаются без изменения. В силу сделанных предположений соотношения (6.3) остаются справедливыми при замене Ап на Вп. Отсюда вытекает, что множество точек, принадлежащих либо А, либо Л„ Г)5„, но не принадлежащих обоим множествам Л и АпГ\Вп, имеет вероятность, меньшую 4е. Следовательно, Р{Л„ПЯП}-*Р{Л}. (6.5) Далее Л„ зависит лишь от первых п координат, и поэтому Вп зависит лишь от координат с номерами л + 1 2л. Таким образом, Л„ и Вп независимы, что вместе с (6.5) приводит к равенству Р (Л) = Р2 {А\. ► Пример, б) Положим S„ = X14-... +Х„, и пусть Л={8„ £7 6. ч.\, где / — произвольный интервал на прямой. Событие Л инвариантно относительно конечных перестановок. [По поводу обозначений см. пример 1, а).] ► § 7. НУЛЕВЫЕ МНОЖЕСТВА. ПОПОЛНЕНИЕ Множеством вероятности нуль обычно можно пренебрегать, и две случайные величины, различающиеся лишь на таком нулевом множестве, «практически совпадают». Выражаясь более формально, их называют эквивалентными. Это означает, что если изменить определение случайной величины на нулевом множестве, то все вероятностные соотношения сохраняются без изменения и, следовательно, случайную величину можно считать неопределенной на нулевом множестве. Типичным примером является время осуществления первого рекуррентного события: с вероятностью единица оно есть некоторое число, а с вероятностью нуль — не определено (или считается равным оо). Таким образом, мы чаще имеем дело с классами эквивалентных случайных величин, а не с самими случайными величинами. Тем не менее обычно проще выбрать подходящие представители классов и оперировать с ними, а не с классами. С пулевыми множествами связано единственное место в теории ') Более точно, предполагается, что если a = (oi, о2, ...)—точка из А и rii, п2 — дна произвольных натуральных числа, то А содержит также точку, У которой «i-si координата есть а,,.,, «2-я координата равна оИ1, а остальные координаты те же, что и у а. Это условие автоматически распространяется на перестановки, включающие k коирдчнат.
150 Гл. IV. Вероятностные меры и прастрпчстаи вероятностей, которое идет ирпзреи ~ тшкм .пиупцпс-и Гптуацнн одна и та же ио всех вероятностных npai-ipaiicvaax и достаточно описать ее для случая вероятностной примой. В рамках нашей конструкции вероятности определены лп;ш> на ггзреленскпх множествах, но каждое борст-'нское мпожестио, поойце го вир и, содержит много неборедеискнх подмножеств. Следовательно, нулевое множество может (.одержать подмножества, пи которых нероигно- сти не определены, в то время как естественно ожидать, чго каждое подмножество нулевого множества само должно быть нулевым множеством. Это несоответствие не является серьезным и легко может быть устранено. В самом деле, введем такой постулат: если АсВ и Р{Д1 = 0, то P\A\ = Q. При этом мы должны расширить о-алгебру 91 йорелевских множеств до (по крайней мере) наименьшей о-алгебры 91,, содержащей все множества из ?[ и псе подмножества нулевых множеств. Можно дать прямое описание о-алгебры Я,. Именно, множество А принадлежит 91, тогда и только тогда, когда оно отличается от некоторого борелевского множества А" лишь на нулевое множество L). Область определения вероятности можно продолжить >: 21 на 81,, просто положив Р \А\ = = Р{/1П}. Без труда показывается, что это продолжение единственно и дает вполне аддитивную меру на 81,. Таким ог'тразом, мы построили вероятностное пространство, которое удовлетворяет введенному постулату и в котором сохранились вероятности боре- лсвских множеств. Описанная конструкция называется лебегоным пополнением (заданного вероятностного пространства). Использование пополнения естественно в задачах, связанных с единственным вероятностным распределением. По этой причине длину интервалов в Я1 обычно продолжают до лебеговой меры, которая определена не только на борелевских множествах. Однако, когда рассматриваются семейства распределений (например, бесконечные последовательности испытаний Бернулли с различными вероятностями р), пополнение обычно приводит к неприятностям Именно 91, зависит от рассматриваемого распределения, и поэтому случайизи ие.чп- чина по отношению к 91, может не быть такоиой, если перейти к другому распределению. Пример. Пусть ах, а„ ... — последовательность точек в Я1, имеющих вероятности pit pt, ... состаеъ:твенно, причем Y.P* = 1- Дополнение к \at\ имеет вероятность нуль, и поэтому 91, содержит все подмножества Я Каждая ограниченная функция и является при этом случайной величиной математическим ожиданием 5]лк«(п4), однако, когда раселптриваемае распределение не дискретно, оперировать о «произвольными функциями» становится опасно. ► 'i Еаилег гичио, требуется, чт'м оба множеству А—ЛП1^ >» Л° — /1(1^" содержались и нектаром нулгии.'.! дшами.uii,
ГЛАВА V ВЕРОЯТНОСТНЫЕ РАСПРЕДЕЛЕНИЯ В Яг В этой главе изучаются вероятностные распределения в /--мерном пространстве ,ЛГ. R идейном отношении понятие вероятностного распределения основывается на изложенной в предыдущей главе теории интегрирования, однако, по существу, никаких сложных размышлений для понимания настоящей главы не требуется, поскольку вводимые понятия и формулы интуитивно близки к понятиям и формулам, уже известным из первого тома и первых трех глав. Новая черта рассматриваемой теории состоит в том, что (в противоположность случаю дискретного выборочного пространства) не каждое множество имеет вероятность и не каждая функция является случайной величиной. К счастью, эта теоретическая сложность не очень заметна на практике, поскольку можно исходить из интервалов и непрерывных функций и ограничиться соответственно рассмотрением множеств и функций, которые могут быть получены из них посредством элементарных операций и (возможно, бесконечно многих) предельных переходов. Этим выделяются классы борелевских множеств и бэровских функций. Читатели, которых интересуют больше факты, нежели логические связи, могут не беспокоиться по поводу точных определений (приводимых в гл. IV). Им разумнее полагаться на собственную интуицию и считать, что все рассматриваемые множества и функции являются «хорошими». Приводимые теоремы настолько просты1), что для их понимания достаточно знакомства с элементарным анализом. Изложение является строгим, если условиться, что слова «множество» и «функция» сокращенно означают «борелевское множество» илбэров- екая функция» соответственно. 1) Следует понимать, что этой простоты нельзя достичь им в каком теории, и'.чюльзую'.кеи лишь непрерывные функции или какой-либо другой класс «хорошим» ф\нкипн Например, в гл. II, (8.3), мы определили плотность ф бесконечным рилом. Скучно и бессмысленно устанавливать условия, при которых ц пилг'етсп хорошей функцией, однако в прсстых случаях формула очевидна, и она всегда имеет смысл, если ограничиваться бэроискими функциями, что и можно считать точным смыслом неопределенного выражения «формула всегда справедлива!. Межзу прочим, будут укп;:ны несколько случаев, где ограничение бэрояскимм функциями нетрнчшльно [примером такого рода является теория выпуклых функций, см, Й, б)|,
152 r.i. V. Пс/юшнносшннг pmiii'PDr.ieniin п ,еД.г При первоначальном чтении можно ограничиться 5 1—4 и 9. Параграфы 5--8 содержат результаты и неравенства, собранные для удобства ссылок. В последних параграфах, посвященных теории услозных распределении и математических ожидании, изложение ведется более полно, чем это необходимо для настоящего тома. В дальнейшем результаты этой теории будут попользованы лишь от случая к случаю при рассмотрении мартингалов в гл. VI, 11, и гл. VII, 9. § !. РАСПРЕДЕЛЕНИЯ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ Даже совсем безобидное использование термина «случайная величина» может содержать косвенную ссылку на весьма непростое вероятностное пространство пли на сложный умозрительный эксперимент. Например, теоретическая модель может включать в себя положения и скорости 10" частиц, в то время как нам интересны лишь температура и энергия. Эти две случайные величины отображают исходное выборочное пространство в плоскость !№, порождая в ней вероятностное распределение. По существу, мы имеем дело с двумерной задачей, и первоначальное выборочное пространство утрачивает ясные очертания и превращается в фон. Конечномерные евклидовы пространства SLr представляют собой, следовательно, наиболее важные выборочные пространства, и мы переходим к систематическому изучению соответствующих вероятностных распределений. Рассмотрим сначала случай прямой 511. Интервалы, определяемые неравенствами а<х<й u o^;^li, обозначим через a, b i 1 и a, b соответственно. (Мы не исключаем предельный случай замкнутого интервала, сводящегося к одной точке.) Полуоткрытые 1 i интервалы оГхззначаются а, Ь и a, b. В одномерном случае все случайные величины являются функциями координатной переменной X (иными словами, функции, которая в точке х принимает значение х). Все вероятности можно, следовательно, выразить в терминах функции распределения F(x) = P{X<a:}, — oo<x<oo. (1.1) 1 В частности, интервал 1 — а,Ь имеет вероятность Гибкое стандартное обозначение Р { \ становится неудобным, когда рассматриваются различные распределения. Применение навой буквы было бы неэкономичным, .-, использование обозначения Pf. { \ для указания зависимое! и oi F слишком неуклюже. Намного проще иептьзовать orjiti/ и ту же буки/ F кт для функции точки (1.1), "'я/с и для [/////;/(!<« шннераала, и и дальнейшем вместо
,$ /. Рпспред/'лспич и MiwiPMnmu'KVKvi' пшидпнчя 1~>3 Р{/[ мы будем писать F \1\. Иными словами, iiciiujibjouamie фигурных скобок { } будет означать, что аргумент в F \А\ есть интервал или множество и что F представляет собой функцию интервалов (или меру). Когда используются круглые скобки, аргумент в F (а) есть точка. Соотношение между функцией точки F( ) и функцией интервала F { \ выражается равенствами F (x) = F{-<x>, х\, F\^~b] = F(b)-F(a). (1.2) В действительности понятие функции точки F (х) излишне и служит лишь для удобства обозначения и записи. Основным и первичным является наделение i-ероитноггимн интервалов. Функция точки F ( ) называется функцией распределения функции интервалов F { }. Символы F ( ) и Fj ) представляют собой различное выражение одного и того же, и никакой двусмысленности не появляется, когда говорят о «вероятностном распределении F». Следует привыкнуть думать в терминах функций интервалов и мер и использовать функцию распределения только как обозначение1). Определение. Определенная на прямой функция точки F есть функция распределения, если она (i) неубывающая, т. е. F (a)^F (b) при а < Ь, (и) непрерывна справа*), т. е. F(a) = F(a+), (iii) удовлетворяет условиям F(—оо) = 0, /*'(оо)<оо. Функция распределения F, для которой F(oo) = l, называется вероятностной функцией распределения. Функция распределения называется дефектной (или несобственной), если /?(оо)<1. Покажем, что каждая функция распределения задает (соответствующие ей) вероятности всех множеств на прямой. Первым шагом является наделение вероятностями интервалов. Поскольку F монотонна, предел слева F (а—) существует в каждой точке а. Определим функцию интервалов F \1\, положив F{a~~b\ = F(b)-F(a), F \a~Tb}^F (b-)-F (a), F {аГь\ = F (b) — F (a—), F \a7~b} = F(b —) — F (a —). i 1 Для интервала а, а, сводящегося к единственной точке а, имеем F{a7li\ = F(a)-F(a-), 1) Для вводных курсов представляется разумной педантичная тщательность в использонинии обозначений, од и;; ко автор надеется, что читатели не будут требовать такого рода «состоятельности» и найдут в себе смелость писать без различия /■'{/} и F (х). Это не повлечет никакой двусмысленности. В лучшей математической литературе стило привычным, к счастью, использовать один и тот же символ (в частности, 1 и =) на одной и той же странице в нескольких смыслах. !) Как обычно, /(о-г) обозначает предел (если он существует) значений f[x), когда х—ю при условии х > о. Под / (оо) понимается предел f (х) при а-— -» и. Аналогично определяются \ (а—)н/(—оо). Эти обозначения распространяются н на mi;oi о.мерпый случаи.
154 Гл. V. Вероятностные распределения что представляет собой скачок F в точке и. (Вскире мы увидим, что F непрерывна «почти всюду».) Чтобы показать, что определяемые формулами (1.3) значения вероятностей для интервалов удовлетворяют требованиям теории вероятностей, докажем следующую простую лс^му (читатели могут принять ее как интуитивно очевидную). Лемма 1. (Счетная аддитивность.) Если интервал I представляет собой объединение счетного числа непересекающихся интервалов It /2, то 1 1 Доказательство. В частном случае, когда I = a, b и 11<=а,а1, 1 1 It = alt а К = ап-и Ь, утверждение леммы тривиально. Про- 1 извольное конечное разбиение / = а, Ъ получается из этого разбиения перераспределением конечных точек ак подынтервалов, так что правило сложения (1.4) для конечных разбиений выполняется. При рассмотрении случая бесконечного множества интервалов /ь, не ограничивая общности, можно допустить, что интервал / замкнут. В силу непрерывности справа функции распределения F для любого заданного е > 0 можно найти содержащий 1к открытый интервал /*, такой, что Q^.F{l£\ — F {I,.\ ^ е2~*. Поскольку существует конечная совокупность интервалов //,,, ...,/*„, покрывающая /, то F{I\^F {/£}+... +F\ll\^F{I1} + ...+F{In\ + b, (1.Б) откуда fJ/KIHU- (1-6) Обратное неравенство тоже справедлиЕО, так как для каждого п существует конечное разбиение /, содержащее в качестве подынтервалов интервалы 1и . . ., /„. Тем самым лемма доказана. ► Как уже говорилось в гл. IV, 2, теперь можно определить F{A\ = ^F{Ak\ (I.7J для любого множества А, представляющего собой конечное или счетное объединение непересекающихся интервалов Ак. Интуитивно можно ожидать, что любое множество допускает аппроксимацию такими объединениями интервалов, и теория меры это подтверждает1). Используя естественные приближения и переходы к пре- 1) Следует иметь в виду принятое нами соглашение, согласно которому слова «множество» и «функция» сокращенно означают соответственно *боре- левское множество» и чбзроаскан функция».
§ /. Распределения и математические ожидания 155 делу, можно продолжить определение F на все множества так, чтобы свойство счетной аддитивности (1.7) сохранялось. Это продолжение единственно, и получающаяся в результате функция множеств называется вероятностным распределением или мерой. Замечание о терминологии. Термин «распределение» свободно используется в литературе в различных смыслах, и поэтому здесь уместно точно оговорить, что понимается под распределением в настоящей книге. Вероятностное распределение, или вероятностная мера, есть функция, ставящая в соответствие множествам числа F \А}^0 и удовлетворяющая условию счетной аддитивности (1.7) и условию нормировки F {—оо, оо[ = 1. Отбрасывая условие нормировки, получаем определение более общей меры (распределения массы). Весьма важным примером такой меры является мера Лебега (или обычная длина). Иногда приходится иметь дело с мерами, относительно которых масса всей прямой р = Р\—оо, оо[ меньше 1 (достаточно вспомнить теорию рекуррентных событий из первого тома). Меру с таким свойством мы называем вероятностной несобственной или дефектной мерой с дефектом, равным 1—р. Иногда с целью стилистической ясности или желая подчеркнуть, что рассматривается не мера вообще, и не дефектная вероятностная мера, а именно вероятностная мера, мы будем называть ее собственной вероятностной мерой, хотя прилагательное собственная и излишне. Аргументом меры т\А\ является множество; при письме буква, обозначающая это множество, заключается в фигурные скобки. Каждой ограниченной мере т соответствует функция распределения, т. е. функция точки, определяемая равенством 1 т(х) = т\— оо, х\. Функция распределения обозначается той же буквой, что и соответствующая ей мера, только аргумент ее заключается в круглые скобки. Двоякое использование одной и той же буквы не вызывает никаких недоразумений, и, более того, термин «распределение» может сокращенно обозначать как вероятностное распределение, так и его функцию распределения. ^ В 1, гл. IX, случайная величина была определена как вещественная функции на выборочном пространстве. Мы сохраняем здесь это определение. В случае когда выборочным пространством является прямая, каждая вещественная функция есть случайная величина. Координатная случайная величина X является основной, п псе остальные случайные величины можно рассматривать как функции от нее. Функции распределения случайной величины и, по определению равная Р{ы(ХХ*}, может быть выражена в терминах функции распределения координатной случайной
156 Гл. V. вероятностные распределения a fft,r величины X. Например, функция распределения величины X3 есть F (]/*). Функция и называется простой, сели она принимает лишь счетное множество значений а,, а, Пусть и—простая функция и Ап— то множество, на котором и равна аи. Скажем, что математическое ожидание функции и существует и равно E(u) = ^akF{Ak\, (1.8) если ряд в правой части (1.8) абсолютно сходится. В противном случае и называется неинтегрнруемой по отношению к /■'. Таким образом, и имеет математическое ожидание тогда п только тогда, когда существует Е(|к|). Исходя из (1.8), можно следующим образом определить математическое ожидание произвольной ограниченной функции и. Возьмем е>0 и обозначим через Ап множество тех точек а-, в которых (п—1)е < и(х) ^ле. При любом разумном определении Е(н) должно быть 2(,!-i)f,f{A1KE(«K2«F-fIA.!- С-9) (Суммы в (1.9) представляют собой математические ожидания двух аппроксимирующих простых функций ст и а, таких, чтост^и^ст и ст—гт = е.) Поскольку функция и, согласно предположению, ограничена, то суммы в (1.9) содержат лишь конечное число отличных от пуля членов. Разность этих сумм раина е £] F \Ап\ ^ у. При замене ё на е./2 левая сумма, очевидно, увеличивается, а правая— уменьшается. Отсюда легко вынести, что при е —>0 обе суммы в (1.9) стремятся к одному и тому же пределу, который и полагается равным Е(«). Для неограниченной функции применимо то же самое рассуждение, если оба ряда и (1.9) абсолютно сходятся; в противном случае Е (и) не определяется. Определенное таким простым способом математическое ожидание представляет собой интеграл Лебега—Стилыпьеса от функции и по отношению к распределению F. Когда желают подчеркнуть зависимость математического ожидания от F, предпочтительно использовать интегральное обозначение QD Е(и}= J u(x)F[dx\. (1.10) — я За исключением редких случаев, мы будем иметь дело лишь с монотонными функциями и или с кусочно-непрерывными функциями, такими, что для них множества Ап сводятся к объединению конечного числа интервалов. При этом суммы в (1.9) представляют собой, с точностью до порядка суммирования, верхние и нижние суммы, используемые при элементарном определении обычных интегралов. Общин ннтегрзл Лебега — Стпльтьссз, обладая основными свойствами обычного интеграла, имеет дополнительное
§ 1. Распределения и математические ожидания 157 преимущество—при обращении с ним меньше приходится заботиться о законности формальных операций и переходов к пределу. Мы будем использовать математические ожидания лишь в очень простых ситуациях, и никакой общей теории не потребуется для того, чтобы следить за отдельными этапами рассуждений. Читатель, интересующийся теоретическим фундаментом и основными фактами, может обратиться к гл. IV. Примеры, а) Пусть F—дискретное распределение, наделяющее точки а,, аэ, ... массами plt р Ясно, что в этом случае математическое ожидание Е (и) функции и, если оно существует, ровно ^ и (ak) pk, и условием существования Е (и) является абсолютная сходимость ряда ^ и (ak) pk. Это согласуется с определением, данным в 1, гл. IX. б) Для распределений, задаваемых непрерывной плотностью, математическое ожидание и представляет собой интеграл 00 Е(и) = J u(x)f(x)dx, (1.11) — СО если только этот интеграл сходится абсолютно. По поводу общего понятия плотности см. § 3. ► Обобщение вышеизложенного на многомерные пространства можно описать в нескольких словах. Точка в $} представляет собой пару действительных чисел x = (xit хг). Неравенства следует понимать в покоординатном смысле1); так а<й означает, что а, < bi и я2 < Ь.^ (или, иными словами, «а лежит юго-западнее Ь»). Это отношение порядка является лишь частичным упорядочением, т. е. две точки а и b не обязаны находиться в одном из двух отношений а < Ь, а~^Ь. Интервалами мы называем множества, определяемые четырьмя возможными типами двойных неравенств а<х<Ь и т.д. Интервалы представляют собой прямоугольники со сторонами, параллельными осям координат, и могут также вырождаться в отрезки или точки. Единственно новым является то обстоятельство, что если —i —i а, с—двумерный интервал и а < Ь < с, то а, с не есть объедине- 1 1 пие a, b и Ь, с. Каждой функции интервала F \1\ можно поставить в соответствие отвечающую ей функцию распределения, которая, как и в одномерном случае, определяется равенством 1 1 F{x) — F{—оо, х}. Теперь, однако, в выражение F\a,b\ в терминах функции распределения входят все четыре вершины интервала. В самом деле, из рассмотрения двух бесконечных полос, параллельных х2—оси и имеющих основания—стороны прямо- *) Это соглашение было введено в гл. III, 5.
158 Гл. V. Вероятностны* распределения в Яг угольника а,Ь, непосредственно следует, что F \а, Ь\ выражается через так называемую ^смешанную разность* F \а~Л\ = F (Ь„ b,)-F (a,, bt) — F (Ь„ аг) + F (аи а,). (1.12) Для функции распределения F(x) = F(xit x7) правая часть (1.12) неотрицательна. Отсюда следует монотонность F (xit хг) по xt и хг, однако обратное неверно: монотонность F не обеспечивает положительности (1.12). (См. задачу 4.) Ясно, что в многомерном случае функции распределения являются не очень подходящим аппаратом: если бы не соображение аналогии со случаем пространства ЗЯ,1, все рассмотрения, возможно, велись бы в терминах функций интервалов. Формально определение функции распределения в ."А1 распространяется на 5i!, если условие монотонности (1) заменить на условие неотрицательности смешанных разностей (1.12) при a^Lb. Так определенная функция распределения индуцирует функцию интервалов (соотношения подобны (1.3), в случае 541 нужно лишь обычные разности заменить на смешанные). Лемма 1 сохраняется вместе с доказательством 1). Одно простое, но сущктпенно важное свойство математических ожиданий принимается иногда как само собой разумеющееся. Любая функция и (X) = = h(Xi, Хг) от координатных переменных является случайной величиной н как таковая имеет функцию распределения С. Математическое ожидание Е (ы (X)) можно определить двумя способами — как интеграл от h(jcj, .vs) no отношению к заданной вероятностной мере на плоскости, п также в терминах функции распределения величины и: Е(«)= $ уС[йу). (1.13) Оба определения эквивалентны в силу самого определения первого из этих интегралов с помощью аппроксимирующих сумм гл. IV, !4.3)!). Существенным здесь является то обстоятельство, что математическое ожидание случайной величины Z (если оно существует! имеет внутренний смысл и не зависит от того, рассматривается ли Z как функция на исходном вероятностном пространстве Ш или на пространстве, полученном при соответствующем отображении 5В; в частности, Z сама отображает SB на прямую и превращается на ней в координатную величину. v: В доказательстве используется тот факт, что при конечном разбиении одномерного интервала подынтервалы имеют естественный порядок слева направо. Столь же хорошее упорядочение имеет место при шахматных разбиениях двумерного интервала а, />, г. е. разбиениях на тп подынтервалов 1 получаемых разбиениями отдельно обеих сторон а, Ь и проведением прямых, параллельных осям, через все точки подразбиений. Доказательство конечной аддитивности для таких шахматных разбиений не меняется, и каждому разбиению соответствует его шахматное подразбиение. Переход от конечных разбиений к счетным одинаков при любом числе измерений. г) Специальный случай содержится в теореме 1, гл. IX, 2,1-
§ 1. Распределения и матгматические ожидания 159 Начиная с этого места, не будет никакой разницы между случаями пространства $} и пространства №. В частности, определение математического ожидания не зависит от числа измерений. Резюмируя, можно сказать, что любая функция распределения индуцирует вероятностную меру на а-алгебре борелевских множеств в W и тем самым определяет вероятностное пространство. Иначе говоря, мы показали, что вероятностная конструкция дискретных выборочных пространств, а также пространств с распределениями, задаваемыми плотностями, распространяется без формальных изменении на общий случай. Тем самым оправдана вероятностная терминология, использовавшаяся в первых трех главах. Когда мы говорим об г случайных величинах Х^ ..., Хг, то подразумеваем, что все они определены на одном и том же вероятностном пространстве, и поэтому существует их совместное вероятностное распределение. При этом мы можем, если пожелаем, рассматривать Хк как координатные величины в выборочном пространстве Э1Г. Вряд ли необходимо объяснять способ распространения таких понятий, как маргинальное {частное) распределение (см. гл. III, 1г и 1, гл. IX, 1) или независимость случайных величин. Основные утверждения о независимых случайных величинах переносятся с дискретного на общий случай без изменений. (ij Независимость случайных величин X и Y с (одномерными) распределениями F и G означает, что функция совместного распределения (X, Y) задается произведениями /7(а:1) G(a:2). Это может относиться к двум случайным величинам, определенным на заданном вероятностном пространстве, но может также пониматься и как сокращенное выражение того, что мы вводим плоскость с X и Y в качестве координатных переменных и определяем вероятности по правилу произведения. Сказанное в равной степени применимо к парам, тройкам и вообще к любому числу случайных величин. (п) Если совокупность т случайных величин (Х^ ..., Хт) не зависит от совокупности п случайных величин (Ylf ..., Y„), то случайные величины u(\lt . . ., Xm) и v{\lt . . .х YJ независимы^ каковы бы ни были функции и и v. (Hi) Для независимых X и Y справедливо равенство E(XY) — = E(X)E(Y), если только математические ожидания X и Y существуют (т. е. если соответствующие интегралы сходятся абсолютно). Следующий простой результат часто приходится использовать. Лемма 2. Вероятностное распределение однозначно определяется значениями Е (и) для всех непрерывных функций и, обращающихся в нуль вне некоторого конечного интервала. Доказательство. Пусть / — конечный открытый интервал и и— непрерывная функции^ которая положительна на У и равна нулю
160 Гл. V. Вероятностные распределения в 3j.r вни /. Тогда '[/v{x)—-\ при всех л£/ и, следовательно, Е('|/ч)—>F\I\. Таким образом, значения математических ожиданий непрерывных функций, обращающихся в нуль вне некоторого интервала, однозначно определяют значения F {/} для всех открытых интервалов, которые в свою очередь однозначно определяют F. ► Замечание 11). Теорема Рисса о представлении. В последней лемме математические ожидании определялись в терминах заданного вероятностного распределения. Части (например, п проблеме моментов, см. гл. VIГ, 3) ним приходится отправляться от заданного функционала, назначая значения Е (и) некоторым известным функциям и. Вопрос а том, существует ли вероятностное распределение F, дли которого Е(и)= J u(x)F{dx}. (114) — оо Оказывается, что следующие явно необходимые условия являются также и достаточными. Теорема. Допустим, что каждой непрерывной функции и обращающейся в нуль вне конечного интервала, соответствует число Е (и) со следующими свойствами: (i) Функционал Е (и) является линейным, т. е. для всех линейных комбинаций выполняется Е (с1и1-]-с1иг)=с1Е (нО + сДи,), (ii) Функционал Е (и) положителен, т.е. Е(и)^0 при н:аО. (iii) Функционал Е (и) имеет норму 1, т.е. если 0<ы<;1, ;лоЕ(и)<1, но при всяком е > 0 существует такая функция и, что Os^/<<l и Е (и) > 1 —«* Тогда существует единственное вероятностное распределение F, для которого выполняется (1.14). Доказательство. Для произвольных ( и h > 0 обозначим через zr, а непрерывную функцию переменного х, которая равна 1 при x^t, равна 0 при x~^t-\-h и линейна на промежуточном интервале /<x<f-j-/>- Эта функция не обращается в нуль на бесконечности, но мы можем определить Е (zj д) посредством простой аппроксимации. Возьмем функцию ы„, |ы„|«^1, такую, что Е (ип) определено и ип (x) = 2(i h (х) при | х | < л. При т>п разность ит — ип внутри интервала —п, п равна тождественно нулю. Поэтому из условии, что Е имеет норму 1, можно легко вывести, что Е (ни — ит)—»• 0. Отсюда следует, что Е (ы„) сходится к конечному пределу и этот предел очевидным образом не зависит от конкретного выбора аппроксимирующих функций и„. Таким образом можно законным способом определить Efa, a) = lira Е(ы„). Легко видеть, что даже в пределах расширенной области определения функционал Е обладает тремя свойствами, постулируемыми теоремой. Положим далее Fh (t) = E (г^ /,). При фиксированном h эта функция монотонно меняется от 0 до 1. Она непрерынна, так как при 0 < fi < h разность Z(+a, h — Zfi ft имеет треугольный графи» с высотой fi//i и, следовательно, отношение приращений для Ff, ограничено величиной l//i. При h—► 0 функции Ff, монотонно убывают к пределу, который мы обозначим через F. Покажем, что F представляет собой вероятностное распределение. Очевидно, что F монотонна и F (—оо) = 0. Кроме того, r(f)Ssfft(f—«), откуда следует, что/:(оо) = 1. Остается показать, что F непрерывна справа. При *) Это замечание относится к вопросу, имеющему принципиальный интерес, и не будет использоваться в дальнейшем. Другой подход см, в гл. IV, 5,
§ J. Распределения и математические ожидания 161 заданных t и в > 0 выберем значение h столь малым, чтобы F [t) > Fh (<)— в. Вследствие непрерывности Fh мы имеем для достаточно малых б F U) > Fh W-e > Fh {t + b)-2n^F (* + 6)-2в, откуда следует непрерывность справа. Пусть и — непрерывная функция, обращающаяся о нуль вне конечного интервала □, Ь. Выберем а = а0 < at< ... < ап = Ь такими, что внутри каждого подынтервала ац-ь а/, колебания значений функции и меньше, чем в. Если h меньше длины наименьшего среди этих интервалов, то п "Л = 2 U (°») [*«*, ft _2»*-i- *] С ■ 15> k= 1 есть кусочно-линейная функция с вершинами в точках ак и Пц + '1- Поскольку ц (ац) = цд (at), то |ц —ыА|^2в и, следовательно, | Е (и) — Е (ыА) |<2в. Однако при h —>■ О п 1 ЕЫ— S u (я*)/=>*-!. "*}. (116) fe= 1 причем сумма справа в (1.16) отличается от интеграла в (1.14) меньше чем на в. Таким образом, левая и правая части в (1.14) отличаются меньше чем на Зе, и, следовательно, (1.14) справедливо. ^ Замечание П. О независимости и корреляции. Теория статистической корреляции восходит к тому времени, когда формализация теории была еще невозможна и понятие стохастической независимости по необходимости носило мистический характер. Уже тогда понимали, что независимость двух ограниченных случайных величин а нулевыми математическими ожиданиями влечет равенство Е (XY) = 0, однако сначала думали, что это равенство должно быть и достаточным для независимости X и Y. После того как была обнаружена ложность этого заключения, долгое время искали условия, при которых обращение в нуль корреляции влечет стохастическую независимость. Как часто случается, история задачи и красота частных результатов затемнили тот факт, что современные методы позволяют дать чрезвычайно простое ее решение. Следующая теорема содержит различные результаты, доказанные ранее трудоемкими методами. Теорема. Случайные величины X и У независимы тогда и только тогда, когда E(u(X)HY)) = E(U(X))E"((Y) О-'7) для всех непрерывных функций и и v, обращающихся в нуль вне конечного интервала. Доказательство. Необходимость условия очевидна. Достаточность его будет доказана, если показать, что для всякой непрерывной функции ш(Х, Y), равной нулю вне некоторого конечного интервала, математическое ожидание Е (си) совпадает с математическим ожиданием ш относительно пары независимых случайных величин, распределенных как X и Y. Но, согласно (1.17), это верно для функций вида ее; (X, Y) = k (X) v (Y). Так как каждую непрерывную функцию w, обращающуюся в нуль вне некоторого конечного интервала, можно равномерно приблизить1) линейными комбинациями вида 7, с^иь iX) Уь (Y). то, переходя к пределу, убеждаемся в справедливости нашего утверждения. I) См. задачу 10 в гл. VIII, 10, * Л| 249
162 Гл. V. Вероятностные распределения в 51г § 2. ПРЕДВАРИТЕЛЬНЫЕ СВЕДЕНИЯ Настоящий параграф посвящен в основном извести:.:.! или очевидным понятиям и фактам, связанным с функциями распределения в Я1. Как и в дискретном случае, /г-й момент случайной величины X по определению полагается равным Е(Х*). При этом предполагается, что интеграл so Е(Х*)= J x*F{dx} (2.1) - 3D сходится абсолютно. Таким образом, Е (X*) существует тогда и только тогда, когда Е(|Х|*)<оо. Величина Е(|Х|*) называется абсолютным моментом X порядка к. Она определена п для нецелых k > 0. Так как при 0<я<Ь имее1 место неравенство | х\а ^ | х\ь-\-1, то из существования абсолютного момента порядка Ь вытекает существование абсолютных моментов всех порядков а < Ь. Второй момент случайной величины X—т, где т — математическое ожидание X, называется дисперсией X и обозначается VarX: Var(X) = E((X —m)z) = E(X»)—ma. (2.2) В рассматриваемом общем случае дисперсия обладает теми же свойствами и играет ту же роль, что и в дискретном случае. В частности, если X и Y независимы и дисперсии VarX и Var Y существуют, то Var(X + Y)--VarX + VarY. (2.3) [Две случайные величины, удовлетворяющие равенству (2.3), называются некоррелированными. В 1, гл. IX, 8, было показано^ что существуют зависимые некоррелированные случайные величины.] Вспомним, что мы часто заменяли случайную величину на «нормированную величину» Х* = (Х—ш),'а, где /и = Е(Х) и а-~ = Var(X). Выражаясь физическим языком, можно сказать, что X* есть запись X в «безразмерных единицах». Вообще переход от X к (X—fJ;)/a при а> 0 есть изменение начала отсчета и единицы измерения. Функция распределения новой случайной величины равна F (ал' + Г')- и нередко мы имеем дело по существу со всем классом функции распределения этого вида, а не с отдельным представителем класса. Введем для удобства следующее Определение 1. Два распределения /•", и F2 в !Я1 называются распределениями одного и того же типа1), если F:(x) — /^ (a.v + P)i 1) Это понятие было инедсно Хинчпным, который использовал немецкий термин (iKbssr» (клк'.-с), еднзки в английской литературе «класс функций» имеет установившееся значение.
§ 2. Предварительные сведения 163 а > 0. Параметр а называют масштабным множителем, а параметр р—центрирующей постоянной (или параметром расположения). Данное определение позволяет использовать выражения вида «/•" центрировано к нулевому математическому ожиданию» или «центрирование не меняет дисперсии». Медианой распределения F называется число £, удовлетворяющее условиям /•"(£) ^1/2 и F (Е—)^1/2. Медиана может быть определена неоднозначно; если F(x) = l/2 при всех х из некоторого интервала а, Ь, то каждое х из этого интервала есть медиана. Распределение можно центрировать так, чтобы его медиана итала равной нулю. За исключением медианы, все рассмотренные понятия переносятся на случай любого конечного числа измерений, или, иными словами, на векторные случайные величины вида Х = (Х1, . . ., Х„). Соответствующие векторные обозначения были введены в гл. III, 5, и не требуют никаких изменений. Математическое ожидание X представляет собой в этом случае вектор, а дисперсия X — матрицу. Первое, на что обращается внимание при рассмотрении графика функции распределения,— это разрывы и интервалы постоянства. Нередко приходится оговаривать, что точка не принадлежит интервалу постоянства. Введем следующую удобную терминологию, относящуюся к любому конечному числу измерений. Определение 2. Тонка х является атомом, если она имеет положительную массу. Точка х, для которой F\I\>0, каков бы ни был открытый интервал I, содержащий х, называется точкой роста. Распределение F сосредоточено на множестве А, если дополнение А' имеет вероятность F \А'\ = 0. Распределение F называется атомическим, если оно сосредоточено на множестве своих атомов. Пример. Расположим рациональные числа из отрезка 0, 1 в последовательность г,, г так, чтобы с ростом номера числа рос и его знаменатель. Определим распределение F, положив вероятность каждой точки rk равной 2~*. Распределение F атомичес- i 1 кое, однако все точки замкнутого интервала 0, 1 являются точками роста F. ^ В силу условия счетной аддитивности (1.7) сумма масс атомов не превосходит единицы, так что имеется не больше одного атома с массой > 1/2, не больше двух атомов с массой > 1/3 и т. д. Все атомы, следовательно, можно расположить в простую последовательность alt аа,. . . так, чтобы соответствующие им массы не возрастали: р^ рг ^... . Иными словами, число атомов не более чем счетно. 6*
164 Гл. V. Вероятностные распределения a 9jr Распределение, не имеющее атомов, называется непрерывным. Предположим, что распределение имеет атомы а массами pL, /?„..., и обозначим p = ZiPit- Положим F,W=»7Eft. (2-4) ак<х где суммирование распространяется на все атомы из интервала 1 — оо, х. Функция Fa(x), представляющая собой, очевидно, функцию распределения, называется атомической компонентой F. Если /7=1, то распределение F является атомическим. При р < 1 положим (/ = 1—р. Легко видеть, что [F—pFa]/q = Fc есть непрерывная функция распределения. Таким образом, имеем F = pFa + qFct (2.5) т. е. F является линейной комбинацией двух функций распределения Fa и Fc, из которых Fa—атомическая, a Fe—непрерывная. Если F есть атомическая функция распределения, то (2.5) по- прежнему имеет место с р = 1, причем в качестве Fe можно взять произвольную непрерывную функцию распределения. При отсутствии атомов в (2.5) будет р = 0. Нами доказана, таким образом, Теорема Жордана о разложении. Всякое вероятностное распределение является смесью атомического и непрерывного распределений вида (2.5) с />>0, <з>0, p + q=\. Имеется один класс атомических распределений, из-за которых приходится иногда загромождать простые формулировки перечислением тривиальных исключений. Распределения этого класса лишь произвольным масштабным множителем отличаются от распределений, сосредоточенных в целочисленных точках, однако встречаются они весьма часто и поэтому заслуживают специального названия для удобства ссылок. Определение 3. Распределение F на Я1 называется арифметическим *), если оно сосредоточено на множестве точек вида О, ±Я, ± 2к Наибольшее число к, обладающее этим свойством, называется шагом F. § 3. ПЛОТНОСТИ Первые две главы были посвящены изучению вероятностных распределений в Я1, для которых вероятность произвольного 11 Пожалуй, более общепринятым является термин «решетчатое распределение», однако его употребляют в разных смыслах: некоторые авторы под решетчатым распределением понимают распределение, сосредоточенное на множестве а, а ± \, а ± 2Х, ..., где а—произвольно. (Биномиальное распределение с атомами в тачках ± 1 п нашей терминологии является арифметическим распределением с шагом 1, в то время как а упомянутой другой терминологии оно — решетчатое распределение с шагом 2.)
§ 3. Плотности 165 интервала (а, следовательно, и вообще произвольного множества) задается интегралом Р{А\=\ч(х)сЬс. (3.1) Распределения, рассматривавшиеся в гл. III, имеют такой жевид с той лишь разницей, что интегрирование происходит по лебеговой мере (площади или объему) в Э1Г. Если плотность ф в (3.1) сосредоточена на интервале 0, 1, то (3.1) можно переписать в виде F{A}=*\y(x)U{dx\, (3.2) л где U обозначает равномерное распределение на 0, 1. Последняя формула имеет смысл для произвольного вероятностного распределения U, и, когда F {—оо, оо} = 1, она определяет новое вероятностное распределение F. В этом случае мы говорим, что ф есть плотность F по отношению к U. В формуле (3.1) мера U бесконечна, в то время как в формуле (3.2) имеем U {—оо, оо} = I. Это различие несущественно, поскольку интеграл в (3.1) может быть разбит на интегралы вида (3.2), распространенные на конечные интервалы. Хотя мы будем использовать (3.2) лишь в случаях, когда U есть либо вероятностное распределение, либо мера Лебега, как в (3.1), дадим, однако, следующее общее определение. Определение. Распределение F называется абсолютно непрерывным по отношению к мере U, если для некоторой функции ф имеет место соотношение (3.2). При этом ср называется плотностью *) F по отношению к 0. Наиболее важным частным случаем является, конечно, тот случай, когда имеет место (3.1), т. е. когда U есть мера Лебега. Функция ф в этом случае называется нобычной* плотностью. Введем теперь следующую сокращенную запись: F\dx\ = <p(x)U{dx\. (3.3) Эта запись имеет лишь тот смысл, что для всех множеств выполняется равенство (3.2), и никакого специального смысла символу dx придавать не следует. Пользуясь этой сокращенной записью, мы будем записывать (3.1) в виде F \dx\ = y{x)dx, и если U имеет обычную плотность и, то (3.2) принимает вид F \dx\ = ф (х) и (х)dx. Примеры, а) Пусть U—вероятностное распределение на 541 со вторым моментом, равным т,. Тогда F\dx\=±-*V{dx\ ') В теории меры функция ф называется производной Радона —Никодиыа распределения F по отношению к U,
166 Гл. V. Вероятностные распределения в 91г есть новое вероятностное распределение. В частности, если U — равномерное распределение на 0, 1, то F(x) = x* при 0<х<1, а если 0 имеет плотность е~*(х>0), то F есть гамма-распределение с обычной плотностью у хге~х. с) Пусть U — атомическое распределение, наделяющее атомы а1Р аа, . . . массами plt р2, .. . (здесь 2^*— 0- Распределение F имеет плотность ф по отношению к 0 тогда и только тогда, когда оно атомическое и все его атомы являются также атомами распределения U. Если F имеет в а, массу qf, то плотность tp задастся посредством равенства 4>(.uk) = qk/pk. Значение ф в точках, отличных от точек а{, не играет никакой роли, и лучше всего считать ф в этих точках неопределенной. ^ Теоретически подынтегральная функция ф в (3.2) определена неоднозначно. В самом деле, если /V—такое множество, что U{N) = 0, то ф можно как угодно изменить на N и при этом (3.2) останется в силе. К этому, однако, и сводится вся неоднозначность в определении ф- плотность определена однозначно с точностью до значений на нулевом множестве 1). На практике условиями непрерывности диктуется обычно однозначный выбор плотности, и поэтому, как правило, говорят о некоторой определенной плотности, хотя, конечно, более правильно говорить о некоторой из плотностей. Из (3.3), очевидно, следует, что для любой ограниченной функции v 2). v[x)F\dx\ = v[x)tp[x)U \dx\. (3.4) В частности, если все значения функции ф больше (или меньше) нули на некоторое число, то, взяв о = ф-1, получим формулу ') В самом деле, пусть ц. и ц^ — две плотности F по отношению к U. Рассмотрим множество А всех точек х, для которых ф (*) > (pj (,t)-fe. Из равенств F {А} = $ <t (д) U \dx) = $ «р, (a-) U {dx} А А следует, что U {А} = 0, и поскольку это верно для любого е > 0, то ф (х) = ■=',, (а) всюду, за исключением множества N, тлкого, что U {Л} = 0. -) Читателям, которых смущает справедливость соотношения (3.4), сле- дуе1 обратить внимание на то, что для непрерывных плотностей (3.4) сводится к правилу подстановки для интегралов. Следующее доказательство (3.4) ь общем случае использует стандартное рассуждение,- применимое и в более общих ситуациях. Формула (3.4) тривиальна, когда и е^ть простая функция, принимающая лишь конечное число различных значении. Дли любой ограниченной функции v существуют две простые функции с конечным числом вначеннй и к v, такие, что и < и«£и и и — v < е, и поэтому из справедливости формулы (3.4) для всех простых функций вытекает ее справедливость в общем случае.
§ 3. Плотности 167 обращения для (3.2): Полезный критерий абсолютной непрерывности содержится в одной из основных теорем теории меры, которую мы приведем здесь без доказательства. Теорема Радона—Никодима 1). Распределение F абсолютно непрерывно по отношению к мере U тогда и только тогда, когда U {А\ = 0 влечет F{A\=Q. (3.6) Условие (3.5) можно перефразировать следующим образом: ^/-нулевые множества являются также F-нулевыми множествами. Приведем одно важное следствие теоремы Радона — Никодима, которое, однако, нигде в дальнейшем непосредственно использоваться не будет. Критерий. Распределение F абсолютно непрерывно по отношению к мере U тогда и только тогда, когда каждому е > О соответствует б > 0, такое, что для любой совокупности непересекающихся интервалов /t, ..., /„ 2 U {Ik\ < б влечет £ F {Ik\ < е. (3.7) Весьма важным частным случаем выполнения (3.7) является тот случай, когда для всех интервалов F\I\^aU{I\. (3.8) При этом (3.7) выполняется с 6 = е/я, и, как легко видеть, плотность F по отношению к (У не превосходит а. За. Сингулярные распределения 2) Условие (3.6) теоремы Радона—Никодима наводит на рассмотрение случая, прямо противоположного случаю абсолютно непрерывных распределений. Определение. Вероятностное распределение F сингулярно по отношению к U, если оно сосредоточено на множестве N, таком, что U{N\=0. Особую роль здесь играет мера Лебега U \dx\ = dx, и когда говорят, что распределение «сингулярно», и не делают при этом дополнительных пояснений, имеют в виду, что оно сингулярно по отношению к v.epe Лебега. Каждое атомическое распределение сингулярно по отношению к dx, но имеются и непрерывные распределения в "А1, сингулярные относительно dx: таковым яв- ') Эту теорему нередко называют теоремой Лебега — Никодима. Соотношение (3.6) может быть принято в качестве определения абсолютной непрерывности, и в этом случае теорема будет утверждать существование плотности. *) Хотя принципиально сингулярные распределения очень важны, они появляются в этой книге лишь между прочим,
168 Гл. V. Вероятностные распределения в 91г ляется канторовское распределение, рассмотренное в примере 11, г) гл. I. Сингулярные распределения не поддаются аналитическому изучению, и их явное представление практически невозможно. Чтобы иметь возможность применять аналитические методы, приходится, следовательно, накладывать ограничения, которые обеспечивают либо абсолютную непрерывность, либо атомичность рассматриваемых распределений. Сингулярные распределения, однако, играют важную принципиальную роль, и многие статистические критерии основываются на их существовании. Это обстоятельство затемняется бытующим мнением, что «в практике» сингулярные распределения не встречаются. Примеры, в) Испытания Бернулли. В примере 11, в) гл. I было показано, что выборочное пространство последовательностей УУ. . . Н. . . (успехов «У» и неудач «Н») можно отобразить на единичный интервал, пользуясь простым приемом замены символов «У» и «Н» на 1 и 0 соответственно. Выборочным пространством становится тогда единичный интервал, и результат бесконечной последовательности испытаний, представляется случайной величиной У=22~*ХЛ, гДе ХА—независимые случайные величины, принимающие значения 1 и 0 с вероятностями р и q. Обозначим распределение Y через F р. Если испытания симметричны, то Fp = F1/2 есть равномерное распределение, и модель принимает привлекательный простой вид. По существу эквивалентность симметричных испытаний Бернулли со «случайным выбором точки из О, 1» использовалась с самого возникновения теории вероятностей. Далее в силу закона больших чисел распределение F р сосредоточено на множестве Np тех точек, в двоичном разложении которых частота цифры 1 стремится к р. При рфа. множество Na имеет вероятность нуль и, следовательно, распределения F' сингулярны по отношению друг к другу. В частности^ при рФ 1/2 распределение Fp сингулярно по отношению к равномерному распределению dx. Точного представления для F практически не существует, и поэтому описанная конструкция редко используется при рф\/2. Два обстоятельства заслуживают особого внимания. Во-первых, посмотрим, что было бы, если бы частный случай р=1/3 представлял особый интерес или часто встречался в приложениях. Мы заменили бы тогда двоичное разложение чисел троичным и ввели бы новый масштаб так, чтобы F1/3 представляло собой равномерное распределение. «Практически» мы по-прежнему имели бы дело лишь с абсолютно непрерывными распределениями, однако в основе этого лежит скорее выбор подхода, чем истинная природа вещей. Во-вторых, симметричность или несимметричность монеты можно проверить статистическими методами и можно достичь практически определенного решения после конечного числа испы-
§ 4. Свертки 169 таний. Это оказывается возможным лишь благодаря тому, что события, являющиеся правдоподобными при гипотезе /7 = 1/2, весьма неправдоподобны при гипотезе р —1/3. Небольшое размышление показывает, что возможность принять решение после конечного числа испытаний основана на сингулярности Fp при рФ 1/2 по отношению к /*\/2. Таким образом, существование сингулярных распределений является существенным для статистической практики, г) Случайные направления. В гл. I, 10, было введено понятие единичного вектора в Я2 со случайным направлением. Распределение такого вектора сосредоточено на единичной окружности и, следовательно, является сингулярным по отношению к мере Лебега (площади) в плоскости. Можно было бы думать, что в этом случае в качестве выборочного пространства следует взять окружность, однако в некоторых практических задачах такой вариант выборочного пространства невозможен [см. пример 4, д)]. ^ Теорема Лебега о разложении. Каждое вероятностное распределение F является смесью вида F = pFs + qFaci (3.9) где р^О, q^0x р + q = 1, двух вероятностных распределений Рг и Fae, из которых Fs сингулярно, a Fae абсолютно непрерывно по отношению к заданной мере U. Применяя к Fs жорданово разложение (2.5), получаем, что F можно представить в виде смеси трех вероятностных распределений, из которых первое—атомическое, второе—абсолютно непрерывное по отношению к U {dx\, а третье непрерывно, но сингулярно. Доказательство. Множество N, для которого U{N\=0, будем называть для краткости нулевым множеством. Пусть р есть верхняя грань значений F {N\ по всем нулевым множествам N. Для каждого п существует нулевое множество Nn, такое, что F{Na\>p—I/л. При этом fl^l^l/n для всякого нулевого множества А, лежащего в дополнении /V,!,. Для множества N = = UNn имеем U{N\ = 0 и F{N\ = p, так что никакое нулевое множество, лежащее в дополнении N', не может иметь положительной вероятности. Если р = 1, то F сингулярно, тогда как равенство /7 = 0 означает, что F абсолютно непрерывно. При 0 < р < 1 утверждение теоремы выполняется для двух вероятностных распределений, определенных формулами p-Ft{A\ = F{AN)t q-Fac{A} = F{AN'\. (3.10) ► | 4. СВЕРТКИ Трудно переоценить важность операции свертки во многих областях математики. Нам придется иметь дело со сверткой с двух точек зрения; и как g операцией, применяемой к распре дел е-
17(1 Гл. V. Вероятностные распределения в ЯТ ниям, и как с операцией, применяемой к распределению и непрерывной функции. Для определенности мы будем рассматривать распределения в Я1, однако при использовании векторных обозначений § 1 все формулы остаются в силе и для распределений в пространстве любой размерности. Определение свертки на окружности следует схеме, описанной в гл. II, 8, и не требует дополнительных пояснений. (Более общие свертки можно определить на произвольных группах.) Пусть F— вероятностное распределение и tp—ограниченная функция точек. (В рассматриваемых нами приложениях tp будет либо непрерывной функцией, либо функцией распределения.) Определим новую функцию и, полагая ос и(х)= J V{x-y)F{dy\. (4.1) Если F имеет плотность / (по отношению к dx), то к и(х)= 5 4{x-y)f{y)dy. (4.2) — ОО Определение 1. Функция и в (4.1) называется сверткой функции (р с вероятностным распределением F. Для такой свертки будет использоваться обозначение u — F-ffip. Если F имеет плотность f, то мы будем писать ы = /*ф. Отметим, что порядок компонент в свертке (4.1) существен: символ tp ^ f, вообще говоря, смысла не имеет. С другой стороны, интеграл в формуле (4.2) имеет смысл для любых интегрируемых функций / и ф (даже если / принимает значения разных знаков) и символ * используется в этом обобщенном смысле. Ограниченность функции ф была введена конечно, ради простоты и вовсе не является необходимой. Примеры, а) Если F—равномерное распределение на 0, а, то X «W = | j «P(«)«fc- (4-3) .t-a Ясно, что в этом случае функция и непрерывна; если предположить еще, что функция у непрерывна, то и будет обладать непрерывной производной и т. д. Вообще говоря, и ведет себя лучше, чем ф, так что свертка служит сглаживающим оператором. б) Формулы свертки для экспоненциальных и равномерных распределений [гл. 1, (3.6), и гл. I, (9.1)] являются частными случаями общей формулы. Примеры сверток распределений в Я2 имеются в гл. Ill, (1.22), и в задачах 15—17 гл. III. ^
§ 4. Свертки 171 Теорема 1. Если функция ср ограничена и непрерывна, то свертка u = F + y тоже ограничена и непрерывна. Если ф—вероятностное распределение, то и тоже является вероятностным распределением. Доказательство. Если ф — ограниченная непрерывная функция, то, согласно принципу мажорированной сходимости, и {х-\-п) —► и (х). По тем же соображениям из непрерывности справа функции ф следует непрерывность справа и. Наконец, поскольку ф монотонно меняется от 0 до 1, то же самое справедливо для и. ^ Следующая теорема дает вероятностную интерпретацию свертки F if ф, когда ф есть функция распределения. Теорема 2. Пусть X и Y—независимые случайные величины с распределениями F и G. Тогда 00 PjX+Y<f}= J G(t — x)F\dx\. (4.4) — 00 Доказательство *). Возьмем е > 0 и обозначим через /„ интервал ле < х^.[п + 1)е, л = 0, ±1, ■■ . Появление при некотором п события {Х£ /„_!, Y ^f—ле} влечет появление события {X+Y ^ t\. Следовательно, поскольку события jX^/„.„ Y^J—ле} взаимно исключают друг друга и случайные величины X, Y независимы, имеем P{X + \^t\^2lG{t-nB)F{In_i}. (4.5) Справа в этой формуле стоит интеграл от ступенчатой функции GE, которая на In_t равна G (t—ле). Поскольку GE (у) ^ G {t—в—у), то 00 P<X + Y<*}> J G(/— в—x\F\dx). (4.6) — OB Аналогичное рассуждение приводит к противоположному неравенству с в, замененным на —в. Устремляя е к нулю, получаем (4.4). » Пример, в) Пусть распределения F и G сосредоточены на множестве целых неотрицательных чисел О, 1, 2 причем соответствующие точке k массы равны рк и qk. В этом случае интеграл в формуле (4.4) сводится к сумме %G{t—k)pk. Функция, представляемая этой суммой, обращается в нуль при t < О и постоянна на каждом интервале л — 1 < t < п. Скачок ее при 1) Формула (4.4) представляет собой частный случай теоремы Фубини [гл. IV, (2.11)]. Утверждение, обратное теореме 2, неверно: мы видели и гл. II, 4, д), и в задаче 1 из гл. (II, 9, что в исключительных случаях формула (4.4) может иметь место и для пары зависимых случайных величин X и Y.
172 Гл. V. Вероятностные распределения в 9jT t = n равен п 2 qn-kPk = <lnPo + e}n-iPi+ ■ ■ ■ +Я»Рп* (4J) * = 0 что согласуется с формулой свертки [1, гл. XI, (2.1)] для неотрицательных целочисленных случайных величин. ^ Обе предыдущие теоремы показывают, что свертка двух функций распределения F if G снова приводит к функции распределения U. Из коммутативности сложения X+Y вытекает, что FifG = GifF. При совершенной системе обозначений можно было бы ввести новый символ для свертки функций распределения, однако это вряд ли было бы полезным1). Конечно, U следует рассматривать как функцию интервалов или меру: для любого интервала I = a, b имеем, очевидно, U\I}=1 G\I-y}F\dy\, (4.8) где, как обычно, /—у обозначает интервал а—у, b—у. (Эта формула автоматически переносится на произвольные множества.) В силу коммутативности F и G в формуле (4.8) можно поменять местами. Рассмотрим теперь три распределения Fit Fa, Fu. Из ассоциативности сложения случайных величин следует, что (FiifFa)ifFs= = ?i ~к (^г "Аг ^э)■ Следовательно, при обозначении свертки трех распределений можно не пользоваться скобками и писать просто ^i ir F2 if F3. Резюмируем сказанное выше в следующих теоремах. Теорема 3. В классе распределений операция свертки коммутативна и ассоциативна. Теорема 4. Если распределение G непрерывно (т. е. не имеет атомов), то свертка U = Fif G тоже непрерывна. Если G имеет 1) Иными словами, символ A -jlr В используется, когда интегрирование происходит по мере А. Свертка Air В является функцией точки или мерой в соответствии с тем, является ли В функцией точки [как в (4.1)] или мерой [как в (4.8)]. Звездочка i\t используется для операции между двумя функциями, когда интегрирование происходит по лебеговой мере. Мы применяем этот тип свертки почти исключительно к вероятностным плотностям. Можно дать более общее определение свертки двух функций, положив /*gW= \t{x—y)g{M)m{dy}, где т — произвольная мера. Суммы вида (4.7) представляют собой частный случай этой формулы, а именно когда т сосредоточена на множестве неотрицательных целых чисел и каждому такому числу сопоставлена единичная масса. В этом смысле наше теперешнее использование звездочки согласуется с ее использованием для сверток последовательностей в 1, гл. XI, 2,
§ 4. Свертки 173 обычную плотность ф, то U имеет обычную плотность и, задаваемую формулой (4.1). Доказательство. Первое утверждение содержится в теореме 1. Если ф есть плотность распределения G, то, интегрируя (4.1) по интервалу /, справа получим правую часть (4.8), так что и действительно является плотностью распределения U, определяемого формулой (4.8). р. Из теоремы, в частности, следует, что если F и G имеют плотности / и g, то свертка F -fa G имеет плотность h = f%g: + 00 Л(х)= J f(x-y)g(y)dy. (4.9) — 00 Вообще говоря, функция h обладает большей гладкостью, чем любая из функций fug. (См. задачу 14.) Суммы Sn = Xj + ■ ■ ■ + Х„ взаимно независимых случайных величин с общей функцией распределения F встречаются очень часто, и поэтому для их распределения удобно ввести специальное обозначение. Распределение суммы S„ есть п-кратная свертка распределения F с собой и обозначается Fn*. Имеем, таким образом, fi =p, Fin+»*=F'l*i<F. (4.10) Сумму без слагаемых условно считают равной нулю. В соответствии с этим мы определим F** как атомическое распределение, сосредоточенное в нуле. Тогда (4.10) будет выполняться и при я = 0. Если F имеет плотность f, то Fn* имеет плотность f $ f $ ... #/ (л раз), которую мы обозначим /"*. Эти обозначения согласуются с обозначениями, введенными в гл. I, 2. Замечание. Следующие примеры показывают, что свертка двух сингулярных распределений может иметь непрерывную платность. Из этих примеров видно также, что можно эффективно вычислять свертки, не используя определяющую их формулу. Примеры, г) Равномерное распределение на 0, 1 является сверткой двух сингулярных распределений канторовского типа. В самом деле, пусть Xj, X], ч-—взаимно независимые случайные величины, принимающие значения 0 и 1 с вероятностью 1/2. В примере 11, в) гл. I мы видели, что случайная величина Х = ^|]2~*Хд имеет равномерное распределение. Обозначим сумму членов ряда с четными и нечетными номерами через L) и V соответственно. Очевидно, L) и V независимы и X = U-f-V. Следовательно, равномерное распределение есть свертка распределений величин D и V. Ясно далее, что величины I) и 2V имеют одинаковые распределения, а величина V лишь обозначением отличается от величины VjY примера 11, г) гл. I. Иными словами, распределения величин I) и V лишь масштабными множителями отличаются от рассмотренного в этом примере канторовского распределения. д) Случайные величины в 5£3. Распределение единичного вектора со случайным направлением (см. гл. I, 10) сосредоточено на единичной окружности и, следовательно, сингулярно относительно лебеговой меры на плоскости.
174 Гл. V. Вероятностные распределения a Sjr '{Ь<г} = р| Тем не менее длина L суммы двух таких независимых векторов имеет распре- 2 1 деление с плотностью _ , сосредоточенное на 0. 2. В самом деле, по- „ ]^4 — л» закону косинусов L = У2 — 2cosco = 2sln-j-m , где со—угол между двумя векторами. Так как — ш имеет равномерное распределение на 0, зт, то 111' 1 2 sin -=-ш |«£ г> = — arcsin-=- г, 0 < г < 2, (4.11) 4 | | Л г что и требовалось доказать. (См. чадачу 12.) ► 4а. О точках роста Здесь необходимо прервать изложение, чтобы зафиксировать некоторые элементарные факты относительно точек ростка свертки F if G. Первая лемма интуитивно понятна, вторая имеет технический характер. Этот материал будет использован лишь в теории восстановления, и потому косвенно в теории случайным блуг.даний. Лемма 1. Если а и Ь — точки роста распределений F и G, то а-\-Ь петь точки рсста свертки F it G. Если а и Ь — атомы F и G, то п + й есть атом F if G и каждый атом F it G может быть так получен. Доказательство. Для независимых X и Y имеем Р {| X-t-Y —а —й | < в}й.Р ||Х-а|<1в|-р||¥-*|< \^. Если а и Ь суть точки роста, то правая часть этого неравенства положительна при любом е > С, и поэтому а \-Ь тоже является точкой роста F ic G. Сн'.'пмчнм Fa и йа атомические компоненты F и G и жордановом разложении ('2.5). Очевидно, атомическая компонента композиции F it G рав:п FairGB, и пязтому все атомы F ic G имеют вид а-[-Ь, где а и Ь суть атомы F и 0 соотг.етстненно. ► Внутренняя простота следующей леммы ■".■ .:.1л.1 теряет из-за той специальной роли, которую играют » ней, с одной стороны, яри|)мстическис распределения, и с другой — распределения пола'::;пиль*1ь1х случайных неличин. Лгмма 2. Пусть F—распределение о ?Д} и 5. — множество, образованное точками роста распределений F, F1*, /•'* •О Предположим, что F не сосредоточено на полуоси. Тогда если F не является арифметическим распределением, то £ плотно в —но, оо, а если F — арифметическое распределение а шагом \, то Е = {0, ± h, ± 2>», ,..}. ( Ь) Пусть F сосредоточено ни 0, ж, нп не сосредоточено в щ/.ie. Если F hi! шляетг.и арифметическим распределением, то Е ^асимптотически плотно ни оо* в том смечем, чти для лоСюго паданно:о в > 0 при чсех достаточно больших х интерпал х, х-{-■■: содержит точки из X. Если F — арифметические распределение с шагом \, та £ содержит ке точки вида п), при достаточно больших п. Доказательство. Пусть а, Ь, 0 < и < h,—дне точки множества 2, и пусть h=b — а. Будем различать дгл случаи: (i) При каждом е > 0 можно иы'>р;1ть а, Ь такие, что li < е. (ii) Существует ft > О такое, что ft ^ Л при всех возможных иыбо;мх точек а, Ь. Обозначим через /„ интервал na<x^nb. Если п (ft—а) > а, то этот интерпал содержит па, (п+\)а в качестве подынтервала и, следовательно, любая точка т > ха = аг/[Ь — а) принадлежит по крайней мере одному из ин-
$ 5. Симметризация 175 терв::Л(ш Л, /2 По лемме 1 (н + 1) точек иа + Wi, k = Q п, принадлежат 2, и эти точки разбивают /„ на п подынтервалов длины Л. Таким пбр:;эом, Егпкап точка х > хв находится на расстоянии, не превосходящем Л/2, от Т;:члИ множества 2. В случае (i) отсюда вытекает, WO множество 2 асимптотически плотно I на +°°- Если при этом F сосредоточено на 0, оо, то ничего не н;<до доказывать. В ином случае пусть — с<0 — точка роста F. Для произвольного;/ и достаточно большого п интервал пс-\-у < х < пс-\-у-\-Е содержит точку s множества 2. Поскольку s — не снова принадлежит X, то отсюда вытекает, что любой интервал длины е содержит какие-либо точки множества 2 и, таким образом, 2 всюду плотно В случае (ii) можно допустить, что а и b были выбраны так, что /i < 26. Тогда точками вида na-\-kh исчерпываются все точки множества 2, лежащие внутри /„. Так как точка [п-\- 1) а находится среди этих точек, это означает, что все точки 2 внутри 1„ являются кратными Л. Пусть теперь с — произ- польнал (положительная или отрицательная) точка роста F. При достаточно большом п интервал /„ содержит точку вида Wi + r, а так как она принздпе- жит 2, то отсюда вытекает, что с кратно h. Таким образом, в случае (ii) распределение F является арифметическим. £» Один частный случай этой теоремы представляет особый интерес. Каждое число х > 0 можно представить единственным образом в виде x = ;n-f-5, где т — целое и 0<^£< 1. Число £ в этом представлении называется дробной долей х. Рассмотрим теперь распределение F, сосредоточенное в двух точках —1 и и > 0. Соответствующее множество 2, включая в себя все точки вида ли—т1), содержит дробные доли всех чисел и, 2и Если a = p/q, где р и q— взаимно простые, натуральные числа, то F — арифметическое распределение с шагом \/q. Мы приходим, таким образом, к следующему результату (в гл. VIII, 6, будет доказана теорема 3 о равномерном распределении, уточняющая этот результат). Следствие. Для любого иррационального в > 0 дробные доли чисел а, 2<х, За, ... образуют множество, плотное в 0, 1. § 5. СИММЕТРИЗАЦИЯ Пусть X—случайная величина с распределением F. Распределение случайной величины — X мы будем обозначать ~F. В точках непрерывности имеем -F(*)=l-F(-x), (5.1) и это соотношение однозначно определяет ~F. Распределение F называется симметричным, если ~F = F. [В случае когда существует плотность [, симметричность означает, что /(—*)=/(*)■] Пусть X,, Х2 — независимые случайные величины l1 одним и тем же распределением F. Случайная величина X, — Хг имеет симметричное распределение °F, равное "F = F^-f. (5.2) Из свойства симметрии °F(x) = 1 — °F (— х) непосредственно сле- х) Множество 2 здесь в точности совпадает с множеством точек ни—т, т, л = 0, 1, ,,, .— Прим, перев.
176 Гл. V. Вероятностные распределения a SLr дует, ЧТО т 'F(x) = J F(x + y)F{dy\. (5.3) — OB О распределении aF говорят, что оно получено в результате симметризации F. Примеры, а) Симметризация показательного распределения приводит к двустороннему показательному распределению [гл. II, 4, а)]; результатом симметризации равномерного на 0, 1 распределения является треугольное распределение т, [см. гл. II, (4.1)]. б) Симметричное распределение, имеющее атомы массы 1/2 в точках +1, не является результатом симметризации никакого распределения. в) Пусть F—атомическое распределение, наделяющее точки О, 1, ... массами рв, Pi Тогда симметризованное распределение aF тоже является атомическим, имеющим в точках ± п массу 00 7„= 2 РкРк+п. Ч-п = Чп- (5-4) 4 = 0 В частности, для пуассоновского распределения F при п^О имеем k = 0 где /„—функция Бесселя, определенная в гл. II, (7.1) (см. задачу 9). р- Применение симметризации позволяет значительно упростить многие рассуждения. В связи с этим весьма важным является то обстоятельство, что хвосты распределений F и aF имеют сравнимую величину. Более точно это выражено в нижеследующих неравенствах. Смысл этих неравенств представляется более ясным, когда они выражены в терминах случайных величин, а не в терминах самих функций распределения. Лемма 1. Неравенства симметризации. Если Х£, X,—независимые и одинаково распределенные случайные величины, то при Р{|Х1-Х,|>^<2Р||Х1|>^}. (5.6) Если a^tO таково, что Р{Х,^а|^р и Р{Х,^—а}^р, то Р{|Х1-Х1|>1*}2*рР{|Х1|>.*+аЬ (5.7)
§ 3. Симметризация 177 В частности, когда медиана Xf равна нулю, имеем P{\X1-Xl\>t\^±P{\Xi\>t\. (5.8) Доказательство. Неравенство (5.6) является следствием того очевидного обстоятельства, что событие | Xt — Х8|>£ осуществляется лишь тогда, когда осуществляется хотя бы одно из событий | X,:| > -^ t, |X, |>уЛ Для доказательства (5.7) достаточно заметить, что каждое из непересекающихся событий Xj > t -f- a, Х,^а и X, < — t—а, Х,^ — а влечет событие | Xt — X, | ^ t. ^ Симметризация часто используется при оценке сумм независимых случайных величин. В этой связи особенно полезно следующее неравенство. Лемма 2. Если X, Х„—независимые случайные величины с симметричными распределениями, то сумма S„ = Xi+ . .. +ХЯ тоже имеет симметричное распределение и Р{|Х1+...+Хя|>0^уР{тах|Ху|>^. (5.9) Если Xj имеют одинаковое распределение F, то Р{|Х1+...-Т-Хя|>Г}^у(1-в-['-'т+'(-о]). (5.10) Доказательство. Пусть М—случайная величина, равная первой из величин среди Х£ Х„, имеющих наибольшее значение по абсолютной величине. Положим T = Sn—М. Двумерная случайная величина (М, Т) имеет симметричное распределение в том смысле, что все четыре случайные величины (± М, ± Т) имеют одинаковое распределение. Имеем, очевидно, Р{М> *}<Р{М> t, T^0} + P{M> t, Т<0}. (5.I1) Слагаемые справа в (5.11) равны по величине, и поэтому P{S„>*} = P{M + T>*}>P{M>f, Т>0}^уР{1№>0. (5.12) что равносильно (5.9). ^ Чтобы доказать (5.10), заметим, что во всех точках непрерывности Р{max| X,|< t] = (F{t)—F(— 0)"<е~»I»-'«>+'(-«], (5.13) в силу того, что 1—х < е~х при 0<ж<1. Отсюда следует (5.10).
178 Гл. V. Вероятностные распределения в Щг § 6. ИНТЕГРИРОВАНИЕ ПО ЧАСТЯМ. СУЩЕСТВОВАНИЕ МОМЕНТОВ Известную формулу интегрирования по частям можно применять также к интегралам по распределениям в Я1. Если функция и ограничена, имеет, непрерывную производную и', то ь+ ь \u{x)F \dx\ = и (b) F (b) — u(a) F (о.) — \ и' (x) F (x) dx. (6.1) □ a Доказательство. Простым преобразованием (6.1) сводится к виду Ь + b \ [ы(Ь) — u(a)]F{dx\ — [u'{x)[F'(x) — F{a)]dx = 0. (6.2) " u -—I Предположим, что |u'|^M, и рассмотрим разпиение a, b на конгруэнтные интервалы Ik длины Л. Легко убедиться в том, что вклад lk в левую часть (6.2) по абсолютной величине меньше чем 2MH.F {1к\. Суммируя но всем /г, находим, что левая часть в (6.2) по модулю меньше 2Мп, что в свою очередь может быть сделано таким малым, как мы пожелаем. Таким образом, левая часть (6.2) в самом деле равна нулю. В качестве приложения выведем одну часто используемую формулу [обобщающую 1; гл. XI, (1.8)]. Лемма 1. Для любого а > О ос се J xu F \dx\ = a[ Xй"1 [1 —F (x)] dx, (6.3) и и причем из сходимости одного из smux интегралов следует сходимость другого. Доказательство. Поскольку интегрирование в (6.3) происходит по бесконечному интервалу, мы не можем применять (6.1) непосредственно, однако после тривиальных преобразований приЬ<оо из (6.1) следует, что L+ b $ xaF {dx\ = — b"- [ 1 — F (b)\ + a \ xri~l [l—F (.v)] dx. (6.4) о 5 Предположим сначала, что интеграл слева сходится при Ь—*<х. Вклад в предельный интеграл по бесконечному промежутку от интегрирования по Ь, оо не меньше br'[\ — F (Ь)], так что первое слагаемое в правой части (6.4) стремится к нулю. Переходя теперь в (6.4) к пределу при Ь—><х>, получаем (6.3). С другой стороны, в (6.4) интеграл слева не превосходит интеграла справа, и, следовательно, из сходимости правого интеграла вытекает сходимость левого, что, как мы видели выше, приводит к (6.3). ^
§ 7. Неравенство Чебышева 179 Для левой полуоси имеет место соотношение, аналогичное (6.3). Комбинируя обе формулы, получаем следующий результат. Лемма 2. Распределение F сб.'адает абсолютным моментом порядка а>0 тогда и только тогда, когда функция \х\а~1х Х[1—F(x)-\-F(—х)] интегрируема на 0, оо . В качестве приложения покажем, что имеет место Лемма 3. Пусть X, Y — независимые случайные величины и Я = X -f- Y. Математическое ожидание Е = (| S |а) существует тогда и только тогда, когда существуют Е (| X |а) и Е (| Y |а). Доказательство. Поскольку случайные величины X и X —с обладают обсолютными моментами одних и тех же порядков, то, не ограничивая общности, можно предположить, что медианы величин X и Y равны нулю. Но тогда Р{| S | > t\ ~^\ Р {| X | > t\t и поэтому в силу предыдущей леммы Е (| S |а) < оо влечет за собой E(|X|'5t)<oo. Тем самым доказана необходимость. Достаточность следует из неравенства | S\a ^ 2™ (| X |* + | Y |а), справедливость которого вытекает из того очевидного факта, что во всех точках | S | не превосходит наибольшего из чисел 2|Х| и 2|Y|. § 7. НЕРАВЕНСТВО ЧЕБЫШЕВА Неравенство Чебышева является одним из наиболее часто используемых инструментов теории вероятностей. Как само неравенство, так и его доказательство не отличаются от их дискретного варианта (1; гл. IX, 6) и повторяются здесь главным образом для удобства ссылок. Интересные приложения неравенства будут даны в гл. VII, 1. Неравенство Чебышева. Если существует Е (X2), то Р<|Х|>*}<-±-Е(Х«), t>0. (7.1) В частности, если Е(Х) = т и Var(X) = ff!, то Р{|Х-/п|2*0<-тг°« (7.2) Доказательство. Обозначим распределение величины X через F. Тогда Е(Х*)^ J x*F{dx\^t* J F\dx\. \x\>t \*\>l Поделив эти неравенства на t2, получаем (7.1). ^ Полезность неравенства Чебышева определяется не его точностью (она невелика), а простотой и тем, что оно особенно удобно в применении к суммам случайных величин. Среди многих возможных обобщений неравенства Чебышева ни
180 Гл. У. Вероятностные распределения в Яг одно не обладает этими ценными его качествами. (Большинство из обобщений весьма просты и их лучше выводить по мере надобности. Например, полезная комбинация неравенства Чебышева и урезания распределений описана в гл. VII, 7.) Приведем один довольно общий метод получения нетривиальных неравенств. Если и^О на всей прямой и и (х) > а > 0 при всех х из некоторого интервала /, то F{I}<a-iE(u{X)). (7.3) С другой стороны, если и<0 вне / и и<1 на /, то ми получаем обратное неравенство F {/} 5» Е (и (X)). Беря в качестве и многочлены, приходим к неравенствам, зависящим лишь от моментов F. Примеры, а) Пусть и (х) ={х-\-с)г, где с > 0. Тогда ц (дг) Э= 0 при всех х и и (х) 3* (/ + с)2 при х^ t > 0. Следовательно, р{х>'}<(йЬ)*Е((х+с)а)- (7-4) При Е (Х) = 0 и Е(Ха) = ог правая часть в (7.4) достигает минимума, когда c=a2/t, и, следовательно, Чх>0<р^. '>°- С7-5) Это важное неравенство было обнаружено независимо многими авторами. б) Пусть X — положительная случайная величина (т.е. /г(0) = 0) и Е(Х) = 1, Е(Х2) = Ь. Многочлен ы(х)=Л~г(х—а) (а + 2Л—х) положителен лишь для а < х < а + 2Л и и (х) < 1 при всех х. Если 0 < а < 1, то, как легко видеть, Е (ы (X)) ^ [2А (1—а) — Ь] Л '. БеряЛ = *(1—а)-1 и используя замечание, предшествовавшее примерам, получаем Р{Х >а}^(1-о)аЬ-1. (7.6) в) Пусть Е(Хг) = 1 и Е(Х4) = УИ. Применяя последнее неравенство к Xaf находим, что при 0 < I < 1 Р{|Х| > f}Si(l— f»)aAf-i. (7.7) По поводу обобщения неравенства Чебышева, принадлежащего Колмогорову, (см. пример 8, д). § 8. ДАЛЬНЕЙШИЕ НЕРАВЕНСТВА. ВЫПУКЛЫЕ ФУНКЦИИ Собранные в этом параграфе неравенства широко используются в математике и ни в коей мере не являются специфическими для теории вероятностей. Наиболее общее из них—неравенство Шварца. Другие неравенства приведены по причине их применений в теории случайных процессов и математической статистике. (Настоящий параграф предназначается более для ссылок, чем для чтения.) а) Неравенство Шварца В вероятностной интерпретации это неравенство означает, что для всяких двух случайных величин ф и ф, определенных на одном и том же выборочном пространстве, (Е(ф1|;))'^Е(ф')Е№), (8-1)
§ 8. Дальнейшие неравенства. Выпуклые функции 181 если только входящие в неравенство математические ожидания существуют. Равенство в (8.1) осуществляется только тогда, когда некоторая линейная комбинация шр + Ьф величин ф и г]з равна нулю с вероятностью единица. Более общим образом, если F — произвольная мера на множестве А, (I ф (х) ф(х) F {их}]" < J ф* (х) F \dx\ lv(x)F {dx}, (8.2) \A J A A каковы бы ни были функции ф и г|э, для которых интегралы справа существуют. Беря в качестве F атомическую меру, наделяющую единичными массами целочисленные точки, получаем неравенство Шварца для сумм (2<М>.-)2<2ф?Ж (83> Принимая во внимание важность неравенства (8.1), мы дадим два его доказательства, намечающие различные обобщения. Аналогичные доказательства можно дать для (8.2) и (8.3). Первое доказательство. Можно предположить, что Е(\|эа)>0. Тогда математическое ожидание Е(ф + ^)2 = Е(фа) + 2;Е(фг|з) + ^Е(г|за) . (8.4) является квадратным многочленом по t. Этот многочлен,; будучи неотрицательным, имеет либо два комплексных корня, либо двойной действительный корень X. Из формулы для решения квадратного уравнения следует, что в первом случае (8.1) выполняется как строгое неравенство. Во втором случае (8.1) является равенством и Е (ф -f- Ал|з)2 = 0Х так что ф + А,г|з = 0, за исключением множества вероятности нуль. Второе доказательство. Поскольку при замене функций ф и ф в (8.1) на их кратные ац> и Ь\|э, где а, Ь — некоторые числа, получается равносильное неравенство, то достаточно доказать (8.1) в случае, когда Е (ф2) = Е (т);2) = 1. Для получения (8.1) в этом случае достаточно взять математические ожидания от обеих частей неравенства 21 ф\|э | ^ ф2 -|- \|э2. ^ б) Выпуклые функции. Неравенство Иенсена Пусть и — функция, определенная на открытом интервале /, и /> = (|, и (£))—точка ее графика. Проходящая через Р прямая Ь называется опорной прямой функции и в точке £, если график и целиком лежит над L или на L. (Это условие исключает вертикальные прямые.) На аналитическом языке это означает, что при всех х из / и(*)>и(Б) + Я(*-Б), (8.5) где X—тангенс угла наклона L. Функция и называется выпуклой
182 Гл. V. Вероятностные распределения в SfLr в интервале I, если а каждой точке х из I существует ее опорная прямая. (Функция и называется вогнутой, если выпукла функция —и.) Покажем сначала, что из этого определения вытекают различные свойства выпуклых функций, которые интуитивно ассоциируются нами с выпуклостью (исходя из примера выпуклых ломанных линий). Путь X — случайная величина с распределением F, сосредоточенным на /, и с математическим ожиданием Е(Х). Положив £ = Е (X) и взяв математическое ожидание от обеих частей неравенства (8.5), получим Е(и)>и(Е(Х)), (8.6) если только математическое ожидание слева существует. Неравенство (8.6) известно как неравенство Иенсена. Наиболее важным является тот случай, когда F сосредоточено в двух точках хх и х2 и имеет в них массы \—t и I. При этом (8.6) принимает вид (1-0 и (*,) + <«* (*.)>«* (0-0 *! + '*.)■ (8-7) Это неравенство допускает простую геометрическую интерпретацию, которую мы сформулируем в виде следующей теоремы. Теорема 1. Функция и выпукла тогда и только тогда, когда все хорды ее графика лежат не ниже самого графика. Доказательство, (i) Необходимость. Пусть и — ныпуклая функция, и рассмотрим хорду под произвольным интервалом xlt xa. Когда t меняется от 0 до 1 точка (1—0 ri + ^хг пробегает интервал X,, х3, а левая часть (8.7) представляет собой ординату хорды в точке (1—0*i + '*«- Таким образом, (8.7) означает, что точки хорды лежат не ниже графика и. (ii) Достаточность. Пусть и обладает указанным в формулировке теоремы свойством, и рассмотрим треугольник, образованный тремя точками Pit Рг, Р3 на графике и с абсциссами *1 < хг < хз- Точка Рг лежит ниже хорды Р^Р3, и из трех сторон треугольника хорда Я,Я. имеет наименьший наклон, а хорда РгР3— наибольший. Следовательно, вне интервала xt, хя график и лежит над прямой Р3Р3. Будем считать теперь, что хя — переменная точка и пусть х3—►.*, + 0. Наклон хорды РгР3 при этом монотонно уоывает, оставаясь ограниченным снизу наклоном хорды Р,Рг. Таким образом, прямые РгР, стремятся к предельной прямой L, проходящей через Рг. Поскольку вне хгх, график и лежит над прямой /'?Р,, то весь график и лежит не ниже L. Следовательно, L является опорной прямой для и в точке .«,, и, поскольку точка хг произвольна, выпуклость и тем самым доказана. ^
§ 8. Дальнейшие неравенства. В/ипуклые функции 183 Как предел хорд, прямая L является правой касательной. В рассмотренном предельном процессе абсцисса х3 точки Ря стремится к х„, а сама точка Р3 — к некоторой точке на прямой L. Следовательно, Ps —► Рг. Аналогичное рассуждение применимо при приближении к хг слева, и поэтому график и непрерывен и обладает правой и левой касательной в каждой точке. Далее эти касательные являются опорными прямыми, и их наклоны меняются монотонно. Поскольку монотонная функция имеет не более счетного множества точек разрыва, то нами доказана Теорема 2. Выпуклая функция имеет, правую и левую производные в каждой точке. Эти производные являются монотонно не убывающими функциями, совпадающими друг с другом всюду, за исключением, быть может, счетного множества точек. Свойства выпуклых функций, указанные в теореме 2, являются также и достаточными для выпуклости. В частности, если и обладает второй производной, то она выпукла тогда и только тогда, когда и"^ 0. Обычно в качестве определения выпуклости функции берется (8.7). При t = l/2 из (8.7) получаем "(I4i,)<iuw+ii,w (8-8> Геометрически (8.8) означает, что середина хорды лежит не ниже соответствующей точки графика и. Если функция и непрерывна, то отсюда вытекает, что график не может пересечь хорду и, следовательно, и выпукла. Можно показать, что вообще любая бэ- ровская функция 1), обладающая свойством (8.8), выпукла. в) Неравенства для моментов Покажем, что для любой случайной величины X функция и(0 = 1оВЕ(|Х|'). *>0, (8.9) выпукла по t в каждом интервале, где она конечна. В самом деле, согласно неравенству Шварца (8.1), Е'(|Х|()<Е(|Х|'+Л)Е(|Х|'~Л), 0^й<*. (8.10) если только математические ожидания существуют. Положив в (8.10) x1 = t—h, x2 = t-\-h и перейдя к логарифмам, видим, что функция и удовлетворяет условию (8.8) и поэтому выпукла. Поскольку и(0)^0, то тангенс угла наклона t~xu(t) прямой, соединяющей начало координат с точкой (t, и (t)), меняется монотонно и, следовательно, (Е(|Х|'))1/' является неубывающей функцией от t > 0. 1) Кпждая функция и, удовлетворяющая условию (8.8), либо выпукла, либо она колеблется на каждом интервале от —so до со. См.: Харди Г. Г.. 1ИттльвудДж. е. и Полна Г., Неравенства. —ИЛ, М., 1948, особенное. 114.
184 Гл. V. Вероятностные распределения в Э1Г г) Неравенство Гёльдера Пусть /?>1, <?>1 и /з-1 + <7-1 = 1. Тогда для неотрицательных функций ф и т|з имеет место неравенство Е(фф)<(Е(ф*))'/'(Е №»))•/•, (8.11) если только математические ожидания существуют. (Неравенство (8.1) является частным случаем этого неравенства, получающимся из него при p = q = 2. Для неравенств (8.2) и (8.3) имеются обобщения, аналогичные (8.11).) Доказательство. При х>0 функция u = \ogx вогнута, т.е. она удовлетворяет неравенству, обратному (8.7). Потенцируя это неравенство, приходим к соотношению *Г'4< (1-0 *! + '*.. (8-12) справедливому при xlt x, > 0. Как при доказательстве неравенства Шварца (второе доказательство), чтобы установить (8.11), достаточно ограничиться случаем, когда Е (ф*) = Е (т|з') = 1. Положим t=q~l и 1—t — p-1. Подставив в (8.12) xl = y, x2 = ty* и взяв математические ожидания, получаем Е(фт|з)^1, что и требовалось доказать. ш» д) Неравенство Колмогорова Пусть Xj Х„—независимые случайные величины с конечными дисперсиями и с E(Xt) = 0. Тогда для любого х > 0 Р {max [| St | | S„ |] > х) < х~*Е (S«). (8.13) Это важнейшее усиление неравенства Чебышева было выведено нами в 1; IX, 7 для дискретных случайных величин. Доказательство сохраняется без изменений, но мы перефразируем его так, чтобы сделалось очевидным, что неравенство Колмогорова применимо и в более общей обстановке к субмартингалам. Мы вернемся к этому вопросу в гл. VII, 9. Доказательство. Положим x* = t. При фиксированном значении t и / = 1, 2 п обозначим через Aj событие, заключающееся в том, что S' > t, но Sl^t для всех индексов v < /. Словами можно сказать, что событие Aj состоит в том, что / есть наименьший среди индексов k, для которых Sg>f. Конечно, такой индекс / не обязательно существует. Объединение событий Aj—это в точности событие, заключенное в левой части неравенства Колмогорова. Так как события Aj взаимно исключают друг друга, то неравенство может быть переписано в форма £рИ,К*-*Е(8«). 4.14) /= !
§ 9. Простые условные распределения. Смеси 185 Обозначим через \А, индикатор события A/t иначе, 1л есть случайная величина, которая равна 1 на Л, и равна 0 на дополнении к Aj. Тогда2 1/.^ 1, и поэтому E(S$)^ £ EfSJl^). (8.15) Покажем, что E(SfllAj)>E(S'1lA/). (8.16) Поскольку S* > t всякий раз, когда происходит Aj, то правая часть (8.16) ^ tP{Aj). Таким образом (8.15) приводит к неравенству (8.14). Для доказательства (8.16) заметим, что Sn = Sy + (Sn — S,), и, следовательно, Е (S\\Aj) ^ Е (S}l„y) +2E ((Sn-Sy) Sj\A]). (8.17) Второе слагаемое в правой части (8.17) обращается в нуль, так как величины S„ —Sy = X/+1+...+Х„ и Syl/ независимы, и поэтому к их математическим ожиданиям применимо правило умножения. Таким образом, (8.17) доказывает утверждение (8.16). ► § 9. ПРОСТЫЕ УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ. СМЕСИ В гл. III, 2, мы определили «условную плотность случайной величины Y при фиксированном значении другой случайной величины X» в том случае, когда совместное распределение X и Y имеет непрерывную плотность. Не претендуя на общность, мы введем теперь аналогичное понятие для более широкого класса распределений. (Систематически теория условных распределений и математических ожиданий развивается в § 10 и 11.) Для произвольной пары интервалов А, В на прямой положим Q(A, Д) = Р{Х£А У£В\. (9.1) При этом обозначении для частного распределения X имеем p{A\=Q(A, Я1). (9.2) Если p,{i4}>0, то условная вероятность события {Y£fl} при условии ]Х £ А] равна р{уел|хел} = ^^. (9.3) (Если fi{i4} = 0, то эта условная вероятность не определена.) Воспользуемся формулой (9.3), когда А есть интервал Ah = = х, x-\-h. Пусть h—»-0-f-. При выполнении соответствующих
186 Гл. V. Вероятностные распределения в Э1Г условий регулярности предел существует для всех х и В. В этом случае по аналогии с гл. III, 2, мы обозначаем q{x, B) = P{\eB\X = x\ (9.5) и называем q «условной вероятностью события {Ygfl} при условии Х = х». Рассмотренная конструкция распространяет понятие условных вероятностей на случаи, когда «гипотезы» имеют нулевую вероятность. Никаких дальнейших трудностей не возникает, если функция q достаточно регулярна, однако мы не будем заниматься изучением соответствующих условий регулярности, поскольку в следующем параграфе рассматривается более общая схема. В частных случаях обычно оказывается достаточным простой наивный подхол, и вид условного распределения нередко можно найти с помощью интуиции. Примеры, а) Предположим, что пара случайных величин X, Y имеет совместную плотность f(x, у). Для упрощения предположим, что f непрерывна и строго положительна. Тогда п где fl(x) = q(x, — оо, оо) есть частная плотность X. Другими словами, при фиксированном значении х функция множества q имеет плотность, равную f {x, y)/fi(x). б) Пусть X и Y — независимые случайные величины с распределениями F и G соответственно. Предположим для простоты, что Х>0 [т.е. F(0) = 0]. Рассмотрим произведение Z = XY. Имеем, очевидно, P{Z</|X = x} = 0(l). (9.6) Интегрируя (9.6) по F, получим функцию распределения U величины Z [см. гл. II, (3.1). Это утверждение представляет собой частный случай формулы (9.8), см. ниже]. В частности, когда величина X распределена равномерно на интервале 0, 1, получаем 1 1/(0 = ^0 (l)d*. (9.7) о Формула (9.7) может быть использована как удобный исходный пункт в теории одновершинных распределений *). ^ 1) Функция распределении U назьшар.тги одновершинной (унимодальной) с модой в нуле, если на интервале —оо, 0 una выпукла, а на интервале 0, за
§ 9. Простые условные распределения. Смеси 187 Дальнейшие примеры содержатся в задачах 18, 19. ► Следующая теорема, принадлежащая Л. Шеппу, является допускающим простую вероятностную интерпретацию, вариантом формального критерия, открытого А. Хинчиным. Теорема. Функция распределения U одновершинна тогда и только тогда, когда ее можно представить в виде (9.7). Иными словами, U одновершинна тогда и только тогда, когда она является функцией распределения произведе. ния Z=XY двух независимых случайных величин, из которых одна величина1 скажем X, распределена равномерно ш 0, 1. Доказательство. Возьмем h > 0 и обозначим Uh функцию распределения, график которой является кусочно-линейной функцией, совпадающей с U в точках 0, ± h, ... [т. е. £/А (ли) = U {nh) и функция (Удлиненна в интервалах между nh и (n+l)h]. Из определения одновершинности непосредственно ьытекает, что функция U одновершинна тогда и только тогда, когда одновершинны функции Uf,. Далее, Uh имеет плотность и/,, являющуюся ступенчатой функцией, и каждую ступенчатую функцию с разрывами в точках nh можно записать в виде где /(х) = 1 при 0 < х < 1 и /(х) = 0 в остальных точках. Функции (*) монотонна в интервалах —оо, 0 и 0, оо тогда и только тогда, когда РпЭ=0 при всех п, к является плотностью, если 2рп"=1- Но когда р„5=0 и 2^п=^ (*) представляет собой плотность распределения произведения Z/,= XYA—двух независимых случайных величин X и YAl из которых X распределена равномерно на 0, 1, а Уд имеет арифметическое распределение P{YA = nh} = p„. Мы доказали, таким образом, что функция Uh одновершинна тогда и только тогда, когда ее можно представить в виде (9.7) с функцией G, замененной на функцию G/,, сосредоточенную в точках 0, ±h Устремляя теперь h к нулю и используй теорему о монотонной сходимости, получаем нужный результат. (См. задачи 25, 26 и задачу 10 из гл. XV, 9.) ^ При выполнении соответствующих условий регулярности функция q(x, В) при фиксированном х является вероятностным распределением по В и при фиксированном В представляет собой непрерывную функцию по х. При'этом Q[AlB)=lq(x,B)iL\dx\. (9.8) А В самом деле, стоящий справа интеграл задает вероятностное распределение на плоскости, и, дифференцируя его по типу (9.4), получаем q(x,B). Формула (9.8) показывает, как заданное распределение на плоскости можно представить в терминах условного и частного распределений. Пользуясь терминологией гл. 11,5, можно сказать, что формула (9.8) дает представление заданного распределения в виде смеси зависящего от параметра х семейства вогнута [см. 8, б)]. Нуль может Сыть точкой разрыва U, но Ене нуля одно- рершинность предполагает существование у (/ плотности и, которая монотонна ив —оо, 0, и в 0, оо, (Интервалы постоянства не исключаются).
188 Гл. V. Вероятностные распределения в Э1Г распределений q(x,B) и распределения ц, играющего роль распределения рандомизированного параметра. На практике описанный процесс нередко обращается. В качестве исходного берут ^вероятностное (стохастическое) ядро» qt т. е. функцию q [x, В) точки х и множества В% такую, что при фиксированном х она является вероятностным распределением, а при фиксированном В—бэровской функцией. При любом заданном вероятностном распределении ц интеграл в (9.8) определяет вероятности подмножеств плоскости вида (А, В) и тем самым определяет некоторое вероятностное распределение на плоскости. Обычно формулу (9.8) выражают в терминах функций точек. Рассмотрим семейство функций распределения G(9, г/), зависящих от параметра 6, и некоторое вероятностное распределение \i. Определим новую функцию распределения с помощью следующей формулы: 00 U(y)=\G(x,y)ii{dx\. (9.9) — QD [Эта формула представляет собой частный случай формулы (9.8); 1 она получается из нее при А = —оо, ао к q(x,—оо, y) = G(x, у).] Смеси подобного рода встречались нам уже в 1, гл. V, и обсуждались в гл. 11,5. В следующем параграфе будет показано, что q всегда можно интерпретировать как условное распределение вероятностей. Примеры, в) Для всяких двух распределений F,- и F, распределение pFt + (1—р) F, (0<р<1) является их смесью и представляется формулой (9.9) с распределением ц, сосредоточенным в двух точках. г) Случайные суммы. Пусть Хм Х2, ...—независимые случайные величины с одинаковым распределением F. Пусть далее N— независимая от X, случайная величина, принимающая значения О, 1, ... с положительными вероятностями рй, ри ... . Рассмотрим случайную величину SN = X, + . .. + \N . Условное распределение Sn при условии N=n есть Fn*, и поэтому распределение SN дается формулой и=%РяР': (9.10) представляющей собой частный случай (9.9). В рассматриваемом случае каждое условие N =п имеет положительную вероятность рп, и поэтому мы имеем здесь дело г условными вероятностными распределениями в строгом смысле Другие примеры имеются в гл. 11,5—7. (См. задачи 21 и 24.)
§ 10. Условные распределения 1В9 § 10*). УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ Вряд ли было разумным исследовать точные условия, при которых условные вероятности q могут быть получены с помощью процесса дифференцирования типа (9.4). Основные свойства условных вероятностей выражены в соотношении (9.8), представляющем вероятности множеств в терминах условных вероятностей, и проще всего использовать (9.8) в качестве определения условных вероятностей. Соотношение (9.8) не определяет q однозначно, так как, если для каждого множества В с точностью до множества ц-меры нуль q(x, B) = q(x, В), то (9.8) по-прежнему остается справедливым при замене q на q. Однако указанная неопределенность неизбежна. Например, когда \i сосредоточено на интервале /.невозможно никакое естественное определение q для х, не лежащих в /. В силу самой природы вещей мы имеем дело со всем классом эквивалентных условных вероятностей и должны говорить скорее о каком-то, а не об определенном условном распределении вероятностей q. В конкретных же случаях требования регулярности диктуют обычно некоторый определенный выбор условного распределения вероятностей. Для определенности мы будем рассматривать лишь события, задаваемые условиями типа Х£/1 и Y£fl, где X и Y—фиксированные случайные величины и А, В—борелевские множества напр ямой. Посмотрим сначала, как можно понимать фразу «условная вероятность события {\£В\ относительно X». Значение X может быть либо фиксированным числом, либо быть неопределенным. При второй из этих интерпретаций мы имеем функцию от X, т. е. случайную величину, которую будем обозначать Р{В|Х} клк q(\, В) и т. д. Когда имеется в виду фиксированное значение X, скажем х, будет использоваться обозначение P{Y£fi|X = x} или q(x,B). Определение 1. Пусть В—фиксированное множество. «Условной вероятностью P{Y£B|X} события {YgB} относительно X» называется функция q(\, В), такая, что для любого подмножества А прямой P{XeA,\eB\ = \q(x,B)iL{dx\, (10.1) А где и.—частное распределение X. Когда х является атомом распределения \l, условие \ = х имеет положительную вероятность и условная вероятность Р {Y £ В | Х=х} была в этом случае определена нами раньше формулой (9.3), в которой под А следует понимать множество, состоящее из единственной точки х. При этом формула (10.1) сводится к (9.3), так что наши прежние и настоящие определения и обозначения согласуются друг с другом. *) Этот параграф можно опустить при первом чтении.
190 Гл. V. Вероятностные распределения в Э1Г Мы видим, что условная вероятность PjY £fi|X} всегда существует. В самом деле, ясно, что Р{Х£А, Y 6 ЯКц (Л). (10.2) Левая часть (10.2), рассматриваемая при фиксированном В как функция множества А, определяет конечную меру, и из (10.2) следует, что эта мера абсолютно непрерывна по отношению к \i (см. теорему Радона—Никодима в § 3). Это означает, что определенная нами мера обладает плотностью g и поэтому (10.1) справедливо. До сих пор множество В было у нас фиксированным, но обозначение q (х, В) было выбрано с тем расчетом, чтобы впоследствии сделать В переменным. Иными словами, мы хотим теперь рассматривать q как функцию от двух переменных—точки х и подмножества В прямой. При этом желательно, чтобы при фиксированном х функция q была вероятностной мерой. Это означает, что q {х, £Л1) = 1 и что для любой последовательности непересекающихся множеств flj, B„ ..., в объединении дающих В, имеет место равенство q(x,B)^^q(x,Bk). (10.3) Если стоящие справа члены представляют собой условные вероятности Вк, то их сумма является некоторой условной вероятностью множества В, однако у нас имеется дополнительное требование согласованности, состоящее в том, чтобы (10.3) выполнялось при нашем выборе q при всех х. [Отметим, что определение 1 не исключает абсурдных значений функции q (x, В) в некоторых точках х типа q(x, В)=\7.] Как нетрудно видеть, функцию q {х. В) действительно можно выбрать так, чтобы выполнялись все эти требования А). Это означает, что существует условное вероят- 1) Проще зсего построить такую функцию q, определяя непосредственно значения q (л, fl' лишь для множеств о, являющихся интерналами в дпаднчес- 1 ком подразбиении $}. Пусть, например, flj = 0, 00, fla =— 00, 0. Возьмем в качестве ц (х, flj любую условную вероятность fl], подчиненную очевидному требованию 0 ^ г/ (х, Brf <Z 1. Теперь автоматически следует положить q{x, В2) = — 1 —q (х, flj). Разобьем далее Вг на Яп и Я]2 и выберем q (x, Вп) так, чтобы выполнялись неравенства 0< q {х, Ви) <, q (х, BJ. Положим q(x,Bl2) = — q(x,Bi)—q (.*, fin)- Процесс измельчения подразбиений продолжается далее неограниченно. Требование аддитивности (10.3) позволяет затем определить q (x, В) для всех открытых множеств В и, следовательно, для всех борелев- ских множеств. Описанная конструкция основывается лишь на существовании так называемой сети, т. е. разбиении пространства на конечное число непересекающихся множеств, каждое из которых в свою очередь разбивается на конечное число непересекающихся множеств, причем процесс продолжается таким образом, что каждая точка пространства является единственным пределом стягивающейся последовательности множести, входящих н последовательные разбиения. Рассматриваемое утверждение имеет место, следовательно, и Лг и во многих других пространствах.
§ П. Условные математические ожидания 191 постное распределение Y относительно X в смысле следующего определения. Определение 2. Условным вероятностным распределением Y относительно X называется функция q, зависящая от двух переменных—точки х и множества В, такая, что (i) при фиксированном множестве В q(X, B) = P\Y£B\X\ (10.4) является условной вероятностью события [Y£B\ относительно X, (ii) при каждом фиксированном х q есть вероятностное распределение. В действительности условное вероятностное распределение представляет собой семейство обычных вероятностных распределений, и поэтому вся теория переносится на них без изменений. Так, если q задано1), следующее определение вводит скорее новое обозначение, чем новое понятие. Определение 3. Условное математическое ожидание Е (Y | X) есть функция от X, принимающая в точке х значение E(Y|*)=S yq(x,dy). (10.5) — DO При этом предполагается, что интеграл сходится (за исключением, возможно, множества точек х, имеющего вероятность нуль). Условное математическое ожидание F. (Y | X) является функцией от X и, следовательно, представляет собой случайную величину. Для большей ясности значение его ч фиксированной точке х иногда предпочитают обозначать E(Y|X = *). Из определения E(Y]X) непосредственно вытекает, что E(Y)= $E(Y|x)|i{dx} или E(Y) = E(E(Y|X)). (I0.6) — 00 § 11*). УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ Мы определили условные математические ожидания Е (Y | X) в терминах условных вероятностных распределений. Этот подход вполне удовлетворителен, когда имеют дело лишь с одной парой случайных величии X, Y. Однако когда приходится иметь дело с целыми семействами случайных величин, то неединственность условных распределений приводит к серьезным трудностям. Поэтому замечательно то, что на практике можно обойтись без этой громоздкой теории. Действительно, оказывается, что можно построить на удивление простую и гибкую теорию условных математических ожиданий без всякого обращения к условным рж-иреде- ') Более гибкое; общее определение приводится в § 11. *) Содержание этого параграфа будет использоваться лишь а связи с мартингалами в гл, VI, 12, и гл. VII, У,
192 Гл. V. Вероятностные распределения в 9Lr лениям. Для понимания этой теории лучше всего начать с более внимательного рассмотрения равенства (10.5). Пусть А — борелевское множество на прямой и 1А(Х)—случайная величина, равная 1 при Х£Л и нулю в остальных случаях. Мы интегрируем обе части равенства (10.5) относительно частного распределения [i случайной величины X, взяв в качестве области интегрирования множество А. Результат можно записать в следующем виде: 4- ОВ E(Yl^(X)) = SE(Y|x)ti|dx}= J l„(x)E(Y|x)n(dx). (11.1) А - ао Случайная величина X отображает выборочное пространство G на действительную прямую, и последний интеграл имеет отношение только к функциям и мерам на прямой. Случайная величина Y1,,(X), однако, определена в исходном выборочном пространстве, и поэтому необходима более подходящая система обозначений. Очевидно, что 1^(Х) есть индикатор множества В всех таких точек из 6, в которых X принимает значения из множества А. Как мы знаем из гл. IV, 3, множества В, которые таким образом соответствуют произвольному борелевскому множеству А на прямой, образуют о-алгебру множеств в S, которая называется алгеброй, порожденной X. Таким образом, (11.1) утверждает, что U = Е (Y | X) есть функция от X, которая удовлетворяет тождеству E(Yla) = E(Ula) (11.2) для любого множества В из а-алгебры, порожденной X. Мы увидим, что это равенство может быть использовано как определение условных математических ожиданий и поэтому очень важно уметь истолковывать его надлежащим образом. Поясним природу этого равенства на простом примере. Примеры, а) Рассмотрим плоскость с координатными величинами X и Y как выборочное пространство и предположим для простоты, что вероятности задаются посредством строго положительной непрерывной плотности / (х, у). Случайная величина X принимает постоянное значение вдоль любой прямой, параллельной у-осн. Если А есть множество на х-оси, то соответствующее плоское множество В состоит из всех таких прямых, проходящих через точки множества А. Левая часть (11.2) представляет собой обычный интеграл от yf(x, у) по этому множеству, и он может быть записан как повторный интеграл. Таким образом + и E(Yla) = Jdx \yf{x,y)dy. (11.3) А -в Правая часть (11.2) представляет собой обычный интеграл от функции V(x)f1(x), где fl—частная плотность X. В таком случае
§ It. Условные математические ожидания 193 (11.2) утверждает, что и(А')=ш1 yf^y)dy <1М) в соответствии с определением (10.5) условного математического ожидания и в соответствии с интуицией. б) Продолжение. Покажем теперь, что равенство (11.2) определяет условное математическое ожидание U даже в том случае, когда плотности не существуют и вероятностное распределение на плоскости произвольно. При заданном борелевском множестве А на *-оси левая часть в (11.2) определяет число (^{Л}. Очевидно, что \il есть мера на борелевских множествах х-оси. Другая мера задается посредством частного распределения ц случайной величины X, которое определено как (1 \А\ = Е (1Я). Поэтому очевидно, что если ц{/1} = 0, то и \ь1{А\ = 0. Иными словами, (li абсолютно непрерывна относительно ц, и по теореме Радона— Никодима из § 3 существует функция 0, такая, что [4\A\ = \v(x)iL(dx). (11.5) А Это равенство отличается только обозначениями от (112). Конечно, (П.5) остается справедливым, если U изменить на множестве (i-меры О, но эта неединственность присуща понятию условного математического ожидания. ► Приведенный пример демонстрирует, что (П.2) может быть использовано для определения условного математического ожидания U(X) = E(Y|X) для произвольной пары случайных величин X, Y в произвольном вероятностном пространстве [при условии, конечно, что Е (Y) существует]. Однако этот подход ведет много дальше. Например, для определения условного математического ожидания Е (Y | Xlf X2) относительно случайных величин Xlt X, можно использовать (112) без изменений, за тем исключением, что В должно теперь быть произвольным множеством из а-алгеб- ры 23, порожденной Х2 и Х2 (см. гл. IV,3). Конечно, U должна быть функцией Xj, X2, но мы видели в гл. IV, 4, что класс бэровских функций от пары (Х,, Х2) совпадает с классом всех ^-измеримых функций. Таким образом, мы можем охватить все мыслимые случаи с помощью следующего определения, предложенного впервые Дубом. Определение. Пусть (6, 31, Р)—вероятностное пространство, и пусть 23—а-алгебра множеств из 9( (иначе 23c=S[)- ЛустьУ— случайная величина с математическим ожиданием EY. Случайная величина U называется условным математическим ожиданием Y относительно 33, если U ^-измерима и (11.2) выполняется для всех множеств В £ 23. В этом сличав мы пишем U = E(Y[23). 7 Л.240
194 Гл. V. Вероятностные распределения п ffl В том случае, когда sB есть а-аггебра, порожденная случайными величинами \lt ...,\п величина 0 сводится к бэровской функции от Xt, . .., Хг и будет обозначаться E(Y |Xt, ..., Xr). Существование E(Y|33) устанавливается способом, указанным в примере б), который использует теорему Радона — Никодима. Укажем основные свойства условного математического ожидания и = Е(У|'.В). Отметим, что соотношение (11.2) выполняется, если 1я заменить линейной комбинацией индикаторов множеств B/t принадлежащих )3. Но в гл. IV, 3, мы видели, что любая 93-из- меримая функция может быть равномерно приближена с помощью таких линейных комбинаций. Переходя к пределу, убеждаемся, что из (11.2) следует, что для любой 23-измернмой функции Z выполняется E(YZ) = E(UZ). Заменяя Z на Z\B и сравнивая с определением (11.2), мы видим, что для любой ^-измеримой функции Z E(YZ|33) = ZE(Y|93). (11.6) Это соотношение чрезвычайно важно. Наконец, рассмотрим а-алгебру 9Э„с9э и пусть U0 = E(Y|33„). При В€230 мы можем толковать (11.2) относительно 530 так же, как и относительно 93, и поэтому мы находим, что E(Yle) = E(Ulfl) = E(U0l„). Таким образом, в силу определения U0 = E(U |930), и поэтому если 5У0сЭ, то E(Y|93o) = E(E(Y|93)930). (11.7) К примеру, 93 может быть алгеброй, порожденной двумя случайными величинами Xt, Х2, а 230—алгеброй, порожденной только величиной Хр Тогда (11.7) переписывается как Е (Y | X,) = = E(E(Y|Xl, XJIXJ. Наконец, мы отметим, что из (11.2) следует, что для функции, тождественно равной 1, условное математическое ожидание равно 1 независимо от того, как выбрана алгебра 93. Таким образом, из (11.6) вытекает, что E(Z|33) = Z для всех Ъ-измеримых случайных величин Z. Едва ли нужно говорить, что основные свойства математических ожиданий распространяются на условные математические ожидания. § 12. ЗАДАЧИ 1. Пусть X и У —независимые случайные величины с функциями распределения F и G. Найдите функции распределения следующих величин *): а) XIIY, б) ХПУ, в) 2ХЦУ, г) k3UY. ') Для двух чисел а и Ь a[]b = max(a, Ь) обозначает наибольшее из них, г a(]b = min (a, b)— наименьшее. Для функций /Ug обозначает функцию, которая в точке л принимает значение f{x)Ug (х) (см. гл. IV, 1), Таким образом, XUY и Xf|> являются случайными величинами.
$ 12. Задачи 195 2. Смеси. Пусть X, V, Z—независимые случайны!! величины, X и Y имеют распределения F и G, я Р {Z= 1} = р, P{Z = 0} =.■ g (p-fiy = 1). Найдите функции распределения следующих величин: a) ZX+ (I — Z) Y, б) ZX -Ml — ZHXII Y1 в) 2Х + 0--Ч(ХПУ). 3. Показать, что для непрерывно!) функции распределения F к 1 ^F(x)F{dx)=[iydy = ±, - в О а) используя само определение первого интеграла (разбиение —оо, с» на подынтервалы) и б; интерпретируя первый интеграл, как Е (F (X)), и пользуясь тем, что F (X) имеет равномерное распределение. Показать также, что имеет место обшая формула ел J f * (*) G (dr) = -JL. , Где О (х) = f" (x). — QD 4. Пусть F {x, у) обозначает вероятностное распределение на плоскости. Положим U (х, у) = 0 при х<0и1/<0и U (x, y) = F (л-, у) во всех других точках. Покажите, что U — монотонная функция каждой переменной, но U не является функцией распределения. Указание: рассмотрите смешанные разности. 5. Двумерное распределение с заданными частными распределениями 1|. Пусть F и G—функции распределения в Щ} и U (х, y)=F (х) G (у) [I +в (I -F (х)) (1 -G ДО)], где |а|<1. Доказать, что U есть функция распределения в 5i2 с частными распределениями F и G и что {/ имеет плотность тогда и только тогда, хогда F к G имеют плотности. Указание. Смешанные разности функции w[x, y) = u (х) v (у) [определенные в (1.12)] имеют вид ЛкДи. Отметим также, что Д (F*)tg:2&F. в. Внутри единичного квадрата положим U (дг, у) = х при x^yt\U(x,y) = y при x^sy. Покажите, что U есть функция и что соответствующее ей распределение сосредоточено на биссектрисе (и, следовательно, сингулярно). 7. Максимальное распределение Фреше с заданными частными распределениями. Пусть F и G—функции распределения я SA1 и U (х, y) = F (x)nG (у). Доказать, что a) U есть функция распределения с частными распределениями F и G, б) если V — любая другая функция распределения с частными распределениями F и G, то V «S U, в) распределение, отвечающее £/, сосредоточено на множестве {(х, ^): F (х—) (JG {у — )<^F (х)П G (^)} и, следовательно, сингулярно. (Задача 6 является частным случаем этой задачи.) 8. Пусть U — равномерное распределение на —п, О и Т — треугольное распределение на —h,h [см. гл. 11,4(6)]. Показать, что плотности распределений F it U и F if T равны соответственно h h-4F{x + h)-F(x)] и ft"'$ IF ix-r у)—F(fi-y)]dy. о 9. Hoik независимые случайные величины X и Y имеют пуассоновскне распределения с математическими ожиданиями pt и at, p-}-q~l, то Р{Х- Y = A} = e-« ]/"(£-)* /,*,(2/ /й). 11 Эта задача содержит новый пример не нормального распределения с нормальными частными распределениями (см. задачи 2 и J в гл. 111,9}, ппинадлежащий Е. Дж, Гумбелу, 1*
196 Гл. V. Вероятностные распределения в .СЛГ где 1^—функция Бесселя, определенная в гл. II, (7.1). 10. Каждому распределению F, для которого интеграл X *«,) = J ,**F[dx) — OD существует при —а < а < а, сопоставим новое распределение F* посредством формулы ф (a) F* {dx) = eaxF {dx). Пусть fx и F2—два распределения, обладающие указанным выше свойством, и F = FlirFi. Доказать, что (используются очевидные обозначения) <р (а) = ф] (а) фа (а) и F* -----F* 1c F*- 11. Пусть F — атомическое распределение с массами р\, рг, ... в точках ах, а2 Обозначим через р максимальное среди чисел />], р, Используя лемму 1 § 4а, показать, что а) массы всех атомов распределения F it F строго меньше р, за исключением того случая, когда F сосредоточено на конечном числе атомов одинаковой массы; б) для симметризованиого распределения "F нуль является атомом с массой p' = 2jP*\ массы остальных атомов °F строго меньше р'. 12. Случайные векторы в Э13. Пусть L—длина суммы двух независимых единичных векторов со случайными направлениями (т. е. их концевые точки распределены равномерно на единичной сфере). Покажите,'что P{L</} = <2/2 при 0 < / < 2 [См. пример 4, д).] 13. Пусть случайные величины Хд взаимно независимы и принимают значения 0 и 1 с вероятностью 1/2 каждое. В примере 4, г) было показано, что случайная величина Х = ]^2-*Хд равномерно распределена кг 0, 1. Покажите, что 2^-B*^s* имеет сингулярное распределение. 14. а) Если F имеет плотность / и f1 — интегрируемая функция, то плотность /а свертки F it F ограничена. б) Используя теорему об аппроксимации в среднем из гл. IV, 2, покажите, что если f ограничена, то /2 непрерывна. [Если / неограничена в окрестности некоторой точки, то может оказаться, что /** неограничена при каждом п. См. пример XI, 3, а).] 15. Используя неравенство Шварца, покажите, что если X есть положительная случайная величина, то Е (Х~р) Ss (E (X"))-1 при всех р > 0. 16. Пусть X и Y—случайные величины с плотностями / и g, такими, что [(x)^sg (х) при х < а и / (х)<g[х) при х > а. Доказать, что Е (X)< Е (Y). Далее, если f(x)=g(x) = 0 при х < 0, то Е (X*)«£E (Y*) для всех k. 17. Пусть X], Х2, ...—взаимно независимые случайные величины с одинаковой функцией распределения F. Пусть N — положительная случайная величина, принимающая целые значения и имеющая производящую функцию Р (s). Если N не зависит отХу, тослучайная величина max [X, XN | имеет распределение Р (F). 18. Пусть Xj Х„ — взаимно независимые случайные величины с непрерывным распределением F. Положим X = max [Xi Х„] и Y = min [Хь... .... Х„]. Тогда Р {X < *. Y > у} = (F (x)-F (i/))" при у < х Р {Y > у | X =.v} = [1 -F (,,)/F (A-)]""1. 19. При кажюм фиксированном k<n (в обозначениях предыдущей задачи) | /1 — 1/ (.V) р{х4<х|х = 0-Ч~"моП|,,,дг<'" V, 1 при х S»'.
,$ 12. Задачи 197 Доказать это а) с помощью эвристического рассуждения, рассматривая событие {ХЛ=Х}, и б) формально, используя (9.4). 20. Продолжение. Доказать, что ( E(xt|x = o = ^^ \уПЧу)-'г{. — от 21. Случайные суммы. В примере 9, в) случайную величину X* положим равной 1 и —1с вероятностями р и q=\—р. Если N имеет пуассоновское распределение с математическим ожиданием /, то распределение SN совпадает с распределением, указанным в задаче 9. 22. Смеси. Пусть распределение G в (9.9) имеет математическое ожидание т (х) и дисперсию о2 (х). Показать, что математические ожидание и дисперсия смеси U равны а= J ml^W, Ь= ^ o"-{x)\i{dx)-'T ^ (m-(x)-a"-)ii(dx). — Ээ — Я — со 23. Применяя очевидные обозначения, имеем Е (Е (Y | X)) = Е (Y), но Var(Y) = E (Var(Y|X))+Var (E (Y|X)). Задача 22 является частным случаем этой задачи. 24. Случайные суммы. В обозначениях примера 9, в) Е (SN) = E (N) L (X) и Var (SN) -= E (N) Var (X) + (E (X))2Var (N). Доказать эти соотношения непосредственно и показать, что они вытекают из результатов двух предыдущих .задач. Замечание. Следующие задачи относятся к сверткам одновершинных распределений, определенных в сноске на с. 186. Была выдвинута гипотеза,- что свертка двух одновершинных распределений одновершинна. Противоречащий этой гипотезе пример был построен К- Л. Чжуном. Задача 25 содержит другой такой пример. Задача 26 показывает, что гипотеза верна для симметричных ') распределений (этот результат принадлежит А. Винтнеру). 25. Пусть и (х) = 1 при 0 < х < 1 и и (х) =0 в остальных точках. Положим где 0 < а < Ь. Если в и а малы, а Ь велико, то плотность о одновершинна] но плотность ш = оз(еи не одновершинна. Указание как избежать вычислений. В результате свертки двух равномерных плотностей получается треугольная плотность. Следовательно, и; (а) > eso-1, ш (Ь) > ъгЬ~х и интеграл от ш в пределах от Ь до 2й больше (1 —-е)3/2. Отсюда вытекает, что плотность ш должна иметь минимум между а и Ь. 26. Пусть ¥— равномерное, a G — одновершинное распределения. С помощью простого дифференцирования показать, что если F и G симметричны, то свертка F irG одновершинна. Вывести отсюда (беи дальнейших нычиелсшш), что тот же результат получается, когда F есть произвольная смесь симметричных равномерных распределений и что, следовательно, снертка симметричных одновершинных распределений одновершинна. ') С трудностями, возникающими в несимметричном случае, можно познакомиться и p;i6orc И. А. Ибрагимова, Теория вероятностей и ее применения, т. 1 (1956;, с, 283--288.
ГЛАВА VI НЕКОТОРЫЕ ВАЖНЫЕ РАСПРЕДЕЛЕНИЯ И ПРОЦЕССЫ Настоящая глава включена в книгу из-за прискорбной необходимости избегать повторений и взаимных ссылок в главах, предназначенных для независимого чтения. Например, теория устойчивых распределений будет изложена независимо на основе полугрупповых методов (гл. IX), анализа Фурье (гл. XVII) и, по крайней мере частично, на основе преобразований Лапласа (гл. XIII). Вынесение определений и примеров в отдельное место дает некоторую экономию и делает возможным тщательное исследование некоторых основных соотношений, не стесненное чистотой используемых методов. Разнообразные темы, которым посвящена настоящая глава, не всегда логически связаны: теория очередей имеет мало общего с мартингалами или с устойчивыми распределениями. Материал главы не предназначен дли последовательного чтения; лучше читать тот или иной параграф по мере появления необходимости. Параграфы 6—9 в известной степени связаны между собой, но не зависят от остальной части главы. В них излагается важный материал, не затрагиваемый в других местах книги. § 1. УСТОЙЧИВЫЕ РАСПРЕДЕЛЕНИЯ В Э\> Устойчивые распределения играют все возрастающую роль в качестве естественного обобщения нормального распределения. Для их описании удобно ввести следующее сокращенное обозначение: если распределения двух случайных величин U и V совпадают, то мы будем писать U = V. (1.1) d В частности, соотношение U —«V -\-Ь означает, что распределения величин U и V отличаются лишь параметрами расположения и масштабными параметрами [см. определение 1 в гл. V, 2]. Всюду в этом параграфе символы X, Х2, X,, ... обозначают взаимно независимые случайные величины с одним и тем же распределе- нием /?, a S„ = X,+ -f X„. Определение 1. Распределение R назьшиетсн устойчивым
§ I. Устойчивые распределения ч Я} 199 (в широком смысле), если оно не сосредоточено в нуле и для каждого п существуют постоянные с„ > 0 иу„, такие, что *) S„LcHX + y„. (1.2) R устойчиво в узком смысле (строго устойчиво), если оно удовлетворяет соотношению (1.2) с уп = 0- Примеры будут приведены в § 2. Весьма поучителен элементарный вывод некоторых основных свойств устойчивых распределений, и мы дадим его здесь несмотря на то, что дальше будут даны другие доказательства этих свойств. Систематическое изложение теории устойчивых распределений в гл. IX и XVII не опирается на нижеследующий материал. Теорема 1. Нормирующие постоянные имеют вид сп = пх>ас О < а < 2. Постоянная а будет называться характеристическим показателем распределения R. Доказательство. Доказательство значительно упрощается при использовании симметризации. Если распределение R устойчиво, то распределение °R величины X,—X, тоже устойчиво, причем с теми же самыми нормирующими постоянными с„. Достаточно, следовательно, ограничиться случаем симметричного устойчивого распределения R. Заметим сначала, что Se+n есть сумма независимых случайных величин S„ и Sm+n—S„, распределения которых совпадают соответственно с распределениями величин с„Х и с„Х. Таким образом,, для симметричных устойчивых распределений имеем cm+nxLcmX,+<.„X,. (1.3) Сумму Srk можно аналогичным образом разбить на г независимых частей по к членов в каждой, и поэтому сгк = с,ск при всех г и к. Отсюда по индукции заключаем, что если л = г\ то cn = cj. (1.4) Далее положим \ = т + п и заметим, что в силу симметрии величин из (1.3) при *>0 P\X>t\^±\Xt>tcv/c„\. (1.5) Отсюда следует, что при v > п отно1иения cjo* остаются ограниченными. Для любого целого числа г существует единственное а, такое, что сг = г*/а. Для того чтобы доказать равенство £и = л,/в, достаточно показать, что из ср = р|/в вытекает Р=а. В силу (1.4) если п = г', то c„ = ni/a, если в = [)\ то е^ = в"Р. Ч В другой форме зто определение сы, и задаче 1.
200 Гл. VI. Некоторые важные распределения и процессы Но для любого v = p* существует n = rj, такое, что ri<v=s^r/i. В таком случае Cp = u,/P<(rn)1^=r1',Pc»/p. Так как отношения cjcv ограничены, то отсюда следует, что Р^а. Меняя г и р ролями, мы аналогичным образом показываем, что р" 2> ос и, следовательно, р = ех. Докажем, что а ^2. Для этого вспомним, что нормальное распределение устойчиво с характеристическим показателем а = 2. В этом случае (1.3) сводится к правилу сложения дисперсий, откуда следует, что любое устойчивое распределение с конечными дисперсиями необходимо соответствует значению а = 2 Для завершения доказательства достаточно поэтому показать, что любое устойчивое распределение с а > 2 должно иметь конечную дисперсию. Для симметричных распределений соотношение (1.2) выполняется с Yn = 0i И> следовательно, мы можем выбрать t так, что Р{| S„ | > tcn\ < 1/4 для всех п. В силу симметрии отсюда следует, что п[\ — R{tc„)] остается ограниченным [см. V, (5.10)]. Тогда для всех х>* и подходящей постоянной М выполняется ^"[l— /?(х)]<М. Таким образом, вклад интервала 2*_1<х^2* в интеграл, определяющий Е(Хг), ограничен величиной М2(2-а>*, а при а > 2 это является общим членом сходящегося ряда. ^ Значительному упрощению теории устойчивых распределений способствует то приятное обстоятельство, что на практике центрирующими постоянными уП можно пренебречь. Это так, потому что мы вольны центрировать произвольным образом распределение /?, т. е. мы можем заменить R(x) на R{x + b). Следующая теорема показывает, что, исключая случай я=1, мы можем употребить эту свободу на устранение у„ из соотношения (1.2). Теорема 2. Для всякого устойчивого распределения R с характеристическим показателем а Ф 1 можно выбрать центрирующую постоянную b так, чтобы R(x + b) было бы строго устойчиво. Доказательство. Sm< „ есть сумма т независимых случайных величин, каждая из которых распределена одинаково с величиной с„Х + ул. Соответственно d d s™. „=cA> + туП = сПстХ + сПут + /пуП. (1,6) Поскольку тип играют одну и ту же роль, это означает, что имеет место равенство (с„—н)ут^(<т — m)y„. (1.7)
§ 1. Устойчивые распределения в Э11 201 При а=1 это утверждение не имеет смысла1), но при а=?^=1 отсюда следует, что уп — Ь(сп—п) при всех п. Наконец, из (1.2) видно, что сумма S^ n случайных величин, распределенных как d X'—Ь, удовлетворяет условию S„=c„X'. ^. Соотношение (1.3) было получено из (1.2) при единственном предположении, что у„ = 0, и поэтому оно справедливо для всех строго устойчивых распределений. Это влечет, что s1/«X1 + ^1^X2 = (s + 0I/aX (1.8) всякий раз, когда отношение s/t рационально. Простое использование свойства непрерывности8) приводит, к следующей теореме. Теорема 3. Для строго устойчивых распределений R с характеристическим показателем а соотношение (1.8) выполняется при всех s > 0 и t > 0. Для нормального распределения соотношение (1.8) просто устанавливает правило сложения для дисперсий. Вообще из (1.8) следует, что все линейные комбинации а1\1-\-а1\г принадлежат одному типу. Та важная роль, которую играет нормальное распределение 9£ в теории вероятностей, в значительной мере основана на центральной предельной теореме. Пусть Xj, ..., Хп — взаимно независимые величины с общим распределением F, нулевым математическим ожиданием и единичной дисперсией. Положим S„= = Xi+...+X„. Центральная предельная теорема3) утверждает, что распределения случайных величин S„n~I/2 сходятся к Ш. Если распределения не имеют дисперсий, то можно сформулировать аналогичные предельные теоремы, однако нормирующие постоянные должны быть выбраны другими. Весьма интересным является тот факт, что в качестве предельных распределений могут быть получены все устойчивые законы и только они. Введем следующую терминологию, которая облегчит дальнейшее обсуждение рассматриваемого вопроса. Определение 2. Скажем, что распределение F независимых случайных величин \k принадлежит области притяжения распределения R, если существуют нормирующие постоянные ап>0,Ьп\ такие, что распределение величины а„Л (S„ — bn) сходится к R. Приведенное выше утверждение можно теперь переформулировать следующим образом: распределение R имеет область при- г) Случай а=1 см. в задаче 4. 2) По поводу непрерывности устойчивых распределений см. задачу 2. 3) Центральная предельная теорема показывает, что нормальное распределение— это единственное устойчивое распределение, обладающее дисперсией.
202 Гл. VI. Некоторые важные распределения и процессы тяжения тогда и только тогда, когда оно устойчиво. Действительно, из определения устойчивости непосредственно вытекает, что устойчивое распределение R принадлежит своей области притяжения. Тот факт, что никакое неустойчивое распределение не выступает в качестве предельного, можно обосновать с помощью рассуждения, использованного при доказательстве теоремы 1. Полученные результаты имеют важные и неожиданные следствия. Рассмотрим, например, устойчивое распределение, удовлетворяющее соотношению (1.8) с а < 1. Среднее (Хл + . .. + Х„)/п имеет одинаковое распределение с величиной \1n~l + ]fa. Обратим внимание на то, что множитель п~1 + 1/а стремится к бесконечности с ростом п. Выражаясь нестрого, можно сказать, что среднее п величин Xft оказывается значительно больше любого фиксированного слагаемого Xk. Это возможно лишь тогда, когда максимальный член М„ = max [X, Х„] растет исключительно быстро и играет основную роль в сумме S„. Более длительный анализ подтверждает это заключение. В случае положительных случайных величин математическое ожидание отношения S„/M„ стремится к (1 —а)-1, и это верно также для любой последовательности {Хл} с распределением, принадлежащим области притяжения рассматриваемого устойчивого закона (см. задачу 26 из гл. XIII,11). Исторические замечания. Основы общей теории устойчивых распределений были заложены П. Леви1) (1924), который нашел преобразования Фурье все* строго устойчивых распределений. (Устойчивые распределения в широком смысле первоначально назывались квазиустойчивыми. Как мы видели, они существенно отличаются от строго устойчивых распределений лишь при а=1. Случай <х=1 был исследован совместно Леви и Хинчиным.) Более простой новый подход к теории устойчивых распределении стал возможным после открытия безгранично делимых распределений. Этот новый подход (тоже основанный на анализе Фурье) также принадлежит П. Леви (1937). Интерес к теории был стимулирован замечательным исследованием А. Дёб- лнна (1939), посвященным областям притяжения. В предтожепных им критериях впервые появились правильно меняющиеся функции. Современная теория по-прежнему носит отпечаток этой основополагающей работы, несмотря на то что некоторыми авторами были внесены различные усовершенствования и получены новые результаты. Гл. XVII содержит изложение теории устойчивых распределений на основе методов Фурье, ставших тепеиь уже классическими. Б гл. IX эта теория развивается с помощью прямого подхода, более близкого к современным методам теории марковских процессов. Значительные упрощения и объединение многих критериев оказались возможными благодари систематическому использованию развитой Караматл теории правильно меняющихся функций. Усовершенствованный вариант этой теории излагается в гл. VIII, 8, 9. J) Преобразования Фурье симметричных устойчивых распределений были указаны Коши, однако оставалось неясным, действительно ли они отвечают вероятностным распределениям. При а < 1 этот вопрос был решен Пойа. Распределение Хольцмарка из примера 2, в) было известно астрономам, но не мзнестни >>атемптпкл.м.
§ 2. Примеры 203 § 2. ПРИМЕРА а) Нормальное распределение с нулевым математическим ожиданием строга устойчиво с сп = ]/ п. б) Распределение Кош и с произвольными параметрами расположения, имеющее плотность 1 с я с2-!-^ —V)3' устойчиво со=1, Это следует из свойства свертки для распределения Коши, см. гл. И, (4.6). в) Устойчивое распределение с а =1/2. Распределение F{x) = 2 имеющее плотность '-"(ft -О 0, (2.1) [Дх) = 0 при ,v < 0], строго устойчиво с нормирующими постоянными сп = я2. Это утверждение доказывается посредством элементарного интегрирования, однако предпочтительнее получить его как следствие того, что F имеет область притяжения. Действительно, пусть в симметричном случайном блуждании Sr обозначает момент г-го возвращения в начало координат. Очевидно, что Sr есть сумма г независимых одинаково распределенных случайных величин (времен ожидания между последовательными возвращениями). В конце 1, III, (7.7) было показано, что P{S, </■•*} —/40. г-*оо. (2.3) Таким образом, F имеет область притяжения и потому устойчиво (продолжение в примере д)). г) Гравитационное поле звезд (распределение Хольцмарка). На языке астрономии задача формулируется так: вычислить *-компо- ненту гравитационной силы, создаваемой звездной системой в случайно выбранной точке О. В основе такой постановки задачи лежит предположение, что звездная система представляет собой «случайное скопление» точек со «случайно распределенными массами». Это предположение можно было бы выразить строго математически в терминах распределения Пуассона и т. п., однако, к счастью, для рассматриваемой задачи подобных тонкостей не требуется. Будем рассматривать плотность звездной системы как свободный параметр; пусть X,. обозначает х-компоненту гравитационной силы звездной системы с плотностью X. Нас интересуют возможные типы распределений X;,. Интуитивное понятие «случайное
204 Гл. VI. Некоторые важные распределения и процессы скопление звезд» предполагает, что два независимых скопления с плотностями s и t могут быть объединены в одно скопление с плотностью s-\-t. С вероятностной точки зрения это приводит к требованию, чтобы сумма двух независимых случайных величин, распределенных как X, и X,, была распределена как Xs + 1. Иначе это можно выразить равенством \s + \t~\s+i. (2.4) Считая, что замена единичной плотности плотностью X приводит к изменению единичной длины на длину 1/1/К и что гравитационная сила обратно пропорциональна квадрату расстояния, приходим к выводу, что величины \t и t2>3\l должны иметь одинаковое распределение. Это означает, что распределения величин Xt различаются лишь масштабным множителем и (2.4) сводится к (1.8) с а = 3/2. Иными словами, X;. имеет симметричное устойчивое распределение с характеристическим показателем а = 3/2. В дальнейшем мы увидим, что (с точностью до тривиальнсго масштабного множителя) имеется в точности одно такое распределение. Таким образом, мы решили нашу задачу, не прибегая к более глубокой теории. Астроном Хольцмарк получил равносильный ответ, применяя другие методы (см. задачу 7), причем, что весьма замечательно, до появления работы П. Леви. д) Моменты первого прохождения в броуновском движении. Введем сначала понятие одномерного диффузионного процесса. Диффузионный процесс — это такой процесс Х(/), приращения которого X(s + 0 — X (s) за непересекающиеся промежутки времени независимы и имеют симметричное нормальное распределение с дисперсией t. Будем предполагать известным, что траектории одномерного диффузионного процесса непрерывно зависят от времени. При Х(0) = 0 существует момент Та, в который частица впервые достигает уровня а > 0. Для нахождения функции распределения Fa (t) = Р(Та ^ t) заметим, что понятие аддитивного процесса заключает в себе полное отсутствие последействия (строго марковское свойство). Это означает, что приращение абсциссы \(t-\-Ta)—а между моментами времени Та и Ta + t не зависит от течения процесса до момента Та. Далее, чтобы достигнуть уровня а-\-Ь>а, частица должна сначала достигнуть уровня а, и поэтому время ожидания Та+Ь—Та до достижения уровня а-\-Ь после достижения а не зависит от Т3 и имеет распределение, одинаковое с распределением Ть. Иными словами, Fa-^Fb = Fa + h. Так как вероятности перехода зависят лишь от отношения x*;t, то Та имеет то же распределение, что и a2Tj. Это означает, что распределения Fа различаются лишь масштабным множителем и, следовательно, устойчивы с характеристическим показателем а =1/2. Проведенное рассуждение, основанное на соображениях раз-
§ 2. Примеры 205 мерности, доказывает устойчивость распределения момента первого прохождения уровня, но не дает его точной формы. Чтобы доказать совпадение F с распределением примера в), мы воспользуемся рассуждением, основанным на соббражениях симметрии (так называемом принципе отражения). В силу непрерывности траекторий событие ]Х(0>а} может произойти лишь в том случае, когда уровень а был пересечен в некоторый момент Тя</. Если Ти = т<^, то Х(т) = а, и из симметрии ясно, что вероятность события \(t) — Х(т)>0 равна 1/2. Следовательно, Р{Тв</} = 2Р{Х(0>а}=2|0-«Я)(^=) (2.5) что и требовалось доказать (ср. (2.1)). е) Точки достижения в двумерном броуновском движении. Двумерное броуновское движение образуется парой (Х(0, Y (()) независимых одномерных броуновских движений. Нас интересует точка (a, ZJ, в которой траектория впервые достигает прямой х = а>0. Отметим, что подобно тому, как это было в предыдущем примере, траектория может достичь прямой x — a + b> a лишь после пересечения прямой х = а. Если взять в качестве нового начала координат точку (a, ZJ, то станет ясно, что величина Za + b распределена так же, как сумма двух независимых случайных величин, распределенных одинаково с величинами Za и Zb. Далее, очевидные соображения подобия приводят к заключению, что величина Za распределена так же, как величина aZx, и поэтому Za имеет симметричное устойчивое распределение с характеристическим показателем а=1. Единственным таким распределением является распределение Коши, так что точка достижения Ъа имеет распределение 1(оши. Приведенное поучительное рассуждение, основанное на соображениях размерности, не определяет масштабного множителя. Для его вычисления заметим, что Za —Y(Tff), где Ta—момент первого достижения прямой х = а. Распределение величины Та дается формулой (2.5), а Y (t) имеет нормальное распределение с дисперсией t. Следовательно, величина Za имеет плотность, равную*) Г 1 _в-т""_2 e-T*4tdt= а_ (2 6) о ' ' [Здесь мы имеем пример подчиненности процессов, к которому мы еще вернемся в гл. Х,7.] ж) Устойчивые распределения в экономике. Примененные в двух последних примерах и основанные на соображениях размерности х) Подстановка у — -j (*!ffl!)/( .сводит подынтегральную функцию к функции е-".
206 Гл. VI. Некоторые важные распределения и процессы рассуждения были использованы Б. Мандельбротом для доказательства того, что различные экономические процессы (в частности, распределения дохода) подчинены устойчивым (или «Леви — Парето>) распределениям. До настоящего времени сила и ценность этой интересной теории, привлекшей внимание экономистов, проявились скорее а теоретической сфере, чем в прикладном аспекте. [По поводу кажущегося согласия хвостов распределения с многими эмпирическими явлениями, начиная от размера городов до частоты слов, см. гл. 11,4, з).] з) Произведения. Существует много любопытных соотношений между устойчивыми распределениями с различными характеристическими показателями. Наиболее интересное из них можно сформулировать в виде следующего предложения. Пусть X и Y — независимые строго устойчивые случайные величины с характеристическими показателями а и Р соответственно. Предположим, что величина Y положительна (при этом р < 1). Тогда произведение XY1''™ имеет устойчивое распределение с характеристическим показателем ар. В частности, произведение нормальной случайной величины и квадратного корня из случайной величины с устойчивым распределением примера в) имеет распределение Кош и. Это утверждение вытекает как простое следствие in теоремы о подчиненных процессах1) [пример 7, в) гл. X]. Кроме того, его легко проверить с помощью анализа Фурье [задача 9 из гл. XVII, 12] и для положительных случайных величин с помощью преобразований Лапласа [гл. XIII, 7, д) и задача 10 из гл. XIII, 11]. § 3. БЕЗГРАНИЧНО ДЕЛИМЫЕ РАСПРЕДЕЛЕНИЯ В ft1 Определение 1. Распределение F безгранично делимо, если для каждого п существует распределение Fn, такое, что F = F?,*. Иными словами2), F безгранично делимо, если при каждом п *) Для непосредственной проверки с минимальными вычислениями можно поступить следующим образом, Найдем распределение величины Z = = Xi у Y] -f- Х2 у Y2 , вычислив сначала условное распределение Z при условии Y1 = i/], Y2 = i/2- Это условное распределение есть функция суммы Hi'Til-i, " замена переменных « = //i + i'2. l' — yi—Уч показывает, что распределение Z отличается от распределения Xj у Yj лишь масштабным множителем. Аналогичные вычис