Text
                    Дж. ЛАМПЕРТИ
ВЕРОЯТНОСТЬ
Перевод с английского
Н. Б. ЛЕВИНОЙ и С. А. МОЛЧАНОВА
Под редакцией А. Н. ШИРЯЕВА
ш
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
Москва 1973


517.8 Л 21 ЪДК 519 2 JOHN LAMPERTl PROBABILITY A survey of the mabhemalicai theory Dartmouth college NEW YORK 196 6 AMSTERDAM 0223-1778 Л 042@2)-73 U 73
ОГЛАВЛЕНИЕ Предисловие редактора перевода 5 Предисловие автора 7 Глава 1 ОСНОВАНИЯ § 1. Вероятностные пространства 9 § 2. Случайные величины и математическое ожидание . . 12 § 3. Независимость 16 § 4. Построение случайных величин 23 Глава 2 3\КОНЫ БОЛЬШИХ ЧИСЕЛ И РЯДЫ СЛУЧАЙНЫХ ВЕЛИЧИН § 5. Слабый закон больших чисел 30 § 6. Теорема Вейерштрасса 35 § 7. Усиленный закон больших чисел 36 § 8. Усиленный закон — продолжение 40 § 9. Сходимость рядов 46 § 10. Еще о независимости. Закон 0 или 1 50 §11. Закон повторного логарифма 55 Г л а в а 3 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ И ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА § 12. Слабая сходимость мер 66 § 13. Максимум выборки 72 § 14. Характеристические функции 75 § 15. Центральные предельные теоремы 85 §16. Симметрические устойчивые законы 93 § 17. Устойчивые законы и предельные теоремы .... 100 § 18. Безгранично делимые законы 107 § 19. Возвратность 114
4 ОГЛАВЛЕНИЕ Глава 4 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ § 20. Броуновское движение — введение 121 § 21. Первая конструкция 125 § 22. Некоторые свойства броуновских траекторий . . . 132 § 23. Марковские переходные функции 139 § 24. Непрерывность траекторий 145 § 25. Уравнения Колмогорова 150 § 26. Броуновское движение и предельные теоремы . . . 156 § 27. Броуновское движение и граничные задачи ... 164 § 28. Броуновское движение и собственные значения . . 168 Добавление переводчика (С. А. Молчанов, Центральная предельная теорема для больших уклонений) ... 174 Библиография 181
ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА Университетские программы для студентов, специализирующихся по теории вероятностей, состоят, как правило, из следующих трех курсов: «Общего курса теории вероятностей», «Дополнительных глав теории вероятностей» и «Курса случайных процессов». Если следовать этой схеме обучения, то предлагаемая книга Дж. Лам- перти «Вероятность» относится к разделу «Дополнительные главы теории вероятностей» (в предположении, что слушатели, а в данном случае — читатели владеют в достаточной степени аппаратом теории меры). Следуя во многом собственным вкусам, автор построил курс дополнительных глав, из которого возникла предлагаемая книга, в духе «классической» теории вероятно- ностей, «классической» в том смысле, что в основе лежит изложение результатов, связанных с суммами независимых случайных величин. Приятно отметить, что изложение этого материала импонирует своей строгостью и четкостью. Приводимые доказательства продуманы до мелочей, но в то же время ни в коей мере не являются формальными. Не только впервые знакомящиеся с предметом, но и специалисты наверняка оценят, например, приводимое автором изложение закона повторного логарифма (§ И). Здесь читатель, следуя хронологическому пути в исследовании закона повторного логарифма, хорошо начинает понимать трудности и способы их преодоления в получении неулучшаемых оценок. В разделе, посвященном стохастическим процессам, автор изучает в основном процесс броуновского движения (винеровский процесс). Дается определение такого процесса
6 ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА и приводится его конструкция. Изучив далее свойства траекторий винеровского процесса, автор подчеркивает важную роль этого процесса в связи с так называемым «принципом инвариантности» в доказательстве предельных теорем. В двух последних параграфах выявляются глубокие связи броуновского движения с граничными задачами и задачей о собственных значениях для оператора Лапласа. Изложение здесь конспективное, но полезное в том смысле, что оно указывает на связь между вероятностным анализом и рядом разделов классического, т. е. невероятностного анализа. Этим автор как бы призывает читателя к изучению теории случайных процессов. В заключение отметим, что в процессе перевода автор книги, переводчики и редактор учитывали взаимные пожелания и замечания. Один из переводчиков, С. А. Молчанов, с согласия автора сделал к книге добавление, в котором дает представление о методе характеристических операторов как еще одном методе доказательства предельных теорем. Добавлен также ряд новых задач. А. Шир ьев
ПРЕДИСЛОВИЕ АВТОРА Ко мне несколько раз обращались слушатели элементарных курсов теории вероятностей, заинтересовавшиеся этим предметом, с просьбой порекомендовать им что-нибудь для дальнейшего ее изучения. В этом случае, конечно, первым делом следовало бы выучить некоторые факты из теории меры, но мне было неясно, что же посоветовать делать дальше. Разумеется, существуют и блестящие современные исследования, и монографии по специальным разделам теории вероятностей, но все это, по-видимому, не вполне подходит малоопытному читателю, желающему побыстрей ознакомиться с предметом. Хотелось бы надеяться, что настоящая книга поможет заполнить этот пробел и в то же время может пригодиться и более зрелым математикам как краткое введение в теорию вероятностей на современном уровне. Эта книга выросла из полугодового курса для студентов, который я читал в Дартмутском колледже; цель ее, как и цель курса, есть краткое изложение основных «классических» (т. е. относящихся к периоду до 1950 г.) путей развития теории вероятностей. Поэтому суммы независимых случайных величин занимают по меньшей мере половину всей книги и используются в последней главе при изложении стохастических процессов. Не надо при этом ожидать, что прочитавший эту книгу сможет сказать, что он знает, например, теорию безгранично делимых законов; такая цель была бы несовместима с размерами книги. Но есть надежда, чго он будет хорошо себе представлять, что это такое, знать о них некоторые факты и узнает некоторые методы, при систематическом применении которых получаются остальные факты этой теории. Формальной предпосылкой для чтения этой книги является владение теорией меры, примерно в объеме недавно появившейся книги Ройдена (см. библиографию в конце книги). Было бы очень полезно также некоторое
8 ПРЕДИСЛОВИЕ АВТОРА знакомство с элементарной теорией вероятностей; лучший путь для этого — прочесть несколько глав из «Введения» Феллера (т. 1). Вообще говоря, я везде давал полные определения, но не вдавался в обсуждение, например, такого вопроса, почему так важны независимые случайные величины и почему они представляют такой интерес. С другой стороны, я очень старался придавать мотивировки всем доказательствам и подходам, избегая метода «появления кролика из шляпы», насколько это возможно. Факты, относящиеся к теории меры, изложены здесь более кратко, чем обычно принято. Теоремы, которые обычно приводятся в учебниках по действительному переменному, широко используются, но не доказываются. Я хотел сообщить все необходимое в гл. 1, но ограничиться самым существенным и быстро перейти к делу. В частности, общая теория условных вероятностей и условных математических ожиданий вообще здесь не появляется, так как темы, для которых она действительно нужна, не могли быть включены в книгу. Этим же книга отличается от других книг того же уровня, например, от недавно вышедшей хорошей книги К. Крикеберга; выбор подхода продиктован скорее личными вкусами, чем логической необходимостью. Мои исторические ссылки весьма случайны (пожалуй, даже слишком); надеюсь, что здесь я всегда говорил правду, но не всегда всю правду. Я хочу заранее извиниться перед всеми, кто может усмотреть в этом пренебрежение, и попросить их считать мою книгу скорее результатом неформального курса, чем робкой попыткой систематического исследования. Я хочу еще категорически заявить, что ни один из результатов не является моим собственным, хотя я не всегда указывал, кому тот или иной результат принадлежит; единственное, в чем я мог проявить оригинальность,— это детали изложения и доказательств. Наконец, я хочу выразить признательность слушателям моего курса, подготовившим конспекты лекций, на которых основаны главы 2 и 3, а также Дартмутскому Математическому Отделению за помощь и сотрудничество. Джон Ламперти Гановер, Нью-Хемпшир Август 1966
Глава 1 ОСНОВАНИЯ § 1. Вероятностные пространства Пусть Q — непустое множество и пусть S - б о р е- левское поле (или а-поле) подмножеств множества Q. Это означает, что ЗЪ представляет собой набор подмножеств, содержащий пустое множество ф и замкнутый относительно взятия дополнения и объединения его членов в не более чем счетном числе. Пусть Р — неотрицательная функция, определенная на Si, такая, что Р(й) = 1 и P(U Ап) = %Р(Ан), A) где Ап ЕЕ S3 и Ап П Ат = ф для любых п Ф т. Тогда Р есть вероятностная мера, а тройка (Q, Si, P) — вероятностное пространство. Задача 1. Пусть Q = {0, 1, 2, 3, 4, 5, 6}. Опишите все боре- левские поля, содержащие множества А = {2, 3, 4} и В = {4, 6}. Задача 2. Доказать, что всякое конечное борелевское поле 33 подмножеств Q порождается некоторым конечным разбиением Q. Другими словами, в 33 найдутся непересекающиеся множества Вг, N В2, ..., BN («атомы» 33), такие, что Q = (J Вк, и любой элемент fc=i А ЕЕ 33 представим в виде А = (J В^.. г Задача 3. Пусть Q = {соп} — счетное множество, а 33 — набор всех его подмножеств. Если {рп} — последогатгльность неотрицательных чисел, сумма которой равна 1, то положим Р(*)= 2 Рп B) для любого S a Q. Покажите, что таким образом определена вероятностная мера на (й, 33), и обратно, все такие меры получаются этим способом. Более сложные меры можно получить с помощью следующей «теоремы о продолжении». Пусть # — поле
10 ОСНОВАНИЯ [Гл. I подмножеств множества й, т. е. набор подмножеств, содержащий ф и замкнутый относительно взятия дополнения и образования конечных объединений. Пусть Р — неотрицательная конечно-аддитивная функция *) на 5\ Р (Q) = 1, и пусть она удовлетворяет такому условию «непрерывности»: эо Если Ап е f, Ап+1 с Ап и П ^д = 0, то п=1 lim Р (Ап) = 0. C) п-оо Пусть 33 = 3$ {^) — наименьшее борелевское поле, содержащее все элементы поля $. (Мы будем иногда говорить, что ЯП порождено полем Я' •) Теорема 1. Существует, и притом единственная, вероятностная мера на 53($"), которая является продолжением мер i Р. Мы не будем доказывать эту теорему, которую можно найти во многих книгах, посвященных теории меры и интегрированию (например, [R], гл. 12, раздел 2. Условие C) дано там в другой, но эквивалентной форме; см. также ниже задачу 4). В некоторых работах по вероятности — особенно в монографии Колмогорова [Ко] — термин «вероятностное пространство» означает тройку (Q, f, P), удовлетворяющую предположениям, предшествовавшим теореме 1; но ввиду существования единственного продолжения разница между этими определениями несущественна. Задача 4. Покажите, что условие C) непрерывности эквивалентно такому требованию: условие счетной аддитивности выполняется, когда объединение непересекающихся множеств само принадлежит &. Таким образом, условие C), очевидно, необходимо для продолжения функции Р до меры. Наиболее привычный класс примеров возникает следующим образом: пусть Q — вещественная прямая, а ЯП — поле всех борелевских множеств. (Это означает, что ЯП — наименьшее а-поле, содержащее все открытые множества.) Для заданной меры Р на (Q, ЯП) определим *) Свойство, записанное уравнением A), называется «счетной аддитивностью).
* 1] ВЕРОЯТНОСТНЫЕ ПРОСТРАНСТВА 11 функцию F на Q таким образом: F (х) = Р ({* е Л1: - оо < * < *}). D) Эта функция называется функцией распределения меры Р и, как легко видеть, обладает следующими свойствами: (I) F не убывает; (II) F непрерывна справа; (III) lim F(x) = 0 и lim F (x) = 1. Х-*—ЗО Х->-(-ОС Обратно, если нам дана любая функция распределения F, определенная на R1 (т. е. функция, удовлетворяющая условиям (I), (II) и (III)), то существует единственная мера Р на борелевских множествах, связанная с F соотношением D). Для построения Р введем сначала $ — поле, состоящее из всех конечных объединений полуинтервалов (а, Ь], ( — оо ^ а < b <^ + оо), и для каждого такого полуинтервала положим Р ((a, b]) = F (Ь) — — F (а). Если множество состоит из непересекающихся полуинтервалов, то определяем Р как сумму значений Р для отдельных компонент; легко видеть, что если множество, принадлежащее #\ представлено двумя различными способами в виде суммы непересекающихся полуинтервалов, то результат для Р один и тот же. Разумеется, мы хотим продолжить Р до «настоящей» меры на 93 в смысле теоремы 1; чтобы сделать это, надо проверить C). (Проверка остальных условий тривиальна.) Задача 5. Докажите, что в описанной ситуации выполнено соотношение C). (Указание: пусть Ап — такая убывающая последовательность множеств из ^, что Р (Ап) +* 0. Покажите, что тогда можно найти замкнутые множества Апа Ап так, что последовательность Ап центрирована *); можно также выбрать Ап равиомер- оо по ограниченными. Отсюда следует, что Q Ап непусто.) n=l Задача 6. Существует другой простой способ получения меры Р, если предположить существование меры Лебега jli и на [0,1]. Пусть F — непрерывная и строго монотонная функция распределения; положим Р (А) = \i (F (А)) для каждого борелевского множества А. Покажите, что Р — вероятностная мера и что D) выполнено. Как следует модифицировать эти утверждения для случая, когда F имеет скачки и интервалы постоянства? ) Т. е. л;+1 С Лп, п= 1,2,...
12 ОСНОВАНИЯ [Гл. 1 Некоторые авторы требуют от полей и мер большего, прежде чем присвоить им титул «вероятностного пространства». Обычно добавляется требование полноты: если А (= 53, Р (А) = 0 и В а А, то В е 53 (и Р (В) = 0). Это условие апеллирует к интуитивному представлению о вероятности и несущественно в том смысле, что любое борелевское поле можно «пополнить» (по отношению к данной мере Р) простым и единственным способом. Более того, способ продолжения Каратеодори (см. [R]) автоматически приводит к полным пространствам. Но у постулата полноты есть один недостаток: иногда нужно рассматривать сразу несколько вероятностных мер на одном и том же а-поле, и хотя пополнение возможно по отношению к каждой из этих мер, может так случиться, что не существует поля, на котором все они одновременно определены и полны! Во всяком случае, мы не включаем требование полноты в определение вероятностного пространства, хотя большинство мер, с которыми мы встретимся в дальнейшем, будут полными. Задача 7. Показать, что если (й, «$, Р) — вероятностное пространство, то существует единственное пространство (Q, «#', Р'), подчиненное требованию полноты, удовлетворяющее условиям: «$' Z) & и Р' есть расширение Р, причем минимальное по отношению к этим свойствам. § 2. Случайные величины и математическое ожидание Пусть (Q, 53, Р) — вероятностное пространство, и X (со) — вещественнозначная функция на Q. Если X измерима относительно поля 53, т. е. если множество X (S) = {со : X (со) EH S} принадлежит 53 для любого борелевского множества S (или, что то же самое, для любого открытого множества, открытого интервала и т. д.) на вещественной оси, то X есть случайная величина. На любом вероятностном пространстве можно ввести интеграл Лебега; построение и основные свойства его предполагаются известными. (См. любую книгу по теории меры, приведенную в библиографии.) Этот интеграл мы будем обозначать Е (X) = $Х (со) d? A) Q и будем называть математическим ожиданием или средним значением случайной величины X. Если мы говорим
§ 2J СЛУЧАЙНЫЕ ВЕЛИЧИНЫ 13 о Е (X), то имеем в виду, что интеграл от | X (со) | конечен; в противном случае математическое ожидание не существует. Следует заметить, что случайная величина X на (Q, 3d, Р) порождает вероятностную меру Р^ на R1. Эта новая мера определяется так: для любого борелевского множества S на оси полагаем Рх (S) = Р (X-\S)). B) Мера Р называется распределением величины X; функция Fx, определенная формулой **(*) = Р ({<«>: X И <*}), C) называется функцией распределения случайной величины X. Очевидно, она совпадает с функцией распределения меры Рх, определенной в § 1. В дальнейшем важно знать, что математическое ожидание можно вычислить, не интегрируя по й, а используя лишь Р^ или Fx: QO Е (X) = $ х dPx (x) = \ х dFx (x), D) R» — оо где в последнем выражении имеется в виду несобственный интеграл Римана-Стильтьеса, а во втором — интеграл Лебега-Стильтьеса. Первое равенство в D) — это весьма специальный случай следующей ситуации: пусть Q' — любое пространство, 3d' — борелевское поле его подмножеств и отображение ф: Q ->- Q' измеримо, т. е. ф (М) ЕЕ 3d для любого М ЕЕ 3d'. Определим меру Рф на 3d' так: РФ(Л/) = Р(ф-М^)) E) для всех М ЕЕ 3d', и пусть X' — измеримая относительно 3d' вещественнозначная функция на Q'. Теорема 1. Сложная функция X (о?) = X' [ф (о>)] есть случайная величина на (Q, 3d, Р) и выполнено равенство Е(Х) = $Х'с*Рф, {6) причем если существует одна из частей равенства, то сугцествует и другая.
14 ОСНОВАНИЯ 1Гл. 1 Доказательство. Измеримость функции X очевидна. Пусть теперь X' — характеристическая функция*) множества А е 53'- Тогда правая часть в F) — это как раз Рф (А). Но X езть характеристическая функция множества ф (А), поэтому Е (X) = Р (ср-1 (А)). В силу определения E) это означает, что соотношение F) выполнено для характеристических функций множеств. Теперь уже совсем просто распространить формулу F) на простые функции — линейные комбинации характеристических. Допустим далее, что X' > 0. Существует неубывающая последовательность простых функций Хп, сходящаяся к X', и по теореме о монотонной сходимости получаем lim J X'ndP* = $Х'ЙРФ, G) П—ос ?' Но композиции Хп (со) = Хп (ср (со)) — тоже простые функции, монотонно сходящиеся к X, так что lim Е (Хп) = Е (X). (8) Т1-+00 Так как мы уже убедились в том, что формула F) справедлива для простых функций Хп и Хп, из соотношений G) и (8) теперь следует, что она имеет место также и для X и X'. Наконец, приведенное выше рассуждение можно применить по отдельности к положительной и отрицательной частям X и тем самым установить F) в общем случае. Из нашего доказательства должно быть вполне ясно, что Е (X) существует тогда и только тогда, когда случайная величина X интегрируема по мере Рф. Задача 1. Объясните, как из теоремы 1 получить формулу D). Докажите, что если / — борелевская функция вещественного переменного, то Е (/(*))= §f(*)dPx(x), (9) если только обе части существуют. *) Характеристической функцией множества А называется функция фА (со) =|о' ^ % А' Часто вмосто термина «характеристическая функция Л» используется термин «индикатор Л».
* 2) СЛУЧАЙНЫЕ ВЕЛИЧИНЫ 15 Многие из общеизвестных типов сходимости последовательностей функций играют важную роль и в теории вероятностей. Нам будет удобно напомнить соответствующие определения, слегка изменив терминологию. Если Хп (оэ) — последовательность случайных величин, определенных на вероятностном пространстве (Q, 53, Р), таких, что множество {со: lim Xn (со) существует} имеет Р-меру, П-+оо равную 1, то говорят, что последовательность Хп(со) сходится почти наверное (сокращенно п.п. или Р-п.н.). Конечно, это то же самое, что и обычная «сходимость почти всюду». Задача 2. Покажите, что если последовательность Хп сходится почти всюду, то функция X (со), равная Ига Хп, если последний П—»оо существует, и (скажем) 0 — в противном случае, автоматически является случайной величиной. Определение сходимости последовательности Хп к X по м°ре в наших обозначениях принимает вид: Для любого е ^> О lim P ({со: | Хп (со) - X (со) | > г}) = 0. A0) П-*оо В дальнейшем мы всегда будем называть такую сходимость сходимостью по вероятности. Наконец, если для некоторого /?> 0 limE(|X„ - X р) = 0, (И) П->00 мы имеем сходимость в среднем порядка р. Нетрудно видеть, что как из сходимости почти всюду, так и из сходимости в среднем (любого порядка) вытекает сходимость по вероятности и что никаких других включений для разных типов сходимости, вообще говоря, не существует. Все три типа сходимости будут использованы в гл. 2 в связи с законами больших чисел. Задача 3. Обосновать только что сформулированные утверждения. Задача 4. Пусть случайные величины Хп сходятся в среднем квадратическом (т. е. в среднем порядка р = 2) к ЛТ, причем Е (Хп) < со. Доказать, что Е (Z)< оо и lim Е (Хп) = Е (X). Задача 5. Привести пример, показывающий, что из сходимости по вероятности, вообще говоря, не вытекает сходимость математиче ских ожиданий.
16 ОСНОВАНИЯ 1Гл.1 Мы закончим этот параграф коротким упоминанием еще об одной аксиоме, которая иногда включается в определение вероятностного пространства,— требованием, чтобы это пространство было «правильным». Рассмотрим меру Fx* индуцированную на борелевских подмножествах действительной прямой случайной величиной X, как это было определено формулой B). Всякую меру Р можно (в силу задачи 1.7) пополнить, и в результате Р^ будет определена на некотором а-поле, более широком, чем а-поле всех борелевских подмножеств. Меру Р^ на этом а-поле борелевских подмножеств можно полностью восстановить по функции распределения Fx (х) = Р ({X <; х}). Однако ниоткуда не следует, что с помощью формулы B) нельзя определить меру Р^ на еще более широком классе множеств: нужно только, чтобы поле 33 было достаточно богатым. Мера называется «правильной», если ни для какой случайной величины дальнейшее продолжение невозможно. Эта аксиома обсуждается и используется в монографии [ГК]. Можно рекомендовать добавление Дж. Дуоа к английскому переводу этой книги, в котором обсуждаются как общие вопросы оснований теории, так и «правильные» меры. Большинство мер, которые мы будем исследовать, после пополнения становятся правильными. Но «правильность» не будет заранее предполагаться. Точно так же мы не будем уделять внимание ее проверке, даже если это в специальных случаях и можно сделать. Вместо этого мы обычно будем придерживаться той точки зрения, что если X — случайная величина, то вероятность Р (X ЕПА) представляет интерес лишь для таких множеств А, Р^-мера которых определяется по функции распределения X, а вопросами о ^S-измеримости множеств {со : X (со) ЕЕ А} для любых других А мы будем пренебрегать. § 3. Независимость Пусть (Q, 33, Р) — некоторое вероятностное пространство, а Аг, А2, - • -, Ап — «события», т. е множества, входящие в 33. События называются независимыми, если для любого набора индексов iXl г2, . . ., ik имеет место формула P(Ah П Ah(] ... {]А!к) = Р(А11)...Р(А1н). A)
§ 3J НЕЗАВИСИМОСТЬ 17 Случайные величины Х1? . . ., Хп, определенные на нашем пространстве, будут называться независимыми, если только события Ах = {со: Xt (со) ЕЕ St} удовлетворяют соотношению A) при любом выборе линейных борелевских множеств iS1? ..., Sn. Для бесконечного набора событий или случайных величин (не обязательно даже счетного) независимость, по определению, означает, что любой конечный поднабор независим. Как отмечали Колмогоров и другие авторы, именно понятие независимости в большей мере, чем что-либо другое, выделяет теорию вероятностей среди других ветвей анализа и составляет ее характерную особенность. Дальнейшее и фундаментальное обсуждение независимости «больших» наборов случайных величин мы отложим до § 10, а пока что до конца этого параграфа мы будем главным образом иметь дело с парой величин. Если X и У — две случайные величины (независимые или нет), то они порождают отображение Z (со) = (X (со), У (со)) пространства Q в R2. Это отображение измеримо поБорелю (см. ниже задачу 1), и потому оно индуцирует меру Ра\у на а-поле плоских борелевских множеств. Эта мера назы_ вается совместным распределением X и У, а выражение Fx.y (х, у) = ?({ь>:Х (со) < х, У (со) < у}) B) называется их совместной функцией распределения. Меру ?х,у можно восстановить по функции Fx,y по существу тем же способом, который был намечен в § 1 для одномерного случая. Эти замечания автоматически переносятся и на случай п измерений. Задача 1. Покажите, что Z~l (S) ?Е $i для любого борелевско- го множества S в Л2. Если случайные величины X и У независимы, то из определения следует, что ?х,у есть произведение мер. Это означает, что для любой пары линейных борелевских множеств /?, S имеем ?x,y(R X S)=Px(R)-Py{S), C) где R X S — множество таких точек в Л2, что ^-координата принадлежит Я, а у -координата принадлежит S. В частности, функция совместного распределения X и У есть произведение их функций распределения.
18 ОСНОВАНИЯ |Тл, X Задача 2. Докажите утверждение, обратное только что высказанному, т. е. покажите, что если fx,y (*> 2/) — Fx W fy (У) Для всех х> ?/» то X и У независимы. Задача 3. Если случайные величины X и У = / (X) (/ — бо- релевская функция) независимы, то / (X) = const (п. н.). Следующий факт будет часто использоваться. Теорема 1. Пусть X uY — независимые случайные величины. Если Е (X) и Е (Y) существуют, то существует и Е (X У), причем Е (X Y) = Е (X) Е (Г). D) Обратно, если Е (ХУ) существует и ни X, *ш У не рае- ны нулю п. «., то Е (X) и Е (У) также существуют. Доказательство. Сначала предположим, что X и У — простые функции, т. е. что существуют два семейства непересекающихся множеств {At} и {Вь} и различных чисел {at} и {tt} такие, что *) п т Х(©)= 2агф^И И У@))= 2^фБ.(@). E) 1=1 г=1 Из определения независимости P(At П Я,) = PW,) П Р(Я,) F) для любых i и ;; отсюда легко получить D): Е (ХУ) = Е |2а, Фл{ 2 Ь, фв,} = Е B в,Ь, Фа{Пв.) = = 2 а^Р И. П Bj) = 2 «ip U,) 2 b;PEi) = E (X) Е (У). ?, j ' ; Разумеется, математические ожидания простых функций существуют. Пусть теперь X и У неотрицательны и независимы, но необязательно просты. Введем в рассмотрение случайные *) Фд (ю) — характеристическая функция множества Л.
§ з] НЕЗАВИСИМОСТЬ 19 величины Ii i i +1 Т7Г , еСЛИ *7n" ^ X ((О) < 7Г" , i = 0,1, . . ., и2Л, G) 0 в противном случае и Уп, которые определяются аналогично. Ясно, что Хп и Уп просты. Очевидно, они независимы. Поэтому Е (XnYn) = Е (Хп) Е (Уп) (8) при любом /г. Но мы построили Хп так, что Хп(со) /* X (со) при любом со, и по теореме о монотонной сходимости lim Е (Хп) = Е (X). (9) п-кэс Ясно, что то же самое верно относительно Уп и У и относительно XnYn и ХУ, так что, учитывая (8), получаем D). Вторая часть теоремы в этом случае тоже следует из теоремы о монотонной сходимости: если Е (ХУ) < оо, то либо одно из средних Е (Xn), E (Уп) равно нулю при всех п, либо оба они ограничены. Наконец, мы должны избавиться от предположения, что X и У неотрицательны. Положим Х+(со) = max {Х(со),0} и X" (со) = max {- X (со), 0}, тогда X - Х+ - X"; представим У в таком же виде. Легко видеть, что Х± и У± тоже независимы, а так как они неотрицательны, то для них D) выполнено. Если существуют Е (X) и Е (У), то и Е (X"t), E (У±) существуют и Е (ХУ) - Е {(Х+ - X") (У+ - У)} = - Е (Х^У+) - Е (X'Y*) - Е (Х+У~) + Е (X'Y') = - Е (Х+) Е (Y*) - Е (X") Е (У+) - Е (Х+) Е (У") + + Е (Х-) Е (У) ^ = {Е (X*) - Е (Х-)} {Е (Y + ) - Е (У)} = Е (X) Е (У). При этом мы представили ХУ как сумму четырех случайных величин, средние от которых существуют, поэтому Е (ХУ) также существуют. Если существует математическое ожидание величины ХУ, то это же верно и дчя (ХУ)+ и (XY)'. Но (ХУ)+ = -X+Y+ + XT- и (ХУ)' - Х+У" + X'Y+, так что
20 ОСНОВАНИЯ [Гл. I Е (XiF*) существуют. Пусть не существует Е (X). Тогда Е (Х+) = оо или Е (Х~) = оо. Пусть Е (Х+) = оо. Так как Е (X+Y+) и Е (X~Y~) конечны, то из рассуждений, проведенных выше для случая неотрицательных X, У, следует, что Е (У+) = 0 и Е (Y~) = 0, поэтому У = 0 п. н. Случай Е (Х~) — оо разбирается точно так же. Теорема доказана. Задача 4. Найти другое доказательство теоремы 1, исходя из соотношения Е(ХУ) = \*yd?x%Y. A0) (Используйте теорему Фубини. Уравнение A0) есть частный случай теоремы 2.1, если взять R2 в качестве Q', а функцию ху — в качестве X'.) Задача 5. Используя любой из двух описанных подходов, покажите, что если Zx,..., Xn — независимые случайные величины с конечными средними, то п п Е(П z0 = n E(x*)- <и> \=1 ' i=i (Замечание. Было бы соблазнительно действовать так (п = 3): Е (ХгХ2Х3) = Е (X,) Е (Х2Х3) = Е (XJ Е (Х2) Е (Х3). Но нами не доказано, что Хг и Х2Ха независимы. Обоснование это" го факта получится в качестве побочного результата в § 10; заметим» однако, что в § 7 мы будем использовать A1) для случаев п = 3, 4.) Задача 6. Привести пример, показывающий, что из равенства Е (XY) = Е (X) Е (У) не вытекает, вообще говоря, независимость X и Y. (Указание. В качестве вероятностного пространства можно взять отрезок @,1) с мерой Лебега. Тогда X (со) и У (со) — обычные функции действительного переменного.) Задача 7. Если каждая из величин X и У принимает только два значения, то из равенства Е (XY) = Е (X) Е (У) вытекает независимость X и У. Значительная часть «классической» теории вероятностей — и значительная часть этой книги — связана с суммами двух и более независимых случайных величин. Ясно, что распределение такой суммы определяется распределениями слагаемых. Следующая теорема показывает, каким именно образом. Теорема 2. Пусть X u Y — независимые случайные величины с функциями распределения F и G соответственно.
§ з] НЕЗАВИСИМОСТЬ 21 Тогда распределение их суммы дается формулой + 00 +00 Р(Х + У<*)= J F(x-y)dG{y) = \ G(x-y)dF(y). -оо -оо A2) Доказательство. Определим функцию [1, если г + s^Zx, f(r,s) = L ^ A3) (О в противном случае; очевидно, / измерима по Борелю на R2. Применяя теорему 2.1 с R2 в качестве Q' и Ф (со) = (X (со), Y (со)), имеем E{/(X,Y)}= lfdPx,Y. A4) R2 Левая часть — это как раз Р (X + Y ^ х). Так как Рх,у есть произведение мер (независимость!), то можно применить теорему Фубини и записать правую часть в виде повторного интеграла одним из двух способов: \ / d?x, у = J {J / (г, s) ?х (dr)} ?Y (ds) = R2 = S{$/(r,s)Py(ds)}P*(dr). A5) Эти два выражения совпадают с интегралами Лебега в A2). Теорема доказана. Следствие. Пусть распределение функции X аб- X солютно непрерывно, т. е. F (х) = \ f (и) du для некоторой -оо плотности *) /. Тогда распределение X + У также абсолютно непрерывно, и его плотность (п.н.) задается формулой ±?(X + Y^x) = J f(x-y)dG(y). A6) *) Этой фразой определяется плотность (распределения) вероятности; ясно, что любая неотрицательная функция на 7?1, интеграл от которой равен 1, есть плотность некоторого распределения.
22 ОСНОВАНИЯ 1.Гл. I Доказательство. По теореме Фубини J J f(t-y)dG{j,)\dt = — ос ^—эо ' = J J /(*-J/)^U'G(!/)= S F(x-y)dG(y). — сх *—оо ' —оо Правая часть (в силу A2)) равна Р (X + Y ^ х), и поэтому мы записываем это распределение как интеграл от правой части A6). Замечание. С помощью этих результатов многие утверждения относительно сумм независимых случайных величин можно переформулировать в терминах сверток мер или функций распределения на Л1. Такое положение наводит на мысль, что для изучения таких сумм полезным орудием будет анализ Фурье. Эта мысль верна, что будет, как я надеюсь, достаточно убедительно продемонстрировано в гл. 3. Наконец, здесь, по-видимому, уместно сделать несколько замечаний об условных вероятностях. Если (Q, 33, Р) — вероятностное пространство, 4gS и Р (А) > 0, то величина рт\А\ РНПД) М7ч называется условной вероятностью В при условии А. Очевидно, Р (В | А) = Р (В) тогда и только тогда, когда А и В независимы. Функция множеств Р (• \А) сама является вероятностной мерой (Q, 33) и, таким образом, определяет условное математическое ожидание: t(X\A) =Jx(G>)P(i(o|4). Ь Все наши рассуждения о свойствах случайных величин и т. п. остаются в силе для нового (условного) вероятностного пространства. Например, можно определить условную независимость событий или случайных величин, применяя предыдущее определение к новой мере. Предполагается, что читатель хотя бы отчасти имеет интуитивное представление об этих понятиях.
$ 4J ПОСТРОЕНИЕ СЛУЧАЙНЫХ ВЕЛИЧИН 23 Вышеописанная ситуация, в которой Р (А) > 0, представляет собой элементарный случай. В более общих теориях определяются условные вероятности и математические ожидания относительно некоторой случайной величины или некоторого борелевского подполя поля 53. (Если А — событие с нулевой вероятностью, то выражению ?(В \А), вообще говоря, нельзя приписать никакого однозначно определенного значения.) Мы не будем обсуждать в настоящей книге этот круг вопросов; даже элементарный случай будет редко встречаться и едва ли вообще встретится во 2-й и 3-й главах. Общая теория условных математических ожиданий играет жизненно важную роль при изучении стохастических процессов, и ее следовало бы усвоить тем читателям, которые после изучения гл. 4 захотят двинуться дальше. § 4. Построение случайных величин Большинство результатов 2-й и 3-й глав формулируется следующим образом: «Если Хх, Х2, . . . — независимые случайные величины, функции распределения которых суть Fx, F2, . . ., то ...». Возникает вопрос: существует ли для данных распределений вероятностное пространство (Q, 53, Р), на котором можно определить семейство случайных величин (сокращенно св.) с заданными распределениями. Если это не так, то наши теоремы остаются верными, но в значительной степени теряют свой интерес. Утвердительный ответ на этот вопрос легче всего получить с помощью произведения мер, причем число «сомножителей» не обязано быть даже счетным. Более общая задача возникает, если не предполагать, что случайные величины независимы. В этом случае вместо последовательности индивидуальных распределений нужно обратить внимание на совместное распределение любого конечного подмножества случайных величин. Колмогоров показал, что, если выполнены некоторые простые условия согласованности, то всегда можно найти подходящее вероятностное пространство. Перейдем к его построению *). *) Вплоть до § 23 мы будем иметь дело только с прямым произведением мер; читатель, которого не беспокоят эти тонкости, может отложить чтение заключительной части настоящей главы.
24 ОСНОВАНИЯ [Гл. I Сначала получим необходимые условия. Если {Ха, а ЕЕ Щ — семейство св. (не обязательно счетное; 9t — любое множество индексов) на (Q, 53, Р), мы определяем их совместное распределение так: Р« -„E)=Р(Фа^....а„E)), A) где S — любое борелевское множество в Rn, a Фа1 ап — отображение Q в i?n, переводящее со в точку с координатами (Xoit (со), . . ., Хап (со)). Изучим свойства вероятностных мер Ра1 ап определенных на борелевских множествах в пространстве Дп, соответствующих любому упорядоченному набору ах, . . ., ап элементов из 51. Пусть я обозначает перестановку чисел 1,2, . . ., п и пусть /гх — взаимно однозначное отображение Rn на себя, переводящее (х1У . . ., хп) в (хП1, . . ., хпп)- Ясно, что ФаЯ1,...,аКпИ = /„(Фв1,...,«п(@)) и поэтому распределения Pai «n определенные в A), должны удовлетворять условию Рлп, a„nE) = Pa, ajr(S)). B) Это первое условие на совместные распределения. Рассмотрим теперь an+m,n — проекцию Rn+m на i?n, переводящую (^, . . ., хп+т) е Д"™ в (^, . . ., хп) eff. Пусть 5 — любое борелевское множество в Rn, a S = = cTnim,n (S) (т. е. 5 содержит те точки из Яп+т, которые своими первыми п координатами определяют точку в S). Если (otj, . . ., an+m) — любое упорядоченное множество л + т элементов 21, то, очевидно, ф^....,«пE) = Ф^....вп+ж(§), поэтому из A) имеем р* «„ (^) = р«...... «„4т (з;+т, „ E)). C) Это второе условие. Оба условия, как мы видели, необходимо выполнены для системы совместных распределений любого семейства {Ха} случайных величин.
§4] ПОСТРОЕНИЕ СЛУЧАЙНЫХ ВЕЛИЧИН 25 Мы сейчас увидим, что они достаточны для того, чтобы такое семейство существовало. Теорема 1 (А. Н. Колмогоров). Пусть 91 — любое множество, а Ра,, ...,ап— борелевская вероятностная мера на Rn для любого конечного упорядоченного подмножества множества 9t. Допустим, что это семейство мер удовлетворяет B) и C). Тогда существует такое вероятностное пространство (Q, 33, Р) и такие случайные величины {Ха, а (= 9(} ка э/жш пространстве, что условие A) выполнено для всех конечных наборов (аг, . . ., ап). Доказательство. Для построения нашего пространства мы используем прямое произведение пространств, хотя, конечно, мы не собираемся брать прямое произведение мер (за исключением того специального случая, когда рассматриваемые величины независимы). Пусть Q = Д Да (Да _ прямая) — D) пространство всех отображений 91 в вошественную ось. Элемент множества Q обозначим со = о (а). С самого начала «сознаемся», что конструируемые нами случайные величины будут «координатными функциями», т. е. Ха (ю) = со (а). E) Пусть (а1, . . ., ап) — любое упорядоченное подмножество в 9t, S — любое борелевское подмножество в Rn. Множество {со (= Q : (со (сО, . . ., со (ап)) ЕЕ 5} = Ф"},...,«п E) F) называется борелевским цилиндрическим множеством. Здесь Фа1> t##i а имеет то же значение, что и раньше, т. е. переводит точку со = со (а) в точку из Rn с координатами (Ха1 (со), . . ., Ха (со)). Нетрудно видеть, что семейство всех борелевских цилиндрических множеств представляет собой конечно-аддитивное поле f. Пусть 33 — наименьшее а-поле подмножеств множества Q, содержащее f. Дальнейший наш план таков: определить меру Р на f и затем расширить ее на 33 по теореме 1.1. Задача 1. Проверить, что & — поле.
26 ОСНОВАНИЯ [Гл. I Ясно, как начать: для множества, определенного с помощью F), положим р (Ф*-;! ....«„ (я» = р* ajs). G) Тогда для наших случайных величин получатся нужные распределения. (Другими словами, должно выполняться A).) Первое, что нужно проверить,— это непротиворечивость этого определения; здесь и понадобятся условия B) и C). Пусть два цилиндрических множества С и D имеют вид c = o;L.,«n(S), л = ф? ..,3jn (8) где S и 5" — борелевские множества соответственно в Rn и Rm. Если (yx, . . ., уи) — какое-то упорядочение набора индексов {а*} [} {|3;}, то С и D можно описать так: С = Ф?и...,ч(П 0 = Ф-1..,Ч(Т'), (9) где Т и Т' — борелевские подмножества уже в Rk. Переход от (8) к (9) очень прост: надо взять прообраз S (или S') при проекции Rk на Rn (или на Rm) и, если нужно, переставить индексы Yi- Следовательно, поскольку B) и C) выполнены, то мера, приписанная множеству С (или D) с помощью G), не зависит от того, в какой форме, (8) или (9), записано С (или D). Остается только заметить, что если С = Z), то Т = Т' в (9), так что определение G), примененное к любому из двух представлений С = D в (8), дает один и тот же результат. Задача 2. Покажите, что мера Р, определенная на & с помощью G), конечно-аддитивна. Чтобы применить теорему 1.1, надо еще проверить условие непрерывности A.3). Доказательство немного похоже на то, которое применялось в одномерном случае (в задаче 1.3). Пусть Сг zd C2 id С3 =э . . . — любая убывающая последовательность борелевских цилиндрических множеств (элементов поля ,f), и Р (Сп)->6^>0. Покажем, что тогда П Сп =/= ф. Напомним, что каждое цилиндрическое множество определяется в F) с помощью конечного множества 9i(n) = {af\ . ., а{^) параметров (к = к (п))
§ 4J ПОСТРОЕНИЕ СЛУЧАЙНЫХ ВЕЛИЧИН 27 и борелевского множества Sn a Rk. He теряя общности, можно предположить, что множества 9f('l) возрастают. Можно также считать Sn компактными. Для этого заметим, что всегда можно выбрать такое компактное Sn a S, что Р (п) (п) (Sn — Sn) ^ Г—Л . *1 .-1 ..,а^."/ч " "' ^ 2-2" Обозначив Сп = Ф (п) (п) (Sn), имеем 1 » ..., к 6 Но последовательность Crt может не быть убывающей. Поэтому мы положим Сп = Ci П • • • П Сл. Эти множества уже образуют убывающую последовательность, получены (с помощью Ф~(п) (п>) из компактных множеств Sn в Rh и удовлетворяют условию Р (Сп) -+ б > О, так как п р (й) > р(с„) - 2 P(Ci - с',) >4. (Ю) г=1 Поэтому мы можем считать, что основания наших цилиндров компактны. Задача 3. Проверить A0). Теперь почти все готово к тому, чтобы явно построить точку в ПСп.Для каждого п возьмем некоторое со п ЕИ Сп. По определению множества С1? точка с координатами (coj (a^), . . ., сох (alW))) принадлежит 5Х — компактному множеству в Rk. Если заменить сох па сот (т > 1), то все равно точка (om (a(Ll)), . . ., сот (al\\))) ЕЕ S\ так как Cm e Сх. Поэтому можно выбрать подпоследовательность п так, что последовательность векторов (соН' (а[ ), . . . ..., соП' (а^ц))) сходится. Выберем из нее подпоследовательность, которая сходится для большего множества значений параметра {ai2\ . . ., af^)} и т. д. Наконец, с помощью
28 ОСНОВАНИЯ [Гл, 1 диагонального процесса, получаем такую последовательность со^, что lim^^V^}0 A1) п-юо существует для любого значения параметра af\ встречающегося в определении цилиндрических множеств Ct. Обозначим (счетное) множество таких значений через 9t0. Определим элемент со0 ЕЕ Q так: coo(a) = ff'eC™a = a'-°e*0' A2) (О в противном случае. (Для а §Ё Ш0 выбор со 0 (а) произволен.) Мы сейчас увидим, что со0 ЕЕ П Сп. Действительно, вспомним, что Сп= {со :со (cef), . . ., со (af) e Sn}. Но по построению вектор (х^\ . . ., я4п)) есть предел точек из множества Sn и поэтому сам принадлежит Sn. Значит, со0 ее Сп при любом дг. Этим доказано, что П Сп непусто, так что A.3) действительно выполнено. Остается применить теорему 1.1. Доказательство закончено. Следствие. Пусть Fx, F2, ... — последовательность вероятностных функций распределения. Существует вероятностное пространство (Q, S3, Р) с определенными на нем независимыми случайными величинами Xt, Х2, . . . такими, что Хп распределена по закону Fn. Доказательство. Для заданного множества индексов (?х, . . ., in) определим совместное распределение Pj,...,in на Rn как прямое произведение п мер на R1, определенных функциями распределения Ftl, Fu , . . . ..., Fin. Очевидно, соотношения B) и C) выполнены, так что можно применить теорему 1. Полученные с ее помощью случайные величины удовлетворяют сформулированным требованиям. Замечания. В этом доказательстве есть один пробел: предполагается, что читатель умеет строить произведение мер в конечном числе. Случай двух сомножителей рассмотрен в [R], общий случай — в [X]. Но, как мы замечали в § 3, для евклидовых пространств есть и другой подход: многомерная функция распределения искомого произведе-
§ 4J ПОСТРОЕНИЕ СЛУЧАЙНЫХ ВЕЛИЧИН 29 ния мер есть произведение одномерных функций распределения, а построение меры по ее функции распределения в Rn делается так же, как в R1. Более систематическое исследование этих вопросов дано в [Кг]. Подчеркнем, что теорему Колмогорова нельзя доказать, не выходя за рамки теории меры (мы использовали локальную компактность пространств Rn), но что можно построить произведение мер, соответствующее любому набору вероятностных пространств. Задача 4. Пусть все Fn имеют вид: 0 при х < О, /^nW = iy при 0<*<1, A3) 1 при х^.{. Показать, что пространство (Q, «3?, Р), построенное выше, находится в естественном соответствии (определенном почти всюду) с единичным отрезком, причем Р переходит в меру Лебега.
Глава 2 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ И РЯДЫ СЛУЧАЙНЫХ ВЕЛИЧИН § 5. Слабый закон больших чисел Классическую теорему о схеме Бернулли можно сформулировать так: пусть Хх, . . ., Хп — независимые случайные величины на некотором вероятностном пространстве, при любом п принимающие только значения 1 или О с вероятностью р и q = 1 — р соответственно *). Тогда для любого 8 > О lim P п—юо Xi + ... + Хп >е)=0. A) Доказательство (см. [Ф]) непосредственно и элементарно выводится из явного вида «биномиального распределения»: P(X1 + ... + X„ = fr) = (;)p*g»-*. B) Однако в конце 19-го столетия русский математик П. Л. Чебышев развил простой метод чрезвычайно большой общности. Этот метод мы сейчас и опишем. Если X — некоторая случайная величина, то числа т,- — Е (Хн), если они существуют, называются моментами X. В частности, первый момент тг — это просто среднее значение величины X; второй момент величины X — тг называется дисперсией и определяется формулой о2 - D (X) = Е (X - Е (X)J. C) Квадратный корень а из дисперсии называется стандартным уклонением. Легко видеть, что а2 = т2 — тх. *) Хотя это и не необходимо, можно определить все случайные величины Хг, Х2, ... на одном вероятностном пространстве. Если его не рассматривать, можно воспользоваться конечным пространством, так что для задания Х1У ..., Ха требуется 2'1 точек.
§ 5] СЛАБЫЙ ЗАКОН БОЛЬШИХ ЧИСЕЛ 31 Задача 1. Покажите, что mh существует тогда и только тогда, когдя при некотором а существует Е (| X —- а \к). Проверьте также, чго ^сли при некотором к > О существует момент mft, то при любом О < / ^ к конечен и момент т^ и т,< Е(| Х|*)**. Целочисленные моменты суммы независимых случайных величин можно выразить через моменты отдельных слагаемых, и это — важное обстоятельство при доказательстве многих важных теорем. Ситуация особенно проста в случае математического ожидания и дисперсии, которые обладают свойством аддитивности. Что касается первого момента — математического ожидания — то это всего лишь выражение линейности интеграла Лебега и независимость тут ни при чем. Однако для дисперсии мы имеем D (X + У) = Е ({X - Е (X) + У - Е (У)}2) = - Е ({X - Е (X)}2) + 2Е ({X - Е (X)} {У - Е (Y)}) + + Е({У - Е (У)}2) = D (X) + О + D (У). Обращение в нуль среднего члена является следствием теоремы 3.1 и использует независимость. Нам потребуется также знаменитое неравенство Чебышева. Пусть X — некоторая случайная величина, а / — неубывающая неотрицательная функция, определенная на множестве значений X. Тогда Р(Х>а)<1^Р-, D) если только / (а) ^> 0. Доказательство тривиально. Из рассуждений § 2 (в частности, см. задачу 2.1) следует, что ос Е (/(*))= J 1(x)d?x{x). —ОС Так как функция / неотрицательна и неубывающая, то оо ос ос $ fdPx> \fd?x>f{a)\d?x = f{a)?{X>a), —ос а а что и доказывает D). Особенно часто используется частный случай обшего неравенства D): P(|X-E(X)|>a)<-^fl, fl>0, E)
32 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ [Гл. 2 который получается, если взять / (х) = х2 и подставить в D) случайную величину | X — Е (X) |. Ниже нам понадобятся еще два частных случая D): Р (X > а) < е'сА Е (в?*), с > 0, F) P(|Z|>a)<-^L?l!L, я,А;>0. G) Задача 2. Покажите, что неравенство B) — точное в том смысле, что при данных а и а2 найдется случайная величина X, для которой имеет место равенство. Когда аналогичное утверждение справедливо для соотношения D)? С использованием этих идей «закон больших чисел» (в достаточной степени общности) получается совсем просто. Теорема 1. Пусть при всяком п Хг, ..., Хп — независимые случайные величины, одинаково распределенные и с конечным вторым моментом. Тогда при любом г ^> О Xi + . . . + X ^-Е(Х1)\>г] = 0. (8) lim P п-*ос Доказательство. Случайные величины Xt имеют одно и то же математическое ожидание и дисперсию, скажем, \i и а2. Среднее значение и дисперсия суммы Xj + ... -\-Хп = Sn равны, в силу аддитивности, п\х и по2 соответственно. Применение к Sn формулы E) при а = пг позволяет получить, что P(|Xn + ... + Xn-i4i|>»e)<Jj?, (9) а отсюда немедленно следует (8). Замечание. Введение в теорию вероятностей понятия математического ожидания представляется весьма естественным, хотя совсем не ясно априори, что принятое нами определение имеет какой-либо внутренний смысл. Теорема 1 показывает, что появление этой величины действительно оправдано — это не только технический (хотя и полезный) прием, но он отражает суть дела. Пример. В схеме испытаний Бернулли и. = р и о2 = pq> так что оценка (9) дает В этом частном случае, однако, можно найти гораздо более точную оценку.
§ 5] СЛАБЫЙ ЗАКОН БОЛЬШИХ ЧИСЕЛ 33 Задача 3. Используя тот же метод, обобщите утверждение и доказательство теоремы 1 на 3-мерные случайные векторы. Доказательство теоремы 1 позволяет на самом деле получить гораздо более общий результат, даже в одномерном случае. Не обязательно, во-первых, предполагать случайные величины одинаково распределенными. От распределений требуется только, чтобы существовали средние п дисперсии, пусть они равны [it и ot соответственно. Независимость нужна была лишь для того, чтобы обеспечить аддитивность дисперсии, которая в свою очередь связана с тем обстоятельством, что в этом случае Е {{Xt — \it) (Xj — \ij)} = 0 для любых i =f= j. A1) Случайные величины, удовлетворяющие соотношению (И), называются некоррелированными и не обязаны быть независимыми. Точно тот же подход, что и в теореме 1, позволяет доказать более общий результат: Теорема 2. Пусть при всяком п случайные величины Хц ..., Хп некоррелированы и п lim ±±— = 0. A2) Тогда для любого г ^> 0 Xi + ... + Xn U.X + ....+U.T -(>*) = 0. A3) lim P ?l-*00 Один путь для получения дальнейших обобщений состоит в ослаблении предположения о некоррелированности случайных величин. Этот путь намечен в задачах 5 и 6, которые можно решить тем же методом, что и выше. Отметим еще несколько новых терминов: левая часть выражения (И) называется ковариацией Xt и Xj. Нормированная ковариация (частное от деления кова- риации на произведение стандартных уклонений) дает коэффициент корреляции. Задача 4. Докажите, что коэффициент корреляции любых двух случайных величин заключен между +1 и —1. Он равен 0, если величины независимы, и равен + 1 или — 1 тогда и только тогда, когда случайные величины линейно связаны. 2 Дж. Лампертц
34 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ [Гл. 2 Задача 5. Докажите, что если ковариация Х\ и Xj неположительна при i 4= 1 и выполнено соотношение A2), то имеет место и A3). Задача 6 (заимствовано из [Ко]). Допустим, что коэффициент корреляции величин Х{ и Xj не превосходит с (| / — i |), где с (к) ^ > 0. Покажите, что если [с @) + ... + с (п — 1)] [о\ + ... ... + о%] = о (п2) при /г -» оо, то верна формула A3). Задача 7 (теорема Бернштейна). Если | а* | < С, а коэффициент корреляции величин Xj, X7- стремится к 0 равномерно при | i — / | -> оо, то применим закон больших чисел. Задача 8. Пусть Х\ — независимые случайные величины, причем Р {Xj = 21} = Р {Xj = 2"г} = 1/ъ. Доказать, что к этой последовательности закон больших чисел не применим. Другое направление, в котором можно обобщить теорему 1, состоит в ослаблении предположения о конечности второго момента при сохранении требования независимости и одинаковой распределенности. Если первый момент все-таки существует, то, как мы скоро убедимся, справедлив не только «ослабленный закон» (8), но и более сильное утверждение — «усиленный закон больших чисел». Более того, некоторый вариант формулы (8) иногда верен даже без предположения о конечности Е (X); см [Ко], гл. 6, § 4 Конечно, возможны обобщения сразу по обоим направлениям. Мы не будем углубляться в этот вопрос, отметим только, что в случае независимых случайных величин проблема полностью решена и изложена в [ГК]. Последние замечания. Как указывалось ранее в связи со схемой Бернулли, не существенно, чтобы все случайные величины Хх, Х2, ... были определены на одном и том же вероятностном пространстве. Однако если это все-таки так, то можно сформулировать наши результаты по-другому. Например, утверждение (8) теоремы 1 означает, что функции (Xj-f ... -\-ХпIп сходятся по вероятности к постоянной (Л. Действительно, при доказательстве мы установили сначала сходимость в среднем (порядка 2), а неравенство Чебышева использовалось лишь в связи с утверждением, что сходимость в среднем влечет за собой сходимость по мере. Эти замечания в равной мере относятся и к теореме 2. В § 7 мы обратимся к «усиленным законам», где сходимость по вероятности будет заменена более сильной сходимостью почти наверное.
§ 6] ТЕОРЕМА ВЕЙЕРШТРАССА 35 § 6. Теорема Вейерштрасса Этот параграф — небольшое отступление в сторону. Мы покажем, как закон больших чисел в специальном случае испытаний Бернулли приводит к элегантному методу приближения непрерывных функций полиномами. Пусть / (х) — некоторая непрерывная функция, определенная на 10,1], а Хх, ..., Хп независимы и принимают только значения 1 (с вероятностью р) и 0 (с вероятностью q). Применяя E.2), имеем Е (/(*+•;• + *.)) ? /D)(;)Р»<1 -й- = BJP). U) Правая часть называется полиномом Бернштейна (в честь автора этого доказательства теоремы Вейерштрасса). Это полином от р степени не выше п. Когда п велико, почти весь «вес» биномиального распределения сконцентрирован на таких /с, что — близко к р\ используя эту идею, докажем следующую теорему. Теорема 1. Если f непрерывна на отрезке [0, 1], то Urn max \f(p) - Вп(р)\ = 0. B) Доказательство. Как и всякая непрерывная функция на компактном пространстве, / равномерно непрерывна и ограничена по абсолютной величине константой. Обозначим эту константу М. Для произвольного г\ > 0 выберем е так, чтобы I/ (я) — / (у) | < т|,если| х — у | < е иО < ж, у < 1. C) Тогда для любого р мы можем написать i/(p)-*n(p)i=i2|/(р)-/т ;УA-рг*к /i^O1" < 2] + 1-fL-pl <e |4--Р|>? /(p)-/(t)|(J)p'(A-p)^. 2*
36 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ [Гл. 2 Первая сумма не превосходит г\ (по условию C)); вторая меньше, чем \-zt-p\ >е 2л/ 2 (;)p*(i-p)n-ft = 2МР Xl +.,. + хп п * >е , и слабый закон больших чисел в форме E.10) дает для этой суммы оценку сверху М Bпг2)'1. Объединяя эти оценки, имеем |/(Р)-Яп(Р)|<г1 + ^г, D) значит, для больших п максимальное отклонение будет меньше 2ц. Это завершает доказательство. Задача 1. Докажите теорему Вейерштрасса о приближении непрерывных функций на ^-мерном единичном кубе, используя многомерное биномиальное распределение (см. [Ф]) и задачу 5.3. § 7. Усиленный закон больших чисел Рассмотрим почти такую же ситуацию, как в условии теоремы 5.1: Хг, Х2, ... —это снова независимые случайные величины с одним и тем же распределением, имеющие по крайней мере первый момент. Основное отличие от предыдущего случая состоит в том, что Xi теперь определены одновременно на одном и том же вероятностном пространстве (Q, 33, Р). Тогда среднее арифметическое случайных величин Х11 ..., Хп стремится с ростом п к \х = Е (Xt) не только по мере, но и поточечно для любого со Gfi — Л, где А — S-множество и Р (А) = 0. Этот результат для частного случая схемы Бернулли был сформулирован и доказан Э. Борелем в его знаменитой статье [1], опубликованной в 1909 г., где впервые была применена в теории вероятностей новая (тогда) идея интегрирования по Лебегу. Следующая лемма дает подход к очень многим теоремам, в которых идет речь о чем-то, что случается «почти наверное». Лемма Бореля—Кантелли. Пусть А1ч А2, ... — последовательность событий на некотором вероятностном
УСИЛЕННЫЙ ЗАКОН БОЛЬШИХ ЧИСЕЛ 37 пространстве и пусть ос ос В = \\т sup Ап = П U An- (!) П—>ОС /С= 1 П=к Тогда: A) — если 2Р(ЛП)< оо, то Р (В) = 0; B) — если события Лп независимы и 2Р(ЛП) — оо, то РE) = 1. Доказательство. Все меры обладают свойством пълуаддитивности по отношению к счетным объединениям (необязательно непересекающихся множеств). Поэтому PE)<P(U 4)<S Р(Л) при любом к. Если SP(yln) <C оо, то правая часть стремится к 0 с ростом к. Это доказывает A). Для доказательства утверждения B) (в какой-то мере обратного к этому), достаточно проверить, что РAМ„) = 1 B) для любого /с, так как пересечение последовательности множеств меры 1 также должно иметь меру 1. Но для любого К > к имеем i-p(u Л)<1- Р(и 4п) = р(п [й-лп]) = n>/f п=к п=к = П [1-Р(Л„I, п^=к потому что события Ап, а значит, и Q — Ап, независимы. к Если 2Р (Ап) = оо, то произведение П[1 —P(^Ul п—к расходится к 0, когда К ->- оо, и отсюда следует B). Замечания. В — это множество всех со, которые принадлежат бесконечному числу Ап. Если Р (В) = 0, это можно интерпретировать так: «лишь конечное число событий Ап имеет место (п. н.)». Применения части B) леммы в значительной степени затрудняются требованием независимости. Было найдено много более общих доста- хочных условий. Но совсем опустить это условие нельзя —
38 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ !Гл. 2 рассмотрим, например, крайний случай, когда все А п — это одно и то же множество, вероятность которого не 0 и не 1. Мы теперь можем совсем просто доказать один вариант усиленного закона больших чисел. Теорема 1. Пусть Хх, Х2, ... — независимые случайные величины, имеющие одно и то же распределение со средним значением [i и конечным четвертым моментом. Тогда Pflim *i + —+ z" = Л = 1. C) Д оказательство. Возводя в четвертую степень и используя теорему 3.1 и ее обобщение в задаче 3.4, нетрудно посчитать, что п е([2 №-^)]1) = «E([X1-fiin + 6(^a1<C«2. D) (Здесь о2 = Е ((Xi — (i2)) конечно вследствие задачи 5.1.) Но применение неравенства Чебышева в форме E.7) дает п 2(Х|-^)|>ел)<-|^г, E) и сумма по п ряда, составленного из правых частей, конечна. Поэтому из леммы Бореля — Кантелли можем заключить, что с вероятностью 1 имеет место лишь конечное число событий 4«-{Ш:|^±^±Ь--р|>в}, т. е. Р (Bt) = О, где Bt = lim sup A^. Множества Bt воз- растают при е \ 0, стремясь к множеству таких со, что X 4- -Х- X — —~Ац. Таким образом, полагая е \ О, по счетному множеству значений, например, к *, имеем р({со: *1 + -B- + **-tiA0})«P(jJ Д*-0"О, что и доказывает теорему 1. (Последний шаг часто будет в дальнейших доказательствах этого рода считаться само собой разумеющимся.)
§ 7] УСИЛЕННЫЙ ЗАКОН БОЛЬШИХ ЧИСЕЛ 39 Имеется интересное не теоретико-вероятностное применение усиленного закона, которым мы также обязаны Борелю. Число я ЕЕ [0, 1] называется нормальным по базису d, если частота появления каждой цифры в d-ичном разложении числа х одна и та же (именно, 1/d); число х называется нормальным, если оно нормально по любому базису d. Рациональные числа не могут быть нормальными, хотя для какого-то конкретного базиса нормальность может иметь место. (Возьмем, например, бинарное разложение числа 1/3 = 0,0101...; очевидно, 1/3, нормально по базису 2.) Теорема 2. Почти все*) числа нормальны. Доказательство. Возьмем в качестве вероятностного пространства единичный интервал с мерой Лебега. Рассмотрим бинарное разложение произвольного числа х — 0, Ьх, 62, ..., где bt = 0 или 1, причем допустимо любое соглашение, которое обеспечивает единственность такого разложения. Тогда цифры bt (x) являются случайными величинами на нашем пространстве. Нетрудно проверить, что они независимы и принимают (каждая) два значения 0 и 1 с вероятностями 1/2. Тогда, по усиленному закону больших чисел, получим, что p||rMl) + ..4.M^i||=1) т.е. почти все х нормальны по базису 2. Почти то же самое доказательство применимо и в случае любого другого базиса. Так как множество чисел, не являющихся нормальными, есть объединение счетного числа исключительных множеств меры 0 для всевозможных базисов, то теорема доказана. Между прочим, хотя «случайное» число почти наверное нормально, отнюдь не просто построить конкретное число, нормальность которого можно доказать! Задача 1. Проверьте, что величины Ъ^ (х) независимы и что Р AН (х) = 1) = V2. Злдача 2. Проведите доказательство почти наверное нормальности для базиса d, d > 2. Задача 3. Пусть величины Х1ч Х2, ... представляют последова- тсльностьиспытаний Бернуллп общего вида, т. е. Р (Х\ = 1) = р% *) Т. е. все, за исключением множества лебеговой меры О
40 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ 1Гл. 2 Р (Х\ = 0) = 1 — р. Пусть далее оо Z= 2 Хп2Л Fp(x) = P(Z^x). 71=1 Докажите, что при 0 < х < 1 Flfi (x) = х; и если 0 < /? < 1 и /> =? V2, то Fp (x) — непрерывная строго возрастающая сингулярная функция распределения (т. е. Fp (x) = 0 для почти всех х по мере Лебега). § 8. Усиленный закон — продолжение У доказанной нами теоремы существует много обобщений, но мы сконцентрируем свое внимание на доказательстве окончательного результата в случае одинаковых распределений. Теорема 1. Пусть Хх, Х2, ... —независимые случайные величины с одинаковым распределением и математическим ожиданием \х. Тогда Р (lim *i+ •¦• + ** = Л = 1ш A) \n-oo п I Обратно, если математическое ожидание величин Xi не существует, то Р limsup Xi + ...+Xn >) = !. B) Для доказательства потребуются некоторые предварительные результаты, которые представляют интерес сами по себе. Неравенство Колмогорова. Пусть Хг, ..., Хп — независимые случайные величины со средним 0 и дисперсиями of. Тогда для любого а ^> 0 п P(max|X1-|-... + Xl|>a)<-i-?-. C)
§ 8] УСИЛЕННЫЙ ЗАКОН — ПРОДОЛЖЕНИЕ 41 Доказательство. Обозначим St = Хх + ... ... + Х,- и оп])еделим следующие события: А = {со: max | St | > а}; г<м D) Aj = {со : | S; | < а при i < у, | Sj | > а}. п Ясно, что Aj не пересекаются и |J Aj — А. Далее, поскольку случайные величины имеют среднее О, п п 2 з? = Е (Я*) > Е (^срд) = 2 Е (SIФ^). (соа(о)) по-прежнему означает «индикаторную функцию» события А: фл (со) = 1, если со ЕЕ А и 0 — в противном случае). Но Е (SfoAi) = E ([Sj + (Sn - S))]*^) = = Е (SfoA.) + 2Е Ej En - S})VAj) + E (q>.4. (Sn - ^J). Второе слагаемое в этой сумме исчезает, ибо (Sn — Sj) и SjtyAj независимы, так как они являются функциями от (Х;-+1, ..., Хп) и (Хх, ..., Х;) соответственно *), и мы можем применить теорему 3.1. Последнее слагаемое неотрицательно. Кроме того, когда со Gij, то S2j > а2 по определению. Используя все это, имеем ЕE|ФА.) >а*?(А}), и следовательно, п п Sa?>o«Sp(^) = a*p(-4). что совпадает с C). *) Это утверждение, казалось бы, интуитивно очевидное, на самом деле нуждается в доказательстве. Вопросы этого рода подробно обсуждаются в § 10, и мы пока отложим наше доказательство. (§ 10, конечно, не зависит от остального материала этой главы в егб можно при желании прочитать сейчас.)
42 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ [Гл. 2 Замечание. Интересно сравнить неравенство Колмогорова с неравенством Чебышева в форме E.5); при п = 1 они совпадают. Следующий результат, используемый для доказательства теоремы 1 и являющийся следствием неравенства Колмогорова, заслуживает, однако, того, чтобы его сформулировать в виде теоремы. Теорема 2. Пусть Х±, Х2, ... —независимые случайные оо величины со средним О и дисперсиями а?, и пусть 2jsf <^ оо. Тогда Р I 2 %i сходится 1 = 1. /5) Доказательство. ИзC) N+n Р (max | SN+i -SN\> s\<i=v;! . Если мы положим п -> оо, а затем TV -> оо, то тогда Р (| Sj — St\^>2e для произвольно больших i и /) = 0. F) Возьмем последовательность гк \ 0. Поскольку F) должно одновременно выполняться для всех efe, то мы видим, что частные суммы Sj образуют последовательность, фундаментальную по Коши с вероятностью 1. Замечание. Как видно из условия теоремы, мы имеем дело с рядом, составленным из ортогональных друг другу векторов в гильбертовом пространстве L2 (Q). Этот ряд сходится по норме (так как Sa^2 < оо). Заметим, что эта интерпретация использует лишь ортогональность, а но независимость величин Xt. Вообще говоря, ряд из ортогональных функций, не обязан сходится почти всюду, так что предположение о независимости Xt играет важную роль. Чтобы завершить доказательство теоремы 1, нам понадобятся три леммы, не носящие теоретико-вероятностного характера.
§ 8J УСИЛЕННЫЙ ЗАКОН — ПРОДОЛЖЕНИЕ 43 Лемма 1. Если {ап} — такая последовательность чисел, что ряд 2 (ап]п) сходится, то {аг-\- ... -\-ап)/п -> 0. Лемма 2. Пусть F — вероятностная функция распределения. Тогда J xdF(x) =1 A — F(x))dx, о о о о \ xdF (х) = — ^ F (x) dx, ° о G) где в обоих случаях правая и левая части сходятся или расходятся одновременно. Мы оставляем доказательства читателю в качестве задачи 1 и задачи 2. Комбинируя лемму 1 с теоремой 2, получаем усиленный закон больших чисел, гораздо более общий, чем теорема 7.1. Теорема 3. Пусть Хг, Х2, ••• —независимые случайные величины со средними |i/ и дисперсиями аД Если 2 <?/12<С °°» то Р Mm \ п-*оо *i + • •. + Хп h + "n+}Xn] = 0) = i. (8) Доказательство. Случайные величины (Xf — \ii)/i имеют средние 0 и дисперсию о^2/?2, поэтому к ним применима теорема 2, которая показывает, что р I J. —LZL^i сходится 1 = 1. Применяя к этому результату лемму 1, получаем (8). Лемма 3. Если F — такая функция распределения, что оо ^ \x\dF(я)<оо, —оо оо П 2 р" \ x4F(x) < оо. (9) то П=1 —П
44 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ 1Гл. 2 Доказательство. Положим п+1 an+l= \ xdF(x) + \ \x\dF(x); -(n+i) тогда ап > 0 и 2 Яд = J | д: | dF (ж) <^ оо. /1=1 —ОО Но легко видеть, что —71 П+1 J x4F + jj *adF<(iz+l)an+1, —(n+1) n и поэтому OO ?l ОО П ОО ОО /1 = 1 —71 Т1=1 /=1 /=1 П=/ Сумма по я в последнем выражении асимптотически близка ос при больших /к ^—г — у > и поэтому при суммировании по I слагаемые ведут себя как at. Так как 2а; <С оо, то отсюда следует (9). Теперь мы в состоянии доказать теорему 1. Прежде всего, будем считать, что Xt имеют нулевые средние, так как мы можем работать с величинами Xt — jlx^ вместо Xt. Поскольку вся развитая до сих пор техника нуждается в существовании дисперсий или моментов более высокого порядка, мы добьемся их существования с помощью метода урезания. Положим IXt1 если | Xj |<[ iy Yi==\0, если \Х{\>1, A0) и запишем Xt = Yt + %i- Идея доказательства состоит в том, чтобы показать, что все Zt, кроме конечного числа, равны 0, так что их можно не учитывать при переходе к пределу, в то время как к Yt можно применять методы, основанные на существовании моментов.
§ 8] УСИЛЕННЫЙ ЗАКОН — ПРОДОЛЖЕНИЕ 45 Сначала избавимся от Zf. Заметим, что Р (Zn ф 0) = Р (| Хп | > п) < 1 - F (п) + F ( - п), где F — общая функция распределения величин Xt*). Но оо оо 2 P(Zn=#0)< 2 {!-*» + *¦(-*)}< n=l п=1 оо 0 < J A - F (x)) dx+ ^ F (x) dx = 0 —оо оо = 5 И^(*) = Е(|Х;|)<00. ОО Здесь были использованы лемма 2 и предположение о существовании среднего. Таким образом, по лемме Бо- реля—Кантелли Р (Zn =/= 0 для бесконечного множества п) = 0. A1) Теперь мы применим к Yt теорему 3. Моменты \in = E (Yn) не обязаны равняться нулю, но, во всяком случае, п D(y„)<E(y*)= J x4F(x) —71 и по лемме 3 у Р(Уп) . П=1 Отсюда заключаем, что для Yt выполнено (8). Но п Е(УП) = J ясН^я), —П ОС так что (хп-> \ х dF (х) — 0 при п ->- оо. Учитывая это, —эо (8) и (И), получаем P^^0) = p(^±^±b+^L±^i±Z»._,0) = l, что совпадает с A) и доказывает основную часть теоремы. *) Строгое неравенство им§ет место лишь тогда, когда есть положительная вероятность того, что Х^= —п.
46 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ [Гл. 2 Для доказательства обратного утверждения предположим Е (|Х,- | )= +оо. Тогда для любой положительной константы С определим события Ап = {со : | Хп (со) | > Сп). Применив лемму 2, легко видеть, что 2Р(ЛП) = оо; величины Хп, а значит, и события Ап независимы. По второму утверждению леммы Бореля—Кантелли Р (| Хп | > Сп для произвольно больших п) = 1, для любого С. Отсюда уже нетрудно вывести B), и доказательство закончено. Задача 3. Подробно провести последний этап доказательства. § 9. Сходимость рядов Так как при исследовании закона больших чисел мы уже имели дело со сходимостью ряда из независимых случайных величин, то, пожалуй, стоит пойти немного дальше и обсудить необходимые и достаточные условия Колмогорова. Определим урезание до уровня с (или усечение до уровня с) случайной величины X формулой [X при |Х|<с, ХНо при|Х|>с. A> Теорема о трех рядах. Пусть Хг, Х2, ... — независимые случайные величины. Тогда П 2 Хп сущегтвует = 1, B) тогда и только тогда, когда при некотором с сходится каждый из следующих рядов: 2р<1*«|>0; 2е(*»с)); 2°(^с)). п=1 п=\ п=1 Доказател ьство. Предположим сначала сходимость трех рядов. Сходимость первого, по лемме Бо- реля—Кантелли, влечет за собой, что п.н. Хп = Х„с)
§ 9] СХОДИМОСТЬ РЯДОВ 47 для всех /г, кроме конечного числа, так что задача сводится к установлению сходимости 2Х(ПС). Поскольку ряд из дисперсий сходится, то по теореме 8.2 р( 2 [^ - Е(*пС)I сходится) = 1, атак как 2 E(Xic)) тоже сходится, то отсюда заключаем, что 2Х„С) сходится п.в. Доказательство обратного утверждения несколько длиннее, так как мы не сделали заранее необходимых приготовлений. Предположим, что выполнено B). Тогда Хп -> 0 п.н., так что Хп = Х^ для всех достаточно больших п (и любого с > 0). По утверждению B) леммы Бореля — Кантелли, сумма первого из трех рядов конечна. Для доказательства сходимости остальных двух рядов нам понадобится несколько лемм. Лота 1. Пусть Х1ч ..., Хп — независимые случайные величины с нулевыми средними и дисперсиями о^2 Предположим, что \Xt\ <^ с п. н. при всех i <^ п. Тогда для любого а ^> 0 Р{тах|^|>а}>1--^1. г=1 Доказательство. Наш подход будет аналогичен тому, который был использован при доказательстве неравенства Колмогорова. В частности, нам понадобятся множества A, At, определенные так же, как в формуле (8.4), с той малой разницей, что знак «>а» будет заменен на « > а» и «<Ъ> на «^ а». Как и раньше, легко показать, что оо П Е E»фА) = 2 Е $W = S E ([Si + (Sn - S}))* Фл.) = J=l 7=1 n n = 2 E (^Ta,) + 0 + S E U5« - ^]2Фа,). ;'=i ;=i Но теперь нам нужна нижняя оценка. На множестве Aj имеем ISj-.J^a, поэтому |S^|<^a + c. Кроме того,
48 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ 1Гл 2 Фл7- и Sn — Sj независимы, так как они являются функциями от Х1ч ..., Xj и Xj+1, ..., Хп соответственно (см. подстрочное примечание к доказательству неравенства Котмогорова). Следовательно, мы можем написать п п п Е E&л) < (а + cf S Р (А}) + 2 Р W 2 3? < У=1 j'=l *=-./ т 1 п <[(а + сJ+2о?]Р(Л). /=1 С другой стороны, п Е E«фл) = Е (Si) - Е E'фп-л) > 2 а? - «2? (й - А), 1=1 так как |5П| ^а на дополнении множества А. Комбинируя эти два неравенства и разрешая относительно Р (^4), мы получим Р {А) > — ц /=1 = 1 (д + сJ >i_il±^! Ле^ма 2. ^с/ш Хь Х2, ... —независимые елjnaunue величины с нулевыми средними и дисперсиями ot2 и если \Х(\ <^ с п. н. при каждом i, то из сходимости п. н. ряда 2Xj следует сходимость ряда Ес^2. Доказательство. Из сходимости п. н. ряда 2>Х( следует, что при N -+ оо max |?лг+г — S$\ -> 0 п. н. г>0 Значит, сходимость по вероятности тоже имеет место, так что при а ^> О lim P (max | SN+i — SN | > а) = 0. N->30 г>0 1 Возьмем такое N, для которого эта вероятность ^ — .
§ 9j СХОДИМОСТЬ РЯДОВ 49 По лемме 1 Р ( max | SN+i — SN | > a) > 1 и если сумма дисперсий расходится, то левая часть должна стремиться к 1 при п —>- оо — противоречие. Наш план, конечно, состоит в том, чтобы применить лемму 2 к Хп} из теоремы о трех рядах. Однако это нельзя сразу сделать, так как Х?\ вообще говоря, могут иметь ненулевое среднее. Чтобы избежать этой трудности, введем новую последовательность случайных величин {Yn}, независимых друг от друга и от Хп и таких, что при любом п величины Yп и Х^ имеют одинаковое распределение *). Рассмотрим ряд 2 (Хп — Yn). Он сходится п. н., так как сходятся ряды 2Хп и 27п (имеющий то же распределение). Кроме того, |Хп} -7п|<2с п. н. и Е (Х^ — — Yn) = 0. Члены этого нового ряда независимы и D (Х(„с) — Yn) = 2 D(Xic)). Из леммы 2 можно теперь заключить, что третий из рядов в C) сходится. Вспомнив о теореме 8.2, мы получаем также п. н. сходимость ряда 2 \Х%) — Е (ХпС))|, а так как сумма 2ХпС) конечна п. н., то становится очевидной и сходимость ряда 2 Е(Х,(гс)). Теорема доказана. Замечание. Как показывает доказательство теоремы, сходимость случайного ряда влечет за собой, что при любом с ^> 0, все три ряда в соотношении C) также сходятся. В следующем параграфе мы увидим, что если 2Х* не сходится п.н., то этот ряд п.н. расходится. Другими словами, мы находимся в ситуации «все или ничего». Для сходящегося п. н. ряда независимых случайных величин вероятность абсолютной сходимости равна либо 0 либо 1 (по только что сформулированному замечанию, примененному к ряду 2|Хг|). Но имеется интересное *) Это может оказаться невозможным на исходном вероятностном пространстве, где первоначально определены величины {Хп}, но для нас вполне достаточно, чтобы обе последовательности можно было задать на одном каком-то пространстве. Например, это можно сделать на прямом произзедении исходного вероятностного' пространства на само себя. (а + сJ 71+Л
50 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ [Гл. 2 промежуточное понятие: ряд может обладать тем свойством — мы будем называть это свойство безусловной сходимостью — что он п.н. сходится при любых перестановках составляющих его случайных величин. Эта возможность иллюстрируется следующим примером. Пример. Пусть {Yn} — независимые случайные величины, такие, что P(Yn = — ] = Р \Yn = ) = *> и пусть |хп — стремящаяся к 0 числовая последовательность. Определим Хп = Yп + \in и рассмотрим случайный ряд 2ХП. Легко видеть, что вероятность абсолютной сходимости равна 0. Рассмотрев условия C) в теореме о трех рядах, мы замечаем, что первый и третий ряды сходятся при любых \хп, так что 2ХП существует п. н. тогда и только тогда, когда ряд 2и.п сходится. Если последняя сходимость абсолютна, то ряд 2ХП сходится п. н. при любых перестановках его членов. Если же ряд 2(хп сходится только условно, то перестановка членов этого ряда, превращающая его в расходящийся (а такая перестановка существует по теореме Римана), превращает в расходящийся п. н. и ряд 2ХП. Можно дать общие условия, обеспечивающие безусловную сходимость ряда 2ХП или сходимость ряда 2 (Хп — ап) для некоторой последовательности «центрирующих констант ап». но мы не собираемся заниматься этим предметом (см. [Ду] или [Л]). Задача 1. Функции Радемахера на [0, 1] определяются формулами rh (х) = 2bh (х) — 1, к = 1, 2, ..., где bk (x) — к-я двоичная цифра числа х (см. по этому поводу доказательство теоремы 2 из оо § 7). Докажите, что ряд ^ahrk(x) сходится на отрезке [0, 1] почти к=х всюду тогда и только тогда, когда 2 а\ < °°- (Указание. Рассмотрите rk (x) как случайные величины на вероятностном пространстве Q = [0, 1] с мерой Лебега.) § 10, Еще о независимости. Закон 0 или 1 Колмогоровский закон 0 или 1 утверждает, грубо говоря, что если Хх, Х2, ... —последовательность независимых случайных величин и если А — событие, определенное в терминах этих величин, осуществление которого никак не связано с любыми допустимыми изменениями любого конечного числа величин, то либо Р (Л) = 0, либо
* 101 ЕЩЕ О НЕЗАВИСИМОСТИ. ЗАКОН 0 ИЛИ 1 51 Р (^4) = 1. Например, последовательность или ряд независимых случайных величин либо сходится п. н., либо п. н. расходится; другие возможности исключены. Само по себе доказательство закона 0 или 1 не длинно, но сначала мы должны сделать некоторые приготовления, которые, кроме всего прочего, прольют новый свет на понятие независимости, рассмотренное выше очень бегло. Всякое множество 9С случайных величин, определенных на вероятностном пространстве (Q, 53, Р), порождает борелевское а-поле 53 («27), которое можно определить как наименьшее подполе поля 53, относительно которого измеримы все случайные величины X ЕЕ 9С. Более точно, 53 {30) есть пересечение всех борелевских подполей поля 53, которые содержат любое множество вида {со: X (со) ЕЕ S}, где X ЕЕ 30, a S — борелевское множество на прямой Я1. Если Хх, Х2, ... —независимые случайные величины, и если А(€Е 53 (Xt) *), то по определению независимости при любом п п Р(А1 п ...П Л)= ПрМ0. (D Удобно ввести несколько более общее определение: если 532, 532, ... —последовательность борелевских а-по~ лей (подполей поля®), таких, что для любых At ЕЕ 53/ выполнено соотношение A), то мы будем говорить, что поля 53* независимы. Нам будет полезна следующая Теорема 1. Пусть 530, 531? ... —независимые борелев- ские поля, в том смысле, как определено выше. Если & — борелевское поле, порожденное любым {конечным или бесконечным) подмножеством полей 53j, 532, ..., то 530 и i§ — независимы. Доказательство. Достаточно рассмотреть случай, когда 2? — наименьшее поле, порожденное всеми 53;, i > 1. Пусть А ЕЕ 530; нам нужно проверить, что р (А П G) = Р (А) Р (G) B) *) Строго говоря, нужно было бы писать 39 ({Xi}), имея в виду <$ C0), где 30 — множество из одного элемента — Х^, но мы будем опускать скобки. Поле S3 (Х^) состоит из прообразов борелев- ских множеств действительной прямой при отображении Q —* /?.
52 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ [Гл 2 для любого множества G ее $. Ограничимся случаем Р (Л) ]> 0, так как в противном случае формула B) очевидна. Если множество G имеет вид Ах П ••• Г\Ап, гДе At ЕЕ 331< то соотношение B) справедливо по определению. Класс f всех конечных объединений таких множеств представляет конечно-аддитивное поле, и следующий этап состоит в доказательстве формулы B) для G ЕЕ f. Пусть к Gt = А\ П ••• П An- и G = (J G{ — произвольное мно- 1 7=1 жество из f. Воспользовавшись известной формулой «включения — исключения» для вероятности конечного объединения множеств (см. [Ф]), можно записать ?{А Пб) = р(.и И П^)) = + 2 Р(У [\G.b ПС;П <?*)-..., C) i<j<fc где ряд состоит из п членов. Но к каждому множеству вида, скажем, Gt [) Gj f) Gft, применимо соотношение B). Поэтому множитель Р (А) можно вынести из каждого члена суммы C), выделив предварительно множество А из пересечения. В результате мы получим произведение вероятности Р (^4) на сумму ^-вероятностей, которая (по той же формуле включения — исключения) будет равна Р (и^г)- Итак, формула B) доказана для всех множеств Закончить доказательство теперь совсем просто. Рассмотрим две меры Р и ?а, определенные на ЗВ. Пусть Р — исходная мера, а РА (В) = Р (В П А)/Р (А) — условная вероятностная мера при условии А. Эти меры, как мы видели, совпадают на tf. По основной теореме продолжения из § 1 (часть, относящаяся к единственности) они должны совпадать по крайней мере на борелевском а-поле множеств, порожденном^, т. е. на &. Теорема доказана. Задача 1. Покажите на примере, что недостаточно предположить лишь независимость <$0 и $}\ при любом i ^ 1. Следствие 1. Пусть выполнены условия теоремы 1. Если'2?х и $2 — борелевские поля, порожденные неп^ре-
§ 10J ЕЩЕ О НЕЗАВИСИМОСТИ. ЗАКОН О ИЛИ 1 53 секающимися псд множества ми из 33п, то (&1 и &2 независимы. Доказательство. Каждое из полей 33 h порождающих 2>х. по только что доказанному не зависит от &2. Если теперь а-поле i§l будет играть роль 330 из теоремы 1, то новое применение этой теоремы завершает дело. Задача 2. Распространите следствие 1 на случай более чем двух непересекающихся подмножеств полей $\. Следствие 2. Пусть Хг, ..., Хп+т — независимые случайные величины; a f и g — вещественные борелевские функции на Rn и R™ соответственно. Тогда f (Хг, ...,Хп) и g (Хп+1, ..., Хп+т) — независимые случайные величины . Доказательство этого факта мы оставляем как задачу 3. Сформулированный результат оправдывает законность некоторых наших предыдущих операций (например, в доказательстве неравенства Колмогорова). Следствие 3. Если Х1ч Х2, ..., Хп — независимые слу чайные величины с конечными средними, то (п \ п П*, =ЦЕ(Х,). D) Доказательство. (Вспомним сначала задачу 3.4 и последующие замечания.) По следствию 2 (см. вы- ше) случайные величины Хг и П Х{ независимы. Значит, г=2 если вторая из них имеет конечное математическое ожидание, то по теореме 3.1 е(дх^ = е(хое(Дх,| Отсюда уравнение D) легко получить индукцией по п. Существуют различные обобщения этого результата на случай бесконечных произведений. Одно утверждение такого сорта нам понадобится ниже в § 21. Следствие 4. Пусть Х1ч Х2, ... независимые (вещеет- веннозначные) случайные величины, такие, что ряд ZXn
54 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ 1.Гл. 2 сходится п. н. Тогда ехр *2 *п П E(expiXn). E) Доказательство. Не возникает никаких сомнений в существовании математического ожидания в левой части, так как случайная величина почти всюду (на Q) равна по модулю 1. Более того, по теореме Лебега об ограниченной сходимости ехр Остается воспользоваться следствием 3 или задачей Л.4, чтобы убедиться в совпадении последнего выражения и правой части формулы E). Теперь у нас все готово для доказательства закона О или 1. Если {Хп} — последовательность случайных величин, то борелевские а-поля 33 ({Хп, Хп+1, ...}) очевидно, убывают с ростом п. Пересечение этих полей называется остаточным о-полем последовательности. Теорема 2. (Закон О или 1.) Всякое множество, принадлежащее остаточному полю последовательности независимых случайных величин, имеет вероятность О или 1. Доказательство. Пусть ЗЗоо означает остаточное а-поле. Из теоремы 1 вытекает, что поле 33 (Хп) ие зависит от поля 3d ({Хп+1, ...}) zd ЗЗоо, так что 33^ не зависит от 33 (Хп) при любом /?. В силу той же теоремы 1 поле ЗЗоо не зависит от поля 33 ({Х1? Х2, •••})• Но последнее поле содержит ЗЗос, так что подполе 33^ должно быть независимым от самого себя! В частности, если А ЕЕ 33х, то Р(А) = РМГЫ) = [PW)]2, так что либо Р (А) = 0, либо Р (А) = 1. Задача 4. Докажите утверждения, сформулированные в начале этого раздела, проверив, что для любой последовательности случайных величин со-множества, на которых существуют lim Xn и 2ХД, принадлежат остаточному полю последовательности.
§ 11] ЗАКОН ПОВТОРНОГО ЛОГАРИФМА 55 Задача 5. Доказать, что радиус сходимости Я случайного сте- оо пенного ряда ^Xkzk} коэффициенты Хк которого независимы, есть и=о константа (и. п.). Задача 6. Пусть в предыдущей задаче коэффициенты Xh одинаково распределены и невырождены. Доказать, что радиус сходимости равен 1 или 0 в зависимости от того, конечен или бесконечен логарифмический момент Е (ln+ | Х0 |), где In. х = \ \0 , х <1. (У к а з а н и е. Проверьте сначала, что Р {Xh —> 0} = 0. От- /I*—*ЛЭ сюда следует, что R <; 1. Рассмотрите последовательность незаьи- симых событий Ак = {УШ>С>\}. Докажите, что ^ * Ш=^Щ\ *к\>СК})= СО ОО СО С» = J 2 \сК,c*){x)dF{x)== ^ogcxdf(x) + Q=-l- §[nxdF(x)+Q, о fc=i ' l l где /* (.г) — функция распределения | Хо |, a Q ограничена. В с- пользуйтесь леммой Бореля — Каптелли.) Задача 7. Используя принцип аргумента и результат преды- п дугцей задачи, докажите, что число нулей полиномов ^Xhzk, где fc=o Е Aп+ | Х\ ) < оо, принадлежащих области D С {z : | z | < 1}, ограничено по вероятности при п -* оо. Используя инверсию z —* 1 -» —, докажите то же самое и для Z) С {z : | z | > 1}. Таким образом, при п -* оо нули случайных полиномов имеют тенденцию группироваться около окружности | z | = 1. §11. Закон повторного логарифма В этом разделе под Хг, Х2, ... будем понимать независимые случайные величины с одинаковым невырожденным распределением и нулевым первым моментом. Мы видели в теореме 8.1, что при этих предположениях | Sn \ = о (п) п. н. и, вообще говоря, при этих условиях нельзя утверждать что-либо большее. Но если наложить дополнительные ограничения на распределения величин Xt, то естественно надеяться па более тонкие оценки. Замечательно, что можно получить очень точные результаты при весьма общих условиях.
56 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ 1Гл. 2 Если Xt принимает значения 1 или —1с вероятностями 1/2, то как мы видели в связи с теоремой 7.2, в качестве вероятностного пространства можно взять отрезок [0,1] с мерой Лебега, и Хп(х) = 2Ъп (х) — 1, где Ъп (х) есть /г-я цифра в двоичном разложении числа х. В этой ситуации утверждения относительно Sn можно сформулировать как утверждения о числе единиц среди первых п цифр в двоичном разложении числа х, и именно в таком виде эта задача впервые была изучена. Ранние результаты таковы: 1913 r. \Sn\ = 0 (п^+€) п. н. для любого е > О (Хаусдорф). 1914 г. | Sn\ = О (Yn\ogn) п.н.(Хардии Литтльвуд), 1923 г. | Sn\ = О (/п log log n) п. н. (Хинчин). 1924 г. Предыдущая оценка не улучшаема; более того, lim sup r lSnl = \flu. п. (Хинчин). A) П-оо У П log log П Через несколько лет последний результат был обобщен Колмогоровым на широкий класс последовательностей независимых случайных величин. Мы изложим эти результаты в их историческом порядке, так как при этом их доказательства кажутся более естественными, чем когда они излагаются изолированно д-руг от друга. Однако было бы не целесообразно даже временно ограничиваться лишь случаем схемы Бернулли. Оценка Хаусдорфа. Если распределение величин Xt имеет конечные моменты всех порядков О 0), то \Sn\ — = О (п^,2)+Е) п. н. для любого г ]> 0. Доказательство. В нашем первом приближении к усиленному закону больших чисел мы установили, что Е EП4) <; Сп2 для некоторой константы С. По неравенству Чебышева E.7) это влечет за собой P(|Sn|><m")<-^. B) Таким образом, чтобы удостовериться, что неравенство \Sn\^> апа имеет место лишь для конечного числа п (п. н.), достаточно проверить, что сумма правых частей в B) конечна. Так будет при а ^> 3/4. Тем самым мы доказали, что \Sn\ = О (ггC/4)+е) п. н. для любого г^> 0. Мы можем получить более тонкие результаты, используя мо-
? 11J ЗАКОН ПОВТОРНОГО ЛОГАРИФМА 57 менты высших порядков. Без особого труда проверяется, что *) Е (S2nk)^Cn\ к = 1, 2, 3, ..., C) где С зависит от к, но не от п. Используя C), можно заменить оценку в B) на Спк/ (адаJ\ и лемма Бореля — Кантелли дает Sn = О (па) п. н. при условии a j> (к + 1)/2/с. Поскольку можно выбрать к так, что (к + 1)/2/с сколь угодно близко к 1/2, то отсюда следует требуемая оценка. Задача 1. Докажите C). Дальнейшие улучшения оценки Хаусдорфа получаются применением двух технических трюков. Любопытно, что ими можно пользоваться в любом порядке. Любой из этих двух приемов обеспечивает уточнение приведенной выше оценки до О (уп log n), а последующее применение второго трюка доводит ее до О {уп log logri). Вероятно, в этом месте разумно отметить, что в приведенном выше доказательстве улучшенные оценки получались при рассмотрении Е (Sn2li) с растущим к. Этот процесс естественно приводит «в пределе» к замене степенной функции на экспоненту. Следуя этой идее, мы докажем теперь оценку, заменяющую неравенство C). Лемма 1. Предположим, что \Xt\ <^ M я. н. Тогда 2 При Любом О ^ X^Z^rj- E{exSn)^exp[^(i+xM)\. D) Доказательство. Случайные величины хХ е j независимы и одинаково распределены, поэтому из теоремы 3.1 (с учетом теоремы 3.4 или следствия 10.3) получается, что E(exSn) = Е(^л'-)п. E) *) Для справедливости оценки C) существенно, что ?Х\ = 0, i— 1, 2,... (Прим. ред.) ч
58 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ [Гл. 2 Используя теперь ограниченность Х1 и равенство нулю средних, мы находим, что при любом х ^> О к YK xhX <1+^+2 и Х2& ^ **Я(А*) fc=3 ^ л . а<х* а- ^ аглг* /с=з ° а2#2 а2 я3М 3! 1 - (хМ/3) " Если теперь мы предположим, что х <J 2/М, то оценка примет вид Е (е**.) < 1 + ^1 A + *М) < ехр [-^ A + я^I • F) Комбинируя соотношения F) и E), мы получим D). Следствие. При О < а < 2<j2?i/M Р <Sn > fl) < ехр [^?(l-¦??)]. G) Доказательство. Применим неравенство Че- бышева в экспоненциальной форме E.6). Учитывая соотношение D), получим Р (Sn > а)<(?-«Е (/Sn)<ехр Г^^ A + яМ) - as]. (8) При ? = а/а2/г неравенство (8) переходит в G). При этом ограничение ^ ^ — , необходимое для применения формулы D), выполнено в силу предположения а <^ 2о2п/М. Нелишне заметить, что наш выбор х не был произвольным. Мы должны были получить из неравенства (8) возможно более сильную оценку, и при малых х выбранное нами
§ и] ЗАКОН ПОВТОРНОГО ЛОГАРИФМА 59 значение х = а/о2п близко к тому, которое минимизирует правую часть, но приводит к более простой формуле, чем точный минимум *). Используя G), нетрудно получить следующий результат. Оценка Харди — Литтльвуда. Если \Xt\ ^ М п. н., то I оп | = О (Yn log n) п. н. Доказательство. Из формулы G) при а = = с \fn\ogn получается, что Р (Sn > с Vn log п) < ехр [- -^ log n A + о A))], (9) и сумма по п правых частей сходится, если с2 > 2а2. По лемме Бореля — Кантелли при таких значениях с с вероятностью 1 осуществляется лишь конечное число событий $п > сУ nlogn. Те же аргументы применимы и к — Sn, если только мы заменим Хп на — Хп. Оценка установлена. Попытка продвинуться дальше за счет получения еще лучшей верхней оценки, чем G), обречена на провал, так как эта оценка близка к окончательной. Следующий шаг вперед удается сделать, лишь осознав, что события вида {Sn > cYnlogn} сильно зависимы, так что сумма их вероятностей, как бы хорошо они ни были оценены, не может служить руководством для изучения вероятности объединения или верхнего предела. Чтобы обойти это *) Замечание 1. В добавлении переводчика (стр. 174) будет доказана следующая оценка: если Хх, Х2, ..., Хп — независимые одинаково распределенные случайные величины, ВХ{ = 0; DXi = а2, Е | Х{ |3 < оо и последовательность ап -» ею такова, что -гт= — оо, г—— -> 0, У п у п\ъп тогда для любого 8 > 0, начиная с некоторого п — nQl Р {^п > ап] < ехр \- -2^5- U - е)| • О') Конечно, оценка G') слабее, чем оценка G), однако, во-первых, ее вполне достаточно для наших нужд, во-вторых, она справедлива при очень широких предположениях. (Прим. перев.)
60 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ 1Гл. 2 препятствие, мы соберем эти события в большие группы, так что для применения леммы Бореля — Кантелли достаточно будет установить сходимость некоторого подряда из вероятностей. В этом и состоит второй трюк из упоминавшихся выше. Реализация намеченной программы основана на неравенстве, аналогичном неравенству Колмогорова из § И, но дающем оценку не в терминах моментов, а через распределение Sn. Лемма 2. Предположим, что Хх, ..., Хп — независимые случайные величины со средним О и дисперсией а2. Тогда при любом а 1> О Р (max Si > а)< 2Р {Sn > а - |/1/г?}. (Ю) г<тг Доказательство. Мы снова определим события А и Aj почти так же, как в пункте (8.4): А = {со: maxSi > a} и для ; < п Aj = {со : Si < а при i < /\ Sj > а}. A1) Как и раньше, события Aj не пересекаются и в объединении дают А. Далее, Р (А) = Р (А П {S„ > а - Vtorf}) + + Р(ЛП [5п<а-К2шт2}), A2) и замечая, что первый член, очевидно, не больше, чем Р (Sn^a — Yzna2), перейдем к изучению второго. Но Р(Л;-П{5п<а-/2^})<Р(^П{|5д-5Л>|/^}), и используя независимость сомножителей в правой части и неравенство Чебышева в его обычной форме E.5), мы получим, что Р(А}(]{Sn<a- /55s})<Р(At)-Щ^<у Р(Aj). Суммируя по /, приходим к неравенству Р(ЛП{5„<а-/2^})<1р(Л). A3)
§ 11] ЗАКОН ПОВТОРНОГО ЛОГАРИФМА 61 Комбинирование формул A2) и A3) дает Р(Л)<РEп>а-/2^) + |Р(Л), что эквивалентно соотношению A0). Оценка Хинчина (часть I). Предположим, что по- прежнему \Xt\^ M (п. п.). Тогда Р (lim sup - lSnl < УЪ) = 1. A4) log log п Доказательство. Положим а (п) = {2о2п log log nI'2. Утверждение A4) равносильно тому факту, что при любом е ^> 0 и всех достаточно больших п |5„|< A + е)о(я) (п. н.). Выберем некоторое у>0 и определим целочисленную последовательность nk = [A + у)к] *) (грубо говоря, геометрическую прогрессию). По лемме 2 Р (max Si > са (nrf)) < 2Р Enft > са (щ) - /2пкз2), г^пк где с — какая-нибудь константа, превосходящая 1.Так как а (п) — величина более высокого порядка, чем Уп, то правую часть можно записать в виде 2Р (Snk > са (пк) [1 - о A)]). Воспользуемся формулой G). Имеем Р (max St > са (nk)) < 2ехр [—с2 log log nk A — о A))]. A5) Но величины log log nk и log к асимптотически эквивалентны, и становится ясно, что сумма (по к) правых частей и A5) конечна. Значит, по лемме Бореля — Кантелли с вероятностью 1 max {St} < са {nk) при всех достаточно больших к. A6) t<nu *) Здесь [х] — целая часть х, т. е. наибольшее целое, не превосходящее х.
62 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ [Гл. 2 Легко усмотреть, что формула A6) уже дает требуемое. Действительно, она, в частности, означает, что при всех больших к для rih-i <C i < nk выполняется неравенство ^i ^ са(пК) /ilog log г """ Ynk-i[o% l°8na-i Но правая часть стремится к \г2о2с2 A + у) и поэтому для любого т] ^> 0 для достаточно больших i имеем |/п-^_ < /2aV(l+r) A + Л)- К * log log г Так как каждый из множителей с, A + у) и A + г|) можно выбрать как угодно близко к 1, то этим установлена оценка A4) для Sn вместо | Sn |. Как и раньше, те же рассуждения применимы к —Sn, поэтому A4) выполняется*). Задача 2. Применяя лемму 2, второй из «трюков», приведенных выше, и оценку C) моментов, получить оценку Харди — Литтльву- да, не пользуясь леммой 1. Можно ли этим способом добиться большего? Поскольку равенство A4) установлено, то для доказательства закона повторного логарифма остается показать, что }/а п.н. не превосходит рассматриваемого lim sup. Доказательство этого в значительной степени повторяет предыдущее, если существенная верхняя граница G) будет заменена столь же эффективной нижней границей. Такая граница дается с помощью Леммы 3. Предположим, что \ Х( | <^ М п. н. Пусть ап — такие вегцественные числа, что (ап/у п) -> +оо, но &п = ° (л). Тогда для любого е ^> 0 при достаточно больших п Г а2 РEп>ал)>вхр[--2^гA+еI A7) *) Используя замечание 1 на стр. 59 и сформулировапную в нем оценку G') и повторяя дословно только что приведенные рассуждения, легко получить, что /lim sup ~J== <° У А У п-*оо К /г In la n ) если только конечен третий момент Е | Х^ |3. Разумеется, при этом, как и раньше, предполагается, что ^Х\ = 0, DXi = о2 > 0. (Прим. перев.)
§ 11] ЗАКОН ПОВТОРНОГО ЛОГАРИФМА 63 Замечание 2. Аналогичная верхняя оценка вытекает, очевидно, из формулы G). Мы не будем доказывать здесь лемму 3, так как доказательство, опирающееся на методы настоящего раздела, представляются слишком громоздкими и утомительными; такое доказательство можно найти, скажем, в монографии Хинчина ([X] стр. 62—65). Для схемы Бернулли лемма 3 (и весь закон повторного логарифма) прекрасно изложены в [Ф]. Единый вывод нужных верхних и нижних оценок можно получить, уточняя центральную предельную теорему. Соответствующие рассуждения приведены в добавлении. Оттуда, в частности, можно извлечь следующую лемму. Лемма 3'. Предположим, что EXt = О, DXi = о2 ^> О и Е \ Xt | 3 <^ оо. Пусть ап — такая последовательность, что У п у п 1а п Тогда для любого е ^> О при всех достаточно больших п PE„>an)>exp[--2^s-(l+e)]. Лемма 3' накладывает на последовательность ап очень сильные ограничения, но зато справедлива при весьма широких предположениях. В одном важном частном случае оценка A7) выводится элементарно. Задача 3. Доказать A7) и соответствующую нижнюю оценку в случае, когда Х% имеют нормальное распределение: X Р (Xi < х) = 1-з J e-^'^du. A8) -ОО (Указание. Решающим является тот факт, что сумма нормально распределенных независимых случайных величин сама имеет нормальное распределение.) Наконец, набросаем доказательство нижней оценки Для Sn. Оценка Хинчина (часть II). Пусть случайные величины Xt имеют дисперсию о2 и удовлетворяют заключению
64 ЗАКОНЫ БОЛЬШИХ ЧИСЕЛ 1Гл. 2 леммы 3 (или 3') и верхней оценке A4). Тогда Р Aim sup Г Sn =- > Vte) = !• A9) \ п-оо V /г log log n ] Доказательство. Положим снова а (п) = = Bа2 п log log д),/г и возьмем/?/, = [S/l] для некоторого В > 1. Мы пишем здесь 5 вместо A + у), предполагая, что па этот раз окажутся полезными и большие значения В. Возьмем с<1 и рассмотрим события АЛ = {со : 5Пк — S^ > ca (/z/t — тг^)}. Применяя A7), имеем для больших к Р (A к) > ехр [- с2 A + е) log log (nk — пк-г)] > ^ ^-сЧ1+?)A+оA))? B0) так что 2?(Ак) = оо, поскольку мы можем выбрать е таким образом, чтобы с2 A + е) <С 1.Так как события А-Л независимы, то из леммы Бореля — Кантелли следует, что п. н. бесконечное число их осуществится. Поэтому для произвольно больших к Snk > с Bа2 (пк - /г,.!) log log (nh - n^))"» + Snk^. B1) Так как с < 1 можно выбрать сколь угодно близким к 1, то это почти все, что нам надо. Из A4) следует, что добавочный член Sn^ B правой части больше —2 Bo2nh-llog logflfc-xI''2 для всех больших к, и легко проверить, что (пЛ — п^) log log (щ - п,.Л) ~ [i — A-j Bk log к ~ — (l — -д-U,, log log/ifr. Все это в сочетании с B1) дает для любого б ^> 0 Snk > BЛг, log log nKy<> [с /1 - В^ - 25-'¦] A - 6) B2) для произвольно больших к (п. н.), и так как с ^> 1, В > 1 и б ^> 0 можно выбрать так, чтобы последние сомножители были сколь угодно близки к 1, то тем самым A9) доказано.
§ lij ЗАКОН ПОВТОРНОГО ЛОГАРИФМА 65 (В этом случае опускание знака модуля у Sn только усиливает утверждение.) Замечание 3. Из замечаний 1 и 2 следует, что мы фактически доказали закон повторного логарифма для одинаково распределенных случайных величин с конечным третьим моментом. Применяя метод урезания, имеющий некоторое отношение к тому, который мы применяли в усиленном законе больших чисел (но значительно более деликатный), и несколько уточняя вышеприведенные рассуждения, можно показать, что в случае одинакового распределения для справедливости A4) и A9) достаточно конечности второго момента. Недавно было также доказано, что это в определенном смысле и необходимо. Есть много обобщений этой теоремы даже для простейших случаев, причем были найдены совершенно другие мощные способы доказательства. Этот круг вопросов, возникший более 50 лет назад, все еще бросает вызов нерешенными проблемами. Задача 4. Пусть случайные величины Х\ независимы и име X 1 С cdx ют распределение Коши Р{ЛГ| "ч#} = — \ 2 2 (У этого рас- —оо пределения и среднее, и дисперсия не существуют.) Докажите, что lim sup = оо (п. н.), П-ЮС П а при а > 0 lim sup п^ =0 (п.н). П-+х> И у 4- -)- X (Указание. Воспользуйтесь тем, что — имеет то же распределение Коши, что и каждое слагаемое Х{. ГЬследний факт допускает элементарную (хотя и довольно громоздкую) провер ку с помощью формулы свертки. В дальнейшем (см. задачу 8 § 14) or будет доказан методом характеристических функций.) Задача 4 показывает, что для случайных величин, не имеюшдг конечных вторых моментов, предельное поведение сумм Sn — соь сем не такое, как в законе повторного логарифма. 3 Дж. Ламперти
Глава 3 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ И ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА § 12. Слабая сходимость мер В этой главе мы будем заниматься теоремами, которые утверждают, что определенные последовательности случайных величин — как правило, это будут линейные функции от сумм вида Хг-\- ... + Хп (Xt независимы) — имеют распределения, стремящиеся к пределу при п -> оо. Настоящий раздел посвящен некоторым обобщениям понятия сходимости распределений. В этой главе мы будем применять развиваемую концепцию лишь к мерам на прямой, хотя будут обсуждаться и более общие случаи; следует уведомить читателя о том, что слабая сходимость мер на различных функциональных пространствах приобрела в последнее время большое значение при исследовании случайных процессов. Начнем с основного определения. Пусть S — метрическое пространство и I- семейство всех борелевских множеств (т. е. 8 есть наименьшее борелевское поле, содержащее все открытые подмножества пространства S). Пусть \in — семейство конечных мер на (S, §). Мы говорим, что [х77 слабо сходится к другой такой же мере \х (пишется \in ==> ji) в том случае, ко1да lim J/^n= )fd\i A) для любой ограниченной непрерывной вещественной функции /. Хотя \in не обязаны быть вероятностными мерами (впрочем, в применении к нашим случаям они будут вероятностными), выбирая / = 1, видим, что |лп (S) —>• Задача 1. Пусть \.in — единичная масса в точке хп (т. е. р,п (?) — 1 при хп 6= ?\ J-Ьг (?) = 0 — в противном случае). Показать, что [in => ц. означает, что lim хп = х существует и и есть единичная масса в точке х. Доказать обратное (это легко для евклидова пространства и несколько труднее для произвольного S).
§ 123 СЛАБАЯ СХОДИМОСТЬ МЕР 67 Задача 2. Пусть S — [0, 1] и \in — дискретпая мера, помещаю щая в каждую из точек 0, 1//?,2//?, ..., п/п массу 1/(л + 1). Дока зать, что \лп =Ф j-i, где р, — мера Лебега на [0, 1]. Нетрудно доказать в общем случае, что может быть самое большее одна такая мера jn, что \кп =ф (л. Для Z?1 определению слабой сходимости можно придать более специфическую форму. Теорема 1. Пусть (in, \i — конечные меры на борелев- ских подмножествах прямой R1 и пусть Fn, F — соответствующие функции распределения. Тогда, если \лп =Ф> |i, то lira Fn (х) = F (х) B) П—юо для любой точки х, в которой F непрерывна. Доказательство. Возьмем произвольное е ]> О и рассмотрим непрерывную функцию gz (t), равную 1 при t ^ х, О при t > х + е и линейную между этими множествами. По определению слабой сходимости. оо оо J ft dm -* J ft d\i. —оо —оо Но очевидно, что X ОО ^п (*) = 5 ft Фп < $ ft dm,, —с» —оо И оо ] ge d\i < F (x + 6). —со Соединение этих неравенств дает lim sup Fn (x) < F (x + е), C) n-»oo откуда, полагая е -*• 0, получаем, учитывая непрерывность справа, что F (х) есть верхняя граница (при любых х) Fn (*). Пусть теперь /е (t) равна 1 при t ^ х — е, О при t ^ х и опять линейна между этими множествами. Проводя рассуждения с /е вместо ge, получаем lim inf Fn (x) > /? (x — в). D) 3*
68 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 Полагая е ->¦ 0, видим, что нижняя граница Fn (х) есть F (х — 0) и она совпадает с верхней оцеькой для lim sup/1 (x), поскольку х есть точка непрерывности. Следствие. Если на Я1 одновременно \хп ==> \i и yin => v, то \i = v. Доказательство этого составляют задачу 3. Как отмечено выше, единственность имеет место и в общем случае, хотя теорема 1 имеет смысл только для евклидовых пространств. Задача 4. Обобщить теорему 1 па двумеркый случай. Наш следующий шаг — доказать утверждение, отчасти обратное к теореме 1. Утверждение, в точности обратное теореме 1, неверно, как показывает следующий пример: пусть \хп — единичная масса в точке /?, так чго Г 0 при х <С п, Fn(x)= , ^ 71 v ' [1 при х > /г. Ясно, что Fп (х) —> 0 при всех х, а 0 есть функция распределения «нулевой меры» jli0, но \хп не является слабо сходящейся к \х0. Трудность, конечно, состоит в том что масса «убегает на бесконечность». Оказывается, в евклидовом пространстве все дело в том, что^ы исключить эту возможность. Приведем доказательство для R1. Теорема 2. Пусть {[in} — последовательность конечных борелевских мер на R1, \i —тоже конечная борелевская мера, Fn, F — соответствующие функции распределения. Если B) выполнено для любого х, которое является точкой непрерывности F и если \хп (R1) -> \х (Я1), то \хп => (х. Доказательство. Пусть / — произвольная ограниченная непрерывная функция на (—оо, оо). Мы хотим доказать, что со со lim $ fd\in= \ fd\i. E) ">-**> -оо -со Для каждого е ^> 0 можно выбрать такой интервал [—А, А], что для каждой из мер \in и р, масса дополнения к этому интервалу не превосходит е. Действительно, если взять такое R, что F (—В) ^ е/4 и —В есть точка непрерывности функции F, то Fn (—В) ^ е/2 для всех доста-
§ 12] СЛАБАЯ СХ ОДИМОСТЬ МЕР 69 точно больших п. Аналогично, если с есть точка непрерывности и F (оо) — F (с) <^ е/4, то для всех достаточно больших п Fn (оо) —Fn (с) ^ е/2. (Именно в этом пункте используется предположение о том, что \bn{Rl) -> \x{R1).) Мы теперь можем расширить выбранный интервал так. что эти оценки будут верны и для оставшегося конечного числа номеров п. Обозначим полученный интервал [—А, А). Таким образОхМ, ясно, что оо А | $/d!in- $/d!i„|<Me F) —оо —А (и то же самое верно для ji), где М — верхняя грань для |/ (я) |. Если мы теперь докажем, что А А Urn \fd\in= \fd[i, G) то вместе с F) это установит справедливость E). Равенство G) обычно называется второй теоремой Хел ли. Для полноты рассуждений набросаем доказательство. Функцию / можно приблизить равномерно на [ —А, А} ступенчатой функцией s = s (х): для любого b ^> 0 найдутся такие константы с* и аг-, что \f(x) -s(x) |<6 на 1-А,А], где /С-1 S(X)= 2СгФ(а|(а;+1](*). (8) г=1 Здесь (ах, ..., aft) образуют разбиение отрезка [—Л, Л], и можно даже считать, что а1? ..., ak есть точки непрерывности для F, так как существует не более счетного числа точек разрыва F, которых надо избежать. Если в каждом из интервалов G) заменить/на s (x), то получится ошибка, не превосходящая 28ц, (Я1) для больших //. Но G), очевидно, справедливо для ступенчатой функции, так как А к ^ S (X) d\ln = 2 С> lFn (ai + l) — ^n («i)], —A i=l
70 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИИ Гл. з a Fn (х) -> F (х) в точках непрерывности. Поскольку б можно взять сколь угодно малым, то отсюда следует, что G) справедливо для любой непрерывной функции. Теорема доказана. Следующий факт указывает на один из путей, на котором в теории вероятности может возникнуть понятие слабой сходимости. Задача 5. Покажите, что если Хп, X — случайные величины на одном и том же вероятностном пространстве (Q, «#, Р) с распределениями \хп и |я и если Хп -* X по вероятности (см. § 2), то \хп =Ф> ц. (Указание. Использовать теорему 2.) Однако, как мы увидим, обычно не в этой ситуации появляется слабая сходимость распределений. Очень полезно знать, когда в семействе мер имеется слабо сходящаяся подпоследовательность. Критерий для этого совсем нетрудно получить из теоремы 2. Теорема 3. Пусть {\хп} — конечные борелевские меры на R1, и предположим, что {\in (R1)} ограничены в совокупности. Если для любого е ^> 0 найдется такой конечный интервал [ВЕу CJ, что 8ирМЛ1-[Дв, С«])<в, (9) п то семейство {\лп} содержит слабо сходящуюся подпоследовательность. Доказательство. Сначала выберем последовательность {[хП'Ь Для которой \imFn'(r) существует при любом рациональном г. Чтобы показать,что это возможно, воспользуемся диагональным методом: упорядочим рациональные числа и возьмем такую подпоследовательность {|ini}, что Fni (r±) сходится. Затем выберем из нее подпоследовательность {fxnJ, для которой функции распределения сходятся и в г2, и повторим этот процесс счетное число раз. Пусть теперь {\in>} состоит из «диагональных элементов»: возьмем первый член последовательности {^пЛ? второй член последовательности {[хП2} и т. д. При таком построении ясно, что функции Fn> сходятся в любой рациональной точке. Для каждого рационального г существует iim Fn.(r) = L(r). A0)
«5 12J СЛАБАЯ СХОДИМОСТЬ МЕР 71 Ясно, что L возрастает и ограничена, поскольку FUi возрастают и равномерно ограничены. Кроме того, поскольку Fn> (л) -*¦ 0 равномерно при х ->¦ — оо (это немедленно следует из (9)), то L (г) -> 0 при г ->¦ — оо по рациональным точкам. Положим теперь для любого вещественного х F (х) = ЫЬ (г). A1) г>х Нетрудно видеть, что F не возрастает, ограничена, стремится к 0 при х -> — оо и непрерывна справа, т. е. F есть функция распределения. Пусть |л — соответствующая борелевская мера; докажем что \in> =^> п.. Согласно теореме 2, нам достаточно показать, что \хп> (R1) ->• [i (R1) и что Fn- (x) ->- F (х) в точках непрерывности функции F. Первое утверждение получить очень легко, так как в равенствах Jim Fn* (x) -= О, lim b\> (x) = \in> (Я1) Х-*—ОО X-->-j-°° стремление к пределу равномерно (как мы уже указывали, это следует из (9)). Отсюда F (— оо) = 0 и F (+ оо) «= = limo.^ (R1). п/->сх> Пусть теперь х — фиксированная точка, в которой F непрерывна. Для любого рационального числа г ^> х имеем lim sup Fn> (x) < lim Fn. (r) = L{r)^F (г). n'—>oo н'->со Если взять r <^ x, то lim inf Fn' (x) > lim Fn. (r) = L(r)> F (r - e) п'—юо n'—>-oo для любого е ]> 0. Из этих оценок (и непрерывности F в точке х) следует, что Fn> (x) -> F (х). Теорема доказана. Замечания. Если все меры {\хп} сконцентрированы на некотором конечном интервале [В, С], то теорема 3 — это первая теорема Хелмг или «принцип выбора». Заключение- теоремы 3, очевидно, можно усилить до утверждения, что любое бесконечное подмножество семейства {\in} содержит слабо сходящуюся подпоследовательность; мы тогда
72 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 говорим, что {|in} относительно компактно*). Легко установить обобщение теоремы на любое метрическое пространство S. Назовем семейство {\хп} конечных мер на {S. §} равномерно плотным, если для любого е ]> О найдется такой компакт /\?, что sup MS \ #e)<e. A2) 71 Теорема A0. В. Прохоров). Если {\in} —равномерно плотное семейство и {\in (S)} ограничены в совокупности, то {\in} относительно компактно. Обратно, если S полно и сепарабелъно, то эти два условия также и необходимы. Для R1 равномерная плотность семейства {\in} сводится к (9), так что теорема 3 есть частный случай сформулированной выше теоремы. Мы не приводим доказательства для общего случая (см. [2]). Задача 6. Доказать, что для случая R1 равномерная плотность и ограниченность {\хп} необходимы для относительной компактности. Задача 7. Покажите, что в 7?1 для относительной компактности семейства вероятностных мер {\in\ достаточно, чтобы нашлась такая функция / (х) > 0, / (х) -> оо, что \ / (х)d\in(#)< С< оо. ю § 13. Максимум выборки Мы кратко обсудим класс предельных теорем, очень важных во многих приложениях и допускающих элементарное доказательство. Предположим, что Хъ Х2, ... — независимые случайные величины с одним и тем же распределением и A/n= max (X„ Х2, ..., Хп). A) Часто нужно знать, с какой вероятностью появляются различные значения Мп в длинной серии реализаций, т. е. при больших п. Интуитивно ясно, что при ответе на этот вопрос вряд ли будет играть роль характер распределения Xt в центральной части их области значений; все, что существенно,—это строение «правого хвоста» распределения. *) Слово «относительно» указывает на тот факт, что предельная мера не обязательно принадлежит первоначальному семейству.
§ 133 МАКСИМУМ ВЫБОРКИ 73 Функцию распределения максимума найти очень легко: Р(Л/П<^*) = Р(А\^х, i = 1,2, . . ., /i) = = ПР№<*) = ^"Н. B) i=l Здесь F — общая для всех величин Xt функция распределения. При различных предположениях относительно F нетрудно отыскать предельное распределение подходящей линейной функции от Мп. Для примера предположим, что при некотором а ^> 0 существует lim х* [1 -F (х)\ = 6>0. C) X—>+эо Тогда распределения \in случайных величин Mnl (bn)l>a имеют при п —>- оо слабый предел jli, функция распределения которого задается следующей формулой: lim ?(Mn^x(bn)V«) = \i{(— оо, ж!} = п-*оо ехр(— ж-«), *>0, О, х<0. D) Доказательство не сложно. Используя соотношения B) и C), мы можем при любом х ^> 0 записать Р (Л/п ^ х (bn)V* = F[x (bny'a\n = ехр (— ага). E) Ясно, что при х <^ О Р (Л/п < а: (ЪпУ«) -> 0. Функция, которая определяется этими пределами (окончательное выражение дается формулой D)), очевидно, представляет функцию распределения некоторой меры и,, и сходимость \хп =ф [х гарантируется теоремой 2 предыдущего параграфа. Две другие возможности предоставляются читателям для самостоятельных размышлений. Задача 1. Предположим, что вместо C) задано следующее предельное соотношение: lim е* [1 - F (х)] = Ь > 0. F)
74 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ Ll\n. 3 Покажите, что и„ =Ф ц, где \in — распределение величины Мп — In (nb) и |Li {(— со, х)} — ехр (— е~х), — сю < х < + оо. G) Задача 2. Предположим, что случайные величины ограничены п. н. сверху постоянной х0 и что вместо C) мы имеем при некотором а > О lim (х0 — х)'а [1 - F (х)] = 6 > 0. (8) х-»х0— Покажите, что и,/г =#• и., где теперь pirt — это распределение величины (пЬIл (Мп — xQ): -"={:: ехр(-(-*)а), сг< 0, |1 {(— ОО, X]} = \ (9) Замечательно то обстоятельство, что мы уже перечислили все возникающие здесь возможности. Действительно, имеет место следующая Теорема (Б. В. Гнеденко) Предположим, что найдется последовательность постоянных ап^> 0 и Ьп, таких, что распределения величин (Мп — Ьп)/ап слабо сходятся к пределу v, не сосредоточенному в одной точке. Пусть G (х) — функция распределения меры v. Тогда найдутся константы а ^> 0 и Ь, такие, что G (х) .= Н (ах + Ь), где Н — одна из функций вида D), G) или (9). Мы не приводим доказательства, отсылая читателя к элегантной работе f3], в которой можно найти исчерпывающую информацию. Например, предельное распределение D) может быть получено при более общих предпосылках, чем те, которые содержатся в C). Окончательные условия можно найти в [3]. Следует отметить, что даже при выполнении C) мы могли бы использовать другую последовательность нормирующих постоянных (ап, Ьп) вместо использованных ранее констант ((ЬпIсх, 0), которые привели к формуле D). Скажем, выбор ((с/гIа, (dn)la) приводит снова к предельному распределению, связанному с распределением D) с помощью линейной замены аргумента. Условимся говорить, что два распределения, связанные такой зависимостью, принадлежат одному типу. Согласно теореме Гнеденко перечисленные выше пределы единственны с точностью до этого тривиального преобра-
§ 14] ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 75 зования. Мы столкнемся с аналогичными вещами позднее, когда вместо максимума будем изучать суммы независимых случайных величин. Понятие «типа» распределения будет при этом обсуждаться более детально. § 14. Характеристические функции Важнейшие задачи о предельных распределениях связаны с нахождением распределения надлежащим образом «нормированной» суммы Хх + ... + Хп = Sn независи мых случайных величин при больших значениях п. В случае схем],! Бернулли результат дается знаменитой «предельной теоремой Муавра — Лапласа», которую можно сформулировать следующим образом: пусть Хг, Х2, ... ... — независимые случайные величины, каждая ив которых принимает значения 1 или О с вероятностями р или q — 1 — р соответственно (/?=/= О или 1) Тогда при п-^-оо распределение нормированной суммы (Sn —np)/ynpq слабо сходится к нормальному распределению, которое определяется формулой X Ф(х)= -±=^е->Ыи. A) — ОО Эта слабая сходимость, если учесть теоремы 12.1 и 12.2, эквивалентна соотношению lim Р ( п~—Р^ Л = ф (д) ПрИ ВСех х. B) Это соотношение — общепринятая форма теоремы Муавра — Лапласа. Сформулированный результат п его многочисленные обобщения известны как «центральные предельные теоремы». Функция распределения Sn получается из функций распределений слагаемых Xt повторным применением свертки (см. § 3). Прямое исследование этой операции обычно весьма затруднительно. В ряде случаев функцию распределения Sn удается получить в явном виде при всех и и тогда становится возможным прямое вычисление предела, аналогичного B). Всем известно, что в случае схемы Бернулли сумма Sn имеет биномиальное распределение B) и (сравнительно тонкий) анализ каждого члена
76 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 с привлечением формулы Стирлинга приводит к соотношению B). (Это доказательство проведено, скажем, в [Ф].) Точные вычисления возможны и для некоторых других законов распределения Хг-, включая пуассоновский, показательный и нормальный. Но для получения общих теорем требуется другой подход. Один метод состоит в вычислении моментов сумм Sn, исследовании их асимптотического поведения и получения в этих терминах моментов предельного распределения для (Sn — Ьп)!ап. Это путь, на котором Чебышев впервые доказал очень общий аналог формулы B). Мы, однако, будем опираться на другую идею, которая введена в теорию вероятностей Ляпуновым около 1900 г. и с тех пор широко применяется. Пусть X — случайная величина. Функция ф = ф (Я), или (более точно) ф = флт (Я), определяемая равенством Ф (X) = Е (е**) C) (это имеет смысл по крайней мере для всех вещественных X), называется характеристической функцией случайной величины X *). Мы можем (см. § 2) также написать 4-оэ ф(^) = ^ei>xd\i = ^ ejXxdF(x), D) Ю —оо где ji и F означают соответственно распределение (меру) и функцию распределения случайной величины X; последний интеграл можно понимать в смысле Римана — Стильтьеса, поскольку еах —непрерывная функция. Задача 1. Показать, что ф @) = 1, | ф (к) | < 1 для всех вещественных X и что ф равномерно непрерывна на всей прямой. Задача 2. Доказать, что линейная комбинация характеристических функций с положительными весами, дающими в сумме 1,— снова характеристическая функция. Задача 3. Докажите, что следующие функции — не характеристические: а) ф (t) = cos t2, б) ф @ = Я] cos t -\- . . -\- оп cos nt + b1 sin t + . . . + + bn sin nt, n где а\ и b( вещественны, причем ^ 6? > 0. *) Мы будем всегда рассматривать ф как функцию, определен* аую только на ветестяеяной иряыой*
§ 14! ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 77 Если Хг, ..., Хп независимы, то и {е " {) независимы, и по теореме 3.1 и ее обобщению на случай нескольких сомножителей ф8п (К) = Е (е!>- <*¦ + ¦ • + *..) = П Е (е' = П ^ W- <5> Именно это соотношение делает характеристические функции чрезвычайно ценным орудием для доказательства центральных предельных теорем, так как они дают возможность «ухватиться» за распределение Sn, если известны распределения всех Xt. Разумеется, с аналитической точки зрения характеристическая функция есть не что иное, как преобразование Фурье (—Стильтьеса) функции распределения, а E) выражает тот факт, что преобразование Фурье свертки равно произведению преобра зований Фурье. Чтобы увидеть, как можно использовать характеристические функции, мы сейчас проведем с их помощью доказательство теоремы Муавра — Лапласа. Сначала надо найти характеристическую функцию нормального распределения. Мы возьмем нормальное распределение с произвольной дисперсией а2, функцией распределения которого является х фс (я) = —L= [ ег*№гд,и. F) У2-1-5 J —сю (Легко проверить (см. [Ф]), что это действительно есть функция распределения со средним значением 0 и дисперсией а2.) Тогда -(-то ф (X) = J е»-ЧФа (х) = e-e*x'/». G) —СО Задача 4. Вывести G). (Указание. Записать ф как инте грал Римана и дополнить выражение, стоящее в показателе, до квадрата. Полученный комплексный интеграл с помощью теоремы Коши сводится к вещественному интегралу, выражающему тот факт, чтоФ0 (+ оо) = 1.) Теперь мы найдем характеристическую функцию нор: лшрованной суммы (Sn — np)lynpq. Поскольку Фа^. (Я) - ре* + д. ф6м (к) - (ре* + q)\
78 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ 1Гл. 3 ТО фп (К) = (еа ^п-пр)//^ = e-^np/V^~q [pe»JYw + q]n (g) В этой формуле совсем легко перейти к пределу. Получаем, что при любом Я lim<pn(X) = <rXf/2. (9) П-»оо Правая часть, как мы уже видели, представляет характеристическую функцию нормального распределения A). Доказательство будет завершено, если мы покажем, что из соотношения (9) следует слабая сходимость соответствующих мер. Это будет сделано ниже. Когда будет подготовлена почва, то и гораздо более общие результаты потребуют очень мало дополнительного труда. Задача 5. Проверить (9), используя (8). В качестве первого шага нам надо показать, что характеристическая функция распределения оправдывает свое название, т. е. однозначно определяет распределение. Это следует из формулы обращения. Теорема 1. Пусть ф и F —соответственно характеристическая функция и функция распределения вероятностной меры на R1. Пусть а <^ р — две точки, в которых F непрерывна. Тогда -f-oo F (Р) - F(a) = lim ^- [ <р (X) е-***/2 '"^ 7^* dX. A0) — оо Доказательство. Приведем сначала некоторые наводящие соображения. Если рассматриваемая мера имеет плотность f(x), то можно написать -{-'СО Ф(Я,)= $ e°xf(x)dx. (И) — оо Тогда, если ср ЕЕ Ьг и если перемену порядка интегрирования можно обосновать, то будем иметь -|-00 -{-СО -{-СО ^ [ е~л* ф (К) dX = ~ \ е-»>* [ еа" / (и) dud%= —ОО —ОО —ОО -f-oo -f эо ^ С/(«) [e-^^^dXdu.
§ 14] ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 79 / 1 \ Если трактовать внутренний интеграл (с множителем у- как дельта-функцию Дирака, то все выражение сводится к / (х). Что надо сделать, чтобы придать этому точный смысл? Разумеется, плотность f(x), удовлетворяющая A1), может не существовать, а даже если она и существует, то <р не обязана быть интегрируемой функцией, равно как и перестановка интегралов может быть недозволенной. Все эти трудности можно сразу обойти, если свернуть F с нормальной функцией распределения со средним 0 и дисперсией а2. Если а очень мало, то эта свертка мало влияет на F, но в то же время она как раз обеспечит сходимость, нужную для аналитических целей. Будем обозначать через Fa = F * Фа свертку функции F с функцией Фа, определенной в F), и пусть ср0 —соответствующая характеристическая функция. Мы можем считать, что Fa и фа получаются в результате сложения двух независимых случайных величин с распределениями F и Фа. Из E) и G) ясно, что Фо(Ь) = е-х,<"аф(М, и так как | ф | ^ 1, то эта функция интегрируема. Поэтому можно написать jT +оо -t-oo -t-oo ^- \ e-D^(K)d\ = -^- { e-iXvg-o»x.2 С e*udF (и) dl. Этот двойной интеграл уже абсолютно сходится, и на основании теоремы Фубини его можно переписать в виде +оо +оо +оо С _L С ^4n-x)e-^,2dXdF(u) = \ A(u,x)dF(u). —оо —оо —оо Внутренний интеграл — множитель А (и, х) — легко можно записать в явном виде, так как это есть не что иное, как характеристическая функция нормального распределения с дисперсией 1/а2, взятая в точке (и — х) и умноженная на постоянную 1/}/~2ла. Из G) имеем А (и, х) = * ег&-**2з2.
80 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ ГГл. 3 Поэтому 1 ОО +00 •±- 5 е~»-*<р, (Я) <Л = \ -pL- <?-<'-*>' W (и). A2) — ОО -ОО Здесь в правой части стоит плотность распределения ^а (§ 3). Следовательно, для любого распределения, свернутого с нормальным, формула, полученная выше эвристическими рассуждениями, верна и на строгом уровне. Если проинтегрировать обе части в A2) от а до р, то, зная, что в правой части стоит Р0'(л), можно записать полученный результат так: Fo (Р) - F„ (о) = -1- J Ф (X) е-*«°' ^ '"' _-хд "Д dl A3) -ОО (здесь с перестановкой интегралов, очевидно, все в порядке). Ясно поэтому, что теорема будет окончательно установлена, если только мы докажем, что lim F0 (х) = F (х) A4) о -* о + в любой точке х, в которой F непрерывна. Для этого вспомним, что Fa (х) = Р (X < х - У0), где Ya и X независимы (это здесь неважно) и У0 имеет среднее 0 и дисперсию а2. Из неравенства Чебышева следует, что для любого данного е ^> 0 при всех достаточно малых значениях о Р (| Ya | > е) < е. В результате для этих а Р(Х<ж - Уа)< P (Х^х - У0, Уа>е) + Р(Уа<е)< < F (ж + е) + е и также Р (X < х - Ya) > Р (X < х - У„ | Уа | < е) > > Р (X < ж — t) - е = F (х - е) - е. Из этих двух оценок ясно, чго в точках непрерывности выполнено A4) Теорема доказана.
§ 14] ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 81 Задача G. Пусть р не есть точка непрерывности для F. Покажите, что предел в A0) по-прежнему существует, но F ф) слепа надо за- F (РЧ -4- F (Г) /т . менить на ^ • (Та же модификация, разумеется, применима и к а). Так как вероятностное распределение однозначно определяется своими значениями в точках непрерывности, то немедленно получаем Следствие 1. Две вероятностные меры на борелевских множествах прямой R1 с одинаковыми характеристическими функциями совпадают. Задача 7. Проверить с помощью характеристических функций, что сумма двух независимых нормальных случайных величин снова нормальна. Следствие 2. Если ф (X) — характеристическая функция меры \i и если у ЕЕ LL, то \i абсолютно непрерывна, а ее плотность задается интегралом / (я) = ^+$V"» Ф (Я) Л. A5) -оо Доказательство. Так как ф ЕЕ Lx, то можно воспользоваться теоремой о мажорируемой сходимости и перейти к пределу в формуле A0) под знаком интеграла: F(Р) - F(ос) = -JL ^ Ф (Ц е "_Га "" dk- A6) -оо Но функция / (х), определяемая соотношением A5), непрерывна, и из A6) очевидно, что $/(*)d* = F(P)-F(a). a Отсюда легко следует, что / {х) = F' (х) почти всюду. Задача 8 (распределение Коши). Покажите, что функция /h=ti4^- с>0- A7) есть плотность вероятностного распределения с характеристической функцией ф (Я) = ехр (— с \Х |). Как распределена величина (Хх + ... + Хп)!п, если Х\ независимы и имеют распределение Коши с одним и тем не параметром с?
g2 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 Наша последняя подготовительная задача состоит в доказательстве непрерывности соответствия между распределениями и характеристическими функциями. Из определения слабой сходимости, конечно, следует, что если [in =? [i, то Ц)п (X) -> ср (X) при всех действительных X. Более трудный (и более нужный) шаг — установить обратное. Если фп (X) -> ф (X) и дано, что предел — характеристическая функция, то можно попытаться для каждого фиксированного о перейти к пределу при п —>- оо под знаком интеграла A3). Существует, однако, другой подход, позволяющий получить более сильные и полезные результаты. Теорема 2. Пусть \хп — вероятностные распределения в R1 и фп — их характеристические функции. Предположим, что lim фп (X) = ф (X) существует, — оо <^ X <^ оо, A8) п-*<х> и что ф непрерывна в точке X = 0. Тогда найдется вероятностное распределение и,, для которого ф — характеристическая функция и \хп => \i. Доказательство. Из непрерывности ф (X) при X = 0 вытекает, что меры {\хп} образуют компактное семейство. Для того, чтобы убедиться в этом, докажем сначала следующий простой результат. Лемма. Пусть X — случайная величина с характеристической функцией г|). Тогда при любом и ^> 0 г* p(ixi>l-)<v5iil-a,'(X)ia- A9) -и Для проверки неравенства A9) заметим сначала, что правую часть можно переписать в виде L^ ^(\-e-^)dF(x)dl, -U -зо где F — функция распределения X. После перемены порядка интегрирования это выражение упрощается: 2]A-Щ<1Р(х)
* 14] ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ 83 (и, очевидно, вещественно). Так как подынтегральное выражение неотрицательно, то искомую оценку можно теперь получить следующим образом: -2/и JL^[l-^)]^>2 $ +2 5(l-^)^W> -и -оо 2/и >2\и + 2]{1-\щУрм>р{-1г)+[1-р&) Лемма доказана. Поскольку предельная функция ср непрерывна в О и ф @) = 1, то мы можем при любом данном е > 0 подобрать и так, чтобы и 0<i-$[l-q>(A,)]db<!. Но тогда по теореме об ограниченной сходимости получается, что при всех достаточно больших п и 4-$ И-Ф» (*)]<&< е. B0) Комбинируя A9) и B0), мы убеждаемся что последовательность мер {jLin} компактна, правда, интервал , — следует несколько расширить, чтобы учесть конечное множество мер, для которых неравенство B0) не выполнено. После этой операции соотношение A2.9) соблюдается без всяких оговорок. Теперь легко завершить доказательство теоремы 2. По теореме 12.3, семейство {\хп} содержит подпоследовательность, слабо сходящуюся к некоторому пределу jut. Отсюда следует, что характеристические функции членов этой подпоследовательности сходятся к характеристической функции меры |я (при любом А,), но, поскольку мы предположили A8), то предельная функция ф должна быть в действительности характеристической функцией для р Предположим теперь, что утверждение jxa =*> р.
84 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 не выполняется. Тогда для некоторой ограниченной непрерывной функции / \ fd\in "A \ fd\i. Выберем такую подпоследовательность, для которой ]fd\in' -> L =f= [jd\L. Тогда из этой последовательности можно извлечь подпоследовательность (вновь пользуясь теоремой 12.3), которая слабо сходится к некоторой мере v. Так как [jdv = I, ясно, что |ы =f= v. Однако из раесужде- ний, проведенных нами для jn, следует, что ф есть характеристическая функция и для меры v. Такая ситуация противоречит следствию 1 и поэтому невозможна, что и доказывает теорему. Задача 9. Пусть /, /х, /2, ..., /п, ... — характеристические функции распределений u, pi, ..., ц,п, ... Доказать, что если для любых а ^ Ъ ъ ь lim [ f (t)dt=[ f(t)dt, a a TO p7? =Ф \l. Задача 10. Показать, используя теорему 2, что (Sn — n/2)/Vn имеет нормальное предельное распределение, где SJ} = Хх-\- ... ...+ Хп, а Х\ — независимые случайные еслпчггы. кгждэя из которых имеет «равномерное распределение» с функцией распределения {0, если х ^ 0, х, е( ли 0 < х < 1, 1, если х^.1. Задача 11. Использовать теорему 2 для доказательства предельной теоремы Пуассона. Пусть для каждого данного /? Х^ — независимые случайные величины, и Х^ = 1 или 0 с вероятностями соответственно pW и 1 — р[п\ i = 1, ..., к (/?). к(п) Предположим, что У Лп) ->р., 0<|х<оо, и что max /^n)-^0 {±[ К*(п) при п -> оо. Тогда Х[п) + ... -f X^ имррт пуассоновское предельное распределение с параметром ри
§ 15] ЦЕНТРАЛЬНЫЕ ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 85 § 15. Центральные предельные теоремы Имея результат предыдущего раздела, можно очень легко доказать существенное обобщение теоремы Муавра— Лапласа. Теорема 1. Пусть Хх, Х2, ...— независимые случайные величины, имеющие одинаковое распределение со средним \i и дисперсией о2 (т2 <^ оо). Тогда А=±Ф0(х)*). A) Лемма. Пусть X — произвольная случайная величина с характеристической функцией ср. Если Е (| X \к) <^ оо для некоторого положительного целого к, то ф имеет непрерывную к-ю производную, и <р<*> @) = iHE (Xk). B) Доказательство. Пусть к = 1. Тогда, записав ф = ф (к) в виде A4.4), легко получим Г» р1^ _ 1 <р'(Ь) = Нт \ , e*xd\i(x), C) -оо в предположении, что предел существует. Дробь в под- интегральном выражении стремится к ix при h -> 0, так что перемена местами предельного перехода и интегрирования дает оо ф'(Ь) = i ^ enxxi\i(x). D) —оо Но так как 'V А I Zx (к — вещественное число), ihx _ а | х | (по предположению) dii-интегрируем, то эта перемена мест оправдана теоремой о мажорируемой сходимости, *) Обозначение «,Fn =» F» в применении к функциям распределения означает попросту слабую сходимость соответствующих мер, определенную в § 12 (или, что одно и то же, поточечную сходимость во всех точках непрерывности функции F).
86 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ Гл. 3 что и доказывает D). Если /с-й момент существует, то надо повторить те же рассуждения к раз Наконец, положив X — 0, получим B). Замечание. Хотя мы не будем сейчас это доказывать, будет полезно знать, что обратное утверждение — «существование ср^ @) влечет за собой существование Е (| X \к)» — верно для четного /с, но для нечетного может оказаться ложным (см. задачу 2 настоящего параграфа и задачу 4 из § 16). Задача 1. Докажите, что функция ф<о-( vr^' т<1' I о, |t|>i. — не характеристическая. (Указание. Воспользуйтесь предыдущим замечанием и тем, что степень характеристической функции— снова характеристическая функция.) Задача 2. Докажите, что характеристическая функция величины X с распределением Р (X = 2к) = Р (X = — 2к) = С/(кЧп к), к = 2, 3, ..., дифференцируема в нуле, хотя, очевидно, Е (X) не определено. (Указание. Заметив что оо 1 — Ф*(*) п ^l sin kt sin kt ^ „ ±— = С У • , разоеите сумму на две части: t *~* kt к In к Л=2 где N (t) = \ ______ Оцените первую сумму, L t ]Лп A/0 J л, что sin х ~~ х (при х-*0), а вторую — пользуясь 1 ~ \ (/V — оо).) кЧпк N In iM Если Хг, Х2, ..., Хп, ... — независимые одинаково распределенные случайные величины, и у'х@) = га, то последовательность (Хг -|- ... + Хп)/п сходится по вероятности к га. С учетом результата задачи 2 и TeovpeMbi 1 из § 8 мы получили пример последовательности величин, к которой применим обычный закон больших чисел, но не применим усиленный. Доказательство теоремы 1. Без огра- яичения общности можем считать, что |lx = 0, так как это в любом случае верно для величин Xt — п., частные суммы которых суть Sn — n\i. Если ф — характеристическая функция величины Хг-, то N(t) 2 /i=2 t оо + 2 ¦ JV(/)+l пользуясь тел тем оо что у! k=N Задача 3.
§ 157 ЦЕНТРАЛЬНЫЕ ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 87 (по свойству мультипликативности). Но с учетом леммы и того факта, что и. = 0, мы можем написать тейлоровское разложение <р(^) = 1-^1 + 0(Г). F) Отсюда при п -> оо *(тг)"-['-?¦+.?)]•-—• "> для любого фиксированного X. Правая часть в G) есть характеристическая функция распределения Фа (см. задачу 14.2), что вместе с E) и «теоремой о непрерывности» (теорема 14.2) доказывает A). Теория сумм независимых случайных величин может быть обобщена на многие абелевы группы, отличные от прямой. При этом гармонический анализ на группах играет ту же роль, которая в классическом случае принадлежит характеристическим функциям. Положение в значительной степени различно для компактных и некомпактных групп. Для первых из них положение во многом проще. В следующих трех задачах мы изучим один из простейших нетривиальных примеров: мультипликативную группу комплексных чисел, по модулю равных 1. Пусть Хг, Х2, Х3, . . .— независимые одинаково распределенные случайные величины со значениями в группе {eiG}. Они могут быть записаны как е2глУп, где Yn независимы и одинаково распределены па отрезке [0, 1]. Пусть [i — распределение величин Y\ и пусть Zn = = ХХ*Х2 • . . . -Хп. В качестве аналога характеристической функции введем коэффициенты Фурье меры \i: 1 Ф(А) = Je*tt*d|i(s)= E(Xfc). о Тогда члены «характеристической последовательности», для Zn есть не что иное, как п-е степени соответствующих членов «характеристической последовательности» для Xt. Задача 4. Докажите, что последовательность (ср (к)} однозначно определяет распределение и., если считать, что 0 и 1 отождествлены. (Иначе говоря, и, определена как мера на окружности.)
88 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 6 Так как мы работаем, по сути дела, на окружности, то 1 1 |хп =» н. означает, что \fd\xn->yd\i для любой непре- 0 О рывной /, такой, что / @) = / A). Задача 5 (теорема о непрерывности). Если un имеет «характеристическую функцию» фп и lim фп (к) = ф (к) существует при лю- бом /с, то \in =Ф jit, где мера \i имеет характеристическую функцию ф. Задача 6. Показать, используя теорему о непрерывности, что «вообще» распределения величин Zn слабо сходятся к равномерному распределению на окружности (соответствующему мере Лебега на [0, 1]). Найти условие на и., необходимое и достаточное для этой сходимости, и интерпретировать его в теоретико-групповых терминах. Проблема нормальной сходимости, которой посвящена теорема 1, имеет много ответвлений, и по этому вопросу существует огромная литература Вероятно, одна из самых естественных задач — как обобщается наша теорема, если отбросить предположение об одинаковом распределении случайных величин. Очень мощный результате этом направлении принадлежит Линдебергу A922 г.). Теорема 2. Пусть {Xti} — независимые случайные величины со средним 0 и дисперсиями {о"ц} Положим Bfx — п = ZjgI = D (Sn). Если для всех г > 0 fc=i п »— Вп *=! |х| J,B = 0, (8) то распределения величин (Х} + . . . + Хп)/Вп слабо сходятся к нормальному распределению (с \х = 0, а2 = 1). Замечания. В предположениях теоремы 1, т. е. в случае, когда величины Хк одинаково распределены, условие Линдеберга (8) сводится к тому, что J s2d|i->0. Это условие, очевидно, выполнено, поскольку второй момент конечен. Если распределения различны, но о\
15] ЦЕНТРАЛЬНЫЕ ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 89 отграничены от 0, то ясно, что равномерная интегрируемость Xl достаточна для (8). В. Феллер показал A937 г.), что условие (8) в некотором смысле и необходимо: если Вгп = D EП), распределения величин Sn/Bn стремятся к нормальному (с а2 = 1), и если max a/t/Z?n-> О, т. е. выполнено условие «пренебрежимой малости» каждого слагаемого, то (8) необходимо выполняется Задача 7. Покажите, что если при любом б > 0 *) п ? то условие Линдеберга выполнено. Доказательство теоремы 2. Мы будем рассматривать специальный случай, когда все случайные величины имеют дисперсию 1, оставляя читателю почти тривиальное распространение результатов на неравные дисперсии. В нашем случае, в силу теоремы непрерывности из предыдущего параграфа, для доказательства достаточно показать, что при любом действительном А, lim Е (exp \ik -^=-1) = е-*<\ (9) Используя свойство мультипликативности A4.5), сразу получаем ¦""•. (тс) -1 *'. (тг). <10) где фк — характеристическая функция величины Хк. Воспользуемся тем, что при X, близких к нулю, log A + х) = х-\ 0(\х |2). Роль х у нас будет играть функция срЛ —7ZT )— 1, поэтому мы должны оценить ее сверху. \ V п 1 *) В отечественно!! ттературе условие *) называют обычно условием Ляпунова.
ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 При любом к имеем оо 9,(^-1= ^(e>.^--l)dhi.= — 00 -с» В записи последнего выражения мы использовали то обстоятельство, что средние равны 0. Но при действительных а |eia_l _;a|<^^L (И) (это очевидно из формулы Тейлора), так что окончательно получаем оо '.(тг)-*И-?*.-?- <12> -оо Учитывая A2), имеем при каждом X причем остаточный член действует равномерно по к. Следующий шаг состоит в оценке интеграла Чтг)-|+?-Й'а*,'г-1-7г+¦?)*•¦ -оо A4) Снова из формулы Тейлора получается, что при всех действительных а l^-l-ia + i^-LJ]- A5) и эта оценка хорошо действует при малых а. Перейдя в соотношении A4) к абсолютным величинам, выберем е ^> О и разобьем область интегрирования на две части: | х | ^ ^ г \Гп и | х | > ь'Уп. На первом множестве подынте-
$ 151 ЦЕНТРАЛЬНЫЕ ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 91 гральное выражение оценивается по неравенству A5), на втором мы воспользуемся A1) В результате i ^31 Если заменить один из множителей х его максимальным возможным значением, то видно, что первый член в A6) не превосходит | ?l 3 | е/6/г. Комбинируя эту модификацию неравенства A6) и формулу A3), находим, что |*|>е/п A7) Теперь настало время просуммировать по к от 1 до п, как это и нужно в A0), и оценить ошибку: -ч^К 2 < *=1 \x\>zVn Допустим теперь, что задано некоторое б ^> 0, выберем е так, чтобы первый член справа не превосходил б. Тогда при всех достаточно больших п вся правая часть оценивается сверху через 26. (Мы воспользовались, наконец- то, ключевой гипотезой (8)). Теперь ясно, что мы доказали формулу (9), из которой и следует теорема. Задача 8. Покажите, что из условия (8) следует, что Вп -> оо и max a?/#? -» 0. к <п Задача 9. Выяснить, какие изменения надо ввести в вышеприведенное доказательство, чтобы доказать теорему 2 в общем случае. Не вдаваясь в подробности, упомянем некоторые из многочисленных добавочных результатов, сопровожда ющих центральную предельную теорему. Для практических применений почти любой предельной теоремы важно
92 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 знать скорость сходимости. Такую информацию дает следующая теорема, принадлежащая Крамеру, Берри и Эссеену. Теорема. Пусть Хх, Х2« ••• независимы и имеют одинаковое распределение со средним О, дисперсией о2 и конечным третьим моментом. Тогда существует такая абсолютная постоянная С. что*) \Р{Т7<Х)-ФЛХ)\<?Щ^^ -оо<*< =0.A9) При различных дополнительных условиях можно получить более точные результаты. В частности, если имеются моменты высших порядков, то разность между допредельным и предельным распределениями имеет асимптотическое разложение, в котором 1-й член зависит от гпх, ..., 7П/+2 п имеет порядок п~12. Основная идея такого разложения восходит к Чебышеву (см [ГК], где этот вопрос детально обсужден). Задача 10. Показать, что оценку в A9), вообще говоря, нельзя тченить никакой оценкой меньшего, чем \/У п, порядка. (У к а- з а н и е. Рассмотреть случай Бернулли.) Другая модификация центральной предельной теоремы (сокращенно ц.п.т.) состоит в рассмотрении сходимости плотностей величин SjYn (если эти плотности существуют) к плотности распределения Фа. Существование плотности не вытекает из существования плотностей для Xt даже в случае одинакового распределения, однако верен следующий результат. Теорема. Если Х1? Х2, ••• независимы и имеют общее распределение |ы со средним 0 и дисперсией о2 и если \х имеет ограниченную плотность, то lim sup 14- Р (-??=• < s\ Д=г- e-^ *) Хотя наименьшее значение постоянной С, подходящее для всех распределений, неизвестно, однако она, во всяком случае, меньше 3. (В. М. Золотарев показал, что С < 0,82. См. его работу «Некоторые неравенства теории вероятностей и их применения к уточнению теоремы А. М. Ляпунова», ДАН СССР 177, № 3, 1967 г.; прим. ред.) = 0. B0)
§ 16J СИММЕТРИЧЕСКИЕ УСТОЙЧИВЫЕ ЗАКОНЫ 93 Наконец, упомянем о «локальной предельной теореме» для «точечных распределений». Если область значений Xt есть (п.н.) подмножество в множестве целых чисел, то это же верно для Sn. и хочется иметь возможность оценить вероятность, с которой Sfl принимает то или иное значение. (Собственно, это тот путь, на котором в первый раз была доказана теорема Муавра — Лапласа.) В этом случае характеристическая функция сводится к ряду Фурье, и найти искомые вероятности — это значит оценить один из коэффициентов ряда. Общая теорема по этому поводу была доказана Гнеденко и прекрасно изложена в его книге [Г]. Здесь (а также в результатах отыо сительно плотностей) опять при более сильных ограниче ниях имеются точные оценки ошибки и ее асимптотиче ские разложения, которые играют большую роль во мно гих специальных приложениях предельных теорем. § 16. Симметрические устойчивые законы В 1920 г. Хольцмарк поставил и решил следующую задачу. Электрически заряженные частицы равномерно распределены в пространстве. Спрашивается, каково распределение результирующего электрического ноля в фиксированной точке? В 1940 г. Чандрасекар изучил аналогичную задачу, относящуюся к результирующему гравитационному полю случайно распределенных звезд. Сейчас мы опишем упрощенную одномерную модель в стиле этих исследований. Предположим, что п «звезд» расположены на отрезке [—п, п) вещественной оси. Их положения независимы и равномерно распределены в интервале. Масса каждой звезды равна т ^> 0, гравитационную постоянную будем считать равной 1. Сила, приложенная к единичной массе, помещенной в начале координат («сила» поля), будет тогда равна где Xt —координата i-й звезды. Мы покажем, что распределения случайных величин Fn имеют слабый предел при п ->- оо.
94 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИИ 1Гл. 3 Вычислим характеристическую функцию для Fa. Замечая, во-первых, что случайные величины X, равномерно распределены, мы имеем 1 -/I --И«»(-?К <2> В силу независимости, характеристическая функция Fn равна п-й степени этого выражения. После ряда несложных преобразований нетрудно перейти к пределу: Е(ехр[й^п|) -{• с оо Ш1- 1 COS km )W dx\ = rfl + ol — (?) > exp (- J [l - cos (-^-j] dx\. После соответствующей замены переменной в последнем интеграле получаем, что lim E (ехр Шп\) = exp (-C | к I1-), С > О C) Так как правая часть непрерывна, то по теореме 14.2 она представляет характеристическую функцию некоторого распределения, к которому слабо сходятся распределения Fn при п -> оо. Саму функцию распределения нельзя выразить в элементарных терминах, хотя о ее свойствах известно довольно много. Задача 1. Предположим, что притяжение но закону обратных квадратов в A) заменено «притяжением» по закону обратных р — х степеней. Покажите что при 0 < р~~л < 2 формула C) заменится выражением lim ? (exp [ikFn\) = ехр (— С | к П —*¦ оо IP- '), С>0. D)
^ 16J СИММЕТРИЧЕСКИЕ УСТОЙЧИВЫЕ ЗАКОНЫ 95 Распределения, характеристические функции которых даются правой частью формулы D), называются устойчивыми законами *), параметр 1/р — индексом закона. При р = 1 получается распределение Коши. Случай индекса, равного 2,—нормальный закон — также включается, хотя он и не возникает описанным выше образом. Вообще, распределение называется устойчивым, если оно не сосредоточено в одной точке и обладает следующим свойством. Пусть Хг и Х2 — независимые случайные величины с данным распределением и а1ч а2 — некоторые положительные постоянные. Тогда найдутся константы а ^> 0 и Р (зависягцие от аг и а2), такие, что случайная величина ^B=i(fllX1 + fl>Xi-p) E) имеет опять-таки рассматриваемое распределение. Эту формулировку можно перефразировать, сказав, что устойчивые законы репродуцируют себя при свертках с точностью до линейной замены переменных. Если ф (%) — характеристическая функция X, то свойство устойчивости означает, что Ф (%Х) ф (a2'k) — eiX3 ф (аХ), F) а в силу теоремы единственности формулы E) и F) в действительности эквивалентны. Легко проверяется, что «устойчивые» характеристические функции из предыдущей задачи обладают свойством F), так что наша терминология состоятельна. Как мы увидим в следующем параграфе, между классом устойчивых законов и предельными теоремами для сумм независимых случайных величин существует теснейшая связь. Однако, прежде чем переходить к этой теме, мы попытаемся составить лучшее представление о том, насколько широк исследуемый класс. Заметим, что из самой конструкции устойчивых распределений, найденных нами ранее, очевидна их симметричность относительно 0. Мы покажем, что других распределений с этим свойством не существует. *) Термины «закон» и «распределение» — синонимы,
96 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ «Гл. 3 Теорема 1. Если ср (X) — характеристическая функция устойчивого распределения, симметричного относительно начала координат, то найдутся числа с>0«а?[0, 2], такие, что ф (X) = е~с1 * 1а G) Вначале не мешает пояснить роль симметрии. Лемма 1. Характеристическая функция вещественна тогда и только тогда, когда соответствующее распределение симметрично относительно 0. Доказательство. По определению оо оо ф(^)= ^ costardii+i ^sin^dji; (8) -оо -оо так как sin Хх — нечетная функция, то очевидно, что из симметричности распределения \i вытекает вещественность ф. Для доказательства обратного утверждения заметим, что Ф_д.(Я.) = Е(е-^)=ф7(Я5. (9) Поэтому, если функция фд принимает только действительные значения, то величины X и — X имеют общую характеристическую функцию, а значит, по теореме единственности,— и общее распределение. Последнее эквивалентно симметрии. Доказательство теоремы 1. Пусть ф (X) — характеристическая функция устойчивого закона, симметричного относительно начала. Мы покажем сначала, что равенство ф (X) = 0 не выполняется ни для какого действительного X. В самом деле, предположим противное. Так как функция ф — вещественная, четная и непрерывная, то сущестует наименьшее положительное Х0, такое, что ср (Х0) = 0. Но в силу F) при некотором положительном d ф2 (X) = ф (dX). A0) Если d = 1 при всех X, то либо ф (X) = 1, либо ф (X) = 0. По непрерывности возможен только первый случай (р (X) — 1. а это противоречит нашим предположениям. При d <М подстановка X = Х0 в формулу A0) показы-
§ 16J СИММЕТРИЧЕСКИЕ УСТОЙЧИВЫЕ ЗАКОНЫ 97 вает, что Х0 — это не наименьший положительный нуль. При d ^> 1 к тому же выводу мы приходим после подстановки X = X0Jd. Итак, функция ср нигде не обращается в 0. Более того, как видно из соотношения A0). ф(^)>0 при всех X. Теперь мы имеем право, не опасаясь неясностей, ввести функцию г|з A) = log ф (X). Легко видеть, что условие устойчивости F) переходит при этом в следующее утверждение: для любых положительных ах и а2 найдется положительная постоянная /(fli,a2)» такая' что * М) + ф (а2Х) = г|) (/ {а^а2) X). (И) Наша задача — найти все непрерывные решения этого функционального уравнения. Нам понадобится следующая Лемма 2. Если г|) (аХ) = г|) (ЬХ) при всех X, а > b ^> 0, то а = Ь. Доказательство. Предположим, что a =f= b. Ясно, 4toiJ? E) = ^ ((&/#)?) при всех значениях ?. Итерируя это соотношение, находим г)) (Н) = г|) ((Ь/а)пЪ). Если теперь устремить гс к бесконечности и воспользоваться непрерывностью, то мы придем к вырожденному случаю "ф = 0. Итак, необходимо а = Ь. Возвращаясь к решению уравнения A), определим на множестве целых положительных чисел функцию g ^> 0 так, чтобы пЦ(Х) =$(g(n)X) A2) при всех X. Для нахождения этой функции начнем с того, что g(l) = 1, и применим индукцию т|, (X) = ф (X) + (п - 4) г|> (X) = г|> (X) + ф (g (п - 1) М- Используя A1), мы можем считать, что g (д) = = /(!> ?(л—1)). (Мы учли, что по лемме 2 функция g однозначно определяется соотношением A2).) Из A2) легко следует, что ^ (g (пт) X) = nmty(X) = nMg (т) X) = \|>(g(/i) ?(m) Я), и еще одна ссылка на лемму 2 показывает, что g (тп) = g(m) g (n). A3) 4 Дж. Ламперти
98 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 Положим g {pfq) = g (p)/g (q), где р и q — целые положительные числа. По формуле A3) тем самым задана (и корректно определена) мультипликативная функция на множестве положительных рациональных чисел. Нетрудно проверить, что соотношение A2) теперь выполняется не только для целых, но и для рациональных чисел; детали мы оставляем читателю. Предположим, наконец, что последовательность рациональных чисел гп стремится к х ^> 0, и покажем, что существует lim g (rn). Ясно, что lim \|> (g (rn) X) = lim tv|) (X) = жф (X). A4) Отсюда следует, что последовательность g (rn) не может иметь 0 в качестве предельной точки, так как в противном случае правая часть формулы A4) была бы тождественно равна 'ф @) = 0. Таким же образом, работая с числами rf, можно убедиться, что никакая подпоследовательность g (rn) не стремится к оо. Следовательно, последовательность g (rn) ограничена и имеет по крайней мере одну предельную точку. Но их не может быть две, скажем, и и v, так как из формулы A4) получилось бы i|) (и X) = а|) (vX), что снова противоречит лемме 2. Итак, lim g (rn) существует. Обозначим его через g (x). Этот предел не зависит от выбора конкретной последовательности рациональных чисел гп -> х, так как любые две такие последовательности можно «переплести» и результирующая последовательность должна иметь тот же предел х. Теперь уже нетрудно проверить, что при всех положительных хну g (*У) = g(x) S (*/), A5) что формула A2) справедлива, если вместо п поставить произвольное положительное х, и что, наконец, функция g непрерывна на @, оо). Задача 2. Сделайте необходимые выкладки для проверки последних утверждений. Задача 3. Покажите, что общее непрерывное решение функционального уравнения A5) имеет вид g (х) = г?, р — постоянная. (Близкие вещи можно найти, например, у Куранта: «Дифференциальное исчисление», том 1).
j 16] СИММЕТРИЧЕСКИЕ УСТОЙЧИВЫЕ ЗАКОНЫ 99 Вернемся к соотношению A2), вооруженные тем фактом, что g (х) = хр. Подставим в него х11р вместо п и 1 вместо к. Тогда при х > О г|) (х) = я|> A) ж1'р. A6) Мы знаем, что ф, а значит, и if — четные функции. Поэтому общий вид устойчивых характеристических функций G) установлен с а = l/р и с = —-ф A). Условие с > О немедленно получается из того, что г|) (Я) ограничена и не равна 1 тождественно, a a =f= О — по тем же самым причинам. Непрерывность в 0 и равенство ф @) = 1 очевидным образом исключают возможность а <^ 0. Осталось показать, что а <^ 2. Тогда теорема будет полностью доказана. Последний шаг делается следующим образом. Если а ^> 2, то, очевидно, ф" @) = 0. Мы уже отмечали (без доказательства), что из конечности ф" @) следует конечность второго момента; в нашем случае этот момент должен равняться нулю. Но это снова означает, что закон вырожден, а характеристическая функция единичной массы, сосредоточенной в 0, отнюдь не задается формулой G). Таким образом, мы заключаем, что при а ]> 2 выражение G) вообще не задает характеристическую функцию. Зацача 4. Покажтге, что из существования <р" @) следует косо нечность J x4F. (У к а з а н и е. Так как функция ф вещественна, — оо то можно записать -ф"@) ,. С 1 - coshx 2 = }™ ) ft! dF&- — ОО Далее примените лемму Фату.) Замечание. Общий вид устойчивых характеристических функций можно установить аналогично, но мы этого не делаем. Грубо говоря, появляются два новых параметра, один из которых характеризует «асимметрию» закона, а другой возникает просто из-за сдвигов. Полное изложение, основанное, правда, на другом подходе, читатель может найти в книгах [ГК] или [Ф2]. Наш метод напоминает тот, которым пользовался Поль Леви, один из ро доначалышков этой теории. 4*
100 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 § 17. Устойчивые законы и предельные теоремы Вопрос, на который отвечают центральные предельные теоремы,— при каких условиях суммы независимых случайных величин имеют нормальное предельное распределение — это очень старый вопрос. Однако многие задачи, близко с этой связанные, возникли лишь относительно недавно. Одну из первых таких задач можно поставить следующим образом: если частные суммы последовательности независимых одинаково распределенных случайных величин после соответствующей нормировки имеют какое-то предельное распределение, то каким этот предел может быть? Эту задачу поставил и решил Поль Леви в начале 1930-х годов. Этот результат и его обобщения неизмеримо обогатили теорию вероятностей. Главная цель настоящего раздела состоит в доказательстве следующего факта. Теорема 1 (Леви). Пусть Хх, Х2, ... — независимые случайные величины с одинаковым распределением, и пусть существуют такие постоянные Ьп^> 0 и ап, что р/ Хг+Хъ+^ + Хп-Ъ <x^f{x) A) для некоторой функции распределения F, не представляющей собой вырожденный закон *). Тогда F — устойчивое распределение. Хотя идея доказательства совсем проста, однако для строгого ее проведения понадобятся некоторые вспомогательные результаты, многие из которых представляют самостоятельный интерес и, как мы сейчас увидим, помогают понять суть дела. Первое, что мы установим — это непрерывность операции свертки относительно слабой сходимости. Лемма 1. Пусть Fn, F, Gn и G — вероятностные функции распределения, и пусть Fn*=$ F и Gn=4> G. Пусть «*» означает операцию свертки. Тогда Fn*Gn=$F *G. B) Доказательство. Пусть фп, ф, г|)п, г|) — характеристические функции распределений Fn, F, Gn, G *) Т. с. распределение, сосредоточенное в одной точке.
§ 17] УСТОЙЧИВЫЕ ЗАКОНЫ И ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ ДО1 соответственно. По определению слабой сходимости Фп(*)-*Ф(Ь) и яЫЬ)->гМЬ) для всех X. Поэтому Фп(Ч*пИ->фМ*№). C) Но фп'Фп (соответственно ф\))) есть характеристическая функция для Fn * Gn (соответственно F * G), поэтому, ввиду теоремы о непрерывности (§ 14), искомая сходимость B) следует из C). Лемма 2. Пусть Fn и Gn — вероятностные функции распределения, ап и Ъп — постоянные, причем Ъп ^> О, и пусть Fn (bnx + an)^G (x). D) Предположим, что ап и |3П — такие постоянные, что lim I2- = 1, lim -^4=^- = о, E) Тогда имеет место также сходимость Fn($nx + an)^G(x). F) Задача 1. Доказать эту лемму, используя при этом то, что и D), п F) эквивалентны поточечной сходимости в каждой точке х, в которой G непрерывна. Мы будем говорить, что две функции распределения F и G одного и того же типа, если найдутся такие постоянные а, Ъ (Ь^>0), что F(bx+ a) = G (x) G) для всех х. Легко видеть, что G) задает отношение эквивалентности. Употребляя новую терминологию, можно перефразировать определение устойчивого закона: F устойчива, если свертка двух распределений того же типа, что F, дает опять распределение такого же типа. Отсюда следует, что устойчивость — это такое свойство, которым обладают либо все распределения данного типа, либо ни одно из них. Задача 2. Проверить, что только что данная характеристика устойчивых распределений эквивалентна тон, которая приведена в предыдущем разделе.
102 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 Ясно, что если A) выполнено для некоторого распределения F, то все распределения этого типа могут также быть получены выбором других констант Ъп и ап. Задача 3. Доказать последнее утверждение и выписать явно новые постоянные. Следующая лемма устанавливает обратный факт. Так же, как и лемма 2, она не имеет дела непосредственно с суммами случайных величин и поэтому применима, например, к вопросу о предельных законах для максимума, затронутых раньше в § 13. Лемма 3. Предположим, что Fn, G и Н — вероятностные функции распределения и что Fn^G (х) и Fn (bnx + an) =Ф Н (я), (8) где Ъп ^> 0 и а — постоянные. Пусть также G и Н невырождены. Тогда G и Н — одинакового типа. Доказательство. Покажем сначала, что {Ьп} содержит подпоследовательность, стремящуюся к конечному положительному пределу Ъ. Если это не так, то существует подпоследовательность Ьп>, для которой либо Ъп> ->- 0, либо Ъп> ->- оо. Предположим сначала, что ап = = 0. Тогда в случае Ьп* -> 0 из того, что Fn =ф G, легко следует, что G@+), если я>0, если х<^0. Но это невозможно, поскольку предел не есть вероятностное распределение, раз G невырождена. Аналогично, если Ъп> -> + оо, то 1, *>0, *<0, т. е. Н сама вырождена. Следовательно, существует Ъп. -> Ъ. Чтобы избавиться от условия ап = 0, применим технический прием, весьма близкий к тому, который использовался в теореме о трех рядах (§ 9). Если F — распределение случайной величины X, то F^ (распределение величины — X) есть по сути дела *) 1 — F (—х). Ясно, что *) Это верно в точках непрерывности функции F, так как 1 — F (— х) равно Р (— X < а?), а не Р (— X < я), в силу определения функции распределения. Г G @ +), Н (х) = Шп Fn. (bn>x) = | G Q невозможно, поскольку пред спределение, раз G невырож - + оо, то H(z)=limFn.(bn.x)={'
I 17] УСТОЙЧИВЫЕ ЗАКОНЫ И ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ ЮЗ Fn=? G влечет за собой F^ ==> 6?<-\ и поэтому в силу леммы 1 имеем также Fn * F? =ф G * GH п ^п (М + ап) * ^ Fns + ап) =» Я * Яи. Однако легко видеть, что Fn {Ьпх + ап) * ^(п_) (Ьпх + ап) = ^п (Ьпж) * ^ (Ьпж), так как ап представляют собой сдвиги, которые производятся в обоих направлениях и поэтому уничтожаются. В силу этого законы Fn * Fn удовлетворяют предположениям леммы без сдвигов ап, имеющихся в (8), и с теми же Ьп. Из первого абзаца нашего доказательства теперь следует, что подпоследовательность 6П" стремится к fo>0. Обращаясь ко второй части равенства (8), в которой значения п ограничены подпоследовательностью п (Ъп> -> Ъ ^> 0), мы убеждаемся, что ап не могут стремиться к + °° или — оо, если только распределение Н не вырождено. Поэтому можно выбрать подпоследовательность п', для которой как Ъп» -> Ъ ЕЕ @, оо), так иап»->а?(-оо, оо). Из второй части соотношения (8) мы заключаем, что Fn>. {Ъх + a)=±G(bx+ a) и одновременно Fn" (Ъп»х + ап») =» Н (х). По лемме 2 Я (х) = G (Ъх + а), а это и утверждалось в лемме 3. Следующий результат завершает общие приготовления; мы докажем еще одну лемму, но она служит единственно для доказательства теоремы 1. Лемма 4. В условиях теоремы 1 Ъп ->- оо а limsup bn+Jbn = 1.
104 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл, * Доказательство. Нетрудно опять применить «симметризационный трюк» и свести общий случай к случаю, когда ап == 0, а случайные величины Xt имеют симметрическое относительно 0 распределение (а значит, и вещественную характеристическую функцию) Мы будем считать эту редукцию проведенной, оставляя детали читателю. Пусть ф (X) — характеристическая функция случайных величин Xt (общая для всех них), а ф (X) — характеристическая функция предельного закона F. В силу нашей редукции утверждение A) эквивалентно равенству lim Е (ехр liX-1-^'b' + *n]] = lim <p Ш" = ф (X) (9) при всех действительных X. Ясно, что для получения непрерывного предела необходимо, чтобы г|э (Х/Ьп) -> 1. Последнее условие автоматически выполняется, если fon->oo, в противном же случае получается, что ср (X) = 1. Но это соответствует вырожденному случаю Xt = 0 п. н., который был исключен. Первая часть утверждения леммы доказана. Чтобы получить и вторую, предположим, что найдется последовательность п , такая, что при некотором г > 0 bn'+i/bn' > ! + «. Так как Ьп -> оо, то при любых х ^> 0 и б ^> 0 выполняется неравенство Р(И±>»)<в, если только п (и п) достаточно велико. Используя этот факт, мы получаем, что в точках непрерывности F{x)= lim p(i?±L<s) = >limP(^<^(l + B)-4:±L)> >и«р(?«:''<'+«>-тг)-»-'(* + т)-«-
? 17] УСТОЙЧИВЫЕ ЗАКОНЫ И ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ Ю5 Но так как б произвольна, а функция F не убывает, то F(x) = F\x+^Y Это означает, что F постоянна на @, оо). Подобные же аргументы показывают, что F постоянна на интервале (— оо, 0) и, стало быть, она вырождена. Это противоречие и доказывает лемму. (Между прочим, можно без особого труда доказать, что существует lim (bn+Jbn) = 1, но для наших нужд хватит и более слабого результата леммы 4.) Наконец-то все готово для доказательства теоремы 1. Пусть ах и а2 — два положительных числа. Мы должны доказать, что "&)*"№-"№) <10> при некоторых Р и а3 > 0. Предположим, что а1 > а2, и пусть т (п) — такая целозначная функция, что 11тЬщ±=*1_ A1) п-оо Ьп аз Здесь {Ьп} — последовательность, фигурирующая в A), а возможность выбора функции т (гг), для которой выполнено A1), следует из леммы 4. Запишем два специальных частных случая равенства A): р(°-— -tJr"°""'<*)->'(?)• A2) р(о, *+¦•¦+*--- <s)->ffc), A3) В силу A1), ajbnfo) — a2/bn и, применяя лемму B), видим, что A2) можно переписать так: Теперь мы можем свернуть распределения в A3) и A4). По лемме 1 результирующие распределения сходятся к F {х/аг) * F (xja2). Но свертка эквивалентна сложению
106 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 независимых переменных, так что из этого факта следует, что р(з, *'+- + *¦¦<¦»—-м + A5) Но левая часть совпадает с распределением Р 7Г-(^1+ • • • + ^m(n)+n— ат{п) —ап) <#) , имеющим тот же тип, что и распределение величины {Sm(n)+n — am(n)+n)bm(n)+n. Это распределение в силу A) слабо сходится к F, и по лемме 3 левая часть в A5) (имеющая невырожденный предел) должна стремиться к закону того же типа, что и F. Из единственности слабого предела следует A0). Теорема доказана. Замечание. Мы показали, что любой предел в A) обязан быть устойчивым; возможны ли дальнейшие ограничения? Ответ отрицательный, и это легко доказать. Задача 4. Если F — произвольный устойчивый закон и Х\ имеют распределение F, то при подходящем выборе констант имеет место A). Только что доказанная теорема разрешает одну задачу, но тут же ставит другую: при каких условиях на общее распределение величин Xi найдутся такие постоянные, пто A) справедливо? Если это так, мы говорим, что Xi чрипадлежат области притяжения устойчивого закона F или что Х{ притягиваются к F. Например, согласно теореме 15.1, любое распределение с конечной дисперсией притягивается к нормальному закону. Известен полный ответ на этот вопрос (см. [ГК]), но мы ограничимся лишь примером. Задача 5. Пусть G — функция распределения меры, симметричной относительно 0, и пусть ср — соответствующая характеристическая функция. Предположим, что lim х [1 — G (х)] = с > 0. A6) Докажите, что ф (X) = 1 — ел | X | + о (X) при X -» 0.
§ 18] БЕЗГРАНИЧНО ДЕЛИМЫЕ ЗАКОНЫ 107 оо 1 — ф (X) С 1 — cos Xx (Указание. Запишите ^Т = \ \ dG (х) и о разбейте интеграл на такие части, каждую из которых можно оценить.) Задача 6. Покажите, что распределение G в задаче 5 принадлежит области притяжения распределения Коши (см. задачу 14.6). В заключение отметим, что A6) очень близко к необходимому и достаточному условию принадлежности симметричного закона к области притяжения закона Коши. Точное условие состоит в следующем: 1 _ G (х) = x*L (х), A7) где L есть медленно меняющаяся функция в смысле Ка- рамата. Это значит, что для любой постоянной s ^> 0 ,. L (sx) л hm Д / = 1. 2С-»оо L(X) Этот класс функций играет важную роль в дальнейшем исследовании притяжения и во многих других областях теории вероятностей. § 18. Безгранично делимые законы Раз возникнув, освобождающие идеи Леви в «центральной предельной проблеме» не могли не привести с неизбежностью к постановке и разрешению еще более общих вопросов. Кроме того, в сферу наших рассмотрений еще не попала одна очень известная предельная теорема — теорема Пуассона. Наиболее очевидное обобщение результатов предыдущего параграфа — это вопрос о классе предельных распределений в A7.1) для случая, когда величины Х{ уже не обязательно одинаково распределены. Прежде чем точно поставить задачу, нужно отметить одно обстоятельство: если мы не позаботимся о том, чтобы в некотором вероятностном смысле величина Xn+i была бы мала по сравнению с суммой Sn,— может получиться почти что угодно. Если же наложены условия, исключающие подобные эффекты, то задача становится хорошо поставленной и может быть решена. Класс пределов (называемых L-распределениями) гораздо шире, чем класс устойчивых законов, но и он еще не включает распределения Пуассона.
108 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 Как оказалось, удобно продолжить процесс обобщении еще дальше. Вместо того, чтобы рассматривать члены одной последовательности, рассмотрим (как это и было в начале § 16) «треугольную» таблицу случайных величин Х[п\ п = 1, 2, . . .; i = 1, 2, . . ., N (п). При каждом п Х\ предполагаются независимыми. Предположим временно, что они и одинаково распределены. Возникает следующий вопрос: если N (п) ->- оо и P(XiB)+---+XJ&> <*)-**¦(*), A) то что же можно сказать о распределении F1 (Вопрос о последовательных частных суммах ряда независимых одинаково распределенных случайных величин содержится в этой схеме, так как можно положить N (п) = п и Х[п) = (х* - ^] Ъ-\ где Хп, ап и Ьп-те же, что и в § 17.) Сформулированная задача включает и теорему Пуассона: если мы возьмем N (п) = п, а Х[п) = 1 или 0 с вероятностями [л/и, 1 — (л//г, то соотношение A) выполнено, причем F — закон Пуассона с параметром \i. Легко видеть, что этот закон не является устойчивым. Распределение F называется безгранично делимым, если при любом к можно получить F как свертку некоторого распределения Gk с самим собой к раз. Это эквивалентно утверждению, что характеристическая функция для F есть к-я степень какой-то другой характеристической функции. Если, к примеру, F — распределение Пуассона, то Ф (X) = \ eiXxdF (х) = e-v- ^ ^— = exp (fieiX — ц), B) -оо 71—Э и выражение справа в самом деле является к-й степенью пуассоновской характеристической функции с параметром \х/к вместо |i. Задача 1. Покажите, что каждый устойчивый закон безгранично делим. Задача 2. Докажите, что если F — безгранично делимое распределение, то и все однотипные с F распределения обладают этим свойством.
§ 18l БЕЗГРАНИЧНО ДЕЛИМЫЕ ЗАКОНЫ 109 Задача 3. Докажите, что показательное распределение Г \-е-аху *>0, F(x)=\ ^ C) где а > 0, безгранично делимо, и найдите для него корень «А:-й степени». Устойчиво ли оно? Первым делом мы хотим показать в этом разделе, что безгранично делимые законы и есть в точности те. которые могут получиться при описанном выше предельном переходе. Мы докажем это при небольшом упроща ющем предположении. Теорема 1. Пусть A) выполнено, причем N (п) = /г, а Х\п) при каждом п независимы и имеют одинаковое распределение. Тогда F безгранично делим. Доказательство. Мы покажем, что из F можно «извлечь корень /с-й степени» (в смысле свертки). ^Рассмотрим последовательность п = тк, и пусть Y\m) = *=х№м+... + х№). Тогда где У|т) независимы и одинаково распределены (при любом т), и поэтому, если P(Y[m)^x)=*Gk(x) для некоторой последовательности индексов т, то из леммы 1 последнего раздела следует, что F есть к-я свертка распределения Gk с самим собой. Следовательно, для доказательства теоремы достаточно показать, что распределения величин Yi образуют компактное семейство (см. теорему 12.3). Предположим противное, т. е. пусть для некоторого б)>0и любого М найдется такая последовательность т , что Р(|УГ' |>М)>е. Ясно, что в {т'} найдется такая последовательность т\ что р(у(Г")>м)>-|- или р(уГ)<-^)>|
НО ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 ] I ! для всех ее членов. Если имеет место первый случай, то р(УГЧ--- + Пт",>А-м)>(|)\ так что F (кМ) < 1 — (г/2)к в силу A). Аналогично, во втором случае F (—кМ) > (&/2)к- Так как для каждого М выполняется хотя бы одно из этих двух неравенств (с одним и тем же е), то F не может быть функцией распределения). Это противоречие доказывает компактность семейства У!т), а тем самым и утверждение теоремы. Замечание. Обратное утверждение (любое безгранично делимое распределение F может фигурировать в A) при N (п) = п) — немедленно следует из определения безгранично делимого закона. Теперь перед нами естественно возникают две задачи: во-первых, что представляют из себя безгранично делимые законы и, во-вторых, при каких условиях для данного безгранично делимого закона выполнено A). В наши цели входит лишь частичный ответ на первый вопрос;* исчерпывающее изложение можно найти в [ГК]. Следует отметить, что класс безгранично делимых законов, как оказалось, содержит все пределы, которые могут появиться в A), даже если переменные в каждой строке не имеют одинаковое распределение. (Тогда надо предполагать, что они в некотором смысле малы.) В частности, все //-распределения безгранично делимы. Результаты в этой области отличаются своей общностью и полнотой. Пример. Пусть Х1ч Х2, . . . независимы и каждая из них имеет характеристическую функцию ср (К) и пусть случайная величина N имеет пуассоновскоз распределение и независима от Xt. Распределение величины S = Хх + . .. . . . + Хдг называется сложным пуассоновским и оказывается безгранично делимым. Действительно, оо Е (е<^) = ^ Е (eiXs | N = I) P (N = Z) = г=о оо 1=0 оо 1=0
§ 18J БЕЗГРАНИЧНО ДЕЛИМЫЕ ЗАКОНЫ Ш Но стоит заменить \i на \i/k, как та же схема дает характеристическую функцию, к-я степень которой есть Е (ехр [^5]); следовательно, распределение S безгранично делимо. Пожалуй, удивительно, что сложные пуассоновские законы есть почти общий случай в следующем смысле. Теорема 2. Распределение \i безгранично делимо тогда и только тогда, когда оно есть слабый предел последовательности распределений, каждое из которых является сложным пуассоновским. В одну сторону (достаточность условия) утверждение немедленно следует из безграничной делимости всех сложных пуассоновских законов и следующей леммы. Лемма 1. Слабый предел последовательности безгранично делимых распределений сам безгранично делим. Доказательство. Пусть {\in} — упомянутая сходящаяся последовательность. Образуем треугольную таблицу случайных величин в духе теоремы 1. Пусть при этом каждая величина Х\ , i ^ п, имеет распределение, равное «корню п-й степени» из \in. Слабый предел последовательности {|хп} превращается в распределение F из A), так что его «делимость» устанавливается теоремой 1. Замечание. Представляется естественным использовать характеристические функции и доказать, что если Фп СО ->фМ и для каждой фп существует корень /с-й степени, который также есть характеристическая функция, то эти «корни» должны сходиться к функции, представляющей искомый корень fc-й степени из ф. Эти рассуждения можно провэсти строго, однако, устанавливая сходимость «корней k-й степени» из фп, приходится приложить больше усилий, чем это могло бы показаться с первого взгляда. Лемхма 2. Характеристическая функция безгранично делимого закона нигде не обращается в 0. Доказательство. Для всякой действительной характеристической функции г|) (X), отвечающей некоторому (симметрическому) распределению G, выполнено неравенство 1 -я|>BХ)<4[1 -Ф(Х)]. E)
112 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ 1Гл. 3 Этот факт доказывается просто: 1 — ф BХ) = J A — cos 2xK) dG (*) = 2 J sin2 he dG (x) = -oo -oo oo = 2 jj A — cos Xz) A + cos he) dG (x) < — oo oo < 4 J A — cos he) dG (x) = 4 [1 — ф (X)]. —ex Пусть теперь <р — безгранично делимая характеристическая функция из условия леммы. Можно считать, что она вещественна, так как во всяком случае | ср (X) |8 также безгранично делима и имеет те же нули, что и ф. Обозначим через фл корень /стй степени из ф, который сам является характеристической функцией, и заметим, что найдется отрезок [—а, а], на котором ф (X) ^> 0. На этом отрезке, очевидно, фл (X) -> 1 равномерно при /с->оо. Согласно формуле E), если [1 — фл (X)] <-т-на \—а, а], то 1 — фк (h) <^ 1 на большем интервале [—2а, 2а]. Итерируя соотношение E), получим l-9kBmX)<4m[l-<pkW]- Если к выбрано так, чтобы правая часть была меньше 1 на [—а, а],— а это мы можем сделать,— то получится, что <рн (а значит, и ф) не обращаются в 0 на [—2wa, 2ma]. Так как а ^> 0 и т произвольно, то доказательство леммы 2 завершено. Лемма 3. Пусть фй при каждом к — характеристическая функция, k-я степень которой совпадает с ф. Тогда для всех действительных X lim ф„ {X) = 1. F) Доказательство. Так как функция ф (X) непрерывна и отлична от 0, то можно лишь одним способом определить непрерывную функцию arg ф (X), выделяемую условием arg ф @) = 0 *). Аналогично, можно един- *) Это место (не имеющее отношения к вероятности как к таковой) не так очевидно, как может показаться. Если читатель не знаком с такими вещами то ему будет полезно продумать эту конструкцию.
& 18J БЕЗГРАНИЧНО ДЕЛИМЫЕ ЗАКОНЫ 113 ственным образом определить arg cpA. (X), удовлетворяющий этим же требованиям. В действительности, единственная возможность состоит в том, чтобы положить ^к{Ь)=«&Ш. G) Чтобы убедиться в этом, заметим, что поскольку Ф/с (к)к = Ф (к), то arg ф^ (X) могут быть равны При X = 0 надо брать / = 0, а так как arg ф (X) непрерывен, то надо взять / = 0 для всех Я, иначе arg фл (X) будет разрывен. Но из G) и из того, что | Фй (X) | = | <р (К) р -+ 1 для всех X, с очевидностью следует утверждение леммы F) Перейдем теперь к доказательству необходимости. Введем логарифмы наших характеристических функций; они определяются с помощью только что указанного выбора «arg ф». Пусть ф — характеристическая функция безгранично делимого распределения \i и фл — «корень к-и степени» из ф. Имеем log ф (X) = к log ф^ (X) и в силу леммы 3 log Ф (X) = lim к [ф, (X) - 1]. (8) к—><х> Но (8) эквивалентно тому, что Ф (X) = lim ехр [к (фл (X) - 1)], (9) /l*-*-oo где экспонента в правой части при любом к есть характеристическая функция сложного пуассоновского распределения. Согласно теореме 14.2 соответствующие распределения слабо сходятся к ц.. Теорема 2 доказана. Задача 4. Выписать в явном виде последовательность сложных пуассоповских законов, которые сходятся к нормальному распределению, и показать, что само нормальное распределение не является сложным нуассоновским.
114 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ (Гл. 3 Известны гораздо более тонкие результаты, чем теорема 2. Колмогоров доказал, что характеристическая функция любого безгранично делимого закона с конечной дисперсией представима в виде оо Ф(X) = ехр\i-km + jj etJC-*t-tk* Ж (*)] . (Ю) —оо где G — возрастающая функция ограниченной вариации. Несколько позже Хинчиным и Леви были найдены аналогичные представления, справедливые без всяких ограничений. В заключение этого раздела помещаем четыре задачи, намечающие вывод A0). Задача 5. Если ф — характеристическая функция безгранично делимого закона со средним т, то оо log ф (X) = imX + lim С {eiXx — 1 — Их) к dFk (a?), A1) /С-*оо J —оо где Ffr — распределение, А:-кратная свертка которого с самим собой есть F. Задача 6. Если F имеет конечную дисперсию а2, то монотонные функции X Gk(x) = k С и* dFk{u) A2) -оо равномерно ограничены, так что существует такая подпоследовательность последовательности {Gk}, что соответствующие меры, будучи ограничены на любой отрезок, слабо сходятся. Задача 7. Для подпоследовательности, выбранной в предыдущей задаче, оо оо lim ^ -2 dGk(*)= \ ~г dG(x), A3) —оо —оо где G возрастает и имеет дисперсию, не превосходящую а2. Соотношения A3) и A1) дают формулу Колмогорова A0). Задача 8. Покажите, что любая функция вида A0) есть безгранично делимая характеристическая функция. (Указание. Применить теорему 2.) § 19. Возвратность Мы произвели обзор теории предельных распределений для сумм независимых случайных величин. В основном эти проблвхиы были достаточно полно решены в 30-х и начале 40-х годов нашего века. Эта теория, однако, не
§ 19] ВОЗВРАТНОСТЬ 115 исчерпывает всех наших знаний о суммах независимых величин. В гл. 2 мы уже рассмотрели некоторые свойства последовательности {Sn} частных сумм, которые выполняются (или не выполняются) почти наверное, в этом параграфе мы изучим еще одну проблему такого рода. Все рассматриваемые случайные величины будут предполагаться одинаково распределенными. Простым случайным блужданием в d-мерном пространстве называются частные суммы Sn последовательности независимых случайных величин, каждая из которых принимает в качестве своих значений направляющие единичные векторы координатных осей (взятые со знаком + или —). При этом каждой из таких возможностей приписывается одна и та же вероятность l/Bd). Из § 9 известно, что P(\Sn\ = О (У п log log п)) = 1 *), A) но не ясно, принимает ли сумма Sn значение 0 (или какое- то другое фиксированное значение) бесконечное число раз или нет. Этот вопрос впервые поставил и разрешил Георг Пойя еще в 1921 г. Полученный им результат таков: если d = 1 или 2, то событие Sn = О происходит с вероятностью 1 бесконечно много раз; если же d > 2, то вероятность бесконечного числа повторений равна О (см. [Ф]). Удивительно то, что интересное открытие Пойя не имело должных обобщений до 1951 г., когда Чжун и Фукс развили красивый поход к общему случаю независимых одинаково распределенных случайных векторов. Мы обсудим здесь лишь одномерный случай и, следуя Чжуну и Фуксу, воспользуемся характеристическими функциями, хотя в настоящее время арсенал методов для решения подобных задач шире. Проблема технически упрощается, если предположить, что случайные величины Х-ь принимают лишь целые значения (п. н.). Так мы и сделаем. Мы говорим в этом случае, что последовательность сумм {Sn} возвратна, если Р (Sn = О бесконечно часто) =1, B) *) Если d > 1, то одномерный результат еще действует по каждой координате.
116 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ [Гл. 3 и невозвратна в противном случае. (Вероятность в левой части B) будет тогда равна 0, как мы скоро убедимся.) Если величины Xt имеют непрерывное распределение, то, очевидно, суммы Sn вообще не попадают в 0 с вероятностью 1, так что в общем случае следует говорить об интервальной возвратности, подразумевая под этим, что Sn почти наверное возвращаются в любую окрестность 0 бесконечно много раз. С учетом этой оговорки, результаты в общем случае вполне аналогичны тем, которые получаются при специальном предположении целочисленности. Начнем с одного простого факта, который немедленно следует из предыдущих результатов: если Е (XL) существует и неравно 0, то последовательность {Sn} невозвратна. Этот результат получается из усиленного закона больших чисел (теорема 8.1), так как тогда п. н. существует lim SJn = \i =j= О, а это противоречит возвратности. В дальнейшем мы увидим, что при \i = О последовательность {Sn} возвратна; заметим, что это утверждение вовсе не следует из усиленного закона больших чисел и даже из более сильных оценок, подобных A). Замечание. Из этого утверждения есть исключение. Когда d = 1, то применение закона повторного логарифма показывает, что и Sn ^> 0, и Sn <^ 0 случаются одинаково часто. Если единственное положительное (отрицательное) значение, которое может принимать X, есть +1 (—1), то каждый переход от отрицательного состояния к положительному (от — к +) должен содержать нуль. Таким образом, в этом специальном случае из предыдущих результатов следует возвратность. Лемма 1. Вероятность того, что бесконечно много событий {Sn = 0} имеют место, равна 1 или 0 в зависимости от того, сходится или расходится ряд ^?{Sn=Qi). п Доказательство. Из леммы Бореля — Кантел- ли немедленно следует, что если 2Р(?П = 0) < оо, то п Sn = 0 случается п. н. не более чем конечное число раз. Обратное утверждение этой леммы здесь нельзя применить, поскольку события {Sn = 0} не являются независимыми, но мы покажем, что заключение ее тем не менее справедливо. Мы сыграем на том факте, что «сдвинутая» последовательность сумм: Хк, Хк + Хк+1, ... имеет в точности те
§ 19] ВОЗВРАТНОСТЬ 117 же вероятностные свойства, что и исходная последовательность {Sn}. Ясно, что 1 > Р (Sn = О конечное число раз) = оо = SpE« = Mm# при m>n), C) П=1 потому что если лишь конечное число сумм Sn равно О, то среди них есть последняя. Но, используя независимость и упомянутую выше идею, получим Р (Sn = О, Sm ф 0 для т > п) = = Р (Sn = 0) Р (Sm - Sn ф 0 для т > п) =» = P(Sn = 0) Р (Sm ф 0 для всех m > 1). D) Комбинируя C) и D), имеем оо 1>2 PEn = 0)P(^w=f0 для всех го>1), п=1 и так как мы предположили, что ряд ^Р (Sn = 0) расходится, то последний множитель должен обратиться в 0, так что Р (Sm = 0 для какого-то т > 1) = 1. E) Легко доказать по индукции, что вероятность по крайней мере к «посещений 0» также равна 1 при любом к. Действительно, если это верно для к — 1, то Р (?п = 0 не менее к раз) = оо = ЦР№^=0 для *<л, ?n = 0, Sm-Sn = 0 71=1 для менее чем к — 1 значений т^> п) = оо = У2\Р(8{ф 0 ллл i< n,Sn= 0)РE„ = 0не менее /с—1 раз). п—1
118 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ 1.Гл. 3 Из E) и предположения индукции следует, что последнее выражение равно 1, поэтому для любого к п. н. имеется к посещений 0. Отсюда с очевидностью следует, что {Sn} возвратна. Лемма доказана. Замечание. Для читателя, знакомого с «рекуррентными событиями» или с цепями Маркова (см. [Ф]), эта лемма очевидна. Конечно, {Sn} образует счетную цепь Маркова, и всегда справедлив тот факт, что число посещений начального состояния в такой цепи п. н. бесконечно, если математическое ожидание числа посещений (в нашем случае ]>}Р (*^n = 0)) бесконечно. Пусть ф (X)— характеристическая функция общего распределения случайных величин X. Тогда оо cp(X)" = E(eas»)= 2 e™?{Sn = k). F) k=— оо Правая часть — это ряд Фурье, и поэтому п P(Sn = 0)=^r^(X)ndl. G) —71 Возникает естественное искушение просуммировать в G) под знаком интеграла, но при этом нужна некоторая осторожность. Легко, однако, проверить, что оо п 2P(sn = o).»=iHT—L^a для N<i. (8) П=0 -л Комбинируя (8) с доказанной леммой, получаем следующий результат. Теорема 1. {Sn} возвратна или невозвратна в соответствии с тем, бесконечен или конечен следующий предел: Jim -z— \ -j -^т- . (9) —л Мы используем этот результат для доказательства упомянутого выше факта. Теорема 2. Если Е (Х{) существует и равно 0, то {Sn} возвратна.
§ 191 ВОЗВРАТНОСТЬ 119 Доказательство. Как показано в лемме в начале § 15, ср' (X) существует и непрерывна, и ф' @) = = iE (Х{) = 0. Поэтому Ф (X) = 1 — о ( | Я |) A0) для X, близких к 0. Другими словами, для любого 8 ^> 0 найдется такое б ^> 0, что | 1 - Ф (X) |< е | X | для | А, | < 6. (И) Величина 1 — ф (X) не обязана, разумеется, быть вещественной, однако (И) гласит, что и вещественная, и мнимая ее части не превосходят е | X | в выбранной нами окрестности. Далее п п \ 1 - *Ф (X) = ) Re dX> . 1 — ху (X) —п > С Re Г 1 1dX = \ 'Г**6^1 dX. A2) J L i - *ф (X) J j |i — *ф (X) i2 v ; -6 -5 Разлагая в ряд и применяя A1), легко видеть, что при | 1 - хц (X) 12 < A - х + хг | X | J+ Л2 | А, | 2 < < 2 (l'- zJ + Зх2г°Х2 < 3 [A - xf + г2Х2]. A3) Комбинируя A2) и A3), получаем п 5 dX . 1 Г 1-х „ 2 , бе (' с? А, . 1 (* 1 —а: ,- _ 2 . < J l-«p(X) ^T J (l-^+eU2^"" 2^"arCtg T -я -5 В результате очевидно, что ilr'^T^w>?. (»*) -Я и так как е ^> 0 произвольно, то предел (9) должен быть бесконечен. Следовательно согласно теореме A), {Sn} возвратна
120 ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ 1Гл. 3 Существование математического ожидания ни в коем случае не является необходимым для возвратности. Нетрудно дать примеры этого, используя методы, весьма похожие на приведенные выше, и применяя вновь теорему 1. Задача 1. Пусть общее распределение величин Хп симметрично относительно 0, сконцентрировано на целых числах и удовлетворяет условию A6) задачи 17.5. Тогда Е (Хп) не существует, и слабый закон больших чисел не выполняется, но тем не менее {Sn} возвратна. (Указание. Использовать результат задачи 17.5.) В заключение упомянем о некоторых фактах, справедливых для d ^> 1. В этом случае для возвратности уже не достаточно обращения в 0 первого момента; однако возвратность появляется при дополнительном требовании конечности дисперсии. (Конечно, в случае, когда среднее отлично от 0, из усиленного закона больших чисел следует невозвратность.) (Если же, однако, размерность пространства не меньше и случайные величины не лежат п. н. ни в каком двумерном подпространстве,— то возвратность невозможна. Этот результат (принадлежащий Чжуну и Фуксу) может быть также доказан прямым применением анализа Фурье. Детали можно отыскать в оригинальной работе [4] или в книге Спитцера [S], в которой содержится прекрасное изложение недавних работ по суммам независимых случайных величин. В [S] не обсуждается центральная предельная проблема, хорошее изложение которой можно найти в целом ряде мест. Но зато в этой книге рассматриваются другие вопросы (среди которых возвратность — один из самых простых) и строится красивейшая теория совсем другого рода. Мы не будем заниматься этим предметом более подробно.
Глава 4 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ § 20. Броуновское движение — введение При определенных условиях можно наблюдать, что маленькая частица, взвешенная в жидкости, находится в непрерывном хаотическом движении. Это явление было названо по имени огкр гвшего его в 19-м веке английского врача Роберта Броуна. Объяснение этого феномена основано на том факте, что частица испытывает бесчисленное число столкновений со «случайно» движущимися молекулами окружающей жидкости; каждое отдельное столкновение оказывает пренебрежимое действие, но вместе они производят наблюдаемое движение. Математическая теория броуновского движения была предложена в начале нашего века Башелье и Эйнштейном. Пусть xt — одна из координат броуновской частицы в момент времени t; для определенности мы считаем, что х0 = 0. Так как движение окружающих молекул может быть описано лишь статистически, то xt — случайная величина. Так как смещение частицы за период [0, t] представляет сумму многих очень маленьких и почти независимых вкладов, то согласно центральной предельной теореме вполне правдоподобен постулат о нормальном распределении величины xt. Мы предполагаем, что вязкость достаточно велика, так что скорость частицы очень быстро гасится. В результате наблюдаемые смещения частицы на непересекающихся временных интервалах следует считать независимыми. Из соображений симметрии Е (х() = .= 0, и если физические условия не меняются, то должно получиться, что Е [(xt+s — xtJ} = / (s) не зависит от t. Это последнее соглашение вместе с предположением независимости приводит к выражению для дисперсии / (s)= cs *). *) Постоянная с важна для физической теории. Эйнштейн установил связь между с, некоторыми параметрами системы, допускающими измерение, и числом Авогадро. Эта связь дает точный метод определения числа Авогадро по наблюдениям частиц, находящихся в броуновском движении.
122 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 Эти исследования уже представляли теорию, допускающую экспериментальную проверку, но математически они были аргументированы менее чем удовлетворительно. Впервые точный смысл придал им Норберт Винер в 1923 г. Определим стандартный процесс броуновского движения (или винеровский процесс) следующим образом. Пусть на некотором вероятностном пространстве (Q, 53, Р) задано семейство случайных величин {xt, t > 0}, удовлетворяющих условиям: (i) х0 (со) =0 п. н. (ii) Если 0= t0<^ tx <^ ... <[ tnl то случайные величины xtM — xlv i = 0, 1, . . ., п — 1, независимы. (Ш) Для любых s, t > 0 приращение xt+s — xt распределено нормально со средним 0 и дисперсией cs. (iv) Для почти всех со ЕЕ Q функция xt = xt (со) непрерывна по t *). По-видимому, такой процесс восполнил бы вышеупомянутые пробелы в модели (физического) броуновского движения, однако его существование не совсем очевидно. Существует два принципиально различных подхода к построению винеровского процесса. Более простой, но зато менее общий метод основан на представлении функций xt через некоторое счетное множество параметров (таких, как коэффициенты Фурье), которые можно считать независимыми случайными величинами. Это подход самого Винера. Ниже будет в деталях описан модифицированный вариант этого метода, предложенный Тесельским иКампе де Ферье, технически более простой. Другой метод будет обсуждаться в дальнейшем. Он пригоден для построения многих стохастических процессов, а не только винеровского. Начнем с эвристических рассуждений. Пусть xt (со) — винеровский процесс, 0^2^1. Предположим, что {^п@} — некоторая полная ортогональная система функций в L2 [0, 1]. Если возможно представление процесса xt в виде оо Xt (СО) = 2 ап И 4>п @. A) п=0 *) Это условие нужно для того, чтобы выразить движение во времени физической частицы.
§ 20] БРОУНОВСКОЕ ДВИЖЕНИЕ — ВВЕДЕНИЕ 123 то коэффициенты «должны» задаваться формулами г ап (со) =\хх (со)г|>п (т) dr. B) о Так как ап есть нечто вроде линейной комбинации нормально распределенных случайных величин, то можно ожидать, что сами ап будут нормальны. Применяя под знаком интеграла операцию усреднения Е, мы получим Е (ап) = 0. Было бы совсем приятно, как указано выше, если бы {ап} оказались независимыми; для этого по меньшей мере необходимо, чтобы Е(апат) = 0 при п =/= т *). Можно ли достигнуть этого подходящим выбором {г|)п (?)}? Оказывается, имеется (и притом единственный) базис {г|)п}, который нас устроит. По крайней мере формально 1 1 Е КО = J S Е (*Л) Цп @ Цп (s) dt ds. C) о о Функция Е (xtxs) легко находится из наших предположений. Возьмем t <^ s; тогда Е (xtx8) = Е (Xt[xt + (xs - xt)]) = Е (xb + 0 = ct, D) в силу постулатов (i), (ii) и (iii). Для удобства будем счи- чать с = 1. Следовательно, Е (xtxs) = min (s, t), E) так что ядро Е (xtxs) непрерывно и положительно определено. Из этих фактов нетрудно усмотреть, что {tyn} должны быть (нормированными) собственными функциями интегрального опрератора с ядром E), а это как ра$ функции i sin I n + y) пч- Итак, если коэффициенты ап считать независимыми, то ряд A) должен быть типа классического ряда Фурье. Задача 1. Проверьте утверждение в предпоследнем предложении. *) Так как оказывается, что {ап} должны иметь совместное нормальное распределение, то это условие также и достаточно. Мы не будем заниматься многомерными нормальными законами в этой книге; некоторое знакомство с ними было бы здесь уместно, но не обязательно.
124 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 Чтобы завершить изложение метода Винера, мы должны сбратить предыдущие шаги. Отправляясь от нужного базиса и независимых нормальных коэффициентов \ап (о)} (точные значения дисперсий которых нетрудно подсчитать), мы желаем доказать, что ряд A) для почти всех со сходится к непрерывной функции. Это не просто, и мы не будем этого делать *). Вместо этого мы подойдем к вопросу несколько иначе, взяв другой базис, с которым более удобно работать. При этом мы хотим сохранить независимость коэффициентов {дп}, поэтому функции, которыми мы заменим {tyn}, уже не смогут быть ортогональными. Такой подход основан на изучении свойств производной от винеровского процесса. (Эта производная в действительности существует лишь в смысле обобщенных функций — распределений Шварца,— но мы пока игнорируем вопросы строгости.) Кажется правдоподобным,что если xt дифференцируем, то dxldt = x[ будет нормально распределена, и что x't и x's независимы для t =f= s в силу постулата (и). Более того, мы «будем иметь» E(x'tXs) = б (t— s), F) где б есть «дельта-функция Дирака». Задача 2. Провести эвристическое рассуждение, ведущее к вышеприведенным «результатам» относительно «процесса» {а^}. Применим к {x't} рассуждения, приведенные выше для самого {xt}. Мы видели, что для получения ортогонального разложения вида A) необходимо, чтобы базис {if)n (t)} состоял из собственных функций ядра Е (xbxt). Когда это ядро было непрерывной функцией, базис определялся почти однозначно. Однако для ядра F) «процесса» {х[} годится любое полное ортонормальное множество! (Любая функция является собственной для б (t — s).) Следовательно, формально оо xt ((о) = 2 ап И % (t) G) *) Винер тоже делал не совсем так: он доказывал, что имеет место и. н. равномерная сходимость в A), если специальным образом сгруппировать члены ряда.
§ 21] ПЕРВАЯ КОНСТРУКЦИЯ 125 для любых {i|?n}, образующих базис в L2 [О, 1]. Коэффициенты ап — нормальные независимые случайные величины со средним 0 и дисперсией 1: А 1 . Е (al) = Е {j* J x'tx8yn (t) г|?п (s) dt ds\ = о о 11 1 = J j б (t - s) t|3„ (t) Я|)п E) d* <fc = j l|? (s) ds = 1. (8) 0 0 0 Конечно, ряд G) с такими коэффициентами, как выбранные выше, не будет сходиться. Но мы ищем разложение не для x't, а для хи поэтому мы считаем, что оо t */И= S an(co) j^n(t)dt, (9) п=1 О где {г|)п} может быть любым полным ортонормальным множеством в L2 [О, 1], а ап — независимые нормальные случайные величины со средним 0 и единичной дисперсией. t Так как интеграл \г|)п(т)йт непрерывен, то п. н. рав- о номерная сходимость (9) повлечет за собой тот факт, что процесс удовлетворяет постулату (iv), а также и остальным постулатам, если только наши формальные рассуждения не сбили нас с пути. М. Нисио недавно доказала, что ряд (9) в самом деле п. н. равномерно сходится, независимо от того, какой базис был взят. Доказательство этой элегантной теоремы требует разработанных методов, однако специальный случай устанавливается очень просто, и, конечно, этого достаточно, чтобы доказать существование винеровского процесса, удовлетворяющего (i)—(iv). Этот специальный случай упоминался выше, и мы представим его в подробностях в следующем параграфе. § 21. Первая конструкция Возьмем в качестве ортогональной системы функции Хаара. Эти функции обладают рядом приятных свойств, так что в результате доказательство сходимости ряда B0.9) будет довольно простым. Они определяются
126 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 следующим образом: ( + 1, 0<*<i-, #о(*)=1,0<*<1; H1(t)={ A) ( -1, -2-<*<1, и вообще мы полагаем при 2П ^ к << 2n+1 2"/2при^<;<^-2П + (^ #*(*) = < 2" 2 ,п,2 . к - 2п + A/2) . , ^ А- - 2П + 1 B) — 2 ПРИ 2п < * О в остальных случаях. Легко проверяется, что эти функции образуют орто- нормальную систему. Эта система к тому же и полна. В действительности они обладают тем свойством, что (обобщенное) разложение Фурье любой непрерывной функции сходится к этой функции равномерно. Однако полнота нам понадобится только в форме равенства Парсеваля (/,*)= 2 (/,#*)(?,#*). C) /с=о Здесь / и g — действительные интегрируемые с квадратом функции на [0, 1], а скобки означают скалярное произведение в L2: 1 (t,g) = $f(t)g(t)dt. D) О Мы не будем здесь доказывать равенство C); см., скажем, [КШ]. Одну особенность функций Хаара, которая делает их особенно удобными для наших целей, можно сформулировать в виде леммы. Лемма 1. Ряд t %a,[Hk(T)dx = s(t) E)
§ 21] ПЕРВАЯ КОНСТРУКЦИЯ 127 равномерно сходится, если только \ ак | = О (кг) при каком-нибудь е <^ у. Доказательство. Нетрудно видеть, что функ- t ции *) Sk (t) = \Hk (r) dx неотрицательны и не превос- о ходят величины 2~п2/4 при 2П <; k ^ 2n+1. Более того, если к изменяется в этих пределах, носители функций Sk не пересекаются. Поэтому, обозначив bn= max \ак\, F' 2n</f<2n+1 мы получаем почти сразу же по теореме о сравнении рядов, что условие Г М-* о G) достаточно для абсолютной и равномерной сходимости ряда E) Но если выполнено условие леммы, то | Ъп \ <^ <^ С«2?П, так что G), очевидно, выполнено. Мы собираемся взять в качестве {ак} последовательность независимых нормальных случайных величин со средним 0 и дисперсией 1. Эта последовательность будет с вероятностью 1 удовлетворять условию леммы 1, причем с большим запасом. Лемма 2. Если {Хп} — последовательность нормальных случайных величин со средним 0 и дисперсией 1, то ?(\хп\ = о(УТ^) = \. (8) Это как раз та оценка, которая получается из первой части леммы Бореля — Кантелли; вот почему независимость не играет роли. (В независимом случае точность оценки можно проверить, применив вторую часть той же леммы Бореля — Кантелли.) Для доказательства нам понадобится простая оценка, которая легко получается интегрированием по частям. Для х>О X X *) Sh (t) называются функциями Шаудера.
128 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 Так как для больших х второй член, очевидно, имеет меньший порядок роста, чем тот интеграл, который мы хотим оценить, то ясно, что P(|Xn|>z)~/XjCfl (9) при х —> оо. Применяя (9), имеем оо оо 2р(|хЛ|>с/та<* 2 -5т=. A0) n=2 n=2 V{i)%n так что при с ]> у 2 левая часть конечна. Этого достаточно, чтобы доказать (8). У нас теперь все готово для доказательства основного результата. Теорема 1. Пусть {Хп}— последовательность независимых случайных величин, каждая из которых имеет среднее О и дисперсию 1. Тогда ряд оо t 2Хв(<о)|яп(т)<1т = г«(ч>) (И) п=0 О равномерно сходится с вероятностью 1, и определяемые им случайные величины {xt, 0 ^ t ^ 1} образуют броуновское движение в смысле § 20. Доказательство. Равномерная сходимость (п. н.) ряда A1) немедленно следует из лемм 1 и 2, а так t как функции \ Нп (г) dx все непрерывны по t и обра- о щаются в 0 при t = 0, то и сумма xt имеет эти свойства. Таким образом, остается доказать лишь свойства (И) и (Ш), утверждающие, что {xt} имеет независимые приращения, которые нормально распределены До сих пор мы не использовали ни независимость величин {ZJ, ни полноту функций Хаара; оба эти свойства скоро потребуются. Покажем, что для любого к Е {exp \i 2 h (xt - z^)]} = П ехр {- у ft - t^j1 Xf\ , A2)
I 21] ПЕРВАЯ КОНСТРУКЦИЯ 129 ГДе 0 = t0 < tx <^ . . . < tk, а Яь . . ., Хк — любые вещественные числа. Левая часть равенства A2)— это совместная характеристическая функ- ц и я случайных величин (xtj — xf. ^). Правая часть, очевидно (вспомним A4.7)), — это то, что получилось бы, если бы эти величины были независимыми и нормально распределены со средним 0 и дисперсиями tj — tj 1? другил и словами, если бы выполнялись пункты (и) и (Ш) в определении броуновского движения. Как только будет установлено A2), то доказательство того, что (И) поедстагл ет собой броуновское движение,будет завершено, ввиду того, что совместная характеристическая функция (как и в одномерном случае) единственным образом определяет ту вероятностную меру на Rk, из которой она получена. Мы обсудим этот вопрос в конце раздела. Возвращаясь к доказательству равенства A2), предположим для простоты, что к = 2. Тогда, используя A1), имеем Е (exp \&iXtx + ik2 (х,г — х,)\) = = Е (ехр [I (Кг — Х2) хи + Л2Хи\) = оо = Е (ехр 2 Хп [i (Хх - К2)Sn(h) + iKSn(t2)]\. A3) * n=0 Но так как Хп независимы, то последнее выражение разлагается на множители (вспомним следствие 10.4). Каждый из этих множителей есть значение характеристической функции величины Хп, взятое в подходящей точке. Таким образом, A3) превращается в ос оо = ехр 1-1 2 [(h-KJSn(hf + ^ 71=0 + 2 (\г - А2) X2Sn (tx) Sn (t2) + KiSn (t2)*}} (U) Эти суммы легко вычисляются с помощью равенства Парсеваля для функций Хаара. Действительно, если Г 1 при 0<;тО, фз(х) = { 0 при 5<т<1, 5 Дж Ламперти
130 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ 1Гл. 4 то для любых sl ^ s2 из [0, 1] имеем (в силу C)) оо оо % = (Ф,„ ф52) = 2 (Ф... яп)(фй. Нп) = 2 S„(*i)S„ (•**)• A5) п=0 п=0 С помощью A5) можно переписать A4) так: ехр {- \ [(X, - Я2J tx + 2 (А* - К2) к21, + \%\^ = а это и есть правая часть в A2). Таким образо г, A2) установлено для к = 2 или к = 1 (если положить Х2 = 0). Задача 1. Обобщая приведенные рассуждения, докажите A2) для любого к. Итак, мы показали, что броуновское движение на отрезке времени [0, 1] существует; что можно сказать о [0,оо)? Заметим, что все относящееся к теории меры в нашем построении содержится в предположении: «Пусть {Хп} — последовательность независимых случайных величин...». Если существует такая последовательность, то, очевидно, перенумеровав ее, можно получить счетное число таких последовательностей, независимых друг от друга. С помощью A1) из этих последовательностей строится последовательность независимых случайных функций {х\п (со)}, 0 <; t ^ 1. Соединим, наконец, эти функции: положим xt (со) = х^1) (со) для 0 <; t <[ 1 и определим xt (со) = Xt%+1 (со) + хп.1 (со) для п — 1 <: t ^ п. A6) Это определяет (п. н.) непрерывную функцию при 0 ^ t <^ <оо. Задача 2. Покажите, что {xt (со)}, определенное с помощью A6), евть процесс броуновского движения на интервале времени [0, со). Наконец, надо заняться теоремой единственности для совместной характеристической функции. Разумеется, она приносит большую пользу далеко за пределами настоящей ситуации.
§ 21] ПЕРВАЯ КОНСТРУКЦИЯ 131 Предложены е. Пусть Р — произвольная бо- релевская мера в Л". Определяем ее характеристическую функцию таким образом: п ф(*ь .. .Дп) = [ exp \i 2 Кх^\йР(хъ . . ., яп). A7) Rn i=i J Тогда функция ф однозначно определяет меру Р. Набросок доказательства. Мы можем с совсем небольшими изменениями воспроизвести доказательство теоремы 14.1. Определим нормальное распределение на R71 как распределение с плотностью п 1 (xv . . ., хп) = jy=-jT exp {- 4г 2 *?} . A8) и пусть Ра — мера, полученная в результате свертки Р с нормальным распределением A8). Операция свертки, как и в одномерном случае, соответствует сложению независимых случайных векторов, так что соответствующие характеристические функции перемножаются. Действуя по аналогии с методом, использованным в § 14, мы находим, что Ра имеет плотность /0, задаваемую формулой п U («и • • •> *„) = *n J exp {— i 2 Mil Фа $>) dK A9) Здесь X = (kx, . . ., kn); dX означает меру Лебега на Rn и П — характеристическая функция меры Ра. Таким образом, Ра однозначно определяется функцией ф для любого а > 0. Но нетрудно показать, что для любой непрерывной функции g на R11, имеющей компактный носитель, lim f gdPa= f gdP, B1) 5*
132 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ 1Гл. 4 так что интеграл от g по мере о!Р также определяется (однозначно) функцией ср. Отсюда легко следует единственность самой меры Р. Это доказывает предложение, а заодно и завершает доказательство теоремы 1. Задача 3. Доказать B1). Задача 4. Доказать, что если для двух борелевскпх мер Р и Р' на Rn 5 gdp= j gdP' Rn Rn для любой непрерывной функции g с компактным носителем, то эти меры совпадают. § 22. Некоторые свойства броуновских траекторий В этом разделе мы обсудим некоторые качественные свойства, которыми обладают все функции х( (со), исключая со-множсство вероятности нуль. Некоторые вещи мы докажем полностью, а о некоторых упомянем без доказательства. Богатый источник теорем такого рода представляет книга Поля Леви [Ле]. В этом параграфе под «броуновским движением» подразумевается любой процесс, удовлетворяющий свойствам (i)—(iv) из § 20. Рассмотрим сначала поведение процесса при больших значениях времени. Хорошая отправная точка — закон повторного логарифма. Теорема 1. Пусть {.г, (со)} — процесс броуновского движения, 0 ^ t < оо. Тогда Р Aimsup-y: Xf = l\ = 1. A) Доказательство. Если мы заменим непрерывное время t дискретным (целочисленным), то формула A) превратится в специальный случай «закона повторного логарифма» для сумм независимых случайных величин, который подробно обсуждался в § 11. В самом деле, случайные величины, которые мы должны теперь рассмотреть, а именно (хИ1 — .г,-), нормально распределены и независимы со средним 0 и дисперсией 1. Только в этом случае, по существу, была установлена нижняя оценка из § 11. (Нижняя оценка основывалась на лемме 11 3, которую мы не доказывали; ее справедливость в нормаль-
§ 221 НЕКОТОРЫЕ СВОЙСТВА БРОУНОВСКИХ ТРАЕКТОРИЙ 133 ном случае отмечалась в задаче 11.3.) Теперь ясно, что формула A) справедлива с заменой знака = на ^>, так как если нижняя оценка действует при t —» ос по целым значениям времени, то, конечно, она по-прежнему верна и тогда, когда t —> оо непрерывно. Для получения верхней оценки нужно показать, что процесс Х[ не испытывает слишком больших флуктуации между двумя последовательными целыми значениями t. ГЗоспользуемся следующей оценкой. Л ем via 1. Для любого а^> О Р (max xt > a)<2 ?(xL > a — j/~2). B) 0</<l Доказательство. Пусть к — некоторое целое положительное число. Заметим, что, записав i=l *,2fc= 2 (Хи+1У2Н- Xj'2K)' C) мы представляем х{ ^ в виде суммы i независимых случайных величин, распределенных нормально со средним О и дисперсией 2к. Применяя лемму 2 из § 1, получим Р (max xi/2k > fl)< 2 Р (хг > а - ^2). D) Но если к возрастает, то события в левой части равенства D) расширяются, а оценка справа не зависит от к. Стало быть, оценка верна и для объединения этих событий — события, состоящего в том, что xt^> а при каком-то двоично-рациональном значении ?^1. Так как траектория xt непрерывна (п. н.), то последнее событие совпадает (с точностью до множества вероятности 0) с тем, которое фигурирует в левой части B). Оценка установлена Замечание 1. Тем же способом можно было бы вывести «непрерывный аналог» неравенства Колмогорова, именно: Р (max U, |>«)<? -1-, а>0. E) Однако оно не j-оста точно сильно для последующих приложений.
134 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 Замечание 2. Дополнительное изучение доказательства леммы 11.2 показывает, что для случайных симметрично распределенных (относительно 0) случайных величин правую часть в неравенстве A1.10) можно ухменыыить до 2Р (Sn > a) *). Значит, в формуле B) можно заменить а — У2 на а. Интересно, что 2 Р {х1 > я)— это не только верхняя оценка, но и точное значение вероятности из левой части B). Косвенным путем мы получим этот результат далее (в § 26). С помощью леммы 1 можно без труда завершить доказательство теоремы 1. Используя тот факт, что в правой части неравенства B) фигурирует нормальное распределение, и вспоминая лемму 2 предыдущего параграфа, мы сразу же получаем, что Р( max \xt — хп\ = о (Ynloglogn)) = 1. F) П</<71-|-1 Конечно, справедливо и гораздо более сильное утверждение. Но нам уже известно, что при достаточно больших целых значениях t верхняя оценка в A) выполнена. Комбинируя это с соотношением F), мы устанавливаем верхнюю оценку в A) для непрерывного t — > со Доказательство теоремы A) завершено. Следствие. Функция х\ имеет (п. н.) сгэлъ угодно большие нули. Доказательство. Случайные величины {— xt (со)} также образуют винеровский процесс, к которому применима теорема 1. Значит, соотношение A) выполняется как для xti так и для — xt. Это значит, что функция xt принимает и отрицательные и положительные значения при сколь угодно больших t. Осталось лишь сослаться на непрерывность процесса xt. (Вспомните для сравнения замечание на стр. 116.) Перейдем теперь к некоторым локальным свойствам траекторий. Естественно спросить в первую очередь, дифференцируемы ли они? Нормированное приращение xt-\-h ~xt h *) Это так называемое «неравенство Леви», см., скажем, [Ло].
§ 22] НЕКОТОРЫЕ СВОЙСТВА БРОУНОВСКИХ ТРАЕКТОРИЙ 135 имеет нормальное распределение со средним 0 и дисперсией /г-1, и отсюда нетрудно вывести, что ИтР( ;л/) = 0 G) для любого М. Это показывает, что Р (x't существует) = 0 при фиксированном t. Задача 1. Докажите G) и снабдите недостающими деталями только что высказанное утверждение. Этот результат можно усилить несколькими способами. Один из них — найти точную величину малых флуктуации траекторий xt. Следующая теорема принадлежит Хинчину и известна как «локальный закон повторного логарифма». Теорема 2. Для любого t0^> 0 Р (lim sup *'«+*--*'« . = l) = l. (8) \ /^о+ Y2h log log h~i J Лемма 2. Пусть {xt} — броуновское движение. Положим f 0, t = 0, * = U» *>0. ^ Тогда {yt} — также процесс броуновского движения. Доказательство. Непрерывность траекторий ух при t ^> 0 немедленно следует из непрерывности xt, а непрерывность в 0 следует из теоремы 1. Простейший способ проверки свойств (ii) и (Ш) — это вычислить ковариационную функцию для {yt}- Е (Vtyt-vs) = t (t + s)E (xt-i x{l+8fl) = = t (t + 5)min(^-1,(^ -f s)-1) = t = min(M + s); такой результат имеет место в случае броуновского движения. На самом деле для нормально распределенных процессов (со средним 0) эта функция определяет однозначно совместное распределение, так что {yt} (как и {xt}) удовлетворяет (ii) и (iii). Но так как мы не доказывали этого факта, то проверку придется проводить «вручную».
136 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 Мы проведем вычисления для простоты в случае двух приращений. Пусть 0 < t± < t2. Тогда Е {ехр ЦХ,уи + iX2 {у,г — yh)]} = = Е {ехр [itl (Хх — Х2) (xt-i — хг\) -f + i(Mi + ^2 (h - h)) xt-i]}. Но так как {xt} удовлетворяет (ii) и (iii), то это выражение превращается в ехр [- A t\ (кг - К? (С - i?) - \ (Vi+ ^2 (*, - <i))V] = = ехР [— у Я^1 — ~2 ^ & — h)] . Правая часть последнего равенства есть совместная характеристическая функция двух независимых нормально распределенных случайных величин со средним 0 и дисперсиями tx и t2 — tx соответственно. В силу теоремы единственности (см. § 21) ytl и yti — ytl обладают всеми свойствами броуновского движения. Проведение таких же вычислений для случая к приращений завершает доказательство леммы. Задача 2. Пусть xt, t > 0,— винеровский процесс. Определим процесс у 2xrp — a?j, t Доказать, что yt — также винеровский процесс. Доказательство теоремы 2 немедленно следует из теоремы 1 и леммы 2. Однако локальный закон повторного логарифма был впервые доказан не этим способом; лемма 2 принадлежит П. Леви. Пз сказанного легко вывести следующий результат. Следствие. При любом t0 функция xt — xtc имеет (п. н.) последовательность нулей, сходящуюся к t0 справа. В частности, t0 = О есть не изолированный корень уравнения х% = 0. Есть искушение сделать отсюда вывод, что функция вообще не имеет изолированных нулей, взяв в качестве t0 любое значение времени, для которого
§ 22J НЕКОТОРЫЕ СВОЙСТВА БРОУНОВСКИХ ТРАЕКТОРИЙ 137 ^ = 0. Однако непосредственно это не следует из предыдущих результатов, так как в теореме 2td — фиксированная, а вовсе не случайная, величина. Тем не менее гипотеза верна и доказательство основано на такой идее: после достижения в момент /0 точки 0 броуновское движение как бы «возобновляется заново», стартуя из той же точки 0. Точное утверждение и доказательство этой идеи опираются на «строго марковское свойство», выходящее за рамки нашей книги. Различные усиления того факта, что х% (п.н.) не существует для каждого t, впервые были отмечены самим Винером: почти все траектории нигде не дифференцируемы. Верен еще более сильный факт: функции хх -\- ct не имеют (п. н.) ни одной точки возрастания или убывания при любом с. Эта теорема была совсем недавно доказана Дворецким, Эрдешем и Какутани. Мы удовлетворимся здесь более слабым, но и легче доказываемым результатом. Теорема 3. С вероятностью единица множество тех /, для которых xt существует, имеет лебегову меру 0. Так как функции ограниченной вариации почти всюду дифференцируемы, мы приходим к интересному следствию. Следствие. Броуновская траектория в случае одного и большего числа измерений *) (га. н.) неспрямляема на любом временном интервале положительной длины. Доказательство теоремы 3. Доказательство, если не считать одной технической трудности, крайне простое. Определим f (а а __ |1, если xt (со) дифференцируема по t, (И) ' 10 в противном случае. Если предположить, что / (/, со) измерима по (/, со) (относительно произведения полей), то можно применить теорему Фубини и получится, что оо оо E(f/(co, t)dt) = J E/ (со, t)dt = 0, A2) *) Процесс броуновского движения в d > 1 измерениях получится, если взять независимые одномерные броуновские движения в качестве декартовых координат случайного вектора.
138 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 поскольку при любом t / (со, t) = О п.н. Отсюда следует, что Р к0 {|/(сМ)л = о} = 1, A3) а это и есть утверждение теоремы 3. Остается выяснить вопрос об измеримости. Исследуем сначала саму функцию xt (со). Любая функция вида (ха (со), если а ^ / < a -f А, где /г, а > 0 — 2/, (со) = j постоянные, A4) 10 в противном случае, разумеется, измерима. Это можно проверить, заметив, что ({ха (со) > а и a^t<^a + h}y если а;>0, {яа(со)> а} U {ха (со) < а и * дЁ [а, а+/г)}, если а<^0. {(со, *):*/< И > а} = Правая часть есть в первом случае произведение измеримого подмножества пространства Q на интервал, а во втором случае — объединение двух таких произведений, и поэтому это множество измеримо при любом а. Складывая функции вида A4), видим, что функция 4h)(co) = Xnh (со) для nh < t < (n + 1) h A5) измерима. Наконец, полагая /г->0-(- по счетному множеству значений и замечая, что (по непрерывности) lim 4Л)(со) = xt (со) при любом t > 0, кроме множества элементов со (а значит, и пар (/, со)), имеющего меру 0, мы делаем отсюда вывод об измеримости xt (со) по (t, со). Остальное очень просто. Пользуясь стандартными в этом случае рассуждениями, можно сразу сказать, что lim «др —- т = и х{ (о) /1-Ю, П hрационально
§233 МАРКОВСКИЕ ПЕРЕХОДНЫЕ ФУНКЦИИ 139 есть измеримая функция; то же верно, конечно, и относительно D~xt (о). Но множество, на котором две измеримые функции совпадают, с необходимостью измеримо. Применяя это к D+xt и D~xti получаем как раз то множество, на котором f(t, со) = 1, что и завершает доказательство. Замечание. «Бесконечная скорость», которой обладает броуновская частица, не является на самом деле чем- то парадоксальным, потому что физические соображения, которые в § 20 привели к постулатам (ii) и (iii), перестают быть справедливыми на очень маленьких временных интервалах. Между прочим, существует более разработанная модель броуновского движения, принадлежащая Л. С. Орнштейну и Дж. Э. Уленбеку, в которой скорости конечны, но зато ускорения не существуют. § 23. Марковские переходные функции Обратимся теперь ко второму подходу, указанному в § 20, допускающему гораздо большую гибкость в конструировании различных стохастических процессов. Основная идея состоит в том, чтобы определить нужные нам совместные распределения величин {xt} для любого конечного набора (^, ..., tk) значений параметра, а потом применить теорему Колмогорова из § 4. Один из наиболее важных способов строить совместные распределения базируется на понятии марковской переходной функции *). По определению, это функция pt (и, Е), определенная при t > 0, где и означает точку, а Е — борелев- ское подмножество на прямой **). Предполагается, что при любых t и и функция pt (и, о) представляет вероятностную меру; pt (о, Е) измерима по Борелю для любого t и любого борелевского множества Е и, наконец, *) Некоторое знакомство с дискретными цепями Маркова по- 1езно для понимания этой главы (см., например, [Ф], гл. XV), но не является формально необходимым. **) Часто оказывается удобным (и это вполне приемлемо) предполагать, что pt определена, лишь когда и ?Е X — фиксированному борелевскому подмножеству i?1, a E — борелевское подмножество множествах. Кроме того, вместо Я1 можно рассматривать более общие пространства, в частности, Rk или его подмножества.
140 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ 1Гл. 4 при любых и, t, 5, Е р,+в(и, Е)= $/>,(". dv)p,(v, E). A) ю (Интеграл, в силу сделанных выше предположений, определен.) В основе этого определения лежит формализация простой идеи «марковского принципа», который состоит в том, что если известно состояние процесса в некоторый данный мсмент времени, то условная вероятность событий, относящихся к будущему, не изменится, если становится доступной дополнительная информация о прошлом процессе. Итак, функция pt (и, Е) служит для обозначения вероятности того, что процесс перейдет из точки и в множество Е за промежуток времени /. Уравнение A), называемое уравнением Колмогорова — Чепмена, выражает тот факт, что переход за время / -f- s складывается из перехода за время / в некоторую промежуточную точку v и последующего перехода в Е за время s. Последнее событие, по марковскому свойству, имеет вероятность ps (v, E), не зависящую от и. Чтобы придать этим рассуждениям точный смысл, нужно опираться на общую теорию условных вероятностей, которой мы не хотим касаться. Тем не менее, мы с полной строгостью покажем, как построить процесс по переходной функции. Замечание. Не нужно думать, что существенны лишь процессы марковского типа; это совсем не так. Другой очень важный и общий класс процессов образуют, например, стационарные процессы. Стохастический процесс {xt, —оэ < / <! + °° } называется стационарным (в узком смысле), если абсолютное время не играет никакой роли, в том смысле, что Р (хи < иъ . . ., xtj? < ик) - Р (я,1+8 < щ, . . ., xtk+s < щ) B) для всех /г, ut и s. Многие физические явления — обычно относящиеся к равновесным системам того или иного вида — описываются стационарными процессами, и эти процессы зачастую не марковские. В этой книге, однако, мы будем придерживаться только марковского случая.
$ 23J МАРКОВСКИЕ ПЕРЕХОДНЫЕ ФУНКЦИИ 141 Примеры переходных функций. Для наших целей самым важным примером является винеровская переходная функция которая приводит к уже изученному процессу броуновского движения. Интересный (и тесно связанный с предшествующим) пример определяется формулой pt (Ut Е) = -~=г- ^ (*-<*-«>¦/* + e-iv+uW) dv% D) где и ^ 0 и Е С [0, оо). Он представляет броуновское движение с отражающим экраном в 0. Этот процесс можно просто выразить через винеровский процесс х{, именно, это | xt |. Другой простой и очень полезный пример относится к пуассоновскому распределению (подобно тому, как C) — к нормальному): e~ct(ct)n pt(u, {u + na}) = ^ , с>0, я = 0, 1, ...; афО. E) Стохастический процесс, полученный по формуле E), называется «пуассоновским процессом». Задача 1. Проверьте, что формулы C), D) и E) определяют марковские переходные функции. Рассмотрим несколько более общую ситуацию. Предположим, что F (и) — некоторое безгранично делимое распределение. По определению, F имеет при любом натуральном к единственный «корень к-и степени» (по отношению к свертке); обозначим его через Fnk. Свертывая этот «корень», можно определить Fvjq для любого рационального индекса. Еще один небольшой шаг, и удается показать, что при любом t ^> 0 существует распределение Ft, такое, что Fx= F и Ft+S = Ft * Fs. Это можно выразить и по-другому: J e*»dFt (и) = ц>'(Х), F) —ос где ф (X) — характеристическая функция распределения F. Положим pt (и, (— оо, г;]) = Ft (v — и) и определим pt (и, Е) обычным образом для более общих множеств с помощью этой функции распределения.
142 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 Это дает пространственно-однородную марковскую переходную функцию, т. е. такую, что pt (ы, Е) = pt (и + v, v + Е) для всех вещественных v. Когда такая функция применяется для построения стохастического процесса с помощью метода, который мы сейчас опишем, то процесс, который получается, имеет независимые приращения*). Такие процессы иногда также называются «аддитивными». Задача 2. Докажите существование Ft и покажите, что получающаяся функция pt (и, Е) есть переходная функция. Построение процесса по переходной функции начинается стандартным образом. Любое вещественное число и0 может быть выбрано в качестве начального состояния; мы условимся, что х0 (со) = м0. (Мера, не сконцентрированная в одной точке, может также служить в качестве начального распределения; обобщение проводится обычным образом.) Пусть 0 = /0 < tx < ...< tk. Определим функцию совместного распределения, полагая FU /k(*>it • • -»^) = *k G) = J '' * J Ptxiuto dui)Ptr-u (^1, du2). .. p/k-ffc-1 K-i, dud). -oo —ex Эта функция определяет вероятностную меру на Як, которая и будет служить в качестве совместного распределения случайных величин (xtv ..., xt ). Таким же способом определяем меру для любого конечного набора значений t. Теорема 1. Для любой заданной марковской переходной функции pt и любого вещественного числа и0 существует такое вероятностное пространство и такие случайные величины {хг, t > 0}, определенные на нем, что совместное распределение величин (я^, ..., Xt ) задается формулой Р {хи < Уь . . ., xtk < vk] = Ftu ...,,fc (иъ . . ., i;J, (8) где Ftl,...,,t определяется равенством G). *) Т. е. удовлетворяет постулату (ii) § 20.
§ 23J МАРКОВСКИЕ ПЕРЕХОДНЫЕ ФУНКЦИИ 143 Доказательство. Для доказательства остается лишь проверить предположения D.2) и D.3) теоремы 4.1 Первое из них тривиально. В самом деле, мы строили нужные совместные распределения величин Xtv ..., xt , предполагая, что tx < ... < tk, но если случайные величины берутся в другом порядке, формулу D.2) можно рассматривать как определение. Второе условие, хотя оно доказывается и просто, не следует автоматически из общих рассуждений. Для его доказательства нужно воспользоваться уравнением Колмогорова — Чепмена A). Чтобы проиллюстрировать идею, достаточно рассмотреть простейший (но типичный) случай: пусть п = 2 и т = 1. Мы должны, в силу формулы D.3), показать, что Ptutuu (^i. °°> »з) = Fu, и (i>i> Уз). (9) По определению G) это можно записать в виде S ) ) PtAuo> duJpt^tAuu du2) />/,-*, ("г» duz) = -oo -oo —oo Vi V3 = $ $ Л,(Ио, dud ptt-tAui, du3) A0) —oo —oo и последнее равенство справедливо, как легко видеть, если применить уравнение A) к внутреннему интегралу по и2. Теперь можно воспользоваться теоремой 4.1, и это завершает доказательство. Рассмотрим специальный частный случай, когда и0 = = 0, а переходная функция дается формулой C). Следующий результат не удивителен и несложно доказывается. Задача 3. Проверьте, что в этом случае случайные величины {а:/}, существование которых гарантируется теоремой 1, удовлетворяют аксиомам (i), (ii) и (iii) из § 20. Получилось ли у нас броуновское движение? К сожалению, множество Со = {со Ez Q : xt (со) непрерывно по t при всех t > 0} (ii)
144 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 не измеримо! Это значит, что С0 не принадлежит борс- левскому полю 33 из теоремы 4.1, которое, напоминаем, есть наименьшее а-поле, содержащее все цилиндрические множества. Чтобы понять, в чем состоит трудность, рассмотрим один пример Дж. Л. Дуба. Пусть Г1, если 0е?, и0 = 0, pt(x,E) = { A2) (О в противном случае. Это переходная функция «процесса», который все время «сидит» в 0. Случайные величины xt в этом случае таковы, что Р (Xt = 0) = 1 при всех / > 0. A3) Рассмотрим теперь некоторый экзотический способ построения таких случайных величин. Пусть Q = [0, 1], а Р — мера Лебега на [0, 1]. Определим Г1, если t = со, *<(<») = { п A4) [{) в противном случае. Ясно, что соотношение A3) выполняется, а вероятность того, что процесс xt непрерывен при 0<^ t ^ 1, равна 0. Имеется очевидная альтернатива, при которой последняя вероятность равна 1 (Q состоит из одной точки и xt (со) е= 0). Каждый из методов построения (хДсо)} индуцирует меру в функциональном пространстве, определенном в D.4), вторая мера целиком сосредоточена на функции xt = 0, в то время как первая недискретна. Обе эти меры совпадают на цилиндрических множествах (в силу A3)) и, стало быть, совпадают и на 33. Но, как мы видели, эти меры не совпадают на С0 и, значит, С0 6=? 33. Задача 4. Покажите, что функция / (со) = sup xt((x)) A5) 0<f<l не измерима относительно а-поля <#, порожденного цилиндрическими множествами.
*24J НЕПРЕРЫВНОСТЬ ТРАЕКТОРИЙ 145 § 24, Непрерывность траекторий Только что обсужденная проблема измеримости возникает из-за того, что параметрическое множество [0, оо) не счетно. Один из методов преодолеть наши затруднения основан на том, что вначале внимание концентрируется на счетЕюм всюду плотном множестве значений времени, а затем доказывается, что функции xt можно продолжить естественным образом с этого множества на всю ось 0 <: / <С оо. В сущности, этот подход со всей общностью был проведен Дубом в его теории «сепарабельности» случайных процессов [Ду1. Мы же используем его в гораздо более специальной обстановке для построения класса марковских процессов с непрерывными траекториями, включающего (еще раз) броуновское движение. Теорема 1 Пусть pt — марковская переходная функция в R1. Предположим, что при любом е ^> О pt (x, Rl - [х - 8, х + г]) < kt (t), (l) где ограниченная функция /се (t) не зависит от х, монотонна при I -> 0 и удовлетворяет условию lim t ikt(t) = 0 *). t-*o Тогда найдется вероятностное пространство и семейств* случайных величин {х, (со), / > 0}, таких, что выполнено условие (8) предыдущего параграфа и, кроме того, траектории xt (со) непрерывны по t для почти всех со. Доказательство. Сначала мы с помощью результатов последнего раздела построим вероятностное пространство (й, ?$, Р), на котором определены случайные величины (я,(со), t > 0}, удовлетворяющие B3.8). Пусть S означает множество неотрицательных двоично- рациональных чисел {И2п}. Мы хотим пока ограничиться лишь теми значениями параметра, которые лежат в S. Поскольку S счетно, то здесь мы не встретимся с трудностями, связанными с измеримостью (подобными тем, с которыми мы столкнулись выше). Оказывается имеет место следующий факт. Лемма 1. Для почти всех со ЕЕ Q функция х% (со), t G= S, есть сужение на S функции, непрерывной всюду. *) То же самое можно сказать и по-другому: pt (x, R1 — [х — 8, х + е]) = о (t) равномерно по х. 1/2 6 Дж. Ламперти
146 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 Доказательство. Мы покажем, что для любого 8 ^> О limP( sup |*,(w)-a:e('o)|>e) = 0, B) 5-0 |f-4<s /, se=Sn[o,iJ т. е. для заданного 8 ^> 0 множество тех со, для которых нельзя подобрать соответствующего б ^> 0, имеет меру 0. Если устремить в \ 0 по счстнсму множеству и выбросить все «исключительные» множества вероятности 0, то ясно, что в силу B) я'*(о)) почти наверное равномерно непрерывна на S П @, 1] и поэтому является сужением на S непрерывной на [0, 1] функции. Переход от [0, 1] к [0, оо) не представляет трудностей. Легко видеть, что B) выполнено, если для любого е>0 lim P /max sup I ^ — я. 9n I > е\ = 0. C) Это равенство мы и будем доказывать*). Заметим, что событие, рассматриваемое в C), есть объединение таких событий: «sup модуля разности на i-м интервале превосходит е». Если мы теперь установим, что для любого i<2n ?( sup | xt - х. ,п | > 2) < 2A>2 B'"), D) то отсюда можно будет заключить, что вероятность в C) не превосходит 2п+1/с?/2 B~п). Тогда равенство C), а значит, и утверждение леммы будут выполнены в силу предположений о росте кг (t). Итак, займемся выводом неравенства D). Зафиксируем i <C 2П и пусть А означает событие, вероятность которого написана в левой части D). Пусть т — положительное число. Положим Ам = {со : | хх — х.,2п | > е для некоторого t = — + —^-, 0 < / < 2 J . E) *) Чтобы из C) получить B) с заданным е0, надо в C) взять е < е0/3.
§ 24] НЕПРЕРЫВНОСТЬ ТРАЕКТОРИЙ 147 С ростом т множества Ат возрастают и их объединение есть А. Таким образом, достаточно установить D) для всех т, так как оценка не завиеит от т и поэтому сохранится и в пределе. Но Р(Ат) < Р (sup\xt-x. 2н | > р и |хA +1)/2« - х. 2«|<|) + + Р(|^+1J^-^^1>1), F) где sup означает максимум по тем значениям /, которые допускаются в E). Последнее слагаемое легко оценить. Действительно, Р(|*/+*--*в|>т1) = = J Ps(u0, du)pt(u,Rl — [и — t\,u+ TilX^tj (t) G) R1 в силу A). Значит, второй член в правой части F) меньше кф B~п). Первый член в F) можно переписать в более удобном для нас виде, выделяя первое допустимое значение t, в котором разность по модулю больше е: P(sup|Sf —я/в|>е и |x(rfrfl-a;,J<|j = 2m = 2 Р (| #,<„+/? — хы | > е впервые при I = / где т = 2~(n+m> и *0 = i/2n. Каждый член суммы можно выразить кратным интегралом, содержащим множитель, относящийся к переходу из некоторого состояния, отстоящего от xto по крайней мере на 8, в финальное состояние, принадлежащее (е/2)-окрестности точки xto. Этот переход происходит на интервале времени, меньшем чем 2~п, так что упомянутый множитель можно оценить через /с?/2 B~п). После вынесения множителя за знак интеграла оставшуюся сумму можно заменить во всяком случае единицей. Поясним это примером. с*
148 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 При /==2 можно записать P||^-ij<e, |z,0+2T—s,J>e, |*,0+2-n —Sfc|<-|j = , Pt0 (Щ, dui) Рт {иъ du2) pT (и2, dw3) X X P2-n_2T ( м8, [их — у, Hi + у]) , (9) ssji где область интегрирования Q описывается неравенствами иг е (— оо, оо), и2 е [ttx — е, их + е], и3 ф, [иг — б,м1 + с]. (Ю) Последний множитель в подынтегральном выражении (9) не больше, чем /с?/2 B"п — 2т) <; /се/2 B~п) (использовалась монотонность), так что левую часть в формуле (9) можно оценить через Кг B_n) P (| xtG+x -ж1о|<е, | x,0+2i — хи | > е). Суммируя это по / (вспомните, что в нашей иллюстрации / = 2), получаем, что левая часть в (8) ограничена величиной кглB'п) Р (sup |xt - xt0\> е)<fc?/2B-n). Возвращаясь к формуле F) и используя оценки, выведенные только что для каждой части, получим Р (Лт) < 2кг/2 B'п) при всех т. (И) Отсюда в свою очередь следует D). Лемма доказана. Теперь совсем просто завершить доказательства теоремы 1. Определим новые случайные величины Xt на нашем пространстве (Q, 59, Р) следующим образом: Ixt (со) при t E= ?, lim supя5 (со), t&S. A2) В силу леммы 1, lim sup можно в действительности заменить п.н. на lim, и функции Х\ (со) будут непрерыз* цы до t для почти всех ш,
§ 24] НЕПРЕРЫВНОСТЬ ТРАЕКТОРИЙ 149 Мы утверждаем, что семейство случайных величин Xt удовлетворяют условиям теоремы. Единственное, что остается для этого проверить, это то, что Xt имеют нужные совместные распределения, задаваемые формулой B3.8). При t ЕЕ S это обеспечивается теоремой 23.1, но что будет, если ? Q= ? ? Мы устраним этот вопрос, показав, что при всех t > О Р(Х,И=-*,(со)) = 1. A3) Для проверки равенства A3) можно рассматривать лишь значения t ф. S. Воспользуемся простой оценкой G), доказанной ранее. При произвольном е ]> 0 имеем Р(|*,-*в|>е)<М*-*). A4) Здесь t <^ s, s ЕЕ S. Так как кг (и) = о A) при и —» О (в действительности предполагалось, что кг (и) = о (и)), то из соотношения A4) вытекает, что xt — это предел по вероятности величин xs при s ¦—> t-\-. Но так как xt — уже обычный предел тех же величин (по определению A2) и лемме 1), то Xt = xt п.н., что и доказывает A3). Теперь ясно, что если процесс х% удовлетворяет равенству B3.8), то это верно и для процесса Xt. Теорема 1 доказана. Задача 1. Закончите второе доказательство существования процесса броуновского движения, проверив, что переходная функция B3.3) удовлетворяет предположениям теоремы 1. Задача 2. В броуновском случае B3.3) доказательство теоремы 1 можно заметно упростить. Получите оценку Р (sup (xt — xr) > а) < 2Р (xs — xr > а) /e(rf s)ns (вспомнив лемму 1 из § 22 и замечание 2, следующее за этой леммой) и используйте ее для краткого доказательства леммы 1 этого параграфа. Задача 3. Покажите, что равенства Pt @, {0}) = е~*, Pi @, {1}) = 1 - е~^ Pt A ,{1}) = 1 определяют марковскую переходную функцию на множестве из двух точек {0, 1}, что условие A) выполнено с заменой о (t) на О (t) (т. е. кг (t) = О (t)) и что при и0 = 0 не существует процесса с непрерывными п, ц. траекториями, отвечающего эдоц переходной функции.
150 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 Замечание. Среди «пространственно-однородных» переходных функций, которые упоминались в конце предыдущего раздела, нет таких, которые существенно отличны от броуновской *) и удовлетворяют предположениям теоремы 1. В действительности все прочие приводят к процессам с разрывными траекториями. Хотелось бы иметь эффективный способ конструировать и такие процессы, и мы сформулируем без доказательства результат Кинни в этом направлении. Теорема 2. Предположим, что условия теоремы 1 выполняются с той разницей, что при любом г ^> 0 kt (t) = о A), а не о (t). Существует вероятностное пространство и определенное на нем семейство случайных величин {Xt (со), t ^> 0}, такое, что выполнены соотношения B3.8) и функции Xt (со) для почти всех со непрерывны справа и имеют пределы слева при любом t ^> 0. Задача 4. Покажите, что пространственно-однородные переходные функции удовлетворяют предположениям теоремы 2. На что похожа траектория Xt, если pt (х, E) задается с помощью B3.5)? § 25. Уравнения Колмогорова Мы только что выяснили, как переходные функции, удовлетворяющие некоторым условиям (типа B4.1) при кг (t) — о (t)) приводят к «марковским» стохастическим процессам с непрерывными (п.н.) траекториями. Однако пока что у нас был, по существу, один пример такой переходной функции. Сейчас мы укажем, как можно построить много таких функций, решая параболические дифференциальные уравнения в частных производных определенного вида. Начнем опять с винеровского процесса. В этом случае pt (.г. Е), определенная в B3.3), имеет плотность по мере Лебега f(t,x,y) = -±=re-iv-*y'», *>0. A) *) Говоря точнее, это верно для тех функций, у которых распределения pt (х, •) не принадлежат ни нормальному, ни вырожденному тину.
§ 25] УРАВНЕНИЯ КОЛМОГОРОВА 151 Эта функция (по ?/) является фундаментальным решением «уравнения теплопроводности»: 11=1 ЛИ <9\ dt 2 ду* ' \ ' Это значит, что правая часть в A) удовлетворяет при t ^> О уравнению B) и что при t —> О меры с плотностью / (t, х, •) слабо сходятся к единичной массе, сосредоточенной в точке х. В современной терминологии уравнение B) называют «уравнением вперед» для винеров- ского процесса: при фиксированном начальном состоянии х плотность (по у) распределения состояния процесса на время t «вперед» удовлетворяет параболическому дифференциальному уравнению. Существует и другой подход, который с первого взгляда представляется не слишком естественным, но оказывается и более удобным в работе, и более общим. Он состоит в основном в том, что мы считаем фиксированным конечное состояние процесса, а варьируем начальное положение и время достижения. В случае A) новая точка зрения кажется неоправданной и тривиальной: если вместо х зафиксировать у, то функция / по-прежнему будет фундаментальным решением уравнения B) (с заменой -^-т на ^-т). Несколько отличный способ вводить этот подход состоит в следующем. Пусть | (х) — ограниченная непрерывная функция на числовой прямой; положим ф (*, я) = $ ? (У) / (*, *, У) dy- C) Функция ф удовлетворяет уравнению теплопроводности B) по переменным х и t и начальному условию ф @, х) = = ? (х). В таком контексте B) называется «уравнением назад» процесса. Пусть вообще pt (x, E) — некоторая переходная функция. При «прямом» подходе требуется найти функциональное уравнение (или даже дифференциальное, если это возможно), которому удовлетворяет плотность меры Pt {x, •) при фиксированном х. Выбор х сказывается только на начальном условии: при t —> 0+ решение должно
152 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ 1Гл. 4 сходиться к единичной массе, сосредоточенной в точке х. Этот метод был известен физикам как метод Смолухов- ского еще до работ Винера и привел к полезным результатам, например, о броуновском движении в поле сил или в неоднородной среде. «Обратный» подход был введен Колмогоровым в 1931 г. в его знаменитой работе, где впервые был рассмотрен весь круг примыкающих вопросов Определим, как и ранее в C), функцию ер формулой ф(*. *)= S l(y)Pt(z, dy). D) Здесь ? ограничена и непрерывна. Мы постараемся найти уравнение, которому эти функции ср удовлетворяют. В него войдет ? в качестве начального условия ср @ +, х) = = | (х). Если наше уравнение можно будет решить при любом |, то по нему можно восстановить переходную функцию pt (x, у), хотя, конечно, она и не будет задаваться в столь интуитивно ясной форме, как в случае «прямого» подхода. Преимущества «обратного» метода состоят в его большей общности и теоретической простоте, и он, по-видимому, займет преимущественное положение в математической литературе Мы теперь выведем (обратное) «уравнение диффузии», которому удовлетворяют функции ср, определенные с помощью D). Так как нас интересуют непрерывные траектории, а значит, такие переходные вероятности, которые удовлетворяют условиям теоремы 24.1 или близким условиям, то естественно предположить, по меньшей мере, что для любого е>0и любого х lim } pt (х, Ri-{x-e,x+ е]) = 0. E) Разумно также потребовать при этом, что пределы х+е 1 ( lim т \ pt(x,dy)(y — x) = a(x) (G) х— е И lim | \ Pt (x, dy) (у - х? - b (x) > 0 G)
§ 25] УРАВНЕНИЯ КОЛМОГОРОВА 153 существуют при любом х для некоторого (а следовательно, в силу E), и для всех) 8 ^> 0. С физической точки зрения а (х) можно понимать как среднее (по <у>) мгновенной (по отношению к t) скорости, когда процесс «находится в точке #»; Ъ (х) интерпретируется аналогичным образом как дисперсия. Наконец, нам надо предположить, что ср имеет непрерывную (по t и х) частную производную по х второго порядка при всех t > 0. Задача 1. Проверьте эти предположения для случая переходной функции броуновского движения B3.3). Здесь а (х) = 0, Ъ(х) = 1. Теорема 1. Если вышеприведенные условия выполняются, то функция ф, определенная в D), удовлетворяет дифференциальному уравнению *-<¦>-&+-i?L-& м и начальному условию lim ф (t, х) = I (х), х е В1. (9) *—о+ Доказательство. Мы выпишем то частное бесконечно малых, которое стремится к dy/dt, и покажем, что его предел существует. Предположим сначала, что h ^> 0. В нашем методе будет использоваться уравнение Чепмена—Колмогорова для того, чтобы выразить pt+h через pt и ph. Очевидно, для этого есть два пути. Для «обратного» метода подходит такой способ: Ф (t + /г, х) = ^ ph (z, dy) pt (у, dz) I (z) = \j ph (x, dy) <p (t, y), что приводит к ф(* -f h, x) — ф (t, x) X \ Ph fo dV) (Ф (*> У) — Ф (*> x)}- A0) Чтобы перейти к пределу при h—>0, заметим сначала, что, учитывая E) и тот факт, что ф ограничена (величиной SUP I ? (у) D» можно переписать A0) в виде «i. (Н) 7 Дж. Ламперти
154 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 для любого г^> 0. Далее, используя предположения о гладкости функции ср, имеем по теореме Тейлора Ф С У) = Ф (*. х) + {у — х) фх (/, а:) + (y~r. <рхх (t, x) + + r{t,y)(y-x)\ A2) Здесь г (/, г/) —» 0 при у —> х. Мы собираемся подставить A2) в правую часть (И), а затем использовать F) и G). Остаточный член в A2) превратится при этом в некоторый интеграл, не превосходящий по модулю величину max | г (*, у) | -т- \ ph (x, dy) {у — х)\ ye[v-e,x+e] n х^г lim sup которого при h ¦—> 0+ будет не более чем max | г (t, у) | b (x). Последнее выражение, конечно, произвольно мало при соответствующем выборе е. Объединяя все это, получаем lim ?(' + »•«>-«"'.«> = а<*)Фх(t, х) + Ц±Ъх(«,х). A3) Мы должны еще рассмотреть случай h <^ 0. Это про- делывается, по сути дела, таким же способом. Напишем уравнение ф (t -f h, х) — ф (t, гг) _ = "Я" $ p\h\ (*» d^ {fP (* + А. *) — Ф (' + А. </))• A4) -оо Последующие выкладки весьма похожи на рассмотренные: так же применяем A2), но при переходе к пределу при h —» 0 используется непрерывность срх и ц)хх по совокупности переменных (/, ж). Здесь нам нужен также тот факт, что г (/, г/) —> 0 при у —» г равномерно по ? на конечных интервалах. Детали этого рассуждения, так же как и проверку условия (9), можно оставить в качестве упражнения.
§25J УРАВНЕНИЯ КОЛМОГОРОВА 155 Задача 2. Проведите аккуратное вычисление предела ф (t -l h, x) — ф и, х) lim т л-о- п с помощью способа, набросанного в предыдущем абзаце. Задача 3. Предполагая лишь, что pt (x, R1 — [х — е, х + е]) -> 0 при t ->0 -j- для любого е > О, проверьте справедливость (9) для любой ограниченной непрерывной функции ?. Мы не будем выводить уравнения «вперед», аналогичного уравнению (8), но читатель, возможно, все-таки хочет знать, как оно выглядит. Как и раньше, следует потребовать выполнения предположений E), F) и G). Нужны и дополнительные условия «регулярности», более стеснительные, чем в «обратном» случае. Прежде всего мера pt (х, Е) должна иметь плотность / (t, х, у), дважды дифференцируемую по у. Уравнение, которому удовлетворяет плотность / при фиксированном х, оказывается, имеет вид 1 -у-?<*<?>/>-?<«(У)Л. A5) Оператор в правой части формально сопряжен оператору (8) Ясно, что уравнение «вперед» A5) — менее общее, чем уравнение «назад», так как вполне возможно, что функции а и b не дифференцируемы. Мы видели, что переходная функция, удовлетворяющая определенным условиям, позволяет строить решение краевой задачи (8) и (9). Однако можно попытаться действовать и в обратном направлении; хотелось бы по данным функцияма (х) и Ь(х) построить pt (x, E), решая уравнение (8). До 1920 г. это было проделано в ряде специальных случаев (с использованием прямого уравнения A5) вместо уравнения (8)), но первая общая попытка была предпринята В. Феллером в 1930 г Используя метод последовательных приближений. Феллер показал (при несколько стеснительных условиях на а (х) и Ь (х)), что краевая задача (8) и (9) имеет единственное ограниченное решение ф при любом I и что это решение ф порождается некоторой переходной функцией через формулу D)*). *) Феллер действовал немного не так, но эквивалентным образом. Предположения нашей теоремы 1 в основном такие же, как у Феллера в 1936 г., и слегка отличаются от условий Колмогорова. 7*
156. СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ 1Гл. 4 В 1943 г. Форте доказал, что эти вероятности отвечают процессу с непрерывными траекториями. Таково было, в общих чертах, положение теории диффузии в конце «классического периода». После 1950 г. эта теория была полностью преобразована в работах Ито, Феллера, Дуба, Дынкина и других авторов. Мы не будем пытаться провести систематический обзор современных работ по теории диффузии и марковским процессам, а отсылаем читателя (или просим его помедлить с этим) к недавним монографиям Дынкина или Ито и Мак-Кина, которые содержат исчерпывающий материал вплоть до самых недавних результатов. § 26. Броуновское движение и предельные теоремы В двух последних разделах мы вернемся к броуновскому движению и сделаем набросок ряда сравнительно недавних исследований. Доказательства, как правило, будут либо неполными, либо будут вообще опускаться, так как наша цель — дать краткий обзор некоторых новых и интересных аспектов теории. В 1946 г. П. Эрдеш и М. Кац предложили новый метод доказательства некоторых предельных теорем, относящихся к независимым случайным величинам. Первый их результат состоит в следующем: пусть Xt, i = 1, 2, . . .,— независимые одинаково распределенные случайные величины со средним0 и дисперсией 1 и пусть Sn = Хх +... ... + Хп. Тогда lim P(max @, St, 52, . . ., Sn)< a/nj = ax (a), A) П—>oo где ax — «урезанная» нормальная функция распределения (l/ — (\ехр(— t2/2)dt при a>0, М*)= V я J B) ^ 0 при а <^ 0. Доказательство использовало то, что авторы назвали «принципом инвариантности». Идея состояла в том, чтобы в первую очередь доказать, что если соотношение A) выполнено для какой-то последовательности случайных величин {Xt}, удовлетворяющей сделанным ранее
§ 26] БРОУНОВСКОЕ ДВИЖЕНИЕ И ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 157 предположениям, то оно должно выполняться и в общем случае; существование и вид предела не зависят от выбора распределения Xt. Если принцип инвариантности уже установлен, остается лишь подобрать удобный частный случай, в котором предел можно вычислить,— и общая теорема доказана. Существует один пример, для которого вывод формул A) и B) не сложен. Пусть Xt — случайные величины, описывающие бросание монеты, т. е. величины, принимающие значения +1 или —1с вероятностями 1/2. В этом Иоюдная посшдоЗшельноить -• Sg>J к0/77дажшая~ последовательность* Sg<3 Рис. 1. случае так называемый «принцип отражения» устанавливает, что для любого к ^> О Р (max (Sx. . . ., Sn) > к) = 2 ?(Sn > к) + Р (Sn = к). C) Доказательство формулы C) основано на том, что каждой последовательности (Хь . . ., Хп), для которой Sn ^> /с, можно сопоставить единственным образом другую (с той же вероятностью 2"п), получающуюся «отражением» относительно прямой у = к участка траектории, лежащего правее точки /, в которой впервые Sj = к. Максимум отраженной траектории по-прежнему ^ fc, но теперь Sn <С ^ (рис 1). Из формулы C) в биномиальном случае легко получить A) и B), и по принципу инвариантности можно заключить, что теорема верна и в общем случае. Задача 1. Дайте полное доказательство утверждения C) и затем, применяя предельную теорему Муавра — Лапласа (§ 14 или 15) и C), установите A) и B) для случая бросания монеты.
158 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 Идея Эрдеша и Каца была развита и уточнена несколько лет спустя М. Донскером. Грубо говоря, Донскер показал, используя точные оценки, что «принцип инвариантности» справедлив для широкого класса функционалов от 5Х, 52, . . ., Sn и что предельные распределения для таких функционалов можно выразить в терминах процесса броуновского движения. Лучше всего, однако, сформулировать результат следующим образом*): определим для данной последовательности (Хг, . . ., Хп) непрерывную случайную функцию на [0, 1], положив *}»>(«>) = ?iW когда «=4-. i<n, D) У п п а для остальных значений t из [0, 1] определим х\п) с помощью линейной интерполяции между этими точками. Пусть С означает пространство непрерывных функций на [0? 1] с метрикой р (х, у) = max | х (t) — у (t) |. Нетрудно показать, что случайные функции ?/п индуцируют вероятностные меры Рп на борелевском поле **) пространства С с помощью очевидного отображения Рп(Е) = Р({со :*,(п)(со)еЕЯ}), где (Q, S3, Р) —- вероятностное пространство, на котором определены величины Хх, Х2, • • • Аналогичным образом винеровский процесс индуцирует вероятностную меру W на борелевских подмножествах С. Основной результат можно теперь просто сформулировать. Теорема о сходимости (Донскер). Если Х1ч Х2, . . . независимы и одинаково распределены со средним О и дисперсией 1, то меры Рп слабо сходятся к W. Утверждение о слабой сходимости, содержащееся в этой теореме (определение см. в § 12), можно перефразировать многими разными способами, зачастую более *) Эта формулировка принадлежит Ю. В. Прохорову, внесшему существенный вклад в этом направлении. **) Метрика определяет класс открытых множеств; элементы наименьшей а-алгебры, содержащей все открытые множества, и есть в этом случае «борелевские множества».
§ 26] БРОУНОВСКОЕ ДВИЖЕНИЕ И ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 159 полезными для применений. Один из подобных результатов, стоящий ближе всего к первоначальной форме принципа инвариантности, предложенной Донскером, составляет Следствие. Пусть f — вещественный функционал на С, измеримый по Борелю и непрерывный в каждой точке С, за исключением множества винеровской меры 0. Тогда распределения случайных величин f (xjn) (со)) слабо сходятся к распределению / (xt (со)), где xt (со) — процесс броуновского движения. Например, функционал т (xt) = max xt E) непрерывен в равномерной метрике. Но m(g|n))=max@,^..t,yw) У п так что следствие устанавливает существование предельного распределения A) и тот факт, что ох (а) — распределение max xt (со), где {xt (со)} — броуновское движение. Так как мы уже получили выражение B) как предел в специальном частном случае, то тем самым мы доказали (весьма косвенным образом) утверждение из § 2 о распределении максимального отклонения винеровского процесса. Очевидно, очень многие предельные теоремы о последовательных суммах {Sn} непосредственно содержатся в теореме 1 и ее следствиях. Может быть, особо следует подчеркнуть разную природу только что сформулированной теоремы и теорем гл. 3. Например, ранее мы располагали точными формулами для распределения Sn в терминах распределений величин Xt или, во всяком случае, точными формулами для характеристических функций. Не существует, однако, явного выражения для характеристической функции Мп = max @, Sl4 . . ., Sn), и недавние важные работы Ф. Спитцера и других авторов по этому вопросу указали на источник трудностей в этой и сходных задачах. Поэтому информацию о предельных распределениях многих функционалов от последовательности («?!, . . . , Sn), содержащуюся в теореме Донскера, нужно признать поразительной.
160 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 Еще один пример — знаменитый «закон арксинуса». Пусть Х1? Х2, ... — те же, что и ранее, a Nn — число положительных сумм в ряду (S^ . . ., Sn). Тогда lim P (Nn < nx) = — arcsin f~x, 0 < х < 1. G) Доказательство следует по намеченному выше пути. Положим для любой непрерывной функции xt N (xt) = m{t e @, 1); xt > 0}, т—мера Лебега. (8) Этот функционал удовлетворяет условиям следствия; его непрерывность может нарушаться лишь на таких функциях из С, множество нулей которых имеет положительную лебегову меру, а такие функции образуют множество винеровской меры 0. (Последнее легко доказать, применяя аргументы, использованные в теореме 22.3.) Если вычислить значение функционала N на случайной функции х\п\ определенной в D), то получится «почти что» Nn]n\ можно показать, что разность стремится к 0 по вероятности. (Эту незначительную трудность можно обойти и по-другому.) Наконец, распределение N (xt) для винеровского процесса допускает прямое вычисление, что и было сделано П. Леви. Можно действовать и по- другому, подсчитав предельное распределение в специальном случае бросания правильной монеты (см. [Ф]). Если удается получить любой из этих двух частных результатов, то общий результат G) вытекает тогда из специальной формы теоремы Донскера о сходимости (следствие). Следует отметить, что этот круг идей возник значительно раньше 1946 г. На эмпирическом уровне идею, выраженную в следствии, использовал еще Башелье. Более того, в начале 30-х годов Колмогоров доказал предельную теорему, весьма близкую к нашей «теореме о сходимости», хотя переход от нее к приведенной выше формулировке совсем не тривиален и в то время не мог быть осуществлен. Метод Колмогорова был совсем другим и использовал иной подход к центральной предельной теореме (не через характеристические функции, а через дифференциальные уравнения типа B5.2)).
§ 26] БРОУНОВСКОЕ ДВИЖЕНИЕ И ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 161 Полное доказательство теоремы Донскера о сходимости слишком длинно, чтобы его можно было привести здесь. Вместо этого мы, используя метод Эрдеша и Каца, приведем доказательство «принципа инвариантности» для функционала max@, *?!, . . ., Sn). Теорема 1. Пусть Хг, Х2, ... — независимые одинаково распределенные случайные величины со средним О и дисперсией 1. Тогда распределение нормированного максимума Мп/]/ п сходится слабо при п -» ^о к распределению max xt, где {xt} —- броуновское движение. Доказательство. Пусть к — «большое», но фиксированное целое число. Определим последовательность Hi = [in/k], i = 0, 1, . . ., к. Наряду с Мп рассмотрим Мпк) = max (О, 5П1, .. ., Snk). (9) Идея доказательства состоит в том, что связь между предельным распределением для величин М?} и броуновским движением проще, чем в случае Мп, так как Мп зависят лишь от фиксированного конечного числа сумм. Затем мы покажем, что Мп и М^ «почти одинаковы» при больших к. Проделаем теперь все это по порядку. Используя теорему 15.1 (центральная предельная теорема), легко получить, что при наших предположениях Vn ^ ^' Vn ,,.^n^Snk^ <ц^=Пф>_|(ц<)> A0) У i=l где ф/j-i — нормальная функция распределения со средним 0 и дисперсией к'1. Но правая часть формулы A0) равна Р (Si/ft < Щ, Х2/к — Xl/k < U2, . . ., Хх — Xtf-D/k < И*), (И) где {xt (со)} — винеровский процесс; это следует немедленно из определения, приведенного в § 20. Это значит *)? *) Мы используем лемму о слабой сходимости в Rk, формулировку и доказательство которой мы назовем задачей 2. Она вполне аналогична теореме 12.2. lim Р (-^. < ии ""• ""' <и2,
162 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ 1Гл. 4 чтосовместноераспределениевеличинE,П1/^/лдг? # # #? Snfc/Kw) слабо сходится в R* к совместному распределению величин (xXki x2'k, • • •» #i)« Отсюда получается, в частности, / A/(k) \ lim P(—^r-<a) = P(max xx k (со) < а), A2) где процесс а^ (со) в правой части — снова винеровский *). Сравним теперь М^ и Мп. Начнем с очевидного замечания, что м\Р < мп и, стало быть, при любом а Для получения нижней оценки зафиксируем е ^> 0. Тогда Р (Мп > а ^й) = Р (Мп > а Уп и M<f > > (а -_в) |/"й) + + Р(Д/п>а/#*и А/**»<(а - в) /я) < <Р(М{*)>_(о-е)^)+ + Р (М„ > а /» и Л#> < (а - е) ]/"). A4) Нужная нам оценка будет получена, если удастся показать, что последний член мал. Этот факт получается по знакомому шаблону: Р(Мл>а|/'пи М(пк) <; (а — е) Yn) = п г=1 и 5П/^ (а — ъ)У п длч всех Z) <! п и S4i) <(a — e) |Лг), где в последнем выражении я (?) означает наименьшее *) Использование одного и того же символа «Р» в обеих частях формулы A2) не совсем аккуратно. Знак «Р» может относиться к разным мерам на разных вероятностных пространствах. Эти пространства иногда удается выбрать одинаковыми, но такая ситуация очень специальна.
§ 26] БРОУНОВСКОЕ ДВИЖЕНИЕ И ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ 163 число Л{, превосходящее i. Но заметим, что из неравенств St > аУ п и Sn{i) < (а — е) У п следует, что | Х/+1 + . . . . . . + Хпц)\ > еУп, а последнее событие не зависит от Su . . ., S{. Итак, Р{Мп>аУп ъ М^^а—е)К#Г)< < 3 р(^х<а К», . . ., Si-i <« уИ, 5;> а |/в) х X Р(|5п(„-^|>е|Л?). A5) Так как по определению п (i) — i <^ /г/Л, то неравенство Чебышева показывает, что последний сомножитель в формуле A5) не больше, чем 1//се2, и значит, оценка ?{Мп > a Vn и M<f> <(a - е) /я) < -^ A6) установлена для любого е ^> 0 и любого к. Комбинируя соотношения A3), A4) и A6), приходим к неравенству ?(М{пк)^а]/'п)^Р(Мп^аУп)> >P(M^<(a-e) J^)--^-. A7) Переходя к пределу по п и используя A2), получим Р (max я, fc (W) < а — е) — -i-- < lim inf P (-^ < а\ < 0<г</с кг n-оо \ У Л / < lim sup P (-^=r < оЛ < Р (max xi/fc (со) < а). A8) п-»оо \ М / 0<г</с Но из непрерывнс сти броуновских траекторий ясно, что lim P (max xi/k (со) ^ и) = Р (max х( ( о) <: а). A9) Теперь легко перейти к пределу по А: в формуле A8), а затем положить р \ 0 Тем самым доказано, что l,m p (JL^^a\ = P(max я,(со)<ос) B0) для всех а, при которых правая часть непрерывна. Этим
164 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 установлена теорема 1. Принцип инвариантности Эрдеша— Каца также получился, причем даже в усиленной форме. Кроме того, полностью доказаны формулы A) и B) настоящего раздела. § 27. Броуновское движение и граничные задачи Одно из основных направлений современных исследований по теории вероятностей основано на глубокой связи, которая существует между марковскими процессами и рядом разделов «классического», т. е. невероятностного анализа. В случае броуновского движения особенно важным классическим разделом является теория потенциала, логарифмического в двумерном случае и ньютоновского в случае трех и более измерений, а также ряд других аспектов теории оператора Лапласа. В двух последних параграфах книги мы не будем пытаться систематически разработать эту теорию, но постараемся эвристически изложить две поразительные конструкции, в которых броуновское движение способствует решению важной аналитической задачи. В настоящем параграфе мы рассмотрим задачу Дирихле в следующем виде: пусть S — ограниченное связное открытое множество в Rk, a 8S — его граница. Требуется для любой заданной непрерывной на dS функции / найти функцию ф, непрерывную на S [} dS, равную / на 3S и гармоническую в S *). Существует много различных способов решения этой задачи в предположении, что граница 8S достаточно «хорошая». Однако есть примеры, когда в строгом смысле не существует решения задачи в том виде, в котором она сейчас поставлена. Норберт Винер определил «обобщенное решение» (которое всегда существует) как функцию, гармоническую на 5, но достигающую граничных значений / в более слабом смысле, чем непрерывность на S [} dS. Для получения этого решения Винер не использовал «винеровский процесс» (броуновское движение), но теперь оказалось, что его применение дает самый изящный путь построения обобщенного решения! *) Т.е. ф дважды непрерывно дифференцируема и Аф = 0 на S (Д всегда будет означать оператор Лапласа).
§ 27] БРОУНОВСКОЕ ДВИЖЕНИЕ И ГРАНИЧНЫЕ ЗАДАЧИ 165 Мы построим /с-мерное броуновское движение, считая каждую координатную функцию одномерным процессом броуновского движения и полагая эти процессы независимыми друг от друга. Полученный процесс {Xt} имеет переходную функцию рЛх'Е)=тт^у--у *i••.**. A) Е /с где х = (хц . . ., ?/0 и х2 = 2 ж?- Если X* (со) = meS, 2=1 то положим Г (и) = inf {t>0: IfGS}. B) Ввиду непрерывности траекторий можно утверждать, что Хт(и) (п.н.) есть точка на 55, в которой Xt впервые покидает S. Положим Ф (в) = Е (/ (ZT(„))). C) Тогда <р (и) есть обобщенное решение задачи Дирихле. Легко видеть, что математическое ожидание в C) существует. Нам надлежит доказать, что ср (и), определенная таким образом, гармонична в S и что она в каком-то смысле «принимает значение /» на границе. Мы сначала наметим способ доказательства гармоничности, принадлежащий С. Какутани, который впервые решил таким путем задачу Дирихле *). Пусть и Ez S. Обозначим через В поверхность любой сферы с центром в гг, лежащей внутри S. Пусть т (Б, и) есть момент первого достижения сферы В при отправлении из и. В силу непрерывности г (В, и) < Т (и) п.н. Из сферической симметрии переходной функции броуновского движения интуитивно ясно, что ХХ(в,и) будет равномерно распределена на В. Воспользуемся теперь следующим внушающим доверие принципом: как только известно, что траектория {Xt} впервые достигла границы В в точке v, то (условное) математическое ожидание величины / (Хт(и)) можно *) Истоки метода относятся к еще более раннему времени: Курант, Фридрихе и Леви отмечали еще в 1926 г., что случайное блуждание можно использовать для решения дискретного аналога задачи Дирихле.
166 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 вычислять, как если бы процесс начинался в v. Другими словами, оно равно ф (г;). Утверждение о том, что процесс можно считать «начинающимся заново» после достижения В, является частным случаем «строго марковского свойства», которое также упоминалось в § 22. Используя это и равномерную распределенность точки достижения ^т(В,и), убеждаемся, что функция ф(и) равна своему среднему значению по поверхности сферы В. Это свойство будет выполнено для любой точки meSh для всех сфер достаточно малого радиуса с центром в и. Но этот факт (и ограниченность, которая очевидна) достаточен для того, чтобы утверждать гармоничность функции ф в S. Логический пробел этого «доказательства», бросающийся в глаза, состоит, конечно, в том, что «возобновление» процесса в случайный момент первого достижения В не было точно определено, а тем более проверено. Не будем пытаться формулировать точные утверждения и доказывать здесь строго марковское свойство, удовлетворимся тем, что описанный выше подход можно полностью обосновать. Можно также доказать, что функция ф — гармоническая, и более элементарным, хотя и не столь интуитивно очевидным методом. Перейдем теперь к поведению функции ф вблизи границы. Это самое трудное место в большинстве «классических» методов, и вероятностная интерпретация очень полезна для того, чтобы увидеть, куда же в действительности двигаться далее. Начнем наше краткое исследова ние с очень частного, но показательного случая: если область S выпукла, то ф (и) —* / (г), если только и -> г, где и ЕЕ S и г ЕЕ OS Чтобы доказать это, достаточно проверить, что для любой окрестности N произвольной точки г е= OS НтР(ХтыеЕЛ0 = 1. D) и-*г Так как на множестве N(]dS функция / (по непрерывности) «почти» равна / (г), если только окрестность А7 мала и, кроме того, она ограничена, то нетрудно усмотреть, что из D) действительно следует ф (и) -* / (г) при а -> г. Чтобы доказать соотношение D) для выпуклой области 5, введем опорную гиперплоскость р к множеству S в
§ 27] БРОУНОВСКОЕ ДВИЖЕНИЕ И ГРАНИЧНЫЕ ЗАДАЧИ 167 точке г. Изменим координаты таким образом, чтобы р превратилась в плоскость ut = 0. В силу изотропного характера броуновской переходной функции A), приращения Xt в направлении, перпендикулярном р (ось wx), и в «направлении», параллельном /?, независимы. (Это утверждение нуждается в проверке, но оно довольно просто, и мы оставим его без доказательства.) Перпендикулярная компонента — это обычный одномерный процесс, и по теореме 22.2 (локальному закону повторного логарифма) ясно, что если процесс Xt стартует близко к г и, стало быть, близко к /?, он достигнет плоскости р почти немедленно с вероятностью, стремящейся к единице при сближении Х0 и р. До момента достижения р процесс Xt, конечно, успеет пересечь dS, так как р — опорная к S плоскость. За время Т (и), которое теперь очень мало, независимая компонента процесса, параллельная /?, успеет сместиться с подавляющей вероятностью лишь на очень маленькое расстояние и поэтому точка достижения Хт(и) будет близка к г. Это неформальное рассуждение можно без труда сделать совсем строгим, и оно показывает, что соотношение D) выполняется в любой точке г ЕЕ dS, в которой существует опорная плоскость. Для выпуклых множеств это — все точки dS, и поэтому формула C) дает решение задачи Дирихле. Кажется правдоподобным — и это на самом деле верно,— что приведенные выше аргументы можно распространить на широкий класс невыпуклых множеств и доказать D), а значит, и решить задачу Дирихле. Для любых множеств с гладкими границами это так. Все может быть хорошо и в худшей ситуации. Пусть, скажем, г — вершина конуса, расположенного (локально) вне S, тогда для случая любой размерности нетрудно показать, что формула D) имеет место, если только телесный угол конуса положителен. Интерпретация, основанная на броуновском движении, позволяет, однако, получить и некоторое представление о тех случаях, когда решение задачи не является «точ ным», т. е. классическим. Например, если размерность пространства не менее 3, а область S — открытый единичный шар с выброшенным радиусом, то можно показать следующее: где бы внутри сферы ни начинался процесс —
168 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 даже на исключительном радиусе,— вероятность того, что {Xt} в момент достижения не будет находиться на поверхности сферы, равна 0. Другими словами, процесс действует так, как если бы он «не знал» о том, что из шара удален радиус *). В результате значения, которые приписываются искомой функции ф вдоль радиуса (который, естественно, есть часть 8S), никак не отражаются на решении ф, задаваемом C), и только при исключительном стечении обстоятельств может оказаться, что ф стремится к / в точках этого радиуса. Удается проверить, что «обобщенное решение» ф единственно. Упомянем, наконец, что выбрвшенный радиус можно даже заменить «иглой» таким образом, что формула D) не выполняется на острие, помещенном в начало координат. Чтобы это получилось, острие должно сужаться у конца «экспоненциально быстро» Этот пример, известный как «шип Лебега», показывает, что если даже граница области S гомеоморфна сфере, она все равно может содержать иррегулярные точки, где D) не имеет места и обобщенное решение задачи Дирихле не обязано сходиться к значению / в этой точке. § 28. Броуновское движение и собственные значения В этом последнем разделе мы наметим элегантный метод, принадлежащий М. Кацу, который даст возможность получить теорему Г. Вейля о собственных значениях оператора Лапласа (и некоторые другие результаты) с помощью броуновского движения **). Доказательство будет снова эвристическим, однако возможна строгая проверка метода и некоторые необходимые для этого шаги будут намечены. Мы разберем двумерный случай для определенности. Пусть S — область, ограниченная гладкой жордановой кривой 8S, и пусть {Xt} — броуновское движение, отправляющееся из точки и0 ЕЕ S. Определим момент вре- *) Это след>ет из того факта (который мы не доказываем), что в fc-мерном пространстве при к ^ 2 броуновское движение п. н. никогда не возвращается в исходную точку. **) Интересно сравнить метод Каца с тем, который приведен, например, у Куранта и Гильберта, т. 1, гл. 7.
§ 28] БРОУНОВСКОЕ ДВИЖЕНИЕ 169 мени Т (и0) первого попадания на 8S как в предыдущем разделе, и построим новый стохастический процесс _ Г Хи если *<Г(м0), Vt~ { Д, если *>Г(и0), ( ' где Д есть некое абстрактное состояние (а не точка в Л2). Мы называем Y t броуновским движением с поглощающим барьером на границе; броуновская частица «исчезает из й2», как только покидает S, и больше она туда не возвращается. Конечномерные совместные распределения для процесса {Yt}, как и для {Xt}, продолжаются до марковской переходной функции qt на/?2, удовлетворяющей требованиям § 23. Разумеется, нужно одно изменение: qt (и, Е) определена для и ЕЕ S и Е cz Л2, но мы вправе ожидать, что qt (и, R2) скорее меньше 1, чем равно 1, поскольку имеется возможность поглощения. В § 25 мы видели, что pt — переходная функция для {X t} — имеет в качестве плотности фундаментальное решение уравнения теплопроводности. Аналогичный факт имеет место и для qt: переходная функция для {Yt} имеет плотность gt (и, v), которая является фундаментальным решением задачи с начально-граничными условиями: ^- = 1д^ для *>0, pgS, B) lim\|)(f, v) = 0 для *>0, r^dS. C) v-*r Это «система вперед». «Система назад» выглядит в этом случае точно так же, поскольку gt, как и плотность переходной функции ри симметрична относительно и и v. Мы никоим образом не будем пытаться доказать эту теорему, а только сделаем несколько замечаний, чтобы показать ее естественность. Рассмотрим соответствующую «задачу назад». В этом случае и B), и C) вполне правдоподобны. Дело в том, что диффузионное «уравнение назад» можно получить в основном так же, как в неограниченном случае, исследованном в § 25, используя двумерные аналоги утверждений B5.5) — B5.7). Они
170 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 совпадают с теми, которые имеют место в случае неограниченного броуновского движения, поскольку наличие границы мало сказывается на очень коротких промежутках времени: вероятность достижения 8S из точки и ЕЕ S за время [0, t] есть о (t). Более того, если броуновский процесс начинается очень близко от OS, то вероятность «выжить» в течение времени t есть «почти 0», и поэтому будет выполняться C). Если известна «система назад», то из нее можно получить «систему вперед», поскольку определена переходная функция; в результате получается вышеприведенная теорема. Хорошо известно*), что фундаментальное решение уравнения B) и C) можно выразить через собственные значения Хп и нормализованные собственные функции фп системы у Аф + tap = 0; ф (и) = 0, если и ЕЕ dS, D) Так как фундаментальное решение (как уже отмечалось) есть не что иное, как переходная плотность процесса {Yt}, то оо gt (и, v) = 2 е~V Фп (и) Фп И- E) п==1 Мы воспользуемся наряду с формулой E) некоторыми интуитивно очевидными свойствами {Yt} и изучим Хп и Фп. Принцип «нечувствительности границы» утверждает, что gt(u, u)~ft{u, u) = -^ при г->0, F) где ft — переходная плотность неограниченного броуновского движения без поглощения. Идея, стоящая за формулой F), состоит в том, что переходные вероятности в окрестности точки старта почти не зависят от границы в самом начале, пока не становится ощутимой возможность достигнуть границы и вернуться (или, в случае {Yt}, поглотиться). Заслуживает внимания тот факт, *) См. книгу Куранта и Гильберта. Во всяком случае, формально ясно, что правая часть в написанной ниже формуле E) обладает желаемыми свойствами.
§ 28J БРОУНОВСКОЕ ДВИЖЕНИЕ 171 что gt (и, v) —/*(и, г), даже когда и =f= v, если только отрезок, соединяющий точки и я v, содержится в S (Тесельский). Но в случае, подобном изображенному на рис. 2, можно, однако, легко йонять, что переход из и в v существенно затрудняется из-за поглощения на границе, каким бы коротким ни был интервал времени. Использование вероятности при таком переходе к теореме Вейля целиком исчерпывается формулой F) Приведенные выше аргументы делают это соотношение весьма правдоподобным, но вероятностные рассмотрения можно вдобавок использовать и для строгого доказательства. Например, «очевидно», что pt (w, Е) > qt (и, Е) при всех и Ez S, E a S, так как наличие поглощающего экрана может только уменьшить шансы попасть в а из Е. Отсюда следует, что Рис 2. функция qt абсолютно непрерывна и плотность ее не превосходит pt. Чтобы получить оценку с другой стороны, построим квадрат, содержащий точку и и содержащийся в S. Если границу квадрата превратить в поглощающий экран, то для получившегося броуновского движения (выходящего из а) переходные вероятности будут даже меньше, чем для {Yt} (т. е. qt), так как поглощение будет происходить быстрее. Но эти вероятности можно совсем элементарно точно подсчитать и проверить для них соотношение F). Значит, qt «зажимается» между двумя функциями, удовлетворяющими формуле F), и должна сама обладать этим свойством. Комбинируя E) и F), имеем со 2«"V9n(")~2SF G) П=1
172 СТОХАСТИЧЕСКИЕ ПРОЦЕССЫ [Гл. 4 для любой точки и ЕЕ S. Интегрируя (по крайней мере формально) обе части по области 5, найдем, что S<-V~^, (8) 71=1 где А — площадь S. Левую часть в формуле (8) можно записать в виде преобразования Лапласа — Стильтьеса: 2 e"V =5 e~txdF(x), (9) П=1 О где F (х) — число собственных значений Хп, не превосходящих х. Теперь можно воспользоваться тауберовой теоремой Карамата *), которая связывает асимптотическое поведение преобразования Лапласа в 0 и рост F (х) на бесконечности. Результат, вытекающий из формулы (8), таков: FV>~x4c- A0) В силу определения функции F это эквивалентно тому, что K~*j-. (И) Именно в этом и состоит теорема Вейля. Кстати, мы почти доказали более поздний результат Карлемана. Действительно, вернемся к формуле G) и поступим с ней так же, как и раньше, но только не будем интегрировать по и. Получится аналог формулы A0): S ф* <«)--?- A2) Х;.<х при х—> оо, а это и есть теорема Карлемана. *) См. книгу Widder'a, Chapter V, Section 4.
* ?8] БРОУНОВСКОЕ ДВИЖЕНИЕ 173 Цель этого и предыдущего разделов состояла вовсе не в получении простых доказательств трудных теорем: сомнительно, чтобы наши доказательства после того, как все пробелы в них будут заполнены, имели бы сильное преимущество перед «классическими» методами. Мы надеемся, что здесь представлен некоторый новый интуитивный подход. Но основная «мораль», заключенная здесь,— это существование глубоких связей между определенными вероятностными моделями и некоторыми ветвями классического анализа, и она может привести (и уже привела) к серьезному обогащению обеих областей.
ДОБАВЛЕН НЕ ПЕРЕВОДЧИКА ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА ДЛЯ БОЛЬШИХ УКЛОНЕНИЙ С. А. Молкгнов Мы постараемся сейчас дать представление еще об одном методе доказательства предельных теорем Этот метод, основанный на простых фактах теории линейных операторов, достаточно элементарен и позволяет получить центральную предельную теорему короче, чем при использовании характеристических функций. Более того, он дает и некоторую оценку остаточного члена. Правда, эта оценка существенно слабее, чем в теореме Берри — Эссена, но все же ее вполне достаточно для нужд закона повторного логарифма (см. замечание к лемме 3 § И). Важное достоинство этого нового метода — его естественно называть методом характеристических операторов — состоит в том, что он почти автоматически применим к случайным величинам весьма общей алгебраической природы (скажем, к векторам или даже элементам групп). Для простоты мы, однако, ограничимся случайными величинами со значениями в Я1, изучение которых и составляет главное содержание книги. Перечислим несколько простых понятий из функционального анализа. Детали можно найти в любом курсе анализа III, см. например, [КФ] или [Ш]. Через С мы будем обозначать пространство непрерывных и ограниченных на всей прямой функций, через Сп — пространство функций ограниченных и непрерывных вместе со всеми производными до п-то порядка включительно. Нормой функции / ?= Сп назовем 1/1» = sup { | / (х)\ + | /' (х)\ + . . . + I /(п) (а)|}, х в частности, || / ||0 = sup |/ (х) | — норма в С. х
ДОБАВЛЕНИЕ 175 Оператор А действует в пространстве Сп, если всякую функцию / г= С'1 он переводит в новую функцию Af ЕЕ Сп. Оператор линеен, если для любых функций f,gEECn и любых констант а и р А (а/ + р*) = aAf + ?>Ag. Линейный оператор А называется ограниченным в Сп, если существует постоянная к > О, такая, что для всех \\Aj\\n^k\\f\\. Наименьшее из чисел /с, обладающее этим свойством, называется нормой оператора А и обозначается \\ А \\. Легко понять (это вытекает из линейности А), что \\А 1 = sup|i4/ln. Il/Un=i Понятие суммы и произведения линейных операторов общеизвестны. Мы будем пользоваться тем простым фактом, что \\А + В\\<:\\А\\ + \\В1 \\АВ\\^\\А\ \\В\\. A) Оператор называется положительным, если из того, что / > 0, следует, что Af !> 0. Ясно, что положительные линейные операторы сохраняют неравенства: если / ^ g, то Af <; Ag. Перейдем теперь к существу дела. С каждой случайной величиной X можно связать интегральный оператор Тх, действующий по формуле Тх1 (х) = Ef(x+X) = ^f{x + y) dFx (у). Мы будем называть Тх характеристическим оператором величины X. Очевидно, что это линейный положительный оператор, во всяком случае, в С. Задача 1. Докажите, что оператор Тх действует в простран- стве С» и |Г^Г„<1. (У к а з а и и е. Использовать теорему о дифференцировании по параметру под знаком интеграла.) Фундаментальное свойство характеристических операторов выражается следующей леммой.
176 ДОБАВЛЕНИЕ Лемма 1. Если X и Y независимы, то Тх+у = ТхТу = ТуТх. B) Доказательство. Tx+yf(z) = Ef(z + X + Y)=§f(z+y+x)dFx (x)dFY (y) = = ^dFx^f(z + y + x)dFY= J TYf (z + x) dFx = TxTYj (z). Свойство мультипликативности характеристических операторов сближает их с аппаратом характеристических функций (ср. формулы B) и A4.5)). Действуя, как и раньше, мы должны теперь доказать для характеристических операторов теоремы единственности и непрерывности. Соответствующие доказательства намного проще, чем в § 14, так как сейчас в нашем распоряжении гораздо больший запас функций. Мы оставим их в качестве задач, так как для последующих нужд эти результаты непосредственно не потребуются. Задача 2. Пусть Т xf (х) = TYf (х) для любой /бС3 (другими словами, функция / непрерывна и ограничена с производными до 3-го порядка). Тогда Fx = FY. (Указание. Постройте функцию ф (х), такую, что ф (х) €= 6^3, 0<(рй<1; (рй = 0, K«; fW=lt х > а + е, и воспользуйтесь тем, что Х[а+?, оо) (*) < Ф (х) < ф (х + е)< Х[а_?, «,) И- Примените к этим неравенствам операторы Тх, TY, считая а точкой непрерывности F (х).) Задача 3. Пусть Тх / (х) -» Txf (x) для любых /?С3и любого х. Тогда П (Указание. Используйте конструкцию предыдущей задачи, считая, что а — точка непрерывности Fх (х).) Докажем теперь важную оценочную лемму, по существу, чисто алгебраическую. Лемма 2. Пусть Хг, . . ., Хп, Yl4 . . ., Yn — независимые (в каждой группе) случайные величины. Тогда п \ТХ+ +xn-TYl+..,yn\\<2lTXk-TyH\\. C) 4=1
ДОБАВЛЕНИЕ 177 Доказательство. Тхх+ ..+xnf — TY,+ ..+уп/ = Txjx2. •. TxJ— Tyi ... TYJ = = (Tx, - TYx) ТХш... TXJ + TYx (Tx, - TYl) ТХл... TXJ+... . . . + TYl. . . TYk__x (Txk — TY}i) Xk+X . . . XJ + . . . ...+Tyl...Tyn_l{TXn-TYn)i. (Мы пользуемся леммой 1 и коммутативностью операторов.) Осталось вспомнить соотношение A) и результат задачи 1. Задача 4. Докажите центральную предельную теорему для независимых одинаково распределенных случайных величин с конечной дисперсией. (Указание. Сравните (используя лемму 2) У (*,-<!)+...+(Хп-а) / и Т (Yt+...+Yw) /> a Vn a Vn где /б^3, a = EX{, о*2 = DJT{, Yl4 ..., Уп — независимые нормальные величины с параметрами @, а2).) Для дальнейшего очень полезна следующая простая оценка «хвоста» нормального распределения при больших А: оо х* А2 -±=[ е~~йх~-4=-е~~. D) А Этот факт (неявно) уже фигурировал раньше в задаче 3 из § 11. Задача 5. Докажите D). Установим теперь теорему, являющуюся нашей главной целью. Теорема 1. Пусть Х^ Х2, . . ., Хп — независимые одинаково распределенные случайные величины, EXt = О, ОХ} = о2 ^> О, Е | Xt |3 = v3 < оо и пусть ап — последовательность действительных чисел, такая, что ап -> оо, ап I ]Лп /г-» 0.
178 ДОБАВЛЕНИЕ Тогда для любого г ^> 0 и достаточно большого п Доказательство. Идея доказательства заключена в указании к задаче 2, однако мы проведем его подробно. Пусть фп (х) — трижды непрерывно дифференцируемая функция, такая, что а) 0<Фп (ж)<1; б) фп (х) = 0, я< ап; в) фп (х) = 1, х> ап + i; I' 1 Г) \ фп (я) tfz > у . '7 п Заметив, что Р{5я/у'п>вв}>ЕФп(^> оценим математическое ожидание в правой части Введем в рассмотрение нормальные с параметрами @, а2) случайные величины YI, У2> • • •» * п> . . • и их суммы S'n = Y1+...+Ya. Тогда Но (используя результат задачи 4) 2 2 - 1 3 e'^>e'^(l+t) /2я ап при /г ^> дг0.
ДОБАВЛЕНИЕ 179 f S*n } Легко видеть, что п Р j ,— ^> ап -\- \ } допускает точно ту же оценку Итак Ефя(тг) >е при достаточно больших п. как, Сравним теперь ЕФп (~г?=" ) и E^n(""j7=") • Так скажем, Ефл (-zf=-] = Т8 //пФ«(°), топо лемме 1 с учетом одинаковой распределенности Еф- {ft) ~Еф- (т^)|<7,^ср«-7'^ф«|1о Но ^ХйФ«(°)=ЕФп(^ + -^) = = Е фп (X) + фп (X) —7= Л ¦-[ , ох, \ • 3! /i1" 2i В силу предположений относительно моментов величин Xt в У, /n Vn ;sup E <(-+тг)ч *:(-+v?h Ъп" 6nv* < |ф^|,Е(| ЛГ1Р + 1 yt|») _с_ где с — некоторая постоянная, не зависящая от п.
180 ДОБАВЛЕНИЕ Итак Ч^ИЧтт) Vn (Эта последняя оценка довольно близка к той, которая дается последней теоремой из § 14, но слабее ее.) Для доказательства теоремы 1 осталось собрать воедино все оценки: ^>«,)>S-Ft)>44)-7T > >е аа2 V* = >е <& A+28) 2а* При П-+ ОО.
БИБЛИОГРАФИЯ КНИГИ ПО ТЕОРИИ МЕРЫ [X] X а л м о ш П., Теория меры, М., ИЛ, 1953. [КФ] Колмогоров А. Н., Фомин С. В., Элементы теории функций и функционального анализа, М., «Наука», 1972. [ШГ] Шилов Г. Е., ГуревичБ. Л., Интеграл, мера и производная. Общая теория, М., «Наука», 1967. [М] Munroe M. Е., Introduction to Measure and Integration, Cambridge, Massachusetts (Addison Wesley), 1953. [R] R oyden H. L., Real Analysis, New York (Macmillan), 1963. ПРОЧИЕ КНИГИ ПО АНАЛИЗУ (к ним можно обращаться по поводу специальных вопросов гл. 4) Курант Р. иГильберт Д., Методы математической физики, I, Гостехиздат, 1945. КачмажС. и Штейн гауз Ш., Теория ортогональных рядов, М., Физматгиз, 1958. W i d d e r D. V., The Laplace Transform, Princeton, New Jersey (Princeton University Press), 1941. КНИГИ ПО ВЕРОЯТНОСТИ (Книги, не снабженные описанием, упоминались в тексте) [Ду] Дуб Дж. П., Вероятностные процессы, М., ИЛ, 1956. Развернутое изложение теории всех важнейших типов случайных процессов. [Д] ДынкинЕ. Б., Марковские процессы, М., Физматгиз, 1963. [Ф] Ф е л л е р В., Введение в теорию вероятностей и ее приложения, том I, M., «Мир», 1964. Эта книга дает прекрасное введение в предмет на вполне элементарном уровне (дискретная теория). [ф2] Ф е л л е р В., Введение в теорию вероятностей и ее приложения, том II. М., «Мир», 1967. Развернутое продолжение первого тома, среди прочих тем книга содержит изложение теории сумм независимых случайных величин с многочисленными приложениями и примерами.
182 БИБЛИОГРАФИЯ [Г] Г н е д е и к о Б. В., Курс теории вероятностей, изд. 4-е, М., «Наука», 1965. [ГК] Г н е д е и к о Б. В. и Колмогоров А. II., Предельные распределения для сумм независимых случайных величин, Гостехиздат, М.— Л., 1949. [ИМ] Ито К. иМаккин Г., Диффузионные процессы и их траектории, М., «Мир», 1968. [ИЛ] И б р а г и м о в И. А. и Л и н н и к Ю. В., Независимые и стационарно связанные случайные величины, М., «Наука», 1965. [Ка) К а ц М., Вероятность и смежные вопросы ь физике, М., «Мир», 1965. Эта интересная книга представляет ряд этюдов на широкий круг тем из теории вероятностей и ее приложений. Она может служить хорошим дополнением другим более систематическим и последовательным курсам. [Ко] Колмогоров А. Н., Основные понятия теории вероятностей, М.— Л., ОНТИ, 1936. Эта классическая монография, впервые опубликованная в 1933 г., сыграла фундаментальную роль в развитии всего предмета. В курсе, который лег в основу настоящей книги, монография [Ко] рекомендовалась в качестве источника важнейших определений и понятий; существеннейшим образом она использована в гл. 1. [Кг] Krickeberg К., Probability Theory, Reading, Massa chusetts (Addison Wesley), 1965. |Ле] Л ев и II., Стохастические процессы и броуновское движение, М., «Наука», 1972. [Ло] Л о э в М., Теория вероятностей, М., ИЛ, 1962. Монография содержит развитую общую теорию, и, в частности, краткое и ясное изложение теории меры. [П] Петров В. В., Суммы независимых случайных величин, М , «Наука», 1972. [С] С п и т ц е р Ф., Принципы случайного блуждания, М., «Мир», 1968. [Я] Я г л о м А. М., Введение в теорию стационарных случайных функций, УМН 7, 5 A952), 3—168. Изложение теории важного для многих приложений класса случайных процессов. IP] Розанов Ю. А., Стационарные случайные процессы, М., Физматгиз, 1963. ИЗБРАННЫЕ СТАТЬИ, УПОМИНАВШИЕСЯ В ТЕКСТЕ [1] В о г е I E., Les Probabilites denombrables et leur Applications arithmetiques, Rend. circ. Math. Palermo 27 A909). (Представляет исторический интерес.) [2] Прохоров Ю. В., Сходимость случайных процессов и предельные теоремы теории вероятностей, Теория вероятн. и ее примен. 1 A956). [3] Gnedenko В. V., Sur la Distribution limite du Terme maximum d'une Serie aleatoire, Ann. of Math. 44 A943), 423-453,
БИБЛИОГРАФИЯ 183 [4] С h u n g К. L., and Fuchs W. H. J., On the Distribution of Values of Sums of Random Variables, Mem. Amer. Math. Soc. 6 A951). [5] D v о r e t z к у А., Е г d о s P. and К а к u t a n i S., Nonincrease Everywhere of the Brownian Motion Process, Proc. Fourth Berkeley Symp. II, University of California Press, 1961, 102—116. [6] Kinney J. R., Continuity Properties of Sample Functions of Markov Processes, Trans. Amer. Math. Soc. 74 A953), 280-302. [7] Kolmogorov A. N., Uber die analytischen Methoden in der Wahrscheinlichkeitsrechung, Math. Ann. 104 A931), 415-458. [8] Feller W., Zur Theorie der stochastischen Prozess (Existenz und Eindeutigkeitsatze), Math. An. 113 A936), 113—160. [9] E г d 6 s P. and К а с М., On Certain Limit Theorems in the Theory of Probability, Bull. Amer. Math. Soc. 52 A946), 292— 302. [10] DonskerM., An Invariance Principle for Certain Probability Limit Theorems, Mem. Amer. Math. Sec. 6 A951), (См. также статью 2, где приведено наиболее исчерпывающее изложение.) [11] К a k u t a n i S., Two-Dimensional Brownian Motion and Harmonic Functions, Proc. Imp. Acad. Tokyo 20 A944), 706-714. [12] К а с М., On Some Connections between Probability Theory and Differential and Integral Equations, Proc. Second Berkeley Symposium, University of California Press, 1951, 189-215. [13] К а с М., Can One Hear the Shape of a Drum?, Amer. Math. Monthly 73 A966), № 4, part II, 1 — 23.
Дж. Ламперти ВЕРОЯТНОСТЬ М, 1973 г ., 184 стр. с илл. *- Редактор В. В. Абгарян Техн. редактор Н. Ф. Брудно Корректоры О. А. Бутусова, Е. В. Сидоркина * Сдано в набор 19/III 1973 г. Подписано к печати R/VI 1973 г. Бумага 84x108»,32. Физ. печ. л. 5,75. Условн. печ. л. 9,66. Уч.-изд. л. 9,38 Тираж 68 С00 экз. Цена книги 33 коп. Заказ № 1897 * Издательство «Наука» Главная редакция физико-математической литературы 117071, Москва, В-71, Ленинский проспект, 15 * 2-я типография издательства «Наука». Шубинский пер., 10